論文の概要: Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots
- arxiv url: http://arxiv.org/abs/2210.11060v2
- Date: Sat, 22 Oct 2022 13:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:41:29.443995
- Title: Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots
- Title(参考訳): Doc2Bot:会話ボットによる異種ドキュメントへのアクセス
- Authors: Haomin Fu, Yeqin Zhang, Haiyang Yu, Jian Sun, Fei Huang, Luo Si,
Yongbin Li, Cam-Tu Nguyen
- Abstract要約: Doc2Botは、ユーザーが会話を通じて情報を求めるのを助けるマシンを構築するためのデータセットである。
われわれのデータセットには、5つのドメインの中国の文書に基づく10万回以上のターンが含まれている。
- 参考スコア(独自算出の注目度): 103.54897676954091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Doc2Bot, a novel dataset for building machines that
help users seek information via conversations. This is of particular interest
for companies and organizations that own a large number of manuals or
instruction books. Despite its potential, the nature of our task poses several
challenges: (1) documents contain various structures that hinder the ability of
machines to comprehend, and (2) user information needs are often
underspecified. Compared to prior datasets that either focus on a single
structural type or overlook the role of questioning to uncover user needs, the
Doc2Bot dataset is developed to target such challenges systematically. Our
dataset contains over 100,000 turns based on Chinese documents from five
domains, larger than any prior document-grounded dialog dataset for information
seeking. We propose three tasks in Doc2Bot: (1) dialog state tracking to track
user intentions, (2) dialog policy learning to plan system actions and
contents, and (3) response generation which generates responses based on the
outputs of the dialog policy. Baseline methods based on the latest deep
learning models are presented, indicating that our proposed tasks are
challenging and worthy of further research.
- Abstract(参考訳): 本稿では,会話による情報検索を支援するマシン構築のための新しいデータセットであるDoc2Botを紹介する。
これは、多数のマニュアルや指導書を持っている企業や組織にとって特に関心がある。
1)文書には機械の理解を阻害する様々な構造が含まれており、(2)ユーザ情報の必要性は過小評価されることが多い。
単一の構造型にフォーカスするか、ユーザニーズを明らかにするための質問の役割を見落としている以前のデータセットと比較して、doc2botデータセットはそのような課題を体系的にターゲットするために開発されている。
当社のデータセットには、5つのドメインの中国文書に基づいて10万回以上のターンが含まれています。
本研究では,(1)ユーザの意図をトラッキングするダイアログ状態追跡,(2)システムアクションとコンテンツ計画のためのダイアログポリシー学習,(3)ダイアログポリシーの出力に基づいて応答を生成する応答生成という3つのタスクを提案する。
最新のディープラーニングモデルに基づくベースライン手法を提示し,提案するタスクが課題であり,さらなる研究に値することを示す。
関連論文リスト
- DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Models [11.959445364035734]
エンタープライズデータの80%は非構造化ファイルに格納され、不均一なフォーマットに対応するデータレイクに格納される。
多様な異種文書からマルチモーダル情報を抽出する新しいフレームワークであるDocs2KGを紹介する。
Docs2KGは、抽出されたキー情報を表す統一知識グラフを生成する。
論文 参考訳(メタデータ) (2024-06-05T05:35:59Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - CookDial: A dataset for task-oriented dialogs grounded in procedural
documents [21.431615439267734]
本研究は、手続き的知識理解を伴うタスク指向対話システムの研究を容易にする新しいダイアログデータセットであるCookDialを提案する。
コーパスは、260人の人対人タスク指向のダイアログを含み、エージェントがレシピドキュメントを与えられた場合、ユーザが料理を調理するように誘導する。
CookDialのダイアログには、 (i) ダイアログフローとサポートドキュメントの間の手続き的アライメント、 (ii) 長い文のセグメンテーション、ハードインストラクションのパラフレーズ化、およびダイアログコンテキストにおけるコア推論の解決を含む複雑なエージェント決定の2つの特徴がある。
論文 参考訳(メタデータ) (2022-06-17T12:23:53Z) - Task2Dial: A Novel Task and Dataset for Commonsense enhanced Task-based
Dialogue Grounded in Documents [0.304585143845864]
本稿では,文書に埋もれたコモンセンス強化タスクベース対話に関する新しい課題を提案する。
Task2Dialデータセットは、文書ベースのタスクベースの対話の新しいデータセットである。
論文 参考訳(メタデータ) (2022-04-03T12:15:56Z) - DG2: Data Augmentation Through Document Grounded Dialogue Generation [41.81030088619399]
生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。
元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-15T18:50:14Z) - MultiDoc2Dial: Modeling Dialogues Grounded in Multiple Documents [14.807409907211452]
複数の文書に基盤を置き、目的指向対話をモデル化するための新しいタスクとデータセットであるMultiDoc2Dialを提案する。
4つの異なるドメインから複数のドキュメントにグラウンド化された対話を含む新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-09-26T13:12:05Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。