論文の概要: Blending Reward Functions via Few Expert Demonstrations for Faithful and
Accurate Knowledge-Grounded Dialogue Generation
- arxiv url: http://arxiv.org/abs/2311.00953v1
- Date: Thu, 2 Nov 2023 02:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:04:16.299636
- Title: Blending Reward Functions via Few Expert Demonstrations for Faithful and
Accurate Knowledge-Grounded Dialogue Generation
- Title(参考訳): 知識を包含した対話生成のための専門家によるブレンディング・リワード機能
- Authors: Wanyu Du, Yangfeng Ji
- Abstract要約: 我々は、新しい報酬関数を導入することで上記の課題を克服するために強化学習アルゴリズムを活用する。
我々の報奨関数は、精度測定値と忠実度測定値を組み合わせて、生成された応答のバランスの取れた品質判定を提供する。
- 参考スコア(独自算出の注目度): 22.38338205905379
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of trustworthy conversational information-seeking systems
relies on dialogue models that can generate faithful and accurate responses
based on relevant knowledge texts. However, two main challenges hinder this
task. Firstly, language models may generate hallucinations due to data biases
present in their pretraining corpus. Secondly, knowledge texts often contain
redundant and irrelevant information that distracts the model's attention from
the relevant text span. Previous works use additional data annotations on the
knowledge texts to learn a knowledge identification module in order to bypass
irrelevant information, but collecting such high-quality span annotations can
be costly. In this work, we leverage reinforcement learning algorithms to
overcome the above challenges by introducing a novel reward function. Our
reward function combines an accuracy metric and a faithfulness metric to
provide a balanced quality judgment of generated responses, which can be used
as a cost-effective approximation to a human preference reward model when only
a few preference annotations are available. Empirical experiments on two
conversational information-seeking datasets demonstrate that our method can
compete with other strong supervised learning baselines.
- Abstract(参考訳): 信頼できる会話情報検索システムの開発は、関連する知識テキストに基づいて忠実で正確な応答を生成できる対話モデルに依存している。
しかし、2つの大きな課題がこの課題を妨げている。
まず、言語モデルは、事前学習コーパスに存在するデータバイアスによって幻覚を生成する。
第二に、知識テキストは、しばしば、関連するテキストスパンからモデルの注意をそらす冗長で無関係な情報を含んでいる。
これまでは知識テキストに付加的なデータアノテーションを使用して知識識別モジュールを学習し、無関係な情報を回避してきたが、そのような高品質なスパンアノテーションの収集にはコストがかかる。
本研究では,新しい報酬関数を導入することで,上記の課題を克服するために強化学習アルゴリズムを活用する。
我々の報奨関数は精度基準と忠実度基準を組み合わせることで、生成した応答のバランスの取れた品質判定を行い、ほんの少しの選好アノテーションが利用できる場合に、人間の選好報酬モデルに対する費用対効果の近似として利用することができる。
2つの対話型情報探索データセットに関する実証実験により、我々の手法は他の強力な教師付き学習ベースラインと競合できることを示した。
関連論文リスト
- Maintaining Informative Coherence: Migrating Hallucinations in Large Language Models via Absorbing Markov Chains [6.920249042435973]
大規模言語モデル(LLM)は、テキスト生成、翻訳、要約のための強力なツールである。
LLMは、文脈情報の忠実さとコヒーレンスを維持するのに失敗する幻覚症状に悩まされることが多い。
本稿では,マルコフ連鎖を吸収し,文脈情報の重要性を定量化する新しい復号手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T04:51:18Z) - Large Language Model Augmented Exercise Retrieval for Personalized
Language Learning [2.946562343070891]
ベクトル類似性アプローチは,学習者が学習したいことを表現するために使用するエクササイズコンテンツと言語との関係を,不十分に捉えていることがわかった。
我々は,学習者の入力に基づいて仮説的演習を合成することにより,大きな言語モデルの生成能力を活用してギャップを埋める。
我々はmHyERと呼ぶアプローチを,(1)学習における関連ラベルの欠如,(2)制限なし学習者の入力内容,(3)入力候補と検索候補とのセマンティックな類似性の低さという3つの課題を克服する。
論文 参考訳(メタデータ) (2024-02-08T20:35:31Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - The Short Text Matching Model Enhanced with Knowledge via Contrastive
Learning [8.350445155753167]
本稿では,コントラスト学習と外部知識を組み合わせた短いテキストマッチングモデルを提案する。
ノイズを避けるため、原文の主文としてキーワードを用いて、知識ベースで対応する知識語を検索する。
設計モデルは,2つの公開可能な中国語テキストマッチングデータセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-04-08T03:24:05Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Knowledge Enhanced Fine-Tuning for Better Handling Unseen Entities in
Dialogue Generation [33.806361531386685]
1)マスキングされた単語を解釈し,その文脈からマスキングされたエンティティの意味を推測する,2)コンテキストに基づいてエンティティのハイパーネムを予測する,ハイパーネム生成という2つの補助的訓練目標を導入する。
2つの対話コーパスの実験結果から,本手法の有効性を,利用可能な知識と利用できない設定の両方で検証した。
論文 参考訳(メタデータ) (2021-09-12T11:13:19Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Low-Resource Knowledge-Grounded Dialogue Generation [74.09352261943913]
我々は、限られた訓練例しか利用できないという自然な仮定のもと、知識基底による対話生成を考察する。
生成モデル全体から知識基底の対話に依存するパラメータを分離するために,不整合応答デコーダを考案する。
1/8のトレーニングデータだけで、我々のモデルは最先端のパフォーマンスを達成でき、ドメイン外の知識をうまく一般化できる。
論文 参考訳(メタデータ) (2020-02-24T16:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。