論文の概要: Trusting Your Evidence: Hallucinate Less with Context-aware Decoding
- arxiv url: http://arxiv.org/abs/2305.14739v1
- Date: Wed, 24 May 2023 05:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:31:29.167469
- Title: Trusting Your Evidence: Hallucinate Less with Context-aware Decoding
- Title(参考訳): 証拠を信頼する - コンテキスト認識のデコーディングによる幻覚
- Authors: Weijia Shi, Xiaochuang Han, Mike Lewis, Yulia Tsvetkov, Luke
Zettlemoyer, Scott Wen-tau Yih
- Abstract要約: 言語モデル(LM)は入力コンテキストに十分な注意を払うのに苦労し、不信または幻覚を含むテキストを生成する。
本稿では,文脈対応デコード(CAD)を提案する。このデコーディングは,モデルがコンテキストと無コンテキストで使用される場合の確率の差を増幅するコントラスト的な出力分布に従う。
- 参考スコア(独自算出の注目度): 91.91468712398385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) often struggle to pay enough attention to the input
context, and generate texts that are unfaithful or contain hallucinations. To
mitigate this issue, we present context-aware decoding (CAD), which follows a
contrastive output distribution that amplifies the difference between the
output probabilities when a model is used with and without context. Our
experiments show that CAD, without additional training, significantly improves
the faithfulness of different LM families, including OPT, GPT, LLaMA and
FLAN-T5 for summarization tasks (e.g., 14.3% gain for LLaMA in factuality
metrics). Furthermore, CAD is particularly effective in overriding a model's
prior knowledge when it contradicts the provided context, leading to
substantial improvements in tasks where resolving the knowledge conflict is
essential.
- Abstract(参考訳): 言語モデル(LM)は入力コンテキストに十分な注意を払うのに苦労し、不信または幻覚を含むテキストを生成する。
この問題を軽減するために,モデルがコンテキストの有無に関わらず使用される場合の出力確率の差を増幅するコントラスト出力分布に従う,文脈認識復号(cad)を提案する。
実験の結果,CADは付加的なトレーニングを伴わず,OPT,GPT,LLaMA,FLAN-T5といった異なるLMファミリーの要約タスクに対する忠実度を著しく向上させることがわかった(実測値では14.3%の利得)。
さらにCADは、与えられた文脈に矛盾する場合、モデルの事前知識をオーバーライドする上で特に有効であり、知識紛争を解決することが不可欠であるタスクの大幅な改善につながる。
関連論文リスト
- Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding [9.2433070542025]
大規模言語モデル(LLM)は、テキスト生成時に入力コンテキストを不適切に統合する傾向がある。
本稿では, 逆無関係なパスを負のサンプルとして, コントラストデコーディングを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T20:38:41Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。