論文の概要: Fine-Grained Self-Endorsement Improves Factuality and Reasoning
- arxiv url: http://arxiv.org/abs/2402.15631v1
- Date: Fri, 23 Feb 2024 22:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:39:13.947170
- Title: Fine-Grained Self-Endorsement Improves Factuality and Reasoning
- Title(参考訳): ファクチュアリティと推論を改善するファイングラインドセルフエンドルメント
- Authors: Ante Wang, Linfeng Song, Baolin Peng, Ye Tian, Lifeng Jin, Haitao Mi,
Jinsong Su and Dong Yu
- Abstract要約: 本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.83651220132495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies improving large language model (LLM) generations at
inference time by mitigating fact-conflicting hallucinations. Particularly, we
propose a self-endorsement framework that leverages the fine-grained fact-level
comparisons across multiple sampled responses. Compared with prior ensemble
methods (Wang et al., 2022;Chen et al., 2023)) that perform response-level
selection, our approach can better alleviate hallucinations, especially for
longform generation tasks. Our approach can broadly benefit smaller and
open-source LLMs as it mainly conducts simple content-based comparisons.
Experiments on Biographies show that our method can effectively improve the
factuality of generations with simple and intuitive prompts across different
scales of LLMs. Besides, comprehensive analyses on TriviaQA and GSM8K
demonstrate the potential of self-endorsement for broader application.
- Abstract(参考訳): 本研究は,大規模言語モデル (LLM) 世代を推定時間で改善する手法である。
特に,複数のサンプル応答における詳細な事実レベル比較を利用する自己支持フレームワークを提案する。
応答レベル選択を行う事前アンサンブル法(wang et al., 2022;chen et al., 2023)と比較して,特に長文生成タスクにおいて,幻覚を緩和する手法が優れている。
我々のアプローチは、主に単純なコンテンツベースの比較を行うため、小さくてオープンソースのLCMに広く利益をもたらすことができる。
バイオグラフィー実験により, 異なるスケールのLDMにおいて, 簡便かつ直感的なプロンプトにより, 世代間の事実性を効果的に改善できることが示唆された。
さらに、TriviaQA と GSM8K に関する包括的な分析は、より広範な応用のための自己達成の可能性を示している。
関連論文リスト
- One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - SELF-[IN]CORRECT: LLMs Struggle with Refining Self-Generated Responses [49.148206387394936]
生成AIシステムは、より良い結果を得るために、以前の出力を継続的に改善することができる。
任意のタスクにおける任意のモデルの生成的および識別的能力を比較する。
我々は、これらのモデルが世代よりも確実に優れているという差別に関する性能を観察していない。
論文 参考訳(メタデータ) (2024-04-04T20:27:37Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。
我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文 参考訳(メタデータ) (2023-10-22T14:45:14Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。