論文の概要: CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation
- arxiv url: http://arxiv.org/abs/2406.05365v1
- Date: Sat, 8 Jun 2024 06:04:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:04:51.646572
- Title: CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation
- Title(参考訳): CaLM: グランドジェネレーションを検証するために、大規模で小さな言語モデルと対比する
- Authors: I-Hung Hsu, Zifeng Wang, Long T. Le, Lesly Miculicich, Nanyun Peng, Chen-Yu Lee, Tomas Pfister,
- Abstract要約: グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
- 参考スコア(独自算出の注目度): 76.31621715032558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded generation aims to equip language models (LMs) with the ability to produce more credible and accountable responses by accurately citing verifiable sources. However, existing methods, by either feeding LMs with raw or preprocessed materials, remain prone to errors. To address this, we introduce CaLM, a novel verification framework. CaLM leverages the insight that a robust grounded response should be consistent with information derived solely from its cited sources. Our framework empowers smaller LMs, which rely less on parametric memory and excel at processing relevant information given a query, to validate the output of larger LMs. Larger LM responses that closely align with the smaller LMs' output, which relies exclusively on cited documents, are verified. Responses showing discrepancies are iteratively refined through a feedback loop. Experiments on three open-domain question-answering datasets demonstrate significant performance gains of 1.5% to 7% absolute average without any required model fine-tuning.
- Abstract(参考訳): グラウンドドジェネレーションは、検証可能な情報源を正確に引用することで、より信頼性が高く説明可能な応答を生成する能力を備えた言語モデル(LM)を装備することを目的としている。
しかし、既存の方法は、原材料または前処理材料でLMを供給することによって、エラーを起こしやすいままである。
そこで本研究では,新しい検証フレームワークであるCaLMを紹介する。
CaLMは、ロバストな接地応答は、引用されたソースからのみ引き出された情報と一致すべきであるという洞察を利用する。
提案フレームワークは,パラメータメモリに頼らず,クエリの関連情報処理に優れる小型のLMを有効活用し,より大きなLMの出力を検証する。
引用文書にのみ依存するより小さなLMの出力と密に一致したより大きなLM応答が検証される。
相違を示す応答はフィードバックループを通じて反復的に洗練される。
3つのオープンドメイン質問回答データセットの実験では、モデルの微調整を必要とせずに、絶対平均1.5%から7%の大幅なパフォーマンス向上が示されている。
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [16.47255259608715]
既存のベンチマークでは,不確実性を評価するために,サンプル毎に5~15回の応答試行が必要になる。
まず、誤解を招くことなくMLLMの応答を収集し、特定の誤解を招く命令によって誤解を招く応答を収集する。
実験の結果,すべてのオープンソースおよびオープンソースMLLMは誤解を招く命令に非常に敏感であり,平均ミスリード率は86%を超えていることがわかった。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Small Language Model Can Self-correct [42.76612128849389]
本稿では,自己トリガー方式でLMの初期出力を補正することを目的として,生成言語モデルに内在的アンダーライン・アンダーライン・コレクション(ISC)を導入する。
我々は,60億から13億のパラメータサイズを持つLMを用いて,常識推論と事実知識推論を含む2つのタスクで実験を行う。
論文 参考訳(メタデータ) (2024-01-14T14:29:07Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。