Fugu-MT 論文翻訳(概要): CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation

論文の概要: CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation

arxiv url: http://arxiv.org/abs/2406.05365v2
Date: Mon, 24 Jun 2024 07:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 00:23:38.141680
Title: CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation
Title（参考訳）: CaLM: グランドジェネレーションを検証するために、大規模で小さな言語モデルと対比する
Authors: I-Hung Hsu, Zifeng Wang, Long T. Le, Lesly Miculicich, Nanyun Peng, Chen-Yu Lee, Tomas Pfister,
Abstract要約: グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
参考スコア（独自算出の注目度）: 76.31621715032558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Grounded generation aims to equip language models (LMs) with the ability to produce more credible and accountable responses by accurately citing verifiable sources. However, existing methods, by either feeding LMs with raw or preprocessed materials, remain prone to errors. To address this, we introduce CaLM, a novel verification framework. CaLM leverages the insight that a robust grounded response should be consistent with information derived solely from its cited sources. Our framework empowers smaller LMs, which rely less on parametric memory and excel at processing relevant information given a query, to validate the output of larger LMs. Larger LM responses that closely align with the smaller LMs' output, which relies exclusively on cited documents, are verified. Responses showing discrepancies are iteratively refined through a feedback loop. Experiments on three open-domain question-answering datasets demonstrate significant performance gains of 1.5% to 7% absolute average without any required model fine-tuning.
Abstract（参考訳）: グラウンドドジェネレーションは、検証可能な情報源を正確に引用することで、より信頼性が高く説明可能な応答を生成する能力を備えた言語モデル(LM)を装備することを目的としている。しかし、既存の方法は、原材料または前処理材料でLMを供給することによって、エラーを起こしやすいままである。そこで本研究では,新しい検証フレームワークであるCaLMを紹介する。 CaLMは、ロバストな接地応答は、引用されたソースからのみ引き出された情報と一致すべきであるという洞察を利用する。提案フレームワークは,パラメータメモリに頼らず,クエリの関連情報処理に優れる小型のLMを有効活用し,より大きなLMの出力を検証する。引用文書にのみ依存するより小さなLMの出力と密に一致したより大きなLM応答が検証される。相違を示す応答はフィードバックループを通じて反復的に洗練される。 3つのオープンドメイン質問回答データセットの実験では、モデルの微調整を必要とせずに、絶対平均1.5%から7%の大幅なパフォーマンス向上が示されている。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
GOLFer: Smaller LM-Generated Documents Hallucination Filter & Combiner for Query Expansion in Information Retrieval [0.0]
GOLFerは、より小さなオープンソースLMをクエリ拡張に活用する新しい手法である。より小さなLMで共通する問題である、生成された文書の非実例および矛盾文を検出し、削除する。より小さなLMを用いて他の手法を一貫して上回り、大型のLDMを用いた手法と競合する性能を維持している。
論文参考訳（メタデータ） (2025-06-05T08:45:48Z)
Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文参考訳（メタデータ） (2025-05-09T04:40:11Z)
Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。 LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文参考訳（メタデータ） (2025-03-03T12:19:12Z)
Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-13T02:51:17Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [16.47255259608715]
既存のベンチマークでは,不確実性を評価するために,サンプル毎に5～15回の応答試行が必要になる。まず、誤解を招くことなくMLLMの応答を収集し、特定の誤解を招く命令によって誤解を招く応答を収集する。実験の結果,すべてのオープンソースおよびオープンソースMLLMは誤解を招く命令に非常に敏感であり,平均ミスリード率は86%を超えていることがわかった。
論文参考訳（メタデータ） (2024-11-05T01:11:28Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文参考訳（メタデータ） (2024-06-25T16:32:33Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Small Language Model Can Self-correct [42.76612128849389]
本稿では,自己トリガー方式でLMの初期出力を補正することを目的として,生成言語モデルに内在的アンダーライン・アンダーライン・コレクション(ISC)を導入する。我々は,60億から13億のパラメータサイズを持つLMを用いて,常識推論と事実知識推論を含む2つのタスクで実験を行う。
論文参考訳（メタデータ） (2024-01-14T14:29:07Z)
LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2023-11-14T01:38:02Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。