Fugu-MT 論文翻訳(概要): Representation Consistency for Accurate and Coherent LLM Answer Aggregation

論文の概要: Representation Consistency for Accurate and Coherent LLM Answer Aggregation

arxiv url: http://arxiv.org/abs/2506.21590v1
Date: Wed, 18 Jun 2025 05:07:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-07 02:47:44.308493
Title: Representation Consistency for Accurate and Coherent LLM Answer Aggregation
Title（参考訳）: 高精度かつコヒーレントなLPMアンサーアグリゲーションのための表現整合性
Authors: Junqi Jiang, Tom Bewley, Salim I. Amoukou, Francesco Leofante, Antonio Rago, Saumitra Mishra, Francesca Toni,
Abstract要約: 表現整合性(英: representation consistency, RC)は、大規模言語モデルの複数の候補応答から引き出された回答を集約するテスト時間スケーリング手法である。 RCは、各応答集合における各応答の発生数を考慮することにより、回答集約を強化する。キャッシュされたアクティベーションと軽量な類似性計算のみを使用し,追加のモデルクエリを必要としない。
参考スコア（独自算出の注目度）: 20.494987341489573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-time scaling improves large language models' (LLMs) performance by allocating more compute budget during inference. To achieve this, existing methods often require intricate modifications to prompting and sampling strategies. In this work, we introduce representation consistency (RC), a test-time scaling method for aggregating answers drawn from multiple candidate responses of an LLM regardless of how they were generated, including variations in prompt phrasing and sampling strategy. RC enhances answer aggregation by not only considering the number of occurrences of each answer in the candidate response set, but also the consistency of the model's internal activations while generating the set of responses leading to each answer. These activations can be either dense (raw model activations) or sparse (encoded via pretrained sparse autoencoders). Our rationale is that if the model's representations of multiple responses converging on the same answer are highly variable, this answer is more likely to be the result of incoherent reasoning and should be down-weighted during aggregation. Importantly, our method only uses cached activations and lightweight similarity computations and requires no additional model queries. Through experiments with four open-source LLMs and four reasoning datasets, we validate the effectiveness of RC for improving task performance during inference, with consistent accuracy improvements (up to 4%) over strong test-time scaling baselines. We also show that consistency in the sparse activation signals aligns well with the common notion of coherent reasoning.
Abstract（参考訳）: テストタイムスケーリングは、推論中により多くの計算予算を割り当てることで、大きな言語モデル(LLM)のパフォーマンスを改善する。これを実現するために、既存の手法は戦略の推進とサンプリングに複雑な修正を必要とすることが多い。本研究では,LLMの複数の候補応答から引き出された回答を,その生成方法にかかわらず集約するテスト時間スケーリング手法である表現整合性(RC)について紹介する。 RCは、候補応答セットにおける各回答の発生数だけでなく、各回答につながる応答のセットを生成しながら、モデルの内部アクティベーションの整合性も考慮して、回答集約を強化する。これらのアクティベーションは、密度(生モデルのアクティベーション)またはスパース(事前訓練されたスパースオートエンコーダを介してエンコードされる)のいずれかである。我々の理論的根拠は、同じ答えに収束する複数の応答のモデルの表現が高度に変動しているなら、この答えは不整合推論の結果であり、集約中に重み付けされなければならないというものである。重要なことは、キャッシュされたアクティベーションと軽量な類似性計算のみを使用し、追加のモデルクエリを必要としないことである。 4つのオープンソースLCMと4つの推論データセットによる実験により、強いテスト時間スケーリングベースラインよりも一貫した精度向上(最大4%)で、推論中のタスクパフォーマンスを改善するRCの有効性を検証する。また,スパースアクティベーション信号の整合性はコヒーレント推論の共通概念とよく一致していることを示す。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question Answering [21.077964610022313]
この研究はDEC(Dynamic Enhancement Chain)と呼ばれる新しいフレームワークを提案する。 DECはまず複雑な質問を論理的に一貫性のあるサブクエストに分解し、幻覚のない推論連鎖を形成する。その後、コンテキスト対応の書き換えによってこれらのサブクエストを反復的に洗練し、効率的なクエリの定式化を生成する。
論文参考訳（メタデータ） (2025-06-21T11:55:27Z)
Learning to Reason Across Parallel Samples for LLM Reasoning [45.60752271688715]
テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。このような複数のサンプルセットを活用する新しい方法を提案する。我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
論文参考訳（メタデータ） (2025-06-10T17:42:35Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
Diversified Sampling Improves Scaling LLM inference [31.18762591875725]
DivSamplingは、候補解の多様性を高めるために設計された、斬新で多用途なサンプリング技術である。我々の理論的解析は、軽微な仮定の下では、多様なプロンプトから発生する応答の誤り率が著しく低いことを証明している。
論文参考訳（メタデータ） (2025-02-16T07:37:58Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Refining Answer Distributions for Improved Large Language Model Reasoning [24.67507932821155]
本稿では,Large Language Models (LLMs) の推論能力を高めるための,新しいアルゴリズムフレームワークであるRefined Answer Distributionsを提案する。我々のアプローチは、モンテカルロ近似(英語版)を形成するための反復的なサンプリング戦略と見なすことができる。
論文参考訳（メタデータ） (2024-12-17T19:45:53Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。