論文の概要: Representation Consistency for Accurate and Coherent LLM Answer Aggregation
- arxiv url: http://arxiv.org/abs/2506.21590v1
- Date: Wed, 18 Jun 2025 05:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.308493
- Title: Representation Consistency for Accurate and Coherent LLM Answer Aggregation
- Title(参考訳): 高精度かつコヒーレントなLPMアンサーアグリゲーションのための表現整合性
- Authors: Junqi Jiang, Tom Bewley, Salim I. Amoukou, Francesco Leofante, Antonio Rago, Saumitra Mishra, Francesca Toni,
- Abstract要約: 表現整合性(英: representation consistency, RC)は、大規模言語モデルの複数の候補応答から引き出された回答を集約するテスト時間スケーリング手法である。
RCは、各応答集合における各応答の発生数を考慮することにより、回答集約を強化する。
キャッシュされたアクティベーションと軽量な類似性計算のみを使用し,追加のモデルクエリを必要としない。
- 参考スコア(独自算出の注目度): 20.494987341489573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling improves large language models' (LLMs) performance by allocating more compute budget during inference. To achieve this, existing methods often require intricate modifications to prompting and sampling strategies. In this work, we introduce representation consistency (RC), a test-time scaling method for aggregating answers drawn from multiple candidate responses of an LLM regardless of how they were generated, including variations in prompt phrasing and sampling strategy. RC enhances answer aggregation by not only considering the number of occurrences of each answer in the candidate response set, but also the consistency of the model's internal activations while generating the set of responses leading to each answer. These activations can be either dense (raw model activations) or sparse (encoded via pretrained sparse autoencoders). Our rationale is that if the model's representations of multiple responses converging on the same answer are highly variable, this answer is more likely to be the result of incoherent reasoning and should be down-weighted during aggregation. Importantly, our method only uses cached activations and lightweight similarity computations and requires no additional model queries. Through experiments with four open-source LLMs and four reasoning datasets, we validate the effectiveness of RC for improving task performance during inference, with consistent accuracy improvements (up to 4%) over strong test-time scaling baselines. We also show that consistency in the sparse activation signals aligns well with the common notion of coherent reasoning.
- Abstract(参考訳): テストタイムスケーリングは、推論中により多くの計算予算を割り当てることで、大きな言語モデル(LLM)のパフォーマンスを改善する。
これを実現するために、既存の手法は戦略の推進とサンプリングに複雑な修正を必要とすることが多い。
本研究では,LLMの複数の候補応答から引き出された回答を,その生成方法にかかわらず集約するテスト時間スケーリング手法である表現整合性(RC)について紹介する。
RCは、候補応答セットにおける各回答の発生数だけでなく、各回答につながる応答のセットを生成しながら、モデルの内部アクティベーションの整合性も考慮して、回答集約を強化する。
これらのアクティベーションは、密度(生モデルのアクティベーション)またはスパース(事前訓練されたスパースオートエンコーダを介してエンコードされる)のいずれかである。
我々の理論的根拠は、同じ答えに収束する複数の応答のモデルの表現が高度に変動しているなら、この答えは不整合推論の結果であり、集約中に重み付けされなければならないというものである。
重要なことは、キャッシュされたアクティベーションと軽量な類似性計算のみを使用し、追加のモデルクエリを必要としないことである。
4つのオープンソースLCMと4つの推論データセットによる実験により、強いテスト時間スケーリングベースラインよりも一貫した精度向上(最大4%)で、推論中のタスクパフォーマンスを改善するRCの有効性を検証する。
また,スパースアクティベーション信号の整合性はコヒーレント推論の共通概念とよく一致していることを示す。
関連論文リスト
- Learning to Reason Across Parallel Samples for LLM Reasoning [45.60752271688715]
テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。
このような複数のサンプルセットを活用する新しい方法を提案する。
我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
論文 参考訳(メタデータ) (2025-06-10T17:42:35Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Refining Answer Distributions for Improved Large Language Model Reasoning [24.67507932821155]
本稿では,Large Language Models (LLMs) の推論能力を高めるための,新しいアルゴリズムフレームワークであるRefined Answer Distributionsを提案する。
我々のアプローチは、モンテカルロ近似(英語版)を形成するための反復的なサンプリング戦略と見なすことができる。
論文 参考訳(メタデータ) (2024-12-17T19:45:53Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。