Fugu-MT 論文翻訳(概要): DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability

論文の概要: DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability

arxiv url: http://arxiv.org/abs/2503.02343v1
Date: Tue, 04 Mar 2025 07:07:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:39.213463
Title: DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability
Title（参考訳）: DeLTa: ログ軌跡予測に基づくデコーディング戦略により,現実性と推論能力が向上する
Authors: Yunzhen He, Yusuke Takase, Yoichi Ishibashi, Hidetoshi Shimodaira,
Abstract要約: 本稿では,事実的精度と推論的推論を両立させる新しい復号法を提案する。提案手法は,トランスフォーマーの下位層から上位層へのロジットの軌跡を解析することにより,次の確率を調節する。 TruthfulQAの実験では、DeLTaはベースラインよりも4.9%改善されている。
参考スコア（独自算出の注目度）: 3.2561294196141835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly being used in real-world applications. However, concerns about the reliability of the content they generate persist, as it frequently deviates from factual correctness or exhibits deficiencies in logical reasoning. This paper proposes a novel decoding strategy aimed at enhancing both factual accuracy and inferential reasoning without requiring any modifications to the architecture or pre-trained parameters of LLMs. Our approach adjusts next-token probabilities by analyzing the trajectory of logits from lower to higher layers in Transformers and applying linear regression. We find that this Decoding by Logit Trajectory-based approach (DeLTa) effectively reinforces factuality and reasoning while mitigating incorrect generation. Experiments on TruthfulQA demonstrate that DeLTa attains up to a 4.9% improvement over the baseline. Furthermore, it enhances performance by up to 8.1% on StrategyQA and 7.3% on GSM8K, both of which demand strong reasoning capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)は、現実世界のアプリケーションでますます使われている。しかし、それらが生成するコンテンツの信頼性に関する懸念は、しばしば事実の正しさから逸脱したり、論理的推論において欠陥を示すため持続する。本稿では, LLMのアーキテクチャや事前学習パラメータの変更を必要とせずに, 事実の精度と推論の双方を向上することを目的とした, 新たな復号化戦略を提案する。提案手法は, 変圧器の下層から上層までのロジットの軌道を解析し, 線形回帰を適用することにより, 次トーケン確率を補正する。この復号法は, 誤り発生を軽減しつつ, 事実性や推論を効果的に強化する。 TruthfulQAの実験では、DeLTaはベースラインよりも4.9%改善されている。さらに、ストラテジーQAでは最大8.1%、GSM8Kでは7.3%の性能向上を実現している。

関連論文リスト

Turbo Connection: Reasoning as Information Flow from Higher to Lower Layers [3.5406493340002303]
本稿では,複数の残差接続をルーティングすることで,固定深度制約を克服する新しいアーキテクチャであるTurboConnを紹介する。 TurboConnは、タスク固有の高原を克服するために、事前訓練されたLLMに統合することができる。この結果から,計算経路の深さが推論能力の重要な要素であることを示す。
論文参考訳（メタデータ） (2026-02-20T05:01:32Z)
Training Large Reasoning Models Efficiently via Progressive Thought Encoding [63.254758972725654]
大規模推論モデル(LRM)は複雑な問題に優れるが、効率にとって重要な障壁に直面している。本稿では,パラメータ効率のよい微調整手法であるProgressive Thoughtを紹介する。
論文参考訳（メタデータ） (2026-02-18T20:03:38Z)
Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文参考訳（メタデータ） (2026-02-05T04:06:55Z)
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。 RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文参考訳（メタデータ） (2026-01-14T08:04:33Z)
Think Before You Prune: Self-Reflective Structured Pruning for Reasoning Language Models [31.422773877490613]
推論 LLM (Reasoning LLMs) はチェーン・オブ・ソート・ジェネレーションを通じて強力な多段階推論を実現する。 RLMの大きなモデルサイズと長いデコードタイムのアウトプットは、リソース制約のある設定にデプロイするのにコストがかかり、不適当である。我々は、構造化されたプルーニングフレームワークであるRESPを紹介し、プルーニング決定とモデルの推論力学を一致させる。
論文参考訳（メタデータ） (2025-12-01T20:27:05Z)
Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文参考訳（メタデータ） (2025-07-25T10:34:51Z)
Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。 KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文参考訳（メタデータ） (2025-06-11T12:03:52Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文参考訳（メタデータ） (2025-05-23T13:38:56Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
FAIT: Fault-Aware Fine-Tuning for Better Code Generation [11.8755180563981]
本研究では、命令調整された大規模言語モデルのコード生成を強化するために、FAIT(Fault-Aware Fine-Tuning)を提案する。本手法は,パス@1の相対的改善率を6.9%向上させる。改良された6.7B LLMは、GPT-3.5-Turboなどのクローズドソースモデルより優れている。
論文参考訳（メタデータ） (2025-03-21T07:23:26Z)
Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。 RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文参考訳（メタデータ） (2025-01-03T02:55:44Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文参考訳（メタデータ） (2024-10-03T17:39:38Z)
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。 SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文参考訳（メタデータ） (2024-09-05T06:28:05Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文参考訳（メタデータ） (2024-01-11T09:49:15Z)
Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。 LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文参考訳（メタデータ） (2023-08-31T14:31:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。