論文の概要: Segment-Level Attribution for Selective Learning of Long Reasoning Traces
- arxiv url: http://arxiv.org/abs/2602.00425v1
- Date: Sat, 31 Jan 2026 00:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.178631
- Title: Segment-Level Attribution for Selective Learning of Long Reasoning Traces
- Title(参考訳): 長共振トレースの選択学習におけるセグメントレベル属性
- Authors: Siyuan Wang, Yanchen Liu, Xiang Ren,
- Abstract要約: 本稿では,高い帰属力を持つが適度な一貫性を持つ重要なセグメントを特定するためのセグメントレベル選択学習フレームワークを提案する。
提案手法は精度と出力効率を向上し、長い推論トレースからより効果的な学習を可能にする。
- 参考スコア(独自算出の注目度): 39.93489058702076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) achieve strong reasoning performance by generating long chains of thought (CoTs), yet only a small fraction of these traces meaningfully contributes to answer prediction, while the majority contains repetitive or truncated content. Such output redundancy is further propagated after supervised finetuning (SFT), as models learn to imitate verbose but uninformative patterns, which can degrade performance. To this end, we incorporate integrated gradient attribution to quantify each token's influence on final answers and aggregate them into two segment-level metrics: (1) \textit{attribution strength} measures the overall attribution magnitude; and (2) \textit{direction consistency} captures whether tokens' attributions within a segment are uniformly positive or negative (high consistency), or a mixture of both (moderate consistency). Based on these two metrics, we propose a segment-level selective learning framework to identify important segments with high attribution strength but moderate consistency that indicate reflective rather than shallow reasoning. The framework then applies selective SFT on these important segments while masking loss for unimportant ones. Experiments across multiple models and datasets show that our approach improves accuracy and output efficiency, enabling more effective learning from long reasoning traces~\footnote{Code and data are available at https://github.com/SiyuanWangw/SegmentSelectiveSFT}.
- Abstract(参考訳): 大きな推論モデル(LRM)は、長い思考の連鎖(CoT)を生成することで強い推論性能を達成するが、これらのトレースのごく一部だけが、繰り返しまたは切り離されたコンテンツを含む一方で、答えの予測に有意に寄与する。
このような出力冗長性は、モデルが冗長だが非形式的なパターンを模倣し、性能を劣化させることができるため、教師付き微調整(SFT)後にさらに伝播する。
この目的のために、各トークンの最終的な回答への影響を定量化し、(1) \textit{attribution strength} は全体の属性の大きさを測定し、(2) \textit{direction consistency} はセグメント内のトークンの属性が一様正か負か(高い一貫性)、または両方(モデレート整合性)の混合物をキャプチャする。
これら2つの指標に基づいて,浅部推論よりも反射性を示す中等度整合性を示す重要なセグメントを同定する,セグメントレベルの選択学習フレームワークを提案する。
このフレームワークは、重要でないセグメントをマスキングしながら、これらの重要なセグメントに選択的SFTを適用する。
複数のモデルとデータセットにわたる実験により、我々のアプローチは精度と出力効率を向上し、長い推論トレースからより効果的な学習を可能にします。
関連論文リスト
- Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。
得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。
軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:45:16Z) - ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning [51.133569963553576]
ssTokenは自己変調されたセマンティックなToken Selectionアプローチである。
自己変調の選択とセマンティック・アウェアの選択の両方が、フルデータの微調整よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-21T03:21:04Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - A Simple Baseline for Semi-supervised Semantic Segmentation with Strong
Data Augmentation [74.8791451327354]
セマンティックセグメンテーションのためのシンプルで効果的な半教師付き学習フレームワークを提案する。
単純な設計とトレーニングのテクニックのセットは、半教師付きセマンティックセグメンテーションの性能を大幅に向上させることができる。
本手法は,Cityscapes と Pascal VOC データセットの半教師付き設定において,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2021-04-15T06:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。