論文の概要: Exploring Solution Divergence and Its Effect on Large Language Model Problem Solving
- arxiv url: http://arxiv.org/abs/2509.22480v1
- Date: Fri, 26 Sep 2025 15:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.546277
- Title: Exploring Solution Divergence and Its Effect on Large Language Model Problem Solving
- Title(参考訳): 解の多様性の探索と大規模言語モデル問題解決への影響
- Authors: Hang Li, Kaiqi Yang, Yucheng Chu, Hui Liu, Jiliang Tang,
- Abstract要約: より高度な解の発散は、様々なモデルにまたがるより良い問題解決能力に肯定的に関係していることを示す。
SFT戦略とRL戦略の両方をサポートする新しい指標として解の発散を提案する。
- 参考スコア(独自算出の注目度): 37.94354699202412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely used for problem-solving tasks. Most recent work improves their performance through supervised fine-tuning (SFT) with labeled data or reinforcement learning (RL) from task feedback. In this paper, we study a new perspective: the divergence in solutions generated by LLMs for a single problem. We show that higher solution divergence is positively related to better problem-solving abilities across various models. Based on this finding, we propose solution divergence as a novel metric that can support both SFT and RL strategies. We test this idea on three representative problem domains and find that using solution divergence consistently improves success rates. These results suggest that solution divergence is a simple but effective tool for advancing LLM training and evaluation.
- Abstract(参考訳): 大規模言語モデル (LLM) は問題解決に広く用いられている。
最近の研究は、タスクフィードバックからラベル付きデータや強化学習(RL)を用いて、教師付き微調整(SFT)によってパフォーマンスを向上している。
本稿では,LLMが単一問題に対して生成する解の分散という,新たな視点について考察する。
より高度な解の発散は、様々なモデルにまたがるより良い問題解決能力に肯定的に関係していることを示す。
そこで本研究では, SFT と RL の両戦略をサポートする新しい指標として解の発散を提案する。
我々はこのアイデアを3つの代表的な問題領域で検証し、解の発散が成功率を常に改善することを発見した。
これらの結果から, 解の発散は, LLMのトレーニングと評価を進める上で, 単純だが効果的なツールであることが示唆された。
関連論文リスト
- Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples [12.48027669682156]
Flow of Reasoning (FoR)は、最小限のデータで多様性を向上させることを目的としている。
FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。
実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文 参考訳(メタデータ) (2024-06-09T07:06:58Z) - Divide-or-Conquer? Which Part Should You Distill Your LLM? [38.62667131299918]
我々は、推論タスクを問題解決フェーズと問題解決フェーズに分解する同様の戦略を考案する。
戦略が単一ステージソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:28:46Z) - DiLA: Enhancing LLM Tool Learning with Differential Logic Layer [11.810200077863172]
本稿では,ネットワーク層の前方・後方通過に論理的制約を組み込むディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。
2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
論文 参考訳(メタデータ) (2024-02-19T07:38:57Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。