論文の概要: Student Guides Teacher: Weak-to-Strong Inference via Spectral Orthogonal Exploration
- arxiv url: http://arxiv.org/abs/2601.06160v1
- Date: Tue, 06 Jan 2026 16:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.62641
- Title: Student Guides Teacher: Weak-to-Strong Inference via Spectral Orthogonal Exploration
- Title(参考訳): 学生指導要領:スペクトル直交探索による弱視推論
- Authors: Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li,
- Abstract要約: スペクトル直交探索(英: Spectral Orthogonal Exploration、SOE)は、直観に反する「Student Guides Teacher」パラダイムに基づく幾何学的枠組みである。
SOEは幾何学的ブリッジとして機能し、局所最適からモデルを効果的に放出し、多種多様な高価値な解空間を探索する。
数式ベンチマーク実験により, ベースライン法と比較して平均精度は62.4%向上し, 平均サンプリング効率は113.7%向上した。
- 参考スコア(独自算出の注目度): 1.974921946982281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) demonstrate near-human capabilities, they often suffer from "Reasoning Collapse" in complex mathematical proving and long-horizon planning. Models tend to degenerate into low-rank Bias Manifold, where stochastic sampling merely produces lexical variations of erroneous logic rather than semantic exploration. This geometric collapse renders the model "blind" to high-value solutions that lie within its Null Space. To address this, we propose Spectral Orthogonal Exploration (SOE), a geometric framework operating on a counter-intuitive "Student Guides Teacher" paradigm. Specifically, we utilize a weak auxiliary agent not for imitation, but as an orthogonal probe. By explicitly navigating the Teacher's Null Space, SOE serves as a geometric bridge, effectively ejecting the model from local optima to explore diverse, high-value solution spaces. Experiments on mathematical benchmarks demonstrate that, relative to baseline methods, our approach improves average accuracy by 62.4% and increases average sampling efficiency by 113.7%, indicating a promising path toward overcoming performance plateaus in advanced reasoning tasks.
- Abstract(参考訳): LLM(Large Language Models)は人間に近い能力を示すが、複雑な数学的証明や長期計画において「推論崩壊」に悩まされることが多い。
モデルは低ランクバイアス多様体に縮退する傾向があり、確率的サンプリングは意味探索ではなく、誤った論理の語彙的バリエーションを単に生成する。
この幾何学的崩壊は、モデルがヌル空間内にある高値の解に「盲」することを意味する。
そこで本研究では,反直観的な「学習指導者」パラダイムに基づく幾何学的枠組みであるスペクトル直交探索(SOE)を提案する。
具体的には、模倣ではなく直交プローブとして弱い補助剤を利用する。
教師のヌル空間を明示的にナビゲートすることで、SOEは幾何学的ブリッジとして機能し、局所最適からモデルを効果的に放出し、多様な高価値な解空間を探索する。
数式ベンチマーク実験により,提案手法はベースライン法と比較して平均精度を62.4%向上し,平均サンプリング効率を113.7%向上させた。
関連論文リスト
- Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - Geometrically-Constrained Agent for Spatial Reasoning [53.93718394870856]
視覚言語モデルは空間的推論において基本的な意味-幾何学的ギャップを示す。
現在のパラダイムは、このギャップを埋めることに失敗します。
本稿では,形式的タスク制約を導入することにより,このギャップを解消する学習自由エージェントパラダイムを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:50:37Z) - Manifold Percolation: from generative model to Reinforce learning [0.26905021039717986]
生成的モデリングは通常、学習マッピング規則としてフレーム化されるが、これらの規則にアクセスできない観察者の視点からすると、そのタスクは確率分布から幾何学的支援を引き離すことになる。
本研究は, サンプリングプロセスが, 高次元密度推定を支持面上の幾何カウント問題に効果的に投射するので, 連続体パーコレーションは, この支援解析に一意に適していることを示す。
論文 参考訳(メタデータ) (2025-11-25T17:12:42Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Neural Latent Geometry Search: Product Manifold Inference via
Gromov-Hausdorff-Informed Bayesian Optimization [21.97865037637575]
我々は、この新しい定式化を数学的に定義し、ニューラル潜在幾何探索(NLGS)として作成する。
計量幾何学からのグロモフ・ハウスドルフ距離に基づいて、候補潜在測地間の距離の新たな概念を提案する。
次に、潜在測地間の滑らかさの概念に基づいてグラフ探索空間を設計し、その計算を帰納バイアスとして利用する。
論文 参考訳(メタデータ) (2023-09-09T14:29:22Z) - Hyperbolic Representation Learning: Revisiting and Advancing [43.1661098138936]
本稿では,現在普及しているhlmを精査する位置追跡機構を導入し,学習された表現が準最適で不満足であることを明らかにする。
本稿では,ノードの双曲的距離から推定されるコストフリーな階層的情報を原点に組み込むことにより,シンプルで効果的な情報埋め込み手法であるハイボリックインフォメーション(HIE)を提案する。
提案手法は, 競合するベースラインに比べて最大21.4%向上した。
論文 参考訳(メタデータ) (2023-06-15T13:25:39Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Deep Dimension Reduction for Supervised Representation Learning [51.10448064423656]
本研究は,本質的な特徴を持つ学習表現の次元削減手法を提案する。
提案手法は, 十分次元還元法の非パラメトリック一般化である。
推定された深度非パラメトリック表現は、その余剰リスクが0に収束するという意味で一貫したものであることを示す。
論文 参考訳(メタデータ) (2020-06-10T14:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。