論文の概要: Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
- arxiv url: http://arxiv.org/abs/2510.06274v1
- Date: Mon, 06 Oct 2025 13:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.085395
- Title: Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
- Title(参考訳): ブリジング推論から学習へ:分布一般化の複雑さを用いたイリュージョンを解き明かす
- Authors: Mohammad Mahdi Samiei Paqaleh, Arash Marioriyad, Arman Tahmasebi-Zadeh, Mohamadreza Fereydooni, Mahdi Ghaznavai, Mahdieh Soleymani Baghshah,
- Abstract要約: 本稿では,分散の複雑さ(複雑度OoD)の一般化を推論を定義し,測定するためのフレームワークとして提案する。
モデルは、必要最小限のソリューションの複雑さがすべてのトレーニング例の複雑さを超えるテストインスタンスのパフォーマンスを維持するときに、複雑さのOoD一般化を示す。
私たちはこの視点を,スタック全体にわたる複雑度OoDの運用を推奨する形で,実践に転換します。
- 参考スコア(独自算出の注目度): 8.236500918322138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress has pushed AI frontiers from pattern recognition tasks toward problems that require step by step, System2 style reasoning, especially with large language models. Yet, unlike learning, where generalization and out of distribution (OoD) evaluation concepts are well formalized, there is no clear, consistent definition or metric for reasoning ability. We propose Complexity Out of Distribution (Complexity OoD) generalization as a framework and problem setting to define and measure reasoning. A model exhibits Complexity OoD generalization when it maintains performance on test instances whose minimal required solution complexity, either representational (richer solution structure) or computational (more reasoning steps/program length), exceeds that of all training examples. We formalize complexity via solution description Kolmogorov complexity and operational proxies (e.g., object/relation counts; reasoning step counts), clarifying how Complexity OoD differs from length and compositional OoD. This lens unifies learning and reasoning: many cases solvable with System1 like processing at low complexity become System2 like under complexity pressure, while System2 can be viewed as generalization over solution structures. We translate this perspective into practice with recommendations for operationalizing Complexity OoD across the stack: incorporating complexity into benchmark and evaluation metric design, rethinking supervision to target solution traces, seeking and designing inductive biases for Complexity OoD generalization, addressing learning to reason spillovers such as spurious shortcuts, semantic robustness, catastrophic forgetting, and step wise calibration. Because Complexity OoD cannot be solved by scaling data alone, progress toward robust reasoning will require architectures and training regimes that explicitly model and allocate computation with respect to complexity.
- Abstract(参考訳): 最近の進歩は、AIフロンティアをパターン認識タスクからステップバイステップのシステム2スタイル推論、特に大規模言語モデルを必要とする問題へと押し上げた。
しかし、一般化と分布外(OoD)評価の概念が十分に形式化されている学習とは異なり、推論能力に対する明確な一貫した定義や計量は存在しない。
複雑度OoD(complexity OoD)の一般化をフレームワークとして提案する。
モデルは、表現性(よりリッチな解構造)または計算性(より推論ステップ/プログラム長)が全てのトレーニング例のそれを上回る最小の必要解複雑性を持つテストインスタンスのパフォーマンスを維持するときに、複雑さ OoD 一般化を示す。
我々は,Kolmogorov複雑性と操作プロキシ(例えば,オブジェクト/リレーション数,推論ステップ数)を用いて複雑性を定式化し,複雑度 OoD が長さと組成 OoD とどのように異なるかを明らかにする。
このレンズは学習と推論を統一する: 複雑性の低い処理のようなSystem1で解決可能なケースの多くは、複雑性のプレッシャーの下でSystem2となり、System2はソリューション構造を一般化すると見なすことができる。
複雑性OoDをスタック全体にわたって運用するための推奨事項として,複雑性をベンチマークと評価基準設計に組み込むこと,ソリューショントレースを対象とする監視の再考,複雑性OoDの一般化のための帰納的バイアスの探索と設計,急激なショートカット,セマンティックロバスト性,破滅的な忘れ込み,ステップワイズキャリブレーションなど,この視点を実践する。
複雑度 OoD はデータのスケーリングだけでは解決できないため、堅牢な推論への進歩には、複雑性に関する計算を明示的にモデル化し割り当てるアーキテクチャとトレーニング体制が必要である。
関連論文リスト
- Unlocking Symbol-Level Precoding Efficiency Through Tensor Equivariant Neural Network [84.22115118596741]
シンボルレベルのプリコーディングにおいて,推論の複雑さの低いエンドツーエンドディープラーニング(DL)フレームワークを提案する。
提案手法は,従来の手法よりも約80倍の高速化を実現しつつ,SLPの大幅な性能向上を達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T15:15:50Z) - A Quantum Computational Perspective on Spread Complexity [0.0]
我々は、時間進化と重ね合わせという2つの基本的な操作から構築された回路複雑性フレームワークの制限ケースとして、拡散複雑性が出現することを示すことによって、拡散複雑性と量子回路複雑性の直接的な接続を確立する。
提案手法では,単位ゲートとビーム分割演算がターゲット状態を生成する計算装置を活用し,合成コストの最小化により,無限小時間進化限界における複雑性の拡散に収束する複雑性尺度が得られた。
論文 参考訳(メタデータ) (2025-06-08T19:04:42Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - FOL-Pretrain: A complexity annotated corpus of first-order logic [16.061040115094592]
トランスフォーマーベースの大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMの振る舞いをリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムの内部化と実行を行うかについての理解は依然として限られている。
本稿では,大規模かつ完全にオープンな,一階述語論理推論トレースの複雑性アノテーション付きデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-20T21:38:28Z) - Unveiling Hybrid Cyclomatic Complexity: A Comprehensive Analysis and Evaluation as an Integral Feature in Automatic Defect Prediction Models [0.5461938536945723]
本稿では,新しい複雑性指標であるHybrid Cyclomatic Complexity(HCC)の解析と,欠陥予測モデルの特徴としての有効性について述べる。
HCCメトリックとその2つのコンポーネントの比較研究、継承された複雑性とオブジェクト指向の文脈におけるクラスの実際の複雑さについて述べる。
論文 参考訳(メタデータ) (2025-04-01T07:07:17Z) - Epistemic Logic Programs: Non-Ground and Counting Complexity [32.575043686973224]
疫学論理プログラム(ELP)は、ASPを拡張して全てのまたはいくつかの回答セットを推論する。
本稿では,非基底型ELPの複雑性を確立する。
論文 参考訳(メタデータ) (2025-01-31T20:08:52Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。