論文の概要: AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems
- arxiv url: http://arxiv.org/abs/2510.05432v1
- Date: Mon, 06 Oct 2025 22:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.014868
- Title: AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems
- Title(参考訳): Ainstein: 研究課題に対するAI生成アプローチの可能性を評価する
- Authors: Shambhavi Mishra, Gaurav Sahu, Marco Pedersoli, Laurent Charlin, Jose Dolz, Christopher Pal,
- Abstract要約: AInsteinは、AI研究問題に対する有効なソリューションを、大規模言語モデルが生成できるかどうかをテストするためのフレームワークである。
受け入れ層により層状化された1,214 ICLR紙上でのAInsteinの評価を行った。
- 参考スコア(独自算出の注目度): 28.38783951577184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate impressive capabilities across a wide range of tasks, yet it remains unclear whether such success reflects genuine reasoning or sophisticated recall. We introduce AInstein, a framework for testing whether LLMs can generate valid solutions to AI research problems using only their pretrained parametric knowledge -- without domain-specific fine-tuning, retrieval augmentation, or other external aids. Our approach extracts distilled problem statements from high-quality ICLR 2025 submissions, then tasks specialized solver agents with proposing and refining technical solutions through iterative critique loops, mimicking the cycles of proposal, review, and revision central to scientific inquiry. We evaluate AInstein on 1,214 ICLR papers stratified by acceptance tier (Oral, Spotlight, Poster), using an LLM-as-a-judge paradigm guided by a structured rubric, complemented by targeted manual checks. Performance is assessed with three metrics: Success Rate (does the solution address the problem?), Rediscovery (does it align with human-proposed methods?), and Novelty (does it yield valid, original approaches?). Our results reveal that while LLMs can rediscover feasible solutions and occasionally propose creative alternatives, their problem-solving ability remains fragile and highly sensitive to framing. These findings provide the first large-scale evidence on the extent to which LLMs can act as autonomous scientific problem-solvers, highlighting both their latent potential and their current limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにわたる印象的な機能を示しているが、そのような成功が真の推論や洗練されたリコールを反映しているかどうかは不明だ。
AInsteinは、LLMが事前訓練されたパラメトリック知識(ドメイン固有の微調整、検索強化、その他の外部支援なしで)のみを使用して、AI研究問題に対する有効なソリューションを生成できるかどうかをテストするためのフレームワークである。
提案手法では,高品質のICLR 2025から抽出した問題文を抽出し,科学的調査の中心となる提案,レビュー,修正のサイクルを模倣し,反復的批判ループを通じて技術的解決を提案し,精錬する課題を専門的に解決する。
対象手動チェックによって補完された構造化ルーリックで導かれるLLM-as-a-judgeパラダイムを用いて, 受け入れ層(Oral, Spotlight, Poster)で階層化された1,214 ICLR論文上でAInsteinを評価した。
パフォーマンスは、成功率(ソリューションは問題に対処するのか?)、レッドスコベリー(人間が提案する手法と一致しているのか?)、ノベルティ(有効で元のアプローチか?)の3つの指標で評価される。
LLMは実現可能な解決策を再発見し、時折創造的な代替案を提案するが、その問題解決能力は脆弱でフレーミングに非常に敏感である。
これらの発見は、LSMが自律的な科学的問題解決者として機能しうる範囲について、その潜在可能性と現在の限界の両方を浮き彫りにした最初の大規模な証拠となる。
関連論文リスト
- Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025 [1.6819960041696331]
RAGと「ディープリサーチ」システムは、大規模言語モデル(LLM)が反復的に出力を洗練する自律的な探索プロセスの実現を目的としている。
これらのシステムを、生物医学研究のようなドメイン固有の専門的な検索に適用することは、課題を提示する。
本研究では,この反復的自己補正によって性能が向上し,推論モデルがより有用なフィードバックを生成できるかどうかを検討した。
論文 参考訳(メタデータ) (2025-08-07T13:13:19Z) - Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions [15.350973327319418]
大規模言語モデル(LLM)は、ますます広範囲の日常アプリケーションに統合されている。
このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。
GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70Bをチェーン・オブ・ソート, EmotionPrompting, ExpertPrompting, Sandbagging, Re-Reading prompt Engineering Techniqueでテストした。
論文 参考訳(メタデータ) (2024-09-30T14:00:34Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。