論文の概要: GUIDE: Towards Scalable Advising for Research Ideas
- arxiv url: http://arxiv.org/abs/2507.08870v1
- Date: Wed, 09 Jul 2025 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:21.660081
- Title: GUIDE: Towards Scalable Advising for Research Ideas
- Title(参考訳): GUIDE:研究思想のスケーラブルなアドバイスを目指して
- Authors: Yaowenqi Liu, BingXu Meng, Rui Pan, Jerry Huang, Tong Zhang,
- Abstract要約: 提案する仮説と実験設計を洗練するための,高品質で適切なフィードバックを提供するシステムを開発した。
提案方式は, ICLR 2025テストセットで90%を超える受入率を達成する。
- 参考スコア(独自算出の注目度): 9.819083407389524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of AI research is advancing at an unprecedented pace, enabling automated hypothesis generation and experimental design across diverse domains such as biology, mathematics, and artificial intelligence. Despite these advancements, there remains a significant gap in the availability of scalable advising systems capable of providing high-quality, well-reasoned feedback to refine proposed hypotheses and experimental designs. To address this challenge, we explore key factors that underlie the development of robust advising systems, including model size, context length, confidence estimation, and structured reasoning processes. Our findings reveal that a relatively small model, when equipped with a well-compressed literature database and a structured reasoning framework, can outperform powerful general-purpose language models such as Deepseek-R1 in terms of acceptance rates for self-ranked top-30% submissions to ICLR 2025. Moreover, when limited to high-confidence predictions, our system achieves an acceptance rate exceeding 90% on the ICLR 2025 test set, underscoring its potential to significantly enhance the quality and efficiency of hypothesis generation and experimental design. The code is released at https://github.com/HowardLiu0830/GUIDE-Research-Idea-Evaluation.
- Abstract(参考訳): AI研究の分野は前例のないペースで進んでおり、生物学、数学、人工知能といった様々な分野にまたがる自動仮説生成と実験設計を可能にしている。
これらの進歩にもかかわらず、提案された仮説や実験的な設計を洗練させるために高品質で適切なフィードバックを提供するスケーラブルな助言システムの可用性には大きなギャップが残っている。
この課題に対処するために、モデルサイズ、文脈長、信頼度推定、構造化推論プロセスなど、堅牢な助言システムの開発を支えている重要な要因について検討する。
文献データベースと構造化推論フレームワークを備えた比較的小さなモデルでは,ICLR 2025への自己ランクトップ30%の提出の受け入れ率において,Deepseek-R1のような強力な汎用言語モデルよりも優れていることがわかった。
さらに, 高信頼度予測に制限された場合, ICLR 2025テストセットで90%を超える受入率を実現し, 仮説生成と実験設計の精度と効率を大幅に向上させる可能性を示した。
コードはhttps://github.com/HowardLiu0830/GUIDE-Research-Idea-Evaluationで公開されている。
関連論文リスト
- Bayes-Entropy Collaborative Driven Agents for Research Hypotheses Generation and Optimization [4.469102316542763]
本稿では,HypoAgentsと呼ばれるマルチエージェント協調フレームワークを提案する。
多様性のサンプリングを通じて仮説を生成し、事前の信念を確立する。
その後、外部文献の証拠収集にRAG(erieval-augmented generation)を採用している。
情報エントロピー$H = - sum p_ilog p_i$ を用いて高不確かさ仮説を特定し、それらを積極的に洗練する。
論文 参考訳(メタデータ) (2025-08-03T13:05:32Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - AI Idea Bench 2025: AI Research Idea Generation Benchmark [10.983418515389667]
本稿では,言語モデル(LLM)が生み出すアイデアを定量的に評価し,比較するフレームワークであるAI Idea Bench 2025を紹介する。
このフレームワークは、3,495のAI論文とその関連するインスパイアされた作業の包括的なデータセットと、堅牢な評価方法論で構成されている。
評価システムは、2次元のアイデア品質を測る。
論文 参考訳(メタデータ) (2025-04-19T05:35:45Z) - LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。
SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。
本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-19T08:28:18Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-12T16:20:36Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Neural Message Passing for Objective-Based Uncertainty Quantification
and Optimal Experimental Design [15.692012868181635]
データ駆動型アプローチに基づくMOCUによる客観的UQの計算コスト削減手法を提案する。
提案手法は,MOCUをベースとしたOEDを4~5桁の精度で高速化できることを示す。
論文 参考訳(メタデータ) (2022-03-14T14:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。