論文の概要: Learning to Predict Future-Aligned Research Proposals with Language Models
- arxiv url: http://arxiv.org/abs/2603.27146v1
- Date: Sat, 28 Mar 2026 05:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.811653
- Title: Learning to Predict Future-Aligned Research Proposals with Language Models
- Title(参考訳): 言語モデルを用いた将来的な研究提案の予測
- Authors: Heng Wang, Pengcheng Jiang, Jiashuo Sun, Zhiyi Shi, Haofei Yu, Jiawei Han, Heng Ji,
- Abstract要約: 我々は目標から得られた17,771の論文とそれらの事前カットオフ引用の時間一貫性のあるデータセットを構築した。
モデルをトレーニングするために、ターゲットとそれらのカットオフ前の引用から17,771枚のタイム一貫性のあるデータセットを構築します。
Llama-3.1 と Qwen2.5 のモデル全体で、将来のアライメントチューニングは、非アライメントベースラインに対する将来のアライメントを改善する。
- 参考スコア(独自算出の注目度): 59.79457676644722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used to assist ideation in research, but evaluating the quality of LLM-generated research proposals remains difficult: novelty and soundness are hard to measure automatically, and large-scale human evaluation is costly. We propose a verifiable alternative by reframing proposal generation as a time-sliced scientific forecasting problem. Given a research question and inspiring papers available before a cutoff time, the model generates a structured proposal and is evaluated by whether it anticipates research directions that appear in papers published after the time. We operationalize this objective with the Future Alignment Score (FAS), computed via retrieval and LLM-based semantic scoring against a held-out future corpus. To train models, we build a time-consistent dataset of 17,771 papers from targets and their pre-cutoff citations, and synthesize reasoning traces that teach gap identification and inspiration borrowing. Across Llama-3.1 and Qwen2.5 models, future-aligned tuning improves future alignment over unaligned baselines (up to +10.6% overall FAS), and domain-expert human evaluation corroborates improved proposal quality. Finally, we demonstrate practical impact by implementing two model-generated proposals with a code agent, obtaining 4.17% accuracy gain on MATH from a new prompting strategy and consistent improvements for a novel model-merging method.
- Abstract(参考訳): 大規模言語モデル (LLMs) は研究におけるアイデア形成を支援するためにますます使われてきているが、LLMが生成する研究の質を評価することは依然として困難であり、新規性と健全性は自動測定が困難であり、大規模な人的評価はコストがかかる。
提案手法をタイムスライスした科学的予測問題として再検討し,検証可能な代替案を提案する。
カットオフ前に利用可能な研究質問とインスピレーション論文が与えられた場合、そのモデルは構造化された提案を生成し、その後に発行された論文に現れる研究方向を予測できるかどうかによって評価する。
我々はこの目的を、検索とLLMに基づくセマンティックスコアを用いて計算したFuture Alignment Score (FAS) を用いて運用する。
モデルをトレーニングするために、ターゲットとそれらのカットオフ前の引用から17,771枚のタイム一貫性のあるデータセットを構築し、ギャップ識別とインスピレーションの借り方を教える推論トレースを合成する。
Llama-3.1 と Qwen2.5 のモデル全体では、将来のアラインメントは、不整合ベースライン(全体の FAS の+10.6% まで)に対する将来のアライメントを改善し、ドメイン専門家による評価は、提案品質の改善を裏付けている。
最後に、2つのモデル生成提案をコードエージェントで実装し、新しいプロンプト戦略と新しいモデルマージ手法の一貫性の向上により、MATHの精度が4.17%向上したことを実証する。
関連論文リスト
- Proof of Time: A Benchmark for Evaluating Scientific Idea Judgments [12.46263502996029]
PoTは、大規模言語モデルのための半検証可能なベンチマークフレームワークである。
科学的観念判断と下流の信号とを結びつけ、後に観測可能となる。
PoTは将来の科学的思考判断タスクにおけるエージェントのスケーラブルな評価をサポートする。
論文 参考訳(メタデータ) (2026-01-12T14:55:37Z) - Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise [41.16092952642748]
本研究では,Large Language Models (LLMs) で使用されているれんがを精製することにより,AES(Automated Scoring)を向上する可能性について検討する。
GPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-Instructによるデータセットの実験では、最大0.19と0.47の改善が得られた。
論文 参考訳(メタデータ) (2025-10-10T06:05:38Z) - Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Estimating Task Completion Times for Network Rollouts using Statistical
Models within Partitioning-based Regression Methods [0.01841601464419306]
本稿では,通信ネットワークのロールアウト計画問題に対するデータと機械学習に基づく予測ソリューションを提案する。
マイルストーン完了時間の履歴データを使用することで、モデルはドメイン知識を取り入れ、ノイズを処理し、プロジェクトマネージャに解釈できる必要があります。
本稿では,各パーティションにデータ駆動統計モデルを組み込んだ分割型回帰モデルを提案する。
論文 参考訳(メタデータ) (2022-11-20T04:28:12Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。