論文の概要: AgentExpt: Automating AI Experiment Design with LLM-based Resource Retrieval Agent
- arxiv url: http://arxiv.org/abs/2511.04921v1
- Date: Fri, 07 Nov 2025 01:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.644866
- Title: AgentExpt: Automating AI Experiment Design with LLM-based Resource Retrieval Agent
- Title(参考訳): AgentExpt: LLMベースのリソース検索エージェントによるAI実験設計の自動化
- Authors: Yu Li, Lehui Li, Qingmin Liao, Fengli Xu, Yong Li,
- Abstract要約: AI研究における重要な応用の1つは、エージェントとベースライン検索による実験設計を自動化することである。
ベースラインおよびデータセットレコメンデーションのための包括的フレームワークを提案する。
我々は、正確な相互作用連鎖を構築して明確な推論連鎖を構築し、解釈可能な正当化を生成するために大きな言語モデルを微調整する推論強化リランカを開発する。
- 参考スコア(独自算出の注目度): 36.65355075707938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model agents are becoming increasingly capable at web-centric tasks such as information retrieval, complex reasoning. These emerging capabilities have given rise to surge research interests in developing LLM agent for facilitating scientific quest. One key application in AI research is to automate experiment design through agentic dataset and baseline retrieval. However, prior efforts suffer from limited data coverage, as recommendation datasets primarily harvest candidates from public portals and omit many datasets actually used in published papers, and from an overreliance on content similarity that biases model toward superficial similarity and overlooks experimental suitability. Harnessing collective perception embedded in the baseline and dataset citation network, we present a comprehensive framework for baseline and dataset recommendation. First, we design an automated data-collection pipeline that links roughly one hundred thousand accepted papers to the baselines and datasets they actually used. Second, we propose a collective perception enhanced retriever. To represent the position of each dataset or baseline within the scholarly network, it concatenates self-descriptions with aggregated citation contexts. To achieve efficient candidate recall, we finetune an embedding model on these representations. Finally, we develop a reasoning-augmented reranker that exact interaction chains to construct explicit reasoning chains and finetunes a large language model to produce interpretable justifications and refined rankings. The dataset we curated covers 85\% of the datasets and baselines used at top AI conferences over the past five years. On our dataset, the proposed method outperforms the strongest prior baseline with average gains of +5.85\% in Recall@20, +8.30\% in HitRate@5. Taken together, our results advance reliable, interpretable automation of experimental design.
- Abstract(参考訳): 大規模言語モデルエージェントは、情報検索や複雑な推論など、Web中心のタスクでますます能力が高まっている。
これらの新たな能力は、科学的な探求を促進するLLMエージェントの開発において、研究の関心が高まりつつある。
AI研究における重要な応用の1つは、エージェントデータセットとベースライン検索による実験設計を自動化することである。
しかし、事前の努力は限られたデータカバレッジに悩まされており、レコメンデーションデータセットは主に公開ポータルから候補を抽出し、実際に公開された論文で使用される多くのデータセットを省略する。
ベースラインとデータセットの引用ネットワークに埋め込まれた集合的認識を損なうため,ベースラインとデータセットの推薦のための包括的なフレームワークを提案する。
まず、約10万の論文を実際に使用しているベースラインとデータセットにリンクする自動データ収集パイプラインを設計する。
第2に,集合認識強化レトリバーを提案する。
学術ネットワーク内の各データセットやベースラインの位置を表すために、集約された引用コンテキストと自己記述を結合する。
効率的な候補リコールを実現するために,これらの表現に埋め込まれた埋め込みモデルを微調整する。
最後に、正確な相互作用連鎖を構築し、大きな言語モデルを微調整し、解釈可能な正当化と洗練されたランキングを生成するための推論強化リランカを開発する。
私たちがキュレートしたデータセットは、過去5年間でトップAIカンファレンスで使用されたデータセットとベースラインの85%をカバーしています。
我々のデータセットでは、提案手法は、Recall@20では+5.85\%、HitRate@5では+8.30\%の平均ゲインで最強のベースラインを上回ります。
本研究の結果は,実験設計の信頼性,解釈可能な自動化を推し進めたものである。
関連論文リスト
- Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。