論文の概要: Understanding Large Language Models' Ability on Interdisciplinary Research
- arxiv url: http://arxiv.org/abs/2507.15736v1
- Date: Mon, 21 Jul 2025 15:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.466335
- Title: Understanding Large Language Models' Ability on Interdisciplinary Research
- Title(参考訳): 学際研究における大規模言語モデルの能力の理解
- Authors: Yuanhao Shen, Daniel Xavier de Sousa, Ricardo Marçal, Ali Asad, Hongyu Guo, Xiaodan Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、科学的発見において強力なツールと協力者である。
学際研究におけるLLMのアイデア開発能力を評価する専用ベンチマークの欠如は、その強みと限界を完全に理解する上で重要な障壁となっている。
IDRBenchは、専門家アノテートされたデータセットと、LLMの機能を評価するために調整された一連のタスクを特徴とする先駆的なベンチマークである。
- 参考スコア(独自算出の注目度): 27.539601507270575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have revealed their impressive ability to perform multi-step, logic-driven reasoning across complex domains, positioning them as powerful tools and collaborators in scientific discovery while challenging the long-held view that inspiration-driven ideation is uniquely human. However, the lack of a dedicated benchmark that evaluates LLMs' ability to develop ideas in Interdisciplinary Research (IDR) settings poses a critical barrier to fully understanding their strengths and limitations. To address this gap, we introduce IDRBench -- a pioneering benchmark featuring an expert annotated dataset and a suite of tasks tailored to evaluate LLMs' capabilities in proposing valuable research ideas from different scientific domains for interdisciplinary research. This benchmark aims to provide a systematic framework for assessing LLM performance in complex, cross-domain scientific research. Our dataset consists of scientific publications sourced from the ArXiv platform covering six distinct disciplines, and is annotated by domain experts with diverse academic backgrounds. To ensure high-quality annotations, we emphasize clearly defined dimensions that characterize authentic interdisciplinary research. The design of evaluation tasks in IDRBench follows a progressive, real-world perspective, reflecting the natural stages of interdisciplinary research development, including 1) IDR Paper Identification, 2) IDR Idea Integration, and 3) IDR Idea Recommendation. Using IDRBench, we construct baselines across 10 LLMs and observe that despite fostering some level of IDR awareness, LLMs still struggle to produce quality IDR ideas. These findings could not only spark new research directions, but also help to develop next-generation LLMs that excel in interdisciplinary research.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、複雑なドメインをまたいで多段階の論理駆動推論を実行し、科学的発見において強力なツールや協力者として位置づけながら、インスピレーション駆動のアイデアは人間的だ、という長年の見解に挑戦する、という印象的な能力を明らかにしている。
しかしながら、ILMがIDR(Interdisciplinary Research)設定でアイデアを開発する能力を評価するための専用のベンチマークが欠如していることは、その強みと限界を完全に理解する上で重要な障壁となっている。
このギャップに対処するために、私たちはIDRBenchという、専門家アノテートされたデータセットとLLMの能力を評価するための一連のタスクを備えた先駆的なベンチマークを紹介します。
このベンチマークは、複雑なクロスドメイン科学研究において、LCMの性能を評価するための体系的なフレームワークを提供することを目的としている。
このデータセットは6つの異なる分野をカバーするArXivプラットフォームから得られた学術出版物で構成されており、さまざまな学術的背景を持つドメインの専門家によって注釈付けされている。
高品質なアノテーションを確保するため、真正な学際研究を特徴付ける明確に定義された次元を強調した。
IDRBenchにおける評価タスクの設計は、学際的研究の自然な段階を反映し、進歩的で現実的な視点に従う。
1) IDR 紙の識別。
2)IDRのアイデア統合,及び
3)IDR思想勧告
IDRBenchを用いて、10個のLLMに対してベースラインを構築し、ある程度のIDR意識を育んでいるにもかかわらず、LLMは依然として高品質なIDRアイデアを生み出すのに苦労していることを観察する。
これらの発見は、新しい研究の方向性を喚起するだけでなく、学際的な研究に優れた次世代のLSMの開発にも役立てることができた。
関連論文リスト
- Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - A Survey of Large Language Models in Discipline-specific Research: Challenges, Methods and Opportunities [33.66845016584256]
大規模言語モデル (LLM) は、多くの学際的な研究でその変容の可能性を示している。
本稿では,学際研究におけるLSMの適用について概観する。
論文 参考訳(メタデータ) (2025-07-11T09:11:18Z) - Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - Large Language Models Post-training: Surveying Techniques from Alignment to Reasoning [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - AAAR-1.0: Assessing AI's Potential to Assist Research [34.88341605349765]
AAAR-1.0は,大規模言語モデル(LLM)の性能を評価するためのベンチマークデータセットである。
AAAR-1.0は、以前のベンチマークと大きく異なる2つの主要な方法である: 第一に、明らかに研究指向で、深いドメインの専門知識を必要とするタスク、第二に、研究者が日々従事する主要なアクティビティを反映する研究者指向である。
論文 参考訳(メタデータ) (2024-10-29T17:58:29Z) - What is the Role of Large Language Models in the Evolution of Astronomy Research? [0.0]
ChatGPTや他の最先端の大規模言語モデル(LLM)は、急速に複数のフィールドを変換している。
これらのモデルは、一般に広大なデータセットに基づいて訓練され、人間のようなテキスト生成能力を示す。
論文 参考訳(メタデータ) (2024-09-30T12:42:25Z) - Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers [90.26363107905344]
大型言語モデル(LLM)は、科学的な発見を加速する可能性についての楽観主義を喚起した。
LLMシステムは、新しい専門家レベルのアイデアを生み出すための第一歩を踏み出すことができるという評価はない。
論文 参考訳(メタデータ) (2024-09-06T08:25:03Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。