論文の概要: AnalyticsGPT: An LLM Workflow for Scientometric Question Answering
- arxiv url: http://arxiv.org/abs/2602.09817v1
- Date: Tue, 10 Feb 2026 14:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.576959
- Title: AnalyticsGPT: An LLM Workflow for Scientometric Question Answering
- Title(参考訳): AnalyticsGPT:Scientometric Question AnsweringのためのLLMワークフロー
- Authors: Khang Ly, Georgios Cheirmpos, Adrian Raudaschl, Christopher James, Seyed Amin Tabatabaei,
- Abstract要約: AnalyticsGPTは、科学的質問応答のための、直感的で効率的な大規模言語モデル(LLM)ベースのワークフローである。
本稿では,直感的で効率的な大規模言語モデル (LLM) を用いた科学的な質問応答のためのワークフローであるAnalyticsGPTを紹介する。
- 参考スコア(独自算出の注目度): 1.5658704610960574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces AnalyticsGPT, an intuitive and efficient large language model (LLM)-powered workflow for scientometric question answering. This underrepresented downstream task addresses the subcategory of meta-scientific questions concerning the "science of science." When compared to traditional scientific question answering based on papers, the task poses unique challenges in the planning phase. Namely, the need for named-entity recognition of academic entities within questions and multi-faceted data retrieval involving scientometric indices, e.g. impact factors. Beyond their exceptional capacity for treating traditional natural language processing tasks, LLMs have shown great potential in more complex applications, such as task decomposition and planning and reasoning. In this paper, we explore the application of LLMs to scientometric question answering, and describe an end-to-end system implementing a sequential workflow with retrieval-augmented generation and agentic concepts. We also address the secondary task of effectively synthesizing the data into presentable and well-structured high-level analyses. As a database for retrieval-augmented generation, we leverage a proprietary research performance assessment platform. For evaluation, we consult experienced subject matter experts and leverage LLMs-as-judges. In doing so, we provide valuable insights on the efficacy of LLMs towards a niche downstream task. Our (skeleton) code and prompts are available at: https://github.com/lyvykhang/llm-agents-scientometric-qa/tree/acl.
- Abstract(参考訳): 本稿では,直感的で効率的な大規模言語モデル (LLM) を用いた科学的な質問応答のためのワークフローであるAnalyticsGPTを紹介する。
この下流の課題は「科学の科学」に関するメタ科学的疑問のサブカテゴリに対処するものである。
論文に基づく従来の科学的質問応答と比較すると、このタスクは計画段階でユニークな課題を提起する。
すなわち、質問における学術的実体の匿名性認識の必要性と、科学的指標、例えば影響要因を含む多面的データ検索の必要性である。
従来の自然言語処理タスクを処理できる特別な能力に加えて、LLMはタスクの分解や計画、推論といった複雑なアプリケーションにも大きな可能性を示してきた。
本稿では, LLMの科学的質問応答への応用について検討し, 検索およびエージェントの概念を付加した逐次ワークフローを実装したエンドツーエンドシステムについて述べる。
また、データを提示可能な高次分析に効果的に合成する二次的な課題にも対処する。
検索強化世代のためのデータベースとして,プロプライエタリな研究性能評価プラットフォームを活用している。
評価のために、経験者の課題の専門家に相談し、LSMs-as-judgesを活用する。
そこで我々は,LLMのニッチ下流タスクに対する有効性に関する貴重な知見を提供する。
私たちの(スケルトン)コードとプロンプトは、https://github.com/lyvykhang/llm-agents-scientometric-qa/tree/aclで利用可能です。
関連論文リスト
- Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - Towards LLM-Powered Task-Aware Retrieval of Scientific Workflows for Galaxy [5.3326639738035055]
本稿では,高密度ベクトル探索と大規模言語モデル(LLM)を併用したタスク認識2段階検索フレームワークを提案する。
提案システムはまず,最先端の埋め込みモデルを用いて候補を検索し,次に命令調整型生成LDMを用いて再帰する。
我々は、標準赤外線測定値を用いて、語彙、密度、階調モデルの総合的な比較を行い、銀河生態系における検索性能の最初の体系的評価を提示する。
論文 参考訳(メタデータ) (2025-11-03T17:12:03Z) - LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - DEEPQUESTION: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance [3.9770095824794516]
私たちは、Bloomの分類に基づいて既存のデータセットを拡張するスケーラブルな自動化フレームワークであるDeepQuestionを紹介します。
我々は,高次タスクにおいて高い性能低下(最大70%の精度低下)を示し,深い推論において持続的なギャップを減らした。
論文 参考訳(メタデータ) (2025-05-30T12:39:42Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - CuriousLLM: Elevating Multi-Document Question Answering with LLM-Enhanced Knowledge Graph Reasoning [0.9295048974480845]
我々は、好奇心駆動推論機構をLLMエージェントに統合する拡張であるCuriousLLMを提案する。
この機構により、エージェントは関連するフォローアップ質問を生成し、情報検索プロセスをより効率的に導くことができる。
実験の結果,CuriousLLMは多文書質問応答(MD-QA)におけるLLM性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-13T20:43:46Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。