論文の概要: LitBench: A Graph-Centric Large Language Model Benchmarking Tool For Literature Tasks
- arxiv url: http://arxiv.org/abs/2603.00051v1
- Date: Tue, 10 Feb 2026 04:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.001156
- Title: LitBench: A Graph-Centric Large Language Model Benchmarking Tool For Literature Tasks
- Title(参考訳): LitBench: グラフ中心の大規模言語モデルベンチマークツール
- Authors: Andreas Varvarigos, Ali Maatouk, Jiasheng Zhang, Ngoc Bui, Jialin Chen, Leandros Tassiulas, Rex Ying,
- Abstract要約: 本稿では,ドメイン固有言語モデルの開発と評価を可能にするベンチマークツールLitBenchを紹介する。
LitBenchの中核となるのは、ドメイン固有の文学のサブグラフを生成するデータキュレーションプロセスである。
データセットのキュレーションに加えて、LitBenchは、ノードやエッジレベルの分析から高度なアプリケーションまで、包括的な文学タスクスイートを定義している。
- 参考スコア(独自算出の注目度): 31.14225125626119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have become the de facto framework for literature-related tasks, they still struggle to function as domain-specific literature agents due to their inability to connect pieces of knowledge and reason across domain-specific contexts, terminologies, and nomenclatures. This challenge underscores the need for a tool that facilitates such domain-specific adaptation and enables rigorous benchmarking across literature tasks. To that end, we introduce LitBench, a benchmarking tool designed to enable the development and evaluation of domain-specific LLMs tailored to literature-related tasks. At its core, LitBench uses a data curation process that generates domain-specific literature sub-graphs and constructs training and evaluation datasets based on the textual attributes of the resulting nodes and edges. The tool is designed for flexibility, supporting the curation of literature graphs across any domain chosen by the user, whether high-level fields or specialized interdisciplinary areas. In addition to dataset curation, LitBench defines a comprehensive suite of literature tasks, ranging from node and edge level analyses to advanced applications such as related work generation. These tasks enable LLMs to internalize domain-specific knowledge and relationships embedded in the curated graph during training, while also supporting rigorous evaluation of model performance. Our results show that small domain-specific LLMs trained and evaluated on LitBench datasets achieve competitive performance compared to state-of-the-art models like GPT-4o and DeepSeek-R1. To enhance accessibility and ease of use, we open-source the tool along with an AI agent tool that streamlines data curation, model training, and evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文学関連のタスクのデファクトフレームワークとなっているが、ドメイン固有のコンテキスト、用語、命名法をまたいで知識と推論を接続できないため、ドメイン固有の文献エージェントとして機能することは依然として困難である。
この課題は、そのようなドメイン固有の適応を促進し、文学タスク間の厳密なベンチマークを可能にするツールの必要性を強調している。
そこで本研究では,文献関連タスクに適したドメイン固有LLMの開発と評価を可能にするベンチマークツールLitBenchを紹介する。
中心となるLitBenchは、ドメイン固有の文学サブグラフを生成するデータキュレーションプロセスを使用して、結果のノードとエッジのテキスト属性に基づいて、トレーニングと評価データセットを構築する。
このツールは柔軟性のために設計されており、ハイレベルなフィールドや専門分野の分野を問わず、ユーザが選択したドメインをまたいだ文学グラフのキュレーションをサポートする。
データセットのキュレーションに加えて、LitBenchは、ノードとエッジレベルの分析から、関連するワーク生成のような高度なアプリケーションまで、包括的な文学タスクスイートを定義している。
これらのタスクにより、LLMはトレーニング中にキュレートされたグラフに埋め込まれたドメイン固有の知識や関係を内部化し、モデル性能の厳密な評価をサポートすることができる。
GPT-4o や DeepSeek-R1 のような最先端モデルと比較して,LitBench データセットをトレーニングし,評価した小さなドメイン固有 LLM が競争力を発揮することを示す。
アクセシビリティと使いやすさを高めるため、私たちは、データキュレーション、モデルトレーニング、評価を効率化するAIエージェントツールとともに、ツールをオープンソース化しました。
関連論文リスト
- Toward Purpose-oriented Topic Model Evaluation enabled by Large Language Models [0.8193467416247519]
トピック品質の4つの重要な側面にまたがる9つのLarge Language Models(LLM)ベースのメトリクスを利用する目的指向評価フレームワークを導入する。
このフレームワークは、敵対的およびサンプリングベースのプロトコルを通じて検証され、ニュース記事、学術出版物、ソーシャルメディア投稿にまたがるデータセットに適用される。
論文 参考訳(メタデータ) (2025-09-08T18:46:08Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - LITA: An Efficient LLM-assisted Iterative Topic Augmentation Framework [0.0]
大きな言語モデル(LLM)は動的トピックの洗練と発見の可能性を秘めている。
これらの課題に対処するため、LLM支援反復トピック拡張フレームワーク(LITA)を提案する。
LITAは、ユーザが提供するシードと埋め込みベースのクラスタリングと反復的な改良を統合している。
論文 参考訳(メタデータ) (2024-12-17T01:43:44Z) - LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models [4.1180254968265055]
LLM-Refは、研究者が複数のソース文書から記事を書くのを補助する記述支援ツールである。
チャンキングとインデックスを使用する従来のRAGシステムとは異なり、私たちのツールはテキスト段落から直接コンテンツを検索し、生成します。
我々の手法は、RAGシステムの正確で関連性があり、文脈的に適切な応答を生成する能力の全体像を提供する総合的な指標である、Ragasスコアの3.25タイムから6.26タイムの上昇を達成する。
論文 参考訳(メタデータ) (2024-11-01T01:11:58Z) - Empowering Domain-Specific Language Models with Graph-Oriented Databases: A Paradigm Shift in Performance and Model Maintenance [0.0]
私たちの作業は、特定のアプリケーションドメインに固有の、大量の短いテキストドキュメントを管理し、処理する必要があることによるものです。
ドメイン固有の知識と専門知識を活用することで、このアプローチは、これらのドメイン内の実データを形成することを目的としています。
我々の研究は、ドメイン固有言語モデルとグラフ指向データベースのパートナーシップの変革の可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T19:02:09Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。