論文の概要: Characterizing Knowledge Graph Tasks in LLM Benchmarks Using Cognitive Complexity Frameworks
- arxiv url: http://arxiv.org/abs/2509.19347v1
- Date: Wed, 17 Sep 2025 08:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.500057
- Title: Characterizing Knowledge Graph Tasks in LLM Benchmarks Using Cognitive Complexity Frameworks
- Title(参考訳): 認知複雑度フレームワークを用いたLLMベンチマークにおける知識グラフタスクの特徴付け
- Authors: Sara Todorovikj, Lars-Peter Meyer, Michael Martin,
- Abstract要約: 大きな言語モデル(LLM)は知識グラフ(KG)に関わるタスクにますます使われています。
本稿では,認知心理学からの3つの複雑性フレームワークを用いた補完的タスクキャラクタリゼーション手法を提案する。
LLM-KG-Benchフレームワークにこれを適用して、価値分布を強調し、不足した要求を特定し、ベンチマーク評価タスクのより豊かな解釈と多様性を動機付ける。
- 参考スコア(独自算出の注目度): 0.13108652488669734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for tasks involving Knowledge Graphs (KGs), whose evaluation typically focuses on accuracy and output correctness. We propose a complementary task characterization approach using three complexity frameworks from cognitive psychology. Applying this to the LLM-KG-Bench framework, we highlight value distributions, identify underrepresented demands and motivate richer interpretation and diversity for benchmark evaluation tasks.
- Abstract(参考訳): 大きな言語モデル (LLMs) は知識グラフ (KGs) を含むタスクにますます使われており、その評価は通常、正確さと出力の正確性に重点を置いている。
本稿では,認知心理学からの3つの複雑性フレームワークを用いた補完的タスクキャラクタリゼーション手法を提案する。
LLM-KG-Benchフレームワークにこれを適用して、価値分布を強調し、不足した要求を特定し、ベンチマーク評価タスクのより豊かな解釈と多様性を動機付ける。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data [14.328402787379538]
本稿では,自然言語インタラクションによる知識管理プラットフォームである AgentiGraph (タスクベースインタラクションとグラフィカル表現のための適応生成ENgine) を紹介する。
AgentiGraphはマルチエージェントアーキテクチャを使用して、ユーザの意図を動的に解釈し、タスクを管理し、新しい知識を統合する。
3,500のテストケースのデータセットの実験結果から、AgentiGraphは最先端のゼロショットベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-15T12:05:58Z) - TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [12.143152327874802]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。
本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-30T22:31:19Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。