Fugu-MT 論文翻訳(概要): HiBench: Benchmarking LLMs Capability on Hierarchical Structure Reasoning

論文の概要: HiBench: Benchmarking LLMs Capability on Hierarchical Structure Reasoning

arxiv url: http://arxiv.org/abs/2503.00912v1
Date: Sun, 02 Mar 2025 14:25:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.678124
Title: HiBench: Benchmarking LLMs Capability on Hierarchical Structure Reasoning
Title（参考訳）: HiBench: 階層構造推論におけるLLMのベンチマーク機能
Authors: Zhuohang Jiang, Pangjing Wu, Ziran Liang, Peter Q. Chen, Xu Yuan, Ye Jia, Jiancheng Tu, Chen Li, Peter H. F. Ng, Qing Li,
Abstract要約: 構造推論のための既存のベンチマークは主に水平構造と座標構造に焦点を当てている。 HiBenchは、最初の構造生成から最終的な熟練度評価まで、最初のフレームワークである。 30のタスクで構成され、総クエリ数は39,519である。
参考スコア（独自算出の注目度）: 25.088407009353162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Structure reasoning is a fundamental capability of large language models (LLMs), enabling them to reason about structured commonsense and answer multi-hop questions. However, existing benchmarks for structure reasoning mainly focus on horizontal and coordinate structures (\emph{e.g.} graphs), overlooking the hierarchical relationships within them. Hierarchical structure reasoning is crucial for human cognition, particularly in memory organization and problem-solving. It also plays a key role in various real-world tasks, such as information extraction and decision-making. To address this gap, we propose HiBench, the first framework spanning from initial structure generation to final proficiency assessment, designed to benchmark the hierarchical reasoning capabilities of LLMs systematically. HiBench encompasses six representative scenarios, covering both fundamental and practical aspects, and consists of 30 tasks with varying hierarchical complexity, totaling 39,519 queries. To evaluate LLMs comprehensively, we develop five capability dimensions that depict different facets of hierarchical structure understanding. Through extensive evaluation of 20 LLMs from 10 model families, we reveal key insights into their capabilities and limitations: 1) existing LLMs show proficiency in basic hierarchical reasoning tasks; 2) they still struggle with more complex structures and implicit hierarchical representations, especially in structural modification and textual reasoning. Based on these findings, we create a small yet well-designed instruction dataset, which enhances LLMs' performance on HiBench by an average of 88.84\% (Llama-3.1-8B) and 31.38\% (Qwen2.5-7B) across all tasks. The HiBench dataset and toolkit are available here, https://github.com/jzzzzh/HiBench, to encourage evaluation.
Abstract（参考訳）: 構造推論は大規模言語モデル(LLM)の基本機能であり、構造化コモンセンスを推論し、マルチホップの質問に答えることを可能にする。しかし、構造推論のための既存のベンチマークは主に水平および座標構造(\emph{e g } グラフ)に焦点を当て、その内部の階層的関係を見渡す。階層構造推論は人間の認知、特に記憶の組織化と問題解決に不可欠である。また、情報抽出や意思決定など、様々な現実世界のタスクにおいて重要な役割を果たす。このギャップに対処するために,LLMの階層的推論能力を体系的にベンチマークするために設計された,初期構造生成から最終熟練度評価までの最初のフレームワークであるHiBenchを提案する。 HiBenchは6つの代表的なシナリオを含み、基本的な側面と実践的な側面の両方をカバーし、30のタスクから構成される。 LLMを包括的に評価するために,階層構造理解の異なる面を表す5つの機能次元を開発した。 10のモデルファミリーから20のLLMを広範囲に評価することで、その能力と限界に関する重要な洞察を明らかにします。 1) 既存のLCMは,基本的階層的推論タスクの習熟度を示す。 2) より複雑な構造や暗黙的な階層的表現,特に構造的修飾やテキスト的推論に苦慮している。これらの結果に基づいて、HiBench上でのLLMのパフォーマンスを平均88.84\%(Llama-3.1-8B)、全タスクで31.38\%(Qwen2.5-7B)向上させる、小さく、よく設計された命令データセットを作成する。 HiBenchデータセットとツールキットは、評価を促進するためにhttps://github.com/jzzzzh/HiBenchで入手できる。

関連論文リスト

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Reasoning Factual Knowledge in Structured Data with Large Language Models [26.00548862629018]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な進歩を遂げている。構造化データには、事前学習に使われる非構造化テキストとは異なる独特の特徴がある。本研究では,LLMの構造的推論能力を評価するためにStructFactというベンチマークを提案する。
論文参考訳（メタデータ） (2024-08-22T08:05:09Z)
Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。本稿では,コンテキスト構造化という新しい概念を提案する。具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文参考訳（メタデータ） (2024-07-23T12:33:58Z)
Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason' 構造化データをグラフ埋め込みを用いて位相空間にエンコードする。行方不明のエンティティ情報を知識検索モジュールで埋める。最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文参考訳（メタデータ） (2024-07-17T13:06:25Z)
StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text [29.03935605732864]
我々はStrucText-Evalという,構造化テキストによる大規模言語モデルの理解と推論の精度を評価するベンチマークを紹介した。オープンソース LLM が標準データセットで74.9% の最大精度を達成する一方で、そのパフォーマンスはより難しいデータセットで45.8% に大幅に低下していることを示す。対照的に、人間の参加者はStrucText-Eval-Hardで92.6%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。
論文参考訳（メタデータ） (2024-06-15T12:48:00Z)
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-02-26T15:47:01Z)
Large Language Model-driven Meta-structure Discovery in Heterogeneous Information Network [29.149367323751413]
進化過程に推論を統合するメタ構造探索フレームワークReStructを提案する。 ReStructは推薦タスクとノード分類タスクの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-02-18T09:21:12Z)
Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-06T01:13:53Z)
Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文参考訳（メタデータ） (2023-10-09T06:57:45Z)
Structural Concept Learning via Graph Attention for Multi-Level Rearrangement Planning [2.7195102129095003]
本稿では,階層構造を持つシーンに対して,複数レベルのオブジェクトアレンジメント計画を実行するためのディープラーニング手法を提案する。直感的な構造を持つ自己生成シミュレーションデータセットでトレーニングされ、任意の数のオブジェクトで見えないシーンで動作する。提案手法を古典的およびモデルベースラインの範囲と比較し,そのシーン理解を活用して性能,柔軟性,効率性を向上することを示す。
論文参考訳（メタデータ） (2023-09-05T19:35:44Z)
StructGPT: A General Framework for Large Language Model to Reason over Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-16T17:45:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。