論文の概要: StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
- arxiv url: http://arxiv.org/abs/2502.14494v2
- Date: Fri, 30 May 2025 04:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.13844
- Title: StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
- Title(参考訳): StructFlowBench: マルチターン命令追従のための構造化フローベンチマーク
- Authors: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu,
- Abstract要約: マルチターン命令追従能力は、現実世界のアプリケーションにおいて、大規模言語モデル(LLM)のコア能力を構成する。
既存の評価ベンチマークは、マルチターンとシングルターンの相互作用を区別するダイアログ間の重要な構造的依存関係を見落としている。
構造フローモデリングを用いたマルチターンインストラクションであるStructFlowBenchを提案する。
- 参考スコア(独自算出の注目度): 13.077503628759446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn instruction following capability constitutes a core competency of large language models (LLMs) in real-world applications. Existing evaluation benchmarks predominantly focus on fine-grained constraint satisfaction and domain-specific capability assessment, yet overlook the crucial structural dependencies between dialogue turns that distinguish multi-turn from single-turn interactions. These structural dependencies not only reflect user intent but also establish an essential second dimension for the instruction following evaluation beyond constraint satisfaction. To address this gap, we propose StructFlowBench, a multi-turn instruction following benchmark with structural flow modeling. The benchmark defines an innovative structural flow framework with six fundamental inter-turn relationships. These relationships introduce novel structural constraints for model evaluation and also serve as generation parameters for creating customized dialogue flows tailored to specific scenarios. Adopting established LLM-based automatic evaluation methodologies, we conduct systematic evaluations of 13 leading open-source and closed-source LLMs. Experimental results reveal significant deficiencies in current models' comprehension of multi-turn dialogue structures. The code is available at https://github.com/MLGroupJLU/StructFlowBench.
- Abstract(参考訳): マルチターン命令追従能力は、現実世界のアプリケーションにおいて、大規模言語モデル(LLM)のコア能力を構成する。
既存の評価ベンチマークは主にきめ細かな制約満足度とドメイン固有の能力評価に重点を置いているが、対話間の重要な構造的依存関係を見落としている。
これらの構造的依存関係は、ユーザの意図を反映するだけでなく、制約満足度を超えた評価に続く命令に不可欠な第2次元を確立する。
このギャップに対処するため,構造フローモデリングを用いたマルチターンインストラクションであるStructFlowBenchを提案する。
このベンチマークでは、6つの基本的なターン間関係を持つ革新的な構造フローフレームワークを定義している。
これらの関係は、モデル評価のための新しい構造的制約を導入し、特定のシナリオに合わせてカスタマイズされた対話フローを作成するための生成パラメータとして機能する。
確立されたLLMに基づく自動評価手法を採用し,13のオープンソースおよびクローズドソースLCMの系統的評価を行う。
実験結果から,現在のモデルでは多ターン対話構造が理解できないことが明らかとなった。
コードはhttps://github.com/MLGroupJLU/StructFlowBenchで公開されている。
関連論文リスト
- WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Neural Contextual Reinforcement Framework for Logical Structure Language Generation [1.08272575635683]
このフレームワークはカスタム報酬関数と動的コンテキストアライメント機構を統合している。
論理構造やセマンティックフローに対する人間の期待と密接に一致した出力を生成する。
さまざまなモデルサイズにわたるノイズの多い入力データとスケーラビリティを扱う上で、堅牢性を示す。
論文 参考訳(メタデータ) (2025-01-20T11:34:28Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。
StructTestが一般的な推論能力のよいプロキシであることを示す。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models [62.98273649512654]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T18:51:18Z) - A Large Language Model and Denoising Diffusion Framework for Targeted Design of Microstructures with Commands in Natural Language [0.0]
自然言語処理(NLP)、大言語モデル(LLM)、拡散確率モデル(DDPM)を統合したフレームワークを提案する。
我々のフレームワークは、事前訓練されたLLMによって駆動されるコンテキストデータ拡張を用いて、多様なマイクロ構造記述子のデータセットを生成し、拡張する。
再学習されたNERモデルは、ユーザが提供する自然言語入力から関連するマイクロ構造記述子を抽出し、DDPMによってターゲットとなる機械的特性とトポロジ的特徴を持つマイクロ構造を生成する。
論文 参考訳(メタデータ) (2024-09-22T14:45:22Z) - Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries [54.325172923155414]
ミケランジェロ(Michelangelo)は、大規模言語モデルに対する最小限の、合成的で、未学習の長文推論評価である。
この評価は、任意に長いコンテキストに対する評価のための、新しく統一された枠組みによって導出される。
論文 参考訳(メタデータ) (2024-09-19T10:38:01Z) - An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。
これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。
特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T22:10:52Z) - SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。
我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文 参考訳(メタデータ) (2024-02-01T18:50:50Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。