論文の概要: StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
- arxiv url: http://arxiv.org/abs/2502.14494v1
- Date: Thu, 20 Feb 2025 12:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:02.759536
- Title: StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
- Title(参考訳): StructFlowBench: マルチターン命令追従のための構造化フローベンチマーク
- Authors: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu,
- Abstract要約: マルチターン命令追従能力は、大規模言語モデルのコア能力を構成する。
構造フローモデリングを用いたマルチターンインストラクションであるStructFlowBenchを提案する。
- 参考スコア(独自算出の注目度): 13.077503628759446
- License:
- Abstract: Multi-turn instruction following capability constitutes a core competency of large language models (LLMs) in real-world applications. Existing evaluation benchmarks predominantly focus on fine-grained constraint satisfaction and domain-specific capability assessment, yet overlook the crucial structural dependency between dialogue turns that distinguishes multi-turn from single-turn interactions. This structural dependency not only reflects user intent but also establishes a second dimension for instruction following evaluation beyond constraint satisfaction. To address this gap, we propose StructFlowBench, a multi-turn instruction following benchmark with structural flow modeling. The benchmark innovatively defines a structural flow framework comprising six fundamental inter-turn relationships, which not only introduces novel structural constraints for model evaluation but also serves as generation parameters for creating customized dialogue flows tailored to specific scenarios. Adopting established LLM-based automatic evaluation methodologies, we conduct systematic evaluations of 13 leading open-source and closed-source LLMs. Experimental results reveal significant deficiencies in current models' comprehension of multi-turn dialogue structures. The code is available at \url{https://github.com/MLGroupJLU/StructFlowBench}.
- Abstract(参考訳): マルチターン命令追従能力は、現実世界のアプリケーションにおいて、大規模言語モデル(LLM)のコア能力を構成する。
既存の評価ベンチマークは、細かな制約満足度とドメイン固有の能力評価に重点を置いているが、マルチターンとシングルターンの相互作用を区別するダイアログ間の重要な構造的依存関係を見落としている。
この構造的依存関係は、ユーザの意図を反映するだけでなく、制約満足度を超えた評価に続く2番目のディメンションも確立する。
このギャップに対処するため,構造フローモデリングを用いたマルチターンインストラクションであるStructFlowBenchを提案する。
このベンチマークは、モデル評価のための新しい構造的制約を導入するだけでなく、特定のシナリオに合わせてカスタマイズされた対話フローを作成するための生成パラメータとして機能する、6つの基本的なターン間関係からなる構造的フローフレームワークを革新的に定義している。
確立されたLLMに基づく自動評価手法を採用し,13のオープンソースおよびクローズドソースLCMの系統的評価を行う。
実験結果から,現在のモデルでは多ターン対話構造が理解できないことが明らかとなった。
コードは \url{https://github.com/MLGroupJLU/StructFlowBench} で公開されている。
関連論文リスト
- DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models [62.98273649512654]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T18:51:18Z) - A Large Language Model and Denoising Diffusion Framework for Targeted Design of Microstructures with Commands in Natural Language [0.0]
自然言語処理(NLP)、大言語モデル(LLM)、拡散確率モデル(DDPM)を統合したフレームワークを提案する。
我々のフレームワークは、事前訓練されたLLMによって駆動されるコンテキストデータ拡張を用いて、多様なマイクロ構造記述子のデータセットを生成し、拡張する。
再学習されたNERモデルは、ユーザが提供する自然言語入力から関連するマイクロ構造記述子を抽出し、DDPMによってターゲットとなる機械的特性とトポロジ的特徴を持つマイクロ構造を生成する。
論文 参考訳(メタデータ) (2024-09-22T14:45:22Z) - Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries [54.325172923155414]
ミケランジェロ(Michelangelo)は、大規模言語モデルに対する最小限の、合成的で、未学習の長文推論評価である。
この評価は、任意に長いコンテキストに対する評価のための、新しく統一された枠組みによって導出される。
論文 参考訳(メタデータ) (2024-09-19T10:38:01Z) - StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation [46.59416831869014]
本稿では,StructEvalと呼ばれる新しい評価フレームワークを提案する。
原子テストの目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張する。
広く使用されている3つのベンチマークの実験は、StructEvalがデータ汚染のリスクに抵抗する信頼性の高いツールであることを示している。
論文 参考訳(メタデータ) (2024-08-06T16:28:30Z) - An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。
これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。
特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T22:10:52Z) - SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。
我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文 参考訳(メタデータ) (2024-02-01T18:50:50Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。