論文の概要: WildIFEval: Instruction Following in the Wild
- arxiv url: http://arxiv.org/abs/2503.06573v1
- Date: Sun, 09 Mar 2025 12:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.494849
- Title: WildIFEval: Instruction Following in the Wild
- Title(参考訳): WildIFEval: 野生での指示
- Authors: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor,
- Abstract要約: WildIFEval - 多様なマルチ制約条件を持つ12K実ユーザ命令の大規模データセット。
従来のデータセットとは異なり、私たちのコレクションは、自然なユーザプロンプトにおいて、幅広い語彙とトピックの制約の範囲にまたがっています。
これらの制約を8つの高レベルクラスに分類し、実世界のシナリオにおける分布とダイナミクスを捉える。
- 参考スコア(独自算出の注目度): 4.5214954812238295
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent LLMs have shown remarkable success in following user instructions, yet handling instructions with multiple constraints remains a significant challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K real user instructions with diverse, multi-constraint conditions. Unlike prior datasets, our collection spans a broad lexical and topical spectrum of constraints, in natural user prompts. We categorize these constraints into eight high-level classes to capture their distribution and dynamics in real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments to benchmark the instruction-following capabilities of leading LLMs. Our findings reveal that all evaluated models experience performance degradation with an increasing number of constraints. Thus, we show that all models have a large room for improvement on such tasks. Moreover, we observe that the specific type of constraint plays a critical role in model performance. We release our dataset to promote further research on instruction-following under complex, realistic conditions.
- Abstract(参考訳): 近年のLSMはユーザ命令に従うことに顕著な成功を収めているが、命令を複数の制約で処理することは大きな課題である。
本研究では,WildIFEvalについて紹介する。WildIFEval – 多様なマルチ制約条件を備えた,12K実ユーザ命令の大規模データセット。
従来のデータセットとは異なり、私たちのコレクションは、自然なユーザプロンプトにおいて、幅広い語彙とトピックの制約の範囲にまたがっています。
これらの制約を8つの高レベルクラスに分類し、実世界のシナリオにおける分布とダイナミクスを捉える。
WildIFEvalを活用することで、LLMの命令追従能力をベンチマークする広範囲な実験を行う。
以上の結果から, 評価モデルはすべて性能劣化を経験し, 制約数の増加が示唆された。
したがって、全てのモデルにそのようなタスクを改善するための大きなスペースがあることが示される。
さらに、モデル性能において、特定のタイプの制約が重要な役割を果たすことを観察する。
我々は,複雑で現実的な条件下での指示追従に関するさらなる研究を促進するために,データセットをリリースする。
関連論文リスト
- Federated Continual Instruction Tuning [39.344583304181135]
フェデレートラーニング(FL)は、すべての分散データとトレーニングリソースを活用して、共同トレーニングのオーバーヘッドを軽減する可能性がある。
我々は,この現実的な課題をモデル化するために,FCIT(Federated Continual Instruction Tuning)ベンチマークを導入する。
提案手法は, 様々なレベルのデータと大惨な忘れを伴って, モデル性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-17T07:58:06Z) - Order Matters: Investigate the Position Bias in Multi-constraint Instruction Following [39.114513139453756]
複数の制約を持つ実世界の命令は、既存の大規模言語モデル(LLM)に重大な課題をもたらす。
我々は,CDDI(Difficulty Distribution Index)による制約の難易度分布を定量的に測定する。
難解な順序で制約を提示した場合, LLM はより高性能であることが判明した。
論文 参考訳(メタデータ) (2025-02-24T14:39:28Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models [67.15146980023621]
WarriorCoderは、専門家の戦いから学んだ新しいパラダイムで、現在のアプローチの限界に対処する。
我々は、専門家のLLMが互いに挑戦する場を作り、公平な審査員による評価を行う。
この競争フレームワークは、すべての参加者の強みを活用して、ゼロから新しいトレーニングデータを生成する。
論文 参考訳(メタデータ) (2024-12-23T08:47:42Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models [23.17547206140014]
大規模言語モデルのための命令チューニングデータセットであるConiferを紹介する。
複雑な制約のある命令に従うために、Coniferでモデルをトレーニングします。
いくつかのインストラクション追従ベンチマークでは、我々の7Bモデルは最先端のオープンソース7Bモデルよりも優れています。
論文 参考訳(メタデータ) (2024-04-03T15:55:39Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - A Simple and Effective Framework for Strict Zero-Shot Hierarchical
Classification [23.109264015761873]
大規模言語モデル(LLM)は、特にゼロまたは少数ショット設定において、ベンチマークタスクで強力なパフォーマンスを達成した。
階層的なデータセットに対して,より示唆的なロングテール予測タスクを提案する。
本手法は,リソース集約的なプロセスである更新を一切必要とせず,複数のデータセットにまたがる高いパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-24T16:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。