論文の概要: WildIFEval: Instruction Following in the Wild
- arxiv url: http://arxiv.org/abs/2503.06573v1
- Date: Sun, 09 Mar 2025 12:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:31.511445
- Title: WildIFEval: Instruction Following in the Wild
- Title(参考訳): WildIFEval: 野生での指示
- Authors: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor,
- Abstract要約: WildIFEval - 多様なマルチ制約条件を持つ12K実ユーザ命令の大規模データセット。
従来のデータセットとは異なり、私たちのコレクションは、自然なユーザプロンプトにおいて、幅広い語彙とトピックの制約の範囲にまたがっています。
これらの制約を8つの高レベルクラスに分類し、実世界のシナリオにおける分布とダイナミクスを捉える。
- 参考スコア(独自算出の注目度): 4.5214954812238295
- License:
- Abstract: Recent LLMs have shown remarkable success in following user instructions, yet handling instructions with multiple constraints remains a significant challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K real user instructions with diverse, multi-constraint conditions. Unlike prior datasets, our collection spans a broad lexical and topical spectrum of constraints, in natural user prompts. We categorize these constraints into eight high-level classes to capture their distribution and dynamics in real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments to benchmark the instruction-following capabilities of leading LLMs. Our findings reveal that all evaluated models experience performance degradation with an increasing number of constraints. Thus, we show that all models have a large room for improvement on such tasks. Moreover, we observe that the specific type of constraint plays a critical role in model performance. We release our dataset to promote further research on instruction-following under complex, realistic conditions.
- Abstract(参考訳): 近年のLSMはユーザ命令に従うことに顕著な成功を収めているが、命令を複数の制約で処理することは大きな課題である。
本研究では,WildIFEvalについて紹介する。WildIFEval – 多様なマルチ制約条件を備えた,12K実ユーザ命令の大規模データセット。
従来のデータセットとは異なり、私たちのコレクションは、自然なユーザプロンプトにおいて、幅広い語彙とトピックの制約の範囲にまたがっています。
これらの制約を8つの高レベルクラスに分類し、実世界のシナリオにおける分布とダイナミクスを捉える。
WildIFEvalを活用することで、LLMの命令追従能力をベンチマークする広範囲な実験を行う。
以上の結果から, 評価モデルはすべて性能劣化を経験し, 制約数の増加が示唆された。
したがって、全てのモデルにそのようなタスクを改善するための大きなスペースがあることが示される。
さらに、モデル性能において、特定のタイプの制約が重要な役割を果たすことを観察する。
我々は,複雑で現実的な条件下での指示追従に関するさらなる研究を促進するために,データセットをリリースする。
関連論文リスト
- The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Enhancing Unsupervised Graph Few-shot Learning via Set Functions and Optimal Transport [23.36436403062214]
グラフ数ショット学習モデルの最近の進歩は、様々なアプリケーションにまたがって優れた性能を示している。
本稿では,教師なしグラフ数ショット学習を強化するSTARという新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T00:42:27Z) - Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models [39.114513139453756]
大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。
高品質な出力を持つデータセットを自動構築するパイプラインを設計する。
データ構築プロセス中に発生する正と負のサンプルを十分に活用するために、トレーニング手法として直接選好最適化(DPO)を選択する。
我々は,LLMのソフト制約追従能力を向上させるための手法の有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-01-09T03:34:07Z) - WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models [67.15146980023621]
WarriorCoderは、専門家の戦いから学んだ新しいパラダイムで、現在のアプローチの限界に対処する。
我々は、専門家のLLMが互いに挑戦する場を作り、公平な審査員による評価を行う。
この競争フレームワークは、すべての参加者の強みを活用して、ゼロから新しいトレーニングデータを生成する。
論文 参考訳(メタデータ) (2024-12-23T08:47:42Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models [23.17547206140014]
大規模言語モデルのための命令チューニングデータセットであるConiferを紹介する。
複雑な制約のある命令に従うために、Coniferでモデルをトレーニングします。
いくつかのインストラクション追従ベンチマークでは、我々の7Bモデルは最先端のオープンソース7Bモデルよりも優れています。
論文 参考訳(メタデータ) (2024-04-03T15:55:39Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - A Simple and Effective Framework for Strict Zero-Shot Hierarchical
Classification [23.109264015761873]
大規模言語モデル(LLM)は、特にゼロまたは少数ショット設定において、ベンチマークタスクで強力なパフォーマンスを達成した。
階層的なデータセットに対して,より示唆的なロングテール予測タスクを提案する。
本手法は,リソース集約的なプロセスである更新を一切必要とせず,複数のデータセットにまたがる高いパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-24T16:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。