論文の概要: Can Large Language Models Understand Real-World Complex Instructions?
- arxiv url: http://arxiv.org/abs/2309.09150v2
- Date: Mon, 8 Jan 2024 07:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:00:22.737347
- Title: Can Large Language Models Understand Real-World Complex Instructions?
- Title(参考訳): 大規模言語モデルは実世界の複雑な命令を理解することができるか?
- Authors: Qianyu He, Jie Zeng, Wenhao Huang, Lina Chen, Jin Xiao, Qianxi He,
Xunzhe Zhou, Lida Chen, Xintao Wang, Yuncheng Huang, Haoning Ye, Zihan Li,
Shisong Chen, Yikai Zhang, Zhouhong Gu, Jiaqing Liang, Yanghua Xiao
- Abstract要約: 大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
- 参考スコア(独自算出の注目度): 54.86632921036983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can understand human instructions, showing their
potential for pragmatic applications beyond traditional NLP tasks. However,
they still struggle with complex instructions, which can be either complex task
descriptions that require multiple tasks and constraints, or complex input that
contains long context, noise, heterogeneous information and multi-turn format.
Due to these features, LLMs often ignore semantic constraints from task
descriptions, generate incorrect formats, violate length or sample count
constraints, and be unfaithful to the input text. Existing benchmarks are
insufficient to assess LLMs' ability to understand complex instructions, as
they are close-ended and simple. To bridge this gap, we propose CELLO, a
benchmark for evaluating LLMs' ability to follow complex instructions
systematically. We design eight features for complex instructions and construct
a comprehensive evaluation dataset from real-world scenarios. We also establish
four criteria and develop corresponding metrics, as current ones are
inadequate, biased or too strict and coarse-grained. We compare the performance
of representative Chinese-oriented and English-oriented models in following
complex instructions through extensive experiments. Resources of CELLO are
publicly available at https://github.com/Abbey4799/CELLO.
- Abstract(参考訳): 大規模言語モデル(llm)は人間の指示を理解でき、従来のnlpタスクを超えた実用的応用の可能性を示している。
しかし、複数のタスクや制約を必要とする複雑なタスク記述や、長いコンテキスト、ノイズ、異種情報、マルチターン形式を含む複雑な入力にはまだ苦労している。
これらの特徴のため、LLMはタスク記述からのセマンティック制約を無視し、誤ったフォーマットを生成し、長さやサンプルカウントの制約に違反し、入力テキストに反することが多い。
既存のベンチマークは、LLMが複雑な命令を理解する能力を評価するには不十分である。
このギャップを埋めるために,LLMの複雑な命令を体系的に追従する能力を評価するベンチマークであるCellOを提案する。
複雑な命令のための8つの特徴を設計し、実世界のシナリオから包括的な評価データセットを構築する。
私たちはまた、4つの基準を確立し、現在の基準が不十分でバイアスがあり、厳しすぎるため、対応するメトリクスを開発します。
中国語と英語を対象とする代表的なモデルの性能を、広範な実験を通して複雑な指示に従うことで比較する。
CellOのリソースはhttps://github.com/Abbey4799/CELLOで公開されている。
関連論文リスト
- Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:42:26Z) - Large Language Models are Good Multi-lingual Learners : When LLMs Meet Cross-lingual Prompts [5.520335305387487]
本稿では,MLプロンプトという新しいプロンプト戦略を提案する。
MLPromptは、LLMが他の言語に追従するのに苦労するエラーを起こしやすいルールを翻訳する。
本稿では,MLPromptを構造化データ生成の自動チェック機構に統合するフレームワークと,テキストからMIPインスタンスへの特定のケーススタディを提案する。
論文 参考訳(メタデータ) (2024-09-17T10:33:27Z) - Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。
本稿では,コンテキスト構造化という新しい概念を提案する。
具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文 参考訳(メタデータ) (2024-07-23T12:33:58Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。