論文の概要: Can Large Language Models Understand Real-World Complex Instructions?
- arxiv url: http://arxiv.org/abs/2309.09150v2
- Date: Mon, 8 Jan 2024 07:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:00:22.737347
- Title: Can Large Language Models Understand Real-World Complex Instructions?
- Title(参考訳): 大規模言語モデルは実世界の複雑な命令を理解することができるか?
- Authors: Qianyu He, Jie Zeng, Wenhao Huang, Lina Chen, Jin Xiao, Qianxi He,
Xunzhe Zhou, Lida Chen, Xintao Wang, Yuncheng Huang, Haoning Ye, Zihan Li,
Shisong Chen, Yikai Zhang, Zhouhong Gu, Jiaqing Liang, Yanghua Xiao
- Abstract要約: 大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
- 参考スコア(独自算出の注目度): 54.86632921036983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can understand human instructions, showing their
potential for pragmatic applications beyond traditional NLP tasks. However,
they still struggle with complex instructions, which can be either complex task
descriptions that require multiple tasks and constraints, or complex input that
contains long context, noise, heterogeneous information and multi-turn format.
Due to these features, LLMs often ignore semantic constraints from task
descriptions, generate incorrect formats, violate length or sample count
constraints, and be unfaithful to the input text. Existing benchmarks are
insufficient to assess LLMs' ability to understand complex instructions, as
they are close-ended and simple. To bridge this gap, we propose CELLO, a
benchmark for evaluating LLMs' ability to follow complex instructions
systematically. We design eight features for complex instructions and construct
a comprehensive evaluation dataset from real-world scenarios. We also establish
four criteria and develop corresponding metrics, as current ones are
inadequate, biased or too strict and coarse-grained. We compare the performance
of representative Chinese-oriented and English-oriented models in following
complex instructions through extensive experiments. Resources of CELLO are
publicly available at https://github.com/Abbey4799/CELLO.
- Abstract(参考訳): 大規模言語モデル(llm)は人間の指示を理解でき、従来のnlpタスクを超えた実用的応用の可能性を示している。
しかし、複数のタスクや制約を必要とする複雑なタスク記述や、長いコンテキスト、ノイズ、異種情報、マルチターン形式を含む複雑な入力にはまだ苦労している。
これらの特徴のため、LLMはタスク記述からのセマンティック制約を無視し、誤ったフォーマットを生成し、長さやサンプルカウントの制約に違反し、入力テキストに反することが多い。
既存のベンチマークは、LLMが複雑な命令を理解する能力を評価するには不十分である。
このギャップを埋めるために,LLMの複雑な命令を体系的に追従する能力を評価するベンチマークであるCellOを提案する。
複雑な命令のための8つの特徴を設計し、実世界のシナリオから包括的な評価データセットを構築する。
私たちはまた、4つの基準を確立し、現在の基準が不十分でバイアスがあり、厳しすぎるため、対応するメトリクスを開発します。
中国語と英語を対象とする代表的なモデルの性能を、広範な実験を通して複雑な指示に従うことで比較する。
CellOのリソースはhttps://github.com/Abbey4799/CELLOで公開されている。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - INTERS: Unlocking the Power of Large Language Models in Search with
Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z) - Automated Assessment of Students' Code Comprehension using LLMs [0.3293989832773954]
大規模言語モデル(LLM)とエンコーダベースのセマンティックテキスト類似(STS)モデルを評価する。
この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-19T20:39:12Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex
Structured Data? [52.17988569079598]
現在のLarge Language Models (LLM) は複雑な構造化された出力を生成する必要のあるタスクと競合する。
本稿では,この能力向上のソリューションとして,構造を考慮した微調整手法を提案する。
実験の結果,LLaMA-7Bに適用した場合,構造認識による微調整手法は自然言語の制約への順応性を著しく向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。