論文の概要: Lissard: Long and Simple Sequential Reasoning Datasets
- arxiv url: http://arxiv.org/abs/2402.07859v2
- Date: Tue, 20 Feb 2024 15:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:12:55.445894
- Title: Lissard: Long and Simple Sequential Reasoning Datasets
- Title(参考訳): Lissard: 長くてシンプルなシーケンス推論データセット
- Authors: Mirelle Bueno, Roberto Lotufo, and Rodrigo Nogueira
- Abstract要約: 言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。
しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。
Lissardは、7つのタスクからなるベンチマークで、その目標は、モデルが処理し、広範囲のシーケンス長を生成する能力を評価することである。
- 参考スコア(独自算出の注目度): 10.39816548971042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are now capable of solving tasks that require dealing with
long sequences consisting of hundreds of thousands of tokens. However, they
often fail on tasks that require repetitive use of simple rules, even on
sequences that are much shorter than those seen during training. For example,
state-of-the-art LLMs can find common items in two lists with up to 20 items
but fail when lists have 80 items. In this paper, we introduce Lissard, a
benchmark comprising seven tasks whose goal is to assess the ability of models
to process and generate wide-range sequence lengths, requiring repetitive
procedural execution. Our evaluation of open-source (Mistral-7B and
Mixtral-8x7B) and proprietary models (GPT-3.5 and GPT-4) show a consistent
decline in performance across all models as the complexity of the sequence
increases. The datasets and code are available at
https://github.com/unicamp-dl/Lissard
- Abstract(参考訳): 言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。
しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。
例えば、最先端のllmは、最大20項目の2つのリストにある共通項目を見つけることができるが、リストが80項目ある場合は失敗する。
本稿では,モデルが処理し,広範囲なシーケンス長を生成する能力を評価することを目的とした7つのタスクからなるベンチマークであるLissardを紹介する。
オープンソース (Mistral-7B と Mixtral-8x7B) とプロプライエタリモデル (GPT-3.5 と GPT-4) の評価は、シーケンスの複雑さが増大するにつれて、全てのモデルにおいて一貫した性能低下を示す。
データセットとコードはhttps://github.com/unicamp-dl/lissardで入手できる。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - MLissard: Multilingual Long and Simple Sequential Reasoning Benchmarks [10.39816548971042]
言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。
しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。
MLissardは、様々な長さのテキストを処理および生成するモデルの能力を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-10-08T21:59:31Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [18.402877904882107]
大規模な言語モデル(LLM)は、ベンチマークAsyncHowのタスク解決プロセスに関するイラストが提供されないと、動作が悪くなります。
そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T08:26:33Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - HiPool: Modeling Long Documents Using Graph Neural Networks [24.91040673099863]
自然言語処理(NLP)の長いシーケンスは難しい問題である。
最近の事前学習言語モデルは、多くのNLPタスクにおいて満足な性能を達成する。
我々は,最大53kのサンプルと平均トークンの長さ4034のデータセットを合計6つ集めて,新たな挑戦的ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-05-05T06:58:24Z) - Promptagator: Few-shot Dense Retrieval From 8 Examples [34.78085795791609]
Few-shot Dense Retrievalは、各タスクが短い説明といくつかの例を持ってくる設定である。
Promptagatorは生成されたデータに基づいてタスク固有のレトリバーを生成する。
論文 参考訳(メタデータ) (2022-09-23T17:59:06Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。