論文の概要: STEPS: A Benchmark for Order Reasoning in Sequential Tasks
- arxiv url: http://arxiv.org/abs/2306.04441v1
- Date: Wed, 7 Jun 2023 13:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:11:52.755919
- Title: STEPS: A Benchmark for Order Reasoning in Sequential Tasks
- Title(参考訳): STEPS:シークエンシャルタスクにおける順序推論のベンチマーク
- Authors: Weizhi Wang, Hong Wang, Xifeng Yan
- Abstract要約: データ構築とタスクの定式化について述べ、重要な大規模言語モデル(LLM)のほとんどをベンチマークする。
1)シーケンシャルタスクにおける行動順序の常識的推論は,ゼロショットプロンプトや少数ショットインコンテキスト学習によって解決することが困難である。
- 参考スコア(独自算出の注目度): 16.52934509949172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various human activities can be abstracted into a sequence of actions in
natural text, i.e. cooking, repairing, manufacturing, etc. Such action
sequences heavily depend on the executing order, while disorder in action
sequences leads to failure of further task execution by robots or AI agents.
Therefore, to verify the order reasoning capability of current neural models in
sequential tasks, we propose a challenging benchmark , named STEPS. STEPS
involves two subtask settings, focusing on determining the rationality of given
next step in recipes and selecting the reasonable step from the multi-choice
question, respectively. We describe the data construction and task
formulations, and benchmark most of significant Large Language Models (LLMs).
The experimental results demonstrate 1) The commonsense reasoning of action
orders in sequential tasks are challenging to resolve via zero-shot prompting
or few-shot in-context learning for LLMs; 2) Prompting method still
significantly lags behind tuning-based method on STEPS.
- Abstract(参考訳): 様々な人間の活動は、自然のテキスト、すなわち料理、修理、製造などの一連の行動に抽象化することができる。
このようなアクションシーケンスは実行順序に大きく依存するが、アクションシーケンスの障害はロボットやAIエージェントによるさらなるタスク実行の失敗につながる。
そこで我々は,現在のニューラルモデルの逐次的タスクにおける順序推論能力を検証するために,STEPSと呼ばれる挑戦的なベンチマークを提案する。
ステップには2つのサブタスク設定があり、レシピにおける次のステップの合理性の決定と、マルチチョイス質問から合理的なステップを選択することに焦点を当てている。
データ構築とタスクの定式化について述べ,LLM(Large Language Models)のほとんどをベンチマークする。
実験結果は
1) シーケンシャルタスクにおける行動順序の常識的推論は, LLMのゼロショットプロンプトや少数ショットインコンテキスト学習を通じて解決することが困難である。
2) STEPS のチューニング法は, いまだにかなり遅れている。
関連論文リスト
- The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。
我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。
より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文 参考訳(メタデータ) (2024-06-28T15:34:26Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。