論文の概要: TRAC: A Textual Benchmark for Reasoning about Actions and Change
- arxiv url: http://arxiv.org/abs/2211.13930v1
- Date: Fri, 25 Nov 2022 06:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:50:17.335159
- Title: TRAC: A Textual Benchmark for Reasoning about Actions and Change
- Title(参考訳): TRAC:アクションと変更の推論のためのテキストベンチマーク
- Authors: Weinan He, Canming Huang, Zhanhao Xiao, Yongmei Liu
- Abstract要約: 行動と変化(RAC)に関する推論は、絶えず変化する環境を理解し、相互作用するために不可欠である。
近年のトランスフォーマーベース言語モデル(LM)では、テキストよりも推論が望ましい。
総合的なテキストベンチマークとして4つの本質的なRACタスクを提案し、他の言語的要求の影響を最小限に抑える方法で問題を発生させる。
- 参考スコア(独自算出の注目度): 7.79582487378263
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning about actions and change (RAC) is essential to understand and
interact with the ever-changing environment. Previous AI research has shown the
importance of fundamental and indispensable knowledge of actions, i.e.,
preconditions and effects. However, traditional methods rely on logical
formalization which hinders practical applications. With recent
transformer-based language models (LMs), reasoning over text is desirable and
seemingly feasible, leading to the question of whether LMs can effectively and
efficiently learn to solve RAC problems. We propose four essential RAC tasks as
a comprehensive textual benchmark and generate problems in a way that minimizes
the influence of other linguistic requirements (e.g., grounding) to focus on
RAC. The resulting benchmark, TRAC, encompassing problems of various
complexities, facilitates a more granular evaluation of LMs, precisely
targeting the structural generalization ability much needed for RAC.
Experiments with three high-performing transformers indicates that additional
efforts are needed to tackle challenges raised by TRAC.
- Abstract(参考訳): 行動と変化(RAC)に関する推論は、絶えず変化する環境を理解し、相互作用するために不可欠である。
これまでのAI研究は、行動の基本的で必須の知識、すなわち前提条件と効果の重要性を示してきた。
しかし、伝統的な手法は論理的な形式化に依存し、実用的応用を妨げる。
近年のトランスフォーマーベース言語モデル(LM)では、テキストよりも推論が望ましいため、LMがRAC問題を解決するために効果的に学習できるかどうかという疑問が持ち上がっている。
総合的なテキストベンチマークとして4つの重要なRACタスクを提案し、RACにフォーカスする他の言語的要求(例えば接地)の影響を最小限に抑える方法で問題を生成する。
その結果得られたベンチマークTRACは、様々な複雑さの問題を包含し、RACに必要な構造一般化能力を正確にターゲットとして、LMのよりきめ細かい評価を促進する。
3つの高性能トランスを用いた実験は、TRACがもたらした課題に対処するために追加の努力が必要であることを示している。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks [13.829525575305206]
本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークについて紹介する。
RaCは質問の修正と対照的な分析を取り入れることでLLMの理解と批判的思考能力を高める。
本稿では,RaC微調整のためのデータセットを効率的に構築するために,高品質な質問応答対を生成するためのGPT支援データマイニング法を開発した。
論文 参考訳(メタデータ) (2024-09-21T16:04:43Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task [40.85615657802704]
本稿では,トランスフォーマーの理解を深めるための新しい玩具問題である文脈カウントタスクを紹介する。
因果的および非因果的トランスフォーマーアーキテクチャを用いた理論的および経験的解析を行った。
論文 参考訳(メタデータ) (2024-05-30T20:52:23Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - Taking Action Towards Graceful Interaction: The Effects of Performing
Actions on Modelling Policies for Instruction Clarification Requests [23.405917899107767]
Transformerベースのモデルは、インストラクションCRを問うときの適切なポリシを学ばない。
本稿では,メタコミュニケーション行動の学習におけるデータ駆動パラダイムの欠点について論じる。
論文 参考訳(メタデータ) (2024-01-30T14:18:31Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - On-edge Multi-task Transfer Learning: Model and Practice with
Data-driven Task Allocation [20.20889051697198]
マルチタスク・トランスファー・ラーニング(MTL)におけるタスク・アロケーションは,NP完全Knapsack問題の変種であることを示す。
我々は,データ駆動型協調作業割当(DCTA)アプローチを提案し,高い計算効率でTATIMを解く。
我々のDCTAは処理時間の3.24倍を削減し、TATIMを解く際の最先端技術と比較して48.4%の省エネを図っている。
論文 参考訳(メタデータ) (2021-07-06T08:24:25Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。