論文の概要: TRAC: A Textual Benchmark for Reasoning about Actions and Change
- arxiv url: http://arxiv.org/abs/2211.13930v1
- Date: Fri, 25 Nov 2022 06:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:50:17.335159
- Title: TRAC: A Textual Benchmark for Reasoning about Actions and Change
- Title(参考訳): TRAC:アクションと変更の推論のためのテキストベンチマーク
- Authors: Weinan He, Canming Huang, Zhanhao Xiao, Yongmei Liu
- Abstract要約: 行動と変化(RAC)に関する推論は、絶えず変化する環境を理解し、相互作用するために不可欠である。
近年のトランスフォーマーベース言語モデル(LM)では、テキストよりも推論が望ましい。
総合的なテキストベンチマークとして4つの本質的なRACタスクを提案し、他の言語的要求の影響を最小限に抑える方法で問題を発生させる。
- 参考スコア(独自算出の注目度): 7.79582487378263
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning about actions and change (RAC) is essential to understand and
interact with the ever-changing environment. Previous AI research has shown the
importance of fundamental and indispensable knowledge of actions, i.e.,
preconditions and effects. However, traditional methods rely on logical
formalization which hinders practical applications. With recent
transformer-based language models (LMs), reasoning over text is desirable and
seemingly feasible, leading to the question of whether LMs can effectively and
efficiently learn to solve RAC problems. We propose four essential RAC tasks as
a comprehensive textual benchmark and generate problems in a way that minimizes
the influence of other linguistic requirements (e.g., grounding) to focus on
RAC. The resulting benchmark, TRAC, encompassing problems of various
complexities, facilitates a more granular evaluation of LMs, precisely
targeting the structural generalization ability much needed for RAC.
Experiments with three high-performing transformers indicates that additional
efforts are needed to tackle challenges raised by TRAC.
- Abstract(参考訳): 行動と変化(RAC)に関する推論は、絶えず変化する環境を理解し、相互作用するために不可欠である。
これまでのAI研究は、行動の基本的で必須の知識、すなわち前提条件と効果の重要性を示してきた。
しかし、伝統的な手法は論理的な形式化に依存し、実用的応用を妨げる。
近年のトランスフォーマーベース言語モデル(LM)では、テキストよりも推論が望ましいため、LMがRAC問題を解決するために効果的に学習できるかどうかという疑問が持ち上がっている。
総合的なテキストベンチマークとして4つの重要なRACタスクを提案し、RACにフォーカスする他の言語的要求(例えば接地)の影響を最小限に抑える方法で問題を生成する。
その結果得られたベンチマークTRACは、様々な複雑さの問題を包含し、RACに必要な構造一般化能力を正確にターゲットとして、LMのよりきめ細かい評価を促進する。
3つの高性能トランスを用いた実験は、TRACがもたらした課題に対処するために追加の努力が必要であることを示している。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Benchmarking and Understanding Compositional Relational Reasoning of LLMs [1.915591735124465]
我々はまず、Generalized Associative Recall (GAR)と呼ばれる新しい合成ベンチマークを提案する。
評価は、GARが既存のLLMにとって十分困難であることを示し、CRRの基本的な欠陥を明らかにしている。
次に、属性パッチを用いて、Vicuna-33Bで再利用されたコア回路の様々なタスクと重要な注意点のセットを発見する。
論文 参考訳(メタデータ) (2024-12-17T12:10:38Z) - Leveraging Graph-RAG and Prompt Engineering to Enhance LLM-Based Automated Requirement Traceability and Compliance Checks [8.354305051472735]
本研究は,頑健なグラフ-RAGフレームワークを,思考の連鎖や思考の樹木といった先進的な技術と統合することにより,性能を著しく向上させることを実証する。
さまざまなコンテキストにまたがって実装するのはコストが高く、複雑で、特定のシナリオに慎重に適応する必要がある。
論文 参考訳(メタデータ) (2024-12-11T18:11:39Z) - Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks [13.829525575305206]
本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークについて紹介する。
RaCは質問の修正と対照的な分析を取り入れることでLLMの理解と批判的思考能力を高める。
本稿では,RaC微調整のためのデータセットを効率的に構築するために,高品質な質問応答対を生成するためのGPT支援データマイニング法を開発した。
論文 参考訳(メタデータ) (2024-09-21T16:04:43Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - On-edge Multi-task Transfer Learning: Model and Practice with
Data-driven Task Allocation [20.20889051697198]
マルチタスク・トランスファー・ラーニング(MTL)におけるタスク・アロケーションは,NP完全Knapsack問題の変種であることを示す。
我々は,データ駆動型協調作業割当(DCTA)アプローチを提案し,高い計算効率でTATIMを解く。
我々のDCTAは処理時間の3.24倍を削減し、TATIMを解く際の最先端技術と比較して48.4%の省エネを図っている。
論文 参考訳(メタデータ) (2021-07-06T08:24:25Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。