論文の概要: Relational Future Captioning Model for Explaining Likely Collisions in
Daily Tasks
- arxiv url: http://arxiv.org/abs/2207.09083v1
- Date: Tue, 19 Jul 2022 05:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:19:32.462581
- Title: Relational Future Captioning Model for Explaining Likely Collisions in
Daily Tasks
- Title(参考訳): 日常作業における衝突の可能性を説明するためのリレーショナルキャプションモデル
- Authors: Motonari Kambara and Komei Sugiura
- Abstract要約: Future Captioning Model (RFCM) は、将来のキャプションタスクのためのクロスモーダル言語生成モデルである。
RFCMは、イベント間の関係を効果的に抽出するためにSelf-Attentionを持つ。
その結果、RFCMは2つのデータセットのベースラインメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domestic service robots that support daily tasks are a promising solution for
elderly or disabled people. It is crucial for domestic service robots to
explain the collision risk before they perform actions. In this paper, our aim
is to generate a caption about a future event. We propose the Relational Future
Captioning Model (RFCM), a crossmodal language generation model for the future
captioning task. The RFCM has the Relational Self-Attention Encoder to extract
the relationships between events more effectively than the conventional
self-attention in transformers. We conducted comparison experiments, and the
results show the RFCM outperforms a baseline method on two datasets.
- Abstract(参考訳): 日々のタスクをサポートする国内サービスロボットは、高齢者や障害者にとって有望なソリューションだ。
国内サービスロボットが行動を起こす前に衝突リスクを説明することが重要である。
本稿では,今後のイベントに関するキャプションを作成することを目的とする。
本稿では,将来のキャプションタスクのためのクロスモーダル言語生成モデルであるRelational Future Captioning Model (RFCM)を提案する。
RFCMにはリレーショナル・セルフアテンション・エンコーダがあり、トランスフォーマーにおける従来の自己アテンションよりも効率的にイベント間の関係を抽出する。
比較実験を行い、RFCMが2つのデータセットのベースライン法より優れていることを示す。
関連論文リスト
- In-Context Imitation Learning via Next-Token Prediction [25.63412917032012]
In-Context Robot Transformer (ICRT) は、言語データや報酬関数に頼ることなく、感覚運動の軌道上で自己回帰予測を行う。
ICRTは、プロンプトとトレーニングデータの両方とは異なる環境設定であっても、プロンプトによって指定された新しいタスクに適応することができる。
論文 参考訳(メタデータ) (2024-08-28T17:50:19Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - MotionLM: Multi-Agent Motion Forecasting as Language Modeling [15.317827804763699]
マルチエージェント動作予測のための言語モデルであるMotionLMを提案する。
本手法は,対話的なスコアリングに先立って個々のエージェントの軌道生成を行う,ポストホック相互作用をバイパスする。
モデルの逐次分解は、時間的因果条件のロールアウトを可能にする。
論文 参考訳(メタデータ) (2023-09-28T15:46:25Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - From Play to Policy: Conditional Behavior Generation from Uncurated
Robot Data [18.041329181385414]
Conditional Behavior Transformer (C-BeT) は、動作変換器のマルチモーダル生成能力と将来の目標仕様を組み合わせた手法である。
C-BeTは、プレイデータから学ぶための最先端の研究を平均45.7%改善している。
プレイデータから実世界のロボットで有用なタスク中心の振る舞いを学習できることを初めて実証する。
論文 参考訳(メタデータ) (2022-10-18T17:59:55Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。