論文の概要: Bidirectional Action Sequence Learning for Long-term Action Anticipation with Large Language Models
- arxiv url: http://arxiv.org/abs/2508.00374v1
- Date: Fri, 01 Aug 2025 07:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.768463
- Title: Bidirectional Action Sequence Learning for Long-term Action Anticipation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた双方向行動系列学習による長期行動予測
- Authors: Yuji Sato, Yasunori Ishii, Takayoshi Yamashita,
- Abstract要約: ビデオベースの長期的な行動予測は、自動運転やロボット工学といった分野における早期のリスク検出に不可欠である。
従来のアプローチでは、エンコーダを使用して過去のアクションから特徴を抽出し、デコーダによる将来のイベントを予測する。
提案手法であるBiAntは,大言語モデルを用いた前方予測と後方予測を組み合わせることで,この制限に対処する。
- 参考スコア(独自算出の注目度): 6.88204255655161
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video-based long-term action anticipation is crucial for early risk detection in areas such as automated driving and robotics. Conventional approaches extract features from past actions using encoders and predict future events with decoders, which limits performance due to their unidirectional nature. These methods struggle to capture semantically distinct sub-actions within a scene. The proposed method, BiAnt, addresses this limitation by combining forward prediction with backward prediction using a large language model. Experimental results on Ego4D demonstrate that BiAnt improves performance in terms of edit distance compared to baseline methods.
- Abstract(参考訳): ビデオベースの長期的な行動予測は、自動運転やロボット工学といった分野における早期のリスク検出に不可欠である。
従来のアプローチでは、エンコーダを使用して過去のアクションから特徴を抽出し、デコーダによる将来のイベントを予測する。
これらの方法は、シーン内で意味的に異なるサブアクションをキャプチャするのに苦労する。
提案手法であるBiAntは,大言語モデルを用いた前方予測と後方予測を組み合わせることで,この制限に対処する。
Ego4Dの実験結果から,BiAntはベースライン法に比べて編集距離が向上することが示された。
関連論文リスト
- Enhancing Human Motion Prediction via Multi-range Decoupling Decoding with Gating-adjusting Aggregation [19.11704999742834]
ポーズ列の表現は、人間の動き予測における正確な動きモデリングに不可欠である。
近年の深層学習に基づく手法は、歴史的情報と将来の瞬間の間の様々な関連性や依存関係を見落としている傾向にある。
ゲーティング調整アグリゲーションを用いたマルチレンジデカップリングデコーディング手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T10:10:31Z) - Fine-Grained Behavior and Lane Constraints Guided Trajectory Prediction Method [3.303114252531234]
本稿では,行動意図認識と車線制約モデリングを統合した新しいデュアルストリームアーキテクチャBLNetを提案する。
我々のネットワークは、既存の直接回帰とゴールベースアルゴリズムよりも大きな性能向上を示す。
論文 参考訳(メタデータ) (2025-03-27T13:06:57Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction [15.731398013255179]
マルチモーダル軌道予測のための木サンプリングを用いたゴールガイド拡散モデルを提案する。
2段階のツリーサンプリングアルゴリズムが提案され、一般的な特徴を活用して推論時間を短縮し、マルチモーダル予測の精度を向上させる。
実験により,提案フレームワークは,公開データセットにおけるリアルタイム推論速度と同等の最先端性能を達成できることが実証された。
論文 参考訳(メタデータ) (2023-11-25T03:55:06Z) - Motion-Scenario Decoupling for Rat-Aware Video Position Prediction:
Strategy and Benchmark [49.58762201363483]
本研究では,個人や環境の影響要因を考慮し,生物ロボットの動き予測データセットであるRatPoseを紹介する。
本稿では,シナリオ指向とモーション指向を効果的に分離するDual-stream Motion-Scenario Decouplingフレームワークを提案する。
難易度が異なるタスクに対して,提案したtextitDMSD フレームワークの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-17T14:14:31Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Temporally-Continuous Probabilistic Prediction using Polynomial
Trajectory Parameterization [12.896275507449936]
アクターの動作予測に一般的に使用される表現は、各アクターが個別の将来の時間ポイントで行う一連のウェイポイントである。
このアプローチは単純で柔軟であるが、中間時間ステップで非現実的な高次微分や近似誤差を示すことができる。
本稿では,軌道パラメータ化に基づく時間的連続軌道予測のための簡易かつ汎用的な表現を提案する。
論文 参考訳(メタデータ) (2020-11-01T01:51:44Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。