Fugu-MT 論文翻訳(概要): Mode-as-Sequence: Translating Multimodal Motion Prediction into Unified Sequential Mode Modeling

論文の概要: Mode-as-Sequence: Translating Multimodal Motion Prediction into Unified Sequential Mode Modeling

arxiv url: http://arxiv.org/abs/2605.24037v1
Date: Thu, 21 May 2026 11:37:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:17.549433
Title: Mode-as-Sequence: Translating Multimodal Motion Prediction into Unified Sequential Mode Modeling
Title（参考訳）: モード・アズ・シーケンス:マルチモーダル動作予測を統一シーケンス・モード・モデリングに変換する
Authors: Zikang Zhou, Haibo Hu, Xinhong Chen, Yifan Zhang, Nan Guan, Yung-Hui Li, Chun Jason Xue, Jianping Wang,
Abstract要約: マルチモーダル・モーション・予測は本質的に監督下にある。そこで本研究では,非順序モードセットを順序モードシーケンスに変換する統合デコードフレームワークであるMode-as-Sequenceを提案する。ランキング指向メトリクスとデータセット、地平線、オブジェクトタイプ間でのベスト・オブ・Kの精度の両面で一貫した改善を示す。
参考スコア（独自算出の注目度）: 31.631345414385382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal motion forecasting is inherently under-supervised: each training scene provides only one realized future, yet multiple plausible futures exist. This sparse supervision often leads to mode collapse (redundant hypotheses and insufficient mode coverage) and unreliable confidence ranking when predicting a small set of trajectories. We propose Mode-as-Sequence, a unified decoding framework that translates an unordered mode set into an ordered mode sequence and explicitly models mode-to-mode dependency. Under this framework, we develop two complementary instantiations. ModeSeq performs recurrent mode decoding, where each mode is generated conditioned on the previously generated modes, encouraging diverse, non-redundant hypotheses with calibrated confidence ordering. To remove the mode-by-mode autoregressive bottleneck, we further propose Parallel ModeSeq, which preserves the same causal dependency using masked mode-to-mode self-attention while decoding all modes in a single forward pass, enabling efficient large-$K$ inference and scalable joint-scene prediction. To learn representative modes and calibrated confidence under sparse labels, we introduce Early-Match-Take-All (EMTA) and its joint-scene extension MA-EMTA, together with a lightweight ranking regularizer that reduces confidence inversions. Extensive experiments on large-scale benchmarks demonstrate consistent improvements in both ranking-oriented metrics and best-of-K accuracy across datasets, horizons, and object types. In the Waymo Open Dataset challenges, ModeSeq achieves 1st place in the 2024 LiDAR-free motion prediction track, and Parallel ModeSeq achieves 1st place in the 2025 Interaction Prediction Challenge, validating the effectiveness of Mode-as-Sequence for both accuracy and efficiency.
Abstract（参考訳）: マルチモーダルな動き予測は本質的には監督下にあり、各トレーニングシーンは1つの実現された未来のみを提供するが、複数のもっともらしい未来が存在する。この疎い監視は、小さな軌道の予測時にしばしばモード崩壊(冗長な仮説と不十分なモードカバレッジ)と信頼できない信頼度ランキングをもたらす。そこで本研究では,モード・アズ・シークエンス(Mode-as-Sequence)という,非順序モードセットを順序モードシーケンスに変換し,モード・ツー・モード依存を明示的にモデル化する統合デコーディングフレームワークを提案する。本枠組みでは,2つの相補的インスタンス化を開発する。 ModeSeqはリカレントモードデコーディングを実行し、各モードは以前に生成されたモードで条件付きで生成される。モード・バイ・モードの自己回帰的ボトルネックを取り除くために,マスクモード・ツー・モードの自己アテンションを用いて同一の因果依存性を保ちながら,全てのモードを1つのフォワードパスでデコードし,効率の良い大規模K$推論とスケーラブルなジョイントシーン予測を実現するParallel ModeSeqを提案する。スパースラベル下で代表モードとキャリブレーションされた信頼度を学習するために、信頼インバージョンを低減する軽量なランキング正規化器とともに、Early-Match-Take-All(EMTA)とその共同シーン拡張MA-EMTAを導入する。大規模なベンチマークに関する大規模な実験は、ランキング指向のメトリクスとデータセット、水平線、オブジェクトタイプ間での最高のK精度の両方において、一貫した改善を示している。 Waymo Open Datasetの課題では、ModeSeqは2024年のLiDARフリーモーション予測トラックで1位、Parallel ModeSeqは2025年のInteraction Prediction Challengeで1位を獲得し、精度と効率の両面でMode-as-Sequenceの有効性を検証する。

関連論文リスト

SubFlow: Sub-mode Conditioned Flow Matching for Diverse One-Step Generation [49.024920867668754]
SubFlowはフローマッチングフレームワークで、各クラスの平均的な歪みをきめ細かなサブモードに排除します。 MeanFlowやShortcut Modelsといった既存のワンステップモデルとシームレスに統合される。 ImageNet-256の実験により、SubFlowは、競合画像品質(FID)を維持しながら、世代多様性(リコール)においてかなりの利益を得ることが示された。
論文参考訳（メタデータ） (2026-04-14T04:36:02Z)
Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization [53.051213470905935]
Policy Splitは、ポリシーを通常の高エントロピーモードと高エントロピープロンプトに分岐させる新しいパラダイムである。モデルパラメータを共有しながら、2つのモードは異なる目的に合わせて協調的な二重モードエントロピー正規化を行う。
論文参考訳（メタデータ） (2026-04-13T14:13:06Z)
Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。 PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。 PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-25T08:36:45Z)
Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文参考訳（メタデータ） (2025-12-03T12:43:16Z)
Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-27T17:09:44Z)
ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode Modeling [9.594287402707229]
モードをシーケンスとしてモデル化する新しいマルチモーダル予測パラダイムであるModeSeqを導入する。一つのショットで複数の可塑性軌道をデコードする一般的な慣習とは異なり、ModeSeqは次のモードをステップ単位で推論するためにモーションデコーダを必要とする。また,軌道の多様化を図るため,EMTA(Early-Match-Take-All)トレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-11-17T16:36:09Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)
ModeRNN: Harnessing Spatiotemporal Mode Collapse in Unsupervised Predictive Learning [75.2748374360642]
そこで本研究では,繰り返し状態間の隠れ構造表現を学習するための新しい手法であるModeRNNを提案する。データセット全体にわたって、異なるモードがスロットの混合に対して異なるレスポンスをもたらすため、ModeRNNが構造化された表現を構築する能力が向上する。
論文参考訳（メタデータ） (2021-10-08T03:47:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。