論文の概要: One Model to Translate Them All: Universal Any-to-Any Translation for Heterogeneous Collaborative Perception
- arxiv url: http://arxiv.org/abs/2605.17907v1
- Date: Mon, 18 May 2026 06:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.911925
- Title: One Model to Translate Them All: Universal Any-to-Any Translation for Heterogeneous Collaborative Perception
- Title(参考訳): 全てを翻訳する1つのモデル:不均一な協調知覚のためのユニバーサル・アニー翻訳
- Authors: Yang Li, Weize Li, Quan Yuan, Congzhang Shao, Guiyang Luo, Yunqi Ba, Xuanhan Zhu, Xinyuan Ding, Xiaoyuan Fu, Jinglin Li,
- Abstract要約: 任意のモダリティのために,任意のモダリティをオンザフライでトランスレータをインスタンス化する,普遍的な任意の特徴モダリティ変換モデルであるUniTransを提案する。
UniTransは、専門家パラメータのバンクを事前訓練し、ソースからターゲットへのモダリティマッピングの関数としてそれらの組み合わせ係数を学習する。
OPV2V-HとDAIR-V2Xの実験では、UniTransはシミュレーションと実世界の両方の設定において、最先端の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 14.59409728479271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By sharing intermediate features, collaborative perception extends each agent's sensing beyond standalone limits, but real-world feature modality heterogeneity remains a key barrier to effective fusion. Most existing methods, including direct adaption and protocol-based transformation, typically rely on training adapters for newly emerging feature modalities and often require additional retraining or fine-tuning. Such repeated training is costly and is often infeasible across manufacturers due to model and data privacy constraints, limiting real-world scalability. To address this issue, we propose UniTrans, a universal any-to-any feature modality translation model that instantiates translators on the fly for arbitrary modalities. UniTrans pretrains a bank of translator expert parameters and learns their combination coefficients as a function of source-to-target modality mapping. The mapping is measured in a modality-intrinsic latent space, where an intrinsic encoder extracts modality-specific yet scene-invariant codes from single-frame intermediate features, enabling UniTrans to instantiate translators in a zero-shot manner. Experiments on OPV2V-H and DAIR-V2X demonstrate that UniTrans consistently outperforms state-of-the-art methods in both simulated and real-world settings, enabling efficient any-to-any translation through a universal model. The code is available at https://github.com/CheeryLeeyy/UniTrans.
- Abstract(参考訳): 中間的特徴を共有することによって、協調的知覚は各エージェントの感覚をスタンドアロンの限界を超えて拡張するが、実世界の特徴的不均一性は、効果的な融合の鍵となる障壁である。
ダイレクトアダプションやプロトコルベースの変換など、既存のほとんどのメソッドは、新しい特徴モダリティのためのトレーニングアダプタに依存しており、追加のトレーニングや微調整を必要とすることが多い。
このような繰り返しトレーニングはコストがかかり、モデルとデータプライバシの制約により、現実のスケーラビリティが制限されるため、製造者間で実現不可能な場合が多い。
この問題に対処するため、任意のモダリティのために、オンザフライでトランスレータをインスタンス化するUniTransを提案する。
UniTransはトランスレータの専門家パラメータのバンクを事前訓練し、ソースからターゲットへのモダリティマッピングの関数としてそれらの組み合わせ係数を学習する。
マッピングはモダリティ固有の潜在空間で測定され、固有エンコーダは単一フレームの中間特徴からモダリティ固有のシーン不変コードを抽出し、UniTransはゼロショットでトランスレータをインスタンス化することができる。
OPV2V-H と DAIR-V2X の実験により、UniTrans はシミュレーションと実世界の双方で最先端の手法を一貫して上回り、普遍的なモデルによる効率的な任意の翻訳を可能にすることを示した。
コードはhttps://github.com/CheeryLeeyy/UniTransで入手できる。
関連論文リスト
- Any2Any: Unified Arbitrary Modality Translation for Remote Sensing [41.79987718008628]
マルチモーダルリモートセンシング画像は、同じ地理的シーンの相補的な観察を提供する。
既存のクロスモーダル翻訳法は、各モーダルペアを独立したタスクとして扱う。
我々は、Any-to-Any翻訳をシーンの共有潜在表現に対する推論として定式化する。
論文 参考訳(メタデータ) (2026-03-04T14:33:26Z) - Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs [69.28193153685893]
大きな言語モデル(LLM)は、タスク固有の微調整なしでも、しばしば強力な翻訳能力を示す。
このプロセスをデミスティフィケートするために、スパースオートエンコーダ(SAE)を活用し、タスク固有の特徴を特定するための新しいフレームワークを導入する。
我々の研究は、LLMの翻訳機構のコアコンポーネントをデコードするだけでなく、内部モデル機構を使用してより堅牢で効率的なモデルを作成するための青写真も提供しています。
論文 参考訳(メタデータ) (2026-01-16T06:29:07Z) - Prototype-Guided and Lightweight Adapters for Inherent Interpretation and Generalisation in Federated Learning [5.904095466127043]
フェデレートラーニング(FL)は、分散データソース間で機械学習モデルを協調的にトレーニングするための、有望なパラダイムを提供する。
本稿では,プロトタイプと軽量アダプタモジュールを用いた固有解釈を提供するFLフレームワークを提案する。
そこで,本研究では,ベースラインアルゴリズムよりも精度が向上した分類タスクを,本質的に解釈可能な機能として示す。
論文 参考訳(メタデータ) (2025-07-08T10:30:08Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Cross-lingual Semantic Role Labeling with Model Transfer [49.85316125365497]
言語間セマンティックロールラベリングは、普遍的な特徴の助けを借りてモデル転送によって達成できる。
本稿では,多種多様なユニバーサル特徴と転送手法を組み込んだエンドツーエンドSRLモデルを提案する。
論文 参考訳(メタデータ) (2020-08-24T09:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。