論文の概要: Fusing Cross-Domain Knowledge from Multimodal Data to Solve Problems in the Physical World
- arxiv url: http://arxiv.org/abs/2506.03155v1
- Date: Tue, 20 May 2025 02:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.684938
- Title: Fusing Cross-Domain Knowledge from Multimodal Data to Solve Problems in the Physical World
- Title(参考訳): 物理世界における課題解決のためのマルチモーダルデータからのクロスドメイン知識の融合
- Authors: Yu Zheng,
- Abstract要約: ドメイン間の知識融合は現実世界の問題を解決するのに不可欠である。
ドメイン層,リンク層,モデル層,データ層からなる4層フレームワークを提案する。
このフレームワークにより、ドメイン間マルチモーダルデータを効果的に融合するエンドツーエンドのソリューションを設計できる。
- 参考スコア(独自算出の注目度): 9.630188554314453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of artificial intelligence has enabled a diversity of applications that bridge the gap between digital and physical worlds. As physical environments are too complex to model through a single information acquisition approach, it is crucial to fuse multimodal data generated by different sources, such as sensors, devices, systems, and people, to solve a problem in the real world. Unfortunately, it is neither applicable nor sustainable to deploy new resources to collect original data from scratch for every problem. Thus, when data is inadequate in the domain of problem, it is vital to fuse knowledge from multimodal data that is already available in other domains. We call this cross-domain knowledge fusion. Existing research focus on fusing multimodal data in a single domain, supposing the knowledge from different datasets is intrinsically aligned; however, this assumption may not hold in the scenarios of cross-domain knowledge fusion. In this paper, we formally define the cross-domain multimodal data fusion problem, discussing its unique challenges, differences and advantages beyond data fusion in a single domain. We propose a four-layer framework, consisting of Domains, Links, Models and Data layers, answering three key questions: "what to fuse", "why can be fused", and "how to fuse". The Domains Layer selects relevant data from different domains for a given problem. The Links Layer reveals the philosophy of knowledge alignment beyond specific model structures. The Models Layer provides two knowledge fusion paradigms based on the fundamental mechanisms for processing data. The Data Layer turns data of different structures, resolutions, scales and distributions into a consistent representation that can be fed into an AI model. With this framework, we can design end-to-end solutions that fuse cross-domain multimodal data effectively for solving real-world problems.
- Abstract(参考訳): 人工知能の普及は、デジタル世界と物理世界のギャップを埋める様々なアプリケーションを可能にした。
物理環境は、単一の情報取得アプローチでモデル化するには複雑すぎるため、センサー、デバイス、システム、人など、さまざまなソースによって生成されたマルチモーダルデータを融合して、現実世界の問題を解決することが不可欠である。
残念ながら、すべての問題に対してスクラッチからオリジナルデータを収集するために、新しいリソースをデプロイすることは、適用可能でも持続可能でもない。
したがって、データが問題領域で不十分である場合には、既に他の領域で利用可能なマルチモーダルデータから知識を融合することが不可欠である。
これをクロスドメイン知識融合(cross-domain knowledge fusion)と呼ぶ。
既存の研究は、単一のドメインにマルチモーダルデータを融合することに重点を置いており、異なるデータセットからの知識を仮定することは本質的に一致しているが、この仮定はドメイン間の知識融合のシナリオには当てはまらないかもしれない。
本稿では、クロスドメインマルチモーダルデータ融合問題を正式に定義し、その固有の課題、相違点、一分野におけるデータ融合以上の利点について論じる。
本稿では,ドメイン層,リンク層,モデル層,データ層からなる4層フレームワークを提案する。
ドメイン・レイヤは特定の問題に対して異なるドメインから関連するデータを選択する。
Links Layerは、特定のモデル構造を超えた知識アライメントの哲学を明らかにする。
Models Layerは、データ処理の基本的なメカニズムに基づいた2つの知識融合パラダイムを提供する。
Data Layerは、さまざまな構造、解像度、スケール、分散のデータを一貫性のある表現に変換し、AIモデルに入力する。
このフレームワークにより、現実世界の問題を解決するために、ドメイン間マルチモーダルデータを効果的に融合するエンドツーエンドのソリューションを設計できる。
関連論文リスト
- One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。
本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。
完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文 参考訳(メタデータ) (2024-11-03T14:21:56Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - POND: Multi-Source Time Series Domain Adaptation with Information-Aware Prompt Tuning [40.197245493051526]
時系列ドメイン適応は、多様なアプリケーションにおいて、重要かつ複雑な課題である。
POND(PrOmpt-based domaiN Discrimination)は,時系列ドメイン適応にプロンプトを利用する最初のフレームワークである。
提案するPONDモデルは,F1スコア上での最先端比較手法を最大66%向上させる。
論文 参考訳(メタデータ) (2023-12-19T15:57:37Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメインのFew-Shot Learningは、異なるドメインにわたるFew-Shot Learning問題に対処することを目的としている。
本稿では,ME-D2N(Multi-Expert Domain Decompositional Network)を技術的に貢献する。
本稿では,学生モデルを2つの領域関連部分に分解する新しい領域分解モジュールを提案する。
論文 参考訳(メタデータ) (2022-10-11T09:24:47Z) - Collaborative Semantic Aggregation and Calibration for Federated Domain
Generalization [28.573872986524794]
DGは、未知のターゲットドメインに適切に一般化できるモデルとして、複数の既知のソースドメインから学習することを目的としている。
本稿では、ソースデータセットをローカルにしかアクセスできないフェデレーションドメイン一般化の問題に取り組む。
データフリーなセマンティックアグリゲーションは、分離されたドメイン層でトレーニングされたモデルを層ごとに融合することで実現します。
論文 参考訳(メタデータ) (2021-10-13T14:08:29Z) - Learning causal representations for robust domain adaptation [31.261956776418618]
多くの現実世界のアプリケーションでは、ターゲットのドメインデータが常に利用できるとは限らない。
本稿では,学習段階において対象ドメインデータが利用できない場合について検討する。
本稿では,深層オートエンコーダと因果構造学習を統一モデルに統合したCausal AutoEncoder (CAE)を提案する。
論文 参考訳(メタデータ) (2020-11-12T11:24:03Z) - Domain Adaptive Ensemble Learning [141.98192460069765]
両問題に対処するため,ドメイン適応アンサンブル学習(DAEL)という統合フレームワークを提案する。
3つのマルチソースUDAデータセットと2つのDGデータセットの実験により、DAELは両方の問題、しばしば大きなマージンによって、技術の状態を改善することが示された。
論文 参考訳(メタデータ) (2020-03-16T16:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。