論文の概要: Bridging Modalities and Transferring Knowledge: Enhanced Multimodal Understanding and Recognition
- arxiv url: http://arxiv.org/abs/2512.20501v1
- Date: Tue, 23 Dec 2025 16:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.93907
- Title: Bridging Modalities and Transferring Knowledge: Enhanced Multimodal Understanding and Recognition
- Title(参考訳): ブリッジングモダリティと伝達知識:マルチモーダル理解と認識の強化
- Authors: Gorjan Radevski,
- Abstract要約: この写本は、複雑な入力の機械的理解を高めるために、多モーダルアライメント、翻訳、融合、転送を探索する。
作業は5つの章に分かれ、それぞれがマルチモーダル機械学習におけるユニークな課題に対処しています。
- 参考スコア(独自算出の注目度): 2.914348011274394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This manuscript explores multimodal alignment, translation, fusion, and transference to enhance machine understanding of complex inputs. We organize the work into five chapters, each addressing unique challenges in multimodal machine learning. Chapter 3 introduces Spatial-Reasoning Bert for translating text-based spatial relations into 2D arrangements between clip-arts. This enables effective decoding of spatial language into visual representations, paving the way for automated scene generation aligned with human spatial understanding. Chapter 4 presents a method for translating medical texts into specific 3D locations within an anatomical atlas. We introduce a loss function leveraging spatial co-occurrences of medical terms to create interpretable mappings, significantly enhancing medical text navigability. Chapter 5 tackles translating structured text into canonical facts within knowledge graphs. We develop a benchmark for linking natural language to entities and predicates, addressing ambiguities in text extraction to provide clearer, actionable insights. Chapter 6 explores multimodal fusion methods for compositional action recognition. We propose a method fusing video frames and object detection representations, improving recognition robustness and accuracy. Chapter 7 investigates multimodal knowledge transference for egocentric action recognition. We demonstrate how multimodal knowledge distillation enables RGB-only models to mimic multimodal fusion-based capabilities, reducing computational requirements while maintaining performance. These contributions advance methodologies for spatial language understanding, medical text interpretation, knowledge graph enrichment, and action recognition, enhancing computational systems' ability to process complex, multimodal inputs across diverse applications.
- Abstract(参考訳): この写本は、複雑な入力の機械的理解を高めるために、多モーダルアライメント、翻訳、融合、転送を探索する。
作業は5つの章に分かれ、それぞれがマルチモーダル機械学習におけるユニークな課題に対処しています。
第3章では、テキストベースの空間関係をクリップアート間の2次元アレンジメントに変換するための空間推論ベルトを導入している。
これにより、空間言語を視覚表現に効果的にデコードすることができ、人間の空間的理解と整合したシーンの自動生成の道を開くことができる。
第4章は、解剖学的アトラス内の特定の3D場所に医療用テキストを翻訳する方法を提示する。
医療用語の空間的共起を活かした損失関数を導入し,解釈可能なマッピングを作成し,医療用テキストのナビゲート性を大幅に向上させる。
第5章は、構造化されたテキストを知識グラフ内の標準事実に変換することに取り組む。
自然言語を実体や述語に結びつけるためのベンチマークを開発し、テキスト抽出における曖昧さに対処し、より明確で行動可能な洞察を提供する。
第6章では、合成行動認識のための多モード融合法について検討する。
本稿では,映像フレームとオブジェクト検出表現を融合させ,認識の堅牢性と精度を向上させる手法を提案する。
第7章は、自己中心的行動認識のためのマルチモーダルな知識伝達について検討する。
マルチモーダルな知識蒸留により、RGBのみのモデルがマルチモーダル融合に基づく能力を模倣し、性能を維持しながら計算要求を低減できることを示す。
これらの貢献は、空間言語理解、医学的テキスト解釈、知識グラフの充実、行動認識のための方法論を進歩させ、様々なアプリケーションにまたがる複雑なマルチモーダル入力を処理する計算システムの能力を向上させる。
関連論文リスト
- TextDiffSeg: Text-guided Latent Diffusion Model for 3d Medical Images Segmentation [0.0]
テキスト誘導拡散モデルフレームワークであるTextDiffSegは、3Dボリュームデータを自然言語記述と統合する。
複雑な解剖構造を認識するモデルの能力を高めることで、TextDiffSegは革新的なラベル埋め込み技術を取り入れている。
実験の結果、TextDiffSegは腎臓と膵腫瘍を含む分節作業において、既存の方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-04-16T07:17:36Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features [11.48760300147023]
本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。
MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2021-11-30T10:22:11Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。