論文の概要: Physics-Based Benchmarking Metrics for Multimodal Synthetic Images
- arxiv url: http://arxiv.org/abs/2511.15204v1
- Date: Wed, 19 Nov 2025 07:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.692443
- Title: Physics-Based Benchmarking Metrics for Multimodal Synthetic Images
- Title(参考訳): 物理に基づくマルチモーダル合成画像のベンチマークメトリクス
- Authors: Kishor Datta Gupta, Marufa Kamal, Md. Mahfuzur Rahman, Fahad Rahman, Mohd Ariful Haque, Sunzida Siddique,
- Abstract要約: BLEU、CIDEr、VQAスコア、SigLIP-2、CLIPScoreといった最先端技術は、しばしば意味や構造的精度を捉えることができない。
本稿では,大規模言語モデルと推論を組み合わせた物理制約付きマルチモーダルデータ評価(PCMDE)手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state of the art measures like BLEU, CIDEr, VQA score, SigLIP-2 and CLIPScore are often unable to capture semantic or structural accuracy, especially for domain-specific or context-dependent scenarios. For this, this paper proposes a Physics-Constrained Multimodal Data Evaluation (PCMDE) metric combining large language models with reasoning, knowledge based mapping and vision-language models to overcome these limitations. The architecture is comprised of three main stages: (1) feature extraction of spatial and semantic information with multimodal features through object detection and VLMs; (2) Confidence-Weighted Component Fusion for adaptive component-level validation; and (3) physics-guided reasoning using large language models for structural and relational constraints (e.g., alignment, position, consistency) enforcement.
- Abstract(参考訳): BLEU、CIDEr、VQAスコア、SigLIP-2、CLIPScoreといった現在の最先端の尺度は、特にドメイン固有のシナリオやコンテキストに依存したシナリオにおいて、意味的または構造的精度を捉えることができないことが多い。
そこで本研究では,これらの制約を克服するために,大規模言語モデルと推論,知識ベースマッピング,視覚言語モデルを組み合わせた物理制約付きマルチモーダルデータ評価(PCMDE)メトリクスを提案する。
本アーキテクチャは,(1)オブジェクト検出とVLMによる空間情報と意味情報の抽出,(2)適応的コンポーネントレベルの検証のための信頼度重み付きコンポーネントフュージョン,(3)大規模言語モデルを用いた物理誘導推論(例えば,アライメント,位置,整合性)の3段階からなる。
関連論文リスト
- IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models [2.984679075401059]
本稿では,視覚言語モデルの解釈性向上を目的としたマルチモーダル説明型学習フレームワークを提案する。
我々のアプローチは、複数の意味レベルで特徴を処理し、異なる粒度における画像領域間の関係をキャプチャする。
意味関係情報を勾配に基づく属性マップに組み込むことで、MMELはより焦点を絞った、文脈を意識した視覚化を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-17T18:18:59Z) - MetaGen: A DSL, Database, and Benchmark for VLM-Assisted Metamaterial Generation [25.181982772360612]
メタマテリアルは、幾何学が非常に自明な性質を与えるマイクロアーキテクチャ構造である。
しかし、それらの設計は、幾何学的な複雑さとアーキテクチャから振る舞いへの非自明なマッピングのために難しい。
これらの課題に3つの補完的な貢献で対処する。
論文 参考訳(メタデータ) (2025-08-25T00:36:07Z) - Elucidating the Design Space of Multimodal Protein Language Models [69.3650883370033]
マルチモーダルタンパク質言語モデル(PLM)は、シーケンスとトークンに基づく構造情報を統合する。
本稿では,マルチモーダルPLMの設計空間を体系的に解明し,その限界を克服する。
我々の進歩はよりきめ細かな監督にアプローチし、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現することを実証する。
論文 参考訳(メタデータ) (2025-04-15T17:59:43Z) - Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Teaching Metric Distance to Discrete Autoregressive Language Models [32.80635181434747]
DIST2Lossは自動回帰離散モデルの学習を目的とした遠隔認識フレームワークである。
DIST2Lossは、固有距離測定値から派生した指数関数的な家族分布を離散的なカテゴリー最適化ターゲットに変換する。
経験的評価は多様なマルチモーダルアプリケーションにおいて一貫した性能向上を示す。
論文 参考訳(メタデータ) (2025-03-04T08:14:51Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。