論文の概要: A Survey on Interpretable Cross-modal Reasoning
- arxiv url: http://arxiv.org/abs/2309.01955v2
- Date: Thu, 14 Sep 2023 13:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 18:09:54.599376
- Title: A Survey on Interpretable Cross-modal Reasoning
- Title(参考訳): 解釈可能なクロスモーダル推論に関する調査
- Authors: Dizhan Xue, Shengsheng Qian, Zuyi Zhou, Changsheng Xu
- Abstract要約: マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。
この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる
本調査では,I-CMRの3段階分類法について概説する。
- 参考スコア(独自算出の注目度): 64.37362731950843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, cross-modal reasoning (CMR), the process of understanding
and reasoning across different modalities, has emerged as a pivotal area with
applications spanning from multimedia analysis to healthcare diagnostics. As
the deployment of AI systems becomes more ubiquitous, the demand for
transparency and comprehensibility in these systems' decision-making processes
has intensified. This survey delves into the realm of interpretable cross-modal
reasoning (I-CMR), where the objective is not only to achieve high predictive
performance but also to provide human-understandable explanations for the
results. This survey presents a comprehensive overview of the typical methods
with a three-level taxonomy for I-CMR. Furthermore, this survey reviews the
existing CMR datasets with annotations for explanations. Finally, this survey
summarizes the challenges for I-CMR and discusses potential future directions.
In conclusion, this survey aims to catalyze the progress of this emerging
research area by providing researchers with a panoramic and comprehensive
perspective, illuminating the state of the art and discerning the
opportunities. The summarized methods, datasets, and other resources are
available at
https://github.com/ZuyiZhou/Awesome-Interpretable-Cross-modal-Reasoning.
- Abstract(参考訳): 近年,マルチメディア解析から医療診断まで幅広い応用分野において,様々なモダリティの理解と推論のプロセスであるcmr(cross-modal reasoning)が重要視されている。
AIシステムの展開がより普及するにつれて、これらのシステムの意思決定プロセスにおける透明性と理解性の要求が高まっている。
この調査は、高い予測性能を達成することだけでなく、人間の理解可能な説明を提供することを目的としている、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げるものである。
本調査では,I-CMRの3段階分類法について概説する。
さらに,本調査では,既存のcmrデータセットを解説のためのアノテーションでレビューする。
最後に,I-CMRの課題を要約し,今後の方向性について考察する。
本研究は,パノラマ的かつ包括的な視点を提供し,芸術の現状を照らし,機会を見極めることにより,新興研究分野の進展を触媒することを目的としている。
要約されたメソッド、データセット、その他のリソースはhttps://github.com/ZuyiZhou/Awesome-Interpretable-Cross-modal-Reasoning.comで入手できる。
関連論文リスト
- How to Understand "Support"? An Implicit-enhanced Causal Inference
Approach for Weakly-supervised Phrase Grounding [18.97081348819219]
WPG(Wakly-supervised Phrase Grounding)は,微粒な句領域マッチングを推定する新たな課題である。
本稿では,暗黙的な関係をモデル化する上での課題に対処するインプリシット強化因果推論手法を提案する。
論文 参考訳(メタデータ) (2024-02-29T12:49:48Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Advancements in Content-Based Image Retrieval: A Comprehensive Survey of
Relevance Feedback Techniques [0.0]
コンテントベース画像検索(CBIR)システムはコンピュータビジョンの分野で重要なツールとして登場してきた。
本稿では,対象検出におけるCBIRの役割と,コンテンツ特徴に基づく視覚的に類似した画像の識別と検索の可能性について,包括的に概説する。
低レベルの特徴と高レベルのセマンティック概念の相違から生じるセマンティックギャップについて詳述し、このギャップを橋渡しするためのアプローチを探る。
論文 参考訳(メタデータ) (2023-12-13T11:07:32Z) - Robust Visual Question Answering: Datasets, Methods, and Future
Challenges [23.59923999144776]
視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。
従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。
VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
論文 参考訳(メタデータ) (2023-07-21T10:12:09Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Hitchhiker's Guide to Super-Resolution: Introduction and Recent Advances [3.966405801901351]
スーパーレゾリューション(SR)は繁栄する研究領域となっている。
有望な結果にもかかわらず、この分野はさらなる研究を必要とする課題に直面している。
このレビューは究極的には、研究者がSRに適用されるDLの境界を押し上げるのを助けることを目的としている。
論文 参考訳(メタデータ) (2022-09-27T03:28:34Z) - Image-text Retrieval: A Survey on Recent Research and Development [58.060687870247996]
クロスモーダル画像テキスト検索(ITR)は、優れた研究価値と幅広い実世界の応用により、研究コミュニティへの関心が高まっている。
本稿では,ITRのアプローチに関する4つの視点から,包括的かつ最新の調査を行う。
論文 参考訳(メタデータ) (2022-03-28T13:00:01Z) - A Survey on Interpretable Reinforcement Learning [28.869513255570077]
本調査は、強化学習(RL)における高い解釈可能性を実現するための様々なアプローチの概要を提供する。
我々は、解釈可能性(モデルの特性として)と説明可能性(プロキシの介入によるポストホック操作として)を区別する。
我々は、解釈可能なRLは、解釈可能な入力、解釈可能な(遷移/回帰)モデル、解釈可能な意思決定など、異なる側面を受け入れることができると主張している。
論文 参考訳(メタデータ) (2021-12-24T17:26:57Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - A Survey on Causal Inference [64.45536158710014]
因果推論は統計学、コンピュータ科学、教育、公共政策、経済学など、多くの分野において重要な研究トピックである。
観測データに対する様々な因果効果推定法が誕生した。
論文 参考訳(メタデータ) (2020-02-05T21:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。