論文の概要: On Explaining Visual Captioning with Hybrid Markov Logic Networks
- arxiv url: http://arxiv.org/abs/2507.21246v1
- Date: Mon, 28 Jul 2025 18:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.167535
- Title: On Explaining Visual Captioning with Hybrid Markov Logic Networks
- Title(参考訳): ハイブリッドマルコフ論理ネットワークによるビジュアルキャプションの解説
- Authors: Monika Shah, Somdeb Sarkhel, Deepak Venugopal,
- Abstract要約: 我々は,Hybrid Markov Logic Networks(HMLNs)に基づいて,容易に解釈可能な説明フレームワークを開発する。
我々は、トレーニングインスタンス上のHMLN分布を学習し、生成されたサンプルに条件を付けると、これらのインスタンス上の分布の変化を推測する。
Amazon Mechanical Turkを用いたいくつかの最先端キャプションモデルで生成されたキャプションに関する実験は、我々の説明の解釈可能性を示している。
- 参考スコア(独自算出の注目度): 2.113770213797994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Neural Networks (DNNs) have made tremendous progress in multimodal tasks such as image captioning. However, explaining/interpreting how these models integrate visual information, language information and knowledge representation to generate meaningful captions remains a challenging problem. Standard metrics to measure performance typically rely on comparing generated captions with human-written ones that may not provide a user with a deep insights into this integration. In this work, we develop a novel explanation framework that is easily interpretable based on Hybrid Markov Logic Networks (HMLNs) - a language that can combine symbolic rules with real-valued functions - where we hypothesize how relevant examples from the training data could have influenced the generation of the observed caption. To do this, we learn a HMLN distribution over the training instances and infer the shift in distributions over these instances when we condition on the generated sample which allows us to quantify which examples may have been a source of richer information to generate the observed caption. Our experiments on captions generated for several state-of-the-art captioning models using Amazon Mechanical Turk illustrate the interpretability of our explanations, and allow us to compare these models along the dimension of explainability.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は,画像キャプションなどのマルチモーダルタスクにおいて大きな進歩を遂げている。
しかし、これらのモデルがどのように視覚情報、言語情報、知識表現を統合して意味のあるキャプションを生成するかを説明し、解釈することは難しい問題である。
パフォーマンスを測定するための標準メトリクスは、典型的には、生成されたキャプションと人書きのキャプションを比較することに依存している。
本研究では,Hybrid Markov Logic Networks (HMLNs) をベースとして,表現規則と実数値関数を結合可能な言語として,学習データからの関連事例が,観察されたキャプションの生成にどのように影響するかを仮説化する。
これを実現するために,我々は,トレーニングインスタンス上のHMLN分布を学習し,生成されたサンプルに条件を付けると,これらのインスタンス上の分布の変化を推測する。
Amazon Mechanical Turkを用いたいくつかの最新のキャプションモデルで生成されたキャプション実験は、説明の解釈可能性を示し、説明可能性の次元に沿ってこれらのモデルを比較することができる。
関連論文リスト
- Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov Logic [2.113770213797994]
そこで我々は,Hybrid Markov Logic Networks (HMLNs) を用いて確率モデルを学習する。
生成されたキャプションに対して,HMLN分布に基づくトレーニング例の影響を定量化する。
論文 参考訳(メタデータ) (2025-03-18T02:39:26Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。