Fugu-MT 論文翻訳(概要): Visualization Biases MLLM's Decision Making in Network Data Tasks

論文の概要: Visualization Biases MLLM's Decision Making in Network Data Tasks

arxiv url: http://arxiv.org/abs/2511.03617v1
Date: Wed, 05 Nov 2025 16:34:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-06 18:19:32.487854
Title: Visualization Biases MLLM's Decision Making in Network Data Tasks
Title（参考訳）: ネットワークデータ処理におけるMLLMの意思決定の可視化
Authors: Timo Brand, Henry Förster, Stephen G. Kobourov, Jacob Miller,
Abstract要約: ネットワークにおける橋梁の有無に関するMLLMの判断に可視化がどのような影響を及ぼすかを評価する。可視化を取り入れることで、構造化されたテキストベースの入力に対する信頼性が向上することを示す。一方、標準的な可視化技術は橋の存在を受け入れたり否定したりするための強いバイアスを生み出す。
参考スコア（独自算出の注目度）: 3.407011007218127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We evaluate how visualizations can influence the judgment of MLLMs about the presence or absence of bridges in a network. We show that the inclusion of visualization improves confidence over a structured text-based input that could theoretically be helpful for answering the question. On the other hand, we observe that standard visualization techniques create a strong bias towards accepting or refuting the presence of a bridge -- independently of whether or not a bridge actually exists in the network. While our results indicate that the inclusion of visualization techniques can effectively influence the MLLM's judgment without compromising its self-reported confidence, they also imply that practitioners must be careful of allowing users to include visualizations in generative AI applications so as to avoid undesired hallucinations.
Abstract（参考訳）: ネットワークにおける橋梁の有無に関するMLLMの判断に可視化がどのような影響を及ぼすかを評価する。本研究では, ビジュアライゼーションを取り入れることで, 理論的には疑問に答えるのに役立つ構造化テキスト入力に対する信頼性が向上することを示す。一方、標準的な可視化技術は、橋が実際にネットワークに存在するかどうかに関わらず、橋の存在を受け入れたり否定したりするための強いバイアスを生み出す。その結果,可視化技術が自己報告された自信を損なうことなく,MLLMの判断に効果的に影響を及ぼすことが示唆された。

関連論文リスト

Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文参考訳（メタデータ） (2026-02-02T02:19:50Z)
ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文参考訳（メタデータ） (2026-01-23T11:31:07Z)
Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism [81.39177645864757]
完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
論文参考訳（メタデータ） (2025-11-21T05:13:30Z)
AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。 AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。 AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文参考訳（メタデータ） (2025-11-14T13:35:32Z)
The Perils of Chart Deception: How Misleading Visualizations Affect Vision-Language Models [11.500090488046899]
VLM(Vision-Language Models)は、特に専門家でないユーザによって可視化の解釈に使用されるようになっている。本研究では,8種類のミスリードチャートを対象とする10種類のモデルから16,000以上の応答を解析した。本研究は,視覚的誤報に対するVLMの堅牢な保護の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-08-13T11:11:18Z)
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2025-01-23T12:42:42Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Interpretable agent communication from scratch(with a generic visual processor emerging on the side) [29.722833768572805]
我々は、2つのディープネットをスクラッチからトレーニングし、教師なし緊急通信を通じて現実的な参照識別を行う。ほぼ解釈可能な創発的プロトコルにより、トレーニング時に見なかったオブジェクトタイプであっても、ネットがうまく通信できることが示される。以上の結果から,従来考えられていたよりも現実的な状況下での(解釈可能な)深層ネット通信の実現可能性に関する具体的な証拠が得られた。
論文参考訳（メタデータ） (2021-06-08T11:32:11Z)
Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。 PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文参考訳（メタデータ） (2020-12-06T20:30:26Z)
Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文参考訳（メタデータ） (2020-06-10T00:21:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。