論文の概要: Mapping User Trust in Vision Language Models: Research Landscape, Challenges, and Prospects
- arxiv url: http://arxiv.org/abs/2505.05318v1
- Date: Thu, 08 May 2025 15:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.930095
- Title: Mapping User Trust in Vision Language Models: Research Landscape, Challenges, and Prospects
- Title(参考訳): 視覚言語モデルにおけるユーザ信頼のマッピング:ランドスケープの研究,課題,展望
- Authors: Agnese Chiatti, Sara Bernardini, Lara Shibelski Godoy Piccolo, Viola Schiaffonati, Matteo Matteucci,
- Abstract要約: 視覚言語モデル(VLM)は、大規模な画像テキストおよびビデオテキストデータセットで事前訓練されている。
本研究は,ユーザ-VLMインタラクションにおける信頼ダイナミクスに関する研究についてレビューする。
今後のVLM信頼研究の予備的要件について,将来的なVLMユーザによるワークショップからの文献的洞察と調査結果を報告する。
- 参考スコア(独自算出の注目度): 5.38725681861465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of Vision Language Models (VLMs), pre-trained on large image-text and video-text datasets, calls for protecting and informing users about when to trust these systems. This survey reviews studies on trust dynamics in user-VLM interactions, through a multi-disciplinary taxonomy encompassing different cognitive science capabilities, collaboration modes, and agent behaviours. Literature insights and findings from a workshop with prospective VLM users inform preliminary requirements for future VLM trust studies.
- Abstract(参考訳): 大規模な画像テキストとビデオテキストデータセットで事前トレーニングされたビジョン言語モデル(VLM)の急速な採用により、ユーザに対して、これらのシステムをいつ信頼すべきかを保護し、通知するよう求めている。
本研究は,異なる認知科学能力,協調モード,エージェント行動を含む多分野の分類学を通じて,ユーザとVLMのインタラクションにおける信頼ダイナミクスに関する研究をレビューする。
今後のVLM信頼研究の予備的要件について,将来的なVLMユーザによるワークショップからの文献的洞察と調査結果を報告する。
関連論文リスト
- Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models [53.13731845500678]
本稿では、視覚エンコーダの事前知識がMLLMの性能に与える影響を定量化するために、新しい計量である$Rank_e$を導入する。
視覚エンコーダレベルで事前知識を明示的に組み込んだ2段階トレーニングフレームワークであるVisPREを提案する。
実験の結果,視覚エンコーダの事前知識の増大はMLLMの視覚理解能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-23T11:33:09Z) - MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z) - RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。
本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:55:52Z) - Retrieval-based Knowledge Augmented Vision Language Pre-training [9.779887832992435]
知識強化事前学習の主な課題は、知識とマルチモーダルデータの間の明確なつながりの欠如である。
本研究では,Retrieval-based knowledge Augmented Vision Language (REAVL)を提案する。
本稿では,知識とマルチモーダルデータとの対応性を効果的に確立する知識認識型自己教師型学習手法を初めて導入する。
論文 参考訳(メタデータ) (2023-04-27T02:23:47Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - The State of the Art in Enhancing Trust in Machine Learning Models with the Use of Visualizations [0.0]
機械学習(ML)モデルは、医学、バイオインフォマティクス、その他の科学など、様々な分野の複雑な応用で使われている。
しかし、ブラックボックスの性質のため、それらが提供する結果を理解し、信頼することは難しいこともある。
これにより、MLモデルの信頼性向上に関連する信頼性の高い視覚化ツールの需要が増加した。
本稿では,インタラクティブな可視化によるMLモデルの信頼性向上について,STAR(State-of-the-Art Report)を提案する。
論文 参考訳(メタデータ) (2022-12-22T14:29:43Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。