論文の概要: Creating User-steerable Projections with Interactive Semantic Mapping
- arxiv url: http://arxiv.org/abs/2506.15479v1
- Date: Wed, 18 Jun 2025 14:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.685042
- Title: Creating User-steerable Projections with Interactive Semantic Mapping
- Title(参考訳): インタラクティブなセマンティックマッピングによるユーザステアブルなプロジェクションの作成
- Authors: Artur André Oliveira, Mateus Espadoto, Roberto Hirata Jr., Roberto M. Cesar Jr., Alex C. Telea,
- Abstract要約: 画像とテキストデータのための新しいユーザガイドプロジェクションフレームワークを提案する。
ユーザは自然言語案内プロンプトでプロジェクションを動的に操作できる。
我々のアプローチは、完全に自動化されたDR技術と人間中心のデータ探索のギャップを埋めるものです。
- 参考スコア(独自算出の注目度): 1.056341184072737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dimensionality reduction (DR) techniques map high-dimensional data into lower-dimensional spaces. Yet, current DR techniques are not designed to explore semantic structure that is not directly available in the form of variables or class labels. We introduce a novel user-guided projection framework for image and text data that enables customizable, interpretable, data visualizations via zero-shot classification with Multimodal Large Language Models (MLLMs). We enable users to steer projections dynamically via natural-language guiding prompts, to specify high-level semantic relationships of interest to the users which are not explicitly present in the data dimensions. We evaluate our method across several datasets and show that it not only enhances cluster separation, but also transforms DR into an interactive, user-driven process. Our approach bridges the gap between fully automated DR techniques and human-centered data exploration, offering a flexible and adaptive way to tailor projections to specific analytical needs.
- Abstract(参考訳): 次元減少(DR)技術は、高次元データを低次元空間にマッピングする。
しかし、現在のDR技術は、変数やクラスラベルの形で直接利用できない意味構造を探索するために設計されていない。
マルチモーダル大言語モデル(MLLM)を用いたゼロショット分類により、画像とテキストデータに対して、カスタマイズ可能、解釈可能、データの可視化を可能にする新しいユーザガイドプロジェクションフレームワークを提案する。
ユーザは、自然言語ガイドプロンプトを介して動的にプロジェクションを操り、データ次元に明示的に存在しないユーザに対して、関心の高レベルなセマンティックな関係を指定できる。
提案手法を複数のデータセットにわたって評価し,クラスタ分離を向上するだけでなく,DRを対話的かつユーザ主導のプロセスに変換することを示す。
我々のアプローチは、完全に自動化されたDR技術と人間中心のデータ探索のギャップを埋め、特定の分析ニーズに合わせて投影を調整するための柔軟で適応的な方法を提供する。
関連論文リスト
- PATFinger: Prompt-Adapted Transferable Fingerprinting against Unauthorized Multimodal Dataset Usage [19.031839603738057]
マルチモーダルデータセットは、クロスモーダルセマンティクスを提供することで、事前訓練されたビジョン適応モデルに活用することができる。
本稿では,PATFingerと呼ばれる新しいプロンプト言語変換可能なフィンガープリント手法を提案する。
提案手法では,モデルにトリガを学習させる代わりに,固有データセット属性を指紋として利用する。
論文 参考訳(メタデータ) (2025-04-15T09:53:02Z) - VERA: Generating Visual Explanations of Two-Dimensional Embeddings via Region Annotation [0.0]
Visual Explanations via Region (VERA) は2次元埋め込みの視覚的説明を生成する自動埋め込みアノテーション手法である。
VERAは、埋め込み空間内の異なる領域を特徴付ける情報的説明を生成し、ユーザがその埋め込み風景を一目で概観することができる。
実世界のデータセット上でのVERAの利用について説明するとともに,本手法の有効性を比較ユーザスタディで検証する。
論文 参考訳(メタデータ) (2024-06-07T10:23:03Z) - DimVis: Interpreting Visual Clusters in Dimensionality Reduction With Explainable Boosting Machine [3.2748787252933442]
DimVisは、DRプロジェクションの解釈アシスタントとして、教師付きExplainable Boosting Machine(EBM)モデルを使用するツールである。
本ツールは,視覚的クラスタにおける特徴関連性の解釈を提供することにより,高次元データ解析を容易にする。
論文 参考訳(メタデータ) (2024-02-10T04:50:36Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - VLSlice: Interactive Vision-and-Language Slice Discovery [17.8634551024147]
VLSliceは、一貫した視覚言語行動を伴うコヒーレントな表現レベルサブグループの発見を可能にする対話型システムである。
VLSliceは,ユーザの学習において多種多様な高一貫性スライスを迅速に生成し,ツールを一般公開することを可能にする。
論文 参考訳(メタデータ) (2023-09-13T04:02:38Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。