論文の概要: VLSlice: Interactive Vision-and-Language Slice Discovery
- arxiv url: http://arxiv.org/abs/2309.06703v1
- Date: Wed, 13 Sep 2023 04:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:31:20.942990
- Title: VLSlice: Interactive Vision-and-Language Slice Discovery
- Title(参考訳): VLSlice:インタラクティブな視覚・言語スライス発見
- Authors: Eric Slyman, Minsuk Kahng, Stefan Lee
- Abstract要約: VLSliceは、一貫した視覚言語行動を伴うコヒーレントな表現レベルサブグループの発見を可能にする対話型システムである。
VLSliceは,ユーザの学習において多種多様な高一貫性スライスを迅速に生成し,ツールを一般公開することを可能にする。
- 参考スコア(独自算出の注目度): 17.8634551024147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in vision-and-language demonstrates that large-scale pretraining
can learn generalizable models that are efficiently transferable to downstream
tasks. While this may improve dataset-scale aggregate metrics, analyzing
performance around hand-crafted subgroups targeting specific bias dimensions
reveals systemic undesirable behaviors. However, this subgroup analysis is
frequently stalled by annotation efforts, which require extensive time and
resources to collect the necessary data. Prior art attempts to automatically
discover subgroups to circumvent these constraints but typically leverages
model behavior on existing task-specific annotations and rapidly degrades on
more complex inputs beyond "tabular" data, none of which study
vision-and-language models. This paper presents VLSlice, an interactive system
enabling user-guided discovery of coherent representation-level subgroups with
consistent visiolinguistic behavior, denoted as vision-and-language slices,
from unlabeled image sets. We show that VLSlice enables users to quickly
generate diverse high-coherency slices in a user study (n=22) and release the
tool publicly.
- Abstract(参考訳): 視覚と言語に関する最近の研究は、大規模な事前学習が、下流のタスクに効率的に転送可能な一般化可能なモデルを学習できることを実証している。
これはデータセットスケールのアグリゲーションメトリクスを改善するかもしれないが、特定のバイアス次元をターゲットとした手作りサブグループのパフォーマンス分析は、システム的に望ましくない振る舞いを示す。
しかし、このサブグループ分析は、必要なデータを集めるのに膨大な時間とリソースを必要とするアノテーションの取り組みによってしばしば停止される。
先行技術は、これらの制約を回避するために自動的にサブグループを見つけようとするが、通常、既存のタスク固有のアノテーションでモデルの振る舞いを活用し、"表型"データ以上の複雑な入力を迅速に分解する。
本稿では,無ラベル画像集合から視覚・言語スライスとして表現される一貫した視覚言語行動を持つコヒーレント表現レベルサブグループのユーザガイドによる発見を可能にする対話型システム VLSlice を提案する。
VLSliceは,ユーザスタディ(n=22)において,多様な高一貫性スライスを迅速に生成し,ツールを一般公開することを可能にする。
関連論文リスト
- VERA: Generating Visual Explanations of Two-Dimensional Embeddings via Region Annotation [0.0]
Visual Explanations via Region (VERA) は2次元埋め込みの視覚的説明を生成する自動埋め込みアノテーション手法である。
VERAは、埋め込み空間内の異なる領域を特徴付ける情報的説明を生成し、ユーザがその埋め込み風景を一目で概観することができる。
実世界のデータセット上でのVERAの利用について説明するとともに,本手法の有効性を比較ユーザスタディで検証する。
論文 参考訳(メタデータ) (2024-06-07T10:23:03Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。
テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文 参考訳(メタデータ) (2023-05-19T00:53:45Z) - Diagnosing and Rectifying Vision Models using Language [31.588965563961573]
最近のコントラスト学習モデルは、強力な視覚分類器を構築するのに適した埋め込み空間を学習できることを実証している。
我々の研究は、このマルチモーダル埋め込み空間の明確な利点として、自然言語で視覚分類器を診断する能力を挙げている。
提案手法は,ハイエラーデータスライスを発見し,重要な属性を同定し,さらに好ましくないモデルの振る舞いを補正する。
論文 参考訳(メタデータ) (2023-02-08T18:59:42Z) - Visual Auditor: Interactive Visualization for Detection and
Summarization of Model Biases [18.434430375939755]
機械学習(ML)システムがますます普及するにつれて、これらのシステムをデプロイ前にバイアスとして監査する必要がある。
近年の研究では、データのサブセット(またはスライス)を解釈可能で過小評価する形で、交差点バイアスを効果的に識別するアルゴリズムが開発されている。
モデルバイアスを監査・要約するための対話型可視化ツールであるVisual Auditorを提案する。
論文 参考訳(メタデータ) (2022-06-25T02:48:27Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Learning Dual Dynamic Representations on Time-Sliced User-Item
Interaction Graphs for Sequential Recommendation [62.30552176649873]
シーケンシャルレコメンデーションのための動的表現学習モデル(DRL-SRe)を考案する。
両面から動的に特徴付けるためのユーザ・イテム相互作用をモデル化するため,提案モデルでは,時間スライス毎にグローバルなユーザ・イテム相互作用グラフを構築した。
モデルが微粒な時間情報を捕捉することを可能にするため,連続時間スライス上での補助的時間予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:44:27Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。