Fugu-MT 論文翻訳(概要): AEye: A Visualization Tool for Image Datasets

論文の概要: AEye: A Visualization Tool for Image Datasets

arxiv url: http://arxiv.org/abs/2408.04072v1
Date: Wed, 7 Aug 2024 20:19:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 17:20:07.266709
Title: AEye: A Visualization Tool for Image Datasets
Title（参考訳）: AEye:画像データセットの可視化ツール
Authors: Florian Grötschla, Luca A. Lanzendörfer, Marco Calzavara, Roger Wattenhofer,
Abstract要約: AEyeは、画像データセットに適した意味的に意味のある視覚化ツールである。 AEyeはイメージを意味的に意味のある高次元表現に埋め込み、データのクラスタリングと組織化を容易にする。 AEyeはテキストと画像クエリの両方のセマンティック検索機能を容易にし、ユーザーはコンテンツを検索できる。
参考スコア（独自算出の注目度）: 18.95453617434051
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image datasets serve as the foundation for machine learning models in computer vision, significantly influencing model capabilities, performance, and biases alongside architectural considerations. Therefore, understanding the composition and distribution of these datasets has become increasingly crucial. To address the need for intuitive exploration of these datasets, we propose AEye, an extensible and scalable visualization tool tailored to image datasets. AEye utilizes a contrastively trained model to embed images into semantically meaningful high-dimensional representations, facilitating data clustering and organization. To visualize the high-dimensional representations, we project them onto a two-dimensional plane and arrange images in layers so users can seamlessly navigate and explore them interactively. AEye facilitates semantic search functionalities for both text and image queries, enabling users to search for content. We open-source the codebase for AEye, and provide a simple configuration to add datasets.
Abstract（参考訳）: イメージデータセットは、コンピュータビジョンにおける機械学習モデルの基盤として機能し、アーキテクチャ上の考慮とともに、モデル能力、パフォーマンス、バイアスに大きな影響を与える。したがって、これらのデータセットの構成と分布を理解することがますます重要になっている。これらのデータセットの直感的な探索の必要性に対処するため、画像データセットに適した拡張可能でスケーラブルな可視化ツールであるAEyeを提案する。 AEyeは、対照的に訓練されたモデルを使用して、イメージを意味のある高次元表現に埋め込み、データのクラスタリングと組織化を容易にする。高次元の表現を可視化するため、2次元平面上に投影し、画像を層状に配置し、ユーザーがシームレスにナビゲートし、対話的に探索できるようにする。 AEyeはテキストと画像クエリの両方のセマンティック検索機能を容易にし、ユーザーはコンテンツを検索できる。 AEyeのコードベースをオープンソースとして公開し、データセットを追加するための簡単な設定を提供しています。

関連論文リスト

DatasetAgent: A Novel Multi-Agent System for Auto-Constructing Datasets from Real-World Images [21.22466658711056]
本稿では,マルチエージェント協調システムによる実世界の画像からのデータセットの自動構築手法を提案する。 MLLM(Multi-modal Large Language Models)を備えた4種類のエージェントをコーディネートすることで,高品質な画像データセットを構築することができる。特に、既存のデータセットを拡張し、新しいデータセットをスクラッチから作成するなど、2種類の実験が実施されている。
論文参考訳（メタデータ） (2025-07-11T14:51:33Z)
Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文参考訳（メタデータ） (2025-02-27T09:37:30Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文参考訳（メタデータ） (2024-05-31T15:17:47Z)
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文参考訳（メタデータ） (2024-03-23T22:32:06Z)
SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文参考訳（メタデータ） (2023-12-18T05:11:00Z)
Visual Analytics for Efficient Image Exploration and User-Guided Image Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文参考訳（メタデータ） (2023-11-02T06:21:35Z)
Visual Exploration of Large-Scale Image Datasets for Machine Learning with Treemaps [1.881768127321966]
我々は機械学習のための大規模画像データセットを探索する新しいアプローチであるDendroMapを開発した。画像の高次元表現から階層的クラスタ構造を抽出することにより、画像を効果的に整理する。ユーザーはデータセットの全体分布を理解し、特定の関心領域をインタラクティブに拡大することができる。
論文参考訳（メタデータ） (2022-05-14T00:26:20Z)
Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-07-26T05:50:41Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。視覚と概念の関係をグラフ構造としてモデル化する。また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文参考訳（メタデータ） (2020-10-04T19:34:20Z)
OpenRooms: An End-to-End Open Framework for Photorealistic Indoor Scene Datasets [103.54691385842314]
本研究では,屋内シーンの大規模フォトリアリスティックデータセットを作成するための新しいフレームワークを提案する。私たちの目標は、データセット作成プロセスを広く利用できるようにすることです。これにより、逆レンダリング、シーン理解、ロボット工学における重要な応用が可能になる。
論文参考訳（メタデータ） (2020-07-25T06:48:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。