Fugu-MT 論文翻訳(概要): Benchmarking human visual search computational models in natural scenes: models comparison and reference datasets

論文の概要: Benchmarking human visual search computational models in natural scenes: models comparison and reference datasets

arxiv url: http://arxiv.org/abs/2112.05808v1
Date: Fri, 10 Dec 2021 19:56:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-14 15:11:14.625899
Title: Benchmarking human visual search computational models in natural scenes: models comparison and reference datasets
Title（参考訳）: 自然場面における人間の視覚探索計算モデルのベンチマーク:モデル比較と参照データセット
Authors: F. Travi (1), G. Ruarte (1), G. Bujia (1) and J. E. Kamienkowski (1,2) ((1) Laboratorio de Inteligencia Artificial Aplicada, Instituto de Ciencias de la Computaci\'on, Universidad de Buenos Aires - CONICET (2) Maestr\'ia de Explotaci\'on de Datos y Descubrimiento del Conocimiento, Universidad de Buenos Aires, Argentina)
Abstract要約: 我々は、自然の場面で利用可能な最先端のビジュアル検索モデルを選択し、異なるデータセットで評価する。本稿では,ニューラルネットワークに基づくビジュアルサーチモデルと組み合わせて,理想ベイズ探索法の改良を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Visual search is an essential part of almost any everyday human goal-directed interaction with the environment. Nowadays, several algorithms are able to predict gaze positions during simple observation, but few models attempt to simulate human behavior during visual search in natural scenes. Furthermore, these models vary widely in their design and exhibit differences in the datasets and metrics with which they were evaluated. Thus, there is a need for a reference point, on which each model can be tested and from where potential improvements can be derived. In the present work, we select publicly available state-of-the-art visual search models in natural scenes and evaluate them on different datasets, employing the same metrics to estimate their efficiency and similarity with human subjects. In particular, we propose an improvement to the Ideal Bayesian Searcher through a combination with a neural network-based visual search model, enabling it to generalize to other datasets. The present work sheds light on the limitations of current models and how potential improvements can be accomplished by combining approaches. Moreover, it moves forward on providing a solution for the urgent need for benchmarking data and metrics to support the development of more general human visual search computational models.
Abstract（参考訳）: 視覚検索は、毎日の人間の目標と環境との対話において不可欠な部分である。現在、いくつかのアルゴリズムは単純な観察中に視線位置を予測できるが、自然場面の視覚探索中に人間の行動をシミュレートしようとするモデルはほとんどない。さらに、これらのモデルは設計において大きく異なり、評価されたデータセットとメトリクスの違いを示す。したがって、各モデルをテストするための参照点と、潜在的な改善が導出できる場所が必要である。本研究では,自然場面で利用可能な最先端のビジュアル検索モデルを選択し,異なるデータセット上で評価し,同じ指標を用いて被験者との効率と類似度を推定する。特に、ニューラルネットワークに基づくビジュアルサーチモデルと組み合わせることで、Ideal Bayesian Searcherの改善を提案し、他のデータセットへの一般化を可能にした。この研究は、現在のモデルの限界と、アプローチを組み合わせることで潜在的な改善が達成される可能性に光を当てている。さらに、より一般的なビジュアル検索計算モデルの開発を支援するために、データとメトリクスをベンチマークする緊急必要なソリューションの提供も進めている。

関連論文リスト

CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models [18.891323067948285]
データビジュアライゼーションに関する推論を含むタスクにおいて、視覚言語モデルがどのように人間の振る舞いをエミュレートするかは不明だ。そこで我々は,人間向けに設計された6つのデータ可視化リテラシー評価において,視覚言語モデル8つを評価した。その結果、これらのモデルは平均して人間よりも悪い結果が得られた。
論文参考訳（メタデータ） (2025-05-22T18:15:04Z)
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。 1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文参考訳（メタデータ） (2024-12-10T18:52:39Z)
Embedding-based statistical inference on generative models [10.948308354932639]
生成モデルの埋め込みに基づく表現に関する結果を、古典的な統計的推論設定に拡張する。類似」の概念の基盤として視点空間を用いることは、複数のモデルレベルの推論タスクに有効であることを示す。
論文参考訳（メタデータ） (2024-10-01T22:28:39Z)
Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models [1.9890559505377343]
現在の視覚言語マルチモーダルモデルは、一般的な視覚的理解タスクに適している。本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、ベンチマークで評価し、大幅な改善を実現した。
論文参考訳（メタデータ） (2024-09-14T05:07:57Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文参考訳（メタデータ） (2024-01-02T17:08:26Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Ambiguous Images With Human Judgments for Robust Visual Event Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文参考訳（メタデータ） (2022-10-06T17:52:20Z)
Inter-model Interpretability: Self-supervised Models as a Case Study [0.2578242050187029]
テキスト・インター・モデル・インタプリタビリティを導入するためのDissectと呼ばれる最近の解釈可能性技術を構築した。我々は、学習概念の観点から、モデル間の近さを明らかにする学習概念埋め込み空間に、トップパフォーマンスの自己教師型モデル13を投影する。この実験により、モデルを3つのカテゴリに分類し、異なるタスクが必要とする視覚概念の種類を初めて明らかにしました。
論文参考訳（メタデータ） (2022-07-24T22:50:18Z)
A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文参考訳（メタデータ） (2022-06-17T08:32:43Z)
Diversity vs. Recognizability: Human-like generalization in one-shot generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文参考訳（メタデータ） (2022-05-20T13:17:08Z)
Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文参考訳（メタデータ） (2021-03-29T06:35:24Z)
CONSAC: Robust Multi-Model Fitting by Conditional Sample Consensus [62.86856923633923]
我々は,同じ形状の複数のパラメトリックモデルを雑音測定に適合させる頑健な推定器を提案する。複数のモデル検出のための手作り検索戦略を利用する従来の研究とは対照的に,データから検索戦略を学習する。探索の自己教師付き学習において,提案したアルゴリズムをマルチホログラフィー推定で評価し,最先端手法よりも優れた精度を示す。
論文参考訳（メタデータ） (2020-01-08T17:37:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。