論文の概要: Visual Intelligence through Human Interaction
- arxiv url: http://arxiv.org/abs/2111.06913v1
- Date: Fri, 12 Nov 2021 19:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 16:22:18.634270
- Title: Visual Intelligence through Human Interaction
- Title(参考訳): 人間のインタラクションによる視覚知能
- Authors: Ranjay Krishna, Mitchell Gordon, Li Fei-Fei, Michael Bernstein
- Abstract要約: 我々は,新しいインタラクション戦略により,コンピュータビジョンのための新しい形式のデータ収集と評価が可能になることを実証する。
クラウドソーシングインタフェースにより、有料データ収集を桁違いにスピードアップし、現代の視覚モデルにおけるデータ急激な性質を満たす。
第3に,人間の生成的視覚モデルの評価が信頼性が高く,手頃な価格で,心理物理学理論に根ざしたシステムを開発する。
- 参考スコア(独自算出の注目度): 43.82765410550207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last decade, Computer Vision, the branch of Artificial Intelligence
aimed at understanding the visual world, has evolved from simply recognizing
objects in images to describing pictures, answering questions about images,
aiding robots maneuver around physical spaces and even generating novel visual
content. As these tasks and applications have modernized, so too has the
reliance on more data, either for model training or for evaluation. In this
chapter, we demonstrate that novel interaction strategies can enable new forms
of data collection and evaluation for Computer Vision. First, we present a
crowdsourcing interface for speeding up paid data collection by an order of
magnitude, feeding the data-hungry nature of modern vision models. Second, we
explore a method to increase volunteer contributions using automated social
interventions. Third, we develop a system to ensure human evaluation of
generative vision models are reliable, affordable and grounded in psychophysics
theory. We conclude with future opportunities for Human-Computer Interaction to
aid Computer Vision.
- Abstract(参考訳): 過去10年間で、視覚の世界を理解することを目的とした人工知能の分野であるコンピュータビジョンは、画像中のオブジェクトの認識から、画像の記述、画像に関する質問に答える、ロボットが物理的な空間を動き回るのを助ける、そして新しいビジュアルコンテンツを生成することまで進化してきた。
これらのタスクやアプリケーションは近代化され、モデルトレーニングや評価など、より多くのデータに依存するようになりました。
本章では,新しいインタラクション戦略により,コンピュータビジョンのための新たなデータ収集と評価が可能になることを実証する。
まず、クラウドソーシングインタフェースを用いて、有料データ収集を桁違いにスピードアップし、現代の視覚モデルにおけるデータ不足の性質を表現した。
第2に,社会介入の自動化によるボランティアの貢献度向上方法を検討する。
第3に,人間の生成的視覚モデルの評価が信頼性が高く,手頃な価格で,心理物理学理論に根ざしたシステムを開発する。
コンピュータビジョン支援のための人間とコンピュータのインタラクションの将来の機会について考察する。
関連論文リスト
- Improving Visual Perception of a Social Robot for Controlled and
In-the-wild Human-robot Interaction [10.260966795508569]
ソーシャルロボットが深層学習に基づく視覚知覚モデルを採用すると、客観的相互作用性能と主観的ユーザ体験がどう影響するかは明らかでない。
我々は、ペッパーロボットの視覚知覚機能を改善するために、最先端の人間の知覚と追跡モデルを用いている。
論文 参考訳(メタデータ) (2024-03-04T06:47:06Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Procedural Humans for Computer Vision [1.9550079119934403]
顔と身体のパラメトリックなモデルを構築し,このモデルに基づいて人間の現実的な画像を生成する。
本研究は,Wood et al. のパイプライン上に構築し,人体全体の合成画像を生成することにより,全体を含むように拡張可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T15:44:48Z) - Can machines learn to see without visual databases? [93.73109506642112]
本稿では,視覚的データベースを扱わずに視界を学習するマシンの開発に焦点をあてる。
これは、ビジョンのためのディープラーニング技術に関する真に競争の激しい道を開くかもしれない。
論文 参考訳(メタデータ) (2021-10-12T13:03:54Z) - Visual Perspective Taking for Opponent Behavior Modeling [22.69165968663182]
ロボットのためのエンドツーエンドの長期視覚予測フレームワークを提案する。
視覚的に隠れて見るという文脈で、我々のアプローチを実証する。
我々は,実世界のマルチエージェント活動に完全に統合できる物理ロボットの能力において,視覚行動モデリングとパースペクティブテイキングスキルが重要な役割を果たすことを示唆する。
論文 参考訳(メタデータ) (2021-05-11T16:02:32Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - State of the Art on Neural Rendering [141.22760314536438]
我々は,古典的コンピュータグラフィックス技術と深層生成モデルを組み合わせることで,制御可能かつフォトリアリスティックな出力を得るアプローチに焦点をあてる。
本報告は,新しいビュー合成,セマンティック写真操作,顔と身体の再現,リライティング,自由視点ビデオ,バーチャルおよび拡張現実テレプレゼンスのためのフォトリアリスティックアバターの作成など,記述されたアルゴリズムの多くの重要なユースケースに焦点をあてる。
論文 参考訳(メタデータ) (2020-04-08T04:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。