論文の概要: GANSlider: How Users Control Generative Models for Images using Multiple
Sliders with and without Feedforward Information
- arxiv url: http://arxiv.org/abs/2202.00965v1
- Date: Wed, 2 Feb 2022 11:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 15:20:12.931581
- Title: GANSlider: How Users Control Generative Models for Images using Multiple
Sliders with and without Feedforward Information
- Title(参考訳): ganslider: フィードフォワード情報の有無に関わらず、複数のスライダを使用して画像生成モデルを制御する方法
- Authors: Hai Dang, Lukas Mecke, Daniel Buschek
- Abstract要約: フィードフォワード・ビジュアライゼーションのない複数のスライダが、ユーザが生成モデルの制御にどのように影響するかを検討する。
より多くのコントロールディメンション(スライダ)がタスクの難易度とユーザアクションを著しく増加させることがわかった。
可視化だけでは、ユーザが個々のコントロールディメンションを理解するのに十分とは限らない。
- 参考スコア(独自算出の注目度): 33.28541180149195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how multiple sliders with and without feedforward
visualizations influence users' control of generative models. In an online
study (N=138), we collected a dataset of people interacting with a generative
adversarial network (StyleGAN2) in an image reconstruction task. We found that
more control dimensions (sliders) significantly increase task difficulty and
user actions. Visual feedforward partly mitigates this by enabling more
goal-directed interaction. However, we found no evidence of faster or more
accurate task performance. This indicates a tradeoff between feedforward detail
and implied cognitive costs, such as attention. Moreover, we found that
visualizations alone are not always sufficient for users to understand
individual control dimensions. Our study quantifies fundamental UI design
factors and resulting interaction behavior in this context, revealing
opportunities for improvement in the UI design for interactive applications of
generative models. We close by discussing design directions and further
aspects.
- Abstract(参考訳): フィードフォワード・ビジュアライゼーションのない複数のスライダが、ユーザが生成モデルの制御にどのように影響するかを検討する。
オンライン調査 (N=138) では、画像再構成作業において、生成的敵対ネットワーク(StyleGAN2)と相互作用する人々のデータセットを収集した。
より多くのコントロールディメンション(スライダ)がタスクの難易度とユーザアクションを著しく増加させることがわかった。
視覚的なfeedforwardは、よりゴール指向のインタラクションを可能にすることで、これを部分的に緩和する。
しかし、より速く、より正確なタスクパフォーマンスを示す証拠は見つからなかった。
これは、フィードフォワードの詳細と注意などの認知コストのトレードオフを示している。
さらに,個々の制御次元を理解するのに可視化だけでは十分ではないことがわかった。
本研究は,この文脈におけるUI設計の基本的な要素と相互作用の振る舞いを定量化し,生成モデルのインタラクティブなアプリケーションのためのUI設計を改善する機会を明らかにする。
デザインの方向性とさらなる側面を議論することで締めくくります。
関連論文リスト
- AdaptSSR: Pre-training User Model with Augmentation-Adaptive
Self-Supervised Ranking [19.1857792382924]
本稿では,Augmentation-Supervised Ranking (AdaptSSR)を提案する。
我々は、暗黙的に拡張されたビュー、明示的な拡張されたビュー、および他のユーザからのビューの類似性の順序をキャプチャするために、ユーザモデルを訓練する複数のペアランキング損失を採用する。
6つの下流タスクを持つパブリックデータセットとインダストリアルデータセットの実験は、AdaptSSRの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-15T02:19:28Z) - Think, Act, and Ask: Open-World Interactive Personalized Robot
Navigation [18.87702228339633]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。
我々は,Zero-shot Interactive Personalized Object Navigation (ZipON)を紹介した。
我々は,Large Language Models (LLMs) を用いて,知覚,ナビゲーション,コミュニケーションの異なるモジュールを操作するためのシーケンシャルな決定を行う,Open-woRld Interactive persOnalized Navigation (ORION) と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T01:17:56Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person
Interaction Recognition [65.87203087716263]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、すべての標準評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Agile Modeling: From Concept to Classifier in Minutes [35.03003329814567]
主観的な視覚概念をコンピュータビジョンモデルに変換するプロセスです。
ユーザが30分以内で最小限の労力で分類器を作成できることを、ユーザスタディで示しています。
このユーザ主導のプロセスと,従来のクラウドソーシングのパラダイムを比較して,クラウドソーシングの概念がユーザの概念としばしば異なっていることを確認する。
論文 参考訳(メタデータ) (2023-02-25T01:18:09Z) - Learning Large-scale Universal User Representation with Sparse Mixture
of Experts [1.2722697496405464]
複数のタスクから高品質なユーザ表現を得るための汎用フレームワーク SUPERMOE を提案する。
具体的には、ユーザ動作シーケンスをMoE変換器で符号化することで、モデル容量を数十億のパラメータに増やすことができる。
複数のタスクにまたがる学習においてシーソー現象に対処するために,タスクインジケータを用いた新たな損失関数を設計する。
論文 参考訳(メタデータ) (2022-07-11T06:19:03Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation [61.114580368455236]
マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。
本稿では,ハイパーメタパスやハイパーメタグラフを構築するためのハイパーメタパスの概念を提案する。
最近のグラフコントラスト学習の成功により、異なる振る舞い間の依存関係を理解するために固定されたスキームを割り当てるのではなく、ユーザ行動パターンの埋め込みを適応的に学習する。
論文 参考訳(メタデータ) (2021-09-07T04:28:09Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Disentangled Graph Collaborative Filtering [100.26835145396782]
Disentangled Graph Collaborative Filtering (DGCF)は、インタラクションデータからユーザとアイテムの情報表現を学ぶための新しいモデルである。
ユーザ・イテムのインタラクション毎に意図を超越した分布をモデル化することにより、インテント・アウェアなインタラクショングラフと表現を反復的に洗練する。
DGCFはNGCF、DisenGCN、MacridVAEといった最先端モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-03T15:37:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。