論文の概要: Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users
- arxiv url: http://arxiv.org/abs/2602.16930v1
- Date: Wed, 18 Feb 2026 22:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.499551
- Title: Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users
- Title(参考訳): My Way:Blindユーザとの会話型視覚質問応答における制御の探索
- Authors: Farnaz Zamiri Zeraati, Yang Trista Cao, Yuehan Qiao, Hal Daumé, Hernisa Kacorri,
- Abstract要約: 本稿では,視覚的質問応答(VQA)ツールを現実の会話型VQAシステムでカスタマイズする方法を示す。
このシステムは冗長性制御を欠き、空間と時間の距離を推定し、到達不能な画像フレーミングに依存し、カメラのガイダンスはほとんど提供されなかった。
参加者がこれらの制限を回避するのに、プロンプトエンジニアリングなどのカスタマイズ技術がどのように役立つかについて論じる。
- 参考スコア(独自算出の注目度): 8.54162000547885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting and steering techniques are well established in general-purpose generative AI, yet assistive visual question answering (VQA) tools for blind users still follow rigid interaction patterns with limited opportunities for customization. User control can be helpful when system responses are misaligned with their goals and contexts, a gap that becomes especially consequential for blind users that may rely on these systems for access. We invite 11 blind users to customize their interactions with a real-world conversational VQA system. Drawing on 418 interactions, reflections, and post-study interviews, we analyze prompting-based techniques participants adopted, including those introduced in the study and those developed independently in real-world settings. VQA interactions were often lengthy: participants averaged 3 turns, sometimes up to 21, with input text typically tenfold shorter than the responses they heard. Built on state-of-the-art LLMs, the system lacked verbosity controls, was limited in estimating distance in space and time, relied on inaccessible image framing, and offered little to no camera guidance. We discuss how customization techniques such as prompt engineering can help participants work around these limitations. Alongside a new publicly available dataset, we offer insights for interaction design at both query and system levels.
- Abstract(参考訳): プロンプティングとステアリングのテクニックは汎用的な生成AIでは十分に確立されているが、視覚障害者のための補助的な視覚的質問応答(VQA)ツールは、カスタマイズの機会が限られている厳密な相互作用パターンに従っている。
システムの応答が目標やコンテキストと一致していない場合、ユーザコントロールは役立ちます。
我々は、現実世界の会話型VQAシステムとのインタラクションをカスタマイズするために、11人の盲目のユーザーを招待する。
418のインタラクション、リフレクション、そしてポストスタディインタビューに基づいて、我々は参加者が採用したプロンプトベースのテクニックを分析した。
参加者は平均3回、時には21回まで、通常、入力テキストは聞いた応答よりも10倍短かった。
最先端のLLMをベースとして開発されたこのシステムは冗長性制御を欠き、空間と時間の距離を推定し、到達不能の画像フレーミングに依存し、カメラのガイダンスはほとんど提供されなかった。
参加者がこれらの制限を回避するのに、プロンプトエンジニアリングなどのカスタマイズ技術がどのように役立つかについて論じる。
新たに公開されたデータセットに加えて、クエリレベルとシステムレベルでのインタラクション設計に関する洞察を提供する。
関連論文リスト
- HumAIne-Chatbot: Real-Time Personalized Conversational AI via Reinforcement Learning [0.4931504898146351]
textbfHumAIne-chatbotはAIによる会話エージェントで、新しいユーザプロファイリングフレームワークを通じて応答をパーソナライズする。
ライブインタラクションの間、オンライン強化学習エージェントは暗黙の信号を組み合わせることで、ユーザ毎のモデルを洗練する。
その結果、パーソナライズ機能を有効にすると、ユーザ満足度、パーソナライズ精度、タスク達成度が一貫した改善が見られた。
論文 参考訳(メタデータ) (2025-09-04T15:16:38Z) - Creating General User Models from Computer Use [53.59999173952482]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。
GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文 参考訳(メタデータ) (2025-05-16T04:00:31Z) - Trapped by Expectations: Functional Fixedness in LLM-Enabled Chat Search [9.166043188084414]
大規模言語モデル(LLM)対応チャット検索における機能的固定性の影響について検討した。
事前の期待が言語の使用を形作り、行動を促すことを発見した。
適切なシステムサポートにより、LLM能力の広範な探索が促進される可能性がある。
論文 参考訳(メタデータ) (2025-04-02T19:14:01Z) - AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文 参考訳(メタデータ) (2024-12-28T07:26:39Z) - Detecting Agreement in Multi-party Conversational AI [2.755416211770089]
我々は,2人のユーザがトリビア・クイズをプレイできるように,多人数会話システムを提案する。
本システムは,最終回答に対するユーザの同意や不一致を検知し,それに応じて応答する。
私たちの注釈付きトランスクリプトと提案されたシステムのコードは、GitHubでオープンソースとして公開されています。
論文 参考訳(メタデータ) (2023-11-06T11:04:39Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue
Systems (ClariQ) [64.60303062063663]
本論文では,対話システムに対する質問の明確化に関する課題について詳述する(ClariQ)。
このチャレンジは、2020年のSearch Oriented Conversational AI (SCAI) EMNLPワークショップで、ConvAI3(Conversational AI Challenge series)の一部として組織されている。
論文 参考訳(メタデータ) (2020-09-23T19:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。