論文の概要: InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots
Beyond Language
- arxiv url: http://arxiv.org/abs/2305.05662v2
- Date: Wed, 10 May 2023 17:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 15:54:17.855046
- Title: InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots
Beyond Language
- Title(参考訳): InternChat: 言語以外のチャットボットとのインタラクションによる視覚中心タスクの解決
- Authors: Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa
Chen, Qinglong Zhang, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe
Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu
Qiao
- Abstract要約: InternChat または iChat という,インタラクティブなビジュアルフレームワークを提案する。
このフレームワークは、ChatGPTのような計画と推論機能を備えたチャットボットと、非言語命令を統合している。
ポインティング・ムーブメントは、視覚中心のタスクの実行において、より柔軟性と精度を提供する。
- 参考スコア(独自算出の注目度): 84.21196554144615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an interactive visual framework named InternChat, or iChat for
short. The framework integrates chatbots that have planning and reasoning
capabilities, such as ChatGPT, with non-verbal instructions like pointing
movements that enable users to directly manipulate images or videos on the
screen. Pointing (including gestures, cursors, etc.) movements can provide more
flexibility and precision in performing vision-centric tasks that require
fine-grained control, editing, and generation of visual content. The name
InternChat stands for interaction, nonverbal, and chatbots. Different from
existing interactive systems that rely on pure language, by incorporating
pointing instructions, the proposed iChat significantly improves the efficiency
of communication between users and chatbots, as well as the accuracy of
chatbots in vision-centric tasks, especially in complicated visual scenarios
where the number of objects is greater than 2. Additionally, in iChat, an
auxiliary control mechanism is used to improve the control capability of LLM,
and a large vision-language model termed Husky is fine-tuned for high-quality
multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89% GPT-4 Quality).
We hope this work can spark new ideas and directions for future interactive
visual systems. Welcome to watch the code at
https://github.com/OpenGVLab/InternChat.
- Abstract(参考訳): InternChat または iChat という,インタラクティブなビジュアルフレームワークを提案する。
このフレームワークは、chatgptのような計画や推論機能を備えたチャットボットと、画面上の画像やビデオを直接操作できるポインティングのような非言語命令を統合する。
ポインティング(ジェスチャー、カーソルなどを含む)の動きは、細かい制御、編集、視覚コンテンツの生成を必要とする視覚中心のタスクの実行において、より柔軟性と精度を提供する。
InternChatという名前は、対話、非言語、チャットボットを意味する。
純粋言語に依存している既存の対話システムとは違って,提案したiChatでは,ユーザとチャットボット間の通信効率が向上し,特にオブジェクト数が2より多い複雑な視覚シナリオにおいて,チャットボットの精度が向上する。
さらに、iChatでは、LLMの制御能力を向上するために補助制御機構が使用され、Huskyと呼ばれる大きな視覚言語モデルが高品質な多モード対話のために微調整されている(ChatGPT-3.5-turboを93.89%のGPT-4品質で圧縮する)。
この研究が将来のインタラクティブなビジュアルシステムに新たなアイデアと方向性をもたらすことを願っている。
コードをhttps://github.com/opengvlab/internchatでご覧ください。
関連論文リスト
- Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual
Reasoning [0.0]
我々は、Google BardとGPT-Visionを、"Visual situational Reasoning"や"Next Scene Prediction"といったカテゴリにまたがる64の視覚タスクに適用する。
本研究の結果は,視覚言語モデルの限界を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-08-17T03:14:00Z) - AmadeusGPT: a natural language interface for interactive animal
behavioral analysis [65.55906175884748]
動作の自然言語記述をマシン実行可能なコードに変換する自然言語インタフェースであるAmadeusGPTを紹介する。
MABE 2022の動作課題タスクで最先端のパフォーマンスを実現できることを示す。
アマデウスGPTは、深い生物学的知識、大規模言語モデル、そしてコアコンピュータビジョンモジュールをより自然に知的なシステムに統合する新しい方法を提示している。
論文 参考訳(メタデータ) (2023-07-10T19:15:17Z) - GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System [8.660929270060146]
大規模言語モデル(LLM)の最近の進歩を利用したチャットロボットシステムを提案する。
このシステムは、音声の概念的意味に基づいて適切なジェスチャーを選択する、音声合成システムと統合されている。
論文 参考訳(メタデータ) (2023-05-10T10:14:16Z) - ChatLLM Network: More brains, More intelligence [42.65167827451101]
本稿では,複数の対話型言語モデルと対話し,フィードバックを提供し,一緒に考えることができるChatLLMネットワークを提案する。
我々は,ネットワークが問題解決の大幅な改善を達成し,各メンバーの観測可能性の向上につながったことを示す。
論文 参考訳(メタデータ) (2023-04-24T08:29:14Z) - Towards Making the Most of ChatGPT for Machine Translation [75.576405098545]
ChatGPTは機械翻訳(MT)の優れた機能を示す
いくつかの先行研究により、ハイソース言語の商用システムと同等の結果が得られることが示されている。
論文 参考訳(メタデータ) (2023-03-24T03:35:21Z) - MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文 参考訳(メタデータ) (2023-03-20T18:31:47Z) - FaceChat: An Emotion-Aware Face-to-face Dialogue Framework [58.67608580694849]
FaceChatは、感情に敏感で対面的な会話を可能にするWebベースの対話フレームワークである。
システムには、カウンセリング、感情サポート、パーソナライズされたカスタマーサービスなど、幅広い潜在的なアプリケーションがある。
論文 参考訳(メタデータ) (2023-03-08T20:45:37Z) - Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation
Models [55.11367495777145]
ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。
しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。
Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
論文 参考訳(メタデータ) (2023-03-08T15:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。