Fugu-MT 論文翻訳(概要): InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

論文の概要: InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

arxiv url: http://arxiv.org/abs/2305.05662v2
Date: Wed, 10 May 2023 17:45:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 15:54:17.855046
Title: InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language
Title（参考訳）: InternChat: 言語以外のチャットボットとのインタラクションによる視覚中心タスクの解決
Authors: Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu Qiao
Abstract要約: InternChat または iChat という,インタラクティブなビジュアルフレームワークを提案する。このフレームワークは、ChatGPTのような計画と推論機能を備えたチャットボットと、非言語命令を統合している。ポインティング・ムーブメントは、視覚中心のタスクの実行において、より柔軟性と精度を提供する。
参考スコア（独自算出の注目度）: 84.21196554144615
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present an interactive visual framework named InternChat, or iChat for short. The framework integrates chatbots that have planning and reasoning capabilities, such as ChatGPT, with non-verbal instructions like pointing movements that enable users to directly manipulate images or videos on the screen. Pointing (including gestures, cursors, etc.) movements can provide more flexibility and precision in performing vision-centric tasks that require fine-grained control, editing, and generation of visual content. The name InternChat stands for interaction, nonverbal, and chatbots. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, the proposed iChat significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios where the number of objects is greater than 2. Additionally, in iChat, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed Husky is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89% GPT-4 Quality). We hope this work can spark new ideas and directions for future interactive visual systems. Welcome to watch the code at https://github.com/OpenGVLab/InternChat.
Abstract（参考訳）: InternChat または iChat という,インタラクティブなビジュアルフレームワークを提案する。このフレームワークは、chatgptのような計画や推論機能を備えたチャットボットと、画面上の画像やビデオを直接操作できるポインティングのような非言語命令を統合する。ポインティング(ジェスチャー、カーソルなどを含む)の動きは、細かい制御、編集、視覚コンテンツの生成を必要とする視覚中心のタスクの実行において、より柔軟性と精度を提供する。 InternChatという名前は、対話、非言語、チャットボットを意味する。純粋言語に依存している既存の対話システムとは違って,提案したiChatでは,ユーザとチャットボット間の通信効率が向上し,特にオブジェクト数が2より多い複雑な視覚シナリオにおいて,チャットボットの精度が向上する。さらに、iChatでは、LLMの制御能力を向上するために補助制御機構が使用され、Huskyと呼ばれる大きな視覚言語モデルが高品質な多モード対話のために微調整されている(ChatGPT-3.5-turboを93.89%のGPT-4品質で圧縮する)。この研究が将来のインタラクティブなビジュアルシステムに新たなアイデアと方向性をもたらすことを願っている。コードをhttps://github.com/opengvlab/internchatでご覧ください。

関連論文リスト

Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning [0.0]
我々は、Google BardとGPT-Visionを、"Visual situational Reasoning"や"Next Scene Prediction"といったカテゴリにまたがる64の視覚タスクに適用する。本研究の結果は,視覚言語モデルの限界を浮き彫りにしている。
論文参考訳（メタデータ） (2023-08-17T03:14:00Z)
AmadeusGPT: a natural language interface for interactive animal behavioral analysis [65.55906175884748]
動作の自然言語記述をマシン実行可能なコードに変換する自然言語インタフェースであるAmadeusGPTを紹介する。 MABE 2022の動作課題タスクで最先端のパフォーマンスを実現できることを示す。アマデウスGPTは、深い生物学的知識、大規模言語モデル、そしてコアコンピュータビジョンモジュールをより自然に知的なシステムに統合する新しい方法を提示している。
論文参考訳（メタデータ） (2023-07-10T19:15:17Z)
GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System [8.660929270060146]
大規模言語モデル(LLM)の最近の進歩を利用したチャットロボットシステムを提案する。このシステムは、音声の概念的意味に基づいて適切なジェスチャーを選択する、音声合成システムと統合されている。
論文参考訳（メタデータ） (2023-05-10T10:14:16Z)
ChatLLM Network: More brains, More intelligence [42.65167827451101]
本稿では,複数の対話型言語モデルと対話し,フィードバックを提供し,一緒に考えることができるChatLLMネットワークを提案する。我々は,ネットワークが問題解決の大幅な改善を達成し,各メンバーの観測可能性の向上につながったことを示す。
論文参考訳（メタデータ） (2023-04-24T08:29:14Z)
ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (2023-04-12T05:08:52Z)
Towards Making the Most of ChatGPT for Machine Translation [75.576405098545]
ChatGPTは機械翻訳(MT)の優れた機能を示すいくつかの先行研究により、ハイソース言語の商用システムと同等の結果が得られることが示されている。
論文参考訳（メタデータ） (2023-03-24T03:35:21Z)
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。 MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文参考訳（メタデータ） (2023-03-20T18:31:47Z)
FaceChat: An Emotion-Aware Face-to-face Dialogue Framework [58.67608580694849]
FaceChatは、感情に敏感で対面的な会話を可能にするWebベースの対話フレームワークである。システムには、カウンセリング、感情サポート、パーソナライズされたカスタマーサービスなど、幅広い潜在的なアプリケーションがある。
論文参考訳（メタデータ） (2023-03-08T20:45:37Z)
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [55.11367495777145]
ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。 Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
論文参考訳（メタデータ） (2023-03-08T15:50:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。