論文の概要: Testing the Depth of ChatGPT's Comprehension via Cross-Modal Tasks Based
on ASCII-Art: GPT3.5's Abilities in Regard to Recognizing and Generating
ASCII-Art Are Not Totally Lacking
- arxiv url: http://arxiv.org/abs/2307.16806v1
- Date: Fri, 28 Jul 2023 10:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:31:53.732924
- Title: Testing the Depth of ChatGPT's Comprehension via Cross-Modal Tasks Based
on ASCII-Art: GPT3.5's Abilities in Regard to Recognizing and Generating
ASCII-Art Are Not Totally Lacking
- Title(参考訳): ASCII-Artに基づく横断的タスクによるChatGPTの理解度:ASCII-Artの認識と生成に関するGPT3.5の能力は、完全には欠落していない
- Authors: David Bayani
- Abstract要約: ChatGPTとその基盤モデルであるGPT3.5は、能力とアクセシビリティの強力な混合により、大きな注目を集めている。
我々は, GPT3.5の視覚的タスクに対する適性について検討した。
- 参考スコア(独自算出の注目度): 2.842794675894731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the eight months since its release, ChatGPT and its underlying model,
GPT3.5, have garnered massive attention, due to their potent mix of capability
and accessibility. While a niche-industry of papers have emerged examining the
scope of capabilities these models possess, the information fed to and
extracted from these networks has been either natural language text or
stylized, code-like language. Drawing inspiration from the prowess we expect a
truly human-level intelligent agent to have across multiple signal modalities,
in this work we examine GPT3.5's aptitude for visual tasks, where the inputs
feature content provided as ASCII-art without overt distillation into a lingual
summary. We conduct experiments analyzing the model's performance on image
recognition tasks after various transforms typical in visual settings, trials
investigating knowledge of image parts, and tasks covering image generation.
- Abstract(参考訳): リリースから8ヶ月にわたって、ChatGPTとその基盤となるモデルであるGPT3.5は、能力とアクセシビリティの強力な混在により、大きな注目を集めている。
これらのモデルが持つ能力の範囲を調査した、ニッチな論文が登場しているが、これらのネットワークから供給され抽出される情報は、自然言語テキストか、スタイリッシュなコードライクな言語である。
本研究は,真の人間レベルの知的エージェントが複数の信号モダリティにまたがる能力から着想を得たものである。本研究では,ARCIIアートとして提供される特徴内容の入力を,言語的な要約に含めることなく,GPT3.5の視覚的タスクに対する適性について検討する。
視覚設定に典型的な様々な変換後の画像認識タスクにおけるモデルの性能分析,画像部品の知識の検証,画像生成に関する課題について実験を行った。
関連論文リスト
- StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual
Reasoning [0.0]
我々は、Google BardとGPT-Visionを、"Visual situational Reasoning"や"Next Scene Prediction"といったカテゴリにまたがる64の視覚タスクに適用する。
本研究の結果は,視覚言語モデルの限界を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-08-17T03:14:00Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。