論文の概要: An Empirical Investigation into the Use of Image Captioning for
Automated Software Documentation
- arxiv url: http://arxiv.org/abs/2301.01224v1
- Date: Tue, 3 Jan 2023 17:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 13:54:43.223985
- Title: An Empirical Investigation into the Use of Image Captioning for
Automated Software Documentation
- Title(参考訳): 自動ソフトウェアドキュメンテーションにおける画像キャプションの利用に関する実証的研究
- Authors: Kevin Moran, Ali Yachnes, George Purnell, Junayed Mahmud, Michele
Tufano, Carlos Bernal-C\'ardenas, Denys Poshyvanyk, Zach H'Doubler
- Abstract要約: 本稿では,グラフィカルユーザインタフェースとソフトウェアの機能的自然言語記述との関係について検討する。
人気の高いAndroidアプリケーションのスクリーンショット10,204枚に対して45,998個の説明からなる,関数型GUI記述の大規模なデータセットを収集し,分析し,オープンソースにしています。
GUIの表現可能性に関する洞察を得るため、4つのニューラルイメージキャプションモデルを用いて、スクリーンショットを入力として提供した場合に、様々な粒度の自然言語記述を予測する能力について検討する。
- 参考スコア(独自算出の注目度): 17.47243004709207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing automated techniques for software documentation typically attempt to
reason between two main sources of information: code and natural language.
However, this reasoning process is often complicated by the lexical gap between
more abstract natural language and more structured programming languages. One
potential bridge for this gap is the Graphical User Interface (GUI), as GUIs
inherently encode salient information about underlying program functionality
into rich, pixel-based data representations. This paper offers one of the first
comprehensive empirical investigations into the connection between GUIs and
functional, natural language descriptions of software. First, we collect,
analyze, and open source a large dataset of functional GUI descriptions
consisting of 45,998 descriptions for 10,204 screenshots from popular Android
applications. The descriptions were obtained from human labelers and underwent
several quality control mechanisms. To gain insight into the representational
potential of GUIs, we investigate the ability of four Neural Image Captioning
models to predict natural language descriptions of varying granularity when
provided a screenshot as input. We evaluate these models quantitatively, using
common machine translation metrics, and qualitatively through a large-scale
user study. Finally, we offer learned lessons and a discussion of the potential
shown by multimodal models to enhance future techniques for automated software
documentation.
- Abstract(参考訳): 既存のソフトウェアドキュメンテーションの自動化技術は、通常、コードと自然言語という2つの主要な情報ソースを推論しようとします。
しかし、この推論過程は、より抽象的な自然言語とより構造化されたプログラミング言語との語彙的ギャップによってしばしば複雑である。
GUIは本質的に、基礎となるプログラム機能に関する詳細な情報をリッチなピクセルベースのデータ表現にエンコードするので、このギャップの潜在的な橋渡しはGUI(Graphical User Interface)である。
本稿では,GUIとソフトウェアの機能的自然言語記述の関連性に関する総合的な実証的研究を行った。
まず、人気のあるandroidアプリケーションから10,204のスクリーンショットに対して、45,998の記述からなる機能gui記述の大規模なデータセットを収集、分析、オープンソース化します。
これらの記述は、ヒトのラベルから得られ、いくつかの品質制御機構が実行された。
guiの表現可能性に関する洞察を得るために,4つのニューラル画像キャプションモデルを用いて,スクリーンショットを入力として,様々な粒度の自然言語記述を予測できる能力について検討した。
これらのモデルを,一般的な機械翻訳指標を用いて定量的に評価し,大規模ユーザスタディを通じて質的に評価する。
最後に、学習した教訓とマルチモーダルモデルが示す可能性について議論し、自動化されたソフトウェアドキュメンテーションの将来の技術を強化する。
関連論文リスト
- Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。
本課題は,自然映像のキャプションに比較して,独特な課題を呈する。
GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文 参考訳(メタデータ) (2024-06-19T17:22:11Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Exploring External Knowledge for Accurate modeling of Visual and
Language Problems [2.7190267444272056]
この論文は、多くの困難なタスクを含む視覚的および言語的理解に焦点を当てている。
これらの問題を解決する最先端の手法は通常、ソースデータとターゲットラベルの2つの部分のみを含む。
まず外部知識を抽出し,元のモデルと統合する手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T02:01:50Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。