Fugu-MT 論文翻訳(概要): CV4Code: Sourcecode Understanding via Visual Code Representations

論文の概要: CV4Code: Sourcecode Understanding via Visual Code Representations

arxiv url: http://arxiv.org/abs/2205.08585v1
Date: Wed, 11 May 2022 13:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-22 10:58:13.880928
Title: CV4Code: Sourcecode Understanding via Visual Code Representations
Title（参考訳）: CV4Code:Visual Code Representationによるソースコード理解
Authors: Ruibo Shi, Lili Tao, Rohan Saphal, Fran Silavong, Sean J. Moran
Abstract要約: 本稿では,ソースコード理解のためのコンパクトで効果的なコンピュータビジョン手法CV4Codeを提案する。 CV4Codeは、それぞれのスニペットを2次元の画像として扱い、コンテキストを自然にエンコードし、基盤となる構造情報を保持する。ソースコードは画像として扱われるため、語彙解析(トークン化)や構文木解析は不要である。
参考スコア（独自算出の注目度）: 1.9739269019020032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present CV4Code, a compact and effective computer vision method for sourcecode understanding. Our method leverages the contextual and the structural information available from the code snippet by treating each snippet as a two-dimensional image, which naturally encodes the context and retains the underlying structural information through an explicit spatial representation. To codify snippets as images, we propose an ASCII codepoint-based image representation that facilitates fast generation of sourcecode images and eliminates redundancy in the encoding that would arise from an RGB pixel representation. Furthermore, as sourcecode is treated as images, neither lexical analysis (tokenisation) nor syntax tree parsing is required, which makes the proposed method agnostic to any particular programming language and lightweight from the application pipeline point of view. CV4Code can even featurise syntactically incorrect code which is not possible from methods that depend on the Abstract Syntax Tree (AST). We demonstrate the effectiveness of CV4Code by learning Convolutional and Transformer networks to predict the functional task, i.e. the problem it solves, of the source code directly from its two-dimensional representation, and using an embedding from its latent space to derive a similarity score of two code snippets in a retrieval setup. Experimental results show that our approach achieves state-of-the-art performance in comparison to other methods with the same task and data configurations. For the first time we show the benefits of treating sourcecode understanding as a form of image processing task.
Abstract（参考訳）: ソースコード理解のためのコンパクトで効果的なコンピュータビジョン手法CV4Codeを提案する。本手法は,各スニペットを2次元画像として扱うことで,コードスニペットから得られるコンテキスト情報と構造情報を活用し,そのコンテキストを自然にエンコードし,その基盤となる構造情報を明示的な空間表現で保持する。画像としてスニペットを符号化するために,ソースコード画像の高速生成を容易にするASCII符号点に基づく画像表現を提案し,RGB画素表現から生じる符号化の冗長性を排除した。さらに、ソースコードを画像として扱うため、語彙解析(分岐)も構文木解析も必要とせず、提案されたメソッドを特定のプログラミング言語に依存せず、アプリケーションパイプラインの観点から軽量にする。 CV4Codeは抽象構文木(AST)に依存するメソッドでは不可能な、構文的に正しくないコードをデファチュアライズすることができる。本稿では,畳み込みネットワークとトランスフォーマーネットワークを学習して,その2次元表現から直接ソースコードの関数的タスク,すなわちその2次元表現を予測し,潜在空間からの埋め込みを用いて検索設定における2つのコードスニペットの類似度スコアを導出することにより,cv4codeの有効性を示す。実験の結果,同じタスクとデータ構成を持つ他のメソッドと比較して,最先端のパフォーマンスを実現することができた。ソースコード理解を画像処理タスクの一形態として扱うことのメリットを初めて示す。

関連論文リスト

Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文参考訳（メタデータ） (2024-06-10T16:58:48Z)
Perceptual Image Compression with Cooperative Cross-Modal Side Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文参考訳（メタデータ） (2023-11-23T08:31:11Z)
Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。 2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文参考訳（メタデータ） (2023-08-26T11:39:22Z)
Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。 X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文参考訳（メタデータ） (2022-12-21T18:58:41Z)
CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文参考訳（メタデータ） (2022-11-25T09:41:57Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文参考訳（メタデータ） (2020-12-01T17:18:58Z)
Self-Supervised Contrastive Learning for Code Retrieval and Summarization via Semantic-Preserving Transformations [28.61567319928316]
Corderは、ソースコードモデルのための自己教師付きコントラスト学習フレームワークである。重要なイノベーションは、ソースコードモデルをトレーニングし、類似した、異種のコードスニペットを認識するように要求することです。 Corderで事前訓練されたコードモデルは、コード・ツー・コード検索、テキスト・ツー・コード検索、およびコード・ツー・テキスト要約タスクにおいて、他のベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2020-09-06T13:31:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。