論文の概要: CodeV: Issue Resolving with Visual Data
- arxiv url: http://arxiv.org/abs/2412.17315v1
- Date: Mon, 23 Dec 2024 06:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:59.336509
- Title: CodeV: Issue Resolving with Visual Data
- Title(参考訳): CodeV: ビジュアルデータによる問題解決
- Authors: Linhao Zhang, Daoguang Zan, Quanshun Yang, Zhirong Huang, Dong Chen, Bo Shen, Tianyu Liu, Yongshun Gong, Pengjie Huang, Xudong Lu, Guangtai Liang, Lizhen Cui, Qianxiang Wang,
- Abstract要約: 我々は,大規模言語モデル(LLM)の問題解決能力を高めるために,視覚データを活用するための最初のアプローチであるCodeVを提案する。
CodeVは、データ処理とパッチ生成という2段階のプロセスに従えば、各問題を解決できる。
CodeVの有効性を実証するとともに、GitHubの問題を解決するために視覚データを活用するための貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 32.05873957588477
- License:
- Abstract: Large Language Models (LLMs) have advanced rapidly in recent years, with their applications in software engineering expanding to more complex repository-level tasks. GitHub issue resolving is a key challenge among these tasks. While recent approaches have made progress on this task, they focus on textual data within issues, neglecting visual data. However, this visual data is crucial for resolving issues as it conveys additional knowledge that text alone cannot. We propose CodeV, the first approach to leveraging visual data to enhance the issue-resolving capabilities of LLMs. CodeV resolves each issue by following a two-phase process: data processing and patch generation. To evaluate CodeV, we construct a benchmark for visual issue resolving, namely Visual SWE-bench. Through extensive experiments, we demonstrate the effectiveness of CodeV, as well as provide valuable insights into leveraging visual data to resolve GitHub issues.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年急速に進歩し、ソフトウェア工学の応用はより複雑なリポジトリレベルのタスクへと拡大している。
GitHubの問題解決はこれらのタスクにおいて重要な課題である。
最近のアプローチでは、このタスクは進歩しているが、問題内のテキストデータに重点を置いており、視覚的データを無視している。
しかし、このビジュアルデータは、テキストだけではできない追加の知識を伝達するため、問題の解決に不可欠である。
我々は,LLMの問題解決能力を高めるために,視覚データを活用するための最初のアプローチであるCodeVを提案する。
CodeVは、データ処理とパッチ生成という2段階のプロセスに従えば、各問題を解決できる。
CodeVを評価するために、視覚的問題解決のためのベンチマーク、すなわちVisual SWE-benchを構築した。
広範な実験を通じて、CodeVの有効性を実証するとともに、GitHubの問題を解決するために視覚データを活用するための貴重な洞察を提供する。
関連論文リスト
- One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering [31.025439143093585]
VLM(Vision-Language Models)は、Webスケールのマルチモーダルデータセットを活用することで、VQA(Visual Question Answering)タスクにおいて大きな可能性を秘めている。
これらのモデルは、新しいタスクに適応する際に破滅的な忘れ物のために、継続的な学習に苦しむことが多い。
本稿では,外部モデルに頼るのではなく,VLMの言語生成能力を活用した最初のデータフリー手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T16:04:59Z) - Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques [9.248637518957445]
本稿では、視覚言語モデル(VLM)に関する基礎理論と、リモートセンシングで構築されたデータセットについて概観する。
本稿では,VLMのコアコンポーネントに基づいて,改善手法を3つの主要部品に分類し,それらの方法の詳細な紹介と比較を行う。
論文 参考訳(メタデータ) (2024-10-15T13:28:55Z) - Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - Visual Analysis of GitHub Issues to Gain Insights [2.9051263101214566]
本稿では,課題タイムラインに関する洞察を提供するために,可視化を生成するプロトタイプWebアプリケーションを提案する。
問題のライフサイクルに焦点をあて、ユーザによる開発パターンの理解を高めるために重要な情報を記述する。
論文 参考訳(メタデータ) (2024-07-30T15:17:57Z) - VDebugger: Harnessing Execution Feedback for Debugging Visual Programs [103.61860743476933]
V Debuggerは、視覚プログラムのローカライズとデバッギングのために、段階的に実行を追跡することで訓練された、批評家とリファインダーのフレームワークである。
Vデバッガは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。
6つのデータセットの評価は、Vデバッガの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。
論文 参考訳(メタデータ) (2024-06-19T11:09:16Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Continual Learning on Graphs: Challenges, Solutions, and Opportunities [72.7886669278433]
本稿では,既存の連続グラフ学習(CGL)アルゴリズムの総合的なレビューを行う。
従来の連続学習手法と比較し,従来の連続学習手法の適用性を分析した。
アクセス可能なアルゴリズムの包括的なリストを含む、最新のリポジトリを維持します。
論文 参考訳(メタデータ) (2024-02-18T12:24:45Z) - Visual Named Entity Linking: A New Dataset and A Baseline [61.38231023490981]
入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。
本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。
WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
論文 参考訳(メタデータ) (2022-11-09T13:27:50Z) - Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question
Answering with Hypothetical Actions over Images [31.317663183139384]
視覚的な理解は、特定のシナリオで特定のアクションを実行するという仮説的な結果が精神的にシミュレートされるような質問に答えることに挑戦される。
CLEVRデータセットに基づいて視覚言語による質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2021-04-13T07:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。