Fugu-MT 論文翻訳(概要): CodeV: Issue Resolving with Visual Data

論文の概要: CodeV: Issue Resolving with Visual Data

arxiv url: http://arxiv.org/abs/2412.17315v1
Date: Mon, 23 Dec 2024 06:17:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.349329
Title: CodeV: Issue Resolving with Visual Data
Title（参考訳）: CodeV: ビジュアルデータによる問題解決
Authors: Linhao Zhang, Daoguang Zan, Quanshun Yang, Zhirong Huang, Dong Chen, Bo Shen, Tianyu Liu, Yongshun Gong, Pengjie Huang, Xudong Lu, Guangtai Liang, Lizhen Cui, Qianxiang Wang,
Abstract要約: 我々は,大規模言語モデル(LLM)の問題解決能力を高めるために,視覚データを活用するための最初のアプローチであるCodeVを提案する。 CodeVは、データ処理とパッチ生成という2段階のプロセスに従えば、各問題を解決できる。 CodeVの有効性を実証するとともに、GitHubの問題を解決するために視覚データを活用するための貴重な洞察を提供する。
参考スコア（独自算出の注目度）: 32.05873957588477
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have advanced rapidly in recent years, with their applications in software engineering expanding to more complex repository-level tasks. GitHub issue resolving is a key challenge among these tasks. While recent approaches have made progress on this task, they focus on textual data within issues, neglecting visual data. However, this visual data is crucial for resolving issues as it conveys additional knowledge that text alone cannot. We propose CodeV, the first approach to leveraging visual data to enhance the issue-resolving capabilities of LLMs. CodeV resolves each issue by following a two-phase process: data processing and patch generation. To evaluate CodeV, we construct a benchmark for visual issue resolving, namely Visual SWE-bench. Through extensive experiments, we demonstrate the effectiveness of CodeV, as well as provide valuable insights into leveraging visual data to resolve GitHub issues.
Abstract（参考訳）: 大規模言語モデル(LLM)は近年急速に進歩し、ソフトウェア工学の応用はより複雑なリポジトリレベルのタスクへと拡大している。 GitHubの問題解決はこれらのタスクにおいて重要な課題である。最近のアプローチでは、このタスクは進歩しているが、問題内のテキストデータに重点を置いており、視覚的データを無視している。しかし、このビジュアルデータは、テキストだけではできない追加の知識を伝達するため、問題の解決に不可欠である。我々は,LLMの問題解決能力を高めるために,視覚データを活用するための最初のアプローチであるCodeVを提案する。 CodeVは、データ処理とパッチ生成という2段階のプロセスに従えば、各問題を解決できる。 CodeVを評価するために、視覚的問題解決のためのベンチマーク、すなわちVisual SWE-benchを構築した。広範な実験を通じて、CodeVの有効性を実証するとともに、GitHubの問題を解決するために視覚データを活用するための貴重な洞察を提供する。

関連論文リスト

QG-VTC: Question-Guided Visual Token Compression in MLLMs for Efficient VQA [16.494799458292]
画像はテキストよりも冗長な情報が多く、視覚的な詳細が特定の質問に関係しているわけではない。 MLLMに基づくVQAタスクのための新しい質問誘導型ビジュアルトークン圧縮手法であるQG-VTCを提案する。 QG-VTCは、事前訓練されたテキストエンコーダと学習可能なフィードフォワード層を使用して、ユーザ質問を視覚エンコーダの機能空間に埋め込む。
論文参考訳（メタデータ） (2025-04-01T11:07:19Z)
Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption [65.06388526722186]
赤外線可視画像融合はコンピュータビジョンにおいて重要な課題である。この急成長する領域に対処する、最近の包括的な調査が欠如している。本稿では,共通学習に基づくIVIF手法の解明のための多次元フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-18T13:17:34Z)
One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering [31.025439143093585]
VLM(Vision-Language Models)は、Webスケールのマルチモーダルデータセットを活用することで、VQA(Visual Question Answering)タスクにおいて大きな可能性を秘めている。これらのモデルは、新しいタスクに適応する際に破滅的な忘れ物のために、継続的な学習に苦しむことが多い。本稿では,外部モデルに頼るのではなく,VLMの言語生成能力を活用した最初のデータフリー手法を提案する。
論文参考訳（メタデータ） (2024-11-04T16:04:59Z)
Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques [9.248637518957445]
本稿では、視覚言語モデル(VLM)に関する基礎理論と、リモートセンシングで構築されたデータセットについて概観する。本稿では,VLMのコアコンポーネントに基づいて,改善手法を3つの主要部品に分類し,それらの方法の詳細な紹介と比較を行う。
論文参考訳（メタデータ） (2024-10-15T13:28:55Z)
Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。本報告では,空間時空間VOSモデルについて述べる。
論文参考訳（メタデータ） (2024-08-29T10:47:17Z)
Visual Analysis of GitHub Issues to Gain Insights [2.9051263101214566]
本稿では,課題タイムラインに関する洞察を提供するために,可視化を生成するプロトタイプWebアプリケーションを提案する。問題のライフサイクルに焦点をあて、ユーザによる開発パターンの理解を高めるために重要な情報を記述する。
論文参考訳（メタデータ） (2024-07-30T15:17:57Z)
VDebugger: Harnessing Execution Feedback for Debugging Visual Programs [103.61860743476933]
V Debuggerは、視覚プログラムのローカライズとデバッギングのために、段階的に実行を追跡することで訓練された、批評家とリファインダーのフレームワークである。 Vデバッガは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。 6つのデータセットの評価は、Vデバッガの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。
論文参考訳（メタデータ） (2024-06-19T11:09:16Z)
CodeR: Issue Resolving with Multi-Agent and Task Graphs [21.499576889342343]
GitHubの問題解決は、アカデミックや業界から大きな注目を集めている。報告されたバグの修復と解決のために,マルチエージェントフレームワークとタスクグラフを事前に定義したCodeRを提案する。 SWE-bench liteでは、CodeRは各問題に1回だけ提出した場合に28.33%の問題を解決することができる。
論文参考訳（メタデータ） (2024-06-03T13:13:35Z)
Learning without Forgetting for Vision-Language Models [86.53237963364754]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。 VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文参考訳（メタデータ） (2023-05-30T17:59:32Z)
Visual Named Entity Linking: A New Dataset and A Baseline [61.38231023490981]
入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。 WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
論文参考訳（メタデータ） (2022-11-09T13:27:50Z)
Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。 FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文参考訳（メタデータ） (2022-10-13T15:01:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。