Fugu-MT 論文翻訳(概要): $C^2$: Scalable Auto-Feedback for LLM-based Chart Generation

論文の概要: $C^2$: Scalable Auto-Feedback for LLM-based Chart Generation

arxiv url: http://arxiv.org/abs/2410.18652v5
Date: Sat, 21 Dec 2024 05:09:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 13:08:33.361697
Title: $C^2$: Scalable Auto-Feedback for LLM-based Chart Generation
Title（参考訳）: $C^2$: LLMベースのチャート生成のためのスケーラブルなオートフィードバック
Authors: Woosung Koh, Jang Han Yoon, MinHyung Lee, Youngjin Song, Jaegwan Cho, Jaehyun Kang, Taehyeon Kim, Se-young Yun, Youngjae Yu, Bongshin Lee,
Abstract要約: 参照不要な自動フィードバックジェネレータを導入し,人的介入のコストを削減した。最初の実験では、回答者の74%が強く好んでおり、10%がフィードバック後の結果を好んだ。 ChartUIE-8Kは、クエリ、データセット、チャートタイプを増やすことで、データの多様性を大幅に改善する。
参考スコア（独自算出の注目度）: 36.864917261567314
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Generating high-quality charts with Large Language Models (LLMs) presents significant challenges due to limited data and the high cost of scaling through human curation. $\langle \text{instruction}, \text{data}, \text{code} \rangle$ triplets are scarce and expensive to manually curate as their creation demands technical expertise. To address this scalability challenge, we introduce a reference-free automatic feedback generator, which eliminates the need for costly human intervention. Our novel framework, C$^2$, consists of (1) an automatic feedback provider (ChartAF) and (2) a diverse, reference-free dataset (ChartUIE-8K). The results are compelling: in our first experiment, 74% of respondents strongly preferred, and 10% preferred, the results after feedback. The second post-feedback experiment demonstrates that ChartAF outperform nine baselines. Moreover, ChartUIE-8K significantly improves data diversity by increasing queries, datasets, and chart types by 5982%, 1936%, and 91%, respectively, over benchmarks. Finally, a study of LLM users revealed that 94% of participants preferred ChartUIE-8K's queries, with 93% deeming them aligned with real-world use cases. Core contributions are available as open-source at chartsquared.github.io, with ample qualitative examples.
Abstract（参考訳）: LLM(Large Language Models)による高品質なチャートの生成は、限られたデータと、人間のキュレーションによるスケーリングのコストが高いため、大きな課題となる。 $\langle \text{instruction}, \text{data}, \text{code} \rangle$ tripletは、作成が技術的専門知識を必要とするため、手作業でキュレートするのは難しい。このスケーラビリティの課題に対処するため、我々は、人的介入を犠牲にすることなく、参照不要な自動フィードバックジェネレータを導入する。新たなフレームワークであるC$^2$は、(1)自動フィードバックプロバイダ(ChartAF)と(2)多様な参照なしデータセット(ChartUIE-8K)で構成されています。最初の実験では、回答者の74%が強く好んでいて、10%がフィードバックのあとの結果を好んでいます。 2回目のフィードバック実験は、ChartAFが9つのベースラインを上回ったことを示している。さらに、ChartUIE-8Kは、ベンチマークよりもクエリ、データセット、チャートタイプを5982%、1936%、91%増やすことで、データの多様性を著しく改善する。最後に、LLMユーザーの調査によると、参加者の94%がChartUIE-8Kのクエリを好んでいる。コアコントリビューションは chartsquared.github.io でオープンソースとして公開されている。

関連論文リスト

A Graph-based RAG for Energy Efficiency Question Answering [2.601494241677187]
本稿では,大規模言語モデル (LLM) をグラフベース検索拡張生成 (RAG) アーキテクチャを用いて問合せ回答を行う。まず、エネルギー分野におけるガイダンスおよび規制文書から知識グラフ(KG)を自動的に抽出する。我々は,RAGAsフレームワークの特性と101組の質問応答ペアからなる検証データセット,ドメインエキスパートを用いた人間による検証を実装した。
論文参考訳（メタデータ） (2025-11-03T14:55:34Z)
RADAR: A Reasoning-Guided Attribution Framework for Explainable Visual Data Analysis [37.42273691073023]
MLLM(Multimodal Large Language Models)は、自動視覚データ分析のための有望な機能を提供する。しかし、視覚的データのどの部分が結論を知らせるかを可視化することができない。 MLLMの能力を評価するための第一歩を踏み出します。
論文参考訳（メタデータ） (2025-08-23T00:42:43Z)
Gamified crowd-sourcing of high-quality data for visual fine-tuning [0.9487395978583629]
本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。 GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。
論文参考訳（メタデータ） (2024-10-05T05:10:29Z)
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文参考訳（メタデータ） (2024-09-20T18:34:38Z)
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文参考訳（メタデータ） (2024-06-26T17:50:11Z)
GraphEval36K: Benchmarking Coding and Reasoning Capabilities of Large Language Models on Graph Datasets [19.329274124787858]
GraphEval36Kは、40のグラフコーディング問題と36,900のテストケースからなる、最初の包括的なグラフデータセットである。我々のデータセットは8つのプライマリカテゴリと4つのサブカテゴリに分類され、異なるタイプのグラフに対する徹底的な評価が保証される。評価フレームワークのユーザビリティ向上のために,構造化記号分解(SSD)を提案する。 SSDはGPT-4, GPT-4o, Gemini-Pro, Claude-3-Sonnetの平均通過速度を8.38%, 6.78%, 29.28%, 25.28%改善する。
論文参考訳（メタデータ） (2024-06-23T18:01:56Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
Knowledge Graph Driven Recommendation System Algorithm [9.952420935326893]
KGLNと呼ばれる新しいグラフニューラルネットワークに基づくレコメンデーションモデルを提案する。まず、グラフ内の個々のノード特徴をマージし、隣り合うエンティティの集約重みを調整するために、単層ニューラルネットワークを使用します。モデルは、イテレーションを通じて単一のレイヤから複数のレイヤへと進化し、エンティティが広範囲にわたるマルチオーダー関連エンティティ情報にアクセスできるようにする。
論文参考訳（メタデータ） (2023-12-01T21:50:43Z)
Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文参考訳（メタデータ） (2023-10-11T15:56:00Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)
KERMIT: Knowledge Graph Completion of Enhanced Relation Modeling with Inverse Transformation [19.31783654838732]
大規模言語モデルを用いてコヒーレントな記述を生成し,クエリと回答のセマンティックなギャップを埋める。また、逆関係を利用して対称グラフを作成し、KGCのための強化トレーニングサンプルを提供する。提案手法は,WN18RRではHit@1が4.2%,FB15k-237ではHit@3が3.4%向上し,優れた性能を示した。
論文参考訳（メタデータ） (2023-09-26T09:03:25Z)
SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs [3.393948745711056]
SciGraphQA(SciGraphQA)は,学術グラフに関連する多ターン質問応答データセットである。 ChartVQAよりも13倍大きい。
論文参考訳（メタデータ） (2023-08-07T07:03:49Z)
Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。これらのグラフモデルと従来の協調フィルタリングモデルを比較する。ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文参考訳（メタデータ） (2023-08-01T09:31:44Z)
An Efficient Recommendation System in E-commerce using Passer learning optimization based on Bi-LSTM [0.8399688944263843]
本研究では,Bi-LSTMに基づく通行人学習最適化を用いたeコマースのレコメンデーションを開発する。従来の手法と比較すると、PL最適化Bi-LSTMはデータセット1, 88.58%, 1.24%, 92.69%, 92.69%, データセット1, 88.46%, 0.48%, 92.43%, 93.47%, データセット2, 92.51%, 1.58%, 91.90%, 90.76%の値を得た。
論文参考訳（メタデータ） (2023-07-31T20:09:25Z)
Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation [30.179968217703635]
本稿では,新たなクラウドソーシング作業者選択アルゴリズムを導入し,アノテーションの品質向上とコスト削減を図る。提案アルゴリズムは,作業者選択にコンビニアル・マルチアーマッド・バンドイット(CMAB)アプローチ,コスト効率のよいフィードバック機構を利用する。
論文参考訳（メタデータ） (2023-05-11T09:40:24Z)
Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-04-19T16:29:48Z)
Domain Adaptation of Transformer-Based Models using Unlabeled Data for Relevance and Polarity Classification of German Customer Feedback [1.2999413717930817]
この研究は、ドイツの顧客フィードバックデータセットを扱う際に、トランスフォーマーベースのモデルがいかに効率的であるかを調査する。実験結果から,Transformerベースのモデルでは,fastTextベースラインに比べて大幅な改善が期待できることがわかった。
論文参考訳（メタデータ） (2022-12-12T08:32:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。