論文の概要: $C^2$: Scalable Auto-Feedback for LLM-based Chart Generation
- arxiv url: http://arxiv.org/abs/2410.18652v2
- Date: Fri, 25 Oct 2024 15:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:14.859593
- Title: $C^2$: Scalable Auto-Feedback for LLM-based Chart Generation
- Title(参考訳): $C^2$: LLMベースのチャート生成のためのスケーラブルなオートフィードバック
- Authors: Woosung Koh, Jang Han Yoon, MinHyung Lee, Youngjin Song, Jaegwan Cho, Jaehyun Kang, Taehyeon Kim, Se-young Yun, Youngjae Yu, Bongshin Lee,
- Abstract要約: 参照不要な自動フィードバックジェネレータを導入し,人的介入のコストを削減した。
最初の実験では、回答者の74%が強く好んでおり、10%がフィードバック後の結果を好んだ。
ChartUIE-8Kは、クエリ、データセット、チャートタイプを増やすことで、データの多様性を大幅に改善する。
- 参考スコア(独自算出の注目度): 36.864917261567314
- License:
- Abstract: Generating high-quality charts with Large Language Models presents significant challenges due to limited data and the high cost of scaling through human curation. Instruction, data, and code triplets are scarce and expensive to manually curate as their creation demands technical expertise. To address this scalability issue, we introduce a reference-free automatic feedback generator, which eliminates the need for costly human intervention. Our novel framework, $C^2$, consists of (1) an automatic feedback provider (ChartAF) and (2) a diverse, reference-free dataset (ChartUIE-8K). Quantitative results are compelling: in our first experiment, 74% of respondents strongly preferred, and 10% preferred, the results after feedback. The second post-feedback experiment demonstrates that ChartAF outperforms nine baselines. Moreover, ChartUIE-8K significantly improves data diversity by increasing queries, datasets, and chart types by 5982%, 1936%, and 91%, respectively, over benchmarks. Finally, an LLM user study revealed that 94% of participants preferred ChartUIE-8K's queries, with 93% deeming them aligned with real-world use cases. Core contributions are available as open-source at an anonymized project site, with ample qualitative examples.
- Abstract(参考訳): 大規模言語モデルによる高品質なチャートの生成は、限られたデータと、人間のキュレーションによるスケーリングのコストが高いため、大きな課題となる。
インストラクション、データ、コードトリプレットは、作成が技術的専門知識を必要とするため、手作業でキュレーションを行うには不十分で費用がかかる。
このスケーラビリティ問題に対処するため、我々は、人的介入を犠牲にすることなく、参照不要な自動フィードバックジェネレータを導入する。
我々の新しいフレームワークである$C^2$は、(1)自動フィードバックプロバイダ(ChartAF)と(2)多様な参照なしデータセット(ChartUIE-8K)で構成されています。
最初の実験では、回答者の74%が強く好んでおり、10%がフィードバック後の結果を好んでいます。
2回目のフィードバック実験は、ChartAFが9つのベースラインを上回っていることを示している。
さらに、ChartUIE-8Kは、ベンチマークよりもクエリ、データセット、チャートタイプを5982%、1936%、91%増やすことで、データの多様性を著しく改善する。
最後に、LLMユーザ調査では、参加者の94%がChartUIE-8Kのクエリを好んでおり、93%が実際のユースケースに適合していると見積もっている。
コアコントリビューションは、匿名のプロジェクトサイトでオープンソースとして利用できる。
関連論文リスト
- Gamified crowd-sourcing of high-quality data for visual fine-tuning [0.9487395978583629]
本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。
GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。
論文 参考訳(メタデータ) (2024-10-05T05:10:29Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - An Efficient Recommendation System in E-commerce using Passer learning
optimization based on Bi-LSTM [0.8399688944263843]
本研究では,Bi-LSTMに基づく通行人学習最適化を用いたeコマースのレコメンデーションを開発する。
従来の手法と比較すると、PL最適化Bi-LSTMはデータセット1, 88.58%, 1.24%, 92.69%, 92.69%, データセット1, 88.46%, 0.48%, 92.43%, 93.47%, データセット2, 92.51%, 1.58%, 91.90%, 90.76%の値を得た。
論文 参考訳(メタデータ) (2023-07-31T20:09:25Z) - Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation [30.179968217703635]
本稿では,新たなクラウドソーシング作業者選択アルゴリズムを導入し,アノテーションの品質向上とコスト削減を図る。
提案アルゴリズムは,作業者選択にコンビニアル・マルチアーマッド・バンドイット(CMAB)アプローチ,コスト効率のよいフィードバック機構を利用する。
論文 参考訳(メタデータ) (2023-05-11T09:40:24Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Domain Adaptation of Transformer-Based Models using Unlabeled Data for
Relevance and Polarity Classification of German Customer Feedback [1.2999413717930817]
この研究は、ドイツの顧客フィードバックデータセットを扱う際に、トランスフォーマーベースのモデルがいかに効率的であるかを調査する。
実験結果から,Transformerベースのモデルでは,fastTextベースラインに比べて大幅な改善が期待できることがわかった。
論文 参考訳(メタデータ) (2022-12-12T08:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。