論文の概要: BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data
- arxiv url: http://arxiv.org/abs/2410.00773v1
- Date: Tue, 1 Oct 2024 15:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:05:38.979424
- Title: BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data
- Title(参考訳): BabelBench: マルチモーダルおよびマルチ構造化データのコード駆動分析のためのOmniベンチマーク
- Authors: Xuwu Wang, Qiwen Cui, Yunzhe Tao, Yiran Wang, Ziwei Chai, Xiaotian Han, Boyi Liu, Jianbo Yuan, Jing Su, Guoyin Wang, Tingkai Liu, Liyu Chen, Tianyi Liu, Tao Sun, Yufeng Zhang, Sirui Zheng, Quanzeng You, Yang Yang, Hongxia Yang,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
- 参考スコア(独自算出の注目度): 61.936320820180875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become increasingly pivotal across various domains, especially in handling complex data types. This includes structured data processing, as exemplified by ChartQA and ChatGPT-Ada, and multimodal unstructured data processing as seen in Visual Question Answering (VQA). These areas have attracted significant attention from both industry and academia. Despite this, there remains a lack of unified evaluation methodologies for these diverse data handling scenarios. In response, we introduce BabelBench, an innovative benchmark framework that evaluates the proficiency of LLMs in managing multimodal multistructured data with code execution. BabelBench incorporates a dataset comprising 247 meticulously curated problems that challenge the models with tasks in perception, commonsense reasoning, logical reasoning, and so on. Besides the basic capabilities of multimodal understanding, structured data processing as well as code generation, these tasks demand advanced capabilities in exploration, planning, reasoning and debugging. Our experimental findings on BabelBench indicate that even cutting-edge models like ChatGPT 4 exhibit substantial room for improvement. The insights derived from our comprehensive analysis offer valuable guidance for future research within the community. The benchmark data can be found at https://github.com/FFD8FFE/babelbench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に複雑なデータ型を扱う際に、様々な領域でますます重要になっている。
この中には、ChartQAやChatGPT-Adaが示すような構造化データ処理や、Visual Question Answering (VQA)に見られるようなマルチモーダルな非構造化データ処理が含まれる。
これらの地域は産業と学術の両方から大きな注目を集めている。
それにもかかわらず、これらの多様なデータハンドリングシナリオに対する統一的な評価方法論はいまだに存在しない。
コード実行によるマルチモーダルなマルチ構造化データ管理におけるLCMの習熟度を評価する,革新的なベンチマークフレームワークであるBabelBenchを紹介する。
BabelBenchは、知覚、常識推論、論理推論などのタスクでモデルに挑戦する247の精巧にキュレートされた問題からなるデータセットを組み込んでいる。
マルチモーダル理解、構造化データ処理、コード生成の基本的な機能に加えて、これらのタスクは探索、計画、推論、デバッグの高度な機能を必要とする。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
包括的分析から得られた洞察は、コミュニティ内の将来の研究に貴重なガイダンスを提供する。
ベンチマークデータはhttps://github.com/FFD8FFE/babelbenchで確認できる。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation [0.0]
クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。
本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
論文 参考訳(メタデータ) (2024-10-01T00:37:16Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis [35.31073435549237]
文書分析にMindBenchという新しいベンチマークを導入する。
これには、厳密に構築されたバイリンガル認証または合成画像、詳細なアノテーション、評価指標、ベースラインモデルが含まれる。
これらのタスクには、完全パース、部分パース、位置関連パース、構造化された視覚質問応答(VQA)、位置関連VQAが含まれる。
論文 参考訳(メタデータ) (2024-07-03T06:39:18Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Blackbird's language matrices (BLMs): a new benchmark to investigate
disentangled generalisation in neural networks [2.5567566997688034]
ブラックバードの言語行列(BLM)は,ラヴェンの進行行列の言語的変種をテストするために開発された,新しい文法的データセットである。
このデータセットは44800の文から構成されており、現在のモデルにおける文法的合意規則の言語的熟達の調査を支援するために生成的に構築されている。
この言語タスクと、それをインスタンス化するデータは、一般化と抽象化を理解するために、新しい挑戦的なテストベッドを提供することを示す。
論文 参考訳(メタデータ) (2022-05-22T16:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。