論文の概要: LAVIS: A Library for Language-Vision Intelligence
- arxiv url: http://arxiv.org/abs/2209.09019v1
- Date: Thu, 15 Sep 2022 18:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:48:29.276267
- Title: LAVIS: A Library for Language-Vision Intelligence
- Title(参考訳): LAVIS: 言語ビジョンインテリジェンスのためのライブラリ
- Authors: Dongxu Li, Junnan Li, Hung Le, Guangsen Wang, Silvio Savarese, Steven
C.H. Hoi
- Abstract要約: LAVISは、LAnguage-VISionの研究と応用のためのオープンソースライブラリである。
最先端の画像言語、ビデオ言語モデル、一般的なデータセットに容易にアクセスできる統一インターフェースを備えている。
- 参考スコア(独自算出の注目度): 98.88477610704938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LAVIS, an open-source deep learning library for LAnguage-VISion
research and applications. LAVIS aims to serve as a one-stop comprehensive
library that brings recent advancements in the language-vision field accessible
for researchers and practitioners, as well as fertilizing future research and
development. It features a unified interface to easily access state-of-the-art
image-language, video-language models and common datasets. LAVIS supports
training, evaluation and benchmarking on a rich variety of tasks, including
multimodal classification, retrieval, captioning, visual question answering,
dialogue and pre-training. In the meantime, the library is also highly
extensible and configurable, facilitating future development and customization.
In this technical report, we describe design principles, key components and
functionalities of the library, and also present benchmarking results across
common language-vision tasks. The library is available at:
https://github.com/salesforce/LAVIS.
- Abstract(参考訳): LAVISはLAnguage-VISion研究と応用のためのオープンソースのディープラーニングライブラリである。
LAVISは、研究者や実践者が利用できる言語視野分野の最近の進歩と将来の研究・開発を促進させる、ワンストップの総合図書館として機能することを目指している。
最先端の画像言語、ビデオ言語モデル、共通データセットへのアクセスを容易にする統一インターフェースを備えている。
LAVISは、マルチモーダル分類、検索、キャプション、視覚的質問応答、対話、事前訓練など、さまざまなタスクのトレーニング、評価、ベンチマークをサポートする。
その間、ライブラリは高度に拡張可能で構成可能であり、将来の開発とカスタマイズを促進する。
本稿では,設計原則,重要なコンポーネント,ライブラリの機能について述べるとともに,共通言語ビジョンタスクにおけるベンチマーク結果を示す。
ライブラリはhttps://github.com/salesforce/lavis.com/。
関連論文リスト
- Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。
これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。
我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文 参考訳(メタデータ) (2024-02-19T10:33:41Z) - Evaluating In-Context Learning of Libraries for Code Generation [38.86753078870638]
大規模言語モデル(LLM)は高いレベルのコード生成と理解能力を示す。
近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-16T07:37:25Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - PyRelationAL: A Library for Active Learning Research and Development [0.11545092788508224]
PyRelationALは、アクティブラーニング(AL)研究のためのオープンソースライブラリである。
既存の文献に基づいたベンチマークデータセットとALタスク設定へのアクセスを提供する。
我々は、ベンチマークデータセットのPyRelationALコレクションの実験を行い、ALが提供できる相当な経済状況を示す。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Modular Framework for Visuomotor Language Grounding [57.93906820466519]
自然言語の指導は、接地された言語とロボット工学の研究にとって貴重なテストベッドとして機能する。
本稿では,言語,行動,視覚的タスクを個別に学習可能なモジュールに構造化することを提案する。
論文 参考訳(メタデータ) (2021-09-05T20:11:53Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - CLEVR Parser: A Graph Parser Library for Geometric Learning on Language
Grounded Image Scenes [2.750124853532831]
CLEVRデータセットは、機械学習(ML)と自然言語処理(NLP)ドメインにおいて、言語基盤の視覚的推論で広く使用されている。
本稿では,CLEVR用のグラフライブラリについて述べる。オブジェクト中心属性と関係抽出の機能を提供し,デュアルモーダル性のための構造グラフ表現の構築を行う。
図書館の下流利用と応用について論じるとともに,NLP研究コミュニティにおける研究の促進について論じる。
論文 参考訳(メタデータ) (2020-09-19T03:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。