論文の概要: LAVIS: A Library for Language-Vision Intelligence
- arxiv url: http://arxiv.org/abs/2209.09019v1
- Date: Thu, 15 Sep 2022 18:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:48:29.276267
- Title: LAVIS: A Library for Language-Vision Intelligence
- Title(参考訳): LAVIS: 言語ビジョンインテリジェンスのためのライブラリ
- Authors: Dongxu Li, Junnan Li, Hung Le, Guangsen Wang, Silvio Savarese, Steven
C.H. Hoi
- Abstract要約: LAVISは、LAnguage-VISionの研究と応用のためのオープンソースライブラリである。
最先端の画像言語、ビデオ言語モデル、一般的なデータセットに容易にアクセスできる統一インターフェースを備えている。
- 参考スコア(独自算出の注目度): 98.88477610704938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LAVIS, an open-source deep learning library for LAnguage-VISion
research and applications. LAVIS aims to serve as a one-stop comprehensive
library that brings recent advancements in the language-vision field accessible
for researchers and practitioners, as well as fertilizing future research and
development. It features a unified interface to easily access state-of-the-art
image-language, video-language models and common datasets. LAVIS supports
training, evaluation and benchmarking on a rich variety of tasks, including
multimodal classification, retrieval, captioning, visual question answering,
dialogue and pre-training. In the meantime, the library is also highly
extensible and configurable, facilitating future development and customization.
In this technical report, we describe design principles, key components and
functionalities of the library, and also present benchmarking results across
common language-vision tasks. The library is available at:
https://github.com/salesforce/LAVIS.
- Abstract(参考訳): LAVISはLAnguage-VISion研究と応用のためのオープンソースのディープラーニングライブラリである。
LAVISは、研究者や実践者が利用できる言語視野分野の最近の進歩と将来の研究・開発を促進させる、ワンストップの総合図書館として機能することを目指している。
最先端の画像言語、ビデオ言語モデル、共通データセットへのアクセスを容易にする統一インターフェースを備えている。
LAVISは、マルチモーダル分類、検索、キャプション、視覚的質問応答、対話、事前訓練など、さまざまなタスクのトレーニング、評価、ベンチマークをサポートする。
その間、ライブラリは高度に拡張可能で構成可能であり、将来の開発とカスタマイズを促進する。
本稿では,設計原則,重要なコンポーネント,ライブラリの機能について述べるとともに,共通言語ビジョンタスクにおけるベンチマーク結果を示す。
ライブラリはhttps://github.com/salesforce/lavis.com/。
関連論文リスト
- A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - Visual Navigation of Digital Libraries: Retrieval and Classification of Images in the National Library of Norway's Digitised Book Collection [0.3277163122167433]
本稿では,1900年以前のノルウェー国立図書館における画像探索のための概念実証画像検索アプリケーションについて紹介する。
画像検索と分類のために、視覚変換器(ViT)、コントラスト言語画像事前学習(CLIP)、言語画像事前学習(SigLIP)のSigmoid損失を比較した。
論文 参考訳(メタデータ) (2024-10-19T04:20:23Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - ViSpeR: Multilingual Audio-Visual Speech Recognition [9.40993779729177]
本研究は,広範に話される5言語を対象とした音声・視覚音声認識について,広範かつ詳細な研究である。
我々は、英語以外の言語毎に大規模なデータセットを収集し、教師付き学習モデルの訓練に従事した。
我々のモデルであるViSpeRは多言語で訓練されており、結果として各言語で新たに確立されたベンチマーク上での競争性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T14:48:51Z) - Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。
これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。
我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文 参考訳(メタデータ) (2024-02-19T10:33:41Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - CLEVR Parser: A Graph Parser Library for Geometric Learning on Language
Grounded Image Scenes [2.750124853532831]
CLEVRデータセットは、機械学習(ML)と自然言語処理(NLP)ドメインにおいて、言語基盤の視覚的推論で広く使用されている。
本稿では,CLEVR用のグラフライブラリについて述べる。オブジェクト中心属性と関係抽出の機能を提供し,デュアルモーダル性のための構造グラフ表現の構築を行う。
図書館の下流利用と応用について論じるとともに,NLP研究コミュニティにおける研究の促進について論じる。
論文 参考訳(メタデータ) (2020-09-19T03:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。