このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230524となっている論文です。

PDF登録状況(公開日: 20230524)

TitleAuthorsAbstract論文公表日・翻訳日
# グローバル識別子のユニークさを使ってpythonソフトウェアソースコードの出所を決定する

Using the Uniqueness of Global Identifiers to Determine the Provenance of Python Software Source Code ( http://arxiv.org/abs/2305.14837v1 )

ライセンス: Link先を確認
Yiming Sun (UVIC), Daniel M. German (UVIC), Stefano Zacchiroli (IP Paris, LTCI)(参考訳) 本稿では,フリー/オープンソースソフトウェア(FOSS)の出現点と,再利用ソースコードのコピー先を特定する必要性について考察する。 本稿では,プログラマが選択した変数名,クラス名,関数など,ソフトウェア識別子に基づく,軽量な解決手法を提案する。 提案手法は,少数の候補製品に効率的に絞り込むことができ,最終的な成果を決定するために,さらに高価な技術で分析することができる。PyPI(Python Packaging Index)オープンソースエコシステムを分析してみると,グローバルに定義された識別子は極めて異なることが分かる。 PyPIの244Kパッケージ全体で、11.2Mの異なるグローバル識別子(クラスとメソッド/関数名-2種類のエンティティ間で共有されている識別子のわずか0.6%)を発見しました。 Randomly selecting 3 non-frequent global identifiers from an input product is enough to narrow down its origins to a maximum of 3 products within 89% of the cases.We validate the proposed approach by mapping Debian source packages implemented in Python to the corresponding PyPI packages; this approach uses at most five trials, where each trial uses three randomly chosen global identifiers from a randomly chosen python file of the subject software package, then ranks results using a popularity index and requires to inspect only the top result. 本手法は,プロジェクトの真の起源を0.9のリコールと0.77の精度で見つけるのに有効である。

We consider the problem of identifying the provenance of free/open source software (FOSS) and specifically the need of identifying where reused source code has been copied from. We propose a lightweight approach to solve the problem based on software identifiers-such as the names of variables, classes, and functions chosen by programmers. The proposed approach is able to efficiently narrow down to a small set of candidate origin products, to be further analyzed with more expensive techniques to make a final provenance determination.By analyzing the PyPI (Python Packaging Index) open source ecosystem we find that globally defined identifiers are very distinct. Across PyPI's 244 K packages we found 11.2 M different global identifiers (classes and method/function names-with only 0.6% of identifiers shared among the two types of entities); 76% of identifiers were used only in one package, and 93% in at most 3. Randomly selecting 3 non-frequent global identifiers from an input product is enough to narrow down its origins to a maximum of 3 products within 89% of the cases.We validate the proposed approach by mapping Debian source packages implemented in Python to the corresponding PyPI packages; this approach uses at most five trials, where each trial uses three randomly chosen global identifiers from a randomly chosen python file of the subject software package, then ranks results using a popularity index and requires to inspect only the top result. In our experiments, this method is effective at finding the true origin of a project with a recall of 0.9 and precision of 0.77.
翻訳日:2023-10-24 05:59:00 公開日:2023-05-24
# SAGA: 要約ガイド付アサートステートメント生成

SAGA: Summarization-Guided Assert Statement Generation ( http://arxiv.org/abs/2305.14808v1 )

ライセンス: Link先を確認
Yuwei Zhang and Zhi Jin and Zejun Wang and Ying Xing and Ge Li(参考訳) 有意義なアサートステートメントの生成は自動テストケース生成の重要な課題の1つであり、テストされたコードの意図した機能を理解する必要がある。 近年,ディープラーニングモデルによるアサート文生成の性能向上が期待されている。 しかし、既存のモデルはテストプレフィックスと対応する焦点メソッドにのみ依存するが、開発者による要約は無視する。 我々の観察に基づいて、要約内容は通常、意図したプログラムの振る舞いを表現するか、アサートステートメントに直接現れるパラメータを含む。 このような情報は、既存のモデルが現在のアサートステートメントを正確に予測できない場合に役立ちます。 本稿では,アサート文の自動生成のための新しい要約誘導手法を提案する。 自然言語(要約)とプログラミング言語(テストプレフィックスとフォーカスメソッド)の汎用表現を導出するために、トレーニング済みの言語モデルを参照アーキテクチャとして利用し、アサート文生成のタスクでそれを微調整する。 我々の知る限り、提案手法は、生成したアサーション文をより正確にするためのガイダンスとして焦点メソッドの要約を利用するための最初の試みである。 現状のモデルと比較した場合の2つの実世界のデータセットに対するアプローチの有効性を示す。

Generating meaningful assert statements is one of the key challenges in automated test case generation, which requires understanding the intended functionality of the tested code. Recently, deep learning-based models have shown promise in improving the performance of assert statement generation. However, existing models only rely on the test prefixes along with their corresponding focal methods, yet ignore the developer-written summarization. Based on our observations, the summarization contents usually express the intended program behavior or contain parameters that will appear directly in the assert statement. Such information will help existing models address their current inability to accurately predict assert statements. This paper presents a novel summarization-guided approach for automatically generating assert statements. To derive generic representations for natural language (i.e., summarization) and programming language (i.e., test prefixes and focal methods), we leverage a pre-trained language model as the reference architecture and fine-tune it on the task of assert statement generation. To the best of our knowledge, the proposed approach makes the first attempt to leverage the summarization of focal methods as the guidance for making the generated assert statements more accurate. We demonstrate the effectiveness of our approach on two real-world datasets when compared with state-of-the-art models.
翻訳日:2023-10-24 05:58:36 公開日:2023-05-24
# UIテストを使ってAPIテストとAPI仕様を生成する

Carving UI Tests to Generate API Tests and API Specification ( http://arxiv.org/abs/2305.14692v1 )

ライセンス: Link先を確認
Rahulkrishna Yandrapally, Saurabh Sinha, Rachel Tzoref-Brill, Ali Mesbah(参考訳) 現代的なWebアプリケーションは、ユーザイベントやサーバ側の変更に応じてUI状態を更新するために、APIコールを広範囲に使用しています。 このようなアプリケーションでは、ユニットテストとUIレベル(あるいはエンドツーエンド)テストの間で、APIレベルのテストが重要な役割を果たす。 既存のAPIテストツールにはAPI仕様(OpenAPIなど)が必要だが、利用できない場合や利用できない場合が多いため、自動APIテストのWebアプリケーションへの適用性が制限される。 本稿では,WebアプリケーションのAPIレベルのテストを可能にするためにUIテストを利用するアプローチを提案する。 私たちの技術は、テスト中のWebアプリケーションをナビゲートし、アプリケーションのサーバサイドAPI(RESTベースのWebアプリケーション)を記述するOpenAPI仕様とともに、APIレベルのテストスイートを自動的に生成します。 このソリューションの重要な要素は、uiナビゲーションとdirected api probingを介してapiエンドポイントをパスパラメータで推論する動的アプローチです。 提案手法は,API仕様の推測における精度と,APIテストの有効性を評価するものである。 オープンソースWebアプリケーション7つの結果から,提案手法が98%の精度と56%のリコールを実現していることがわかった。 APIテストは、2つの自動REST APIテストツールによって生成されたテストスイートに追加され、ステートメントカバレッジが52%、29%、ブランチカバレッジが99%、75%増加した。 当社の技術の主な利点は、(1)既存のAPIテストツールが適用できない場合に、WebアプリケーションのAPIレベルのテストを可能にすること、(2)アプリケーションのWeb UIから呼び出されるようなAPIの実行をしながら、サーバー側のコードを効率的にカバーするAPIレベルのテストスイートを作成すること、そして、既存のAPIテストスイートを拡張することである。

Modern web applications make extensive use of API calls to update the UI state in response to user events or server-side changes. For such applications, API-level testing can play an important role, in-between unit-level testing and UI-level (or end-to-end) testing. Existing API testing tools require API specifications (e.g., OpenAPI), which often may not be available or, when available, be inconsistent with the API implementation, thus limiting the applicability of automated API testing to web applications. In this paper, we present an approach that leverages UI testing to enable API-level testing for web applications. Our technique navigates the web application under test and automatically generates an API-level test suite, along with an OpenAPI specification that describes the application's server-side APIs (for REST-based web applications). A key element of our solution is a dynamic approach for inferring API endpoints with path parameters via UI navigation and directed API probing. We evaluated the technique for its accuracy in inferring API specifications and the effectiveness of the "carved" API tests. Our results on seven open-source web applications show that the technique achieves 98% precision and 56% recall in inferring endpoints. The carved API tests, when added to test suites generated by two automated REST API testing tools, increase statement coverage by 52% and 29% and branch coverage by 99% and 75%, on average. The main benefits of our technique are: (1) it enables API-level testing of web applications in cases where existing API testing tools are inapplicable and (2) it creates API-level test suites that cover server-side code efficiently while exercising APIs as they would be invoked from an application's web UI, and that can augment existing API test suites.
翻訳日:2023-10-24 05:58:16 公開日:2023-05-24
# NiCro: 純粋なビジョンベース、非侵入型クロスデバイス、クロスプラットフォームGUIテスト

NiCro: Purely Vision-based, Non-intrusive Cross-Device and Cross-Platform GUI Testing ( http://arxiv.org/abs/2305.14611v1 )

ライセンス: Link先を確認
Mulong Xie, Jiaming Ye, Zhenchang Xing, Lei Ma(参考訳) さまざまなデバイスやプラットフォーム間のアプリの互換性とユーザエクスペリエンスの円滑性を確保するためには,アプリケーションのクロスデバイスでクロスプラットフォームなテストを行う必要がある。 最近、テストプロセスを容易にするためにレコードと再生のアプローチを使う傾向が強まっている。 しかし、異なるデバイスやプラットフォームで動作するアプリのグラフィックユーザインターフェース(GUI)は、劇的に異なる。 これにより、記録フェーズ及び再生フェーズにおけるguiウィジェットの存在、出現及びレイアウトが矛盾するので、記録及び再生プロセスが複雑になる。 既存の手法では、ウィジェットの識別と様々なデバイス間のマッチングのためのアプリメタデータを取得するために、基盤となるシステムにインストルメンテーションを取り入れている。 しかし、このような侵入的なプラクティスは、異なるプラットフォーム上のメタデータのアクセシビリティと正確性によって制限されます。 一方,GUI画像の解析によりGUI情報を導出しようとする最近の試みもいくつかある。 それでも、それらの性能は、適用された予備的な視覚的アプローチと、異なるデバイスに表示される同じGUIのばらつきを考慮できないことで抑制されている。 そこで本研究では,非侵入型クロスプラットフォームシステムNiCroを提案する。 NiCroは最先端のGUIウィジェット検出器を使用してGUIイメージからウィジェットを検出し、さまざまなデバイス間でウィジェットにマッチする包括的な情報の集合を分析する。 システムレベルでは、NiCroは仮想デバイスファームとロボットアームシステムと対話して、非侵襲的にクロスデバイスでクロスプラットフォームのテストを実行することができる。 NiCroのマルチモーダルウィジェットとGUIマッチングを4つの一般的なマッチング手法と比較して評価を行った。 次に,28種類の人気アプリの107種類のテストケースとホームページを記録・再生し,その効果を示すために,8種類のデバイスでの性能をさらに検証した。

To ensure app compatibility and smoothness of user experience across diverse devices and platforms, developers have to perform cross-device, cross-platform testing of their apps, which is laborious. There comes a recently increasing trend of using a record and replay approach to facilitate the testing process. However, the graphic user interface (GUI) of an app running on different devices and platforms differs dramatically. This complicates the record and replay process as the presence, appearance and layout of the GUI widgets in the recording phase and replaying phase can be inconsistent. Existing techniques resort to instrumenting into the underlying system to obtain the app metadata for widget identification and matching between various devices. But such intrusive practices are limited by the accessibility and accuracy of the metadata on different platforms. On the other hand, several recent works attempt to derive the GUI information by analyzing the GUI image. Nevertheless, their performance is curbed by the applied preliminary visual approaches and the failure to consider the divergence of the same GUI displayed on different devices. To address the challenge, we propose a non-intrusive cross-device and cross-platform system NiCro. NiCro utilizes the state-of-the-art GUI widget detector to detect widgets from GUI images and then analyses a set of comprehensive information to match the widgets across diverse devices. At the system level, NiCro can interact with a virtual device farm and a robotic arm system to perform cross-device, cross-platform testing non-intrusively. We first evaluated NiCro by comparing its multi-modal widget and GUI matching approach with 4 commonly used matching techniques. Then, we further examined its overall performance on 8 various devices, using it to record and replay 107 test cases of 28 popular apps and the home page to show its effectiveness.
翻訳日:2023-10-24 05:57:22 公開日:2023-05-24
# プライバシー行動の微粒化に向けて

Towards Fine-Grained Localization of Privacy Behaviors ( http://arxiv.org/abs/2305.15314v1 )

ライセンス: Link先を確認
Vijayanta Jain, Sepideh Ghanavati, Sai Teja Peddinti, Collin McMillan(参考訳) モバイルアプリケーションは、個人情報の収集や共有時にユーザにプライバシー通知を与える必要がある。 一貫性と簡潔なプライバシ通知を作成することは、開発者にとって難しい作業です。 これまでの研究は、開発者がアンケートや事前定義されたテンプレートを通じてプライバシー通知を作成するのに役立ってきた。 本稿では,これらの先行研究を拡張した新しいアプローチとフレームワーク,prigenを提案する。 PriGenは静的解析を使用して、機密情報(すなわちパーミッション要求コードセグメント)を処理するAndroidアプリケーションのコードセグメントを特定し、ニューラルネットワーク翻訳モデルを利用してプライバシキャプションに変換する。 約30万のコードセグメントに対する翻訳タスクの初期評価を行った。

Mobile applications are required to give privacy notices to users when they collect or share personal information. Creating consistent and concise privacy notices can be a challenging task for developers. Previous work has attempted to help developers create privacy notices through a questionnaire or predefined templates. In this paper, we propose a novel approach and a framework, called PriGen, that extends these prior work. PriGen uses static analysis to identify Android applications' code segments that process sensitive information (i.e. permission-requiring code segments) and then leverages a Neural Machine Translation model to translate them into privacy captions. We present the initial evaluation of our translation task for ~300,000 code segments.
翻訳日:2023-10-24 05:45:43 公開日:2023-05-24
# 古典的な機械学習手法

Classic machine learning methods ( http://arxiv.org/abs/2310.11470v1 )

ライセンス: Link先を確認
Johann Faouzi and Olivier Colliot(参考訳) 本章では,古典的機械学習の主な手法を紹介する。 章の大部分は、最寄りの方法、線形およびロジスティック回帰、サポートベクターマシンとツリーベースアルゴリズムを含む、分類と回帰に関する教師あり学習技術に費やされている。 また、過度に適合する問題とそれを克服する戦略についても述べます。 最後に,教師なし学習法の概要,すなわちクラスタリングと次元の削減について述べる。

In this chapter, we present the main classic machine learning methods. A large part of the chapter is devoted to supervised learning techniques for classification and regression, including nearest-neighbor methods, linear and logistic regressions, support vector machines and tree-based algorithms. We also describe the problem of overfitting as well as strategies to overcome it. We finally provide a brief overview of unsupervised learning methods, namely for clustering and dimensionality reduction.
翻訳日:2023-10-23 02:10:13 公開日:2023-05-24
# 音声データを用いた政治討論, スピーチ, インタビューにおけるチェックワード主張の検出

Detecting Check-Worthy Claims in Political Debates, Speeches, and Interviews Using Audio Data ( http://arxiv.org/abs/2306.05535v1 )

ライセンス: Link先を確認
Petar Ivanov, Ivan Koychev, Momchil Hardalov, Preslav Nakov(参考訳) 社会の大部分を同じビジョンとアイデアで結集し、膨大なエネルギーを消費する。 これはまさに政治関係者が自分たちの目的のために蓄積したいものだ。 この目標を念頭に置いて、意図せず、あるいは故意に真実をゆがめたり隠したりすることで、誤った情報や偽情報への扉を開くことができる。 チェックに値するクレームを自動的に検出するツールは、議論やジャーナリスト、ファクトチェックを行う組織のモデレーターにとって非常に役立ちます。 これまで、チェック価値の高いクレームの検出はテキストに焦点を当ててきたが、ここでは音声信号が追加情報源としての有用性について検討する。 私たちは、48時間の音声を含む新しいマルチモーダルデータセット(英語でテキストと音声)を作成します。 評価の結果,複数話者の場合,音声のモーダリティとテキストとの併用により,テキスト単独による改善がみられた。 さらに、音声のみのモデルは、単一の話者に対してテキストのみのモデルよりも優れている。

A large portion of society united around the same vision and ideas carries enormous energy. That is precisely what political figures would like to accumulate for their cause. With this goal in mind, they can sometimes resort to distorting or hiding the truth, unintentionally or on purpose, which opens the door for misinformation and disinformation. Tools for automatic detection of check-worthy claims would be of great help to moderators of debates, journalists, and fact-checking organizations. While previous work on detecting check-worthy claims has focused on text, here we explore the utility of the audio signal as an additional information source. We create a new multimodal dataset (text and audio in English) containing 48 hours of speech. Our evaluation results show that the audio modality together with text yields improvements over text alone in the case of multiple speakers. Moreover, an audio-only model could outperform a text-only one for a single speaker.
翻訳日:2023-06-18 13:09:44 公開日:2023-05-24
# ATLAS: プライバシーポリシーとプライバシーラベルの相違を自動的に検出する

ATLAS: Automatically Detecting Discrepancies Between Privacy Policies and Privacy Labels ( http://arxiv.org/abs/2306.09247v1 )

ライセンス: Link先を確認
Akshath Jain, David Rodriguez, Jose M. del Alamo, Norman Sadeh(参考訳) プライバシーポリシーは長く複雑なドキュメントで、エンドユーザはほとんど読まない。 privacy labelsは、厳格なデータプラクティスの簡潔な要約を提供することで、これらの問題を改善しようとしている。 2020年12月、Appleはアプリの開発者がアプリのデータプラクティスを記述するプライバシーラベルを提出することを要求し始めた。 しかし調査によると、アプリのデベロッパーはそれをやろうとしがちだ。 本稿では,モバイルアプリのプライバシーポリシーとプライバシーラベルの相違点を自動的に識別する。 このような不一致は、潜在的なプライバシーコンプライアンスの問題の指標になり得る。 本稿では,自動プライバシラベル解析システム(ATLAS)を紹介する。 ATLASには、iOS App Storeのリスティングとプライバシポリシを体系的に取得するパイプライン、プライバシーポリシーのテキストからプライバシーラベルを91.3%の精度で予測できるアンサンブルベースの分類器、iOS App Storeの大規模なプライバシ分析を可能にする不一致分析機構の3つのコンポーネントが含まれている。 当社のシステムでは,354,725のiosアプリを解析することが可能です。 興味深い傾向がいくつかあります。 例えば、app storeのアプリの40.3%だけが簡単にアクセス可能なプライバシーポリシーを提供し、29.6%のアプリがアクセス可能なプライバシーポリシーとプライバシーラベルを提供している。 両方を提供するアプリの中で、88.0%は、プライバシーポリシーのテキストとプライバシーラベルとの間に少なくとも1つの食い違いがある可能性がある。 平均して、アプリには5.32のコンプライアンス上の問題がある。 ATLASがアプリ開発者、研究者、規制当局、およびモバイルアプリストアを支援することを願っている。 例えば、アプリの開発者は、私たちの分類器を使用して、プライバシポリシーとプライバシラベルの間の不一致をチェックすることができ、規制当局は、当社のシステムを使用して、コンプライアンスの潜在的な問題に対する大規模なアプリのレビューを支援します。

Privacy policies are long, complex documents that end-users seldom read. Privacy labels aim to ameliorate these issues by providing succinct summaries of salient data practices. In December 2020, Apple began requiring that app developers submit privacy labels describing their apps' data practices. Yet, research suggests that app developers often struggle to do so. In this paper, we automatically identify possible discrepancies between mobile app privacy policies and their privacy labels. Such discrepancies could be indicators of potential privacy compliance issues. We introduce the Automated Privacy Label Analysis System (ATLAS). ATLAS includes three components: a pipeline to systematically retrieve iOS App Store listings and privacy policies; an ensemble-based classifier capable of predicting privacy labels from the text of privacy policies with 91.3% accuracy using state-of-the-art NLP techniques; and a discrepancy analysis mechanism that enables a large-scale privacy analysis of the iOS App Store. Our system has enabled us to analyze 354,725 iOS apps. We find several interesting trends. For example, only 40.3% of apps in the App Store provide easily accessible privacy policies, and only 29.6% of apps provide both accessible privacy policies and privacy labels. Among apps that provide both, 88.0% have at least one possible discrepancy between the text of their privacy policy and their privacy label, which could be indicative of a potential compliance issue. We find that, on average, apps have 5.32 such potential compliance issues. We hope that ATLAS will help app developers, researchers, regulators, and mobile app stores alike. For example, app developers could use our classifier to check for discrepancies between their privacy policies and privacy labels, and regulators could use our system to help review apps at scale for potential compliance issues.
翻訳日:2023-06-18 12:11:38 公開日:2023-05-24
# 分岐畳み込みニューラルネットワークを用いたcsiに基づく効率的な自己検層監視システム

CSI-Based Efficient Self-Quarantine Monitoring System Using Branchy Convolution Neural Network ( http://arxiv.org/abs/2306.01756v1 )

ライセンス: Link先を確認
Jingtao Guo, Ivan Wang-Hei Ho(参考訳) 現在、新型コロナウイルス(COVID-19)は各国で急速に流行しているため、世界的なパンデミックとなっている。 防疫障壁を構築するには、リスクのある場所に行ったり、感染した人々と密接な接触をした人に対して、自己隔離が必要である。 しかし、既存のカメラやウェアラブルデバイスをベースとした監視システムは、プライバシー漏洩のリスクを生じさせる可能性がある。 本稿では,Wi-Fiをベースとしたデバイスレス自己検疫監視システムを提案する。 具体的には,wi-fi信号に由来するチャネル状態情報(csi)を人間の活動特徴として活用する。 シミュレーションされた自己検疫シナリオでCSIデータを収集し、室内占有検知(ROD)と人的活動認識(HAR)の効率的な共同作業のために、早期出口予測ブランチを備えた軽量畳み込みニューラルネットワーク(CNN)であるBranchyGhostNetを提示する。 早期出口分岐はRDDに、最終分岐はHARに使用される。 実験の結果,提案モデルは5つの異なる人間活動の分類において平均98.19%の精度が得られることがわかった。 彼らはまた、早期出口予測機構を利用した後、RODの精度を保証しながら最終出口分岐と比較すると、RODの推論遅延を54.04%削減できることを確認した。

Nowadays, Coronavirus disease (COVID-19) has become a global pandemic because of its fast spread in various countries. To build an anti-epidemic barrier, self-isolation is required for people who have been to any at-risk places or have been in close contact with infected people. However, existing camera or wearable device-based monitoring systems may present privacy leakage risks or cause user inconvenience in some cases. In this paper, we propose a Wi-Fi-based device-free self-quarantine monitoring system. Specifically, we exploit channel state information (CSI) derived from Wi-Fi signals as human activity features. We collect CSI data in a simulated self-quarantine scenario and present BranchyGhostNet, a lightweight convolution neural network (CNN) with an early exit prediction branch, for the efficient joint task of room occupancy detection (ROD) and human activity recognition (HAR). The early exiting branch is used for ROD, and the final one is used for HAR. Our experimental results indicate that the proposed model can achieve an average accuracy of 98.19% for classifying five different human activities. They also confirm that after leveraging the early exit prediction mechanism, the inference latency for ROD can be significantly reduced by 54.04% when compared with the final exiting branch while guaranteeing the accuracy of ROD.
翻訳日:2023-06-11 13:56:14 公開日:2023-05-24
# 常識知識を動的に取り入れた共感対話生成の改善

Improving Empathetic Dialogue Generation by Dynamically Infusing Commonsense Knowledge ( http://arxiv.org/abs/2306.04657v1 )

ライセンス: Link先を確認
Hua Cai, Xuli Shen, Qing Xu, Weilin Shen, Xiaomei Wang, Weifeng Ge, Xiaoqing Zheng and Xiangyang Xue(参考訳) 共感的な会話では、個人は他人に対する共感を表現する。 これまでの研究は主に、話者の感情を利用して共感的な反応を生み出すことに焦点を当ててきた。 また,外部コモンセンス知識は,話者の状況に対するシステムの理解を深めるために適用されている。 しかし、イベントが与えられた場合、コモンセンス知識ベースには様々な関係があり、対話システムの混乱につながる可能性がある。 その結果、感情、生成した応答、話者の文脈情報の間に矛盾が生じる。 そこで本研究では,共用知識選択のための適応モジュールを組み込んで,生成した共感応答と話者の状況との整合性を確保することを目的とした,共感応答生成のための新しいアプローチを提案する。 この選択された知識は、生成した応答に対する常識認知と共感表現を洗練するために使用される。 実験の結果,本手法は,自動評価と人間評価の両方において,ベースラインモデルよりも有意に優れており,よりコヒーレントで共感的な反応が得られた。 さらにケーススタディでは,応答における知識選択の解釈可能性と,モデルにおける適応モジュールの有効性を強調する。 コード:https://github.com/Hanscal/DCKS。

In empathetic conversations, individuals express their empathy towards others. Previous work has mainly focused on generating empathetic responses by utilizing the speaker's emotion. Besides, external commonsense knowledge has been applied to enhance the system's understandings of the speaker's situation. However, given an event, commonsense knowledge base contains various relations, potentially leading to confusion for the dialogue system. Consequently, inconsistencies arise among the emotion, generated response and speaker's contextual information. To this end, we propose a novel approach for empathetic response generation, which incorporates an adaptive module for commonsense knowledge selection to ensure consistency between the generated empathetic responses and the speaker's situation. This selected knowledge is used to refine the commonsense cognition and empathy expression for generated responses. Experimental results show that our approach significantly outperforms baseline models in both automatic and human evaluations, exhibiting the generation of more coherent and empathetic responses. Moreover, case studies highlight the interpretability of knowledge selection in the responses and the effectiveness of adaptive module in our model. Code: https://github.com/Hanscal/DCKS.
翻訳日:2023-06-11 13:28:02 公開日:2023-05-24
# 実時間リアリズムエンハンスメントのための生成的逆シェーダ

Generative Adversarial Shaders for Real-Time Realism Enhancement ( http://arxiv.org/abs/2306.04629v1 )

ライセンス: Link先を確認
Arturo Salmi, Szabolcs Cs\'efalvay, James Imber(参考訳) 現実性向上手法の応用は,特にリアルタイム・資源制約設定において,既存の手法を犠牲にすることでいらいらしている。 これらは、長いランタイムと高い帯域幅、メモリ、電力要求のコストで、高品質な結果を得る。 組み込みGPUやモバイルGPUのようなリソース制約のある設定であっても,機械学習技術をリアルタイムアプリケーションに適用する,高性能で生成可能なシェーダベースアプローチを提案する。 提案した学習可能なシェーダパイプラインは、対向目的を用いてエンドツーエンドで訓練可能な機能を備えており、手動チューニングなしでターゲット画像の外観を忠実に再現することができる。 シェーダパイプラインはターゲットデバイス上での高効率な実行に最適化されており、時間的に安定しており、多くのニューラルネットワークベースの手法と品質の競争力のあるリアルタイムな結果を提供する。

Application of realism enhancement methods, particularly in real-time and resource-constrained settings, has been frustrated by the expense of existing methods. These achieve high quality results only at the cost of long runtimes and high bandwidth, memory, and power requirements. We present an efficient alternative: a high-performance, generative shader-based approach that adapts machine learning techniques to real-time applications, even in resource-constrained settings such as embedded and mobile GPUs. The proposed learnable shader pipeline comprises differentiable functions that can be trained in an end-to-end manner using an adversarial objective, allowing for faithful reproduction of the appearance of a target image set without manual tuning. The shader pipeline is optimized for highly efficient execution on the target device, providing temporally stable, faster-than-real time results with quality competitive with many neural network-based methods.
翻訳日:2023-06-11 13:25:39 公開日:2023-05-24
# 現代物理学の最も重要な道具の1つであるH原子の動的対称性:SO(4)からSO(4,2),背景,理論,および放射シフトの計算における利用

Dynamical Symmetries of the H Atom, One of the Most Important Tools Of Modern Physics: SO(4) to SO(4,2), Background, Theory, and Use in Calculating Radiative Shifts ( http://arxiv.org/abs/2305.18229v1 )

ライセンス: Link先を確認
G. Jordan Maclay(参考訳) 水素原子を理解することは現代物理学の核心にある。 最も基本的な2つの体系の対称性の探索は、原子物理学、量子力学、量子電磁力学、素粒子物理学の進歩につながった。 本稿では,シュロディンガー水素原子の対称性(古典原子,so(4)縮退基,非分散群,スペクトル生成群so(4,1)および拡張群so(4,2)の統合的処理について述べる。 After giving a brief history of these discoveries, most of which took place from 1935-1975, we focus on the physics of the hydrogen atom, providing a background discussion of the symmetries, providing explicit expressions for all the manifestly Hermitian generators in terms of position and momenta operators in a Cartesian space, explaining the action of the generators on the basis states, and giving a unified treatment of the bound and continuum states in terms of eigenfunctions that have the same quantum numbers as the ordinary bound states. 本稿では, 水素原子における第1次ラムシフトの計算に有用であるSO(4,2)群理論の新たな結果を示す。 so(4,2)法を用いることで,全レベルに対する放射シフトの生成関数を得ることができる。 学生、非専門家、そして新世代の科学者は、水素原子の対称性のより明確で統合されたプレゼンテーションを見つけることができる。 専門家は新たな視点を見出すだろう。

Understanding the hydrogen atom has been at the heart of modern physics. Exploring the symmetry of the most fundamental two body system has led to advances in atomic physics, quantum mechanics, quantum electrodynamics, and elementary particle physics. In this pedagogic review we present an integrated treatment of the symmetries of the Schrodinger hydrogen atom, including the classical atom, the SO(4) degeneracy group, the non-invariance group or spectrum generating group SO(4,1) and the expanded group SO(4,2). After giving a brief history of these discoveries, most of which took place from 1935-1975, we focus on the physics of the hydrogen atom, providing a background discussion of the symmetries, providing explicit expressions for all the manifestly Hermitian generators in terms of position and momenta operators in a Cartesian space, explaining the action of the generators on the basis states, and giving a unified treatment of the bound and continuum states in terms of eigenfunctions that have the same quantum numbers as the ordinary bound states. We present some new results from SO(4,2) group theory that are useful in a practical application, the computation of the first order Lamb shift in the hydrogen atom. By using SO(4,2) methods, we are able to obtain a generating function for the radiative shift for all levels. Students, non-experts and the new generation of scientists may find the clearer, integrated presentation of the symmetries of the hydrogen atom helpful and illuminating. Experts will find new perspectives, even some surprises.
翻訳日:2023-06-04 11:51:19 公開日:2023-05-24
# 人気バイアスのランク付け : 自己増幅ダイナミクスによるユーザ福祉

Ranking with Popularity Bias: User Welfare under Self-Amplification Dynamics ( http://arxiv.org/abs/2305.18333v1 )

ライセンス: Link先を確認
Guy Tennenholtz, Martin Mladenov, Nadav Merlis, Craig Boutilier(参考訳) 人気バイアスは、リコメンダー(および他のランキングベース)システムにおいて重要な役割を果たしていると認識されているが、ユーザ福祉への影響に関する詳細な分析は、ほとんど欠落している。 本稿では,アイテムの人気,品目品質,位置バイアスがユーザの選択にどのような影響を及ぼすか,そして,それが様々なレコメンダポリシーの集団的ユーザユーティリティに悪影響を及ぼすか,という一般的なメカニズムを提案する。 非定常な文脈的バンディットとして問題を定式化し、人気バイアスを取り除くのではなく、その悪影響を軽減するために探索の重要性を強調した。 まず, 商品の質と人気度を縮めることで, 線形後悔を招きかねない人気バイアスのあるレコメンデーターが現れる。 より一般的には, 線形設定においても, 人気バイアスの影響により, 商品品質の識別が不可能であることを示す。 しかし,十分な変動可能性の仮定の下で,効率的なucb型アルゴリズムを開発し,効率的な後悔の保証を証明した。 我々はいくつかのシミュレーション研究で分析を補完する。

While popularity bias is recognized to play a role in recommmender (and other ranking-based) systems, detailed analyses of its impact on user welfare have largely been lacking. We propose a general mechanism by which item popularity, item quality, and position bias can impact user choice, and how it can negatively impact the collective user utility of various recommender policies. Formulating the problem as a non-stationary contextual bandit, we highlight the importance of exploration, not to eliminate popularity bias, but to mitigate its negative effects. First, naive popularity-biased recommenders are shown to induce linear regret by conflating item quality and popularity. More generally, we show that, even in linear settings, identifiability of item quality may not be possible due to the confounding effects of popularity bias. However, under sufficient variability assumptions, we develop an efficient UCB-style algorithm and prove efficient regret guarantees. We complement our analysis with several simulation studies.
翻訳日:2023-06-04 11:21:17 公開日:2023-05-24
# 深層学習加速器のための再構成可能な分散FPGAクラスタ設計

Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators ( http://arxiv.org/abs/2305.18332v1 )

ライセンス: Link先を確認
Hans Johnson, Tianyang Fang, Alejandro Perez-Vicente, and Jafar Saniie(参考訳) 本稿では,ディープラーニング(DL)ワークロードのスケジューリング最適化の分散化を目的としたエッジコンピューティングアプリケーションを対象とした,低消費電力組み込みFPGAに基づく分散システムを提案する。 我々のクラスタは実験を通じてモジュール化されており、最大12個のZynq-7020チップベースのボードと、イーサネットスイッチを介して接続されたUltraScale+MPSoC FPGAボードで構成される実装があり、クラスタは構成可能なDeep Learning Accelerator (DLA) Versatile Tensor Accelerator (VTA)を評価する。 この適応可能な分散アーキテクチャは、ニューラルネットワークのワークロードを多数の構成で評価し、管理する能力によって区別される。 提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造に計算グラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。

We propose a distributed system based on lowpower embedded FPGAs designed for edge computing applications focused on exploring distributing scheduling optimizations for Deep Learning (DL) workloads to obtain the best performance regarding latency and power efficiency. Our cluster was modular throughout the experiment, and we have implementations that consist of up to 12 Zynq-7020 chip-based boards as well as 5 UltraScale+ MPSoC FPGA boards connected through an ethernet switch, and the cluster will evaluate configurable Deep Learning Accelerator (DLA) Versatile Tensor Accelerator (VTA). This adaptable distributed architecture is distinguished by its capacity to evaluate and manage neural network workloads in numerous configurations which enables users to conduct multiple experiments tailored to their specific application needs. The proposed system can simultaneously execute diverse Neural Network (NN) models, arrange the computation graph in a pipeline structure, and manually allocate greater resources to the most computationally intensive layers of the NN graph.
翻訳日:2023-06-04 11:20:59 公開日:2023-05-24
# #reval:ハッシュタグ推薦のための意味評価フレームワーク

#REVAL: a semantic evaluation framework for hashtag recommendation ( http://arxiv.org/abs/2305.18330v1 )

ライセンス: Link先を確認
Areej Alsini, Du Q. Huynh and Amitava Datta(参考訳) 多くのオンラインソーシャルネットワークシステムにおいて,ハッシュタグ推薦モデルの自動評価が基本課題である。 従来の評価手法では、アルゴリズムから推奨されるハッシュタグを、正確な対応のための基底真理ハッシュタグと比較する。 正確なマッチの数は、ヒット率、ヒット率、精度、リコール、F1スコアを計算するために使用される。 このハッシュタグ類似性の評価方法は、推奨された真理ハッシュタグと基本真理ハッシュタグの間の意味的相関を無視しているため、不十分である。 この問題に対処するために,ハッシュタグ推薦のための新しい意味評価フレームワーク#revalを提案する。 このフレームワークにはBERTagと呼ばれる内部モジュールが含まれており、自動的にハッシュタグの埋め込みを学習する。 提案した#REval-hit-ratio 尺度を用いて,#REval フレームワークが,異なる単語埋め込み手法と異なる数の同義語やハッシュタグの下でどのように機能するかを検討する。 提案手法を3つの大規模データセット上で実験した結果,#Revalはハッシュタグ推薦評価に有意義なハッシュタグ同義語を与えた。 BERTagをベースとした#REvalは、FastTextとWord2Vecをベースとした#REvalよりも優れている。

Automatic evaluation of hashtag recommendation models is a fundamental task in many online social network systems. In the traditional evaluation method, the recommended hashtags from an algorithm are firstly compared with the ground truth hashtags for exact correspondences. The number of exact matches is then used to calculate the hit rate, hit ratio, precision, recall, or F1-score. This way of evaluating hashtag similarities is inadequate as it ignores the semantic correlation between the recommended and ground truth hashtags. To tackle this problem, we propose a novel semantic evaluation framework for hashtag recommendation, called #REval. This framework includes an internal module referred to as BERTag, which automatically learns the hashtag embeddings. We investigate on how the #REval framework performs under different word embedding methods and different numbers of synonyms and hashtags in the recommendation using our proposed #REval-hit-ratio measure. Our experiments of the proposed framework on three large datasets show that #REval gave more meaningful hashtag synonyms for hashtag recommendation evaluation. Our analysis also highlights the sensitivity of the framework to the word embedding technique, with #REval based on BERTag more superior over #REval based on FastText and Word2Vec.
翻訳日:2023-06-04 11:20:37 公開日:2023-05-24
# 外部インパルスによる摂動型ページ曲線

Perturbative Page Curve Induced by External Impulse ( http://arxiv.org/abs/2305.18329v1 )

ライセンス: Link先を確認
Pengfei Zhang(参考訳) 本研究では、エントロピー応答がページ曲線に従うオープン量子システムにおいて、外部インパルスによって引き起こされるエントロピーダイナミクスの最近の研究を拡張する。 小さな系とバスのカップリング$\kappa$の場合、エントロピーは、量子多体カオスにより早期に$\kappa^2 e^{\varkappa t}$を指数関数的に増加させ、その後、エネルギー緩和により$~e^{-\lambda_0 t}$を$\lambda_0 \propto \kappa^2$とする。 これらの結果は2つの方法を用いて明示的な計算によって確認される。 1)準粒子系に対する一般化ボルツマン方程式 2) 0+1-d系における早期レジームにおけるスクランブル効果理論と後期レジームにおける摂動理論 また,第2段階では,系のエントロピーが粗粒度のエントロピーと等しいことを証明した。

In this work, we extend the recent study of entropy dynamics induced by an external impulse in open quantum systems, where the entropy response follows the Page curve. For small system-bath coupling $\kappa$, we expect that the entropy first increases exponentially $\kappa^2 e^{\varkappa t}$ in the early-time regime $t\lesssim |\log \kappa|$ due to quantum many-body chaos, and then decreases as $~e^{-\lambda_0 t}$ with $\lambda_0 \propto \kappa^2$ due to the energy relaxation. These results are confirmed through explicit calculations using two methods: 1) generalized Boltzmann equation for systems with quasi-particles; 2) scramblon effective theory in the early-time regime and perturbation theory in the late-time regime for 0+1-d systems. We also prove that in the second stage, the entropy of the system is equal to the coarse-grained entropy.
翻訳日:2023-06-04 11:20:15 公開日:2023-05-24
# ジェネレーティブAIのためのプロンプト進化 : クラシファイアガイドによるアプローチ

Prompt Evolution for Generative AI: A Classifier-Guided Approach ( http://arxiv.org/abs/2305.16347v1 )

ライセンス: Link先を確認
Melvin Wong, Yew-Soon Ong, Abhishek Gupta, Kavitesh K. Bali, Caishun Chen(参考訳) ユーザプロンプトに条件付けされたデジタルアーティファクトの合成は、生成AIによるユースケースの爆発を促進する重要なパラダイムとなっている。 しかし、そのようなモデルは生成した出力と、プロンプトによって暗示される所望のターゲット概念/参照を接続できないことが多い。 この制限に対処する現在の研究は、出力生成前のプロンプトの強化や、モデルの性能改善に重点を置いている。 対照的に、本論文では、生成過程の進化選択圧力と変動を付与し、ターゲット概念や推論をより良く満たす複数の出力を生成する。 本稿では,マルチラベル画像分類器誘導アプローチを用いた,この広い概念の多目的インスタンス化を提案する。 分類器からの予測されたラベルは、ユーザの好みを満たす多様な画像を生成することを目的として、最適化するための複数の目的として機能する。 進化的アルゴリズムの新たな特徴は、事前学習された生成モデルが暗黙の突然変異操作を与え、モデルの確率的生成能力を利用して、ユーザの好みに忠実なパレート最適化画像の作成を自動化することである。

Synthesis of digital artifacts conditioned on user prompts has become an important paradigm facilitating an explosion of use cases with generative AI. However, such models often fail to connect the generated outputs and desired target concepts/preferences implied by the prompts. Current research addressing this limitation has largely focused on enhancing the prompts before output generation or improving the model's performance up front. In contrast, this paper conceptualizes prompt evolution, imparting evolutionary selection pressure and variation during the generative process to produce multiple outputs that satisfy the target concepts/preferences better. We propose a multi-objective instantiation of this broader idea that uses a multi-label image classifier-guided approach. The predicted labels from the classifiers serve as multiple objectives to optimize, with the aim of producing diversified images that meet user preferences. A novelty of our evolutionary algorithm is that the pre-trained generative model gives us implicit mutation operations, leveraging the model's stochastic generative capability to automate the creation of Pareto-optimized images more faithful to user preferences.
翻訳日:2023-05-29 19:15:04 公開日:2023-05-24
# 精密医療のための人工知能に基づく方法:糖尿病リスク予測

Artificial Intelligence-Based Methods for Precision Medicine: Diabetes Risk Prediction ( http://arxiv.org/abs/2305.16346v1 )

ライセンス: Link先を確認
Farida Mohsen, Hamada R. H. Al-Absi, Noha A.Yousri, Nady El Hajj, and Zubair Shah(参考訳) 2型糖尿病(t2dm)の増加は、t2dmリスクアセスメントの予測モデルの開発を必要とする。 人工知能(AI)モデルは、この目的のために広く利用されているが、その進歩と課題に関する包括的なレビューは欠如している。 このスクーピングレビューは、T2DMリスク予測のためのAIベースのモデルに関する既存の文献を分析する。 この4年間に40の論文が出版されている。 従来の機械学習モデルはディープラーニングモデルよりも一般的だった。 電子健康記録は最もよく使われるデータソースであった。 EHRデータに依存するユニモーダルAIモデルは際立っており、マルチモーダルモデルを利用するものはほとんどなかった。 単調モデルとマルチモーダルモデルの両方が有望な性能を示し、後者は前者を上回った。 内部検証は一般的だが、外部検証は限られていた。 解釈可能性の方法が研究の半分に報告されている。 新たなバイオマーカーを報告した研究はほとんどなく、オープンソースコードの可用性は限られていた。 このレビューは、AIベースのT2DMリスク予測モデルの現状と限界に関する洞察を提供し、その開発と臨床実装における課題を強調する。

The rising prevalence of type 2 diabetes mellitus (T2DM) necessitates the development of predictive models for T2DM risk assessment. Artificial intelligence (AI) models are being extensively used for this purpose, but a comprehensive review of their advancements and challenges is lacking. This scoping review analyzes existing literature on AI-based models for T2DM risk prediction. Forty studies were included, mainly published in the past four years. Traditional machine learning models were more prevalent than deep learning models. Electronic health records were the most commonly used data source. Unimodal AI models relying on EHR data were prominent, while only a few utilized multimodal models. Both unimodal and multimodal models showed promising performance, with the latter outperforming the former. Internal validation was common, while external validation was limited. Interpretability methods were reported in half of the studies. Few studies reported novel biomarkers, and open-source code availability was limited. This review provides insights into the current state and limitations of AI-based T2DM risk prediction models and highlights challenges for their development and clinical implementation.
翻訳日:2023-05-29 19:14:44 公開日:2023-05-24
# ハイブリッド長文書からのKPI検索のためのLLMの活用:包括的フレームワークとデータセット

Leveraging LLMs for KPIs Retrieval from Hybrid Long-Document: A Comprehensive Framework and Dataset ( http://arxiv.org/abs/2305.16344v1 )

ライセンス: Link先を確認
Chongjian Yue, Xinrun Xu, Xiaojun Ma, Lun Du, Hengyu Liu, Zhiming Ding, Yanbing Jiang, Shi Han, Dongmei Zhang(参考訳) 大規模言語モデル(LLM)は、テキスト理解や表の推論タスクにおいて、例外的なパフォーマンスを示す。 しかし、テキストデータと表データを含むハイブリッドテキストを理解・分析する能力は未調査のままである。 本研究では,LLMの可能性を生かして,ハイブリッドな長期文書である財務報告から重要な情報を理解することを専門とする。 金融報告から情報を理解し抽出するLLMの能力を高めるための自動財務情報抽出(AFIE)フレームワークを提案する。 afieを評価するために,financial reports numerical extraction (fine)データセットを開発し,広範な実験分析を行う。 このフレームワークはgpt-3.5とgpt-4で効果的に検証され、naive法と比較して53.94%と33.77%の平均精度が向上した。 これらの結果は,afieフレームワークが複雑なハイブリッド文書からの自動数値抽出の精度を提供することを示唆している。

Large Language Models (LLMs) demonstrate exceptional performance in textual understanding and tabular reasoning tasks. However, their ability to comprehend and analyze hybrid text, containing textual and tabular data, remains underexplored. In this research, we specialize in harnessing the potential of LLMs to comprehend critical information from financial reports, which are hybrid long-documents. We propose an Automated Financial Information Extraction (AFIE) framework that enhances LLMs' ability to comprehend and extract information from financial reports. To evaluate AFIE, we develop a Financial Reports Numerical Extraction (FINE) dataset and conduct an extensive experimental analysis. Our framework is effectively validated on GPT-3.5 and GPT-4, yielding average accuracy increases of 53.94% and 33.77%, respectively, compared to a naive method. These results suggest that the AFIE framework offers accuracy for automated numerical extraction from complex, hybrid documents.
翻訳日:2023-05-29 19:14:32 公開日:2023-05-24
# Sparkエコシステムを用いた分散自動ドメイン特化マルチワード認識アーキテクチャ

A Distributed Automatic Domain-Specific Multi-Word Term Recognition Architecture using Spark Ecosystem ( http://arxiv.org/abs/2305.16343v1 )

ライセンス: Link先を確認
Ciprian-Octavian Truic\u{a} and Neculai-Ovidiu Istrate and Elena-Simona Apostol(参考訳) 自動用語認識は、与えられたドメインに属するドメイン固有の用語を抽出するために使用される。 正確に言うと、これらのコーパスと言語依存の手法は、与えられたメトリクスに従って後付けされる候補語を抽出するために処理される大量のテキストデータを必要とする。 テキスト前処理と候補項抽出とスコアリングを改善するために,ドメイン固有用語を自動的に抽出する分散Sparkベースのアーキテクチャを提案する。 主なコントリビューションは,(1)Sparkエコシステム上に構築された新しい分散ドメイン固有のマルチワード認識アーキテクチャの提案,(2)正確性とスケーラビリティの観点からアーキテクチャの詳細な分析を行う,(3)計算言語学や自然言語処理などの分野におけるビッグデータ処理の利用を可能にする,容易に統合可能なPython実装の設計。 2つの実世界のデータセットで実験を行うことで、アーキテクチャの実現性を実証的に証明する。

Automatic Term Recognition is used to extract domain-specific terms that belong to a given domain. In order to be accurate, these corpus and language-dependent methods require large volumes of textual data that need to be processed to extract candidate terms that are afterward scored according to a given metric. To improve text preprocessing and candidate terms extraction and scoring, we propose a distributed Spark-based architecture to automatically extract domain-specific terms. The main contributions are as follows: (1) propose a novel distributed automatic domain-specific multi-word term recognition architecture built on top of the Spark ecosystem; (2) perform an in-depth analysis of our architecture in terms of accuracy and scalability; (3) design an easy-to-integrate Python implementation that enables the use of Big Data processing in fields such as Computational Linguistics and Natural Language Processing. We prove empirically the feasibility of our architecture by performing experiments on two real-world datasets.
翻訳日:2023-05-29 19:14:16 公開日:2023-05-24
# interformer: 音声自動認識のための対話型局所的・グローバル特徴融合

InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition ( http://arxiv.org/abs/2305.16342v1 )

ライセンス: Link先を確認
Zhi-Hao and Lai(参考訳) 局所的特徴とグローバル特徴の両方が自動音声認識(asr)に必須である。 最近の多くの手法では、ローカル機能とグローバル機能を組み合わせるだけでasrのパフォーマンスがさらに向上できることが証明されている。 しかし、これらの手法は局所的特徴とグローバル的特徴の相互作用にはあまり注意を払わず、それらのシリーズアーキテクチャは局所的特徴とグローバル的関係を反映するために厳密である。 本稿では,asrの表現性を改善するために,インタラクティブな局所的・グローバル的特徴融合のためのinterformerを提案する。 具体的には,コンボリューションブロックと変圧器ブロックを並列設計で組み合わせる。 さらに,局所的特徴とグローバル的特徴の相互作用と融合を実装するために,双方向特徴相互作用モジュール (BFIM) と選択的融合モジュール (SFM) を提案する。 公開asrデータセットに関する広範な実験は,提案するinterformerの有効性と,他のtransformerおよびconformerモデルよりも優れた性能を示している。

The local and global features are both essential for automatic speech recognition (ASR). Many recent methods have verified that simply combining local and global features can further promote ASR performance. However, these methods pay less attention to the interaction of local and global features, and their series architectures are rigid to reflect local and global relationships. To address these issues, this paper proposes InterFormer for interactive local and global features fusion to learn a better representation for ASR. Specifically, we combine the convolution block with the transformer block in a parallel design. Besides, we propose a bidirectional feature interaction module (BFIM) and a selective fusion module (SFM) to implement the interaction and fusion of local and global features, respectively. Extensive experiments on public ASR datasets demonstrate the effectiveness of our proposed InterFormer and its superior performance over the other Transformer and Conformer models.
翻訳日:2023-05-29 19:13:56 公開日:2023-05-24
# taxoknow:多類分類の損失関数における事前知識としての分類法

TaxoKnow: Taxonomy as Prior Knowledge in the Loss Function of Multi-class Classification ( http://arxiv.org/abs/2305.16341v1 )

ライセンス: Link先を確認
Mohsen Pourvali, Yao Meng, Chen Sheng, Yangzhou Du(参考訳) 本稿では,ラベルの階層分類を事前知識としてフラット分類器の学習アルゴリズムに統合するの有効性について検討する。 本研究では,階層的分類法を明示的正規化器として学習アルゴリズムの損失関数に統合する2つの手法を提案する。 階層的分類法を推論することにより、ニューラルネットワークはクラス上の出力分布を緩和し、マイノリティクラスの上位概念の条件付けを可能にする。 フラットな分類タスクに限定し、2つの業界内データセットと2つの公開ベンチマーク、RCV1とAmazon製品レビューの実験結果を提供します。 その結果, 半教師付き多クラス分類における学習者の能力向上における分類学の意義と, 完全教師付き方式によるかなりの結果が得られた。

In this paper, we investigate the effectiveness of integrating a hierarchical taxonomy of labels as prior knowledge into the learning algorithm of a flat classifier. We introduce two methods to integrate the hierarchical taxonomy as an explicit regularizer into the loss function of learning algorithms. By reasoning on a hierarchical taxonomy, a neural network alleviates its output distributions over the classes, allowing conditioning on upper concepts for a minority class. We limit ourselves to the flat classification task and provide our experimental results on two industrial in-house datasets and two public benchmarks, RCV1 and Amazon product reviews. Our obtained results show the significant effect of a taxonomy in increasing the performance of a learner in semisupervised multi-class classification and the considerable results obtained in a fully supervised fashion.
翻訳日:2023-05-29 19:13:39 公開日:2023-05-24
# 分割リカレント変圧器:効率的なシーケンス対シーケンスモデル

Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model ( http://arxiv.org/abs/2305.16340v1 )

ライセンス: Link先を確認
Yinghan Long, Sayeed Shafayet Chowdhury, Kaushik Roy(参考訳) トランスフォーマーは、言語やビジョンを含むさまざまな領域で支配的なパフォーマンスを示している。 しかし、計算コストはシーケンス長と二乗的に増大し、リソース制約のあるアプリケーションでは使用が禁止される。 これに対抗するために、我々のアプローチはシーケンス全体をセグメントに分割することである。 セグメントにまたがる情報は、その固有の記憶を活用するニューロンを用いて集約される。 このようなアプローチは、より低い計算/メモリコストでシーケンシャルな処理能力を持つモデルにつながる。 本研究は,まず,局所的注意機構が個々のセグメントに与える影響について検討する。 次に,セグメント化注意と再帰的注意を組み合わせたセグメント化再帰変圧器(srformer)を提案する。 連続したセグメント間の情報を処理するために、繰り返し蓄積および火災(RAF)層を使用する。 注意窓長の減少に起因する損失は、RAFニューロン固有の再発と共にキーと値の積を更新することで補償される。 セグメント化された注意と軽量なRAFゲートは、提案したトランスの効率性を保証する。 提案手法をT5およびBARTトランスに適用する。 修正されたモデルはcnn-dailymailやxsumを含む要約データセット上でテストされる。 特に、異なるサイズのセグメント入力を用いて、提案モデルは、セグメント変換器ベースラインよりも4-19%高いROUGE1スコアを達成する。 完全注意と比較して,提案手法はクロス注意の複雑さを大幅に削減し,計算コストを約40%削減する。

Transformers have shown dominant performance across a range of domains including language and vision. However, their computational cost grows quadratically with the sequence length, making their usage prohibitive for resource-constrained applications. To counter this, our approach is to divide the whole sequence into segments. The information across segments can then be aggregated using neurons with recurrence leveraging their inherent memory. Such an approach leads to models with sequential processing capability at a lower computation/memory cost. To investigate this idea, first, we examine the effects of using local attention mechanism on the individual segments. Then we propose a segmented recurrent transformer (SRformer) that combines segmented attention with recurrent attention. It uses recurrent accumulate and fire (RAF) layers to process information between consecutive segments. The loss caused by reducing the attention window length is compensated by updating the product of keys and values with RAF neurons' inherent recurrence. The segmented attention and lightweight RAF gates ensure the efficiency of the proposed transformer. We apply the proposed method to T5 and BART transformers. The modified models are tested on summarization datasets including CNN-dailymail and XSUM. Notably, using segmented inputs of different sizes, the proposed model achieves 4-19% higher ROUGE1 scores than the segmented transformer baseline. Compared to full attention, the proposed model largely reduces the complexity of cross attention and results in around 40% reduction in computation cost.
翻訳日:2023-05-29 19:13:24 公開日:2023-05-24
# 質問が英語でなければGPTを信用するな

Don't Trust GPT When Your Question Is Not In English ( http://arxiv.org/abs/2305.16339v1 )

ライセンス: Link先を確認
Xiang Zhang, Senyu Li, Bradley Hauer, Ning Shi, Grzegorz Kondrak(参考訳) 大規模言語モデル(LLM)は,近年,自然言語理解能力に優れ,多種多様な自然言語処理(NLP)タスクに優れてきた。 ほとんどのllmが主に英語で訓練されているにもかかわらず、複数の研究が他の多くの言語での比較性能を示している。 しかし、LLMが多言語能力をどのように獲得するか、また異なる言語間でパフォーマンスがどのように異なるか、という根本的な疑問が続いている。 ユーザや研究者は多種多様な言語背景から来ており、LLMの活用と解釈に影響を与える可能性があるため、これらの質問はLLMの研究に不可欠である。 本研究では,多言語環境でのllmの性能差を体系的に評価する方法を提案する。 LLMにおける多言語一般化の現象について検討し,多言語学習データ不足が多言語能力の向上につながることを示す。 これを実現するために、バック翻訳に基づく新しいプロンプト方式を用いる。 その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。

Large Language Models (LLMs) have demonstrated exceptional natural language understanding abilities and have excelled in a variety of natural language processing (NLP)tasks in recent years. Despite the fact that most LLMs are trained predominantly in English, multiple studies have demonstrated their comparative performance in many other languages. However, fundamental questions persist regarding how LLMs acquire their multi-lingual abilities and how performance varies across different languages. These inquiries are crucial for the study of LLMs since users and researchers often come from diverse language backgrounds, potentially influencing their utilization and interpretation of LLMs' results. In this work, we propose a systematic way of qualifying the performance disparities of LLMs under multilingual settings. We investigate the phenomenon of across-language generalizations in LLMs, wherein insufficient multi-lingual training data leads to advanced multi-lingual capabilities. To accomplish this, we employ a novel back-translation-based prompting method. The results show that GPT exhibits highly translating-like behaviour in multilingual settings.
翻訳日:2023-05-29 19:13:05 公開日:2023-05-24
# 行動する前に考える:内部の作業記憶を持つ決定変換器

Think Before You Act: Decision Transformers with Internal Working Memory ( http://arxiv.org/abs/2305.16338v1 )

ライセンス: Link先を確認
Jikun Kang, Romain Laroche, Xindi Yuan, Adam Trischler, Xue Liu, Jie Fu(参考訳) 大規模言語モデル(LLM)に基づく意思決定エージェントは、複数のタスクをまたいで一般化する能力を示している。 しかし、その性能は大量のデータと計算に依存する。 この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると主張する。 その結果、新しいタスクのトレーニングは、前のタスクにおけるモデルのパフォーマンスを低下させる可能性がある。 LLMの暗黙記憶機構とは対照的に、人間の脳は分散メモリストレージを利用して複数のスキルを効率的に管理し、整理し、忘れる現象を緩和する。 そこで我々は,様々な下流タスクに関する情報を保存,ブレンド,検索するための内部動作メモリモジュールを提案する。 評価の結果,本手法はatariゲームとメタワールドオブジェクト操作タスクの両方において,トレーニング効率と一般化を改善した。 さらに,メモリの微調整により,提案アーキテクチャの適応性はさらに向上することを示す。

Large language model (LLM)-based decision-making agents have shown the ability to generalize across multiple tasks. However, their performance relies on massive data and compute. We argue that this inefficiency stems from the forgetting phenomenon, in which a model memorizes its behaviors in parameters throughout training. As a result, training on a new task may deteriorate the model's performance on previous tasks. In contrast to LLMs' implicit memory mechanism, the human brain utilizes distributed memory storage, which helps manage and organize multiple skills efficiently, mitigating the forgetting phenomenon. Thus inspired, we propose an internal working memory module to store, blend, and retrieve information for different downstream tasks. Evaluation results show that the proposed method improves training efficiency and generalization in both Atari games and meta-world object manipulation tasks. Moreover, we demonstrate that memory fine-tuning further enhances the adaptability of the proposed architecture.
翻訳日:2023-05-29 19:12:49 公開日:2023-05-24
# WeiAvg: データ多様性を促進するフェデレーション学習モデル

WeiAvg: Federated Learning Model Aggregation Promoting Data Diversity ( http://arxiv.org/abs/2305.16351v1 )

ライセンス: Link先を確認
Fan Dong, Ali Abbasi, Steve Drew, Henry Leung, Xin Wang, Jiayu Zhou(参考訳) フェデレーション学習は、巨大なIoT(Internet-of-Things)デバイスからの大規模プライベートエッジデータを活用するための、有望なプライバシ保護方法を提供する。 既存の研究は学習プロセス、計算効率、コミュニケーションオーバーヘッドの最適化を幅広く研究しているが、重要でしばしば見過ごされる側面は、参加者がデータから予測的知識を提供し、学習した連合モデルの質に影響を与えることである。 FedAvgは各クライアントを均等に扱い、サンプル数だけに基づいて重みを割り当てるが、各クライアントのサンプルの多様性は、ローカル更新パフォーマンスと最終的な集約モデルに大きな影響を与える可能性がある。 本稿では,高多様性クライアントからの更新を重視し,低多様性クライアントからの影響を低減したWeiAvg(Weighted Averaging)フレームワークを導入することにより,この問題に対処する新たなアプローチを提案する。 具体的には,エントロピーの計算に代えて,クライアントデータの多様性を推定する投影に基づく近似手法を導入した。 局所的に計算されたエントロピーは、過剰なプライバシーリスクのために伝達されないため、近似を用いる。 実験結果から,WeiAvgは元のFedAvgアルゴリズムやFedProxよりも高速に収束し,精度が高いことがわかった。

Federated learning provides a promising privacy-preserving way for utilizing large-scale private edge data from massive Internet-of-Things (IoT) devices. While existing research extensively studied optimizing the learning process, computing efficiency, and communication overhead, one important and often overlooked aspect is that participants contribute predictive knowledge from their data, impacting the quality of the federated models learned. While FedAvg treats each client equally and assigns weight solely based on the number of samples, the diversity of samples on each client could greatly affect the local update performance and the final aggregated model. In this paper, we propose a novel approach to address this issue by introducing a Weighted Averaging (WeiAvg) framework that emphasizes updates from high-diversity clients and diminishes the influence of those from low-diversity clients. Specifically, we introduced a projection-based approximation method to estimate the diversity of client data, instead of the computation of an entropy. We use the approximation because the locally computed entropy may not be transmitted due to excess privacy risk. Extensive experimental results show that WeiAvg converges faster and achieves higher accuracy than the original FedAvg algorithm and FedProx.
翻訳日:2023-05-29 19:05:05 公開日:2023-05-24
# 進化的機械学習を用いたバイオマス飼料と高分子廃棄物の共熱分解特性と最適化

Using evolutionary machine learning to characterize and optimize co-pyrolysis of biomass feedstocks and polymeric wastes ( http://arxiv.org/abs/2305.16350v1 )

ライセンス: Link先を確認
Hossein Shahbeik, Alireza Shafizadeh, Mohammad Hossein Nadian, Dorsa Jeddi, Seyedali Mirjalili, Yadong Yang, Su Shiung Lam, Junting Pan, Meisam Tabatabaei, Mortaza Aghbashlo(参考訳) バイオマス原料と高分子廃棄物の同時熱分解は, 液状燃料の量と品質を向上する上で有望な戦略である。 最適な運転条件を見つけるために、多くの実験的な測定が行われる。 しかし、コストと長期の手順を必要とするため、コピロリシス実験は極めて困難である。 機械学習(ML)は、既存のデータを活用することで、このような問題に対処する機能を提供する。 本研究は, バイオマス-ポリマー共熱分解プロセスの生成物を定量化するための進化的ML手法の導入を目的とする。 幅広いプロセス条件下で様々なバイオマス-ポリマー混合物をカバーする包括的なデータセットを適格文献からコンパイルする。 データベースは統計分析と機械的議論の対象となった。 入力特徴は、プロセスの物理を反映する革新的なアプローチを用いて構築される。 構築された特徴は、その次元性を減らすために主成分分析を受ける。 得られたスコアは6つのMLモデルに導入される。 粒子群最適化アルゴリズムにより調整されたガウス過程回帰モデルは、他の発展モデルよりも優れた予測性能(r2 > 0.9, mae < 0.03, rmse < 0.06)を示す。 多目的粒子群最適化アルゴリズムは最適独立パラメータの探索に成功している。

Co-pyrolysis of biomass feedstocks with polymeric wastes is a promising strategy for improving the quantity and quality parameters of the resulting liquid fuel. Numerous experimental measurements are typically conducted to find the optimal operating conditions. However, performing co-pyrolysis experiments is highly challenging due to the need for costly and lengthy procedures. Machine learning (ML) provides capabilities to cope with such issues by leveraging on existing data. This work aims to introduce an evolutionary ML approach to quantify the (by)products of the biomass-polymer co-pyrolysis process. A comprehensive dataset covering various biomass-polymer mixtures under a broad range of process conditions is compiled from the qualified literature. The database was subjected to statistical analysis and mechanistic discussion. The input features are constructed using an innovative approach to reflect the physics of the process. The constructed features are subjected to principal component analysis to reduce their dimensionality. The obtained scores are introduced into six ML models. Gaussian process regression model tuned by particle swarm optimization algorithm presents better prediction performance (R2 > 0.9, MAE < 0.03, and RMSE < 0.06) than other developed models. The multi-objective particle swarm optimization algorithm successfully finds optimal independent parameters.
翻訳日:2023-05-29 19:04:43 公開日:2023-05-24
# lexinvariant language モデル

Lexinvariant Language Models ( http://arxiv.org/abs/2305.16349v1 )

ライセンス: Link先を確認
Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang(参考訳) トークン埋め込みは、離散的な語彙記号から連続ベクトルへのマッピングであり、任意の言語モデル(lm)の中心にある。 しかし、語彙記号の意味も決定され、長い文脈でそれらの構造的役割によって再定義される。 本稿では,<emph{any}固定トークン埋め込みを使わずに,言語モデルの実行が可能か? このような言語モデルは、任意のトークンの \textit{a priori} アイデンティティではなく、コンテキストにおけるトークンの共起と反復に完全に依存する必要がある。 これに対応するために,辞書記号に不変であり,したがって実際には固定トークン埋め込みを必要としない \textit{lexinvariant} 言語モデルの研究を行った。 まず、文脈長の項で多項式である一様率で、語彙サイズで部分線型な定数係数で、真の言語モデルに収束するために、レキシン変項LMを構築することができることを証明する。 第二に、Lexinvariant LMを構築するには、ランダムなガウスベクトルを用いてトークンをエンコードするだけで、各トークンは各シーケンス内で同じ表現にマップされるが、シーケンス間で異なる表現となる。 経験的に、十分に長いコンテキストを条件として、標準言語モデルに匹敵する難易度が得られることを実証する。 第一に、英語の置換暗号から生成されたテキストに対して、暗黙的にベイズ的インコンテキスト解読を実装し、基礎となる実トークンへのマッピングを高精度に推論する。 第二に、合成インコンテキスト推論タスクよりも平均4倍精度が高い。 最後に,標準言語モデルのレキシネーション化と実用的応用について検討する。

Token embeddings, a mapping from discrete lexical symbols to continuous vectors, are at the heart of any language model (LM). However, lexical symbol meanings can also be determined and even redefined by their structural role in a long context. In this paper, we ask: is it possible for a language model to be performant without \emph{any} fixed token embeddings? Such a language model would have to rely entirely on the co-occurence and repetition of tokens in the context rather than the \textit{a priori} identity of any token. To answer this, we study \textit{lexinvariant}language models that are invariant to lexical symbols and therefore do not need fixed token embeddings in practice. First, we prove that we can construct a lexinvariant LM to converge to the true language model at a uniform rate that is polynomial in terms of the context length, with a constant factor that is sublinear in the vocabulary size. Second, to build a lexinvariant LM, we simply encode tokens using random Gaussian vectors, such that each token maps to the same representation within each sequence but different representations across sequences. Empirically, we demonstrate that it can indeed attain perplexity comparable to that of a standard language model, given a sufficiently long context. We further explore two properties of the lexinvariant language models: First, given text generated from a substitution cipher of English, it implicitly implements Bayesian in-context deciphering and infers the mapping to the underlying real tokens with high accuracy. Second, it has on average 4X better accuracy over synthetic in-context reasoning tasks. Finally, we discuss regularizing standard language models towards lexinvariance and potential practical applications.
翻訳日:2023-05-29 19:04:22 公開日:2023-05-24
# バイオマス由来ハイドロチャーの機械学習によるキャラクタリゼーション : 持続可能エネルギーと物質生産への示唆

Machine learning-based characterization of hydrochar from biomass: Implications for sustainable energy and material production ( http://arxiv.org/abs/2305.16348v1 )

ライセンス: Link先を確認
Alireza Shafizadeh, Hossein Shahbeik, Shahin Rafiee, Aysooda Moradi, Mohammadreza Shahbaz, Meysam Madadi, Cheng Li, Wanxi Peng, Meisam Tabatabaei, Mortaza Aghbashlo(参考訳) HTC (Hydrothermal Carbonization) は、バイオマスを事前乾燥することなく多用途のハイドロチャーに変換するプロセスである。 ハイドロチャーの物理化学的性質はバイオマス特性と処理パラメータに影響され、試行錯誤実験による特定の用途への最適化が困難となる。 時間と費用を節約するために、さまざまな反応処理パラメータの下で、異なるバイオマス源から生成されるハイドロチャーを特徴付けるモデルの開発に機械学習を用いることができる。 そこで本研究では, バイオマスの種類や反応処理パラメータを網羅したデータベースを用いて, ハイドロチャーを特徴付ける包括モデルを構築することを目的とする。 ハイドロチャーの品質と量は2つのモデル(決定木回帰とサポートベクター回帰)を用いて予測される。 決定木回帰モデルは、予測精度(R2 > 0.88、RMSE < 6.848、MAE < 4.718)で支持ベクトル回帰モデルを上回る。 進化的アルゴリズムを用いて、選択されたモデルによって得られたコスト関数に基づいて最適な入力を同定し、エネルギー生産、土壌修正、汚染物質吸着を最適化し、それぞれ84.31%、84.91%、80.40%のハイドロチャー収率を得る。 特徴的重要度分析により,htcプロセスにおいて,バイオマス灰/炭素含量および運転温度が水素化物生産に影響を与える主要な要因であることが判明した。

Hydrothermal carbonization (HTC) is a process that converts biomass into versatile hydrochar without the need for prior drying. The physicochemical properties of hydrochar are influenced by biomass properties and processing parameters, making it challenging to optimize for specific applications through trial-and-error experiments. To save time and money, machine learning can be used to develop a model that characterizes hydrochar produced from different biomass sources under varying reaction processing parameters. Thus, this study aims to develop an inclusive model to characterize hydrochar using a database covering a range of biomass types and reaction processing parameters. The quality and quantity of hydrochar are predicted using two models (decision tree regression and support vector regression). The decision tree regression model outperforms the support vector regression model in terms of forecast accuracy (R2 > 0.88, RMSE < 6.848, and MAE < 4.718). Using an evolutionary algorithm, optimum inputs are identified based on cost functions provided by the selected model to optimize hydrochar for energy production, soil amendment, and pollutant adsorption, resulting in hydrochar yields of 84.31%, 84.91%, and 80.40%, respectively. The feature importance analysis reveals that biomass ash/carbon content and operating temperature are the primary factors affecting hydrochar production in the HTC process.
翻訳日:2023-05-29 19:03:57 公開日:2023-05-24
# 量子補間アンサンブル:生物直交多項式と平均エントロピー

Quantum interpolating ensemble: Biorthogonal polynomials and average entropies ( http://arxiv.org/abs/2103.04231v2 )

ライセンス: Link先を確認
Lu Wei and Nicholas Witte(参考訳) 密度行列形式は、量子情報処理における様々な問題を研究するための基本的な道具である。 密度行列の空間において、最もよく知られた測度はヒルベルト=シュミットとビュール=ハルのアンサンブルである。 この研究において、これらの2つの主要なアンサンブルの間を補間するアンサンブルの量子純度とフォン・ノイマンエントロピーの平均は、有限次元系に対して明示的に計算される。 提案する補間アンサンブルは$\theta$-deformed cauchy-laguerre 2行列モデルの特殊化であり、このアンサンブルの新しい結果は、$\theta$が正の整数値を取るとき、関連する二角形多項式によって満たされる再帰関係を含む完全な一般性で与えられる。

The density matrix formalism is a fundamental tool in studying various problems in quantum information processing. In the space of density matrices, the most well-known measures are the Hilbert-Schmidt and Bures-Hall ensembles. In this work, the averages of quantum purity and von Neumann entropy for an ensemble that interpolates between these two major ensembles are explicitly calculated for finite-dimensional systems. The proposed interpolating ensemble is a specialization of the $\theta$-deformed Cauchy-Laguerre two-matrix model and new results for this latter ensemble are given in full generality, including the recurrence relations satisfied by their associated bi-orthogonal polynomials when $\theta$ assumes positive integer values.
翻訳日:2023-05-27 00:44:19 公開日:2023-05-24
# FedGCN:グラフ畳み込みネットワークのフェデレーショントレーニングにおける収束とコミュニケーションのトレードオフ

FedGCN: Convergence and Communication Tradeoffs in Federated Training of Graph Convolutional Networks ( http://arxiv.org/abs/2201.12433v6 )

ライセンス: Link先を確認
Yuhang Yao, Weizhao Jin, Srivatsan Ravi, Carlee Joe-Wong(参考訳) 複数のクライアントに分散したグラフのモデルをトレーニングするための方法は、最近人気が高まっている。 しかし、グラフノードを接続するクロスクライアントエッジのため、単一の接続されたグラフを複数のクライアントに分離することはできない。 したがって、単一のグラフ上でモデルをトレーニングするための分散手法は、クライアント間の重要な通信オーバーヘッドか、トレーニングに利用可能な情報の損失を伴います。 我々は、フェデレートグラフ畳み込みネットワーク(FedGCN)アルゴリズムを導入し、フェデレーション学習を用いて、高速収束と通信の少ない半教師付きノード分類のためのGCNモデルを訓練する。 各トレーニングラウンドでクライアント間の通信を必要とする従来の方法と比較して、FedGCNクライアントはトレーニング前のステップで中央サーバとのみ通信し、通信コストを大幅に削減し、同型暗号化を使用することでプライバシーをさらに強化する。 我々は,FedGCNの収束率とデータ分散の異なる通信コストのトレードオフを理論的に解析する。 実験の結果,fedgcnアルゴリズムは,平均51.7%の収束速度と,少なくとも100倍の通信速度で,モデル精度が向上した。

Methods for training models on graphs distributed across multiple clients have recently grown in popularity, due to the size of these graphs as well as regulations on keeping data where it is generated. However, a single connected graph cannot be disjointly partitioned onto multiple clients due to the cross-client edges connecting graph nodes. Thus, distributed methods for training a model on a single graph incur either significant communication overhead between clients or a loss of available information to the training. We introduce the Federated Graph Convolutional Network (FedGCN) algorithm, which uses federated learning to train GCN models for semi-supervised node classification with fast convergence and little communication. Compared to prior methods that require communication among clients at each training round, FedGCN clients only communicate with the central server in one pre-training step, greatly reducing communication costs and allowing the use of homomorphic encryption to further enhance privacy. We theoretically analyze the tradeoff between FedGCN's convergence rate and communication cost under different data distributions. Experimental results show that our FedGCN algorithm achieves better model accuracy with 51.7% faster convergence on average and at least 100X less communication compared to prior work.
翻訳日:2023-05-27 00:36:06 公開日:2023-05-24
# 確率的ミラー降下:ミラー確率的ポリアックステップによる収束解析と適応的変種

Stochastic Mirror Descent: Convergence Analysis and Adaptive Variants via the Mirror Stochastic Polyak Stepsize ( http://arxiv.org/abs/2110.15412v3 )

ライセンス: Link先を確認
Ryan D'Orazio, Nicolas Loizou, Issam Laradji, Ioannis Mitliagkas(参考訳) 比較的滑らかで滑らかな凸最適化における補間下での確率ミラー降下(SMD)の収束について検討した。 比較的滑らかな凸最適化では、一定ステップのsmdに対する新しい収束保証を提供する。 滑らかな凸最適化のために、我々は新しい適応ステップ化スキーム -- ミラー確率的polyak stepize (msps) を提案する。 特に、両方の設定における収束結果は、有界勾配の仮定や有界分散の仮定を作らず、補間の下で消滅する近傍への収束を示す。 従って、これらの結果は固定または適応ステップに対する指数勾配アルゴリズムの補間による最初の収束保証に対応する。 mSPSは、最近提案された確率的Polyak Stepize (SPS) をミラー降下に一般化し(Loizou et al. 2021)、ミラー降下の利点を継承しながら、現代の機械学習アプリケーションには実用的かつ効率的である。 我々は,様々な教師付き学習タスクとsmdの異なるインスタンスで実験を行い,mspsの有効性を実証した。

We investigate the convergence of stochastic mirror descent (SMD) under interpolation in relatively smooth and smooth convex optimization. In relatively smooth convex optimization we provide new convergence guarantees for SMD with a constant stepsize. For smooth convex optimization we propose a new adaptive stepsize scheme -- the mirror stochastic Polyak stepsize (mSPS). Notably, our convergence results in both settings do not make bounded gradient assumptions or bounded variance assumptions, and we show convergence to a neighborhood that vanishes under interpolation. Consequently, these results correspond to the first convergence guarantees under interpolation for the exponentiated gradient algorithm for fixed or adaptive stepsizes. mSPS generalizes the recently proposed stochastic Polyak stepsize (SPS) (Loizou et al. 2021) to mirror descent and remains both practical and efficient for modern machine learning applications while inheriting the benefits of mirror descent. We complement our results with experiments across various supervised learning tasks and different instances of SMD, demonstrating the effectiveness of mSPS.
翻訳日:2023-05-27 00:34:15 公開日:2023-05-24
# 科学的発見のための計算的帰結

A Computational Inflection for Scientific Discovery ( http://arxiv.org/abs/2205.02007v2 )

ライセンス: Link先を確認
Tom Hope, Doug Downey, Oren Etzioni, Daniel S. Weld, Eric Horvitz(参考訳) 我々は科学的発見の軌跡において重要な変曲の足元に立っている。 社会がデジタルトランスフォーメーションのペースを早めるにつれて、人類の集団的な科学的知識と談話も続く。 論文やプレプリントや書籍、コードやデータセット、カンファレンスのプレゼンテーション、ソーシャルネットワークやコラボレーションやコミュニケーションプラットフォームでのインタラクションなど、多くの形式的かつ非公式な科学プロセスがデジタル的に捉えられています。 この移行によって、膨大な量の情報(その多くはパブリックアクセスで利用可能)が生まれ成長し、それを分析し活用する計算モデルやシステムにとってエキサイティングな機会が開けた。 並行して、データ処理能力の指数関数的な成長は、構造化されていないテキストから強力な表現を学習できる大きなニューラルネットワークモデルを含む、人工知能の著しい進歩を促した。 17世紀に最初の科学雑誌が創刊されたなど、科学コミュニケーションの劇的な変化は、歴史的に科学思想の革命を触媒している。 社会と計算の傾向の合流は、コンピュータ科学が科学プロセス自体の革命を火付けようとしていることを示唆している。

We stand at the foot of a significant inflection in the trajectory of scientific discovery. As society continues on its fast-paced digital transformation, so does humankind's collective scientific knowledge and discourse. We now read and write papers in digitized form, and a great deal of the formal and informal processes of science are captured digitally -- including papers, preprints and books, code and datasets, conference presentations, and interactions in social networks and collaboration and communication platforms. The transition has led to the creation and growth of a tremendous amount of information -- much of which is available for public access -- opening exciting opportunities for computational models and systems that analyze and harness it. In parallel, exponential growth in data processing power has fueled remarkable advances in artificial intelligence, including large neural language models capable of learning powerful representations from unstructured text. Dramatic changes in scientific communication -- such as the advent of the first scientific journal in the 17th century -- have historically catalyzed revolutions in scientific thought. The confluence of societal and computational trends suggests that computer science is poised to ignite a revolution in the scientific process itself.
翻訳日:2023-05-27 00:26:28 公開日:2023-05-24
# 課題環境におけるロボット探索のためのオンライン適応によるオフポリシー評価

Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments ( http://arxiv.org/abs/2204.03140v3 )

ライセンス: Link先を確認
Yafei Hu, Junyi Geng, Chen Wang, John Keller, and Sebastian Scherer(参考訳) 自律探査には多くの重要な応用がある。 しかし、古典的な情報ゲインベースまたはフロンティアベースの探索は、将来の状態の価値を予測する能力に欠ける即時探索目標を決定するために、ロボットの現在の状態にのみ依存する。 本稿では、状態値関数によって測定された「良い」状態がどのようにあるのかを学習し、現実の挑戦環境におけるロボット探査のガイダンスを提供する。 我々は,ロボット探査(OPERE)におけるオフ政治評価(OPE)問題として,我々の研究を定式化する。 実世界のデータに関するオフラインのモンテカルロトレーニングと、トレーニングされた値推定器を最適化するために時間差分(TD)オンライン適応を実行する。 また,センサ情報カバレッジに基づく内在的な報酬関数も設計し,ロボットがより少ない外部報酬でより多くの情報を得ることができるようにした。 以上の結果から,ロボットが将来の状態を予測し,ロボット探索の指針となることが示唆された。 提案アルゴリズムは,最先端技術と比較して予測と探索性能が向上する。 我々の知る限り、この研究は、地下と都市環境に挑戦するロボット探査のための実世界のデータセット上で、初めて価値関数を予測する。 詳細とデモビデオはhttps://jeffreyyh.github.io/opere/にある。

Autonomous exploration has many important applications. However, classic information gain-based or frontier-based exploration only relies on the robot current state to determine the immediate exploration goal, which lacks the capability of predicting the value of future states and thus leads to inefficient exploration decisions. This paper presents a method to learn how "good" states are, measured by the state value function, to provide a guidance for robot exploration in real-world challenging environments. We formulate our work as an off-policy evaluation (OPE) problem for robot exploration (OPERE). It consists of offline Monte-Carlo training on real-world data and performs Temporal Difference (TD) online adaptation to optimize the trained value estimator. We also design an intrinsic reward function based on sensor information coverage to enable the robot to gain more information with sparse extrinsic rewards. Results show that our method enables the robot to predict the value of future states so as to better guide robot exploration. The proposed algorithm achieves better prediction and exploration performance compared with the state-of-the-arts. To the best of our knowledge, this work for the first time demonstrates value function prediction on real-world dataset for robot exploration in challenging subterranean and urban environments. More details and demo videos can be found at https://jeffreyyh.github.io/opere/.
翻訳日:2023-05-27 00:25:34 公開日:2023-05-24
# Grid-SiPhyR: 電力系統の組合せ問題に対するフレームワーク最適化のためのエンドツーエンド学習

Grid-SiPhyR: An end-to-end learning to optimize framework for combinatorial problems in power systems ( http://arxiv.org/abs/2206.06789v3 )

ライセンス: Link先を確認
Rabab Haider and Anuradha M. Annaswamy(参考訳) 混合整数問題は、個別のデバイス設定や設計パラメータ、ユニット生産、スイッチ、ルーティング、ソーシャルネットワークにおけるオン/オフ、イエス/ノーなど、意思決定においてユビキタスである。 コンビネート最適化に対する古典的な最適化アプローチは、厳しい制約のある動的かつ安全クリティカルな環境での迅速かつ正確な意思決定において、依然として非常に遅いままである。 このギャップに対処するため,我々は,コンビネート問題に最適化するエンドツーエンド学習のための物理モデル学習フレームワーク siphyr (cipher と発音する) を提案する。 SiPhyRは、安全臨界制約の満足度を証明した微分可能なフレームワーク内での組合せ最適化の課題に取り組むために、新しい物理インフォームド・ラウンドリングアプローチを採用している。 電力網のトポロジーと電力の流れを最適化し、断続的な再生可能発電が存在する場合に安全で信頼性の高い電力網を維持する。 代表負荷および生成データに対する教師なしフレームワークのオフライントレーニングは、Grid-SiPhyRのオンラインアプリケーションによる動的意思決定を可能にする。

Mixed integer problems are ubiquitous in decision making, from discrete device settings and design parameters, unit production, and on/off or yes/no decision in switches, routing, and social networks. Despite their prevalence, classical optimization approaches for combinatorial optimization remain prohibitively slow for fast and accurate decision making in dynamic and safety-critical environments with hard constraints. To address this gap, we propose SiPhyR (pronounced: cipher), a physics-informed machine learning framework for end-to-end learning to optimize for combinatorial problems. SiPhyR employs a novel physics-informed rounding approach to tackle the challenge of combinatorial optimization within a differentiable framework that has certified satisfiability of safety-critical constraints. We demonstrate the effectiveness of SiPhyR on an emerging paradigm for clean energy systems: dynamic reconfiguration, where the topology of the electric grid and power flow are optimized so as to maintain a safe and reliable power grid in the presence of intermittent renewable generation. Offline training of the unsupervised framework on representative load and generation data makes dynamic decision making via the online application of Grid-SiPhyR computationally feasible.
翻訳日:2023-05-27 00:16:41 公開日:2023-05-24
# forestprune:コンパクトな深さ制御ツリーアンサンブル

ForestPrune: Compact Depth-Controlled Tree Ensembles ( http://arxiv.org/abs/2206.00128v3 )

ライセンス: Link先を確認
Brian Liu and Rahul Mazumder(参考訳) ツリーアンサンブルは、優れた予測性能を達成する強力なモデルであるが、サイズは小さくなりうる。 これらのアンサンブルは、メモリフットプリントを減らし、解釈性を改善するために後処理されることが多い。 我々は,個々の木から深度層を刈り取ることで,木アンサンブルを後処理するための新しい最適化フレームワークであるフォレストプルーを紹介する。 決定木のノード数は木深さとともに指数関数的に増加するため、深い木を刈り取ることでアンサンブルを劇的にコンパクト化する。 本研究では,フォレストプルーネにおける問題に対する高品質な解を効率的に得るための最適化アルゴリズムを開発した。 我々のアルゴリズムは、通常、中規模のデータセットやアンサンブルに対して数秒で良い解に到達し、1万の行と100のツリーを持つため、既存のアプローチよりも大幅にスピードアップする。 実験により,forestprune が既存の後処理アルゴリズムで抽出したモデルに匹敵する並列モデルを生成することを実証した。

Tree ensembles are powerful models that achieve excellent predictive performances, but can grow to unwieldy sizes. These ensembles are often post-processed (pruned) to reduce memory footprint and improve interpretability. We present ForestPrune, a novel optimization framework to post-process tree ensembles by pruning depth layers from individual trees. Since the number of nodes in a decision tree increases exponentially with tree depth, pruning deep trees drastically compactifies ensembles. We develop a specialized optimization algorithm to efficiently obtain high-quality solutions to problems under ForestPrune. Our algorithm typically reaches good solutions in seconds for medium-size datasets and ensembles, with 10000s of rows and 100s of trees, resulting in significant speedups over existing approaches. Our experiments demonstrate that ForestPrune produces parsimonious models that outperform models extracted by existing post-processing algorithms.
翻訳日:2023-05-27 00:15:08 公開日:2023-05-24
# 量子重力誘起最小長量子力学におけるスピン作用素、ベル非局所性およびツィレルソンバウンド

Spin operator, Bell nonlocality and Tsirelson bound in quantum-gravity induced minimal-length quantum mechanics ( http://arxiv.org/abs/2207.10418v2 )

ライセンス: Link先を確認
Pasquale Bosso, Luciano Petruzziello, Fabian Wagner, Fabrizio Illuminati(参考訳) 量子重力に対する異なるアプローチは、最小長スケールの存在を予測する際に収束する。 これは空間分解能に本質的な限界が内部自由度に関連する量子力学的観測性にどのように影響するかという根本的な疑問を提起する。 スピン作用素が最小長の量子力学における運動量依存的な寄与を得ることを示すことで、この質問に答える。 この修正は、通常の量子力学で生じるものよりも強い量子非局所性の形式を誘導する。 特に、ベルの不等式違反は、運動量作用素の正値関数により通常の量子力学において許容される最大値、いわゆるツィレルソン境界を超えることが示される。 中性子干渉法と量子文脈性に基づく実験的な設定を提案し,実際の実験室実装に必要な物理パラメータの値を予備的に推定する。

Different approaches to quantum gravity converge in predicting the existence of a minimal scale of length. This raises the fundamental question as to whether and how an intrinsic limit to spatial resolution can affect quantum mechanical observables associated to internal degrees of freedom. We answer this question in general terms by showing that the spin operator acquires a momentum-dependent contribution in quantum mechanics equipped with a minimal length. Among other consequences, this modification induces a form of quantum nonlocality stronger than the one arising in ordinary quantum mechanics. In particular, we show that violations of the Bell inequality can exceed the maximum value allowed in ordinary quantum mechanics, the so-called Tsirelson bound, by a positive-valued function of the momentum operator. We introduce possible experimental settings based on neutron interferometry and quantum contextuality, and we provide preliminary estimates on the values of the physical parameters needed for actual laboratory implementations.
翻訳日:2023-05-27 00:05:33 公開日:2023-05-24
# マルチトラック音楽変換器

Multitrack Music Transformer ( http://arxiv.org/abs/2207.06983v4 )

ライセンス: Link先を確認
Hao-Wen Dong, Ke Chen, Shlomo Dubnov, Julian McAuley, Taylor Berg-Kirkpatrick(参考訳) トランスフォーマーモデルでマルチトラック音楽を生成する既存のアプローチは、楽器の数、音楽セグメントの長さ、遅い推論などによって制限されている。 これは、既存の表現を必要とする長い入力シーケンスのメモリ要求が原因である。 本研究では,短いシーケンス長を維持しながら多種多様な楽器群を表現できる新しいマルチトラック音楽表現を提案する。 提案するMultitrack Music Transformer (MMT) は,提案した2つのモデル間の主観的聴取試験を行い,両者の大幅な高速化とメモリ削減を実現し,リアルタイム即興性やほぼリアルタイムなクリエイティブなアプリケーションに魅力的な手法である。 さらに,音楽的自己注意の分析のための新しい尺度を提案し,訓練されたモデルが,現在の音符と子音間隔を形成する音符と,現在の音符から4Nの音符が遠ざかっていることを示す。

Existing approaches for generating multitrack music with transformer models have been limited in terms of the number of instruments, the length of the music segments and slow inference. This is partly due to the memory requirements of the lengthy input sequences necessitated by existing representations. In this work, we propose a new multitrack music representation that allows a diverse set of instruments while keeping a short sequence length. Our proposed Multitrack Music Transformer (MMT) achieves comparable performance with state-of-the-art systems, landing in between two recently proposed models in a subjective listening test, while achieving substantial speedups and memory reductions over both, making the method attractive for real time improvisation or near real time creative applications. Further, we propose a new measure for analyzing musical self-attention and show that the trained model attends more to notes that form a consonant interval with the current note and to notes that are 4N beats away from the current step.
翻訳日:2023-05-27 00:04:34 公開日:2023-05-24
# ログ精度変換器の論理

A Logic for Expressing Log-Precision Transformers ( http://arxiv.org/abs/2210.02671v4 )

ライセンス: Link先を確認
William Merrill and Ashish Sabharwal(参考訳) トランスフォーマーベースの言語モデルの推論能力を理解する一つの方法は、入力テキストで解決できる論理規則の種類を記述することである。 近年、Chiangら (2023) は、有限精度変換器は一階述語論理の一般化において等価に表現できることを示した。 しかし、有限精度変圧器は弱い変圧器変圧器であり、これは我々が示すように、単一のヘッドは一定数のトークンにしか対応できず、特に均一な注意を表現できないためである。 広く参加することは変圧器のコア機能であるため、普遍的に参加できる最小限の表現モデルが論理的にも特徴付けられるかどうかを問う。 この目的のために、前方パスが$\log n$の精度で計算される変圧器を長さ$n$の文脈で解析する。 我々は,任意の対数精度変換器を一階述語論理文として等価に表現できることを証明した。 これは最も強い既知の上界であり、対数精度変換器の論理的特徴である。

One way to interpret the reasoning power of transformer-based language models is to describe the types of logical rules they can resolve over some input text. Recently, Chiang et al. (2023) showed that finite-precision transformers can be equivalently expressed in a generalization of first-order logic. However, finite-precision transformers are a weak transformer variant because, as we show, a single head can only attend to a constant number of tokens and, in particular, cannot represent uniform attention. Since attending broadly is a core capability for transformers, we ask whether a minimally more expressive model that can attend universally can also be characterized in logic. To this end, we analyze transformers whose forward pass is computed in $\log n$ precision on contexts of length $n$. We prove that any log-precision transformer can be equivalently expressed as a first-order logic sentence that, in addition to standard universal and existential quantifiers, may also contain majority-vote quantifiers. This is the tightest known upper bound and first logical characterization of log-precision transformers.
翻訳日:2023-05-26 23:58:42 公開日:2023-05-24
# デジタル・ツインズによる6g時代の産業 4.0

Digital Twins for Industry 4.0 in the 6G Era ( http://arxiv.org/abs/2210.08970v2 )

ライセンス: Link先を確認
Bin Han, Mohammad Asif Habibi, Bjoern Richerzhagen, Kim Schindhelm, Florian Zeiger, Fabrizio Lamberti, Filippo Gabriele Prattic\`o, Karthik Upadhya, Charalampos Korovesis, Ioannis-Prodromos Belikaidis, Panagiotis Demestichas, Siyu Yuan, and Hans D. Schotten(参考訳) 最近、多くの国で第5世代(5G)モバイル通信システムが展開され、ワイヤレスコミュニティは次世代第6世代(6G)に目を向けている。 5Gを産業のユースケースに焦点をあてた6Gは、将来のインテリジェント産業のインフラ的バックボーンとして構想されている。 特に6GとDigital Twins(DT)の新興技術の組み合わせは、Industrial 4.0 (I4.0) システムの次の進化を示唆する。 本稿では, 6G 搭載産業用 DT システムの研究領域について調査する。 本研究は, 6G産業DTエコシステムの新たなビジョンとして, 6G時代における産業DTの野心と応用の可能性について考察し, 新たな課題と重要な実現技術を明らかにする。 導入されたエコシステムは、人間、マシン、およびデータインフラストラクチャ間のギャップを埋め、多数の新しいアプリケーションシナリオを可能にする。

Having the Fifth Generation (5G) mobile communication system recently rolled out in many countries, the wireless community is now setting its eyes on the next era of Sixth Generation (6G). Inheriting from 5G its focus on industrial use cases, 6G is envisaged to become the infrastructural backbone of future intelligent industry. Especially, a combination of 6G and the emerging technologies of Digital Twins (DT) will give impetus to the next evolution of Industry 4.0 (I4.0) systems. This article provides a survey in the research area of 6G-empowered industrial DT system. With a novel vision of 6G industrial DT ecosystem, this survey discusses the ambitions and potential applications of industrial DT in the 6G era, and identifies the emerging challenges as well as the key enabling technologies. The introduced ecosystem is supposed to bridge the gaps between humans, machines, and the data infrastructure, and therewith enable numerous novel application scenarios.
翻訳日:2023-05-26 23:44:38 公開日:2023-05-24
# The NCTE Transcripts: a dataset of elementary Math Classroom Transcripts

The NCTE Transcripts: A Dataset of Elementary Math Classroom Transcripts ( http://arxiv.org/abs/2211.11772v2 )

ライセンス: Link先を確認
Dorottya Demszky and Heather Hill(参考訳) 教室の談話は教示の中核的なメディアであり、分析することで教示と学習の窓が開き、教示を改善するための新しいツールの開発を促進することができる。 我々は、研究者が利用可能な数学教室の教科書の最大のデータセットを紹介し、このデータが教育改善にどのように役立つかを実証する。 このデータセットは、2010年から2013年にかけてNCTE(National Center for Teacher Effectiveness)が収集した1,660の45-60分の長さと5年生の初等数学の観測から成り立っている。 匿名化された書き起こしは4つの学区にまたがる317人の教師のデータを表している。 書き起こしには、対話的談話の動き、教室の観察スコア、人口統計情報、調査回答、学生テストスコアのターンレベルアノテーションなど、豊富なメタデータが含まれている。 我々の自然言語処理モデルはターンレベルのアノテーションに基づいて学習し、対話的談話の動きを識別できることを示し、これらの動きはより良い教室の観察スコアと学習結果と相関することを示した。 このデータセットは、研究者、教育者、政策立案者がK-12指導について学び、改善するいくつかの可能性を開く。 データセットはhttps://github.com/ddemszky/classroom-transcript-analysisで見ることができる。

Classroom discourse is a core medium of instruction - analyzing it can provide a window into teaching and learning as well as driving the development of new tools for improving instruction. We introduce the largest dataset of mathematics classroom transcripts available to researchers, and demonstrate how this data can help improve instruction. The dataset consists of 1,660 45-60 minute long 4th and 5th grade elementary mathematics observations collected by the National Center for Teacher Effectiveness (NCTE) between 2010-2013. The anonymized transcripts represent data from 317 teachers across 4 school districts that serve largely historically marginalized students. The transcripts come with rich metadata, including turn-level annotations for dialogic discourse moves, classroom observation scores, demographic information, survey responses and student test scores. We demonstrate that our natural language processing model, trained on our turn-level annotations, can learn to identify dialogic discourse moves and these moves are correlated with better classroom observation scores and learning outcomes. This dataset opens up several possibilities for researchers, educators and policymakers to learn about and improve K-12 instruction. The dataset can be found at https://github.com/ddemszky/classroom-transcript-analysis.
翻訳日:2023-05-26 23:39:12 公開日:2023-05-24
# クロスタスク近傍を用いたデータ効率の良い微調整

Data-Efficient Finetuning Using Cross-Task Nearest Neighbors ( http://arxiv.org/abs/2212.00196v2 )

ライセンス: Link先を確認
Hamish Ivison and Noah A. Smith and Hannaneh Hajishirzi and Pradeep Dasigi(参考訳) 興味のあるタスクのためにモデルをトレーニングするためにラベル付きデータを取得するのは、しばしば高価です。 以前の研究では、タスク記述(prompt)を付加したマルチタスクデータのトレーニングモデルが、知識を新しいタスクに効果的に転送する。 タスク固有のモデルを効率的に構築するために、ラベルなしターゲットタスクの少数の例(32-1000)にアクセスして、プロンプトを付加したマルチタスクデータの大規模なプールから最も類似したラベル付きサンプルを検索する。 均一サンプリングによるマルチタスクデータ(例えば、FLAN, T0)のファインタニングモデルと比較すると、近隣のクロスタスクでのファインタニングのアプローチは、データ効率が大幅に向上する。 p3プールから取得したデータのうち、ラベル付きターゲットタスクデータを持たないデータはわずか2%で、すべての利用可能なデータでトレーニングされた強力なベースラインを、法的および科学的なドキュメントqaを含む保持されたタスクを表す14のデータセットのうち3~30%上回っています。 同様に、スーパーナチュラルインストラクション(プールの約5%)から近くのクロスタスクでトレーニングされたモデルは、プールから12のホールドアウトタスクで最先端のモデルに匹敵するパフォーマンスを得る。 さらに,本手法により生成したモデルでは,マルチタスクの微調整モデルよりも初期化が良好で,ターゲット-タスクデータの微調整が2~23%向上し,データセット上ではt0-3bモデルが2~23%向上した。

Obtaining labeled data to train a model for a task of interest is often expensive. Prior work shows training models on multitask data augmented with task descriptions (prompts) effectively transfers knowledge to new tasks. Towards efficiently building task-specific models, we assume access to a small number (32-1000) of unlabeled target-task examples and use those to retrieve the most similar labeled examples from a large pool of multitask data augmented with prompts. Compared to the current practice of finetuning models on uniformly sampled prompted multitask data (e.g.: FLAN, T0), our approach of finetuning on cross-task nearest neighbors is significantly more data-efficient. Using only 2% of the data from the P3 pool without any labeled target-task data, our models outperform strong baselines trained on all available data by 3-30% on 12 out of 14 datasets representing held-out tasks including legal and scientific document QA. Similarly, models trained on cross-task nearest neighbors from SuperNaturalInstructions, representing about 5% of the pool, obtain comparable performance to state-of-the-art models on 12 held-out tasks from that pool. Moreover, the models produced by our approach also provide a better initialization than single multitask finetuned models for few-shot finetuning on target-task data, as shown by a 2-23% relative improvement over few-shot finetuned T0-3B models on 8 datasets.
翻訳日:2023-05-26 23:27:18 公開日:2023-05-24
# 部分対象データに基づく技術領域における欠陥のクロスドメイン転送

Cross-domain Transfer of defect features in technical domains based on partial target data ( http://arxiv.org/abs/2211.13662v3 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Tim Scheurenbrand(参考訳) ターゲットドメインデータを逐次追加する現実世界の分類シナリオにおける一般的な課題は、トレーニングフェーズにおけるデータセットの不足である。 したがって、従来のディープラーニングや転校学習分類器は、特に個々のクラスが表現されていない場合や、そもそも過小評価されている場合には適用されない。 しかし、多くの技術領域では、欠陥や不十分な表現が不十分なrejectクラスのみであり、非defectクラスは最初から利用可能であることが多い。 提案手法は,CNNエンコーダをベースとして,そのような条件に対処する。 対照的な学習アプローチに従って、2つのデータセットを使用して修正三重項損失関数をトレーニングする: 非欠陥対象ドメインクラス 1stデータセットに加えて、関連する製造エラーや欠陥など、関連性の高いクラスを含む最先端のラベル付きソースドメインデータセットが使用されるが、異なる製品、材料、外観など、非常に異なるドメインに由来する。 このアプローチは、ソースドメインデータセットから分類特徴を学習すると同時に、ソースとターゲットドメインの違いを単一のトレーニングステップで学習し、関連する機能をターゲットドメインに転送することを目的としている。 分類器は分類機能に敏感になり、高度にドメイン固有のコンテキストに対して堅牢なアーキテクチャとなる。 このアプローチは技術的および非技術的領域でベンチマークされ、合理的な分類結果を示す。 特に、提案するアーキテクチャにより、ドメインの一般化能力と分類結果が改善され、ソースドメインとターゲットドメインの間のより広いドメインシフトが可能になることが示されている。

A common challenge in real world classification scenarios with sequentially appending target domain data is insufficient training datasets during the training phase. Therefore, conventional deep learning and transfer learning classifiers are not applicable especially when individual classes are not represented or are severely underrepresented at the outset. In many technical domains, however, it is only the defect or worn reject classes that are insufficiently represented, while the non-defect class is often available from the beginning. The proposed classification approach addresses such conditions and is based on a CNN encoder. Following a contrastive learning approach, it is trained with a modified triplet loss function using two datasets: Besides the non-defective target domain class 1st dataset, a state-of-the-art labeled source domain dataset that contains highly related classes e.g., a related manufacturing error or wear defect but originates from a highly different domain e.g., different product, material, or appearance = 2nd dataset is utilized. The approach learns the classification features from the source domain dataset while at the same time learning the differences between the source and the target domain in a single training step, aiming to transfer the relevant features to the target domain. The classifier becomes sensitive to the classification features and by architecture robust against the highly domain-specific context. The approach is benchmarked in a technical and a non-technical domain and shows convincing classification results. In particular, it is shown that the domain generalization capabilities and classification results are improved by the proposed architecture, allowing for larger domain shifts between source and target domains.
翻訳日:2023-05-26 23:25:53 公開日:2023-05-24
# 言語モデルは日常のコヒーレントな精神モデルを持っているか?

Do language models have coherent mental models of everyday things? ( http://arxiv.org/abs/2212.10029v2 )

ライセンス: Link先を確認
Yuling Gu, Bhavana Dalvi Mishra, Peter Clark(参考訳) 毎日の物事を"卵"のように考えるとき、彼らは通常、それに関連する精神的イメージを持っています。 この常識的な知識は、日々の物事がどのように機能し、どのように相互作用するかを理解するのに役立ちます。 例えば、誰かがフライドエッグを作ろうとすると、それは殻を持ち、中身の卵白と黄身を明らかにするために裂けることを知っている。 しかし、もしシステムが、卵黄が貝殻を取り囲んでいると考え、そのような日常的なものの連帯図を持っていなければ、卵黄を貝殻から鍋に削り取ろうとするようなばかげたアプローチを使わなければならないかもしれない。 言語モデルにはこのような日常的なイメージがありますか? そこで本研究では,100の日常的なもの,その部分,およびそれらの関係性からなるベンチマークデータセットを提案する。 GPT-3 や Macaw のような最先端の事前訓練言語モデル (LM) は,これらの実体に関する知識を断片的に持っているが,一貫した部分のメンタルモデルの生成には失敗している。 そこで,本論文では,制約満足度層をLMの生の予測の上に適用し,より一貫性のある,より正確な部分のメンタルモデルを作成する。

When people think of everyday things like an "egg," they typically have a mental image associated with it. This commonsense knowledge helps us understand how these everyday things work and how to interact with them. For example, when someone tries to make a fried egg, they know that it has a shell and that it can be cracked open to reveal the egg white and yolk inside. However, if a system does not have a coherent picture of such everyday things, thinking that the egg yolk surrounds the shell, then it might have to resort to ridiculous approaches such as trying to scrape the egg yolk off the shell into the pan. Do language models have a coherent picture of such everyday things? To investigate this, we propose a benchmark dataset consisting of 100 everyday things, their parts, and the relationships between these parts. We observe that state-of-the-art pre-trained language models (LMs) like GPT-3 and Macaw have fragments of knowledge about these entities, but they fail to produce consistent parts mental models. We propose a simple extension to these LMs where we apply a constraint satisfaction layer on top of raw predictions from LMs to produce more consistent and accurate parts mental models of everyday things.
翻訳日:2023-05-26 23:19:41 公開日:2023-05-24
# nlpにおけるコードスイッチング研究の数十年の歩み--トレンドと課題に関する体系的調査

The Decades Progress on Code-Switching Research in NLP: A Systematic Survey on Trends and Challenges ( http://arxiv.org/abs/2212.09660v2 )

ライセンス: Link先を確認
Genta Indra Winata, Alham Fikri Aji, Zheng-Xin Yong, Thamar Solorio(参考訳) テキストと会話の共通する現象であるコードスイッチングは、自然言語処理(NLP)研究コミュニティによって数十年にわたって研究されてきた。 当初、コードスイッチは言語理論を活用し、現在、モデルを開発するための機械学習指向のアプローチによって、集中的に検討されている。 本稿では,自然言語処理におけるコード切り換え研究に関する総合的な体系的調査を行い,過去数十年の進歩を理解し,その課題と課題を概念化する。 最後に,その傾向と調査結果を要約し,今後の方向性と今後の調査に向けた公開質問について考察する。

Code-Switching, a common phenomenon in written text and conversation, has been studied over decades by the natural language processing (NLP) research community. Initially, code-switching is intensively explored by leveraging linguistic theories and, currently, more machine-learning oriented approaches to develop models. We introduce a comprehensive systematic survey on code-switching research in natural language processing to understand the progress of the past decades and conceptualize the challenges and tasks on the code-switching topic. Finally, we summarize the trends and findings and conclude with a discussion for future direction and open questions for further investigation.
翻訳日:2023-05-26 23:19:04 公開日:2023-05-24
# スライス最適部分輸送

Sliced Optimal Partial Transport ( http://arxiv.org/abs/2212.08049v8 )

ライセンス: Link先を確認
Yikun Bai and Berhnard Schmitzer and Mathew Thorpe and Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、データサイエンス、コンピュータビジョンにおいて非常に人気がある。 OT問題における中核的な仮定は、ソースおよびターゲット測度における質量の等しい総量であり、その応用を制限する。 最適部分輸送(OPT)はこの制限に対する最近提案された解決策である。 OT問題と同様に、OPTの計算は線形プログラミング問題(しばしば高次元)の解法に依存しており、計算的に禁止される。 本稿では,2つの非負測度間のオプト問題を1次元で計算する効率的なアルゴリズムを提案する。 次に、スライスされたOT距離のアイデアに従い、スライスされたOPT距離を定義するためにスライスを利用する。 最後に、様々な数値実験において、スライスされたOPT法による計算と精度の利点を示す。 特に,提案するスライテッドOPTのノイズ点クラウド登録への応用について述べる。

Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
翻訳日:2023-05-26 23:18:32 公開日:2023-05-24
# カリキュラムによるシングルタスクrlの複雑性向上の理解

Understanding the Complexity Gains of Single-Task RL with a Curriculum ( http://arxiv.org/abs/2212.12809v2 )

ライセンス: Link先を確認
Qiyang Li, Yuexiang Zhai, Yi Ma, Sergey Levine(参考訳) 強化学習 (Reinforcement Learning, RL) の問題は, 十分な報奨がなければ難しい。 証明可能なRL法に関する先行研究は、一般的にこの問題に専用の探索戦略で対処することを提案している。 しかし、この課題に取り組む別の方法は、タスク空間が興味深いタスクだけでなく、暗黙的にカリキュラムとして機能する簡単なタスクを含むマルチタスクrl問題として再編成することである。 このような改革により、既存のマルチタスクRLメソッドをスクラッチから1つの課題を解決するためのより効率的な代替手段として実行することが可能となる。 本研究では,単タスクrl問題をカリキュラムで定義されたマルチタスクrl問題として再構成する理論的枠組みを提案する。 カリキュラムの厳密な規則性条件下では、マルチタスクRL問題における各タスクの逐次的解決は、明確な探索ボーナスや探索戦略を伴わずに、元の単一タスク問題の解決よりも計算的に効率的であることを示す。 また, シミュレーションロボットタスクにおけるカリキュラム学習を高速化する効果的な実践的学習アルゴリズムに, 理論的洞察を変換できることを示した。

Reinforcement learning (RL) problems can be challenging without well-shaped rewards. Prior work on provably efficient RL methods generally proposes to address this issue with dedicated exploration strategies. However, another way to tackle this challenge is to reformulate it as a multi-task RL problem, where the task space contains not only the challenging task of interest but also easier tasks that implicitly function as a curriculum. Such a reformulation opens up the possibility of running existing multi-task RL methods as a more efficient alternative to solving a single challenging task from scratch. In this work, we provide a theoretical framework that reformulates a single-task RL problem as a multi-task RL problem defined by a curriculum. Under mild regularity conditions on the curriculum, we show that sequentially solving each task in the multi-task RL problem is more computationally efficient than solving the original single-task problem, without any explicit exploration bonuses or other exploration strategies. We also show that our theoretical insights can be translated into an effective practical learning algorithm that can accelerate curriculum learning on simulated robotic tasks.
翻訳日:2023-05-26 23:08:15 公開日:2023-05-24
# PropSegmEnt: Proposition-Level Segmentation and Entailment Recognitionのための大規模コーパス

PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition ( http://arxiv.org/abs/2212.10750v2 )

ライセンス: Link先を確認
Sihao Chen and Senaka Buthpitiya and Alex Fabrikant and Dan Roth and Tal Schuster(参考訳) 自然言語推論(NLI)のタスクは、あるテキストが別のテキストに関連付けられているかどうか、すなわちその意味の全体が他のテキストから推測できるかどうかを認識する必要がある。 現在のNLIデータセットとモデルでは、典型的には文レベルまたは段落レベルでテキストエンターメント関係が定義される。 しかし、単純な文でさえ、しばしば複数の命題、すなわち文によって伝えられる意味の別個の単位を含んでいる。 これらの命題は、与えられた前提の文脈で異なる真理値を持つことができるため、文中の各命題のテキスト的含意関係を個別に認識する必要があると論じる。 提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。 このデータセット構造は,(1)文書中の文を命題の集合に分割する作業,(2)異なる局所的に整理された文書,すなわち同一の出来事や実体を記述する文書に関して,各命題の帰属関係を分類する作業に類似している。 セグメンテーションと包含タスクの強力なベースラインを確立します。 要約幻覚検出と文書レベルのNLIのケーススタディを通じて,NLIラベルの構成性を理解し説明するために,我々の概念的枠組みが有用であることを示す。

The widely studied task of Natural Language Inference (NLI) requires a system to recognize whether one piece of text is textually entailed by another, i.e. whether the entirety of its meaning can be inferred from the other. In current NLI datasets and models, textual entailment relations are typically defined on the sentence- or paragraph-level. However, even a simple sentence often contains multiple propositions, i.e. distinct units of meaning conveyed by the sentence. As these propositions can carry different truth values in the context of a given premise, we argue for the need to recognize the textual entailment relation of each proposition in a sentence individually. We propose PropSegmEnt, a corpus of over 45K propositions annotated by expert human raters. Our dataset structure resembles the tasks of (1) segmenting sentences within a document to the set of propositions, and (2) classifying the entailment relation of each proposition with respect to a different yet topically-aligned document, i.e. documents describing the same event or entity. We establish strong baselines for the segmentation and entailment tasks. Through case studies on summary hallucination detection and document-level NLI, we demonstrate that our conceptual framework is potentially useful for understanding and explaining the compositionality of NLI labels.
翻訳日:2023-05-26 23:07:19 公開日:2023-05-24
# データキュレーションだけでコンテキスト内学習を安定化できる

Data Curation Alone Can Stabilize In-context Learning ( http://arxiv.org/abs/2212.10378v2 )

ライセンス: Link先を確認
Ting-Yun Chang and Robin Jia(参考訳) In-context Learning (ICL) は、大規模言語モデル(LLM)が訓練例を列挙することで、新しいタスクを実行することを可能にする。 しかし、iclはトレーニングサンプルの選択に非常に敏感であることが知られており、トレーニングセットからサンプルをランダムにサンプリングすると、パフォーマンスのばらつきが高くなる。 本稿では、トレーニングデータのサブセットを注意深くキュレートすることで、iclアルゴリズムに他の変更を加えることなく、iclの性能が大幅に安定化することを示す(例えば、即席検索や校正)。 トレーニングサブセットを選択するための2つの方法 -- トレーニングサンプルを個別にスコア付けし、最も高いスコアを選択する。 CondAccは、ランダムなトレーニング例と組み合わせると平均的なデベセットICL精度でトレーニング例をスコアし、Datamodelsは、各トレーニング例の存在がLM出力に与える影響を見積もる線形回帰器を学習する。 5つのタスクと2つのLCMで、CondAccとDatamodelsが選択した安定したサブセットからサンプリングすることで、トレーニング全体のサンプリングよりも平均精度が7.7%と6.3%向上する。 驚くべきことに、安定なサブセットの例は、LLMの促進において多様性とパープレキシティが重要であることを示唆する他の研究と対照的に、内容において特に多様ではない。

In-context learning (ICL) enables large language models (LLMs) to perform new tasks by prompting them with a sequence of training examples. However, it is known that ICL is very sensitive to the choice of training examples: randomly sampling examples from a training set leads to high variance in performance. In this paper, we show that carefully curating a subset of training data greatly stabilizes ICL performance without any other changes to the ICL algorithm (e.g., prompt retrieval or calibration). We introduce two methods to choose training subsets -- both score training examples individually, then select the highest-scoring ones. CondAcc scores a training example by its average dev-set ICL accuracy when combined with random training examples, while Datamodels learns linear regressors that estimate how the presence of each training example influences LLM outputs. Across five tasks and two LLMs, sampling from stable subsets selected by CondAcc and Datamodels improves average accuracy over sampling from the entire training set by 7.7% and 6.3%, respectively. Surprisingly, the stable subset examples are not especially diverse in content or low in perplexity, in contrast with other work suggesting that diversity and perplexity are important when prompting LLMs.
翻訳日:2023-05-26 23:06:56 公開日:2023-05-24
# HINT: 効率的なゼロ・フルショット一般化のためのハイパーネットワーク命令チューニング

HINT: Hypernetwork Instruction Tuning for Efficient Zero- & Few-Shot Generalisation ( http://arxiv.org/abs/2212.10315v2 )

ライセンス: Link先を確認
Hamish Ivison and Akshita Bhagia and Yizhong Wang and Hannaneh Hajishirzi and Matthew Peters(参考訳) 近年のNLPモデルは「ゼロショット」を自然言語指示のみをガイダンスとして新しいタスクに効果的に一般化する能力を示している。 しかし、これらのアプローチの多くは、全ての入力例と長い命令の連結に依存するため、高い計算コストに悩まされ、結果として命令の再処理にコストがかかる。 これを回避するために,HINT (Hypernetworks for Instruction Tuning) を導入し,タスク命令と例を事前訓練されたテキストエンコーダを用いて基礎モデルに挿入したパラメータ効率のよいモジュールに変換し,モデル入力に命令を含める必要をなくした。 ヒントのハイパーネットワークもエンコード命令を生成し、デコード中にエンコードされた入力と結合することで、パフォーマンスをさらに向上させます。 HINTモデルは、計算(FLOPで測定される)の制御において、強い最先端のベースラインを10%以上上回る。 命令をモジュールに変換することで、HINTモデルは計算使用量の観点から命令の長さやサンプル入力を効果的に無視することができる。 その結果、ヒントは5%の計算量しか利用せずに、追加の少ないデータによって最大25%の性能を向上させることができる。 これはパラメータ効率の良い微調整とコンテキスト内学習の強みを組み合わせる。

Recent NLP models have shown the remarkable ability to effectively generalise `zero-shot' to new tasks using only natural language instructions as guidance. However, many of these approaches suffer from high computational costs due to their reliance on concatenating lengthy instructions with every input example, resulting in costly reprocessing of the instruction. To avoid this, we introduce Hypernetworks for INstruction Tuning (HINT), which convert task instructions and examples into parameter-efficient modules inserted into an underlying model using a pretrained text encoder, eliminating the need to include instructions in the model input. The hypernetwork in HINT also produces an encoded instruction, which we concatenate with encoded inputs during decoding to further improve performance. HINT models outperform strong state-of-the-art baselines by over 10% when controlling for compute (measured in FLOPs). By converting instructions into modules, HINT models can effectively disregard the length of instructions and few-shot example inputs in terms of compute usage. As a result, HINT can enhance its performance by up to 25% by incorporating additional few-shot data, while utilizing only up to 5% more compute. This combines the strengths of parameter-efficient fine-tuning and in-context learning.
翻訳日:2023-05-26 23:06:32 公開日:2023-05-24
# 不連続最適輸送写像のミニマックス推定:半離散の場合

Minimax estimation of discontinuous optimal transport maps: The semi-discrete case ( http://arxiv.org/abs/2301.11302v2 )

ライセンス: Link先を確認
Aram-Alexandre Pooladian, Vincent Divol, Jonathan Niles-Weed(参考訳) 我々は,2つの確率分布間の最適輸送写像,$P$と$Q$ in $\mathbb R^d$を,i.d.サンプルに基づいて推定する問題を考える。 既存の統計分析では、輸送写像がリプシッツであるという仮定が必要であり、特に輸送写像が不連続であるような例を除外する強い要求である。 不連続写像の推定手順を開発するための第一歩として、データ分布 $Q$ が $\mathbb R^d$ の有限点上で支えられる離散測度である重要な特別な場合を考える。 本研究では,2021年にpooladian と niles-weed (niles-weed) によって提唱された,エントロピー的最適移動に基づく計算効率の高い推定器について検討し,次元に依存しない最小最適速度 $n^{-1/2}$ で収束することを示す。 他の標準的な地図推定手法はこの設定において有限個の保証を欠き、明らかに次元の呪いに苦しむ。 我々はこれらの結果を数値実験で確認し, エントロピック推定器が他の不連続輸送地図推定問題に対して有望な手法であることを示唆する, 本理論ではカバーされていない他の設定に対する実験を行う。

We consider the problem of estimating the optimal transport map between two probability distributions, $P$ and $Q$ in $\mathbb R^d$, on the basis of i.i.d. samples. All existing statistical analyses of this problem require the assumption that the transport map is Lipschitz, a strong requirement that, in particular, excludes any examples where the transport map is discontinuous. As a first step towards developing estimation procedures for discontinuous maps, we consider the important special case where the data distribution $Q$ is a discrete measure supported on a finite number of points in $\mathbb R^d$. We study a computationally efficient estimator initially proposed by Pooladian and Niles-Weed (2021), based on entropic optimal transport, and show in the semi-discrete setting that it converges at the minimax-optimal rate $n^{-1/2}$, independent of dimension. Other standard map estimation techniques both lack finite-sample guarantees in this setting and provably suffer from the curse of dimensionality. We confirm these results in numerical experiments, and provide experiments for other settings, not covered by our theory, which indicate that the entropic estimator is a promising methodology for other discontinuous transport map estimation problems.
翻訳日:2023-05-26 22:59:33 公開日:2023-05-24
# 選択的な説明: 人間の入力を説明可能なAIに活用する

Selective Explanations: Leveraging Human Input to Align Explainable AI ( http://arxiv.org/abs/2301.09656v2 )

ライセンス: Link先を確認
Vivian Lai, Yiming Zhang, Chacha Chen, Q. Vera Liao, Chenhao Tan(参考訳) 近年、説明可能なAI(XAI)アルゴリズムの膨大なコレクションが開発されているが、人間による説明の作り方や消費方法との大きなギャップについてはしばしば批判されている。 その結果、現在のXAI技術は使用が難しく、有効性が欠如していることがしばしば見出される。 本研究では,人間の説明の基本的な特性であるai説明を,受取人の選好と一致するものに基づいて,多数のモデル理由のサブセットを選択的に提示することにより,これらのギャップを解消しようとする。 人間の入力を小さなサンプルに利用して選択的な説明を生成するための一般的なフレームワークを提案する。 このフレームワークは、異なる選択目標、入力の種類などを考慮したリッチな設計空間を開きます。 事例として,意思決定支援タスクを用いて,意思決定者が決定タスクにどう関係するかに基づいて,選択的な説明を探索する。 実験1では,提案する枠組みに基づいて,より広範なパラダイムの3つのうち3つを検討する実験を行った: 実験1では,参加者に対して,オープン・リミテッドと批判的インプットのいずれでも,選択的な説明を生成するための独自のインプットを提供することを依頼する。 研究2では、類似ユーザ(アノテーション)のパネルからの入力に基づいて、参加者の選択的な説明を示す。 我々の実験は、aiへの過度な依存を減らし、aiの判断結果や主観的知覚を改善するための選択的説明の可能性を実証すると同時に、これらのポジティブな効果のいくつかを、aiの説明を補強するための自身のインプットを提供する機会に特徴づけるニュアンス付き図を描いています。 我々の研究は、人間のコミュニケーション行動にインスパイアされた新しいXAIフレームワークを提案し、AI説明と人間の生産と説明の消費をより良く整合させるための今後の作業を促進する可能性を実証している。

While a vast collection of explainable AI (XAI) algorithms have been developed in recent years, they are often criticized for significant gaps with how humans produce and consume explanations. As a result, current XAI techniques are often found to be hard to use and lack effectiveness. In this work, we attempt to close these gaps by making AI explanations selective -- a fundamental property of human explanations -- by selectively presenting a subset from a large set of model reasons based on what aligns with the recipient's preferences. We propose a general framework for generating selective explanations by leveraging human input on a small sample. This framework opens up a rich design space that accounts for different selectivity goals, types of input, and more. As a showcase, we use a decision-support task to explore selective explanations based on what the decision-maker would consider relevant to the decision task. We conducted two experimental studies to examine three out of a broader possible set of paradigms based on our proposed framework: in Study 1, we ask the participants to provide their own input to generate selective explanations, with either open-ended or critique-based input. In Study 2, we show participants selective explanations based on input from a panel of similar users (annotators). Our experiments demonstrate the promise of selective explanations in reducing over-reliance on AI and improving decision outcomes and subjective perceptions of the AI, but also paint a nuanced picture that attributes some of these positive effects to the opportunity to provide one's own input to augment AI explanations. Overall, our work proposes a novel XAI framework inspired by human communication behaviors and demonstrates its potentials to encourage future work to better align AI explanations with human production and consumption of explanations.
翻訳日:2023-05-26 22:59:09 公開日:2023-05-24
# スパースハミルトニアンの極値の近似の改良

Improved Approximations for Extremal Eigenvalues of Sparse Hamiltonians ( http://arxiv.org/abs/2301.04627v3 )

ライセンス: Link先を確認
Daniel Hothem, Ojas Parekh, and Kevin Thompson(参考訳) 古典的な1/(qk+1)$近似は、厳密にはq$局所項を持つk$スパースフェルミオン・ハミルトニアンの最大固有値と、ハミルトニアンが2ドル局所項と4ドル局所項の両方を持つ場合の1/(4k+1)$近似を与える。 より一般的には、1/o(qk^2)$近似で、k$-sparse fermionic hamiltonianで最大$q$である。 我々の手法はまた、小さな隠れ定数を持つ$k$-sparse, $q$-local qubit Hamiltonianに対して類似の近似を導き、$q$への依存を改善した。

We give a classical $1/(qk+1)$-approximation for the maximum eigenvalue of a $k$-sparse fermionic Hamiltonian with strictly $q$-local terms, as well as a $1/(4k+1)$-approximation when the Hamiltonian has both $2$-local and $4$-local terms. More generally we obtain a $1/O(qk^2)$-approximation for $k$-sparse fermionic Hamiltonians with terms of locality at most $q$. Our techniques also yield analogous approximations for $k$-sparse, $q$-local qubit Hamiltonians with small hidden constants and improved dependence on $q$.
翻訳日:2023-05-26 22:57:53 公開日:2023-05-24
# CVaRを用いた極小最適リスク感性強化学習

Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR ( http://arxiv.org/abs/2302.03201v2 )

ライセンス: Link先を確認
Kaiwen Wang and Nathan Kallus and Wen Sun(参考訳) 本稿では,リスクに敏感な強化学習(RL)について検討し,リスク許容度が$\tau$の条件値(CVaR)の目的に着目した。 マルチアームバンディット(MAB)から、ミニマックスCVaR後悔率は$\Omega(\sqrt{\tau^{-1}AK})$で、$A$はアクションの数、$K$はエピソード数、そして新しいバーンスタインボーナスを持つアッパー信頼境界アルゴリズムによって達成されることを示す。 表型マルコフ決定過程(英語版)(mdps)におけるオンラインrlでは、最小の後悔値が$\omega(\sqrt{\tau^{-1}sak})$(正規化累積報酬付き)であり、ここで$s$は状態数であり、新しいボーナス駆動価値反復手順を提案する。 我々のアルゴリズムは連続性仮定の下で$\widetilde O(\sqrt{\tau^{-1}SAK})$の最適後悔を達成し、一般に、定数$\tau$に対して最小最適である$\widetilde O(\tau^{-1}\sqrt{SAK})$のほぼ最適後悔を実現する。 これにより、最善の限界が改善される。 報酬を適切に識別することで、アルゴリズムは計算効率が良い。

In this paper, we study risk-sensitive Reinforcement Learning (RL), focusing on the objective of Conditional Value at Risk (CVaR) with risk tolerance $\tau$. Starting with multi-arm bandits (MABs), we show the minimax CVaR regret rate is $\Omega(\sqrt{\tau^{-1}AK})$, where $A$ is the number of actions and $K$ is the number of episodes, and that it is achieved by an Upper Confidence Bound algorithm with a novel Bernstein bonus. For online RL in tabular Markov Decision Processes (MDPs), we show a minimax regret lower bound of $\Omega(\sqrt{\tau^{-1}SAK})$ (with normalized cumulative rewards), where $S$ is the number of states, and we propose a novel bonus-driven Value Iteration procedure. We show that our algorithm achieves the optimal regret of $\widetilde O(\sqrt{\tau^{-1}SAK})$ under a continuity assumption and in general attains a near-optimal regret of $\widetilde O(\tau^{-1}\sqrt{SAK})$, which is minimax-optimal for constant $\tau$. This improves on the best available bounds. By discretizing rewards appropriately, our algorithms are computationally efficient.
翻訳日:2023-05-26 22:50:45 公開日:2023-05-24
# 普遍性のトイモデル:ネットワークがグループ操作を学習する方法のリバースエンジニアリング

A Toy Model of Universality: Reverse Engineering How Networks Learn Group Operations ( http://arxiv.org/abs/2302.03025v2 )

ライセンス: Link先を確認
Bilal Chughtai, Lawrence Chan, Neel Nanda(参考訳) Universality is a key hypothesis in mechanistic interpretability -- that different models learn similar features and circuits when trained on similar tasks. In this work, we study the universality hypothesis by examining how small neural networks learn to implement group composition. We present a novel algorithm by which neural networks may implement composition for any finite group via mathematical representation theory. We then show that networks consistently learn this algorithm by reverse engineering model logits and weights, and confirm our understanding using ablations. By studying networks of differing architectures trained on various groups, we find mixed evidence for universality: using our algorithm, we can completely characterize the family of circuits and features that networks learn on this task, but for a given network the precise circuits learned -- as well as the order they develop -- are arbitrary.

Universality is a key hypothesis in mechanistic interpretability -- that different models learn similar features and circuits when trained on similar tasks. In this work, we study the universality hypothesis by examining how small neural networks learn to implement group composition. We present a novel algorithm by which neural networks may implement composition for any finite group via mathematical representation theory. We then show that networks consistently learn this algorithm by reverse engineering model logits and weights, and confirm our understanding using ablations. By studying networks of differing architectures trained on various groups, we find mixed evidence for universality: using our algorithm, we can completely characterize the family of circuits and features that networks learn on this task, but for a given network the precise circuits learned -- as well as the order they develop -- are arbitrary.
翻訳日:2023-05-26 22:49:28 公開日:2023-05-24
# 予測付きオンライン広告アロケーション

Online Ad Allocation with Predictions ( http://arxiv.org/abs/2302.01827v2 )

ライセンス: Link先を確認
Fabian Spaeh, Alina Ene(参考訳) ディスプレイ広告と一般化された割り当て問題は、広告アロケーションやその他の分野における重要な応用に関する2つのよく研究されたオンラインパッキング問題である。 どちらの問題においても、広告インプレッションはオンラインで公開され、予算に縛られた広告主に直ちに割り当てられる必要がある。 理想的な競合比を達成できる最悪のアルゴリズムは知られているが、現実の入力の予測可能で通常タメな性質を考えると、過度に保守的である。 この不一致を考慮し,機械学習予測を取り入れ,最悪の場合を超えて性能を向上させるアルゴリズムを開発した。 我々のアルゴリズムはfeldman et al. (2009) の研究に基づいており、本質的にはmahdian et al. (2007) と類似している。 我々は,新しい解析手法を用いて,予測の貧弱さに対して頑健でありながら,良好な予測を実現できることを示す。 提案アルゴリズムは,広範囲の予測に基づいて,合成および実世界のデータに対して実験的に評価する。 我々のアルゴリズムは予測なしで最悪ケースのアルゴリズムを一貫して上回っている。

Display Ads and the generalized assignment problem are two well-studied online packing problems with important applications in ad allocation and other areas. In both problems, ad impressions arrive online and have to be allocated immediately to budget-constrained advertisers. Worst-case algorithms that achieve the ideal competitive ratio are known, but might act overly conservative given the predictable and usually tame nature of real-world input. Given this discrepancy, we develop an algorithm for both problems that incorporate machine-learned predictions and can thus improve the performance beyond the worst-case. Our algorithm is based on the work of Feldman et al. (2009) and similar in nature to Mahdian et al. (2007) who were the first to develop a learning-augmented algorithm for the related, but more structured Ad Words problem. We use a novel analysis to show that our algorithm is able to capitalize on a good prediction, while being robust against poor predictions. We experimentally evaluate our algorithm on synthetic and real-world data on a wide range of predictions. Our algorithm is consistently outperforming the worst-case algorithm without predictions.
翻訳日:2023-05-26 22:48:41 公開日:2023-05-24
# replicableクラスタリング

Replicable Clustering ( http://arxiv.org/abs/2302.10359v2 )

ライセンス: Link先を確認
Hossein Esfandiari, Amin Karbasi, Vahab Mirrokni, Grigoris Velegkas, Felix Zhou(参考訳) 最近導入されたimpagliazzoらによる再現性の概念に基づいて,統計クラスタリングの文脈でレプリカブルアルゴリズムを設計する。 [2022]. この定義によれば、クラスタリングアルゴリズムは、高い確率で、その出力が同一の分布から引き出された異なる入力に対する2つの実行の後、その実行中に内部ランダム性が共有されると、サンプル空間の全く同じ分割を誘導する。 そこで本研究では,統計量k$-medians,統計値k$-means,統計値k$-centers問題に対する近似ルーチンをブラックボックス方式で利用するアルゴリズムを提案する。 特に、統計的ユークリッドの$k$-medians(k$-means)に対して$\operatorname{poly}(d)$サンプル複雑性を持つレプリカブルな$O(1)$-approximationアルゴリズムを実証する。 また、統計的ユークリッド$k$-centersに対して$O(1)$-approximationアルゴリズムを付加的な$O(1)$-additive errorで記述する。 さらに,sklearn の $k$-means++ 実装をブラックボックスとして2次元の合成分布実験を行い,理論的結果を検証する。

We design replicable algorithms in the context of statistical clustering under the recently introduced notion of replicability from Impagliazzo et al. [2022]. According to this definition, a clustering algorithm is replicable if, with high probability, its output induces the exact same partition of the sample space after two executions on different inputs drawn from the same distribution, when its internal randomness is shared across the executions. We propose such algorithms for the statistical $k$-medians, statistical $k$-means, and statistical $k$-centers problems by utilizing approximation routines for their combinatorial counterparts in a black-box manner. In particular, we demonstrate a replicable $O(1)$-approximation algorithm for statistical Euclidean $k$-medians ($k$-means) with $\operatorname{poly}(d)$ sample complexity. We also describe an $O(1)$-approximation algorithm with an additional $O(1)$-additive error for statistical Euclidean $k$-centers, albeit with $\exp(d)$ sample complexity. In addition, we provide experiments on synthetic distributions in 2D using the $k$-means++ implementation from sklearn as a black-box that validate our theoretical results.
翻訳日:2023-05-26 20:45:34 公開日:2023-05-24
# TAMUNA: ローカルトレーニング, 圧縮, 部分参加による2倍のフェデレーション学習

TAMUNA: Doubly Accelerated Federated Learning with Local Training, Compression, and Partial Participation ( http://arxiv.org/abs/2302.09832v2 )

ライセンス: Link先を確認
Laurent Condat, Ivan Agarsk\'y, Grigory Malinovsky, Peter Richt\'arik(参考訳) 連合学習では、多くのユーザが協力してグローバルモデルを学ぶ。 ローカル計算と遠隔サーバとの通信を交互に行う。 通信は遅くてコストがかかる可能性があるが、この設定の主なボトルネックは通信だ。 コミュニケーション効率に加えて、ロバストなアルゴリズムでは、トレーニングプロセス毎にすべてのクライアントが参加する必要のない、部分的な参加を可能にする必要がある。 通信負荷を低減し、分散勾配降下を加速するために、2つの戦略が人気がある。 1) 通信頻度が低くなること,すなわち,通信ラウンド間の局所計算を複数回行うこと, 2) 全次元ベクトルの代わりに圧縮情報を伝達する。 我々は,これら2つの戦略を共同で活用し,部分的参加を可能にする,分散最適化と連合学習のための最初のアルゴリズムである tamuna を提案する。 TAMUNAは、局所的なトレーニングと圧縮によって提供される2つの加速度メカニズム、すなわち関数の条件数とモデル次元にそれぞれよりよく依存することの恩恵を受ける。

In federated learning, a large number of users collaborate to learn a global model. They alternate local computations and communication with a distant server. Communication, which can be slow and costly, is the main bottleneck in this setting. In addition to communication-efficiency, a robust algorithm should allow for partial participation, the desirable feature that not all clients need to participate to every round of the training process. To reduce the communication load and therefore accelerate distributed gradient descent, two strategies are popular: 1) communicate less frequently; that is, perform several iterations of local computations between the communication rounds; and 2) communicate compressed information instead of full-dimensional vectors. We propose TAMUNA, the first algorithm for distributed optimization and federated learning, which harnesses these two strategies jointly and allows for partial participation. TAMUNA converges linearly to an exact solution in the strongly convex setting, with a doubly accelerated rate: it provably benefits from the two acceleration mechanisms provided by local training and compression, namely a better dependency on the condition number of the functions and on the model dimension, respectively.
翻訳日:2023-05-26 20:44:37 公開日:2023-05-24
# 訓練データ再構成のための非漸近下限

Non-Asymptotic Lower Bounds For Training Data Reconstruction ( http://arxiv.org/abs/2303.16372v4 )

ライセンス: Link先を確認
Prateeti Mukherjee and Satya Lokam(参考訳) 微分プライバシーのような数学的プライバシーの概念は、しばしば解釈が難しい確率的保証として表現される。 しかし、データ共有の意義をデータプリンシパルに効果的に伝え、情報に基づく意思決定を確実にし、関連するプライバシーリスクに関して完全な透明性を提供することが不可欠である。 そこで本研究では,個人学習者によるデータ復元攻撃に対するレジリエンス調査を行い,保護の厳格な定量的評価を行った。 我々は、任意のコンパクト距離空間に属する対象サンプルに対して$(\epsilon, \delta)$の微分的個人学習者に対して、任意の敵によって生じる再構成誤差の非漸近的下限を導出することによりこれを達成する。 差分プライバシの一般化、いわゆるメトリックプライバシにより、先行作業で一般的な入力空間上の有界性仮定を取り除き、その結果が一般の局所コンパクト距離空間に対して成り立つことを証明します。 我々は,入力データ次元が敵のクエリ予算よりも大きい場合の高次元状態をカバーするために解析を拡張し,その限界が一定の条件下で最適であることを示す。

Mathematical notions of privacy, such as differential privacy, are often stated as probabilistic guarantees that are difficult to interpret. It is imperative, however, that the implications of data sharing be effectively communicated to the data principal to ensure informed decision-making and offer full transparency with regards to the associated privacy risks. To this end, our work presents a rigorous quantitative evaluation of the protection conferred by private learners by investigating their resilience to training data reconstruction attacks. We accomplish this by deriving non-asymptotic lower bounds on the reconstruction error incurred by any adversary against $(\epsilon, \delta)$ differentially private learners for target samples that belong to any compact metric space. Working with a generalization of differential privacy, termed metric privacy, we remove boundedness assumptions on the input space prevalent in prior work, and prove that our results hold for general locally compact metric spaces. We extend the analysis to cover the high dimensional regime, wherein, the input data dimensionality may be larger than the adversary's query budget, and demonstrate that our bounds are minimax optimal under certain regimes.
翻訳日:2023-05-26 20:39:08 公開日:2023-05-24
# PCA-Netによる演算子学習--上と下の境界

Operator learning with PCA-Net: upper and lower complexity bounds ( http://arxiv.org/abs/2303.16317v4 )

ライセンス: Link先を確認
Samuel Lanthaler(参考訳) PCA-Netは、ニューラルネットワークと主成分分析(PCA)を組み合わせて、無限次元関数空間間の近似演算子を提案する。 本研究は, 基礎となる演算子とデータ生成分布について最小限の仮定の下で, 新たな普遍近似結果が導出される。 次に、PCA-Netを用いた効率的な演算子学習のための2つの潜在的障害を特定し、より低い複雑性境界を通して正確にし、第1に、PCA固有値の緩やかな減衰によって測定された出力分布の複雑さに関連する。 もう1つの障害は、無限次元の入力空間と出力空間の間の作用素空間の固有の複雑さに関係し、その結果、厳密で定量化可能な次元の呪いのステートメントとなる。 これらの下限に加えて、高次複雑性境界が導出される。 PCA固有値の代数的減衰を確実にするために、適切な滑らか度基準を示す。 さらに、PCA-Netは、ダーシー流とナビエ・ストークス方程式から生じる特定の興味を持つ演算子に対する次元性の一般的な呪いを克服できることを示した。

PCA-Net is a recently proposed neural operator architecture which combines principal component analysis (PCA) with neural networks to approximate operators between infinite-dimensional function spaces. The present work develops approximation theory for this approach, improving and significantly extending previous work in this direction: First, a novel universal approximation result is derived, under minimal assumptions on the underlying operator and the data-generating distribution. Then, two potential obstacles to efficient operator learning with PCA-Net are identified, and made precise through lower complexity bounds; the first relates to the complexity of the output distribution, measured by a slow decay of the PCA eigenvalues. The other obstacle relates to the inherent complexity of the space of operators between infinite-dimensional input and output spaces, resulting in a rigorous and quantifiable statement of the curse of dimensionality. In addition to these lower bounds, upper complexity bounds are derived. A suitable smoothness criterion is shown to ensure an algebraic decay of the PCA eigenvalues. Furthermore, it is shown that PCA-Net can overcome the general curse of dimensionality for specific operators of interest, arising from the Darcy flow and the Navier-Stokes equations.
翻訳日:2023-05-26 20:38:40 公開日:2023-05-24
# グラフ理論による個人学習可能性の統一的特徴付け

A Unified Characterization of Private Learnability via Graph Theory ( http://arxiv.org/abs/2304.03996v3 )

ライセンス: Link先を確認
Noga Alon, Shay Moran, Hilla Schefler, Amir Yehudayoff(参考訳) 純粋かつ近似微分プライベート(DP)学習を特徴付ける統一的なフレームワークを提供する。 このフレームワークはグラフ理論の言語を使用する: 概念クラス $\mathcal{H}$ に対して、矛盾グラフ $G$ of $\mathcal{H}$ を定義する。 it頂点は実現可能なデータセットであり、2つのデータセット$s,s'$は、互いに矛盾した場合、エッジによって接続される(すなわち、$s$と$s'$で異なるラベルが付けられたポイント$x$がある)。 主な発見は、$g$ の組合せ構造は dp の下で $\mathcal{h}$ の学習と深く関係していることである。 純粋な DP の下で $\mathcal{H}$ を学ぶことは、分数clique の$G$ で表される。 DP で $\mathcal{H}$ を学ぶことは、clique number of $G$ で表される。 その結果,dp学習性を特徴づけるグラフ理論的次元,すなわち,クランク次元と分数的クランク次元を同定した。 その過程で、独立興味を持つかもしれない矛盾グラフの特性を明らかにする。 今後の研究にはいくつかのオープンな質問や方向性も提案する。

We provide a unified framework for characterizing pure and approximate differentially private (DP) learnabiliity. The framework uses the language of graph theory: for a concept class $\mathcal{H}$, we define the contradiction graph $G$ of $\mathcal{H}$. It vertices are realizable datasets, and two datasets $S,S'$ are connected by an edge if they contradict each other (i.e., there is a point $x$ that is labeled differently in $S$ and $S'$). Our main finding is that the combinatorial structure of $G$ is deeply related to learning $\mathcal{H}$ under DP. Learning $\mathcal{H}$ under pure DP is captured by the fractional clique number of $G$. Learning $\mathcal{H}$ under approximate DP is captured by the clique number of $G$. Consequently, we identify graph-theoretic dimensions that characterize DP learnability: the clique dimension and fractional clique dimension. Along the way, we reveal properties of the contradiction graph which may be of independent interest. We also suggest several open questions and directions for future research.
翻訳日:2023-05-26 20:26:47 公開日:2023-05-24
# antn: 量子多体シミュレーションのための自己回帰ニューラルネットワークとテンソルネットワーク

ANTN: Bridging Autoregressive Neural Networks and Tensor Networks for Quantum Many-Body Simulation ( http://arxiv.org/abs/2304.01996v2 )

ライセンス: Link先を確認
Zhuo Chen, Laker Newhouse, Eddie Chen, Di Luo, Marin Solja\v{c}i\'c(参考訳) 量子多体物理シミュレーションは基礎科学の理解に大きな影響を与え、量子材料設計や量子技術にも応用できる。 しかし、粒子数に関してヒルベルト空間が指数関数的に大きくなるため、直接シミュレーションは難解である。 テンソルネットワークとニューラルネットワークで量子状態を表現することは、近似シミュレーションのための最先端の2つの方法であるが、それぞれに表現性と帰納バイアスの点で独自の制限がある。 これらの課題に対処するため、テンソルネットワークと自己回帰ニューラルネットワークを橋渡しする新しいアーキテクチャであるAutoregressive Neural TensorNet(ANTN)を開発した。 自己回帰型ニューラルテンソルネットは正規化波動関数をパラメータ化し、正確なサンプリングを可能にし、テンソルネットワークと自己回帰型ニューラルネットワークの表現性を一般化し、自己回帰型ニューラルネットワークから様々な対称性を継承することを示した。 我々は、量子状態学習と、異なるシステムサイズと結合パラメータを持つ2D $J_1$-$J_2$Heisenbergモデルの基底状態を発見し、テンソルネットワークと自己回帰ニューラルネットワークの両方より優れていることを示す。 我々の研究は、量子多体物理学と量子技術の科学シミュレーションの新しい機会を開く。

Quantum many-body physics simulation has important impacts on understanding fundamental science and has applications to quantum materials design and quantum technology. However, due to the exponentially growing size of the Hilbert space with respect to the particle number, a direct simulation is intractable. While representing quantum states with tensor networks and neural networks are the two state-of-the-art methods for approximate simulations, each has its own limitations in terms of expressivity and inductive bias. To address these challenges, we develop a novel architecture, Autoregressive Neural TensorNet (ANTN), which bridges tensor networks and autoregressive neural networks. We show that Autoregressive Neural TensorNet parameterizes normalized wavefunctions, allows for exact sampling, generalizes the expressivity of tensor networks and autoregressive neural networks, and inherits a variety of symmetries from autoregressive neural networks. We demonstrate our approach on quantum state learning as well as finding the ground state of the challenging 2D $J_1$-$J_2$ Heisenberg model with different systems sizes and coupling parameters, outperforming both tensor networks and autoregressive neural networks. Our work opens up new opportunities for scientific simulations of quantum many-body physics and quantum technology.
翻訳日:2023-05-26 20:25:49 公開日:2023-05-24
# 大規模言語モデルを用いた知識グラフ上の複雑な論理推論

Complex Logical Reasoning over Knowledge Graphs using Large Language Models ( http://arxiv.org/abs/2305.01157v2 )

ライセンス: Link先を確認
Nurendra Choudhary and Chandan K. Reddy(参考訳) 知識グラフ(kgs)による推論は、エンティティとそれらの関係の根底にある論理との間の複雑な関係を深く理解する必要がある困難なタスクである。 現在のアプローチでは、論理的なクエリ操作のためにベクトル空間にエンティティを埋め込むためのジオメトリの学習に依存しているが、複雑なクエリやデータセット固有の表現ではパフォーマンスが劣っている。 本稿では,文脈的KG探索と論理的クエリ推論の組合せとして複雑なKG推論を定式化し,グラフ抽出アルゴリズムと大規模言語モデル(LLM)の長所を活用する,新たな疎結合手法であるLARK(Language-guided Abstract Reasoning over Knowledge graph)を提案する。 実験により,提案手法はいくつかの論理的クエリ構造にまたがる標準ベンチマークデータセット上で,最先端のKG推論手法よりも優れており,複雑度の高いクエリに対して高い性能向上が得られた。 さらに,本手法の性能は基礎となるLLMの増大に比例して向上し,KGに対する論理的推論のためのLLMの最新の進歩が実現された。 本研究は,複雑なKG推論の課題に対処するための新たな方向性を示し,今後の研究の道を開くものである。

Reasoning over knowledge graphs (KGs) is a challenging task that requires a deep understanding of the complex relationships between entities and the underlying logic of their relations. Current approaches rely on learning geometries to embed entities in vector space for logical query operations, but they suffer from subpar performance on complex queries and dataset-specific representations. In this paper, we propose a novel decoupled approach, Language-guided Abstract Reasoning over Knowledge graphs (LARK), that formulates complex KG reasoning as a combination of contextual KG search and logical query reasoning, to leverage the strengths of graph extraction algorithms and large language models (LLM), respectively. Our experiments demonstrate that the proposed approach outperforms state-of-the-art KG reasoning methods on standard benchmark datasets across several logical query constructs, with significant performance gain for queries of higher complexity. Furthermore, we show that the performance of our approach improves proportionally to the increase in size of the underlying LLM, enabling the integration of the latest advancements in LLMs for logical reasoning over KGs. Our work presents a new direction for addressing the challenges of complex KG reasoning and paves the way for future research in this area.
翻訳日:2023-05-26 20:19:43 公開日:2023-05-24
# マルチサンプルフローマッチング:ミニバッチ結合によるストレートニングフロー

Multisample Flow Matching: Straightening Flows with Minibatch Couplings ( http://arxiv.org/abs/2304.14772v2 )

ライセンス: Link先を確認
Aram-Alexandre Pooladian, Heli Ben-Hamu, Carles Domingo-Enrich, Brandon Amos, Yaron Lipman, and Ricky T. Q. Chen(参考訳) 連続時間生成モデルのトレーニングのためのシミュレーションフリー手法は、ノイズ分布と個々のデータサンプルの間の確率経路を構築する。 フローマッチングのような最近の研究は、各データサンプルに最適な導出パスである。 しかし、これらのアルゴリズムは独立したデータとノイズサンプルに依存しており、確率経路を構築するためにデータ分布の基盤構造を活用しない。 本稿では,データとノイズサンプル間の非自明な結合を,適切な限界制約を満たしながら利用する,より一般的なフレームワークであるマルチサンプルフローマッチングを提案する。 非常に小さなオーバーヘッドコストで、この一般化によって 一 訓練中の勾配のばらつきを低減すること。 (ii)学習ベクトル場に対してより直線的な流れを得るため、少ない機能評価で高品質なサンプルを生成できる。 三 高次元の低コストで輸送地図を得ることで、生成的モデリングを超えることができる。 重要なことは、単純な最小化目標で完全にシミュレーションのない方法で行う。 提案手法は,イメージネットデータセットのサンプル一貫性を向上し,低コストなサンプル生成に繋がることを示す。

Simulation-free methods for training continuous-time generative models construct probability paths that go between noise distributions and individual data samples. Recent works, such as Flow Matching, derived paths that are optimal for each data sample. However, these algorithms rely on independent data and noise samples, and do not exploit underlying structure in the data distribution for constructing probability paths. We propose Multisample Flow Matching, a more general framework that uses non-trivial couplings between data and noise samples while satisfying the correct marginal constraints. At very small overhead costs, this generalization allows us to (i) reduce gradient variance during training, (ii) obtain straighter flows for the learned vector field, which allows us to generate high-quality samples using fewer function evaluations, and (iii) obtain transport maps with lower cost in high dimensions, which has applications beyond generative modeling. Importantly, we do so in a completely simulation-free manner with a simple minimization objective. We show that our proposed methods improve sample consistency on downsampled ImageNet data sets, and lead to better low-cost sample generation.
翻訳日:2023-05-26 20:18:58 公開日:2023-05-24
# 確率的推論としての次元減少

Dimensionality Reduction as Probabilistic Inference ( http://arxiv.org/abs/2304.07658v2 )

ライセンス: Link先を確認
Aditya Ravuri, Francisco Vargas, Vidhi Lalchand, Neil D. Lawrence(参考訳) 次元性低減(DR)アルゴリズムは、高次元データを低次元表現に圧縮し、データの重要な特徴を保存する。 DRは、データの可視化、ノイズ低減、効率的な下流処理を可能にするため、多くの分析パイプラインにおいて重要なステップである。 本稿では,このフレームワークの確率的推論アルゴリズムとして,幅広い古典的drアルゴリズムを解釈するprobdr変分フレームワークを提案する。 ProbDRはPCA、CMDS、LE、LE、MVU、拡散マップ、kPCA、Isomap、(t-)SNE、UMAPを含む。 このフレームワークでは,データの生成モデルの一部として使用できる共分散,精度,グラフラプラシアン行列を構成するために,低次元潜在変数が用いられる。 推論は証拠を下限に最適化することで行われる。 本稿では,DR に確率型プログラミング言語 (PPL) を適用可能であることを示すとともに,不明瞭なデータに対する推論を容易にするとともに,生成モデルが多様体上のガウス過程 (GP) に近似していることを示す。 DRの統一的なビューを提供することで、コミュニケーション、不確実性、モデル構成、拡張、特にドメイン知識が存在する場合の推論を容易にする。

Dimensionality reduction (DR) algorithms compress high-dimensional data into a lower dimensional representation while preserving important features of the data. DR is a critical step in many analysis pipelines as it enables visualisation, noise reduction and efficient downstream processing of the data. In this work, we introduce the ProbDR variational framework, which interprets a wide range of classical DR algorithms as probabilistic inference algorithms in this framework. ProbDR encompasses PCA, CMDS, LLE, LE, MVU, diffusion maps, kPCA, Isomap, (t-)SNE, and UMAP. In our framework, a low-dimensional latent variable is used to construct a covariance, precision, or a graph Laplacian matrix, which can be used as part of a generative model for the data. Inference is done by optimizing an evidence lower bound. We demonstrate the internal consistency of our framework and show that it enables the use of probabilistic programming languages (PPLs) for DR. Additionally, we illustrate that the framework facilitates reasoning about unseen data and argue that our generative models approximate Gaussian processes (GPs) on manifolds. By providing a unified view of DR, our framework facilitates communication, reasoning about uncertainties, model composition, and extensions, particularly when domain knowledge is present.
翻訳日:2023-05-26 20:17:33 公開日:2023-05-24
# 強化学習における外部アドバイスを取り入れたbandit-based policy invariant explicit shaping

Bandit-Based Policy Invariant Explicit Shaping for Incorporating External Advice in Reinforcement Learning ( http://arxiv.org/abs/2304.07163v2 )

ライセンス: Link先を確認
Yash Satsangi, Paniz Behboudian(参考訳) 強化学習(RL)エージェントの重要な課題は、外部/専門家1のアドバイスを学習に取り入れることである。 外部アドバイスでRLエージェントの学習を形作るアルゴリズムの望ましいゴールは、以下である。 a) 政策の不変性を維持すること b) エージェントの学習を加速すること,及び (c)任意のアドバイスから学ぶ[3]。 この課題に対処するために, シェーピングバンドイットと呼ばれるマルチアームバンドイットとして, 外部アドバイスをRLに組み込むという問題を定式化する。 実環境報酬に基づいて学習した既定のrlアルゴリズムに従えば,各腕の報酬は,実環境報酬に従えば得られるリターンに相当し,基礎となるリターンの非定常性を理由としない既存のバンディットおよびシェーピングアルゴリズムを直接適用することは,結果に悪影響を与える可能性がある。 そこで本研究では,UCB-PIES (UPIES), Racing-PIES (RPIES), Lazy PIES (LPIES) の3つの異なる形状のアルゴリズムを提案する。 4つの異なる設定で実験した結果,これらのアルゴリズムは上記の目標を達成できたが,他のアルゴリズムでは達成できなかった。

A key challenge for a reinforcement learning (RL) agent is to incorporate external/expert1 advice in its learning. The desired goals of an algorithm that can shape the learning of an RL agent with external advice include (a) maintaining policy invariance; (b) accelerating the learning of the agent; and (c) learning from arbitrary advice [3]. To address this challenge this paper formulates the problem of incorporating external advice in RL as a multi-armed bandit called shaping-bandits. The reward of each arm of shaping bandits corresponds to the return obtained by following the expert or by following a default RL algorithm learning on the true environment reward.We show that directly applying existing bandit and shaping algorithms that do not reason about the non-stationary nature of the underlying returns can lead to poor results. Thus we propose UCB-PIES (UPIES), Racing-PIES (RPIES), and Lazy PIES (LPIES) three different shaping algorithms built on different assumptions that reason about the long-term consequences of following the expert policy or the default RL algorithm. Our experiments in four different settings show that these proposed algorithms achieve the above-mentioned goals whereas the other algorithms fail to do so.
翻訳日:2023-05-26 20:17:14 公開日:2023-05-24
# 実時間シミュレーションアバターのヒューマノイド制御

Perpetual Humanoid Control for Real-time Simulated Avatars ( http://arxiv.org/abs/2305.06456v2 )

ライセンス: Link先を確認
Zhengyi Luo, Jinkun Cao, Alexander Winkler, Kris Kitani, Weipeng Xu(参考訳) 本稿では,ノイズ入力(映像からのポーズ推定や言語からの生成など)や予期せぬ転倒の有無で,忠実な動作模倣とフォールトトレラントな動作を実現する物理ベースのヒューマノイドコントローラを提案する。 制御器は外部の安定化力を使わずに1万本のモーションクリップを学習し、自然に故障状態から回復する。 参照動作が与えられた場合、コントローラはリセットを必要とせずにシミュレートされたアバターを永久に制御できる。 その中核として,新しいネットワーク容量を動的に割り当てて,より困難で難しい動作シーケンスを学習するプログレッシブ乗法制御ポリシー(PMCP)を提案する。 pmcpは大規模なモーションデータベースから学習するための効率的なスケーリングを可能にし、破滅的な忘れることなくフェイルステートリカバリなどの新しいタスクを追加できる。 実時間および実時間多人数アバターのユースケースにおいて,映像ベースポーズ推定器と言語ベースモーションジェネレータのノイズポーズを模倣して,コントローラの有効性を実証する。

We present a physics-based humanoid controller that achieves high-fidelity motion imitation and fault-tolerant behavior in the presence of noisy input (e.g. pose estimates from video or generated from language) and unexpected falls. Our controller scales up to learning ten thousand motion clips without using any external stabilizing forces and learns to naturally recover from fail-state. Given reference motion, our controller can perpetually control simulated avatars without requiring resets. At its core, we propose the progressive multiplicative control policy (PMCP), which dynamically allocates new network capacity to learn harder and harder motion sequences. PMCP allows efficient scaling for learning from large-scale motion databases and adding new tasks, such as fail-state recovery, without catastrophic forgetting. We demonstrate the effectiveness of our controller by using it to imitate noisy poses from video-based pose estimators and language-based motion generators in a live and real-time multi-person avatar use case.
翻訳日:2023-05-26 20:10:33 公開日:2023-05-24
# TinyStories: 言語モデルはどんなに小さくてもコヒーレントな英語を話せるか?

TinyStories: How Small Can Language Models Be and Still Speak Coherent English? ( http://arxiv.org/abs/2305.07759v2 )

ライセンス: Link先を確認
Ronen Eldan and Yuanzhi Li(参考訳) 言語モデル(LM)は自然言語処理の強力なツールであるが、小さくて一貫性があり、流動的なテキストを生成するのに苦労することが多い。 gpt-neo (small) や gpt-2 (small) といった125mのパラメータを持つモデルは、広範なトレーニングの後でも、数ワードを超える一貫性のある英語テキストを生成することは滅多にない。 これは、コヒーレントな英語テキストを生成する能力の出現が、より大きなスケール(数億以上のパラメータを持つ)と複雑なアーキテクチャ(多くの世界的注目層を持つ)でのみ起こるのかという疑問を提起する。 本稿では,典型的な3~4歳児が通常理解している単語のみを含む,短い物語の合成データセットであるTinyStoriesを紹介し,GPT-3.5とGPT-4で生成する。 TinyStoriesは、最先端モデル(総パラメータ1000万以下)よりもはるかに小さいLMをトレーニングし、評価したり、よりシンプルなアーキテクチャ(トランスフォーマーブロックは1つだけ)を持つことができるが、多様でほぼ完璧な文法を持つ複数の段落で流動的で一貫性のあるストーリーを生成し、推論能力を示すことができる。 また,言語モデル評価のための新しいパラダイムを提案する。我々は,gpt-4を用いてこれらのモデルによって生成されたコンテンツを,あたかも学生が書き,(人間)教師によって格付けされた物語であるかのように評価するフレームワークを提案する。 この新しいパラダイムは、しばしばモデルの出力が非常に構造的であることを要求する標準ベンチマークの欠陥を克服し、さらに、モデルの多次元スコアを提供し、文法、創造性、一貫性といった様々な機能に対するスコアを提供する。 TinyStoriesは、特に低リソースまたは特殊なドメインにおいて、LMの開発、分析、研究を容易にし、LMにおける言語能力の出現に光を当てることを望む。

Language models (LMs) are powerful tools for natural language processing, but they often struggle to produce coherent and fluent text when they are small. Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can rarely generate coherent and consistent English text beyond a few words even after extensive training. This raises the question of whether the emergence of the ability to produce coherent English text only occurs at larger scales (with hundreds of millions of parameters or more) and complex architectures (with many layers of global attention). In this work, we introduce TinyStories, a synthetic dataset of short stories that only contain words that a typical 3 to 4-year-olds usually understand, generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train and evaluate LMs that are much smaller than the state-of-the-art models (below 10 million total parameters), or have much simpler architectures (with only one transformer block), yet still produce fluent and consistent stories with several paragraphs that are diverse and have almost perfect grammar, and demonstrate reasoning capabilities. We also introduce a new paradigm for the evaluation of language models: We suggest a framework which uses GPT-4 to grade the content generated by these models as if those were stories written by students and graded by a (human) teacher. This new paradigm overcomes the flaws of standard benchmarks which often requires the model's output to be very structures, and moreover provides a multidimensional score for the model, providing scores for different capabilities such as grammar, creativity and consistency. We hope that TinyStories can facilitate the development, analysis and research of LMs, especially for low-resource or specialized domains, and shed light on the emergence of language capabilities in LMs.
翻訳日:2023-05-26 19:59:21 公開日:2023-05-24
# マルチモーダル・レコーダとしてのマスケオーディオテキストエンコーダ

Masked Audio Text Encoders are Effective Multi-Modal Rescorers ( http://arxiv.org/abs/2305.07677v2 )

ライセンス: Link先を確認
Jinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan, Sravan Bodapati(参考訳) Masked Language Models (MLM) は、自動音声認識(ASR)システムにおいて、第2パスの再構成に有効であることが証明されている。 本研究では,MLMの入力空間に音響表現を組み込んだマルチモーダルマスキング言語モデル再構成器であるMasked Audio Text Encoder (MATE)を提案する。 我々は,共有表現を学習することでモダリティを効果的に調整するために,コントラスト学習を採用する。 マルチモーダル・リスコラーは、ターゲットドメインデータが利用できない場合に、ASRシステムのドメイン一般化に有用であることを示す。 MATEは、テキストのみのベースライン上で、ドメイン内の単語エラー率(WER)を4%-16%、ドメイン外のデータセットで3%-7%削減する。 さらに、非常に限られたトレーニングデータ(0.8時間)で、mateは1回のパスベースラインに対して8%-23%の削減を達成している。

Masked Language Models (MLMs) have proven to be effective for second-pass rescoring in Automatic Speech Recognition (ASR) systems. In this work, we propose Masked Audio Text Encoder (MATE), a multi-modal masked language model rescorer which incorporates acoustic representations into the input space of MLM. We adopt contrastive learning for effectively aligning the modalities by learning shared representations. We show that using a multi-modal rescorer is beneficial for domain generalization of the ASR system when target domain data is unavailable. MATE reduces word error rate (WER) by 4%-16% on in-domain, and 3%-7% on out-of-domain datasets, over the text-only baseline. Additionally, with very limited amount of training data (0.8 hours), MATE achieves a WER reduction of 8%-23% over the first-pass baseline.
翻訳日:2023-05-26 19:58:46 公開日:2023-05-24
# チョコレートバニーからチョコレートワニ:言語モデルは名詞の化合物を理解するか?

From chocolate bunny to chocolate crocodile: Do Language Models Understand Noun Compounds? ( http://arxiv.org/abs/2305.10568v2 )

ライセンス: Link先を確認
Jordan Coil and Vered Shwartz(参考訳) 名詞複合解釈は、構成名詞間の関係(例えば、バニー型チョコレート)を明示する自由文パラフローゼにおいて、名詞化合物(例えば、チョコレートバニー)を表現するタスクである。 我々は、標準タスク(hendrickx et al., 2013)のデータおよび評価設定の変更を提案し、gpt-3がほぼ完全に解決することを示す。 次に、名詞複合概念化の課題、すなわち、新規または稀な名詞化合物のパラフレーズ化について検討する。 例えば、チョコレート・クロコダイルはクロコダイル型のチョコレートである。 このタスクには創造性、常識、同様の概念に関する知識を一般化する能力が必要です。 GPT-3のパフォーマンスは完璧ではないが、人間よりも優れている - 膨大な量の知識へのアクセスと、概念処理が人々にとって難しいためだろう(Connell and Lynott, 2012)。 最後に, GPT-3 が世界とトレーニングデータにどのような影響を与えるのかを推定する。 GPT-3のアウトプットは大きなウェブコーパスと重なり合うことが多いが, 新規な名詞化合物にはオウム化戦略が有用でないことが判明した。

Noun compound interpretation is the task of expressing a noun compound (e.g. chocolate bunny) in a free-text paraphrase that makes the relationship between the constituent nouns explicit (e.g. bunny-shaped chocolate). We propose modifications to the data and evaluation setup of the standard task (Hendrickx et al., 2013), and show that GPT-3 solves it almost perfectly. We then investigate the task of noun compound conceptualization, i.e. paraphrasing a novel or rare noun compound. E.g., chocolate crocodile is a crocodile-shaped chocolate. This task requires creativity, commonsense, and the ability to generalize knowledge about similar concepts. While GPT-3's performance is not perfect, it is better than that of humans -- likely thanks to its access to vast amounts of knowledge, and because conceptual processing is effortful for people (Connell and Lynott, 2012). Finally, we estimate the extent to which GPT-3 is reasoning about the world vs. parroting its training data. We find that the outputs from GPT-3 often have significant overlap with a large web corpus, but that the parroting strategy is less beneficial for novel noun compounds.
翻訳日:2023-05-26 19:49:12 公開日:2023-05-24
# Google Mapsにおける超スケーラブルな逆強化学習

Massively Scalable Inverse Reinforcement Learning in Google Maps ( http://arxiv.org/abs/2305.11290v2 )

ライセンス: Link先を確認
Matt Barnes, Matthew Abueg, Oliver F. Lange, Matt Deeds, Jason Trader, Denali Molitor, Markus Wulfmeier, Shawn O'Banion(参考訳) 人間の潜在選好を最適化することは、グローバルスケーラブルなソリューションが依然としてオープンな問題であるルートレコメンデーションにおいて大きな課題である。 過去の研究は、逆強化学習(IRL)の適用に対する一般的な解決策をますます生み出しているが、これらは世界規模のMDP、大規模なデータセット、高度パラメータ化モデル(それぞれ数億の状態、軌道、パラメータ)に拡張されることはなかった。 本研究では,グラフ圧縮,並列化,問題初期化に主観的固有ベクトルに基づく一連の進歩を通して,これまでの限界を克服する。 我々は,既存の作業を一般化し,計画地平線を介して重要なパフォーマンストレードオフを制御できるreceeding horizon inverse planning (rhip)を導入する。 当社の方針は,世界ルート品質の16~24%向上を実現しており,我々の知る限り,IRLが現在までの現実世界における最大の事例である。 その結果,より持続可能な交通手段(二輪車など)に対して,走行時間以外の要因(ルート安全性など)が重要な役割を担っている。 結論として,キーコンポーネントのアブレーション,最先端の固有値ソルバに対する負の結果,irl固有のバッチ戦略によるスケーラビリティ向上の機会を見出した。

Optimizing for humans' latent preferences is a grand challenge in route recommendation, where globally-scalable solutions remain an open problem. Although past work created increasingly general solutions for the application of inverse reinforcement learning (IRL), these have not been successfully scaled to world-sized MDPs, large datasets, and highly parameterized models; respectively hundreds of millions of states, trajectories, and parameters. In this work, we surpass previous limitations through a series of advancements focused on graph compression, parallelization, and problem initialization based on dominant eigenvectors. We introduce Receding Horizon Inverse Planning (RHIP), which generalizes existing work and enables control of key performance trade-offs via its planning horizon. Our policy achieves a 16-24% improvement in global route quality, and, to our knowledge, represents the largest instance of IRL in a real-world setting to date. Our results show critical benefits to more sustainable modes of transportation (e.g. two-wheelers), where factors beyond journey time (e.g. route safety) play a substantial role. We conclude with ablations of key components, negative results on state-of-the-art eigenvalue solvers, and identify future opportunities to improve scalability via IRL-specific batching strategies.
翻訳日:2023-05-26 19:39:57 公開日:2023-05-24
# eu非差別法のレンズを通したアルゴリズムの不公平:あるいはなぜ法律が決定木でないのか

Algorithmic Unfairness through the Lens of EU Non-Discrimination Law: Or Why the Law is not a Decision Tree ( http://arxiv.org/abs/2305.13938v2 )

ライセンス: Link先を確認
Hilde Weerts, Rapha\"ele Xenidis, Fabien Tarissan, Henrik Palmer Olsen, Mykola Pechenizkiy(参考訳) 人工知能システム(AI)の文脈における不公平性と差別に関する懸念は、最近、法学とコンピュータサイエンスの両方の学者から注目を集めている。 しかし、アルゴリズム的偏見と公平性の概念と差別と平等の法的な概念の重なり合いの程度は、しばしば不明であり、コンピュータ科学と法の間の誤解につながる。 差別を禁じる法律はどのような偏見と不公平さに対処するのか。 法的コンプライアンスを確立する上で、公正度指標はどのような役割を果たすのか? 本稿では,欧州連合(EU)の非差別法が,コンピュータサイエンス文学において提案されるアルゴリズム的公正性の概念とどのように一致し,どこで異なるかを説明することを目的とする。 本論文の貢献は以下の通りである。 まず、euの非差別法のレンズを通してアルゴリズム的不公平の独創的な例を分析し、euの事例法と類似点を描き出す。 第2に、公正度指標と技術的介入の規範的基盤を設定し、これらをEU司法裁判所の法的理由と比較した。 具体的には、規範的仮定が規律的アプローチの両方においてしばしば暗黙的に残ることを示し、現在のai実践と非差別法の制約を説明する。 我々は、AI実践者と規制当局に影響を及ぼす。

Concerns regarding unfairness and discrimination in the context of artificial intelligence (AI) systems have recently received increased attention from both legal and computer science scholars. Yet, the degree of overlap between notions of algorithmic bias and fairness on the one hand, and legal notions of discrimination and equality on the other, is often unclear, leading to misunderstandings between computer science and law. What types of bias and unfairness does the law address when it prohibits discrimination? What role can fairness metrics play in establishing legal compliance? In this paper, we aim to illustrate to what extent European Union (EU) non-discrimination law coincides with notions of algorithmic fairness proposed in computer science literature and where they differ. The contributions of this paper are as follows. First, we analyse seminal examples of algorithmic unfairness through the lens of EU non-discrimination law, drawing parallels with EU case law. Second, we set out the normative underpinnings of fairness metrics and technical interventions and compare these to the legal reasoning of the Court of Justice of the EU. Specifically, we show how normative assumptions often remain implicit in both disciplinary approaches and explain the ensuing limitations of current AI practice and non-discrimination law. We conclude with implications for AI practitioners and regulators.
翻訳日:2023-05-26 19:30:10 公開日:2023-05-24
# NLPモデルの協調開発

Collaborative Development of NLP models ( http://arxiv.org/abs/2305.12219v2 )

ライセンス: Link先を確認
Fereshte Khani, Marco Tulio Ribeiro(参考訳) 実質的な進歩にもかかわらず、自然言語処理(nlp)モデルは、しばしばビジネスルールを強制し、望ましくない振る舞いを正し、ユーザー価値に合わせるためにトレーニング後の調整を必要とする。 これらの調整には、特定の入力に対する望ましいモデル応答を指示する「概念」の運用が含まれる。 しかし、単一のエンティティがすべての可能な概念を列挙し定義することは困難であり、マルチユーザーで協調的なモデルアライメントフレームワークの必要性を示している。 さらに、概念の徹底的な記述は困難であり、不適切なアプローチは、ショートカットを作成したり、オリジナルのデータや他の概念に干渉することができる。 これらの課題に対処するために,モデルとのマルチユーザインタラクションを可能にするフレームワークであるCoDevを導入する。 CoDevは、ユーザがLarge Language Modelsを使って概念を運用するのを支援し、NLPモデルはローカルリージョンでより単純な振る舞いを示すという原則に依存している。 私たちのおもな洞察は,各概念に対する \emph{local} モデルと,元のデータをすべての概念に統合するための \emph{global} モデルを学ぶことです。 次に、大きな言語モデルを使って、ローカルとグローバルの意見が一致しない概念境界内のインスタンスを生成します。 実験の結果,CoDevは複数のユーザが概念を運用し,さまざまなシナリオやタスク,モデルに対する干渉を避けるのに有効であることがわかった。

Despite substantial advancements, Natural Language Processing (NLP) models often require post-training adjustments to enforce business rules, rectify undesired behavior, and align with user values. These adjustments involve operationalizing "concepts"--dictating desired model responses to certain inputs. However, it's difficult for a single entity to enumerate and define all possible concepts, indicating a need for a multi-user, collaborative model alignment framework. Moreover, the exhaustive delineation of a concept is challenging, and an improper approach can create shortcuts or interfere with original data or other concepts. To address these challenges, we introduce CoDev, a framework that enables multi-user interaction with the model, thereby mitigating individual limitations. CoDev aids users in operationalizing their concepts using Large Language Models, and relying on the principle that NLP models exhibit simpler behaviors in local regions. Our main insight is learning a \emph{local} model for each concept, and a \emph{global} model to integrate the original data with all concepts. We then steer a large language model to generate instances within concept boundaries where local and global disagree. Our experiments show CoDev is effective at helping multiple users operationalize concepts and avoid interference for a variety of scenarios, tasks, and models.
翻訳日:2023-05-26 19:28:46 公開日:2023-05-24
# 時系列予測のためにトランスフォーマーを素晴らしいものにする - channel aligned robust dual transformer

Make Transformer Great Again for Time Series Forecasting: Channel Aligned Robust Dual Transformer ( http://arxiv.org/abs/2305.12095v2 )

ライセンス: Link先を確認
Wang Xue, Tian Zhou, Qingsong Wen, Jinyang Gao, Bolin Ding, Rong Jin(参考訳) 近年の研究では,時系列予測における深層学習,特に Transformer と MLP の大きな効果が示されている。 NLPとCVで成功したにもかかわらず、多くの研究でTransformerは時系列予測においてMLPよりも効果が低いことが判明した。 本研究では, 時系列予測における変圧器の重要な欠点に対処する, チャネル整合型ロバスト2重変圧器(略してカード)を設計する。 まず、CARDは2つのトランスフォーマー構造を導入し、信号間の時間的相関と、時間とともに複数の変数間の動的依存の両方を捉えることができる。 第2に, 時系列予測のためのロバストな損失関数を導入し, 潜在過充足問題を緩和する。 この新しい損失関数は、予測の不確実性に基づく有限地平線上の予測の重要性を強調する。 複数の長期・短期予測データセットの評価は、CARDがTransformerモデルとMLPモデルの両方を含む最先端の時系列予測手法を著しく上回っていることを示す。

Recent studies have demonstrated the great power of deep learning methods, particularly Transformer and MLP, for time series forecasting. Despite its success in NLP and CV, many studies found that Transformer is less effective than MLP for time series forecasting. In this work, we design a special Transformer, i.e., channel-aligned robust dual Transformer (CARD for short), that addresses key shortcomings of Transformer in time series forecasting. First, CARD introduces a dual Transformer structure that allows it to capture both temporal correlations among signals and dynamical dependence among multiple variables over time. Second, we introduce a robust loss function for time series forecasting to alleviate the potential overfitting issue. This new loss function weights the importance of forecasting over a finite horizon based on prediction uncertainties. Our evaluation of multiple long-term and short-term forecasting datasets demonstrates that CARD significantly outperforms state-of-the-art time series forecasting methods, including both Transformer and MLP-based models.
翻訳日:2023-05-26 19:28:24 公開日:2023-05-24
# プレフィックスプロパゲーション:長周期のパラメータ効率向上チューニング

Prefix Propagation: Parameter-Efficient Tuning for Long Sequences ( http://arxiv.org/abs/2305.12086v2 )

ライセンス: Link先を確認
Jonathan Li, Will Aitken, Rohan Bhambhoria, Xiaodan Zhu(参考訳) パラメータ効率のチューニングは、下流タスクに事前訓練された言語モデルを適用する際の大きなメモリ要件を軽減することを目的としている。 例えば、一般的なメソッドであるプレフィックスチューニングは、モデルの他のパラメータを凍結しながら、シーケンスへのトレーニング可能なトークンを優先する。 このようなモデルは,長さが短かったり中程度のシーケンスに適用すると,微調整と同等の性能が得られるが,長いシーケンスをモデル化する場合には劣る性能を示す。 このギャップを埋めるために,従来の隠蔽状態に対してプレフィックスを条件付けるシンプルな,効果的なアプローチであるプレフィックスプロパゲーションを提案する。 提案手法では,プレフィックス・プロパゲーションが,50%少ないパラメータを用いて,長期文書タスクにおけるプレフィックス・チューニングより優れていることを示す。 また,提案アーキテクチャのキャリブレーションにおける優位性を示すとともに,カーネルの注意点との関係についてさらなる研究を行う。 我々の知る限りでは、この研究は長文言語タスクのためのパラメータ効率の学習に最初に焦点を当てている。

Parameter-efficient tuning aims to mitigate the large memory requirements of adapting pretrained language models for downstream tasks. For example, one popular method, prefix-tuning, prepends trainable tokens to sequences while freezing the rest of the model's parameters. Although such models attain comparable performance with fine-tuning when applied to sequences with short to moderate lengths, we show their inferior performance when modelling long sequences. To bridge this gap, we propose prefix-propagation, a simple but effective approach that conditions prefixes on previous hidden states. We empirically demonstrate that prefix-propagation outperforms prefix-tuning across long-document tasks, while using 50% fewer parameters. To further investigate the proposed architecture, we also show its advantage in calibration, and perform additional study on its relationship with kernel attention. To the best of our knowledge, this work is the first to focus on parameter-efficient learning for long-sequence language tasks.
翻訳日:2023-05-26 19:28:05 公開日:2023-05-24
# 英国中小企業における効果的なデータ駆動意思決定の動向と課題--85中小企業の分析から学んだ事例と教訓

Trends and Challenges Towards an Effective Data-Driven Decision Making in UK SMEs: Case Studies and Lessons Learnt from the Analysis of 85 SMEs ( http://arxiv.org/abs/2305.15454v1 )

ライセンス: Link先を確認
Abdel-Rahman Tawil, Muhidin Mohamed, Xavier Schmoor, Konstantinos Vlachos, Diana Haidar(参考訳) データサイエンスの採用は、ビジネス生産性、経済成長、イノベーション、雇用創出など、中小規模企業(sme)に大きなメリットをもたらします。 データサイエンスは、生産プロセスを最適化し、顧客のニーズを予測し、機械の故障を予測し、効率的なスマートサービスを提供する中小企業を支援する。 企業は、人工知能(AI)とビッグデータの力と、デジタル技術のスマートな利用を利用して、生産性とパフォーマンスを高め、イノベーションの道を開くこともできる。 しかし、データサイエンスの決定を中小企業に統合するには、スキルとIT投資の両方が必要である。 ほとんどの場合、そのような費用は限られた資源と資金提供の制限のために中小企業の手段を超えている。 本稿では,イングランドの西ミッドランズ地域を中心に85の中小企業を対象に,効果的なデータ駆動意思決定に向けた動向と課題について述べる。 この研究は、ビッグデータ管理、分析、ビジネスインテリジェンスといった分野における3年間のERDF(European Regional Development Funded Project)の一部として支援されている。 デジタル化の可能性を示す2つのケーススタディ、aiと機械学習を例にして、課題を明らかにし、中小企業に現在利用可能な機会の豊富さを示す。

The adoption of data science brings vast benefits to Small and Medium-sized Enterprises (SMEs) including business productivity, economic growth, innovation and jobs creation. Data Science can support SMEs to optimise production processes, anticipate customers' needs, predict machinery failures and deliver efficient smart services. Businesses can also harness the power of Artificial Intelligence (AI) and Big Data and the smart use of digital technologies to enhance productivity and performance, paving the way for innovation. However, integrating data science decisions into an SME requires both skills and IT investments. In most cases, such expenses are beyond the means of SMEs due to limited resources and restricted access to financing. This paper presents trends and challenges towards an effective data-driven decision making for organisations based on a case study of 85 SMEs, mostly from the West Midlands region of England. The work is supported as part of a 3 years ERDF (European Regional Development Funded project) in the areas of big data management, analytics and business intelligence. We present two case studies that demonstrates the potential of Digitisation, AI and Machine Learning and use these as examples to unveil challenges and showcase the wealth of current available opportunities for SMEs.
翻訳日:2023-05-26 19:21:59 公開日:2023-05-24
# balanced adversarial modelにおける適応データ解析

Adaptive Data Analysis in a Balanced Adversarial Model ( http://arxiv.org/abs/2305.15452v1 )

ライセンス: Link先を確認
Kobbi Nissim, Uri Stemmer, Eliad Tsfadia(参考訳) 適応データ分析において、メカニズムは未知の分布から$D$から$n$、すなわち$D$のサンプルを取得し、適応的に選択された統計的クエリのシーケンスに対して正確な推定を行う必要がある。 Hardt and Ullman (FOCS 2014) と Steinke and Ullman (COLT 2015) は、一般に、片方向関数の存在を前提として、$\Theta(n^2)$ Adaptive query 以上の答えは計算的に困難であることを示した。 しかし、これらの否定的な結果は、アダプティブクエリを選択したアナリストが基盤となるディストリビューションである$d$を選択するため、そのメカニズムよりも敵アナリストに著しく有利な敵モデルに強く依存している。 この不均衡は、得られた硬度結果の適用性に関する疑問を提起する -- 基礎となる分布について完全な知識を持つアナリストは、$D$から有限個のサンプルしか持たないメカニズムに統計的クエリを発行する必要性はほとんどない。 より制限された敵は \emph{ Balanced} と呼ばれ、それぞれの敵は2つの異なるアルゴリズムから構成される: 分布を選択し、そのメカニズムにサンプルを提供するエンティティである \emph{sampler} と、適応的なクエリを選択するが、基礎となる分布について事前の知識を持たない \emph{analyst} である。 我々は,通常の公開鍵暗号の仮定の下で,効率のよい 'emph{ Balanced} 逆数を用いて再検討することで,以前の下位境界の品質を向上させる。 これらの強硬度仮定は、すべての既知の攻撃の構造を持つ計算的に有界な \emph{balanced} 逆元が公開鍵暗号の存在を暗示するという意味では避けられない。

In adaptive data analysis, a mechanism gets $n$ i.i.d. samples from an unknown distribution $D$, and is required to provide accurate estimations to a sequence of adaptively chosen statistical queries with respect to $D$. Hardt and Ullman (FOCS 2014) and Steinke and Ullman (COLT 2015) showed that in general, it is computationally hard to answer more than $\Theta(n^2)$ adaptive queries, assuming the existence of one-way functions. However, these negative results strongly rely on an adversarial model that significantly advantages the adversarial analyst over the mechanism, as the analyst, who chooses the adaptive queries, also chooses the underlying distribution $D$. This imbalance raises questions with respect to the applicability of the obtained hardness results -- an analyst who has complete knowledge of the underlying distribution $D$ would have little need, if at all, to issue statistical queries to a mechanism which only holds a finite number of samples from $D$. We consider more restricted adversaries, called \emph{balanced}, where each such adversary consists of two separated algorithms: The \emph{sampler} who is the entity that chooses the distribution and provides the samples to the mechanism, and the \emph{analyst} who chooses the adaptive queries, but does not have a prior knowledge of the underlying distribution. We improve the quality of previous lower bounds by revisiting them using an efficient \emph{balanced} adversary, under standard public-key cryptography assumptions. We show that these stronger hardness assumptions are unavoidable in the sense that any computationally bounded \emph{balanced} adversary that has the structure of all known attacks, implies the existence of public-key cryptography.
翻訳日:2023-05-26 19:21:39 公開日:2023-05-24
# オンライン教育のためのAlgodoo:インパルスとモメンタム活動

Algodoo for Online Education: Impulse and Momentum Activities ( http://arxiv.org/abs/2305.15451v1 )

ライセンス: Link先を確認
Atakan Coban(参考訳) オンライン教育への突然の移行期には、学生がコースに注目するかもしれないアプリケーションを作る機会はますます減っている。 この不足はビデオやシミュレーションで解消されることが試みられたが、学生の積極的な参加を保証することはできなかった。 本研究は,オンライン授業における学生の積極的な参加とインパルスやモメンタムに関する応用の確保により,学習環境の効率化を図ることを目的とした,algodooプログラムについて述べる。 合計で6種類の応用が実施され,1つはインパルスの主題,1は運動量,2はインパルスと運動量の変化の関係,そして2つは運動量保存に関するものであった。 同時に、これらのアプリケーションの開発において、シミュレーションによる調整と理由を詳細に説明する。 このようにして、プログラムの導入とサンプルアプリケーションの提案の両方を提示した。 応用の結果得られた値を計算し, 理論とシミュレーションの両方を異なる方法で比較した。 その結果、これらの値は互いに内部的な整合性を持ち、理論計算と互換性があることがわかった。 Algodooプログラムは、多くのインタラクティブなアプリケーションを可能にし、無料でダウンロードできるプログラムであり、オンライン教育プロセス中に物理学の授業の講義と評価の両方に使用できる。

During the periods of sudden transition to online education, the opportunity to make applications that might attract students' attention to the course has decreased even more. Although this deficiency was tried to be eliminated with videos and simulations, it was not possible to ensure active participation of students in some cases. In this study, the Algodoo program, which can increase the efficiency of the teaching environment by ensuring active participation of students in online lessons and the applications that can be done about Impulse and momentum are explained in detail. A total of 6 different applications were carried out, 1 related to the subject of impulse, 1 related to the momentum, 2 related to the relationship between impulse and momentum change, and 2 related to momentum conservation. At the same time, while developing these applications, the adjustments made on the simulation and the reasons are explained in detail. In this way, both the introduction of the program and the sample application suggestion were presented. The values obtained as a result of the applications were calculated and compared both theoretically and on simulation in different ways. As a result, it has been observed that the values have internal consistency with each other and are also compatible with theoretical calculations. Algodoo program, which allows many interactive applications and can be downloaded for free, is a program that can be used both in lecturing and evaluation processes in physics lessons while online education process.
翻訳日:2023-05-26 19:21:02 公開日:2023-05-24
# 深層学習型MCMCによる地域熱グリッドの確率的状態推定

Deep Learning-enabled MCMC for Probabilistic State Estimation in District Heating Grids ( http://arxiv.org/abs/2305.15445v1 )

ライセンス: Link先を確認
Andreas Bott, Tim Janke, Florian Steinke(参考訳) フレキシブル地域暖房グリッドは、将来の低炭素エネルギーシステムにおいて重要な部分を占めている。 このようなグリッドの確率的状態推定,すなわち,これらの状態のサブセットの測定を条件に,圧力,温度,質量フローといったすべてのグリッド状態変数の後方確率分布を推定することを目的とする。 後続状態分布は確率分布の標準クラスに属さないので、ネットワーク熱交換空間におけるマルコフ・チェイン・モンテカルロ(MCMC)サンプリングを用いて、グリッド状態空間におけるサンプルを評価し、後続状態分布を推定する。 非線形格子方程式を解いて熱交換サンプルを格子状態に変換すると、このアプローチは計算量的に負担がかかる。 しかし、我々は、正確だが遅い非線形解法の解を近似するように訓練されたディープニューラルネットワークを用いることで、それを高速化することを提案する。 この手法は,従来の木形とメッシュ式加熱グリッドの両方に対して高精度な後部分布を提供することで,オンライン制御に許容される計算コストを大幅に削減する。 これにより, 温度, 圧力制御の安全マージンを狭めることができ, より効率的なグリッド操作が可能となる。

Flexible district heating grids form an important part of future, low-carbon energy systems. We examine probabilistic state estimation in such grids, i.e., we aim to estimate the posterior probability distribution over all grid state variables such as pressures, temperatures, and mass flows conditional on measurements of a subset of these states. Since the posterior state distribution does not belong to a standard class of probability distributions, we use Markov Chain Monte Carlo (MCMC) sampling in the space of network heat exchanges and evaluate the samples in the grid state space to estimate the posterior. Converting the heat exchange samples into grid states by solving the non-linear grid equations makes this approach computationally burdensome. However, we propose to speed it up by employing a deep neural network that is trained to approximate the solution of the exact but slow non-linear solver. This novel approach is shown to deliver highly accurate posterior distributions both for classic tree-shaped as well as meshed heating grids, at significantly reduced computational costs that are acceptable for online control. Our state estimation approach thus enables tightening the safety margins for temperature and pressure control and thereby a more efficient grid operation.
翻訳日:2023-05-26 19:20:38 公開日:2023-05-24
# PromptNER: 名前付きエンティティ認識のためのプロンプト

PromptNER: Prompting For Named Entity Recognition ( http://arxiv.org/abs/2305.15444v1 )

ライセンス: Link先を確認
Dhananjay Ashok, Zachary C. Lipton(参考訳) 驚くべきことに、LLM(Large Language Models)は、急進的なヒューリスティック(promise-based heuristics)の武器の増大とともに、無数の古典的NLP問題に対する数ショットのソリューションを提供する強力なオフザシェルフアプローチを提供する。 しかし、将来性のある初期の成果にもかかわらず、これらのLLMベースの小ショット法は、標準ラベル付きコーパスによるエンドツーエンド構造理解と微調整による表現の学習を含む、名前付きエンティティ認識(NER)の最先端技術には程遠いままである。 本稿では,数ショットおよびクロスドメインNERのための最先端アルゴリズムであるPromptNERを紹介する。 新しいNERタスクに適応するために、PromptNERは標準的ないくつかの例に加えてエンティティ定義のセットを必要とする。 文が与えられた後、PromptNERはLLMに、提供されたエンティティタイプ定義との互換性を正当化する対応する説明とともに、潜在的なエンティティのリストを作成するよう促す。 PromptNERは、数ショットのNERで最先端のパフォーマンスを実現し、ConLLデータセットでF1スコアが11%(絶対)改善され、FewNERDデータセットで10%(絶対)改善された。 プロンプトナーはまた、クロスドメインnerの最先端を移動させ、すべての以前のメソッド(数ショット設定に限定されないメソッドを含む)を上回り、5つのクロスナーターゲットドメインすべてに新しいマークを設定し、平均f1利得は9%である。

In a surprising turn, Large Language Models (LLMs) together with a growing arsenal of prompt-based heuristics now offer powerful off-the-shelf approaches providing few-shot solutions to myriad classic NLP problems. However, despite promising early results, these LLM-based few-shot methods remain far from the state of the art in Named Entity Recognition (NER), where prevailing methods include learning representations via end-to-end structural understanding and fine-tuning on standard labeled corpora. In this paper, we introduce PromptNER, a new state-of-the-art algorithm for few-Shot and cross-domain NER. To adapt to any new NER task PromptNER requires a set of entity definitions in addition to the standard few-shot examples. Given a sentence, PromptNER prompts an LLM to produce a list of potential entities along with corresponding explanations justifying their compatibility with the provided entity type definitions. Remarkably, PromptNER achieves state-of-the-art performance on few-shot NER, achieving an 11% (absolute) improvement in F1 score on the ConLL dataset, and a 10% (absolute) improvement on the FewNERD dataset. PromptNER also moves the state of the art on Cross Domain NER, outperforming all prior methods (including those not limited to the few-shot setting), setting a new mark on all 5 CrossNER target domains, with an average F1 gain of 9%, despite using less than 2% of the available data.
翻訳日:2023-05-26 19:20:18 公開日:2023-05-24
# モバイル支払い受け入れのドライバー:ネットワーク外部性の影響

Drivers of Mobile Payment Acceptance: The Impact of Network Externalities ( http://arxiv.org/abs/2305.15436v1 )

ライセンス: Link先を確認
Qasim Ajao(参考訳) スマートフォンとそのアプリケーションの普及により、モバイル決済はますます人気が高まっている。 しかし、アフリカ諸国での採用は、私たちの生活を単純化する可能性にもかかわらず、制限されている。 本研究の目的は,ナイジェリアにおけるモバイル決済の受容に影響を与える要因の理解を深めることである。 そこで本稿では,従来の技術受容要因に加えて,ネットワーク外部性の影響について検討する。 この研究は、モバイル支払いの受け入れの主要な要因は、パフォーマンスの期待、努力の期待、社会的影響、信頼、ネットワーク外部性である、と仮定している。 調査の結果は、従来のドライバーは依然としてモバイル決済を採用する顧客の意思に影響を与えているが、ネットワーク外部性は最も強い影響を与えることを示唆している。 本論文は, 努力期待の影響を裏付けるものではないが, 今後の研究を推奨する。

Mobile payment has become increasingly popular due to the widespread use of smartphones and their applications. However, its adoption in African countries has been limited, despite its potential to simplify our lives. This study aims to enhance our understanding of the factors that affect the acceptance of mobile payment in Nigeria. To achieve this, the paper explores the impact of "network externalities" in addition to traditional technology acceptance factors. The study hypothesizes that the key drivers of mobile payment acceptance are performance expectancy, effort expectancy, social influence, trust, and network externality. The research findings suggest that while traditional drivers still play a role in customers' willingness to adopt mobile payment, network externalities have the strongest impact. Although the results did not support the influence of effort expectancy, the paper provides recommendations for future research.
翻訳日:2023-05-26 19:19:27 公開日:2023-05-24
# ペニングトラップにおける粒子の古典量子対応

Classical-quantum correspondence for particles in the Penning trap ( http://arxiv.org/abs/2305.15492v1 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula and Zofia Bialynicka-Birula(参考訳) 我々は、ペニングトラップ内の粒子の運動を記述するシュリンガー方程式の新しい解を導出した。 これらの解は古典軌道の直接対応である。 これらは古典的軌道を定常解の波動関数に注入することによって得られる。

We derive new solutions of the Schr\"odinger equation which describe the motion of particles in the Penning trap. These solutions are direct counterparts of classical orbits. They are obtained by injection of classical trajectories into the wave functions of stationary solutions.
翻訳日:2023-05-26 19:11:01 公開日:2023-05-24
# データ駆動二次多様体を用いたハミルトン系のシンプレクティックモデル還元

Symplectic model reduction of Hamiltonian systems using data-driven quadratic manifolds ( http://arxiv.org/abs/2305.15490v1 )

ライセンス: Link先を確認
Harsh Sharma, Hongliang Mu, Patrick Buchfink, Rudy Geelen, Silke Glas, Boris Kramer(参考訳) この研究は、データ駆動二次多様体を用いた高次元ハミルトン系のシンプレクティックモデル還元のための2つの新しいアプローチを示す。 古典的シンプレクティックモデル還元手法では、線形シンプレクティック部分空間を用いて低次元座標系における高次元系状態を表現する。 これらの近似はハミルトン系のシンプレクティックな性質を尊重するが、近似の線型性は達成できる精度に根本的な制限を与える。 本研究では,最近開発された二次多様体に基づく2つの異なるモデル還元法を提案する。 提案手法の中心に位置する状態近似における二次項の追加により、手前の問題における本質的な低次元性を表現することができる。 どちらのアプローチも、トレーニングデータの範囲外で設定の予測を発行する上で有効であり、線形シンプレクティック最小次モデルよりも正確なソリューションを提供する。

This work presents two novel approaches for the symplectic model reduction of high-dimensional Hamiltonian systems using data-driven quadratic manifolds. Classical symplectic model reduction approaches employ linear symplectic subspaces for representing the high-dimensional system states in a reduced-dimensional coordinate system. While these approximations respect the symplectic nature of Hamiltonian systems, the linearity of the approximation imposes a fundamental limitation to the accuracy that can be achieved. We propose two different model reduction methods based on recently developed quadratic manifolds, each presenting its own advantages and limitations. The addition of quadratic terms in the state approximation, which sits at the heart of the proposed methodologies, enables us to better represent intrinsic low-dimensionality in the problem at hand. Both approaches are effective for issuing predictions in settings well outside the range of their training data while providing more accurate solutions than the linear symplectic reduced-order models.
翻訳日:2023-05-26 19:10:57 公開日:2023-05-24
# SPRING: GPT-4 による論文と推論による RL アルゴリズムの性能向上

SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning ( http://arxiv.org/abs/2305.15486v1 )

ライセンス: Link先を確認
Yue Wu, So Yeon Min, Shrimai Prabhumoye, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Tom Mitchell, Yuanzhi Li(参考訳) オープンワールドサバイバルゲームは,マルチタスクや深い探索,目標優先といった要件から,aiアルゴリズムにとって大きな課題となる。 強化学習(rl)はゲームを解くために人気があるが、その高いサンプル複雑性はcrafterやminecraftのような複雑なオープンワールドゲームでの効果を制限している。 本稿では,ゲームオリジナルの学術論文を読むための新しいアプローチであるSPRINGを提案し,大言語モデル(LLM)を用いてゲームの説明とプレイの知識を利用する。 ゲームコンテキストとしてのLaTeXソースとエージェントの現在の観察を記述したSPRingフレームワークでは,ゲーム関連質問をノードとして,依存関係をエッジとして有向非巡回グラフ(DAG)を採用している。 dagをトラバースし、各ノードのllm応答を位相順に計算し、最終ノードに対するllmの応答を環境動作に直接翻訳することで、環境における最適な動作を特定する。 実験では,クラフトオープンワールド環境の設定の下で,異なる種類のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。 我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。 定量的には、GPT-4によるSPRingは、トレーニングなしで100万歩のトレーニングを受けたすべての最先端のRLベースラインを上回ります。 最後に,LLMのテストベッドとしてゲームの可能性を示す。

Open-world survival games pose significant challenges for AI algorithms due to their multi-tasking, deep exploration, and goal prioritization requirements. Despite reinforcement learning (RL) being popular for solving games, its high sample complexity limits its effectiveness in complex open-world games like Crafter or Minecraft. We propose a novel approach, SPRING, to read the game's original academic paper and use the knowledge learned to reason and play the game through a large language model (LLM). Prompted with the LaTeX source as game context and a description of the agent's current observation, our SPRING framework employs a directed acyclic graph (DAG) with game-related questions as nodes and dependencies as edges. We identify the optimal action to take in the environment by traversing the DAG and calculating LLM responses for each node in topological order, with the LLM's answer to final node directly translating to environment actions. In our experiments, we study the quality of in-context "reasoning" induced by different forms of prompts under the setting of the Crafter open-world environment. Our experiments suggest that LLMs, when prompted with consistent chain-of-thought, have great potential in completing sophisticated high-level trajectories. Quantitatively, SPRING with GPT-4 outperforms all state-of-the-art RL baselines, trained for 1M steps, without any training. Finally, we show the potential of games as a test bed for LLMs.
翻訳日:2023-05-26 19:10:43 公開日:2023-05-24
# 相対表現を用いた視覚・言語事前学習

Weakly Supervised Vision-and-Language Pre-training with Relative Representations ( http://arxiv.org/abs/2305.15483v1 )

ライセンス: Link先を確認
Chi Chen, Peng Li, Maosong Sun, Yang Liu(参考訳) 弱教師付き視覚・言語事前学習(WVLP)は,下流タスクにおける良好な性能を維持しつつ,事前学習のコストを効果的に低減することを示した。 しかし、現在のWVLP法では、画像の局所的な記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのために弱い整列のイメージテキストペアを構築する。 これはデータ品質や事前トレーニングの効果に影響する。 本稿では,少数のアライメントされた画像テキストペアを直接アンカーとし,アンカーとの類似性,すなわち相対表現により,各アンカーの非アライメントな画像とテキストを表現することを提案する。 我々は、相対表現に基づくWVLPフレームワーク、すなわちRELITを構築し、相対表現に基づく検索と生成により、大規模画像のみとテキストのみのデータから高品質な画像テキストペアを収集する。 4つの下流タスクの実験は、RELITが弱い教師付き環境下で新しい最先端の結果を達成することを示している。

Weakly supervised vision-and-language pre-training (WVLP), which learns cross-modal representations with limited cross-modal supervision, has been shown to effectively reduce the data cost of pre-training while maintaining decent performance on downstream tasks. However, current WVLP methods use only local descriptions of images, i.e., object tags, as cross-modal anchors to construct weakly-aligned image-text pairs for pre-training. This affects the data quality and thus the effectiveness of pre-training. In this paper, we propose to directly take a small number of aligned image-text pairs as anchors, and represent each unaligned image and text by its similarities to these anchors, i.e., relative representations. We build a WVLP framework based on the relative representations, namely RELIT, which collects high-quality weakly-aligned image-text pairs from large-scale image-only and text-only data for pre-training through relative representation-based retrieval and generation. Experiments on four downstream tasks show that RELIT achieves new state-of-the-art results under the weakly supervised setting.
翻訳日:2023-05-26 19:10:15 公開日:2023-05-24
# 保存量が相互に通勤できない場合、エントロピー生産に何が起こるか

What happens to entropy production when conserved quantities fail to commute with each other ( http://arxiv.org/abs/2305.15480v1 )

ライセンス: Link先を確認
Twesh Upadhyaya, William F. Braasch, Jr., Gabriel T. Landi, Nicole Yunger Halpern(参考訳) エントロピー生成を非可換保存量を含む深い量子状態に拡張する。 熱状態において初期化された2つのシステム間で保存された量の単位輸送(電荷)を考える。 エントロピーが生成する3つの一般的な公式モデル。 それぞれエントロピーを広範な熱力学変数として、情報理論の不確実性尺度として、そして可逆性の定量化としてキャストした。 電荷は互いに通勤する(エネルギーや粒子数など)と仮定されることが多い。 しかし、量子電荷は通勤に失敗する。 非可換性は、3つの公式の一般化を仮定し、正当化する。 電荷の非可換性は公式の同値性を破る。 さらに、異なる公式は電荷の非可換によるエントロピー生成の異なる物理的効果を定量化する。 例えば、エントロピー生成は文脈的(真の非古典性)を非現実的(nonreal)にする。 この研究は確率的熱力学を非可換電荷(特に量子電荷)に開放する。

We extend entropy production to a deeply quantum regime involving noncommuting conserved quantities. Consider a unitary transporting conserved quantities ("charges") between two systems initialized in thermal states. Three common formulae model the entropy produced. They respectively cast entropy as an extensive thermodynamic variable, as an information-theoretic uncertainty measure, and as a quantifier of irreversibility. Often, the charges are assumed to commute with each other (e.g., energy and particle number). Yet quantum charges can fail to commute. Noncommutation invites generalizations, which we posit and justify, of the three formulae. Charges' noncommutation, we find, breaks the formulae's equivalence. Furthermore, different formulae quantify different physical effects of charges' noncommutation on entropy production. For instance, entropy production can signal contextuality - true nonclassicality - by becoming nonreal. This work opens up stochastic thermodynamics to noncommuting - and so particularly quantum - charges.
翻訳日:2023-05-26 19:09:54 公開日:2023-05-24
# 駆動散逸ボソニック系における過渡的・定常的量子カオス

Transient and steady-state quantum chaos in driven-dissipative bosonic systems ( http://arxiv.org/abs/2305.15479v1 )

ライセンス: Link先を確認
Filippo Ferrari, Luca Gravina, Debbie Eeltink, Pasquale Scarlino, Vincenzo Savona, Fabrizio Minganti(参考訳) 我々は、リウビリアンと量子軌道のスペクトル分解に基づいて、駆動散逸性開量子系における量子カオスを特徴づけるための基準を導入する。 この方法は、複素リウビリアン固有値の統計分布を任意の与えられた時間における系の状態へ一般化する。 結果として、過渡力学とシステムの定常状態におけるカオスを別々に特徴付けることができる。 この方法は、量子状態の関連するリウビリアンスペクトル成分の選択を自然に導入し、対称性のセクタやエネルギーカットオフに基づく追加の選択基準の必要性を緩和する。 この手法を境界駆動散逸型ボース・ハバード連鎖における量子カオスの研究に適用する。 システムには3つのフェーズがあり、それぞれ可積分性、過渡的カオス、定常的カオスが特徴である。 量子カオスによって特徴づけられるほとんどのケースは平均場古典極限において可積分となる。 量子軌道解析は、これらの場合の量子カオスは、散逸機構に関連する量子揺らぎのみに由来することを示している。 これは、突発的な散逸性量子カオスの存在の強い証拠となる。

We introduce a criterion to characterize quantum chaos in driven-dissipative open quantum systems, based on the spectral decomposition of the Liouvillian and of quantum trajectories. The method generalizes the analysis of the statistical distribution of complex Liouvillian eigenvalues to the state of the system at an arbitrary given time. As a result, we can separately characterize chaos in the transient dynamics and in the steady state of the system. The method naturally introduces a selection of the relevant Liouvillian spectral components of the quantum state, thus lifting the requirement of additional selection criteria based on symmetry sectors or an energy cutoff. We apply the method to the study of quantum chaos in a boundary-driven-dissipative Bose-Hubbard chain. The system displays three phases, respectively characterized by integrability, transient chaos, and steady-state chaos. Most of the cases characterized by quantum chaos become integrable in the mean-field classical limit. The quantum trajectory analysis shows that quantum chaos in these cases originates exclusively from quantum fluctuations associated with the dissipation mechanism. It provides strong evidence for the existence of an emergent dissipative quantum chaos.
翻訳日:2023-05-26 19:09:42 公開日:2023-05-24
# 監視ランダム回路における量子複雑性相転移

Quantum complexity phase transitions in monitored random circuits ( http://arxiv.org/abs/2305.15475v1 )

ライセンス: Link先を確認
Ryotaro Suzuki, Jonas Haferkamp, Jens Eisert, Philippe Faist(参考訳) 近年、ユニタリ進化と量子測定の両方を含む量子系のダイナミクスが、測定誘起相転移のエキゾチックな現象によって注目されている。 後者は、個々の量子ビットが測定される速度によって、その絡み合いエントロピーのような$n$ qubitsの状態が突然変化することを意味する。 同時に、量子複雑性は、量子多体力学における複素挙動の同定の鍵となる量として現れた。 本研究では、ランダムユニタリ回路に従ってn$ qubitsが発展し、各時間ステップで固定確率で個別に測定される、監視されたランダム回路における量子状態複雑性のダイナミクスについて検討する。 正確な量子状態の複雑性の進化は、測定率を変更する際に相転移を起こす。 臨界測定率を下回ると、複雑性は少なくとも時間内に線形に増加し、値 $e^{\Omega(n)}$ に飽和する。 その上、複雑さは$\operatorname{poly}(n)$を超えない。 この証明では、指数関数的に長い量子計算を臨界速度以下で実行できる経路を見つけ、状態の複雑さが臨界速度よりゼロにリセットされる事象を特定するために、パーコレーション理論を用いる。 我々は最近開発された代数幾何学の技法を用いて、前政権の正確な状態複雑性を低くする。 本研究では, 量子複雑性の増大, 相転移, および測定値とを組み合わせることにより, 監視されたランダム回路の挙動の把握と多体系における測定値の計算能力の決定に寄与する。

Recently, the dynamics of quantum systems that involve both unitary evolution and quantum measurements have attracted attention due to the exotic phenomenon of measurement-induced phase transitions. The latter refers to a sudden change in a property of a state of $n$ qubits, such as its entanglement entropy, depending on the rate at which individual qubits are measured. At the same time, quantum complexity emerged as a key quantity for the identification of complex behaviour in quantum many-body dynamics. In this work, we investigate the dynamics of the quantum state complexity in monitored random circuits, where $n$ qubits evolve according to a random unitary circuit and are individually measured with a fixed probability at each time step. We find that the evolution of the exact quantum state complexity undergoes a phase transition when changing the measurement rate. Below a critical measurement rate, the complexity grows at least linearly in time until saturating to a value $e^{\Omega(n)}$. Above, the complexity does not exceed $\operatorname{poly}(n)$. In our proof, we make use of percolation theory to find paths along which an exponentially long quantum computation can be run below the critical rate, and to identify events where the state complexity is reset to zero above the critical rate. We lower bound the exact state complexity in the former regime using recently developed techniques from algebraic geometry. Our results combine quantum complexity growth, phase transitions, and computation with measurements to help understand the behavior of monitored random circuits and to make progress towards determining the computational power of measurements in many-body systems.
翻訳日:2023-05-26 19:09:26 公開日:2023-05-24
# 量子力学における時間矢印の起源について

On the Origin of Time's Arrow in Quantum Mechanics ( http://arxiv.org/abs/2305.15468v1 )

ライセンス: Link先を確認
Nemanja Kaloper(参考訳) 時間矢印は量子力学的進化によって生成され、系が非退化状態の非常に多くの${\cal N}$を持ち、下からハミルトニアンが有界であるときに発生する。 もし${\cal N}$が有限であれば、矢印は不完全であり、進化は過去の状態を復活させることができる。 極限${\cal N} \rightarrow \infty$ では、矢印は 'tooth of time' によって固定される: 自発放出によって引き起こされる励起状態の基底状態への崩壊は、相互作用と無限大へのエネルギーと情報を運ぶ多数の崩壊生成物によって仲介される。

We point out that time's arrow is generated by quantum mechanical evolution, whenever the systems have a very large number ${\cal N}$ of non-degenerate states and a Hamiltonian bounded from below. When ${\cal N}$ is finite, the arrow can be imperfect, since evolution can resurrect past states. In the limit ${\cal N} \rightarrow \infty$ the arrow is fixed by the ``tooth of time": the decay of excited states induced by {\it spontaneous emission} to the ground state, mediated by interactions and a large number of decay products which carry energy and information to infinity.
翻訳日:2023-05-26 19:09:00 公開日:2023-05-24
# フルカウント統計のロバストな測定のための量子ターンタイル

Quantum turnstiles for robust measurement of full counting statistics ( http://arxiv.org/abs/2305.15464v1 )

ライセンス: Link先を確認
Rhine Samajdar, Ewan McCulloch, Vedika Khemani, Romain Vasseur, Sarang Gopalakrishnan(参考訳) 実験やテンソルネットワークシミュレーションにおいて,FCS(Full counting statistics)を測定するためのスケーラブルなプロトコルを提案する。 この方法では、システムの中央のアンシラがターンタイルとして働き、その位相が時間積分された粒子フラックスを追跡する。 量子ガス顕微鏡とは異なり、ターンタイルプロトコルは数不定初期状態から始まるFCSを忠実に捉えている。 さらに、FCSを単体観測器にマッピングすることで、近似テンソルネットワーク法を用いて安定した数値計算を行うことができる。 超伝導量子ビットを用いた最近の実験やランダム回路における電荷移動のFCSについて、フロケ・ハイゼンベルクスピンチェーンにおける磁化のFCSを計算することで、このアプローチの広範性を示す。

We present a scalable protocol for measuring full counting statistics (FCS) in experiments or tensor-network simulations. In this method, an ancilla in the middle of the system acts as a turnstile, with its phase keeping track of the time-integrated particle flux. Unlike quantum gas microscopy, the turnstile protocol faithfully captures FCS starting from number-indefinite initial states or in the presence of noisy dynamics. In addition, by mapping the FCS onto a single-body observable, it allows for stable numerical calculations of FCS using approximate tensor-network methods. We demonstrate the wide-ranging utility of this approach by computing the FCS of the transferred magnetization in a Floquet Heisenberg spin chain, as studied in a recent experiment with superconducting qubits, as well as the FCS of charge transfer in random circuits.
翻訳日:2023-05-26 19:08:44 公開日:2023-05-24
# 準可積分系における非可換対称性からの超拡散

Superdiffusion from nonabelian symmetries in nearly integrable systems ( http://arxiv.org/abs/2305.15463v1 )

ライセンス: Link先を確認
Sarang Gopalakrishnan, Romain Vasseur(参考訳) ハイゼンベルクスピン鎖は正準可積分モデルである。 このように、安定な弾道伝播性準粒子を特徴としているが、スピン輸送は非零温度では準球状であり、初期局在したスピンゆらぎは幅$t^{2/3}$に拡がる。 この指数は、動的スピン相関関数の関数形式と同様に、スピン輸送がカルダル・パリ・チャン(KPZ)普遍性クラスに属することを示唆している。 しかし、磁化の完全な計数統計はkpzスケーリングとは明らかに相容れない。 微視的な原理から導かれる単純な2モードの流体力学記述は、相関関数のKPZスケーリングと完全なカウント統計の粗い特徴の両方を捉えるが、数値的に検証される。 これらの結果は、連続非可換対称性の下での任意の可積分スピン鎖不変量に一般化され、非可換対称性を尊重する中程度の強い可積分性破壊摂動に対して驚くほど堅牢である。

The Heisenberg spin chain is a canonical integrable model. As such, it features stable ballistically propagating quasiparticles, but spin transport is sub-ballistic at any nonzero temperature: an initially localized spin fluctuation spreads in time $t$ to a width $t^{2/3}$. This exponent, as well as the functional form of the dynamical spin correlation function, suggest that spin transport is in the Kardar-Parisi-Zhang (KPZ) universality class. However, the full counting statistics of magnetization is manifestly incompatible with KPZ scaling. A simple two-mode hydrodynamic description, derivable from microscopic principles, captures both the KPZ scaling of the correlation function and the coarse features of the full counting statistics, but remains to be numerically validated. These results generalize to any integrable spin chain invariant under a continuous nonabelian symmetry, and are surprisingly robust against moderately strong integrability-breaking perturbations that respect the nonabelian symmetry.
翻訳日:2023-05-26 19:08:29 公開日:2023-05-24
# 大規模言語モデルは、健康学習者が少ない

Large Language Models are Few-Shot Health Learners ( http://arxiv.org/abs/2305.15525v1 )

ライセンス: Link先を確認
Xin Liu, Daniel McDuff, Geza Kovacs, Isaac Galatzer-Levy, Jacob Sunshine, Jiening Zhan, Ming-Zher Poh, Shun Liao, Paolo Di Achille, Shwetak Patel(参考訳) 大規模言語モデル(LLM)は、現実世界のタスクに有用な概念のリッチな表現をキャプチャできる。 しかし、言語は限られている。 既存のLCMはテキストベースの推論において優れているが、健康アプリケーションは、既存のトレーニングコーパスではテキストとして容易に表現されない数値データ(例えば、バイタルサイン、臨床領域における実験値、ウェルネス領域におけるステップ、移動)にモデルが基礎を置く必要がある。 数ショットのチューニングだけで、大規模言語モデルが様々な生理的・行動的時系列データを基盤にし、臨床およびウェルネスの文脈において多くの健康タスクに対して有意義な推論を行うことができることを示す。 ウェアラブルおよび医療用センサ記録のデータを用いて、心信号解析、身体活動認識、代謝計算(例えばカロリー消費)、ストレスレポートおよびメンタルヘルススクリーニングのタスクにおけるこれらの能力を評価する。

Large language models (LLMs) can capture rich representations of concepts that are useful for real-world tasks. However, language alone is limited. While existing LLMs excel at text-based inferences, health applications require that models be grounded in numerical data (e.g., vital signs, laboratory values in clinical domains; steps, movement in the wellness domain) that is not easily or readily expressed as text in existing training corpus. We demonstrate that with only few-shot tuning, a large language model is capable of grounding various physiological and behavioral time-series data and making meaningful inferences on numerous health tasks for both clinical and wellness contexts. Using data from wearable and medical sensor recordings, we evaluate these capabilities on the tasks of cardiac signal analysis, physical activity recognition, metabolic calculation (e.g., calories burned), and estimation of stress reports and mental health screeners.
翻訳日:2023-05-26 19:02:42 公開日:2023-05-24
# 動的帯域幅を考慮したタスク対応分散音源符号化

Task-aware Distributed Source Coding under Dynamic Bandwidth ( http://arxiv.org/abs/2305.15523v1 )

ライセンス: Link先を確認
Po-han Li, Sravan Kumar Ankireddy, Ruihan Zhao, Hossein Nourkhiz Mahjoub, Ehsan Moradi-Pari, Ufuk Topcu, Sandeep Chinchali, Hyeji Kim(参考訳) マルチセンサネットワークにおける通信過負荷を最小限に抑えるためには,相関データの効率的な圧縮が不可欠である。 このようなネットワークでは、各センサが独立してデータを圧縮し、通信帯域が限られているため中央ノードに送信する。 中央ノードのデコーダはデータを圧縮し、トレーニング済みの機械学習ベースのタスクに渡して最終的な出力を生成する。 したがって,タスクに関連する特徴を圧縮することが重要である。 さらに、最終的なパフォーマンスは利用可能な帯域幅に大きく依存する。 実際には、帯域幅のばらつきに遭遇することが一般的であり、より高い帯域幅でタスクの性能が向上する。 我々は,ニューラル分散主成分分析(neural distributed principal component analysis, ndpca)と呼ばれる,独立したエンコーダとジョイントデコーダからなる新しい分散圧縮フレームワークを設計した。 NDPCAは、複数のソースからのデータを単一のモデルで任意の帯域に柔軟に圧縮し、計算とストレージのオーバーヘッドを減らす。 NDPCAは、低ランクなタスク表現を学習し、センサ間の帯域幅を効率よく分散することにより、性能と帯域幅の良好なトレードオフを提供する。 実験の結果,NDPCAはマルチビューロボットアーム操作の成功率を9%向上し,衛星画像上の物体検出タスクの精度を14%向上した。

Efficient compression of correlated data is essential to minimize communication overload in multi-sensor networks. In such networks, each sensor independently compresses the data and transmits them to a central node due to limited communication bandwidth. A decoder at the central node decompresses and passes the data to a pre-trained machine learning-based task to generate the final output. Thus, it is important to compress the features that are relevant to the task. Additionally, the final performance depends heavily on the total available bandwidth. In practice, it is common to encounter varying availability in bandwidth, and higher bandwidth results in better performance of the task. We design a novel distributed compression framework composed of independent encoders and a joint decoder, which we call neural distributed principal component analysis (NDPCA). NDPCA flexibly compresses data from multiple sources to any available bandwidth with a single model, reducing computing and storage overhead. NDPCA achieves this by learning low-rank task representations and efficiently distributing bandwidth among sensors, thus providing a graceful trade-off between performance and bandwidth. Experiments show that NDPCA improves the success rate of multi-view robotic arm manipulation by 9% and the accuracy of object detection tasks on satellite imagery by 14% compared to an autoencoder with uniform bandwidth allocation.
翻訳日:2023-05-26 19:02:25 公開日:2023-05-24
# 関係抽出のための自動摂動自然言語説明の探索

Exploring Automatically Perturbed Natural Language Explanations in Relation Extraction ( http://arxiv.org/abs/2305.15520v1 )

ライセンス: Link先を確認
Wanyun Cui, Xingran Chen(参考訳) 従来の研究では、自然言語の説明がモデルに価値ある帰納バイアスを与え、一般化能力とデータ効率を向上させることが示されている。 本稿では,これらの説明の有効性を体系的に検証する。 顕著なことに、帰納的バイアスの低下による破損した説明は、元の説明と比べて競争力や優れた性能を達成することができる。 1) 説明の影響は異なるトレーニングスタイルとデータセットにまたがって異なり, 従来は凍結言語モデルを中心に改善が見られたと思われていた。 2) 従来の研究は, 説明が帰納的バイアスのみに与えられていたが, 説明が完全に損なわれてもその効果は持続することを示した。 提案する主な効果は,追加のコンテキスト空間の提供によるものである。 (3) 提案した自動摂動コンテキストを用いることで,注釈付き説明に匹敵する結果を得ることができたが,計算効率は20~30倍に向上した。

Previous research has demonstrated that natural language explanations provide valuable inductive biases that guide models, thereby improving the generalization ability and data efficiency. In this paper, we undertake a systematic examination of the effectiveness of these explanations. Remarkably, we find that corrupted explanations with diminished inductive biases can achieve competitive or superior performance compared to the original explanations. Our findings furnish novel insights into the characteristics of natural language explanations in the following ways: (1) the impact of explanations varies across different training styles and datasets, with previously believed improvements primarily observed in frozen language models. (2) While previous research has attributed the effect of explanations solely to their inductive biases, our study shows that the effect persists even when the explanations are completely corrupted. We propose that the main effect is due to the provision of additional context space. (3) Utilizing the proposed automatic perturbed context, we were able to attain comparable results to annotated explanations, but with a significant increase in computational efficiency, 20-30 times faster.
翻訳日:2023-05-26 19:02:04 公開日:2023-05-24
# 言語モデルにおける効率的なテキストコモンセンス統合のためのフリーランチ

Free Lunch for Efficient Textual Commonsense Integration in Language Models ( http://arxiv.org/abs/2305.15516v1 )

ライセンス: Link先を確認
Wanyun Cui, Xingran Chen(参考訳) 近年では、よりニュアンス豊かで文脈に富んだ知識を提供することを目的とした、文章の常識的な知識ベースが出現している。 言語モデルへの外部コモンセンスの統合は、幅広いNLPタスクの最先端化における重要な実現要因であることが示されている。 しかし、従来の記号的知識の符号化と比較して、テキストのコモンセンス記述を組み込むことは計算コストがかかる。 本稿では,モデルを変更することなく効率を向上させる手法を提案する。 類似したコモンセンス記述を持つサンプルを1つのバッチにグループ化し、複数のサンプル間でエンコードされた記述を再利用する。 1つの重要な観察は、バッチ分割の上限は古典的なグラフ k-カット問題に還元できるということである。 そこで本研究では,スペクトルクラスタリングに基づくアルゴリズムを提案する。 大規模な実験により,提案手法は性能を保ちながら計算コストを効果的に削減することを示した。 効率の改善は、より大きなデータセットとより多くのメモリ容量を持つデバイスでより顕著であり、大規模なアプリケーションで実用性が証明されている。

Recent years have witnessed the emergence of textual commonsense knowledge bases, aimed at providing more nuanced and context-rich knowledge. The integration of external commonsense into language models has been shown to be a key enabler in advancing the state-of-the-art for a wide range of NLP tasks. However, incorporating textual commonsense descriptions is computationally expensive, as compared to encoding conventional symbolic knowledge. In this paper, we propose a method to improve its efficiency without modifying the model. We group training samples with similar commonsense descriptions into a single batch, thus reusing the encoded description across multiple samples. One key observation is that the upper bound of batch partitioning can be reduced to the classic {\it graph k-cut problem}. Consequently, we propose a spectral clustering-based algorithm to solve this problem. Extensive experiments illustrate that the proposed batch partitioning approach effectively reduces the computational cost while preserving performance. The efficiency improvement is more pronounced on larger datasets and on devices with more memory capacity, attesting to its practical utility for large-scale applications.
翻訳日:2023-05-26 19:01:47 公開日:2023-05-24
# ポストホックロジット正規化と温度スケーリングによるディープニューラルネットワークの選択的分類性能の向上

Improving selective classification performance of deep neural networks through post-hoc logit normalization and temperature scaling ( http://arxiv.org/abs/2305.15508v1 )

ライセンス: Link先を確認
Lu\'is Felipe P. Cattelan and Danilo Silva(参考訳) 本稿では,モデルが低信頼予測を回避し,潜在的な誤りを回避できる深層ニューラルネットワークの選択的分類問題に対処する。 具体的には、固定分類器の信頼度推定器の最適化に取り組み、その誤分類検出性能の向上、すなわち、高い信頼値を正しいものに割り当てることで、正しい予測と誤予測を区別する能力を実現する。 従来の研究では、特に最大ソフトマックス確率(MSP)を信頼度尺度として用いた場合、異なる分類器が様々な誤分類検出性能を示すことがわかった。 しかし,これらの結果は主に,各モデルに準最適信頼度推定器が用いられているためである。 この問題を克服するため,本研究では,ロジットを$p$-norm正規化と温度スケーリングによって変換し,続いてMSPを用いて,$p$と温度をホールドアウトセットに基づいて最適化する,シンプルで効率的なポストホック信頼度推定器($p$-NormSoftmax)を提案する。 この推定器は、既に訓練されたモデル上で容易に適用でき、多くの場合、選択的分類性能を大幅に改善することができる。 84の事前トレーニング済みイメージネット分類器に適用した場合、リスク被覆曲線(AURC)の下での領域の平均16%の改善率は、いくつかのモデルで40%以上となる。 さらに、$p$-normsoftmaxを適用した後、これらのモデルがほぼ同じレベルの誤分類検出性能を示し、モデルの選択的分類性能が完全なカバレッジでほぼ完全に決定されることを示した。

This paper addresses the problem of selective classification for deep neural networks, where a model is allowed to abstain from low-confidence predictions to avoid potential errors. Specifically, we tackle the problem of optimizing the confidence estimator of a fixed classifier, aiming to enhance its misclassification detection performance, i.e., its ability to discriminate between correct and incorrect predictions by assigning higher confidence values to the correct ones. Previous work has found that different classifiers exhibit varying levels of misclassification detection performance, particularly when using the maximum softmax probability (MSP) as a measure of confidence. However, we argue that these findings are mainly due to a sub-optimal confidence estimator being used for each model. To overcome this issue, we propose a simple and efficient post-hoc confidence estimator, named $p$-NormSoftmax, which consists of transforming the logits through $p$-norm normalization and temperature scaling, followed by taking the MSP, where $p$ and the temperature are optimized based on a hold-out set. This estimator can be easily applied on top of an already trained model and, in many cases, can significantly improve its selective classification performance. When applied to 84 pretrained Imagenet classifiers, our method yields an average improvement of 16% in the area under the risk-coverage curve (AURC), exceeding 40% for some models. Furthermore, after applying $p$-NormSoftmax, we observe that these models exhibit approximately the same level of misclassification detection performance, implying that a model's selective classification performance is almost entirely determined by its accuracy at full coverage.
翻訳日:2023-05-26 19:01:30 公開日:2023-05-24
# 大きくなればなるほど失敗しにくくなる - 言語モデルはpythonの識別子スワップを認識しない

The Larger They Are, the Harder They Fail: Language Models do not Recognize Identifier Swaps in Python ( http://arxiv.org/abs/2305.15507v1 )

ライセンス: Link先を確認
Antonio Valerio Miceli-Barone, Fazl Barez, Ioannis Konstas, Shay B. Cohen(参考訳) 大規模な言語モデル(llm)がコード生成タスクにうまく適用され、これらのモデルがプログラミングをどのように理解しているかという疑問が提起された。 典型的なプログラミング言語は、人間のプログラマが直感的に理解し、悪用する意味論において不変性と等価性を持っている。 llmsは、デフォルト関数名がスワップされた時に正しいpythonコードを生成するのに失敗するだけでなく、モデルのサイズが大きくなるにつれて、不正確な予測に自信を持てなくなるものもある。 この結果から, LLMは, 驚くべき典型的性能にもかかわらず, 操作内容の深い抽象的理解に欠けており, 統計的にトレーニングデータから逸脱したタスクには適さないことが示唆された。

Large Language Models (LLMs) have successfully been applied to code generation tasks, raising the question of how well these models understand programming. Typical programming languages have invariances and equivariances in their semantics that human programmers intuitively understand and exploit, such as the (near) invariance to the renaming of identifiers. We show that LLMs not only fail to properly generate correct Python code when default function names are swapped, but some of them even become more confident in their incorrect predictions as the model size increases, an instance of the recently discovered phenomenon of Inverse Scaling, which runs contrary to the commonly observed trend of increasing prediction quality with increasing model size. Our findings indicate that, despite their astonishing typical-case performance, LLMs still lack a deep, abstract understanding of the content they manipulate, making them unsuitable for tasks that statistically deviate from their training data, and that mere scaling is not enough to achieve such capability.
翻訳日:2023-05-26 19:00:57 公開日:2023-05-24
# ディックモデルにおける量子カオスとその変種

Quantum chaos in the Dicke model and its variants ( http://arxiv.org/abs/2305.15505v1 )

ライセンス: Link先を確認
Devvrat Tiwari and Subhashish Banerjee(参考訳) 近年,時間外秩序相関器 (OTOC) が量子カオスの尺度として注目されている。 半古典的極限では、指数的成長速度は古典的リアプノフ指数に類似している。 量子古典的対応は、多レベル原子と空洞場相互作用のモデルであるディックモデルのように、一体カオスシステムと相互作用を持つ現実的なシステムでサポートされている。 この目的のために、オープン量子系設定におけるディックモデルの異なるバリエーションに対するOTOCを計算する。 ディックモデルの超放射相転移と量子カオスの開始との接続について研究した。 さらに、otocと第2次コヒーレンス関数との関係も確立する。 これは、量子光学モデルにおけるOTOCと量子カオスの実験的研究において重要である。

Recently the out-of-time-ordered correlator (OTOC) has gained much attention as the measure of quantum chaos. In the semi-classical limit, its exponential growth rate resembles the classical Lyapunov exponent. The quantum-classical correspondence has been supported for the one-body chaotic systems as well as realistic systems with interactions, as in the Dicke model, a model of multi-two-level atoms and cavity field interactions. To this end, we calculate the OTOC for different variations of the Dicke model in an open quantum system setting. The connection between the superradiant phase transition of the Dicke model and the onset of quantum chaos is studied. Further, we establish a relation between the OTOC and the second-order coherence function. This becomes important for the experimental studies of the OTOC and quantum chaos in the models of quantum optics.
翻訳日:2023-05-26 19:00:36 公開日:2023-05-24
# マスク言語モデルから言語モデルを引き出す

Deriving Language Models from Masked Language Models ( http://arxiv.org/abs/2305.15501v1 )

ライセンス: Link先を確認
Lucas Torroba Hennigen, Yoon Kim(参考訳) Masked Language Model (MLM) は、言語上の分布を明確に定義していない。 しかし、近年の研究では、生成や採点のために暗黙的に彼らを扱っている。 本稿では,mlmsから明示的なジョイント分布を導出する手法について検討し,二つのトークン上の分布に着目した。 条件が MLM に最も近い関節を同定する手法がうまく機能し,既存のマルコフ確率場に基づく手法よりも優れていることがわかった。 さらに、この導出モデルの条件は、元のMLMの条件よりも時折優れていることが分かる。

Masked language models (MLM) do not explicitly define a distribution over language, i.e., they are not language models per se. However, recent work has implicitly treated them as such for the purposes of generation and scoring. This paper studies methods for deriving explicit joint distributions from MLMs, focusing on distributions over two tokens, which makes it possible to calculate exact distributional properties. We find that an approach based on identifying joints whose conditionals are closest to those of the MLM works well and outperforms existing Markov random field-based approaches. We further find that this derived model's conditionals can even occasionally outperform the original MLM's conditionals.
翻訳日:2023-05-26 19:00:26 公開日:2023-05-24
# ユーザの興味を引くための大規模言語モデル

Large Language Models for User Interest Journeys ( http://arxiv.org/abs/2305.15498v1 )

ライセンス: Link先を確認
Konstantina Christakopoulou, Alberto Lalama, Cj Adams, Iris Qu, Yifat Amir, Samer Chucri, Pierce Vollucci, Fabio Soldo, Dina Bseiso, Sarah Scodel, Lucas Dixon, Ed H. Chi, Minmin Chen(参考訳) 大規模言語モデル(llm)は自然言語理解と生成において素晴らしい能力を示している。 しかし、より深いユーザー理解とレコメンデーションプラットフォームでのパーソナライズされたユーザーエクスペリエンス改善のポテンシャルは、ほとんど未解決である。 本稿は,このギャップに対処することを目的とする。 現在、レコメンダシステムはプラットフォーム上での過去の活動をエンコードすることでユーザーの興味を捉えている。 生成されたユーザ表現は検証や解釈が難しい。 一方、もし彼らが人生で追求する関心について人々に尋ねるならば、私はウクレレを習い始めたばかりか、土曜の夜をライブで見るのが好き、垂直の庭を植えたいなど、彼らの趣味について話すかもしれません。 我々は、広範囲にわたる実験を通じて、LLMを基礎モデルとして、ユーザー活動を通じて推論し、その興味を人間と同じように、微妙で興味深い方法で記述することができると論じる。 我々は、ユーザーの興味を永続的で包括的なもの、つまり非トランザクティブなものと定義する。 これらは、ニュアンスとパーソナライズされた説明から最も恩恵を受けると信じている関心事です。 まず興味のある旅をパーソナライズして抽出し,そこから抽出した旅をllmsで要約し,マイショット・プロンプトやプロンプト・チューニング,微調整といった手法を紹介する。 大規模産業プラットフォームにおけるLLMのユーザジャーニーの命名を促す結果は、より深く、より解釈可能で、制御可能なユーザ理解を提供する上で、これらのモデルの大きな可能性を示している。 LLMを利用したユーザ理解は、旅行に気付き、補助的であり、摩擦のない会話を可能にするレコメンデーションプラットフォームにおける、まったく新しいユーザエクスペリエンスの足掛かりになると考えています。

Large language models (LLMs) have shown impressive capabilities in natural language understanding and generation. Their potential for deeper user understanding and improved personalized user experience on recommendation platforms is, however, largely untapped. This paper aims to address this gap. Recommender systems today capture users' interests through encoding their historical activities on the platforms. The generated user representations are hard to examine or interpret. On the other hand, if we were to ask people about interests they pursue in their life, they might talk about their hobbies, like I just started learning the ukulele, or their relaxation routines, e.g., I like to watch Saturday Night Live, or I want to plant a vertical garden. We argue, and demonstrate through extensive experiments, that LLMs as foundation models can reason through user activities, and describe their interests in nuanced and interesting ways, similar to how a human would. We define interest journeys as the persistent and overarching user interests, in other words, the non-transient ones. These are the interests that we believe will benefit most from the nuanced and personalized descriptions. We introduce a framework in which we first perform personalized extraction of interest journeys, and then summarize the extracted journeys via LLMs, using techniques like few-shot prompting, prompt-tuning and fine-tuning. Together, our results in prompting LLMs to name extracted user journeys in a large-scale industrial platform demonstrate great potential of these models in providing deeper, more interpretable, and controllable user understanding. We believe LLM powered user understanding can be a stepping stone to entirely new user experiences on recommendation platforms that are journey-aware, assistive, and enabling frictionless conversation down the line.
翻訳日:2023-05-26 19:00:14 公開日:2023-05-24
# 重ね合わせのオブザーバーと無信号原理

Observers in superposition and the no-signaling principle ( http://arxiv.org/abs/2305.15497v1 )

ライセンス: Link先を確認
Veronika Baumann and Caslav Brukner(参考訳) ウィグナーの友人実験(英語: wigner's friend experiment)は、いわゆるスーパーオブザーバー(英語版)(wigner)が物理系で量子測定を行った別の観測者(友人)を観察する思考実験である。 この設定では、wignerは友人のシステムと、友人の計測に関わる他の自由度を1つの量子系として扱う。 一般に、ワイグナーの測定は、スーパーオブザーバーによる測定の後、観測者の記憶レジスタに格納された結果は、ワイグナーによって測定される前の友人が測定した結果ともはや同じではないように、友人の測定結果の内部記録を変化させる。 ここでは、変更に関する情報を格納する追加のメモリレジスタによってモデル化できる変更に対する友人の認識が、拡張されたWigner-FriendシナリオにおけるNo-signaling条件と矛盾することを示す。

The Wigner's friend experiment is a thought experiment in which a so-called superobserver (Wigner) observes another observer (the friend) who has performed a quantum measurement on a physical system. In this setup Wigner treats the friend the system and potentially other degrees of freedom involved in the friend's measurement as one joint quantum system. In general, Wigner's measurement changes the internal record of the friend's measurement result such that after the measurement by the superobserver the result stored in the observer's memory register is no longer the same as the result the friend obtained at her measurement, i.e. before she was measured by Wigner. Here, we show that any awareness by the friend of such a change, which can be modeled by an additional memory register storing the information about the change, conflicts with the no-signaling condition in extended Wigner-friend scenarios.
翻訳日:2023-05-26 18:59:43 公開日:2023-05-24
# バーンイン時間を短縮した割引mdpのモデルフリー強化学習

Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In Time ( http://arxiv.org/abs/2305.15546v1 )

ライセンス: Link先を確認
Xiang Ji, Gen Li(参考訳) 強化学習における重要な問題は、最適方針の学習である。 本研究は,オンライン環境下でのテーブル型無限ホライゾンディスカウントマルコフ決定プロセスで行った。 既存のアルゴリズムは、後悔の最適性を達成できないか、高いメモリと計算コストを発生させるかのいずれかである。 さらに、既存の最適アルゴリズムはすべて、最適なサンプル効率を達成するために長いバーンイン時間を必要とし、すなわち、サンプルサイズが高い閾値を超えない限り、その最適性は保証されない。 分散削減を用いたモデルフリーなアルゴリズムと,実行ポリシーを緩やかに切り換える新しい手法を導入することで,オープンな問題を両立する。 これは割引設定における最初の後悔の最適モデルフリーアルゴリズムであり、バーンイン時間の短縮によるメリットがある。

A crucial problem in reinforcement learning is learning the optimal policy. We study this in tabular infinite-horizon discounted Markov decision processes under the online setting. The existing algorithms either fail to achieve regret optimality or have to incur a high memory and computational cost. In addition, existing optimal algorithms all require a long burn-in time in order to achieve optimal sample efficiency, i.e., their optimality is not guaranteed unless sample size surpasses a high threshold. We address both open problems by introducing a model-free algorithm that employs variance reduction and a novel technique that switches the execution policy in a slow-yet-adaptive manner. This is the first regret-optimal model-free algorithm in the discounted setting, with the additional benefit of a low burn-in time.
翻訳日:2023-05-26 18:52:08 公開日:2023-05-24
# 非参照画像とビデオ品質メトリクスに対する高速CNNによる摂動攻撃

Fast Adversarial CNN-based Perturbation Attack on No-Reference Image- and Video-Quality Metrics ( http://arxiv.org/abs/2305.15544v1 )

ライセンス: Link先を確認
Ekaterina Shumitskaya, Anastasia Antsiferova, Dmitriy Vatolin(参考訳) 現代のニューラルネットワークベースのノン参照画像とビデオ品質メトリクスは、フル参照メトリクスのパフォーマンスを示している。 これらの指標はコンピュータビジョン法における視覚的品質の向上やビデオ処理法の比較に広く用いられている。 しかし、これらの指標は従来の敵攻撃には安定せず、誤った結果をもたらす可能性がある。 本研究の目的は、非参照指標の適用性の境界について検討することであり、本稿では、非参照品質指標に対する高速な対向摂動攻撃を提案する。 提案した攻撃(FACPA)は,リアルタイムビデオ処理および圧縮アルゴリズムの前処理ステップとして利用することができる。 この研究は、安定したニューラルネットワークベースの非参照品質メトリクスの設計にさらなる支援を与えることができる。

Modern neural-network-based no-reference image- and video-quality metrics exhibit performance as high as full-reference metrics. These metrics are widely used to improve visual quality in computer vision methods and compare video processing methods. However, these metrics are not stable to traditional adversarial attacks, which can cause incorrect results. Our goal is to investigate the boundaries of no-reference metrics applicability, and in this paper, we propose a fast adversarial perturbation attack on no-reference quality metrics. The proposed attack (FACPA) can be exploited as a preprocessing step in real-time video processing and compression algorithms. This research can yield insights to further aid in designing of stable neural-network-based no-reference quality metrics.
翻訳日:2023-05-26 18:51:56 公開日:2023-05-24
# 転向学習の鍵は再フォーカス

Refocusing Is Key to Transfer Learning ( http://arxiv.org/abs/2305.15542v1 )

ライセンス: Link先を確認
Baifeng Shi, Siyu Gai, Trevor Darrell, Xin Wang(参考訳) トランスファーラーニングでは、トレーニング済みのモデルを下流タスクに適応させる。 しかし,現在の移動学習手法はタスク関連機能に焦点を合わせないことが多い。 本研究は,転校学習において注意を再び集中することの重要性を強調する。 本稿では,タスク関連要素を選択してモデルにフィードバックし,タスク固有の特徴に注意を向けるとともに,事前学習したバックボーンを凍結する新しい転送学習アルゴリズムであるTop-Down Attention Steering(TOAST)を紹介する。 注意のみに焦点を合わせることで、TOASTは、調整可能なパラメータのごく一部を持ちながら、多くの移行学習ベンチマークで最先端の結果を達成する。 完全な微調整、LoRA、即時チューニングと比較すると、TOASTは様々な細かい視覚分類データセット(例えばFGVCでは81.1%から86.2%)のパフォーマンスを大幅に向上させる。 TOASTはまた、命令追従言語生成において、完全に調整されたAlpacaモデルよりも優れている。 コードはhttps://github.com/bfshi/TOASTで入手できる。

Transfer learning involves adapting a pre-trained model to novel downstream tasks. However, we observe that current transfer learning methods often fail to focus on task-relevant features. In this work, we emphasize the importance of refocusing the attention in transfer learning. We introduce Top-Down Attention Steering (TOAST), a novel transfer learning algorithm that keeps the pre-trained backbone frozen, while selecting the task-relevant elements in the output and feeding them back to the model to steer its attention to the task-specific features. By refocusing the attention only, TOAST achieves state-of-the-art results on a number of transfer learning benchmarks, while having a small portion of tunable parameters. Compared to fully fine-tuning, LoRA, and prompt tuning, TOAST substantially improves performance across a range of fine-grained visual classification datasets (e.g., 81.1% -> 86.2% on FGVC). TOAST also outperforms the fully fine-tuned Alpaca model on instruction-following language generation. Code is available at https://github.com/bfshi/TOAST.
翻訳日:2023-05-26 18:51:47 公開日:2023-05-24
# 自然言語から一階論理翻訳への大規模言語モデルの力の調和

Harnessing the Power of Large Language Models for Natural Language to First-Order Logic Translation ( http://arxiv.org/abs/2305.15541v1 )

ライセンス: Link先を確認
Yuan Yang, Siheng Xiong, Ali Payani, Ehsan Shareghi and Faramarz Fekri(参考訳) 自然言語文を一階述語論理(NL-FOL翻訳)に変換することは、NLPおよび形式論理文学における長年の課題である。 本稿では,単一GPU上でLoRAを用いたNL-FOL翻訳のためのLLaMA-7BモデルであるLogicLLaMAを紹介する。 LogicLLaMAは、自然言語を直接FOLルールに変換することができ、GPT-3.5より優れている。 logicllamaはまた、gpt-3.5で予測されるfolルールを補正する機能を備えており、コストのごく一部でgpt-4と同等の性能を達成できる。 この補正能力は、最初は合成摂動型NL-FOLペアを訓練し、その後、FOL検証器を報酬モデルとしてGPT-3.5出力上でRLHFを微調整する、教師付き微調整(SFT)+強化学習(RLHF)フレームワークによって達成された。 LogicLLaMAをトレーニングするために、GPT-4から収集した34Kの高品質で多様な文レベルのNL-FOLペアからなるデータセットであるMALLS(大規模言語$\textbf{M}$odel gener$\textbf{A}$ted N$\textbf{L}$-FO$\textbf{L}$ pair$\textbf{S}$)を提示する。 データセットは、ペアに対してGPT-4をプロンプトするパイプラインを実装し、プロンプトを動的に調整することで、さまざまなレベルの複雑さでリッチで多様なコンテキストを持つペアの収集を保証し、生成されたFOLルールの有効性を検証する。 コード、重み、およびデータは$\href{https://github.com/gblackout/LogicLLaMA}{{\small \text{https://github.com/gblackout/LogicLLaMA}}}$で入手できる。

Translating natural language sentences to first-order logic (NL-FOL translation) is a longstanding challenge in the NLP and formal logic literature. This paper introduces LogicLLaMA, a LLaMA-7B model fine-tuned for NL-FOL translation using LoRA on a single GPU. LogicLLaMA is capable of directly translating natural language into FOL rules, which outperforms GPT-3.5. LogicLLaMA is also equipped to correct FOL rules predicted by GPT-3.5, and can achieve similar performance as GPT-4 with a fraction of the cost. This correction ability was achieved by a novel supervised fine-tuning (SFT) + reinforcement learning with human feedback (RLHF) framework, which initially trains on synthetically perturbed NL-FOL pairs to encourage chain-of-thought reasoning and then fine-tunes with RLHF on GPT-3.5 outputs using a FOL verifier as the reward model. To train LogicLLaMA, we present MALLS (large language $\textbf{M}$odel gener$\textbf{A}$ted N$\textbf{L}$-FO$\textbf{L}$ pair$\textbf{S}$), a dataset of 34K high-quality and diverse sentence-level NL-FOL pairs collected from GPT-4. The dataset was created by implementing a pipeline that prompts GPT-4 for pairs, and dynamically adjusts the prompts to ensure the collection of pairs with rich and diverse contexts at different levels of complexity, and verifies the validity of the generated FOL rules. Codes, weights, and data are available at $\href{https://github.com/gblackout/LogicLLaMA}{{\small \text{https://github.com/gblackout/LogicLLaMA}}}$.
翻訳日:2023-05-26 18:51:28 公開日:2023-05-24
# 選択された措置の効用を改善するための私的合成データ処理

Post-processing Private Synthetic Data for Improving Utility on Selected Measures ( http://arxiv.org/abs/2305.15538v1 )

ライセンス: Link先を確認
Hao Wang, Shivchander Sudalairaj, John Henning, Kristjan Greenewald, Akash Srivastava(参考訳) 既存のプライベート合成データ生成アルゴリズムは、ダウンストリームタスクに依存しない。 しかし、エンドユーザは、合成データが満たさなければならない特定の要件を持つかもしれない。 これらの要件を満たさないと、ダウンストリーム使用のためのデータの有用性が大幅に低下する可能性がある。 本稿では,エンドユーザが選択した尺度に対する合成データの有効性を向上し,強力なプライバシー保証とデータセットの品質を保った後処理手法を提案する。 提案手法では, 効率的な確率的一階法アルゴリズムを用いて, 最適再サンプリング重みを求めることにより, 選択した実用対策に適合しないサンプルを抽出する。 総合的な数値実験を通じて,本手法は,複数のベンチマークデータセットと最先端合成データ生成アルゴリズムをまたいだ合成データの有用性を一貫して向上させることを実証する。

Existing private synthetic data generation algorithms are agnostic to downstream tasks. However, end users may have specific requirements that the synthetic data must satisfy. Failure to meet these requirements could significantly reduce the utility of the data for downstream use. We introduce a post-processing technique that improves the utility of the synthetic data with respect to measures selected by the end user, while preserving strong privacy guarantees and dataset quality. Our technique involves resampling from the synthetic data to filter out samples that do not meet the selected utility measures, using an efficient stochastic first-order algorithm to find optimal resampling weights. Through comprehensive numerical experiments, we demonstrate that our approach consistently improves the utility of synthetic data across multiple benchmark datasets and state-of-the-art synthetic data generation algorithms.
翻訳日:2023-05-26 18:50:48 公開日:2023-05-24
# RAND:量子Seq2seqモデルのロバスト性はノームを意識している

RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models ( http://arxiv.org/abs/2305.15536v1 )

ライセンス: Link先を確認
David Qiu, David Rim, Shaojin Ding, Oleg Rybakov, Yanzhang He(参考訳) ニューラルネットワークのサイズが急速に大きくなるにつれ、モデル圧縮は研究の重要な領域となっている。 量子化は、大規模モデルのモデルサイズ、メモリアクセス、計算負荷を減らす効果的な手法である。 量子化認識訓練(qat)技術の最近の進歩にもかかわらず、ほとんどの論文は、シーケンスタスクと異なるトレーニングダイナミクスを持つコンピュータビジョンタスクに焦点を当てた評価を示す。 本稿では,1,000時間から100万時間にわたる音声認識データセットのセット全体にわたる4ビットseq2seqモデルに対する,ストレートスルー推定,擬似量子化雑音,学習可能なスケールパラメータ,クリップングなどの一般的な手法の影響を,一台の機械翻訳データセットで評価し,音声以外の応用性について述べる。 実験により,量子化スケールに帰還する正規化信号が不十分な場合,ノイズに基づくQATが苦しむことを報告した。 そこで本研究では,QATプロセスの複雑さを低減し,モデル精度を向上させる手法を提案する。 精度の向上により、ノイズベースのQATの他の利点を活用できるようになる。 1)混合精度モードでよく機能する単一のモデルを訓練し、 2)長文音声認識における一般化の改善

With the rapid increase in the size of neural networks, model compression has become an important area of research. Quantization is an effective technique at decreasing the model size, memory access, and compute load of large models. Despite recent advances in quantization aware training (QAT) technique, most papers present evaluations that are focused on computer vision tasks, which have different training dynamics compared to sequence tasks. In this paper, we first benchmark the impact of popular techniques such as straight through estimator, pseudo-quantization noise, learnable scale parameter, clipping, etc. on 4-bit seq2seq models across a suite of speech recognition datasets ranging from 1,000 hours to 1 million hours, as well as one machine translation dataset to illustrate its applicability outside of speech. Through the experiments, we report that noise based QAT suffers when there is insufficient regularization signal flowing back to the quantization scale. We propose low complexity changes to the QAT process to improve model accuracy (outperforming popular learnable scale and clipping methods). With the improved accuracy, it opens up the possibility to exploit some of the other benefits of noise based QAT: 1) training a single model that performs well in mixed precision mode and 2) improved generalization on long form speech recognition.
翻訳日:2023-05-26 18:50:36 公開日:2023-05-24
# インタラクティブからココンストラクティブなタスク学習へ

From Interactive to Co-Constructive Task Learning ( http://arxiv.org/abs/2305.15535v1 )

ライセンス: Link先を確認
Anna-Lisa Vollmer, Daniel Leidner, Michael Beetz, Britta Wrede(参考訳) 人間は、先行知識と重要な共同経験を生かした足場戦略を利用して、課題を解決するために必要なステップの合同理解と共同実行を得ることによって、社会的な仲間に新しい、あるいは適応されたタスクの適切な側面を教える能力を開発した。 このプロセスは、親子間相互作用において発見され分析され、教師と学習者の双方が共同でタスクに貢献できるように、'ココンストラクション'を構成する。 本稿では,ロボットが日常的に非熟練ユーザから学習できるように,この共構築プロセスにロボット対話学習の研究を集中させることを提案する。 以下に、対話型タスク学習に関する現在の提案を概観し、関連するインタラクションに関する主な貢献について論じる。 次に、共同構築の概念について議論し、大人とロボットの相互作用からの研究知見を要約し、その性質をより詳細に解明する。 この概要から最終的に、次元アーキテクチャ、表現、相互作用、説明可能性を伴う研究デシデラタを導出する。

Humans have developed the capability to teach relevant aspects of new or adapted tasks to a social peer with very few task demonstrations by making use of scaffolding strategies that leverage prior knowledge and importantly prior joint experience to yield a joint understanding and a joint execution of the required steps to solve the task. This process has been discovered and analyzed in parent-infant interaction and constitutes a ``co-construction'' as it allows both, the teacher and the learner, to jointly contribute to the task. We propose to focus research in robot interactive learning on this co-construction process to enable robots to learn from non-expert users in everyday situations. In the following, we will review current proposals for interactive task learning and discuss their main contributions with respect to the entailing interaction. We then discuss our notion of co-construction and summarize research insights from adult-child and human-robot interactions to elucidate its nature in more detail. From this overview we finally derive research desiderata that entail the dimensions architecture, representation, interaction and explainability.
翻訳日:2023-05-26 18:50:13 公開日:2023-05-24
# Representation Online Matters: Search and Recommender Systemsにおけるエンド・ツー・エンドの多様化

Representation Online Matters: Practical End-to-End Diversification in Search and Recommender Systems ( http://arxiv.org/abs/2305.15534v1 )

ライセンス: Link先を確認
Pedro Silva, Bhawna Juneja, Shloka Desai, Ashudeep Singh, Nadia Fawaz(参考訳) オンラインプラットフォームの利用が全人口層で拡大を続ける中、ユーザーはコンテンツに代表されるような感覚を欲しがることが多い。 検索結果とレコメンデーションの表現を改善するため,検索からランキングまで,各段階の多様なコンテンツの流れを確実にするエンドツーエンドの多様化を導入する。 Pinterestプラットフォーム上で、検索、関連製品、New User Homefeedを含む複数のプロダクションサーフェスでスケーラブルな多様化メカニズムを開発し、実験し、展開し、美容とファッションコンテンツにおけるさまざまなスキントーンの表現を改善する。 生産システムの多様化には、3つのコンポーネントが含まれている: 多様化を促す要求の識別、検索段階における大規模なコンテンツコーパスからの多様なコンテンツの検索、そして最後に、ランキング段階における自己調整方法で多様性と有効性のトレードオフのバランス。 提案手法は, 検索段階における強力な論理演算子の利用から, 検索段階におけるバケット化検索, 欲張りな再ランク付け者から, ランキング段階における決定的ポイントプロセスを用いた多目的最適化へ進化し, 迅速なイテレーションとスケーラブルな拡張を可能としながら, 多様性と有用性をバランスをとる。 私たちの実験は、これらのアプローチが多様性のメトリクスを著しく改善し、実用度指標にプラスの影響を及ぼし、生産における質的および定量的にユーザ満足度を向上させることを示唆しています。

As the use of online platforms continues to grow across all demographics, users often express a desire to feel represented in the content. To improve representation in search results and recommendations, we introduce end-to-end diversification, ensuring that diverse content flows throughout the various stages of these systems, from retrieval to ranking. We develop, experiment, and deploy scalable diversification mechanisms in multiple production surfaces on the Pinterest platform, including Search, Related Products, and New User Homefeed, to improve the representation of different skin tones in beauty and fashion content. Diversification in production systems includes three components: identifying requests that will trigger diversification, ensuring diverse content is retrieved from the large content corpus during the retrieval stage, and finally, balancing the diversity-utility trade-off in a self-adjusting manner in the ranking stage. Our approaches, which evolved from using Strong-OR logical operator to bucketized retrieval at the retrieval stage and from greedy re-rankers to multi-objective optimization using determinantal point processes for the ranking stage, balances diversity and utility while enabling fast iterations and scalable expansion to diversification over multiple dimensions. Our experiments indicate that these approaches significantly improve diversity metrics, with a neutral to a positive impact on utility metrics and improved user satisfaction, both qualitatively and quantitatively, in production.
翻訳日:2023-05-26 18:49:53 公開日:2023-05-24
# 自動リフュージケース分析: 法的実践者を支援するNLPパイプライン

Automated Refugee Case Analysis: An NLP Pipeline for Supporting Legal Practitioners ( http://arxiv.org/abs/2305.15533v1 )

ライセンス: Link先を確認
Claire Barale, Michael Rovatsos, Nehal Bhuta(参考訳) 本稿では,訴訟事例から対象情報を検索,処理,抽出するためのエンドツーエンドパイプラインを提案する。 カナダにおける難民法を事例として,未研究の法域を調査した。 過去の類似事例のケースローを検索することは、我々のプロトタイプのエンドユーザーである弁護士と裁判官の両方にとって重要な法的作業である。 日付などの従来の名義認識ラベルは法的作業において有意義な情報を提供するが,既存のモデルを拡張し,難民事例から合計19種類の有用なカテゴリーを検索することを提案する。 ケースの新たなデータセットを作成した後、我々は最先端のニューラルネームエンタリティ認識(NER)に基づいて情報抽出を行う。 2つの変圧器モデルを含む異なるアーキテクチャをテストし、コンテキストと非コンテキストの埋め込みを用いて、汎用目的とドメイン固有の事前学習を比較した。 その結果、法的なデータで事前トレーニングされたモデルは、サイズが小さいにもかかわらず最もよく機能することが明らかとなり、ドメインマッチングがネットワークアーキテクチャよりも大きな効果を持つことが示唆された。 F1スコアは5つのカテゴリーで90%以上、さらに4つのカテゴリで80%以上を達成する。

In this paper, we introduce an end-to-end pipeline for retrieving, processing, and extracting targeted information from legal cases. We investigate an under-studied legal domain with a case study on refugee law in Canada. Searching case law for past similar cases is a key part of legal work for both lawyers and judges, the potential end-users of our prototype. While traditional named-entity recognition labels such as dates provide meaningful information in legal work, we propose to extend existing models and retrieve a total of 19 useful categories of items from refugee cases. After creating a novel data set of cases, we perform information extraction based on state-of-the-art neural named-entity recognition (NER). We test different architectures including two transformer models, using contextual and non-contextual embeddings, and compare general purpose versus domain-specific pre-training. The results demonstrate that models pre-trained on legal data perform best despite their smaller size, suggesting that domain matching had a larger effect than network architecture. We achieve a F1 score above 90% on five of the targeted categories and over 80% on four further categories.
翻訳日:2023-05-26 18:49:25 公開日:2023-05-24
# ノード分類のための編集可能なグラフニューラルネットワーク

Editable Graph Neural Network for Node Classifications ( http://arxiv.org/abs/2305.15529v1 )

ライセンス: Link先を確認
Zirui Liu, Zhimeng Jiang, Shaochen Zhong, Kaixiong Zhou, Li Li, Rui Chen, Soo-Hyun Choi, Xia Hu(参考訳) グラフニューラルネットワーク(gnns)は、金融ネットワークにおける信用リスク評価やソーシャルネットワークにおける偽ニュース検出など、多くのグラフベースの学習問題で顕著な成功を収めている。 しかし、訓練されたGNNは依然として誤りを犯し、これらの誤りは社会に重大な悪影響を及ぼす可能性がある。 間違った予測対象のサンプルに対するモデルの振る舞いを補正する \textit{model editing} は、関係のないサンプルではモデル予測を変更せず、コンピュータビジョンや自然言語処理の分野で大きな関心を集めている。 しかし、グラフニューラルネットワーク(GNN)のモデル編集は、GNNの広範な適用性にもかかわらず、ほとんど研究されていない。 このギャップを埋めるために、既存のモデル編集手法がGNNの予測精度を著しく低下させ(最大50\%の精度低下)、多層認識(MLP)ではわずかに精度低下することを示した。 この観察の背景にある理論的根拠は、GNNのノード集約がグラフ全体に編集効果を広げるということである。 この伝播はノード表現を元の表現から遠くまで押し上げる。 本研究の目的は,非正規化ノード上でのモデル予測を補正するための,近傍の伝搬自由アプローチである \underline{E}ditable \underline{G}raph \underline{N}eural \underline{N}etworks (EGNN) を提案することである。 具体的には、EGNNは、モデル編集中にGNNの重みが凍結される、下層のGNNにMPPを縫い付ける。 このようにして、EGNNは、ノード予測に隣接する伝搬スキームを利用して編集中の伝搬を無効にし、良好な結果を得る。 実験によると、EGNNは既存のベースラインよりも、有効性(精度低下の予測の誤りの修正)、一般化可能性(他の類似ノードの誤予測の修正)、各種グラフデータセットの効率性(トレーニング時間とメモリの低下)が優れている。

Despite Graph Neural Networks (GNNs) have achieved prominent success in many graph-based learning problem, such as credit risk assessment in financial networks and fake news detection in social networks. However, the trained GNNs still make errors and these errors may cause serious negative impact on society. \textit{Model editing}, which corrects the model behavior on wrongly predicted target samples while leaving model predictions unchanged on unrelated samples, has garnered significant interest in the fields of computer vision and natural language processing. However, model editing for graph neural networks (GNNs) is rarely explored, despite GNNs' widespread applicability. To fill the gap, we first observe that existing model editing methods significantly deteriorate prediction accuracy (up to $50\%$ accuracy drop) in GNNs while a slight accuracy drop in multi-layer perception (MLP). The rationale behind this observation is that the node aggregation in GNNs will spread the editing effect throughout the whole graph. This propagation pushes the node representation far from its original one. Motivated by this observation, we propose \underline{E}ditable \underline{G}raph \underline{N}eural \underline{N}etworks (EGNN), a neighbor propagation-free approach to correct the model prediction on misclassified nodes. Specifically, EGNN simply stitches an MLP to the underlying GNNs, where the weights of GNNs are frozen during model editing. In this way, EGNN disables the propagation during editing while still utilizing the neighbor propagation scheme for node prediction to obtain satisfactory results. Experiments demonstrate that EGNN outperforms existing baselines in terms of effectiveness (correcting wrong predictions with lower accuracy drop), generalizability (correcting wrong predictions for other similar nodes), and efficiency (low training time and memory) on various graph datasets.
翻訳日:2023-05-26 18:49:04 公開日:2023-05-24
# ファンタスティックDNN分類器とデータ無しで識別する方法

Fantastic DNN Classifiers and How to Identify them without Data ( http://arxiv.org/abs/2305.15563v1 )

ライセンス: Link先を確認
Nathaniel Dean and Dilip Sarkar(参考訳) 現在のアルゴリズムとアーキテクチャは、サンプルデータから優れたDNN分類器モデルを作成することができる。 一般的に、より大きなトレーニングデータセットはより良いモデル推定をもたらし、テストパフォーマンスが向上する。 既存の一般化性能予測方法は、ホールドアウトテスト例に基づいている。 我々の知る限りでは、現在、テストデータなしで訓練済みのDNN分類器の品質を推定できる手法は存在しない。 本稿では,トレーニングされたdnn分類器の品質を,サンプルデータなしで評価可能であることを示す。 DNNは特徴抽出器と特徴分類器から構成されていると考え,特徴抽出器の出力を分類器に供給する。 提案手法は,ネットワークの出力におけるクロスエントロピー損失関数を最小化することにより,各クラスの入力空間におけるクラスプロトタイプを反復的に作成する。 これらのプロトタイプとその特徴関係を利用して分類器の品質を明らかにする。 1つはプロトタイプの機能を使い、もう1つは各プロトタイプに対応する逆の例を使っています。 実験により,試験例から得られた精度は,提案した指標から得られた品質指標に直接比例することを示した。 我々は,Tiny ImageNet, CIFAR100, CIFAR10データセットを用いてResNet18の観測を行った。 提案したメトリクスは、テスト例なしで2つ以上の分類器のパフォーマンスを比較するために使用できる。

Current algorithms and architecture can create excellent DNN classifier models from example data. In general, larger training datasets result in better model estimations, which improve test performance. Existing methods for predicting generalization performance are based on hold-out test examples. To the best of our knowledge, at present no method exists that can estimate the quality of a trained DNN classifier without test data. In this paper, we show that the quality of a trained DNN classifier can be assessed without any example data. We consider DNNs to be composed of a feature extractor and a feature classifier; the feature extractor's output is fed to the classifier. The proposed method iteratively creates class prototypes in the input space for each class by minimizing a cross-entropy loss function at the output of the network. We use these prototypes and their feature relationships to reveal the quality of the classifier. We have developed two metrics: one using the features of the prototypes and the other using adversarial examples corresponding to each prototype. Empirical evaluations show that accuracy obtained from test examples is directly proportional to quality measures obtained from the proposed metrics. We report our observations for ResNet18 with Tiny ImageNet, CIFAR100, and CIFAR10 datasets. The proposed metrics can be used to compare performances of two or more classifiers without test examples.
翻訳日:2023-05-26 18:44:02 公開日:2023-05-24
# 秩序にしよう - 自己回帰グラフ生成における秩序の再考

Let There Be Order: Rethinking Ordering in Autoregressive Graph Generation ( http://arxiv.org/abs/2305.15562v1 )

ライセンス: Link先を確認
Jie Bu, Kazi Sajeed Mehrab, Anuj Karpatne(参考訳) 条件付きグラフ生成タスクは、入力条件のセットが与えられたグラフを生成するためにモデルを訓練する。 従来の研究の多くは、ノードやエッジなどのグラフコンポーネントを漸進的に生成するために自己回帰モデルを用いていた。 しかしながら、グラフは通常、コンポーネント間の自然な順序付けを欠いているため、グラフをトークン列に変換するのは簡単ではない。 先行研究は、グラフをシーケンスに変換するために、従来のヒューリスティックやBFS(Broadth-first Search)やDFS(Deep-first Search)といったグラフトラバーサル手法に大きく依存していたが、グラフ生成に対する順序付けの影響はほとんど調査されていない。 本稿では,(1)自己回帰型グラフ生成モデルにおける順序付けの重要な役割を強調する,(2)次元化問題として順序付けを知覚する新しい理論的枠組みを提案することで,順序付けと生成したグラフ精度の関係をより深く理解すること,(3)グラフトークンの次元化を行うための学習ベースの順序付けスキームである「latent sort」を導入することで,この問題に寄与する。 実験の結果,多岐にわたるグラフ生成タスクにおける潜在ソートの有効性が示され,自己回帰型グラフ生成のための学習に基づく順序付けのさらなる探索と開発が期待できる。

Conditional graph generation tasks involve training a model to generate a graph given a set of input conditions. Many previous studies employ autoregressive models to incrementally generate graph components such as nodes and edges. However, as graphs typically lack a natural ordering among their components, converting a graph into a sequence of tokens is not straightforward. While prior works mostly rely on conventional heuristics or graph traversal methods like breadth-first search (BFS) or depth-first search (DFS) to convert graphs to sequences, the impact of ordering on graph generation has largely been unexplored. This paper contributes to this problem by: (1) highlighting the crucial role of ordering in autoregressive graph generation models, (2) proposing a novel theoretical framework that perceives ordering as a dimensionality reduction problem, thereby facilitating a deeper understanding of the relationship between orderings and generated graph accuracy, and (3) introducing "latent sort," a learning-based ordering scheme to perform dimensionality reduction of graph tokens. Our experimental results showcase the effectiveness of latent sort across a wide range of graph generation tasks, encouraging future works to further explore and develop learning-based ordering schemes for autoregressive graph generation.
翻訳日:2023-05-26 18:43:42 公開日:2023-05-24
# ファンデーションモデルAPIによる異なるプライベートな合成データ 1:画像

Differentially Private Synthetic Data via Foundation Model APIs 1: Images ( http://arxiv.org/abs/2305.15560v1 )

ライセンス: Link先を確認
Zinan Lin, Sivakanth Gopi, Janardhan Kulkarni, Harsha Nori, Sergey Yekhanin(参考訳) 機密情報を漏らすことなく、元のプライベートデータと密接に類似した差分プライベート(DP)合成データを生成することは、現在のデータ駆動の世界におけるプライバシーの懸念を軽減するスケーラブルな方法である。 このタスクのためにカスタマイズされたモデルをトレーニングする現在のプラクティスとは対照的に、我々はDP Synthetic DataをAPI(DPSDA)経由で生成することを目指しています。 このようなapiベース、トレーニングフリーのアプローチは、最近のapiベースのアプリ数の増加の例のように、デプロイが容易です。 これらのアプローチは、モデル重みがリリースされていない間、推論apiを通じてアクセス可能な大規模な基盤モデルのパワーを活用できる。 しかしこれは、厳格に制限されたモデルアクセスと、APIプロバイダからプライバシを保護する必要性により、より大きな課題が伴う。 本稿では,この問題を解決するために,PE(Private Evolution)と呼ばれる新しいフレームワークを提案する。 驚いたことに、PEはモデルトレーニングなしで、最先端のSOTA(State-of-the-art)メソッドにマッチしたり、性能を上回ります。 例えば、CIFAR10(パブリックデータとして ImageNet を使用)では、プライバシコストの epsilon=0.67 で FID<=7.9 を獲得し、以前の SOTA を epsilon=32 から大幅に改善した。 さらに,高解像度画像の少ないプライベートデータセットに挑戦するために,安定拡散のような大規模基盤モデルにPEを適用することを実証する。

Generating differentially private (DP) synthetic data that closely resembles the original private data without leaking sensitive user information is a scalable way to mitigate privacy concerns in the current data-driven world. In contrast to current practices that train customized models for this task, we aim to generate DP Synthetic Data via APIs (DPSDA), where we treat foundation models as blackboxes and only utilize their inference APIs. Such API-based, training-free approaches are easier to deploy as exemplified by the recent surge in the number of API-based apps. These approaches can also leverage the power of large foundation models which are accessible via their inference APIs while the model weights are unreleased. However, this comes with greater challenges due to strictly more restrictive model access and the additional need to protect privacy from the API provider. In this paper, we present a new framework called Private Evolution (PE) to solve this problem and show its initial promise on synthetic images. Surprisingly, PE can match or even outperform state-of-the-art (SOTA) methods without any model training. For example, on CIFAR10 (with ImageNet as the public data), we achieve FID<=7.9 with privacy cost epsilon=0.67, significantly improving the previous SOTA from epsilon=32. We further demonstrate the promise of applying PE on large foundation models such as Stable Diffusion to tackle challenging private datasets with a small number of high-resolution images.
翻訳日:2023-05-26 18:43:17 公開日:2023-05-24
# 長期制約付きランダム化ネットワークリソース割り当てのオンライン最適化

Online Optimization for Randomized Network Resource Allocation with Long-Term Constraints ( http://arxiv.org/abs/2305.15558v1 )

ライセンス: Link先を確認
Ahmed Sid-Ali, Ioannis Lambadaris, Yiqiang Q. Zhao, Gennady Shaikhet, and Shima Kheradmand(参考訳) 本稿では,シンプルな通信ネットワークにおける最適オンラインリソース予約問題について検討する。 ネットワークは、ローカル通信リンクによってリンクされた2つの計算ノードで構成される。 システムは個別の時間で動作し、管理者は各時間帯に、実際のジョブ要求が知られる前に、サーバのリソースを予約する。 予約は費用がかかる。 そして、クライアント要求が観測された後、追加の転送コストを発生させることで、要求を満たすためにジョブをひとつのサーバから別のサーバに転送することができる。 特定のジョブ要求が満足できない場合、ブロックされたジョブのそれぞれに支払う費用を負担する違反が発生します。 目標は、一定の予算制限の下で累積的違反と輸送コストを維持しながら、有限地平線上の総予約コストを最小化することである。 そこで本研究では,まず,予約可能な予約空間上のオンライン最適化問題から導出される確率分布の列に基づいて,予約をランダムに描画する自然に対する繰り返しゲームとして定式化する。 そこで本研究では,関連するk-ベンチマーク後悔の上限と累積制約違反の上限を示すオンラインサドルポイントアルゴリズムを提案する。 最後に,本アルゴリズムの性能を単純な決定論的資源割り当てポリシーと比較する数値実験について述べる。

In this paper, we study an optimal online resource reservation problem in a simple communication network. The network is composed of two compute nodes linked by a local communication link. The system operates in discrete time; at each time slot, the administrator reserves resources for servers before the actual job requests are known. A cost is incurred for the reservations made. Then, after the client requests are observed, jobs may be transferred from one server to the other to best accommodate the demands by incurring an additional transport cost. If certain job requests cannot be satisfied, there is a violation that engenders a cost to pay for each of the blocked jobs. The goal is to minimize the overall reservation cost over finite horizons while maintaining the cumulative violation and transport costs under a certain budget limit. To study this problem, we first formalize it as a repeated game against nature where the reservations are drawn randomly according to a sequence of probability distributions that are derived from an online optimization problem over the space of allowable reservations. We then propose an online saddle-point algorithm for which we present an upper bound for the associated K-benchmark regret together with an upper bound for the cumulative constraint violations. Finally, we present numerical experiments where we compare the performance of our algorithm with those of simple deterministic resource allocation policies.
翻訳日:2023-05-26 18:42:16 公開日:2023-05-24
# 収束速度の速い確率微分方程式の非パラメトリック学習

Non-Parametric Learning of Stochastic Differential Equations with Fast Rates of Convergence ( http://arxiv.org/abs/2305.15557v1 )

ライセンス: Link先を確認
Riccardo Bonalli and Alessandro Rudi(参考訳) 状態の離散時間観測に依存する非線形確率微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。 鍵となるアイデアは、本質的には、対応するフォッカー・プランク方程式のrkhsに基づく近似をそのような観察に適合させ、未知のドリフトと拡散係数の正則性が高まるとますます厳密になる学習率の理論的な推定を与えるものである。 本手法はカーネルベースでオフラインのプリプロセッシングを原理的に活用し,効率的な数値実装を実現する。

We propose a novel non-parametric learning paradigm for the identification of drift and diffusion coefficients of non-linear stochastic differential equations, which relies upon discrete-time observations of the state. The key idea essentially consists of fitting a RKHS-based approximation of the corresponding Fokker-Planck equation to such observations, yielding theoretical estimates of learning rates which, unlike previous works, become increasingly tighter when the regularity of the unknown drift and diffusion coefficients becomes higher. Our method being kernel-based, offline pre-processing may in principle be profitably leveraged to enable efficient numerical implementation.
翻訳日:2023-05-26 18:41:40 公開日:2023-05-24
# 量子センシングのための最適発電機

Optimal Generators for Quantum Sensing ( http://arxiv.org/abs/2305.15556v1 )

ライセンス: Link先を確認
Jarrod T. Reilly, John Drew Wilson, Simon B. J\"ager, Christopher Wilson, Murray J. Holland(参考訳) 量子状態が最も敏感なユニタリ進化を導出するための計算効率の高い手法を提案する。 これにより、量子センシングにおける絡み合った状態の最適利用を決定することができる。 本稿では、量子フィッシャー情報行列(QFIM)の最大固有値により、与えられた量子状態を用いた最大到達感度が決定され、重要なことに、対応する進化は、一致する固有ベクトルによって一意に決定されることを示す。 状態準備プロトコルではなくパラメータ符号化のプロセスを最適化するため、我々の手法はあらゆる量子センサに関係している。 この手順は、QFIMの固有ベクトルを通じて、最適な感度で通勤可観測物の最大セットを決定することで、自然にマルチパラメータ推定を最適化する。

We propose a computationally efficient method to derive the unitary evolution that a quantum state is most sensitive to. This allows one to determine the optimal use of an entangled state for quantum sensing, even in complex systems where intuition from canonical squeezing examples breaks down. In this paper we show that the maximal obtainable sensitivity using a given quantum state is determined by the largest eigenvalue of the quantum Fisher information matrix (QFIM) and, importantly, the corresponding evolution is uniquely determined by the coinciding eigenvector. Since we optimize the process of parameter encoding rather than focusing on state preparation protocols, our scheme is relevant for any quantum sensor. This procedure naturally optimizes multiparameter estimation by determining, through the eigenvectors of the QFIM, the maximal set of commuting observables with optimal sensitivity.
翻訳日:2023-05-26 18:41:14 公開日:2023-05-24
# 塑性注入による深層強化学習

Deep Reinforcement Learning with Plasticity Injection ( http://arxiv.org/abs/2305.15555v1 )

ライセンス: Link先を確認
Evgenii Nikishin, Junhyuk Oh, Georg Ostrovski, Clare Lyle, Razvan Pascanu, Will Dabney, Andr\'e Barreto(参考訳) 深部強化学習(RL)に使用されるニューラルネットワークは、徐々に可塑性を失い、新しいデータから学習する能力が低下することを示す証拠が増えているが、この現象の分析と緩和は、RLの可塑性、探索、性能の複雑な関係によって妨げられている。 本稿では,学習可能なパラメータの数や予測のバイアスを伴わずに,ネットワーク可塑性を高める最小限の介入である塑性注入を導入する。 第一に、診断ツールである$\unicode{x2014}$ インジェクションが性能を向上させると、エージェントのネットワークはその可塑性を失いつつあると結論付けることができる。 このツールにより,可塑性の欠如が性能高原の原因となるアタリ環境のサブセットを特定し,可塑性損失の理解と対策に関する今後の研究を動機付けることができる。 第2に、可塑性注入は、消耗した可塑性によるスクラッチからの学習や、性能を損なうことなくエージェントのネットワークを動的に成長させることで、RLトレーニングの計算効率を向上させるために用いられる。 その結果, 可塑性注入は, 計算効率が高く, 代替手法に比べて高い性能が得られることがわかった。

A growing body of evidence suggests that neural networks employed in deep reinforcement learning (RL) gradually lose their plasticity, the ability to learn from new data; however, the analysis and mitigation of this phenomenon is hampered by the complex relationship between plasticity, exploration, and performance in RL. This paper introduces plasticity injection, a minimalistic intervention that increases the network plasticity without changing the number of trainable parameters or biasing the predictions. The applications of this intervention are two-fold: first, as a diagnostic tool $\unicode{x2014}$ if injection increases the performance, we may conclude that an agent's network was losing its plasticity. This tool allows us to identify a subset of Atari environments where the lack of plasticity causes performance plateaus, motivating future studies on understanding and combating plasticity loss. Second, plasticity injection can be used to improve the computational efficiency of RL training if the agent has to re-learn from scratch due to exhausted plasticity or by growing the agent's network dynamically without compromising performance. The results on Atari show that plasticity injection attains stronger performance compared to alternative methods while being computationally efficient.
翻訳日:2023-05-26 18:40:48 公開日:2023-05-24
# 悪質か 良質か? 児童ビデオの効果的なコンテンツモデレーションに向けて

Malicious or Benign? Towards Effective Content Moderation for Children's Videos ( http://arxiv.org/abs/2305.15551v1 )

ライセンス: Link先を確認
Syed Hammad Ahmed, Muhammad Junaid Khan, H. M. Umer Qaisar and Gita Sukthankar(参考訳) オンラインビデオプラットフォームは毎分何百時間ものアップロードを受け取り、手動によるコンテンツのモデレーションを不可能にする。 残念なことに、悪意のあるビデオコンテンツの最も脆弱な消費者は、1歳から5歳までの子供たちだ。 コンテンツを収益化しようとするスカマーは、表面的には教育ビデオに似ている悪質な子供のビデオを制作するが、怖い、嫌悪なキャラクター、暴力的な動き、大きな音楽、騒々しい騒音を含む。 YouTubeのような著名なビデオホスティングプラットフォームは、悪質なコンテンツをそのプラットフォーム上で緩和する対策を講じているが、ポルノや著作権のあるコンテンツを削除することに焦点を当てた現在のコンテンツモデレーションツールによって、これらのビデオは検出されないことが多い。 本稿では,児童ビデオの自動コンテンツモデレーションに関する研究を促進するためのツールキットであるMalicious or Benignを紹介する。 ご紹介します 1)ビデオ用のカスタマイズ可能なアノテーションツール。 2)悪意のあるコンテンツのテストケースを検出するのが難しい新しいデータセット 3)最先端のビデオ分類モデルのベンチマークスイート。

Online video platforms receive hundreds of hours of uploads every minute, making manual content moderation impossible. Unfortunately, the most vulnerable consumers of malicious video content are children from ages 1-5 whose attention is easily captured by bursts of color and sound. Scammers attempting to monetize their content may craft malicious children's videos that are superficially similar to educational videos, but include scary and disgusting characters, violent motions, loud music, and disturbing noises. Prominent video hosting platforms like YouTube have taken measures to mitigate malicious content on their platform, but these videos often go undetected by current content moderation tools that are focused on removing pornographic or copyrighted content. This paper introduces our toolkit Malicious or Benign for promoting research on automated content moderation of children's videos. We present 1) a customizable annotation tool for videos, 2) a new dataset with difficult to detect test cases of malicious content and 3) a benchmark suite of state-of-the-art video classification models.
翻訳日:2023-05-26 18:40:24 公開日:2023-05-24
# 開量子中心スピン系における量子揺らぎと平均場限界の非ゲージ力学

Non-Gaussian dynamics of quantum fluctuations and mean-field limit in open quantum central spin systems ( http://arxiv.org/abs/2305.15547v1 )

ライセンス: Link先を確認
Federico Carollo(参考訳) 中心スピンが選択され、他の全てのバススピンと非局所的に相互作用する量子スピン系を考える。 これらの系は複雑な定常現象を示し、相互作用の集団的性質にもかかわらず、いまだにほとんど理解されていない非常に異なる動的レジームを示す。 ここでは、開量子中心スピン系の創発的動的挙動に関する正確な解析結果を得る。 後者は、相互作用強度と浴槽の大きさのスケーリングに大きく依存する。 浴の大きさの逆2乗根(典型的には1対多の相互作用)を持つスケーリングの場合、このシステムは熱力学の極限において、開量子(スピン-ボソン)Jaynes-Cummingsモデルとして振る舞う。 この状態において、非ガウス相関は動的に生成され、定常で持続する。 逆浴サイズのスケーリングでは、創発ダイナミクスは平均場型ではなく、平均場型である。 我々の研究は、中心スピン系の異なる力学状態の基本的な理解を提供し、それらの非平衡挙動を効率的に探索する可能性を開く。 さらに、一般のオープン量子多体系に関係しうる非平均場理論を強調している。

We consider quantum spin systems in which a central spin is singled out and interacts nonlocally with all other bath spins. These systems show complex stationary phenomena and very distinct dynamical regimes which, despite the collective nature of the interaction, are still largely not understood. Here, we derive exact analytical results on the emergent dynamical behavior of open quantum central spin systems. The latter crucially depends on the scaling of the interaction strength with the bath size. For scalings with the inverse square root of the bath size (typical of one-to-many interactions), the system behaves, in the thermodynamic limit, as an open quantum (spin-boson) Jaynes-Cummings model, whose bosonic mode encodes the quantum fluctuations of the bath spins. In this regime, non-Gaussian correlations are dynamically generated and persist at stationarity. For scalings with the inverse bath size, the emergent dynamics is instead of mean-field type. Our work provides a fundamental understanding of the different dynamical regimes of central spin systems and opens up the possibility of efficiently exploring their nonequilibrium behavior. It further highlights a non-mean-field theory that may become relevant for open quantum many-body systems in general.
翻訳日:2023-05-26 18:40:04 公開日:2023-05-24
# 人間はどのようにして逆境のテキストを知覚するか? 単語ベースの敵攻撃の有効性と自然性に関する現実チェック

How do humans perceive adversarial text? A reality check on the validity and naturalness of word-based adversarial attacks ( http://arxiv.org/abs/2305.15587v1 )

ライセンス: Link先を確認
Salijona Dyrmishi, Salah Ghamizi, Maxime Cordy(参考訳) 機械学習(ML)に基づく自然言語処理(NLP)モデルは、敵対的な攻撃の影響を受けやすい。 しかし、これらの攻撃の評価は、不可避性の性質を無視したり、限られた条件下で研究したりする。 これは、敵対的な摂動が人間の品質ゲートを通り抜けず、人間のチェックしたnlpシステムに対する真の脅威を表現しないことを意味する。 この制限を回避し、NLPモデルロバストネスの適正な評価(および改善)を可能にするため、378人の被験者を対象に、最先端の手法によるテキスト対逆例の知覚可能性について調査を行った。 我々の結果は、人間が関与する現実のシナリオでは、既存のテキスト攻撃は非現実的であることを示している。 これは、攻撃の成功に関する過度に楽観的な結論を報告した以前の小規模人間研究とは対照的である。 我々は本研究を通じて,テキスト攻撃の第一級成功基準として人間の認識能力を位置づけ,効果的な攻撃アルゴリズムを構築するための研究のためのガイダンスを提供し,適切な防御機構を設計することを期待している。

Natural Language Processing (NLP) models based on Machine Learning (ML) are susceptible to adversarial attacks -- malicious algorithms that imperceptibly modify input text to force models into making incorrect predictions. However, evaluations of these attacks ignore the property of imperceptibility or study it under limited settings. This entails that adversarial perturbations would not pass any human quality gate and do not represent real threats to human-checked NLP systems. To bypass this limitation and enable proper assessment (and later, improvement) of NLP model robustness, we have surveyed 378 human participants about the perceptibility of text adversarial examples produced by state-of-the-art methods. Our results underline that existing text attacks are impractical in real-world scenarios where humans are involved. This contrasts with previous smaller-scale human studies, which reported overly optimistic conclusions regarding attack success. Through our work, we hope to position human perceptibility as a first-class success criterion for text attacks, and provide guidance for research to build effective attack algorithms and, in turn, design appropriate defence mechanisms.
翻訳日:2023-05-26 18:32:12 公開日:2023-05-24
# 多様体拡散場

Manifold Diffusion Fields ( http://arxiv.org/abs/2305.15586v1 )

ライセンス: Link先を確認
Ahmed A. Elhag, Joshua M. Susskind, Miguel Angel Bautista(参考訳) 我々は、リーマン多様体上で定義される連続函数の生成モデルを学ぶアプローチである多様体拡散場(MDF)を提案する。 スペクトル幾何解析の知見を活かし、ラプラス・ベルトラミ作用素の固有関数を介して多様体上の内在座標系を定義する。 MDFは複数の入出力対からなる明示的なパラメトリゼーションを用いて関数を表現する。 我々のアプローチは多様体上の連続函数をサンプリングすることができ、多様体の剛および等尺変換に関して不変である。 いくつかのデータセットや多様体の実証的な結果は、MDFがそのような関数の分布を以前の手法よりも多様性と忠実さで捉えることができることを示している。

We present Manifold Diffusion Fields (MDF), an approach to learn generative models of continuous functions defined over Riemannian manifolds. Leveraging insights from spectral geometry analysis, we define an intrinsic coordinate system on the manifold via the eigen-functions of the Laplace-Beltrami Operator. MDF represents functions using an explicit parametrization formed by a set of multiple input-output pairs. Our approach allows to sample continuous functions on manifolds and is invariant with respect to rigid and isometric transformations of the manifold. Empirical results on several datasets and manifolds show that MDF can capture distributions of such functions with better diversity and fidelity than previous approaches.
翻訳日:2023-05-26 18:31:53 公開日:2023-05-24
# 単一正のマルチラベル学習におけるラベルバイアスの理解

Understanding Label Bias in Single Positive Multi-Label Learning ( http://arxiv.org/abs/2305.15584v1 )

ライセンス: Link先を確認
Julio Arroyo and Pietro Perona and Elijah Cole(参考訳) マルチラベル分類のためのアノテートデータは、すべてのカテゴリが存在または欠落していることを確認する必要があるため、違法に高価である。 近年のsingle positive multi-label(spml)学習の研究により、画像毎に1つの正のラベルだけで効果的なマルチラベル分類器を訓練できることが示されている。 しかし、SPMLの標準ベンチマークは、トレーニング例ごとに1つの正のラベルを保持し(ランダムに一様に)、他のすべてのラベルを捨てることで、従来のマルチラベル分類データセットから導かれる。 現実的な設定では、正のラベルがランダムに一様に選択される可能性は低い。 本研究ではSPMLにおけるラベルバイアスの研究プロトコルを導入し、新しい経験的結果を提供する。

Annotating data for multi-label classification is prohibitively expensive because every category of interest must be confirmed to be present or absent. Recent work on single positive multi-label (SPML) learning shows that it is possible to train effective multi-label classifiers using only one positive label per image. However, the standard benchmarks for SPML are derived from traditional multi-label classification datasets by retaining one positive label for each training example (chosen uniformly at random) and discarding all other labels. In realistic settings it is not likely that positive labels are chosen uniformly at random. This work introduces protocols for studying label bias in SPML and provides new empirical results.
翻訳日:2023-05-26 18:31:42 公開日:2023-05-24
# 時間ステップシフトサンプリングによる拡散モデルにおける露光バイアスの緩和

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps ( http://arxiv.org/abs/2305.15583v1 )

ライセンス: Link先を確認
Mingxiao Li, Tingyu Qu, Wei Sun, Marie-Francine Moens(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は高品質な画像の合成において顕著な効果を示した。 しかし、それらの推論プロセスは、多くの、潜在的に数百の反復的なステップを必要とするため、反復による予測エラーの蓄積による露光バイアスの問題につながる可能性がある。 これまでの研究では、トレーニング中に入力を摂動させることでこの問題を緩和しようと試みており、DDPMの再訓練が義務付けられている。 本研究では,拡散モデルにおける露光バイアスの体系的研究を行い,興味深いことに,モデルの再トレーニングを行わずに,新しいサンプリング法で露光バイアスを軽減できることを示す。 我々は、推論において、各後方時間ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x}_t$ との優れた結合を示す別の時間ステップ $t_s$ が存在することを実証的に理論的に示す。 そこで本研究では,時間シフトサンプリングという推論手法を提案する。 我々のフレームワークはDDIMやDDPMといった既存のサンプリングアルゴリズムとシームレスに統合でき、最小限の追加計算を誘導できる。 実験の結果,提案手法は既存のサンプリングアルゴリズムで生成した画像の品質を効果的に向上できることがわかった。

Denoising Diffusion Probabilistic Models (DDPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could lead to the problem of exposure bias due to the accumulation of prediction errors over iterations. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DDPM. In this work, we conduct a systematic study of exposure bias in diffusion models and, intriguingly, we find that the exposure bias could be alleviated with a new sampling method, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce an inference method named Time-Shift Sampler. Our framework can be seamlessly integrated with existing sampling algorithms, such as DDIM or DDPM, inducing merely minimal additional computations. Experimental results show that our proposed framework can effectively enhance the quality of images generated by existing sampling algorithms.
翻訳日:2023-05-26 18:31:30 公開日:2023-05-24
# マルチスタイルテキスト転送のための複数スタイルのトレーニングデータセット分布のバランシング効果

Balancing Effect of Training Dataset Distribution of Multiple Styles for Multi-Style Text Transfer ( http://arxiv.org/abs/2305.15582v1 )

ライセンス: Link先を確認
Debarati Das, David Ma, Dongyeop Kang(参考訳) テキストスタイル転送は自然言語生成の分野でエキサイティングなタスクであり、高品質なペアデータセットの必要性に悩まされることが多い。 さらに、多属性テキストスタイル転送のためのモデルをトレーニングするには、考慮されたスタイル特性のすべての組み合わせを十分にサポートしたデータセットが必要である。 本稿では,データ入力の多様性がマルチスタイル転送モデルから生成したテキストの品質に与える影響について検討する。 トレーニングサンプルのスタイル分布を調整するためにヒューリスティックを考案し,擬似並列データセットを構築する。 トレーニングデータセットは限界分布とジョイント分布を使ってバランスをとり、スタイル転送モデルをトレーニングします。 バランスの取れたデータセットは、不均衡や歪んだものよりも、複数のスタイルにおいてより効果的な制御効果をもたらすことが観察される。 定量的解析を通じて,複数のスタイル分布がトレーニングデータに与える影響について検討する。 これらの発見は、スタイル転送データセットの設計をより良く知らせる。

Text style transfer is an exciting task within the field of natural language generation that is often plagued by the need for high-quality paired datasets. Furthermore, training a model for multi-attribute text style transfer requires datasets with sufficient support across all combinations of the considered stylistic attributes, adding to the challenges of training a style transfer model. This paper explores the impact of training data input diversity on the quality of the generated text from the multi-style transfer model. We construct a pseudo-parallel dataset by devising heuristics to adjust the style distribution in the training samples. We balance our training dataset using marginal and joint distributions to train our style transfer models. We observe that a balanced dataset produces more effective control effects over multiple styles than an imbalanced or skewed one. Through quantitative analysis, we explore the impact of multiple style distributions in training data on style-transferred output. These findings will better inform the design of style-transfer datasets.
翻訳日:2023-05-26 18:31:07 公開日:2023-05-24
# 安定拡散を用いた教師なし意味対応

Unsupervised Semantic Correspondence Using Stable Diffusion ( http://arxiv.org/abs/2305.15581v1 )

ライセンス: Link先を確認
Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi(参考訳) テキスト間拡散モデルは、しばしば実際の画像と区別できない画像を生成することができる。 このようなイメージを生成するには、これらのモデルが生成するオブジェクトのセマンティクスを理解する必要がある。 この研究では、トレーニングなしでは、拡散モデル内でこの意味的知識を活用して、同じ意味的意味を持つ複数の画像における意味的対応を見つけることができることを示します。 具体的には、画像が与えられた場合、これらのモデルの迅速な埋め込みを最適化し、関心のある領域に最大限の注意を払う。 これらの最適化された埋め込みは、位置に関するセマンティック情報をキャプチャし、別の画像に転送することができる。 これにより、PF-Willowデータセット上のアートの強い監督状態と同等の結果を得ることができ、PF-Willowデータセット、CUB-200およびSPair-71kデータセット上の既存の弱いまたは教師なしの手法において、かなり優れ(SPair-71kデータセットに対して20.9%)。

Text-to-image diffusion models are now capable of generating images that are often indistinguishable from real images. To generate such images, these models must understand the semantics of the objects they are asked to generate. In this work we show that, without any training, one can leverage this semantic knowledge within diffusion models to find semantic correspondences -- locations in multiple images that have the same semantic meaning. Specifically, given an image, we optimize the prompt embeddings of these models for maximum attention on the regions of interest. These optimized embeddings capture semantic information about the location, which can then be transferred to another image. By doing so we obtain results on par with the strongly supervised state of the art on the PF-Willow dataset and significantly outperform (20.9% relative for the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow, CUB-200 and SPair-71k datasets.
翻訳日:2023-05-26 18:30:52 公開日:2023-05-24
# 局所線形モデルを用いた変分勾配沈み込み

Variational Gradient Descent using Local Linear Models ( http://arxiv.org/abs/2305.15577v1 )

ライセンス: Link先を確認
Song Liu, Jack Simons, Mingxuan Yi, Mark Beaumont(参考訳) SVGD(Stein Variational Gradient Descent)は、目標と粒子分布の間のKLのばらつきを減少させる軌道に沿って粒子を輸送することができるが、更新を計算するためには目標スコア関数が必要である。 本稿では,逆kl勾配流れの局所的推定子として見るsvgdの新しい視点を紹介する。 この視点は、同じ目的を達成するために局所線形モデルを使用する新しい推定子を提案するきっかけとなる。 提案した推定器は、目標スコア関数を必要とせずに、目標値と粒子分布のサンプルのみを用いて計算できる。 提案する変分勾配推定器は局所線形モデルを用いて,推定バイアスの観点からsvgdに匹敵する有効性を維持しつつ,計算の簡易性をもたらす。 さらに, 穏やかな仮定の下では, 高次元勾配流の推定が低次元推定問題に変換され, 推定精度が向上することを示す。 シミュレーションと実世界の両方のデータセットで実験を行い、クレームを検証する。

Stein Variational Gradient Descent (SVGD) can transport particles along trajectories that reduce the KL divergence between the target and particle distribution but requires the target score function to compute the update. We introduce a new perspective on SVGD that views it as a local estimator of the reversed KL gradient flow. This perspective inspires us to propose new estimators that use local linear models to achieve the same purpose. The proposed estimators can be computed using only samples from the target and particle distribution without needing the target score function. Our proposed variational gradient estimators utilize local linear models, resulting in computational simplicity while maintaining effectiveness comparable to SVGD in terms of estimation biases. Additionally, we demonstrate that under a mild assumption, the estimation of high-dimensional gradient flow can be translated into a lower-dimensional estimation problem, leading to improved estimation accuracy. We validate our claims with experiments on both simulated and real-world datasets.
翻訳日:2023-05-26 18:30:34 公開日:2023-05-24
# 関数マルコフ遷移作用素による深い確率過程

Deep Stochastic Processes via Functional Markov Transition Operators ( http://arxiv.org/abs/2305.15574v1 )

ライセンス: Link先を確認
Jin Xu, Emilien Dupont, Kaspar M\"artens, Tom Rainforth, Yee Whye Teh(参考訳) 本稿では,ニューラルパラメータ化マルコフ遷移作用素を関数空間に積み重ねて構築した,確率過程(SP)の新しいクラスであるマルコフニューラルプロセス(MNP)を紹介する。 これらのマルコフ遷移作用素は、SPの交換可能性と整合性を維持することができる。 したがって,提案する反復的構成は,一貫性を損なうことなく,制約を加えることなく,元のニューラル・プロセス・フレームワーク(nps)にかなりの柔軟性と表現性を与える。 本実験は, 各種タスクのベースラインモデルに対して, MNPの利点を明らかに示すものである。

We introduce Markov Neural Processes (MNPs), a new class of Stochastic Processes (SPs) which are constructed by stacking sequences of neural parameterised Markov transition operators in function space. We prove that these Markov transition operators can preserve the exchangeability and consistency of SPs. Therefore, the proposed iterative construction adds substantial flexibility and expressivity to the original framework of Neural Processes (NPs) without compromising consistency or adding restrictions. Our experiments demonstrate clear advantages of MNPs over baseline models on a variety of tasks.
翻訳日:2023-05-26 18:30:17 公開日:2023-05-24
# 局所ベイズ最適化の挙動と収束性

The Behavior and Convergence of Local Bayesian Optimization ( http://arxiv.org/abs/2305.15572v1 )

ライセンス: Link先を確認
Kaiwen Wu, Kyurae Kim, Roman Garnett and Jacob R. Gardner(参考訳) ベイズ最適化の最近の発展は、従来のグローバル戦略と比較して高次元問題に対して強い経験的パフォーマンスを提供できる局所最適化戦略の利用である。 文学における「民族知恵」は、局所最適化の焦点が次元の呪いを横切ることであるが、ベイズ局所最適化ルーチンの期待された振る舞いや収束について具体的には知られていない。 まず, 局所的アプローチの挙動を調査し, ガウス過程のサンプルパスの個々の局所解の統計値が, グローバル手法からの回復を期待するものと比較して驚くほど良好であることを見出した。 次に,m\"uller et al. (2021) が最近提案したベイズ局所最適化アルゴリズムの最初の厳密な解析を行い,雑音と無雑音の両方において収束率を求める。

A recent development in Bayesian optimization is the use of local optimization strategies, which can deliver strong empirical performance on high-dimensional problems compared to traditional global strategies. The "folk wisdom" in the literature is that the focus on local optimization sidesteps the curse of dimensionality; however, little is known concretely about the expected behavior or convergence of Bayesian local optimization routines. We first study the behavior of the local approach, and find that the statistics of individual local solutions of Gaussian process sample paths are surprisingly good compared to what we would expect to recover from global methods. We then present the first rigorous analysis of such a Bayesian local optimization algorithm recently proposed by M\"uller et al. (2021), and derive convergence rates in both the noisy and noiseless settings.
翻訳日:2023-05-26 18:30:09 公開日:2023-05-24
# ディープラーニングアーキテクチャを用いた潜在音声空間探索のための音響設計戦略

Sound Design Strategies for Latent Audio Space Explorations Using Deep Learning Architectures ( http://arxiv.org/abs/2305.15571v1 )

ライセンス: Link先を確認
K{\i}van\c{c} Tatar, Kelsey Cotton, Daniel Bisig(参考訳) 音と音楽のコンピューティングにおけるディープラーニングの応用に関する研究は近年関心を集めているが、これらの新技術と実際の芸術的実践にどのように組み込むかには、いまだに無関係である。 本研究では,変分オートエンコーダ(VAE)と呼ばれる,よく知られたディープラーニングアーキテクチャについて検討する。 これらのアーキテクチャは、類似したデータポイントが互いに近接するように、データポイントを整理した潜在空間を生成するために、多くの領域で使用されている。 以前は、VAEはシンボリック音楽以外のラテント音色空間やラテント音色空間を生成するために用いられてきた。 音色の特徴にvaeを適用するには、ネットワークが生成する音色を計算コストの高い音声信号に変換するvocoderが必要である。 本研究では,VAEを生音声データに直接適用し,音声特徴抽出をバイパスする。 このアプローチにより、実践者はデータセットのキュレーションを通じて美学の柔軟性とコントロールを提供しながら、オーディオ記録を使用できるようになる。 音声信号生成における計算時間の短縮により、生オーディオアプローチをリアルタイムアプリケーションに組み込むことができる。 そこで本研究では,音響設計のための潜時空間と音色を探索する3つの手法を提案する。 そこで,我々は,潜伏音空間を音響や音楽の練習に活用するための,芸術的アプローチと戦略について対話することを目的としている。

The research in Deep Learning applications in sound and music computing have gathered an interest in the recent years; however, there is still a missing link between these new technologies and on how they can be incorporated into real-world artistic practices. In this work, we explore a well-known Deep Learning architecture called Variational Autoencoders (VAEs). These architectures have been used in many areas for generating latent spaces where data points are organized so that similar data points locate closer to each other. Previously, VAEs have been used for generating latent timbre spaces or latent spaces of symbolic music excepts. Applying VAE to audio features of timbre requires a vocoder to transform the timbre generated by the network to an audio signal, which is computationally expensive. In this work, we apply VAEs to raw audio data directly while bypassing audio feature extraction. This approach allows the practitioners to use any audio recording while giving flexibility and control over the aesthetics through dataset curation. The lower computation time in audio signal generation allows the raw audio approach to be incorporated into real-time applications. In this work, we propose three strategies to explore latent spaces of audio and timbre for sound design applications. By doing so, our aim is to initiate a conversation on artistic approaches and strategies to utilize latent audio spaces in sound and music practices.
翻訳日:2023-05-26 18:29:55 公開日:2023-05-24
# 生物学的データを用いたグラフニューラルネットワークのサイズ汎化:スペクトルの観点からの考察と実践

Size Generalizability of Graph Neural Networks on Biological Data: Insights and Practices from the Spectral Perspective ( http://arxiv.org/abs/2305.15611v1 )

ライセンス: Link先を確認
Yujun Yan, Gaotang Li, Danai koutra(参考訳) 本稿では,グラフニューラルネットワーク(GNN)が学習した知識が,同じ領域の大規模グラフに対して一般化可能であるかどうかを考察する。 先行研究は、特に度数分布において、異なる大きさのグラフ間の分布シフトが、グラフ分類タスクのパフォーマンス低下につながることを示唆している。 しかし、これは、次数が有界で次数の分布シフトが小さい生物学的データセットには当てはまらないかもしれない。 分布の偏りが小さかったとしても、同じデータセットからより大きなグラフに対するgnnのパフォーマンスは低下し、他の原因も示唆されている。 実際、様々なグラフサイズに起因する分布シフトのタイプと特性を理解するために、実際のデータセットには探索の欠如があった。 さらに、サイズ汎化可能性の以前の分析は、主に空間領域に焦点をあてている。 これらのギャップを埋めるために、スペクトルの観点から、生物データに対するgnnのサイズ一般化可能性について検討する。 本研究では,正規化ラプラシアン/隣接行列の固有値における小・大グラフ間の分布シフトを同定し,ノード近接中心性と相関する大域ノード接続の差を示す。 さらに,グローバル接続のばらつきにもかかわらず,gnnのサイズ一般化性を改善するために,異なるサイズのグラフが類似した局所接続を共有できることが判明した。 そこで我々は,各ノードの大きさ非関係な局所構造特徴,すなわちノードの局所的近接性中心性を用いて学習過程を指導する,モデル非依存戦略であるsiaを提案する。 実験により,小グラフのみを用いた学習において,GNNのグラフ分類性能が向上することが実証された。

We investigate the question of whether the knowledge learned by graph neural networks (GNNs) from small graphs is generalizable to large graphs in the same domain. Prior works suggest that the distribution shift, particularly in the degree distribution, between graphs of different sizes can lead to performance degradation in the graph classification task. However, this may not be the case for biological datasets where the degrees are bounded and the distribution shift of degrees is small. Even with little degree distribution shift, our observations show that GNNs' performance on larger graphs from the same datasets still degrades, suggesting other causes. In fact, there has been a lack of exploration in real datasets to understand the types and properties of distribution shifts caused by various graph sizes. Furthermore, previous analyses of size generalizability mostly focus on the spatial domain. To fill these gaps, we take the spectral perspective and study the size generalizability of GNNs on biological data. We identify a distribution shift between small and large graphs in the eigenvalues of the normalized Laplacian/adjacency matrix, indicating a difference in the global node connectivity, which is found to be correlated with the node closeness centrality. We further find that despite of the variations in global connectivity, graphs of different sizes share similar local connectivity, which can be utilized to improve the size generalizability of GNNs. Based on our spectral insights and empirical observations, we propose a model-agnostic strategy, SIA, which uses size-irrelevant local structural features, i.e., the local closeness centrality of a node, to guide the learning process. Our empirical results demonstrate that our strategy improves the graph classification performance of various GNNs on small and large graphs when training with only small graphs.
翻訳日:2023-05-26 18:24:29 公開日:2023-05-24
# セマンティック・セグメンテーションによるセマンティック・セグメンテーション

Semantic Segmentation by Semantic Proportions ( http://arxiv.org/abs/2305.15608v1 )

ライセンス: Link先を確認
Halil Ibrahim Aysel, Xiaohao Cai and Adam Pr\"ugel-Bennett(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、画像中の個々のピクセルを特定し分類することを目的としたコンピュータビジョンにおける重要なタスクである。 しかし、大量の注釈付きデータを必要とするため、セマンティクスのセグメンテーションは非常に困難である。 画像に注釈をつけるのは時間とコストのかかるプロセスであり、しばしば専門家の知識とかなりの労力を必要とする。 本稿では,接地-真実のセグメンテーションマップの必要性をなくし,意味的セグメンテーションに対する新しいアプローチを提案する。 その代わり、我々のアプローチでは、個々の意味クラスの割合の粗い情報のみを必要とします。 これにより、データアノテーションプロセスが大幅に単純化され、アノテーションの時間とコストが大幅に削減され、大規模なアプリケーションでより実現可能になる。 さらに,本手法は,全地直交分割マップが実現不可能あるいは実用的でないようなセマンティックセマンティックセマンティクスタスクの新たな可能性を開く。 広範な実験結果から,本手法は,地中セグメンテーションマップに依存するベンチマーク手法と同等で,時にはさらに優れた性能を達成できることが示された。 本研究で提案される意味的比例を利用することは,意味的セグメンテーションの分野における今後の研究に有望な方向を提供する。

Semantic segmentation is a critical task in computer vision that aims to identify and classify individual pixels in an image, with numerous applications for example autonomous driving and medical image analysis. However, semantic segmentation can be super challenging particularly due to the need for large amounts of annotated data. Annotating images is a time-consuming and costly process, often requiring expert knowledge and significant effort. In this paper, we propose a novel approach for semantic segmentation by eliminating the need of ground-truth segmentation maps. Instead, our approach requires only the rough information of individual semantic class proportions, shortened as semantic proportions. It greatly simplifies the data annotation process and thus will significantly reduce the annotation time and cost, making it more feasible for large-scale applications. Moreover, it opens up new possibilities for semantic segmentation tasks where obtaining the full ground-truth segmentation maps may not be feasible or practical. Extensive experimental results demonstrate that our approach can achieve comparable and sometimes even better performance against the benchmark method that relies on the ground-truth segmentation maps. Utilising semantic proportions suggested in this work offers a promising direction for future research in the field of semantic segmentation.
翻訳日:2023-05-26 18:24:02 公開日:2023-05-24
# テキスト統合のためのテストベッドとしての文結合生成の再検討

Revisiting Sentence Union Generation as a Testbed for Text Consolidation ( http://arxiv.org/abs/2305.15605v1 )

ライセンス: Link先を確認
Eran Hirsch, Valentina Pyatkin, Ruben Wolhandler, Avi Caciularu, Asi Shefer, Ido Dagan(参考訳) 多文書要約、長文質問応答、現代対話アプリケーションなど、複数の入力テキストに基づくテキスト生成に関わるタスクは、部分重なり合う複数テキスト情報を適切に統合する能力に挑戦する。 しかし、これらのタスクは、しばしば主観的かつ未定義のコンテンツ選択要求と統合フェーズを結び付け、モデルの統合能力の適切な評価を妨げる。 本稿では,テキスト統合能力を評価するための効果的なテストベッドとして,文結合生成タスクを再考し,コンソリデーション課題を主観的コンテンツ選択から切り離すことを提案する。 この課題の研究を支援するために,文結合をクラウドソーシングし,これまでで最大の連合データセットを作成し,様々な統合面の豊富なカバレッジ分析を行うための,洗練されたアノテーション方法論とツールを提案する。 次に,人間と自動評価を含む統合生成のための包括的評価プロトコルを提案する。 最後に、ベースラインとして、タスクの最先端言語モデルを評価し、マルチテキスト統合の課題とその制限に対処する能力の詳細な分析を行う。

Tasks involving text generation based on multiple input texts, such as multi-document summarization, long-form question answering and contemporary dialogue applications, challenge models for their ability to properly consolidate partly-overlapping multi-text information. However, these tasks entangle the consolidation phase with the often subjective and ill-defined content selection requirement, impeding proper assessment of models' consolidation capabilities. In this paper, we suggest revisiting the sentence union generation task as an effective well-defined testbed for assessing text consolidation capabilities, decoupling the consolidation challenge from subjective content selection. To support research on this task, we present refined annotation methodology and tools for crowdsourcing sentence union, create the largest union dataset to date and provide an analysis of its rich coverage of various consolidation aspects. We then propose a comprehensive evaluation protocol for union generation, including both human and automatic evaluation. Finally, as baselines, we evaluate state-of-the-art language models on the task, along with a detailed analysis of their capacity to address multi-text consolidation challenges and their limitations.
翻訳日:2023-05-26 18:23:40 公開日:2023-05-24
# E($3$)-同変グラフニューラルネットワークによるラグランジアン流体力学の学習

Learning Lagrangian Fluid Mechanics with E($3$)-Equivariant Graph Neural Networks ( http://arxiv.org/abs/2305.15603v1 )

ライセンス: Link先を確認
Artur P. Toshev and Gianluca Galletti and Johannes Brandstetter and Stefan Adami and Nikolaus A. Adams(参考訳) 我々は、同変グラフニューラルネットワークが、非同変グラフよりも正確な動的相互作用モデルを学習できる可能性を実証することで、エンジニアリングシステムにおける機械学習の領域を大いに発展させています。 本研究では, テイラー・グリーン渦と3次元逆ポアゼイユ流の3次元減衰と, 運動エネルギーやシンクホーン距離などの異なる性能測定値に基づくモデルの評価を行った。 さらに,同変モデルに対する物理情報履歴の異なる埋め込み手法について検討する。 現在、トレーニングと評価がかなり遅いが、提案した履歴埋め込みの同変モデルは、より正確な物理的相互作用を学習する。

We contribute to the vastly growing field of machine learning for engineering systems by demonstrating that equivariant graph neural networks have the potential to learn more accurate dynamic-interaction models than their non-equivariant counterparts. We benchmark two well-studied fluid-flow systems, namely 3D decaying Taylor-Green vortex and 3D reverse Poiseuille flow, and evaluate the models based on different performance measures, such as kinetic energy or Sinkhorn distance. In addition, we investigate different embedding methods of physical-information histories for equivariant models. We find that while currently being rather slow to train and evaluate, equivariant models with our proposed history embeddings learn more accurate physical interactions.
翻訳日:2023-05-26 18:23:22 公開日:2023-05-24
# control invariant set enhanced safe reinforcement learning: サンプリング効率の向上、安定性の保証、ロバスト性

Control invariant set enhanced safe reinforcement learning: improved sampling efficiency, guaranteed stability and robustness ( http://arxiv.org/abs/2305.15602v1 )

ライセンス: Link先を確認
Song Bo, Bernard T. Agyeman, Xunyuan Yin, Jinfeng Liu (University of Alberta)(参考訳) 強化学習(Reinforcement Learning, RL)は重要な研究分野であり、特に安全なRLは、現実世界のアプリケーションにとって重要な安全駆動制約を扱う能力から注目されている。 本研究は、制御不変集合(CIS)拡張RLと呼ばれるRLトレーニングに対する新しいアプローチを提案し、CISの明示的な形式を利用して安定性の保証とサンプリング効率を改善するという利点を活用する。 さらに,不確実性の存在下で,提案手法の堅牢性について検討した。 このアプローチは、オフラインとオンラインの2つの学習段階で構成される。 オフラインの段階では、CISは報酬設計、初期状態サンプリング、状態リセット手順に組み込まれる。 このCISの導入は、オフライントレーニングプロセスにおけるサンプリング効率の向上を促進する。 オンライン段階では、安全監督装置を導入して行動の安全性を確認し、必要な修正を行うことにより、予測された次のステップ状態が安定性基準として機能するCISの外にある場合、RLを再訓練する。 両症例とも不確実性の有無にかかわらず安定性解析を行う。 提案手法を評価するため,シミュレーション化学反応器に適用する。 その結果,オフライントレーニングにおけるサンプリング効率の大幅な向上と,オンライン実装におけるクローズドループ安定性の保証,不確実性の有無に関わらず実現した。

Reinforcement learning (RL) is an area of significant research interest, and safe RL in particular is attracting attention due to its ability to handle safety-driven constraints that are crucial for real-world applications. This work proposes a novel approach to RL training, called control invariant set (CIS) enhanced RL, which leverages the advantages of utilizing the explicit form of CIS to improve stability guarantees and sampling efficiency. Furthermore, the robustness of the proposed approach is investigated in the presence of uncertainty. The approach consists of two learning stages: offline and online. In the offline stage, CIS is incorporated into the reward design, initial state sampling, and state reset procedures. This incorporation of CIS facilitates improved sampling efficiency during the offline training process. In the online stage, RL is retrained whenever the predicted next step state is outside of the CIS, which serves as a stability criterion, by introducing a Safety Supervisor to examine the safety of the action and make necessary corrections. The stability analysis is conducted for both cases, with and without uncertainty. To evaluate the proposed approach, we apply it to a simulated chemical reactor. The results show a significant improvement in sampling efficiency during offline training and closed-loop stability guarantee in the online implementation, with and without uncertainty.
翻訳日:2023-05-26 18:23:10 公開日:2023-05-24
# 線形ニューラルネットワーク層による単一・複数インデックスモデルの学習促進

Linear Neural Network Layers Promote Learning Single- and Multiple-Index Models ( http://arxiv.org/abs/2305.15598v1 )

ライセンス: Link先を確認
Suzanna Parkinson, Greg Ongie, and Rebecca Willett(参考訳) 本稿では,2層以上の深さの過パラメータニューラルネットワークの暗黙バイアスについて検討する。 我々のフレームワークは、すべて同じキャパシティを持つが、暗黙的に定義された表現コストを持つ、様々な深さのネットワーク群を考察する。 ニューラルネットワークアーキテクチャによって引き起こされる関数の表現コストは、ネットワークが関数を表現するのに必要な2乗重みの最小和である。 この結果から,ReLUネットワークに線形層を追加することで,2層ネットワークを用いた低表現コストの関数からなる低ランク線形演算子により近似可能な関数を求める表現コストが得られることがわかった。 具体的には、ニューラルネットワークを用いて最小表現コストでトレーニングデータを適合させると、低次元部分空間に直交する方向がほぼ一定に近い補間関数が得られる。 つまり、学習したネットワークは、ほぼ1つまたは複数のインデックスモデルとなる。 実験により、この活性部分空間構造がデータに存在する場合、線形層の追加により一般化が改善され、真の活性部分空間とよく一致するネットワークが得られることを示した。

This paper explores the implicit bias of overparameterized neural networks of depth greater than two layers. Our framework considers a family of networks of varying depths that all have the same capacity but different implicitly defined representation costs. The representation cost of a function induced by a neural network architecture is the minimum sum of squared weights needed for the network to represent the function; it reflects the function space bias associated with the architecture. Our results show that adding linear layers to a ReLU network yields a representation cost that favors functions that can be approximated by a low-rank linear operator composed with a function with low representation cost using a two-layer network. Specifically, using a neural network to fit training data with minimum representation cost yields an interpolating function that is nearly constant in directions orthogonal to a low-dimensional subspace. This means that the learned network will approximately be a single- or multiple-index model. Our experiments show that when this active subspace structure exists in the data, adding linear layers can improve generalization and result in a network that is well-aligned with the true active subspace.
翻訳日:2023-05-26 18:22:48 公開日:2023-05-24
# 事前学習言語モデルによるテキスト強化オープン知識グラフ補完

Text-Augmented Open Knowledge Graph Completion via Pre-Trained Language Models ( http://arxiv.org/abs/2305.15597v1 )

ライセンス: Link先を確認
Pengcheng Jiang, Shivam Agarwal, Bowen Jin, Xuan Wang, Jimeng Sun, Jiawei Han(参考訳) オープンナレッジグラフ(KG)完成のミッションは、既知の事実から新たな発見を引き出すことである。 KG を補完する既存の作業は,(1) グラフ推論空間を拡大するための実効的な三倍体,(2) 事前訓練された言語モデル (PLM) から知識を抽出する手動設計のプロンプトのいずれかを必要とする。 そこで本研究では,高品質なクエリプロンプトを自動的に生成し,大文字コーパスからサポート情報を検索し,plmから知識を探索してkg補完を行うtagrealを提案する。 その結果、TAGREALは2つのベンチマークデータセット上で最先端のパフォーマンスを達成することがわかった。 TAGREALは、限られたトレーニングデータであっても、既存の埋め込みベース、グラフベース、およびPLMベースの手法よりも優れた性能を持つ。

The mission of open knowledge graph (KG) completion is to draw new findings from known facts. Existing works that augment KG completion require either (1) factual triples to enlarge the graph reasoning space or (2) manually designed prompts to extract knowledge from a pre-trained language model (PLM), exhibiting limited performance and requiring expensive efforts from experts. To this end, we propose TAGREAL that automatically generates quality query prompts and retrieves support information from large text corpora to probe knowledge from PLM for KG completion. The results show that TAGREAL achieves state-of-the-art performance on two benchmark datasets. We find that TAGREAL has superb performance even with limited training data, outperforming existing embedding-based, graph-based, and PLM-based methods.
翻訳日:2023-05-26 18:22:29 公開日:2023-05-24
# 非マッピング環境におけるマルチ車両ルーティングのための分散オンラインロールアウト

Distributed Online Rollout for Multivehicle Routing in Unmapped Environments ( http://arxiv.org/abs/2305.15596v1 )

ライセンス: Link先を確認
Jamison W. Weber, Dhanush R. Giriyan, Devendra R. Parkar, Andr\'ea W. Richa, Dimitri P. Bertsekas(参考訳) 本研究では,ネットワーク,ノードのサブセットを占有するエージェント群,タスク群が与えられた場合,各タスクが少なくとも1回はエージェントに訪問されるという制約を満たした最小コストの動作列を求める。 この問題の古典的なバージョンは、システムの状態を完全に監視し、集中制御方式に従って個々のエージェントに指示する中央計算サーバを想定している。 対照的に、集中型サーバはなく、各エージェントは、基盤となるネットワーク(タスクとエージェントの位置を含む)の事前知識を持たない個々のプロセッサである、と仮定する。 さらに、エージェントは、厳密な局所的コミュニケーションとセンシング能力(それぞれの位置の固定半径に制限される)を持ち、現実世界の複数のマルチエージェントアプリケーションとより密接に連携している。 これらの制限は、ローカル情報共有とエージェント間の直接調整によって克服される多くの課題をもたらす。 この問題に対して,エージェントをローカルクラスタに自己組織化し,各クラスタに個別にマルチエージェントロールアウトスキームを適用する,完全分散,オンライン,スケーラブルな強化学習アルゴリズムを提案する。 我々は,分散ロールアウトアルゴリズムが欲望ベースポリシーよりも改善し始める臨界センシング半径が存在することを,広範囲なシミュレーションにより実証的に示す。 この臨界センシング半径は、ネットワークの大きさの$\log^*$関数に比例して増加し、従って、関連するネットワークに対して小さな定数である。 分散強化学習アルゴリズムは, 臨界センシング半径の2倍, 3倍の範囲のradiiのベースポリシーに対して, 約2倍のコスト改善を実現する。

In this work we consider a generalization of the well-known multivehicle routing problem: given a network, a set of agents occupying a subset of its nodes, and a set of tasks, we seek a minimum cost sequence of movements subject to the constraint that each task is visited by some agent at least once. The classical version of this problem assumes a central computational server that observes the entire state of the system perfectly and directs individual agents according to a centralized control scheme. In contrast, we assume that there is no centralized server and that each agent is an individual processor with no a priori knowledge of the underlying network (including task and agent locations). Moreover, our agents possess strictly local communication and sensing capabilities (restricted to a fixed radius around their respective locations), aligning more closely with several real-world multiagent applications. These restrictions introduce many challenges that are overcome through local information sharing and direct coordination between agents. We present a fully distributed, online, and scalable reinforcement learning algorithm for this problem whereby agents self-organize into local clusters and independently apply a multiagent rollout scheme locally to each cluster. We demonstrate empirically via extensive simulations that there exists a critical sensing radius beyond which the distributed rollout algorithm begins to improve over a greedy base policy. This critical sensing radius grows proportionally to the $\log^*$ function of the size of the network, and is, therefore, a small constant for any relevant network. Our decentralized reinforcement learning algorithm achieves approximately a factor of two cost improvement over the base policy for a range of radii bounded from below and above by two and three times the critical sensing radius, respectively.
翻訳日:2023-05-26 18:22:12 公開日:2023-05-24
# 確率的オウムの群れ:大規模言語モデルのための微分プライベート・プロンプト学習

Flocks of Stochastic Parrots: Differentially Private Prompt Learning for Large Language Models ( http://arxiv.org/abs/2305.15594v1 )

ライセンス: Link先を確認
Haonan Duan, Adam Dziedzic, Nicolas Papernot, Franziska Boenisch(参考訳) 大規模言語モデル(LLM)は、文脈内での学習に優れる。 しかし、プロンプトに含まれるデータの感度はプライバシーの懸念を引き起こす。 我々は、llmを促すために使用されるデータに対して、単純だが非常に効果的なメンバーシップ推論攻撃をインスタンス化する。 この脆弱性に対処するために、プライベート勾配降下のための既知のアルゴリズムによる微調整 LLM の推進と活用を先導することができる。 しかし、これはプロンプトによって提供される実用性と効率を犠牲にしている。 そこで我々は,私的にプロンプトを学ぶことを提案する。 まず,下流データへの勾配降下により,ソフトプロンプトをプライベートに得ることを示す。 しかし、これは離散的なプロンプトには当てはまらない。 そこで我々は,異なるプロンプト,すなわち確率的オウムの群れを提示するllmのアンサンブルの中で,ノイズの多い投票を編成する。 この投票は私的に群れの知識を1つの公的なプロンプトに移す。 LLMが私たちのプライベートアルゴリズムによって引き起こされたことは、プライベートでないベースラインと密接に一致している。 例えば、GPT3をベースモデルとして使用すると、sst2データセットのダウンストリーム精度は92.7%に達し(\epsilon=0.147, \delta=10^{-6}$)、非プライベートベースラインでは95.2%である。 実験を通じて、我々のプロンプトベースのアプローチは、既存の商用APIで容易にデプロイできることを示す。

Large language models (LLMs) are excellent in-context learners. However, the sensitivity of data contained in prompts raises privacy concerns. Our work first shows that these concerns are valid: we instantiate a simple but highly effective membership inference attack against the data used to prompt LLMs. To address this vulnerability, one could forego prompting and resort to fine-tuning LLMs with known algorithms for private gradient descent. However, this comes at the expense of the practicality and efficiency offered by prompting. Therefore, we propose to privately learn to prompt. We first show that soft prompts can be obtained privately through gradient descent on downstream data. However, this is not the case for discrete prompts. Thus, we orchestrate a noisy vote among an ensemble of LLMs presented with different prompts, i.e., a flock of stochastic parrots. The vote privately transfers the flock's knowledge into a single public prompt. We show that LLMs prompted with our private algorithms closely match the non-private baselines. For example, using GPT3 as the base model, we achieve a downstream accuracy of 92.7% on the sst2 dataset with ($\epsilon=0.147, \delta=10^{-6}$)-differential privacy vs. 95.2% for the non-private baseline. Through our experiments, we also show that our prompt-based approach is easily deployed with existing commercial APIs.
翻訳日:2023-05-26 18:21:46 公開日:2023-05-24
# 共有知識生涯学習のための軽量学習者

Lightweight Learner for Shared Knowledge Lifelong Learning ( http://arxiv.org/abs/2305.15591v1 )

ライセンス: Link先を確認
Yunhao Ge, Yuecheng Li, Di Wu, Ao Xu, Adam M. Jones, Amanda Sofie Rios, Iordanis Fostiropoulos, Shixian Wen, Po-Hsuan Huang, Zachary William Murdock, Gozde Sahin, Shuo Ni, Kiran Lekkala, Sumedh Anand Sontakke, Laurent Itti(参考訳) Lifelong Learning (LL)では、エージェントは新しい条件やタスクに遭遇しながら継続的に学習する。 現在のLLのほとんどは、タスクをシーケンシャルに学習する単一のエージェントに限られています。 専用のllマシンがデプロイされ、新しいタスクが学習されると、古いタスクが忘れられるのを緩和します。 これは本質的に遅い。 本稿では,llエージェントの分散集団を展開し,各エージェントが独立かつ並列に動作し,それぞれ異なるタスクを順次学習する,skill(shared knowledge lifelong learning)チャレンジを提案する。 各タスクを学習した後、エージェントは知識を分散化された通信ネットワーク上で共有し統合し、最終的にすべてのエージェントがすべてのタスクをマスターできるようにします。 SKILLは軽量生涯学習(LLL)エージェントを用いており、その目的は任意のタスクに特化しているエージェントの分数を最小化することで、効率的な共有を容易にすることである。 各LLLエージェントは、ほとんどのパラメータが存在する共通のタスクに依存しない不変部分と、より少ないパラメータを含む個々のタスク固有のモジュールから構成される。 エージェントはタスク固有のモジュールと、すべてのエージェントの共通タスク非依存の潜在空間におけるタスクを表す要約情報(タスクアンカー)を共有する。 受信エージェントは、受信した各タスク固有モジュールを対応するアンカーを使用して登録する。 したがって、各エージェントは、新しいタスク固有のモジュールとアンカーが受信されるたびに、新しいタスクを解決する能力を向上させる。 102のイメージ分類タスク(合計5,033のクラス、2,041,225のトレーニング、243,464のバリデーション、243,464のテストイメージ)を持つ新しい、非常に困難なSKILL-102データセット上では、ほぼ完全な並列化を実現しつつ、より高い精度(およびSOTA)を実現する。 コードとデータはhttps://github.com/gyhandy/shared-knowledge-lifelong-learningにある。

In Lifelong Learning (LL), agents continually learn as they encounter new conditions and tasks. Most current LL is limited to a single agent that learns tasks sequentially. Dedicated LL machinery is then deployed to mitigate the forgetting of old tasks as new tasks are learned. This is inherently slow. We propose a new Shared Knowledge Lifelong Learning (SKILL) challenge, which deploys a decentralized population of LL agents that each sequentially learn different tasks, with all agents operating independently and in parallel. After learning their respective tasks, agents share and consolidate their knowledge over a decentralized communication network, so that, in the end, all agents can master all tasks. We present one solution to SKILL which uses Lightweight Lifelong Learning (LLL) agents, where the goal is to facilitate efficient sharing by minimizing the fraction of the agent that is specialized for any given task. Each LLL agent thus consists of a common task-agnostic immutable part, where most parameters are, and individual task-specific modules that contain fewer parameters but are adapted to each task. Agents share their task-specific modules, plus summary information ("task anchors") representing their tasks in the common task-agnostic latent space of all agents. Receiving agents register each received task-specific module using the corresponding anchor. Thus, every agent improves its ability to solve new tasks each time new task-specific modules and anchors are received. On a new, very challenging SKILL-102 dataset with 102 image classification tasks (5,033 classes in total, 2,041,225 training, 243,464 validation, and 243,464 test images), we achieve much higher (and SOTA) accuracy over 8 LL baselines, while also achieving near perfect parallelization. Code and data can be found at https://github.com/gyhandy/Shared-Knowledge-Lifelong-Learning
翻訳日:2023-05-26 18:21:19 公開日:2023-05-24
# 低ランク構造を用いたオフライン強化学習の行列推定

Matrix Estimation for Offline Reinforcement Learning with Low-Rank Structure ( http://arxiv.org/abs/2305.15621v1 )

ライセンス: Link先を確認
Xumei Xi, Christina Lee Yu, Yudong Chen(参考訳) 我々は,エージェントが環境と相互作用せず,行動ポリシーを用いて収集したオフラインデータに依存するオフライン強化学習(rl)を考える。 従来の研究は、対象政策が行動政策によってカバーされている場合、すなわち、対象政策が訪れた状態-行動ペアも行動政策によって訪問する必要がある場合、政策評価を保証する。 MDPが潜在低ランク構造を持つ場合、このカバレッジ条件を緩和できることを示す。 重み付き行列補完と非一様観測との接続性に基づいて、低ランク構造を利用したオフラインポリシー評価アルゴリズムを提案し、未発見の状態-作用対の値を推定する。 我々のアルゴリズムは、既知の特徴表現を必要としないし、我々の有限サンプル誤差境界は、スペクトル空間における行動とターゲットポリシーの相違を定量化する新しい相違測度を含む。 既存のカバレッジ条件が満たされていない場合に,アルゴリズムが正確な推定を行う具体的な例を提供する。 上記の評価アルゴリズムに基づき、オフラインポリシー最適化アルゴリズムを更に設計し、非漸近的な性能保証を提供する。

We consider offline Reinforcement Learning (RL), where the agent does not interact with the environment and must rely on offline data collected using a behavior policy. Previous works provide policy evaluation guarantees when the target policy to be evaluated is covered by the behavior policy, that is, state-action pairs visited by the target policy must also be visited by the behavior policy. We show that when the MDP has a latent low-rank structure, this coverage condition can be relaxed. Building on the connection to weighted matrix completion with non-uniform observations, we propose an offline policy evaluation algorithm that leverages the low-rank structure to estimate the values of uncovered state-action pairs. Our algorithm does not require a known feature representation, and our finite-sample error bound involves a novel discrepancy measure quantifying the discrepancy between the behavior and target policies in the spectral space. We provide concrete examples where our algorithm achieves accurate estimation while existing coverage conditions are not satisfied. Building on the above evaluation algorithm, we further design an offline policy optimization algorithm and provide non-asymptotic performance guarantees.
翻訳日:2023-05-26 18:12:51 公開日:2023-05-24
# Debias Coarsely, Sample Conditionally: Statistical Downscaling through Optimal Transport and Probabilistic Diffusion Models

Debias Coarsely, Sample Conditionally: Statistical Downscaling through Optimal Transport and Probabilistic Diffusion Models ( http://arxiv.org/abs/2305.15618v1 )

ライセンス: Link先を確認
Zhong Yi Wan, Ricardo Baptista, Yi-fan Chen, John Anderson, Anudhyan Boral, Fei Sha, Leonardo Zepeda-N\'u\~nez(参考訳) 非ペアデータ間の統計的ダウンスケールのための2段階確率的フレームワークを提案する。 統計的ダウンスケーリングは、低分解能データを(偏りのある)粗い数値スキームから高忠実度スキームに整合した高分解能データに変換する確率写像を求める。 提案手法では,最適トランスポートマップによるデバイアスステップと,<textit{a posteriori>条件サンプリングを用いた確率的拡散モデルによるアップサンプリングステップの2つの変換を組み合わせることでこの問題に対処した。 このアプローチは、ペアデータを必要としない条件分布を特徴付け、バイアスサンプルから関連する物理統計を忠実に復元する。 本研究では, 気象・気候の数値シミュレーションにおける中核的な問題である1次元および2次元流体流問題に対する提案手法の有用性を実証する。 提案手法は,8\times$と16\times$の解像度をアップサンプリングすることで,低解像度入力から現実的な高解像度出力を生成する。 さらに,本手法は,入力と出力の低周波内容が一致しない場合でも,物理量の統計値と正しく一致している。

We introduce a two-stage probabilistic framework for statistical downscaling between unpaired data. Statistical downscaling seeks a probabilistic map to transform low-resolution data from a (possibly biased) coarse-grained numerical scheme to high-resolution data that is consistent with a high-fidelity scheme. Our framework tackles the problem by tandeming two transformations: a debiasing step that is performed by an optimal transport map, and an upsampling step that is achieved by a probabilistic diffusion model with \textit{a posteriori} conditional sampling. This approach characterizes a conditional distribution without the need for paired data, and faithfully recovers relevant physical statistics from biased samples. We demonstrate the utility of the proposed approach on one- and two-dimensional fluid flow problems, which are representative of the core difficulties present in numerical simulations of weather and climate. Our method produces realistic high-resolution outputs from low-resolution inputs, by upsampling resolutions of $8\times$ and $16\times$. Moreover, our procedure correctly matches the statistics of physical quantities, even when the low-frequency content of the inputs and outputs do not match, a crucial but difficult-to-satisfy assumption needed by current state-of-the-art alternatives.
翻訳日:2023-05-26 18:12:34 公開日:2023-05-24
# インテリジェントストリーミングを用いた医用画像分類とセグメンテーションのための高速AI推論

High-Throughput AI Inference for Medical Image Classification and Segmentation using Intelligent Streaming ( http://arxiv.org/abs/2305.15617v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Sean Garin, Adway Kanhere, Eliot Siegel, Paul H. Yi, Vishwa S. Parekh(参考訳) 臨床設定におけるAIシステムの採用が増加するにつれて、帯域幅の制限は、画像データをストリーミングする際の通信ボトルネックを生じさせ、患者の診断と治療の遅れにつながる。 そのため、医療提供者やAIベンダーはより大きな計算インフラを必要とするため、コストは劇的に増加する。 そこで我々は,大規模臨床意思決定のための加速,コスト効率,帯域幅最適化,計算効率のよいAI推論を実現する,最先端のフレームワークであるインテリジェントストリーミングを開発した。 分類のためにintelligent streamingは、データ転送を99.01%、デコード時間を98.58%削減し、スループットを27.43倍に向上させた。 セグメンテーションのためのフレームワークは、データ転送を90.32%削減し、デコーディング時間を90.26%削減し、スループットを4.20倍向上させた。 我々の研究は、インテリジェントストリーミングがより高速なターンアラウンドタイムを実現し、データと送信の全体的なコストを削減し、AIシステムを使用した臨床判断に悪影響を及ぼさないことを示した。

As the adoption of AI systems within the clinical setup grows, limitations in bandwidth could create communication bottlenecks when streaming imaging data, leading to delays in patient diagnosis and treatment. As such, healthcare providers and AI vendors will require greater computational infrastructure, therefore dramatically increasing costs. To that end, we developed intelligent streaming, a state-of-the-art framework to enable accelerated, cost-effective, bandwidth-optimized, and computationally efficient AI inference for clinical decision making at scale. For classification, intelligent streaming reduced the data transmission by 99.01% and decoding time by 98.58%, while increasing throughput by 27.43x. For segmentation, our framework reduced data transmission by 90.32%, decoding time by 90.26%, while increasing throughput by 4.20x. Our work demonstrates that intelligent streaming results in faster turnaround times, and reduced overall cost of data and transmission, without negatively impacting clinical decision making using AI systems.
翻訳日:2023-05-26 18:12:11 公開日:2023-05-24
# ディープグラフニューラルネットワークのための可逆および不可逆ブラケットに基づくダイナミクス

Reversible and irreversible bracket-based dynamics for deep graph neural networks ( http://arxiv.org/abs/2305.15616v1 )

ライセンス: Link先を確認
Anthony Gruber, Kookjin Lee, Nathaniel Trask(参考訳) 近年の研究では、物理にインスパイアされたアーキテクチャにより、過剰なスムーシングなしにディープグラフニューラルネットワーク(GNN)のトレーニングが可能になることが示されている。 しかし、これらの物理学の役割は明らかではなく、可逆現象(例えばハミルトニアン)と非可逆現象(例えば拡散現象)の両方が、ダイアメトリックな反対のメカニズムにもかかわらず同等の結果を生じさせ、数学理論からの経験的な離脱によってさらに複雑化する例がある。 この研究は、構造保存ブラケットに基づく動的システムに基づく、新しいGNNアーキテクチャのシリーズを提示する。 ここで採用されている理論的原理の枠組みは、現在のアーキテクチャにおける理論からの離脱を文脈化し、ネットワーク性能における可逆性と非可逆性の役割をよりよく解明する、本質的に説明可能な構成を可能にする。

Recent works have shown that physics-inspired architectures allow the training of deep graph neural networks (GNNs) without oversmoothing. The role of these physics is unclear, however, with successful examples of both reversible (e.g., Hamiltonian) and irreversible (e.g., diffusion) phenomena producing comparable results despite diametrically opposed mechanisms, and further complications arising due to empirical departures from mathematical theory. This work presents a series of novel GNN architectures based upon structure-preserving bracket-based dynamical systems, which are provably guaranteed to either conserve energy or generate positive dissipation with increasing depth. It is shown that the theoretically principled framework employed here allows for inherently explainable constructions, which contextualize departures from theory in current architectures and better elucidate the roles of reversibility and irreversibility in network performance.
翻訳日:2023-05-26 18:11:53 公開日:2023-05-24
# リバースエンジニアリングによる自己監督型学習

Reverse Engineering Self-Supervised Learning ( http://arxiv.org/abs/2305.15614v1 )

ライセンス: Link先を確認
Ido Ben-Shaul, Ravid Shwartz-Ziv, Tomer Galanti, Shai Dekel, Yann LeCun(参考訳) 自己教師型学習(SSL)は機械学習において強力なツールであるが、学習した表現とその基盤となるメカニズムを理解することは依然として課題である。 本稿では,多様なモデル,アーキテクチャ,ハイパーパラメータを含むSSL学習表現の詳細な実験的検討を行う。 本研究はSSLトレーニングプロセスの興味深い側面を明らかにし,SSL目標の正規化項によって驚くほど駆動されるセマンティックラベルに対するサンプルのクラスタリングを本質的に促進する。 このクラスタリングプロセスは下流の分類を強化するだけでなく、データ情報も圧縮する。 さらに、SSLで訓練された表現が、ランダムクラスよりもセマンティッククラスとより密接に一致していることを確立する。 注目すべきなのは,学習表現がさまざまな階層レベルにわたる意味クラスと整合していることであり,このアライメントはトレーニングやネットワークの奥深くに移動すると増加する。 この結果から,SSLの表現学習機構と,クラス間のパフォーマンスへの影響に関する貴重な知見が得られた。

Self-supervised learning (SSL) is a powerful tool in machine learning, but understanding the learned representations and their underlying mechanisms remains a challenge. This paper presents an in-depth empirical analysis of SSL-trained representations, encompassing diverse models, architectures, and hyperparameters. Our study reveals an intriguing aspect of the SSL training process: it inherently facilitates the clustering of samples with respect to semantic labels, which is surprisingly driven by the SSL objective's regularization term. This clustering process not only enhances downstream classification but also compresses the data information. Furthermore, we establish that SSL-trained representations align more closely with semantic classes rather than random classes. Remarkably, we show that learned representations align with semantic classes across various hierarchical levels, and this alignment increases during training and when moving deeper into the network. Our findings provide valuable insights into SSL's representation learning mechanisms and their impact on performance across different sets of classes.
翻訳日:2023-05-26 18:11:35 公開日:2023-05-24
# 深部等変超球面

Deep Equivariant Hyperspheres ( http://arxiv.org/abs/2305.15613v1 )

ライセンス: Link先を確認
Pavlo Melnyk, Michael Felsberg, M{\aa}rten Wadenb\"ack, Andreas Robinson, Cuong Le(参考訳) 本稿では,点雲解析における直交変換の下でのnD特徴量同変の学習手法を提案する。 我々の主な貢献は理論であり、幾何学的変換の下での等分散や不変性といった幾何学的深層学習における主要な問題に取り組む。 すなわち、我々は最近開発された3次元球面ニューロン(SO(3)-同変フィルタバンク)の理論を、そのニューロンをnDに拡張することで強化し、深い同変超球体と呼び、複数の層に積み重ねることを可能にした。 modelnet40ベンチマークを用いて理論的貢献を実験的に検証し,提案する同変超球面の実用的構成を示す。

This paper presents an approach to learning nD features equivariant under orthogonal transformations for point cloud analysis, utilizing hyperspheres and regular n-simplexes. Our main contributions are theoretical and tackle major issues in geometric deep learning such as equivariance and invariance under geometric transformations. Namely, we enrich the recently developed theory of steerable 3D spherical neurons -- SO(3)-equivariant filter banks based on neurons with spherical decision surfaces -- by extending said neurons to nD, which we call deep equivariant hyperspheres, and enabling their stacking in multiple layers. Using the ModelNet40 benchmark, we experimentally verify our theoretical contributions and show a potential practical configuration of the proposed equivariant hyperspheres.
翻訳日:2023-05-26 18:11:19 公開日:2023-05-24
# 半教師付き学習による密度比推定に基づくベイズ最適化

Density Ratio Estimation-based Bayesian Optimization with Semi-Supervised Learning ( http://arxiv.org/abs/2305.15612v1 )

ライセンス: Link先を確認
Jungtaek Kim(参考訳) ベイズ最適化は、高価なブラックボックス関数のグローバル最適化を効率的に見つけることができるため、科学と工学の様々な研究分野から大きな注目を集めている。 一般に、確率回帰モデル、例えばガウス過程、ランダムフォレスト、ベイズニューラルネットワークは、推定への入力とトレーニングデータセットが与えられた関数評価に対する明示的な分布をモデル化するために、サロゲート関数として広く用いられている。 確率的回帰に基づくベイズ最適化以外にも, 密度比推定に基づくベイズ最適化が提案されている。 この研究の行をさらに発展させ、教師付き分類器を用いて密度比の代わりに2つの群のクラス確率を推定することができる。 しかしながら、この戦略で使用される教師付き分類器は、グローバルソリューション候補に対して過度に信頼されがちである。 この過信頼問題を解決するために,半教師付き学習を用いた密度比推定に基づくベイズ最適化を提案する。 最後に,未ラベル点サンプリングと固定サイズのプールを用いた2つの異なるシナリオにおいて,本手法といくつかの基本手法の実験結果を示す。

Bayesian optimization has attracted huge attention from diverse research areas in science and engineering, since it is capable of finding a global optimum of an expensive-to-evaluate black-box function efficiently. In general, a probabilistic regression model, e.g., Gaussian processes, random forests, and Bayesian neural networks, is widely used as a surrogate function to model an explicit distribution over function evaluations given an input to estimate and a training dataset. Beyond the probabilistic regression-based Bayesian optimization, density ratio estimation-based Bayesian optimization has been suggested in order to estimate a density ratio of the groups relatively close and relatively far to a global optimum. Developing this line of research further, a supervised classifier can be employed to estimate a class probability for the two groups instead of a density ratio. However, the supervised classifiers used in this strategy tend to be overconfident for a global solution candidate. To solve this overconfidence problem, we propose density ratio estimation-based Bayesian optimization with semi-supervised learning. Finally, we demonstrate the experimental results of our methods and several baseline methods in two distinct scenarios with unlabeled point sampling and a fixed-size pool.
翻訳日:2023-05-26 18:11:05 公開日:2023-05-24
# Markov $\alpha$-Potential Games: Equilibrium Approximation and Regret Analysis

Markov $\alpha$-Potential Games: Equilibrium Approximation and Regret Analysis ( http://arxiv.org/abs/2305.12553v2 )

ライセンス: Link先を確認
Xin Guo and Xinyu Li and Chinmay Maheshwari and Shankar Sastry and Manxi Wu(参考訳) 本稿では,マルコフゲームにおけるマルチエージェントインタラクションを研究するための新しいフレームワーク,markov $\alpha$-potential gamesを提案する。 markov potential gamesはmarkov $\alpha$-potential gamesの特別な場合であり、markov congestion gamesとperturbed markov team gamesの2つの重要かつ実質的に重要なゲームクラスがある。 本稿では、両方のゲームに対する {$\alpha$-potential} 関数を提供し、そのギャップ$\alpha$はゲームパラメータに関して特徴付けられる。 マルコフ$\alpha$-potentialゲームにおいて、定常ナッシュ平衡を近似するために、2つのアルゴリズム、すなわち射影勾配平均アルゴリズムと逐次最大改善最適応答ダイナミクスを導入する。 各アルゴリズムのNash-regretは、時間水平線でサブ線形にスケールする。 解析および数値実験により,マルコフ$\alpha$-ポテンシャルゲームにおいて,単純なアルゴリズムが近似平衡を求めることができることを示した。

This paper proposes a new framework to study multi-agent interaction in Markov games: Markov $\alpha$-potential games. Markov potential games are special cases of Markov $\alpha$-potential games, so are two important and practically significant classes of games: Markov congestion games and perturbed Markov team games. In this paper, {$\alpha$-potential} functions for both games are provided and the gap $\alpha$ is characterized with respect to game parameters. Two algorithms -- the projected gradient-ascent algorithm and the sequential maximum improvement smoothed best response dynamics -- are introduced for approximating the stationary Nash equilibrium in Markov $\alpha$-potential games. The Nash-regret for each algorithm is shown to scale sub-linearly in time horizon. Our analysis and numerical experiments demonstrates that simple algorithms are capable of finding approximate equilibrium in Markov $\alpha$-potential games.
翻訳日:2023-05-26 10:42:25 公開日:2023-05-24
# AutoMLのためのディープパイプライン埋め込み

Deep Pipeline Embeddings for AutoML ( http://arxiv.org/abs/2305.14009v2 )

ライセンス: Link先を確認
Sebastian Pineda Arango, Josif Grabocka(参考訳) Automated Machine Learning (AutoML)は、人間の専門知識を最小限に抑えた機械学習システムを自動的にデプロイすることで、AIを民主化するための有望な方向である。 AutoMLの背後にある技術的な課題は、機械学習システムのパイプライン(例えば、前処理、拡張、モデル、オプティマイザなど)を最適化することだ。 既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。 本稿では,機械学習パイプラインの構成要素間の深い相互作用を捉えたニューラルアーキテクチャを提案する。 本稿では,新しい部品単位のエンコーダ機構により,パイプラインを潜在表現に埋め込む手法を提案する。 最適なパイプラインを探すために、そのようなパイプラインの埋め込みは、ベイズ最適化のセットアップ内で、ディープカーネルのガウスプロセスに使用される。 さらに、パイプライン埋め込みネットワークのパラメータを、関連するデータセット(メタデータセット)のさまざまなコレクション上でのパイプラインの既存の評価を用いてメタ学習する。 3つの大規模メタデータに関する広範な実験を通じて、パイプライン埋め込みがパイプライン最適化に最先端の結果をもたらすことを実証する。

Automated Machine Learning (AutoML) is a promising direction for democratizing AI by automatically deploying Machine Learning systems with minimal human expertise. The core technical challenge behind AutoML is optimizing the pipelines of Machine Learning systems (e.g. the choice of preprocessing, augmentations, models, optimizers, etc.). Existing Pipeline Optimization techniques fail to explore deep interactions between pipeline stages/components. As a remedy, this paper proposes a novel neural architecture that captures the deep interaction between the components of a Machine Learning pipeline. We propose embedding pipelines into a latent representation through a novel per-component encoder mechanism. To search for optimal pipelines, such pipeline embeddings are used within deep-kernel Gaussian Process surrogates inside a Bayesian Optimization setup. Furthermore, we meta-learn the parameters of the pipeline embedding network using existing evaluations of pipelines on diverse collections of related datasets (a.k.a. meta-datasets). Through extensive experiments on three large-scale meta-datasets, we demonstrate that pipeline embeddings yield state-of-the-art results in Pipeline Optimization.
翻訳日:2023-05-26 10:33:47 公開日:2023-05-24
# どの不変性を移行すべきか? 因果的ミニマックス学習アプローチ

Which Invariance Should We Transfer? A Causal Minimax Learning Approach ( http://arxiv.org/abs/2107.01876v4 )

ライセンス: Link先を確認
Mingzhou Liu, Xiangyu Zheng, Xinwei Sun, Fang Fang, Yizhou Wang(参考訳) 現在の機械学習モデルのデプロイにおける大きな障壁は、データセットシフトへの信頼性の欠如にある。 この問題を解決するために、既存のほとんどの研究は安定した情報を目に見えない環境に転送しようとした。 特に, 個別因果機構に基づく, 可変因果機構の除去手法が提案されている。 従来の方法と比較して,安定な予測器は安定な情報を特定するのに効果的である。 しかし、重要な疑問は残る: 最適な一般化能力を達成するために、この安定な情報のどの部分集合がモデル転送をすべきなのか? そこで本研究では,因果的観点からの包括的ミニマックス解析を提案する。 具体的には、まず、安定集合全体が最適となるためのグラフィカルな条件を提供する。 この条件が失敗すると、この安定な集合全体が完全に安定な情報を活用できるが、転送する最適な集合ではないという例で驚く。 この場合の最適部分集合を同定するために,可変因果機構上の介入関数よりも新しい最適化手法を用いて,最悪のリスクを推定する。 次に,安定部分集合間の新たに定義された同値関係に基づいて,最小の最悪のリスクで部分集合を探索する効率的なアルゴリズムを提案する。 全ての部分集合を網羅的に探索する指数的コストと比較して、我々の探索戦略は多項式複雑性を享受する。 本手法の有効性と有効性は, 合成データとアルツハイマー病の診断により実証された。

A major barrier to deploying current machine learning models lies in their non-reliability to dataset shifts. To resolve this problem, most existing studies attempted to transfer stable information to unseen environments. Particularly, independent causal mechanisms-based methods proposed to remove mutable causal mechanisms via the do-operator. Compared to previous methods, the obtained stable predictors are more effective in identifying stable information. However, a key question remains: which subset of this whole stable information should the model transfer, in order to achieve optimal generalization ability? To answer this question, we present a comprehensive minimax analysis from a causal perspective. Specifically, we first provide a graphical condition for the whole stable set to be optimal. When this condition fails, we surprisingly find with an example that this whole stable set, although can fully exploit stable information, is not the optimal one to transfer. To identify the optimal subset under this case, we propose to estimate the worst-case risk with a novel optimization scheme over the intervention functions on mutable causal mechanisms. We then propose an efficient algorithm to search for the subset with minimal worst-case risk, based on a newly defined equivalence relation between stable subsets. Compared to the exponential cost of exhaustively searching over all subsets, our searching strategy enjoys a polynomial complexity. The effectiveness and efficiency of our methods are demonstrated on synthetic data and the diagnosis of Alzheimer's disease.
翻訳日:2023-05-26 03:50:33 公開日:2023-05-24
# 仮面状態から DNN の共有値を計算することは可能か?

Can We Faithfully Represent Masked States to Compute Shapley Values on a DNN? ( http://arxiv.org/abs/2105.10719v4 )

ライセンス: Link先を確認
Jie Ren, Zhanpeng Zhou, Qirui Chen, Quanshi Zhang(参考訳) ディープニューラルネットワーク(DNN)の入力変数を計算し、マスクされた入力サンプルの出力変化を計算することは、サンプル内の入力変数の属性を計算する典型的な方法である。 人々は通常、ベースライン値を使用して入力変数をマスクします。 しかし、ベースライン値が入力変数の欠如を忠実に表すかどうか、すなわち入力変数から全ての信号を除去するかどうかを調べる理論はない。 幸いなことに、最近の研究では、DNNの推論スコアが、DNNによって符号化された因果パターン(あるいは概念)のセットに厳密に切り離されていることが示されている。 そこで本研究では,基本値の忠実度を因果パターンを用いて検討する。 さらに重要なことは、因果パターンがシェープリー値の基本理論的根拠として説明できることが証明されている。 さらに,最適ベースライン値の学習法を提案し,その効果を実験的に実証した。

Masking some input variables of a deep neural network (DNN) and computing output changes on the masked input sample represent a typical way to compute attributions of input variables in the sample. People usually mask an input variable using its baseline value. However, there is no theory to examine whether baseline value faithfully represents the absence of an input variable, \emph{i.e.,} removing all signals from the input variable. Fortunately, recent studies show that the inference score of a DNN can be strictly disentangled into a set of causal patterns (or concepts) encoded by the DNN. Therefore, we propose to use causal patterns to examine the faithfulness of baseline values. More crucially, it is proven that causal patterns can be explained as the elementary rationale of the Shapley value. Furthermore, we propose a method to learn optimal baseline values, and experimental results have demonstrated its effectiveness.
翻訳日:2023-05-26 03:50:01 公開日:2023-05-24
# 勾配降下の逆訓練:その連続時間近似による解析

Adversarial Training for Gradient Descent: Analysis Through its Continuous-time Approximation ( http://arxiv.org/abs/2105.08037v2 )

ライセンス: Link先を確認
Haotian Gu, Xin Guo, Xinyu Li(参考訳) 敵対的トレーニングは、ディープニューラルネットワークの最も効果的な防御の1つとして、より一般的な勾配ベースの機械学習モデルとして、データポイントにおける敵対的摂動に対して大きな人気を集めている。 本稿では,対戦訓練のミニマックスゲームに対する連続時間近似を確立する。 この近似アプローチにより,確率的勾配降下と逆流訓練との高精度かつ解析的な比較が可能となり,新しい勾配流の観点からの逆流訓練のロバスト性が理論的に確認できる。 分析は、様々な解析的および数値的な例を通して裏付けられる。

Adversarial training has gained great popularity as one of the most effective defenses for deep neural network and more generally for gradient-based machine learning models against adversarial perturbations on data points. This paper establishes a continuous-time approximation for the mini-max game of adversarial training. This approximation approach allows for precise and analytical comparisons between stochastic gradient descent and its adversarial training counterpart; and confirms theoretically the robustness of adversarial training from a new gradient-flow viewpoint. The analysis is then corroborated through various analytical and numerical examples.
翻訳日:2023-05-26 03:49:43 公開日:2023-05-24
# 失敗の説明による論理プログラムの学習

Learning logic programs by explaining their failures ( http://arxiv.org/abs/2102.12551v2 )

ライセンス: Link先を確認
Rolf Morel, Andrew Cropper(参考訳) 科学者は仮説を作り、実験的にテストする。 仮説が失敗(否定)した場合、科学者は、他の仮説を取り除こうとする失敗を説明する。 失敗分析の精度が高ければ高いほど、仮説は排除される。 そこで本研究では,帰納論理プログラミングにおける障害説明手法を提案する。 論理プログラムとして表される仮説が与えられたら、実例で試す。 仮説が失敗した場合、サブプログラムの失敗について説明します。 正の例が失敗した場合、リテラルの粒度で失敗するサブプログラムを特定する。 本稿では,sld木の分岐解析に基づく故障説明アルゴリズムを提案する。 我々は,このアルゴリズムのメタ解釈に基づく実装を,Popper ILPシステムのテストステージに統合する。 きめ細かい故障解析によって仮説空間のきめ細かい制約を学習できることを示す。 実験の結果,失敗を説明することで,仮説空間探索や学習時間を大幅に削減できることがわかった。

Scientists form hypotheses and experimentally test them. If a hypothesis fails (is refuted), scientists try to explain the failure to eliminate other hypotheses. The more precise the failure analysis the more hypotheses can be eliminated. Thus inspired, we introduce failure explanation techniques for inductive logic programming. Given a hypothesis represented as a logic program, we test it on examples. If a hypothesis fails, we explain the failure in terms of failing sub-programs. In case a positive example fails, we identify failing sub-programs at the granularity of literals. We introduce a failure explanation algorithm based on analysing branches of SLD-trees. We integrate a meta-interpreter based implementation of this algorithm with the test-stage of the Popper ILP system. We show that fine-grained failure analysis allows for learning fine-grained constraints on the hypothesis space. Our experimental results show that explaining failures can drastically reduce hypothesis space exploration and learning times.
翻訳日:2023-05-26 03:49:34 公開日:2023-05-24
# Facebook と SMS のテキストメッセージングは言語ベース予測モデルの一般化に影響を与えない

Different Affordances on Facebook and SMS Text Messaging Do Not Impede Generalization of Language-Based Predictive Models ( http://arxiv.org/abs/2202.01802v3 )

ライセンス: Link先を確認
Tingting Liu, Salvatore Giorgi, Xiangyu Tao, Sharath Chandra Guntuku, Douglas Bellew, Brenda Curtis, Lyle Ungar(参考訳) 適応型モバイルデバイスベースの健康介入は、大規模テキストメッセージ(sms)データの収集が困難で費用がかかるため、ソーシャルメディアテキストなどの非モバイルデバイスデータでトレーニングされた機械学習モデルを使用することが多い。 したがって、これらのプラットフォーム間のモデルの違いと一般化を理解することは、適切なデプロイに不可欠である。 我々は、Facebookとテキストメッセージの心理言語学的差異とドメイン外のモデルパフォーマンスへの影響について、その両方を共有した120人のサンプルを用いて検討した。 ユーザーはfacebookを体験(レジャーなど)とsmsをタスク指向および会話目的(プラン確認など)に利用し、価格の違いを反映していることがわかった。 これらの違いの下流効果を調べるために、facebookベースの言語モデルを使って、年齢、性別、抑うつ、人生の満足度、およびfacebookとsmsの両方に対するストレスを推定しました。 8モデル中6モデルで評価値と自己報告値の相関は有意差は認められなかった。 これらの結果は、トレーニング済みのfacebook言語モデルを使用して、ジャスト・イン・タイムの介入によって精度を向上させることを示唆する。

Adaptive mobile device-based health interventions often use machine learning models trained on non-mobile device data, such as social media text, due to the difficulty and high expense of collecting large text message (SMS) data. Therefore, understanding the differences and generalization of models between these platforms is crucial for proper deployment. We examined the psycho-linguistic differences between Facebook and text messages, and their impact on out-of-domain model performance, using a sample of 120 users who shared both. We found that users use Facebook for sharing experiences (e.g., leisure) and SMS for task-oriented and conversational purposes (e.g., plan confirmations), reflecting the differences in the affordances. To examine the downstream effects of these differences, we used pre-trained Facebook-based language models to estimate age, gender, depression, life satisfaction, and stress on both Facebook and SMS. We found no significant differences in correlations between the estimates and self-reports across 6 of 8 models. These results suggest using pre-trained Facebook language models to achieve better accuracy with just-in-time interventions.
翻訳日:2023-05-26 03:42:40 公開日:2023-05-24
# Fenrir: 初期値問題に対する物理強化回帰

Fenrir: Physics-Enhanced Regression for Initial Value Problems ( http://arxiv.org/abs/2202.01287v2 )

ライセンス: Link先を確認
Filip Tronarp, Nathanael Bosch, Philipp Hennig(参考訳) 確率的数値は初期値問題からガウス-マルコフ過程への変換にどのように用いられるかを示し、通常の微分方程式におけるパラメータ推定の難しい問題はガウス-マルコフ回帰のハイパーパラメータ推定に還元されるが、これはかなり容易である。 古典的数値積分法や勾配マッチング法と比較して, 手法の関係と利点を解明する。 特に、勾配マッチングとは対照的に、この手法は部分的観測を処理し、古典的数値積分では利用できない局所的オプティマから逃れる特定の経路を持つ。 実験の結果,本手法は競合するアプローチと同等か中程度に優れていることがわかった。

We show how probabilistic numerics can be used to convert an initial value problem into a Gauss--Markov process parametrised by the dynamics of the initial value problem. Consequently, the often difficult problem of parameter estimation in ordinary differential equations is reduced to hyperparameter estimation in Gauss--Markov regression, which tends to be considerably easier. The method's relation and benefits in comparison to classical numerical integration and gradient matching approaches is elucidated. In particular, the method can, in contrast to gradient matching, handle partial observations, and has certain routes for escaping local optima not available to classical numerical integration. Experimental results demonstrate that the method is on par or moderately better than competing approaches.
翻訳日:2023-05-26 03:42:20 公開日:2023-05-24
# トランスベース事前学習言語モデルを用いた制御可能なテキスト生成に関する調査

A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models ( http://arxiv.org/abs/2201.05337v3 )

ライセンス: Link先を確認
Hanqing Zhang, Haolin Song, Shaoyu Li, Ming Zhou, Dawei Song(参考訳) 制御可能なテキスト生成(CTG)は、自然言語生成(NLG)分野における新興分野である。 これは、より自然で実用的な応用における特定の制約を満たす高度なテキスト生成技術の発達に欠かせないものと考えられている。 近年、大規模な事前学習言語モデル(PLM)を用いた手法、特に広く使われているトランスフォーマーベースのPLMは、NLGの新しいパラダイムとなり、より多種多様な流動的なテキストを生成することができる。 しかしながら、ディープニューラルネットワークの解釈可能性が低いため、これらの方法の制御性が保証される必要がある。 この目的のために、トランスフォーマーベースのPLMを用いた制御可能なテキスト生成は、急速に成長するが、新しい研究ホットスポットとなっている。 過去3~4年間に様々なアプローチが出現し、異なる種類の制御制約を必要とする様々なCTGタスクをターゲットにしている。 本稿では,この分野における共通課題,主なアプローチ,評価手法について,系統的な批判的考察を行う。 最後に、この分野が直面している課題について議論し、様々な将来的な方向性を提示する。 私たちの知る限りでは、plmの観点からctg技術を要約した最初の調査論文となる。 関連分野の研究者が学術的なフロンティアを素早く追跡し、その領域の風景と今後の研究のロードマップを提供するのに役立つことを期待している。

Controllable Text Generation (CTG) is emerging area in the field of natural language generation (NLG). It is regarded as crucial for the development of advanced text generation technologies that are more natural and better meet the specific constraints in practical applications. In recent years, methods using large-scale pre-trained language models (PLMs), in particular the widely used transformer-based PLMs, have become a new paradigm of NLG, allowing generation of more diverse and fluent text. However, due to the lower level of interpretability of deep neural networks, the controllability of these methods need to be guaranteed. To this end, controllable text generation using transformer-based PLMs has become a rapidly growing yet challenging new research hotspot. A diverse range of approaches have emerged in the recent 3-4 years, targeting different CTG tasks which may require different types of controlled constraints. In this paper, we present a systematic critical review on the common tasks, main approaches and evaluation methods in this area. Finally, we discuss the challenges that the field is facing, and put forward various promising future directions. To the best of our knowledge, this is the first survey paper to summarize CTG techniques from the perspective of PLMs. We hope it can help researchers in related fields to quickly track the academic frontier, providing them with a landscape of the area and a roadmap for future research.
翻訳日:2023-05-26 03:42:07 公開日:2023-05-24
# カシミール効果の存在下での黒体熱力学

Blackbody thermodynamics in the presence of Casimir's effect ( http://arxiv.org/abs/2112.13596v3 )

ライセンス: Link先を確認
E. S. Moreira Jr. and Heitor da Silva(参考訳) 本論文は, 壁が完全な導体でできている薄板内における温度T$の電磁放射の研究である。 面積$A$の2つの大きな平行壁は距離$d\ll \sqrt{A}$で区切られている。 熱力学パラメータとして$t$、$a$、$d$を取り、ブラウンとマクレイによってずっと前に計算された応力-エネルギー-運動量テンソルのアンサンブル平均のスラブ上の積分を含む手続きから自由エネルギーを得る。 どちらの熱力学系も、$kTd/\hbar c\gg 1$と$kTd/\hbar c\ll 1$は完全に対応している。 通常の黒体熱力学において不定義(あるいは自明)であると悪名高い熱力学量は、スラブの壁の境界条件の存在(カシミール効果)により、現在ではよく定義されている(非自明)。 これらの量間の関係は十分に解明されており、実験的に検証される可能性があると推測されている。 スラブ内の電磁放射は熱的に安定であるが、機械的に不安定である。 温度, 内部エネルギー, エントロピー, エンタルピーが一定となる熱力学過程を調べ, 非定型的な挙動を明らかにした。 例えば、気体から期待するものとは対照的に、$ktd/\hbar c\ll 1$のとき、「自由膨張」は熱力学の第2法則に従って「自由収縮」となる。 公式の整合性の確認として,様々なカルノーサイクルが検討され,カルノーの効率を正しく導くことを検証した。

This paper is a study of the electromagnetic radiation at temperature $T$ in a thin slab whose walls are made of a perfect conductor. The two large parallel walls of area $A$ are apart by a distance $d\ll \sqrt{A}$. We take $T$, $A$, and $d$ as thermodynamic parameters, obtaining the free energy from a procedure that involves the integration over the slab of the ensemble average of the stress-energy-momentum tensor calculated long ago by Brown and Maclay. Both thermodynamic regimes $kTd/\hbar c\gg 1$ and $kTd/\hbar c\ll 1$ are fully addressed. We show that certain thermodynamic quantities which are notoriously ill defined (or trivial) in ordinary blackbody thermodynamics are now well defined (or nontrivial) due to presence of boundary conditions at the walls of the slab ("Casimir's effect"). The relationships among such quantities are fully explored and it is speculated that they may be experimentally checked. Stability is addressed, showing that electromagnetic radiation in the slab is thermally stable; but mechanically unstable. We investigate thermodynamic processes where temperature, internal energy, entropy and enthalpy are each taken to be constant, revealing rather atypical behaviors. For example, in sharp contrast with what one would expect from a gas, when $kTd/\hbar c\ll 1$, "free expansion" gives place to "free contraction'' in accordance with the second law of thermodynamics. As a check of consistency of the formulae we remark that various Carnot cycles have been examined and verified that they correctly lead to Carnot's efficiency.
翻訳日:2023-05-26 03:41:45 公開日:2023-05-24
# DSEE: 事前訓練された言語モデルの二重疎結合効率的なチューニング

DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models ( http://arxiv.org/abs/2111.00160v3 )

ライセンス: Link先を確認
Xuxi Chen, Tianlong Chen, Weizhu Chen, Ahmed Hassan Awadallah, Zhangyang Wang, Yu Cheng(参考訳) 先進的な事前学習モデルは自然言語処理(NLP)の中心となり、様々な下流タスクへの微調整の出発点となっている。 しかし、このパラダイムには2つの痛点が残る。 (a) 事前学習モデルが大きくなり(例えば GPT-3 の 175B パラメータなど)、微調整プロセスでさえ時間と計算コストがかかる。 b) 細調整されたモデルがデフォルトの開始点と同じサイズであり,より専門的な機能や,多くの細調整されたモデルがリソース制約のある環境にデプロイされるため,実用的ではない。 これらの問題点に対処するために,重みの更新と最終モデルの重み付けの両方に先立ってスパーシティを活用し,資源効率とパラメータ効率のよい微調整の枠組みを提案する。 提案するフレームワークはdsee(dually sparsity-embedded efficient tuning)と呼ばれ、2つの重要な目標達成を目指している。 一 パラメータ効率のよい微調整 事前訓練した重量の上において、疎度を考慮した低ランク更新を行うことにより (ii)資源効率のよい推論 - 希薄な重み構造を最終的な微調整モデルに向けて奨励すること。 我々は,事前学習した言語モデルにおいて,非構造化パターンと構造化スパースパターンの両方を統一的アプローチで活用することにより,この2つの方向のスパース性を活用する。 数十のデータセットのさまざまなネットワークバックボーン(bert、roberta、gpt-2など)を用いた広範な実験と詳細な調査は、競争力のある下流のパフォーマンスを維持しながら、一貫して印象的なパラメータ/参照効率を示している。 例えば、DSEEは、約25%の推論FLOPを節約し、同等のパフォーマンスを実現し、BERT上では0.5%のトレーニング可能なパラメータを持つ。 コードはhttps://github.com/VITA-Group/DSEEで入手できる。

Gigantic pre-trained models have become central to natural language processing (NLP), serving as the starting point for fine-tuning towards a range of downstream tasks. However, two pain points persist for this paradigm: (a) as the pre-trained models grow bigger (e.g., 175B parameters for GPT-3), even the fine-tuning process can be time-consuming and computationally expensive; (b) the fine-tuned model has the same size as its starting point by default, which is neither sensible due to its more specialized functionality, nor practical since many fine-tuned models will be deployed in resource-constrained environments. To address these pain points, we propose a framework for resource- and parameter-efficient fine-tuning by leveraging the sparsity prior in both weight updates and the final model weights. Our proposed framework, dubbed Dually Sparsity-Embedded Efficient Tuning (DSEE), aims to achieve two key objectives: (i) parameter efficient fine-tuning - by enforcing sparsity-aware low-rank updates on top of the pre-trained weights; and (ii) resource-efficient inference - by encouraging a sparse weight structure towards the final fine-tuned model. We leverage sparsity in these two directions by exploiting both unstructured and structured sparse patterns in pre-trained language models via a unified approach. Extensive experiments and in-depth investigations, with diverse network backbones (i.e., BERT, RoBERTa, and GPT-2) on dozens of datasets, consistently demonstrate impressive parameter-/inference-efficiency, while maintaining competitive downstream performance. For instance, DSEE saves about 25% inference FLOPs while achieving comparable performance, with 0.5% trainable parameters on BERT. Codes are available in https://github.com/VITA-Group/DSEE.
翻訳日:2023-05-26 03:41:15 公開日:2023-05-24
# 勧告システムのための深層探査

Deep Exploration for Recommendation Systems ( http://arxiv.org/abs/2109.12509v2 )

ライセンス: Link先を確認
Zheqing Zhu, Benjamin Van Roy(参考訳) 現代のレコメンデーションシステムは、遅れたフィードバックを探索し、学ぶことで恩恵を受けるべきです。 研究は、単一のレコメンデーションに対するユーザの反応から学ぶことに集中する傾向があります。 このような作業は、教師やバンディット学習の手法を活用し、ユーザのその後の行動から学ぶことを禁じている。 過去の研究がその後の行動から学ぶことを目指していたところでは、情報に遅れたフィードバックを導き出す効果的な方法が不足している。 フィードバックの遅れによる効果的な探索は、報酬が不足している場合に特に困難になる。 そこで我々は,レコメンデーションシステムのための深層探査手法を開発した。 特に,推薦を逐次的決定問題として定式化し,単段探索よりも深い探索の利点を示す。 本実験は,高忠実度産業用シミュレータを用いて実施し,既存のアルゴリズムに対する大幅な改善を図る。

Modern recommendation systems ought to benefit by probing for and learning from delayed feedback. Research has tended to focus on learning from a user's response to a single recommendation. Such work, which leverages methods of supervised and bandit learning, forgoes learning from the user's subsequent behavior. Where past work has aimed to learn from subsequent behavior, there has been a lack of effective methods for probing to elicit informative delayed feedback. Effective exploration through probing for delayed feedback becomes particularly challenging when rewards are sparse. To address this, we develop deep exploration methods for recommendation systems. In particular, we formulate recommendation as a sequential decision problem and demonstrate benefits of deep exploration over single-step exploration. Our experiments are carried out with high-fidelity industrial-grade simulators and establish large improvements over existing algorithms.
翻訳日:2023-05-26 03:40:16 公開日:2023-05-24
# 糖尿病網膜症における微小データを用いた多段階移動学習フレームワーク

A Multi-stage Transfer Learning Framework for Diabetic Retinopathy Grading on Small Data ( http://arxiv.org/abs/2109.11806v2 )

ライセンス: Link先を確認
Lei Shi, Bin Wang and Junxing Zhang(参考訳) 糖尿病網膜症(DR)は、現在知られている主要な盲腸疾患の一つである。 深層学習法を用いた dr の自動評価は, 疾患の診断を高速化するだけでなく, 誤診の頻度を低下させる。 しかし,小さなDRデータセットにおけるサンプル不足や不均衡なクラス分布などの確率は,階調性能の向上を妨げている。 本稿では,マルチステージトランスファー学習のアイデアを,博士の学習課題に適用する。新しいトランスファー学習手法では,スケールの異なる複数のデータセットを用いて,モデルがより多くの特徴表現情報を学ぶことができる。 一方,少人数のdrデータセットの不均衡問題に対処するため,本研究ではクラスバランスの損失関数を提示し,簡易かつ実装の容易なトレーニング手法を採用する。 偶発データセットを用いた実験では, 精度と重み付けkappaの点で0.7961点, 0.8763点をそれぞれ獲得し, 小型データでの採点性能を効果的に向上できることを示した。 また,本手法は最先端手法よりも優れている。

Diabetic retinopathy (DR) is one of the major blindness-causing diseases currently known. Automatic grading of DR using deep learning methods not only speeds up the diagnosis of the disease but also reduces the rate of misdiagnosis. However,problems such as insufficient samples and imbalanced class distribution in small DR datasets have constrained the improvement of grading performance. In this paper, we apply the idea of multi-stage transfer learning into the grading task of DR. The new transfer learning technique utilizes multiple datasets with different scales to enable the model to learn more feature representation information. Meanwhile, to cope with the imbalanced problem of small DR datasets, we present a class-balanced loss function in our work and adopt a simple and easy-to-implement training method for it. The experimental results on IDRiD dataset show that our method can effectively improve the grading performance on small data, obtaining scores of 0.7961 and 0.8763 in terms of accuracy and quadratic weighted kappa, respectively. Our method also outperforms several state-of-the-art methods.
翻訳日:2023-05-26 03:40:03 公開日:2023-05-24
# 断熱量子コンピューティングにおけるギャップ進化を予測するディープリカレントネットワーク

Deep recurrent networks predicting the gap evolution in adiabatic quantum computing ( http://arxiv.org/abs/2109.08492v4 )

ライセンス: Link先を確認
Naeimeh Mohseni, Carlos Navarrete-Benlloch, Tim Byrnes, Florian Marquardt(参考訳) adiabatic quantum computing において、アディアバティックスイープ中に変化するパラメータの関数としてのハミルトニアンのギャップの依存性を見つけることは、計算の速度を最適化するために重要である。 この課題にインスパイアされた本研究では、ハミルトニアン問題を完全に同定するパラメータから、異なるネットワークアーキテクチャを適用したギャップのパラメトリック依存性へのマッピングを見つけるためのディープラーニングの可能性を探る。 この例を通じて,このような問題の学習可能性の限界因子は入力のサイズ,すなわち,ハミルトニアンスケールをシステムサイズで識別するために必要なパラメータの数である,と推測する。 パラメータ空間がシステムサイズと線形にスケールする場合,長期の短期記憶ネットワークはギャップの予測に成功することを示す。 注目すべきは、このアーキテクチャがモデルの空間構造を扱うために畳み込みニューラルネットワークと組み合わされると、トレーニング中にニューラルネットワークで見られるものよりも大きなシステムサイズに対してギャップ進化を予測できることである。 これにより、ギャップを計算する際の既存の完全および近似アルゴリズムと比較して、大幅な高速化が得られる。

In adiabatic quantum computing finding the dependence of the gap of the Hamiltonian as a function of the parameter varied during the adiabatic sweep is crucial in order to optimize the speed of the computation. Inspired by this challenge, in this work, we explore the potential of deep learning for discovering a mapping from the parameters that fully identify a problem Hamiltonian to the aforementioned parametric dependence of the gap applying different network architectures. Through this example, we conjecture that a limiting factor for the learnability of such problems is the size of the input, that is, how the number of parameters needed to identify the Hamiltonian scales with the system size. We show that a long short-term memory network succeeds in predicting the gap when the parameter space scales linearly with system size. Remarkably, we show that once this architecture is combined with a convolutional neural network to deal with the spatial structure of the model, the gap evolution can even be predicted for system sizes larger than the ones seen by the neural network during training. This provides a significant speedup in comparison with the existing exact and approximate algorithms in calculating the gap.
翻訳日:2023-05-26 03:39:46 公開日:2023-05-24
# 線形光学と光検出は、近最適不明瞭なコヒーレント状態の識別を達成する

Linear optics and photodetection achieve near-optimal unambiguous coherent state discrimination ( http://arxiv.org/abs/2109.00008v5 )

ライセンス: Link先を確認
Jasminder S. Sidhu, Michael S. Bullock, Saikat Guha, and Cosmo Lupo(参考訳) 理想的なレーザー光の量子記述である量子電磁場のコヒーレント状態は、光通信の情報キャリアとして素候補である。 量子的に制限された推定と識別には多くの文献が存在する。 しかし、コヒーレント状態の曖昧な状態識別(USD)のための受信機の実現についてはほとんど知られていない。 ここでは、このギャップを埋めて、パッシブマルチモード線形光学、位相空間変位、補助真空モード、オンオフ光子検出を含むusdの理論を概説する。 以上の結果から,現在利用可能な光学部品は,複数の多モードコヒーレント状態のほぼ最適不明瞭な識別を実現するのに十分であることが示唆された。

Coherent states of the quantum electromagnetic field, the quantum description of ideal laser light, are prime candidates as information carriers for optical communications. A large body of literature exists on their quantum-limited estimation and discrimination. However, very little is known about the practical realizations of receivers for unambiguous state discrimination (USD) of coherent states. Here we fill this gap and outline a theory of USD with receivers that are allowed to employ: passive multimode linear optics, phase-space displacements, auxiliary vacuum modes, and on-off photon detection. Our results indicate that, in some regimes, these currently-available optical components are typically sufficient to achieve near-optimal unambiguous discrimination of multiple, multimode coherent states.
翻訳日:2023-05-26 03:39:28 公開日:2023-05-24
# ステップアウェア検証による大規模言語モデルの改良

Making Large Language Models Better Reasoners with Step-Aware Verifier ( http://arxiv.org/abs/2206.02336v3 )

ライセンス: Link先を確認
Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou, Weizhu Chen(参考訳) 限られた例から一般化するためには、言語モデルが必要である。 GPT-3やPaLMのような大規模言語モデルはこの分野で目覚ましい進歩を遂げているが、算術問題のためのベンチマークであるGSM8Kのような推論タスクでは依然として困難に直面している。 推論スキルを向上させるために、以前の研究は、最終回答を出す前に一連の推論ステップを導き、gsm8kを17.9%から58.1%の問題解決率で大幅に改善することを提案した。 本稿では,言語モデルの推論能力をさらに高めるための新しいアプローチとして,多様性(推論ステップのdiverse verifier)を提案する。 DIVERSEには3つの主要なコンポーネントがある: 1つは、同じ質問に対して異なる推論経路を探索する多様なプロンプトを生成すること、2つ目は、重み付けされた投票方式に基づいて不正な回答をフィルタリングするために検証器を使用しており、もう1つは、チェーン全体ではなく、それぞれの推論ステップを個別に検証する。 最新の言語モデルであるcode-davinci-002 上でDIVERSEを評価し,8つの推論ベンチマーク(GSM8K 74.4% から 83.2% など)のうち6つに対して,新たな最先端結果が得られることを示す。

Few-shot learning is a challenging task that requires language models to generalize from limited examples. Large language models like GPT-3 and PaLM have made impressive progress in this area, but they still face difficulties in reasoning tasks such as GSM8K, a benchmark for arithmetic problems. To improve their reasoning skills, previous work has proposed to guide the language model with prompts that elicit a series of reasoning steps before giving the final answer, achieving a significant improvement on GSM8K from 17.9% to 58.1% in problem-solving rate. In this paper, we present DIVERSE (Diverse Verifier on Reasoning Step), a novel approach that further enhances the reasoning capability of language models. DIVERSE has three main components: first, it generates diverse prompts to explore different reasoning paths for the same question; second, it uses a verifier to filter out incorrect answers based on a weighted voting scheme; and third, it verifies each reasoning step individually instead of the whole chain. We evaluate DIVERSE on the latest language model code-davinci-002 and show that it achieves new state-of-the-art results on six of eight reasoning benchmarks (e.g., GSM8K 74.4% to 83.2%).
翻訳日:2023-05-26 03:32:46 公開日:2023-05-24
# データ効率ganトレーニングのための拡張認識自己スーパービジョン

Augmentation-Aware Self-Supervision for Data-Efficient GAN Training ( http://arxiv.org/abs/2205.15677v2 )

ライセンス: Link先を確認
Liang Hou, Qi Cao, Yige Yuan, Songtao Zhao, Chongyang Ma, Siyuan Pan, Pengfei Wan, Zhongyuan Wang, Huawei Shen, Xueqi Cheng(参考訳) 限定されたデータを持つgans(generative adversarial networks)のトレーニングは、判別器が過剰に適合し易いため難しい。 従来提案された差別化可能拡張は、訓練用GANのデータ効率の改善を示す。 しかし、データ変換によるラベル空間のセマンティクスの変化を無視し、識別器の表現学習能力を制限し、最終的にジェネレータの生成モデル性能に影響を及ぼすため、識別器の増大に対する望ましくない不変性を暗黙的に導入する。 データ拡張の利点を継承しながら、不変性の悪影響を軽減するために、拡張データの拡張パラメータを予測する新しい強化対応自己教師付き判別器を提案する。 特に、実際のデータと生成されたデータの予測対象は、トレーニング中に異なるため、区別する必要がある。 さらに, 自己教師型識別器から逆向きに学習することを, 拡張予測可能な実データを生成することで奨励する。 この定式化は、ジェネレータの学習目的と特定の仮定の下で算術$$$高調平均分散を結びつける。 我々は,データ制限付きCIFAR-10, CIFAR-100, FFHQ, LSUN-Catおよび5つの低ショットデータセット上で, クラス条件のBigGANおよび非条件のStyleGAN2アーキテクチャを用いたSOTA手法との比較を行った。 実験により,データ効率のよいGANの訓練において,SOTA法よりも優れた手法が得られた。

Training generative adversarial networks (GANs) with limited data is challenging because discriminator is prone to overfitting. Previously proposed differentiable augmentation demonstrates improved data efficiency of training GANs. However, the augmentation implicitly introduces undesired invariance to augmentation for the discriminator since it ignores the change of semantics in the label space caused by data transformation, which may limit the representation learning ability of the discriminator and ultimately affect the generative modeling performance of the generator. To mitigate the negative impact of invariance while inheriting the benefits of data augmentation, we propose a novel augmentation-aware self-supervised discriminator that predicts the augmentation parameter of the augmented data. Particularly, the prediction targets of real data and generated data are required to be distinguished since they are different during training. We further encourage the generator to adversarially learn from the self-supervised discriminator by generating augmentation-predictable real but not fake data. This formulation connects the learning objective of the generator and the arithmetic$-$harmonic mean divergence under certain assumptions. We compare our method with state-of-the-art (SOTA) methods using the class-conditional BigGAN and unconditional StyleGAN2 architectures on data-limited CIFAR-10, CIFAR-100, FFHQ, LSUN-Cat, and five low-shot datasets. Experimental results demonstrate significant improvements of our method over SOTA methods in training data-efficient GANs.
翻訳日:2023-05-26 03:32:22 公開日:2023-05-24
# 時間的知識グラフリンク予測のためのワンショット関係の学習メタ表現

Learning Meta Representations of One-shot Relations for Temporal Knowledge Graph Link Prediction ( http://arxiv.org/abs/2205.10621v2 )

ライセンス: Link先を確認
Zifeng Ding, Bailan He, Yunpu Ma, Zhen Han, Volker Tresp(参考訳) 近年,静的知識グラフ (KGs) のリレーショナル学習が注目されているが,時間的知識グラフ (TKGs) のリレーショナル学習はほとんど研究されていない。 KGと比較して、TKGは豊富な時間情報を含んでいるため、モデリングには時間的推論技術が必要である。 これは、時間的文脈で少数派関係を学ぶ上で大きな課題となる。 本稿では,静的なKGに対する数ショットのリレーショナル学習に着目し,2つの基本的TKG推論タスク(補間および外挿リンク予測)をワンショット設定に拡張する。 4つの大規模ベンチマークデータセットを提案し,TKGのワンショット関係を学習するためのTKG推論モデルを開発した。 実験結果から,両TKGリンク予測タスクにおいて,本モデルが全データセットに対して優れた性能を達成できることが示唆された。

Few-shot relational learning for static knowledge graphs (KGs) has drawn greater interest in recent years, while few-shot learning for temporal knowledge graphs (TKGs) has hardly been studied. Compared to KGs, TKGs contain rich temporal information, thus requiring temporal reasoning techniques for modeling. This poses a greater challenge in learning few-shot relations in the temporal context. In this paper, we follow the previous work that focuses on few-shot relational learning on static KGs and extend two fundamental TKG reasoning tasks, i.e., interpolated and extrapolated link prediction, to the one-shot setting. We propose four new large-scale benchmark datasets and develop a TKG reasoning model for learning one-shot relations in TKGs. Experimental results show that our model can achieve superior performance on all datasets in both TKG link prediction tasks.
翻訳日:2023-05-26 03:31:28 公開日:2023-05-24
# 行動言語に基づく計算倫理の現実的因果性:ASP.NETでの健全で完全な実装

Action Languages Based Actual Causality for Computational Ethics: a Sound and Complete Implementation in ASP ( http://arxiv.org/abs/2205.02919v2 )

ライセンス: Link先を確認
Camilo Sarmiento, Gauvain Bourgne, Katsumi Inoue, Daniele Cavalli, Jean-Gabriel Ganascia(参考訳) 道徳的責任は因果関係に左右されないが、両者は密接に混ざり合っている。 さらに、物理的世界の進化を合理的に理解することは因果性の概念と本質的に関連している。 したがって、自動計画に基づく意思決定アプリケーションは必然的に因果関係に対処しなければならない。 過去数十年の因果関係に関する多くの議論は、この概念がいかに複雑であるかを示しており、プランニングとの統合がどれほど難しいかを示している。 その結果、計算倫理学の研究の多くは、上述の考察にもかかわらず、因果関係を背景に委ねている。 本研究の貢献は,アクション言語に適した実際の因果関係定義から論理プログラミングへの完全かつ健全な翻訳を提供することであり,この定義は Wright の NESS テストの形式化である。 得られた論理プログラムは複雑な因果関係を扱うことができる。 この貢献により、エージェントは因果関係を推論できるだけでなく、計算倫理領域が以前到達できなかった状況を扱うことができる。 意思決定における倫理的考慮がますます重要になる状況において、計算倫理の進歩はAIコミュニティ全体にとって大きな恩恵をもたらす。

Although moral responsibility is not circumscribed by causality, they are both closely intermixed. Furthermore, rationally understanding the evolution of the physical world is inherently linked with the idea of causality. Thus, the decision-making applications based on automated planning inevitably have to deal with causality, especially if they consider imputability aspects or integrate references to ethical norms. The many debates around causation in the last decades have shown how complex this notion is and thus, how difficult is its integration with planning. As a result, much of the work in computational ethics relegates causality to the background, despite the considerations stated above. This paper's contribution is to provide a complete and sound translation into logic programming from an actual causation definition suitable for action languages, this definition is a formalisation of Wright's NESS test. The obtained logic program allows to deal with complex causal relations. In addition to enabling agents to reason about causality, this contribution specifically enables the computational ethics domain to handle situations that were previously out of reach. In a context where ethical considerations in decision-making are increasingly important, advances in computational ethics can greatly benefit the entire AI community.
翻訳日:2023-05-26 03:31:09 公開日:2023-05-24
# 運動と放射の量子ラビ干渉計

Quantum Rabi interferometry of motion and radiation ( http://arxiv.org/abs/2204.07699v3 )

ライセンス: Link先を確認
Kimin Park, Petr Marek, Ulrik L. Andersen, and Radim Filip(参考訳) 発振器とアンシラキュービットを結合することにより、位相空間内の所定の方向における機械的発振器またはマイクロ波場の変位の正確な決定をそれぞれ捕捉イオンまたは超伝導回路で行うことができる。 この結合を通じて、変位情報はキュービットに転送され、その後読み出される。 しかし、そのような振動子量子ビット系では、位相空間における未知方向の変位の明らかな推定は試みられていない。 本稿では,回転波近似以上のラビ相互作用に基づく位相空間変位を任意方向に不明瞭に推定するためのハイブリッドオシレータ量子ビット干渉法を提案する。 このようなハイブリッド型Rabi干渉計を量子センシングに用いて, 単一モード推定法とJaynes-Cummings相互作用に基づく従来の干渉計により得られたものよりも優れた性能を示す。 さらに,Rabi干渉計の感度は発振器モードの熱的占有とは無関係であり,センサが不要になる前に冷却することがわかった。 また,量子ビットデファスメントと発振器の熱化の影響について徹底的に検討する。 干渉計はかなりロバストで、大きなデファスメントや熱化であっても、異なるベンチマーク推定スキームよりも優れています。

The precise determination of a displacement of a mechanical oscillator or a microwave field in a predetermined direction in phase space can be carried out with trapped ions or superconducting circuits, respectively, by coupling the oscillator with ancilla qubits. Through that coupling, the displacement information is transferred to the qubits which are then subsequently read out. However, unambiguous estimation of displacement in an unknown direction in the phase space has not been attempted in such oscillator-qubit systems. Here, we propose a hybrid oscillator-qubit interferometric setup for the unambiguous estimation of phase space displacements in an arbitrary direction, based on feasible Rabi interactions beyond the rotating-wave approximation. Using such a hybrid Rabi interferometer for quantum sensing, we show that the performance is superior to the ones attained by single-mode estimation schemes and a conventional interferometer based on Jaynes-Cummings interactions. Moreover, we find that the sensitivity of the Rabi interferometer is independent of the thermal occupation of the oscillator mode, and thus cooling it to the ground state before sensing is not required. We also perform a thorough investigation of the effect of qubit dephasing and oscillator thermalization. We find the interferometer to be fairly robust, outperforming different benchmark estimation schemes even for large dephasing and thermalization.
翻訳日:2023-05-26 03:30:49 公開日:2023-05-24
# 不確実性のあるラグランジアンドリフト学習のためのDNNフレームワーク

A DNN Framework for Learning Lagrangian Drift With Uncertainty ( http://arxiv.org/abs/2204.05891v2 )

ライセンス: Link先を確認
Joseph Jenkins, Adeline Paiement, Yann Ourmi\`eres, Julien Le Sommer, Jacques Verron, Cl\'ement Ubelmann and Herv\'e Glotin(参考訳) ラグランジュの漂流の復元、例えば海で失われた物体は、しばしばデータの中で未解決の物理的現象のために不確実である。 不確実性は通常、ドリフトに確率性を導入することで克服されるが、このアプローチは不確実性をモデル化するための特定の仮定を必要とする。 柔軟性のある環境で確率的ドリフトをモデリングするための純粋データ駆動フレームワークを提示して、この制約を取り除く。 海洋循環モデルシミュレーションを用いて,初期物体位置の不確かさをシミュレートして,物体位置の確率論的軌跡を生成する。 我々は,確率的ドリフトのエミュレータを1日以上トレーニングし,数値シミュレーションと良好な一致を観察する。 いくつかの損失関数がテストされる。 そして、入力情報が不完全であるようなモデルをトレーニングすることで、フレームワークを歪めます。 これらの難しいシナリオでは、データドリフトの効果は、不測のフローシナリオに対してモデルを評価する際に顕著になるが、合理的な予測を観測する。

Reconstructions of Lagrangian drift, for example for objects lost at sea, are often uncertain due to unresolved physical phenomena within the data. Uncertainty is usually overcome by introducing stochasticity into the drift, but this approach requires specific assumptions for modelling uncertainty. We remove this constraint by presenting a purely data-driven framework for modelling probabilistic drift in flexible environments. Using ocean circulation model simulations, we generate probabilistic trajectories of object location by simulating uncertainty in the initial object position. We train an emulator of probabilistic drift over one day given perfectly known velocities and observe good agreement with numerical simulations. Several loss functions are tested. Then, we strain our framework by training models where the input information is imperfect. On these harder scenarios, we observe reasonable predictions although the effects of data drift become noticeable when evaluating the models against unseen flow scenarios.
翻訳日:2023-05-26 03:30:17 公開日:2023-05-24
# GFlowNetsを用いた生物配列設計

Biological Sequence Design with GFlowNets ( http://arxiv.org/abs/2203.04115v3 )

ライセンス: Link先を確認
Moksh Jain, Emmanuel Bengio, Alex-Hernandez Garcia, Jarrid Rector-Brooks, Bonaventure F. P. Dossou, Chanakya Ekbote, Jie Fu, Tianyu Zhang, Micheal Kilgour, Dinghuai Zhang, Lena Simine, Payel Das, Yoshua Bengio(参考訳) タンパク質やDNA配列のような望ましい性質を持つデノボ生物配列の設計は、しばしば数ラウンドの分子アイデアと高価なウェットラブ評価を伴う活性ループを含む。 これらの実験は複数の段階から構成され、精度と評価コストが増大し、候補をフィルターする。 これにより、提案された候補の多様性が、イデオレーションフェーズにおいて重要な考慮事項となる。 本研究では,近年提案されているGFlowNetsを多種多様な候補解の生成源として活用する能動的学習アルゴリズムを提案し,各ラウンド後の多種多様な有用(例えば,ペプチドの抗微生物活性の予測など)と情報的候補の獲得を目的とする。 また,gflownetsでの学習を高速化するための報酬関数に加えて,既存のラベル付き候補データセットを組み込む手法を提案する。 本手法は,いくつかの生物シーケンス設計タスクにおいて経験的な結果を示し,既存の手法に比べて高いスコアの候補を持つ新しいバッチを生成できることを見いだした。

Design of de novo biological sequences with desired properties, like protein and DNA sequences, often involves an active loop with several rounds of molecule ideation and expensive wet-lab evaluations. These experiments can consist of multiple stages, with increasing levels of precision and cost of evaluation, where candidates are filtered. This makes the diversity of proposed candidates a key consideration in the ideation phase. In this work, we propose an active learning algorithm leveraging epistemic uncertainty estimation and the recently proposed GFlowNets as a generator of diverse candidate solutions, with the objective to obtain a diverse batch of useful (as defined by some utility function, for example, the predicted anti-microbial activity of a peptide) and informative candidates after each round. We also propose a scheme to incorporate existing labeled datasets of candidates, in addition to a reward function, to speed up learning in GFlowNets. We present empirical results on several biological sequence design tasks, and we find that our method generates more diverse and novel batches with high scoring candidates compared to existing approaches.
翻訳日:2023-05-26 03:29:27 公開日:2023-05-24
# Dual Prompt Augmentationによる言語間プロンプトの強化

Enhancing Cross-lingual Prompting with Dual Prompt Augmentation ( http://arxiv.org/abs/2202.07255v2 )

ライセンス: Link先を確認
Meng Zhou, Xin Li, Yue Jiang, Lidong Bing(参考訳) プロンプティングは、数ショットのシナリオで有望な結果を示す。 しかし、多言語/言語間問題に対するその強みは十分に活用されていない。 zhao and sch\"utze (2021) は、この方向の初期調査を行い、言語交叉が言語交叉の微調整を上回ることを示した。 本稿では,言語間プロンプトと言語に依存しないユニバーサル・プロンプトにおける各コンポーネントの効果を実証的に検討し,ソース言語訓練とターゲット言語推論の相違を緩和する。 そこで本稿では,DPAという2つのプロンプト拡張フレームワークを提案する。 特に,XNLIでは,クラスごとの英語学習例は16例のみで46.54%,ファインタニングの34.99%をはるかに上回っている。 私たちのコードはhttps://github.com/DAMO-NLP-SG/DPAで公開されています。

Prompting shows promising results in few-shot scenarios. However, its strength for multilingual/cross-lingual problems has not been fully exploited. Zhao and Sch\"utze (2021) made initial explorations in this direction by presenting that cross-lingual prompting outperforms cross-lingual finetuning. In this paper, we conduct an empirical exploration on the effect of each component in cross-lingual prompting and derive language-agnostic Universal Prompting, which helps alleviate the discrepancies between source-language training and target-language inference. Based on this, we propose DPA, a dual prompt augmentation framework, aiming at relieving the data scarcity issue in few-shot cross-lingual prompting. Notably, for XNLI, our method achieves 46.54% with only 16 English training examples per class, significantly better than 34.99% of finetuning. Our code is available at https://github.com/DAMO-NLP-SG/DPA.
翻訳日:2023-05-26 03:29:09 公開日:2023-05-24
# アウト・オブ・ディストリビューション・ジェネライゼーションのためのドメイン固有のリスク最小化

Domain-Specific Risk Minimization for Out-of-Distribution Generalization ( http://arxiv.org/abs/2208.08661v4 )

ライセンス: Link先を確認
Yi-Fan Zhang, Jindong Wang, Jian Liang, Zhang Zhang, Baosheng Yu, Liang Wang, Dacheng Tao, Xing Xie(参考訳) 最近のドメイン一般化(dg)アプローチでは、通常、ソースドメインで学習した仮説を対象領域の未認識の推論に利用する。 しかし、そのような仮説は「適応ギャップ」と呼ばれるギャップによって誘導される対象領域の最適値から任意に離れることができる。 未発見のテストサンプルからドメイン情報を利用することなく、適応性ギャップの推定と最小化は難解であり、モデルから未知の分布への堅牢化を妨げます。 本稿ではまず適応性ギャップを明示的に考慮した一般化境界を確立する。 我々の境界はギャップを減らすための2つの戦略を動機付けている: 第一に、仮説空間を豊かにするために複数の分類器をアンサンブルし、目標に対するより良い仮説の選択を導く効果的なギャップ推定法を提案する。 もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。 そこで我々は,<textbf{Domain-specific Risk Minimization (DRM) を提案する。 トレーニング中、DRMは異なるソースドメインの分布を別々にモデル化する。 拡張実験は、ドメイン一般化のための提案されたDRMの有効性を以下の利点で示す。 1)異なる分布シフト設定における競合ベースラインを著しく上回っている。 2)バニラ経験的リスク最小化に比較して,すべてのソースドメインにおいて同等又は優れた精度を達成する。 3)訓練中もシンプルで効率的であり、 4)不変学習アプローチを補完する。

Recent domain generalization (DG) approaches typically use the hypothesis learned on source domains for inference on the unseen target domain. However, such a hypothesis can be arbitrarily far from the optimal one for the target domain, induced by a gap termed ``adaptivity gap''. Without exploiting the domain information from the unseen test samples, adaptivity gap estimation and minimization are intractable, which hinders us to robustify a model to any unknown distribution. In this paper, we first establish a generalization bound that explicitly considers the adaptivity gap. Our bound motivates two strategies to reduce the gap: the first one is ensembling multiple classifiers to enrich the hypothesis space, then we propose effective gap estimation methods for guiding the selection of a better hypothesis for the target. The other method is minimizing the gap directly by adapting model parameters using online target samples. We thus propose \textbf{Domain-specific Risk Minimization (DRM)}. During training, DRM models the distributions of different source domains separately; for inference, DRM performs online model steering using the source hypothesis for each arriving target sample. Extensive experiments demonstrate the effectiveness of the proposed DRM for domain generalization with the following advantages: 1) it significantly outperforms competitive baselines on different distributional shift settings; 2) it achieves either comparable or superior accuracies on all source domains compared to vanilla empirical risk minimization; 3) it remains simple and efficient during training, and 4) it is complementary to invariant learning approaches.
翻訳日:2023-05-26 03:23:03 公開日:2023-05-24
# ベストレスポンシブダイバーシティによるロバストなアドホックチームワークエージェントのトレーニング用チームメイトの作成

Generating Teammates for Training Robust Ad Hoc Teamwork Agents via Best-Response Diversity ( http://arxiv.org/abs/2207.14138v3 )

ライセンス: Link先を確認
Arrasy Rahman, Elliot Fosong, Ignacio Carlucho, Stefano V. Albrecht(参考訳) アドホックチームワーク(Ad hoc teamwork, AHT)は、事前調整機構なしで、未知のチームメイトと効果的に協力する堅牢な学習エージェントを設計する挑戦である。 初期のアプローチは、学習者に様々な手作りのチームメイトポリシーを訓練することでahtチャレンジに対処し、通常、学習者が遭遇する可能性のあるポリシーに関する専門家のドメイン知識に基づいて設計される。 しかし、ドメイン知識に基づいたトレーニングのためのチームメイトポリシーを実装することは、必ずしも不可能ではない。 このような場合、近年のアプローチでは、情報理論の多様性の指標を最適化することで、チームメイトポリシーで学習者の堅牢性を向上させることを試みた。 チームメイトポリシー生成のために既存の情報理論の多様性メトリクスを最適化する際の問題は、表面的に異なるチームメイトの出現である。 AHTトレーニングに使用する場合、表面的には異なるチームメイト動作は、未知のチームメイトとのコラボレーション中に学習者の堅牢性を改善することができない。 本稿では,チームメート政策の適合性に基づく多様性を測定するための最良対応多様性(brdiv)指標を最適化する,チームメートポリシー自動生成手法を提案する。 我々は,情報理論の多様性指標を最適化する手法と,多様性指標を最適化しないアブレーションを比較し,複数の有効な調整戦略を持つ環境におけるアプローチを評価する。 実験の結果,BRDiv の最適化は,従来のチームメイト生成手法と比較して学習者のパフォーマンスを向上させるための多種多様なチームメイトポリシーが得られた。

Ad hoc teamwork (AHT) is the challenge of designing a robust learner agent that effectively collaborates with unknown teammates without prior coordination mechanisms. Early approaches address the AHT challenge by training the learner with a diverse set of handcrafted teammate policies, usually designed based on an expert's domain knowledge about the policies the learner may encounter. However, implementing teammate policies for training based on domain knowledge is not always feasible. In such cases, recent approaches attempted to improve the robustness of the learner by training it with teammate policies generated by optimising information-theoretic diversity metrics. The problem with optimising existing information-theoretic diversity metrics for teammate policy generation is the emergence of superficially different teammates. When used for AHT training, superficially different teammate behaviours may not improve a learner's robustness during collaboration with unknown teammates. In this paper, we present an automated teammate policy generation method optimising the Best-Response Diversity (BRDiv) metric, which measures diversity based on the compatibility of teammate policies in terms of returns. We evaluate our approach in environments with multiple valid coordination strategies, comparing against methods optimising information-theoretic diversity metrics and an ablation not optimising any diversity metric. Our experiments indicate that optimising BRDiv yields a diverse set of training teammate policies that improve the learner's performance relative to previous teammate generation approaches when collaborating with near-optimal previously unseen teammate policies.
翻訳日:2023-05-26 03:22:41 公開日:2023-05-24
# RankSEG: セグメンテーションのための一貫性のあるランキングベースのフレームワーク

RankSEG: A Consistent Ranking-based Framework for Segmentation ( http://arxiv.org/abs/2206.13086v2 )

ライセンス: Link先を確認
Ben Dai and Chunlin Li(参考訳) セグメンテーションはコンピュータビジョンと自然言語処理の基本的な分野として登場し、画像/テキストから興味のある領域を抽出するために全てのピクセル/フィーチャーにラベルを割り当てる。 セグメンテーションの性能を評価するために、Dice と IoU のメトリクスを用いて、地下の真実と予測セグメンテーションの重複度を測定する。 本稿では,ベイズ則やDice-IoU-キャリブレーションを含むDice/IoU指標に関するセグメンテーションの理論的基礎を確立する。 Dice/IoU測定値に関して,運用損失がほとんどである既存のしきい値ベースのフレームワークは一致していないことが証明された。 そこで我々は,この落とし穴に対処するために,ベイズ分割規則のプラグインルールに触発された,新しいランキングベースフレームワークrankdice/rankiouを提案する。 大規模かつ高次元のセグメンテーションにおいて提案するフレームワークを実装するために,GPU並列実行を用いた3つの数値アルゴリズムを開発した。 提案手法の統計的特性について検討する。 我々は,dice-/iou-calibratedであり,その過大なリスク境界と収束率も示している。 RankDice/mRankDiceの数値的効果は、様々なシミュレートされた例で示され、ファインアノテートされたCityScapes、Pascal VOC、Kvasir-SEGデータセットと最先端のディープラーニングアーキテクチャで示される。

Segmentation has emerged as a fundamental field of computer vision and natural language processing, which assigns a label to every pixel/feature to extract regions of interest from an image/text. To evaluate the performance of segmentation, the Dice and IoU metrics are used to measure the degree of overlap between the ground truth and the predicted segmentation. In this paper, we establish a theoretical foundation of segmentation with respect to the Dice/IoU metrics, including the Bayes rule and Dice-/IoU-calibration, analogous to classification-calibration or Fisher consistency in classification. We prove that the existing thresholding-based framework with most operating losses are not consistent with respect to the Dice/IoU metrics, and thus may lead to a suboptimal solution. To address this pitfall, we propose a novel consistent ranking-based framework, namely RankDice/RankIoU, inspired by plug-in rules of the Bayes segmentation rule. Three numerical algorithms with GPU parallel execution are developed to implement the proposed framework in large-scale and high-dimensional segmentation. We study statistical properties of the proposed framework. We show it is Dice-/IoU-calibrated, and its excess risk bounds and the rate of convergence are also provided. The numerical effectiveness of RankDice/mRankDice is demonstrated in various simulated examples and Fine-annotated CityScapes, Pascal VOC and Kvasir-SEG datasets with state-of-the-art deep learning architectures.
翻訳日:2023-05-26 03:22:14 公開日:2023-05-24
# GUI画像からの知覚的GUIウィジェット群に対する心理的刺激的・教師なし推論

Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of GUI Widgets from GUI Images ( http://arxiv.org/abs/2206.10352v2 )

ライセンス: Link先を確認
Mulong Xie, Zhenchang Xing, Sidong Feng, Chunyang Chen, Liming Zhu, Xiwei Xu(参考訳) グラフィカルユーザインタフェース(GUI)は、単に個々のウィジェットと無関係なウィジェットの集合ではなく、様々な視覚的手がかりによってグループに分割し、タブ、メニュー、カード、リストなどの高次の知覚単位を形成する。 ウィジェットの知覚グループにGUIを自動的に分割する機能は、GUI設計、実装、自動化タスクを自動化する視覚知能の基本的な構成要素である。 人間はGUIを有意義な知覚的ウィジェット群に高信頼性で分割することができるが、知覚的グループ化は依然として計算手法のオープンな課題である。 既存の手法は特定のGUIの実装や実行時情報に依存するアドホックなヒューリスティックや教師付き機械学習に依存している。 心理学と生物学的ビジョンの研究は、接続性、類似性、近接性、連続性といった視覚的な手がかりに基づいて、人間の視覚シーンにおける要素をどのようにグループ化するかを記述する一連の原則を定式化した。 これらの原則は、ドメインに依存しないものであり、審美的でユーザビリティを向上させるためにGUI上のコンテンツを構築するために、実践者が広く採用してきた。 これらの原理に着想を得て,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。 提案手法はGUI画像のみを必要とし,GUI実装とは独立であり,トレーニングデータを必要としない。 772のモバイルアプリと20のUI設計モックアップから収集した1,091のGUIのデータセットに対する評価は、我々の手法が最先端のアドホックヒューリスティックスベースのベースラインを著しく上回っていることを示している。 我々の知覚的グループ化手法は、UI関連のソフトウェアエンジニアリングタスクを改善する機会を生み出す。

Graphical User Interface (GUI) is not merely a collection of individual and unrelated widgets, but rather partitions discrete widgets into groups by various visual cues, thus forming higher-order perceptual units such as tab, menu, card or list. The ability to automatically segment a GUI into perceptual groups of widgets constitutes a fundamental component of visual intelligence to automate GUI design, implementation and automation tasks. Although humans can partition a GUI into meaningful perceptual groups of widgets in a highly reliable way, perceptual grouping is still an open challenge for computational approaches. Existing methods rely on ad-hoc heuristics or supervised machine learning that is dependent on specific GUI implementations and runtime information. Research in psychology and biological vision has formulated a set of principles (i.e., Gestalt theory of perception) that describe how humans group elements in visual scenes based on visual cues like connectivity, similarity, proximity and continuity. These principles are domain-independent and have been widely adopted by practitioners to structure content on GUIs to improve aesthetic pleasant and usability. Inspired by these principles, we present a novel unsupervised image-based method for inferring perceptual groups of GUI widgets. Our method requires only GUI pixel images, is independent of GUI implementation, and does not require any training data. The evaluation on a dataset of 1,091 GUIs collected from 772 mobile apps and 20 UI design mockups shows that our method significantly outperforms the state-of-the-art ad-hoc heuristics-based baseline. Our perceptual grouping method creates the opportunities for improving UI-related software engineering tasks.
翻訳日:2023-05-26 03:21:10 公開日:2023-05-24
# 事前学習型言語モデルにおけるパーソナリティの評価と誘導

Evaluating and Inducing Personality in Pre-trained Language Models ( http://arxiv.org/abs/2206.07550v2 )

ライセンス: Link先を確認
Guangyuan Jiang, Manjie Xu, Song-Chun Zhu, Wenjuan Han, Chi Zhang, Yixin Zhu(参考訳) パーソナリティの研究は哲学的な探求から始まり、個人がどのようにして思考、感覚、行動の異なるかに関係している。 既存のLarge Language Models(LLM)は、人間と同じようなパーソナリティを持っているのでしょうか? もしそうなら、どのように評価できますか? さらに、この評価枠組みから、特定の個性を制御可能な方法でどのように誘導できるのか。 これらの3つの疑問に答えるために、機械パーソナリティ・インベントリ(MPI)データセットを提案し、MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors)理論とパーソナリティ・アセスメント・インベントリに基づいて、標準化されたパーソナリティ・テストに従う。 MPIを用いてLSMを体系的に評価することにより、LSMにおけるパーソナリティの存在を示す最初の証拠を提供する。 さらに,パーソナリティ・プロンプティング(P^2)法を用いて,特定のパーソナリティを制御可能な方法で誘導し,多様な行動を生成する。 この研究は、人格を下流の様々な課題に欠かせないガイドとして採用し、人間のような対話エージェントを構築し、将来の研究に光を当てることを願っている。

Originating as a philosophical quest, the study of personality concerns how individuals differ in thinking, feeling, and behaving. Towards building social machines that work with humans on a daily basis, we are motivated to ask: Do existing Large Language Models (LLMs) possess personalities akin to their human counterparts? If so, how can we evaluate them? Further, given this evaluation framework, how can we induce a particular personality in a controllable fashion? To answer these three questions, we propose the Machine Personality Inventory (MPI) dataset for evaluating the machine personality; MPI follows standardized personality tests, built upon the Big Five Personality Factors (Big Five) theory and personality assessment inventories. By systematically evaluating LLMs with MPI, we provide the first piece of evidence showing the existence of personality in LLMs. We further devise a Personality Prompting (P^2) method to induce LLMs with a specific personality in a controllable manner, capable of producing diverse behaviors. We hope this work sheds light on future studies by adopting personality as the essential guide for various downstream tasks, building human-like and in situ dialogue agents.
翻訳日:2023-05-26 03:20:36 公開日:2023-05-24
# 量子ニューラルネットワークにおけるエンタングルメントエントロピー生成

Entanglement entropy production in Quantum Neural Networks ( http://arxiv.org/abs/2206.02474v3 )

ライセンス: Link先を確認
Marco Ballarin, Stefano Mangini, Simone Montangero, Chiara Macchiavello and Riccardo Mengoni(参考訳) 量子ニューラルネットワーク(QNN)は、ノイズ中間スケール量子コンピュータ(NISQ)時代において量子優位性を達成するための候補と考えられている。 いくつかのQNNアーキテクチャが提案され、機械学習のベンチマークデータセットで成功した。 しかし、QNN生成エンタングルメントの定量的研究は、最大数量子ビットでしか研究されていない。 テンソルネットワーク法では、様々なシナリオで多数の量子ビットを持つ量子回路をエミュレートすることができる。 本稿では,最近研究されているQNNアーキテクチャを,最大50キュービットのランダムパラメータで特徴付けるために,行列積状態を用いて,量子ビット間の絡み合いのエントロピーで測定されたその絡み合いが,QNNの深さが増加するにつれて,Haar分散ランダム状態の傾向を示す。 我々は、回路の表現可能性を測定するとともに、ランダム行列理論のツールを用いて、量子状態のランダム性を検証する。 我々は,任意のQNNアーキテクチャにおいて絡み合いが生成される速度に対する普遍的挙動を示し,その結果として,絡み合いの速度という,QNNにおける絡み合いの生成を特徴付けるための新しい尺度を導入する。 本研究は,量子ニューラルネットワークの絡み合い特性を特徴とし,これら近似ランダムユニタリの速度の新たな証拠を提供する。

Quantum Neural Networks (QNN) are considered a candidate for achieving quantum advantage in the Noisy Intermediate Scale Quantum computer (NISQ) era. Several QNN architectures have been proposed and successfully tested on benchmark datasets for machine learning. However, quantitative studies of the QNN-generated entanglement have been investigated only for up to few qubits. Tensor network methods allow to emulate quantum circuits with a large number of qubits in a wide variety of scenarios. Here, we employ matrix product states to characterize recently studied QNN architectures with random parameters up to fifty qubits showing that their entanglement, measured in terms of entanglement entropy between qubits, tends to that of Haar distributed random states as the depth of the QNN is increased. We certify the randomness of the quantum states also by measuring the expressibility of the circuits, as well as using tools from random matrix theory. We show a universal behavior for the rate at which entanglement is created in any given QNN architecture, and consequently introduce a new measure to characterize the entanglement production in QNNs: the entangling speed. Our results characterise the entanglement properties of quantum neural networks, and provides new evidence of the rate at which these approximate random unitaries.
翻訳日:2023-05-26 03:20:14 公開日:2023-05-24
# 韓国の文法的誤り訂正の標準化に向けて:データセットと注釈

Towards standardizing Korean Grammatical Error Correction: Datasets and Annotation ( http://arxiv.org/abs/2210.14389v3 )

ライセンス: Link先を確認
Soyoung Yoon, Sungjoon Park, Gyuwan Kim, Junhee Cho, Kihyo Park, Gyutae Kim, Minjoon Seo and Alice Oh(参考訳) 韓国語文法誤り訂正(GEC)の研究は、英語などの他の主要言語と比較して限られている。 この問題点は,韓国gecが慎重に設計した評価ベンチマークが欠如している点にあると考えられる。 本研究では,韓国語の文法的誤りを網羅する3つのデータセット(Kor-Lang8,Kor-Native,Kor-Learner)を収集する。 韓国語の文法の性質を考慮し、韓国語で14種類のエラータイプを定義し、並列コーパスから自動アノテーションを付加するKAGAS(Korean Automatic Grammatical error Annotation System)を提供する。 データセット上でKAGASを使用して韓国の評価ベンチマークを作成し、データセットからトレーニングされたベースラインモデルを提示する。 当社のデータセットでトレーニングされたモデルは,現在使用されている統計的韓国gecシステム(hanspell)をはるかに上回っており,データセットの多様性と有用性を示している。 実装とデータセットはオープンソースである。

Research on Korean grammatical error correction (GEC) is limited, compared to other major languages such as English. We attribute this problematic circumstance to the lack of a carefully designed evaluation benchmark for Korean GEC. In this work, we collect three datasets from different sources (Kor-Lang8, Kor-Native, and Kor-Learner) that covers a wide range of Korean grammatical errors. Considering the nature of Korean grammar, We then define 14 error types for Korean and provide KAGAS (Korean Automatic Grammatical error Annotation System), which can automatically annotate error types from parallel corpora. We use KAGAS on our datasets to make an evaluation benchmark for Korean, and present baseline models trained from our datasets. We show that the model trained with our datasets significantly outperforms the currently used statistical Korean GEC system (Hanspell) on a wider range of error types, demonstrating the diversity and usefulness of the datasets. The implementations and datasets are open-sourced.
翻訳日:2023-05-26 03:12:32 公開日:2023-05-24
# 遺伝的障害の顔面形態認識のためのFew-Shotメタラーニング

Few-Shot Meta Learning for Recognizing Facial Phenotypes of Genetic Disorders ( http://arxiv.org/abs/2210.12705v2 )

ライセンス: Link先を確認
\"Omer S\"umer, Fabio Hellmann, Alexander Hustinx, Tzung-Chien Hsieh, Elisabeth Andr\'e, Peter Krawitz(参考訳) コンピュータビジョンに基づく手法は、精密医学において有用な応用例であり、遺伝的障害の顔面表現型を認識することもその1つである。 多くの遺伝的障害は、顔の外観や形状に影響することが知られている。 自動分類と類似性検索は、医師が可能な限り早期に遺伝子疾患を診断するための意思決定を支援する。 従来の研究は分類問題としてこの問題に対処し、ディープラーニング手法を用いた。 実践上の課題は、スパースラベルの分布とカテゴリ間の大きなクラス不均衡である。 さらに、ほとんどの障害はトレーニングセットにラベル付きサンプルはほとんどなく、表現学習と一般化が信頼できる特徴記述子を取得する上で不可欠である。 本研究では,健常者の大規模コーパスで学習した顔認識モデルを用いて,顔の表現型認識に応用した。 さらに,ベース機能のディスクリプタを改善するために,少数のメタ学習メソッドのベースラインをシンプルに作成しました。 gestaltmatcherデータベースにおける定量的な結果から,cnnのベースラインは,gestaltmatcherを含む従来の研究を上回っており,頻繁で希少なクラスでの検索性能の向上を目標としている。

Computer vision-based methods have valuable use cases in precision medicine, and recognizing facial phenotypes of genetic disorders is one of them. Many genetic disorders are known to affect faces' visual appearance and geometry. Automated classification and similarity retrieval aid physicians in decision-making to diagnose possible genetic conditions as early as possible. Previous work has addressed the problem as a classification problem and used deep learning methods. The challenging issue in practice is the sparse label distribution and huge class imbalances across categories. Furthermore, most disorders have few labeled samples in training sets, making representation learning and generalization essential to acquiring a reliable feature descriptor. In this study, we used a facial recognition model trained on a large corpus of healthy individuals as a pre-task and transferred it to facial phenotype recognition. Furthermore, we created simple baselines of few-shot meta-learning methods to improve our base feature descriptor. Our quantitative results on GestaltMatcher Database show that our CNN baseline surpasses previous works, including GestaltMatcher, and few-shot meta-learning strategies improve retrieval performance in frequent and rare classes.
翻訳日:2023-05-26 03:12:14 公開日:2023-05-24
# ZITS++: 構造優先のインクリメンタルトランスの改善によるイメージインペイント

ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors ( http://arxiv.org/abs/2210.05950v3 )

ライセンス: Link先を確認
Chenjie Cao, Qiaole Dong, Yanwei Fu(参考訳) 画像インペインティングは、腐敗した画像の欠落領域を埋めることを含む。 最近は印象的な結果が得られたが、鮮やかなテクスチャと合理的な構造の両方でイメージを復元することは大きな課題である。 従来の手法では、畳み込みニューラルネットワーク(cnns)の受容場が限られているため、全体構造を無視しながら規則的なテクスチャに主に取り組んだ。 この目的のために,ゼロ初期化残余加算に基づくIncremental Transformer on Structure Priors (ZITS++) の学習について検討した。 具体的には,1つの劣化画像が与えられた場合,トランスフォーマー構造復元器(tsr)モジュールを用いて,低解像度で全体構造前処理を復元し,さらにssu(simple structure upsampler)モジュールにより高分解能にアップサンプリングする。 画像テクスチャの詳細を復元するために、フーリエCNNテクスチャ復元(FTR)モジュールを用いる。 さらに、FTRを強化するために、TSRからのアップサンプリングされた構造先行を、Structure Feature Encoder (SFE)によりさらに処理し、ZeroRA(ZeroRA)を漸進的に最適化する。 さらに、大きな不規則マスクを符号化するために、新しいマスク位置符号化法を提案する。 ZITSと比較すると、ZITS++はFTRの安定性と塗装能力をいくつかの技術で改善している。 さらに,様々な画像プリエントの効果を包括的に検討し,高分解能画像インペイントへの対処法を広範囲な実験で検討した。 この調査は、ほとんどの塗装アプローチと直交しており、コミュニティに多大な利益をもたらす可能性がある。 コードとモデルはhttps://github.com/ewrfcas/ZITS-PlusPlus.comでリリースされる。

Image inpainting involves filling missing areas of a corrupted image. Despite impressive results have been achieved recently, restoring images with both vivid textures and reasonable structures remains a significant challenge. Previous methods have primarily addressed regular textures while disregarding holistic structures due to the limited receptive fields of Convolutional Neural Networks (CNNs). To this end, we study learning a Zero-initialized residual addition based Incremental Transformer on Structural priors (ZITS++), an improved model upon our conference work, ZITS. Specifically, given one corrupt image, we present the Transformer Structure Restorer (TSR) module to restore holistic structural priors at low image resolution, which are further upsampled by Simple Structure Upsampler (SSU) module to higher image resolution. To recover image texture details, we use the Fourier CNN Texture Restoration (FTR) module, which is strengthened by Fourier and large-kernel attention convolutions. Furthermore, to enhance the FTR, the upsampled structural priors from TSR are further processed by Structure Feature Encoder (SFE) and optimized with the Zero-initialized Residual Addition (ZeroRA) incrementally. Besides, a new masking positional encoding is proposed to encode the large irregular masks. Compared with ZITS, ZITS++ improves the FTR's stability and inpainting ability with several techniques. More importantly, we comprehensively explore the effects of various image priors for inpainting and investigate how to utilize them to address high-resolution image inpainting with extensive experiments. This investigation is orthogonal to most inpainting approaches and can thus significantly benefit the community. Codes and models will be released in https://github.com/ewrfcas/ZITS-PlusPlus.
翻訳日:2023-05-26 03:11:13 公開日:2023-05-24
# 光モード間の非局所性検出のための同期ベルプロトコル

Synchronized Bell protocol for detecting non-locality between modes of light ( http://arxiv.org/abs/2210.05341v2 )

ライセンス: Link先を確認
Madhura Ghosh Dastidar, Gniewomir Sarbicki and Vidya Praveen Bhallamudi(参考訳) 本稿では,強いコヒーレント状態によって供給されるマッハ・ゼンダー干渉計によって実装された変位演算子を用いて局所観測可能なベルプロトコルにおける2モード光状態の非局所性検出の可能性について論じる。 ブラウンシュタイン-キャベツ連鎖ベル(bccb)の不等式を最大化するためには,等位相の変位が必要であることを示した。 一方,変位の位相が未知の場合,非局所性は検出できないことを証明した。 したがって、ベル実験は同期機構を備える必要がある。 このようなメカニズムとその結果について論じる。

In the following paper, we discuss a possible detection of non-locality in two-mode light states in the Bell protocol, where the local observables are constructed using displacement operators, implemented by Mach-Zender Interferometers fed by strong coherent states. We report numerical results showing that maximizing the Braunstein-Caves Chained Bell (BCCB) inequalities requires equal phases of displacements. On the other hand, we prove that non-locality cannot be detected if the phases of displacements are unknown. Hence, the Bell experiment has to be equipped with a synchronization mechanism. We discuss such a mechanism and its consequences.
翻訳日:2023-05-26 03:10:38 公開日:2023-05-24
# TAN Without a Burn: DP-SGDのスケーリング法則

TAN Without a Burn: Scaling Laws of DP-SGD ( http://arxiv.org/abs/2210.03403v2 )

ライセンス: Link先を確認
Tom Sander, Pierre Stock, Alexandre Sablayrolles(参考訳) ディープニューラルネットワーク(DNN)のトレーニングのための異なるプライベートメソッドは、特に大規模なバッチと集約されたデータ拡張を多数のトレーニングステップに使用することで、最近進歩している。 これらの技術は、プライベートでないものよりもはるかに多くのコンピューティングリソースを必要とし、従来のプライバシー-正確性トレードオフをプライバシー-正確性-計算トレードオフに移行し、現実的なシナリオではハイパーパラメータ検索を事実上不可能にする。 本研究では,プライバシ解析とノイズトレーニングの実験行動を分離し,最小計算量でトレードオフを探索する。 まずR\'enyi Differential Privacy(RDP)のツールを使用して、過充電されていない場合、トレーニング中に注入されるトータルノイズ量(TAN)にのみ依存する、と強調する。 次に、DP-SGDを用いたトレーニングモデルのスケーリング法則を導出し、計算予算を100ドル以上削減したハイパーパラメーターを最適化する。 提案手法をCIFAR-10とImageNetに適用し,特にプライバシ予算のEpsilon=8において,9点以上の精度でImageNetの最先端性を強く向上させる。

Differentially Private methods for training Deep Neural Networks (DNNs) have progressed recently, in particular with the use of massive batches and aggregated data augmentations for a large number of training steps. These techniques require much more computing resources than their non-private counterparts, shifting the traditional privacy-accuracy trade-off to a privacy-accuracy-compute trade-off and making hyper-parameter search virtually impossible for realistic scenarios. In this work, we decouple privacy analysis and experimental behavior of noisy training to explore the trade-off with minimal computational requirements. We first use the tools of R\'enyi Differential Privacy (RDP) to highlight that the privacy budget, when not overcharged, only depends on the total amount of noise (TAN) injected throughout training. We then derive scaling laws for training models with DP-SGD to optimize hyper-parameters with more than a $100\times$ reduction in computational budget. We apply the proposed method on CIFAR-10 and ImageNet and, in particular, strongly improve the state-of-the-art on ImageNet with a +9 points gain in top-1 accuracy for a privacy budget epsilon=8.
翻訳日:2023-05-26 03:10:26 公開日:2023-05-24
# Vagueオペレータとしてのコミュニティ:コミュニティ検出アルゴリズムの批判的ヒューリスティックスに対する認識論的質問

Community as a Vague Operator: Epistemological Questions for a Critical Heuristics of Community Detection Algorithms ( http://arxiv.org/abs/2210.02753v2 )

ライセンス: Link先を確認
Dominik J. Schindler and Matthew Fuller(参考訳) 本稿では,ネットワーク科学における「コミュニティ」と呼ばれるノードとエッジのパターンとしての性質と認識的結果を分析することを目的とする。 これらのパターンを多面的かつあいまいにトレースし,susan leigh star のバウンダリオブジェクトの概念の変種である「ヴァグ演算子」としてコミュニティの概念を記述し,デジタル政治と「コミュニティ」の分析の両面において,いくつかのレジスタやハイパープレスにおいて曖昧な記述の異なるモードを構築することができることを提案する。 これらのフォーメーションを数学やソフトウェアの研究から引き合いに出すことで、その形成のより広いマッピングが可能になる。 2002年にmichelle girvan と mark newman が普及した 'community' の設立説明を文脈化することができる。 コミュニティ検出アルゴリズムである「ルービンアルゴリズム」を1つ検討した後、よりあいまいな応用によって生じる議論についてコメントする。 は、ソーシャルネットワーキングサイトでエコーチェンバーを作るなど、社会関係を再構築する力を持つ真の抽象化として機能することができる。 コミュニティ検出の認識論的用語を再考し,曖昧な演算子の再考を提案するため,ネットワーク科学の文献における議論や提案を考察し,部分性,認識的謙虚性,反射性,人工性を取り入れた「批判的ヒューリスティックス」を想像する。

In this article, we aim to analyse the nature and epistemic consequences of what figures in network science as patterns of nodes and edges called 'communities'. Tracing these patterns as multi-faceted and ambivalent, we propose to describe the concept of community as a 'vague operator', a variant of Susan Leigh Star's notion of the boundary object, and propose that the ability to construct different modes of description that are both vague in some registers and hyper-precise in others, is core both to digital politics and the analysis of 'communities'. Engaging with these formations in terms drawn from mathematics and software studies enables a wider mapping of their formation. Disentangling different lineages in network science then allows us to contextualise the founding account of 'community' popularised by Michelle Girvan and Mark Newman in 2002. After studying one particular community detection algorithm, the widely-used 'Louvain algorithm', we comment on controversies arising with some of their more ambiguous applications. We argue that 'community' can act as a real abstraction with the power to reshape social relations such as producing echo chambers in social networking sites. To rework the epistemological terms of community detection and propose a reconsideration of vague operators, we draw on debates and propositions within the literature of network science to imagine a 'critical heuristics' that embraces partiality, epistemic humbleness, reflexivity and artificiality.
翻訳日:2023-05-26 03:10:02 公開日:2023-05-24
# 自己教師付き事前学習によるラベル不足キーワードスポッティングの改善

Improving Label-Deficient Keyword Spotting Through Self-Supervised Pretraining ( http://arxiv.org/abs/2210.01703v3 )

ライセンス: Link先を確認
Holger Severin Bovbjerg, Zheng-Hua Tan(参考訳) キーワードスポッティング(KWS)モデルは、音声アシスタントなど様々なシステムに統合されつつある。 良好なパフォーマンスを達成するために、これらのモデルは一般的に大量のラベル付きデータに依存し、それらのアプリケーションはそのようなデータが利用可能な状況に限られる。 自己教師付き学習(ssl)メソッドは、容易に利用できないデータを活用することで、そのような信頼性を軽減できる。 音声のSSL方式は主に大規模モデルで研究されているが、コンパクトなKWSモデルは一般的に必要とされるため、これは理想的ではない。 本稿では,KWS の小さなモデルに対する SSL の有効性について検討し,ラベル付きデータが少ない場合に SSL が小さな KWS モデルの性能を向上させることを実証する。 data2vecを使って3つのコンパクトトランスフォーマーベースのkwsモデルを事前トレーニングし、google speech commandsデータセットのラベル不足設定で微調整した。 Data2Vec事前トレーニングは精度が大幅に向上し、ラベル不足のシナリオでは8.22%の絶対精度が1.18%向上した。

Keyword Spotting (KWS) models are becoming increasingly integrated into various systems, e.g. voice assistants. To achieve satisfactory performance, these models typically rely on a large amount of labelled data, limiting their applications only to situations where such data is available. Self-supervised Learning (SSL) methods can mitigate such a reliance by leveraging readily-available unlabelled data. Most SSL methods for speech have primarily been studied for large models, whereas this is not ideal, as compact KWS models are generally required. This paper explores the effectiveness of SSL on small models for KWS and establishes that SSL can enhance the performance of small KWS models when labelled data is scarce. We pretrain three compact transformer-based KWS models using Data2Vec, and fine-tune them on a label-deficient setup of the Google Speech Commands data set. It is found that Data2Vec pretraining leads to a significant increase in accuracy, with label-deficient scenarios showing an improvement of 8.22% 11.18% absolute accuracy.
翻訳日:2023-05-26 03:09:29 公開日:2023-05-24
# グラフニューラルネットワークのためのユニバーサルプロンプトチューニング

Universal Prompt Tuning for Graph Neural Networks ( http://arxiv.org/abs/2209.15240v2 )

ライセンス: Link先を確認
Taoran Fang, Yunchao Zhang, Yang Yang, Chunping Wang, Lei Chen(参考訳) 近年、プロンプトチューニングは、事前訓練されたモデルに適応する研究の急増を引き起こしている。 言語分野における統合事前学習戦略とは異なり、グラフフィールドは様々な事前学習戦略を示し、グラフニューラルネットワークの適切なプロンプトベースのチューニング方法を設計する上での課題を提起する。 いくつかの先駆的な研究は、エッジ予測を事前訓練タスクとして使用するモデルの特別なプロンプト機能を考案しているが、これらの手法は特定の事前訓練されたGNNモデルに限定されており、より広範な適用性に欠ける。 本稿では,任意の事前学習戦略の下で事前学習したGNNモデルに対して,GPF(Graph Prompt Feature)と呼ばれる汎用的なプロンプトベースのチューニング手法を提案する。 GPFは入力グラフの特徴空間で動作し、理論上任意の形式のプロンプト関数に等価な効果を達成できる。 その結果、各事前学習戦略に対応するプロンプト関数を明示的に記述する必要がなくなった。 代わりに、我々はGPFを用いて、下流タスクの誘導グラフを適応的に取得する。 GPFの普遍性を実証し、その有効性を保証するための厳密な導出を提供する。 様々な事前学習戦略による実験結果から,本手法は微調整よりも優れた性能を示し,全ショットシナリオでは平均1.4%,小ショットシナリオでは約3.2%改善した。 さらに,本手法は,事前学習戦略を利用したモデルに適用した場合,既存の特殊プロンプトベースのチューニング手法よりも優れる。 これらの多くの利点は、この手法を下流適応のための微調整の説得力のある代替手段と位置づけている。

In recent years, prompt tuning has sparked a research surge in adapting pre-trained models. Unlike the unified pre-training strategy employed in the language field, the graph field exhibits diverse pre-training strategies, posing challenges in designing appropriate prompt-based tuning methods for graph neural networks. While some pioneering work has devised specialized prompting functions for models that employ edge prediction as their pre-training tasks, these methods are limited to specific pre-trained GNN models and lack broader applicability. In this paper, we introduce a universal prompt-based tuning method called Graph Prompt Feature (GPF) for pre-trained GNN models under any pre-training strategy. GPF operates on the input graph's feature space and can theoretically achieve an equivalent effect to any form of prompting function. Consequently, we no longer need to illustrate the prompting function corresponding to each pre-training strategy explicitly. Instead, we employ GPF to obtain the prompted graph for the downstream task in an adaptive manner. We provide rigorous derivations to demonstrate the universality of GPF and make guarantee of its effectiveness. The experimental results under various pre-training strategies indicate that our method performs better than fine-tuning, with an average improvement of about 1.4% in full-shot scenarios and about 3.2% in few-shot scenarios. Moreover, our method significantly outperforms existing specialized prompt-based tuning methods when applied to models utilizing the pre-training strategy they specialize in. These numerous advantages position our method as a compelling alternative to fine-tuning for downstream adaptations.
翻訳日:2023-05-26 03:09:12 公開日:2023-05-24
# NESTER:治療効果推定のための適応型ニューロシンボリック法

NESTER: An Adaptive Neurosymbolic Method for Treatment Effect Estimation ( http://arxiv.org/abs/2211.04370v3 )

ライセンス: Link先を確認
Abbavaram Gowtham Reddy, Vineeth N Balasubramanian(参考訳) 観察データによる治療効果の推定は因果推論の中心的な問題である。 潜在的な結果の枠組みに基づく手法は、因果推論から帰納的バイアスとヒューリスティックスを利用してこの問題を解決する。 これらの手法は、ニューラルネットワークアーキテクチャや正規化器を設計することにより、適合度スコアの制御、ランダム化の強制など、治療効果推定の特定の側面に対処する。 本稿では,治療効果評価の一般化手法であるニューロシンボリック処理効果推定器 (NESTER) を提案する。 NESTERは、治療効果推定のためのマルチヘッドニューラルネットワークに基づく既存の手法で使用されているアイデアを1つのフレームワークにまとめる。 プログラム合成を行うために,文献における帰納バイアスに基づく治療効果推定のためのドメイン固有言語(DSL)を設計する。 また,NESTERの処理効果推定能力についても理論的に検討した。 総合的な実験結果から,nesterは,実行時間要件を妥協することなく,ベンチマークデータセットの最先端メソッドよりも優れた性能を示す。

Treatment effect estimation from observational data is a central problem in causal inference. Methods based on potential outcomes framework solve this problem by exploiting inductive biases and heuristics from causal inference. Each of these methods addresses a specific aspect of treatment effect estimation, such as controlling propensity score, enforcing randomization, etc., by designing neural network architectures and regularizers. In this paper, we propose an adaptive method called Neurosymbolic Treatment Effect Estimator (NESTER), a generalized method for treatment effect estimation. NESTER brings together the ideas used in existing methods based on multi-head neural networks for treatment effect estimation into one framework. To perform program synthesis, we design a Domain Specific Language (DSL) for treatment effect estimation based on inductive biases used in literature. We also theoretically study NESTER's capability for treatment effect estimation. Our comprehensive empirical results show that NESTER performs better than state-of-the-art methods on benchmark datasets without compromising run time requirements.
翻訳日:2023-05-26 03:02:46 公開日:2023-05-24
# アダプティブ・セマンティクス・コミュニケーションに向けて:オンライン学習非線形トランスフォーメーション・ソース・チャネル符号化による効率的なデータ伝送

Toward Adaptive Semantic Communications: Efficient Data Transmission via Online Learned Nonlinear Transform Source-Channel Coding ( http://arxiv.org/abs/2211.04339v3 )

ライセンス: Link先を確認
Jincheng Dai, Sixian Wang, Ke Yang, Kailin Tan, Xiaoqi Qin, Zhongwei Si, Kai Niu, Ping Zhang(参考訳) 新興分野のセマンティックコミュニケーションは、エンドツーエンドのデータ伝送の研究を駆動している。 ディープラーニングモデルの強力な表現能力を利用することで、学習データ伝送方式は確立されたソースおよびチャネル符号化方式よりも優れた性能を示している。 研究は主に静的なターゲットドメインに向けたアーキテクチャとモデルの改善に集中しています。 それらの成功にもかかわらず、これらの学習モデルはモデルキャパシティの制限と不完全な最適化と一般化のため、特にテストデータ分散やチャネル応答がモデルトレーニングで採用されているものとは異なる場合、依然としてサブ最適である。 そこで本研究では,深層学習モデルの過剰適合性を生かした,新しいオンライン学習ジョイントソースとチャネルコーディング手法を提案する。 具体的には,市販のトレーニング済みモデルを軽量なオンライン方式で展開し,ソースデータと環境領域の分散シフトに適応させる。 オーバーフィッティングの概念を極端に捉え、コーデックモデルや表現を個々のデータやチャネル状態インスタンスに適応させる一連の実装フレンドリーな手法を提案し、帯域幅比・歪み性能の点でさらに大きな利益をもたらす可能性がある。 提案手法は,デコード速度を犠牲にすることなく,ネットワーク内の全てのパラメータに対する通信効率の適応を可能にする。 ユーザによる目標データと無線チャネル環境の継続的な変更を含む実験は,既存の最先端技術伝送方式(VVCと5G LDPC符号化伝送方式)より優れていることを示す。

The emerging field semantic communication is driving the research of end-to-end data transmission. By utilizing the powerful representation ability of deep learning models, learned data transmission schemes have exhibited superior performance than the established source and channel coding methods. While, so far, research efforts mainly concentrated on architecture and model improvements toward a static target domain. Despite their successes, such learned models are still suboptimal due to the limitations in model capacity and imperfect optimization and generalization, particularly when the testing data distribution or channel response is different from that adopted for model training, as is likely to be the case in real-world. To tackle this, we propose a novel online learned joint source and channel coding approach that leverages the deep learning model's overfitting property. Specifically, we update the off-the-shelf pre-trained models after deployment in a lightweight online fashion to adapt to the distribution shifts in source data and environment domain. We take the overfitting concept to the extreme, proposing a series of implementation-friendly methods to adapt the codec model or representations to an individual data or channel state instance, which can further lead to substantial gains in terms of the bandwidth ratio-distortion performance. The proposed methods enable the communication-efficient adaptation for all parameters in the network without sacrificing decoding speed. Our experiments, including user study, on continually changing target source data and wireless channel environments, demonstrate the effectiveness and efficiency of our approach, on which we outperform existing state-of-the-art engineered transmission scheme (VVC combined with 5G LDPC coded transmission).
翻訳日:2023-05-26 03:02:31 公開日:2023-05-24
# ビラソロ環の部分代数からの絡み合いと幾何学

Entanglement and geometry from subalgebras of the Virasoro algebra ( http://arxiv.org/abs/2211.03630v3 )

ライセンス: Link先を確認
Pawel Caputa and Dongsheng Ge(参考訳) 本研究では、ビラソーロ代数のSL(2,R)部分代数から構築された一般化されたコヒーレント状態の族を二次元共形場理論で研究する。 エネルギー密度と絡み合いエントロピーを導出し、局所励起状態で計算された類似量と等価性について議論する。 さらに, 2つのホログラフィックな地形を解析し, 龍高柳処方薬のエンタングルメントエントロピーを再現する。 最後に、この普遍型状態の作用素成長や不均一なクエンチへの応用について概説する。

In this work we study families of generalised coherent states constructed from SL(2,R) subalgebras of the Virasoro algebra in two-dimensional conformal field theories. We derive the energy density and entanglement entropy and discuss their equivalence with analogous quantities computed in locally excited states. Moreover, we analyze their dual, holographic geometries and reproduce entanglement entropies from the Ryu-Takayanagi prescription. Finally, we outline possible applications of this universal class of states to operator growth and inhomogeneous quenches.
翻訳日:2023-05-26 03:02:03 公開日:2023-05-24
# 悪い解は稀であるため、高過パラメータ分類器が一般化する

Highly over-parameterized classifiers generalize since bad solutions are rare ( http://arxiv.org/abs/2211.03570v2 )

ライセンス: Link先を確認
Julius Martinetz, Thomas Martinetz(参考訳) 経験的リスク最小化(ERM)が学習誤差をゼロにする過パラメータ化分類器の一般化について検討する。 このような過度なパラメータ設定では、トレーニングエラーがゼロのグローバルなミニマが多数存在する。 ある条件下では、真の誤差が {\epsilon} より大きい「悪い」大域最小値の分数は、訓練データ n の個数で指数関数的にゼロに崩壊することを示す。 境界は、与えられた分類問題に使用される分類子関数の集合上の真の誤差の分布に依存し、必ずしも分類子関数集合のサイズや複雑さ(例えばパラメータの数)に依存するとは限らない。 これは、高パラメータのニューラルネットワークでさえ予期せぬほどよい一般化を説明するかもしれない。 我々は、合成データセットとMNISTのサブセットの実験により、数学的枠組みをサポートする。

We study the generalization of over-parameterized classifiers where Empirical Risk Minimization (ERM) for learning leads to zero training error. In these over-parameterized settings there are many global minima with zero training error, some of which generalize better than others. We show that under certain conditions the fraction of "bad" global minima with a true error larger than {\epsilon} decays to zero exponentially fast with the number of training data n. The bound depends on the distribution of the true error over the set of classifier functions used for the given classification problem, and does not necessarily depend on the size or complexity (e.g. the number of parameters) of the classifier function set. This might explain the unexpectedly good generalization even of highly over-parameterized Neural Networks. We support our mathematical framework with experiments on a synthetic data set and a subset of MNIST.
翻訳日:2023-05-26 03:01:56 公開日:2023-05-24
# 逆スケーリングはU字型になり得る

Inverse scaling can become U-shaped ( http://arxiv.org/abs/2211.02011v5 )

ライセンス: Link先を確認
Jason Wei, Najoung Kim, Yi Tay, Quoc V. Le(参考訳) 言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。 しかしながら、あるタスクにおけるスケール(逆スケーリング)の関数としてパフォーマンスを悪くする("逆スケーリング")とすれば、スケーリングは人間の好みと不一致な振る舞いを促進できることを意味します。 逆スケーリング賞(McKenzie et al. 2022)は、最大280Bパラメータと最大500ゼッタFLOPのトレーニング計算モデルに基づいて、11個の逆スケーリングタスクを特定した。 本稿では,これらの逆スケーリングタスクについて詳しく述べる。 Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。 このモデルサイズの増加とトレーニング計算により、11タスクのうち4タスクだけが逆スケーリングのままである。 11のタスクのうち6つは"U字型のスケーリング"を示し、パフォーマンスは一定のサイズまで低下し、次に評価された最大のモデルに再び増加します(残りの1つのタスクは前向きなスケーリングを示しています)。 さらに、1ショットの例やチェーン・オブ・シンクは、望ましくないスケーリングパターンをさらに緩和するのに役立ちます。 u字型のスケーリングは、mckenzie et al. (2022)で観察された逆スケーリングの傾向が、十分に大きなモデルしか避けられない邪魔なタスクの存在を特徴とする、より大きなモデルでは持続しないことを示唆している。

Scaling up language models has been empirically shown to improve performance on a wide range of downstream tasks. However, if we were to observe worse performance as a function of scale ("inverse scaling") on certain tasks, this would indicate that scaling can also encourage behaviors that are misaligned with human preferences. The Inverse Scaling Prize (McKenzie et al. 2022) identified eleven such inverse scaling tasks, evaluated on models of up to 280B parameters and up to 500 zettaFLOPs of training compute. This paper takes a closer look at these inverse scaling tasks. We evaluate models of up to 540B parameters, trained on five times more compute than those evaluated in the Inverse Scaling Prize. With this increased range of model sizes and training compute, only four out of the eleven tasks remain inverse scaling. Six out of the eleven tasks exhibit "U-shaped scaling", where performance decreases up to a certain size, and then increases again up to the largest model evaluated (the one remaining task displays positive scaling). In addition, we find that 1-shot examples and chain-of-thought can help mitigate undesirable scaling patterns even further. U-shaped scaling suggests that the inverse scaling trend observed in McKenzie et al. (2022) may not continue to hold for larger models, which we attribute to the presence of distractor tasks that only sufficiently large models can avoid.
翻訳日:2023-05-26 03:01:42 公開日:2023-05-24
# CLIP-Sculptor: 自然言語からの高忠実度および多次元形状のゼロショット生成

CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Natural Language ( http://arxiv.org/abs/2211.01427v4 )

ライセンス: Link先を確認
Aditya Sanghi, Rao Fu, Vivian Liu, Karl Willis, Hooman Shayani, Amir Hosein Khasahmadi, Srinath Sridhar, Daniel Ritchie(参考訳) 近年の研究では、自然言語が3d形状の生成と編集に利用できることが示されている。 しかし、これらの手法は、有限性と多様性に制限された形状を生成する。 トレーニング中に(テキスト,形状)ペアを必要とせずに,高忠実度で多様な3d形状を生成できる手法であるクリップ彫刻法を提案する。 CLIP-Sculptorは、まず低次元の潜在空間で生成し、次に高分解能にアップスケールすることで、形状の忠実度を向上させる。 形状の多様性を向上させるために、CLIPのイメージテキスト埋め込み空間に条件付きトランスフォーマーを用いてモデル化した離散潜在空間を用いる。 また,精度と多様性のトレードオフを改善する新しい分類器フリーガイダンスを提案する。 最後に,CLIP-Sculptorが最先端のベースラインより優れていることを示す広範な実験を行った。 コードはhttps://ivl.cs.brown.edu/#/projects/clip-sculptorで入手できる。

Recent works have demonstrated that natural language can be used to generate and edit 3D shapes. However, these methods generate shapes with limited fidelity and diversity. We introduce CLIP-Sculptor, a method to address these constraints by producing high-fidelity and diverse 3D shapes without the need for (text, shape) pairs during training. CLIP-Sculptor achieves this in a multi-resolution approach that first generates in a low-dimensional latent space and then upscales to a higher resolution for improved shape fidelity. For improved shape diversity, we use a discrete latent space which is modeled using a transformer conditioned on CLIP's image-text embedding space. We also present a novel variant of classifier-free guidance, which improves the accuracy-diversity trade-off. Finally, we perform extensive experiments demonstrating that CLIP-Sculptor outperforms state-of-the-art baselines. The code is available at https://ivl.cs.brown.edu/#/projects/clip-sculptor.
翻訳日:2023-05-26 03:01:15 公開日:2023-05-24
# 多言語性同一性音声の生成

Generating Multilingual Gender-Ambiguous Text-to-Speech Voices ( http://arxiv.org/abs/2211.00375v2 )

ライセンス: Link先を確認
Konstantinos Markopoulos, Georgia Maniati, Georgios Vamvoukakis, Nikolaos Ellinas, Georgios Vardaxoglou, Panos Kakoulidis, Junkwang Oh, Gunu Jho, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis and Spyros Raptis(参考訳) 音声ユーザインタフェースの性別は、その認識されたアイデンティティの重要な要素である。 近年、女性や男性と明確に識別するよりも、性別があいまいなインターフェースへの関心が高まっている。 本研究は,多話者・多言語環境でのtts音声生成の課題について述べる。 本手法は,提案手法を用いて潜在話者埋め込み空間から効率的にサンプリングすることで実現される。 広範囲な客観評価と主観評価は,本手法が,すべての言語で検討されている基本音声よりも,一貫性があり,性別があいまいな,斬新で多様な音声を効率よく生成できることを示す。 興味深いことに、性別知覚は、リスナーの2つの人口統計学的要因(ネイティブ言語とジェンダー)にまたがって堅牢であることが判明した。 我々の知る限り、これは、様々な性別のあいまいな声を確実に生成できる、体系的で検証された最初のアプローチである。

The gender of any voice user interface is a key element of its perceived identity. Recently, there has been increasing interest in interfaces where the gender is ambiguous rather than clearly identifying as female or male. This work addresses the task of generating novel gender-ambiguous TTS voices in a multi-speaker, multilingual setting. This is accomplished by efficiently sampling from a latent speaker embedding space using a proposed gender-aware method. Extensive objective and subjective evaluations clearly indicate that this method is able to efficiently generate a range of novel, diverse voices that are consistent and perceived as more gender-ambiguous than a baseline voice across all the languages examined. Interestingly, the gender perception is found to be robust across two demographic factors of the listeners: native language and gender. To our knowledge, this is the first systematic and validated approach that can reliably generate a variety of gender-ambiguous voices.
翻訳日:2023-05-26 03:00:58 公開日:2023-05-24
# 量子チャネルの漸近性

Asymptotics of quantum channels ( http://arxiv.org/abs/2210.17513v2 )

ライセンス: Link先を確認
Daniele Amato, Paolo Facchi, and Arturo Konderak(参考訳) 量子チャネルに付随する二重項時間半群の漸近力学に関するいくつかの側面について論じる。 アトラクタ多様体上の量子チャネルの作用を記述する漸近写像の明示的な表現を用いることで、漸近力学における置換の役割を解明する。 一般に、それらが漸近進化を非一意的にし、量子チャネルの可除性と関連していることを示す。 また、忠実かつ非ファシフルチャネルの漸近性に関するいくつかの結果を導出し、漸近ダイナミクスに対する構成的展開定理を定式化する。

We discuss several aspects concerning the asymptotic dynamics of dicrete-time semigroups associated with a quantum channel. By using an explicit expression of the asymptotic map, which describes the action of the quantum channel on its attractor manifold, we investigate the role of permutations in the asymptotic dynamics. We show that, in general, they make the asymptotic evolution non-unitary, and they are related to the divisibility of the quantum channel. Also, we derive several results about the asymptotics of faithful and non-faithful channels, and we establish a constructive unfolding theorem for the asymptotic dynamics.
翻訳日:2023-05-26 03:00:40 公開日:2023-05-24
# 適応型視聴覚注意による視覚認識音声キャプション

Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention ( http://arxiv.org/abs/2210.16428v2 )

ライセンス: Link先を確認
Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan Sun, Shengchen Li, Tom Ko, Yu Zhang, Lilian H. Tang, Mark D. Plumbley, Volkan K{\i}l{\i}\c{c}, Wenwu Wang(参考訳) 音声キャプションは、音声クリップのテキスト記述を生成することを目的としている。 現実世界では、多くの物体が同様の音を出す。 曖昧な音を正確に認識する方法は、音声キャプションの大きな課題である。 本研究では,人間固有のマルチモーダル知覚にインスパイアされた視覚情報を利用した視覚認識音声キャプションを提案する。 具体的には,映像特徴を抽出し,映像特徴を音声キャプションシステムに組み込むために,市販のビジュアルエンコーダを導入する。 さらに,補完的な視聴覚コンテキストをより活用するために,音声と視覚コンテキストを適応的に統合し,潜在空間における冗長な情報を除去する視聴覚注意機構を提案する。 最大の音声キャプションデータセットであるAudioCapsの実験結果から,提案手法が機械翻訳メトリクスの最先端結果を達成することを示す。

Audio captioning aims to generate text descriptions of audio clips. In the real world, many objects produce similar sounds. How to accurately recognize ambiguous sounds is a major challenge for audio captioning. In this work, inspired by inherent human multimodal perception, we propose visually-aware audio captioning, which makes use of visual information to help the description of ambiguous sounding objects. Specifically, we introduce an off-the-shelf visual encoder to extract video features and incorporate the visual features into an audio captioning system. Furthermore, to better exploit complementary audio-visual contexts, we propose an audio-visual attention mechanism that adaptively integrates audio and visual context and removes the redundant information in the latent space. Experimental results on AudioCaps, the largest audio captioning dataset, show that our proposed method achieves state-of-the-art results on machine translation metrics.
翻訳日:2023-05-26 03:00:29 公開日:2023-05-24
# 典型的な医用画像分割作業のパフォーマンス推定はどの程度正確か?

How precise are performance estimates for typical medical image segmentation tasks? ( http://arxiv.org/abs/2210.14677v3 )

ライセンス: Link先を確認
Rosana El Jurdi and Olivier Colliot(参考訳) 医用画像処理における重要な課題は、アルゴリズムの性能だけでなく、これらの性能の推定精度も推定できることである。 報告精度は通常、平均(SEM)の標準エラーの報告または同等の信頼区間に相当する。 しかし、医用画像分割研究ではほとんど行われない。 本稿では,このような研究で期待できる典型的な信頼度を推定することを目的とする。 そこで本研究では,標準深層学習モデル(u-net)と医学的セグメンテーション・デカスロンによる古典的タスクを用いて,diceメトリック推定実験を行った。 ガウス仮定とブートストラップ(分布の仮定を必要としない)の両方を用いて精度推定を広範囲に検討した。 次に、他のテストセットのサイズと性能のスプレッドをシミュレーションします。 全体として、我々の研究は、小さなテストセットが広い信頼区間(例えば、$\sigma \simeq 10$の20のサンプルに対して$\sim$8のdice)をもたらすことを示している。

An important issue in medical image processing is to be able to estimate not only the performances of algorithms but also the precision of the estimation of these performances. Reporting precision typically amounts to reporting standard-error of the mean (SEM) or equivalently confidence intervals. However, this is rarely done in medical image segmentation studies. In this paper, we aim to estimate what is the typical confidence that can be expected in such studies. To that end, we first perform experiments for Dice metric estimation using a standard deep learning model (U-net) and a classical task from the Medical Segmentation Decathlon. We extensively study precision estimation using both Gaussian assumption and bootstrapping (which does not require any assumption on the distribution). We then perform simulations for other test set sizes and performance spreads. Overall, our work shows that small test sets lead to wide confidence intervals (e.g. $\sim$8 points of Dice for 20 samples with $\sigma \simeq 10$).
翻訳日:2023-05-26 03:00:13 公開日:2023-05-24
# レーザープラズマ物理におけるデータ駆動科学と機械学習

Data-driven Science and Machine Learning Methods in Laser-Plasma Physics ( http://arxiv.org/abs/2212.00026v2 )

ライセンス: Link先を確認
Andreas D\"opp, Christoph Eberle, Sunny Howard, Faran Irshad, Jinpu Lin and Matthew Streeter(参考訳) レーザープラズマ物理学はこの数十年間で急速に発展し、高出力レーザーはますます強力で広く利用されるようになった。 この分野での初期実験および数値研究は、パラメータ探索が制限された単発実験に限定された。 しかし、最近の技術的改善により、実験とシミュレーションの両方において、より多くのデータを集めることが可能になった。 これは、ビッグデータを扱うために数学、統計学、計算機科学の高度な技術を使うことに関心を引いた。 同時に、高度なモデリング技術は、研究者が利用可能なデータの量が少ない状況に対して効果的に対処できる新しい方法を提供する。 本稿では,レーザープラズマ加速と慣性凝縮融合の重要なサブフィールドを含む,レーザープラズマ物理学への適用性に着目した機械学習手法の概要を述べる。

Laser-plasma physics has developed rapidly over the past few decades as high-power lasers have become both increasingly powerful and more widely available. Early experimental and numerical research in this field was restricted to single-shot experiments with limited parameter exploration. However, recent technological improvements make it possible to gather an increasing amount of data, both in experiments and simulations. This has sparked interest in using advanced techniques from mathematics, statistics and computer science to deal with, and benefit from, big data. At the same time, sophisticated modeling techniques also provide new ways for researchers to effectively deal with situations in which still only sparse amounts of data are available. This paper aims to present an overview of relevant machine learning methods with focus on applicability to laser-plasma physics, including its important sub-fields of laser-plasma acceleration and inertial confinement fusion.
翻訳日:2023-05-26 02:52:34 公開日:2023-05-24
# 個人不公平に対する解毒剤データの学習

Learning Antidote Data to Individual Unfairness ( http://arxiv.org/abs/2211.15897v3 )

ライセンス: Link先を確認
Peizhao Li, Ethan Xia, Hongfu Liu(参考訳) フェアネスは、ハイテイクアプリケーションにデプロイされる機械学習システムに不可欠である。 すべての公正概念の中で、「類似した個人も同様に扱われるべき」という意見の一致から生じる個人公正は、個々の事件に対する公平な扱いを記述する上で不可欠な概念である。 従来の研究では、個々の公正性は、サンプルに機密属性を摂動する際に予測不変の問題として特徴づけられ、分散ロバスト最適化(DRO)パラダイムによって解決される。 しかし、DROで使用されるセンシティブな情報をカバーする方向に沿ったこのような逆方向の摂動は、固有の特徴相関や自然データ制約を考慮せず、オフ・マニフォールドおよび非現実的なサンプルで最適化するためにモデルを誤解させる可能性がある。 本稿では,この欠点を踏まえて,個々の不公平を解消するためのデータ分布を概ね追従する解毒剤データを学習し,生成することを提案する。 これらの生成したon-manifold antidoteデータは、元のトレーニングデータとともに汎用的な最適化手順を通じて使用することができ、結果として個々の不公平に対する純粋な前処理アプローチとなり、プロセス内droパラダイムにも適合する。 複数の表付きデータセットに対する広範な実験を通じて,本手法は,ベースラインと比較して予測ユーティリティに対して,最小あるいはゼロのコストで個々の不公平さに抵抗することを示した。

Fairness is essential for machine learning systems deployed in high-stake applications. Among all fairness notions, individual fairness, deriving from a consensus that `similar individuals should be treated similarly,' is a vital notion to describe fair treatment for individual cases. Previous studies typically characterize individual fairness as a prediction-invariant problem when perturbing sensitive attributes on samples, and solve it by Distributionally Robust Optimization (DRO) paradigm. However, such adversarial perturbations along a direction covering sensitive information used in DRO do not consider the inherent feature correlations or innate data constraints, therefore could mislead the model to optimize at off-manifold and unrealistic samples. In light of this drawback, in this paper, we propose to learn and generate antidote data that approximately follows the data distribution to remedy individual unfairness. These generated on-manifold antidote data can be used through a generic optimization procedure along with original training data, resulting in a pure pre-processing approach to individual unfairness, or can also fit well with the in-processing DRO paradigm. Through extensive experiments on multiple tabular datasets, we demonstrate our method resists individual unfairness at a minimal or zero cost to predictive utility compared to baselines.
翻訳日:2023-05-26 02:52:21 公開日:2023-05-24
# 分散を超えて:"純粋"相関を持つ分布に対するテスト時間ラベルシフト適応

Beyond Invariance: Test-Time Label-Shift Adaptation for Distributions with "Spurious" Correlations ( http://arxiv.org/abs/2211.15646v3 )

ライセンス: Link先を確認
Qingyao Sun (University of Chicago), Kevin Murphy (Google Deepmind), Sayna Ebrahimi (Google Cloud AI Research), Alexander D'Amour (Google Deepmind)(参考訳) テスト時のデータ分布の変化は、予測モデル $p(y|x)$ のパフォーマンスに有害な影響を与える可能性がある。 我々は、分散におけるそのような変化を考慮に入れた$z$で表される追加のメタデータラベル(グループラベルなど)が存在する状況を考える。 特に、クラスラベル $y$ と "nuisance" 因子 $z$ の間の依存性をモデル化する以前の分布 $p(y, z)$ は、これらの用語間の相関の変化や、それらの限界の変化によって、ドメイン間で変化する可能性があると仮定する。 しかし、特徴量 $p(x|y, z)$ の生成モデルは領域間で不変であると仮定する。 これは広く使われている"ラベルシフト"の仮定の拡張版に対応しており、ラベルにはニュアサンス係数である$z$も含まれている。 この観察に基づいて,対象領域の非ラベルサンプルに対してemを適用した$p(y,z)$を用いたジョイント分布の変化に対応するテスト時間ラベルシフト補正,$p_t(x)$を提案する。 重要なことに、生成モデル $p(x|y,z)$ の適合を避けることができ、ソースディストリビューションでトレーニングされた識別モデル $p_s(y,z|x)$ の出力を再重ねるだけでよい。 我々は,CheXpertの胸部X線データセットと同様に,いくつかの標準画像およびテキストデータセット上でTTLSA(Test-Time Label-Shift Adaptation)と呼ぶ手法を評価し,分布の変化に対する不変性を目標とした手法と,ベースラインの実証的リスク最小化手法の性能向上を示す。 実験を再現するためのコードはhttps://github.com/nalzok/test-time-label-shiftで入手できる。

Changes in the data distribution at test time can have deleterious effects on the performance of predictive models $p(y|x)$. We consider situations where there are additional meta-data labels (such as group labels), denoted by $z$, that can account for such changes in the distribution. In particular, we assume that the prior distribution $p(y, z)$, which models the dependence between the class label $y$ and the "nuisance" factors $z$, may change across domains, either due to a change in the correlation between these terms, or a change in one of their marginals. However, we assume that the generative model for features $p(x|y, z)$ is invariant across domains. We note that this corresponds to an expanded version of the widely used "label shift" assumption, where the labels now also include the nuisance factors $z$. Based on this observation, we propose a test-time label shift correction that adapts to changes in the joint distribution $p(y, z)$ using EM applied to unlabeled samples from the target domain distribution, $p_t(x)$. Importantly, we are able to avoid fitting a generative model $p(x|y,z)$, and merely need to reweight the outputs of a discriminative model $p_s(y,z|x)$ trained on the source distribution. We evaluate our method, which we call "Test-Time Label-Shift Adaptation" (TTLSA), on several standard image and text datasets, as well as the CheXpert chest X-ray dataset, and show that it improves performance over methods that target invariance to changes in the distribution, as well as baseline empirical risk minimization methods. Code for reproducing experiments is available at https://github.com/nalzok/test-time-label-shift .
翻訳日:2023-05-26 02:51:56 公開日:2023-05-24
# 量子コンピュータ上でのポアソン方程式を解くための変分量子アルゴリズムの性能研究

A Performance Study of Variational Quantum Algorithms for Solving the Poisson Equation on a Quantum Computer ( http://arxiv.org/abs/2211.14064v2 )

ライセンス: Link先を確認
Mazen Ali and Matthias Kabel(参考訳) 量子コンピューティングの最近の進歩とその可用性の向上は、可能なアプリケーションへの関心を高めている。 そのなかには、材料や流れのシミュレーションのような偏微分方程式(PDE)の解がある。 現在、短期的および短期的に量子プロセッサの有用な展開への最も有望なルートは、いわゆるハイブリッド変分量子アルゴリズム(vqas)である。 したがって、ノイズのある中間スケール量子(NISQ)時代の量子優位性の候補として、PDEの変分法が提案されている。 In this work, we conduct an extensive study of utilizing VQAs on real quantum devices to solve the simplest prototype of a PDE -- the Poisson equation. Although results on noiseless simulators for small problem sizes may seem deceivingly promising, the performance on quantum computers is very poor. We argue that direct resolution of PDEs via an amplitude encoding of the solution is not a good use case within reach of today's quantum devices -- especially when considering large system sizes and more complicated non-linear PDEs that are required in order to be competitive with classical high-end solvers.

Recent advances in quantum computing and their increased availability has led to a growing interest in possible applications. Among those is the solution of partial differential equations (PDEs) for, e.g., material or flow simulation. Currently, the most promising route to useful deployment of quantum processors in the short to near term are so-called hybrid variational quantum algorithms (VQAs). Thus, variational methods for PDEs have been proposed as a candidate for quantum advantage in the noisy intermediate scale quantum (NISQ) era. In this work, we conduct an extensive study of utilizing VQAs on real quantum devices to solve the simplest prototype of a PDE -- the Poisson equation. Although results on noiseless simulators for small problem sizes may seem deceivingly promising, the performance on quantum computers is very poor. We argue that direct resolution of PDEs via an amplitude encoding of the solution is not a good use case within reach of today's quantum devices -- especially when considering large system sizes and more complicated non-linear PDEs that are required in order to be competitive with classical high-end solvers.
翻訳日:2023-05-26 02:51:22 公開日:2023-05-24
# テキスト内分布検出のための多レベル知識蒸留

Multi-Level Knowledge Distillation for Out-of-Distribution Detection in Text ( http://arxiv.org/abs/2211.11300v2 )

ライセンス: Link先を確認
Qianhui Wu, Huiqiang Jiang, Haonan Yin, B\"orje F. Karlsson, Chin-Yew Lin(参考訳) 自己教師型表現学習は,分布外(OoD)検出において,分布内(ID)例のテキストのみを用いた貴重な要素であることが証明された。 これらのアプローチは、言語モデルをスクラッチからトレーニングするか、ID例を使ってトレーニング済みの言語モデルを微調整するか、あるいはOoDスコアとして言語モデルによって出力されるパープレキシティを判断する。 本稿では, 両OoD検出手法の相補的特性を解析し, 限界を緩和しつつ, 強度を統合した多段階の知識蒸留手法を提案する。 具体的には、教師として微調整モデルを用いて、IDの例についてランダムに初期化学生モデルを教える。 予測層蒸留の他に, 類似性に基づく中間層蒸留法を提案し, 教師モデルの表現空間を徹底的に探索する。 このようにして、学習した学生は、IDデータ多様体の外でOoD例を事前学習から継承した正規化でマッピングする能力を得ながら、IDデータ多様体をより良く表現することができる。 さらに、学生モデルはパラメータ学習中のID例しか見ず、OoD検出のためのより区別しやすい特徴を促進する。 我々は,複数のベンチマークデータセット,例えばCLINC150,SST,ROSTD,20 NewsGroups,AG Newsに対して広範な実験を行い,提案手法が新たな最先端性能をもたらすことを示す。 また、ChatGPTと人間の専門家による回答を区別するためのAIGC検出器としての利用についても検討する。 このモデルでは,Human ChatGPT Comparison Corpusのペア・エキスパート・タスクにおいて,人間の評価値を超えることが観察された。

Self-supervised representation learning has proved to be a valuable component for out-of-distribution (OoD) detection with only the texts of in-distribution (ID) examples. These approaches either train a language model from scratch or fine-tune a pre-trained language model using ID examples, and then take the perplexity output by the language model as OoD scores. In this paper, we analyze the complementary characteristics of both OoD detection methods and propose a multi-level knowledge distillation approach that integrates their strengths while mitigating their limitations. Specifically, we use a fine-tuned model as the teacher to teach a randomly initialized student model on the ID examples. Besides the prediction layer distillation, we present a similarity-based intermediate layer distillation method to thoroughly explore the representation space of the teacher model. In this way, the learned student can better represent the ID data manifold while gaining a stronger ability to map OoD examples outside the ID data manifold with the regularization inherited from pre-training. Besides, the student model sees only ID examples during parameter learning, further promoting more distinguishable features for OoD detection. We conduct extensive experiments over multiple benchmark datasets, i.e., CLINC150, SST, ROSTD, 20 NewsGroups, and AG News; showing that the proposed method yields new state-of-the-art performance. We also explore its application as an AIGC detector to distinguish between answers generated by ChatGPT and human experts. It is observed that our model exceeds human evaluators in the pair-expert task on the Human ChatGPT Comparison Corpus.
翻訳日:2023-05-26 02:50:35 公開日:2023-05-24
# 大規模言語モデルの概念支援型デバイアス

Conceptor-Aided Debiasing of Large Language Models ( http://arxiv.org/abs/2211.11087v2 )

ライセンス: Link先を確認
Yifei Li, Lyle Ungar, Jo\~ao Sedoc(参考訳) 事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。 この問題を軽減するために多くの方法が提案されているが、デビアスに失敗したり、モデルの精度を犠牲にしたりすることが多い。 我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。 提案手法は,(1) ポストプロセッシングによるバイアス部分空間投影,(2) トレーニング中のすべての層にコンセプタ投影を明示的に組み込む新しいアーキテクチャ,conceptor-intervened bert (ci-bert) の2つである。 GLUEベンチマークでLLMの性能を維持・改善しながら, 最先端(SoTA)のデバイアス化を達成できることが判明した。 また、様々なシナリオにおいて頑健であり、既存のバイアス部分空間上の論理演算により交叉バイアスを効率的に軽減することができる。 CI-BERTのトレーニングはすべてのレイヤのバイアスを考慮に入れ、バイアス軽減で後処理に勝てるが、CI-BERTは言語モデルの精度を低下させる。 また,バイアス部分空間を慎重に構築することの重要性を示す。 最善の結果は、偏りのある単語のリストから外れたものを取り除き、それらを(概念と操作を通して)組み合わせ、それらの埋め込みをクリーンなコーパスから計算することで得られる。

Pre-trained large language models (LLMs) reflect the inherent social biases of their training corpus. Many methods have been proposed to mitigate this issue, but they often fail to debias or they sacrifice model accuracy. We use conceptors--a soft projection method--to identify and remove the bias subspace in LLMs such as BERT and GPT. We propose two methods of applying conceptors (1) bias subspace projection by post-processing; and (2) a new architecture, conceptor-intervened BERT (CI-BERT), which explicitly incorporates the conceptor projection into all layers during training. We find that conceptor post-processing achieves state-of-the-art (SoTA) debiasing results while maintaining or improving LLMs' performance on the GLUE benchmark. Also, it is robust in various scenarios and can mitigate intersectional bias efficiently by its logical operation on the existing bias subspaces. Although CI-BERT's training takes all layers' bias into account and can beat its post-processing counterpart in bias mitigation, CI-BERT reduces the language model accuracy. We also show the importance of carefully constructing the bias subspace. The best results are obtained by removing outliers from the list of biased words, combining them (via the conceptor AND operation), and computing their embeddings using the sentences from a cleaner corpus.
翻訳日:2023-05-26 02:50:06 公開日:2023-05-24
# 動的トークンポーリングを用いた効率的な変圧器

Efficient Transformers with Dynamic Token Pooling ( http://arxiv.org/abs/2211.09761v2 )

ライセンス: Link先を確認
Piotr Nawrot, Jan Chorowski, Adrian {\L}a\'ncucki, Edoardo M. Ponti(参考訳) トランスフォーマーは、モデリング言語で非競合のパフォーマンスを達成するが、メモリと時間の複雑さの点で非効率である。 可能な修正は、トークンの固定長セグメントをプールすることで中間層のシーケンス長を削減することである。 それでも、言葉や句など、意味の自然な単位は、様々な大きさを示す。 このミスマッチに対処するため,自動回帰方式でセグメント境界を予測する動的プール機構を言語モデルに装備する。 確率的再パラメータ化によるエンドツーエンド学習、教師付き学習(サブワードトークン化や条件付きエントロピーのスパイクのセグメンテーションに基づく)、言語的に動機付けられた境界など、境界を推論するいくつかの手法を比較した。 複数のデータセットと形態学的に多様な言語からテキストを文字レベルで評価する。 その結果,同じ計算予算内で,バニラ変換器や固定長プーリングよりも高速かつ高精度な動的プーリングが可能となった。

Transformers achieve unrivalled performance in modelling language, but remain inefficient in terms of memory and time complexity. A possible remedy is to reduce the sequence length in the intermediate layers by pooling fixed-length segments of tokens. Nevertheless, natural units of meaning, such as words or phrases, display varying sizes. To address this mismatch, we equip language models with a dynamic-pooling mechanism, which predicts segment boundaries in an autoregressive fashion. We compare several methods to infer boundaries, including end-to-end learning through stochastic re-parameterisation, supervised learning (based on segmentations from subword tokenizers or spikes in conditional entropy), as well as linguistically motivated boundaries. We perform character-level evaluation on texts from multiple datasets and morphologically diverse languages. The results demonstrate that dynamic pooling, which jointly segments and models language, is both faster and more accurate than vanilla Transformers and fixed-length pooling within the same computational budget.
翻訳日:2023-05-26 02:49:41 公開日:2023-05-24
# 失われたミドラッシュタンフマ物質検出のためのラビ文学のスタイル分類

Style Classification of Rabbinic Literature for Detection of Lost Midrash Tanhuma Material ( http://arxiv.org/abs/2211.09710v2 )

ライセンス: Link先を確認
Shlomo Tannor, Nachum Dershowitz, Moshe Lavee(参考訳) ミッドラッシュ・コレクション(Midrash collections)は、複数の言語のテキストからなる複雑なラビ作品であり、不安定な口頭と文字の伝達の長いプロセスを通して進化した。 そのようなコンピレーションにおける与えられた文の起源を決定することは必ずしも単純ではなく、しばしば学者の間で論争の的となっているが、ラビ語コーパスにおける文とその他の文との関係を学者が理解するためには必要不可欠である。 そこで本研究では, ヘブライ語で最近発表された事前学習されたトランスフォーマーモデルを用いて, そのスタイルに基づくラビ文学の分類システムを提案する。 さらに,この手法がミドラッシュタンフマの失われた物質を発見できることを示す。

Midrash collections are complex rabbinic works that consist of text in multiple languages, which evolved through long processes of unstable oral and written transmission. Determining the origin of a given passage in such a compilation is not always straightforward and is often a matter of dispute among scholars, yet it is essential for scholars' understanding of the passage and its relationship to other texts in the rabbinic corpus. To help solve this problem, we propose a system for classification of rabbinic literature based on its style, leveraging recently released pretrained Transformer models for Hebrew. Additionally, we demonstrate how our method can be applied to uncover lost material from Midrash Tanhuma.
翻訳日:2023-05-26 02:49:24 公開日:2023-05-24
# Decoder Tuning: デコードとしての効率的な言語理解

Decoder Tuning: Efficient Language Understanding as Decoding ( http://arxiv.org/abs/2212.08408v2 )

ライセンス: Link先を確認
Ganqu Cui, Wentao Li, Ning Ding, Longtao Huang, Zhiyuan Liu, Maosong Sun(参考訳) トレーニング済みモデル(PTM)のサイズが拡大する中で、ユーザのための推論API、すなわちモデル・アズ・ア・サービス(MaaS)設定のみを提供するという、新たなプラクティスが生まれています。 モデルパラメータを凍結したPTMを適応させるために、現在のほとんどのアプローチは入力側に焦点を当て、正しい答えをモデルに刺激する強力なプロンプトを探している。 しかし、勾配信号の欠如により入力側適応が困難になる可能性があり、通常は数千のAPIクエリを必要とするため、高い計算と時間的コストが生じる。 これを踏まえて,出力側でタスク固有のデコーダネットワークを最適化するデコーダチューニング(dect)を提案する。 特に、DecTは最初に、初期予測のためにプロンプト刺激された出力スコアを抽出する。 その上に、後続データ知識を組み込むために、出力表現にデコーダネットワークを追加訓練する。 勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPTMクエリしか必要としない。 経験的に、我々は広範囲にわたる自然言語理解実験を行い、DecTが200\times$スピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。

With the evergrowing sizes of pre-trained models (PTMs), it has been an emerging practice to only provide the inference APIs for users, namely model-as-a-service (MaaS) setting. To adapt PTMs with model parameters frozen, most current approaches focus on the input side, seeking for powerful prompts to stimulate models for correct answers. However, we argue that input-side adaptation could be arduous due to the lack of gradient signals and they usually require thousands of API queries, resulting in high computation and time costs. In light of this, we present Decoder Tuning (DecT), which in contrast optimizes task-specific decoder networks on the output side. Specifically, DecT first extracts prompt-stimulated output scores for initial predictions. On top of that, we train an additional decoder network on the output representations to incorporate posterior data knowledge. By gradient-based optimization, DecT can be trained within several seconds and requires only one PTM query per sample. Empirically, we conduct extensive natural language understanding experiments and show that DecT significantly outperforms state-of-the-art algorithms with a $200\times$ speed-up.
翻訳日:2023-05-26 02:43:14 公開日:2023-05-24
# 潜在空間における確率密度推定による可制御テキスト生成

Controllable Text Generation via Probability Density Estimation in the Latent Space ( http://arxiv.org/abs/2212.08307v2 )

ライセンス: Link先を確認
Yuxuan Gu, Xiaocheng Feng, Sicheng Ma, Lingyuan Zhang, Heng Gong, Weihong Zhong, Bing Qin(参考訳) 制御可能なテキスト生成に関するこれまでの研究は、属性関連分類器による表現の最適化や、関連する離散サンプルからの表現のサンプリングなど、潜在空間からの制御のアイデアを探求してきた。 しかし、それらは潜在空間と制御の両方をモデル化するのに十分な効果がなく、制御されたテキストは品質と多様性が低いままである。 本研究では,潜在空間における確率密度推定を用いた新しい制御フレームワークを提案する。 本手法では,非可逆変換関数である正規化フローを用いて,潜在空間の複素分布を先行空間の単純ガウス分布にマッピングする。 したがって、先行空間において洗練されたフレキシブルな制御を行い、可逆変換のワンワンマッピング特性により、制御効果を潜在空間にフィードバックすることができる。 単一属性制御と多属性制御の実験により,本手法は属性関連性やテキスト品質に優れ,SOTAを実現する。 制御強度調整のさらなる分析は,制御戦略の柔軟性を示す。

Previous work on controllable text generation has explored the idea of control from the latent space, such as optimizing a representation with attribute-related classifiers or sampling a representation from relevant discrete samples. However, they are not effective enough in modeling both the latent space and the control, leaving controlled text with low quality and diversity. In this work, we propose a novel control framework using probability density estimation in the latent space. Our method utilizes an invertible transformation function, the Normalizing Flow, that maps the complex distributions in the latent space to simple Gaussian distributions in the prior space. Thus, we can perform sophisticated and flexible control in the prior space and feed the control effects back into the latent space owing to the one-one-mapping property of invertible transformations. Experiments on single-attribute controls and multi-attribute control reveal that our method outperforms several strong baselines on attribute relevance and text quality and achieves the SOTA. Further analysis of control strength adjustment demonstrates the flexibility of our control strategy.
翻訳日:2023-05-26 02:42:48 公開日:2023-05-24
# 直接フィードバックアライメントとモーメントを用いた低分散フォワード勾配

Low-Variance Forward Gradients using Direct Feedback Alignment and Momentum ( http://arxiv.org/abs/2212.07282v3 )

ライセンス: Link先を確認
Florian Bacho and Dominique Chu(参考訳) ディープニューラルネットワーク(DNN)における教師付き学習は、一般的にエラーバックプロパゲーション(BP)アルゴリズムを用いて行われる。 エラーの逐次伝播と後方通過時の重みの輸送は効率とスケーラビリティを制限している。 そのため、BPの代替品の発見への関心が高まっている。 近年,フォワード・グラデーション・アルゴリズムやその変種など,フォワードモードの自動微分に基づく手法が提案されている。 しかし、Forward Gradientsは、収束に影響を与える大きなDNNにおいて高い分散に悩まされる。 本稿では,フォワード勾配のばらつきに対処し,dnnにおける低分散勾配推定を計算するために,アクティビティ・摂動フォワード勾配と直接フィードバックアライメントと運動量を組み合わせたフォワード・ダイレクト・フィードバック・アライメント(fdfa)アルゴリズムを提案する。 提案手法が従来の前向き勾配法と比較して低分散性を実現するという理論的証明と経験的証明の両方を提供する。 勾配推定のばらつきを小さくすることで,バックプロパゲーションに対する他の局所的な代替品と比較して,より高速な収束と優れた性能を実現する。

Supervised learning in Deep Neural Networks (DNNs) is commonly performed using the error Backpropagation (BP) algorithm. The sequential propagation of errors and the transport of weights during the backward pass limits its efficiency and scalability. Therefore, there is growing interest in finding local alternatives to BP. Recently, methods based on Forward-Mode Automatic Differentiation have been proposed, such as the Forward Gradient algorithm and its variants. However, Forward Gradients suffer from high variance in large DNNs, which affects convergence. In this paper, we address the large variance of Forward Gradients and propose the Forward Direct Feedback Alignment (FDFA) algorithm that combines Activity-Perturbed Forward Gradients with Direct Feedback Alignment and momentum to compute low-variance gradient estimates in DNNs. Our results provides both theoretical proof and empirical evidence that our proposed method achieves lower variance compared to previous Forward Gradient techniques. By reducing the variance of gradient estimates, our approach enables faster convergence and better performance when compared to other local alternatives to backpropagation.
翻訳日:2023-05-26 02:42:29 公開日:2023-05-24
# indic languageを置き去りにする - 単言語コーパスの構築,ベンチマーク,indic languageのモデル

Towards Leaving No Indic Language Behind: Building Monolingual Corpora, Benchmark and Models for Indic Languages ( http://arxiv.org/abs/2212.05409v3 )

ライセンス: Link先を確認
Sumanth Doddapaneni, Rahul Aralikatte, Gowtham Ramesh, Shreya Goyal, Mitesh M. Khapra, Anoop Kunchukuttan, Pratyush Kumar(参考訳) 10億以上の話者からなる集合話者ベースを持つIndic言語のための自然言語理解(NLU)機能の構築は、極めて重要です。 本研究では,3つの重要な軸に沿ってコントリビューションを行うことで,Indic言語のNLU能力の向上を目指す。 (i)単言語コーパス (ii)NLUテストセット (iii)多言語LLMがIndic言語に焦点を当てている。 具体的には、最大の単言語コーポラであるindiccorpを、4つの言語ファミリーから24の言語をカバーする20.9bトークンで管理しています。 次に、20言語をカバーする9つのNLUタスクからなる人間によるベンチマークIndicXTREMEを作成する。 言語やタスク全体にわたって、IndicXTREMEには合計105の評価セットが含まれており、52が新たな文献への貢献である。 我々の知る限りでは、事前訓練された言語モデルの多言語ゼロショット機能をテストすることを目的とした、Indic言語の標準ベンチマークを作成するための最初の取り組みである。 最後に、すべての言語をサポートする最先端のモデルであるIndicBERT v2をトレーニングします。 言語やタスクで平均されるモデルは、強いベースラインに対して2ポイントの絶対的な改善を達成する。 データとモデルはhttps://github.com/AI4Bharat/IndicBERT.comで入手できる。

Building Natural Language Understanding (NLU) capabilities for Indic languages, which have a collective speaker base of more than one billion speakers is absolutely crucial. In this work, we aim to improve the NLU capabilities of Indic languages by making contributions along 3 important axes (i) monolingual corpora (ii) NLU testsets (iii) multilingual LLMs focusing on Indic languages. Specifically, we curate the largest monolingual corpora, IndicCorp, with 20.9B tokens covering 24 languages from 4 language families - a 2.3x increase over prior work, while supporting 12 additional languages. Next, we create a human-supervised benchmark, IndicXTREME, consisting of nine diverse NLU tasks covering 20 languages. Across languages and tasks, IndicXTREME contains a total of 105 evaluation sets, of which 52 are new contributions to the literature. To the best of our knowledge, this is the first effort towards creating a standard benchmark for Indic languages that aims to test the multilingual zero-shot capabilities of pretrained language models. Finally, we train IndicBERT v2, a state-of-the-art model supporting all the languages. Averaged across languages and tasks, the model achieves an absolute improvement of 2 points over a strong baseline. The data and models are available at https://github.com/AI4Bharat/IndicBERT.
翻訳日:2023-05-26 02:41:53 公開日:2023-05-24
# 公衆衛生介入ツールとしてのCOVID-19活動リスク計算

COVID-19 Activity Risk Calculator as a Gamified Public Health Intervention Tool ( http://arxiv.org/abs/2212.05035v4 )

ライセンス: Link先を確認
Shreyasvi Natraj, Malhar Bhide, Nathan Yap, Meng Liu, Agrima Seth, Jonathan Berman and Christin Glorioso(参考訳) 新型コロナウイルス感染症(COVID-19)は、重症急性呼吸器症候群(SARS)ウイルス2(SARS-CoV-2)によるパンデミックで、200カ国以上が感染し、何百万人もの人が死亡した。 リスク推定装置のような公衆衛生介入は、感染や感染のリスクに影響を与える行動に影響を与えることで、パンデミックや流行の拡散を減らすことができる。 現在の新型コロナウイルス(covid-19)のリスク推定ツールは、コミュニティの感染レベルや変種といった急速に進化する要因に依存するため、パンデミックの間、さまざまな効果があった。 マスク着用によるリスク軽減や予防接種など、特定の個人的保護戦略についても混乱が生じている。 日常生活活動にかかわるさまざまな個人的リスクを推定する簡単なツールを開発するため,我々はCovARC(COVID-19 Activity Risk Calculator)を開発した。 CovARCは、日常的な日々の活動を行う際のさまざまな要因によって、COVID-19に関連するさまざまなリスクがどう変化するかを「プレイする」ことができるため、公衆衛生介入のゲーミフィケーションである。 安全活動への参加に関する情報やデータによる決定を国民に与えることによって、コミュニティにおける新型コロナウイルスのレベルを下げることができる。 本研究では,covid-19のリスク計算システムを合理化し,スケーラブルで正確なものにすることを提案する。 症例数の多い期間における予防接種とマスク着用の量的影響についても検討した。 この影響の検証は、マスク委任状やその他の公衆衛生介入に関する政策決定を通知し、支持することができる。

The Coronavirus disease 2019 (COVID-19) pandemic, caused by the virus severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2), has impacted over 200 countries leading to hospitalizations and deaths of millions of people. Public health interventions, such as risk estimators, can reduce the spread of pandemics and epidemics through influencing behavior, which impacts risk of exposure and infection. Current publicly available COVID-19 risk estimation tools have had variable effectiveness during the pandemic due to their dependency on rapidly evolving factors such as community transmission levels and variants. There has also been confusion surrounding certain personal protective strategies such as risk reduction by mask-wearing and vaccination. In order to create a simple easy-to-use tool for estimating different individual risks associated with carrying out daily-life activity, we developed COVID-19 Activity Risk Calculator (CovARC). CovARC is a gamified public health intervention as users can "play with" how different risks associated with COVID-19 can change depending on several different factors when carrying out routine daily activities. Empowering the public to make informed, data-driven decisions about safely engaging in activities may help to reduce COVID-19 levels in the community. In this study, we demonstrate a streamlined, scalable and accurate COVID-19 risk calculation system. Our study also demonstrates the quantitative impact of vaccination and mask-wearing during periods of high case counts. Validation of this impact could inform and support policy decisions regarding case thresholds for mask mandates, and other public health interventions.
翻訳日:2023-05-26 02:41:31 公開日:2023-05-24
# 社会経済的要因が健康格差に及ぼす影響

The Impact of Socioeconomic Factors on Health Disparities ( http://arxiv.org/abs/2212.04285v3 )

ライセンス: Link先を確認
Krish Khanna, Jeffrey Lu, Jay Warrier(参考訳) 米国における高品質な医療は、特定の社会経済グループにとってコストを抑えることができる。 本稿では,米国国勢調査とcdcのデータを用いて,特定の社会経済的要因が特定の健康指標および一般健康指標と相関する程度について検討した。 我々は,変数間のより複雑な関係を特定するために,より広い傾向と予測モデルを見つけるために視覚分析を用いた。 以上の結果から,所得や教育達成といった社会経済的要因は,健康総合指標と高い相関関係にあることが示唆された。

High-quality healthcare in the US can be cost-prohibitive for certain socioeconomic groups. In this paper, we examined data from the US Census and the CDC to determine the degree to which specific socioeconomic factors correlate with both specific and general health metrics. We employed visual analysis to find broad trends and predictive modeling to identify more complex relationships between variables. Our results indicate that certain socioeconomic factors, like income and educational attainment, are highly correlated with aggregate measures of health.
翻訳日:2023-05-26 02:41:08 公開日:2023-05-24
# 平均場ランゲヴィンダイナミクスのためのカオスの一様時間伝播

Uniform-in-time propagation of chaos for mean field Langevin dynamics ( http://arxiv.org/abs/2212.03050v2 )

ライセンス: Link先を確認
Fan Chen, Zhenjie Ren and Songbo Wang(参考訳) 平均場ランゲヴィン力学と関連する粒子系について検討する。 エネルギーの関数的凸性を仮定することにより、平均場力学のユニークな不変測度に対する辺分布の$L^p$-収束が得られる。 さらに、l^2$-wasserstein計量と相対エントロピーの両方におけるカオスの均一な時間内伝播を証明する。

We study the mean field Langevin dynamics and the associated particle system. By assuming the functional convexity of the energy, we obtain the $L^p$-convergence of the marginal distributions towards the unique invariant measure for the mean field dynamics. Furthermore, we prove the uniform-in-time propagation of chaos in both the $L^2$-Wasserstein metric and relative entropy.
翻訳日:2023-05-26 02:40:58 公開日:2023-05-24
# 人間互換自動車を目指して:感情遷移モデルを用いた自動走行における非言語チューリングテストの検討

Towards human-compatible autonomous car: A study of non-verbal Turing test in automated driving with affective transition modelling ( http://arxiv.org/abs/2212.02908v6 )

ライセンス: Link先を確認
Zhaoning Li, Qiaoli Jiang, Zhengming Wu, Anqi Liu, Haiyan Wu, Miner Huang, Kai Huang and Yixuan Ku(参考訳) 人間がハンズフリーの道を進むとき、自動運転車は不可欠だ。 既存の文献では、人間のように運転すれば自動運転車の受容が増加すると強調されているが、スパースリサーチは、現在の自動運転車の人間性を調べるために乗客の席の観点から自然主義的な経験を提供する。 本研究は、69人の参加者のフィードバックに基づいて、AIドライバーが乗客のための人間ライクな乗車体験を作成できるかどうかを実路シナリオで検証した。 我々は、自動走行のためのノンバーバルチューリングテストの乗車体験ベースのバージョンを設計した。 参加者は、人間かAIドライバーが運転する自動運転車に乗って乗客となり、ドライバーが人間なのかAIなのかを判断した。 aiドライバーは、乗客が偶然にaiドライバーを検知したため、テストに合格できなかった。 対照的に、人間の運転者が車を運転したとき、乗客の判断は偶然だった。 実験では、人間の乗客が人間性をいかに受け入れるかについても検討した。 レーウィンのフィールド理論に基づいて,信号検出理論と事前学習言語モデルを組み合わせて,乗客の人間性評価行動を予測する計算モデルを開発した。 実験前のベースライン感情とそれに対応するポストステージ感情との情緒的遷移をモデルの信号強度として用いた。 その結果、乗客の人間性の記述は、より感情的な移行によって増加することが判明した。 本研究は、自律運転の今後の方向性となる乗客の人間性記述における情緒変化の重要な役割を示唆する。

Autonomous cars are indispensable when humans go further down the hands-free route. Although existing literature highlights that the acceptance of the autonomous car will increase if it drives in a human-like manner, sparse research offers the naturalistic experience from a passenger's seat perspective to examine the humanness of current autonomous cars. The present study tested whether the AI driver could create a human-like ride experience for passengers based on 69 participants' feedback in a real-road scenario. We designed a ride experience-based version of the non-verbal Turing test for automated driving. Participants rode in autonomous cars (driven by either human or AI drivers) as a passenger and judged whether the driver was human or AI. The AI driver failed to pass our test because passengers detected the AI driver above chance. In contrast, when the human driver drove the car, the passengers' judgement was around chance. We further investigated how human passengers ascribe humanness in our test. Based on Lewin's field theory, we advanced a computational model combining signal detection theory with pre-trained language models to predict passengers' humanness rating behaviour. We employed affective transition between pre-study baseline emotions and corresponding post-stage emotions as the signal strength of our model. Results showed that the passengers' ascription of humanness would increase with the greater affective transition. Our study suggested an important role of affective transition in passengers' ascription of humanness, which might become a future direction for autonomous driving.
翻訳日:2023-05-26 02:40:54 公開日:2023-05-24
# トランスベース学習最適化

Transformer-Based Learned Optimization ( http://arxiv.org/abs/2212.01055v3 )

ライセンス: Link先を確認
Erik G\"artner, Luke Metz, Mykhaylo Andriluka, C. Daniel Freeman, Cristian Sminchisescu(参考訳) 本稿では,ニューラルネットワークを用いたオプティマイザ更新ステップの計算を行うための新しい学習最適化手法を提案する。 最適化器のパラメータは、最適化タスクのセットのトレーニングによって学習され、効率よく最小化を行う。 私たちのイノベーションは、古典的なbfgsアルゴリズムにインスパイアされた学習オプティマイザのための、新しいニューラルネットワークアーキテクチャであるoptimusです。 BFGSと同様に、プレコンディショニング行列をランク1更新の和として推定するが、Transformerベースのニューラルネットワークを用いてこれらの更新をステップ長と方向とともに予測する。 近年の学習された最適化に基づくアプローチとは対照的に,我々の定式化により,対象問題のパラメータ空間の次元をまたいだ条件付けが可能となった。 提案手法の利点は,これまで最適化アルゴリズムの評価に用いられてきた目標関数と,物理に基づく3次元人体動作の視覚的再構成の現実的実現に有効であることを示す。

We propose a new approach to learned optimization where we represent the computation of an optimizer's update step using a neural network. The parameters of the optimizer are then learned by training on a set of optimization tasks with the objective to perform minimization efficiently. Our innovation is a new neural network architecture, Optimus, for the learned optimizer inspired by the classic BFGS algorithm. As in BFGS, we estimate a preconditioning matrix as a sum of rank-one updates but use a Transformer-based neural network to predict these updates jointly with the step length and direction. In contrast to several recent learned optimization-based approaches, our formulation allows for conditioning across the dimensions of the parameter space of the target problem while remaining applicable to optimization tasks of variable dimensionality without retraining. We demonstrate the advantages of our approach on a benchmark composed of objective functions traditionally used for the evaluation of optimization algorithms, as well as on the real world-task of physics-based visual reconstruction of articulated 3d human motion.
翻訳日:2023-05-26 02:40:33 公開日:2023-05-24
# mgeo:マルチモーダル地理事前学習方法

MGeo: Multi-Modal Geographic Pre-Training Method ( http://arxiv.org/abs/2301.04283v2 )

ライセンス: Link先を確認
Ruixue Ding, Boli Chen, Pengjun Xie, Fei Huang, Xin Li, Qiang Zhang, Yao Xu(参考訳) 位置情報ベースのサービス(LBS)における中核的なタスク(ナビゲーションマップ、クエリと関心点(POI)マッチング)は、ユーザの意図を現実世界の地理情報と結びつける。 近年,多くの自然言語処理(NLP)タスクにおいて,事前学習モデル(PTM)が進歩している。 ジェネリックテキストベースのPTMは、クエリ-POIマッチングに十分な地理的知識を持っていない。 この制限を克服するため、関連文献は、地理関連コーパスに基づいたドメイン適応型事前学習を試みている。 しかし、クエリは一般に、近くの道路や関心のある地域(ROI)など、複数の地理的対象の言及を含んでいる。 地理的文脈(gc)、すなわちこれらの多様な地理的対象とその関係は、最も関連するpoiを取得する上で重要である。 シングルモーダルPTMは重要なGCをほとんど利用できないため、パフォーマンスが制限される。 本研究では,ジオグラフィックエンコーダとマルチモーダルインタラクションモジュールを組み合わせた,新しいクエリ-POIマッチング手法であるMulti-modal Geographic Language Model (MGeo)を提案する。 MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。 さらに、このトピックのベンチマークは公開されていない。 さらなる研究を促進するため,オープンソースの大規模ベンチマークであるGeoTES(GeoTES)を構築した。 POIは、オープンソースの地理情報システム(GIS)に由来する。 クエリは、プライバシの問題を防ぐために、アノテーションによって手動で生成される。 いくつかの強力なベースラインと比較すると,geteの広範な実験結果と詳細なアブレーション解析により,提案手法は,クエリのgcが提供されていなくても,ジェネリックptmsのクエリ-poiマッチング能力を大幅に向上できることを示した。 私たちのコードとデータセットはhttps://github.com/PhantomGrapes/MGeo.comで公開されています。

As a core task in location-based services (LBS) (e.g., navigation maps), query and point of interest (POI) matching connects users' intent with real-world geographic information. Recently, pre-trained models (PTMs) have made advancements in many natural language processing (NLP) tasks. Generic text-based PTMs do not have enough geographic knowledge for query-POI matching. To overcome this limitation, related literature attempts to employ domain-adaptive pre-training based on geo-related corpus. However, a query generally contains mentions of multiple geographic objects, such as nearby roads and regions of interest (ROIs). The geographic context (GC), i.e., these diverse geographic objects and their relationships, is therefore pivotal to retrieving the most relevant POI. Single-modal PTMs can barely make use of the important GC and therefore have limited performance. In this work, we propose a novel query-POI matching method Multi-modal Geographic language model (MGeo), which comprises a geographic encoder and a multi-modal interaction module. MGeo represents GC as a new modality and is able to fully extract multi-modal correlations for accurate query-POI matching. Besides, there is no publicly available benchmark for this topic. In order to facilitate further research, we build a new open-source large-scale benchmark Geographic TExtual Similarity (GeoTES). The POIs come from an open-source geographic information system (GIS). The queries are manually generated by annotators to prevent privacy issues. Compared with several strong baselines, the extensive experiment results and detailed ablation analyses on GeoTES demonstrate that our proposed multi-modal pre-training method can significantly improve the query-POI matching capability of generic PTMs, even when the queries' GC is not provided. Our code and dataset are publicly available at https://github.com/PhantomGrapes/MGeo.
翻訳日:2023-05-26 02:32:52 公開日:2023-05-24
# グラフェン系ナノアンテナにおけるエッジ効果とコンダクタンスの理論

Theory of Edge Effects and Conductunce for Applications in Graphene-based Nanoantennas ( http://arxiv.org/abs/2301.02441v2 )

ライセンス: Link先を確認
Tomer Berghaus, Touvia Miloh, Oded Gottlieb, and Gregory Slepyan(参考訳) 本稿では,グラフェンにおけるエッジ効果の理論を,テラヘルツ,赤外線,可視周波数領域のナノアンテナへの応用に適用する。 その特性は、通常の表面伝導率ではなく、動的導電率の観点から定式化して到達した自己整合性である。 エッジ効果の物理的モデルは、ディラックフェルミオンの概念に基づいている。 表面コンダクタンスは一般感受性と見なされ、kuboアプローチによって計算される。 以前のモデルとは対照的に、表面コンダクタンスは非均質かつ非局所となる。 表面コンダクタンスの空間的挙動は、シートの長さと電気化学的ポテンシャルに依存する。 数値シミュレーションの結果,2.1-800nmの範囲と0.1-1.0ev範囲の電気化学ポテンシャルについて検討した。 長さが800nmを超えると、我々のモデルは比較的高い精度で古典的なドリュード導電率モデルと一致することが示されている。 比較的短い長さでは、導電性は通常空間振動を示し、導電性に欠け、グラフェン系アンテナの特性に強く影響を及ぼす。 このような空間振動の周期と振幅は、電気化学的ポテンシャルに強く依存する。 新しい理論は、ゲート電圧の電気化学的ポテンシャルを変化させることで、電気制御されたナノアンテナを実現する方法を開く。 得られた結果は、現代の量子技術における炭素系ナノデバイスの設計に適用できる。

In this paper, we develop a theory of edge effects in graphene for its applications to nanoantennas in the terahertz, infrared, and visible frequency ranges. Its characteristic feature is selfconsistence reached due the formulation in terms of dynamical conductance instead of ordinary used surface conductivity. The physical model of edge effects is based on using the concept of Dirac fermions. The surface conductance is considered as a general susceptibility and is calculated via the Kubo approach. In contrast with earlier models, the surface conductance becomes nonhomogeneous and nonlocal. The spatial behavior of the surface conductance depends on the length of the sheet and the electrochemical potential. Results of numerical simulations are presented for lengths in the range of 2.1-800 nm and electrochemical potentials ranging between 0.1-1.0 eV. It is shown that if the length exceeded 800 nm, our model agrees with the classical Drude conductivity model with a relatively high degree of accuracy. For rather short lengths, the conductance usually exhibits spatial oscillations, which absent in conductivity and strongly affect the properties of graphene based antennas. The period and amplitude of such spatial oscillations, strongly depend on the electrochemical potential. The new theory opens the way for realizing electrically controlled nanoantennas by changing the electrochemical potential may of the gate voltage. The obtained results may be applicable for the design of carbon based nanodevices in modern quantum technologies.
翻訳日:2023-05-26 02:32:20 公開日:2023-05-24
# オープンドメインにおけるマルチドキュメント要約に向けて

Towards multi-document summarization in the open-domain ( http://arxiv.org/abs/2212.10526v2 )

ライセンス: Link先を確認
John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu Wang, Arman Cohan(参考訳) マルチドキュメント要約 (mds) は伝統的にトピック関連の文書のセットを提供する。 しかし、この文書セットはデータセットのキュレーションプロセスの成果物であり、実際には必ずしも利用可能ではなく、質問やトピックステートメントといった情報を必要とするため、検索する必要がある。 タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な"オープンドメイン"設定について研究する。 広範にわたる実験により,(1) 最先端の要約者は,検索性能が高い場合でも,オープンドメインに適用した場合,大幅な性能低下を被る,(2) オープンドメイン設定における追加トレーニングは,この不完全な検索に対する感度を低下させる,(3) 重複文書の検索や検索された文書の順序には敏感であるが,無関係な文書の検索など他のエラーに非常に敏感である,という結論が得られた。 この結果に基づき,検索した文書数を選択する方法など,オープンドメインmdsにおける今後の作業を可能にするための実践的ガイドラインを提供する。 この結果から,新たな検索・要約手法,およびトレーニング・評価のための注釈付きリソースが,オープンドメインのさらなる進展に必要であることが示唆された。

Multi-document summarization (MDS) traditionally assumes a set of topic-related documents are provided. However, this document set is often an artifact of the dataset curation process; in practice, it is not necessarily available and would need to be retrieved given an information need, i.e. a question or topic statement. We study this more challenging "open-domain" setting by formalizing the task and bootstrapping it using existing datasets, retrievers and summarizers. Via extensive experimentation, we determine that: (1) state-of-the-art summarizers suffer large reductions in performance when applied to the open-domain, even when retrieval performance is high, (2) additional training in the open-domain setting can reduce this sensitivity to imperfect retrieval, and (3) summarizers are insensitive to the retrieval of duplicate documents and the order of retrieved documents, but highly sensitive to other errors, like the retrieval of irrelevant documents. Based on our results, we provide practical guidelines to enable future work on open-domain MDS, e.g. how to choose the number of retrieved documents to summarize. Our results suggest that new methods for retrieval and summarization, as well as annotated resources for training and evaluation, will be necessary for further progress in the open-domain.
翻訳日:2023-05-26 02:32:00 公開日:2023-05-24
# 現在のタスク指向対話モデルは野生における実世界のシナリオを自動化するか?

Can Current Task-oriented Dialogue Models Automate Real-world Scenarios in the Wild? ( http://arxiv.org/abs/2212.10504v2 )

ライセンス: Link先を確認
Sang-Woo Lee, Sungdong Kim, Donghyeon Ko, Donghoon Ham, Youngki Hong, Shin Ah Oh, Hyunhoon Jung, Wangkyo Jung, Kyunghyun Cho, Donghyun Kwak, Hyungsuk Noh, Woomyoung Park(参考訳) タスク指向対話 (TOD) は主にスロット充足に基づくTOD (SF-TOD) フレームワークに基づいており、特定のタスクを達成するために対話をより小さく制御可能な単位(スロット)に分割する。 このフレームワークに基づく一連のアプローチは、様々なTODベンチマークで大きな成功を収めた。 しかし、現在のTODベンチマークは現実世界のシナリオのサロゲートに限られており、現在のTODモデルはシナリオをカバーするための長い道のりである。 本稿では,まずsf-todシステムの現状と限界を明らかにする。 その後、Web/モバイルインターフェースが利用可能になったときに、スケーラブルなTODシステムを構築するための代替方向であるWebTODフレームワークについて検討する。 webtodでは、対話システムは、人間のエージェントが対話するweb/モバイルインターフェースを、大規模な言語モデルで理解する方法を学習する。

Task-oriented dialogue (TOD) systems are mainly based on the slot-filling-based TOD (SF-TOD) framework, in which dialogues are broken down into smaller, controllable units (i.e., slots) to fulfill a specific task. A series of approaches based on this framework achieved remarkable success on various TOD benchmarks. However, we argue that the current TOD benchmarks are limited to surrogate real-world scenarios and that the current TOD models are still a long way to cover the scenarios. In this position paper, we first identify current status and limitations of SF-TOD systems. After that, we explore the WebTOD framework, the alternative direction for building a scalable TOD system when a web/mobile interface is available. In WebTOD, the dialogue system learns how to understand the web/mobile interface that the human agent interacts with, powered by a large-scale language model.
翻訳日:2023-05-26 02:31:07 公開日:2023-05-24
# SODA:ソーシャル・コモンセンス・コンテクスト化による数百万件のダイアログ蒸留

SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization ( http://arxiv.org/abs/2212.10465v2 )

ライセンス: Link先を確認
Hyunwoo Kim, Jack Hessel, Liwei Jiang, Peter West, Ximing Lu, Youngjae Yu, Pei Zhou, Ronan Le Bras, Malihe Alikhani, Gunhee Kim, Maarten Sap, Yejin Choi(参考訳) 我々は,初めて公開され,100万規模の社会対話データセットであるSODAを提示する。 既存のクラウドソースによる小規模な対話コーパスとは対照的に,大規模言語モデル(InstructGPT; Ouyang et al., 2022)から1.5Mの社会的な対話を抽出する。 ナレッジグラフ(atomic10x; west et al., 2022)から社会常識知識を文脈化することで対話を蒸留する。 人間の評価によると、SODAの対話は、従来の人間によるデータセットよりも一貫性があり、特異であり、そして(当然のことながら)自然である。 SODAを用いて、最高のパフォーマンスの会話モデル(GODEL、BlenderBot-1、Koala、Vicunaなど)よりも、目に見えないデータセットに対して、はるかに自然で一貫性のある一般化可能な会話モデルであるCOSMOを訓練する。 実験の結果、COSMOは時にオリジナルの人書きのゴールドレスポンスよりも好まれることが示された。 さらに,我々は知識豊かな会話と自然なソーシャル・チットチャットの区別を明らかにした。 データ、モデル、コードを公開しています。

We present SODA: the first publicly available, million-scale high-quality social dialogue dataset. In contrast to most existing crowdsourced, small-scale dialogue corpora, we distill 1.5M socially-grounded dialogues from a large language model (InstructGPT; Ouyang et al., 2022). Dialogues are distilled by contextualizing social commonsense knowledge from a knowledge graph (Atomic10x; West et al., 2022). Human evaluation shows that dialogues in SODA are more consistent, specific, and (surprisingly) natural than those in prior human-authored datasets. Using SODA, we train COSMO: a generalizable conversation model that is significantly more natural and consistent on unseen datasets than best-performing conversation models (e.g., GODEL, BlenderBot-1, Koala, Vicuna). Experiments reveal COSMO is sometimes even preferred to the original human-written gold responses. Additionally, our results shed light on the distinction between knowledge-enriched conversations and natural social chitchats. We make our data, models, and code public.
翻訳日:2023-05-26 02:30:52 公開日:2023-05-24
# あなたは何に気付いていますか。 語彙上の分布としてのDense Retrieval

What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary ( http://arxiv.org/abs/2212.10380v2 )

ライセンス: Link先を確認
Ori Ram, Liat Bezalel, Adi Zicher, Yonatan Belinkov, Jonathan Berant, Amir Globerson(参考訳) 現在、デュアルエンコーダは高密度検索の主要なアーキテクチャである。 しかし、テキストの表現方法や、それが優れたパフォーマンスにつながる理由については、ほとんど理解していません。 本研究では,語彙上の分布を通じて,この問題に光を当てた。 本稿では,双対エンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。 結果として得られる投影は、豊富な意味情報を含み、それらの間の接続とスパース検索を描画する。 この考え方は、密集したレトリバーの障害ケースのいくつかを説明することができる。 例えば、末尾のエンティティを扱うモデルができないことは、それらのエンティティのトークンのいくつかを忘れてしまうトークン分布の傾向と相関していると観察する。 本稿では,この知見を活用し,語彙情報を用いたクエリやパス表現を推論時に拡張する簡単な手法を提案し,この手法がゼロショット設定における元のモデル,特にBEIRベンチマークにおいて,性能を著しく向上させることを示す。

Dual encoders are now the dominant architecture for dense retrieval. Yet, we have little understanding of how they represent text, and why this leads to good performance. In this work, we shed light on this question via distributions over the vocabulary. We propose to interpret the vector representations produced by dual encoders by projecting them into the model's vocabulary space. We show that the resulting projections contain rich semantic information, and draw connection between them and sparse retrieval. We find that this view can offer an explanation for some of the failure cases of dense retrievers. For example, we observe that the inability of models to handle tail entities is correlated with a tendency of the token distributions to forget some of the tokens of those entities. We leverage this insight and propose a simple way to enrich query and passage representations with lexical information at inference time, and show that this significantly improves performance compared to the original model in zero-shot settings, and specifically on the BEIR benchmark.
翻訳日:2023-05-26 02:30:31 公開日:2023-05-24
# CoCoMIC: インファイルとクロスファイルコンテキストを併用したコード補完

CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file Context ( http://arxiv.org/abs/2212.10007v2 )

ライセンス: Link先を確認
Yangruibo Ding, Zijian Wang, Wasi Uddin Ahmad, Murali Krishna Ramanathan, Ramesh Nallapati, Parminder Bhatia, Dan Roth, Bing Xiang(参考訳) コードに対する事前学習された言語モデル(lm)はコード補完で大きな成功を収めているが、それらはファイル内のコンテンツ、すなわちファイル内コンテキストのみを条件としたコードを生成するが、同じプロジェクト内の他のファイル内のリッチなセマンティクス、すなわちクロスファイルコンテキスト(cross-file context)は、モダンなモジュール化ソフトウェア開発で特に役立つ重要な情報ソースである。 このような制約を見越すと、コード補完における言語モデルの能力が低下し、幻覚したクラスメンバー関数や予期しない引数を持つ関数呼び出しなどの予期せぬ振る舞いにつながる。 本研究では,クロスファイルコンテキストファインダツールであるCCFINDERを開発し,最も関連性の高いクロスファイルコンテキストを効果的に検出し,検索する。 CoCoMIC は,事前学習済みのコード LM 上でファイル内コンテキストとファイル内コンテキストを協調的に学習するための,クロスファイルコンテキストを組み込んだフレームワークである。 CoCoMICは既存のコードLMを33.94%の精度で改善し、クロスファイルコンテキストが提供されるとコード補完のための識別子マッチングが28.69%増加した。

While pre-trained language models (LM) for code have achieved great success in code completion, they generate code conditioned only on the contents within the file, i.e., in-file context, but ignore the rich semantics in other files within the same project, i.e., cross-file context, a critical source of information that is especially useful in modern modular software development. Such overlooking constrains code language models' capacity in code completion, leading to unexpected behaviors such as generating hallucinated class member functions or function calls with unexpected arguments. In this work, we develop a cross-file context finder tool, CCFINDER, that effectively locates and retrieves the most relevant cross-file context. We propose CoCoMIC, a framework that incorporates cross-file context to learn the in-file and cross-file context jointly on top of pretrained code LMs. CoCoMIC successfully improves the existing code LM with a 33.94% relative increase in exact match and a 28.69% relative increase in identifier matching for code completion when the cross-file context is provided.
翻訳日:2023-05-26 02:30:04 公開日:2023-05-24
# ショートカットファインチューニングによるDDPMサンプリングの最適化

Optimizing DDPM Sampling with Shortcut Fine-Tuning ( http://arxiv.org/abs/2301.13362v3 )

ライセンス: Link先を確認
Ying Fan, Kangwook Lee(参考訳) 本研究では,事前学習した拡散拡散確率モデル(DDPM)の高速サンプリングに挑戦する新しいアプローチであるショートカットファインチューニング(SFT)を提案する。 SFTは、後方拡散過程を学ぶ代わりに、積分確率メトリック(IPM)の直接最小化によるDDPMサンプリングの微調整を提唱している。 これにより、サンプルは後方拡散プロセスから逸脱して、より効率的で効率的なサンプリングショートカットを見つけることができる。 制御の観点から着想を得た新しいアルゴリズムsft-pgを提案する。政策勾配を伴う近距離微調整であり、特定の仮定の下では、ipmに対する拡散モデルの勾配降下が政策勾配の実行と等価であることを証明する。 我々の知る限り、これは拡散モデルの訓練に強化学習(RL)法を利用する最初の試みである。 実験結果から,本手法は既存の高速ddpmサンプラーをさらに向上させ,様々なデータセットにまたがるフルステップモデルに匹敵する,あるいは匹敵する品質のサンプルが得られることを示した。

In this study, we propose Shortcut Fine-Tuning (SFT), a new approach for addressing the challenge of fast sampling of pretrained Denoising Diffusion Probabilistic Models (DDPMs). SFT advocates for the fine-tuning of DDPM samplers through the direct minimization of Integral Probability Metrics (IPM), instead of learning the backward diffusion process. This enables samplers to discover an alternative and more efficient sampling shortcut, deviating from the backward diffusion process. Inspired by a control perspective, we propose a new algorithm SFT-PG: Shortcut Fine-Tuning with Policy Gradient, and prove that under certain assumptions, gradient descent of diffusion models with respect to IPM is equivalent to performing policy gradient. To our best knowledge, this is the first attempt to utilize reinforcement learning (RL) methods to train diffusion models. Through empirical evaluation, we demonstrate that our fine-tuning method can further enhance existing fast DDPM samplers, resulting in sample quality comparable to or even surpassing that of the full-step model across various datasets.
翻訳日:2023-05-26 02:23:57 公開日:2023-05-24
# グラフニューラルネットワークのゼロワン法則

Zero-One Laws of Graph Neural Networks ( http://arxiv.org/abs/2301.13060v4 )

ライセンス: Link先を確認
Sam Adam-Day, Theodor Mihai Iliant, \.Ismail \.Ilkan Ceylan(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の機械学習のためのデファクト標準ディープラーニングアーキテクチャである。 これにより、これらのモデルの能力と限界、特にそれらの表現と外挿能力に関する多くの作業が分析された。 グラフノードの数が非常に大きくなるにつれて、GNNはどのように振る舞うのか? 穏やかな仮定の下では、Erd\H{o}s-R\'enyi モデルから増大するグラフを描くと、そのようなグラフがGNN分類器のクラスによって特定の出力にマップされる確率は 0 または 1 の傾向を示す。 このクラスは一般的なグラフ畳み込みネットワークアーキテクチャを含んでいる。 その結果、これらのGNNに対して「ゼロワン法則」を確立し、他の収束法則と類似して、その能力に関する理論的制限を課す。 理論的な漸近限界は、比較的小さなグラフ上で既に明らかなものであることを観察し、実験的に検証した。

Graph neural networks (GNNs) are the de facto standard deep learning architectures for machine learning on graphs. This has led to a large body of work analyzing the capabilities and limitations of these models, particularly pertaining to their representation and extrapolation capacity. We offer a novel theoretical perspective on the representation and extrapolation capacity of GNNs, by answering the question: how do GNNs behave as the number of graph nodes become very large? Under mild assumptions, we show that when we draw graphs of increasing size from the Erd\H{o}s-R\'enyi model, the probability that such graphs are mapped to a particular output by a class of GNN classifiers tends to either zero or to one. This class includes the popular graph convolutional network architecture. The result establishes 'zero-one laws' for these GNNs, and analogously to other convergence laws, entails theoretical limitations on their capacity. We empirically verify our results, observing that the theoretical asymptotic limits are evident already on relatively small graphs.
翻訳日:2023-05-26 02:23:37 公開日:2023-05-24
# ForkMerge: 補助的タスク学習におけるネガティブトランスファーの軽減

ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning ( http://arxiv.org/abs/2301.12618v2 )

ライセンス: Link先を確認
Junguang Jiang, Baixu Chen, Junwei Pan, Ximei Wang, Liu Dapeng, Jie Jiang, Mingsheng Long(参考訳) 補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。 時には、複数のタスクを同時に学習することで、ターゲットタスクのみを学習するよりも精度が低くなります。 この問題は、しばしばタスク間の勾配衝突によって引き起こされ、前回の作業でタスク勾配を調整することでしばしば取り組まれる。 しかし、これらの最適化に基づく手法は、主に補助目標一般化能力を見落としている。 負転移の根本原因をよりよく理解するために,最適化と一般化の観点から実験的に検討した。 ForkMergeは、モデルを複数のブランチに周期的にフォークし、ターゲットの検証エラーを最小限にしてタスクの重みを自動的に検索し、すべてのブランチを動的にマージして、有害なタスクパラメータ更新をフィルタリングする新しいアプローチである。 一連の補助タスク学習ベンチマークでは、ForkMergeは既存の手法より優れ、負の転送を効果的に軽減する。

Auxiliary-Task Learning (ATL) aims to improve the performance of the target task by leveraging the knowledge obtained from related tasks. Occasionally, learning multiple tasks simultaneously results in lower accuracy than learning only the target task, which is known as negative transfer. This problem is often attributed to the gradient conflicts among tasks, and is frequently tackled by coordinating the task gradients in previous works. However, these optimization-based methods largely overlook the auxiliary-target generalization capability. To better understand the root cause of negative transfer, we experimentally investigate it from both optimization and generalization perspectives. Based on our findings, we introduce ForkMerge, a novel approach that periodically forks the model into multiple branches, automatically searches the varying task weights by minimizing target validation errors, and dynamically merges all branches to filter out detrimental task-parameter updates. On a series of auxiliary-task learning benchmarks, ForkMerge outperforms existing methods and effectively mitigates negative transfer.
翻訳日:2023-05-26 02:23:18 公開日:2023-05-24
# ナノスケール力センシングのためのインダクティブメカノ電気変換

Kinetic inductive mechano-electric transduction for nano-scale force sensing ( http://arxiv.org/abs/2301.11055v3 )

ライセンス: Link先を確認
August K. Roos, Ermes Scarano, Elisabet K. Arvidsson, Erik Holmgren, David B. Haviland(参考訳) 我々はキャビティオプティメカニクスの原理を用いて原子間力顕微鏡のための共鳴機械力センサを設計する。 このセンサーは、従来の静電容量カップリングと二重の電気機械カップリングの新たなタイプに基づいており、カンチレバーの運動は、超伝導ナノワイヤの動的インダクタンスの変化を引き起こす表面ひずみを誘導する。 キャビティは、ナノワイヤの運動インダクタンスを含む等価LC回路を備えた小型のマイクロ波プラズマモードによって実現される。 デバイスは完全に共平面であり、伝送線路と読み出し回路への最適な結合のためにキャビティインピーダンスを変換する方法を示す。 ここでは,3Hzから10Hzの範囲で,ベア・キネティック・インダクティブ・メカノ・エレクトロニック・カップリング (KIMEC) の$g_0/2\pi$を推定する。 多周波ポンピングと測定手法を用いて, キャンチレバーの位相感度検出を行う。

We use the principles of cavity opto-mechanics to design a resonant mechanical force sensor for atomic force microscopy. The sensor is based on a new type of electro-mechanical coupling, dual to traditional capacitive coupling, whereby the motion of a cantilever induces surface strain that causes a change in the kinetic inductance of a superconducting nanowire. The cavity is realized by a compact microwave plasma mode with an equivalent LC circuit involving the nanowire's kinetic inductance. The device is fully co-planar and we show how to transform the cavity impedance for optimal coupling to the transmission line and readout circuit. For the device presented here, we estimate the bare Kinetic Inductive Mechano-Electric Coupling (KIMEC) rate $g_0/2\pi$ in the range 3 Hz to 10 Hz. We demonstrate phase-sensitive detection of cantilever motion using a multifrequency pumping and measurement scheme.
翻訳日:2023-05-26 02:22:45 公開日:2023-05-24
# グラフニューラルネットワークのための符号付き伝播の再検討

Revisiting Signed Propagation for Graph Neural Networks ( http://arxiv.org/abs/2301.08918v2 )

ライセンス: Link先を確認
Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim(参考訳) 隣接ノードから情報を収集するメッセージパスグラフニューラルネットワーク(GNN)は、ホモ親和性グラフの満足度を達成している。 しかし、その性能は不均一であり、多くの研究者がこの問題を解決するためのスキームを提案している。 特に、エッジの符号をひっくり返すことは強い理論的基礎に根ざしており、大幅な性能向上を達成している。 それでも、以前の分析ではバイナリクラスのシナリオを前提としており、適用性に制限がある可能性がある。 本稿では,先行理解をマルチクラスシナリオに拡張し,(1) マルチホップ近傍のサインはメッセージ伝達経路に依存し,不整合を生じさせる可能性があること,(2) アルゴリズムの安定性を阻害する予測の不確実性(例えば競合証拠)を高めること,の2つの欠点を指摘した。 理論的理解に基づいて,マルチクラスグラフに適用可能な新しい戦略を導入する。 提案手法は信頼度校正とロバスト性を確保しつつ不確実性を低減する。 6つのベンチマークグラフデータセットに対する広範な実験により,本定理の有効性を示す。

Message-passing Graph Neural Networks (GNNs), which collect information from adjacent nodes, achieve satisfying results on homophilic graphs. However, their performances are dismal in heterophilous graphs, and many researchers have proposed a plethora of schemes to solve this problem. Especially, flipping the sign of edges is rooted in a strong theoretical foundation, and attains significant performance enhancements. Nonetheless, previous analyses assume a binary class scenario and they may suffer from confined applicability. This paper extends the prior understandings to multi-class scenarios and points out two drawbacks: (1) the sign of multi-hop neighbors depends on the message propagation paths and may incur inconsistency, (2) it also increases the prediction uncertainty (e.g., conflict evidence) which can impede the stability of the algorithm. Based on the theoretical understanding, we introduce a novel strategy that is applicable to multi-class graphs. The proposed scheme combines confidence calibration to secure robustness while reducing uncertainty. We show the efficacy of our theorem through extensive experiments on six benchmark graph datasets.
翻訳日:2023-05-26 02:22:29 公開日:2023-05-24
# 因果的視点から見たグラフ表現学習へのエキスパート論理の導入

Introducing Expertise Logic into Graph Representation Learning from A Causal Perspective ( http://arxiv.org/abs/2301.08496v2 )

ライセンス: Link先を確認
Hang Gao, Jiangmeng Li, Wenwen Qiang, Lingyu Si, Xingzhe Su, Fengge Wu, Changwen Zheng, Fuchun Sun(参考訳) 人間の先行知識の注入から得られるグラフは、派生した離散データとして意味的に密接なものであり、モデルがそのようなデータから意味情報を効率的に学習できるようにする。 したがって、グラフニューラルネットワーク(GNN)は、様々な分野で顕著な成功を収めている。 GNNの学習パラダイムを再考すると、人間の専門知識とGNNがモデル化した知識の関係が研究者を混乱させ続けていることが分かる。 この目的のために、我々はモチベーション実験を導入し、GNNが一般分野における人間の専門知識を徐々に習得する経験的観察を導出する。 グラフ表現学習に専門知識ロジックを導入することの意義を更に観察することにより、GNNを人的知識の習得に導くことは、モデルの性能を向上させることができると結論付けている。 そこで我々は,人間の知識をGNNモデルに組み込む新しいグラフ表現学習法を提案する。 提案手法は、GNNモデルが人間の専門家が保持する専門知識を取得するだけでなく、データセットからエンドツーエンドの学習を行うことを可能にする。 工芸及び実世界の領域に関する多くの実験が提案手法の一貫性のある有効性を支持している。

Benefiting from the injection of human prior knowledge, graphs, as derived discrete data, are semantically dense so that models can efficiently learn the semantic information from such data. Accordingly, graph neural networks (GNNs) indeed achieve impressive success in various fields. Revisiting the GNN learning paradigms, we discover that the relationship between human expertise and the knowledge modeled by GNNs still confuses researchers. To this end, we introduce motivating experiments and derive an empirical observation that the GNNs gradually learn human expertise in general domains. By further observing the ramifications of introducing expertise logic into graph representation learning, we conclude that leading the GNNs to learn human expertise can improve the model performance. Hence, we propose a novel graph representation learning method to incorporate human expert knowledge into GNN models. The proposed method ensures that the GNN model can not only acquire the expertise held by human experts but also engage in end-to-end learning from datasets. Plentiful experiments on the crafted and real-world domains support the consistent effectiveness of the proposed method.
翻訳日:2023-05-26 02:22:11 公開日:2023-05-24
# グラフレベルの学習の現状と可能性

State of the Art and Potentialities of Graph-level Learning ( http://arxiv.org/abs/2301.05860v2 )

ライセンス: Link先を確認
Zhenyu Yang, Ge Zhang, Jia Wu, Jian Yang, Quan Z. Sheng, Shan Xue, Chuan Zhou, Charu Aggarwal, Hao Peng, Wenbin Hu, Edwin Hancock, and Pietro Li`o(参考訳) グラフは、化学化合物、タンパク質、ソーシャルネットワークといった関係データを表現する能力に優れています。 したがって、グラフの集合を入力として扱うグラフレベルの学習は、比較、回帰、分類など、多くのタスクに適用されている。 グラフの集合を学習する従来のアプローチは、サブ構造のような手作りの特徴に大きく依存している。 しかし、これらの手法は良い解釈可能性の恩恵を受けるが、グラフ同型問題を回避できないため、しばしば計算上のボトルネックに苦しむ。 逆にディープラーニングは、特徴を自動的に抽出し、グラフを低次元表現にエンコードすることで、グラフレベルの学習がグラフのスケール拡大に適応するのに役立つ。 その結果,これらの深層グラフ学習手法は多くの成功に寄与している。 しかし、従来の学習から始まり、ディープラーニングアプローチに移行するグラフレベルの学習をレビューする包括的な調査はない。 この記事では、このギャップを埋め、従来の学習、グラフレベルのディープニューラルネットワーク、グラフレベルのグラフニューラルネットワーク、グラフプーリングをカバーする体系的な分類に代表アルゴリズムを組み込む。 包括的調査を確実にするために、4つの異なる開発分野からのメソッドの進化、相互作用、およびコミュニケーションについても検討する。 続いて、ベンチマークデータセット、評価メトリクス、一般的なダウンストリームアプリケーションの簡単なレビューが続く。 調査は、このブーム分野における12の現在および将来の方向性を概観して締めくくっている。

Graphs have a superior ability to represent relational data, like chemical compounds, proteins, and social networks. Hence, graph-level learning, which takes a set of graphs as input, has been applied to many tasks including comparison, regression, classification, and more. Traditional approaches to learning a set of graphs heavily rely on hand-crafted features, such as substructures. But while these methods benefit from good interpretability, they often suffer from computational bottlenecks as they cannot skirt the graph isomorphism problem. Conversely, deep learning has helped graph-level learning adapt to the growing scale of graphs by extracting features automatically and encoding graphs into low-dimensional representations. As a result, these deep graph learning methods have been responsible for many successes. Yet, there is no comprehensive survey that reviews graph-level learning starting with traditional learning and moving through to the deep learning approaches. This article fills this gap and frames the representative algorithms into a systematic taxonomy covering traditional learning, graph-level deep neural networks, graph-level graph neural networks, and graph pooling. To ensure a thoroughly comprehensive survey, the evolutions, interactions, and communications between methods from four different branches of development are also examined. This is followed by a brief review of the benchmark data sets, evaluation metrics, and common downstream applications. The survey concludes with a broad overview of 12 current and future directions in this booming field.
翻訳日:2023-05-26 02:21:28 公開日:2023-05-24
# 多次元形状のフォノニックバスを特徴とする超ナロートラップ歯を有する光学格子

An optical-lattice with ultra-narrow trapping teeth featuring phononic bus in multi-dimensional geometry ( http://arxiv.org/abs/2301.04450v2 )

ライセンス: Link先を確認
Mohammadsadegh Khazali(参考訳) 光格子は原子量子技術の基本的なブロックである。 これらの格子のスケールと分解能は、光波長に制限される。 従来の格子内の単一点の密閉には過剰なレーザー強度が必要であり、散乱の増大によりコヒーレンスが抑制される。 本稿では,サブ波長空間構造を持つ原子光格子の新しいスキームを提案する。 このポテンシャルは、駆動場の回折限界に制約されない3レベルリドバーグ配位原子の非線形光学応答によって形成される。 格子は、サブナノメータ幅を持つ超狭ローレンツ井戸の3dアレイで構成されている。 これらの極端なスケールは、原子の固有状態の双極子相互作用と光学的ねじれを配置するハイブリッドスキームによって光学的にアクセス可能である。 トラップ電位を形成する相互作用誘起二体共鳴は、特別なレーザー強度でのみ発生し、固定波駆動場上の極小領域にトラップ部位を局在させる。 2\AA幅と30MHz深さのローレンツトラップ電位は1Hz以下の散乱速度で実現可能である。 共鳴点における原子の位置の空間相関は、イオントラップ方式に似たサイドバンドレーザー駆動によるゲート操作を可能にするグローバルフォノニックバスを提供する。 この機能は、イオンと異なり1次元格子に制限されないすべての接続性をもたらす。 超ナロートラップ技術は、特にライドバーグ-フェルミゲート、原子トロニクス、量子ウォーク、ハバードモデル、中性原子量子シミュレーションに要求されている。

Optical lattices are the basic blocks of atomic quantum technology. The scale and resolution of these lattices are diffraction-limited to the light wavelength. Tight confinement of single sites in conventional lattices requires excessive laser intensity which in turn suppresses the coherence due to enhanced scattering. This article proposes a new scheme for atomic optical lattice with sub-wavelength spatial structure. The potential is formed by the nonlinear optical response of the three-level Rydberg-dressed atoms, which is not constrained by the diffraction limit of the driving fields. The lattice consists of a 3D array of ultra-narrow Lorentzian wells with sub-nanometer widths. These extreme scales are now optically accessible by a hybrid scheme deploying the dipolar interaction and optical twist of atomic eigenstates. The interaction-induced two-body resonance that forms the trapping potential, only occurs at a peculiar laser intensity, localizing the trap sites to ultra-narrow regions over the standing-wave driving field. The Lorentzian trapping potentials with 2\AA width and 30MHz depth are realizable with scattering rates as low as 1Hz. The spatial correlation between atoms' position at the resonance points provides a global phononic bus that enables gate operation via the side-band laser driving similar to the ion-trap schemes. This feature brings all to all connectivity that unlike the ion counterpart is not limited to one-dimensional lattices. The ultra-narrow trapping techniques are particularly demanding for Rydberg-Fermi gates, atomtronics, quantum walks, Hubbard models, and neutral-atom quantum simulation.
翻訳日:2023-05-26 02:21:06 公開日:2023-05-24
# UAVに基づくセマンティックマッピングにおける能動学習のためのインフォームティブパス計画フレームワーク

An Informative Path Planning Framework for Active Learning in UAV-based Semantic Mapping ( http://arxiv.org/abs/2302.03347v2 )

ライセンス: Link先を確認
Julius R\"uckin, Federico Magistri, Cyrill Stachniss, Marija Popovi\'c(参考訳) 無人航空機(UAV)は、航空地図や一般的な監視作業に頻繁に使用される。 近年のディープラーニングの進歩により、画像の自動セマンティックセグメンテーションが実現され、大規模な複雑な環境の解釈が容易になった。 一般に、セグメンテーションのための教師付きディープラーニングは、大量のピクセル単位でラベル付けされたデータに依存している。 ドメイン固有の航空環境の外観は、しばしば公開データセットで事前訓練されたモデルの使用を妨げる。 そこで,本稿では,uavsがモデル再学習のための情報的訓練画像を自律的に取得するための,新しい汎用的計画フレームワークを提案する。 複数の取得関数を活用し、確率的地形マップに融合する。 我々のフレームワークは、地図化された取得関数情報をUAVの計画目標に組み込む。 このようにして、UAVは、モデル再訓練のために手動でラベル付けされる情報的空中画像を取得する。 実世界のデータとフォトリアリスティックシミュレーションによる実験結果から,本フレームワークはモデル性能を最大化し,ラベリング労力を劇的に削減することが示された。 地図ベースのプランナーは、最先端の地域計画より優れています。

Unmanned aerial vehicles (UAVs) are frequently used for aerial mapping and general monitoring tasks. Recent progress in deep learning enabled automated semantic segmentation of imagery to facilitate the interpretation of large-scale complex environments. Commonly used supervised deep learning for segmentation relies on large amounts of pixel-wise labelled data, which is tedious and costly to annotate. The domain-specific visual appearance of aerial environments often prevents the usage of models pre-trained on publicly available datasets. To address this, we propose a novel general planning framework for UAVs to autonomously acquire informative training images for model re-training. We leverage multiple acquisition functions and fuse them into probabilistic terrain maps. Our framework combines the mapped acquisition function information into the UAV's planning objectives. In this way, the UAV adaptively acquires informative aerial images to be manually labelled for model re-training. Experimental results on real-world data and in a photorealistic simulation show that our framework maximises model performance and drastically reduces labelling efforts. Our map-based planners outperform state-of-the-art local planning.
翻訳日:2023-05-26 02:13:25 公開日:2023-05-24
# メッセージパッシングニューラルネットワークにおけるオーバーカッシングについて:幅,深さ,トポロジーの影響

On Over-Squashing in Message Passing Neural Networks: The Impact of Width, Depth, and Topology ( http://arxiv.org/abs/2302.02941v3 )

ライセンス: Link先を確認
Francesco Di Giovanni, Lorenzo Giusti, Federico Barbero, Giulia Luise, Pietro Lio', Michael Bronstein(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフを利用してエッジにメッセージを送信するグラフニューラルネットワークのインスタンスである。 この帰納バイアスは、ノードの特徴が遠いノードに含まれる情報に敏感であるオーバー・スカッシングと呼ばれる現象を引き起こす。 この問題を軽減するために最近導入された手法にもかかわらず、過剰スワッシングの原因と可能な解決策の理解が不足している。 この理論的研究において、我々は次のように証明する。 (i)ニューラルネットワークの幅はオーバー・スクワッシングを緩和することができるが、ネットワーク全体をより敏感にするコストがかかる。 (ii)逆に、深さは、過剰なスキャッシングを軽減するのに役立ちません。層数の増加は、過剰スキャッシングが消滅する勾配によって支配されることになります。 (iii)高通勤時(アクセス時)にノード間でオーバースワッシングが発生するため、グラフトポロジーが最大の役割を果たす。 我々の分析は、オーバースカッシングに対処するために導入された様々な手法を研究するための統一されたフレームワークを提供し、グラフリウィリングの対象となるメソッドのクラスを正当化するのに役立つ。

Message Passing Neural Networks (MPNNs) are instances of Graph Neural Networks that leverage the graph to send messages over the edges. This inductive bias leads to a phenomenon known as over-squashing, where a node feature is insensitive to information contained at distant nodes. Despite recent methods introduced to mitigate this issue, an understanding of the causes for over-squashing and of possible solutions are lacking. In this theoretical work, we prove that: (i) Neural network width can mitigate over-squashing, but at the cost of making the whole network more sensitive; (ii) Conversely, depth cannot help mitigate over-squashing: increasing the number of layers leads to over-squashing being dominated by vanishing gradients; (iii) The graph topology plays the greatest role, since over-squashing occurs between nodes at high commute (access) time. Our analysis provides a unified framework to study different recent methods introduced to cope with over-squashing and serves as a justification for a class of methods that fall under graph rewiring.
翻訳日:2023-05-26 02:13:08 公開日:2023-05-24
# Imaginationに現実性を残す - 生成データセットによるロバスト分類

Leaving Reality to Imagination: Robust Classification via Generated Datasets ( http://arxiv.org/abs/2302.02503v2 )

ライセンス: Link先を確認
Hritik Bansal, Aditya Grover(参考訳) 近年のロバスト性に関する研究では、テストセットに類似したデータセットでトレーニングされたニューラルイメージ分類器と、トレーニング中に観察されたオブジェクトカテゴリのスケッチ、絵画、アニメーションなど、自然にシフトしたディストリビューションによるパフォーマンスギャップが明らかにされている。 以前の研究は、トレーニングデータのエンジニアリング強化や、インターネットから取り除かれた大規模なトレーニングデータセット上の単一の大規模モデルの教師なし事前トレーニングによって、このギャップを減らすことに重点を置いていた。 しかし、データセットの概念は近年、パラダイムシフトも進行中である。 品質、使いやすさ、モダンな生成モデルへのアクセスの大幅な改善により、生成されたデータはWebに浸透しています。 これらの生成されたデータセットは、画像分類器の自然なロバスト性にどのように影響するか? 生成データに拡張された実データに基づいてトレーニングされたimagenet分類器は,自然分布シフトの存在下で,標準的なトレーニングや一般的な拡張戦略よりも高い精度と効果的なロバスト性を実現する。 コンディショニング戦略の選択や生成データの量など,これらの結果に影響を与えるさまざまな要因を分析した。 さらに、標準のImageNet分類器は、生成したデータに対して最大20倍の性能低下を被り、新しいバリエーションの下でオブジェクトを正確に分類する脆弱さを示す。 最後に、ベース生成モデルから生成されたデータで強化された実データに基づいて訓練された画像分類器は、実データ上の微細生成モデルから生成されたデータで強化された実データで訓練された実データに対して、より弾力性と自然な分布変化を示す。 コード、モデル、データセットはhttps://github.com/Hritikbansal/generative-robustnessで入手できる。

Recent research on robustness has revealed significant performance gaps between neural image classifiers trained on datasets that are similar to the test set, and those that are from a naturally shifted distribution, such as sketches, paintings, and animations of the object categories observed during training. Prior work focuses on reducing this gap by designing engineered augmentations of training data or through unsupervised pretraining of a single large model on massive in-the-wild training datasets scraped from the Internet. However, the notion of a dataset is also undergoing a paradigm shift in recent years. With drastic improvements in the quality, ease-of-use, and access to modern generative models, generated data is pervading the web. In this light, we study the question: How do these generated datasets influence the natural robustness of image classifiers? We find that Imagenet classifiers trained on real data augmented with generated data achieve higher accuracy and effective robustness than standard training and popular augmentation strategies in the presence of natural distribution shifts. We analyze various factors influencing these results, including the choice of conditioning strategies and the amount of generated data. Additionally, we find that the standard ImageNet classifiers suffer a performance degradation of upto 20\% on the generated data, indicating their fragility at accurately classifying the objects under novel variations. Lastly, we demonstrate that the image classifiers, which have been trained on real data augmented with generated data from the base generative model, exhibit greater resilience to natural distribution shifts compared to the classifiers trained on real data augmented with generated data from the finetuned generative model on the real data. The code, models, and datasets are available at https://github.com/Hritikbansal/generative-robustness.
翻訳日:2023-05-26 02:12:49 公開日:2023-05-24
# プログラミング言語の分布の影響を測定する

Measuring The Impact Of Programming Language Distribution ( http://arxiv.org/abs/2302.01973v3 )

ライセンス: Link先を確認
Gabriel Orlanski, Kefan Xiao, Xavier Garcia, Jeffrey Hui, Joshua Howland, Jonathan Malmaud, Jacob Austin, Rishabh Singh, Michele Catasta(参考訳) ニューラルコードモデルを評価するための現在のベンチマークは、goやrustのような多くの人気言語を除いて、プログラミング言語の小さなサブセットのみに焦点を当てている。 この問題を改善するために,任意の言語におけるベンチマークの実行ベース評価のためのBabelCodeフレームワークを提案する。 BabelCodeは、モデルのメモリ、ランタイム、そして個々のテストケース結果の質的なパフォーマンスに関する新たな調査を可能にする。 さらに、pythonプログラミングパズル(schuster et al. 2021)ベンチマークから、エキスパートレベルのpython関数を任意の言語に翻訳する、translating python programming puzzles(tp3)と呼ばれる新しいコード翻訳データセットも提示する。 BabelCodeとTP3ベンチマークの両方を用いて、トレーニングデータセットにおける14言語の分散のバランスが、低リソース言語における大規模言語モデルの性能を改善するかどうかを検討する。 バランスの取れたコーパスでモデルをトレーニングすると、平均して12.34%の$pass@k$がベースラインと比較してすべてのタスクや言語に対して高くなる。 この戦略は、低リソース言語では66.48%の$pass@k$を、高リソース言語ではわずか12.94%のコストで達成している。 私たちの3つの翻訳タスクでは、この戦略は平均30.77%の低リソース$pass@k$、19.58%の高リソース$pass@k$をもたらす。

Current benchmarks for evaluating neural code models focus on only a small subset of programming languages, excluding many popular languages such as Go or Rust. To ameliorate this issue, we present the BabelCode framework for execution-based evaluation of any benchmark in any language. BabelCode enables new investigations into the qualitative performance of models' memory, runtime, and individual test case results. Additionally, we present a new code translation dataset called Translating Python Programming Puzzles (TP3) from the Python Programming Puzzles (Schuster et al. 2021) benchmark that involves translating expert-level python functions to any language. With both BabelCode and the TP3 benchmark, we investigate if balancing the distributions of 14 languages in a training dataset improves a large language model's performance on low-resource languages. Training a model on a balanced corpus results in, on average, 12.34% higher $pass@k$ across all tasks and languages compared to the baseline. We find that this strategy achieves 66.48% better $pass@k$ on low-resource languages at the cost of only a 12.94% decrease to high-resource languages. In our three translation tasks, this strategy yields, on average, 30.77% better low-resource $pass@k$ while having 19.58% worse high-resource $pass@k$.
翻訳日:2023-05-26 02:12:20 公開日:2023-05-24
# 半スーパービジョンの医用画像分割再考 : ばらつき低減の視点から

Rethinking Semi-Supervised Medical Image Segmentation: A Variance-Reduction Perspective ( http://arxiv.org/abs/2302.01735v4 )

ライセンス: Link先を確認
Chenyu You, Weicheng Dai, Yifei Min, Fenglin Liu, David A. Clifton, S Kevin Zhou, Lawrence Hamilton Staib, James S Duncan(参考訳) 医用画像のセグメンテーションにおいて, 比較学習は, 意味論的に類似した, 異種のサンプルを対比することにより, 視覚表現の質を向上させるための主流の実践である。 これは、真に異なる解剖学的特徴を持つ負の例が、もしサンプルを採取すれば、性能が著しく向上する、という観察によって可能となった。 しかし実際には、これらのサンプルは類似した解剖学的領域から来ており、モデルは少数派のテールクラスのサンプルを区別するのに苦労し、テールクラスは誤分類されやすくなり、両者ともモデル崩壊に繋がる。 本稿では,医療画像分割のための階層化群理論を用いた半教師付きコントラスト学習(cl)フレームワークarcoを提案する。 特に, 分散還元推定の概念を通したarcoの構築を最初に提案し, 限定ラベルを持つ画素/ボクセルレベル分割タスクにおいて, ある種の分散還元手法が特に有益であることを示す。 さらに,これらのサンプリング手法が分散還元において普遍的であることを理論的に証明する。 最後に,5つの2D/3D医療データセットと3つのセマンティックセマンティックセグメンテーションデータセットとラベル設定の異なる8つのベンチマークに対して,我々の手法を実験的に検証した。 さらに、clフレームワークをこれらのサンプリング技術で強化し、以前の方法を大きく上回る結果を示す。 我々は,これらの課題を克服するために,現在の自己超越目標の限界を定量化し,半監督的医用画像セグメンテーションに向けた重要なステップであると考えている。

For medical image segmentation, contrastive learning is the dominant practice to improve the quality of visual representations by contrasting semantically similar and dissimilar pairs of samples. This is enabled by the observation that without accessing ground truth labels, negative examples with truly dissimilar anatomical features, if sampled, can significantly improve the performance. In reality, however, these samples may come from similar anatomical regions and the models may struggle to distinguish the minority tail-class samples, making the tail classes more prone to misclassification, both of which typically lead to model collapse. In this paper, we propose ARCO, a semi-supervised contrastive learning (CL) framework with stratified group theory for medical image segmentation. In particular, we first propose building ARCO through the concept of variance-reduced estimation and show that certain variance-reduction techniques are particularly beneficial in pixel/voxel-level segmentation tasks with extremely limited labels. Furthermore, we theoretically prove these sampling techniques are universal in variance reduction. Finally, we experimentally validate our approaches on eight benchmarks, i.e., five 2D/3D medical and three semantic segmentation datasets, with different label settings, and our methods consistently outperform state-of-the-art semi-supervised methods. Additionally, we augment the CL frameworks with these sampling techniques and demonstrate significant gains over previous methods. We believe our work is an important step towards semi-supervised medical image segmentation by quantifying the limitation of current self-supervision objectives for accomplishing such challenging safety-critical tasks.
翻訳日:2023-05-26 02:11:55 公開日:2023-05-24
# stackelbergゲームにおけるフォロワ非依存手法

Follower Agnostic Methods for Stackelberg Games ( http://arxiv.org/abs/2302.01421v2 )

ライセンス: Link先を確認
Chinmay Maheshwari and S. Shankar Sasty and Lillian Ratliff and Eric Mazumdar(参考訳) そこで我々は,Stackelbergのゲームクラス(おそらく複数のフォロワーを持つ)を,従属的な方法で解くアルゴリズムを提案する。 特に、他の現代の作品とは異なり、我々のアルゴリズムは、リーダーの目的や従者のユーティリティ機能や戦略空間に関する知識の勾配にoracle estimatorを使う必要がない。 代わりに、我々は2ループアルゴリズムを設計し、リーダーが特別に構築された勾配推定器を用いて戦略を更新する。 追随者を受け入れると、従属者の合同戦略が、上記勾配推定器を構築するためのリーダーが観測した唯一の情報である平衡付近に収束するように適応規則を実行する。 我々は,閉ループ関数の凸性がない場合,非漸近収束率をリーダーの目標の定常点に与え,さらにリーダーの目標の局所極小点への漸近収束を示す。

We propose an algorithm to solve a class of Stackelberg games (possibly with multiple followers) in a follower agnostic manner. Particularly, unlike other contemporary works, our algorithm does not require the use of an oracle estimator for the gradient of the leader's objective or knowledge about the follower's utility function or strategy space. Instead, we design two-loop algorithm where the leader updates its strategies using specially constructed gradient estimator obtained by probing followers with specially designed strategies. Upon receiving the followers engage in an adaptation rule such that the joint strategy of followers converges near equilibrium which is the only information observed by leader to construct the aforementioned gradient estimator. We provide non-asymptotic convergence rates to stationary points of the leader's objective in the absence of convexity of the closed-loop function and further show asymptotic convergence to a local minima of the leader's objective.
翻訳日:2023-05-26 02:11:27 公開日:2023-05-24
# 一般順序付け定理

General ordering theorem ( http://arxiv.org/abs/2302.01264v2 )

ライセンス: Link先を確認
Luca Ferialdi(参考訳) 順序演算子の問題は、その基礎以来量子力学を苦しめてきた。 いくつかの順序が考案されているが、ある順序から別の順序へ移動する体系的な手順がまだ欠けている。 異なる順序間の関係を確立することの重要性は、量子場理論の発展に重要な役割を果たしたウィックの定理(通常の順序に時間的順序を関連づける)によって証明される。 一般順序定理(General Ordering Theorem, GOT)は, 一般(演算的)可換関係を満たす演算子に作用する任意の順序関係を定式化したものである。 簡単な例で GOT の作用原理を公開し、2つの有名な代数的定理(マグナス展開とベーカー・カンベル・ハウスドルフの公式)を特殊例として回収することでその可能性を示す。 注目すべきことに、GOTはこれらの2つの定理の間の公式な関係を確立し、それらに対してコンパクトな表現を提供する。

The problem of ordering operators has afflicted quantum mechanics since its foundation. Several orderings have been devised, but a systematic procedure to move from one ordering to another is still missing. The importance of establishing relations among different orderings is demonstrated by Wick's theorem (which relates time ordering to normal ordering), which played a crucial role in the development of quantum field theory. We prove the General Ordering Theorem (GOT), which establishes a relation among any pair of orderings, that act on operators satisfying generic (i.e. operatorial) commutation relations. We expose the working principles of the GOT by simple examples, and we demonstrate its potential by recovering two famous algebraic theorems as special instances: the Magnus expansion and the Baker-Campbell-Hausdorff formula. Remarkably, the GOT establishes a formal relation between these two theorems, and it provides compact expressions for them, unlike the notoriously complicated ones currently known.
翻訳日:2023-05-26 02:11:12 公開日:2023-05-24
# 不確かさ量子化による物理制約運動予測

Physics Constrained Motion Prediction with Uncertainty Quantification ( http://arxiv.org/abs/2302.01060v3 )

ライセンス: Link先を確認
Renukanandan Tumu, Lars Lindemann, Truong Nghiem, Rahul Mangharam(参考訳) 動的エージェントの動作を予測することは、自律システムの安全性を保証する上で重要なタスクである。 特に、動き予測アルゴリズムはダイナミクスの制約に従い、信頼の尺度として予測の不確かさを定量化するべきである。 本稿では, 代用動力学モデルを用いて, 予測軌道が動的に実現可能であることを保証する運動予測のための物理制約付きアプローチを提案する。 動力学的制約を考慮したインテントと軌道予測からなる2段階の統合を提案する。 また,不確実性を定量化し,共形予測を用いて自律運転に適した予測領域を構築した。 物理制約運動予測は、自律的なレーシングデータセットを使用した実験において、ADEが41%、FDEが56%、IoUが19%向上した。

Predicting the motion of dynamic agents is a critical task for guaranteeing the safety of autonomous systems. A particular challenge is that motion prediction algorithms should obey dynamics constraints and quantify prediction uncertainty as a measure of confidence. We present a physics-constrained approach for motion prediction which uses a surrogate dynamical model to ensure that predicted trajectories are dynamically feasible. We propose a two-step integration consisting of intent and trajectory prediction subject to dynamics constraints. We also construct prediction regions that quantify uncertainty and are tailored for autonomous driving by using conformal prediction, a popular statistical tool. Physics Constrained Motion Prediction achieves a 41% better ADE, 56% better FDE, and 19% better IoU over a baseline in experiments using an autonomous racing dataset.
翻訳日:2023-05-26 02:10:54 公開日:2023-05-24
# コンテキストプルーニングメタラーニングによる大規模ニューラルネットワークの学習

Learning Large-scale Neural Fields via Context Pruned Meta-Learning ( http://arxiv.org/abs/2302.00617v2 )

ライセンス: Link先を確認
Jihoon Tack, Subin Kim, Sihyun Yu, Jaeho Lee, Jinwoo Shin, Jonathan Richard Schwarz(参考訳) 本稿では,オンラインコンテキストポイントの自動選択による大幅なメモリ節約を実現することで,大規模ニューラルネットワークトレーニングのための効率的な最適化に基づくメタ学習手法を提案する。 これは、各学習ステップをデータサブセットに集中させ、モデル品質の即時改善を期待し、その結果、大域構造のほぼ瞬時にモデリングし、高周波の詳細を洗練させることによって達成される。 さらに,最適化に基づくメタ学習のマイオピアを緩和しつつ,文脈セットの縮小によって生じる誤りを最小化するブートストラップ補正を導入することで,メタ学習初期化の質をさらに向上させる。 最後に,メタテスト時間における勾配再スケーリングが,最適化手順を大幅に短縮する上で,極めて高品質なニューラルネットワークの学習を可能にすることを示す。 私たちのフレームワークはモデルに依存しず、直感的で、実装が簡単で、幅広い信号に対する大幅な再構成改善を示しています。 本稿では,複数のモダリティにまたがる9つのデータセットの広範な実験評価を行い,その手法を構成するアルゴリズム成分を注意深く分析することで,最先端の結果を示す。 コードはhttps://github.com/jihoontack/GradNCPで入手できる。

We introduce an efficient optimization-based meta-learning technique for large-scale neural field training by realizing significant memory savings through automated online context point selection. This is achieved by focusing each learning step on the subset of data with the highest expected immediate improvement in model quality, resulting in the almost instantaneous modeling of global structure and subsequent refinement of high-frequency details. We further improve the quality of our meta-learned initialization by introducing a bootstrap correction resulting in the minimization of any error introduced by reduced context sets while simultaneously mitigating the well-known myopia of optimization-based meta-learning. Finally, we show how gradient re-scaling at meta-test time allows the learning of extremely high-quality neural fields in significantly shortened optimization procedures. Our framework is model-agnostic, intuitive, straightforward to implement, and shows significant reconstruction improvements for a wide range of signals. We provide an extensive empirical evaluation on nine datasets across multiple multiple modalities, demonstrating state-of-the-art results while providing additional insight through careful analysis of the algorithmic components constituting our method. Code is available at https://github.com/jihoontack/GradNCP
翻訳日:2023-05-26 02:10:41 公開日:2023-05-24
# アンテナ傾き最適化のための共通ポリシーを用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Common Policy for Antenna Tilt Optimization ( http://arxiv.org/abs/2302.12899v2 )

ライセンス: Link先を確認
Adriano Mendo, Jose Outes-Carnero, Yak Ng-Molina and Juan Ramiro-Moreno(参考訳) 本稿では,最適化セルと周辺セルの性能に影響を及ぼすセルパラメータを調整し,無線ネットワークを最適化する方法を提案する。 この方法は、共通ポリシーを共有する複数の強化学習エージェントを使用し、近隣の細胞からの情報を考慮し、状態と報酬を決定する。 学習の初期段階でネットワークのパフォーマンスを損なうのを避けるため、エージェントはオフライン学習の初期段階で事前学習される。 このフェーズでは、静的ネットワークシミュレータからのフィードバックと、さまざまなシナリオを考慮した初期ポリシーが得られます。 最後に、エージェントは小さなインクリメンタルな変更を提案することで、テストネットワークのセルパラメータをインテリジェントに調整し、ネットワークを最適な設定に向けてゆっくりと誘導することができる。 エージェントはトレーニング前の段階でシミュレータで得られた経験を用いて最適な変更を提案するが、変更後の現在のネットワーク読み取りから学習を続けることもできる。 提案手法は, 遠隔アンテナ傾斜最適化に適用した場合に, エキスパートシステムによる性能向上を著しく改善することを示す。 このアプローチの重要な利益は、状態と報酬が隣の細胞からの情報を含まない類似の方法と比較した場合に真に観察されている。

This paper presents a method for optimizing wireless networks by adjusting cell parameters that affect both the performance of the cell being optimized and the surrounding cells. The method uses multiple reinforcement learning agents that share a common policy and take into account information from neighboring cells to determine the state and reward. In order to avoid impairing network performance during the initial stages of learning, agents are pre-trained in an earlier phase of offline learning. During this phase, an initial policy is obtained using feedback from a static network simulator and considering a wide variety of scenarios. Finally, agents can intelligently tune the cell parameters of a test network by suggesting small incremental changes, slowly guiding the network toward an optimal configuration. The agents propose optimal changes using the experience gained with the simulator in the pre-training phase, but they can also continue to learn from current network readings after each change. The results show how the proposed approach significantly improves the performance gains already provided by expert system-based methods when applied to remote antenna tilt optimization. The significant gains of this approach have truly been observed when compared with a similar method in which the state and reward do not incorporate information from neighboring cells.
翻訳日:2023-05-26 02:04:49 公開日:2023-05-24
# STOA-VLP:ビデオ言語事前学習のためのオブジェクトとアクションの空間時間モデリング

STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training ( http://arxiv.org/abs/2302.09736v2 )

ライセンス: Link先を確認
Weihong Zhong, Mao Zheng, Duyu Tang, Xuan Luo, Heng Gong, Xiaocheng Feng, Bing Qin(参考訳) 映像とテキストのグローバルアライメントを構築する大規模ビデオ言語事前学習モデルは,下流の様々なタスクにおいて著しい進歩を遂げてきたが,事前学習段階においてきめ細かい情報を導入するという考え方は十分に検討されていない。 本稿では,空間的および時間的次元にまたがるオブジェクト情報とアクション情報を協調的にモデル化する事前学習フレームワークであるstaa-vlpを提案する。 より具体的には、このモデルはフレームをまたいだオブジェクトの軌跡と、ビデオからの複数のアクション特徴をきめ細かい特徴として捉えている。 さらに,ビデオ言語モデルの事前学習プロセスに両情報をよりうまく組み込むための2つの補助タスクを設計する。 ひとつは動的オブジェクトテキストアライメントタスクで、オブジェクトのトラジェクタと関連する名詞トークンとの間のより良い接続を構築する。 2つ目は時空間のアクションセットの予測であり、これはテキストにあるアクションを予測することによって一貫したアクション特徴を生成するためにモデルを導く。 3つの下流タスク(動画キャプション、テキスト-ビデオ検索、ビデオ質問応答)に対する大規模な実験は、提案したSTOA-VLPの有効性を示している(例えば、MSR-VTTビデオキャプションベンチマークの3.7ルージュ-L、MSVDビデオ質問応答ベンチマークの2.9%の精度改善)。

Although large-scale video-language pre-training models, which usually build a global alignment between the video and the text, have achieved remarkable progress on various downstream tasks, the idea of adopting fine-grained information during the pre-training stage is not well explored. In this work, we propose STOA-VLP, a pre-training framework that jointly models object and action information across spatial and temporal dimensions. More specifically, the model regards object trajectories across frames and multiple action features from the video as fine-grained features. Besides, We design two auxiliary tasks to better incorporate both kinds of information into the pre-training process of the video-language model. The first is the dynamic object-text alignment task, which builds a better connection between object trajectories and the relevant noun tokens. The second is the spatial-temporal action set prediction, which guides the model to generate consistent action features by predicting actions found in the text. Extensive experiments on three downstream tasks (video captioning, text-video retrieval, and video question answering) demonstrate the effectiveness of our proposed STOA-VLP (e.g. 3.7 Rouge-L improvements on MSR-VTT video captioning benchmark, 2.9% accuracy improvements on MSVD video question answering benchmark, compared to previous approaches).
翻訳日:2023-05-26 02:04:10 公開日:2023-05-24
# 因果戦略分類:二つの変遷の物語

Causal Strategic Classification: A Tale of Two Shifts ( http://arxiv.org/abs/2302.06280v2 )

ライセンス: Link先を確認
Guy Horowitz, Nir Rosenfeld(参考訳) 特定の予測結果の恩恵を受けることができる場合、ユーザーは、例えば、戦略的に機能を変更することで、それらの結果を達成するために行動する傾向がある。 戦略分類の目標は、そのような行動に対して堅牢な予測モデルを訓練することである。 しかし、従来のフレームワークでは、機能変更は実際の結果を変えないことを前提としており、ユーザがシステムを“ゲーム化”している。 ここでは、この仮定を取り除き、真の結果が変わる因果戦略的な環境で学習を研究する。 我々の主目的として正確性に注目して、戦略的行動と因果効果が2つの相補的な分布シフトをいかに生み出すかを示す。 これらの変化を特徴付け,これら2つの力と時間とともにバランスをとり,エンドツーエンドのトレーニングを可能にする学習アルゴリズムを提案する。 合成および半合成データ実験により,本手法の有用性が示された。

When users can benefit from certain predictive outcomes, they may be prone to act to achieve those outcome, e.g., by strategically modifying their features. The goal in strategic classification is therefore to train predictive models that are robust to such behavior. However, the conventional framework assumes that changing features does not change actual outcomes, which depicts users as "gaming" the system. Here we remove this assumption, and study learning in a causal strategic setting where true outcomes do change. Focusing on accuracy as our primary objective, we show how strategic behavior and causal effects underlie two complementing forms of distribution shift. We characterize these shifts, and propose a learning algorithm that balances between these two forces and over time, and permits end-to-end training. Experiments on synthetic and semi-synthetic data demonstrate the utility of our approach.
翻訳日:2023-05-26 02:03:42 公開日:2023-05-24
# 拡散モデルによる構造騒音の除去

Removing Structured Noise with Diffusion Models ( http://arxiv.org/abs/2302.05290v2 )

ライセンス: Link先を確認
Tristan S.W. Stevens, Hans van Gorp, Faik C. Meral, Jun Seob Shin, Jason Yu, Jean-Luc Robert, Ruud J.G. van Sloun(参考訳) 不適切な逆問題を解決するには、関心のシグナルに関する事前の信念を慎重に定式化し、ノイズ測定にそれらの表現を正確に記述する必要がある。 例えば、疎性に基づく手作り信号の先行は、データ駆動の深層生成モデルに置き換わる傾向にあり、いくつかのグループが最近、最先端のスコアベースの拡散モデルが特に高い性能と柔軟性をもたらすことを示した。 本稿では,拡散モデルを用いた後方サンプリングの強力なパラダイムを,リッチで構造化されたノイズモデルを含むように拡張できることを示す。 そこで本研究では,雑音と信号生成分布の学習スコアを用いた共条件逆拡散法を提案する。 本研究では,構造化雑音を伴う様々な逆問題に対して,正規化フローや逆ネットワークを用いた競合ベースラインよりも高い性能を示す。 これにより、非ガウス測度モデルにおける逆問題に対する拡散モデリングの新しい機会と関連する実践的応用が開かれる。

Solving ill-posed inverse problems requires careful formulation of prior beliefs over the signals of interest and an accurate description of their manifestation into noisy measurements. Handcrafted signal priors based on e.g. sparsity are increasingly replaced by data-driven deep generative models, and several groups have recently shown that state-of-the-art score-based diffusion models yield particularly strong performance and flexibility. In this paper, we show that the powerful paradigm of posterior sampling with diffusion models can be extended to include rich, structured, noise models. To that end, we propose a joint conditional reverse diffusion process with learned scores for the noise and signal-generating distribution. We demonstrate strong performance gains across various inverse problems with structured noise, outperforming competitive baselines that use normalizing flows and adversarial networks. This opens up new opportunities and relevant practical applications of diffusion modeling for inverse problems in the context of non-Gaussian measurement models.
翻訳日:2023-05-26 02:03:28 公開日:2023-05-24
# nerfstudio:neural radiance field developmentのためのモジュラーフレームワーク

Nerfstudio: A Modular Framework for Neural Radiance Field Development ( http://arxiv.org/abs/2302.04264v2 )

ライセンス: Link先を確認
Matthew Tancik, Ethan Weber, Evonne Ng, Ruilong Li, Brent Yi, Justin Kerr, Terrance Wang, Alexander Kristoffersen, Jake Austin, Kamyar Salahi, Abhik Ahuja, David McAllister, and Angjoo Kanazawa(参考訳) Neural Radiance Fields (NeRF) は、コンピュータビジョン、グラフィックス、ロボティクスなどの幅広い応用分野において急速に成長している研究分野である。 nerf研究の開発と展開を効率化するために,我々はモジュール型pytorchフレームワークであるnerfstudioを提案する。 我々のフレームワークにはNeRFベースの手法を実装するためのプラグイン・アンド・プレイコンポーネントが含まれており、研究者や実践者が彼らのプロジェクトにNeRFを簡単に組み込むことができる。 さらにモジュール設計では、広範なリアルタイム可視化ツールのサポート、取得したデータをインポートするためのパイプラインの合理化、ビデオやポイントクラウド、メッシュ表現へのエクスポートが可能になる。 nerfstudioのモジュール性により、最近の論文のコンポーネントを組み合わせることで、速度と品質のバランスを保ちつつ、将来の修正にも柔軟性を保ちながら、nerfactoの開発が可能になる。 コミュニティ主導の開発を促進するため、すべての関連コードとデータはhttps://nerf.studio.comでオープンソースライセンスで公開されている。

Neural Radiance Fields (NeRF) are a rapidly growing area of research with wide-ranging applications in computer vision, graphics, robotics, and more. In order to streamline the development and deployment of NeRF research, we propose a modular PyTorch framework, Nerfstudio. Our framework includes plug-and-play components for implementing NeRF-based methods, which make it easy for researchers and practitioners to incorporate NeRF into their projects. Additionally, the modular design enables support for extensive real-time visualization tools, streamlined pipelines for importing captured in-the-wild data, and tools for exporting to video, point cloud and mesh representations. The modularity of Nerfstudio enables the development of Nerfacto, our method that combines components from recent papers to achieve a balance between speed and quality, while also remaining flexible to future modifications. To promote community-driven development, all associated code and data are made publicly available with open-source licensing at https://nerf.studio.
翻訳日:2023-05-26 02:02:23 公開日:2023-05-24
# 行き先予測拡散混合を用いたグラフ生成

Graph Generation with Destination-Predicting Diffusion Mixture ( http://arxiv.org/abs/2302.03596v2 )

ライセンス: Link先を確認
Jaehyeong Jo, Dongki Kim, Sung Ju Hwang(参考訳) グラフの生成は、非ユークリッド構造の複雑な性質を理解する必要がある実世界のタスクにとって大きな課題である。 拡散モデルは近年,グラフ生成において顕著な成功を収めているものの,ノイズのあるサンプルが明らかにグラフトポロジーを捉えないため,グラフの構造情報をモデル化するのに不適である。 そこで本研究では,データの重み付け平均として,正しいトポロジ情報を持つ元のグラフである拡散過程の目的地を予測し,グラフのトポロジーをモデル化する新しい生成フレームワークを提案する。 具体的には, 生成過程をデータ分布の終端に条件付けられた拡散過程の混合として設計し, 予測目的地に向かって進行させ, 急速に収束させる。 目的を予測するための新しいシミュレーションフリートレーニング目標を導入し、グラフトポロジを明示的にモデル化し、データの帰納バイアスを活用できるフレームワークの利点について検討する。 一般グラフと2D/3D分子生成タスクに関する広範な実験的検証により,本手法は従来の生成モデルよりも優れ,連続的な(例えば3D座標)と離散的な(例えば原子型)両方の特徴を持つ正確なトポロジを持つグラフを生成する。

Generation of graphs is a major challenge for real-world tasks that require understanding the complex nature of their non-Euclidean structures. Although diffusion models have achieved notable success in graph generation recently, they are ill-suited for modeling the structural information of graphs since learning to denoise the noisy samples does not explicitly capture the graph topology. To tackle this limitation, we propose a novel generative framework that models the topology of graphs by predicting the destination of the diffusion process, which is the original graph that has the correct topology information, as a weighted mean of data. Specifically, we design the generative process as a mixture of diffusion processes conditioned on the endpoint in the data distribution, which drives the process toward the predicted destination, resulting in rapid convergence. We introduce new simulation-free training objectives for predicting the destination, and further discuss the advantages of our framework that can explicitly model the graph topology and exploit the inductive bias of the data. Through extensive experimental validation on general graph and 2D/3D molecule generation tasks, we show that our method outperforms previous generative models, generating graphs with correct topology with both continuous (e.g. 3D coordinates) and discrete (e.g. atom types) features.
翻訳日:2023-05-26 02:02:04 公開日:2023-05-24
# ブラックボックス変分ベイズ推定のための実用的・整合勾配分散境界

Practical and Matching Gradient Variance Bounds for Black-Box Variational Bayesian Inference ( http://arxiv.org/abs/2303.10472v2 )

ライセンス: Link先を確認
Kyurae Kim, Kaiwen Wu, Jisu Oh, Jacob R. Gardner(参考訳) black-box variational inference(bbvi)の勾配分散を理解することは、その収束を確立しアルゴリズムの改善を開発する上で重要なステップである。 しかし、既存の研究ではbbviの勾配分散がbbviのワークホースである確率勾配降下(sgd)の収束を研究するのに使われた条件を満たすことがわかっていない。 本研究では, BBVI が, SGD の文献で用いられる$ABC$条件に対応して, 滑らかで二次的に成長するログライクな条件に適合することを示す。 この結果はBBVIの実践で広く用いられている非線形共分散パラメータ化に一般化される。 さらに, 平均場パラメタライゼーションのばらつきは, 寸法依存性が良好であることを示す。

Understanding the gradient variance of black-box variational inference (BBVI) is a crucial step for establishing its convergence and developing algorithmic improvements. However, existing studies have yet to show that the gradient variance of BBVI satisfies the conditions used to study the convergence of stochastic gradient descent (SGD), the workhorse of BBVI. In this work, we show that BBVI satisfies a matching bound corresponding to the $ABC$ condition used in the SGD literature when applied to smooth and quadratically-growing log-likelihoods. Our results generalize to nonlinear covariance parameterizations widely used in the practice of BBVI. Furthermore, we show that the variance of the mean-field parameterization has provably superior dimensional dependence.
翻訳日:2023-05-26 01:53:27 公開日:2023-05-24
# SITReg:変形反転層を用いた画像登録のための対称・逆整合・位相保存のためのマルチレゾリューションアーキテクチャ

SITReg: Multi-resolution architecture for symmetric, inverse consistent, and topology preserving image registration using deformation inversion layers ( http://arxiv.org/abs/2303.10211v2 )

ライセンス: Link先を確認
Joel Honkamaa and Pekka Marttinen(参考訳) 深層学習に基づく変形可能な医用画像登録法が,古典的反復的登録法の強力な代替手段として登場した。 画像登録は一般的に不明確な問題であるため, 対称性, 逆整合性, トポロジー保存の帰納バイアスの有用性は研究コミュニティで広く受け入れられている。 しかし、多くの深層学習登録手法は損失関数を介してこれらの特性を強制するが、事前の深層学習登録手法はこれらすべての特性を構成的に満たさない。 本稿では,対称,逆整合,トポロジの保存による,新しいマルチレゾリューション・レジストレーション・アーキテクチャを提案する。 また,変形場のメモリ効率向上のための暗黙の層も開発した。 提案手法は,2つのデータセットに対する最先端の登録精度を実現する。

Deep learning based deformable medical image registration methods have emerged as a strong alternative for classical iterative registration methods. Since image registration is in general an ill-defined problem, the usefulness of inductive biases of symmetricity, inverse consistency and topology preservation has been widely accepted by the research community. However, while many deep learning registration methods enforce these properties via loss functions, no prior deep learning registration method fulfills all of these properties by construct. Here, we propose a novel multi-resolution registration architecture which is by construct symmetric, inverse consistent, and topology preserving. We also develop an implicit layer for memory efficient inversion of the deformation fields. The proposed method achieves state-of-the-art registration accuracy on two datasets.
翻訳日:2023-05-26 01:53:13 公開日:2023-05-24
# Mpox-AISM: モンキーポックス拡散のAIによる監視

Mpox-AISM: AI-Mediated Super Monitoring for Forestalling Monkeypox Spread ( http://arxiv.org/abs/2303.09780v2 )

ライセンス: Link先を確認
Yubiao Yue, Zhenzhang Li, Xinyue Zhang, Jialong Xu, Jinbao Liu, Yang Li(参考訳) フォレストアリング・モンキーポックス(mpox)の拡散に関する課題は、早期感染者に対するタイムリーで便利で正確な診断である。 そこで本研究では, 早期mpoxの低コスト, 簡便, タイムリー, 非専門化診断を実現するために, 遠隔かつリアルタイムのオンライン可視化戦略「スーパーモニタリング」を提案する。 このようなaiを媒介とする"super monitoring"(mpox-aism)は、ディープラーニング、データ拡張、自己教師付き学習によって組み立てられたフレームワークを起動すると同時に、mpoxのデータセットの特徴と進化傾向に基づいて4つのサブタイプを専門的に分類し、高い類似度を持つ他の7種類の皮膚症を分類する。 その結果,インターネットおよび通信端末上でのクラウドサービスの活用により,空港の進入検査,家族医師,未開発地域の農村部,野生部などの様々なシナリオにおいて,早期Mpoxのリアルタイム検出に活用でき,Mpoxのウィンドウ期間を効果的に短縮することができる。

The challenge on forestalling monkeypox (Mpox) spread is the timely, convenient and accurate diagnosis for earlystage infected individuals. Here, we propose a remote and realtime online visualization strategy, called "Super Monitoring" to construct a low cost, convenient, timely and unspecialized diagnosis of early-stage Mpox. Such AI-mediated "Super Monitoring" (Mpox-AISM) invokes a framework assembled by deep learning, data augmentation and self-supervised learning, as well as professionally classifies four subtypes according to dataset characteristics and evolution trend of Mpox and seven other types of dermatopathya with high similarity, hence these features together with reasonable program interface and threshold setting ensure that its Recall (Sensitivity) was beyond 95.9% and the specificity was almost 100%. As a result, with the help of cloud service on Internet and communication terminal, this strategy can be potentially utilized for the real-time detection of earlystage Mpox in various scenarios including entry-exit inspection in airport, family doctor, rural area in underdeveloped region and wild to effectively shorten the window period of Mpox spread.
翻訳日:2023-05-26 01:52:59 公開日:2023-05-24
# 資源制約および細粒度物体検出のためのコモンセンス知識支援深層学習

Commonsense Knowledge Assisted Deep Learning for Resource-constrained and Fine-grained Object Detection ( http://arxiv.org/abs/2303.09026v4 )

ライセンス: Link先を確認
Pu Zhang, Bin Liu(参考訳) 本稿では,エッジコンピューティングなどの限られた計算資源を有するシナリオにおけるきめ細かい物体検出について述べる。 ディープラーニング(DL)、特にディープニューラルネットワーク(DNN)の使用は、オブジェクト検出の主要なアプローチとなっている。 しかしながら、正確なきめ細かな検出を得るには、大きなdnnモデルとかなりの量の注釈データが必要であり、リソース制約のあるケースでは現代のdlオブジェクト検出器が課題となる。 そこで本研究では,コモンセンスの知識を生かして粗粒物体検出装置の精度向上を支援する手法を提案する。 具体的には,ベンチマーク粗粒度dl検出器が生成する粗粒度ラベルを処理して細粒度ラベルを生成するcommonsense knowledge inference module (ckim)を提案する。 CKIMではクリップルールとファジィルールに基づく推論手法の両方を探索し、後者はターゲットセマンティックラベルのあいまいさを扱うために使用される。 我々はmobilenet-ssdとyolov7-tinyを含む2つの現代のdl検出器に基づいて本手法を実装した。 実験の結果,アノテートされたデータ量が少なく,モデルサイズも小さく,正確な細粒度検出が可能となった。 私たちのコードはhttps://github.com/ZJLAB-AMMI/CKIMで公開されています。

This paper addresses fine-grained object detection in scenarios with limited computing resources, such as edge computing. Deep learning (DL), particularly through the use of deep neural networks (DNNs), has become the primary approach to object detection. However, obtaining accurate fine-grained detection requires a large DNN model and a significant amount of annotated data, presenting a challenge for modern DL object detectors in resource-constrained cases. To address this issue, we propose an approach that utilizes commonsense knowledge to assist a coarse-grained object detector in achieving accurate fine-grained detection results. Specifically, we introduce a commonsense knowledge inference module (CKIM) that processes the coarse-grained labels produced by a benchmark coarse-grained DL detector to generate fine-grained labels. Our CKIM explores both crisp-rule and fuzzy-rule based inference methods, with the latter being employed to handle ambiguity in the target semantic labels. We implement our method based on two modern DL detectors, including Mobilenet-SSD, and YOLOv7-tiny. Experimental results demonstrate that our approach achieves accurate fine-grained detections with a reduced amount of annotated data, and smaller model size. Our code is available at https://github.com/ZJLAB-AMMI/CKIM.
翻訳日:2023-05-26 01:52:34 公開日:2023-05-24
# M/EEG信号に対する対称正定値行列上のスライス・ワッサーシュタイン

Sliced-Wasserstein on Symmetric Positive Definite Matrices for M/EEG Signals ( http://arxiv.org/abs/2303.05798v2 )

ライセンス: Link先を確認
Cl\'ement Bonet, Beno\^it Mal\'ezieux, Alain Rakotomamonjy, Lucas Drumetz, Thomas Moreau, Matthieu Kowalski, Nicolas Courty(参考訳) 電気的・磁気的脳波記録を扱う場合、信号の要約のために共分散行列を用いて多くの教師付き予測タスクを解く。 これらの行列で学ぶには、その構造を説明するためにリーマン幾何学を使う必要がある。 本稿では,共分散行列の分布を扱う新しい手法を提案し,M/EEG多変量時系列上での計算効率を示す。 より具体的には、強い理論的保証を持つ対称正定値行列の測度の間のスライス・ワッサーシュタイン距離を定義する。 そして、その特性とカーネル手法を利用して、MEGデータから脳年齢予測にこの距離を適用し、リーマン幾何学に基づく最先端アルゴリズムと比較する。 最後に,脳コンピュータインタフェースアプリケーションにおけるドメイン適応におけるwasserstein距離への効率的なサロゲートであることを示す。

When dealing with electro or magnetoencephalography records, many supervised prediction tasks are solved by working with covariance matrices to summarize the signals. Learning with these matrices requires using Riemanian geometry to account for their structure. In this paper, we propose a new method to deal with distributions of covariance matrices and demonstrate its computational efficiency on M/EEG multivariate time series. More specifically, we define a Sliced-Wasserstein distance between measures of symmetric positive definite matrices that comes with strong theoretical guarantees. Then, we take advantage of its properties and kernel methods to apply this distance to brain-age prediction from MEG data and compare it to state-of-the-art algorithms based on Riemannian geometry. Finally, we show that it is an efficient surrogate to the Wasserstein distance in domain adaptation for Brain Computer Interface applications.
翻訳日:2023-05-26 01:52:12 公開日:2023-05-24
# spin-7/2 quditを用いたフォールトトレラント量子ビット符号化

Fault-tolerant qubit encoding using a spin-7/2 qudit ( http://arxiv.org/abs/2303.02084v2 )

ライセンス: Link先を確認
Sumin Lim, Junjie Liu, and Arzhang Ardavan(参考訳) 誤り訂正プロトコルの実装は、実用的な量子情報技術の発展における中心的な課題である。 近年、ハーモニック振動子やクォーディットのような多層量子資源は、空間的にコンパクトな方法でヒルベルト空間次元を追加する可能性を提供するため、この文脈に関心を寄せている。 本稿では,スピン-1/2量子ビットに結合したスピン7/2原子核上に実装された量子メモリを提案する。これは,等価な量子ビットベースのプロトコルよりもはるかに少ない量子リソースを用いて,第1次$X$,$Y$および$Z$エラー補正を提供する。 このエンコーディングは、既存の実験的に実現された分子電子核量子スピン系で効率的に実装できる。 この戦略は高スピン核における高次誤差保護にまで拡張することができる。

The implementation of error correction protocols is a central challenge in the development of practical quantum information technologies. Recently, multi-level quantum resources such as harmonic oscillators and qudits have attracted interest in this context because they offer the possibility of additional Hilbert space dimensions in a spatially compact way. Here we propose a quantum memory, implemented on a spin-7/2 nucleus hyperfine-coupled to an electron spin-1/2 qubit, which provides first order $X$, $Y$ and $Z$ error correction using significantly fewer quantum resources than the equivalently effective qubit-based protocols. Our encoding may be efficiently implemented in existing experimentally realised molecular electron-nuclear quantum spin systems. The strategy can be extended to higher-order error protection on higher-spin nuclei.
翻訳日:2023-05-26 01:51:59 公開日:2023-05-24
# FairShap: 共有値に基づくアルゴリズムフェアネスのためのデータ再重み付けアプローチ

FairShap: A Data Re-weighting Approach for Algorithmic Fairness based on Shapley Values ( http://arxiv.org/abs/2303.01928v2 )

ライセンス: Link先を確認
Adrian Arnaiz-Rodriguez, Francisco Escolano, Nuria Oliver(参考訳) アルゴリズムの公正性は最も社会的に重要であるが、大規模な機械学習モデルの現在の傾向は、通常バイアスのある大量のデータセットによるトレーニングを必要とする。 この文脈では、データのモデリングとバイアスの修正に焦点を当てた事前処理手法が貴重なアプローチとして現れます。 本稿では,シェープ値を用いたデータ評価による公正なアルゴリズム決定のための新しい前処理(再重み付け)手法であるFairShapを提案する。 我々のアプローチはモデル非依存であり、事前定義されたフェアネスメトリックへの各トレーニングデータポイントの寄与度を測定するため、容易に解釈できる。 さまざまなトレーニングシナリオとモデルを用いて、異なる性質の最先端データセット上で、FairShapを実証的に検証し、それが他の方法よりも優れていることを示す。 また,ヒストグラムと潜在空間の可視化を用いて,fairshapの解釈可能性を示す。 この研究は、偏りのあるデータセットが利用可能であっても、アルゴリズムの公正性に対する解釈可能かつモデルに依存しないアプローチにおいて、有望な方向を示すと我々は信じている。

Algorithmic fairness is of utmost societal importance, yet the current trend in large-scale machine learning models requires training with massive datasets that are typically biased. In this context, pre-processing methods that focus on modeling and correcting bias in the data emerge as valuable approaches. In this paper, we propose FairShap, a novel pre-processing (re-weighting) method for fair algorithmic decision-making through data valuation by means of Shapley Values. Our approach is model agnostic and easily interpretable, as it measures the contribution of each training data point to a predefined fairness metric. We empirically validate FairShap on several state-of-the-art datasets of different nature, with a variety of training scenarios and models and show how it outperforms other methods, yielding fairer models with higher or similar levels of accuracy. We also illustrate FairShap's interpretability by means of histograms and latent space visualizations. We believe that this work represents a promising direction in interpretable and model-agnostic approaches to algorithmic fairness that yield competitive accuracy even when only biased datasets are available.
翻訳日:2023-05-26 01:51:47 公開日:2023-05-24
# テクニカルレポート:グラフニューラルネットワークは文法的になる

Technical report: Graph Neural Networks go Grammatical ( http://arxiv.org/abs/2303.01590v2 )

ライセンス: Link先を確認
Jason Piquenot, Aldo Moscatelli, Maxime B\'erar, Pierre H\'eroux, Romain raveaux, Jean-Yves Ramel, S\'ebastien Adam(参考訳) 本稿では,代数言語の断片をグラフニューラルネットワーク(GNN)に正式にリンクするフレームワークを提案する。 文脈自由文法(CFG)を用いて代数演算を生成規則に整理し、GNN層モデルに変換する。 言語から直接派生したCFGの規則と変数は冗長性を含んでいるため、文法還元スキームがGNN層への変換を可能にする。 この戦略を適用すると、3階Weisfeiler-Lehman(3-WL)テストに準拠する文法がMATLANGから定義される。 この3WL CFGから、G$^2$N$^2$と呼ばれる証明可能な3WL GNNモデルを導出する。 さらに、この文法的アプローチにより、長さのサイクルを最大6回、弦のサイクルをエッジレベルで数えるための代数式が提供され、3-wlのカウントパワーを啓蒙することができる。 いくつかの実験は、G$^2$N$^2$が、多くの下流タスクで他の3WL GNNよりも効率良く優れていることを示している。

This paper proposes a framework to formally link a fragment of an algebraic language to a Graph Neural Network (GNN). It relies on Context Free Grammars (CFG) to organise algebraic operations into generative rules that can be translated into a GNN layer model. Since the rules and variables of a CFG directly derived from a language contain redundancies, a grammar reduction scheme is presented making tractable the translation into a GNN layer. Applying this strategy, a grammar compliant with the third-order Weisfeiler-Lehman (3-WL) test is defined from MATLANG. From this 3-WL CFG, we derive a provably 3-WL GNN model called G$^2$N$^2$. Moreover, this grammatical approach allows us to provide algebraic formulas to count the cycles of length up to six and chordal cycles at the edge level, which enlightens the counting power of 3-WL. Several experiments illustrate that G$^2$N$^2$ efficiently outperforms other 3-WL GNNs on many downstream tasks.
翻訳日:2023-05-26 01:51:26 公開日:2023-05-24
# マスク言語モデリングのための重み付きサンプリング

Weighted Sampling for Masked Language Modeling ( http://arxiv.org/abs/2302.14225v2 )

ライセンス: Link先を確認
Linhan Zhang, Qian Chen, Wen Wang, Chong Deng, Xin Cao, Kongzhang Hao, Yuxin Jiang, Wei Wang(参考訳) masked language modeling (mlm) は、言語モデルの事前学習に広く使われている。 mlmの標準ランダムマスキング戦略は、事前訓練された言語モデル(plm)を高周波トークンに偏らせる。 稀なトークンの表現学習は貧弱であり、plmは下流タスクのパフォーマンスに制限がある。 この周波数バイアス問題を緩和するために,トークンの頻度とトレーニング損失に基づくマスキングトークンの簡易かつ効果的な重み付きサンプリング戦略を提案する。 これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。 セマンティックテキスト類似性ベンチマーク(STS)の実験では、WSBERTはBERTに対する文の埋め込みを大幅に改善している。 WSBERTと校正手法を組み合わせることで、文の埋め込みをさらに改善する。 また、GLUEベンチマークの微調整WSBERTについて検討し、重み付きサンプリングにより、バックボーンPLMの転写学習能力も向上することを示した。 さらに、WSBERTがトークンの埋め込みをどのように改善するかを分析し、洞察を提供する。

Masked Language Modeling (MLM) is widely used to pretrain language models. The standard random masking strategy in MLM causes the pre-trained language models (PLMs) to be biased toward high-frequency tokens. Representation learning of rare tokens is poor and PLMs have limited performance on downstream tasks. To alleviate this frequency bias issue, we propose two simple and effective Weighted Sampling strategies for masking tokens based on the token frequency and training loss. We apply these two strategies to BERT and obtain Weighted-Sampled BERT (WSBERT). Experiments on the Semantic Textual Similarity benchmark (STS) show that WSBERT significantly improves sentence embeddings over BERT. Combining WSBERT with calibration methods and prompt learning further improves sentence embeddings. We also investigate fine-tuning WSBERT on the GLUE benchmark and show that Weighted Sampling also improves the transfer learning capability of the backbone PLM. We further analyze and provide insights into how WSBERT improves token embeddings.
翻訳日:2023-05-26 01:50:39 公開日:2023-05-24
# 対戦ゲームのための適応的バックグラウンド音楽:多楽器ボリューム変調アプローチ

Adaptive Background Music for a Fighting Game: A Multi-Instrument Volume Modulation Approach ( http://arxiv.org/abs/2303.15734v2 )

ライセンス: Link先を確認
Ibrahim Khan, Thai Van Nguyen, Chollakorn Nimpattanavong, Ruck Thawonmas(参考訳) 本稿では,適応的なBGMを追加することで,DareFightingICEのバックグラウンド音楽(BGM)を強化する取り組みについて述べる。 適応的なBGMは、"Air on G-String"と呼ばれるクラシック曲を演奏する5つの異なる楽器で構成されている。 bgmは、楽器のボリュームを変化させて適応する。 各楽器はゲームの異なる要素に接続されている。 次に、音声のみを入力として使用する深層強化学習AI(Blind DL AI)を用いて、適応的BGMを評価する実験を行う。 その結果,適応的BGMを使わずにプレイするよりも,適応的BGMを併用したBlind DL AIの性能が向上した。

This paper presents our work to enhance the background music (BGM) in DareFightingICE by adding an adaptive BGM. The adaptive BGM consists of five different instruments playing a classical music piece called "Air on G-String." The BGM adapts by changing the volume of the instruments. Each instrument is connected to a different element of the game. We then run experiments to evaluate the adaptive BGM by using a deep reinforcement learning AI that only uses audio as input (Blind DL AI). The results show that the performance of the Blind DL AI improves while playing with the adaptive BGM as compared to playing without the adaptive BGM.
翻訳日:2023-05-26 01:44:22 公開日:2023-05-24
# 知識強化型グラフニューラルネットワーク

Knowledge Enhanced Graph Neural Networks ( http://arxiv.org/abs/2303.15487v2 )

ライセンス: Link先を確認
Luisa Werner (TYREX, UGA), Nabil Laya\"ida (TYREX), Pierre Genev\`es (CNRS, TYREX), Sarah Chlyah (TYREX)(参考訳) グラフデータは、万能的に存在し、自然科学、ソーシャルネットワーク、セマンティックウェブなど、幅広い応用がある。 しかし、情報に富みながら、グラフはしばしば騒がしく不完全である。 その結果,ノード分類やリンク予測などのグラフ補完タスクが注目されている。 一方、グラフニューラルネットワークのようなニューラルネットワークは、ノイズの多いグラフの豊かな表現を学ぶための堅牢なツールであることが証明されている。 一方、記号的手法はグラフの正確な推論を可能にする。 本稿では,従来の知識をグラフニューラルネットワークモデルに統合することを可能にするため,両方のパラダイムを組み合わせたグラフ補完のためのニューラルネットワークフレームワークであるKeGNNを提案する。 基本的に、KeGNNは、知識強化レイヤを積み重ねる基盤としてグラフニューラルネットワークで構成されており、事前知識に関する予測を精査する目的がある。 我々は、KeGNNと2つの最先端グラフニューラルネットワーク、グラフ畳み込みネットワークとグラフ注意ネットワークを同時にインスタンス化し、ノード分類のための複数のベンチマークデータセット上でKeGNNを評価する。

Graph data is omnipresent and has a wide variety of applications, such as in natural science, social networks, or the semantic web. However, while being rich in information, graphs are often noisy and incomplete. As a result, graph completion tasks, such as node classification or link prediction, have gained attention. On one hand, neural methods, such as graph neural networks, have proven to be robust tools for learning rich representations of noisy graphs. On the other hand, symbolic methods enable exact reasoning on graphs. We propose Knowledge Enhanced Graph Neural Networks (KeGNN), a neuro-symbolic framework for graph completion that combines both paradigms as it allows for the integration of prior knowledge into a graph neural network model. Essentially, KeGNN consists of a graph neural network as a base upon which knowledge enhancement layers are stacked with the goal of refining predictions with respect to prior knowledge. We instantiate KeGNN in conjunction with two state-of-the-art graph neural networks, Graph Convolutional Networks and Graph Attention Networks, and evaluate KeGNN on multiple benchmark datasets for node classification.
翻訳日:2023-05-26 01:44:10 公開日:2023-05-24
# マルチエージェント学習におけるリワードシェイピングによる文脈情報の埋め込み:Google Footballを事例として

Embedding Contextual Information through Reward Shaping in Multi-Agent Learning: A Case Study from Google Football ( http://arxiv.org/abs/2303.15471v2 )

ライセンス: Link先を確認
Chaoyi Gu, Varuna De Silva, Corentin Artaud, Rafael Pina(参考訳) 人工知能は、意思決定や手作業の置き換えのために最適化された戦略を提供することによって、複雑な環境で人間の困難なタスクを完遂するのに役立つ。 サッカーのような複数のエージェントを含む環境では、エージェントを訓練する最も一般的な方法は模倣学習とマルチエージェント強化学習(marl)である。 しかし、イミテーション・ラーニングによって訓練されたエージェントは、専門家のデモレーターを上回り得ないため、学習方針から新たな洞察を得られることはほとんどない。 さらに、marlはクレジット割り当ての問題に陥りやすい。 スパース報酬信号を持つ環境では、この方法は非効率である。 本研究の目的は、上記の課題を解決するために、報酬関数に文脈情報を埋め込むことにより、新たな報酬形成手法を作ることである。 Google Research Football (GRF) 環境でこれを実証する。 ゲーム状態観測から抽出した文脈情報を定量化し、この定量化と元のスパース報酬を併用して、形状の報酬を生成する。 GRF環境における実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最先端のMARLアルゴリズムに,報奨形状法が有用であることを証明した。

Artificial Intelligence has been used to help human complete difficult tasks in complicated environments by providing optimized strategies for decision-making or replacing the manual labour. In environments including multiple agents, such as football, the most common methods to train agents are Imitation Learning and Multi-Agent Reinforcement Learning (MARL). However, the agents trained by Imitation Learning cannot outperform the expert demonstrator, which makes humans hardly get new insights from the learnt policy. Besides, MARL is prone to the credit assignment problem. In environments with sparse reward signal, this method can be inefficient. The objective of our research is to create a novel reward shaping method by embedding contextual information in reward function to solve the aforementioned challenges. We demonstrate this in the Google Research Football (GRF) environment. We quantify the contextual information extracted from game state observation and use this quantification together with original sparse reward to create the shaped reward. The experiment results in the GRF environment prove that our reward shaping method is a useful addition to state-of-the-art MARL algorithms for training agents in environments with sparse reward signal.
翻訳日:2023-05-26 01:43:52 公開日:2023-05-24
# InterviewBot: 大学受験生にインタビューするリアルタイムエンドツーエンド対話システム

InterviewBot: Real-Time End-to-End Dialogue System to Interview Students for College Admission ( http://arxiv.org/abs/2303.15049v2 )

ライセンス: Link先を確認
Zihao Wang, Nathan Keyes, Terry Crawford, Jinho D. Choi(参考訳) 本稿では,会話履歴を動的に統合し,トピックをカスタマイズしたインタビューボットをコヒーレントな埋め込み空間に組み込んで,米国の大学に通学する留学生と10分間のハイブリッドドメイン(オープンおよびクローズド)会話を行い,学術的・文化的即応性を評価する。 ニューラルベースエンドツーエンド対話モデルを構築するために、人間対人間インタビューの音声録音7,361件を自動転写し、440件を手作業で微調整・評価する。 変換器を用いたエンコーダデコーダモデルの入力/出力サイズ制限を克服するため、コンテキストアテンションとトピック記憶という2つの新しい手法を提案し、モデルが関連性があり一貫した相互作用を行えるようにした。 最終モデルは,インタビューデータに対する回答を統計的に比較し,また,プロのインタビュアーや様々な学生にリアルタイムに対話させ,フルエンシーや文脈認識において高い満足度を得ることにより,動的に評価した。

We present the InterviewBot that dynamically integrates conversation history and customized topics into a coherent embedding space to conduct 10 mins hybrid-domain (open and closed) conversations with foreign students applying to U.S. colleges for assessing their academic and cultural readiness. To build a neural-based end-to-end dialogue model, 7,361 audio recordings of human-to-human interviews are automatically transcribed, where 440 are manually corrected for finetuning and evaluation. To overcome the input/output size limit of a transformer-based encoder-decoder model, two new methods are proposed, context attention and topic storing, allowing the model to make relevant and consistent interactions. Our final model is tested both statistically by comparing its responses to the interview data and dynamically by inviting professional interviewers and various students to interact with it in real-time, finding it highly satisfactory in fluency and context awareness.
翻訳日:2023-05-26 01:43:33 公開日:2023-05-24
# 協調型マルチエージェントタスクにおける学習報酬マシン

Learning Reward Machines in Cooperative Multi-Agent Tasks ( http://arxiv.org/abs/2303.14061v4 )

ライセンス: Link先を確認
Leo Ardon, Daniel Furelos-Blanco, Alessandra Russo(参考訳) 本稿では,協調的なタスク分解と,サブタスクの構造を符号化した報酬機械(rms)の学習を組み合わせたマルチエージェント強化学習(marl)への新しいアプローチを提案する。 提案手法は, 部分的に観察可能な環境における報酬の非マルコフ的性質に対処し, 協調作業の完了に必要な学習方針の解釈性を向上させる。 各サブタスクに関連付けられたrmは分散的に学習され、各エージェントの振る舞いを導くのに使用される。 これにより、協調的マルチエージェント問題の複雑さが減少し、より効果的な学習が可能となる。 以上の結果から,本手法はMARL,特に大規模状態空間と複数エージェントを持つ複雑な環境での今後の研究の方向性として期待できると考えられる。

This paper presents a novel approach to Multi-Agent Reinforcement Learning (MARL) that combines cooperative task decomposition with the learning of reward machines (RMs) encoding the structure of the sub-tasks. The proposed method helps deal with the non-Markovian nature of the rewards in partially observable environments and improves the interpretability of the learnt policies required to complete the cooperative task. The RMs associated with each sub-task are learnt in a decentralised manner and then used to guide the behaviour of each agent. By doing so, the complexity of a cooperative multi-agent problem is reduced, allowing for more effective learning. The results suggest that our approach is a promising direction for future research in MARL, especially in complex environments with large state spaces and multiple agents.
翻訳日:2023-05-26 01:43:14 公開日:2023-05-24
# ノード類似性、グラフ表現学習、階層クラスタリングによる複雑なネットワークにおけるコミュニティ検出

Community detection in complex networks via node similarity, graph representation learning, and hierarchical clustering ( http://arxiv.org/abs/2303.12212v2 )

ライセンス: Link先を確認
{\L}ukasz Brzozowski, Grzegorz Siudem, Marek Gagolewski(参考訳) コミュニティ検出は、社会、交通、引用、サイバーセキュリティ、その他多くのネットワークを含む実際のグラフを分析する上で重要な課題である。 本稿では,この課題に対処する3つの新しい階層型フレームワークを提案する。 提案手法は、様々なリンクベースのクラスタリングアルゴリズム、頂点近接行列、グラフ表現学習モデルをサポートする。 確率ブロックモデルグラフと実生活データセットにおける100以上のモジュールの組み合わせを比較します。 我々の最良のパイプライン(wasserman-faustと相互情報に基づくppmi近接、およびディープラーニングベースのdngr表現)は、最先端のleidenとlouvainアルゴリズムと競合する。 同時に、後者とは異なり、それらは階層的である。 したがって、それらは互いに互換性のある全ての可能な基数からなる一連のネストされた分割を出力する。 この機能は、事前に正確なパーティション数を知らない場合に重要である。

Community detection is a critical challenge in analysing real graphs, including social, transportation, citation, cybersecurity, and many other networks. This article proposes three new, general, hierarchical frameworks to deal with this task. The introduced approach supports various linkage-based clustering algorithms, vertex proximity matrices, and graph representation learning models. We compare over a hundred module combinations on the Stochastic Block Model graphs and real-life datasets. We observe that our best pipelines (Wasserman-Faust and the mutual information-based PPMI proximity, as well as the deep learning-based DNGR representations) perform competitively to the state-of-the-art Leiden and Louvain algorithms. At the same time, unlike the latter, they remain hierarchical. Thus, they output a series of nested partitions of all possible cardinalities which are compatible with each other. This feature is crucial when the number of correct partitions is unknown in advance.
翻訳日:2023-05-26 01:43:02 公開日:2023-05-24
# マルチスペクトル分類器と深層学習を用いた小規模キルン産業の気候・健康影響の緩和

Mitigating climate and health impact of small-scale kiln industry using multi-spectral classifier and deep learning ( http://arxiv.org/abs/2303.11654v2 )

ライセンス: Link先を確認
Usman Nazir, Murtaza Taj, Momin Uppal, Sara Khalid(参考訳) 産業用大気汚染は直接的な健康影響があり、気候変動に大きく貢献している。 小規模産業、特にブルトレンチレンガキルンは、南アジアの大気汚染の重要な原因の1つであり、しばしば人間の健康に害を与える有害なスモッグを発生させる。 キルン産業の気候と健康への影響を軽減するためには,異なる地域における細粒度のキルン分布が必要である。 植生指標などのマルチスペクトルリモートセンシングデータを用いたキルン局所化は,高解像度画像のみに依存するのに対し,コストや計算複雑度により実現不可能である。 本稿では,南アジアの「れんがキルンベルト」におけるれんがキルン検出のための高分解能画像と時空間多重スペクトルデータの融合を提案する。 まず,sentinel-2画像からの低分解能時空間多重スペクトルデータを用いて,植生,焼成,積み上げ,水分指数を組み合わせた分類を行う。 次に、偽検出ときめ細かい局所化を除去するために、方向認識対象検出器YOLOv3(theta値)を実装する。 提案手法は,他のベンチマークと比較すると,複数の国でテストした場合に比較または高い精度で,21倍の速度向上が達成される。

Industrial air pollution has a direct health impact and is a major contributor to climate change. Small scale industries particularly bull-trench brick kilns are one of the key sources of air pollution in South Asia often creating hazardous levels of smog that is injurious to human health. To mitigate the climate and health impact of the kiln industry, fine-grained kiln localization at different geographic locations is needed. Kiln localization using multi-spectral remote sensing data such as vegetation indices can result in a noisy estimates whereas relying solely on high-resolution imagery is infeasible due to cost and compute complexities. This paper proposes a fusion of spatio-temporal multi-spectral data with high-resolution imagery for detection of brick kilns within the "Brick-Kiln-Belt" of South Asia. We first perform classification using low-resolution spatio-temporal multi-spectral data from Sentinel-2 imagery by combining vegetation, burn, build up and moisture indices. Next, orientation aware object detector YOLOv3 (with theta value) is implemented for removal of false detections and fine-grained localization. Our proposed technique, when compared with other benchmarks, results in a 21 times improvement in speed with comparable or higher accuracy when tested over multiple countries.
翻訳日:2023-05-26 01:42:44 公開日:2023-05-24
# 微分可能論理の論理:dlの一様意味論に向けて

Logic of Differentiable Logics: Towards a Uniform Semantics of DL ( http://arxiv.org/abs/2303.10650v3 )

ライセンス: Link先を確認
Natalia \'Slusarz, Ekaterina Komendantskaya, Matthew L. Daggitt, Robert Stewart, Kathrin Stark(参考訳) 近年、論理仕様を満たすためにニューラルネットワークをトレーニングする方法として微分論理(DL)が提案されている。 DLは仕様が記述される構文と、構文の式を損失関数に変換する解釈関数から構成される。 これらの損失関数は、標準勾配降下アルゴリズムでトレーニング中に使用できる。 既存のDLの多様性とそれらが扱われる形式レベルの違いは、それらの特性と実装に関する体系的な比較研究を困難にしている。 本稿では、微分可能論理学(LDL)と呼ばれるDLを定義するメタ言語を提案することにより、この問題を是正する。 構文的には、既存のDLの構文をFOLに一般化し、ベクトルと学習者について推論するフォーマリズムを初めて導入する。 意味的には、既存のDLから生じる損失関数を定義するためにインスタンス化できる一般的な解釈関数を導入する。 我々はLDLを用いて、既存のDLの理論的特性を確立し、ニューラルネットワーク検証における実証的研究を行う。

Differentiable logics (DL) have recently been proposed as a method of training neural networks to satisfy logical specifications. A DL consists of a syntax in which specifications are stated and an interpretation function that translates expressions in the syntax into loss functions. These loss functions can then be used during training with standard gradient descent algorithms. The variety of existing DLs and the differing levels of formality with which they are treated makes a systematic comparative study of their properties and implementations difficult. This paper remedies this problem by suggesting a meta-language for defining DLs that we call the Logic of Differentiable Logics, or LDL. Syntactically, it generalises the syntax of existing DLs to FOL, and for the first time introduces the formalism for reasoning about vectors and learners. Semantically, it introduces a general interpretation function that can be instantiated to define loss functions arising from different existing DLs. We use LDL to establish several theoretical properties of existing DLs, and to conduct their empirical study in neural network verification.
翻訳日:2023-05-26 01:41:49 公開日:2023-05-24
# Video ChatCaptioner: 時空間記述の充実を目指して

Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions ( http://arxiv.org/abs/2304.04227v3 )

ライセンス: Link先を確認
Jun Chen, Deyao Zhu, Kilichbek Haydarov, Xiang Li, Mohamed Elhoseiny(参考訳) 映像キャプションは自然言語を用いて映像から動的シーンを伝達することを目的としており、環境内の時空間情報の理解を促進する。 近年の進歩はあったが、詳細でリッチなビデオ記述を生成することは依然として大きな課題である。 本稿では,より包括的な時空間的ビデオ記述を作成するための革新的なアプローチである video chatcaptioner を紹介する。 本手法では,ChatGPTモデルをコントローラとして使用し,特に映像コンテンツ駆動質問に対するフレームの選択を目的とした。 その後、ロバストなアルゴリズムを用いてこれらのビジュアルクエリに答える。 この質問応答フレームワークは、複雑な映像の詳細を効果的に明らかにし、映像コンテンツの強化方法として約束を示す。 複数の会話ラウンドの後、ChatGPTは以前の会話に基づいてリッチなビデオコンテンツを要約することができる。 われわれのビデオチャットキャプチャーは、ビデオに関するより視覚的な詳細を含むキャプションを生成できることを定性的に証明する。 コードはhttps://github.com/Vision-CAIR/ChatCaptionerで公開されている。

Video captioning aims to convey dynamic scenes from videos using natural language, facilitating the understanding of spatiotemporal information within our environment. Although there have been recent advances, generating detailed and enriched video descriptions continues to be a substantial challenge. In this work, we introduce Video ChatCaptioner, an innovative approach for creating more comprehensive spatiotemporal video descriptions. Our method employs a ChatGPT model as a controller, specifically designed to select frames for posing video content-driven questions. Subsequently, a robust algorithm is utilized to answer these visual queries. This question-answer framework effectively uncovers intricate video details and shows promise as a method for enhancing video content. Following multiple conversational rounds, ChatGPT can summarize enriched video content based on previous conversations. We qualitatively demonstrate that our Video ChatCaptioner can generate captions containing more visual details about the videos. The code is publicly available at https://github.com/Vision-CAIR/ChatCaptioner
翻訳日:2023-05-26 01:36:24 公開日:2023-05-24
# 詩:多視点ステレオの点埋め込みによる手再建

POEM: Reconstructing Hand in a Point Embedded Multi-view Stereo ( http://arxiv.org/abs/2304.04038v2 )

ライセンス: Link先を確認
Lixin Yang, Jian Xu, Licheng Zhong, Xinyu Zhan, Zhicheng Wang, Kejian Wu, Cewu Lu(参考訳) マルチビューベースの視覚タスクでは,3次元幾何学的特徴を捉えるニューラルネットワークの実現が不可欠である。 従来の手法は通常、マルチビューステレオの3D情報を2D機能にエンコードする。 これとは対照的に,マルチビューステレオに埋め込まれた3Dポインツを直接操作してハンドメッシュを再構築する,POEMという新しい手法を提案する。 ポイントは3D情報の自然な形態であり、異なるビューに異なる投影があるため、ビュー間で特徴を融合させる理想的な媒体である。 したがって、複雑な3Dハンドメッシュを3Dポイントの集合で表現できるという、シンプルで効果的なアイデアを念頭に置いている。 1)はマルチビューステレオに埋め込まれる。 2)多視点画像の特徴を持ち、 3) 手を囲む。 ポイントのパワーを活用するために,ポイントベースの特徴融合とクロスセットポイントアテンション機構という2つの操作を設計する。 3つの挑戦的なマルチビューデータセットの評価は、POEMが手メッシュ再構築の最先端よりも優れていることを示している。 コードとモデルはhttps://github.com/lixiny/POEMで研究することができる。

Enable neural networks to capture 3D geometrical-aware features is essential in multi-view based vision tasks. Previous methods usually encode the 3D information of multi-view stereo into the 2D features. In contrast, we present a novel method, named POEM, that directly operates on the 3D POints Embedded in the Multi-view stereo for reconstructing hand mesh in it. Point is a natural form of 3D information and an ideal medium for fusing features across views, as it has different projections on different views. Our method is thus in light of a simple yet effective idea, that a complex 3D hand mesh can be represented by a set of 3D points that 1) are embedded in the multi-view stereo, 2) carry features from the multi-view images, and 3) encircle the hand. To leverage the power of points, we design two operations: point-based feature fusion and cross-set point attention mechanism. Evaluation on three challenging multi-view datasets shows that POEM outperforms the state-of-the-art in hand mesh reconstruction. Code and models are available for research at https://github.com/lixiny/POEM.
翻訳日:2023-05-26 01:36:11 公開日:2023-05-24
# ポピュレーションパラメータ平均化(PAPA)

PopulAtion Parameter Averaging (PAPA) ( http://arxiv.org/abs/2304.03094v2 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, Emy Gervais, Kilian Fatras, Yan Zhang, Simon Lacoste-Julien(参考訳) アンサンブル法は複数のモデルの予測を組み合わせて性能を向上させるが、推論時に計算コストを大幅に高める必要がある。 これらのコストを回避するために、複数のニューラルネットワークを重みを平均することで1つにまとめることができる。 しかし、これは通常、センシングよりも著しく悪くなる。 ウェイト平均化は、それらを組み合わせることで利益を得るのに十分な違いがある場合にのみ有益である。 この考え方に基づき, センシングの汎用性と重量平均化の効率を組み合わせる手法として, 集団パラメータ平均化(papa)を提案する。 PAPAは多様なモデル(異なるデータ順序、拡張、正規化に基づいて訓練された)の集団を活用しながら、ネットワークの重みを徐々に重みの平均まで押し上げている。 PAPAは平均化とアンサンブルのパフォーマンスギャップを減らし、CIFAR-10では0.8%、CIFAR-100では1.9%、ImageNetでは1.6%となる。

Ensemble methods combine the predictions of multiple models to improve performance, but they require significantly higher computation costs at inference time. To avoid these costs, multiple neural networks can be combined into one by averaging their weights. However, this usually performs significantly worse than ensembling. Weight averaging is only beneficial when different enough to benefit from combining them, but similar enough to average well. Based on this idea, we propose PopulAtion Parameter Averaging (PAPA): a method that combines the generality of ensembling with the efficiency of weight averaging. PAPA leverages a population of diverse models (trained on different data orders, augmentations, and regularizations) while slowly pushing the weights of the networks toward the population average of the weights. PAPA reduces the performance gap between averaging and ensembling, increasing the average accuracy of a population of models by up to 0.8% on CIFAR-10, 1.9% on CIFAR-100, and 1.6% on ImageNet when compared to training independent (non-averaged) models.
翻訳日:2023-05-26 01:35:53 公開日:2023-05-24
# 単調関数の固有学習--ブラックボックス補正障壁を越えて

Agnostic proper learning of monotone functions: beyond the black-box correction barrier ( http://arxiv.org/abs/2304.02700v3 )

ライセンス: Link先を確認
Jane Lange and Arsen Vasilyan(参考訳) 単調ブール関数に対する最初の非依存的,効率的,適切な学習アルゴリズムを提案する。 2^{\tilde{o}(\sqrt{n}/\varepsilon)}$ 未知の関数 $f:\{\pm 1\}^n \rightarrow \{\pm 1\}$ の一様ランダムな例を与えると、アルゴリズムは仮説 $g:\{\pm 1\}^n \rightarrow \{\pm 1\}$ を単調で$(\mathrm{opt} + \varepsilon)$-close to $f$ として出力する。 The running time of the algorithm (and consequently the size and evaluation time of the hypothesis) is also $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$, nearly matching the lower bound of Blais et al (RANDOM '15). We also give an algorithm for estimating up to additive error $\varepsilon$ the distance of an unknown function $f$ to monotone using a run-time of $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$. Previously, for both of these problems, sample-efficient algorithms were known, but these algorithms were not run-time efficient. Our work thus closes this gap in our knowledge between the run-time and sample complexity. This work builds upon the improper learning algorithm of Bshouty and Tamon (JACM '96) and the proper semiagnostic learning algorithm of Lange, Rubinfeld, and Vasilyan (FOCS '22), which obtains a non-monotone Boolean-valued hypothesis, then ``corrects'' it to monotone using query-efficient local computation algorithms on graphs. このブラックボックス補正アプローチは、2\mathrm{opt} + \varepsilon$ information-theoretically 以上の誤差を達成でき、この障壁をバイパスする。 a)不適切な学習者を凸最適化ステップで増強し、 b) 値がブールに丸まる前に実値関数を学習し、修正すること。 実数値補正アルゴリズムは,非ボアラベルを持つ一般ポセット上の関数 [lrv22] の ``poset sorting''' 問題を解く。

We give the first agnostic, efficient, proper learning algorithm for monotone Boolean functions. Given $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$ uniformly random examples of an unknown function $f:\{\pm 1\}^n \rightarrow \{\pm 1\}$, our algorithm outputs a hypothesis $g:\{\pm 1\}^n \rightarrow \{\pm 1\}$ that is monotone and $(\mathrm{opt} + \varepsilon)$-close to $f$, where $\mathrm{opt}$ is the distance from $f$ to the closest monotone function. The running time of the algorithm (and consequently the size and evaluation time of the hypothesis) is also $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$, nearly matching the lower bound of Blais et al (RANDOM '15). We also give an algorithm for estimating up to additive error $\varepsilon$ the distance of an unknown function $f$ to monotone using a run-time of $2^{\tilde{O}(\sqrt{n}/\varepsilon)}$. Previously, for both of these problems, sample-efficient algorithms were known, but these algorithms were not run-time efficient. Our work thus closes this gap in our knowledge between the run-time and sample complexity. This work builds upon the improper learning algorithm of Bshouty and Tamon (JACM '96) and the proper semiagnostic learning algorithm of Lange, Rubinfeld, and Vasilyan (FOCS '22), which obtains a non-monotone Boolean-valued hypothesis, then ``corrects'' it to monotone using query-efficient local computation algorithms on graphs. This black-box correction approach can achieve no error better than $2\mathrm{opt} + \varepsilon$ information-theoretically; we bypass this barrier by a) augmenting the improper learner with a convex optimization step, and b) learning and correcting a real-valued function before rounding its values to Boolean. Our real-valued correction algorithm solves the ``poset sorting'' problem of [LRV22] for functions over general posets with non-Boolean labels.
翻訳日:2023-05-26 01:35:32 公開日:2023-05-24
# 局所内在的次元エントロピー

Local Intrinsic Dimensional Entropy ( http://arxiv.org/abs/2304.02223v3 )

ライセンス: Link先を確認
Rohan Ghosh, Mehul Motani(参考訳) ほとんどのエントロピー測度は、サンプル空間 $\mathcal{X}$ 上の確率分布の拡散に依存し、最大エントロピー到達スケールはサンプル空間の濃度 $|\mathcal{X}|$ に比例する。 有限の $|\mathcal{X}|$ に対して、これは双射への不変性のような多くの重要な性質を満たす頑健なエントロピー測度をもたらすが、連続空間に対しては同じことが成り立たない($|\mathcal{X}|=\infty$)。 さらに、$\mathbb{R}$ と $\mathbb{R}^d$ (d\in \mathbb{Z}^+$) は(カントールの対応論から)同じ濃度を持つので、濃度依存エントロピー測度はデータの次元を符号化できない。 本研究では,連続空間におけるエントロピー測度の定義における濃度と分布の広がりの役割について疑問視する。 分布の局所固有次元の平均値は、ID-エントロピー(ID-Entropy)と呼ばれ、連続空間の強エントロピー測度として機能し、データの次元を捉えることができる。 ID-エントロピーは多くの望ましい性質を満足し、条件付きエントロピー、関節エントロピー、相互情報不変量にまで拡張できる。 ID-エントロピーは新たな情報ボトルネックの原則と因果関係ももたらします。 ディープラーニングの文脈では、フィードフォワードアーキテクチャにおいて、ターゲット関数がリプシッツ連続であるとき、隠れ層のIDエントロピーが、分類器とオートエンコーダの両方の一般化ギャップを直接制御していることを示す。 本研究は, 連続空間において, 統計的アプローチではなく構造的手法を用いると, 内在的なデータ次元を保存するエントロピー尺度が得られ, 各種アーキテクチャの研究に関係があることを主に示している。

Most entropy measures depend on the spread of the probability distribution over the sample space $\mathcal{X}$, and the maximum entropy achievable scales proportionately with the sample space cardinality $|\mathcal{X}|$. For a finite $|\mathcal{X}|$, this yields robust entropy measures which satisfy many important properties, such as invariance to bijections, while the same is not true for continuous spaces (where $|\mathcal{X}|=\infty$). Furthermore, since $\mathbb{R}$ and $\mathbb{R}^d$ ($d\in \mathbb{Z}^+$) have the same cardinality (from Cantor's correspondence argument), cardinality-dependent entropy measures cannot encode the data dimensionality. In this work, we question the role of cardinality and distribution spread in defining entropy measures for continuous spaces, which can undergo multiple rounds of transformations and distortions, e.g., in neural networks. We find that the average value of the local intrinsic dimension of a distribution, denoted as ID-Entropy, can serve as a robust entropy measure for continuous spaces, while capturing the data dimensionality. We find that ID-Entropy satisfies many desirable properties and can be extended to conditional entropy, joint entropy and mutual-information variants. ID-Entropy also yields new information bottleneck principles and also links to causality. In the context of deep learning, for feedforward architectures, we show, theoretically and empirically, that the ID-Entropy of a hidden layer directly controls the generalization gap for both classifiers and auto-encoders, when the target function is Lipschitz continuous. Our work primarily shows that, for continuous spaces, taking a structural rather than a statistical approach yields entropy measures which preserve intrinsic data dimensionality, while being relevant for studying various architectures.
翻訳日:2023-05-26 01:34:47 公開日:2023-05-24
# 巨大実スカラーKlein-Gordon量子粒子の相対論的空間局在について

On the Relativistic Spatial Localization for massive real scalar Klein-Gordon quantum particles ( http://arxiv.org/abs/2304.02133v3 )

ライセンス: Link先を確認
Valter Moretti(参考訳) D.R.Ternoによって導入された提案を厳密に分析し、PVM の Poincar\'e-共変族の観点から、Klein-Gordon 質量実粒子の空間的局所化を観測できるとする。 これらのPOVMは、実際にニュートン・ウィグナーのPVMのキネマティックな変形であることを示す。 しかしながら、これらのPOVMの1つの最初のモーメントは、ニュートン・ウィグナー自己随伴位置作用素の制限(コア上の)と正確に一致するが、2番目のモーメントは一致しない。 この事実はニュートン・ウィグナー位置のよい性質をすべて保存することができ、ヘーガーフェルト定理から生じる非物理的特徴を排除できる。 POVMは空間的に急激な局所状態を認めないが、任意の精度でほぼ局所状態の族を認める。 次に、D.P.L.Castrigianoが導入した、ミンコフスキー参照フレームのLebesgue測定可能な空間領域に関する因果時間的発展に関する要件の一部を満たすことを確立する。 完全なカスティーリャーノの因果関係要件の妥当性は、テルノの因果関係を自然な方法で一般化する空間的局在の概念にも証明される。

I rigorously analyze a proposal, introduced by D.R.Terno, about a spatial localization observable for a Klein-Gordon massive real particle in terms of a Poincar\'e-covariant family of POVMs. I prove that these POVMs are actually a kinematic deformation of the Newton-Wigner PVMs. The first moment of one of these POVMs however exactly coincides with a restriction (on a core) of the Newton-Wigner selfadjoint position operator, though the second moment does not. This fact permits to preserve all nice properties of the Newton-Wigner position observable, dropping the unphysical features arising from the Hegerfeldt theorem. The considered POVM does not permit spatially sharply localized states, but it admits families of almost localized states with arbitrary precision. Next, I establish that the Terno localization observable satisfies part of a requirement introduced by D.P.L.Castrigiano about causal temporal evolution concerning the Lebesgue measurable spatial regions of any Minkowskian reference frame. The validity of the complete Castrigiano's causality requirement is also proved for a notion of spatial localization which generalizes Terno's one in a natural way.
翻訳日:2023-05-26 01:34:08 公開日:2023-05-24
# 正の半定値モデルによる確率微分方程式の効率的なサンプリング

Efficient Sampling of Stochastic Differential Equations with Positive Semi-Definite Models ( http://arxiv.org/abs/2303.17109v2 )

ライセンス: Link先を確認
Anant Raj, Umut \c{S}im\c{s}ekli and Alessandro Rudi(参考訳) 本稿では,ドリフト関数と拡散行列を与えられた確率微分方程式からの効率的なサンプリングの問題を扱う。 提案手法は近年の確率モデル cite{rudi2021psd} (正の半定値-PSDモデル) を利用しており、これは独立で同一に分布したサンプルを精度$\varepsilon$で得ることができ、コストは$m^2 d \log(1/\varepsilon)$$m$はモデルの次元、$d$は空間の次元である。 まず、SDEに関連するフォッカー・プランク方程式(またはその分数変量)を満足するPSDモデルを計算し、エラー$\varepsilon$まで計算し、その結果のPSDモデルからサンプリングする。 Fokker-Planck 解の正則性 (例えば $\beta$-times differentiability と 0 上の幾何条件) を仮定すると、以下のアルゴリズムが得られる。 (a) 予備相において、方程式の解から L2 距離 $\varepsilon$ の PSD モデルを得るが、次元 $m = \varepsilon^{-(d+1)/(\beta-2s)} (\log(1/\varepsilon))^{d+1}$ ここで、1/2\leq s\leq1$ はラプラシアンの分数乗であり、合計計算複雑性は$O(m^{3.5} \log(1/\varepsilon)$ となる。 (b)fokker-planck方程式では、サンプル毎に$o(d \varepsilon^{-2(d+1)/\beta-2} \log(1/\varepsilon)^{2d+3})$というコストで、waserstein-1距離の誤差$\varepsilon$のi.i.d.\サンプルを生成することができる。 これは、sde に付随する確率が幾分正則であれば、すなわち $\beta \geq 4d+2$ であるなら、各サンプルに対して $o(\varepsilon^{-0.88} \log(1/\varepsilon)^{4.5d})$ と $o(\varepsilon^{-1/2}\log(1/\varepsilon)^{2d+2}) が必要であることを意味する。 以上より, 真の解がより滑らかになるにつれて, 次元の呪いを回避できる可能性が示唆された。

This paper deals with the problem of efficient sampling from a stochastic differential equation, given the drift function and the diffusion matrix. The proposed approach leverages a recent model for probabilities \cite{rudi2021psd} (the positive semi-definite -- PSD model) from which it is possible to obtain independent and identically distributed (i.i.d.) samples at precision $\varepsilon$ with a cost that is $m^2 d \log(1/\varepsilon)$ where $m$ is the dimension of the model, $d$ the dimension of the space. The proposed approach consists in: first, computing the PSD model that satisfies the Fokker-Planck equation (or its fractional variant) associated with the SDE, up to error $\varepsilon$, and then sampling from the resulting PSD model. Assuming some regularity of the Fokker-Planck solution (i.e. $\beta$-times differentiability plus some geometric condition on its zeros) We obtain an algorithm that: (a) in the preparatory phase obtains a PSD model with L2 distance $\varepsilon$ from the solution of the equation, with a model of dimension $m = \varepsilon^{-(d+1)/(\beta-2s)} (\log(1/\varepsilon))^{d+1}$ where $1/2\leq s\leq1$ is the fractional power to the Laplacian, and total computational complexity of $O(m^{3.5} \log(1/\varepsilon))$ and then (b) for Fokker-Planck equation, it is able to produce i.i.d.\ samples with error $\varepsilon$ in Wasserstein-1 distance, with a cost that is $O(d \varepsilon^{-2(d+1)/\beta-2} \log(1/\varepsilon)^{2d+3})$ per sample. This means that, if the probability associated with the SDE is somewhat regular, i.e. $\beta \geq 4d+2$, then the algorithm requires $O(\varepsilon^{-0.88} \log(1/\varepsilon)^{4.5d})$ in the preparatory phase, and $O(\varepsilon^{-1/2}\log(1/\varepsilon)^{2d+2})$ for each sample. Our results suggest that as the true solution gets smoother, we can circumvent the curse of dimensionality without requiring any sort of convexity.
翻訳日:2023-05-26 01:33:16 公開日:2023-05-24
# IconShop: 自動回帰変換器を用いたテキストガイドベクトルアイコン合成

IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers ( http://arxiv.org/abs/2304.14400v2 )

ライセンス: Link先を確認
Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao(参考訳) Scalable Vector Graphics (SVG)は、対話性とアニメーションの優れたサポートを提供する人気のあるベクトル画像フォーマットである。 その魅力的な特徴にもかかわらず、SVG文法の理解やプロの編集ソフトに慣れるために必要な学習曲線が急激なため、ユーザにとってカスタムSVGコンテンツの作成は困難である。 近年のテキスト対画像生成の進歩は、テキスト対画像生成モデルと画像ベクトル化を組み合わせた画像ベース手法(例:テキスト ->ラスター画像 ->ベクターグラフィックス)と、事前学習された大規模言語モデルによる言語ベース手法(例:テキスト ->ベクターグラフィックススクリプト)のどちらでもベクターグラフィックス合成を探求するきっかけとなった。 しかし、これらの手法は、生成品質、多様性、柔軟性の限界に悩まされている。 本稿では,自動回帰変換器を用いたテキスト誘導ベクトルアイコン合成法であるIconShopを紹介する。 このアプローチの成功の鍵は、SVGパス(およびガイダンスとしてのテキスト記述)をユニークなデオード可能なトークンシーケンスにシーケンシャル化し、トークン化することです。 これにより、自動回帰変換器のシーケンス学習能力をフル活用し、無条件およびテキスト条件のアイコン合成を可能にする。 テキスト記述を伴う大規模ベクトルアイコンデータセット上で次のトークンを予測するための標準的なトレーニングを通じて、提案したIconShopは、既存の画像ベースおよび言語ベースの方法よりも定量的かつ定性的に優れたアイコン合成能力を示す。 一方,世代多様性の劇的な改善は,客観的な一意性と新規性尺度によって検証される。 さらに,アイコン編集,アイコン補間,アイコンセマンティクスの組み合わせ,アイコンデザインの自動表示など,複数の新しいアイコン合成タスクを備えたアイコンショップの柔軟性を示す。

Scalable Vector Graphics (SVG) is a popular vector image format that offers good support for interactivity and animation. Despite its appealing characteristics, creating custom SVG content can be challenging for users due to the steep learning curve required to understand SVG grammars or get familiar with professional editing software. Recent advancements in text-to-image generation have inspired researchers to explore vector graphics synthesis using either image-based methods (i.e., text -> raster image -> vector graphics) combining text-to-image generation models with image vectorization, or language-based methods (i.e., text -> vector graphics script) through pretrained large language models. However, these methods still suffer from limitations in terms of generation quality, diversity, and flexibility. In this paper, we introduce IconShop, a text-guided vector icon synthesis method using autoregressive transformers. The key to success of our approach is to sequentialize and tokenize SVG paths (and textual descriptions as guidance) into a uniquely decodable token sequence. With that, we are able to fully exploit the sequence learning power of autoregressive transformers, while enabling both unconditional and text-conditioned icon synthesis. Through standard training to predict the next token on a large-scale vector icon dataset accompanied by textural descriptions, the proposed IconShop consistently exhibits better icon synthesis capability than existing image-based and language-based methods both quantitatively and qualitatively. Meanwhile, we observe a dramatic improvement in generation diversity, which is validated by the objective Uniqueness and Novelty measures. More importantly, we demonstrate the flexibility of IconShop with multiple novel icon synthesis tasks, including icon editing, icon interpolation, icon semantic combination, and icon design auto-suggestion.
翻訳日:2023-05-26 01:25:49 公開日:2023-05-24
# aiモデルにおけるバイアスの測定:n-シグマを用いた統計的アプローチ

Measuring Bias in AI Models: An Statistical Approach Introducing N-Sigma ( http://arxiv.org/abs/2304.13680v2 )

ライセンス: Link先を確認
Daniel DeAlcala, Ignacio Serna, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia(参考訳) 欧州委員会が公表した人工知能(AI)に関する新たな規制枠組みの提案は、新たなリスクベースの法的アプローチを確立している。 この提案は、AIのさまざまな用途に対する適切なリスクアセスメントを開発する必要性を強調している。 このリスク評価は、AIにおけるバイアスの検出と緩和に対処する必要がある。 本研究では,自動意思決定システムにおけるバイアスを測定する統計的アプローチを分析する。 私たちの実験は顔認識技術に焦点を合わせます。 我々は,N-Sigma法に基づく統計的手法を用いて,機械学習モデルのバイアスを測定する新しい手法を提案する。 n-sigmaは、物理学や社会分野などの一般科学における仮説を検証するために使われる一般的な統計手法であり、機械学習への応用はまだ未定である。 本研究では,バイアス分析に基づく新たなリスクアセスメントフレームワークの開発にこの手法を適用する方法について検討し,他の統計検査に対する主な利点と欠点について考察する。

The new regulatory framework proposal on Artificial Intelligence (AI) published by the European Commission establishes a new risk-based legal approach. The proposal highlights the need to develop adequate risk assessments for the different uses of AI. This risk assessment should address, among others, the detection and mitigation of bias in AI. In this work we analyze statistical approaches to measure biases in automatic decision-making systems. We focus our experiments in face recognition technologies. We propose a novel way to measure the biases in machine learning models using a statistical approach based on the N-Sigma method. N-Sigma is a popular statistical approach used to validate hypotheses in general science such as physics and social areas and its application to machine learning is yet unexplored. In this work we study how to apply this methodology to develop new risk assessment frameworks based on bias analysis and we discuss the main advantages and drawbacks with respect to other popular statistical tests.
翻訳日:2023-05-26 01:25:08 公開日:2023-05-24
# 高効率・長期依存学習能力を有する平行スパイキングニューロン

Parallel Spiking Neurons with High Efficiency and Ability to Learn Long-term Dependencies ( http://arxiv.org/abs/2304.12760v2 )

ライセンス: Link先を確認
Wei Fang, Zhaofei Yu, Zhaokun Zhou, Ding Chen, Yanqi Chen, Zhengyu Ma, Timoth\'ee Masquelier, Yonghong Tian(参考訳) スパイキングニューラルネットワーク(SNN)のバニラスパイクニューロンは、チャージ・ファイア・リセット・ニューラルダイナミクスを使用しており、連続的にシミュレートするだけで、長期間の依存関係を学べない。 リセットを取り除くと、ニューロンのダイナミクスは非イテレーティブな形で再構成され、並列化される。 一般の定式化によらずに神経力学を書き換えることにより、前者とは独立に隠れた状態を生成するパラレルスパイキングニューロン(PSN)を提案し、並列化可能な神経力学と極めて高いシミュレーション速度をもたらす。 PSNにおける入力の重みは完全連結であり、時間情報の利用を最大化する。 ステップバイステップ推論のための将来の入力の使用を避けるために、psnの重みをマスキングすることができ、その結果、マスキングpsnとなる。 マスク付きPSNに基づいて時間ステップ間で重みを共有することにより、様々な長さのシーケンスを処理するためのスライディングPSNを提案する。 シミュレーション速度と時間・静的データ分類におけるpsnファミリーの評価を行い,psnファミリーの効率と精度において圧倒的な優位性を示した。 私たちの知る限りでは、これはスパイクニューロンの並列化に関する最初の研究であり、スパイク深層学習研究の基礎となる可能性がある。 我々のコードは \url{https://github.com/fangwei123456/Parallel-Spiking-Neuron} で公開されている。

Vanilla spiking neurons in Spiking Neural Networks (SNNs) use charge-fire-reset neuronal dynamics, which can only be simulated serially and can hardly learn long-time dependencies. We find that when removing reset, the neuronal dynamics can be reformulated in a non-iterative form and parallelized. By rewriting neuronal dynamics without reset to a general formulation, we propose the Parallel Spiking Neuron (PSN), which generates hidden states that are independent of their predecessors, resulting in parallelizable neuronal dynamics and extremely high simulation speed. The weights of inputs in the PSN are fully connected, which maximizes the utilization of temporal information. To avoid the use of future inputs for step-by-step inference, the weights of the PSN can be masked, resulting in the masked PSN. By sharing weights across time-steps based on the masked PSN, the sliding PSN is proposed to handle sequences of varying lengths. We evaluate the PSN family on simulation speed and temporal/static data classification, and the results show the overwhelming advantage of the PSN family in efficiency and accuracy. To the best of our knowledge, this is the first study about parallelizing spiking neurons and can be a cornerstone for the spiking deep learning research. Our codes are available at \url{https://github.com/fangwei123456/Parallel-Spiking-Neuron}.
翻訳日:2023-05-26 01:24:54 公開日:2023-05-24
# ラテント分類器誘導による合成視覚生成の探索

Exploring Compositional Visual Generation with Latent Classifier Guidance ( http://arxiv.org/abs/2304.12536v2 )

ライセンス: Link先を確認
Changhao Shi, Haomiao Ni, Kai Li, Shaobo Han, Mingfu Liang, Martin Renqiang Min(参考訳) 拡散確率モデルは画像生成と操作の分野で大きな成功を収めている。 本稿では,合成視覚タスクの潜在意味空間における拡散モデルと分類器指導を用いた新しいパラダイムについて検討する。 具体的には、有意味な潜在空間を持つ任意の事前学習された生成モデルに対して、潜在拡散モデルと補助潜在分類器を訓練し、潜在表現生成の非線形ナビゲーションを容易にする。 潜在分類器指導による条件付き生成は,訓練中の条件付きログ確率の下限を最大化する。 操作中に元のセマンティクスを維持するために,合成性を達成する上で重要な新しい指導用語を導入する。 さらなる仮定により、非線形演算は単純な潜在算術的アプローチに還元されることを示す。 潜在分類器指導に基づくこのパラダイムは,事前学習した生成モデルと無関係であり,実画像および合成画像の逐次操作と画像生成における競合結果を示す。 以上の結果から,潜在型分類法は,他の強力な競合手法が存在する場合でも,さらなる探索に役立つ有望なアプローチであることが示唆された。

Diffusion probabilistic models have achieved enormous success in the field of image generation and manipulation. In this paper, we explore a novel paradigm of using the diffusion model and classifier guidance in the latent semantic space for compositional visual tasks. Specifically, we train latent diffusion models and auxiliary latent classifiers to facilitate non-linear navigation of latent representation generation for any pre-trained generative model with a semantic latent space. We demonstrate that such conditional generation achieved by latent classifier guidance provably maximizes a lower bound of the conditional log probability during training. To maintain the original semantics during manipulation, we introduce a new guidance term, which we show is crucial for achieving compositionality. With additional assumptions, we show that the non-linear manipulation reduces to a simple latent arithmetic approach. We show that this paradigm based on latent classifier guidance is agnostic to pre-trained generative models, and present competitive results for both image generation and sequential manipulation of real and synthetic images. Our findings suggest that latent classifier guidance is a promising approach that merits further exploration, even in the presence of other strong competing methods.
翻訳日:2023-05-26 01:24:31 公開日:2023-05-24
# なぜChatGPTは真に答えるに足りないのか?

Why Does ChatGPT Fall Short in Providing Truthful Answers? ( http://arxiv.org/abs/2304.10513v2 )

ライセンス: Link先を確認
Shen Zheng, Jie Huang, Kevin Chen-Chuan Chang(参考訳) ChatGPTのような大規模言語モデルの最近の進歩は、人間の生活の様々な側面に影響を与える大きな可能性を示している。 しかし、ChatGPTは、正確で信頼性の高いアウトプットを提供するなど、真理性などの面において依然として課題に直面している。 そこで本稿では,ChatGPTが真に答えられない理由を考察する。 この目的のために,まずchatgptの障害を複雑なオープンドメイン質問応答で解析し,その障害下の能力を特定する。 具体的には、chatgptの失敗を理解、事実性、特異性、推論の4つのタイプに分類する。 さらに、QA失敗に関連する3つの重要な能力、すなわち、知識記憶、知識リコール、知識推論を指摘します。 さらに,これらの能力に着目した実験を行い,真理性を高めるための潜在的アプローチを提案する。 結果は,モデルに詳細な外部知識,知識リコールのヒント,推論のガイダンスを提供することで,より真正な質問に答えることができることを示す。

Recent advancements in Large Language Models, such as ChatGPT, have demonstrated significant potential to impact various aspects of human life. However, ChatGPT still faces challenges in aspects like truthfulness, e.g. providing accurate and reliable outputs. Therefore, in this paper, we seek to understand why ChatGPT falls short in providing truthful answers. For this purpose, we first analyze the failures of ChatGPT in complex open-domain question answering and identifies the abilities under the failures. Specifically, we categorize ChatGPT's failures into four types: comprehension, factualness, specificity, and inference. We further pinpoint three critical abilities associated with QA failures: knowledge memorization, knowledge recall, and knowledge reasoning. Additionally, we conduct experiments centered on these abilities and propose potential approaches to enhance truthfulness. The results indicate that furnishing the model with fine-grained external knowledge, hints for knowledge recall, and guidance for reasoning can empower the model to answer questions more truthfully.
翻訳日:2023-05-26 01:24:13 公開日:2023-05-24
# Chameleon: 大きな言語モデルによるプラグインとプレイの合成推論

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models ( http://arxiv.org/abs/2304.09842v2 )

ライセンス: Link先を確認
Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao(参考訳) 大規模言語モデル(llm)は、創発的推論能力により、様々な自然言語処理タスクの解決において著しく進歩した。 しかし、LCMには、最新の情報(Webやタスク固有の知識ベースに格納されている)にアクセスでき、外部ツールを使用して、正確な数学的および論理的推論を行うことができないため、固有の制限がある。 本稿では,合成推論のためのプラグイン・アンド・プレイモジュールによるllmの拡張により,これらの制限を緩和するaiシステムchameleonを提案する。 chameleonは複雑な推論タスクを実現するために、様々なツール(llms、既製のビジョンモデル、web検索エンジン、python関数、ヒューリスティックベースのモジュールなど)を合成する。 chameleonの中心にあるのは、llmベースのプランナで、実行ツールのシーケンスを組み立てて最終応答を生成する。 本稿では,マルチモーダルな知識集約推論タスクであるScienceQAとTabMWPにおけるChameleonの有効性を示す。 GPT-4を動力とするシャメレオンは、ScienceQAで86.54%の精度を達成し、最も優れた数枚の撮影結果が11.37%向上した。 TabMWPでは、GPT-4搭載のChameleonが精度を17.0%向上し、98.78%に向上した。 また,gpt-4を搭載したプランナーは,chatgptを使用したプランナーと比較して,命令から潜在的な制約を推測することで,より一貫性と合理的なツール選択を示す。

Large language models (LLMs) have achieved remarkable progress in solving various natural language processing tasks due to emergent reasoning abilities. However, LLMs have inherent limitations as they are incapable of accessing up-to-date information (stored on the Web or in task-specific knowledge bases), using external tools, and performing precise mathematical and logical reasoning. In this paper, we present Chameleon, an AI system that mitigates these limitations by augmenting LLMs with plug-and-play modules for compositional reasoning. Chameleon synthesizes programs by composing various tools (e.g., LLMs, off-the-shelf vision models, web search engines, Python functions, and heuristic-based modules) for accomplishing complex reasoning tasks. At the heart of Chameleon is an LLM-based planner that assembles a sequence of tools to execute to generate the final response. We showcase the effectiveness of Chameleon on two multi-modal knowledge-intensive reasoning tasks: ScienceQA and TabMWP. Chameleon, powered by GPT-4, achieves an 86.54% overall accuracy on ScienceQA, improving the best published few-shot result by 11.37%. On TabMWP, GPT-4-powered Chameleon improves the accuracy by 17.0%, lifting the state of the art to 98.78%. Our analysis also shows that the GPT-4-powered planner exhibits more consistent and rational tool selection via inferring potential constraints from instructions, compared to a ChatGPT-powered planner.
翻訳日:2023-05-26 01:23:59 公開日:2023-05-24
# PTW:Pivotal Tuning Watermarking for Pre-Trained Image Generators

PTW: Pivotal Tuning Watermarking for Pre-Trained Image Generators ( http://arxiv.org/abs/2304.07361v2 )

ライセンス: Link先を確認
Nils Lukas, Florian Kerschbaum(参考訳) ディープフェイク(Deepfakes)とは、デジタルメディアにおける信頼を損なう可能性があるディープジェネレータを用いて合成されたコンテンツを指す。 高品質なディープフェイクの合成には、大規模で複雑なジェネレータへのアクセスが必要である。 この脅威は、提供されたモデルへのアクセスを利用して、検出を危険にさらすことなく有害なディープフェイクを生成する悪意のあるユーザーである。 ウォーターマーキングは、識別可能なコードをジェネレータに埋め込むことでディープフェイクの検出を可能にし、後に生成された画像から抽出する。 我々は,事前学習済み発電機の透かし法であるptw(pivotal tuning watermarking)を提案する。 (一)スクラッチやスクラッチの透かしより三桁速いこと (ii) トレーニングデータを必要としない。 我々は既存の透かし法を改良し、関連する作業よりも4 \times$大きいジェネレータにスケールする。 PTWは、ジェネレータの画質を良く保ちながら、既存の方法よりも長いコードを埋め込むことができる。 本研究は, 強靭性と非検出性に関する厳密なゲームベース定義を提案し, ジェネレータのパラメータを制御できる適応型ホワイトボックス攻撃に対して, 透かしが堅牢でないことを示す。 非透かし画像に対してわずか200ドルしかアクセスできない透かしをうまく除去できる適応攻撃を提案する。 我々の研究は、発電機のパラメータが利用できる場合、ディープフェイク検出のための透かしの信頼性に挑戦する。 実験を再現するソースコードはhttps://github.com/dnn-security/gan-watermark.comで公開されている。

Deepfakes refer to content synthesized using deep generators, which, when misused, have the potential to erode trust in digital media. Synthesizing high-quality deepfakes requires access to large and complex generators only a few entities can train and provide. The threat is malicious users that exploit access to the provided model and generate harmful deepfakes without risking detection. Watermarking makes deepfakes detectable by embedding an identifiable code into the generator that is later extractable from its generated images. We propose Pivotal Tuning Watermarking (PTW), a method for watermarking pre-trained generators (i) three orders of magnitude faster than watermarking from scratch and (ii) without the need for any training data. We improve existing watermarking methods and scale to generators $4 \times$ larger than related work. PTW can embed longer codes than existing methods while better preserving the generator's image quality. We propose rigorous, game-based definitions for robustness and undetectability and our study reveals that watermarking is not robust against an adaptive white-box attacker who has control over the generator's parameters. We propose an adaptive attack that can successfully remove any watermarking with access to only $200$ non-watermarked images. Our work challenges the trustworthiness of watermarking for deepfake detection when the parameters of a generator are available. Source code to reproduce our experiments is available at https://github.com/dnn-security/gan-watermark.
翻訳日:2023-05-26 01:23:31 公開日:2023-05-24
# 実世界データを用いた鉄道車両の軸受故障検出のための空中音響解析

Airborne Sound Analysis for the Detection of Bearing Faults in Railway Vehicles with Real-World Data ( http://arxiv.org/abs/2304.07307v2 )

ライセンス: Link先を確認
Matthias Kreuzer, David Schmidt, Simon Wokusch, Walter Kellermann(参考訳) 本稿では,定期運転中に記録された音響信号を解析し,鉄道車両の軸受障害の検出に関する課題を解決する。 本研究では,メル周波数ケプストラム係数 (mel frequency cepstral coefficients, mfccs) を特徴として紹介する。 提案手法は,現在最先端の通勤鉄道車両を対象とした実測データを用いて評価を行った。 実験の結果,MFCCが選択した断層を有する特徴は,トレーニングに含まれていない損傷に対しても確実に検出できることがわかった。

In this paper, we address the challenging problem of detecting bearing faults in railway vehicles by analyzing acoustic signals recorded during regular operation. For this, we introduce Mel Frequency Cepstral Coefficients (MFCCs) as features, which form the input to a simple Multi-Layer Perceptron classifier. The proposed method is evaluated with real-world data that was obtained for state-of-the-art commuter railway vehicles in a measurement campaign. The experiments show that with the chosen MFCC features bearing faults can be reliably detected even for bearing damages that were not included in training.
翻訳日:2023-05-26 01:23:08 公開日:2023-05-24
# ICPHM 2023データチャレンジにおける1次元残差畳み込みニューラルネットワークとデータ拡張と正規化

1-D Residual Convolutional Neural Network coupled with Data Augmentation and Regularization for the ICPHM 2023 Data Challenge ( http://arxiv.org/abs/2304.07305v2 )

ライセンス: Link先を確認
Matthias Kreuzer, Walter Kellermann(参考訳) 本稿では,振動解析を用いた産業システムの健康モニタリングにおけるICPHM 2023データチャレンジへの貢献について述べる。 ギアボックス内の太陽ギア故障の分類を行うために, 生の3チャンネル時間領域振動信号を用いた残差畳み込みニューラルネットワークを提案する。 データ拡張と正規化の手法と合わせて,3万以上のトレーニング可能なパラメータが比較的小さい実世界のデータを用いたマルチクラス分類シナリオにおいて,提案モデルは非常に良好な結果が得られる。 複数の動作条件から得られたデータを提示しても、ネットワークは検査中のギアボックスの状態を正確に予測することができる。

In this article, we present our contribution to the ICPHM 2023 Data Challenge on Industrial Systems' Health Monitoring using Vibration Analysis. For the task of classifying sun gear faults in a gearbox, we propose a residual Convolutional Neural Network that operates on raw three-channel time-domain vibration signals. In conjunction with data augmentation and regularization techniques, the proposed model yields very good results in a multi-class classification scenario with real-world data despite its relatively small size, i.e., with less than 30,000 trainable parameters. Even when presented with data obtained from multiple operating conditions, the network is still capable to accurately predict the condition of the gearbox under inspection.
翻訳日:2023-05-26 01:22:58 公開日:2023-05-24
# 実存一階問合せの再考と知識グラフによる推論

Rethinking Existential First Order Queries and their Inference on Knowledge Graphs ( http://arxiv.org/abs/2304.07063v2 )

ライセンス: Link先を確認
Hang Yin, Zihao Wang, Yangqiu Song(参考訳) 知識グラフの推論は、観測情報を利用して欠落を予測できるため、難しい課題である。 特に、一階述語論理式への応答は、その明確な構文と意味論のため、特に興味深い。 近年,エンティティの集合の埋め込みを学習し,論理演算を集合演算として扱うクエリ埋め込みが主流となっている。 同じ方法論を踏襲する研究が数多く行われているが、論理学の観点からは体系的な検査が欠けている。 本稿では,前回調査した問合せの範囲を特徴とし,それと実数式全体のギャップを正確に同定する。 さらに,10の新しい公式を含む新しいデータセットを開発し,同時に発生する新しい課題について議論する。 最後に,証明可能な推論能力を持つファジィ論理理論からの新しい推論アルゴリズムを提案する。 実験の結果,新しいデータセットと既存のデータセットの両方において,従来の手法を上回ることに成功していることがわかった。

Reasoning on knowledge graphs is a challenging task because it utilizes observed information to predict the missing one. Specifically, answering first-order logic formulas is of particular interest, because of its clear syntax and semantics. Recently, the prevailing method is query embedding which learns the embedding of a set of entities and treats logic operations as set operations. Though there has been much research following the same methodology, it lacks a systematic inspection from the standpoint of logic. In this paper, we characterize the scope of queries investigated previously and precisely identify the gap between it and the whole family of existential formulas. Moreover, we develop a new dataset containing ten new formulas and discuss the new challenges arising concurrently. Finally, we propose a new inference algorithm from fuzzy logic theory with provable reasoning capability. Empirical results show that our method succeeds in outperforming the previous methods in both the new dataset and the existing dataset.
翻訳日:2023-05-26 01:22:45 公開日:2023-05-24
# リアルタイムASLジェスチャー認識のためのメディアパイプとCNN

Mediapipe and CNNs for Real-Time ASL Gesture Recognition ( http://arxiv.org/abs/2305.05296v3 )

ライセンス: Link先を確認
Rupesh Kumar, Ashutosh Bajpai, Ayush Sinha (Galgotias college of Engineering and Technology)(参考訳) 本稿では,現代のコンピュータビジョンと機械学習のアプローチを用いた,アメリカ手話(ASL)運動のリアルタイム同定システムについて述べる。 提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。 実験の結果、提案システムは99.95%の精度で全てのASLアルファベットを検出でき、聴覚障害者のための通信機器としての可能性を示している。 提案手法は手の動きが類似した手話にも適用可能であり, 難聴者の生活の質を高める可能性がある。 全体として、本研究は、mediapipeとcnnを用いたリアルタイム手話認識の有効性を示し、コンピュータビジョンと機械学習の分野で大きな貢献をした。

This research paper describes a realtime system for identifying American Sign Language (ASL) movements that employs modern computer vision and machine learning approaches. The suggested method makes use of the Mediapipe library for feature extraction and a Convolutional Neural Network (CNN) for ASL gesture classification. The testing results show that the suggested system can detect all ASL alphabets with an accuracy of 99.95%, indicating its potential for use in communication devices for people with hearing impairments. The proposed approach can also be applied to additional sign languages with similar hand motions, potentially increasing the quality of life for people with hearing loss. Overall, the study demonstrates the effectiveness of using Mediapipe and CNN for real-time sign language recognition, making a significant contribution to the field of computer vision and machine learning.
翻訳日:2023-05-26 01:14:19 公開日:2023-05-24
# 観測不能変数による因果発見:確率変数アプローチ

Causal Discovery with Unobserved Variables: A Proxy Variable Approach ( http://arxiv.org/abs/2305.05281v2 )

ライセンス: Link先を確認
Mingzhou Liu, Xinwei Sun, Yu Qiao, Yizhou Wang(参考訳) 観測データから因果関係を発見することは重要である。 潜在的共同設立者や仲介者のような未観測変数の存在は、因果同定を誤解させる可能性がある。 この問題に対処するために、観測されていない変数のプロキシでバイアスを調整するために、近因性発見法を提案する。 しかし、これらの手法はデータの離散性を仮定し、実際の応用を制限する。 本稿では,連続変数を適切に処理できる近位因果発見法を提案する。 我々の観察では、連続変数の離散化は重大なエラーを引き起こし、プロキシのパワーを構成する可能性がある。 したがって、連続的なケースでプロキシ変数を使用する場合、重要なポイントは離散化エラーを制御することである。 この目的のために条件分布上の穏やかな正規性条件を同定し、プロキシが十分微細な有限ビンで離散化されている限り、離散化誤差を無限小レベルまで制御することができる。 これに基づいて,観測されていない変数が存在する場合の因果関係を同定するためのプロキシベースの仮説テストを設計する。 私たちのテストは一貫性があり、大規模なサンプルが入手可能な場合に理想的なパワーを持つ。 本手法の有効性を合成および実世界データを用いて実証する。

Discovering causal relations from observational data is important. The existence of unobserved variables, such as latent confounders or mediators, can mislead the causal identification. To address this issue, proximal causal discovery methods proposed to adjust for the bias with the proxy of the unobserved variable. However, these methods presumed the data is discrete, which limits their real-world application. In this paper, we propose a proximal causal discovery method that can well handle the continuous variables. Our observation is that discretizing continuous variables can can lead to serious errors and comprise the power of the proxy. Therefore, to use proxy variables in the continuous case, the critical point is to control the discretization error. To this end, we identify mild regularity conditions on the conditional distributions, enabling us to control the discretization error to an infinitesimal level, as long as the proxy is discretized with sufficiently fine, finite bins. Based on this, we design a proxy-based hypothesis test for identifying causal relationships when unobserved variables are present. Our test is consistent, meaning it has ideal power when large samples are available. We demonstrate the effectiveness of our method using synthetic and real-world data.
翻訳日:2023-05-26 01:14:07 公開日:2023-05-24
# プロキシ変数を用いたサブサンプル時系列からの因果発見

Causal Discovery from Subsampled Time Series with Proxy Variables ( http://arxiv.org/abs/2305.05276v2 )

ライセンス: Link先を確認
Mingzhou Liu, Xinwei Sun, Lingjing Hu, Yizhou Wang(参考訳) 時系列データから因果構造を推測することは、多くの科学調査の中心的な関心事である。 このような推論の大きな障壁は、サブサンプリングの問題、すなわち測定頻度が因果影響のそれよりもはるかに低いことである。 この問題を解決するために、多くの方法が提案されているが、線形ケースに制限されたり、識別可能性の達成に失敗したりする。 本稿では,パラメータ制約を伴わずに,サブサンプリング時系列から因果構造全体を同定する制約に基づくアルゴリズムを提案する。 我々の観察では、サブサンプリングの課題は、主に観測されていない時間ステップの隠れ変数から生じている。 一方、隠れた変数には観測可能なプロキシがあり、これは本質的には将来観測可能な時間であり、時間構造から恩恵を受ける。 これらに基づいて、プロキシを利用して隠れた変数によって引き起こされるバイアスを取り除き、identifiabilityを達成することができる。 この直感に従って,プロキシに基づく因果探索アルゴリズムを提案する。 我々のアルゴリズムは非パラメトリックであり、完全な因果識別を実現することができる。 理論上の利点は、合成および実世界の実験に反映される。

Inferring causal structures from time series data is the central interest of many scientific inquiries. A major barrier to such inference is the problem of subsampling, i.e., the frequency of measurement is much lower than that of causal influence. To overcome this problem, numerous methods have been proposed, yet either was limited to the linear case or failed to achieve identifiability. In this paper, we propose a constraint-based algorithm that can identify the entire causal structure from subsampled time series, without any parametric constraint. Our observation is that the challenge of subsampling arises mainly from hidden variables at the unobserved time steps. Meanwhile, every hidden variable has an observed proxy, which is essentially itself at some observable time in the future, benefiting from the temporal structure. Based on these, we can leverage the proxies to remove the bias induced by the hidden variables and hence achieve identifiability. Following this intuition, we propose a proxy-based causal discovery algorithm. Our algorithm is nonparametric and can achieve full causal identification. Theoretical advantages are reflected in synthetic and real-world experiments.
翻訳日:2023-05-26 01:13:48 公開日:2023-05-24
# AlignSTS: クロスモーダルアライメントによる音声対歌変換

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment ( http://arxiv.org/abs/2305.04476v4 )

ライセンス: Link先を確認
Ruiqi Li, Rongjie Huang, Lichao Zhang, Jinglin Liu, Zhou Zhao(参考訳) 音声認識(sts)音声変換タスクは、音声録音に対応する歌唱サンプルを生成することを目的としており、ターゲット(音声)ピッチ輪郭とソース(音声)コンテンツとのアライメントは、テキストのない状況では学習が困難である。 本稿では,音節や内容などの発話の相違を異なるモーダル性として捉えた,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。 人間がメロディの歌詞を歌うメカニズムに触発されたAlignSTS: 1)新規なリズム適応器を採用して、目標リズム表現を予測し、そのリズム表現が単純で効果的な方法で計算され、離散空間に量子化される、内容とピッチの間のモダリティギャップを橋渡しする。 2) 予測リズム表現を用いて, クロスアテンションに基づいてコンテンツを再調整し, 再合成のためのクロスモーダル融合を行う。 大規模な実験では、AlignSTSは客観的な指標と主観的な指標の両方で優れたパフォーマンスを達成している。 オーディオサンプルはhttps://alignsts.github.ioで入手できる。

The speech-to-singing (STS) voice conversion task aims to generate singing samples corresponding to speech recordings while facing a major challenge: the alignment between the target (singing) pitch contour and the source (speech) content is difficult to learn in a text-free situation. This paper proposes AlignSTS, an STS model based on explicit cross-modal alignment, which views speech variance such as pitch and content as different modalities. Inspired by the mechanism of how humans will sing the lyrics to the melody, AlignSTS: 1) adopts a novel rhythm adaptor to predict the target rhythm representation to bridge the modality gap between content and pitch, where the rhythm representation is computed in a simple yet effective way and is quantized into a discrete space; and 2) uses the predicted rhythm representation to re-align the content based on cross-attention and conducts a cross-modal fusion for re-synthesize. Extensive experiments show that AlignSTS achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://alignsts.github.io.
翻訳日:2023-05-26 01:13:13 公開日:2023-05-24
# ガウス型コプラ混合モデルの性質について

On the properties of Gaussian Copula Mixture Models ( http://arxiv.org/abs/2305.01479v2 )

ライセンス: Link先を確認
Ke Wan, Alain Kornhauser(参考訳) 本稿では,コプラ概念を含むガウス混合モデル(gmm)の拡張であるガウスコプラ混合モデル(gcmm)について検討する。 本稿では,GCMMの数学的定義を示し,その可能性関数の性質について検討する。 さらに,コプラ混合物のパラメータを推定するための拡張期待最大アルゴリズムを提案する。 各成分に対応する限界分布を非パラメトリック統計法を用いて別々に推定する。 実験では、GCMMは同じ数のクラスタを使用する場合、GCMMと比較して適合性が改善された。 さらに、GCMMは、より包括的なデータ分析のために、次元にわたって非同期データを活用できる。

This paper investigates Gaussian copula mixture models (GCMM), which are an extension of Gaussian mixture models (GMM) that incorporate copula concepts. The paper presents the mathematical definition of GCMM and explores the properties of its likelihood function. Additionally, the paper proposes extended Expectation Maximum algorithms to estimate parameters for the mixture of copulas. The marginal distributions corresponding to each component are estimated separately using nonparametric statistical methods. In the experiment, GCMM demonstrates improved goodness-of-fitting compared to GMM when using the same number of clusters. Furthermore, GCMM has the ability to leverage un-synchronized data across dimensions for more comprehensive data analysis.
翻訳日:2023-05-26 01:12:52 公開日:2023-05-24
# 回帰における概念シフトに頑健なシェープリー値に基づく特徴選択法

A feature selection method based on Shapley values robust to concept shift in regression ( http://arxiv.org/abs/2304.14774v2 )

ライセンス: Link先を確認
Carlos Sebasti\'an and Carlos E. Gonz\'alez-Guill\'en(参考訳) 特徴選択は、統計学習モデルを作成するあらゆる方法論において、最も関連するプロセスの1つです。 一般に、既存のアルゴリズムは最も影響力のある変数を選択するための基準を確立し、関連する情報をモデルに提供しない変数を捨てる。 この手法は、データの結合分布が時間とともに変化しない古典的な静的状況において意味がある。 しかし、実際のデータを扱う場合、データセットシフトの問題、具体的には変数間の関係の変化(概念シフト)に遭遇することが一般的である。 この場合、変換フェーズで学習した関係が現在の状況と一致しないため、変数の影響はモデルの回帰子としての品質を示す唯一の指標にはならない。 そこで本研究では,この事実を考慮に入れた回帰問題に対する特徴選択手法を提案し,各変数が予測に与える影響をShapley値を用いて検討する。 4つの例は、その方法が芸術の状況と一致する典型的な状況と、イベリア市場で概念シフト現象が起こった電力価格予測に関連する1つの例に対応する。 この場合,提案アルゴリズムは結果を大幅に改善する。

Feature selection is one of the most relevant processes in any methodology for creating a statistical learning model. Generally, existing algorithms establish some criterion to select the most influential variables, discarding those that do not contribute any relevant information to the model. This methodology makes sense in a classical static situation where the joint distribution of the data does not vary over time. However, when dealing with real data, it is common to encounter the problem of the dataset shift and, specifically, changes in the relationships between variables (concept shift). In this case, the influence of a variable cannot be the only indicator of its quality as a regressor of the model, since the relationship learned in the traning phase may not correspond to the current situation. Thus, we propose a new feature selection methodology for regression problems that takes this fact into account, using Shapley values to study the effect that each variable has on the predictions. Five examples are analysed: four correspond to typical situations where the method matches the state of the art and one example related to electricity price forecasting where a concept shift phenomenon has occurred in the Iberian market. In this case the proposed algorithm improves the results significantly.
翻訳日:2023-05-26 01:12:43 公開日:2023-05-24
# 説明可能な人間のポーズの表現、分析、生成のための深部状態空間モデリング

Deep state-space modeling for explainable representation, analysis, and generation of professional human poses ( http://arxiv.org/abs/2304.14502v2 )

ライセンス: Link先を確認
Brenda Elizabeth Olivas-Padilla, Alina Glushkova, and Sotiris Manitsaris(参考訳) 人間の運動の分析は、人間とロボットの相互作用、人間の学習応用、臨床診断など、多岐にわたる実用的応用のために広く研究されている。 それでも最先端技術は、人間の動きをモデル化する科学的な課題に直面している。 まず、新しいモデルは人間の運動の確率性と人体の物理的構造を考慮し、時間の経過とともに全身運動記述体の進化を正確に予測する必要がある。 第二に、深層学習アルゴリズムを活用する一方で、人間の動きを理解できないため、身体姿勢予測における説明可能性を改善する必要がある。 本稿では,人間の運動の説明可能な表現を作成するための3つの新しい手法を導入することで,これらの課題を解決する。 本研究では,人間の身体運動をジェスチャー操作モデル(gom)の構造に準拠した状態空間モデルとして定式化し,そのパラメータをディープラーニングと統計アルゴリズムを用いて推定する。 訓練されたモデルは、身体関節間のダイナミックな関連を同定し、人工的にプロの運動を発生させる専門家の全身デクスタリティ分析に使用される。

The analysis of human movements has been extensively studied due to its wide variety of practical applications, such as human-robot interaction, human learning applications, or clinical diagnosis. Nevertheless, the state-of-the-art still faces scientific challenges when modeling human movements. To begin, new models must account for the stochasticity of human movement and the physical structure of the human body in order to accurately predict the evolution of full-body motion descriptors over time. Second, while utilizing deep learning algorithms, their explainability in terms of body posture predictions needs to be improved as they lack comprehensible representations of human movement. This paper addresses these challenges by introducing three novel methods for creating explainable representations of human movement. In this study, human body movement is formulated as a state-space model adhering to the structure of the Gesture Operational Model (GOM), whose parameters are estimated through the application of deep learning and statistical algorithms. The trained models are used for the full-body dexterity analysis of expert professionals, in which dynamic associations between body joints are identified, and for generating artificially professional movements.
翻訳日:2023-05-26 01:12:24 公開日:2023-05-24
# LaMini-LM:大規模インストラクションによる蒸留モデルの多様性

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions ( http://arxiv.org/abs/2304.14402v2 )

ライセンス: Link先を確認
Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji(参考訳) 命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。 しかし、これらのモデルはリソース集約的です。 この問題を軽減するため,命令調整型LLMからより小さなLLMへの知識の蒸留について検討する。 この目的のために,既存の命令と新規命令の両方に基づいて258万命令の大規模なセットを慎重に開発する。 拡張性に加えて、多様性を確保するために、幅広いトピックセットをカバーするための指示も設計しています。 提案手法の多様性を確認し, gpt-3.5-turbo を用いてこれらの命令に対する応答を生成する。 これらの命令を活用することで、さまざまなサイズのエンコーダ・デコーダとデコーダのみのモデルを含む、LaMini-LMと呼ばれるモデル群を微調整する。 我々は15の異なる自然言語処理(NLP)ベンチマークにおける自動測定値と人間の評価値を用いてモデルの性能を評価する。 その結果,提案したLaMini-LMモデルは競合するベースラインに匹敵するが,サイズは10倍近く小さいことがわかった。

Large language models (LLMs) with instruction fine-tuning demonstrate superior generative capabilities. However, these models are resource-intensive. To alleviate this issue, we explore distilling knowledge from instruction-tuned LLMs into much smaller ones. To this end, we carefully develop a large set of 2.58M instructions based on both existing and newly-generated instructions. In addition to being sizable, we design our instructions to cover a broad set of topics to ensure diversity. Extensive analysis of our instruction dataset confirms its diversity, and we generate responses for these instructions using gpt-3.5-turbo. Leveraging these instructions, we fine-tune a diverse herd of models, collectively referred to as LaMini-LM, which includes models from both the encoder-decoder and decoder-only families, with varying sizes. We evaluate the performance of our models using automatic metrics on 15 different natural language processing (NLP) benchmarks, as well as through human assessment. The results demonstrate that our proposed LaMini-LM models are comparable to competitive baselines, while being nearly 10 times smaller in size.
翻訳日:2023-05-26 01:12:03 公開日:2023-05-24
# DoReMi: データ混合の最適化が言語モデルの事前トレーニングを高速化

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining ( http://arxiv.org/abs/2305.10429v2 )

ライセンス: Link先を確認
Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu(参考訳) 事前学習データドメイン(wikipedia、書籍、webテキストなど)の混合比率は、言語モデル(lm)の性能に大きく影響する。 本稿では,minimax optimization (doremi) によるドメインの重み付けを提案する。これはまず,グループ分散ロバスト最適化 (group distributionally robust optimization, group dro) を用いた小さなプロキシモデルを,ダウンストリームタスクを知らずにドメインの重み付け (mixture proportions) を生成する。 次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。 実験では、280Mパラメータのプロキシモデル上でDoReMiを使用して、8Bパラメータモデル(30倍大きい)をより効率的にトレーニングするためのドメイン重みを求める。 The Pileでは、DoReMiはドメインをダウンウェイトしても、すべてのドメインのパープレキシティを改善します。 DoReMiは、The Pileのデフォルトドメインウェイトを使用してトレーニングされたベースラインモデルに対して平均的な数ショットダウンストリーム精度を6.5%改善し、2.6倍のトレーニングステップでベースライン精度に達する。 GLaMデータセットでは、下流タスクの知識がないDoReMiが、下流タスクにチューニングされたドメインウェイトの使用パフォーマンスにマッチする。

The mixture proportions of pretraining data domains (e.g., Wikipedia, books, web text) greatly affect language model (LM) performance. In this paper, we propose Domain Reweighting with Minimax Optimization (DoReMi), which first trains a small proxy model using group distributionally robust optimization (Group DRO) over domains to produce domain weights (mixture proportions) without knowledge of downstream tasks. We then resample a dataset with these domain weights and train a larger, full-sized model. In our experiments, we use DoReMi on a 280M-parameter proxy model to find domain weights for training an 8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improves perplexity across all domains, even when it downweights a domain. DoReMi improves average few-shot downstream accuracy by 6.5% points over a baseline model trained using The Pile's default domain weights and reaches the baseline accuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which has no knowledge of downstream tasks, even matches the performance of using domain weights tuned on downstream tasks.
翻訳日:2023-05-26 01:06:26 公開日:2023-05-24
# PMC-VQA: 医用視覚質問応答のための視覚指導チューニング

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering ( http://arxiv.org/abs/2305.10415v4 )

ライセンス: Link先を確認
Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では, 医用視覚質問応答(medvqa)の問題に焦点をあて, 臨床関連情報を含む医用画像の効率的な解釈に不可欠である。 まず、人間と機械の相互作用を自然に追従する生成タスクとしてMedVQAの問題を再構成し、トレーニング済み視覚エンコーダからの視覚情報を大きな言語モデルに整合させることにより、医用視覚理解のための生成モデルを提案する。 第2に,さまざまな形態や疾患をカバーする227kのvqa対の149k画像を含む,pmc-vqaという,大規模医療用視覚的質問応答データセットを構築するためのスケーラブルなパイプラインを構築した。 第3に、提案したモデルを PMC-VQA 上で事前トレーニングし、VQA-RAD や SLAKE といった複数の公開ベンチマークで微調整し、既存の作業よりも大きなマージンで性能を向上させる。 さらに,手作業による検証を行うテストセットを提案する。

In this paper, we focus on the problem of Medical Visual Question Answering (MedVQA), which is crucial in efficiently interpreting medical images with vital clinic-relevant information. Firstly, we reframe the problem of MedVQA as a generation task that naturally follows the human-machine interaction, we propose a generative-based model for medical visual understanding by aligning visual information from a pre-trained vision encoder with a large language model. Secondly, we establish a scalable pipeline to construct a large-scale medical visual question-answering dataset, named PMC-VQA, which contains 227k VQA pairs of 149k images that cover various modalities or diseases. Thirdly, we pre-train our proposed model on PMC-VQA and then fine-tune it on multiple public benchmarks, e.g., VQA-RAD and SLAKE, outperforming existing work by a large margin. Additionally, we propose a test set that has undergone manual verification, which is significantly more challenging, even the best models struggle to solve.
翻訳日:2023-05-26 01:05:36 公開日:2023-05-24
# Lassoを用いた署名の一貫性について

On Consistency of Signatures Using Lasso ( http://arxiv.org/abs/2305.10413v2 )

ライセンス: Link先を確認
Xin Guo, Ruixun Zhang, Chaoyi Zhao(参考訳) シグネチャ変換は連続および離散時間時系列データの反復経路積分であり、それらの普遍非線形性は特徴選択の問題を線形化する。 本稿では,シグネチャ変換のラッソ回帰の整合性問題を理論的および数値的に再検討する。 本研究は, ブラウン運動に近い過程やランダムウォークにおいて, ラスソ回帰は, it\^o積分で定義されるそれらのシグネチャに対してより一貫性があり, 平均反転過程と時系列では, ストラトノヴィッチ積分で定義されるシグネチャがラスソ回帰においてより一貫性を持つことを示す。 本研究は,統計的推論と機械学習において,シグネチャと確率モデルの適切な定義を選択することの重要性を強調した。

Signature transforms are iterated path integrals of continuous and discrete-time time series data, and their universal nonlinearity linearizes the problem of feature selection. This paper revisits the consistency issue of Lasso regression for the signature transform, both theoretically and numerically. Our study shows that, for processes and time series that are closer to Brownian motion or random walk with weaker inter-dimensional correlations, the Lasso regression is more consistent for their signatures defined by It\^o integrals; for mean reverting processes and time series, their signatures defined by Stratonovich integrals have more consistency in the Lasso regression. Our findings highlight the importance of choosing appropriate definitions of signatures and stochastic models in statistical inference and machine learning.
翻訳日:2023-05-26 01:05:15 公開日:2023-05-24
# 集団スピン系における測定誘起マルチパーティタイト・エンタングルメントレジーム

Measurement-induced multipartite-entanglement regimes in collective spin systems ( http://arxiv.org/abs/2305.10209v2 )

ライセンス: Link先を確認
Pablo M. Poggi, Manuel H. Mu\~noz-Arias(参考訳) 量子軌道のレベルでスピン1/2粒子のアンサンブルのダイナミクスにおける集団的一般化測定と相互作用誘起スクランブルの競合効果について検討した。 この設定は、量子回路における測定誘起遷移につながるものと類似していると考えられる。 本研究は,集合的ユニタリダイナミクスと測定値の相互作用が,モニタリング強度の関数として,多部交絡の証となる平均量子漁業情報(QFI)の3つの状態につながることを示す。 弱い測定と強い測定の両方が広範囲のqfi密度(すなわち個々の量子軌道はハイゼンベルクスケーリングを示す状態を与える)をもたらすのに対して、古典的様状態の中間配置が出現し、そこでは測定はスクランブルグダイナミクスと効果的に競合し、量子相関の発展を阻害し、サブハイゼンベルク制限状態につながる。 我々は,これらのレジームとそれらの間の遷移を数値的および解析的ツールを用いて特徴付け,観察された多体系における絡み合い相,量子から古典的遷移との関係について論じる。

We study the competing effects of collective generalized measurements and interaction-induced scrambling in the dynamics of an ensemble of spin-1/2 particles at the level of quantum trajectories. This setup can be considered as analogous to the one leading to measurement-induced transitions in quantum circuits. We show that the interplay between collective unitary dynamics and measurements leads to three regimes of the average Quantum Fisher Information (QFI), which is a witness of multipartite entanglement, as a function of the monitoring strength. While both weak and strong measurements lead to extensive QFI density (i.e., individual quantum trajectories yield states displaying Heisenberg scaling), an intermediate regime of classical-like states emerges for all system sizes where the measurement effectively competes with the scrambling dynamics and precludes the development of quantum correlations, leading to sub-Heisenberg-limited states. We characterize these regimes and the transitions between them using numerical and analytical tools, and discuss the connections between our findings, entanglement phases in monitored many-body systems, and the quantum-to-classical transition.
翻訳日:2023-05-26 01:04:35 公開日:2023-05-24
# 加速2レベルシングル・エンタングル原子系に対するフリング・デイビス・アンルー効果

Fulling-Davies-Unruh effect for accelerated two-level single and entangled atomic systems ( http://arxiv.org/abs/2305.08867v2 )

ライセンス: Link先を確認
Arnab Mukherjee, Sunandan Gangopadhyay, A. S. Majumdar(参考訳) 空空間およびキャビティ内部における一様加速二段階単一および絡み合った原子系の遷移速度について検討した。 我々は,即時慣性オブザーバと共加速オブザーバの観点から,システムと無質量スカラー場の相互作用を考慮に入れた。 上向きの遷移は原子の加速によってのみ起こる。 二原子系では、システムは初めは一般的な純粋に絡み合った状態で準備されていると考えられる。 キャビティの存在下では、単原子と二原子の場合の両方において、原子系の加速により上向きと下向きの遷移が促進されるのが観察される。 遷移速度は、空洞とシステムパラメータ、および初期絡み合いに応じて微妙な特徴を示す。 このことは、加速された2原子系におけるそのような絡み合いが量子情報処理への応用のために保存できることを示唆している。 本解析は, 慣性観察者に対する一様加速度の効果と, 共加速観察者に対する熱浴の効果, 空洞内および空洞内における熱浴の温度が無ルー温度と等しい場合の等価性を包括的に検証する。

We investigate the transition rates of uniformly accelerated two-level single and entangled atomic systems in empty space as well as inside a cavity. We take into account the interaction between the systems and a massless scalar field from the viewpoint of an instantaneously inertial observer and a coaccelerated observer, respectively. The upward transition occurs only due to the acceleration of the atom. For the two-atom system, we consider that the system is initially prepared in a generic pure entangled state. In the presence of a cavity, we observe that for both the single and the two-atom cases, the upward and downward transitions are enhanced due to the acceleration of the atomic systems. The transition rate manifests subtle features depending upon the cavity and system parameters, as well as the initial entanglement. It is shown that no transition occurs for a maximally entangled super-radiant initial state, signifying that such entanglement in the accelerated two-atom system can be preserved for quantum information procesing applications. Our analysis comprehensively validates the equivalence between the effect of uniform acceleration for an inertial observer and the effect of a thermal bath for a coaccelerated observer, in free space as well as inside a cavity, if the temperature of the thermal bath is equal to the Unruh temperature.
翻訳日:2023-05-26 01:04:13 公開日:2023-05-24
# 大規模言語モデルにおける辞書プロンプト翻訳の連鎖

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models ( http://arxiv.org/abs/2305.06575v3 )

ライセンス: Link先を確認
Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei(参考訳) 大規模言語モデル(LLM)は、並列データなしで訓練しても、MNMT(multilingual neural machine translation)において驚くほど優れた性能を示している。 しかし、トレーニングデータの量は巨大であるにもかかわらず、レアな単語、特に低リソース言語への翻訳にはまだ苦労している。 さらに悪いことに、LLM上での低リソース言語によるテキスト内学習に関する関連するデモを検索することは非現実的です。 そこで本研究では,入力単語のサブセットに対する多言語辞書の連鎖により,事前知識を持つllmを増強し,llmの翻訳能力を高める新しい手法であるcodを提案する。 CoDによるChatGPTの拡張は、FLORES-200の完全なテストセット上で、MNMTの13倍のchrF++ポイント(キリル文字で書かれた英語からセルビア語への3.08から42.63)を大きく増加させることを示している。 我々はさらに,多言語辞書の連鎖の重要性と,低リソース言語に対するcodの限定的なデモンストレーションの優位性を実証した。

Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation -- how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x chrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.
翻訳日:2023-05-26 01:03:20 公開日:2023-05-24
# 表データ探索を容易にする対話型インタフェースの自動生成に向けて

Towards the Automatic Generation of Conversational Interfaces to Facilitate the Exploration of Tabular Data ( http://arxiv.org/abs/2305.11326v2 )

ライセンス: Link先を確認
Marcos Gomez, Jordi Cabot, Robert Claris\'o(参考訳) タブラルデータは、構造化されたデータをオンラインで公開し、交換する最も一般的なフォーマットである。 明らかな例は、あらゆる種類の行政機関が公開するオープンデータポータルの数の増加である。 しかし、これらのデータソースの利用は現在、プログラムでデータを操作し、消化できる技術系の人々に限られている。 その代替として,表形式のデータソースの探索を容易にする対話インタフェースを提供するチャットボットを提案する。 私たちのアプローチでは、普通の市民なら誰でもそのメリットを享受できます。 さらに、私たちのチャットボットは手動で作られていません。代わりに、設定可能な会話パターンのコレクションのインスタンス化によって、データソース自身から自動的に生成されます。

Tabular data is the most common format to publish and exchange structured data online. A clear example is the growing number of open data portals published by all types of public administrations. However, exploitation of these data sources is currently limited to technical people able to programmatically manipulate and digest such data. As an alternative, we propose the use of chatbots to offer a conversational interface to facilitate the exploration of tabular data sources. With our approach, any regular citizen can benefit and leverage them. Moreover, our chatbots are not manually created: instead, they are automatically generated from the data source itself thanks to the instantiation of a configurable collection of conversation patterns.
翻訳日:2023-05-26 00:55:59 公開日:2023-05-24
# instruct2act: 大規模言語モデルによるマルチモダリティ命令とロボット動作のマッピング

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model ( http://arxiv.org/abs/2305.11176v3 )

ライセンス: Link先を確認
Siyuan Huang, Zhengkai Jiang, Hao Dong, Yu Qiao, Peng Gao, Hongsheng Li(参考訳) 基礎モデルは、テキストから画像への生成、panopticのセグメンテーション、自然言語処理など、様々なアプリケーションで大きな進歩を遂げている。 Instruct2Actは,大規模言語モデルを用いて複数モーダル命令をロボット操作タスクの逐次動作にマッピングするフレームワークである。 具体的には、インストラクト2ActはLLMモデルを使用して、ロボットタスクの包括的な認識、計画、アクションループを構成するPythonプログラムを生成する。 認識セクションでは、事前に定義されたAPIを使用して複数の基盤モデルにアクセスし、Segment Anything Model(SAM)が候補オブジェクトを正確に特定し、CLIPがそれらを分類する。 このように、このフレームワークは基礎モデルとロボット能力の専門知識を活用し、複雑な高レベルの命令を正確なポリシーコードに変換する。 我々のアプローチは、様々な命令のモダリティや入力タイプを調整し、特定のタスク要求に合わせて調整できる。 テーブルトップ操作領域内の異なるシナリオのロボットタスクで評価することにより,本手法の実用性と効率性を検証する。 さらに,ゼロショット法は,いくつかのタスクにおいて,最先端の学習ベースポリシを上回っていた。 私たちの提案するアプローチのコードはhttps://github.com/opengvlab/instruct2actで利用可能です。

Foundation models have made significant strides in various applications, including text-to-image generation, panoptic segmentation, and natural language processing. This paper presents Instruct2Act, a framework that utilizes Large Language Models to map multi-modal instructions to sequential actions for robotic manipulation tasks. Specifically, Instruct2Act employs the LLM model to generate Python programs that constitute a comprehensive perception, planning, and action loop for robotic tasks. In the perception section, pre-defined APIs are used to access multiple foundation models where the Segment Anything Model (SAM) accurately locates candidate objects, and CLIP classifies them. In this way, the framework leverages the expertise of foundation models and robotic abilities to convert complex high-level instructions into precise policy codes. Our approach is adjustable and flexible in accommodating various instruction modalities and input types and catering to specific task demands. We validated the practicality and efficiency of our approach by assessing it on robotic tasks in different scenarios within tabletop manipulation domains. Furthermore, our zero-shot method outperformed many state-of-the-art learning-based policies in several tasks. The code for our proposed approach is available at https://github.com/OpenGVLab/Instruct2Act, serving as a robust benchmark for high-level robotic instruction tasks with assorted modality inputs.
翻訳日:2023-05-26 00:55:49 公開日:2023-05-24
# プログラムで学習した言語モデルにおける意味のエビデンス

Evidence of Meaning in Language Models Trained on Programs ( http://arxiv.org/abs/2305.11169v2 )

ライセンス: Link先を確認
Charles Jin, Martin Rinard(参考訳) 本稿では,テキスト上での次のトークン予測,特にプログラムのコーパスのみを訓練しながら,言語モデルが意味を学習できることを示す。 各プログラムは(テキスト的な)入出力例の形式で仕様によって先行される。 プログラムで作業することで、言語モデルにおける意味の存在(または欠如)を特徴づける中間的テストベッドとしてプログラム合成を適合させる、言語における意味(例えば、正確性や意味論)に関する概念を正確に定義することができる。 まず、プログラムのコーパス上でTransformerモデルをトレーニングし、指定したプログラムを完了すると、トレーニングされたモデルの隠れた状態を探索する。 言語のセマンティクスを学ぶための帰納的バイアスは与えられていないが、線形プローブはモデル状態から現在のプログラム状態と将来のプログラム状態の両方の抽象化を抽出することができる。 さらに、プローブの精度と仕様を実装するプログラムを生成するモデルの能力との間には、強く統計的に有意な相関関係がある。 探索者が学習するよりもモデル状態のセマンティクスが表現されるかどうかを評価するため,語彙と構文を保存しながら,言語のセマンティクスに介入する新たな実験手順を設計する。 また、モデルがトレーニングセットのプログラムよりも平均的に短いプログラムを生成することを学習し、言語モデルの出力が意味論的に意味のある方法でトレーニング分布と異なる可能性があることを示す。 まとめると,本稿では,言語モデルの学習のための新しい手法を提案せず,言語モデルにおける(形式的)意味の獲得と表現に関する実験的なフレームワークを開発し,その知見を提供する。

We present evidence that language models can learn meaning despite being trained only to perform next token prediction on text, specifically a corpus of programs. Each program is preceded by a specification in the form of (textual) input-output examples. Working with programs enables us to precisely define concepts relevant to meaning in language (e.g., correctness and semantics), making program synthesis well-suited as an intermediate testbed for characterizing the presence (or absence) of meaning in language models. We first train a Transformer model on the corpus of programs, then probe the trained model's hidden states as it completes a program given a specification. Despite providing no inductive bias toward learning the semantics of the language, we find that a linear probe is able to extract abstractions of both current and future program states from the model states. Moreover, there is a strong, statistically significant correlation between the accuracy of the probe and the model's ability to generate a program that implements the specification. To evaluate whether the semantics are represented in the model states rather than learned by the probe, we design a novel experimental procedure that intervenes on the semantics of the language while preserving the lexicon and syntax. We also demonstrate that the model learns to generate correct programs that are, on average, shorter than those in the training set, which is evidence that language model outputs may differ from the training distribution in semantically meaningful ways. In summary, this paper does not propose any new techniques for training language models, but develops an experimental framework for and provides insights into the acquisition and representation of (formal) meaning in language models.
翻訳日:2023-05-26 00:55:23 公開日:2023-05-24
# cdidn : 肺病変の長期追跡のための高い変形インピーダンス能を有する登録モデル

CDIDN: A Registration Model with High Deformation Impedance Capability for Long-Term Tracking of Pulmonary Lesion Dynamics ( http://arxiv.org/abs/2305.11024v2 )

ライセンス: Link先を確認
Xinyu Zhao, Sa Huang, Wei Pang, You Zhou(参考訳) 医用CT画像の登録問題について,新しい視点から検討し,CT画像の変形度に対する感度について検討した。 学習に基づく手法によっては平均精度で成功しているものもあるが、局所的な大変形(LLD)を持つ領域を扱う能力は、小さな変形を持つ領域と比較して著しく低下する可能性がある。 これはこの問題の研究を動機づけます。 lldの主な原因は臓器の動きと組織構造の変化であり、後者はしばしば長期の過程である。 本稿では,高変形インピーダンス(DIC)と精度の両方を示すCDIDN(Cascade-Dilation Inter-Layer Differential Network)と呼ばれる新しい登録モデルを提案する。 CDIDNは、変位場(DF)におけるLDDを強化することにより、CT画像のLDDに対するレジリエンスを向上させる。 機能ベースのLDDのプログレッシブ分解を使用し、異なるレベルの特徴フローをトップダウンでメインフローにブレンドする。 各レベルで層間微分モジュール(IDM)を活用して、主フローを局所的に洗練し、特徴フローをグローバルに滑らかにするとともに、様々な度の特徴変形を効果的に処理できる特徴速度場を統合する。 肺を代表臓器として用いたCDIDNの評価を行った。 以上の結果から,IDMはDFのLDDを大幅に向上させ,DICの改善とモデルの精度の向上を図っている。 他の優れた学習ベース手法と比較して、CDIDNは最高のDICと優れた精度を示す。 そこで本研究では, 肺病変の出現, 消失, 拡大, 縮小を正確に追跡する新しい方法を提案し, 早期病変, 末梢病変の検出, 偽拡大, 偽収縮, 病変の切断を効果的に行う。

We study the problem of registration for medical CT images from a novel perspective -- the sensitivity to degree of deformations in CT images. Although some learning-based methods have shown success in terms of average accuracy, their ability to handle regions with local large deformation (LLD) may significantly decrease compared to dealing with regions with minor deformation. This motivates our research into this issue. Two main causes of LLDs are organ motion and changes in tissue structure, with the latter often being a long-term process. In this paper, we propose a novel registration model called Cascade-Dilation Inter-Layer Differential Network (CDIDN), which exhibits both high deformation impedance capability (DIC) and accuracy. CDIDN improves its resilience to LLDs in CT images by enhancing LLDs in the displacement field (DF). It uses a feature-based progressive decomposition of LLDs, blending feature flows of different levels into a main flow in a top-down manner. It leverages Inter-Layer Differential Module (IDM) at each level to locally refine the main flow and globally smooth the feature flow, and also integrates feature velocity fields that can effectively handle feature deformations of various degrees. We assess CDIDN using lungs as representative organs with large deformation. Our findings show that IDM significantly enhances LLDs of the DF, by which improves the DIC and accuracy of the model. Compared with other outstanding learning-based methods, CDIDN exhibits the best DIC and excellent accuracy. Based on vessel enhancement and enhanced LLDs of the DF, we propose a novel method to accurately track the appearance, disappearance, enlargement, and shrinkage of pulmonary lesions, which effectively addresses detection of early lesions and peripheral lung lesions, issues of false enlargement, false shrinkage, and mutilation of lesions.
翻訳日:2023-05-26 00:54:54 公開日:2023-05-24
# Webは、大規模言語モデルを改善するためのOysterになれる

The Web Can Be Your Oyster for Improving Large Language Models ( http://arxiv.org/abs/2305.10998v2 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jingyuan Wang, Jian-Yun Nie and Ji-Rong Wen(参考訳) 大規模言語モデル(LLM)は、大量の世界の知識を符号化する。 しかし、そのような知識はモデルトレーニング時に凍結されるため、モデルは静的になり、当時のトレーニングデータによって制限される。 知識集約型タスクにおけるLLMの能力をさらに向上するために,検索エンジンを用いた大規模WebによるLLMの拡張を検討する。 以前の拡張ソース(例えばウィキペディアのデータダンプ)とは異なり、ウェブはより広く、より包括的で常に更新された情報を提供する。 本稿では,16以上の知識集約型タスクを統一的なテキスト・テキスト・フォーマットで学習する web 型 llm uniweb を提案する。 Webから取得したコンテンツを使う代わりに、我々のアプローチは2つの大きな改善を行った。 まず,llmの予測の信頼度を自己評価し,さらに多くのデータに対してwebを参照するタイミングを適応的に決定できる適応型検索エンジン支援学習手法を提案する。 第二に,事前学習課題である連続的知識学習(continual knowledge learning)をsalient spansの予測に基づいて設計し,符号化された知識と検索された知識の差異を低減させる。 幅広い知識集約型タスクの実験により、我々のモデルは従来の検索強化手法よりも大幅に優れていた。

Large language models (LLMs) encode a large amount of world knowledge. However, as such knowledge is frozen at the time of model training, the models become static and limited by the training data at that time. In order to further improve the capacity of LLMs for knowledge-intensive tasks, we consider augmenting LLMs with the large-scale web using search engine. Unlike previous augmentation sources (e.g., Wikipedia data dump), the web provides broader, more comprehensive and constantly updated information. In this paper, we present a web-augmented LLM UNIWEB, which is trained over 16 knowledge-intensive tasks in a unified text-to-text format. Instead of simply using the retrieved contents from web, our approach has made two major improvements. Firstly, we propose an adaptive search engine assisted learning method that can self-evaluate the confidence level of LLM's predictions, and adaptively determine when to refer to the web for more data, which can avoid useless or noisy augmentation from web. Secondly, we design a pretraining task, i.e., continual knowledge learning, based on salient spans prediction, to reduce the discrepancy between the encoded and retrieved knowledge. Experiments on a wide range of knowledge-intensive tasks show that our model significantly outperforms previous retrieval-augmented methods.
翻訳日:2023-05-26 00:54:24 公開日:2023-05-24
# Assessor360:ブラインド全方位画像品質評価のためのマルチシーケンスネットワーク

Assessor360: Multi-sequence Network for Blind Omnidirectional Image Quality Assessment ( http://arxiv.org/abs/2305.10983v2 )

ライセンス: Link先を確認
Tianhe Wu, Shuwei Shi, Haoming Cai, Mingdeng Cao, Jing Xiao, Yinqiang Zheng, Yujiu Yang(参考訳) blind omnidirectional image quality assessment (boiqa) は、人間による全方位画像(odis)の知覚的品質を客観的に評価することを目的としている。 vr(virtual reality, vr)技術の進歩とともに、ますます重要になっている。 しかし,ODIの品質評価は,既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。 そこで本研究では,現実的なODI品質評価手法に基づくBOIQAのマルチシーケンスネットワークAssessor360を提案する。 具体的には、BOIQAタスクに対する一般化された再帰確率サンプリング(RPS)手法を提案し、コンテンツと詳細な情報を組み合わせて、与えられた開始点から複数の擬似ビューポートシーケンスを生成する。 さらに,マルチスケール機能集約(mfa)モジュールの設計を行い,各ビューポートの歪みや意味的特徴を融合させる。 また、時間領域におけるビューポート遷移を学習するためにTMMを考案する。 大規模な実験結果から、Assessor360は複数のOIQAデータセット上で最先端の手法より優れていることが示された。

Blind Omnidirectional Image Quality Assessment (BOIQA) aims to objectively assess the human perceptual quality of omnidirectional images (ODIs) without relying on pristine-quality image information. It is becoming more significant with the increasing advancement of virtual reality (VR) technology. However, the quality assessment of ODIs is severely hampered by the fact that the existing BOIQA pipeline lacks the modeling of the observer's browsing process. To tackle this issue, we propose a novel multi-sequence network for BOIQA called Assessor360, which is derived from the realistic multi-assessor ODI quality assessment procedure. Specifically, we propose a generalized Recursive Probability Sampling (RPS) method for the BOIQA task, combining content and detailed information to generate multiple pseudo viewport sequences from a given starting point. Additionally, we design a Multi-scale Feature Aggregation (MFA) module with Distortion-aware Block (DAB) to fuse distorted and semantic features of each viewport. We also devise TMM to learn the viewport transition in the temporal domain. Extensive experimental results demonstrate that Assessor360 outperforms state-of-the-art methods on multiple OIQA datasets.
翻訳日:2023-05-26 00:54:03 公開日:2023-05-24
# 環境不均一性を考慮したフェデレーション政策最適化のためのクライアント選択

Client Selection for Federated Policy Optimization with Environment Heterogeneity ( http://arxiv.org/abs/2305.10978v3 )

ライセンス: Link先を確認
Zhijie Xie, S.H. Song(参考訳) 政策反復(PI)の開発は、様々なタスクにおいて理論的健全性と経験的成功の両方を得たいくつかの政策勾配法を含む、近年の強化学習(RL)のための多くのアルゴリズムにインスピレーションを与えている。 PIの理論は中央集権学習の文脈に富んでいるが、その研究はいまだに連邦環境下で幼児期にある。 本稿では, 環境不均一性による近似誤差を考慮して, 近似PI (API) のフェデレーションバージョンについて検討し, 誤差境界を導出する。 理論的には、適切なクライアント選択方式により、このエラー境界を低減できる。 理論的結果に基づいて,環境の不均一性に起因する追加近似誤差を緩和するクライアント選択アルゴリズムを提案する。 実験の結果,提案アルゴリズムは,人口分布から低レベルの不均一性を有するクライアントを効果的に選択することにより,他の偏りや偏りのないクライアント選択方法よりも優れていることがわかった。

The development of Policy Iteration (PI) has inspired many recent algorithms for Reinforcement Learning (RL), including several policy gradient methods, that gained both theoretical soundness and empirical success on a variety of tasks. The theory of PI is rich in the context of centralized learning, but its study is still in the infant stage under the federated setting. This paper explores the federated version of Approximate PI (API) and derives its error bound, taking into account the approximation error introduced by environment heterogeneity. We theoretically prove that a proper client selection scheme can reduce this error bound. Based on the theoretical result, we propose a client selection algorithm to alleviate the additional approximation error caused by environment heterogeneity. Experiment results show that the proposed algorithm outperforms other biased and unbiased client selection methods on the federated mountain car problem by effectively selecting clients with a lower level of heterogeneity from the population distribution.
翻訳日:2023-05-26 00:53:43 公開日:2023-05-24
# TextDiffuser: テキストペイントとしての拡散モデル

TextDiffuser: Diffusion Models as Text Painters ( http://arxiv.org/abs/2305.10855v2 )

ライセンス: Link先を確認
Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei(参考訳) 拡散モデルは印象的な生成能力で注目を集めているが、現在は正確で一貫性のあるテキストのレンダリングに苦戦している。 この問題に対処するために,テキストディフューザを導入し,背景に忠実な視覚的魅力のあるテキストによる画像生成に焦点を当てた。 TextDiffuserは、まず、Transformerモデルがテキストプロンプトから抽出されたキーワードのレイアウトを生成し、次に拡散モデルがテキストプロンプトと生成されたレイアウトに条件付き画像を生成する。 さらに,文字認識や検出,文字レベルのセグメンテーションアノテーションを含む1000万のイメージテキストペアを含む,ocrアノテーションを備えた最初の大規模テキストイメージデータセットであるmario-10mをコントリビュートする。 我々はさらにMARIO-Evalベンチマークを収集し、テキストのレンダリング品質を評価する包括的なツールとして機能する。 実験とユーザスタディにより,テキストプロンプトだけで高品質なテキスト画像を作成し,テキストテンプレート画像と併用し,不完全な画像の再構築を行う,柔軟性と制御性を示す。 コード、モデル、データセットは \url{https://aka.ms/textdiffuser} で入手できる。

Diffusion models have gained increasing attention for their impressive generation abilities but currently struggle with rendering accurate and coherent text. To address this issue, we introduce TextDiffuser, focusing on generating images with visually appealing text that is coherent with backgrounds. TextDiffuser consists of two stages: first, a Transformer model generates the layout of keywords extracted from text prompts, and then diffusion models generate images conditioned on the text prompt and the generated layout. Additionally, we contribute the first large-scale text images dataset with OCR annotations, MARIO-10M, containing 10 million image-text pairs with text recognition, detection, and character-level segmentation annotations. We further collect the MARIO-Eval benchmark to serve as a comprehensive tool for evaluating text rendering quality. Through experiments and user studies, we show that TextDiffuser is flexible and controllable to create high-quality text images using text prompts alone or together with text template images, and conduct text inpainting to reconstruct incomplete images with text. The code, model, and dataset will be available at \url{https://aka.ms/textdiffuser}.
翻訳日:2023-05-26 00:53:02 公開日:2023-05-24
# OR-NeRF:ニューラルラジアンス場を用いたマルチビューセグメンテーションによる3次元シーンからの物体除去

OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields ( http://arxiv.org/abs/2305.10503v2 )

ライセンス: Link先を確認
Youtan Yin, Zhoujie Fu, Fan Yang, Guosheng Lin(参考訳) ニューラル・レージアンス・フィールド(NeRF)の出現により、3Dシーン編集への関心が高まっている。 編集における重要なタスクのひとつは、視覚的な推論可能性とマルチビューの一貫性を確保しながら、シーンからオブジェクトを削除することだ。 しかし、現在のメソッドは、時間を要するオブジェクトラベリング、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の低下といった課題に直面している。 本稿では, OR-NeRF と呼ばれる新しいオブジェクト除去パイプラインを提案する。このパイプラインは3次元シーンからオブジェクトを1つのビューでポイントまたはテキストプロンプトで取り除き, 従来よりも少ない時間で性能を向上する。 提案手法では,全ビューにユーザアノテーションを迅速に展開するポイントプロジェクション戦略を用いて,処理負担を大幅に削減する。 このアルゴリズムにより、最近の2次元セグメンテーションモデルSegment-Anything(SAM)を利用して、精度と効率を改善したマスクを予測することができる。 さらに2次元塗布法により色と深さの先行値を得た。 最後に, 物体除去後の形状と外観の整合性を維持するために, 奥行き監視と知覚的損失を用いる。 実験結果から,本手法は品質と量の両方を考慮して,従来よりも少ない時間で編集品質を向上することが示された。

The emergence of Neural Radiance Fields (NeRF) for novel view synthesis has led to increased interest in 3D scene editing. One important task in editing is removing objects from a scene while ensuring visual reasonability and multiview consistency. However, current methods face challenges such as time-consuming object labelling, limited capability to remove specific targets, and compromised rendering quality after removal. This paper proposes a novel object-removing pipeline, named OR-NeRF, that can remove objects from 3D scenes with either point or text prompts on a single view, achieving better performance in less time than previous works. Our method uses a points projection strategy to rapidly spread user annotations to all views, significantly reducing the processing burden. This algorithm allows us to leverage the recent 2D segmentation model Segment-Anything (SAM) to predict masks with improved precision and efficiency. Additionally, we obtain colour and depth priors through 2D inpainting methods. Finally, our algorithm employs depth supervision and perceptual loss for scene reconstruction to maintain consistency in geometry and appearance after object removal. Experimental results demonstrate that our method achieves better editing quality with less time than previous works, considering both quality and quantity.
翻訳日:2023-05-26 00:52:40 公開日:2023-05-24
# 手話認識のための手法とアルゴリズムの比較分析

A Comparative Analysis of Techniques and Algorithms for Recognising Sign Language ( http://arxiv.org/abs/2305.13941v2 )

ライセンス: Link先を確認
Rupesh Kumar, Ayush Sinha, Ashutosh Bajpai, S.K Singh (Department of CSE, Galgotias College of Engineering and Technology, AKTU, Greater Noida, 201306, India)(参考訳) 手話は人とのコミュニケーションを強化する視覚言語であり、難聴者によるコミュニケーションの第一形態として頻繁に使用される。 それでも、聴覚障害を持つ人の多くは手話を使い、しばしば社会的孤立を経験する。 したがって、聴覚障害者にソーシャルプラットフォームを提供するためのヒューマンコンピュータインタフェースシステムを作成する必要がある。 現在市場に出回っている商用手話翻訳システムは、センサーベース、価格帯、使いづらいものが多い。 ビジョンベースのシステムは必死に必要だが、まずいくつかの課題を克服しなければならない。 初期の連続手話認識技術では、時間的情報を含む能力に制限のある隠れマルコフモデルを用いた。 これらの制限を克服するために、手や手話の動きを話し言葉や書き言葉に変換するために、いくつかの機械学習アプローチが適用されている。 本研究では,手話認識のための様々な深層学習手法を比較した。 本調査は,本分野における最新のアプローチと課題の概要を概観することを目的としている。

Sign language is a visual language that enhances communication between people and is frequently used as the primary form of communication by people with hearing loss. Even so, not many people with hearing loss use sign language, and they frequently experience social isolation. Therefore, it is necessary to create human-computer interface systems that can offer hearing-impaired people a social platform. Most commercial sign language translation systems now on the market are sensor-based, pricey, and challenging to use. Although vision-based systems are desperately needed, they must first overcome several challenges. Earlier continuous sign language recognition techniques used hidden Markov models, which have a limited ability to include temporal information. To get over these restrictions, several machine learning approaches are being applied to transform hand and sign language motions into spoken or written language. In this study, we compare various deep learning techniques for recognising sign language. Our survey aims to provide a comprehensive overview of the most recent approaches and challenges in this field.
翻訳日:2023-05-26 00:47:22 公開日:2023-05-24
# XTREME-UP: 表現下言語のためのユーザ中心のスカースデータベンチマーク

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages ( http://arxiv.org/abs/2305.11938v2 )

ライセンス: Link先を確認
Sebastian Ruder, Jonathan H. Clark, Alexander Gutkin, Mihir Kale, Min Ma, Massimo Nicosia, Shruti Rijhwani, Parker Riley, Jean-Michel A. Sarr, Xinyi Wang, John Wieting, Nitish Gupta, Anna Katanova, Christo Kirov, Dana L. Dickinson, Brian Roark, Bidisha Samanta, Connie Tao, David I. Adelani, Vera Axelrod, Isaac Caswell, Colin Cherry, Dan Garrette, Reeve Ingle, Melvin Johnson, Dmitry Panteleev, Partha Talukdar(参考訳) データ不足は、多言語NLPシステムの開発において重要な問題である。 しかし、多くの未表現言語(UL) -- NLPの再検索がユーザニーズを満たす上で特に遅れている言語 -- では、少量のデータに注釈をつけることは可能である。 XTREME-UPは、ゼロショットではなく、希少なデータシナリオに焦点をあてること、ユーザ中心のタスクに焦点を当てること、高ソース言語の話者が広く採用するタスク、この希少なデータシナリオが最も現実的になるような表現不足言語に焦点を当てることである。 XTREME-UPは、ASR、OCR、MT、および汎用性のある情報アクセスタスクを含む9つの主要なユーザ中心技術に対して、88の非表現言語にわたる言語モデルの性能を評価する。 ocr、オートコンプリート、セマンティクス解析、および翻訳のための新しいデータセットを作成し、他のタスクのために既存のデータセットを構築し、洗練します。 XTREME-UPは、テキストのみ、マルチモーダル(ビジョン、オーディオ、テキスト)、教師付きパラメータチューニング、コンテキスト内学習など、多くのモデリングシナリオを評価する方法論を提供する。 ベンチマークでよく使われるモデルを評価する。 モデルをトレーニングし、評価するすべてのコードとスクリプトをリリースします。

Data scarcity is a crucial issue for the development of highly multilingual NLP systems. Yet for many under-represented languages (ULs) -- languages for which NLP re-search is particularly far behind in meeting user needs -- it is feasible to annotate small amounts of data. Motivated by this, we propose XTREME-UP, a benchmark defined by: its focus on the scarce-data scenario rather than zero-shot; its focus on user-centric tasks -- tasks with broad adoption by speakers of high-resource languages; and its focus on under-represented languages where this scarce-data scenario tends to be most realistic. XTREME-UP evaluates the capabilities of language models across 88 under-represented languages over 9 key user-centric technologies including ASR, OCR, MT, and information access tasks that are of general utility. We create new datasets for OCR, autocomplete, semantic parsing, and transliteration, and build on and refine existing datasets for other tasks. XTREME-UP provides methodology for evaluating many modeling scenarios including text-only, multi-modal (vision, audio, and text),supervised parameter tuning, and in-context learning. We evaluate commonly used models on the benchmark. We release all code and scripts to train and evaluate models
翻訳日:2023-05-26 00:47:09 公開日:2023-05-24
# ポイントクラウドデータの自己教師あり学習:調査

Self-Supervised Learning for Point Clouds Data: A Survey ( http://arxiv.org/abs/2305.11881v2 )

ライセンス: Link先を確認
Changyu Zeng, Wei Wang, Anh Nguyen, Yutao Yue(参考訳) 3Dポイントクラウドは、LiDARセンサーによって収集された重要なデータであり、その簡潔な説明と正確なローカライゼーションのために輸送アプリケーションで広く利用されている。 ディープニューラルネットワーク(DNN)は、特に歩行者検出や車両認識など、さまざまなコンピュータビジョンタスクにおいて、乱れやスパースな3Dポイントクラウドの処理で顕著な成功を収めている。 すべての学習パラダイムの中で、データ自体から効果的な情報をマイニングする教師なしのトレーニングパラダイムであるセルフ・スーパーバイザード・ラーニング(SSL)は、スマートな事前学習タスク設計を通じて、時間と労働集約的なデータラベル問題の解決に不可欠なソリューションであると考えられている。 本稿では,ポイントクラウドにおけるSSLの最近の進歩を包括的に調査する。 まず,既存のssl法を4つのカテゴリに分類し,その特徴に基づいて分類を行った。 各カテゴリにおいて、これらの手法をよりきめ細かな群に分類し、代表的手法の強さと限界を要約する。 また、ベンチマークデータセットにおける複数のダウンストリームタスクの文献における注目すべきSSLメソッドの性能を定量的かつ定性的に比較する。 最後に,ポイントクラウド上での既存のSSL研究の限界に基づいた今後の研究方向を提案する。

3D point clouds are a crucial type of data collected by LiDAR sensors and widely used in transportation applications due to its concise descriptions and accurate localization. Deep neural networks (DNNs) have achieved remarkable success in processing large amount of disordered and sparse 3D point clouds, especially in various computer vision tasks, such as pedestrian detection and vehicle recognition. Among all the learning paradigms, Self-Supervised Learning (SSL), an unsupervised training paradigm that mines effective information from the data itself, is considered as an essential solution to solve the time-consuming and labor-intensive data labelling problems via smart pre-training task design. This paper provides a comprehensive survey of recent advances on SSL for point clouds. We first present an innovative taxonomy, categorizing the existing SSL methods into four broad categories based on the pretexts' characteristics. Under each category, we then further categorize the methods into more fine-grained groups and summarize the strength and limitations of the representative methods. We also compare the performance of the notable SSL methods in literature on multiple downstream tasks on benchmark datasets both quantitatively and qualitatively. Finally, we propose a number of future research directions based on the identified limitations of existing SSL research on point clouds.
翻訳日:2023-05-26 00:46:44 公開日:2023-05-24
# LLM、CXR画像の読み書きが可能に

LLM Itself Can Read and Generate CXR Images ( http://arxiv.org/abs/2305.11490v2 )

ライセンス: Link先を確認
Suhyeon Lee, Won Jun Kim, Jong Chul Ye(参考訳) 近年の大規模言語モデル(LLM)の顕著な発展を基盤として,LLMの実用性をマルチモーダルタスクに拡張する試みが活発に行われている。 これまでも言語と視覚情報を結びつける努力が続けられており、LLMに視覚機能を追加する試みも進行中である。 しかし、既存の試みは画像デコーダとしてのみllmを使用し、自然言語と同じ行で画像を生成する試みは行われていない。 画像の潜在表現をテキストトークンの一種として扱うvq-ganフレームワークを採用することにより,事前学習されたllmを微調整し,構造的な変更や追加のトレーニング目標,アドホックネットワークのトレーニングの必要性をなくし,llmの命令追従能力を維持しつつ,テキストなどの画像の読み書きを行う新しい手法を提案する。 このフレームワークを胸部x線(cxr)画像とレポート生成タスクに適用し,視覚領域と言語領域間の複雑な情報の変換が重要となる領域であることを示す。 コードはhttps://github.com/hyn2028/llm-cxrで入手できる。

Building on the recent remarkable development of large language models (LLMs), active attempts are being made to extend the utility of LLMs to multimodal tasks. There have been previous efforts to link language and visual information, and attempts to add visual capabilities to LLMs are ongoing as well. However, existing attempts use LLMs only as image decoders and no attempt has been made to generate images in the same line as the natural language. By adopting a VQ-GAN framework in which latent representations of images are treated as a kind of text tokens, we present a novel method to fine-tune a pre-trained LLM to read and generate images like text without any structural changes, extra training objectives, or the need for training an ad-hoc network while still preserving the of the instruction-following capability of the LLM. We apply this framework to chest X-ray (CXR) image and report generation tasks as it is a domain in which translation of complex information between visual and language domains is important. The code is available at https://github.com/hyn2028/llm-cxr.
翻訳日:2023-05-26 00:46:24 公開日:2023-05-24
# PastNet:時空間映像予測のための物理的誘導バイアスの導入

PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction ( http://arxiv.org/abs/2305.11421v2 )

ライセンス: Link先を確認
Hao Wu, Wei Xiong, Fan Xu, Xiao Luo, Chong Chen, Xian-Sheng Hua and Haixin Wang(参考訳) 本稿では,過去のデータストリームに基づく将来の映像生成を伴う時空間的ビデオ予測の課題について検討する。 既存のアプローチでは、典型的にはセマンティックマップなどの外部情報を使用して、ビデオに埋め込まれた物理的知識を無視するビデオ予測を強化する。 さらに、高い計算要求は高解像度ビデオの応用を阻害する可能性がある。 これらの制約に対処するために,我々は,物理支援時空間ネットワーク (pastnet) と呼ばれる,高品質ビデオ予測のための新しい手法を提案する。 私たちのパスネットの中核は、フーリエ領域にスペクトル畳み込み作用素を組み込むことで、基礎となる物理法則からの帰納的バイアスを効率的に導入することにあります。 さらに,複雑な時空間信号の処理中に局所的な特徴を識別するために,推定固有次元のメモリバンクを用いて計算コストを低減し,高解像度映像の予測を容易にする。 様々な広範に使用されるデータセットに関する広範囲な実験は、特に高解像度シナリオにおいて、最先端の手法と比較して提案するパスネットの有効性と効率を示す。 私たちのコードはhttps://github.com/easylearningscores/pastnetで利用可能です。

In this paper, we investigate the challenge of spatio-temporal video prediction, which involves generating future videos based on historical data streams. Existing approaches typically utilize external information such as semantic maps to enhance video prediction, which often neglect the inherent physical knowledge embedded within videos. Furthermore, their high computational demands could impede their applications for high-resolution videos. To address these constraints, we introduce a novel approach called Physics-assisted Spatio-temporal Network (PastNet) for generating high-quality video predictions. The core of our PastNet lies in incorporating a spectral convolution operator in the Fourier domain, which efficiently introduces inductive biases from the underlying physical laws. Additionally, we employ a memory bank with the estimated intrinsic dimensionality to discretize local features during the processing of complex spatio-temporal signals, thereby reducing computational costs and facilitating efficient high-resolution video prediction. Extensive experiments on various widely-used datasets demonstrate the effectiveness and efficiency of the proposed PastNet compared with state-of-the-art methods, particularly in high-resolution scenarios. Our code is available at https://github.com/easylearningscores/PastNet.
翻訳日:2023-05-26 00:45:50 公開日:2023-05-24
# 放射状パワー様ポテンシャル:bohr-sommerfeld $s$-state energiesから正確なエネルギーへ

Radial power-like potentials: from the Bohr-Sommerfeld $S$-state energies to the exact ones ( http://arxiv.org/abs/2305.11363v2 )

ライセンス: Link先を確認
J.C. del Valle, A.V. Turbiner(参考訳) 1次元の場合のボーア・ソマーフェルト(b-s)量子化条件(del valle \& turbiner (2021) [1])の以前の研究に続いて、これをd$-dimensional power-like radial potentialsに拡張した。 $d$-dimensional radial Schr\"odinger 方程式の$S$状態に対する B-S 量子化条件を提案する。 v(r)=r^m$ with $m \in [-1, \infty)$ のパワー様ポテンシャルのスペクトルについて得られた数値結果に基づいて、提案するb-s量子化条件の正しさを様々な次元のd$に対して確立する。 b-s 量子化条件の r.h.s. に {it wkb correction} $\gamma$ (おそらくは高次 wkb 項から来る) を導入すると、正確なエネルギーを再現する "it exact wkb quantization condition} と呼ばれる条件が現れるが、$\gamma$ は常に非常に小さい。 $m=2$(任意の整数$d$)と$m=-1$($d=2$)の場合、WKB補正は$\gamma=0$:$S$の場合、B-Sスペクトルは正確な値と一致する。 線形, 立方体, クォート, セクシュアル振動子の物理的に重要な症例に対するコンクリート計算と, 次元$d=2,3,6$のクーロンおよび対数ポテンシャルについて述べる。 放射状四波無調波発振器は短時間に検討される。

Following our previous study of the Bohr-Sommerfeld (B-S) quantization condition for one-dimensional case (del Valle \& Turbiner (2021) [1], we extend it to $d$-dimensional power-like radial potentials. The B-S quantization condition for $S$-states of the $d$-dimensional radial Schr\"odinger equation is proposed. Based on numerical results obtained for the spectra of power-like potentials, $V(r)=r^m$ with $m \in [-1, \infty)$, the correctness of the proposed B-S quantization condition is established for various dimensions $d$. It is demonstrated that by introducing the {\it WKB correction} $\gamma$ (supposedly coming from the higher order WKB terms) into the r.h.s. of the B-S quantization condition leads to the so-called {\it exact WKB quantization condition}, which reproduces the exact energies, while $\gamma$ remains always very small. For $m=2$ (any integer $d$) and for $m=-1$ (at $d=2$) the WKB correction $\gamma=0$: for $S$ states the B-S spectra coincides with the exact ones. Concrete calculations for physically important cases of linear, cubic, quartic, and sextic oscillators, as well as Coulomb and logarithmic potentials in dimensions $d=2,3,6$ are presented. Radial quartic anharmonic oscillator is considered briefly.
翻訳日:2023-05-26 00:44:07 公開日:2023-05-24
# ゼロショットスタイル分類のための辞書を用いた授業チューニング

Instruction Tuning with Lexicons for Zero-Shot Style Classification ( http://arxiv.org/abs/2305.14592v1 )

ライセンス: Link先を確認
Ruohao Guo, Wei Xu, Alan Ritter(参考訳) スタイルは著者の意図や態度を伝えるのに使われる。 スタイル分類による大規模事前学習言語モデルの成功にもかかわらず、先行研究はラベル付き例の微調整に依存している。 大きな言語モデルに微調整なしでスタイルを分類するよう促すのは、言語スタイルを定義するのが難しいため難しい。 本研究では,学習中に見つからない新しいスタイルの識別方法を言語モデルに教える手段として,スタイルレキシコンの有効性を検討する。 実験の結果,レキシコンベースの命令は転送ゼロショット性能を大幅に改善した。 コードとデータをリリースします。

Style is used to convey authors' intentions and attitudes. Despite the success of large pre-trained language models on style classification, prior work relies on fine-tuning with labeled examples. Prompting large language models to classify style without fine-tuning is challenging because language styles can be difficult to define. In this study, we investigate the effectiveness of style lexicons as a means for instructing language models how to identify new styles that are unseen during training. Our experiments show that lexicon-based instructions improve transfer zero-shot performance significantly. We will release our code and data.
翻訳日:2023-05-25 21:09:28 公開日:2023-05-24
# ALGO: 生成したOracle検証によるアルゴリズムプログラムの合成

ALGO: Synthesizing Algorithmic Programs with Generated Oracle Verifiers ( http://arxiv.org/abs/2305.14591v1 )

ライセンス: Link先を確認
Kexun Zhang, Danqing Wang, Jingtao Xia, William Yang Wang, Lei Li(参考訳) 大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れ、実装だけでなく適切なアルゴリズムの識別も必要とするアルゴリズムの問題に対処する。 さらに、LLM生成プログラムは、保証された正確さを欠き、人間の検証を必要とする。 これらの課題に対処するため,アルゴリズムプログラムを LLM-Generated Oracle で合成するフレームワークであるALGO を提案する。 ALGOはまず、LLMが関連する変数のすべての組み合わせを包括的に列挙するように促すことで、おそらく正しいがおそらく遅い参照オラクルを生成する。 このオラクルはアルゴリズム空間の探索と合成アルゴリズムの検証において任意の探索戦略を導くために利用される。 症例の88%は, LLM産生のオークルが正しいことが示唆された。 oracle as verifiersを使えば、algoはモデルに依存しない方法で既存のコード生成モデルと統合でき、パフォーマンスが向上する。 ALGOを装着すると、Codexモデルよりも8倍、CodeTよりも2.6倍、最先端モデルであるCodeContestsよりも2.6倍の1サブミッションパス率が得られる。 また、見えない問題に対してChatGPT Code Interpreterよりも1.3倍のパスレートを得ることができる。

Large language models (LLMs) excel at implementing code from functionality descriptions, but struggle with algorithmic problems that require not only implementation but also identification of the suitable algorithm. Moreover, LLM-generated programs lack guaranteed correctness and require human verification. To address these challenges, we propose ALGO, a framework that synthesizes Algorithmic programs with LLM-Generated Oracles to guide the creation and verify their correctness. ALGO first generates a probably correct but possibly slow reference oracle by prompting an LLM to exhaustively enumerate all the combinations of relevant variables. This oracle is then utilized to guide an arbitrary search strategy in exploring the algorithm space and to verify the algorithms synthesized. Our study shows that the LLM-generated oracles are correct for 88% of the cases. With the oracles as verifiers, ALGO can be integrated with any existing code generation model in a model-agnostic manner to enhance its performance. Experiments show that when equipped with ALGO, we achieve an 8x better one-submission pass rate over the Codex model and a 2.6x better one-submission pass rate over CodeT, the current state-of-the-art model on CodeContests. We can also get 1.3x better pass rate over the ChatGPT Code Interpreter on unseen problems.
翻訳日:2023-05-25 21:09:20 公開日:2023-05-24
# RE$^2$:ビジュアルリッチドキュメントからの領域認識関係抽出

RE$^2$: Region-Aware Relation Extraction from Visually Rich Documents ( http://arxiv.org/abs/2305.14590v1 )

ライセンス: Link先を確認
Pritika Ramu, Sijia Wang, Lalla Mouatadid, Joy Rimchala, Lifu Huang(参考訳) フォーム理解における現在の研究は、主に事前学習のための広範なデータを必要とする大規模な事前学習言語モデルに依存している。 しかし、レイアウト構造(つまり、視覚的にリッチな文書におけるエンティティブロック間の空間的関係)と関係抽出の重要性は見過ごされている。 本稿では,エンティティブロック間の領域レベルの空間構造を利用して関係予測を改善する領域認識関係抽出(re$^2$)を提案する。 エッジアウェアグラフアテンションネットワークを設計し,それらの領域レベルの表現によって定義された空間的関係を考慮しつつ,エンティティ間の相互作用を学習する。 また、関係抽出タスク固有の制約との整合性に向けてモデルを規則化する制約目的を導入する。 様々なデータセット、言語、ドメインにわたる大規模な実験は、提案手法の優位性を実証している。

Current research in form understanding predominantly relies on large pre-trained language models, necessitating extensive data for pre-training. However, the importance of layout structure (i.e., the spatial relationship between the entity blocks in the visually rich document) to relation extraction has been overlooked. In this paper, we propose REgion-Aware Relation Extraction (RE$^2$) that leverages region-level spatial structure among the entity blocks to improve their relation prediction. We design an edge-aware graph attention network to learn the interaction between entities while considering their spatial relationship defined by their region-level representations. We also introduce a constraint objective to regularize the model towards consistency with the inherent constraints of the relation extraction task. Extensive experiments across various datasets, languages and domains demonstrate the superiority of our proposed approach.
翻訳日:2023-05-25 21:08:58 公開日:2023-05-24
# OpenPI2.0: テキストにおけるエンティティ追跡のための改善されたデータセット

OpenPI2.0: An Improved Dataset for Entity Tracking in Texts ( http://arxiv.org/abs/2305.14603v1 )

ライセンス: Link先を確認
Li Zhang, Hainiu Xu, Abhinav Kommula, Niket Tandon, Chris Callison-Burch(参考訳) エンティティに関する情報としてテキストを表現することは、イベント推論において長い間有効と考えられてきた。 手続きテキスト中のエンティティ状態を追跡するための改良されたデータセットであるOpenPI2.0を提案する。 OpenPI2.0は、評価を促進する標準的なエンティティだけでなく、手動ラベルと自動予測を含むサリエンスアノテーションも備えている。 エンティティ・サリアンスについては、質問応答や古典的な計画といったタスクにおけるアノテーションの主観性、モデリング実現可能性、下流アプリケーションに関する調査を行う。

Representing texts as information about entities has long been deemed effective in event reasoning. We propose OpenPI2.0, an improved dataset for tracking entity states in procedural texts. OpenPI2.0 features not only canonicalized entities that facilitate evaluation, but also salience annotations including both manual labels and automatic predictions. Regarding entity salience, we provide a survey on annotation subjectivity, modeling feasibility, and downstream applications in tasks such as question answering and classical planning.
翻訳日:2023-05-25 20:59:35 公開日:2023-05-24
# FaceFusion: 複数のデータセットの完全なスペクトルを爆発させる

FaceFusion: Exploiting Full Spectrum of Multiple Datasets ( http://arxiv.org/abs/2305.14601v1 )

ライセンス: Link先を確認
Chiyoung Song, Dongjae Lee(参考訳) トレーニングデータセットのサイズは、高性能顔認識埋め込みモデルのトレーニングにおいて、最も支配的な側面の1つとして知られている。 スクラッチから大規模なデータセットを構築するのは煩雑で時間を要する可能性があるが、すでに構築されている複数のデータセットを組み合わせると、大量のラベルノイズが発生するリスクが生じる。 我々はFaceFusionという新しいトレーニング手法を提案する。 エンド・ツー・エンドの方法でビューを使用して組み込みネットワークを同時にトレーニングしながら、アイデンティティの衝突によって影響されないさまざまなデータセットの融合ビューを生成する。 統合データセットの統一ビューを使用することで、組み込みネットワークはデータセットのスペクトル全体に対してトレーニングされ、顕著なパフォーマンス向上につながる。 総合的な実験により, 公開評価データセットの性能が, 訓練データセットの使用だけでなく, 様々な訓練条件下での既知手法よりも優れていることが確認された。

The size of training dataset is known to be among the most dominating aspects of training high-performance face recognition embedding model. Building a large dataset from scratch could be cumbersome and time-intensive, while combining multiple already-built datasets poses the risk of introducing large amount of label noise. We present a novel training method, named FaceFusion. It creates a fused view of different datasets that is untainted by identity conflicts, while concurrently training an embedding network using the view in an end-to-end fashion. Using the unified view of combined datasets enables the embedding network to be trained against the entire spectrum of the datasets, leading to a noticeable performance boost. Extensive experiments confirm superiority of our method, whose performance in public evaluation datasets surpasses not only that of using a single training dataset, but also that of previously known methods under various training circumstances.
翻訳日:2023-05-25 20:59:29 公開日:2023-05-24
# 適合ラベル配列から意味的役割ラベルを学習する

Learning Semantic Role Labeling from Compatible Label Sequences ( http://arxiv.org/abs/2305.14600v1 )

ライセンス: Link先を確認
Tao Li, Ghazaleh Kazeminejad, Susan W. Brown, Martha Palmer, Vivek Srikumar(参考訳) 本稿では,互換性のないラベル配列から効率的に学習する方法について述べる。 解離ラベルセット間の互換構造は、学習と推論をモデル化するのに役立ちます。 本稿では,この仮説を意味的役割ラベル付け(SRL)タスク上で検証する。具体的には,文に2つの役割列(VerbNet argumentsとPropBank arguments)をタグ付けする。 以前の研究は、タスク間のインタラクションがパフォーマンスを改善することを示した。 しかし、2つのタスクは別々にデコードされ、構造的に一貫性のないラベルシーケンスを生成するリスクがある(semlinkのようなレキシコン)。 この問題を取り除くため,まず,動詞ネットラベルとプロップバンクラベルを1つのシーケンスとして共同で扱う,シンプルで効果的なセットアップを提案する。 この設定により、デコード中のSEMLINK制約の強制は、F1全体を常に改善することを示す。 特殊入力構成では,99%以上の精度でプロップバンク引数から動詞引数を推定する。 また,トレーニング中にsemlink情報を用いて,プロップバンクのみの大量のデータからさらに恩恵を受ける制約付き限界モデルを提案する。 我々のモデルは,ドメイン外一般化の強いCoNLL05データセット上で,VerbNet と PropBank の引数ラベルを用いた最先端 F1 を実現する。

This paper addresses the question of how to efficiently learn from disjoint, compatible label sequences. We argue that the compatible structures between disjoint label sets help model learning and inference. We verify this hypothesis on the task of semantic role labeling (SRL), specifically, tagging a sentence with two role sequences: VerbNet arguments and PropBank arguments. Prior work has shown that cross-task interaction improves performance. However, the two tasks are still separately decoded, running the risk of generating structurally inconsistent label sequences (as per lexicons like SEMLINK). To eliminate this issue, we first propose a simple and effective setup that jointly handles VerbNet and PropBank labels as one sequence. With this setup, we show that enforcing SEMLINK constraints during decoding constantly improves the overall F1. With special input constructions, our joint model infers VerbNet arguments from PropBank arguments with over 99% accuracy. We also propose a constrained marginal model that uses SEMLINK information during training to further benefit from the large amounts of PropBank-only data. Our models achieve state-of-the-art F1's on VerbNet and PropBank argument labeling on the CoNLL05 dataset with strong out-of-domain generalization.
翻訳日:2023-05-25 20:59:09 公開日:2023-05-24
# 連続空間と離散空間の橋渡し:合成操作による解釈可能な文表現学習

Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations ( http://arxiv.org/abs/2305.14599v1 )

ライセンス: Link先を確認
James Y. Huang, Wenlin Yao, Kaiqiang Song, Hongming Zhang, Muhao Chen, Dong Yu(参考訳) 従来の文埋め込みモデルは、文をベクトル表現にエンコードし、文間の意味的類似性などの有用な特性をキャプチャする。 しかし、類似性に加えて、文のセマンティクスは文の融合や差分といった構成操作によっても解釈できる。 文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。 連続的な埋め込みや離散的なテキスト空間をより効果的に橋渡しするために、文埋め込み空間に様々な構成特性を組み込むことにより、組込み変換を合成文操作として解釈できる可能性を探る。 埋め込み空間における合成文操作をサポートする解釈可能な文埋め込みを学習するためのエンドツーエンドフレームワークであるInterSentを提案する。 演算子ネットワークとボトルネックエンコーダデコーダモデルを最適化し,意味のある文の埋め込みを生成する。 実験の結果,従来の意味的類似性タスクに対して強い性能を維持しつつ,既存の手法よりも4つのテキスト生成タスクにおける文埋め込みの解釈性が大幅に向上した。

Traditional sentence embedding models encode sentences into vector representations to capture useful properties such as the semantic similarity between sentences. However, in addition to similarity, sentence semantics can also be interpreted via compositional operations such as sentence fusion or difference. It is unclear whether the compositional semantics of sentences can be directly reflected as compositional operations in the embedding space. To more effectively bridge the continuous embedding and discrete text spaces, we explore the plausibility of incorporating various compositional properties into the sentence embedding space that allows us to interpret embedding transformations as compositional sentence operations. We propose InterSent, an end-to-end framework for learning interpretable sentence embeddings that supports compositional sentence operations in the embedding space. Our method optimizes operator networks and a bottleneck encoder-decoder model to produce meaningful and interpretable sentence embeddings. Experimental results demonstrate that our method significantly improves the interpretability of sentence embeddings on four textual generation tasks over existing approaches while maintaining strong performance on traditional semantic similarity tasks.
翻訳日:2023-05-25 20:58:30 公開日:2023-05-24
# ビジョン+言語アプリケーション: 調査

Vision + Language Applications: A Survey ( http://arxiv.org/abs/2305.14598v1 )

ライセンス: Link先を確認
Yutong Zhou and Nobutaka Shimada(参考訳) テキストから画像への生成は、近年、様々な産業にまたがる広く多様な応用により、研究者や実践者から大きな関心を集めている。 視覚と言語研究の分野における進歩にもかかわらず、既存の文献は、特にこの分野の進歩と応用に関して、比較的限定的なままである。 本稿では,テキスト,視覚,音声など,マルチモーダルアプリケーションにおける関連する研究トラックについて検討する。 本稿で論じる研究に加えて、最新の関連論文、データセット、アプリケーションプロジェクト、および対応する情報をhttps://github.com/Yutong-Zhou-cv/Awesome-Text-to-Imageで継続的に更新することを約束しています。

Text-to-image generation has attracted significant interest from researchers and practitioners in recent years due to its widespread and diverse applications across various industries. Despite the progress made in the domain of vision and language research, the existing literature remains relatively limited, particularly with regard to advancements and applications in this field. This paper explores a relevant research track within multimodal applications, including text, vision, audio, and others. In addition to the studies discussed in this paper, we are also committed to continually updating the latest relevant papers, datasets, application projects and corresponding information at https://github.com/Yutong-Zhou-cv/Awesome-Text-to-Image
翻訳日:2023-05-25 20:57:47 公開日:2023-05-24
# 彼女の声:ai出版世界の性差の分析

Voices of Her: Analyzing Gender Differences in the AI Publication World ( http://arxiv.org/abs/2305.14597v1 )

ライセンス: Link先を確認
Yiwen Ding, Jiarui Liu, Zhiheng Lyu, Kun Zhang, Bernhard Schoelkopf, Zhijing Jin, Rada Mihalcea(参考訳) これまでのいくつかの研究では、研究における性別バイアスを分析してきたが、AIコミュニティにおける男女差の包括的な分析はいまだに欠けている。 ai分野の78k人の研究者のデータセットを用いて、(1)女性研究者は男性よりも全体的な引用が少ない傾向がありますが、この引用の違いはすべての学齢層には当てはまらない、(2)ai論文の共著者には男女差が大きい、(3)女性の共著者論文は、長文、ポジティブな感情語、男性の共著者論文よりもキャッチーなタイトルといった、異なる言語的スタイルを示している、などを特定する。 私たちの分析は、aiコミュニティにおける現在の人口動態の窓口を提供し、将来、より多くの男女平等と多様性を奨励します。 コードとデータはhttps://github.com/causalNLP/ai-scholar-gender.comにある。

While several previous studies have analyzed gender bias in research, we are still missing a comprehensive analysis of gender differences in the AI community, covering diverse topics and different development trends. Using the AI Scholar dataset of 78K researchers in the field of AI, we identify several gender differences: (1) Although female researchers tend to have fewer overall citations than males, this citation difference does not hold for all academic-age groups; (2) There exist large gender homophily in co-authorship on AI papers; (3) Female first-authored papers show distinct linguistic styles, such as longer text, more positive emotion words, and more catchy titles than male first-authored papers. Our analysis provides a window into the current demographic trends in our AI community, and encourages more gender equality and diversity in the future. Our code and data are at https://github.com/causalNLP/ai-scholar-gender.
翻訳日:2023-05-25 20:57:25 公開日:2023-05-24
# 回答への注意は常に高いQA精度を必要としない

Attentiveness to Answer Choices Doesn't Always Entail High QA Accuracy ( http://arxiv.org/abs/2305.14596v1 )

ライセンス: Link先を確認
Sarah Wiegreffe, Matthew Finlayson, Oyvind Tafjord, Peter Clark, Ashish Sabharwal(参考訳) 大きな言語モデル (LM) をゼロまたは少数ショットの設定で多重選択質問などの識別タスクに適用すると、その注意力(確率質量)は有効な選択ではない多くの語彙トークンに分散する。 同一の意味を持つ複数の曲面形式にまたがるそのような広がりは、モデルの真の性能を過小評価する原因であると考えられており、これは「surface form competition (sfc)」仮説と呼ばれる。 これは様々な確率正規化法の導入の動機となった。 しかし、多くの疑問は未解決のままである。 SFCや注意度をどう測定するか? 有効な選択に注意を向ける直接的な方法はありますか? 注意度の向上はタスクの正確性を改善するか? そこで本研究では,この現象を研究するための数学的形式論を提案し,注意度を定量化するための指標を提供し,回答の選択を含む1つの例さえも含む,文脈内学習の簡単な方法を特定する。 形式主義は、sfcを定量化し、その影響を限定することができる。 3つの多様なデータセットと6つのlsmに関する実験から、いくつかの驚くべき発見が得られた。 例えば、有効な解選択を生成するようモデルに促すことは、実際は一部のLMのタスク性能に有害であり、事前確率正規化法は命令調整されたLMに対してより効果的(時には有害)である。 提案手法は,複数選択タスクに誘導されたLMを効果的に活用するための実践的な洞察を与える。

When large language models (LMs) are applied in zero- or few-shot settings to discriminative tasks such as multiple-choice questions, their attentiveness (i.e., probability mass) is spread across many vocabulary tokens that are not valid choices. Such a spread across multiple surface forms with identical meaning is thought to cause an underestimation of a model's true performance, referred to as the "surface form competition" (SFC) hypothesis. This has motivated the introduction of various probability normalization methods. However, many core questions remain unanswered. How do we measure SFC or attentiveness? Are there direct ways of increasing attentiveness on valid choices? Does increasing attentiveness always improve task accuracy? We propose a mathematical formalism for studying this phenomenon, provide a metric for quantifying attentiveness, and identify a simple method for increasing it -- namely, in-context learning with even just one example containing answer choices. The formalism allows us to quantify SFC and bound its impact. Our experiments on three diverse datasets and six LMs reveal several surprising findings. For example, encouraging models to generate a valid answer choice can, in fact, be detrimental to task performance for some LMs, and prior probability normalization methods are less effective (sometimes even detrimental) to instruction-tuned LMs. We conclude with practical insights for effectively using prompted LMs for multiple-choice tasks.
翻訳日:2023-05-25 20:57:08 公開日:2023-05-24
# 実測値の操作:インセンティブ、ランク付け、情報非対称性

Operationalizing Counterfactual Metrics: Incentives, Ranking, and Information Asymmetry ( http://arxiv.org/abs/2305.14595v1 )

ライセンス: Link先を確認
Serena Wang, Stephen Bates, P. M. Aronow, Michael I. Jordan(参考訳) 社会科学から機械学習まで、最適化されるべきメトリクスが必ずしも社会福祉と一致しているとは限らないことは十分に文書化されている。 医療分野では、Dranove et al。 12] 手術死亡率の公表は, 提供者選択行動の増大により, 患者福祉に悪影響を及ぼした。 主エージェントモデルを用いて、このような平均的治療結果指標から生じるインセンティブのずれを直接研究し、治療決定を駆動するインセンティブが、指標が一致すれば患者の総福祉を最大化することを示す。 (i)不当な不当な結果の責任を負うこと、及び (II) 治療患者の平均福祉よりも全福祉を検討した。 これを運用することで、ランク付けに使用する場合に望ましい特性を満たすために、デファクトメトリクスをどのように修正できるかを示す。 プロバイダが規制機関よりも患者についてより多く観察する場合の現実的な設定に拡張し、私たちは、プリンシパルとエージェント間の情報非対称性の度合いによってパフォーマンスの低下を制限した。 そこで本モデルでは,主エージェント情報非対称性と因果推論の不均一性を関連付ける。

From the social sciences to machine learning, it has been well documented that metrics to be optimized are not always aligned with social welfare. In healthcare, Dranove et al. [12] showed that publishing surgery mortality metrics actually harmed the welfare of sicker patients by increasing provider selection behavior. Using a principal-agent model, we directly study the incentive misalignments that arise from such average treated outcome metrics, and show that the incentives driving treatment decisions would align with maximizing total patient welfare if the metrics (i) accounted for counterfactual untreated outcomes and (ii) considered total welfare instead of average welfare among treated patients. Operationalizing this, we show how counterfactual metrics can be modified to satisfy desirable properties when used for ranking. Extending to realistic settings when the providers observe more about patients than the regulatory agencies do, we bound the decay in performance by the degree of information asymmetry between the principal and the agent. In doing so, our model connects principal-agent information asymmetry with unobserved heterogeneity in causal inference.
翻訳日:2023-05-25 20:56:44 公開日:2023-05-24
# torchgfn: PyTorch GFlowNetライブラリ

torchgfn: A PyTorch GFlowNet library ( http://arxiv.org/abs/2305.14594v1 )

ライセンス: Link先を確認
Salem Lahlou, Joseph D. Viviano, Victor Schmidt(参考訳) 生成フローネットワーク(gflownetsまたはgfns)の人気が高まっているため、コードソースの急増が伴う。 これにより、一連の共通環境において、既存のものと簡単に比較できるトレーニング損失などの新機能の実装が妨げられます。 GFlowNetsの分野での研究を遅らせるだけでなく、さまざまなコードベースが異なる規約を使用している。 torchgfn`はPyTorch上に構築されたライブラリで、両方の問題を解決することを目的としている。 環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。 公開結果を複製する複数の例が提供されている。 コードはhttps://github.com/saleml/torchgfnで入手できる。

The increasing popularity of generative flow networks (GFlowNets or GFNs) is accompanied with a proliferation of code sources. This hinders the implementation of new features, such as training losses, that can readily be compared to existing ones, on a set of common environments. In addition to slowing down research in the field of GFlowNets, different code bases use different conventions, that might be confusing for newcomers. `torchgfn` is a library built on top of PyTorch, that aims at addressing both problems. It provides user with a simple API for environments, and useful abstractions for samplers and losses. Multiple examples are provided, replicating published results. The code is available in https://github.com/saleml/torchgfn.
翻訳日:2023-05-25 20:56:25 公開日:2023-05-24
# 判別校正

Discriminative calibration ( http://arxiv.org/abs/2305.14593v1 )

ライセンス: Link先を確認
Yuling Yao, Justin Domke(参考訳) ベイズ計算の精度を確認するために、ランクに基づくシミュレーションベースキャリブレーション(SBC)を用いるのが一般的である。 しかし、SBCには欠点がある: テスト統計は幾らかアドホックであり、相互作用を調べることは困難であり、複数のテストは困難であり、結果として得られるp値は分岐計量ではない。 本稿では,データからテスト統計を学習するフレキシブルな分類手法に限界ランクテストを置き換えることを提案する。 この尺度は典型的にはSBCランクテストよりも高い統計力を持ち、分類精度から計算された誤校正の解釈可能なばらつき尺度を返す。 このアプローチは様々なデータ生成プロセスで使用でき、確率的推論やマルコフ連鎖モンテカルロや変分推論のような従来の推論方法に対処することができる。 本稿では,ニューラルネットワークと統計的にインスパイアされた特徴を用いた自動実装を説明し,数値および実データ実験による検証を行う。

To check the accuracy of Bayesian computations, it is common to use rank-based simulation-based calibration (SBC). However, SBC has drawbacks: The test statistic is somewhat ad-hoc, interactions are difficult to examine, multiple testing is a challenge, and the resulting p-value is not a divergence metric. We propose to replace the marginal rank test with a flexible classification approach that learns test statistics from data. This measure typically has a higher statistical power than the SBC rank test and returns an interpretable divergence measure of miscalibration, computed from classification accuracy. This approach can be used with different data generating processes to address likelihood-free inference or traditional inference methods like Markov chain Monte Carlo or variational inference. We illustrate an automated implementation using neural networks and statistically-inspired features, and validate the method with numerical and real data experiments.
翻訳日:2023-05-25 20:56:13 公開日:2023-05-24
# exnet:データレステキスト分類のための効率的な文脈内学習

EXnet: Efficient In-context Learning for Data-less Text classification ( http://arxiv.org/abs/2305.14622v1 )

ライセンス: Link先を確認
Debaditya Shome, Kuldeep Yadav(参考訳) 大規模な事前学習言語モデル(PLM)は、世界の知識を符号化し、ゼロショット、少数ショット、コンテキスト内学習を含む新しい学習パラダイムを生み出した。 多くの言語タスクは、一連のプロンプト(例えば、この地理に関するテキストは?)としてモデル化することができ、言語モデルはバイナリな回答、すなわちイエスまたはNoを提供することができる。 多くのplmで使われる次の単語予測はゼロショットパラダイムとうまく一致しないことを示す証拠がある。 したがって、PLMは質問応答システムとして微調整される。 インコンテキスト学習はプロンプトとサンプルを組み込むことでゼロショット学習を拡張し、タスクの正確性を高める。 本稿では,実例数を制限することなく,文脈内学習を行うように設計されたモデルであるexnetを提案する。 我々は,テキスト分類タスクにおいて,コンテキスト内学習がタスクの精度を高める効果的な方法であり,特にタスク間の一般化を促進することを主張する。 広範な実験により、最小のモデル(15mのパラメータ)でさえも、目に見えないいくつかの分類タスクとドメインに一般化できることを示した。

Large pre-trained language models (PLMs) have made significant progress in encoding world knowledge and spawned a new set of learning paradigms including zero-shot, few-shot, and in-context learning. Many language tasks can be modeled as a set of prompts (for example, is this text about geography?) and language models can provide binary answers, i.e., Yes or No. There is evidence to suggest that the next-word prediction used by many PLMs does not align well with zero-shot paradigms. Therefore, PLMs are fine-tuned as a question-answering system. In-context learning extends zero-shot learning by incorporating prompts and examples, resulting in increased task accuracy. Our paper presents EXnet, a model specifically designed to perform in-context learning without any limitations on the number of examples. We argue that in-context learning is an effective method to increase task accuracy, and providing examples facilitates cross-task generalization, especially when it comes to text classification tasks. With extensive experiments, we show that even our smallest model (15M parameters) generalizes to several unseen classification tasks and domains.
翻訳日:2023-05-25 20:50:04 公開日:2023-05-24
# 合成学習データにおける物体配置の現実的分布は視覚に基づく物体検出モデルの性能を向上させる

Realistically distributing object placements in synthetic training data improves the performance of vision-based object detection models ( http://arxiv.org/abs/2305.14621v1 )

ライセンス: Link先を確認
Setareh Dabiri, Vasileios Lioutas, Berend Zwartsenberg, Yunpeng Liu, Matthew Niedoba, Xiaoxuan Liang, Dylan Green, Justice Sefas, Jonathan Wilder Lavington, Frank Wood, Adam Scibior(参考訳) 合成データ上で物体検出モデルを訓練する場合、合成データの分布を実データの分布にできるだけ近いものにすることが重要である。 対象の配置分布が与える影響を特に調査し、合成データの他の全ての側面を固定する。 CARLAにおける3次元車両検出モデルの訓練とKITTIによる試験により,物体配置分布の改善による大幅な改善が示された。

When training object detection models on synthetic data, it is important to make the distribution of synthetic data as close as possible to the distribution of real data. We investigate specifically the impact of object placement distribution, keeping all other aspects of synthetic data fixed. Our experiment, training a 3D vehicle detection model in CARLA and testing on KITTI, demonstrates a substantial improvement resulting from improving the object placement distribution.
翻訳日:2023-05-25 20:49:45 公開日:2023-05-24
# 相互排他的説明を爆発させる誘惑的常識

Abductive Commonsense Reasoning Exploiting Mutually Exclusive Explanations ( http://arxiv.org/abs/2305.14618v1 )

ライセンス: Link先を確認
Wenting Zhao and Justin T. Chiu and Claire Cardie and Alexander M. Rush(参考訳) 帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。 この推論スタイルは、しばしば複数の妥当な説明があるコモンセンスタスクにとって重要である。 自然言語処理(NLP)における既存の帰納的推論のアプローチは、しばしば手動で生成したアノテーションを監督に頼っているが、そのようなアノテーションは主観的で偏見がある。 本研究は,直接監督ではなく,説明のサブセットのみが与えられた文脈において正しいという事実を生かす帰納的常識推論のアプローチを提案する。 この方法は後続正規化を用いて相互排他的制約を強制し、モデルに流動的な説明と妥当な説明の区別を学ぶよう促す。 実験の結果,我々のアプローチは,事前学習された言語モデルをゼロショット方式で直接適用したり,その他の知識提供のゼロショット方式に匹敵する,あるいは匹敵するものであることが判明した。

Abductive reasoning aims to find plausible explanations for an event. This style of reasoning is critical for commonsense tasks where there are often multiple plausible explanations. Existing approaches for abductive reasoning in natural language processing (NLP) often rely on manually generated annotations for supervision; however, such annotations can be subjective and biased. Instead of using direct supervision, this work proposes an approach for abductive commonsense reasoning that exploits the fact that only a subset of explanations is correct for a given context. The method uses posterior regularization to enforce a mutual exclusion constraint, encouraging the model to learn the distinction between fluent explanations and plausible ones. We evaluate our approach on a diverse set of abductive reasoning datasets; experimental results show that our approach outperforms or is comparable to directly applying pretrained language models in a zero-shot manner and other knowledge-augmented zero-shot methods.
翻訳日:2023-05-25 20:49:37 公開日:2023-05-24
# COMET-M:複合文における複数イベントの推論

COMET-M: Reasoning about Multiple Events in Complex Sentences ( http://arxiv.org/abs/2305.14617v1 )

ライセンス: Link先を確認
Sahithya Ravi, Raymond Ng, Vered Shwartz(参考訳) 話者の意図する意味を理解するには、しばしば明示されていないことを推論するために常識的推論を描く。 マルチイベント文では、文脈知識に基づくイベント間の関係を理解する必要がある。 本研究では,複合文内でターゲットイベントのコモンセンス推論を生成可能なイベント中心コモンセンスモデルであるcomet-m(multi-event)を提案する。 COMET-M は COMET (Bosselut et al., 2019) 上に構築されており、単純な文に対してイベント中心の推論を生成するのに優れるが、自然文で広く使われる多文文の複雑さに苦慮している。 この制限を克服するため、我々は35Kの人書き推論のマルチイベント推論データセットをキュレートする。 我々は,人間による推論に基づいてCOMET-Mを訓練し,自動ラベル付き例を用いてベースラインを作成する。 実験結果から,COMET上でのCOMET-Mの性能向上が得られた。 さらにcomet-mは、完全なコンテキストを考慮して、ターゲットイベントごとに異なる推論をうまく生成する。 COMET-Mは、コア参照解決、対話、ストーリー理解といった自然なテキストを含む下流タスクを約束する。

Understanding the speaker's intended meaning often involves drawing commonsense inferences to reason about what is not stated explicitly. In multi-event sentences, it requires understanding the relationships between events based on contextual knowledge. We propose COMET-M (Multi-Event), an event-centric commonsense model capable of generating commonsense inferences for a target event within a complex sentence. COMET-M builds upon COMET (Bosselut et al., 2019), which excels at generating event-centric inferences for simple sentences, but struggles with the complexity of multi-event sentences prevalent in natural text. To overcome this limitation, we curate a multi-event inference dataset of 35K human-written inferences. We trained COMET-M on the human-written inferences and also created baselines using automatically labeled examples. Experimental results demonstrate the significant performance improvement of COMET-M over COMET in generating multi-event inferences. Moreover, COMET-M successfully produces distinct inferences for each target event, taking the complete context into consideration. COMET-M holds promise for downstream tasks involving natural text such as coreference resolution, dialogue, and story understanding.
翻訳日:2023-05-25 20:49:20 公開日:2023-05-24
# 画像キャプションにおける接地問題の検討

Exploring the Grounding Issues in Image Caption ( http://arxiv.org/abs/2305.14616v1 )

ライセンス: Link先を確認
Pin-Er Chen, Hsin-Yu Chou, Po-Ya Angela Wang, Yu-Hsiang Tseng, Shu-Kai Hsieh(参考訳) 本稿では,マルチモーダルな意味表現に関する基礎的課題を,計算的認知言語学の観点から考察する。 接地感の5つの知覚特性を注釈し分析する: 順応, 知覚的サリエンス, 対象数, 迷路cueing, エコロジーニチェアソシエーション(ENA)。 Flickr30kデータセットから選択した画像に,探索的解析と統計的キャプションのモデリングを行った。 対象や事象の包括的理解には,認知的注意,言語表現の意味的区別,マルチモーダル構成が必要であることが示唆された。 この構築過程において、視聴者は位置の意味と余裕をマルチモーダルセマンティクスに統合し、視覚およびテキスト要素を含む画像テキストデータセットで使用される画像キャプションに統合する。 本研究は,自然言語理解システムにおいて,位置的意味と余裕の接地が,適切な応答を生じさせ,多様な状況において,人文構成の理解を前進させる可能性を示すために重要であることを示唆する。

This paper explores the grounding issue concerning multimodal semantic representation from a computational cognitive-linguistic view. Five perceptual properties of groundedness are annotated and analyzed: Affordance, Perceptual salience, Object number, Gaze cueing, and Ecological Niche Association (ENA). We annotated selected images from the Flickr30k dataset with exploratory analyses and statistical modeling of their captions. Our findings suggest that a comprehensive understanding of an object or event requires cognitive attention, semantic distinctions in linguistic expression, and multimodal construction. During this construction process, viewers integrate situated meaning and affordance into multimodal semantics, which is consolidated into image captions used in the image-text dataset incorporating visual and textual elements. Our findings suggest that situated meaning and affordance grounding are critical for grounded natural language understanding systems to generate appropriate responses and show the potential to advance the understanding of human construal in diverse situations.
翻訳日:2023-05-25 20:49:01 公開日:2023-05-24
# あいまいな質問を選択的に答える

Selectively Answering Ambiguous Questions ( http://arxiv.org/abs/2305.14613v1 )

ライセンス: Link先を確認
Jeremy R. Cole, Michael J.Q. Zhang, Daniel Gillick, Julian Martin Eisenschlos, Bhuwan Dhingra, and Jacob Eisenstein(参考訳) 信頼できる言語モデルは、答えを知らないときに質問に答えることを禁じるべきです。 しかし、質問に対する答えは様々な理由から不明である。 以前の研究は、質問が明確であり、回答が曖昧であるがおそらく不明である場合に焦点を当ててきた。 しかし,質問者の意図や文脈の不確実性から,質問に対する回答が不明確になることもある。 本研究では,本質的に曖昧な質問集合から,質問のサブセットに対して高い精度で回答することに着目し,質問応答について検討する。 この設定では、キャリブレーションに対する最も信頼できるアプローチは、事前の作業で使用されるモデルの可能性や自己検証よりも、サンプルモデル出力のセット内で繰り返しを定量化することである。 % 異なるタイプの不確実性、異なるモデルスケール、および、命令チューニングの有無のどちらにおいても、この傾向は見られます。 その結果,サンプリングに基づく信頼度スコアは,比較的あいまいな質問に対する回答の校正に役立ち,あいまいな質問に対してより劇的な改善をもたらすことが示唆された。

Trustworthy language models should abstain from answering questions when they do not know the answer. However, the answer to a question can be unknown for a variety of reasons. Prior research has focused on the case in which the question is clear and the answer is unambiguous but possibly unknown. However, the answer to a question can also be unclear due to uncertainty of the questioner's intent or context. We investigate question answering from this perspective, focusing on answering a subset of questions with a high degree of accuracy, from a set of questions in which many are inherently ambiguous. In this setting, we find that the most reliable approach to calibration involves quantifying repetition within a set of sampled model outputs, rather than the model's likelihood or self-verification as used in prior work. % We find this to be the case across different types of uncertainty, varying model scales and both with or without instruction tuning. Our results suggest that sampling-based confidence scores help calibrate answers to relatively unambiguous questions, with more dramatic improvements on ambiguous questions.
翻訳日:2023-05-25 20:48:40 公開日:2023-05-24
# キーポイント検出アルゴリズムを用いた前十字靭帯損傷リスクの評価

Assessment of Anterior Cruciate Ligament Injury Risk Based on Human Key Points Detection Algorithm ( http://arxiv.org/abs/2305.14612v1 )

ライセンス: Link先を確認
Ziyu Gong, Xiong Zhao, Chen Yang(参考訳) 本稿では、コンピュータビジョン技術を用いて検出された人体のキーポイントに基づいて、ACL損傷リスク評価アルゴリズムを提案することにより、前十字靭帯(ACL)の潜在的な損傷リスクを検出することを目的とする。 各フレームにおける人体のキーポイントデータを取得するために,オープンソースのコンピュータビジョンアルゴリズムであるOpenPoseを採用した。 得られたデータは前処理を行い、ランディングエラー評価システム(LESS)に基づいてACL電位損傷特徴抽出モデルに入力される。 本モデルでは, 膝屈曲角度, 矢状面の幹屈曲角度, 前方面の幹屈曲角度, 足関節水平距離, 足関節肩水平距離などの重要なパラメータを抽出した。 これらの特徴をしきい値間隔に割り当て,それに応じて分割評価関数を用いて評価を行った。 参加者の最終スコアを計算するために,分析階層プロセス(ahp)に基づいて設計された重み付けスコアモデルにスコア値を入力した。 AHPベースのモデルは、全体的な評価において各特徴の相対的重要性を考慮している。 その結果,ACL損傷のリスクを効果的に検出できることがわかった。 提案アルゴリズムはACL損傷リスクの検出に有効であり,スポーツ関連分野における傷害予防と介入戦略に有用な知見を提供する。 https://github.com/ZiyuGong-proj/Assessment-of-ACL-Injury-Risk-based-on-Openpose

This paper aims to detect the potential injury risk of the anterior cruciate ligament (ACL) by proposing an ACL potential injury risk assessment algorithm based on key points of the human body detected using computer vision technology. To obtain the key points data of the human body in each frame, OpenPose, an open source computer vision algorithm, was employed. The obtained data underwent preprocessing and were then fed into an ACL potential injury feature extraction model based on the Landing Error Evaluation System (LESS). This model extracted several important parameters, including the knee flexion angle, the trunk flexion on the sagittal plane, trunk flexion angle on the frontal plane, the ankle knee horizontal distance, and the ankle shoulder horizontal distance. Each of these features was assigned a threshold interval, and a segmented evaluation function was utilized to score them accordingly. To calculate the final score of the participant, the score values were input into a weighted scoring model designed based on the Analytic Hierarchy Process (AHP). The AHP based model takes into account the relative importance of each feature in the overall assessment. The results demonstrate that the proposed algorithm effectively detects the potential risk of ACL injury. The proposed algorithm demonstrates its effectiveness in detecting ACL injury risk, offering valuable insights for injury prevention and intervention strategies in sports and related fields. Code is available at: https://github.com/ZiyuGong-proj/Assessment-of-ACL-Injury-Risk-Based-on-Openpose
翻訳日:2023-05-25 20:48:23 公開日:2023-05-24
# この土地は『Your, My} Land: Evaluating Geopolitical Biases in Language Models』である

This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language Models ( http://arxiv.org/abs/2305.14610v1 )

ライセンス: Link先を確認
Bryan Li, Chris Callison-Burch(参考訳) 地政学的バイアスの概念は、言語的文脈によって異なる地政学的知識を報告する傾向にある。 事例研究として、両国間の領土紛争を考察する。 例えば、広く争われたスプラトリー諸島では、lmは中国語で尋ねると中国に属し、タガログで尋ねるとフィリピンに属す確率が高いだろうか? このようなバイアスが存在するかどうかを評価するために、まずWikipediaから領域紛争のデータセットを収集し、その後、各領域を多言語で複数選択の質問に関連付ける。 このデータセットはBorderLinesと呼ばれ、45の言語で質問される250の領域から構成されている。 これらの質問集合を言語モデルに適用し,いくつかの定量的指標を用いて地政学的バイアスを分析した。 メトリクスは、異なる質問言語での応答と実際の地政学的状況を比較します。 地政学的偏見の現象は独特な言語間評価であり、前作の単言語的(主に英語)の偏見評価に焦点を当てているのとは対照的である。 その存在は、多言語人間とは異なり、LMの知識が言語間で矛盾していることを示している。

We introduce the notion of geopolitical bias -- a tendency to report different geopolitical knowledge depending on the linguistic context. As a case study, we consider territorial disputes between countries. For example, for the widely contested Spratly Islands, would an LM be more likely to say they belong to China if asked in Chinese, vs. to the Philippines if asked in Tagalog? To evaluate if such biases exist, we first collect a dataset of territorial disputes from Wikipedia, then associate each territory with a set of multilingual, multiple-choice questions. This dataset, termed BorderLines, consists of 250 territories with questions in 45 languages. We pose these question sets to language models, and analyze geopolitical bias in their responses through several proposed quantitative metrics. The metrics compare between responses in different question languages as well as to the actual geopolitical situation. The phenomenon of geopolitical bias is a uniquely cross-lingual evaluation, contrasting with prior work's monolingual (mostly English) focus on bias evaluation. Its existence shows that the knowledge of LMs, unlike multilingual humans, is inconsistent across languages.
翻訳日:2023-05-25 20:47:58 公開日:2023-05-24
# 平均報酬基準を用いた逆強化学習

Inverse Reinforcement Learning with the Average Reward Criterion ( http://arxiv.org/abs/2305.14608v1 )

ライセンス: Link先を確認
Feiyang Wu, Jingyang Ke, Anqi Wu(参考訳) 逆強化学習(IRL)の問題点を,平均回帰基準を用いて検討する。 目的は、エージェントが経験豊富なエージェントから状態とアクションのサンプルしか持たない場合、未知のポリシーと報酬関数を回復することである。 従来のirl手法では、専門家は割引環境で訓練され、割引要因が知られている。 この研究は、平均回帰フレームワークを効率的な学習アルゴリズムで提案することで、この仮定を緩和する。 本研究では, 平均逆マルコフ決定過程 (AMDP) をサブプロブレムとして解くことが必要な, 平均逆条件下でIRL問題を解くための新しい確率的一階法を開発した。 この問題を解くために, 一般状態と作用空間において, 勾配計算に$\mathcal{{o}}(1/\varepsilon)$ のステップを必要とする確率的ポリシーミラー降下法 (spmd) を開発した。 SPMDを組み込んだ逆ポリシーミラー蛍光法 (IPMD) により, IRL問題を$\mathcal{O}(1/\varepsilon^2)$複雑さで解く。 我々の知る限りでは、上記の複雑さの結果は新しいIRLです。 最後に,MuJoCoベンチマークと追加制御タスクを用いた数値実験を用いて解析を行った。

We study the problem of Inverse Reinforcement Learning (IRL) with an average-reward criterion. The goal is to recover an unknown policy and a reward function when the agent only has samples of states and actions from an experienced agent. Previous IRL methods assume that the expert is trained in a discounted environment, and the discount factor is known. This work alleviates this assumption by proposing an average-reward framework with efficient learning algorithms. We develop novel stochastic first-order methods to solve the IRL problem under the average-reward setting, which requires solving an Average-reward Markov Decision Process (AMDP) as a subproblem. To solve the subproblem, we develop a Stochastic Policy Mirror Descent (SPMD) method under general state and action spaces that needs $\mathcal{{O}}(1/\varepsilon)$ steps of gradient computation. Equipped with SPMD, we propose the Inverse Policy Mirror Descent (IPMD) method for solving the IRL problem with a $\mathcal{O}(1/\varepsilon^2)$ complexity. To the best of our knowledge, the aforementioned complexity results are new in IRL. Finally, we corroborate our analysis with numerical experiments using the MuJoCo benchmark and additional control tasks.
翻訳日:2023-05-25 20:47:37 公開日:2023-05-24
# Taylor の学習

Taylor Learning ( http://arxiv.org/abs/2305.14606v1 )

ライセンス: Link先を確認
James Schmidt(参考訳) 経験的リスク最小化は、教師付き機械学習におけるほとんどの最適化の背後にある。 この方式では、ラベル付きデータを用いて予測コスト(リスク)を近似し、学習アルゴリズムは、予測コストをほぼ最小化することを目的とした経験的リスク最小化器の探索において、モデル定義パラメータを更新する。 パラメータ更新は、多くの場合、勾配降下によって行われる。 本稿では,勾配降下や経験的リスク最小化を用いない実解析関数モデルを構築するための学習アルゴリズムを提案する。 このような関数が局所的な情報によって定義されることを観察し、分布からデータをサンプリングする文脈でよく知られたテイラー近似法を定式化し、非一様学習結果を証明する。

Empirical risk minimization stands behind most optimization in supervised machine learning. Under this scheme, labeled data is used to approximate an expected cost (risk), and a learning algorithm updates model-defining parameters in search of an empirical risk minimizer, with the aim of thereby approximately minimizing expected cost. Parameter update is often done by some sort of gradient descent. In this paper, we introduce a learning algorithm to construct models for real analytic functions using neither gradient descent nor empirical risk minimization. Observing that such functions are defined by local information, we situate familiar Taylor approximation methods in the context of sampling data from a distribution, and prove a nonuniform learning result.
翻訳日:2023-05-25 20:47:13 公開日:2023-05-24
# Newton-Cotes Graph Neural Networks: 動的システムの時間進化について

Newton-Cotes Graph Neural Networks: On the Time Evolution of Dynamic Systems ( http://arxiv.org/abs/2305.14642v1 )

ライセンス: Link先を確認
Lingbing Guo, Weiqing Wang, Zhuo Chen, Ningyu Zhang, Zequn Sun, Yixuan Lai, Qiang Zhang, and Huajun Chen(参考訳) 推論システムダイナミクスは、多くの科学研究において最も重要な分析的アプローチの一つである。 システムの初期状態が入力となると、最近のグラフニューラルネットワーク(gnns)ベースの手法は、時間内に遠く離れた将来の状態を高精度に予測することができる。 これらの手法は座標とシステムの相互作用力のモデル化において多種多様であるが,初期座標と終端座標の間隔における速度の積分を学習する共通パラダイムを実際に共有していることを示す。 しかし、それらの積分は定数 w.r.t. 時間である。 この観察に触発されて,ニュートン・コート公式を用いた複数の速度推定に基づく統合予測法を提案し,理論的に有効性を証明する。 いくつかのベンチマークでの大規模な実験は、最先端の手法と比較して、一貫性と顕著な改善を実証的に示す。

Reasoning system dynamics is one of the most important analytical approaches for many scientific studies. With the initial state of a system as input, the recent graph neural networks (GNNs)-based methods are capable of predicting the future state distant in time with high accuracy. Although these methods have diverse designs in modeling the coordinates and interacting forces of the system, we show that they actually share a common paradigm that learns the integration of the velocity over the interval between the initial and terminal coordinates. However, their integrand is constant w.r.t. time. Inspired by this observation, we propose a new approach to predict the integration based on several velocity estimations with Newton-Cotes formulas and prove its effectiveness theoretically. Extensive experiments on several benchmarks empirically demonstrate consistent and significant improvement compared with the state-of-the-art methods.
翻訳日:2023-05-25 20:39:09 公開日:2023-05-24
# GPUに基づく並列アルゴリズムによるグラフ解析:量子クラスタリング

Graphy Analysis Using a GPU-based Parallel Algorithm: Quantum Clustering ( http://arxiv.org/abs/2305.14641v1 )

ライセンス: Link先を確認
Zhe Wang, ZhiJie He, Ding Liu(参考訳) 本稿では、グラフ構造に量子クラスタリングを適用する新しい方法を紹介する。 量子クラスタリング(Quantum Clustering, QC)は、ポテンシャル関数を構築してクラスター中心を決定する、新しい密度に基づく教師なし学習手法である。 本手法では,グラフ勾配降下アルゴリズムを用いてクラスタの中心を探索する。 GPU並列化はポテンシャル値の計算に利用される。 また,広く使用されている5つのデータセットについて実験を行い,4つの指標を用いて評価した。 その結果,提案手法の性能が向上した。 最後に,実験結果に対する$\sigma$の影響について考察する。

The article introduces a new method for applying Quantum Clustering to graph structures. Quantum Clustering (QC) is a novel density-based unsupervised learning method that determines cluster centers by constructing a potential function. In this method, we use the Graph Gradient Descent algorithm to find the centers of clusters. GPU parallelization is utilized for computing potential values. We also conducted experiments on five widely used datasets and evaluated using four indicators. The results show superior performance of the method. Finally, we discuss the influence of $\sigma$ on the experimental results.
翻訳日:2023-05-25 20:38:55 公開日:2023-05-24
# ui-to-code生成のための強化学習微調整視覚変換器

Reinforcement Learning finetuned Vision-Code Transformer for UI-to-Code Generation ( http://arxiv.org/abs/2305.14637v1 )

ライセンス: Link先を確認
Davit Soselia, Khalid Saifullah, and Tianyi Zhou(参考訳) スクリーンショットからHTML/CSSコードの自動生成は、Webサイトの開発と設計における幅広いアプリケーションにおいて、重要ながら難しい問題である。 本稿では,エンコーダ・デコーダアーキテクチャを活用した新しいビジョン・コード変換手法を提案するとともに,ベースラインを改善する方法としてアクタ・クリティック・微調整について検討する。 この目的のために、2つの画像エンコーダを比較する: Vision Transformer (ViT) と Document Image Transformer (DiT) である。 我々は、スクリーンショットから直接高品質なコードスニペットを生成し、開発者のWebサイト作成プロセスを合理化できるエンドツーエンドパイプラインを提案する。 モデルをトレーニングし、評価するために、30,000のユニークなコードと対応するスクリーンショットからなる合成データセットを作成しました。 我々は,mse,bleu,iou,新しいhtmlbleuスコアなどの自動測定値を用いて,この手法の性能を評価した。 我々は,DiT-GPT2モデルで強いベースラインを確立し,俳優-批評家がIoUスコアを0.64から0.79に改善し,MSEを12.25から9.02に下げることができることを示す。 計算コストを大幅に削減して、より大きなモデルを使用する場合と同様のパフォーマンスを実現しました。

Automated HTML/CSS code generation from screenshots is an important yet challenging problem with broad applications in website development and design. In this paper, we present a novel vision-code transformer approach that leverages an Encoder-Decoder architecture as well as explore actor-critic fine-tuning as a method for improving upon the baseline. For this purpose, two image encoders are compared: Vision Transformer (ViT) and Document Image Transformer (DiT). We propose an end-to-end pipeline that can generate high-quality code snippets directly from screenshots, streamlining the website creation process for developers. To train and evaluate our models, we created a synthetic dataset of 30,000 unique pairs of code and corresponding screenshots. We evaluate the performance of our approach using a combination of automated metrics such as MSE, BLEU, IoU, and a novel htmlBLEU score, where our models demonstrated strong performance. We establish a strong baseline with the DiT-GPT2 model and show that actor-critic can be used to improve IoU score from the baseline of 0.64 to 0.79 and lower MSE from 12.25 to 9.02. We achieved similar performance as when using larger models, with much lower computational cost.
翻訳日:2023-05-25 20:38:48 公開日:2023-05-24
# CMOT:音声翻訳のための最適移動によるクロスモーダル混合

CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation ( http://arxiv.org/abs/2305.14635v1 )

ライセンス: Link先を確認
Yan Zhou, Qingkai Fang, Yang Feng(参考訳) end-to-end speech translation (st) は、ソース言語の音声信号を対象言語でテキストに変換するタスクである。 クロスモーダルなタスクとして、限られたデータでエンドツーエンドSTをトレーニングすることは困難である。 既存の手法はしばしば機械翻訳(mt)から知識を転送しようとするが、その性能は音声とテキストのモーダリティギャップによって制限される。 本稿では,モダリティギャップを克服するために,最適輸送CMOTを用いたクロスモーダル混合を提案する。 最適なトランスポートにより音声とテキストの配列のアライメントを見つけ、アライメントを用いて異なるモダリティからのシーケンスをトークンレベルで混合する。 MuST-C STベンチマークの実験では、CMOTは平均30.0のBLEUを8つの翻訳方向で達成し、従来の方法よりも優れていた。 さらに分析した結果、cmotは音声とテキスト間のモーダリティギャップを軽減するために、モーダリティ間のアライメントを適応的に見つけることができる。 コードはhttps://github.com/ictnlp/CMOT.comで公開されている。

End-to-end speech translation (ST) is the task of translating speech signals in the source language into text in the target language. As a cross-modal task, end-to-end ST is difficult to train with limited data. Existing methods often try to transfer knowledge from machine translation (MT), but their performances are restricted by the modality gap between speech and text. In this paper, we propose Cross-modal Mixup via Optimal Transport CMOT to overcome the modality gap. We find the alignment between speech and text sequences via optimal transport and then mix up the sequences from different modalities at a token level using the alignment. Experiments on the MuST-C ST benchmark demonstrate that CMOT achieves an average BLEU of 30.0 in 8 translation directions, outperforming previous methods. Further analysis shows CMOT can adaptively find the alignment between modalities, which helps alleviate the modality gap between speech and text. Code is publicly available at https://github.com/ictnlp/CMOT.
翻訳日:2023-05-25 20:38:28 公開日:2023-05-24
# 超モジュラランク:集合関数分解と最適化

Supermodular Rank: Set Function Decomposition and Optimization ( http://arxiv.org/abs/2305.14632v1 )

ライセンス: Link先を確認
Rishi Sonthalia and Anna Seigal and Guido Montufar(参考訳) 格子上の関数の超モジュラー階数を定義する。 これは超モジュラ函数の和に分解するのに必要となる最小の項数である。 超モジュラー和は異なる部分順序に関して定義される。 超モジュラー階数の最大値を特徴付け、固定された超モジュラー階数の関数を記述する。 準モジュラーランクを類似的に定義する。 部分モジュラ分解を用いて集合関数を最適化する。 集合関数の部分モジュラーランクに境界が与えられると、最適化問題を部分モジュラー部分問題に分割するアルゴリズムを定式化する。 本手法は,単調集合関数の最大化と集合関数の最小化に対する数アルゴリズムの近似比の保証を,部分モジュラー階数に依存する計算オーバーヘッドで改善することを示す。

We define the supermodular rank of a function on a lattice. This is the smallest number of terms needed to decompose it into a sum of supermodular functions. The supermodular summands are defined with respect to different partial orders. We characterize the maximum possible value of the supermodular rank and describe the functions with fixed supermodular rank. We analogously define the submodular rank. We use submodular decompositions to optimize set functions. Given a bound on the submodular rank of a set function, we formulate an algorithm that splits an optimization problem into submodular subproblems. We show that this method improves the approximation ratio guarantees of several algorithms for monotone set function maximization and ratio of set functions minimization, at a computation overhead that depends on the submodular rank.
翻訳日:2023-05-25 20:38:10 公開日:2023-05-24
# GPT-3と-4における単語意味の因果モデルの検討

Testing Causal Models of Word Meaning in GPT-3 and -4 ( http://arxiv.org/abs/2305.14630v1 )

ライセンス: Link先を確認
Sam Musker, Ellie Pavlick(参考訳) 大規模言語モデル(llm)はnlpの大幅な改善を促した。 しかし、これらのモデルがどのように語彙概念、すなわち彼らが使用する単語の意味を表すのかは不明である。 本稿では,人工物を記述する単語(mop,pencil,whistleなど)の表現に焦点を当てた概念表現理論であるHIPE理論のレンズによるGPT-3とGPT-4の語彙表現を評価する。 この理論は、そのような単語の意味をそれらが参照する対象の形式、使用、歴史に関連付ける因果グラフを仮定している。 我々は、chaigneau et al. (2004) がもともと使用したのと同じ刺激を用いて、人間の理論を評価するためにllmをテストし、様々なプロンプトデザインを検討する。 実験では,因果結果,対象関数,対象命名に関する判断について検討した。 GPT-3がHIPEによって仮定された因果構造をコードしている証拠は見つからないが、GPT-4がそのような構造をコードしている証拠は見つからない。 この結果は,大規模言語モデルの表現能力を特徴付ける研究機関の成長に寄与する。

Large Language Models (LLMs) have driven extraordinary improvements in NLP. However, it is unclear how such models represent lexical concepts-i.e., the meanings of the words they use. This paper evaluates the lexical representations of GPT-3 and GPT-4 through the lens of HIPE theory, a theory of concept representations which focuses on representations of words describing artifacts (such as "mop", "pencil", and "whistle"). The theory posits a causal graph that relates the meanings of such words to the form, use, and history of the objects to which they refer. We test LLMs using the same stimuli originally used by Chaigneau et al. (2004) to evaluate the theory in humans, and consider a variety of prompt designs. Our experiments concern judgements about causal outcomes, object function, and object naming. We find no evidence that GPT-3 encodes the causal structure hypothesized by HIPE, but do find evidence that GPT-4 encodes such structure. The results contribute to a growing body of research characterizing the representational capacity of large language models.
翻訳日:2023-05-25 20:37:58 公開日:2023-05-24
# 一般化・解釈可能な質問応答のためのプロンプトエキスパートの混合

Mixture of Prompt Experts for Generalizable and Interpretable Question Answering ( http://arxiv.org/abs/2305.14628v1 )

ライセンス: Link先を確認
Chenglei Si, Weijia Shi, Chen Zhao, Luke Zettlemoyer, Jordan Boyd-Graber(参考訳) 質問応答(QA)の究極的な探求の1つは、ユーザーからどんな種類の質問にも答えられるシステムをデプロイし、答えを知らないときの回答を控えることである。 近年の大規模言語モデル(LLM)のスケーリングの進歩は、様々なQAデータセットに大幅な改善をもたらしたが、特定の推論能力を必要とする質問タイプを1つのモデルで一般化することは困難である。 本稿では,まず,codex のような最先端の llm が,プロンプトで見られるものよりも,質問型の一般化性に乏しいことを実証的に示す。 そこで本研究では,複数の特殊なLLMをアンサンブルするMOPEシステムを提案する。 我々はまず,同じバックボーンモデル(Codex)に基づいて各専門モデルを実装するが,実数,マルチホップ,数学的,コモンセンスの推論など,さまざまな推論カテゴリに最適化されたプロンプトを持つ。 それぞれの質問に対して最適な特化モデルを戦略的に選択することにより、MOPEシステムは4つの推論型から12のQAデータセットの集合において、どの特化モデルよりも有意に優れている。 さらに、専門的な専門家モデル間の属性と合意は、より深い解釈可能性を提供し、より良い選択的な質問応答を可能にする。 また,人間実験では,専門家の予測と回答選択のプロセスが,システムの出力をいつ信頼するかをより正確に判断するのに役立つことを確認した。 将来の作業を容易にするために、すべてのコードとデータをリリースします。

One of the ultimate quests of question answering (QA) is to deploy a system that can answer any type of question from the users, and refrain from answering when it does not know the answer. While recent advancements in scaling large language models (LLMs) brought significant improvements on various QA datasets, it remains difficult for a single model to generalize across question types that require distinct reasoning abilities. In this paper, we first provide empirical evidence that state-of-the-art LLMs such as Codex suffer from poor generalizability on question types beyond those seen in the prompt. To address this, we propose a Mixture-of-Prompt-Experts (MOPE) system that ensembles multiple specialized LLMs. We first implement each specialized model based on the same backbone model (Codex) but with prompts optimized for different reasoning categories including factual, multihop, mathematical, and commonsense reasoning. By strategically selecting the best specialized model for each given question, our MOPE system significantly outperforms any single specialized model on a collection of 12 QA datasets from four reasoning types. Moreover, the attribution and agreement among specialized expert models offer greater interpretability, allowing for better selective question answering. Our human study further confirms that presenting the expert predictions and answer selection process helps annotators more accurately decide when to trust the system's output. We release all code and data to facilitate future work.
翻訳日:2023-05-25 20:37:40 公開日:2023-05-24
# 大きな言語モデルで引用でテキストを生成することができる

Enabling Large Language Models to Generate Text with Citations ( http://arxiv.org/abs/2305.14627v1 )

ライセンス: Link先を確認
Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen(参考訳) 大規模言語モデル (LLM) は情報検索のツールとして広く利用されているが、その生成した出力は幻覚の傾向にある。 本研究では,LLMが引用文を生成できるようにし,その事実の正しさと妥当性を向上させることを目的とする。 既存の作業は主に商用検索エンジンと人的評価に依存しており、異なるモデリング手法を再現し比較することは困難である。 自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。 alceは多様な質問と検索コーパスを収集し、証拠を収集し、引用で回答を生成するためにエンドツーエンドシステムを構築する必要がある。 私たちは3次元 – 流動性、正確性、引用品質 – に沿って自動メトリクスを構築し、人間の判断と強い相関関係を示しています。 最新のLCMと新しいプロンプト戦略による実験では、現在のシステムには改善の余地がかなりあることが示されています - 例えば、ELI5データセットでは、最高のモデルでさえ、その世代のうち49%が完全引用サポートを欠いているのです。 広範な分析では,より優れたレトリバーの開発,ロングコンテキストllmの進展,複数ソースからの情報を合成する能力の向上など,今後の方向性が注目される。

Large language models (LLMs) have emerged as a widely-used tool for information seeking, but their generated outputs are prone to hallucination. In this work, we aim to enable LLMs to generate text with citations, improving their factual correctness and verifiability. Existing work mainly relies on commercial search engines and human evaluation, making it challenging to reproduce and compare with different modeling approaches. We propose ALCE, the first benchmark for Automatic LLMs' Citation Evaluation. ALCE collects a diverse set of questions and retrieval corpora and requires building end-to-end systems to retrieve supporting evidence and generate answers with citations. We build automatic metrics along three dimensions -- fluency, correctness, and citation quality -- and demonstrate their strong correlation with human judgements. Our experiments with state-of-the-art LLMs and novel prompting strategies show that current systems have considerable room for improvements -- for example, on the ELI5 dataset, even the best model has 49% of its generations lacking complete citation support. Our extensive analyses further highlight promising future directions, including developing better retrievers, advancing long-context LLMs, and improving the ability to synthesize information from multiple sources.
翻訳日:2023-05-25 20:37:16 公開日:2023-05-24
# KNN-LMは、オープンなテキスト生成を改善しない

KNN-LM Does Not Improve Open-ended Text Generation ( http://arxiv.org/abs/2305.14625v1 )

ライセンス: Link先を確認
Shufan Wang, Yixiao Song, Andrew Drozdov, Aparna Garimella, Varun Manjunatha, Mohit Iyyer(参考訳) 本稿では,補間に基づく検索強化言語モデル(LM)の生成品質について検討する。 これらの方法は、KNN-LMによって最もよく例示され、予測された次の単語の分布と、与えられたプレフィックスの最も関連性の高い検索から形成される分布を補間する。 KNN-LMと関連する手法は、難易度を著しく低下させるが、自動評価指標(MAUVEなど)と人的評価の両方で測定されるように、オープンエンド世代品質の改善は示されていない。 さらに深く掘り下げると、検索分布との補間はwikitext-103テストセットの多くのトークンに対するベースライントランスフォーマーlmと比較して実際にはパープレキシティを増加させるが、補間後にパープレキシティが劇的に減少するトークンの数が少ないため全体のパープレキシティは低い。 しかし、推論時に長いシーケンスをデコードする場合、この小さなトークンのサブセットに対する大幅な改善は、ほとんどのトークンの予測を少し下回ることで排除される。 さらに,生成シーケンスが長くなるにつれて,検索分布のエントロピーがベースlmのエントロピーよりも速くなり,モデル生成テキストをクエリとして使用する場合(つまり露出バイアスを受ける場合),検索の信頼性が低下することを示す。 我々は,この分析が,検索型言語モデルの復号化アルゴリズムと補間戦略の改善を後押しすることを期待している。

In this paper, we study the generation quality of interpolation-based retrieval-augmented language models (LMs). These methods, best exemplified by the KNN-LM, interpolate the LM's predicted distribution of the next word with a distribution formed from the most relevant retrievals for a given prefix. While the KNN-LM and related methods yield impressive decreases in perplexity, we discover that they do not exhibit corresponding improvements in open-ended generation quality, as measured by both automatic evaluation metrics (e.g., MAUVE) and human evaluations. Digging deeper, we find that interpolating with a retrieval distribution actually increases perplexity compared to a baseline Transformer LM for the majority of tokens in the WikiText-103 test set, even though the overall perplexity is lower due to a smaller number of tokens for which perplexity dramatically decreases after interpolation. However, when decoding a long sequence at inference time, significant improvements on this smaller subset of tokens are washed out by slightly worse predictions on most tokens. Furthermore, we discover that the entropy of the retrieval distribution increases faster than that of the base LM as the generated sequence becomes longer, which indicates that retrieval is less reliable when using model-generated text as queries (i.e., is subject to exposure bias). We hope that our analysis spurs future work on improved decoding algorithms and interpolation strategies for retrieval-augmented language models.
翻訳日:2023-05-25 20:36:55 公開日:2023-05-24
# self-checker: 大きな言語モデルによるファクトチェックのためのプラグアンドプレイモジュール

Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models ( http://arxiv.org/abs/2305.14623v1 )

ライセンス: Link先を確認
Miaoran Li, Baolin Peng, Zhu Zhang(参考訳) ファクトチェックはNLPにおいて重要なタスクであり、クレームの事実的正確性を検証するために一般的に使用される。 それまでの研究は主に、特定のデータセット上の微調整済み言語モデルに重点を置いてきた。 ChatGPTやGPT-3といった大規模言語モデル(LLM)の急速な開発により、研究者は幅広いタスクに対してコンテキスト内学習能力を模索している。 本稿では,ほぼゼロショット設定でLLMを純粋に促すことでファクトチェックを容易にするプラグイン・アンド・プレイモジュールのセットからなるフレームワークであるSelf-Checkerを導入することにより,ファクトチェックのためのLCMの能力を評価することを目的とする。 このフレームワークは、低リソース環境でファクトチェックシステムを構築するための高速で効率的な方法を提供する。 実証的な結果から,自己チェッカーのファクトチェックにおけるLCM活用の可能性が示された。 しかし、SOTAの微調整モデルに比べれば改善の余地は依然として大きいため、将来のファクトチェック研究においてLLMの採用が有望なアプローチである可能性が示唆されている。

Fact-checking is an essential task in NLP that is commonly utilized for validating the factual accuracy of claims. Prior work has mainly focused on fine-tuning pre-trained languages models on specific datasets, which can be computationally intensive and time-consuming. With the rapid development of large language models (LLMs), such as ChatGPT and GPT-3, researchers are now exploring their in-context learning capabilities for a wide range of tasks. In this paper, we aim to assess the capacity of LLMs for fact-checking by introducing Self-Checker, a framework comprising a set of plug-and-play modules that facilitate fact-checking by purely prompting LLMs in an almost zero-shot setting. This framework provides a fast and efficient way to construct fact-checking systems in low-resource environments. Empirical results demonstrate the potential of Self-Checker in utilizing LLMs for fact-checking. However, there is still significant room for improvement compared to SOTA fine-tuned models, which suggests that LLM adoption could be a promising approach for future fact-checking research.
翻訳日:2023-05-25 20:36:31 公開日:2023-05-24
# オンライン連続学習におけるクロスタスククラス識別の扱い

Dealing with Cross-Task Class Discrimination in Online Continual Learning ( http://arxiv.org/abs/2305.14657v1 )

ライセンス: Link先を確認
Yiduo Guo, Bing Liu, Dongyan Zhao(参考訳) 既存の継続学習(CL)研究は、破滅的な忘れ(CF)をほとんど唯一の課題とみなしている。 本稿では,クラス増分学習(CIL)における別の課題として,クロスタスククラス差別(CTCD),すなわち,新しいタスクのクラスと古いタスク間の決定境界を,古いタスクデータに全く(あるいは限定的に)アクセスせずに確立する方法を挙げる。 CTCDは、リプレイベースの方法によって暗黙的に部分的に扱われる。 リプレイメソッドは、前のタスクから少量のデータ(再生データ)を保存します。 現在のタスクデータのバッチが到着すると、システムは新しいデータといくつかのサンプル再生データを共同でトレーニングする。 リプレイデータにより、保存されたデータの量が少ないため、システムは新しいクラスと古いクラスの間の決定境界を部分的に学習することができる。 しかし,本研究では,リプレイ手法には動的トレーニングバイアスの問題があり,CTCD問題の解法におけるリプレイデータの有効性が低下すると主張している。 オンラインCLプロセスの問題を動的に扱うために,勾配に基づく適応手法を用いた新しい最適化手法を提案する。 実験の結果,オンラインCLでは,新しい手法の方がはるかに優れた結果が得られることがわかった。

Existing continual learning (CL) research regards catastrophic forgetting (CF) as almost the only challenge. This paper argues for another challenge in class-incremental learning (CIL), which we call cross-task class discrimination (CTCD),~i.e., how to establish decision boundaries between the classes of the new task and old tasks with no (or limited) access to the old task data. CTCD is implicitly and partially dealt with by replay-based methods. A replay method saves a small amount of data (replay data) from previous tasks. When a batch of current task data arrives, the system jointly trains the new data and some sampled replay data. The replay data enables the system to partially learn the decision boundaries between the new classes and the old classes as the amount of the saved data is small. However, this paper argues that the replay approach also has a dynamic training bias issue which reduces the effectiveness of the replay data in solving the CTCD problem. A novel optimization objective with a gradient-based adaptive method is proposed to dynamically deal with the problem in the online CL process. Experimental results show that the new method achieves much better results in online CL.
翻訳日:2023-05-25 20:30:50 公開日:2023-05-24
# RSRM:強化シンボル回帰機

RSRM: Reinforcement Symbolic Regression Machine ( http://arxiv.org/abs/2305.14656v1 )

ライセンス: Link先を確認
Yilong Xu, Yang Liu, Hao Sun(参考訳) 自然界において、多くの複素系の挙動は調和的な数学方程式によって記述できる。 有限データからこれらの方程式を自動蒸留することは、ヒッヘルトが大きな課題であり続けている象徴的回帰過程として鋳造される。 近年、この問題に取り組むことに熱心に取り組んでおり、象徴的回帰の成功を示している。 しかし、離散的な探索空間が無限大に向かう傾向にある場合、特に基礎となる数式が複雑になるとき、現在の手法が破れるようなボトルネックが存在する。 この目的のために,不足データのみから複雑な数式を解く能力を習得する新しい強化記号回帰機械(RSRM)を提案する。 rsrmモデルは,(1)モンテカルロ木探索 (mcts) エージェントで,事前定義された数学演算子と変数からなる最適な数学式木を探索し,(2)報酬分布を適切に理解することでmctsの探索空間を縮小するダブルq学習ブロック,(3)ヒューリスティックに学習し,数学式ツリーの表現能力を向上させるための新しい数学演算子を定義する変調サブツリー探索ブロック,の3つのキーモジュールから構成されている。 これらのモジュールのバイディングは、複数のベンチマークの例で示されるように、シンボリック回帰におけるRSRMの最先端性能をもたらす。 RSRMモデルは、いくつかの代表的ベースラインモデルよりも明確な優位性を示す。

In nature, the behaviors of many complex systems can be described by parsimonious math equations. Automatically distilling these equations from limited data is cast as a symbolic regression process which hitherto remains a grand challenge. Keen efforts in recent years have been placed on tackling this issue and demonstrated success in symbolic regression. However, there still exist bottlenecks that current methods struggle to break when the discrete search space tends toward infinity and especially when the underlying math formula is intricate. To this end, we propose a novel Reinforcement Symbolic Regression Machine (RSRM) that masters the capability of uncovering complex math equations from only scarce data. The RSRM model is composed of three key modules: (1) a Monte Carlo tree search (MCTS) agent that explores optimal math expression trees consisting of pre-defined math operators and variables, (2) a Double Q-learning block that helps reduce the feasible search space of MCTS via properly understanding the distribution of reward, and (3) a modulated sub-tree discovery block that heuristically learns and defines new math operators to improve representation ability of math expression trees. Biding of these modules yields the state-of-the-art performance of RSRM in symbolic regression as demonstrated by multiple sets of benchmark examples. The RSRM model shows clear superiority over several representative baseline models.
翻訳日:2023-05-25 20:30:32 公開日:2023-05-24
# 暗黙の生存機能を持つ生存分布の学習

Learning Survival Distribution with Implicit Survival Function ( http://arxiv.org/abs/2305.14655v1 )

ライセンス: Link先を確認
Yu Ling, Weimin Tan and Bo Yan(参考訳) 生存分析は、共変量と事象発生との関係を、追跡されていない(検閲された)サンプルでモデル化することを目的としている。 実装において、既存の手法は強い仮定で生存確率分布をモデル化し、また検閲による可能性推定のために離散時間空間をモデル化する。 本稿では,強い仮定を伴わない生存分布推定のための暗黙的神経表現に基づく暗黙的生存関数(isf)を提案し,予測と最適化のための累積分布関数の近似に数値積分を適用する。 実験の結果、isfは3つのパブリックデータセットで最先端の手法よりも優れており、ハイパーパラメータ制御推定精度に頑健であることがわかった。

Survival analysis aims at modeling the relationship between covariates and event occurrence with some untracked (censored) samples. In implementation, existing methods model the survival distribution with strong assumptions or in a discrete time space for likelihood estimation with censorship, which leads to weak generalization. In this paper, we propose Implicit Survival Function (ISF) based on Implicit Neural Representation for survival distribution estimation without strong assumptions,and employ numerical integration to approximate the cumulative distribution function for prediction and optimization. Experimental results show that ISF outperforms the state-of-the-art methods in three public datasets and has robustness to the hyperparameter controlling estimation precision.
翻訳日:2023-05-25 20:30:03 公開日:2023-05-24
# barkour:四足ロボットによる動物レベルのアジリティのベンチマーク

Barkour: Benchmarking Animal-level Agility with Quadruped Robots ( http://arxiv.org/abs/2305.14654v1 )

ライセンス: Link先を確認
Ken Caluwaerts, Atil Iscen, J. Chase Kew, Wenhao Yu, Tingnan Zhang, Daniel Freeman, Kuang-Huei Lee, Lisa Lee, Stefano Saliceti, Vincent Zhuang, Nathan Batchelor, Steven Bohez, Federico Casarini, Jose Enrique Chen, Omar Cortes, Erwin Coumans, Adil Dostmohamed, Gabriel Dulac-Arnold, Alejandro Escontrela, Erik Frey, Roland Hafner, Deepali Jain, Bauyrjan Jyenis, Yuheng Kuang, Edward Lee, Linda Luu, Ofir Nachum, Ken Oslund, Jason Powell, Diego Reyes, Francesco Romano, Feresteh Sadeghi, Ron Sloat, Baruch Tabanpour, Daniel Zheng, Michael Neunert, Raia Hadsell, Nicolas Heess, Francesco Nori, Jeff Seto, Carolina Parada, Vikas Sindhwani, Vincent Vanhoucke, and Jie Tan(参考訳) 動物は、スプリント、跳躍、ジャンプなど、さまざまなアジャイルロコモーション戦略を進化させてきました。 生物学的なロボットのように動き、複雑な環境を素早く移動するための様々なアジャイルスキルを示す脚付きロボットの開発への関心が高まっている。 関心にもかかわらず、この分野には、アジリティにおける制御ポリシーとハードウェアのパフォーマンスを測定するための体系的なベンチマークが欠けている。 我々は脚付きロボットの機敏さを定量化するための障害物コースであるbarkeour benchmarkを紹介する。 犬のアジリティ競争に触発され、さまざまな障害と時間ベースのスコアリングメカニズムで構成されている。 これにより、研究者は速く動くだけでなく、制御可能で汎用的な方法で動くコントローラーを開発することができる。 強力なベースラインを設定するために,ベンチマークに取り組む2つの方法を提案する。 第1のアプローチでは、オンライン強化学習手法を用いて専門的な運動スキルを訓練し、それらを高レベルナビゲーションコントローラと組み合わせる。 第2のアプローチでは,様々な地形を処理し,知覚環境とロボット状態に基づいてロボットの歩行を調整できる,トランスフォーマリスト移動政策(locomotion-transformer)に専門的スキルを取り入れる。 カスタマイズされた四足歩行ロボットを用いて,犬の半分の速度でコースを完了できることを実証した。 私たちの仕事は、ロボットが動物レベルの俊敏性に到達するためのコントローラーを作るためのステップであることを期待しています。

Animals have evolved various agile locomotion strategies, such as sprinting, leaping, and jumping. There is a growing interest in developing legged robots that move like their biological counterparts and show various agile skills to navigate complex environments quickly. Despite the interest, the field lacks systematic benchmarks to measure the performance of control policies and hardware in agility. We introduce the Barkour benchmark, an obstacle course to quantify agility for legged robots. Inspired by dog agility competitions, it consists of diverse obstacles and a time based scoring mechanism. This encourages researchers to develop controllers that not only move fast, but do so in a controllable and versatile way. To set strong baselines, we present two methods for tackling the benchmark. In the first approach, we train specialist locomotion skills using on-policy reinforcement learning methods and combine them with a high-level navigation controller. In the second approach, we distill the specialist skills into a Transformer-based generalist locomotion policy, named Locomotion-Transformer, that can handle various terrains and adjust the robot's gait based on the perceived environment and robot states. Using a custom-built quadruped robot, we demonstrate that our method can complete the course at half the speed of a dog. We hope that our work represents a step towards creating controllers that enable robots to reach animal-level agility.
翻訳日:2023-05-25 20:29:48 公開日:2023-05-24
# ビデオマルチモーダル融合のための相互情報最大化による脱ノイズボトルネック

Denoising Bottleneck with Mutual Information Maximization for Video Multimodal Fusion ( http://arxiv.org/abs/2305.14652v1 )

ライセンス: Link先を確認
Shaoxaing Wu, Damai Dai, Ziwei Qin, Tianyu Liu, Binghuai Lin, Yunbo Cao, Zhifang Sui(参考訳) ビデオマルチモーダル融合は、視覚、音声、テキストなどのビデオにマルチモーダル信号を統合することを目的としており、複数のモーダルコンテンツで補完的な予測を行う。 しかし、他の画像テキストのマルチモーダルタスクとは異なり、ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオの両モードで発生する。 ノイズフィルタリングの粒度は,returning gateのような事前のデノイジング手法が粗い。 彼らはしばしば重要な情報を失うリスクを冒して冗長で騒がしい情報を抑圧する。 そこで本研究では,細粒度ビデオマルチモーダル融合のためのDBFモデルを提案する。 一方,騒音や冗長性を抑制された受容野で排除するボトルネック機構を採用している。 一方、相互情報最大化モジュールを用いてフィルタアウトモジュールを制御し、異なるモダリティ内でキー情報を保持する。 我々のDBFモデルは,マルチモーダル感情分析とマルチモーダル要約タスクを含む複数のベンチマークにおいて,最先端のベースラインよりも大幅に改善されている。 このモデルでは、ノイズや冗長なビデオ、音声、テキスト入力から有能な特徴を効果的に捉えることができる。 本論文のコードはhttps://github.com/WSXRHFG/DBF.comで公開されている。

Video multimodal fusion aims to integrate multimodal signals in videos, such as visual, audio and text, to make a complementary prediction with multiple modalities contents. However, unlike other image-text multimodal tasks, video has longer multimodal sequences with more redundancy and noise in both visual and audio modalities. Prior denoising methods like forget gate are coarse in the granularity of noise filtering. They often suppress the redundant and noisy information at the risk of losing critical information. Therefore, we propose a denoising bottleneck fusion (DBF) model for fine-grained video multimodal fusion. On the one hand, we employ a bottleneck mechanism to filter out noise and redundancy with a restrained receptive field. On the other hand, we use a mutual information maximization module to regulate the filter-out module to preserve key information within different modalities. Our DBF model achieves significant improvement over current state-of-the-art baselines on multiple benchmarks covering multimodal sentiment analysis and multimodal summarization tasks. It proves that our model can effectively capture salient features from noisy and redundant video, audio, and text inputs. The code for this paper is publicly available at https://github.com/WSXRHFG/DBF.
翻訳日:2023-05-25 20:29:24 公開日:2023-05-24
# エンティティアライメントの再検討とアウトストリップ:生成モデルの視点から

Revisit and Outstrip Entity Alignment: A Perspective of Generative Models ( http://arxiv.org/abs/2305.14651v1 )

ライセンス: Link先を確認
Lingbing Guo, Zhuo Chen, Jiaoyan Chen, and Huajun Chen(参考訳) 近年の埋め込み方式は,複数のモーダルの知識グラフ(KG)埋め込みからエンティティアライメントを活用することに成功している。 本稿では, 組込み型エンティティアライメント(EEA)について, 生成モデルの観点から検討する。 我々は,最近開発されたGAN(Generative Adversarial Network)に基づくEEA手法の有効性を理論的に証明した。 そして、その不完全な目的が、エンティティアライメントとエンティティ合成(すなわち、新しいエンティティの生成)の両方の能力を制限することを明らかにする。 生成モデルとして相互変分オートエンコーダ(M-VAE)を用いた生成EEA(abbr., GEEA)フレームワークを導入することでこの問題を軽減する。 M-VAEは、エンティティをあるKGから別のKGに変換し、ランダムノイズベクトルから新しいエンティティを生成することができる。 GEEAのパワーを理論的解析と実証実験で示し, 実体アライメントと実体合成の両課題について検討した。

Recent embedding-based methods have achieved great successes on exploiting entity alignment from knowledge graph (KG) embeddings of multiple modals. In this paper, we study embedding-based entity alignment (EEA) from a perspective of generative models. We show that EEA is a special problem where the main objective is analogous to that in a typical generative model, based on which we theoretically prove the effectiveness of the recently developed generative adversarial network (GAN)-based EEA methods. We then reveal that their incomplete objective limits the capacity on both entity alignment and entity synthesis (i.e., generating new entities). We mitigate this problem by introducing a generative EEA (abbr., GEEA) framework with the proposed mutual variational autoencoder (M-VAE) as the generative model. M-VAE can convert an entity from one KG to another and generate new entities from random noise vectors. We demonstrate the power of GEEA with theoretical analysis and empirical experiments on both entity alignment and entity synthesis tasks.
翻訳日:2023-05-25 20:29:08 公開日:2023-05-24
# 多変量時系列予測のためのジョイントタイム周波数領域トランス

A Joint Time-frequency Domain Transformer for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2305.14649v1 )

ライセンス: Link先を確認
Yushu Chen, Shengzhuo Liu, Jinzhe Yang, Hao Jing, Wenlai Zhao, and Guangwen Yang(参考訳) 計算要求を最小化しながら予測性能を向上させるため,多変量予測のための共同時間周波数領域変換器(JTFT)を提案する。 この方法は、少数の学習可能な周波数を用いて周波数領域における時系列の間隔を利用して、時間依存性を効果的に抽出する。 周波数領域表現と並行して、最新のデータポイントの固定数が時間領域に直接エンコードされ、局所的な関係の学習を促進し、非定常性の悪影響を緩和する。 JTFTは、内部表現の長さが入力シーケンス長に依存していないため、線形複雑性を実現する。 さらに, 時間的およびチャネル的モデリングの絡み合いによる性能劣化を効果的に防止するために, 低ランクの注意層を提案する。 6つの実世界のデータセットで実施された実験は、JTFTが最先端の手法より優れていることを示した。

To enhance predicting performance while minimizing computational demands, this paper introduces a joint time-frequency domain Transformer (JTFT) for multivariate forecasting. The method exploits the sparsity of time series in the frequency domain using a small number of learnable frequencies to extract temporal dependencies effectively. Alongside the frequency domain representation, a fixed number of the most recent data points are directly encoded in the time domain, bolstering the learning of local relationships and mitigating the adverse effects of non-stationarity. JTFT achieves linear complexity since the length of the internal representation remains independent of the input sequence length. Additionally, a low-rank attention layer is proposed to efficiently capture cross-dimensional dependencies and prevent performance degradation due to the entanglement of temporal and channel-wise modeling. Experiments conducted on six real-world datasets demonstrate that JTFT outperforms state-of-the-art methods.
翻訳日:2023-05-25 20:28:49 公開日:2023-05-24
# チェックリスト誘導反復検査によるメタレビュー生成

Meta-review Generation with Checklist-guided Iterative Introspection ( http://arxiv.org/abs/2305.14647v1 )

ライセンス: Link先を確認
Qi Zeng, Mankeerat Sidhu, Hou Pong Chan, Lu Wang, Heng Ji(参考訳) 科学分野の意見は多様化し、レビュアーの間で論争やコンセンサスに繋がることがある。 しかし、現在の意見要約データセットは、主に製品レビュードメインに焦点を当てており、入力された意見が議論の余地がないという仮定の下では、この変動を考慮していない。 このギャップに対処するために,研究論文レビューをメタレビューに合成する,科学的意見要約の課題を提案する。 この作業を容易にするために,39のカンファレンスから10,989のペーパーメタレビューと40,903のペーパーレビューを対象とする新しいORSUMデータセットを導入した。 さらに,チェックリストによる反復的イントロスペクション(cgi$^2$)アプローチを提案する。 結論として,(1) 人書き要約はガイドラインに従わないことが多いため,必ずしも信頼できない。(2) タスクの分解と反復的自己複製の組み合わせは,有望な議論参加能力を示し,ブラックボックス LLM を用いた複雑なテキスト生成に適用可能である。

Opinions in the scientific domain can be divergent, leading to controversy or consensus among reviewers. However, current opinion summarization datasets mostly focus on product review domains, which do not account for this variability under the assumption that the input opinions are non-controversial. To address this gap, we propose the task of scientific opinion summarization, where research paper reviews are synthesized into meta-reviews. To facilitate this task, we introduce a new ORSUM dataset covering 10,989 paper meta-reviews and 40,903 paper reviews from 39 conferences. Furthermore, we propose the Checklist-guided Iterative Introspection (CGI$^2$) approach, which breaks down the task into several stages and iteratively refines the summary under the guidance of questions from a checklist. We conclude that (1) human-written summaries are not always reliable since many do not follow the guideline, and (2) the combination of task decomposition and iterative self-refinement shows promising discussion involvement ability and can be applied to other complex text generation using black-box LLM.
翻訳日:2023-05-25 20:28:34 公開日:2023-05-24
# 期待最大化による生体情報リンクとイベント抽出の反復的改善

Iteratively Improving Biomedical Entity Linking and Event Extraction via Hard Expectation-Maximization ( http://arxiv.org/abs/2305.14645v1 )

ライセンス: Link先を確認
Xiaochu Li, Minqian Liu, Zhiyang Xu, Lifu Huang(参考訳) 生物医学的エンティティリンクとイベント抽出は、生物医学領域におけるテキスト理解と検索をサポートする2つの重要なタスクである。 エンティティリンク 外部の知識ベースとドメインの知識を参照することで、バイオメディカル概念を曖昧にする 生物学的プロセスを理解し、抽出するための追加の手がかりを提供する イベント抽出は、各生物学的プロセスを記述するための重要なトリガーとエンティティを識別する。 しかしながら、従来の研究は、これらの2つのタスクを別々に、あるいはパイプライン内で解決し、エラーの伝播に繋がる。 さらに、両方のタスクにアノテーションを含む既存のデータセットがないため、これら2つのタスクを一緒に解決するのはさらに困難です。 これらの課題を解決するために、我々は、知識ベースにおけるイベント構造とエンティティ参照を潜時変数とし、2つのタスク固有モデルをハード期待最大化(EM)方式で更新することで、共同生物医学的実体リンクとイベント抽出を提案し、(1)現在の2つのタスク固有モデルに基づいて、各アノテートデータセットの欠落変数を予測し、(2)対応する擬似完了データセット上で各モデルのパラメータを更新する。 イベント抽出のためのgenia 2011とエンティティリンクのためのbc4goの2つのベンチマークデータセットの実験結果では、ジョイントフレームワークが個々のタスクのモデルを大幅に改善し、両方のタスクの強力なベースラインを上回っています。 論文が受け入れられたら、コードとモデルのチェックポイントを公開します。

Biomedical entity linking and event extraction are two crucial tasks to support text understanding and retrieval in the biomedical domain. These two tasks intrinsically benefit each other: entity linking disambiguates the biomedical concepts by referring to external knowledge bases and the domain knowledge further provides additional clues to understand and extract the biological processes, while event extraction identifies a key trigger and entities involved to describe each biological process which also captures the structural context to better disambiguate the biomedical entities. However, previous research typically solves these two tasks separately or in a pipeline, leading to error propagation. What's more, it's even more challenging to solve these two tasks together as there is no existing dataset that contains annotations for both tasks. To solve these challenges, we propose joint biomedical entity linking and event extraction by regarding the event structures and entity references in knowledge bases as latent variables and updating the two task-specific models in a hard Expectation-Maximization (EM) fashion: (1) predicting the missing variables for each partially annotated dataset based on the current two task-specific models, and (2) updating the parameters of each model on the corresponding pseudo completed dataset. Experimental results on two benchmark datasets: Genia 2011 for event extraction and BC4GO for entity linking, show that our joint framework significantly improves the model for each individual task and outperforms the strong baselines for both tasks. We will make the code and model checkpoints publicly available once the paper is accepted.
翻訳日:2023-05-25 20:28:12 公開日:2023-05-24
# KARNet: 自律走行タスクにおける世界モデル学習のためのKalmanフィルタ強化リカレントニューラルネットワーク

KARNet: Kalman Filter Augmented Recurrent Neural Network for Learning World Models in Autonomous Driving Tasks ( http://arxiv.org/abs/2305.14644v1 )

ライセンス: Link先を確認
Hemanth Manjunatha, Andrey Pak, Dimitar Filev, Panagiotis Tsiotras(参考訳) 自動運転は自動車業界で多くの注目を集めており、しばしば交通の未来と見なされている。 自動運転技術の開発は、知覚、計画、制御タスクに成功しているエンドツーエンド機械学習技術の成長によって、大幅に加速されている。 自動運転計画の重要な側面は、環境が近い将来どのように進化するかを理解し、適切な行動を取ることである。 自律運転システムは、様々なセンサから収集した情報を効果的に利用して、世界を抽象的に表現し、状況認識を維持する。 この目的のために、ディープラーニングモデルを使用して、受信データのストリームからコンパクトな潜在表現を学習することができる。 しかし、ほとんどのディープラーニングモデルはエンドツーエンドで訓練されており、車両の以前の知識(例えば物理)をアーキテクチャに組み込んでいない。 この方向では、トレーニング中に物理モデルを注入する物理拡散ニューラルネットワーク(PINN)アーキテクチャについて多くの研究がなされている。 そこで本研究では,前部カメラ画像のみを用いてトラヒックフローの潜在表現を学習するために,カルマンフィルタ拡張リカレントニューラルネットワークアーキテクチャを提案する。 シミュレーションと実世界の両方のデータセットを用いた模擬および強化学習設定において,提案モデルの有効性を実証する。 その結果,車両の明示的なモデル(カルマンフィルタを用いて推定した状態)をエンドツーエンド学習に組み込むことで,性能が著しく向上した。

Autonomous driving has received a great deal of attention in the automotive industry and is often seen as the future of transportation. The development of autonomous driving technology has been greatly accelerated by the growth of end-to-end machine learning techniques that have been successfully used for perception, planning, and control tasks. An important aspect of autonomous driving planning is knowing how the environment evolves in the immediate future and taking appropriate actions. An autonomous driving system should effectively use the information collected from the various sensors to form an abstract representation of the world to maintain situational awareness. For this purpose, deep learning models can be used to learn compact latent representations from a stream of incoming data. However, most deep learning models are trained end-to-end and do not incorporate any prior knowledge (e.g., from physics) of the vehicle in the architecture. In this direction, many works have explored physics-infused neural network (PINN) architectures to infuse physics models during training. Inspired by this observation, we present a Kalman filter augmented recurrent neural network architecture to learn the latent representation of the traffic flow using front camera images only. We demonstrate the efficacy of the proposed model in both imitation and reinforcement learning settings using both simulated and real-world datasets. The results show that incorporating an explicit model of the vehicle (states estimated using Kalman filtering) in the end-to-end learning significantly increases performance.
翻訳日:2023-05-25 20:27:40 公開日:2023-05-24
# ORRN:肺4DCT画像を用いた変形性呼吸運動推定のためのODEベースの再帰登録ネットワーク

ORRN: An ODE-based Recursive Registration Network for Deformable Respiratory Motion Estimation with Lung 4DCT Images ( http://arxiv.org/abs/2305.14673v1 )

ライセンス: Link先を確認
Xiao Liang, Shan Lin, Dimitri Schreiber, and Michael Yip(参考訳) 変形可能な画像登録(DIR)は、医療データにおける変形の定量化に重要な役割を果たす。 近年のDeep Learning法では,医用画像の登録に有望な精度とスピードアップが示されている。 しかし,4D(3D+時間)の医療データでは,呼吸運動や心臓の鼓動などの臓器の動きは,画像ペアに最適化されるため,ペアワイズ法で効果的にモデル化することはできないが,4Dデータを考慮した場合に必要な臓器の動きパターンを考慮しなかった。 本稿では,通常微分方程式(ODE)に基づく再帰的画像登録ネットワークORRNを提案する。 4次元画像データの変形をモデル化するodeの時間変動ボクセル速度を,ネットワークが推定する。 ボクセル速度のODE積分による変形場を段階的に推定するために再帰的登録戦略を採用する。 提案手法は肺4dctデータセットdirlabとcleatisを用いて2つの課題について評価した。 1)3d+t変形追跡のための極端吸入画像への全画像の登録 2)吸入相画像に極端にエクセルを登録する。 本手法は他の学習手法よりも優れており,最小のターゲット登録誤差は1.24mmと1.26mmである。 さらに、非現実的な画像の折り畳みは 0.001\% 未満であり、計算速度はCTボリューム毎に 1 秒未満である。 ORRNは、グループワイドおよびペアワイド登録タスクにおいて、有望な登録精度、変形妥当性、計算効率を示す。 放射線治療における治療計画や胸椎刺入時のロボット動作計画において, 迅速かつ正確な呼吸運動推定を可能にすることに意義がある。

Deformable Image Registration (DIR) plays a significant role in quantifying deformation in medical data. Recent Deep Learning methods have shown promising accuracy and speedup for registering a pair of medical images. However, in 4D (3D + time) medical data, organ motion, such as respiratory motion and heart beating, can not be effectively modeled by pair-wise methods as they were optimized for image pairs but did not consider the organ motion patterns necessary when considering 4D data. This paper presents ORRN, an Ordinary Differential Equations (ODE)-based recursive image registration network. Our network learns to estimate time-varying voxel velocities for an ODE that models deformation in 4D image data. It adopts a recursive registration strategy to progressively estimate a deformation field through ODE integration of voxel velocities. We evaluate the proposed method on two publicly available lung 4DCT datasets, DIRLab and CREATIS, for two tasks: 1) registering all images to the extreme inhale image for 3D+t deformation tracking and 2) registering extreme exhale to inhale phase images. Our method outperforms other learning-based methods in both tasks, producing the smallest Target Registration Error of 1.24mm and 1.26mm, respectively. Additionally, it produces less than 0.001\% unrealistic image folding, and the computation speed is less than 1 second for each CT volume. ORRN demonstrates promising registration accuracy, deformation plausibility, and computation efficiency on group-wise and pair-wise registration tasks. It has significant implications in enabling fast and accurate respiratory motion estimation for treatment planning in radiation therapy or robot motion planning in thoracic needle insertion.
翻訳日:2023-05-25 20:19:59 公開日:2023-05-24
# 視覚変換器による文字類似性の定量化

Quantifying Character Similarity with Vision Transformers ( http://arxiv.org/abs/2305.14672v1 )

ライセンス: Link先を確認
Xinmei Yang and Abhishek Arora and Shao-Yu Jheng and Melissa Dell(参考訳) record linkageは定量的な社会科学の基盤であり、分析には複数のノイズ源からのデータをリンクする必要がある。 オフザシェルフ文字列マッチングメソッドは、実装とスケールが簡単で安価であるため、広く使用されている。 すべての文字置換が等しく可能であるわけではないし、ある設定ではどの文字列置換がよりありそうで、文字列マッチングの精度が向上するかを示す手作りのリストが広く使われている。 しかし、このようなリストは多くの設定には存在せず、人間社会の多様性を代表していない少数の高リソースコンテキストに対して、リンクされたデータセットを用いた研究を行う。 本研究は,拡張型デジタルフォントを用いた視覚変換器(ViT)の大規模自己教師型訓練を用いて,OCR文書の文字置換コストを測定する方法を開発した。 CJKスクリプトで書かれた各言語に対して、同じ文字の異なる拡張が近くで表現されるメトリック空間を対照的に学習する。 この空間において、ホモグリフィックな文字は、 ``o'' や ``0'' のような類似した外観を持つものと同じベクトル表現を持つ。 編集距離マッチングアルゴリズムにおいて文字表現間の余剰距離を置換コストとして用いることで、OCRエラーは本質的にホモグリフとなる傾向があるため、他の広く使われている文字列マッチング手法と比較してレコードリンクを著しく改善する。 ホモグリフは、低リソース設定を含む任意のスクリプトで、文字の視覚的類似性を推定することができる。 これは、3000年前の古代漢字のホモグリフ集合を作成することで説明される。 興味深いことに、ViTは古代の社会によってどのように異なる抽象概念が概念化されたかという関係を捉えることができる。

Record linkage is a bedrock of quantitative social science, as analyses often require linking data from multiple, noisy sources. Off-the-shelf string matching methods are widely used, as they are straightforward and cheap to implement and scale. Not all character substitutions are equally probable, and for some settings there are widely used handcrafted lists denoting which string substitutions are more likely, that improve the accuracy of string matching. However, such lists do not exist for many settings, skewing research with linked datasets towards a few high-resource contexts that are not representative of the diversity of human societies. This study develops an extensible way to measure character substitution costs for OCR'ed documents, by employing large-scale self-supervised training of vision transformers (ViT) with augmented digital fonts. For each language written with the CJK script, we contrastively learn a metric space where different augmentations of the same character are represented nearby. In this space, homoglyphic characters - those with similar appearance such as ``O'' and ``0'' - have similar vector representations. Using the cosine distance between characters' representations as the substitution cost in an edit distance matching algorithm significantly improves record linkage compared to other widely used string matching methods, as OCR errors tend to be homoglyphic in nature. Homoglyphs can plausibly capture character visual similarity across any script, including low-resource settings. We illustrate this by creating homoglyph sets for 3,000 year old ancient Chinese characters, which are highly pictorial. Fascinatingly, a ViT is able to capture relationships in how different abstract concepts were conceptualized by ancient societies, that have been noted in the archaeological literature.
翻訳日:2023-05-25 20:19:32 公開日:2023-05-24
# nlpにおける拡散モデル:調査

Diffusion Models in NLP: A Survey ( http://arxiv.org/abs/2305.14671v1 )

ライセンス: Link先を確認
Hao Zou, Zae Myung Kim, Dongyeop Kang(参考訳) 本稿では,自然言語処理(NLP)における拡散モデルの利用について概説する。 拡散モデル(英: Diffusion model)は、ネットワークや多様体にまたがる情報や信号の拡散を捉えることを目的とした数学モデルのクラスである。 NLPでは、自然言語生成、感情分析、トピックモデリング、機械翻訳などの様々な応用で拡散モデルが使われている。 本稿では,NLPにおける拡散モデルの異なる定式化,その強度と限界,応用について論じる。 また、拡散モデルと代替生成モデルとの徹底的な比較を行い、特に自己回帰(AR)モデルを強調し、拡散モデルとともにトランスフォーマーがいかに多様なアーキテクチャを組み込むかを検討する。 ARモデルと比較して、拡散モデルは、並列生成、テキスト補間、構文構造や意味的内容などのトークンレベルの制御、堅牢性に対して大きな利点がある。 トランスフォーマーを拡散モデルに統合するさらなる応用を探求することは、価値ある追求である。 また,nlpにおける拡散モデルの発展に向けて,多変量拡散モデルや,数発学習の特長を持つ大規模拡散言語モデルの開発が重要となる。

This survey paper provides a comprehensive review of the use of diffusion models in natural language processing (NLP). Diffusion models are a class of mathematical models that aim to capture the diffusion of information or signals across a network or manifold. In NLP, diffusion models have been used in a variety of applications, such as natural language generation, sentiment analysis, topic modeling, and machine translation. This paper discusses the different formulations of diffusion models used in NLP, their strengths and limitations, and their applications. We also perform a thorough comparison between diffusion models and alternative generative models, specifically highlighting the autoregressive (AR) models, while also examining how diverse architectures incorporate the Transformer in conjunction with diffusion models. Compared to AR models, diffusion models have significant advantages for parallel generation, text interpolation, token-level controls such as syntactic structures and semantic contents, and robustness. Exploring further permutations of integrating Transformers into diffusion models would be a valuable pursuit. Also, the development of multimodal diffusion models and large-scale diffusion language models with notable capabilities for few-shot learning would be important directions for the future advance of diffusion models in NLP.
翻訳日:2023-05-25 20:19:01 公開日:2023-05-24
# NegVSR: リアルタイムビデオ超解法における一般化ノイズモデリングのための負の増大

NegVSR: Augmenting Negatives for Generalized Noise Modeling in Real-World Video Super-Resolution ( http://arxiv.org/abs/2305.14669v1 )

ライセンス: Link先を確認
Yexing Song, Meilin Wang, Xiaoyu Xian, Zhijing Yang, Yuming Fan, Yukai Shi(参考訳) 理想的なデータセットから高解像度(HR)ビデオを合成するビデオ超解像(VSR)の能力は、多くの研究で実証されている。 しかし、未知の複雑な劣化を伴う実世界のビデオにVSRモデルを適用することは難しい課題である。 まず、ほとんどのvsrメソッドにおける既存の劣化指標は、実世界のノイズやぼけを効果的にシミュレートできない。 それとは対照的に、古典的劣化の単純な組み合わせは実世界のノイズモデリングに使われ、VSRモデルはしばしば分配外ノイズによって破られる。 第二に、多くのSRモデルはノイズシミュレーションと転送に焦点を当てている。 しかし、サンプルノイズは単調で制限されている。 上記の問題に対処するために,ビデオ超解法(NegVSR)タスクにおける一般化雑音モデリングのための負の強化戦略を提案する。 具体的には,実世界のデータを対象とした逐次ノイズ生成手法を提案する。 そして、負の加減により、デジェネレーションドメインが広範囲に拡張され、様々な実世界のノイズ集合を構築する。 我々はさらに,arded negative guidance lossを提案し,arded negatives間のロバストな特徴を効果的に学習する。 実世界のデータセット(例えば VideoLQ や FLIR)に対する大規模な実験により、我々の手法は、特に視覚的品質において、最先端の手法よりも優れていることが示された。

The capability of video super-resolution (VSR) to synthesize high-resolution (HR) video from ideal datasets has been demonstrated in many works. However, applying the VSR model to real-world video with unknown and complex degradation remains a challenging task. First, existing degradation metrics in most VSR methods are not able to effectively simulate real-world noise and blur. On the contrary, simple combinations of classical degradation are used for real-world noise modeling, which led to the VSR model often being violated by out-of-distribution noise. Second, many SR models focus on noise simulation and transfer. Nevertheless, the sampled noise is monotonous and limited. To address the aforementioned problems, we propose a Negatives augmentation strategy for generalized noise modeling in Video Super-Resolution (NegVSR) task. Specifically, we first propose sequential noise generation toward real-world data to extract practical noise sequences. Then, the degeneration domain is widely expanded by negative augmentation to build up various yet challenging real-world noise sets. We further propose the augmented negative guidance loss to learn robust features among augmented negatives effectively. Extensive experiments on real-world datasets (e.g., VideoLQ and FLIR) show that our method outperforms state-of-the-art methods with clear margins, especially in visual quality.
翻訳日:2023-05-25 20:18:43 公開日:2023-05-24
# 識別的Render-and-Compareによるロバスト3次元物体分類

Robust 3D-aware Object Classification via Discriminative Render-and-Compare ( http://arxiv.org/abs/2305.14668v1 )

ライセンス: Link先を確認
Artur Jesslen, Guofeng Zhang, Angtian Wang, Alan Yuille, Adam Kortylewski(参考訳) 実世界のアプリケーションでは、3dオブジェクトのポーズとクラスラベル、すなわち3dアウェア分類を行うのが不可欠であるが、現在の画像分類やポーズ推定のアプローチは3dアウェア分類に拡張できるが、それらは本質的に限定されている。 1)それぞれのシングルタスクモデルに比べて性能がはるかに低い。 2) アウト・オブ・ディストリビューション(OOD)のシナリオでは堅牢ではない。 私たちの主な貢献は、3D対応分類のための新しいアーキテクチャであり、これは最近の研究に基づいており、非常に堅牢でありながらシングルタスクモデルと互換性のある性能を実現しています。 本手法では,オブジェクトカテゴリを,各メッシュ頂点の特徴ベクトルからなる3次元立方体メッシュとして表現する。 本研究では,メッシュ間の再構成誤差と対象画像の特徴表現を最小化することにより,3次元オブジェクトのポーズを推定する。 オブジェクト分類は、オブジェクトカテゴリ間の再構成損失を比較することによって行われる。 特に、メッシュの神経テクスチャを識別的に訓練して分類性能を高めるとともに、復元損失の局所的最適性を回避する。 さらに,本手法とフィードフォワードニューラルネットワークを組み合わせることで,より多数のカテゴリにレンダリング・アンド・コンプリートアプローチをスケールできることを示す。 PASCAL3D+,occluded-PASCAL3D+,およびOOD-CVを用いた実験により,本手法は3D-Aware分類において,性能とロバスト性の観点から広いマージンで,すべてのベースラインを上回ることを示した。

In real-world applications, it is essential to jointly estimate the 3D object pose and class label of objects, i.e., to perform 3D-aware classification.While current approaches for either image classification or pose estimation can be extended to 3D-aware classification, we observe that they are inherently limited: 1) Their performance is much lower compared to the respective single-task models, and 2) they are not robust in out-of-distribution (OOD) scenarios. Our main contribution is a novel architecture for 3D-aware classification, which builds upon a recent work and performs comparably to single-task models while being highly robust. In our method, an object category is represented as a 3D cuboid mesh composed of feature vectors at each mesh vertex. Using differentiable rendering, we estimate the 3D object pose by minimizing the reconstruction error between the mesh and the feature representation of the target image. Object classification is then performed by comparing the reconstruction losses across object categories. Notably, the neural texture of the mesh is trained in a discriminative manner to enhance the classification performance while also avoiding local optima in the reconstruction loss. Furthermore, we show how our method and feed-forward neural networks can be combined to scale the render-and-compare approach to larger numbers of categories. Our experiments on PASCAL3D+, occluded-PASCAL3D+, and OOD-CV show that our method outperforms all baselines at 3D-aware classification by a wide margin in terms of performance and robustness.
翻訳日:2023-05-25 20:18:18 公開日:2023-05-24
# You Are What Annotate: Annotator Representationを通じてより良いモデルを目指す

You Are What You Annotate: Towards Better Models through Annotator Representations ( http://arxiv.org/abs/2305.14663v1 )

ライセンス: Link先を確認
Naihao Deng, Siyang Liu, Xinliang Frederick Zhang, Winston Wu, Lu Wang, Rada Mihalcea(参考訳) アノテーションの不一致は自然言語処理(NLP)タスクにおいてユビキタスである。 このような意見の相違には、課題の主観性、難しい事例、不明瞭なガイドラインなど、さまざまな理由がある。 データアノテーションを取得するために単にラベルを集約するのではなく、アノテーションの慣用句を明示的に説明し、モデリングプロセスでそれらを活用することを提案します。 アノテーション(アノテーション埋め込み)とそのアノテーション(アノテーション埋め込み)の表現を作り、それぞれに関連付けられた学習可能な行列で表現します。 提案手法は,1%未満のモデルパラメータを追加することにより,様々なNLPベンチマークにおけるモデル性能を著しく向上させる。 個々のアノテータの独特な傾向と主観性を捉えることで、私たちの埋め込みはAIを民主化し、AIモデルが多様な視点を包含していることを保証する。

Annotator disagreement is ubiquitous in natural language processing (NLP) tasks. There are multiple reasons for such disagreements, including the subjectivity of the task, difficult cases, unclear guidelines, and so on. Rather than simply aggregating labels to obtain data annotations, we instead propose to explicitly account for the annotator idiosyncrasies and leverage them in the modeling process. We create representations for the annotators (annotator embeddings) and their annotations (annotation embeddings) with learnable matrices associated with each. Our approach significantly improves model performance on various NLP benchmarks by adding fewer than 1% model parameters. By capturing the unique tendencies and subjectivity of individual annotators, our embeddings help democratize AI and ensure that AI models are inclusive of diverse viewpoints.
翻訳日:2023-05-25 20:17:50 公開日:2023-05-24
# エンタングル光子により超高速励起ラマン分光法による分子動力学

Entangled Photons Enabled Ultrafast Stimulated Raman Spectroscopy for Molecular Dynamics ( http://arxiv.org/abs/2305.14661v1 )

ライセンス: Link先を確認
Joel Jiahao Fan, Zhe-Yu Jeff Ou, Zhedong Zhang(参考訳) 量子絡み合いは分子と放射線の相互作用の優れた資源として現れてきた。 我々は、エンタングル光子を用いた刺激ラマン散乱の新しいパラダイムを提案する。 量子超高速ラマン分光法は、励起子集団とコヒーレンスを監視するために凝縮相分子のために開発された。 分析結果を求め、古典光では到達できない時間周波数スケールを示す。 ラマン信号は、ホン・ウー・マンデル干渉の結果、前例のない分子相関関数の選択性を示す。 これは典型的な量子の性質であり、明瞭さの分光を推し進める。 我々の研究は、複雑な物質に関する高度な情報を公開する可能性のある、新しい光学信号と分光法を示唆している。

Quantum entanglement has emerged as a great resource for interactions between molecules and radiation. We propose a new paradigm of stimulated Raman scattering with entangled photons. A quantum ultrafast Raman spectroscopy is developed for condensed-phase molecules, to monitor the exciton populations and coherences. Analytic results are obtained, showing a time-frequency scale not attainable by classical light. The Raman signal presents an unprecedented selectivity of molecular correlation functions, as a result of the Hong-Ou-Mandel interference. This is a typical quantum nature, advancing the spectroscopy for clarity. Our work suggests a new scheme of optical signals and spectroscopy, with potential to unveil advanced information about complex materials.
翻訳日:2023-05-25 20:17:36 公開日:2023-05-24
# 複素数式記号定義構造:定義抽出におけるコーディネーション解決のためのデータセットとモデル

Complex Mathematical Symbol Definition Structures: A Dataset and Model for Coordination Resolution in Definition Extraction ( http://arxiv.org/abs/2305.14660v1 )

ライセンス: Link先を確認
Anna Martin-Boyle, Andrew Head, Kyle Lo, Risham Sidhu, Marti A. Hearst, and Dongyeop Kang(参考訳) 数式記号定義抽出は学術的読解インタフェースと学術的情報抽出(ie)を改善する上で重要である。 しかし、この課題にはいくつかの課題がある: 数学記号は自然言語形態素から構成されていないため、処理が困難であり、学術論文には複雑な座標構造を解く必要のある文がしばしば含まれている。 本稿では,全文科学論文から得られた5,927文の英語データセットであるsymdefについて述べる。 このデータセットは、しばしば重なり合う定義スパンを含む「ふりかえり」構造のような複雑な調整構造に特化している。 また,数式記号をマスクし,各記号に対して各文のコピーを作成し,対象記号を特定し,スロット充填を用いて対応する定義スパンを予測する,新たな定義抽出手法を提案する。 我々の定義抽出モデルは,マクロF1スコア84.82で,RoBERTaや他の強力なIEベースラインシステムよりも10.9ポイント優れていた。 データセットとモデルを用いて、学術文書の複雑な定義を検出し、科学的な文章をより読みやすくする。

Mathematical symbol definition extraction is important for improving scholarly reading interfaces and scholarly information extraction (IE). However, the task poses several challenges: math symbols are difficult to process as they are not composed of natural language morphemes; and scholarly papers often contain sentences that require resolving complex coordinate structures. We present SymDef, an English language dataset of 5,927 sentences from full-text scientific papers where each sentence is annotated with all mathematical symbols linked with their corresponding definitions. This dataset focuses specifically on complex coordination structures such as "respectively" constructions, which often contain overlapping definition spans. We also introduce a new definition extraction method that masks mathematical symbols, creates a copy of each sentence for each symbol, specifies a target symbol, and predicts its corresponding definition spans using slot filling. Our experiments show that our definition extraction model significantly outperforms RoBERTa and other strong IE baseline systems by 10.9 points with a macro F1 score of 84.82. With our dataset and model, we can detect complex definitions in scholarly documents to make scientific writing more readable.
翻訳日:2023-05-25 20:17:25 公開日:2023-05-24
# interactiveie:情報抽出性能向上における人間-aiコラボレーションの強み評価に向けて

InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration in Improving the Performance of Information Extraction ( http://arxiv.org/abs/2305.14659v1 )

ライセンス: Link先を確認
Ishani Mondal, Michelle Yuan, Anandhavelu N, Aparna Garimella, Francis Ferraro, Andrew Blair-Stanek, Benjamin Van Durme, Jordan Boyd-Graber(参考訳) 文書からテンプレートベースの情報抽出を学習することは極めて難しい作業である。 以前のテンプレートベースのIEアプローチでは、ドメインテンプレートの事前認識を前提としていましたが、現実のIEは事前に定義されたスキーマを持っていません。 テンプレートを現実世界の設定で迅速にブートストラップするには、ゼロまたは最小限の監督でドキュメントからテンプレートスロットを誘導する必要がある。 質問応答は情報抽出の目的と交差するため,文書からテンプレートスロットをインジェクトするために自動質問生成を用い,対話IE(InteractiveIE)と呼ばれるプロキシのごく一部が,パフォーマンスをさらに向上させる方法について検討する。 トレーニングデータの取得が高価であるバイオメディカルおよび法的な文書に関する広範な実験は、aiのみのベースラインよりもinteractiveieを使ったパフォーマンス改善の傾向を奨励している。

Learning template based information extraction from documents is a crucial yet difficult task. Prior template-based IE approaches assume foreknowledge of the domain templates; however, real-world IE do not have pre-defined schemas and it is a figure-out-as you go phenomena. To quickly bootstrap templates in a real-world setting, we need to induce template slots from documents with zero or minimal supervision. Since the purpose of question answering intersect with the goal of information extraction, we use automatic question generation to induce template slots from the documents and investigate how a tiny amount of a proxy human-supervision on-the-fly (termed as InteractiveIE) can further boost the performance. Extensive experiments on biomedical and legal documents, where obtaining training data is expensive, reveal encouraging trends of performance improvement using InteractiveIE over AI-only baseline.
翻訳日:2023-05-25 20:17:05 公開日:2023-05-24
# 評価できないことを評価する: 評価不能な生成応答の品質

Evaluate What You Can't Evaluate: Unassessable Generated Responses Quality ( http://arxiv.org/abs/2305.14658v1 )

ライセンス: Link先を確認
Yongkang Liu and Shi Feng and Daling Wang and Yifei Zhang and Hinrich Sch\"utze(参考訳) ChatGPTのようなLLM(大規模言語モデル)は、顕著な言語理解と生成能力を示している。 LLMに基づく参照フリー評価器は、従来の参照ベース評価器よりも優れた人間のアライメントを示すが、LLMに基づく参照フリー評価器を使用するには多くの課題がある。 参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。 しかし、すべての例がオープンエンドであるわけではない。 ユニークな正しいセマンティック応答を持つクローズドエンド例の場合、参照のない評価者は、事実や参照の意味と矛盾する応答を与える際にも高い品質を考慮します。 LLM に基づく評価器の信頼性を総合的に評価するために,KdConv-ADV と DSTC7-ADV の2つの対向メタ評価対話生成データセットを構築した。 これまでのメタ評価ベンチマークと比べて、kdconv-advとdstc7-advは、外部の知識やそれ自身の知識の助けを借りて、限定されたサンプルを適切に評価する必要があるため、はるかに難しい。 実験の結果,LLMが不適切な応答を識別する能力は不十分であることが示唆された。 対話応答の質を評価するために LLM に基づく推論不要評価器を使用するリスクがある。

LLMs (large language models) such as ChatGPT have shown remarkable language understanding and generation capabilities. Although reference-free evaluators based on LLMs show better human alignment than traditional reference-based evaluators, there are many challenges in using reference-free evaluators based on LLMs. Reference-free evaluators are more suitable for open-ended examples with different semantics responses. But not all examples are open-ended. For closed-ended examples with unique correct semantic response, reference-free evaluators will still consider it high quality when giving a response that is inconsistent with the facts and the semantic of reference. In order to comprehensively evaluate the reliability of evaluators based on LLMs, we construct two adversarial meta-evaluation dialogue generation datasets KdConv-ADV and DSTC7-ADV based on KdConv and DSTC7-AVSD, respectively. Compared to previous meta-evaluation benchmarks, KdConv-ADV and DSTC7-ADV are much more challenging since they requires evaluators to be able to reasonably evaluate closed-ended examples with the help of external knowledge or even its own knowledge. Empirical results show that the ability of LLMs to identify unreasonable responses is insufficient. There are risks in using eference-free evaluators based on LLMs to evaluate the quality of dialogue responses.
翻訳日:2023-05-25 20:16:49 公開日:2023-05-24
# expertprompting: 大きな言語モデルに優れた専門家になるよう指示する

ExpertPrompting: Instructing Large Language Models to be Distinguished Experts ( http://arxiv.org/abs/2305.14688v1 )

ライセンス: Link先を確認
Benfeng Xu, An Yang, Junyang Lin, Quan Wang, Chang Zhou, Yongdong Zhang, Zhendong Mao(参考訳) プロンプトの適切な工法で処理すれば、一致した大言語モデル(LLM)の応答品質が劇的に向上する。 本稿では,LLMの潜在能力を活かし,優れた専門家として回答するためのエキスパートプロンプトを提案する。 まず、インコンテキスト学習を用いて、特定の命令ごとに専門家のアイデンティティの詳細な記述とカスタマイズを自動的に合成し、その背景にある答えをLLMに尋ねる。 この拡張プロンプト戦略に基づいて,GPT-3.5を用いた新しい命令追跡データを作成し,オープンソースのチャットアシスタントであるExpertLLaMAを訓練する。 gpt4ベースの評価を用いて 1) 専門家データはバニラ回答よりも格段に高品質で, 2) expertllamaは、既存のオープンソースの相手を上回り、元のchatgptの能力の96\%を達成する。 すべてのデータとExpertLLaMAモデルは、 \url{https://github.com/OFA-Sys/ExpertLLaMA}で公開される。

The answering quality of an aligned large language model (LLM) can be drastically improved if treated with proper crafting of prompts. In this paper, we propose ExpertPrompting to elicit the potential of LLMs to answer as distinguished experts. We first utilize In-Context Learning to automatically synthesize detailed and customized descriptions of the expert identity for each specific instruction, and then ask LLMs to provide answer conditioned on such agent background. Based on this augmented prompting strategy, we produce a new set of instruction-following data using GPT-3.5, and train a competitive open-source chat assistant called ExpertLLaMA. We employ GPT4-based evaluation to show that 1) the expert data is of significantly higher quality than vanilla answers, and 2) ExpertLLaMA outperforms existing open-source opponents and achieves 96\% of the original ChatGPT's capability. All data and the ExpertLLaMA model will be made publicly available at \url{https://github.com/OFA-Sys/ExpertLLaMA}.
翻訳日:2023-05-25 20:11:48 公開日:2023-05-24
# ブラインド画像品質評価のための協調的自動エンコーディング

Collaborative Auto-encoding for Blind Image Quality Assessment ( http://arxiv.org/abs/2305.14684v1 )

ライセンス: Link先を確認
Zehong Zhou, Fei Zhou, Guoping Qiu(参考訳) ブラインド画像品質評価(BIQA)は、重要な現実世界のアプリケーションにおいて難しい問題である。 近年、ディープニューラルネットワーク(DNN)による強力な表現を活用しようとする試みは、主観的な注釈付きデータの欠如によって妨げられている。 本稿では,この基本的な障害を克服する新しいBIQA法を提案する。 具体的には、コンテントオートエンコーダ(CAE)とコンテントオートエンコーダ(DAE)からなる協調オートエンコーダ(COAE)のペアを設計し、コンテントと歪み表現を抽出する。 CAEは標準のコーデック手順に従っているが,DAEのデコーダに付加的な入力としてCAE符号化機能を導入して歪み画像の再構成を行い,DAEのエンコーダに歪み表現を抽出させる。 自己教師付き学習フレームワークにより、2つの特徴抽出器を含むCOAEは、ほぼ無制限のデータで訓練され、BIQAモデルを微調整するためのアノテーション付きの限られたサンプルが残される。 提案手法は最先端性能を実現し,他の学習モデルよりも優れた一般化能力を有することを示す。 コードは、https://github.com/Macro-Zhou/NRIQA-VISOR/で入手できる。

Blind image quality assessment (BIQA) is a challenging problem with important real-world applications. Recent efforts attempting to exploit powerful representations by deep neural networks (DNN) are hindered by the lack of subjectively annotated data. This paper presents a novel BIQA method which overcomes this fundamental obstacle. Specifically, we design a pair of collaborative autoencoders (COAE) consisting of a content autoencoder (CAE) and a distortion autoencoder (DAE) that work together to extract content and distortion representations, which are shown to be highly descriptive of image quality. While the CAE follows a standard codec procedure, we introduce the CAE-encoded feature as an extra input to the DAE's decoder for reconstructing distorted images, thus effectively forcing DAE's encoder to extract distortion representations. The self-supervised learning framework allows the COAE including two feature extractors to be trained by almost unlimited amount of data, thus leaving limited samples with annotations to finetune a BIQA model. We will show that the proposed BIQA method achieves state-of-the-art performance and has superior generalization capability over other learning based models. The codes are available at: https://github.com/Macro-Zhou/NRIQA-VISOR/.
翻訳日:2023-05-25 20:11:32 公開日:2023-05-24
# プログレッシブ・シャープニング, フラット・ミニマおよび一般化について

On progressive sharpening, flat minima and generalisation ( http://arxiv.org/abs/2305.14683v1 )

ライセンス: Link先を確認
Lachlan Ewen MacDonald and Jack Valmadre and Simon Lucey(参考訳) 深層学習における損失曲率と一般化の関係を理解するための新しいアプローチを提案する。 具体的には、ディープニューラルネットワークの損失ヒューシアンと入力出力ジャコビアンを結合したアンサッツを接地するために、ディープネットワーク損失ヒューシアンのスペクトルの既存の経験的解析を用いる。 次に、モデルの入力出力ジャコビアンがデータ分布上のそのリプシッツノルムを近似する程度を定量化する一連の理論結果を証明し、経験的ヤコビアンによって束縛された新しい一般化を導出する。 我々はansatzを理論的な結果とともに利用し、最近観測されたプログレッシブ・シャープニング現象とフラット・ミニマの一般化特性について新しい説明を与える。 我々の主張を検証するための実験的な証拠が提供される。

We present a new approach to understanding the relationship between loss curvature and generalisation in deep learning. Specifically, we use existing empirical analyses of the spectrum of deep network loss Hessians to ground an ansatz tying together the loss Hessian and the input-output Jacobian of a deep neural network. We then prove a series of theoretical results which quantify the degree to which the input-output Jacobian of a model approximates its Lipschitz norm over a data distribution, and deduce a novel generalisation bound in terms of the empirical Jacobian. We use our ansatz, together with our theoretical results, to give a new account of the recently observed progressive sharpening phenomenon, as well as the generalisation properties of flat minima. Experimental evidence is provided to validate our claims.
翻訳日:2023-05-25 20:11:09 公開日:2023-05-24
# tacr:ハイブリッド質問応答のためのテーブルアリゲーションに基づくセル選択と推論モデル

TACR: A Table-alignment-based Cell-selection and Reasoning Model for Hybrid Question-Answering ( http://arxiv.org/abs/2305.14682v1 )

ライセンス: Link先を確認
Jian Wu, Yicheng Xu, Yan Gao, Jian-Guang Lou, B\"orje F. Karlsson, Manabu Okumura(参考訳) テーブルセルからリンクされたテーブルや通路の推論を対象とするハイブリッド質問応答(HQA)は,近年,重要な研究を目にしている。 HQAや他のパステーブルQAデータセットにおける一般的な課題は、すべてのテーブル行、列、およびリンクされたパスを反復して証拠を取得することが一般的に非現実的であることである。 このような課題により、過去の研究では、回答を検索する際の推論能力を示すことが困難になった。 このギャップを埋めるために,HybridQAとWikiTableQuestionsデータセットを用いて評価したハイブリッドテキストとテーブルQAのためのテーブルアライメントベースのセル選択・推論モデル(TACR)を提案する。 証拠検索において,我々は詳細な証拠を検索するテーブルクエストアライメント強化セル選択法を設計する。 回答推論では、選択されたセルを含む行をコンテキストとして扱うQAモジュールを組み込む。 HybridQA と WikiTableQuestions (WTQ) データセットに対する実験結果から,TACR はセル選択における最先端の結果を達成し,HybridQA 上での詳細な証拠検索ベースラインを上回り,WTQ 上での競争性能を達成していることがわかった。 また, セル選択段階のテーブルに質問を合わせることで, 90 %以上のテーブル行と列選択精度の実験から重要な利益が得られることを示すとともに, 出力説明性も向上することを示した。

Hybrid Question-Answering (HQA), which targets reasoning over tables and passages linked from table cells, has witnessed significant research in recent years. A common challenge in HQA and other passage-table QA datasets is that it is generally unrealistic to iterate over all table rows, columns, and linked passages to retrieve evidence. Such a challenge made it difficult for previous studies to show their reasoning ability in retrieving answers. To bridge this gap, we propose a novel Table-alignment-based Cell-selection and Reasoning model (TACR) for hybrid text and table QA, evaluated on the HybridQA and WikiTableQuestions datasets. In evidence retrieval, we design a table-question-alignment enhanced cell-selection method to retrieve fine-grained evidence. In answer reasoning, we incorporate a QA module that treats the row containing selected cells as context. Experimental results over the HybridQA and WikiTableQuestions (WTQ) datasets show that TACR achieves state-of-the-art results on cell selection and outperforms fine-grained evidence retrieval baselines on HybridQA, while achieving competitive performance on WTQ. We also conducted a detailed analysis to demonstrate that being able to align questions to tables in the cell-selection stage can result in important gains from experiments of over 90\% table row and column selection accuracy, meanwhile also improving output explainability.
翻訳日:2023-05-25 20:10:52 公開日:2023-05-24
# 創発的障害? 事前トレーニングの過程での逆スケーリング

Emergent inabilities? Inverse scaling over the course of pretraining ( http://arxiv.org/abs/2305.14681v1 )

ライセンス: Link先を確認
James A. Michaelov, Benjamin K. Bergen(参考訳) 逆スケーリングはモデルパラメータサイズの関数としてのみ発生するのか、あるいはトレーニングの過程で発生するのか? 本研究では,言語モデリングタスクのトレーニングの過程で,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するかどうかを探索研究する。 逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。 具体的には、pythia (biderman et al., 2023)モデルがパラメータ数が高い場合には、これらのモデルが全体的な(ポジティブな)スケーリングを示しているにもかかわらず、この2つのタスクでのトレーニングの過程でパフォーマンスが低下することを発見した。 これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。

Does inverse scaling only occur as a function of model parameter size, or can it also occur over the course of training? We carry out an exploratory study investigating whether, over the course of training on the language modeling task, the performance of language models at specific tasks can decrease while general performance remains high. We find that for two tasks from the Inverse Scaling Challenge - quote-repetition and redefine-math - this is indeed the case. Specifically, we find that for Pythia (Biderman et al., 2023) models with a higher number of parameters, performance decreases over the course of training at these two tasks, despite these models showing standard (positive) scaling overall. This highlights the importance of testing model performance at all relevant benchmarks any time they are trained on additional data, even if their overall performance improves.
翻訳日:2023-05-25 20:10:24 公開日:2023-05-24
# ハイブリット制御設計のための頻繁なアプローチによる履歴情報の動的借用法

Dynamic Borrowing Method for Historical Information Using a Frequentist Approach for Hybrid Control Design ( http://arxiv.org/abs/2305.14679v1 )

ライセンス: Link先を確認
Masahiro Kojima(参考訳) 症例サイズが小さければ有効性の確認に統計力が不十分な希少疾患や小児疾患の臨床試験では,過去のデータから得た情報に注目が集まっている。 ベイズ情報借入法は確立されているが,近年,統計的仮説テストに履歴データを用いるかどうかを判断する頻繁な手法として,テスト-then-pool法と等価性ベースのテスト-then-pool法が提案されている。 仮説テストの結果によっては、過去のデータは使用できない可能性がある。 本稿では,現在と歴史的データの類似性に基づく歴史情報の動的借用手法を提案する。 提案手法では,ベイズ動的借入の場合と同様に,借入量は0%から100%である。 t分布の密度関数と対数関数を類似度尺度として用いた2つの手法を提案する。 モンテカルロシミュレーションを用いて提案手法の性能評価を行った。 本研究は,実際の臨床試験データを再検討し,借用情報の有用性を示す。

Information borrowing from historical data is gaining attention in clinical trials of rare and pediatric diseases, where statistical power may be insufficient for confirmation of efficacy if the sample size is small. Although Bayesian information borrowing methods are well established, test-then-pool and equivalence-based test-then-pool methods have recently been proposed as frequentist methods to determine whether historical data should be used for statistical hypothesis testing. Depending on the results of the hypothesis testing, historical data may not be usable. This paper proposes a dynamic borrowing method for historical information based on the similarity between current and historical data. In our proposed method of dynamic information borrowing, as in Bayesian dynamic borrowing, the amount of borrowing ranges from 0% to 100%. We propose two methods using the density function of the t-distribution and a logistic function as a similarity measure. We evaluate the performance of the proposed methods through Monte Carlo simulations. We demonstrate the usefulness of borrowing information by reanalyzing actual clinical trial data.
翻訳日:2023-05-25 20:10:09 公開日:2023-05-24
# 最適線形部分空間探索:拡散モデルのための高速かつ高品質なスケジューリングを学習する

Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models ( http://arxiv.org/abs/2305.14677v1 )

ライセンス: Link先を確認
Zhongjie Duan, Chengyu Wang, Cen Chen, Jun Huang and Weining Qian(参考訳) 近年、拡散モデルは画像合成の分野で最も人気があり、強力な手法となり、芸術的創造性において人間の芸術家に匹敵するものさえある。 しかし、現在拡散モデルの適用を制限する重要な問題は、非常に遅い生成プロセスである。 生成プロセスを高速化するためにいくつかの方法が提案されたが、効率と品質の間にはトレードオフがある。 本稿では,まず,スケジューラに基づく拡散モデル生成過程の詳細な理論的・経験的解析を行う。 我々はスケジューラの設計問題をいくつかのパラメータの決定に変換し、さらに加速された生成プロセスを線形部分空間の拡張プロセスに変換する。 そこで本研究では,線形部分空間に潜む線形部分空間における完全生成過程の最適近似過程を探索することにより生成過程を高速化する,最適線形部分空間探索 (OLSS) という新しい手法を提案する。 OLSSは、非常に少ないステップで高品質な画像を生成することができる。 本手法の有効性を実証するため,オープンソース拡散モデルを用いた広範囲比較実験を行った。 実験の結果,任意のステップ数でolsは生成画像の品質を大幅に向上できることがわかった。 NVIDIA A100 GPUを用いて,他の最適化手法を使わずに,安定拡散による高品質な画像を生成することができる。

In recent years, diffusion models have become the most popular and powerful methods in the field of image synthesis, even rivaling human artists in artistic creativity. However, the key issue currently limiting the application of diffusion models is its extremely slow generation process. Although several methods were proposed to speed up the generation process, there still exists a trade-off between efficiency and quality. In this paper, we first provide a detailed theoretical and empirical analysis of the generation process of the diffusion models based on schedulers. We transform the designing problem of schedulers into the determination of several parameters, and further transform the accelerated generation process into an expansion process of the linear subspace. Based on these analyses, we consequently propose a novel method called Optimal Linear Subspace Search (OLSS), which accelerates the generation process by searching for the optimal approximation process of the complete generation process in the linear subspaces spanned by latent variables. OLSS is able to generate high-quality images with a very small number of steps. To demonstrate the effectiveness of our method, we conduct extensive comparative experiments on open-source diffusion models. Experimental results show that with a given number of steps, OLSS can significantly improve the quality of generated images. Using an NVIDIA A100 GPU, we make it possible to generate a high-quality image by Stable Diffusion within only one second without other optimization techniques.
翻訳日:2023-05-25 20:09:51 公開日:2023-05-24
# GRILL: テキストと画像領域の調整による視覚言語事前学習

GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions ( http://arxiv.org/abs/2305.14676v1 )

ライセンス: Link先を確認
Woojeong Jin, Subhabrata Mukherjee, Yu Cheng, Yelong Shen, Weizhu Chen, Ahmed Hassan Awadallah, Damien Jose, Xiang Ren(参考訳) unseenタスクの一般化は、さまざまなタスクでゼロ/フェウショットのパフォーマンスを向上できる、数少ない学習者にとって重要な能力である。 しかし、接地や生成タスクを含む視覚言語タスクへの一般化は未解決であり、既存の少数ショットVLモデルは、オブジェクトの接地を含むタスクや、視覚コモンセンス推論やNLVR2のような複数の画像を扱うのに苦労している。 本稿では,視覚的質問応答,キャプション,接地処理などのタスクに一般化可能な,新たなvlモデルであるsleep,grounded vision language aligningについて紹介する。 具体的には、オブジェクトテキストアライメントを利用してオブジェクトのグラウンド化とローカライズを学習し、ゼロ/フェーショット方式でグラウンド化タスクに転送する。 各種ゼロ/フェーショットVLタスクのモデル評価を行い,最新数ショット法を一貫して上回っていることを示す。

Generalization to unseen tasks is an important ability for few-shot learners to achieve better zero-/few-shot performance on diverse tasks. However, such generalization to vision-language tasks including grounding and generation tasks has been under-explored; existing few-shot VL models struggle to handle tasks that involve object grounding and multiple images such as visual commonsense reasoning or NLVR2. In this paper, we introduce GRILL, GRounded vIsion Language aLigning, a novel VL model that can be generalized to diverse tasks including visual question answering, captioning, and grounding tasks with no or very few training instances. Specifically, GRILL learns object grounding and localization by exploiting object-text alignments, which enables it to transfer to grounding tasks in a zero-/few-shot fashion. We evaluate our model on various zero-/few-shot VL tasks and show that it consistently surpasses the state-of-the-art few-shot methods.
翻訳日:2023-05-25 20:09:15 公開日:2023-05-24
# シーケンシャルレコメンデーションにおけるMLPの回避

Revenge of MLP in Sequential Recommendation ( http://arxiv.org/abs/2305.14675v1 )

ライセンス: Link先を確認
Yiheng Jiang and Yuanbo Xu(参考訳) シークエンシャルレコメンデーション(Sequential recommendation)は、動的嗜好の推論を改善するために、歴史的なユーザ・イテムの対話行動(またはトークンと呼ばれる)のシーケンスをモデル化する。 rnn、cnn、transformerといった改良されたニューラルネットワークアーキテクチャによって、この分野はここ数年で急速にパフォーマンスが向上した。 オールMLPモデルの最近の進歩は、過去の行動の変換パターンを学習するために、より少ない計算量であるトークン混合MLPの効率的な方法に光を当てている。 しかし,制約のないクロストケン通信を許容し,時系列順序を無視する固有の完全接続設計により,トークン混合mlpを逐次レコメンデーションに直接適用することで性能が低下することがわかった。 本稿では、修正された \underline{MLP} がトークンに順序付き相互作用を付与する新しい \underline{Tri}angular Mixer を備えた、純粋な MLP ベースのシーケンシャルレコメンデーションアーキテクチャTriMLPを提案する。 mlpのクロス-トケン相互作用は実際には行列の乗算であるので、三角形のミキサーは重み行列内の低三角ニューロンを落とし、将来のトークンからの接続をブロックし、情報漏洩を防ぎ、標準の自己回帰訓練方式で予測能力を向上させる。 細粒度での長期および短期の嗜好を更にモデル化するため、ミキサーは、上述の繊細なmlp、すなわちグローバルおよびローカルミキシングに基づくデュアルブランチ構造を採用し、シーケンシャルな長距離依存性と局所パターンを別々に捉える。 MovieLens、Amazon、Tenrecを含む、さまざまなベンチマークの9つの異なるスケールデータセット(50K\textasciitilde20Mの振る舞いを含む)に関する実証的研究は、TriMLPが有望で安定した精度/効率のトレードオフを実現していることを実証している。

Sequential recommendation models sequences of historical user-item interactive behaviors (or referred as token) to better infer dynamic preferences. Fueled by the improved neural network architectures such as RNN, CNN and Transformer, this field has enjoyed rapid performance boost in the past years. Recent progress on all-MLP models lights on an efficient method with less intensive computation, token-mixing MLP, to learn the transformation patterns among historical behaviors. However, due to the inherent fully-connection design that allows the unrestricted cross-token communication and ignores the chronological order, we find that directly applying token-mixing MLP into sequential recommendation leads to subpar performance. In this paper, we present a purely MLP-based sequential recommendation architecture TriMLP with a novel \underline{Tri}angular Mixer where the modified \underline{MLP} endows tokens with ordered interactions. As the cross-token interaction in MLP is actually matrix multiplication, Triangular Mixer drops the lower-triangle neurons in the weight matrix and thus blocks the connections from future tokens, which prevents information leakage and improves prediction capability under the standard auto-regressive training fashion. To further model long and short-term preferences on fine-grained level, the mixer adopts a dual-branch structure based on the delicate MLP described above, namely global and local mixing, to separately capture the sequential long-range dependencies and local patterns. Empirical study on 9 different scale datasets (contain 50K\textasciitilde20M behaviors) of various benchmarks, including MovieLens, Amazon and Tenrec, demonstrates that TriMLP attains promising and stable accuracy/efficiency trade-off, i.e., averagely surpasses several state-of-the-art baselines by 5.32\% and saves 8.44\% inference time cost.
翻訳日:2023-05-25 20:08:42 公開日:2023-05-24
# t1:統一視覚モダリティにおける拡散確率場の高分解能化

T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified Visual Modalities ( http://arxiv.org/abs/2305.14674v1 )

ライセンス: Link先を確認
Kangfu Mei and Mo Zhou and Vishal M. Patel(参考訳) 拡散確率場(dpf)は距離空間上で定義される連続関数の分布をモデル化する。 dpfは、画像、ビデオ、および3dジオメトリを含む様々なモダリティのデータ生成を統一する大きな可能性を示しているが、より高いデータ解像度にはスケールしない。 これは、モデルが一様サンプリングによって局所構造をキャプチャすることが困難である ``scaling property''' に起因する可能性がある。 そこで本研究では,局所構造学習に焦点を当てたビューワイズサンプリングアルゴリズムと,グローバルな幾何学を補完するテキスト記述などの追加ガイダンスを取り入れた新たなモデルを提案する。 モデルは、複数のモダリティを統一しながら、高解像度データを生成するためにスケールできる。 様々なモダリティにおけるデータ生成実験の結果は、我々のモデルの有効性と、スケーラブルなモダリティ統一ビジュアルコンテンツ生成の基盤となる可能性を示している。

Diffusion Probabilistic Field (DPF) models the distribution of continuous functions defined over metric spaces. While DPF shows great potential for unifying data generation of various modalities including images, videos, and 3D geometry, it does not scale to a higher data resolution. This can be attributed to the ``scaling property'', where it is difficult for the model to capture local structures through uniform sampling. To this end, we propose a new model comprising of a view-wise sampling algorithm to focus on local structure learning, and incorporating additional guidance, e.g., text description, to complement the global geometry. The model can be scaled to generate high-resolution data while unifying multiple modalities. Experimental results on data generation in various modalities demonstrate the effectiveness of our model, as well as its potential as a foundation framework for scalable modality-unified visual content generation.
翻訳日:2023-05-25 20:07:48 公開日:2023-05-24
# gpt-4によるヒト嗜好判断における影響因子の解析

Analyzing Influential Factors in Human Preference Judgments via GPT-4 ( http://arxiv.org/abs/2305.14702v1 )

ライセンス: Link先を確認
Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh, Fei Liu(参考訳) 人間の判断は、人間の好みに合わせて出力を生成するために、大きな言語モデル(LLM)を導く上で重要である。 それらはしばしば、既存の自動メトリクスを補完する要約評価に使用される。 しかし、その重要性にもかかわらず、これらの対の人間の判断を探索する研究は限られている。 インフォマティブネス、コヒーレンス、フルエンシー、事実の一貫性といった要因の集団的影響とそれぞれの重みはいまだに不明である。 最終判断に隠された要因が及ぼす影響も不明である。 本稿では,OpenAI がリリースした対人判断のデータセットについて,詳細な検討を行う。 Bradley-Terry-Luceモデルを用いて、人間の判断に影響を及ぼす可能性のある重要な要因を同定する。 我々の研究は、人間の判断に埋め込まれた固有の嗜好を明らかにし、サンプル効率を高める戦略を提案する。 最後に,人間判断評価のためのバランスのとれたデータセットの構築に関する知見を提供する。

Pairwise human judgments are pivotal in guiding large language models (LLMs) to generate outputs that align with human preferences. They are also often used in summarization evaluation, complementing existing automatic metrics. Despite their significance, however, there has been limited research probing these pairwise human judgments. The collective impact and respective weights of factors such as informativeness, coherence, fluency, and factual consistency remain elusive. The impact of hidden factors on the final judgment is also unclear. In this paper, we conduct an in-depth examination of a dataset of pairwise human judgments released by OpenAI. Utilizing the Bradley-Terry-Luce model, we identify key factors that could potentially influence human judgments. Our research uncovers the inherent preferences embedded in human judgments and suggests strategies to boost sample efficiency. Finally, we provide insights on the construction of balanced datasets for human judgment evaluations, a crucial step in shaping the behaviors of future LLMs.
翻訳日:2023-05-25 20:00:48 公開日:2023-05-24
# ベイジアン前駆体をニューラルネットワークに蒸留するラピッド言語学習のモデル化

Modeling rapid language learning by distilling Bayesian priors into artificial neural networks ( http://arxiv.org/abs/2305.14701v1 )

ライセンス: Link先を確認
R. Thomas McCoy and Thomas L. Griffiths(参考訳) 人間は驚くほど少ない経験から言語を学ぶことができる。 この能力を説明する計算モデルの開発は認知科学において大きな課題となっている。 一般化を導く強い帰納的バイアス要素を構築するベイズモデルは、制御されたいくつかの例から人間を一般化する方法を説明することに成功している。 対照的に、ニューラルネットワークには柔軟な表現があり、自然データからよく学習できるが、人間よりも多くの例を必要とする。 ベイズモデルの強い帰納的バイアスとニューラルネットワークの柔軟な表現を組み合わせたアプローチによって,限定的な自然データから学習することが可能であることを示す。 このアプローチは、ベイズモデルのバイアスをニューラルネットワークに蒸留することで機能する。 ベイズ模型と同様に、結果として得られるシステムは少数の例から形式的な言語パターンを学習することができる。 ニューラルネットワークのように、自然言語のコーパスから英語構文の側面を学習することも可能で、再帰とプライミングの言語現象を取得するための標準的なニューラルネットワークよりも優れています。 ベイズモデルとニューラルネットワークの分離を橋渡しすることで、どちらのアプローチも独自のアプローチで処理できるよりも幅広い学習シナリオを処理できるようになる。

Humans can learn languages from remarkably little experience. Developing computational models that explain this ability has been a major challenge in cognitive science. Bayesian models that build in strong inductive biases - factors that guide generalization - have been successful at explaining how humans might generalize from few examples in controlled settings but are usually too restrictive to be tractably applied to more naturalistic data. By contrast, neural networks have flexible representations that allow them to learn well from naturalistic data but require many more examples than humans receive. We show that learning from limited naturalistic data is possible with an approach that combines the strong inductive biases of a Bayesian model with the flexible representations of a neural network. This approach works by distilling a Bayesian model's biases into a neural network. Like a Bayesian model, the resulting system can learn formal linguistic patterns from a small number of examples. Like a neural network, it can also learn aspects of English syntax from a corpus of natural language - and it outperforms a standard neural network at acquiring the linguistic phenomena of recursion and priming. Bridging the divide between Bayesian models and neural networks makes it possible to handle a broader range of learning scenarios than either approach can handle on its own.
翻訳日:2023-05-25 20:00:34 公開日:2023-05-24
# AdvFunMatch: 一貫性のある教育が逆境のロバストさに出会ったとき

AdvFunMatch: When Consistent Teaching Meets Adversarial Robustness ( http://arxiv.org/abs/2305.14700v1 )

ライセンス: Link先を確認
Ziuhi Wu, Haichang Gao, Bingqian Zhou, Ping Wang(参考訳) \emph{Consistent teaching}は知識蒸留(KD)を実装するための効果的なパラダイムであり、学生モデルと教師モデルの両方が同一の入力を受け取り、KDは関数マッチングタスク(FunMatch)として扱われる。 しかし、FunMatchの1つの制限は、敵の攻撃に対するモデルの抵抗である敵の堅牢性の伝達を考慮していないことである。 そこで本研究では,学習データの$\ell_p$-norm球内のすべてのデータポイントの分布を一貫した指導に従ってマッチングすることを目的とした,adversarial function matching(advfunmatch)と呼ばれる単純かつ効果的な戦略を提案する。 min-max最適化問題として定式化されたAdvFunMatchは、教師と生徒のモデル出力のKL偏差を最大化する最悪の事例を特定し、これらのミスマッチした例で出力と一致させる。 実験の結果,advfunmatchは高い正確さと頑健さの両立した学生モデルを効果的に生成できることがわかった。 さらに,advfunmatchでは強いデータ拡張(例えば,自動学習)が有益であるのに対し,先行研究では逆行訓練では効果が低いことが判明した。 コードは \url{https://gitee.com/zihui998/adv-fun-match} で利用可能である。

\emph{Consistent teaching} is an effective paradigm for implementing knowledge distillation (KD), where both student and teacher models receive identical inputs, and KD is treated as a function matching task (FunMatch). However, one limitation of FunMatch is that it does not account for the transfer of adversarial robustness, a model's resistance to adversarial attacks. To tackle this problem, we propose a simple but effective strategy called Adversarial Function Matching (AdvFunMatch), which aims to match distributions for all data points within the $\ell_p$-norm ball of the training data, in accordance with consistent teaching. Formulated as a min-max optimization problem, AdvFunMatch identifies the worst-case instances that maximizes the KL-divergence between teacher and student model outputs, which we refer to as "mismatched examples," and then matches the outputs on these mismatched examples. Our experimental results show that AdvFunMatch effectively produces student models with both high clean accuracy and robustness. Furthermore, we reveal that strong data augmentations (\emph{e.g.}, AutoAugment) are beneficial in AdvFunMatch, whereas prior works have found them less effective in adversarial training. Code is available at \url{https://gitee.com/zihui998/adv-fun-match}.
翻訳日:2023-05-25 20:00:13 公開日:2023-05-24
# トランスフォーマーは問題を再帰的に解けるか?

Can Transformers Learn to Solve Problems Recursively? ( http://arxiv.org/abs/2305.14699v1 )

ライセンス: Link先を確認
Shizhuo Dylan Zhang, Curt Tigges, Stella Biderman, Maxim Raginsky, Talia Ringer(参考訳) 近年、ニューラルネットワークはソフトウェアエンジニアがプログラムを書くのを手助けし、それを正式に検証することを約束している。 セマンティック情報はこれらのプロセスにおいて重要な役割を担っているが、トランスフォーマーのような一般的なニューラルネットワークがどの程度その情報をモデル化できるかは不明だ。 本稿では,特に構造的再帰に着目し,機械的解釈可能性のレンズによるプログラムと形式的証明に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。 構造的再帰は、データ型間のセマンティックな関係の推測やプログラムの振る舞いのエミュレートなど、現在、象徴的なツールがニューラルモデルを上回っているタスクの中心である。 入力-出力例から構造的再帰関数の挙動をエミュレートするトランスフォーマティブモデルの能力を評価する。 我々の評価には、これらの関数を近似するトランスフォーマーモデルの限界と能力の実証的および概念的分析と、モデルが学習する ``shortcut' アルゴリズムの再構成が含まれる。 これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。 私たちの研究は、トレーニングされたタスクの解決に失敗するニューラルネットワークの振る舞いを理解するための、新たな基盤を提供します。

Neural networks have in recent years shown promise for helping software engineers write programs and even formally verify them. While semantic information plays a crucial part in these processes, it remains unclear to what degree popular neural architectures like transformers are capable of modeling that information. This paper examines the behavior of neural networks learning algorithms relevant to programs and formal verification proofs through the lens of mechanistic interpretability, focusing in particular on structural recursion. Structural recursion is at the heart of tasks on which symbolic tools currently outperform neural models, like inferring semantic relations between datatypes and emulating program behavior. We evaluate the ability of transformer models to learn to emulate the behavior of structurally recursive functions from input-output examples. Our evaluation includes empirical and conceptual analyses of the limitations and capabilities of transformer models in approximating these functions, as well as reconstructions of the ``shortcut" algorithms the model learns. By reconstructing these algorithms, we are able to correctly predict 91 percent of failure cases for one of the approximated functions. Our work provides a new foundation for understanding the behavior of neural networks that fail to solve the very tasks they are trained for.
翻訳日:2023-05-25 19:59:41 公開日:2023-05-24
# SELFOOD: ランクへの学習による自己監視外分布検出

SELFOOD: Self-Supervised Out-Of-Distribution Detection via Learning to Rank ( http://arxiv.org/abs/2305.14696v1 )

ライセンス: Link先を確認
Dheeraj Mekala, Adithya Samavedhi, Chengyu Dong, Jingbo Shang(参考訳) クロスエントロピー損失(ce損失)で訓練された深層神経分類器は、しばしばキャリブレーション不足に苦しみ、od(out-of-distribution)検出のタスクを必要としている。 従来の監視型OOD検出法では、高額な手作業による分布内アノテーションとOODサンプルが必要である。 アノテーションのボトルネックに対処するために,自己管理型OOD検出手法であるSELFOODを導入する。 我々は,OOD検出を文書間ラベル間ランキング問題 (IDIL) として導入し,IDIL損失(IDIL損失)と呼ばれる2段階のランキング損失で分類器を訓練した。 具体的には,各ラベルに対して,そのラベルに属する文書のソフトマックススコアを,他のラベルに属する文書のスコアよりも上位にランク付けするよう,分類器を訓練する。 CE損失とは違って,我々のIDIL損失関数は,所望の信頼度ランキングが達成されたときにゼロに到達し,勾配が逆伝播することで,正しいラベルの確率を継続的に増加させるのではなく,誤ったラベルに関連する確率を減少させる。 複数の分類データセットの分類器を用いた大規模な実験は、粗い設定ときめ細かい設定の両方において、本手法の有効性を示す。

Deep neural classifiers trained with cross-entropy loss (CE loss) often suffer from poor calibration, necessitating the task of out-of-distribution (OOD) detection. Traditional supervised OOD detection methods require expensive manual annotation of in-distribution and OOD samples. To address the annotation bottleneck, we introduce SELFOOD, a self-supervised OOD detection method that requires only in-distribution samples as supervision. We cast OOD detection as an inter-document intra-label (IDIL) ranking problem and train the classifier with our pairwise ranking loss, referred to as IDIL loss. Specifically, given a set of in-distribution documents and their labels, for each label, we train the classifier to rank the softmax scores of documents belonging to that label to be higher than the scores of documents that belong to other labels. Unlike CE loss, our IDIL loss function reaches zero when the desired confidence ranking is achieved and gradients are backpropagated to decrease probabilities associated with incorrect labels rather than continuously increasing the probability of the correct label. Extensive experiments with several classifiers on multiple classification datasets demonstrate the effectiveness of our method in both coarse- and fine-grained settings.
翻訳日:2023-05-25 19:59:18 公開日:2023-05-24
# 大規模言語モデルにおける実体バイアスの因果的見方

A Causal View of Entity Bias in (Large) Language Models ( http://arxiv.org/abs/2305.14695v1 )

ライセンス: Link先を確認
Fei Wang, Wenjie Mo, Yiwei Wang, Wenxuan Zhou, Muhao Chen(参考訳) エンティティバイアスは事前訓練された(大規模な)言語モデルに大きく影響し、不信な予測を行うために過度にパラメトリックな知識に依存する。 因果性に触発された手法は、実体バイアスを緩和する大きな可能性を示したが、実際に基礎となる因果モデルのパラメータを正確に推定することは困難である。 ブラックボックスLSMの台頭は、アクセス不能なパラメータと未調整のロジットのため、事態をさらに悪化させる。 これらの問題に対処するため、パラメーターが比較的容易に推定できる特定の構造因果モデル(SCM)を提案する。 このSCMに基づいて、ホワイトボックスとブラックボックスの設定の両方において、エンティティバイアスを軽減する因果介入手法を提案する。 提案された因果的介入は、元のエンティティと隣のエンティティを摂動させる。 この介入は、同じエンティティから十分な共通予測情報を保存しながら、元のエンティティに関連する特定のバイアス情報を削減する。 関係抽出タスクの評価では,RoBERTaのF1スコアをEntREDで5.7ポイント改善し,エンティティとラベルの急激なショートカットを除去した。 一方,文脈内介入は,gpt-3.5におけるパラメトリック知識と文脈知識との知識衝突を効果的に低減し,f1得点を9.14ポイント向上させる。

Entity bias widely affects pretrained (large) language models, causing them to excessively rely on (biased) parametric knowledge to make unfaithful predictions. Although causality-inspired methods have shown great potential to mitigate entity bias, it is hard to precisely estimate the parameters of underlying causal models in practice. The rise of black-box LLMs also makes the situation even worse, because of their inaccessible parameters and uncalibrated logits. To address these problems, we propose a specific structured causal model (SCM) whose parameters are comparatively easier to estimate. Building upon this SCM, we propose causal intervention techniques to mitigate entity bias for both white-box and black-box settings. The proposed causal intervention perturbs the original entity with neighboring entities. This intervention reduces specific biasing information pertaining to the original entity while still preserving sufficient common predictive information from similar entities. When evaluated on the relation extraction task, our training-time intervention significantly improves the F1 score of RoBERTa by 5.7 points on EntRED, in which spurious shortcuts between entities and labels are removed. Meanwhile, our in-context intervention effectively reduces the knowledge conflicts between parametric knowledge and contextual knowledge in GPT-3.5 and improves the F1 score by 9.14 points on a challenging test set derived from Re-TACRED.
翻訳日:2023-05-25 19:58:54 公開日:2023-05-24
# 大規模言語モデルはパーソナリティを発達したか? llmsにおける自己評価テストの性格測定への適用性

Have Large Language Models Developed a Personality?: Applicability of Self-Assessment Tests in Measuring Personality in LLMs ( http://arxiv.org/abs/2305.14693v1 )

ライセンス: Link先を確認
Xiaoyang Song, Akshat Gupta, Kiyan Mohebbizadeh, Shujie Hu, Anant Singh(参考訳) 大規模言語モデル(llm)はパーソナリティを発達させたか? 短い答えは、"We Don't Know! 本稿では,言語モデルにおけるパーソナリティを測定するための適切なツールがまだないことを示す。 性格は行動に影響を及ぼす重要な特徴である。 LLMは、様々なタスクにおける人間のような知性とパフォーマンスをエミュレートするので、これらのモデルがパーソナリティを発達させたかどうかが疑問である。 従来の研究では、自己評価パーソナリティテスト (self-assessment personality test) によって機械のパーソナリティを評価する。 ここでの基本的な仮定は、人間のパーソナリティテストは機械のパーソナリティを正確に測定できるということである。 本稿では,1.5Bから30Bの異なる5種類のLDMにおける個性の出現について検討する。 本稿では,これらの自己評価テストの信頼性に必要条件として,オプション次対称性を提案する。 この条件下では、自己評価問題に対する答えは、選択肢が提示される順序に不変である。 LLMの個性検査応答の多くはオプション次対称性を保たない。 これらのケースでは、LLMはテスト中の状況条件を考慮せず、テスト中の状況に関係なく全く同じ回答を生成する。 また、上記の現象の根本原因であるこれらのLSMに固有のバイアスが存在することも確認し、自己評価テストの信頼性を損なう。 これらの結果から,自己評価テストはLLMの性格測定の正しい方法ではないことが示唆された。 本稿では,llmにおけるパーソナリティ測定における現在の文献の欠点に留意し,機械のパーソナリティ計測のためのツールの開発を目指す。

Have Large Language Models (LLMs) developed a personality? The short answer is a resounding "We Don't Know!". In this paper, we show that we do not yet have the right tools to measure personality in language models. Personality is an important characteristic that influences behavior. As LLMs emulate human-like intelligence and performance in various tasks, a natural question to ask is whether these models have developed a personality. Previous works have evaluated machine personality through self-assessment personality tests, which are a set of multiple-choice questions created to evaluate personality in humans. A fundamental assumption here is that human personality tests can accurately measure personality in machines. In this paper, we investigate the emergence of personality in five LLMs of different sizes ranging from 1.5B to 30B. We propose the Option-Order Symmetry property as a necessary condition for the reliability of these self-assessment tests. Under this condition, the answer to self-assessment questions is invariant to the order in which the options are presented. We find that many LLMs personality test responses do not preserve option-order symmetry. We take a deeper look at LLMs test responses where option-order symmetry is preserved to find that in these cases, LLMs do not take into account the situational statement being tested and produce the exact same answer irrespective of the situation being tested. We also identify the existence of inherent biases in these LLMs which is the root cause of the aforementioned phenomenon and makes self-assessment tests unreliable. These observations indicate that self-assessment tests are not the correct tools to measure personality in LLMs. Through this paper, we hope to draw attention to the shortcomings of current literature in measuring personality in LLMs and call for developing tools for machine personality measurement.
翻訳日:2023-05-25 19:58:29 公開日:2023-05-24
# 農業におけるラベル効率学習の包括的考察

Label-Efficient Learning in Agriculture: A Comprehensive Review ( http://arxiv.org/abs/2305.14691v1 )

ライセンス: Link先を確認
Jiajia Li, Dong Chen, Xinda Qi, Zhaojian Li, Yanbo Huang, Daniel Morris, Xiaobo Tan(参考訳) 過去10年間、雑草の制御、植物病の診断、農業ロボティクス、精密家畜管理など、農業システムにおける機械学習(ML)とディープラーニング(DL)の応用に大きな成功を収めてきた。 膨大な進歩にもかかわらず、ml/dlモデルの欠点は、トレーニングのために一般的に大規模なラベル付きデータセットに依存しており、これらのモデルの性能は、利用可能なラベル付きデータサンプルのサイズと品質に大きく影響されていることである。 さらに、このような大規模データセットの収集、処理、ラベリングは、人的労働のコストの増加によって、非常に費用がかかり、時間がかかる。 そのため、ラベル効率のよい農業用ML/DL法の開発は、研究者や実践者の間で大きな関心を集めている。 実際、2016年以降、さまざまな農業問題に対処するためのディープラーニングに基づくラベル効率技術の開発と適用に関する50以上の論文があり、農業アプリケーションにおける最近のラベル効率ml/dl手法のタイムリーで包括的なレビューを提供する動機となっている。 この目的のために,我々はまず,弱い監督(アクティブラーニングと半教師付き学習)と非監督(un-/self教師付き学習)を含む指導の程度に応じてこれらの手法を整理するための原則的分類法を開発し,代表的なラベル効率ml/dl法を補足した。 さらに, 精密農業, 植物表現型, ポストハーベスト品質評価など, ラベル効率の高いアルゴリズムを利用した各種農業応用の体系的検討を行った。 最後に,現在の課題と課題,今後の研究の方向性について考察する。 よく分類されたペーパーリストはhttps://github.com/DongChen06/Label-efficient-in-Agricultureでアクセスすることができる。

The past decade has witnessed many great successes of machine learning (ML) and deep learning (DL) applications in agricultural systems, including weed control, plant disease diagnosis, agricultural robotics, and precision livestock management. Despite tremendous progresses, one downside of such ML/DL models is that they generally rely on large-scale labeled datasets for training, and the performance of such models is strongly influenced by the size and quality of available labeled data samples. In addition, collecting, processing, and labeling such large-scale datasets is extremely costly and time-consuming, partially due to the rising cost in human labor. Therefore, developing label-efficient ML/DL methods for agricultural applications has received significant interests among researchers and practitioners. In fact, there are more than 50 papers on developing and applying deep-learning-based label-efficient techniques to address various agricultural problems since 2016, which motivates the authors to provide a timely and comprehensive review of recent label-efficient ML/DL methods in agricultural applications. To this end, we first develop a principled taxonomy to organize these methods according to the degree of supervision, including weak supervision (i.e., active learning and semi-/weakly- supervised learning), and no supervision (i.e., un-/self- supervised learning), supplemented by representative state-of-the-art label-efficient ML/DL methods. In addition, a systematic review of various agricultural applications exploiting these label-efficient algorithms, such as precision agriculture, plant phenotyping, and postharvest quality assessment, is presented. Finally, we discuss the current problems and challenges, as well as future research directions. A well-classified paper list can be accessed at https://github.com/DongChen06/Label-efficient-in-Agriculture.
翻訳日:2023-05-25 19:58:02 公開日:2023-05-24
# 分散シフト問題に対するユニバーサルソルバーへの重み付けの一般化

Generalizing Importance Weighting to A Universal Solver for Distribution Shift Problems ( http://arxiv.org/abs/2305.14690v1 )

ライセンス: Link先を確認
Tongtong Fang, Nan Lu, Gang Niu, Masashi Sugiyama(参考訳) 分布シフト (ds) は2つのレベルを持つ: 分布自体が変化し、サポート(すなわち確率密度が 0 でない集合)も変化する。 トレーニングとテストディストリビューション間のサポート変更を考慮すると、4つのケースがあります。 (i)正確に一致します。 (ii) 訓練支援はより広く(従って、試験支援をカバーしている) (iii) 試験支援は広い。 (iv)一部重複している。 既存の方法がうまくいった場合 (i)および (ii) (iii)及び (iv)近年は一般的だが、未調査のままである。 本稿では,ケースの黄金解法である重要重み付け(IW)を一般化する。 (i)および (ii) あらゆる場合の普遍的な解法について。 特に、なぜIWが失敗するのかを最初に調査する。 (iii)及び (iv)これらの知見に基づき,事例対応可能な一般化iw(giw)を提案する。 (iii)及び (iv)ケースではiwまで減少する (i)および (ii) giwでは、試験支援を訓練中(it)部と訓練外(oot)部とに分割し、期待されるリスクをit部上の重み付き分類期間とoot部上の標準分類期間とに分解し、giwのリスク一貫性を保証する。 そして、GIWの実装は3つのコンポーネントから構成される。 a) 検証データの分割は、一級支援ベクトルマシンによって行われる。 b) 経験的リスクの第一項は、トレーニングデータ及びIT検証データを与えられた任意のIWアルゴリズムで処理することができる。 (c)第2項はoot検証データのみを含む。 giwがds問題の普遍解法であることを実証する実験 (iii)及び (iv)

Distribution shift (DS) may have two levels: the distribution itself changes, and the support (i.e., the set where the probability density is non-zero) also changes. When considering the support change between the training and test distributions, there can be four cases: (i) they exactly match; (ii) the training support is wider (and thus covers the test support); (iii) the test support is wider; (iv) they partially overlap. Existing methods are good at cases (i) and (ii), while cases (iii) and (iv) are more common nowadays but still under-explored. In this paper, we generalize importance weighting (IW), a golden solver for cases (i) and (ii), to a universal solver for all cases. Specifically, we first investigate why IW may fail in cases (iii) and (iv); based on the findings, we propose generalized IW (GIW) that could handle cases (iii) and (iv) and would reduce to IW in cases (i) and (ii). In GIW, the test support is split into an in-training (IT) part and an out-of-training (OOT) part, and the expected risk is decomposed into a weighted classification term over the IT part and a standard classification term over the OOT part, which guarantees the risk consistency of GIW. Then, the implementation of GIW consists of three components: (a) the split of validation data is carried out by the one-class support vector machine, (b) the first term of the empirical risk can be handled by any IW algorithm given training data and IT validation data, and (c) the second term just involves OOT validation data. Experiments demonstrate that GIW is a universal solver for DS problems, outperforming IW methods in cases (iii) and (iv).
翻訳日:2023-05-25 19:57:31 公開日:2023-05-24
# 線上のデータの最小二乗数を正規化したリッジの低パラメータ二重降下

Under-Parameterized Double Descent for Ridge Regularized Least Squares Denoising of Data on a Line ( http://arxiv.org/abs/2305.14689v1 )

ライセンス: Link先を確認
Rishi Sonthalia and Xinyue Li and Bochao Gu(参考訳) 学習データ点数、統計モデルにおけるパラメータ数、モデルの一般化能力との関係は広く研究されている。 従来の研究では、過度パラメータ化政権では二重降下が起こりうることが示されており、標準バイアス分散トレードオフは過度パラメータ化政権では成り立つと信じられていた。 本稿では、パラメータ下状態における二重降下を確実に示す簡単な例を示す。 単純性のために、高次元空間に埋め込まれた直線上のデータを用いて、リッジを正規化した最小二乗問題を考える。 一般化誤差の漸近的に正確な式を導出することにより、補間点や過度パラメータ化状態ではなく、過度パラメータ化状態のピークでのサンプルワイドおよびパラメータワイドの二重降下を観測する。 さらに、サンプル回りの二重降下曲線のピークは、推定子のノルムに対する曲線のピークに対応し、リッジ正規化の強さである$\mu$を調整して、ピークの位置をシフトさせる。 このモデルではパラメータの2次降が小さな$\mu$ に対して起こることを観測する。 より大きい値の$\mu$ に対して、推定子のノルムの曲線はピークを持つが、一般化誤差のピークには変換されないことを観測する。 さらに,この問題に対するトレーニング誤差について検討した。 考慮された問題設定は、2つの正則化器間の相互作用を研究することができる。 入力データノイズ正規化器よりもリッジ正規化器を暗黙的に使用するという経験的証拠を提供する。 したがって、両正規化子は同じ量、すなわち推定子のノルムを正規化するが、それらは同値ではないことを示す。

The relationship between the number of training data points, the number of parameters in a statistical model, and the generalization capabilities of the model has been widely studied. Previous work has shown that double descent can occur in the over-parameterized regime, and believe that the standard bias-variance trade-off holds in the under-parameterized regime. In this paper, we present a simple example that provably exhibits double descent in the under-parameterized regime. For simplicity, we look at the ridge regularized least squares denoising problem with data on a line embedded in high-dimension space. By deriving an asymptotically accurate formula for the generalization error, we observe sample-wise and parameter-wise double descent with the peak in the under-parameterized regime rather than at the interpolation point or in the over-parameterized regime. Further, the peak of the sample-wise double descent curve corresponds to a peak in the curve for the norm of the estimator, and adjusting $\mu$, the strength of the ridge regularization, shifts the location of the peak. We observe that parameter-wise double descent occurs for this model for small $\mu$. For larger values of $\mu$, we observe that the curve for the norm of the estimator has a peak but that this no longer translates to a peak in the generalization error. Moreover, we study the training error for this problem. The considered problem setup allows for studying the interaction between two regularizers. We provide empirical evidence that the model implicitly favors using the ridge regularizer over the input data noise regularizer. Thus, we show that even though both regularizers regularize the same quantity, i.e., the norm of the estimator, they are not equivalent.
翻訳日:2023-05-25 19:57:07 公開日:2023-05-24
# 自動駐車のための魚眼カメラのストリーミング物体検出

Streaming Object Detection on Fisheye Cameras for Automatic Parking ( http://arxiv.org/abs/2305.14713v1 )

ライセンス: Link先を確認
Yixiong Yan, Liangzhu Cheng, Yongxu Li, Xinjuan Tuo(参考訳) 魚眼カメラは自動駐車に広く採用されており、魚眼カメラの映像ストリームオブジェクト検出(VSOD)は車両の安全な運転を保証するための基本的な認識機能である。 過去の研究では、ディープラーニングモデルの出力と、知覚系の遅延の存在による現在の状況との差は一般的に無視されている。 しかし、環境は遅延時間内に必然的に変化し、潜在的な安全リスクを引き起こす可能性がある。 本稿では,未来を予測し,タイムラグ問題を緩和できるデュアルフロー知覚モジュール(ダイナミックフローと静的フロー)を備えたリアルタイム検出フレームワークを提案する。 一方,レイテンシと精度を評価するため,新しい手法を用いる。 魚眼カメラの強い放射歪による魚眼カメラ画像の物体には不向きであり、パーキング知覚の一次検出対象は車と歩行者であり、回転境界ボックスを採用し、簡易かつ正確な対象の表現法である箱の角度を後退させる新たな周期角損失関数を提案する。 インスタンスセグメンテーション基底真理は、トレーニングを監督するために使用される。 実験は我々のアプローチの有効性を示す。 コードは、https://gitee.com/hiyanyx/fisheye-streaming-perceptionでリリースされる。

Fisheye cameras are widely employed in automatic parking, and the video stream object detection (VSOD) of the fisheye camera is a fundamental perception function to ensure the safe operation of vehicles. In past research work, the difference between the output of the deep learning model and the actual situation at the current moment due to the existence of delay of the perception system is generally ignored. But the environment will inevitably change within the delay time which may cause a potential safety hazard. In this paper, we propose a real-time detection framework equipped with a dual-flow perception module (dynamic and static flows) that can predict the future and alleviate the time-lag problem. Meanwhile, we use a new scheme to evaluate latency and accuracy. The standard bounding box is unsuitable for the object in fisheye camera images due to the strong radial distortion of the fisheye camera and the primary detection objects of parking perception are vehicles and pedestrians, so we adopt the rotate bounding box and propose a new periodic angle loss function to regress the angle of the box, which is the simple and accurate representation method of objects. The instance segmentation ground truth is used to supervise the training. Experiments demonstrate the effectiveness of our approach. Code is released at: https://gitee.com/hiyanyx/fisheye-streaming-perception.
翻訳日:2023-05-25 19:51:31 公開日:2023-05-24
# 拡散モデルの一般化について

On the Generalization of Diffusion Model ( http://arxiv.org/abs/2305.14712v1 )

ライセンス: Link先を確認
Mingyang Yi, Jiacheng Sun, Zhenguo Li(参考訳) 拡散確率生成モデルは高品質なデータを生成するために広く使われている。 トレーニングセットに存在しないデータを合成することは可能だが、そのような一般化の背景にある理論的根拠はまだ未定である。 本稿では,生成したデータとトレーニングセットの相互情報によって測定される生成モデルの一般化を正式に定義する。 この定義は、トレーニングセットと相関の少ないデータを生成するモデルは、より優れた一般化能力を示すという直感に由来する。 一方, 経験的最適拡散モデルでは, 決定論的サンプリング器が生成するデータは, すべてトレーニング集合と非常に関連しており, 一般化が不十分であることを示す。 この結果は、訓練された拡散モデルの(経験的最適を近似する)外挿能力(未知のデータの生成)の観察と矛盾する。 この矛盾を理解するために,十分に訓練された拡散モデルと経験的オプティマの違いを実証的に検証する。 十分な訓練によって得られたが、それらの差は依然としてわずかであり、拡散モデルを一般化するためには不可欠である。 さらに,経験的最適解が一般化問題を持たない別の学習目標を提案する。 実験により,提案する学習対象が元のモデルと類似したモデルを返すことを示し,学習した拡散モデルの一般化能力をさらに検証する。

The diffusion probabilistic generative models are widely used to generate high-quality data. Though they can synthetic data that does not exist in the training set, the rationale behind such generalization is still unexplored. In this paper, we formally define the generalization of the generative model, which is measured by the mutual information between the generated data and the training set. The definition originates from the intuition that the model which generates data with less correlation to the training set exhibits better generalization ability. Meanwhile, we show that for the empirical optimal diffusion model, the data generated by a deterministic sampler are all highly related to the training set, thus poor generalization. This result contradicts the observation of the trained diffusion model's (approximating empirical optima) extrapolation ability (generating unseen data). To understand this contradiction, we empirically verify the difference between the sufficiently trained diffusion model and the empirical optima. We found, though obtained through sufficient training, there still exists a slight difference between them, which is critical to making the diffusion model generalizable. Moreover, we propose another training objective whose empirical optimal solution has no potential generalization problem. We empirically show that the proposed training objective returns a similar model to the original one, which further verifies the generalization ability of the trained diffusion model.
翻訳日:2023-05-25 19:51:11 公開日:2023-05-24
# 自動評価指標におけるジェンダーバイアス:画像キャプションを事例として

Gender Biases in Automatic Evaluation Metrics: A Case Study on Image Captioning ( http://arxiv.org/abs/2305.14711v1 )

ライセンス: Link先を確認
Haoyi Qiu, Zi-Yi Dou, Tianlu Wang, Asli Celikyilmaz, Nanyun Peng(参考訳) 事前訓練されたモデルベース評価指標は,画像キャプションなどの自然言語生成タスクにおいて,人間の判断と高い相関性を示し,高い性能を示した。 印象的な結果にもかかわらず、彼らの公正性への影響は未調査であり、事前訓練されたモデルが社会的バイアスを符号化し、評価目的にそれらを利用すれば、不注意に現れ、バイアスを増幅する可能性があると広く認識されている。 本稿では,画像キャプションタスクに着目し,モデルに基づく評価指標の性別バイアスに関する体系的研究を行う。 具体的には、職業、活動、オブジェクトの概念に関するさまざまな評価指標において、まず性別バイアスを特定し、定量化する。 次に、これらのバイアス付き指標を使用することによる負の結果を示す。例えば、デプロイメントにおいてバイアス付き生成モデルを選択し、強化学習を通じてバイアスを生成モデルに伝達する。 また,n-gramマッチングと事前学習したモデルベース評価指標を組み合わせることで,性別バイアスを減らすための簡易かつ効果的な方法を提案する。

Pretrained model-based evaluation metrics have demonstrated strong performance with high correlations with human judgments in various natural language generation tasks such as image captioning. Despite the impressive results, their impact on fairness is under-explored -- it is widely acknowledged that pretrained models can encode societal biases, and utilizing them for evaluation purposes may inadvertently manifest and potentially amplify biases. In this paper, we conduct a systematic study in gender biases of model-based evaluation metrics with a focus on image captioning tasks. Specifically, we first identify and quantify gender biases in different evaluation metrics regarding profession, activity, and object concepts. Then, we demonstrate the negative consequences of using these biased metrics, such as favoring biased generation models in deployment and propagating the biases to generation models through reinforcement learning. We also present a simple but effective alternative to reduce gender biases by combining n-gram matching-based and pretrained model-based evaluation metrics.
翻訳日:2023-05-25 19:50:49 公開日:2023-05-24
# バックドアとしてのインストラクション:大規模言語モデルのためのインストラクションチューニングのバックドア脆弱性

Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models ( http://arxiv.org/abs/2305.14710v1 )

ライセンス: Link先を確認
Jiashu Xu, Mingyu Derek Ma, Fei Wang, Chaowei Xiao, Muhao Chen(参考訳) インストラクションチューニングされたモデルは、優れたパフォーマンスを達成するためにタスク命令を備えたクラウドソーシングデータセットに基づいて訓練される。 しかし、この作業では、このトレーニングパラダイムに対するセキュリティ上の懸念が生じます。 我々の研究では、攻撃者は何千もの収集したデータに悪意のある命令をほとんど発行することでバックドアを注入し、データ毒殺を通じてモデルの振る舞いを制御することができることが示されています。 このような命令攻撃によって、攻撃者は4つの一般的なnlpデータセットで90%以上の攻撃成功率を達成でき、永続的なバックドアを15の多様なデータセットに簡単に転送できる。 このようにして、攻撃者は1つのデータセット用に設計された有毒な命令を他の多くのデータセットに直接適用することができる。 さらに, 連続学習では, 有毒モデルを治療することはできない。 最後に、命令攻撃は既存の推論時間防御に対する抵抗を示す。 これらの知見は、訓練モデルにおけるデータ中毒攻撃に対するより堅牢な防御の必要性を強調し、指導クラウドソーシングにおけるデータ品質の確保の重要性を強調している。

Instruction-tuned models are trained on crowdsourcing datasets with task instructions to achieve superior performance. However, in this work we raise security concerns about this training paradigm. Our studies demonstrate that an attacker can inject backdoors by issuing very few malicious instructions among thousands of gathered data and control model behavior through data poisoning, without even the need of modifying data instances or labels themselves. Through such instruction attacks, the attacker can achieve over 90% attack success rate across four commonly used NLP datasets, and cause persistent backdoors that are easily transferred to 15 diverse datasets zero-shot. In this way, the attacker can directly apply poisoned instructions designed for one dataset on many other datasets. Moreover, the poisoned model cannot be cured by continual learning. Lastly, instruction attacks show resistance to existing inference-time defense. These findings highlight the need for more robust defenses against data poisoning attacks in instructiontuning models and underscore the importance of ensuring data quality in instruction crowdsourcing.
翻訳日:2023-05-25 19:50:32 公開日:2023-05-24
# regret matching+: (in)安定性とゲームの高速収束

Regret Matching+: (In)Stability and Fast Convergence in Games ( http://arxiv.org/abs/2305.14709v1 )

ライセンス: Link先を確認
Gabriele Farina and Julien Grand-Cl\'ement and Christian Kroer and Chung-Wei Lee and Haipeng Luo(参考訳) Regret Matching+ (RM+)とその変種は大規模ゲームを解く上で重要なアルゴリズムである。 しかし、実際の成功に関する理論的理解はまだ謎である。 さらに、ゲームにおける高速収束の最近の進歩は、安定性を満足するオンラインミラー降下のような非回帰アルゴリズムに限定されている。 本稿では,まずrm+とその予測バージョンが不安定になりうることを示す反例を示す。 次に、RM+が機能する正のオルサントを再開および切断する2つの修正を提供します。 これらの修正は, RM+による正規形ゲームにおいて, 個々の後悔に対して$O(T^{1/4})$$と$O(1)$の社会的後悔を与えるのに十分であることを示す。 また、rm+の非結合学習環境における透視的更新に安定化技術を適用し、最近の透視的オンラインミラー降下の成果に類似した望ましい結果を証明した。 実験により,行列ゲームや広角ゲームにおいて,バニラRM+に基づくアルゴリズムよりもアルゴリズムの利点が示された。

Regret Matching+ (RM+) and its variants are important algorithms for solving large-scale games. However, a theoretical understanding of their success in practice is still a mystery. Moreover, recent advances on fast convergence in games are limited to no-regret algorithms such as online mirror descent, which satisfy stability. In this paper, we first give counterexamples showing that RM+ and its predictive version can be unstable, which might cause other players to suffer large regret. We then provide two fixes: restarting and chopping off the positive orthant that RM+ works in. We show that these fixes are sufficient to get $O(T^{1/4})$ individual regret and $O(1)$ social regret in normal-form games via RM+ with predictions. We also apply our stabilizing techniques to clairvoyant updates in the uncoupled learning setting for RM+ and prove desirable results akin to recent works for Clairvoyant online mirror descent. Our experiments show the advantages of our algorithms over vanilla RM+-based algorithms in matrix and extensive-form games.
翻訳日:2023-05-25 19:50:15 公開日:2023-05-24
# EgoVSR: 高品質なEgocentric Video Super-Resolutionを目指す

EgoVSR: Towards High-Quality Egocentric Video Super-Resolution ( http://arxiv.org/abs/2305.14708v1 )

ライセンス: Link先を確認
Yichen Chi, Junhao Gu, Jiamiao Zhang, Wenming Yang, Yapeng Tian(参考訳) キャプチャ装置やシナリオの制限のため、エゴセントリックなビデオは視覚的品質が低く、主に高い圧縮と激しい動きのぼけによって引き起こされる。 エゴセントリックビデオの応用が増えているため、これらのビデオの品質を超高解像度で高める必要がある。 しかし、既存のVSR(Video Super-Resolution)の作品は、3人称ビュービデオに焦点をあてているが、エゴセントリックビデオの急激なエゴモーションや物体の動きによるぼやけたアーチファクトを扱うには適していない。 この目的のために,エゴセントリックなビデオに特化して設計されたVSRフレームワークであるEgoVSRを提案する。 VSRフレームワークのDual Branch Deblur Network (DB$^2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。 一方、DB$^2$Net学習のガイドとしてぼやけたマスクが導入され、ビデオフレーム内のぼやけた領域のローカライズに使用できる。 またマスク予測のためにMaskNetを設計し,マスク推定を最適化するためにマスク損失を予測した。 さらに, エゴセントリックビデオのように動きのぼやきをシミュレートするために, 一般的なvsrトレーニングデータに対するオンラインモーションボケ合成モデルを提案する。 提案手法の有効性を検証するため,多数の高速移動エゴセントリックなビデオシーケンスを含むEgoVSRデータセットを提案する。 我々のEgoVSRモデルは、低品質のエゴセントリックビデオを効率よく超解し、強力な比較ベースラインを上回ります。 私たちのコード、事前訓練されたモデル、データはリリースされます。

Due to the limitations of capture devices and scenarios, egocentric videos frequently have low visual quality, mainly caused by high compression and severe motion blur. With the increasing application of egocentric videos, there is an urgent need to enhance the quality of these videos through super-resolution. However, existing Video Super-Resolution (VSR) works, focusing on third-person view videos, are actually unsuitable for handling blurring artifacts caused by rapid ego-motion and object motion in egocentric videos. To this end, we propose EgoVSR, a VSR framework specifically designed for egocentric videos. We explicitly tackle motion blurs in egocentric videos using a Dual Branch Deblur Network (DB$^2$Net) in the VSR framework. Meanwhile, a blurring mask is introduced to guide the DB$^2$Net learning, and can be used to localize blurred areas in video frames. We also design a MaskNet to predict the mask, as well as a mask loss to optimize the mask estimation. Additionally, an online motion blur synthesis model for common VSR training data is proposed to simulate motion blurs as in egocentric videos. In order to validate the effectiveness of our proposed method, we introduce an EgoVSR dataset containing a large amount of fast-motion egocentric video sequences. Extensive experiments demonstrate that our EgoVSR model can efficiently super-resolve low-quality egocentric videos and outperform strong comparison baselines. Our code, pre-trained models, and data will be released.
翻訳日:2023-05-25 19:49:53 公開日:2023-05-24
# 学生がマスターになる:科学的事実誤り訂正におけるGPT3のマッチング

The student becomes the master: Matching GPT3 on Scientific Factual Error Correction ( http://arxiv.org/abs/2305.14707v1 )

ライセンス: Link先を確認
Dhananjay Ashok, Atharva Kulkarni, Hai Pham, Barnab\'as P\'oczos(参考訳) 誤り訂正データセットを作成するコストが極端に高いため、ほとんどのFactual Claim Correction法は修正プロセスを導くために強力な検証モデルに依存している。 これにより、優れた検証モデルが常に存在するとは限らないScientific Claim Correctionのようなドメインのパフォーマンスが大幅に低下する。 そこで本研究では,既存の手法を94%の精度で達成し,scifactデータセットでは62.5%,scifact-openデータセットでは0.5%,1.50%の精度で,検証は必要とせず,既存の手法を1桁も上回ることができるクレーム補正システムを提案する。 本手法は,LLMを学習中に促す力を利用して,十分に教師付きトレーニングや正規化に使用できるリッチな注釈付きデータセットを作成する。 さらに,クレームアウェア復号法を用いて,補正されたクレームの品質を向上させる。 gpt3.5はscifactとscifact-openで89.5%と60%の精度を達成していますが、我々のモデルより1250倍のパラメータを使っています。

Due to the prohibitively high cost of creating error correction datasets, most Factual Claim Correction methods rely on a powerful verification model to guide the correction process. This leads to a significant drop in performance in domains like Scientific Claim Correction, where good verification models do not always exist. In this work, we introduce a claim correction system that makes no domain assumptions and does not require a verifier but is able to outperform existing methods by an order of magnitude -- achieving 94% correction accuracy on the SciFact dataset, and 62.5% on the SciFact-Open dataset, compared to the next best methods 0.5% and 1.50% respectively. Our method leverages the power of prompting with LLMs during training to create a richly annotated dataset that can be used for fully supervised training and regularization. We additionally use a claim-aware decoding procedure to improve the quality of corrected claims. Our method is competitive with the very LLM that was used to generate the annotated dataset -- with GPT3.5 achieving 89.5% and 60% correction accuracy on SciFact and SciFact-Open, despite using 1250 times as many parameters as our model.
翻訳日:2023-05-25 19:49:25 公開日:2023-05-24
# PruMUX: モデル圧縮によるデータ多重化の強化

PruMUX: Augmenting Data Multiplexing with Model Compression ( http://arxiv.org/abs/2305.14706v1 )

ライセンス: Link先を確認
Yushan Su, Vishvak Murahari, Karthik Narasimhan, Kai Li(参考訳) 言語モデルのサイズが日に日に大きくなるにつれ、効率的な推論の手法は様々なアプリケーションでその能力を活用するのに不可欠である。 先行研究は, モデルプルーニング, 知識蒸留, データ多重化といった手法を調査し, 精度を犠牲にすることなく, モデルのスループットを向上させる。 本稿では,構造化プルーニングとデータ多重化という2つの手法を組み合わせて,いずれの手法でも得られる高速化ゲインを合成する。 prumux は bert-base モデルに対する最大 7.5-29.5 倍のスループット向上を実現し,精度閾値を 80% から 74% まで向上させた。 さらに,2つの手法におけるパラメータの組み合わせ(スパーシティや多重化係数など)についても検討し,結果モデルの精度とスループットのトレードオフを包括的に解析した。 そこで本研究では, 精度低下予算を考慮し, プルーニングおよび多重化の高性能パラメータを予測可能なメタレベルモデルであるauto-prumuxを提案する。

As language models increase in size by the day, methods for efficient inference are critical to leveraging their capabilities for various applications. Prior work has investigated techniques like model pruning, knowledge distillation, and data multiplexing to increase model throughput without sacrificing accuracy. In this paper, we combine two such methods -- structured pruning and data multiplexing -- to compound the speedup gains obtained by either method. Our approach, PruMUX, obtains up to 7.5-29.5X throughput improvement over BERT-base model with accuracy threshold from 80% to 74%. We further study various combinations of parameters (such as sparsity and multiplexing factor) in the two techniques to provide a comprehensive analysis of the tradeoff between accuracy and throughput in the resulting models. We then propose Auto-PruMUX, a meta-level model that can predict the high-performance parameters for pruning and multiplexing given a desired accuracy loss budget, providing a practical method to leverage the combination effectively.
翻訳日:2023-05-25 19:49:03 公開日:2023-05-24
# Flan-MoE: スペシャリストの疎混合による命令型言語モデルのスケーリング

Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse Mixture of Experts ( http://arxiv.org/abs/2305.14705v1 )

ライセンス: Link先を確認
Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Wei, Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu, Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt Keutzer, Trevor Darrell, Denny Zhou(参考訳) 言語モデルとそのアプリケーションの爆発的な成長は、効率的でスケーラブルな方法の需要の増加につながった。 本稿では,flan-moe について述べる。flan-moe は sparse mixed-of-expert (moe) モデルである。 タスク固有のデータセット(言い換えれば命令ファインタニングを含まない)上で自然に微調整されたMoEモデルは、同じ計算複雑性の高密度モデルと比較して、しばしば性能が低下することを示す。 しかし、flan-moeは複数の実験環境で密集したモデルよりも優れています。 これは、命令ファインタニングがMoEモデルにとって不可欠な段階であることを示している。 具体的には、我々の最大のモデルであるFlan-MoE-32Bは、4つのベンチマークでFlan-PaLM-62Bの性能を上回り、FLOPの3分の1しか利用していない。 Flan-MoEの成功は、タスク依存学習の設定の下で、大規模で高性能な言語モデルの設計を再考することを奨励している。

The explosive growth of language models and their applications have led to an increased demand for efficient and scalable methods. In this paper, we introduce Flan-MoE, a set of Instruction-Finetuned Sparse Mixture-of-Expert (MoE) models. We show that naively finetuning MoE models on a task-specific dataset (in other words, no instruction-finetuning) often yield worse performance compared to dense models of the same computational complexity. However, our Flan-MoE outperforms dense models under multiple experiment settings: instruction-finetuning only and instruction-finetuning followed by task-specific finetuning. This shows that instruction-finetuning is an essential stage for MoE models. Specifically, our largest model, Flan-MoE-32B, surpasses the performance of Flan-PaLM-62B on four benchmarks, while utilizing only one-third of the FLOPs. The success of Flan-MoE encourages rethinking the design of large-scale, high-performance language models, under the setting of task-agnostic learning.
翻訳日:2023-05-25 19:48:45 公開日:2023-05-24
# オンライン適応交通実験のための実用的なバッチベイズサンプリングアルゴリズムの評価

An Evaluation on Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation ( http://arxiv.org/abs/2305.14704v1 )

ライセンス: Link先を確認
Zezhong Zhang and Ted Yuan(参考訳) オンラインテストの高速化のため、固定水平A/Bテストに欠かせない代替手段として、マルチアームバンディットアルゴリズムによる適応的な交通実験が増えている。 適応的に収集されたデータを用いたベストアーム識別と統計的推測に関する最近の研究に基づいて,2つのバッチの重み付け方法(Naive Batch,Weighted Batch)と2つのベイズサンプリング戦略(Thompson Sampling,Top-Two Thompson Sampling)を組み合わせたベイズバッチバンドレートアルゴリズム(NB-TS,WB-TS,NB-TTTS,WB-TTTS,WB-TTTS)を導出した。 これらのベイジアンサンプリングアルゴリズムは, パイロット実験においてWB-TTTSの組み合わせの1つを新たに検討した, 報奨基準の要約バッチ統計に基づくものである。 4つのベイズサンプリングアルゴリズムの包括的評価は、テスト手法の信頼性、感度、後悔をカバーする。 さらに、評価には4つの実世界のeBay実験と40の再現可能な合成実験が含まれており、これは静止状態と非静止状態の両方をカバーする。 我々の評価は a) 文献で論じられることはめったにないが,同等のベストアームを有する偽陽性インフレが存在すること (b)偽陽性を制御するために、後方最適確率の収束と中性後方転位との間の関係が発見される。 (c)WB-TTTSは、競争的リコール、高い精度、非定常傾向に対する堅牢性を示す。 (d)NB-TSは、正確性及び堅牢性以外の後悔裁判の最小化に優れる。 (e)WB-TTTSは、A/Bテストに対する後悔が安価である場合、有望な代替手段である。

To speed up online testing, adaptive traffic experimentation through multi-armed bandit algorithms is rising as an essential complementary alternative to the fixed horizon A/B testing. Based on recent research on best arm identification and statistical inference with adaptively collected data, this paper derives and evaluates four Bayesian batch bandit algorithms (NB-TS, WB-TS, NB-TTTS, WB-TTTS), which are combinations of two ways of weighting batches (Naive Batch and Weighted Batch) and two Bayesian sampling strategies (Thompson Sampling and Top-Two Thompson Sampling) to adaptively determine traffic allocation. These derived Bayesian sampling algorithms are practically based on summary batch statistics of a reward metric for pilot experiments, where one of the combination WB-TTTS in this paper seems to be newly discussed. The comprehensive evaluation on the four Bayesian sampling algorithms covers trustworthiness, sensitivity and regret of a testing methodology. Moreover, the evaluation includes 4 real-world eBay experiments and 40 reproducible synthetic experiments to reveal the learnings, which covers both stationary and non-stationary situations. Our evaluation reveals that, (a) There exist false positives inflation with equivalent best arms, while seldom discussed in literatures; (b) To control false positives, connections between convergence of posterior optimal probabilities and neutral posterior reshaping are discovered; (c) WB-TTTS shows competitive recall, higher precision, and robustness against non-stationary trend; (d) NB-TS outperforms on minimizing regret trials except on precision and robustness; (e) WB-TTTS is a promising alternative if regret of A/B Testing is affordable, otherwise NB-TS is still a powerful choice with regret consideration for pilot experiments.
翻訳日:2023-05-25 19:48:28 公開日:2023-05-24
# クロスエントロピー差を用いた文脈内実演選択

In-Context Demonstration Selection with Cross Entropy Difference ( http://arxiv.org/abs/2305.14726v1 )

ライセンス: Link先を確認
Dan Iter, Reid Pryzant, Ruochen Xu, Shuohang Wang, Yang Liu, Yichong Xu, Chenguang Zhu(参考訳) 大きな言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。 しかしながら、最適なインコンテキストの例を選択することは、モデルのパフォーマンスが選択した例によって大きく異なるため、難しい。 テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。 提案手法は,その実演を微調整した言語モデルによる実験例の難易度と,文脈内実演の有効性が負の相関関係にあることを示す。 パラメータ効率のよいファインタニングを用いて、テスト例と各候補のコンテキスト内実演の相互エントロピー差を計算する訓練データ上で、小さなモデルを訓練する。 このメトリックは、テスト入力毎に独立してコンテキスト内デモをランク付けし、選択するために使用される。 提案手法は,テキスト生成タスクを4つ表現した8つのベンチマークを組み合わせた混合領域データセットを用いて評価し,テキスト中のデモ選択のためのCEDが様々なLLMの性能を向上させることを示す。

Large language models (LLMs) can use in-context demonstrations to improve performance on zero-shot tasks. However, selecting the best in-context examples is challenging because model performance can vary widely depending on the selected examples. We present a cross-entropy difference (CED) method for selecting in-context demonstrations. Our method is based on the observation that the effectiveness of in-context demonstrations negatively correlates with the perplexity of the test example by a language model that was finetuned on that demonstration. We utilize parameter efficient finetuning to train small models on training data that are used for computing the cross-entropy difference between a test example and every candidate in-context demonstration. This metric is used to rank and select in-context demonstrations independently for each test input. We evaluate our method on a mix-domain dataset that combines 8 benchmarks, representing 4 text generation tasks, showing that CED for in-context demonstration selection can improve performance for a variety of LLMs.
翻訳日:2023-05-25 19:41:11 公開日:2023-05-24
# AMELI: 細粒度属性によるマルチモーダルエンティティリンクの強化

AMELI: Enhancing Multimodal Entity Linking with Fine-Grained Attributes ( http://arxiv.org/abs/2305.14725v1 )

ライセンス: Link先を確認
Barry Menglong Yao, Yu Chen, Qifan Wang, Sijia Wang, Minqian Liu, Zhiyang Xu, Licheng Yu, Lifu Huang(参考訳) 本稿では,属性認識型マルチモーダルエンティティリンクを提案する。入力はテキストと画像で記述された言及である。目標は,各エンティティをテキスト記述,視覚イメージ,属性と値のセットで記述したマルチモーダル知識ベース(KB)から,対応する対象エンティティを予測することである。 本研究を支援するために,18,472のレビューと35,598の製品からなる大規模データセットAMELIを構築した。 ameliのベースライン性能を確立するために、我々は最先端のマルチモーダルエンティティリンクアプローチと拡張属性認識モデルについて実験を行い、エンティティリンクプロセスに属性情報を組み込むことの重要性を実証する。 当社の知識を最大限に活用するため、属性対応のマルチモーダルエンティティリンクタスクのためのベンチマークデータセットとソリューションを最初に構築しました。 データセットとコードは公開される予定だ。

We propose attribute-aware multimodal entity linking, where the input is a mention described with a text and image, and the goal is to predict the corresponding target entity from a multimodal knowledge base (KB) where each entity is also described with a text description, a visual image and a set of attributes and values. To support this research, we construct AMELI, a large-scale dataset consisting of 18,472 reviews and 35,598 products. To establish baseline performance on AMELI, we experiment with the current state-of-the-art multimodal entity linking approaches and our enhanced attribute-aware model and demonstrate the importance of incorporating the attribute information into the entity linking process. To be best of our knowledge, we are the first to build benchmark dataset and solutions for the attribute-aware multimodal entity linking task. Datasets and codes will be made publicly available.
翻訳日:2023-05-25 19:40:56 公開日:2023-05-24
# I Spy a Metaphor: 大規模言語モデルと拡散モデル

I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create Visual Metaphors ( http://arxiv.org/abs/2305.14724v1 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Arkadiy Saakyan, Olivia Winn, Artemis Panagopoulou, Yue Yang, Marianna Apidianaki, Smaranda Muresan(参考訳) 視覚的メタファーは、画像を通じて創造的なアイデアを説得または伝達するために使用される強力な修辞装置である。 言語的メタファーと同様に、記号主義や記号の並置を通じて暗黙的に意味を伝える。 言語メタファーから視覚的メタファーを生成する新しい課題を提案する。 DALL$\cdot$E 2のような拡散ベースのテキスト-画像モデルでは、暗黙的な意味と構成性をモデル化する必要があるため、これは難しいタスクである。 We propose to solve the task through the collaboration between Large Language Models (LLMs) and Diffusion Models: Instruct GPT-3 (davinci-002) with Chain-of-Thought prompting generates text that represents a visual elaboration of the linguistic metaphor containing the implicit meaning and relevant objects, which is then used as input to the diffusion-based text-to-image models.Using a human-AI collaboration framework, where humans interact both with the LLM and the top-performing diffusion model, we create a high-quality dataset containing 6,476 visual metaphors for 1,540 linguistic metaphors and their associated visual elaborations. プロのイラストレーターによる評価は,LLM-Diffusion Modelコラボレーションの課題に対する可能性を示し,人間とAIのコラボレーションフレームワークの有用性とデータセットの質を評価するために,本質的な人間による評価と,視覚的エンテーメントを下流タスクとして用いた外在的評価の両方を行う。

Visual metaphors are powerful rhetorical devices used to persuade or communicate creative ideas through images. Similar to linguistic metaphors, they convey meaning implicitly through symbolism and juxtaposition of the symbols. We propose a new task of generating visual metaphors from linguistic metaphors. This is a challenging task for diffusion-based text-to-image models, such as DALL$\cdot$E 2, since it requires the ability to model implicit meaning and compositionality. We propose to solve the task through the collaboration between Large Language Models (LLMs) and Diffusion Models: Instruct GPT-3 (davinci-002) with Chain-of-Thought prompting generates text that represents a visual elaboration of the linguistic metaphor containing the implicit meaning and relevant objects, which is then used as input to the diffusion-based text-to-image models.Using a human-AI collaboration framework, where humans interact both with the LLM and the top-performing diffusion model, we create a high-quality dataset containing 6,476 visual metaphors for 1,540 linguistic metaphors and their associated visual elaborations. Evaluation by professional illustrators shows the promise of LLM-Diffusion Model collaboration for this task.To evaluate the utility of our Human-AI collaboration framework and the quality of our dataset, we perform both an intrinsic human-based evaluation and an extrinsic evaluation using visual entailment as a downstream task.
翻訳日:2023-05-25 19:40:38 公開日:2023-05-24
# 連続2時間分解能差を考慮したリモートセンシング画像変化検出

Remote Sensing Image Change Detection Towards Continuous Bitemporal Resolution Differences ( http://arxiv.org/abs/2305.14722v1 )

ライセンス: Link先を確認
Hao Chen, Haotian Zhang, Keyan Chen, Chenyao Zhou, Song Chen, Zhengxia Zhou, Zhenwei Shi(参考訳) 現代の監視型リモートセンシング (RS) 画像変化検出 (CD) のアプローチは、等分解能バイテンポラル画像に対してカスタマイズされる。 現実世界のアプリケーションは、空間解像度の異なるバイテンポラル画像に基づくクロスレゾリューション変化検出、別名cdの必要性を高める。 固定解像度差(高分解能(HR)画像と低分解能(LR)画像との分解能比)のサンプルを用いて訓練された現在のクロスレゾリューション法は、一定の比に適合するが、他の分解能差に適応しない。 連続的クロスレゾリューションCDに向けて,両時間分解能差の異なる合成サンプルからHR結果を連続的に予測するモデルを提案する。 具体的には、HR画像とLR画像のギャップを減らすために、ランダムなダウンサンプル再構成により、HR画像のぼやけたバージョンを合成する。 座標クエリと対応する多レベル埋め込み特徴をmlpに供給してピクセル単位の予測をデコードするために座標に基づく表現を導入することにより、lr画像中のぼやけた物体を認識することができる。 さらに,空間分解能が局所的なテクスチャに主に影響を及ぼすことを考慮し,エンコーダの初期段階において,局所風下自己アテンションを用いてバイテンポラルな特徴を整列させる。 2つの合成および1つの実世界の異なる分解能CDデータセットに対する大規模な実験により、提案手法の有効性が検証された。 本手法は,3つのデータセットにおけるバニラcd法と2つのクロスレゾリューションcd法を,分布内と分布外の両方において有意に上回っている。 実験結果は, 分解能差比の違いに関わらず, 比較的一貫したhr変化予測が得られることを示唆する。 私たちのコードは公開されます。

Most contemporary supervised Remote Sensing (RS) image Change Detection (CD) approaches are customized for equal-resolution bitemporal images. Real-world applications raise the need for cross-resolution change detection, aka, CD based on bitemporal images with different spatial resolutions. Current cross-resolution methods that are trained with samples of a fixed resolution difference (resolution ratio between the high-resolution (HR) image and the low-resolution (LR) one) may fit a certain ratio but lack adaptation to other resolution differences. Toward continuous cross-resolution CD, we propose scale-invariant learning to enforce the model consistently predicting HR results given synthesized samples of varying bitemporal resolution differences. Concretely, we synthesize blurred versions of the HR image by random downsampled reconstructions to reduce the gap between HR and LR images. We introduce coordinate-based representations to decode per-pixel predictions by feeding the coordinate query and corresponding multi-level embedding features into an MLP that implicitly learns the shape of land cover changes, therefore benefiting recognizing blurred objects in the LR image. Moreover, considering that spatial resolution mainly affects the local textures, we apply local-window self-attention to align bitemporal features during the early stages of the encoder. Extensive experiments on two synthesized and one real-world different-resolution CD datasets verify the effectiveness of the proposed method. Our method significantly outperforms several vanilla CD methods and two cross-resolution CD methods on the three datasets both in in-distribution and out-of-distribution settings. The empirical results suggest that our method could yield relatively consistent HR change predictions regardless of varying resolution difference ratios. Our code will be public.
翻訳日:2023-05-25 19:40:15 公開日:2023-05-24
# BLIP拡散:制御可能なテキスト・画像生成・編集のための事前学習対象表現

BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing ( http://arxiv.org/abs/2305.14720v1 )

ライセンス: Link先を確認
Dongxu Li, Junnan Li, Steven C.H. Hoi(参考訳) 主題駆動テキストから画像への生成モデルは、テキストプロンプトに基づいて、入力対象の新しいランディションを生成する。 既存のモデルは長い微調整に苦しめられ、主題の忠実さを保つのが困難である。 これらの制約を克服するために,対象画像とテキストプロンプトの入力を消費するマルチモーダル制御をサポートする新たな対象駆動画像生成モデルBLIP-Diffusionを導入する。 他の主題駆動生成モデルとは異なり、blip-diffusionは新しいマルチモーダルエンコーダを導入している。 まず、BLIP-2に従ってマルチモーダルエンコーダを事前学習し、テキストに沿った視覚表現を生成する。 そこで我々は,そのような視覚的表現を拡散モデルで活用し,新たな主題の活用を可能にする主観表現学習タスクを設計する。 dreamboothのような従来の方法と比較して,本モデルでは最大20倍のスピードアップを実現することで,ゼロショットの主題駆動生成と効率的な微調整が可能となる。 また, BLIP-Diffusion と ControlNet や prompt-to-prompt といった既存の手法を柔軟に組み合わせることで, 新規な主題駆動型生成・編集アプリケーションを実現できることを示す。 コードとモデルはhttps://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusionでリリースされる。 プロジェクトページ: https://dxli94.github.io/blip-diffusion-website/

Subject-driven text-to-image generation models create novel renditions of an input subject based on text prompts. Existing models suffer from lengthy fine-tuning and difficulties preserving the subject fidelity. To overcome these limitations, we introduce BLIP-Diffusion, a new subject-driven image generation model that supports multimodal control which consumes inputs of subject images and text prompts. Unlike other subject-driven generation models, BLIP-Diffusion introduces a new multimodal encoder which is pre-trained to provide subject representation. We first pre-train the multimodal encoder following BLIP-2 to produce visual representation aligned with the text. Then we design a subject representation learning task which enables a diffusion model to leverage such visual representation and generates new subject renditions. Compared with previous methods such as DreamBooth, our model enables zero-shot subject-driven generation, and efficient fine-tuning for customized subject with up to 20x speedup. We also demonstrate that BLIP-Diffusion can be flexibly combined with existing techniques such as ControlNet and prompt-to-prompt to enable novel subject-driven generation and editing applications. Code and models will be released at https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion. Project page at https://dxli94.github.io/BLIP-Diffusion-website/.
翻訳日:2023-05-25 19:39:40 公開日:2023-05-24
# CuRIAM: コーパスの再解釈と米国最高裁判所の意見

CuRIAM: Corpus re Interpretation and Metalanguage in U.S. Supreme Court Opinions ( http://arxiv.org/abs/2305.14719v1 )

ライセンス: Link先を確認
Michael Kranzlein, Nathan Schneider, Kevin Tobia(参考訳) ほとんどの司法判断には、法的文書の解釈が含まれており、司法意見は、他の言語にコメントしたり注意を引いたりするために、媒体として言語を使用する必要がある。 この方法で使われる言語はメタ言語と呼ばれる。 我々は,法律メタ言語の種類を分類するアノテーションスキーマを開発し,我々のスキーマを米国最高裁判所の意見集合に適用し,59kトークンのコーパスを生成する。 判事が用いたメタ言語の種類によって観察されるいくつかのパターンについて述べる。

Most judicial decisions involve the interpretation of legal texts; as such, judicial opinion requires the use of language as a medium to comment on or draw attention to other language. Language used this way is called metalanguage. We develop an annotation schema for categorizing types of legal metalanguage and apply our schema to a set of U.S. Supreme Court opinions, yielding a corpus totaling 59k tokens. We remark on several patterns observed in the kinds of metalanguage used by the justices.
翻訳日:2023-05-25 19:39:16 公開日:2023-05-24
# アドバンテージに基づくオフラインポリシーグラディエントによる言語モデルの改善

Improving Language Models with Advantage-based Offline Policy Gradients ( http://arxiv.org/abs/2305.14718v1 )

ライセンス: Link先を確認
Ashutosh Baheti, Ximing Lu, Faeze Brahman, Ronan Le Bras, Maarten Sap, Mark Riedl(参考訳) ユーザ定義の品質やスタイル制約に従って言語モデル生成を改善することは困難である。 典型的なアプローチとしては、追加の人間によるデータ学習、ヒューリスティックスを用いた‘低品質’データのフィルタリング、あるいは人間フィードバックによる強化学習(rlhf)などがある。 しかしながら、フィルタリングは貴重なトレーニング信号を除去できるが、データ収集とrlhfは、コストのかかる人書きデータやlm探索データが必要となる。 問うべき自然な問題は、'Can we leverage RL to optimization LM utility on existing crowd-sourced and internet data?'である。このために、言語生成タスクを1ステップのRLゲームとして学習するためのオフラインポリシー勾配を使用する単純なトレーニングアルゴリズムであるLeft-over Lunch RL(LoL-RL)を提示する。 LoL-RLはLMを微調整して任意の分類器ベースまたは人間定義ユーティリティ関数を任意のシーケンス対シーケンスデータで最適化することができる。 様々な大きさのモデルと複数の報酬を用いた5つの異なる言語生成タスクの実験により、LoL-RLで訓練されたモデルは、教師付き学習モデルよりも一貫して優れていることが示された。 実験コードもリリースしています。 https://github.com/abaheti95/LoL-RL

Improving language model generations according to some user-defined quality or style constraints is challenging. Typical approaches include learning on additional human-written data, filtering ``low-quality'' data using heuristics and/or using reinforcement learning with human feedback (RLHF). However, filtering can remove valuable training signals, whereas data collection and RLHF constantly require additional human-written or LM exploration data which can be costly to obtain. A natural question to ask is ``Can we leverage RL to optimize LM utility on existing crowd-sourced and internet data?'' To this end, we present Left-over Lunch RL (LoL-RL), a simple training algorithm that uses offline policy gradients for learning language generation tasks as a 1-step RL game. LoL-RL can finetune LMs to optimize arbitrary classifier-based or human-defined utility functions on any sequence-to-sequence data. Experiments with five different language generation tasks using models of varying sizes and multiple rewards show that models trained with LoL-RL can consistently outperform the best supervised learning models. We also release our experimental code. https://github.com/abaheti95/LoL-RL
翻訳日:2023-05-25 19:39:08 公開日:2023-05-24
# 複数定義モデリングによる文脈と定義の相関の活用

Exploiting Correlations Between Contexts and Definitions with Multiple Definition Modeling ( http://arxiv.org/abs/2305.14717v1 )

ライセンス: Link先を確認
Linhan Zhang, Qian Chen, Wen Wang, Yuxin Jiang, Bing Li, Wei Wang, Xin Cao(参考訳) 定義モデリングは、理解や会話といった高度な自然言語アプリケーションにおいて重要なタスクである。 導入以来、特定の文脈における目的語やフレーズの1つの定義を生成することに重点を置いており、これをSDM(Single Definition Modeling)と呼ぶ。 しかし、このアプローチは、異なる文脈と単語の定義の間の相関やパターンを適切にモデル化しない。 さらに、sdmのためのトレーニングデータセットの作成には、重要な人間の専門知識と努力が必要です。 本稿では,対象単語のすべてのコンテキストと定義をプールする,MDM(Multiple Definition Modeling)と呼ばれる新しいタスクを慎重に設計する。 モデル作成の容易さと、複数のトレーニングセットの自動生成の容易さを示す。 実験では,MDMを事前訓練タスクとして使用することにより,SDMの性能向上や,ゼロショット環境での同等の性能など,MDMのメリットを実証し,分析した。

Definition modeling is an important task in advanced natural language applications such as understanding and conversation. Since its introduction, it focus on generating one definition for a target word or phrase in a given context, which we refer to as Single Definition Modeling (SDM). However, this approach does not adequately model the correlations and patterns among different contexts and definitions of words. In addition, the creation of a training dataset for SDM requires significant human expertise and effort. In this paper, we carefully design a new task called Multiple Definition Modeling (MDM) that pool together all contexts and definition of target words. We demonstrate the ease of creating a model as well as multiple training sets automatically. % In the experiments, we demonstrate and analyze the benefits of MDM, including improving SDM's performance by using MDM as the pretraining task and its comparable performance in the zero-shot setting.
翻訳日:2023-05-25 19:38:45 公開日:2023-05-24
# globalbench: 自然言語処理におけるグローバル進歩のベンチマーク

GlobalBench: A Benchmark for Global Progress in Natural Language Processing ( http://arxiv.org/abs/2305.14716v1 )

ライセンス: Link先を確認
Yueqi Song, Catherine Cui, Simran Khanuja, Pengfei Liu, Fahim Faisal, Alissa Ostapenko, Genta Indra Winata, Alham Fikri Aji, Samuel Cahyawijaya, Yulia Tsvetkov, Antonios Anastasopoulos and Graham Neubig(参考訳) NLPの大幅な進歩にもかかわらず、言語間でのNLPシステム性能の相違は残されている。 おそらくこれらは、リソース割り当ての不均一と、リソースの少ない言語で作業するための準最適インセンティブによるものだろう。 平等言語技術のグローバル開発を追跡・促進するために,GlobalBenchを紹介する。 事前の多言語ベンチマークは静的であり、限られた数のタスクと言語に焦点を当てている。 対照的にGlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を動的に追跡することを目的とした、拡張を続けるコレクションである。 globalbenchは、精度を測るだけでなく、すべての言語にまたがる話者一人当たりのユーティリティと技術の公平性を追跡し、言語技術が世界の人々にどのように役立つのかを多面的に観察する。 さらに、GlobalBenchは、最も貧弱な言語を特定し、それらの言語に対する研究活動に報いるように設計されている。 現在、最も未使用の言語は比較的人口が多い言語であるが、複合多言語ベンチマーク(パンジャービ語、ポルトガル語、ウー中国語など)では見過ごされている。 現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。

Despite the major advances in NLP, significant disparities in NLP system performance across languages still exist. Arguably, these are due to uneven resource allocation and sub-optimal incentives to work on less resourced languages. To track and further incentivize the global development of equitable language technology, we introduce GlobalBench. Prior multilingual benchmarks are static and have focused on a limited number of tasks and languages. In contrast, GlobalBench is an ever-expanding collection that aims to dynamically track progress on all NLP datasets in all languages. Rather than solely measuring accuracy, GlobalBench also tracks the estimated per-speaker utility and equity of technology across all languages, providing a multi-faceted view of how language technology is serving people of the world. Furthermore, GlobalBench is designed to identify the most under-served languages, and rewards research efforts directed towards those languages. At present, the most under-served languages are the ones with a relatively high population, but nonetheless overlooked by composite multilingual benchmarks (like Punjabi, Portuguese, and Wu Chinese). Currently, GlobalBench covers 966 datasets in 190 languages, and has 1,128 system submissions spanning 62 languages.
翻訳日:2023-05-25 19:38:28 公開日:2023-05-24
# 自動車軌道予測のための今後の関係推論

Leveraging Future Relationship Reasoning for Vehicle Trajectory Prediction ( http://arxiv.org/abs/2305.14715v1 )

ライセンス: Link先を確認
Daehee Park, Hobin Ryu, Yunseo Yang, Jegyeong Cho, Jiwon Kim, Kuk-Jin Yoon(参考訳) 複数のエージェント間の相互作用を理解することは、現実的な車両軌道予測に不可欠である。 既存の手法は、決定論的アプローチに依存するプール、注意、グラフベースの手法を用いて、観測された過去のエージェントの軌道から相互作用を推測しようと試みている。 しかし、これらの手法は複雑な道路構造の下では失敗する可能性があり、将来起こる様々な相互作用を予測できない。 本稿では,レーン情報を用いてエージェント間の確率的未来関係を予測する新しい手法を提案する。 エージェントの粗い将来動作を得るために,まず車両の車線レベルのウェイポイント占有確率を予測した。 次に,隣接レーンを通過するエージェントが高度に相互作用することを仮定して,エージェントペア毎に隣接レーンを通過する時間的確率を利用する。 また、確率分布を用いて相互作用をモデル化し、複数の将来の相互作用を可能にする。 この分布は、地中真実の将来の軌跡から得られる相互作用の後方分布から学習される。 提案手法は,nuscenes と argoverse という,一般的な軌道予測データセット上で検証する。 その結果,提案手法は予測精度が著しく向上し,長期予測ベンチマークデータセットにおいて最先端の性能が得られることがわかった。

Understanding the interaction between multiple agents is crucial for realistic vehicle trajectory prediction. Existing methods have attempted to infer the interaction from the observed past trajectories of agents using pooling, attention, or graph-based methods, which rely on a deterministic approach. However, these methods can fail under complex road structures, as they cannot predict various interactions that may occur in the future. In this paper, we propose a novel approach that uses lane information to predict a stochastic future relationship among agents. To obtain a coarse future motion of agents, our method first predicts the probability of lane-level waypoint occupancy of vehicles. We then utilize the temporal probability of passing adjacent lanes for each agent pair, assuming that agents passing adjacent lanes will highly interact. We also model the interaction using a probabilistic distribution, which allows for multiple possible future interactions. The distribution is learned from the posterior distribution of interaction obtained from ground truth future trajectories. We validate our method on popular trajectory prediction datasets: nuScenes and Argoverse. The results show that the proposed method brings remarkable performance gain in prediction accuracy, and achieves state-of-the-art performance in long-term prediction benchmark dataset.
翻訳日:2023-05-25 19:38:08 公開日:2023-05-24
# アフガン・フェイク紙幣検出における機械学習の応用

Applications of Machine Learning in Detecting Afghan Fake Banknotes ( http://arxiv.org/abs/2305.14745v1 )

ライセンス: Link先を確認
Hamida Ashna, Ziaullah Momand(参考訳) 政府の承認を欠いた不正な模倣貨幣である偽通貨は、詐欺の一形態である。 特にアフガニスタンでは、偽通貨の流行が大きな課題を引き起こし、経済に有害な影響を及ぼす。 銀行や商業施設は認証装置を採用しているが、一般市民はそのようなシステムにアクセスできないため、偽造紙幣を検出できるプログラムを必要としている。 本稿では,特定のセキュリティ特徴を解析して偽のアフガン紙幣を識別する画像処理手法を提案する。 入力画像から第1および第2次特徴を抽出したweka機械学習ツールは,ランダムフォレスト,part,na\"ive bayesアルゴリズムを用いてモデルを構築し,分類を行う。 ランダムフォレストアルゴリズムは偽アフガン紙幣の検出において99%の精度を達成し,提案手法が偽造通貨の識別に有効であることを示した。

Fake currency, unauthorized imitation money lacking government approval, constitutes a form of fraud. Particularly in Afghanistan, the prevalence of fake currency poses significant challenges and detrimentally impacts the economy. While banks and commercial establishments employ authentication machines, the public lacks access to such systems, necessitating a program that can detect counterfeit banknotes accessible to all. This paper introduces a method using image processing to identify counterfeit Afghan banknotes by analyzing specific security features. Extracting first and second order statistical features from input images, the WEKA machine learning tool was employed to construct models and perform classification with Random Forest, PART, and Na\"ive Bayes algorithms. The Random Forest algorithm achieved exceptional accuracy of 99% in detecting fake Afghan banknotes, indicating the efficacy of the proposed method as a solution for identifying counterfeit currency.
翻訳日:2023-05-25 19:32:19 公開日:2023-05-24
# chatface: 拡散潜在空間操作によるチャット誘導実顔編集

ChatFace: Chat-Guided Real Face Editing via Diffusion Latent Space Manipulation ( http://arxiv.org/abs/2305.14742v1 )

ライセンス: Link先を確認
Dongxu Yue, Qin Guo, Munan Ning, Jiaxi Cui, Yuesheng Zhu, Li Yuan(参考訳) 実際の顔画像の編集はコンピュータビジョンにおいて重要な課題であり、様々な現実世界のアプリケーションにかなりの需要がある。 GANベースの手法は、特にCLIPと組み合わせた場合、画像を操作する可能性を示しているが、これらの手法は、GAN反転能力の挑戦により、実際の画像を再構成する能力に制限されている。 拡散法によって達成された画像再構成は成功したものの,これらの課題に対処し,実際の顔画像の操作を容易にするために,拡散モデルのセマンティック潜在空間でテキスト駆動画像編集を行う新しいアプローチを提案する。 生成過程における拡散モデルの時間的特徴と意味的条件を整合させることにより,正確なゼロショット操作を効果的に行う安定した操作戦略を提案する。 さらに,大言語モデルのゼロショット推論機能を組み合わせたChatFaceという対話型システムを開発し,拡散意味潜在空間における効率的な操作を行う。 本システムにより,対話による複雑な複数属性操作が可能となり,インタラクティブな画像編集が可能となる。 大規模な実験により,本手法は従来の手法よりも優れており,実際の顔画像の正確な編集が可能であることが確認された。 プロジェクトページ: https://dongxuyue.github.io/chatface/

Editing real facial images is a crucial task in computer vision with significant demand in various real-world applications. While GAN-based methods have showed potential in manipulating images especially when combined with CLIP, these methods are limited in their ability to reconstruct real images due to challenging GAN inversion capability. Despite the successful image reconstruction achieved by diffusion-based methods, there are still challenges in effectively manipulating fine-gained facial attributes with textual instructions.To address these issues and facilitate convenient manipulation of real facial images, we propose a novel approach that conduct text-driven image editing in the semantic latent space of diffusion model. By aligning the temporal feature of the diffusion model with the semantic condition at generative process, we introduce a stable manipulation strategy, which perform precise zero-shot manipulation effectively. Furthermore, we develop an interactive system named ChatFace, which combines the zero-shot reasoning ability of large language models to perform efficient manipulations in diffusion semantic latent space. This system enables users to perform complex multi-attribute manipulations through dialogue, opening up new possibilities for interactive image editing. Extensive experiments confirmed that our approach outperforms previous methods and enables precise editing of real facial images, making it a promising candidate for real-world applications. Project page: https://dongxuyue.github.io/chatface/
翻訳日:2023-05-25 19:32:05 公開日:2023-05-24
# ECHo:人間中心推論による事象因果推論

ECHo: Event Causality Inference via Human-centric Reasoning ( http://arxiv.org/abs/2305.14740v1 )

ライセンス: Link先を確認
Yuxi Xie and Guanzhen Li and Min-Yen Kan(参考訳) 視覚的・言語的社会シナリオに基づく事象因果推論の診断データセットであるechoを紹介する。 ECHoは、犯罪ドラマから収集された現実の人間中心の誘引情報を採用し、中間理論(ToM)の適用を通じて、高い社会的知性へのマルチモーダル推論のギャップを埋める。 我々は、現在のAIシステムの推論能力を評価するために、Chain-of-Thought(CoT)パラダイムと整合した統合フレームワークを提案する。 このToMで強化されたCoTパイプラインは、ゼロショット視覚言語理解において、様々な大きな基礎モデルに対応および統合することができる。 本フレームワークでは,3つの補完的な人間中心ECHoタスクを用いて,先進的な大規模言語とマルチモーダルモデルを精査する。 さらなる分析は、ECHoが推論における不完全性と矛盾を明らかにするための挑戦的なデータセットであることを示している。

We introduce ECHo, a diagnostic dataset of event causality inference grounded in visual-and-linguistic social scenarios. ECHo employs real-world human-centric deductive information collected from crime drama, bridging the gap in multimodal reasoning towards higher social intelligence through the elicitation of intermediate Theory-of-Mind (ToM). We propose a unified framework aligned with the Chain-of-Thought (CoT) paradigm to assess the reasoning capability of current AI systems. This ToM-enhanced CoT pipeline can accommodate and integrate various large foundation models in zero-shot visual-and-linguistic understanding. With this framework, we scrutinize the advanced large language and multimodal models via three complementary human-centric ECHo tasks. Further analysis demonstrates ECHo as a challenging dataset to expose imperfections and inconsistencies in reasoning.
翻訳日:2023-05-25 19:31:42 公開日:2023-05-24
# 証拠を信頼する - コンテキスト認識のデコーディングによる幻覚

Trusting Your Evidence: Hallucinate Less with Context-aware Decoding ( http://arxiv.org/abs/2305.14739v1 )

ライセンス: Link先を確認
Weijia Shi, Xiaochuang Han, Mike Lewis, Yulia Tsvetkov, Luke Zettlemoyer, Scott Wen-tau Yih(参考訳) 言語モデル(LM)は入力コンテキストに十分な注意を払うのに苦労し、不信または幻覚を含むテキストを生成する。 この問題を軽減するために,モデルがコンテキストの有無に関わらず使用される場合の出力確率の差を増幅するコントラスト出力分布に従う,文脈認識復号(cad)を提案する。 実験の結果,CADは付加的なトレーニングを伴わず,OPT,GPT,LLaMA,FLAN-T5といった異なるLMファミリーの要約タスクに対する忠実度を著しく向上させることがわかった(実測値では14.3%の利得)。 さらにCADは、与えられた文脈に矛盾する場合、モデルの事前知識をオーバーライドする上で特に有効であり、知識紛争を解決することが不可欠であるタスクの大幅な改善につながる。

Language models (LMs) often struggle to pay enough attention to the input context, and generate texts that are unfaithful or contain hallucinations. To mitigate this issue, we present context-aware decoding (CAD), which follows a contrastive output distribution that amplifies the difference between the output probabilities when a model is used with and without context. Our experiments show that CAD, without additional training, significantly improves the faithfulness of different LM families, including OPT, GPT, LLaMA and FLAN-T5 for summarization tasks (e.g., 14.3% gain for LLaMA in factuality metrics). Furthermore, CAD is particularly effective in overriding a model's prior knowledge when it contradicts the provided context, leading to substantial improvements in tasks where resolving the knowledge conflict is essential.
翻訳日:2023-05-25 19:31:29 公開日:2023-05-24
# 論理的制約付き部分可観測・マルチエージェントマルコフ決定過程の最適制御

Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2305.14736v1 )

ライセンス: Link先を確認
Krishna C. Kalagarla, Dhruva Kartik, Dongming Shen, Rahul Jain, Ashutosh Nayyar and Pierluigi Nuzzo(参考訳) 自律システムはしばしば、例えば安全性、運用性、規制要件から生じる論理的制約を持っている。 このような制約は時間論理の仕様を使って表現できる。 システム状態は部分的に観測可能であることが多い。 さらに、共通の目的を持つが、異なる情報構造と制約を持つ複数のエージェントのチームを含むことができる。 本稿ではまず,有限線形時間論理制約を持つ部分観測可能マルコフ決定過程(POMDP)に対する最適制御理論を提案する。 時相論理制約を満たす確率が十分に高いことを保証しつつ、累積報酬を最大化する政策合成のための構造化手法を提供する。 我々のアプローチは、近似的な報酬の最適性と制約満足度を保証する。 次に,情報非対称性を持つ論理的制約付きマルチエージェント設定のための最適制御フレームワークを設計する。 いくつかのケーススタディに実装することで,本手法の有効性を示す。

Autonomous systems often have logical constraints arising, for example, from safety, operational, or regulatory requirements. Such constraints can be expressed using temporal logic specifications. The system state is often partially observable. Moreover, it could encompass a team of multiple agents with a common objective but disparate information structures and constraints. In this paper, we first introduce an optimal control theory for partially observable Markov decision processes (POMDPs) with finite linear temporal logic constraints. We provide a structured methodology for synthesizing policies that maximize a cumulative reward while ensuring that the probability of satisfying a temporal logic constraint is sufficiently high. Our approach comes with guarantees on approximate reward optimality and constraint satisfaction. We then build on this approach to design an optimal control framework for logically constrained multi-agent settings with information asymmetry. We illustrate the effectiveness of our approach by implementing it on several case studies.
翻訳日:2023-05-25 19:31:11 公開日:2023-05-24
# マージン中心:毒性検出における有害集団のアウトリアーに基づく同定

Centering the Margins: Outlier-Based Identification of Harmed Populations in Toxicity Detection ( http://arxiv.org/abs/2305.14735v1 )

ライセンス: Link先を確認
Vyoma Raman, Eve Fleisig, Dan Klein(参考訳) マージン化コミュニティに対するaiの影響を測定する標準的な方法は、特定の人口集団間のパフォーマンスの差を決定することである。 これらのアプローチは、脆弱なグループに対する害に対処することを目的としているが、交差するサブグループや人口集団間で共有されるパターンが不明瞭である。 その代わりに、人口統計特性が「ノーム」から離れたことから統計上の外れ値となるデータポイントとして「マージン」を運用し、これらの外れ値に対する害を測定する。 本稿では,データセットのサブグループへの分割が被害の増大に直面するものを識別する程度を測定するグループベースパフォーマンス格差指標(gpdi)を提案する。 我々は, 毒性検出における異質性の検出に本手法を適用し, テキストターゲティング異常度が, あらゆる種類の毒性に対して28%から86%以上有毒であることを確認した。 また、モデル性能は人口減少率に対して一貫して悪化しており、外乱率と非外乱率の誤差は毒性タイプで28%から71%である。 外乱解析は従来のサブグループ分析と同等か高いGPDIを持ち、外乱解析はより大きな害に直面したサブグループの同定を促進することを示唆している。 最後に、少数民族の人種的・宗教的な集団は、最もアウトリーチに結びついていることがわかり、アウトリーチ分析は、これらの集団に対する害を特定するのに特に有益であることが示唆された。

A standard method for measuring the impacts of AI on marginalized communities is to determine performance discrepancies between specified demographic groups. These approaches aim to address harms toward vulnerable groups, but they obscure harm patterns faced by intersectional subgroups or shared across demographic groups. We instead operationalize "the margins" as data points that are statistical outliers due to having demographic attributes distant from the "norm" and measure harms toward these outliers. We propose a Group-Based Performance Disparity Index (GPDI) that measures the extent to which a subdivision of a dataset into subgroups identifies those facing increased harms. We apply our approach to detecting disparities in toxicity detection and find that text targeting outliers is 28% to 86% more toxic for all types of toxicity examined. We also discover that model performance is consistently worse for demographic outliers, with disparities in error between outliers and non-outliers ranging from 28% to 71% across toxicity types. Our outlier-based analysis has comparable or higher GPDI than traditional subgroup-based analyses, suggesting that outlier analysis enhances identification of subgroups facing greater harms. Finally, we find that minoritized racial and religious groups are most associated with outliers, which suggests that outlier analysis is particularly beneficial for identifying harms against those groups.
翻訳日:2023-05-25 19:30:58 公開日:2023-05-24
# アラビア語文法的誤りの検出と訂正の進歩:実証的研究

Advancements in Arabic Grammatical Error Detection and Correction: An Empirical Investigation ( http://arxiv.org/abs/2305.14734v1 )

ライセンス: Link先を確認
Bashar Alhafni, Go Inoue, Christian Khairallah, Nizar Habash(参考訳) 文法的誤り訂正(英: Grammatical error correction, GEC)は、多くの既存のモデルやデータセットを持つ英語でよく研究されている問題である。 しかし、データ不足や言語の複雑さといった問題により、形態学的に豊かな言語におけるGECの研究は限られている。 本稿では,2つの新しいトランスフォーマーを用いた事前学習シーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC に関する最初の結果を示す。 本稿では,多クラスアラビア語文法誤り検出(GED)の課題に対処し,多クラスアラビア語GEDにおける最初の結果を示す。 GECモデルの補助入力としてGED情報を使用することで、異なるジャンルにまたがる3つのデータセットにおけるGEC性能が向上することを示す。 また, GEC 支援システムにおける文脈形態素前処理の利用についても検討した。 本モデルでは,2つのアラビア語gec共有タスクデータセットで最新の結果を達成し,新たに作成されたデータセット上で強力なベンチマークを確立する。

Grammatical error correction (GEC) is a well-explored problem in English with many existing models and datasets. However, research on GEC in morphologically rich languages has been limited due to challenges such as data scarcity and language complexity. In this paper, we present the first results on Arabic GEC by using two newly developed Transformer-based pretrained sequence-to-sequence models. We address the task of multi-class Arabic grammatical error detection (GED) and present the first results on multi-class Arabic GED. We show that using GED information as auxiliary input in GEC models improves GEC performance across three datasets spanning different genres. Moreover, we also investigate the use of contextual morphological preprocessing in aiding GEC systems. Our models achieve state-of-the-art results on two Arabic GEC shared tasks datasets and establish a strong benchmark on a newly created dataset.
翻訳日:2023-05-25 19:30:32 公開日:2023-05-24
# autodepthnet: 商品深度とrgbカメラを用いた高フレームレート深度マップ再構成

AutoDepthNet: High Frame Rate Depth Map Reconstruction using Commodity Depth and RGB Cameras ( http://arxiv.org/abs/2305.14731v1 )

ライセンス: Link先を確認
Peyman Gholami and Robert Xiao(参考訳) 深度カメラはコンピュータビジョン、人工知能、ビデオゲームなど様々な分野で応用されている。 しかし、既存の商品深度カメラの高レイテンシと低フレームレートは、彼らのアプリケーションに制限を課している。 本稿では,遅延を低減し,奥行きカメラのフレームレートを向上させるために,高速かつ高精度な深度マップ再構成手法を提案する。 プロトタイプではKinect Azureのデプスカメラを30fpsで、高速RGBのiPhone 11 Proカメラを240fpsで撮影しています。 提案するネットワークであるAutoDepthNetは、高速RGBカメラからフレームをキャプチャし、それらを以前の深度フレームと組み合わせて高フレームレート深度マップのストリームを再構築するエンコーダデコーダモデルである。 gpuでは、480 x 270の出力解像度で8ミリ秒の推論時間を実現し、並列処理で最大200fpsのリアルタイム使用を可能にした。 AutoDepthNet は、光学フローベース比較法と比較して、平均 RMS 誤差 0.076 で深さ値を推定できる。 また,欠損画素と無効画素の深度値を推定することにより,深度マップの品質を向上させることができる。 提案手法は, 既存の深度カメラに容易に適用でき, 高速深度推定を必要とする用途における深度カメラの利用が容易である。 ビデオオブジェクトのセグメンテーションなど、さまざまなスパースデータセットのアップサンプリングにおけるフレームワークの有効性も紹介する。 提案手法の実証として,本手法を既存の身体追跡システムに統合し,提案手法の堅牢性を実証した。

Depth cameras have found applications in diverse fields, such as computer vision, artificial intelligence, and video gaming. However, the high latency and low frame rate of existing commodity depth cameras impose limitations on their applications. We propose a fast and accurate depth map reconstruction technique to reduce latency and increase the frame rate in depth cameras. Our approach uses only a commodity depth camera and color camera in a hybrid camera setup; our prototype is implemented using a Kinect Azure depth camera at 30 fps and a high-speed RGB iPhone 11 Pro camera captured at 240 fps. The proposed network, AutoDepthNet, is an encoder-decoder model that captures frames from the high-speed RGB camera and combines them with previous depth frames to reconstruct a stream of high frame rate depth maps. On GPU, with a 480 x 270 output resolution, our system achieves an inference time of 8 ms, enabling real-time use at up to 200 fps with parallel processing. AutoDepthNet can estimate depth values with an average RMS error of 0.076, a 44.5% improvement compared to an optical flow-based comparison method. Our method can also improve depth map quality by estimating depth values for missing and invalidated pixels. The proposed method can be easily applied to existing depth cameras and facilitates the use of depth cameras in applications that require high-speed depth estimation. We also showcase the effectiveness of the framework in upsampling different sparse datasets e.g. video object segmentation. As a demonstration of our method, we integrated our framework into existing body tracking systems and demonstrated the robustness of the proposed method in such applications.
翻訳日:2023-05-25 19:30:19 公開日:2023-05-24
# binaryvit:効率良く正確なバイナリビジョントランスフォーマーを目指して

BinaryViT: Towards Efficient and Accurate Binary Vision Transformers ( http://arxiv.org/abs/2305.14730v1 )

ライセンス: Link先を確認
Junrui Xiao, Zhikai Li, Lianwei Yang, Qingyi Gu(参考訳) ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場したが、メモリと計算のコストが資源制限されたデバイスへの応用を妨げる。 最も強力な圧縮手法の1つとして、重みとアクティベーション値を$\pm$1に量子化することにより、ニューラルネットワークの計算を減少させる。 既存のバイナライゼーション手法は畳み込みニューラルネットワーク(CNN)では優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未研究であり、大幅な性能低下を被っている。 本報告では,重度性能低下は主に双対化訓練における重み振動とvits活性化における情報歪みによるものであることを実証的に論じる。 これらの分析に基づいて、VTTの量子化を極限まで押し上げる精度の高い完全双項化スキームである$\textbf{BinaryViT}$を提案する。 具体的には、重みのバイモーダル分布を駆動し、バイナライズ訓練における振動を低減するための新しい勾配正規化スキーム(GRS)を提案する。 さらに,2値化による情報歪みを低減するために,アクティベーション分布を適応的に調整するアクティベーションシフトモジュール(asm)を設計する。 ImageNetデータセットの大規模な実験によると、BinaryViTは強いベースラインを2.05%上回り、完全に二項化されたViTの精度を使用可能なレベルに向上しています。 さらに,本手法はモデルサイズとOPの16.2$\times$と17.7$\times$を,完全精度のDeiT-Sと比較した。 コードとモデルはgithubでリリースされる予定だ。

Vision Transformers (ViTs) have emerged as the fundamental architecture for most computer vision fields, but the considerable memory and computation costs hinders their application on resource-limited devices. As one of the most powerful compression methods, binarization reduces the computation of the neural network by quantizing the weights and activation values as $\pm$1. Although existing binarization methods have demonstrated excellent performance on Convolutional Neural Networks (CNNs), the full binarization of ViTs is still under-studied and suffering a significant performance drop. In this paper, we first argue empirically that the severe performance degradation is mainly caused by the weight oscillation in the binarization training and the information distortion in the activation of ViTs. Based on these analyses, we propose $\textbf{BinaryViT}$, an accurate full binarization scheme for ViTs, which pushes the quantization of ViTs to the limit. Specifically, we propose a novel gradient regularization scheme (GRS) for driving a bimodal distribution of the weights to reduce oscillation in binarization training. Moreover, we design an activation shift module (ASM) to adaptively tune the activation distribution to reduce the information distortion caused by binarization. Extensive experiments on ImageNet dataset show that our BinaryViT consistently surpasses the strong baseline by 2.05% and improve the accuracy of fully binarized ViTs to a usable level. Furthermore, our method achieves impressive savings of 16.2$\times$ and 17.7$\times$ in model size and OPs compared to the full-precision DeiT-S. The codes and models will be released on github.
翻訳日:2023-05-25 19:29:51 公開日:2023-05-24
# sentecon: 人間の解釈可能な言語表現を学ぶためにレキシコンを活用する

SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language Representations ( http://arxiv.org/abs/2305.14728v1 )

ライセンス: Link先を確認
Victoria Lin, Louis-Philippe Morency(参考訳) 近年,深層言語表現が言語破局の主流となっているが,多くの場面でモデルの意思決定プロセスを理解することが重要である。 これは解釈可能なモデルだけでなく、解釈可能な機能を必要とする。 特に、言語は原文をよく特徴付けながら解釈可能な方法で実現されなければならない。 本稿では,深層言語表現における人間の解釈可能性の導入方法であるSenteConを提案する。 テキストの一節を与えられたSenteConは、テキストを解釈可能なカテゴリの層としてエンコードし、各次元が特定のカテゴリの関連性に対応する。 経験的な評価から,steconによる言語エンコーディングは,下流タスクの予測性能にほとんど,あるいはまったくコストを要しない高レベルな解釈性を提供することが示唆された。 さらに,SenteConは,そのダウンストリーム性能とテキストの人為的特徴との一致に関して,既存の解釈可能な言語表現よりも優れていることがわかった。

Although deep language representations have become the dominant form of language featurization in recent years, in many settings it is important to understand a model's decision-making process. This necessitates not only an interpretable model but also interpretable features. In particular, language must be featurized in a way that is interpretable while still characterizing the original text well. We present SenteCon, a method for introducing human interpretability in deep language representations. Given a passage of text, SenteCon encodes the text as a layer of interpretable categories in which each dimension corresponds to the relevance of a specific category. Our empirical evaluations indicate that encoding language with SenteCon provides high-level interpretability at little to no cost to predictive performance on downstream tasks. Moreover, we find that SenteCon outperforms existing interpretable language representations with respect to both its downstream performance and its agreement with human characterizations of the text.
翻訳日:2023-05-25 19:29:22 公開日:2023-05-24
# Bi-Drop: 適応サブネットワーク最適化による事前学習言語モデルの一般化可能な微調整

Bi-Drop: Generalizable Fine-tuning for Pre-trained Language Models via Adaptive Subnetwork Optimization ( http://arxiv.org/abs/2305.14760v1 )

ライセンス: Link先を確認
Shoujie Tong, Heming Xia, Damai Dai, Tianyu Liu, Binghuai Lin, Yunbo Cao, Zhifang Sui(参考訳) 事前訓練された言語モデルは、様々な自然言語理解タスクにおいて顕著な成功を収めた。 それでも、ダウンストリームタスクで事前トレーニングされた大規模モデルの微調整は、トレーニングセットが制限された場合のオーバーフィットの影響を受けやすいため、パフォーマンスが低下する。 本研究では,Bi-Dropと呼ばれる事前学習言語モデルの動的微調整戦略を提案する。 ドロップアウトによって生成される様々なサブモデルの勾配情報を利用して、モデルパラメータを選択的に更新する。 GLUEベンチマークの実験では、Bi-Dropは従来の微調整法よりもかなり優れており、様々な事前訓練されたモデルに対してバニラ微調整よりも一貫した優位性を示している。 さらに、経験的な結果から、bi-dropは多重タスクやドメイン転送、データ不均衡、低リソースシナリオの大幅な改善をもたらし、超一般化能力と堅牢性を示している。

Pretrained language models have achieved remarkable success in a variety of natural language understanding tasks. Nevertheless, finetuning large pretrained models on downstream tasks is susceptible to overfitting if the training set is limited, which will lead to diminished performance. In this work, we propose a dynamic fine-tuning strategy for pretrained language models called Bi-Drop. It utilizes the gradient information of various sub-models generated by dropout to update the model parameters selectively. Experiments on the GLUE benchmark show that Bi-Drop outperforms previous fine-tuning methods by a considerable margin, and exhibits consistent superiority over vanilla fine-tuning across various pretrained models. Furthermore, empirical results indicate that Bi-Drop yields substantial improvements in the multiple task or domain transfer, data imbalance, and low-resource scenarios, demonstrating superb generalization ability and robustness.
翻訳日:2023-05-25 19:21:50 公開日:2023-05-24
# MRN:増分多言語テキスト認識のための多重ルーティングネットワーク

MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition ( http://arxiv.org/abs/2305.14758v1 )

ライセンス: Link先を確認
Tianlun Zheng, Zhineng Chen, BingChen Huang, Wei Zhang and Yu-Gang Jiang(参考訳) 従来のMLTR(Multilingual Text Recognition)は通常、固定された言語をターゲットとしており、新たに追加された言語を扱うか、絶えず変化するクラス分布に適応するのに苦労している。 本稿では、新しい言語データがバッチに含まれるインクリメンタル学習環境において、インクリメンタル多言語テキスト認識(imltr)タスクを導入する。 一般的な漸進学習と比較して、IMLTRはリハーサル・アンバランス(リハーサルセットにおけるサンプル文字の不均一な分布)に悩まされているため、さらに難しい。 この問題に対処するために,各言語に対して一連の認識器を訓練するMultiplexed Routing Network (MRN)を提案する。 その後、言語予測器を採用し、投票の認識者を評価する。 認識器は元のモデルから派生しているため、MRNは古いデータへの依存を効果的に減らし、リハーサル不均衡に適している。 MLT17 と MLT19 のデータセット上で MRN を広範囲に評価し,既存の最先端手法よりも大きなマージン,すなわち,異なる設定で 10.3% から 27.4% の精度向上を実現した。

Traditional Multilingual Text Recognition (MLTR) usually targets a fixed set of languages and thus struggles to handle newly added languages or adapt to ever-changing class distributions. In this paper, we introduce the Incremental Multilingual Text Recognition (IMLTR) task in the incremental learning setting, where new language data comes in batches. Compared to generic incremental learning, IMLTR is even more challenging as it suffers from rehearsal-imbalance (uneven distribution of sample characters in the rehearsal set). To address this issue, we propose a Multiplexed Routing Network (MRN), where a series of recognizers is trained for each language. Subsequently, a language predictor is adopted to weigh the recognizers for voting. Since the recognizers are derived from the original model, MRN effectively reduces the reliance on older data and is better suited for rehearsal-imbalance. We extensively evaluate MRN on MLT17 and MLT19 datasets, outperforming existing state-of-the-art methods by a large margin, i.e., accuracy improvement ranging from 10.3% to 27.4% under different settings.
翻訳日:2023-05-25 19:21:35 公開日:2023-05-24
# 対話システム評価のための人間中心メトリクス

Human-Centered Metrics for Dialog System Evaluation ( http://arxiv.org/abs/2305.14757v1 )

ライセンス: Link先を確認
Salvatore Giorgi, Shreya Havaldar, Farhan Ahmed, Zuhaib Akhtar, Shalaka Vaidya, Gary Pan, Lyle H. Ungar, H. Andrew Schwartz, Joao Sedoc(参考訳) 会話エージェントは、人間と同じように、両方の状態(感情のような短期的要因)と特性(人格のような長期的要因)の多様性を表現する。 これらの解釈可能な指標は、確立された心理学的構成から得られた5つの尺度からなり、対話の中で、感情エントロピー、言語的スタイル、感情のマッチング、および一致性と共感の両方に適用することができる。 これらの指標を、7つの標準ダイアログシステムデータセット上の6つの最先端自動メトリクス(BARTScoreやBLEURTなど)と比較する。 また,ChatGPT,GPT-3,BlenderBotの注釈付き会話からなる新しいデータセットであるThree Bot Dialog Evaluation Corpusを導入する。 提案手法は,新規な情報を提供し,自動メトリクスとは無関係であり,クラウドソースによるダイアログ判定を予測するための既存の自動メトリクスを超えた精度の向上につながることを実証する。 提案する人間中心フレームワークの解釈可能性とユニークな信号は,対話システムの評価と改善に有用なツールである。

We present metrics for evaluating dialog systems through a psychologically-grounded "human" lens: conversational agents express a diversity of both states (short-term factors like emotions) and traits (longer-term factors like personality) just as people do. These interpretable metrics consist of five measures from established psychology constructs that can be applied both across dialogs and on turns within dialogs: emotional entropy, linguistic style and emotion matching, as well as agreeableness and empathy. We compare these human metrics against 6 state-of-the-art automatic metrics (e.g. BARTScore and BLEURT) on 7 standard dialog system data sets. We also introduce a novel data set, the Three Bot Dialog Evaluation Corpus, which consists of annotated conversations from ChatGPT, GPT-3, and BlenderBot. We demonstrate the proposed human metrics offer novel information, are uncorrelated with automatic metrics, and lead to increased accuracy beyond existing automatic metrics for predicting crowd-sourced dialog judgements. The interpretability and unique signal of our proposed human-centered framework make it a valuable tool for evaluating and improving dialog systems.
翻訳日:2023-05-25 19:21:11 公開日:2023-05-24
# コンテキストから外すな! 文脈モデルの必要性とスタイリスティック書き直しの評価について

Don't Take This Out of Context! On the Need for Contextual Models and Evaluations for Stylistic Rewriting ( http://arxiv.org/abs/2305.14755v1 )

ライセンス: Link先を確認
Akhila Yerukola, Xuhui Zhou, Maarten Sap(参考訳) 既存のスタイリスティックなテキスト書き換え手法のほとんどは文レベルで動作するが、テキストの広い文脈を無視して、汎用的で曖昧で一貫性のない書き直しにつながる可能性がある。 本稿では,先述のテクストコンテキストを,形式性,毒性,感情伝達タスクに焦点をあてて,スタイル的テキスト書き換えの書き直しと評価段階の両方に統合することを提案する。 GPT-3.5 と GPT NeoX のプロンプトによる書き直しの比較評価を行い,非文脈的書き直しと文脈的書き直しを比較した。 我々の実験では、人間が文脈的な書き直しを好むことが多いが、自動メトリクス(BLEU、sBERTなど)はそうではない。 このギャップを埋めるために、一般的な自動メトリクスの文脈注入バージョンを提案し、これらが人間の好みを反映していることを示す。 本論文は,文体書き直しと文体書き直しの両段階に先行する文脈を統合することの重要性を強調した。

Most existing stylistic text rewriting methods operate on a sentence level, but ignoring the broader context of the text can lead to generic, ambiguous, and incoherent rewrites. In this paper, we propose the integration of preceding textual context into both the rewriting and evaluation stages of stylistic text rewriting, focusing on formality, toxicity, and sentiment transfer tasks. We conduct a comparative evaluation of rewriting through few-shot prompting of GPT-3.5 and GPT NeoX, comparing non-contextual rewrites to contextual rewrites. Our experiments show that humans often prefer contextual rewrites over non-contextual ones, but automatic metrics (e.g., BLEU, sBERT) do not. To bridge this gap, we propose context-infused versions of common automatic metrics, and show that these better reflect human preferences. Overall, our paper highlights the importance of integrating preceding textual context into both the rewriting and evaluation stages of stylistic text rewriting.
翻訳日:2023-05-25 19:20:53 公開日:2023-05-24
# SUVR:教師なし視覚表現学習への探索的アプローチ

SUVR: A Search-based Approach to Unsupervised Visual Representation Learning ( http://arxiv.org/abs/2305.14754v1 )

ライセンス: Link先を確認
Yi-Zhan Xu, Chih-Yao Chen, Cheng-Te Li(参考訳) 注釈付きデータ収集の難しさや、ラベルなしデータから学習できる近代的なフレームワークの開発により、教師なし学習の人気が高まっている。 しかし、既存の研究では、異なるレベルの類似性を無視するか、1つのバッチからの負のサンプルしか考慮していない。 画像ペアは様々な類似度を持つべきであり、負のサンプルはデータセット全体から引き出すことができるべきだ、と我々は主張する。 本研究では,教師なしの方法で画像表現を改善するために,検索に基づく教師なし視覚表現学習(SUVR)を提案する。 まず、画像間の類似性によって画像データセットからグラフを構築し、正のサンプルを探索するためにグラフトラバースの概念を採用する。 一方、負のサンプルがデータセット全体から引き出せるようにします。 5つのベンチマーク画像分類データセットの定量的実験により、SUVRは教師なし埋め込み学習において強力な競合する手法を著しく上回っていることが示された。 定性的実験により、SuVRは、類似した画像が潜伏空間の非関連画像よりも密集したより良い表現を生成できることを示した。

Unsupervised learning has grown in popularity because of the difficulty of collecting annotated data and the development of modern frameworks that allow us to learn from unlabeled data. Existing studies, however, either disregard variations at different levels of similarity or only consider negative samples from one batch. We argue that image pairs should have varying degrees of similarity, and the negative samples should be allowed to be drawn from the entire dataset. In this work, we propose Search-based Unsupervised Visual Representation Learning (SUVR) to learn better image representations in an unsupervised manner. We first construct a graph from the image dataset by the similarity between images, and adopt the concept of graph traversal to explore positive samples. In the meantime, we make sure that negative samples can be drawn from the full dataset. Quantitative experiments on five benchmark image classification datasets demonstrate that SUVR can significantly outperform strong competing methods on unsupervised embedding learning. Qualitative experiments also show that SUVR can produce better representations in which similar images are clustered closer together than unrelated images in the latent space.
翻訳日:2023-05-25 19:20:34 公開日:2023-05-24
# ソフトウェアセキュリティの新しい時代--大規模言語モデルと形式的検証による自己修復ソフトウェアへ

A New Era in Software Security: Towards Self-Healing Software via Large Language Models and Formal Verification ( http://arxiv.org/abs/2305.14752v1 )

ライセンス: Link先を確認
Yiannis Charalambous, Norbert Tihanyi, Ridhi Jain, Youcheng Sun, Mohamed Amine Ferrag, Lucas C. Cordeiro(参考訳) 本稿では,大規模言語モデル(llms)の機能と,ソフトウェア脆弱性の検証と自動修復のための形式的検証戦略を組み合わせた新しいソリューションを提案する。 最初は、境界モデルチェック(BMC)を使用して、ソフトウェア脆弱性を特定し、反例を導出します。 逆例は、システムが誤って振る舞う、または脆弱性を含むという証拠を提供する。 検出された逆例とソースコードはllmエンジンに提供される。 当社のアプローチでは、脆弱性の根本原因を理解してコードを修復するために、コードのデバッグと生成を行うための特別なプロンプト言語を確立します。 最後に、BMCを用いて、LLMによって生成されたコードの修正版を検証する。 概念実証として、効率的なSMTベースのコンテキスト境界モデルチェッカー(ESBMC)と事前訓練されたトランスフォーマーモデル(特にgpt-3.5-turbo)に基づいてESBMC-AIを作成し、Cプログラムのエラーを検出し、修正する。 実験では、1000のcコードサンプルからなるデータセットを作成し、それぞれ20行から50行のコードからなる。 特に,提案手法はバッファオーバーフローやポインタ参照障害を含む脆弱性コードの修復において,最大80%の成功率を達成した。 この自動化アプローチは、ソフトウェア開発ライフサイクルの継続的インテグレーションとデプロイメント(ci/cd)プロセスに効果的に組み込むことができると断言します。

In this paper we present a novel solution that combines the capabilities of Large Language Models (LLMs) with Formal Verification strategies to verify and automatically repair software vulnerabilities. Initially, we employ Bounded Model Checking (BMC) to locate the software vulnerability and derive a counterexample. The counterexample provides evidence that the system behaves incorrectly or contains a vulnerability. The counterexample that has been detected, along with the source code, are provided to the LLM engine. Our approach involves establishing a specialized prompt language for conducting code debugging and generation to understand the vulnerability's root cause and repair the code. Finally, we use BMC to verify the corrected version of the code generated by the LLM. As a proof of concept, we create ESBMC-AI based on the Efficient SMT-based Context-Bounded Model Checker (ESBMC) and a pre-trained Transformer model, specifically gpt-3.5-turbo, to detect and fix errors in C programs. Our experimentation involved generating a dataset comprising 1000 C code samples, each consisting of 20 to 50 lines of code. Notably, our proposed method achieved an impressive success rate of up to 80% in repairing vulnerable code encompassing buffer overflow and pointer dereference failures. We assert that this automated approach can effectively incorporate into the software development lifecycle's continuous integration and deployment (CI/CD) process.
翻訳日:2023-05-25 19:20:14 公開日:2023-05-24
# DialogVCS:対話システムアップグレードにおける頑健な自然言語理解

DialogVCS: Robust Natural Language Understanding in Dialogue System Upgrade ( http://arxiv.org/abs/2305.14751v1 )

ライセンス: Link先を確認
Zefan Cai, Xin Zheng, Tianyu Liu, Xu Wang, Haoran Meng, Jiaqi Han, Gang Yuan, Binghuai Lin, Baobao Chang and Yunbo Cao(参考訳) 製品対話システムの定期的な更新では、実際のユーザからの新たなデータが前回の更新で蓄積された既存のデータにマージされるため、自然言語理解(NLU)モデルを再訓練する必要があります。 新たに追加されたデータの中では、新しいインテントが出現し、既存のインテントとのセマンティックな絡み合いが生じ、例えば、意味的すぎるインテントやジェネリックなインテントは、実際にはセマンティック空間における既存のインテントのサブセットまたはスーパーセットであり、それによってNLUモデルの堅牢性を損なう可能性がある。 この問題を解決する最初の試みとして、4つの対話バージョン制御データセット(DialogVCS)からなる新しいベンチマークをセットアップする。 我々は,システム更新における不完全なデータによる意図検出を,肯定的ではあるがラベルのない意図を持った多ラベル分類タスクとして定式化し,推論において意味的絡み合いのあるものを含むすべての適切な意図を認識するようモデルに求める。 また,総合的なベースラインモデルを提案し,ベンチマークの詳細な分析を行い,意味的に絡み合った意図を自動ワークフローで効果的に認識できることを示した。

In the constant updates of the product dialogue systems, we need to retrain the natural language understanding (NLU) model as new data from the real users would be merged into the existent data accumulated in the last updates. Within the newly added data, new intents would emerge and might have semantic entanglement with the existing intents, e.g. new intents that are semantically too specific or generic are actually subset or superset of some existing intents in the semantic space, thus impairing the robustness of the NLU model. As the first attempt to solve this problem, we setup a new benchmark consisting of 4 Dialogue Version Control dataSets (DialogVCS). We formulate the intent detection with imperfect data in the system update as a multi-label classification task with positive but unlabeled intents, which asks the models to recognize all the proper intents, including the ones with semantic entanglement, in the inference. We also propose comprehensive baseline models and conduct in-depth analyses for the benchmark, showing that the semantically entangled intents can be effectively recognized with an automatic workflow.
翻訳日:2023-05-25 19:19:49 公開日:2023-05-24
# 複雑な質問のABCDをマスターする: きめ細かい自己評価のための回答に基づく主張分解

Mastering the ABCDs of Complex Questions: Answer-Based Claim Decomposition for Fine-grained Self-Evaluation ( http://arxiv.org/abs/2305.14750v1 )

ライセンス: Link先を確認
Nishant Balepur, Jie Huang, Samraj Moorjani, Hari Sundaram, Kevin Chen-Chuan Chang(参考訳) 複雑な質問に答えるとき、大きな言語モデル(LLM)は、質問のすべての基準を満たさない回答を生成する。 既存の自己評価手法は、そのような回答が正しいかどうかを検知することを目的としているが、これらの手法は、生成された回答によってどの基準を満たすかを決定することができない。 この問題に対処するために,我々は,質問の答えが満足できる質問の基準を検証するために使用できる一連の真偽/偽のクレームに質問を分解するプロンプト戦略である回答ベースクレーム分解(abcd, answer-based claims decomposition)を提案する。 ABCDクレームを分解し, きめ細かい自己評価を行う。 新たに収集された課題データセットObscureQAを含む3つのデータセットに関する予備実験により、GPT-3.5は、その回答が入力された質問の基準をどの程度満足するかを判断し、モデルのエラーと知識ギャップについての洞察を与えることができることがわかった。

When answering complex questions, large language models (LLMs) may produce answers that do not satisfy all criteria of the question. While existing self-evaluation techniques aim to detect if such answers are correct, these techniques are unable to determine which criteria of the question are satisfied by the generated answers. To address this issue, we propose answer-based claim decomposition (ABCD), a prompting strategy that decomposes questions into a series of true/false claims that can be used to verify which criteria of the input question an answer satisfies. Using the decomposed ABCD claims, we perform fine-grained self-evaluation. Through preliminary experiments on three datasets, including a newly-collected challenge dataset ObscureQA, we find that GPT-3.5 has some ability to determine to what extent its answer satisfies the criteria of the input question, and can give insights into the errors and knowledge gaps of the model.
翻訳日:2023-05-25 19:19:26 公開日:2023-05-24
# 幾何学的多グラフニューラルネットワークを用いた多状態RNA設計

Multi-State RNA Design with Geometric Multi-Graph Neural Networks ( http://arxiv.org/abs/2305.14749v1 )

ライセンス: Link先を確認
Chaitanya K. Joshi, Arian R. Jamasb, Ramon Vi\~nas, Charles Harris, Simon Mathis, Pietro Li\`o(参考訳) 計算RNAの設計は、合成生物学や治療開発に広く応用されている。 RNAの多様な生物学的機能の基本はコンフォメーションの柔軟性であり、単一の配列が様々な異なる3D状態を採用することができる。 現在、計算的生体分子設計タスクは逆問題として描かれており、配列は1つの望ましい構造的コンフォメーションを採用することに基づいて設計されている。 本研究は,3次元RNAのバックボーン構造からなる形状RNA設計パイプラインであるgRNAdeを提案し,その設計におけるRNAコンフォメーションの多様性を明示的に説明・反映する。 本稿では,新しい大規模3次元RNA設計データセット,特に多状態および構造的に多様なRNAに対して,単一状態アプローチによるネイティブシークエンスリカバリの改善のためのgRNAdeの有用性を示す。 私たちのコードはhttps://github.com/chaitjo/geometric-rna-designで利用可能です。

Computational RNA design has broad applications across synthetic biology and therapeutic development. Fundamental to the diverse biological functions of RNA is its conformational flexibility, enabling single sequences to adopt a variety of distinct 3D states. Currently, computational biomolecule design tasks are often posed as inverse problems, where sequences are designed based on adopting a single desired structural conformation. In this work, we propose gRNAde, a geometric RNA design pipeline that operates on sets of 3D RNA backbone structures to explicitly account for and reflect RNA conformational diversity in its designs. We demonstrate the utility of gRNAde for improving native sequence recovery over single-state approaches on a new large-scale 3D RNA design dataset, especially for multi-state and structurally diverse RNAs. Our code is available at https://github.com/chaitjo/geometric-rna-design
翻訳日:2023-05-25 19:19:08 公開日:2023-05-24
# ロバストベイズ合成様相に対するワッサーシュタインガウス化と効率的な変分ベイズ

Wasserstein Gaussianization and Efficient Variational Bayes for Robust Bayesian Synthetic Likelihood ( http://arxiv.org/abs/2305.14746v1 )

ライセンス: Link先を確認
Nhat-Minh Nguyen and Minh-Ngoc Tran and Christopher Drovandi and David Nott(参考訳) Bayesian Synthetic Likelihood (BSL) 法は、確率自由ベイズ推論のための広く使われているツールである。 この方法は、いくつかの要約統計が通常分布していると仮定しており、多くのアプリケーションでは正しくない。 我々は、ワッサーシュタイン勾配流を用いて、要約統計量の分布をガウス分布に変換する、ワッサーシュタインガウス化変換(Wasserstein Gaussianization transformation)という変換を提案する。 BSLはまた、作業モデルの下でシミュレーションされた要約統計と観測された要約統計との互換性を暗黙的に要求する。 これを実現する堅牢なBSL変種が近年の文献で開発されている。 ワッサースタインガウス化変換をロバストなbslと組み合わせ,後続近似に対する効率的な変分ベイズ法を組み合わせることで,確率自由問題に対する高効率で信頼性の高いベイズ推定法を開発した。

The Bayesian Synthetic Likelihood (BSL) method is a widely-used tool for likelihood-free Bayesian inference. This method assumes that some summary statistics are normally distributed, which can be incorrect in many applications. We propose a transformation, called the Wasserstein Gaussianization transformation, that uses a Wasserstein gradient flow to approximately transform the distribution of the summary statistics into a Gaussian distribution. BSL also implicitly requires compatibility between simulated summary statistics under the working model and the observed summary statistics. A robust BSL variant which achieves this has been developed in the recent literature. We combine the Wasserstein Gaussianization transformation with robust BSL, and an efficient Variational Bayes procedure for posterior approximation, to develop a highly efficient and reliable approximate Bayesian inference method for likelihood-free problems.
翻訳日:2023-05-25 19:18:53 公開日:2023-05-24
# 事前学習言語モデルにおける知識獲得・活用ギャップの測定

Measuring the Knowledge Acquisition-Utilization Gap in Pretrained Language Models ( http://arxiv.org/abs/2305.14775v1 )

ライセンス: Link先を確認
Amirhossein Kazemnejad, Mehdi Rezagholizadeh, Prasanna Parthasarathi, Sarath Chandar(参考訳) 事前学習された言語モデル(plm)は膨大な量の知識を得ることの証拠を示してきたが、このパラメトリックな知識が実際に下流のタスクを実行するのにどの程度使えるのかは不明だ。 PLMにおけるパラメトリック知識利用量を測定するための体系的枠組みを提案する。 本フレームワークはまず,まずPLMのパラメータから知識を抽出し,次に抽出した知識を中心に下流タスクを構築する。 したがって、このタスクの性能はモデルが保持する知識の活用にのみ依存し、不十分な信号のような要素の結合を避ける。 そこで本研究では,PLMの実態を考察し,125Mから13BのパラメータPLMを用いた実測を行った。 1)plmは獲得知識と活用知識の2つのギャップを示し,(2)分布シフト下での知識の活用において限定的な堅牢性を示し,(3)より大きなモデルでは獲得知識のギャップを閉じるが、活用知識のギャップは残る。 全体として、我々の研究は、獲得した知識を超えたPLMの能力についての洞察を提供する。

While pre-trained language models (PLMs) have shown evidence of acquiring vast amounts of knowledge, it remains unclear how much of this parametric knowledge is actually usable in performing downstream tasks. We propose a systematic framework to measure parametric knowledge utilization in PLMs. Our framework first extracts knowledge from a PLM's parameters and subsequently constructs a downstream task around this extracted knowledge. Performance on this task thus depends exclusively on utilizing the model's possessed knowledge, avoiding confounding factors like insufficient signal. As an instantiation, we study factual knowledge of PLMs and measure utilization across 125M to 13B parameter PLMs. We observe that: (1) PLMs exhibit two gaps - in acquired vs. utilized knowledge, (2) they show limited robustness in utilizing knowledge under distribution shifts, and (3) larger models close the acquired knowledge gap but the utilized knowledge gap remains. Overall, our study provides insights into PLMs' capabilities beyond their acquired knowledge.
翻訳日:2023-05-25 19:12:46 公開日:2023-05-24
# Decontextualizationのための制御可能なQAベースのフレームワーク

A Controllable QA-based Framework for Decontextualization ( http://arxiv.org/abs/2305.14772v1 )

ライセンス: Link先を確認
Benjamin Newman, Luca Soldaini, Raymond Fok, Arman Cohan, Kyle Lo(参考訳) 多くの現実世界のアプリケーションは、文献調査や文書の相互参照のための補助ツールによって動機付けられるか、あるいは生成された不正確なモデルから緩和および回復する必要があるか、抽出されたスニペットをユーザに提示する必要がある。 しかし、これらの節は、元の文書のコンテキストから切り離されたときに消費することが難しい。 本研究では,学術文書の質問応答と引用コンテキストプレビューという,現実的な2つの設定に焦点をあて,ユーザ向けシナリオにおける文書スニペットの非コンテクスチャ化を行うLLMの限界について検討する。 書き直し範囲を決定する際に,ユーザ情報のニーズや好みをよりよく扱えるような非コンテキスト化のための質問応答フレームワークを提案する。 我々は,最先端のLCMがエンドツーエンドのアプローチと競合し続けていることを示す。 また,ユーザの好みをシステムに組み込むことも検討し,制御性を実現するためのフレームワークを見出した。

Many real-world applications require surfacing extracted snippets to users, whether motivated by assistive tools for literature surveys or document cross-referencing, or needs to mitigate and recover from model generated inaccuracies., Yet, these passages can be difficult to consume when divorced from their original document context. In this work, we explore the limits of LLMs to perform decontextualization of document snippets in user-facing scenarios, focusing on two real-world settings - question answering and citation context previews for scientific documents. We propose a question-answering framework for decontextualization that allows for better handling of user information needs and preferences when determining the scope of rewriting. We present results showing state-of-the-art LLMs under our framework remain competitive with end-to-end approaches. We also explore incorporating user preferences into the system, finding our framework allows for controllability.
翻訳日:2023-05-25 19:12:30 公開日:2023-05-24
# SSD-2:拡散言語モデルのスケーリングと推論時間融合

SSD-2: Scaling and Inference-time Fusion of Diffusion Language Models ( http://arxiv.org/abs/2305.14771v1 )

ライセンス: Link先を確認
Xiaochuang Han, Sachin Kumar, Yulia Tsvetkov, Marjan Ghazvininejad(参考訳) 拡散型言語モデル(LM)は推論時に容易に制御でき、自己回帰型LMの代替となる有能な生成モデルであることが示されている。 自己回帰型LMは、スケーリングと命令ベース学習の恩恵を受けてきたが、既存の拡散型LMの研究は比較的小規模に行われている。 最近提案された拡散モデルSSD-LMから始まり、0.4Bから13Bのパラメータにスケールする方法を検討し、トレーニングと推論効率を改善するためのいくつかの手法を提案する。 我々は新しいSSD-2と呼ぶ。 さらに、このモデルを簡単に微調整して指示に従うことができることを示す。 最後に,推測時間制御における拡散モデルの能力を活用することで,SSD-2は個々のユーザがカスタマイズ,デプロイできる100倍の小型モデルで,新たなアンサンブルを促進することを示す。 自己回帰モデルと比較して拡散モデル間の協調はより効果的であり、双方向のコンテキストを組み込む能力により、高品質で関連性の高いモデル応答をもたらす。

Diffusion-based language models (LMs) have been shown to be competent generative models that are easy to control at inference and are a promising alternative to autoregressive LMs. While autoregressive LMs have benefited immensely from scaling and instruction-based learning, existing studies on diffusion LMs have been conducted on a relatively smaller scale. Starting with a recently proposed diffusion model SSD-LM, in this work we explore methods to scale it from 0.4B to 13B parameters, proposing several techniques to improve its training and inference efficiency. We call the new model SSD-2. We further show that this model can be easily finetuned to follow instructions. Finally, leveraging diffusion models' capability at inference-time control, we show that SSD-2 facilitates novel ensembles with 100x smaller models that can be customized and deployed by individual users. We find that compared to autoregressive models, the collaboration between diffusion models is more effective, leading to higher-quality and more relevant model responses due to their ability to incorporate bi-directional contexts.
翻訳日:2023-05-25 19:12:15 公開日:2023-05-24
# 自然言語による人間の判断の再現

Using Natural Language Explanations to Rescale Human Judgments ( http://arxiv.org/abs/2305.14770v1 )

ライセンス: Link先を確認
Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett(参考訳) 大規模言語モデル(llm)の台頭は、高品質な人間ラベルデータ、特に人間のフィードバックや評価のようなプロセスに対する重要な要求をもたらした。 一般的な実践は、複数のクラウドワーカーの判断に対してコンセンサスアノテーションを通じてデータをラベル付けることである。 しかし、異なるアノテータは、広範囲の訓練を受けない限り、異なるラベリングスキームの解釈を持ち、主観的なNLPタスクでは、訓練された専門家アノテータさえも大きく分散することができる。 本稿では,これらのニュアンスを高品質な自然言語による説明によって捉えることができることを示すとともに,LLMを用いた不一致の存在下でのオーディナルアノテーションの再スケール手法を提案する。 具体的には、Likert格付けとそれに対応する自然言語説明をLLMに入力し、数値スコアを生成する。 このスコアは、アノテーションによる例の根底にある評価を反映すべきである。 説明の存在により、llmは、スケール使用量の違いにもかかわらず、注釈者間で評価を均質化することができる。 我々は,大規模言語モデルがほぼ人間に近い性能を達成できる文書型質問応答タスクの文脈で,我々の手法を探求する。 アノテータが答えの不完全性を識別する問題の中で、我々の再スケーリングは、ほぼ全てのアノテータペア間の相関を改善し、これらの例のペア関係を平均0.2ケンドールのタウで改善する。

The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via consensus annotation over the judgments of multiple crowdworkers. However, different annotators may have different interpretations of labeling schemes unless given extensive training, and for subjective NLP tasks, even trained expert annotators can diverge heavily. We show that these nuances can be captured by high quality natural language explanations, and propose a method to rescale ordinal annotation in the presence of disagreement using LLMs. Specifically, we feed Likert ratings and corresponding natural language explanations into an LLM and prompt it to produce a numeric score. This score should reflect the underlying assessment of the example by the annotator. The presence of explanations allows the LLM to homogenize ratings across annotators in spite of scale usage differences. We explore our technique in the context of a document-grounded question answering task on which large language models achieve near-human performance. Among questions where annotators identify incompleteness in the answers, our rescaling improves correlation between nearly all annotator pairs, improving pairwise correlation on these examples by an average of 0.2 Kendall's tau.
翻訳日:2023-05-25 19:11:55 公開日:2023-05-24
# 分割注意を伴うデュアルパストランス

Dual Path Transformer with Partition Attention ( http://arxiv.org/abs/2305.14768v1 )

ライセンス: Link先を確認
Zhengkai Jiang and Liang Liu and Jiangning Zhang and Yabiao Wang and Mingang Chen and Chengjie Wang(参考訳) 本稿では,効率的かつ効果的である2重注意機構を提案する。 二重注意機構は、畳み込みニューラルネットワーク(cnns)によって生成される局所注意と、視覚トランスフォーマー(vits)によって生成される長距離注意の2つの並列成分からなる。 バニラ型マルチヘッド・セルフ・アテンション(MHSA)の計算複雑性とメモリフットプリントに対処するため,新しいマルチヘッド分割型アテンション(MHPA)機構を導入する。 パーティションワイドアプローチは、パーティション内とパーティション間の両方を同時にモデル化する。 二重アテンションブロックと分割アテンション機構に基づいて,dualformerと呼ばれる階層的ビジョンバックボーンを提案する。 我々は,イメージネットのイメージ分類,COCOのオブジェクト検出,都市景観のセマンティックセグメンテーションなど,コンピュータビジョンタスクにおけるモデルの有効性を評価する。 具体的には、dualformer-xsはimagenet上で81.5\% top-1精度を達成し、最新の最先端mpvit-xsを0.6\% top-1精度ではるかに高いスループットで上回った。

This paper introduces a novel attention mechanism, called dual attention, which is both efficient and effective. The dual attention mechanism consists of two parallel components: local attention generated by Convolutional Neural Networks (CNNs) and long-range attention generated by Vision Transformers (ViTs). To address the high computational complexity and memory footprint of vanilla Multi-Head Self-Attention (MHSA), we introduce a novel Multi-Head Partition-wise Attention (MHPA) mechanism. The partition-wise attention approach models both intra-partition and inter-partition attention simultaneously. Building on the dual attention block and partition-wise attention mechanism, we present a hierarchical vision backbone called DualFormer. We evaluate the effectiveness of our model on several computer vision tasks, including image classification on ImageNet, object detection on COCO, and semantic segmentation on Cityscapes. Specifically, the proposed DualFormer-XS achieves 81.5\% top-1 accuracy on ImageNet, outperforming the recent state-of-the-art MPViT-XS by 0.6\% top-1 accuracy with much higher throughput.
翻訳日:2023-05-25 19:11:29 公開日:2023-05-24
# BeamSearchQA: 大規模言語モデルは強力なゼロショットQAソルバー

BeamSearchQA: Large Language Models are Strong Zero-Shot QA Solver ( http://arxiv.org/abs/2305.14766v1 )

ライセンス: Link先を確認
Hao Sun, Xiao Liu, Yeyun Gong, Yan Zhang and Nan Duan(参考訳) オープンドメインの質問応答は、しばしば外部情報へのアクセスを必要とする重要なタスクである。 既存の手法では、関連文書を最初に検索し、検索した情報に基づいて質問に回答する単一ターン検索-then-readアプローチが一般的である。 しかし、質問に答えるには、質問自体から直接は理解できない暗黙の知識が必要となる場合がある。 本研究では,eamSearchQAと呼ばれる質問応答パイプラインを提案する。 提案手法では,大規模言語モデル(LLM)を活用して,元の質問に対する新たな質問を反復的に生成し,反復的推論プロセスを実現する。 本手法は,質問の範囲を反復的に精錬し拡張することにより,検索によって直接取得できないような隠れた知識を捉え,活用することを目的としている。 我々は、広く使われているオープンドメインNQおよびWebQデータセットに対するアプローチを評価する。 実験の結果,BeamSearchQAは他のゼロショットベースラインよりも優れており,オープンドメイン質問応答の課題に対処する上での有効性が示された。

Open-domain question answering is a crucial task that often requires accessing external information. Existing methods typically adopt a single-turn retrieve-then-read approach, where relevant documents are first retrieved, and questions are then answered based on the retrieved information. However, there are cases where answering a question requires implicit knowledge that is not directly retrievable from the question itself. In this work, we propose a novel question-answering pipeline called eamSearchQA. Our approach leverages large language models(LLMs) to iteratively generate new questions about the original question, enabling an iterative reasoning process. By iteratively refining and expanding the scope of the question, our method aims to capture and utilize hidden knowledge that may not be directly obtainable through retrieval. We evaluate our approach on the widely-used open-domain NQ and WebQ datasets. The experimental results demonstrate that BeamSearchQA significantly outperforms other zero-shot baselines, indicating its effectiveness in tackling the challenges of open-domain question answering.
翻訳日:2023-05-25 19:11:05 公開日:2023-05-24
# Masked Bayesian Neural Networks : 理論的保証とその後部推論

Masked Bayesian Neural Networks : Theoretical Guarantee and its Posterior Inference ( http://arxiv.org/abs/2305.14765v1 )

ライセンス: Link先を確認
Insung Kong, Dongyoon Yang, Jongjin Lee, Ilsang Ohn, Gyuseung Baek, Yongdai Kim(参考訳) ディープニューラルネットワーク(BNN)を学ぶためのベイズ的アプローチは、多くの注目を集め、様々な応用に成功している。 特に、BNNは、より良い一般化能力とより良い不確実性定量化を持つというメリットがある。 BNNの成功のためには、ニューラルネットワークの適切なアーキテクチャを探索することが重要な課題であり、優れたスパースニューラルネットワークを見つけるための様々なアルゴリズムが提案されている。 本稿では,理論特性が良好で,計算可能な新しいノードスパースBNNモデルを提案する。 実モデルに対する後方濃度速度はミニマックスの最適に近いことが証明され、実モデルの滑らかさに適応する。 特に適応性はノードスパースBNNにとって最初のものである。 さらに,ノードスパースBNNモデルのベイズ推定を現実的に実現可能な新しいMCMCアルゴリズムを開発した。

Bayesian approaches for learning deep neural networks (BNN) have been received much attention and successfully applied to various applications. Particularly, BNNs have the merit of having better generalization ability as well as better uncertainty quantification. For the success of BNN, search an appropriate architecture of the neural networks is an important task, and various algorithms to find good sparse neural networks have been proposed. In this paper, we propose a new node-sparse BNN model which has good theoretical properties and is computationally feasible. We prove that the posterior concentration rate to the true model is near minimax optimal and adaptive to the smoothness of the true model. In particular the adaptiveness is the first of its kind for node-sparse BNNs. In addition, we develop a novel MCMC algorithm which makes the Bayesian inference of the node-sparse BNN model feasible in practice.
翻訳日:2023-05-25 19:10:49 公開日:2023-05-24
# 機械学習による磁区パターン生成パラメータの不均一性の検出

Detection of Non-uniformity in Parameters for Magnetic Domain Pattern Generation by Machine Learning ( http://arxiv.org/abs/2305.14764v1 )

ライセンス: Link先を確認
Naoya Mamada, Masaichiro Mizumaki, Ichiro Akai, and Toru Aonishi(参考訳) 畳み込みニューラルネットワークを用いて多結晶薄膜の磁区パターン形成に関与する不均一な物理パラメータの空間分布を推定する。 本研究では,磁区の小さな部分領域のウィンドウ内のパターンからパラメータを推定し,そのウィンドウをシフトすることで,物理パラメータの空間マップを得る手法を提案する。 このような部分領域におけるパラメータ推定の精度を高めるために,自然画像分類に用いた大規模モデルを採用し,事前学習の利点を生かした。 これらの部分領域における推定精度の高いモデルを用いて,空間変動パラメータを特徴とするシミュレーションデータの推測を行い,パラメータ変動の検出能力を示す。

We attempt to estimate the spatial distribution of heterogeneous physical parameters involved in the formation of magnetic domain patterns of polycrystalline thin films by using convolutional neural networks. We propose a method to obtain a spatial map of physical parameters by estimating the parameters from patterns within a small subregion window of the full magnetic domain and subsequently shifting this window. To enhance the accuracy of parameter estimation in such subregions, we employ employ large-scale models utilized for natural image classification and exploit the benefits of pretraining. Using a model with high estimation accuracy on these subregions, we conduct inference on simulation data featuring spatially varying parameters and demonstrate the capability to detect such parameter variations.
翻訳日:2023-05-25 19:10:36 公開日:2023-05-24
# 賢いハンスか神経理論か? 大規模言語モデルにおけるストレステスト社会推論

Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models ( http://arxiv.org/abs/2305.14763v1 )

ライセンス: Link先を確認
Natalie Shapira, Mosh Levy, Seyed Hossein Alavi, Xuhui Zhou, Yejin Choi, Yoav Goldberg, Maarten Sap, Vered Shwartz(参考訳) aiの能力に関するさらなる議論は、機械の「知能」を評価する信頼できるメトリクスの開発を保証している。 近年,chatgpt や gpt-4 のような新しい大規模言語モデル (llm) が,神経理論オブマインド (n-tom) を呈することを示す事例が数多く報告されているが,その能力に関する先行研究は相反する結論に達した。 我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠い。 さらに,N-ToMタスクの性能に影響を及ぼす要因について検討し,LLMが敵対的な例に苦しむことを明らかにする。 我々は、逸話例からの結論、限られたベンチマークテスト、人間設計の心理的テストを用いてモデルを評価することに注意する。

The escalating debate on AI's capabilities warrants developing reliable metrics to assess machine "intelligence". Recently, many anecdotal examples were used to suggest that newer large language models (LLMs) like ChatGPT and GPT-4 exhibit Neural Theory-of-Mind (N-ToM); however, prior work reached conflicting conclusions regarding those abilities. We investigate the extent of LLMs' N-ToM through an extensive evaluation on 6 tasks and find that while LLMs exhibit certain N-ToM abilities, this behavior is far from being robust. We further examine the factors impacting performance on N-ToM tasks and discover that LLMs struggle with adversarial examples, indicating reliance on shallow heuristics rather than robust ToM abilities. We caution against drawing conclusions from anecdotal examples, limited benchmark testing, and using human-designed psychological tests to evaluate models.
翻訳日:2023-05-25 19:10:26 公開日:2023-05-24
# UniChart: チャート理解と推論のためのユニバーサルビジョン言語事前訓練モデル

UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning ( http://arxiv.org/abs/2305.14761v1 )

ライセンス: Link先を確認
Ahmed Masry, Parsa Kavehzadeh, Xuan Long Do, Enamul Hoque, Shafiq Joty(参考訳) チャートはデータ分析や重要な洞察の可視化、データに関する複雑な推論質問への回答に非常に人気がある。 自然言語を用いたチャートベースのデータ解析を容易にするために,近年,チャート質問応答やチャート要約などのダウンストリームタスクが導入されている。 しかし、これらのタスクを解決する方法の多くは、グラフの構造を明示的にモデル化しようとしない言語や視覚言語によるタスク(例えば、データがどのように視覚的に符号化され、チャート要素が相互に関連しているかなど)で事前訓練を使用する。 この問題に対処するために、私たちはまず、さまざまなトピックや視覚スタイルをカバーする大きなチャートコーパスを構築しました。 次に,グラフ理解と推論のための事前学習モデルであるunichartを提案する。 unichartは、チャートの関連するテキスト、データ、視覚要素をエンコードし、チャートで囲まれたテキストデコーダを使用して、自然言語で期待される出力を生成する。 グラフ固有の事前学習タスクをいくつか提案する。 (i)図表から視覚的要素(棒、線など)とデータを抽出するための低レベルタスク (ii)図の理解と推論のスキルを得るための高度なタスク。 その結果、3つのダウンストリームタスクを微調整すると、3つのダウンストリームタスクにおける最先端のパフォーマンスが得られることがわかった。

Charts are very popular for analyzing data, visualizing key insights and answering complex reasoning questions about data. To facilitate chart-based data analysis using natural language, several downstream tasks have been introduced recently such as chart question answering and chart summarization. However, most of the methods that solve these tasks use pretraining on language or vision-language tasks that do not attempt to explicitly model the structure of the charts (e.g., how data is visually encoded and how chart elements are related to each other). To address this, we first build a large corpus of charts covering a wide variety of topics and visual styles. We then present UniChart, a pretrained model for chart comprehension and reasoning. UniChart encodes the relevant text, data, and visual elements of charts and then uses a chart-grounded text decoder to generate the expected output in natural language. We propose several chart-specific pretraining tasks that include: (i) low-level tasks to extract the visual elements (e.g., bars, lines) and data from charts, and (ii) high-level tasks to acquire chart understanding and reasoning skills. We find that pretraining the model on a large corpus with chart-specific low- and high-level tasks followed by finetuning on three down-streaming tasks results in state-of-the-art performance on three downstream tasks.
翻訳日:2023-05-25 19:10:07 公開日:2023-05-24
# 反事実発生器としての大規模言語モデル:強みと弱み

Large Language Models as Counterfactual Generator: Strengths and Weaknesses ( http://arxiv.org/abs/2305.14791v1 )

ライセンス: Link先を確認
Yongqi Li, Mayi Xu, Xin Miao, Shen Zhou, Tieyun Qian(参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成タスクにおいて顕著な性能を示した。 しかし、データ拡張のような領域で使用できる反ファクトを生成できる能力は、まだ未調査のままだ。 本研究は,LLMの反実的生成能力と,この能力に影響を与える解析要因について検討することを目的とする。 まず, 感情分析, 自然言語推論, 名前付き実体認識, 関係抽出の4つのタスクにまたがる小型言語モデル(SLM)のデータ拡張実験を通じて, 対物生成におけるLLMの有効性を評価する。 LLMは様々な場面で有望な機能強化を示す一方で、自己向上と、コモンセンスと整合する反事実を生み出すための論理的ガイダンスの欠如により、複雑なタスクに苦しむ。 第2に, タスク定義の正確化と, llm へのステップ・バイ・ステップ命令の詳細な提供という重要な役割を, 分析により明らかにする。 興味深いことに、LLMは、主に出力フォーマットを規制するためのデモであることを示す不合理なデモであっても、合理的な偽造物を生成することができる。本研究は、LCMの逆造物生成能力を初めて包括的に把握し、データ拡張にLLMを活用して、SLMを強化するための新しい視点を提供する。

Large language models (LLMs) have demonstrated remarkable performance in a range of natural language understanding and generation tasks. Yet, their ability to generate counterfactuals, which can be used for areas like data augmentation, remains under-explored. This study aims to investigate the counterfactual generation capabilities of LLMs and analysis factors that influence this ability. First, we evaluate how effective are LLMs in counterfactual generation through data augmentation experiments for small language models (SLMs) across four tasks: sentiment analysis, natural language inference, named entity recognition, and relation extraction. While LLMs show promising enhancements in various settings, they struggle in complex tasks due to their self-limitations and the lack of logical guidance to produce counterfactuals that align with commonsense. Second, our analysis reveals the pivotal role of providing accurate task definitions and detailed step-by-step instructions to LLMs in generating counterfactuals. Interestingly, we also find that LLMs can generate reasonable counterfactuals even with unreasonable demonstrations, which illustrates that demonstrations are primarily to regulate the output format.This study provides the first comprehensive insight into counterfactual generation abilities of LLMs, and offers a novel perspective on utilizing LLMs for data augmentation to enhance SLMs.
翻訳日:2023-05-25 19:03:01 公開日:2023-05-24
# 中国語テキストにおけるトピックセグメンテーションとアウトライン生成の促進:パラグラフレベルのトピック表現、コーパス、ベンチマーク

Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark ( http://arxiv.org/abs/2305.14790v1 )

ライセンス: Link先を確認
Feng Jiang, Weihao Liu, Xiaomin Chu, Peifeng Li, Qiaoming Zhu, Haizhou Li(参考訳) トピックセグメンテーションとアウトライン生成は、ドキュメントをコヒーレントなトピックセクションに分割し、対応するサブヘッドを生成する。 このようなプロセスはドキュメントの談話のトピック構造を明らかにし、文書の全体的なコンテキストを高いレベルから素早く把握し理解するのに役立つ。 しかし、この分野での研究や応用は、英語での成功と比較すると、適切な段落レベルの話題表現や、中国語の大規模で高品質なコーパスの欠如により抑制されている。 これらの問題に対処するために,文書の話題構造を包括的にモデル化するタイトル,サブヘッド,段落を含む階層的な段落レベルのトピック構造表現を導入する。 さらに,サブトピックを表すキーワードの代わりに文を用いて,文書内のトピック分布をより包括的に表現する。 この表現に従い、中国最大の段落レベルのトピック構造コーパス(cpts)を構築し、従来よりも4倍大きいトピック構造コーパスを構築した。 また,2段階の人間と機械の協調的アノテーション手法を用いて,コーパスの質を形式的・意味的にも確実に保証する。 最後に,2つの基本課題(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性について,いくつかの強いベースラインで検証し,その有効性は下流タスクで予め確認されている。 私たちが確立した表現、コーパス、ベンチマークは、将来の研究の確かな基盤となるでしょう。

Topic segmentation and outline generation strive to divide a document into coherent topic sections and generate corresponding subheadings. Such a process unveils the discourse topic structure of a document that benefits quickly grasping and understanding the overall context of the document from a higher level. However, research and applications in this field have been restrained due to the lack of proper paragraph-level topic representations and large-scale, high-quality corpora in Chinese compared to the success achieved in English. Addressing these issues, we introduce a hierarchical paragraph-level topic structure representation with title, subheading, and paragraph that comprehensively models the document discourse topic structure. In addition, we ensure a more holistic representation of topic distribution within the document by using sentences instead of keywords to represent sub-topics. Following this representation, we construct the largest Chinese Paragraph-level Topic Structure corpus (CPTS), four times larger than the previously largest one. We also employ a two-stage man-machine collaborative annotation method to ensure the high quality of the corpus both in form and semantics. Finally, we validate the computability of CPTS on two fundamental tasks (topic segmentation and outline generation) by several strong baselines, and its efficacy has been preliminarily confirmed on the downstream task: discourse parsing. The representation, corpus, and benchmark we established will provide a solid foundation for future studies.
翻訳日:2023-05-25 19:02:37 公開日:2023-05-24
# コンテキスト圧縮に言語モデルを適用する

Adapting Language Models to Compress Contexts ( http://arxiv.org/abs/2305.14788v1 )

ライセンス: Link先を確認
Alexis Chevalier, Alexander Wettig, Anirudh Ajith, Danqi Chen(参考訳) トランスフォーマティブ言語モデル(lms)は強力で広く適用可能なツールであるが、その有用性は、有限コンテキストウィンドウと長いテキスト文書を処理するための高価な計算コストによって制限されている。 プリトレーニングされたlmsをオートコンプレッサーに適用する。 これらのモデルは、長いコンテキストをコンパクトなサマリーベクトルに圧縮し、ソフトプロンプトとしてモデルにアクセスすることができる。 要約ベクトルは教師なしの目的で訓練され、長い文書はセグメントで処理され、全ての前のセグメントからの要約ベクトルは言語モデリングで使用される。 我々は最大30,720個のトークンのシーケンスでOPTモデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。 タスクのデモンストレーションを圧縮することで,テキスト内学習におけるAutoCompressorの評価を行う。 要約ベクトルは平文実演の代用であり、推論コストを削減しつつ精度を高めている。 最後に,検索強化言語モデルに要約ベクトルを適用することにより,大規模コーパスに対する要約ベクトルの事前計算の利点を検討する。 全体として、AutoCompressorはLMのコンテキストウィンドウを拡張するためのシンプルで安価なソリューションとして登場し、長いコンテキストに対する推論を高速化する。

Transformer-based language models (LMs) are powerful and widely-applicable tools, but their usefulness is constrained by a finite context window and the expensive computational cost of processing long text documents. We propose to adapt pre-trained LMs into AutoCompressors. These models are capable of compressing long contexts into compact summary vectors, which are then accessible to the model as soft prompts. Summary vectors are trained with an unsupervised objective, whereby long documents are processed in segments and summary vectors from all previous segments are used in language modeling. We fine-tune OPT models on sequences of up to 30,720 tokens and show that AutoCompressors can utilize long contexts to improve perplexity. We evaluate AutoCompressors on in-context learning by compressing task demonstrations. We find that summary vectors are good substitutes for plain-text demonstrations, increasing accuracy while reducing inference cost. Finally, we explore the benefits of pre-computing summary vectors for large corpora by applying summary vectors to retrieval-augmented language modeling. Overall, AutoCompressors emerge as a simple and inexpensive solution for extending the context window of LMs while speeding up inference over long contexts.
翻訳日:2023-05-25 19:02:10 公開日:2023-05-24
# 知覚のためのポラリメトリックイメージング

Polarimetric Imaging for Perception ( http://arxiv.org/abs/2305.14787v1 )

ライセンス: Link先を確認
Michael Baltaxe, Tomer Pe'er, Dan Levi(参考訳) 自動運転と高度な運転支援システムは、適切なアクションを実行し、運転シーンの機能としてアラートを提供するために、一連のセンサーとアルゴリズムに依存している。 通常、センサーにはカラーカメラ、レーダー、ライダー、超音波センサーが含まれる。 しかし、厳密には光偏光は光の基本的性質であるが、知覚タスクにはほとんど利用されない。 本研究では、RGBカメラと比較して、RGB偏光カメラを用いた場合の知覚タスク改善の可能性を分析する。 偏極が主観的方向に依存しない日中における単眼深度推定と自由空間検出について検討し,最先端の深層ニューラルネットワークを用いて双方に対して,最小限のアーキテクチャ変化で定量的な改善が達成可能であることを示す。 また,rgb-polarimetric image,lidar scans,gss / imu readings,free space segmentationからなる新しいデータセットを提案し,光偏光を利用した知覚アルゴリズムの開発をさらに支援する。

Autonomous driving and advanced driver-assistance systems rely on a set of sensors and algorithms to perform the appropriate actions and provide alerts as a function of the driving scene. Typically, the sensors include color cameras, radar, lidar and ultrasonic sensors. Strikingly however, although light polarization is a fundamental property of light, it is seldom harnessed for perception tasks. In this work we analyze the potential for improvement in perception tasks when using an RGB-polarimetric camera, as compared to an RGB camera. We examine monocular depth estimation and free space detection during the middle of the day, when polarization is independent of subject heading, and show that a quantifiable improvement can be achieved for both of them using state-of-the-art deep neural networks, with a minimum of architectural changes. We also present a new dataset composed of RGB-polarimetric images, lidar scans, GNSS / IMU readings and free space segmentations that further supports developing perception algorithms that take advantage of light polarization.
翻訳日:2023-05-25 19:01:51 公開日:2023-05-24
# ChatGPTと単純な言語推論:盲点と盲点

ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds ( http://arxiv.org/abs/2305.14785v1 )

ライセンス: Link先を確認
Victoria Basmov, Yoav Goldberg, Reut Tsarfaty(参考訳) 本稿では、ChatGPTの理解能力の限界に光を当て、人間にとって簡単な推論タスクに焦点をあてる。 特にターゲットは (i)文法的に特定された内容 (ii)不確かさを立証する施設、及び (三)単調性に関するもの 我々は,これらの推論型に対して専門家が設計した評価セットを提示し,ゼロショットで実験を行う。 以上の結果から,モデルがこのような推論に苦慮していることが示唆された。 さらに、ChatGPTは直接的に誘導される言語概念の知識を示すが、正しい推論を行うためにこの知識を組み込むことがしばしば失敗する。 さらに驚くべきことに、さらなる実験により、前提条件を前置詞または非正反対動詞に埋め込むことで、モデルが正しい意味ラベルのより頻繁な『無関係』を予測できることが示されている。 これらの結果は, GPT の言語理解能力が有望であるにもかかわらず,ChatGPT は特定のエンタテインメントに対して盲点を有しており,特定のエンタテインメント・キャンセリング機能は,組込み前提のセマンティクスを超越した 'blinds'' として機能することを示唆している。 本分析では,LLMの言語理解と推論能力に関するさらなる研究の必要性を強調し,信頼性の向上と実世界のアプリケーションに対する信頼性の確立を図る。

This paper sheds light on the limitations of ChatGPT's understanding capabilities, focusing on simple inference tasks that are typically easy for humans but appear to be challenging for the model. Specifically, we target (i) grammatically-specified entailments, (ii) premises with evidential adverbs of uncertainty, and (iii) monotonicity entailments. We present expert-designed evaluation sets for these inference types and conduct experiments in a zero-shot setup. Our results show that the model struggles with these types of inferences, exhibiting moderate to low accuracy. Moreover, while ChatGPT demonstrates knowledge of the underlying linguistic concepts when prompted directly, it often fails to incorporate this knowledge to make correct inferences. Even more strikingly, further experiments show that embedding the premise under presupposition triggers or non-factive verbs causes the model to predict entailment more frequently {regardless} of the correct semantic label. Overall these results suggest that, despite GPT's celebrated language understanding capacity, ChatGPT has blindspots with respect to certain types of entailment, and that certain entailment-cancelling features act as ``blinds'' overshadowing the semantics of the embedded premise. Our analyses emphasize the need for further research into the linguistic comprehension and reasoning capabilities of LLMs, in order to improve their reliability, and establish their trustworthiness for real-world applications.
翻訳日:2023-05-25 19:01:33 公開日:2023-05-24
# AIの擬人化 : 機会とリスク

Anthropomorphization of AI: Opportunities and Risks ( http://arxiv.org/abs/2305.14784v1 )

ライセンス: Link先を確認
Ameet Deshpande, Tanmay Rajpurohit, Karthik Narasimhan, Ashwin Kalyan(参考訳) 擬人化は、人間のような特性を非人間的実体に分類する傾向である。 子どもはおもちゃを人為的に形作り、大人はブランドでそれをし、文学的な装置である。 また、行動心理学や進化生物学を巧みに記録した科学の多用途ツールでもある。 AIシステムが広く採用され、アライメント技術、人間の声、画像アバターを通じて利害関係者がそれを人間らしくしようとすると、ユーザーはそれを人為的に形作る傾向が著しく高まる。 この現象を大規模言語モデル(llms)で理解するために,(1)ai権利章典の最近の青写真と(2)微妙な心理学的側面のカスタマイズと擬人化のレンズを通して分析し,客観的な法的意義について検討する。 異なるユーザベース向けにカスタマイズされた人為的なLDMが、立法青写真に複数の規定に違反していることがわかった。 さらに, LLMの人為的形態化がユーザに与える影響を指摘し, 操作性やネガティブな影響を伴って, 人間とAIの相互作用の性質を根本的に変える可能性を指摘した。 子供や患者などの脆弱なグループに対してllmがハイパーパーソナライズされているため、私たちの仕事はタイムリーで重要な貢献です。 我々は,AIシステムの信頼性を向上させるために,人為的形態化の慎重な利用のための保守的戦略を提案する。

Anthropomorphization is the tendency to attribute human-like traits to non-human entities. It is prevalent in many social contexts -- children anthropomorphize toys, adults do so with brands, and it is a literary device. It is also a versatile tool in science, with behavioral psychology and evolutionary biology meticulously documenting its consequences. With widespread adoption of AI systems, and the push from stakeholders to make it human-like through alignment techniques, human voice, and pictorial avatars, the tendency for users to anthropomorphize it increases significantly. We take a dyadic approach to understanding this phenomenon with large language models (LLMs) by studying (1) the objective legal implications, as analyzed through the lens of the recent blueprint of AI bill of rights and the (2) subtle psychological aspects customization and anthropomorphization. We find that anthropomorphized LLMs customized for different user bases violate multiple provisions in the legislative blueprint. In addition, we point out that anthropomorphization of LLMs affects the influence they can have on their users, thus having the potential to fundamentally change the nature of human-AI interaction, with potential for manipulation and negative influence. With LLMs being hyper-personalized for vulnerable groups like children and patients among others, our work is a timely and important contribution. We propose a conservative strategy for the cautious use of anthropomorphization to improve trustworthiness of AI systems.
翻訳日:2023-05-25 19:01:05 公開日:2023-05-24
# 中国語綴り訂正のための異節音声表現

Disentangled Phonetic Representation for Chinese Spelling Correction ( http://arxiv.org/abs/2305.14783v1 )

ライセンス: Link先を確認
Zihong Liang, Xiaojun Quan, Qifan Wang(参考訳) Chinese Spelling Correction (CSC)は、中国語のテキスト中の誤字を検出し、訂正することを目的としている。 この課題では、音声情報(hanyu pinyin)の導入が試みられているが、通常、音声表現と文字表現を融合させ、通常のテキストの表現効果を弱める傾向がある。 本研究では,テキスト情報と音声情報の直接的相互作用を可能にするために,2種類の特徴を解消することを提案する。 そこで本研究では,音声入力からテキストへの注意を損なうために分離マスクが課される音韻情報のみに基づく正しい文字の予測をモデルに依頼するピニイン・トゥ・キャラクタの目的について紹介する。 音素の過度な適合を避けるため,予測において意味情報が重要な役割を果たすことを保証する自己蒸留モジュールを設計する。 3つのCSCベンチマークの大規模な実験は、音声情報を用いた手法の優位性を実証している。

Chinese Spelling Correction (CSC) aims to detect and correct erroneous characters in Chinese texts. Although efforts have been made to introduce phonetic information (Hanyu Pinyin) in this task, they typically merge phonetic representations with character representations, which tends to weaken the representation effect of normal texts. In this work, we propose to disentangle the two types of features to allow for direct interaction between textual and phonetic information. To learn useful phonetic representations, we introduce a pinyin-to-character objective to ask the model to predict the correct characters based solely on phonetic information, where a separation mask is imposed to disable attention from phonetic input to text. To avoid overfitting the phonetics, we further design a self-distillation module to ensure that semantic information plays a major role in the prediction. Extensive experiments on three CSC benchmarks demonstrate the superiority of our method in using phonetic information.
翻訳日:2023-05-25 19:00:40 公開日:2023-05-24
# ベイズ連続学習によるゼロショットタスク選択アドレッシング

Zero-shot Task Preference Addressing Enabled by Imprecise Bayesian Continual Learning ( http://arxiv.org/abs/2305.14782v1 )

ライセンス: Link先を確認
Pengyuan Lu and Michele Caprio and Eric Eaton and Insup Lee(参考訳) 一般的なマルチタスク学習と同様に、連続学習は多目的最適化の性質を持ち、異なるタスクのパフォーマンス間のトレードオフに直面します。 つまり、現在のタスク分散を最適化するには、他のタスクを改善するために、いくつかのタスクのパフォーマンスを損なう必要があるかもしれない。 これは、それぞれが異なるタイミングで最適な複数のモデルが存在し、それぞれが異なるタスクパフォーマンストレードオフに対処することを意味する。 研究者は、これらのトレードオフに関する特定の好みに対応するために、特定のモデルをトレーニングする方法について議論した。 しかし、既存のアルゴリズムは追加のサンプルオーバーヘッドを必要とします。 その結果,Imrecise Bayesian Continual Learning (IBCL)を提案する。 新しいタスクを行うと、ibcl (1) はモデルパラメータ分布の凸包の形で知識ベースを更新し、(2)ゼロショットで選好に対処するための特定のモデルを取得する。 すなわち、IBCLはその知識ベースから好み適応モデルを構築するために追加のトレーニングオーバーヘッドを必要としない。 ibclによって得られたモデルが望ましいパラメータを識別する保証を持つことを示す。 さらに、IBCLは、好みのパラメータのPareto集合を特定でき、ベースライン法よりも優れた性能を維持し、ゼロショット優先アドレッシングによるトレーニングオーバーヘッドを大幅に削減できることを示した。

Like generic multi-task learning, continual learning has the nature of multi-objective optimization, and therefore faces a trade-off between the performance of different tasks. That is, to optimize for the current task distribution, it may need to compromise performance on some tasks to improve on others. This means there exist multiple models that are each optimal at different times, each addressing a distinct task-performance trade-off. Researchers have discussed how to train particular models to address specific preferences on these trade-offs. However, existing algorithms require additional sample overheads -- a large burden when there are multiple, possibly infinitely many, preferences. As a response, we propose Imprecise Bayesian Continual Learning (IBCL). Upon a new task, IBCL (1) updates a knowledge base in the form of a convex hull of model parameter distributions and (2) obtains particular models to address preferences with zero-shot. That is, IBCL does not require any additional training overhead to construct preference-addressing models from its knowledge base. We show that models obtained by IBCL have guarantees in identifying the preferred parameters. Moreover, experiments show that IBCL is able to locate the Pareto set of parameters given a preference, maintain similar to better performance than baseline methods, and significantly reduce training overhead via zero-shot preference addressing.
翻訳日:2023-05-25 19:00:23 公開日:2023-05-24
# Twitter画像のテキスト条件アルトテキスト生成

Text Conditional Alt-Text Generation for Twitter Images ( http://arxiv.org/abs/2305.14779v1 )

ライセンス: Link先を確認
Nikita Srivatsan, Sofia Samaniego, Omar Florez, Taylor Berg-Kirkpatrick(参考訳) 本研究では,ソーシャルメディア,特にTwitterで共有された画像に対して,代替テキスト(あるいはalt-text)記述を生成するアプローチを提案する。 このタスクは、単に画像キャプションの特別なケースではない。 また、Twitterに投稿された画像には、必ずしもそのイメージを記述していないにもかかわらず、適切に活用された場合、例えば、ツイートが以前に見たことのないオブジェクトを画像に名前付けるという有用なコンテキストを提供する、ユーザ記述のテキストが添えられていることが多い。 画像の埋め込みを抽出し、単語埋め込み空間に短いシーケンスを出力するマッピングネットワークに渡すクリッププレフィックスモデルや、ツイート自体からテキストを結合する ``prefix''' でこれに対処する。 これにより、投稿から視覚情報とテキスト情報の両方でモデル条件が設定できる。 組み合わせたマルチモーダルプレフィックスは、事前訓練された言語モデルへのプロンプトとして送られ、自動回帰的にシーケンスを完了してalt-textを生成する。 先行研究では字幕の字幕化に類似した手法が用いられてきたが、関連ソーシャルメディア投稿のテキスト情報を接頭辞に組み込んだ知識としては初めてであり、これら2つの情報ソースの有効性をさらに実証する。 我々は、Twitterから抽出された新しいデータセットを公開し、さまざまな自動メトリクスと人的評価で評価し、ツイートテキストと視覚情報の条件付けのアプローチが、以前の作業よりも大幅に優れていることを示す。

In this work we present an approach for generating alternative text (or alt-text) descriptions for images shared on social media, specifically Twitter. This task is more than just a special case of image captioning, as alt-text is both more literally descriptive and context-specific. Also critically, images posted to Twitter are often accompanied by user-written text that despite not necessarily describing the image may provide useful context that if properly leveraged can be informative -- e.g. the tweet may name an uncommon object in the image that the model has not previously seen. We address this with a CLIP prefix model that extracts an embedding of the image and passes it to a mapping network that outputs a short sequence in word embedding space, or a ``prefix'', to which we also concatenate the text from the tweet itself. This lets the model condition on both visual and textual information from the post. The combined multimodal prefix is then fed as a prompt to a pretrained language model which autoregressively completes the sequence to generate the alt-text. While prior work has used similar methods for captioning, ours is the first to our knowledge that incorporates textual information from the associated social media post into the prefix as well, and we further demonstrate through ablations that utility of these two information sources stacks. We put forward a new dataset scraped from Twitter and evaluate on it across a variety of automated metrics as well as human evaluation, and show that our approach of conditioning on both tweet text and visual information significantly outperforms prior work.
翻訳日:2023-05-25 19:00:00 公開日:2023-05-24
# 不均衡最適輸送の半二重定式化による生成モデル

Generative Modeling through the Semi-dual Formulation of Unbalanced Optimal Transport ( http://arxiv.org/abs/2305.14777v1 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, Myungjoo Kang(参考訳) 最適輸送(OT)問題は、与えられたコスト関数を最小化しながら2つの分布をブリッジする輸送マップを調べる。 この点において、扱いやすい事前分布とデータの間のotは生成的モデリングタスクに利用されてきた。 しかし、OTベースの手法は、トレーニング中にアウトレーヤや最適化の課題に直面しやすい。 本稿では,不均衡最適輸送(UOT)の半二重定式化に基づく新しい生成モデルを提案する。 OTとは異なり、UOTは分布マッチングの厳しい制約を緩和する。 このアプローチは、外れ値に対する堅牢性、トレーニング中の安定性、より高速な収束を提供する。 これらの特性を実験的に検証する。 さらに,UOTにおける分布間の分岐の理論的上界について検討した。 CIFAR-10ではFIDスコアが2.97、CelebA-HQ-256では5.80である。

Optimal Transport (OT) problem investigates a transport map that bridges two distributions while minimizing a given cost function. In this regard, OT between tractable prior distribution and data has been utilized for generative modeling tasks. However, OT-based methods are susceptible to outliers and face optimization challenges during training. In this paper, we propose a novel generative model based on the semi-dual formulation of Unbalanced Optimal Transport (UOT). Unlike OT, UOT relaxes the hard constraint on distribution matching. This approach provides better robustness against outliers, stability during training, and faster convergence. We validate these properties empirically through experiments. Moreover, we study the theoretical upper-bound of divergence between distributions in UOT. Our model outperforms existing OT-based generative models, achieving FID scores of 2.97 on CIFAR-10 and 5.80 on CelebA-HQ-256.
翻訳日:2023-05-25 18:59:31 公開日:2023-05-24
# 人的フィードバックによるオフライン強化学習

Provable Offline Reinforcement Learning with Human Feedback ( http://arxiv.org/abs/2305.14816v1 )

ライセンス: Link先を確認
Wenhao Zhan, Masatoshi Uehara, Nathan Kallus, Jason D. Lee, Wen Sun(参考訳) 本稿では,人間フィードバックによるオフライン強化学習の問題点について検討する。そこでは,明示的な報酬ではなく,軌道対間の選好という形でフィードバックが利用可能である。 提案アルゴリズムは,(1)最大類似度推定(MLE)を用いた暗黙の報酬をオフラインデータから一般関数近似で推定し,(2)MLEの周辺に設定された信頼度に対する分布的に堅牢な計画問題を解く。 報奨が全軌道上で定義できる一般的な報酬設定について検討し、オフラインデータで対象ポリシーがカバーされている限り、多項式数で対象ポリシーを学習できる新しい保証を提供する。 この保証は一般関数近似を用いた最初のものである。 対象政策のカバレッジを計測するために, 軌跡毎の集中率係数を上限とする, 新たな単性集中度係数を導入する。 また,このような集中可能性の必要性と,状態-行動-報酬が直接観察される標準rlとの違いを強調する下限を設定する。 フィードバックがアクションペアに対して与えられると、さらにアルゴリズムを拡張して分析する。

In this paper, we investigate the problem of offline reinforcement learning with human feedback where feedback is available in the form of preference between trajectory pairs rather than explicit rewards. Our proposed algorithm consists of two main steps: (1) estimate the implicit reward using Maximum Likelihood Estimation (MLE) with general function approximation from offline data and (2) solve a distributionally robust planning problem over a confidence set around the MLE. We consider the general reward setting where the reward can be defined over the whole trajectory and provide a novel guarantee that allows us to learn any target policy with a polynomial number of samples, as long as the target policy is covered by the offline data. This guarantee is the first of its kind with general function approximation. To measure the coverage of the target policy, we introduce a new single-policy concentrability coefficient, which can be upper bounded by the per-trajectory concentrability coefficient. We also establish lower bounds that highlight the necessity of such concentrability and the difference from standard RL, where state-action-wise rewards are directly observed. We further extend and analyze our algorithm when the feedback is given over action pairs.
翻訳日:2023-05-25 18:54:56 公開日:2023-05-24
# ケースベース推論を用いた機械読解

Machine Reading Comprehension using Case-based Reasoning ( http://arxiv.org/abs/2305.14815v1 )

ライセンス: Link先を確認
Dung Thai, Dhruv Agarwal, Mudit Chaudhary, Rajarshi Das, Manzil Zaheer, Jay-Yoon Lee, Hannaneh Hajishirzi, Andrew McCallum(参考訳) 本稿では,古典的AIからケースベース推論(CBR)を連想させる機械読解における解答抽出法を提案する。 提案手法(cbr-mrc)は,類似質問に対する文脈的回答が相互に意味的類似性を持つという仮説に基づいている。 対象の質問が与えられた場合、CBR-MRCは、観測された事例の記憶から類似した質問の集合を検索し、検索された事例の回答の文脈化された表現と最もよく似たターゲットコンテキストにおけるスパンを選択することにより、回答を予測する。 提案手法の半パラメトリックな性質により,CBR-MRCは推論時に使用するケースの特定のセットを予測できるため,信頼性の高いデバッグ可能なQAシステムを構築する上で望ましい選択となる。 我々は,CBR-MRCが大規模読者モデルに匹敵する高い検定精度を達成し,NaturalQuestionsとNewsQAでそれぞれ11.5と8.4のEMを上回ったことを示す。 さらに,cbr-mrcが正しい回答トークンだけでなく,最も関連する裏付けとなる証拠のスパンを識別できることを示す。 最後に,特定の問合せの文脈は他よりも語彙的多様性が高く,CBR-MRCはこれらの変動に対して頑健であり,完全にパラメトリックな手法を用いる性能は低下する。

We present an accurate and interpretable method for answer extraction in machine reading comprehension that is reminiscent of case-based reasoning (CBR) from classical AI. Our method (CBR-MRC) builds on the hypothesis that contextualized answers to similar questions share semantic similarities with each other. Given a target question, CBR-MRC retrieves a set of similar questions from a memory of observed cases and predicts an answer by selecting the span in the target context that is most similar to the contextualized representations of answers in the retrieved cases. The semi-parametric nature of our approach allows CBR-MRC to attribute a prediction to the specific set of cases used during inference, making it a desirable choice for building reliable and debuggable QA systems. We show that CBR-MRC achieves high test accuracy comparable with large reader models, outperforming baselines by 11.5 and 8.4 EM on NaturalQuestions and NewsQA, respectively. Further, we also demonstrate the ability of CBR-MRC in identifying not just the correct answer tokens but also the span with the most relevant supporting evidence. Lastly, we observe that contexts for certain question types show higher lexical diversity than others and find CBR-MRC to be robust to these variations while performance using fully-parametric methods drops.
翻訳日:2023-05-25 18:54:36 公開日:2023-05-24
# ランダムグラフ上でグラフニューラルネットワークが計算できる関数は何か? 位置符号化の役割

What functions can Graph Neural Networks compute on random graphs? The role of Positional Encoding ( http://arxiv.org/abs/2305.14814v1 )

ライセンス: Link先を確認
Nicolas Keriven (CNRS, IRISA), Samuel Vaiter (CNRS, LJAD)(参考訳) 我々は,グラフニューラルネットワーク(gnns)の大規模グラフに対する理論的理解を深め,その表現力に着目した。 既存の分析では、この概念はグラフ同型問題と関係しており、これは小サイズのグラフや、グラフ分類や回帰タスクの研究に主に関係しており、ノード上の予測タスクは大きなグラフよりもはるかに関連している。 近年、GNNは、非常に一般的なランダムグラフモデルにおいて、ノード数が増加するにつれて特定の関数に収束することを示した。 本稿では、ノードタスクに対する同変gnnによって生成される関数空間のより完全かつ直感的な記述を、いくつかの例を包含する収束の一般概念を通じて提供する。 本稿では,入力ノード機能の役割を強調し,ノード位置エンコーディング(PE)の影響について検討する。 大規模なランダムグラフ上のPEのいくつかの例の研究を通じて、既知の普遍性の結果をはるかに一般的なモデルに拡張する。 理論的な結果は,GNNの一般化が合成および実データに与える影響を数値的に示す正規化手法を示唆している。 我々の証明は、独立利子の新たな集中不等式を含んでいる。

We aim to deepen the theoretical understanding of Graph Neural Networks (GNNs) on large graphs, with a focus on their expressive power. Existing analyses relate this notion to the graph isomorphism problem, which is mostly relevant for graphs of small sizes, or studied graph classification or regression tasks, while prediction tasks on nodes are far more relevant on large graphs. Recently, several works showed that, on very general random graphs models, GNNs converge to certains functions as the number of nodes grows. In this paper, we provide a more complete and intuitive description of the function space generated by equivariant GNNs for node-tasks, through general notions of convergence that encompass several previous examples. We emphasize the role of input node features, and study the impact of node Positional Encodings (PEs), a recent line of work that has been shown to yield state-of-the-art results in practice. Through the study of several examples of PEs on large random graphs, we extend previously known universality results to significantly more general models. Our theoretical results hint at some normalization tricks, which is shown numerically to have a positive impact on GNN generalization on synthetic and real data. Our proofs contain new concentration inequalities of independent interest.
翻訳日:2023-05-25 18:54:08 公開日:2023-05-24
# CascadeMatchによる半監督・長期物体検出

Semi-Supervised and Long-Tailed Object Detection with CascadeMatch ( http://arxiv.org/abs/2305.14813v1 )

ライセンス: Link先を確認
Yuhang Zang, Kaiyang Zhou, Chen Huang, Chen Change Loy(参考訳) 本稿では,現実的な課題を呈する半教師付き学習環境における長期的対象検出に焦点を当てるが,文献ではほとんど研究されていない。 本研究ではカスケードマッチングと呼ばれる擬似ラベル型検出器を提案する。 この検出器はカスケードネットワークアーキテクチャを特徴とし,マルチステージ検出ヘッドとプログレッシブ信頼しきい値を有する。 しきい値の手動調整を避けるために,データから適切な値を自動識別する新しい適応型擬似ラベルマイニング機構を設計した。 全検出ヘッドのアンサンブル疑似ラベルにより、モデル自体が不正な擬似ラベルによって負に強化された確認バイアスを緩和する。 LVISとCOCO-LTという2つの長い尾を持つデータセットの実験では、CascadeMatchが、長い尾を持つオブジェクト検出の処理において、既存の最先端の半教師付きアプローチ(幅広い検出アーキテクチャ)を上回ることが示されている。 例えば、CascadeMatchは、ResNet50ベースのCascade R-CNN構造を使用する場合、LVISで1.9 AP Fix、TransformerエンコーダでSparse R-CNNを使用する場合1.7 AP Fixよりも優れている。 また,カスケードマッチングは難易度の低いオブジェクト検出問題にも対処できることを示した。

This paper focuses on long-tailed object detection in the semi-supervised learning setting, which poses realistic challenges, but has rarely been studied in the literature. We propose a novel pseudo-labeling-based detector called CascadeMatch. Our detector features a cascade network architecture, which has multi-stage detection heads with progressive confidence thresholds. To avoid manually tuning the thresholds, we design a new adaptive pseudo-label mining mechanism to automatically identify suitable values from data. To mitigate confirmation bias, where a model is negatively reinforced by incorrect pseudo-labels produced by itself, each detection head is trained by the ensemble pseudo-labels of all detection heads. Experiments on two long-tailed datasets, i.e., LVIS and COCO-LT, demonstrate that CascadeMatch surpasses existing state-of-the-art semi-supervised approaches -- across a wide range of detection architectures -- in handling long-tailed object detection. For instance, CascadeMatch outperforms Unbiased Teacher by 1.9 AP Fix on LVIS when using a ResNet50-based Cascade R-CNN structure, and by 1.7 AP Fix when using Sparse R-CNN with a Transformer encoder. We also show that CascadeMatch can even handle the challenging sparsely annotated object detection problem.
翻訳日:2023-05-25 18:53:46 公開日:2023-05-24
# AWESOME: メモリ機構とグローバルサリアンコンテンツを用いたGPUメモリ制約長文書要約

AWESOME: GPU Memory-constrained Long Document Summarization using Memory Mechanism and Global Salient Content ( http://arxiv.org/abs/2305.14806v1 )

ライセンス: Link先を確認
Shuyang Cao and Lu Wang(参考訳) 長い文書要約システムは、長文およびjargonladenテキストを持つ領域では重要であるが、限られた計算資源を持つ研究者や開発者には重大な課題がある。 既存のソリューションは、主に効率的な注意力や配当戦略に重点を置いている。 前者は理論的な時間の複雑さを減らしますが、それでもメモリが重いです。 後者のメソッドはグローバルコンテキストを犠牲にし、非形式的で一貫性のない要約に繋がる。 本研究の目的は,グローバルなコンテキストを保ちながら分割・参照方式のメモリ効率性を活用することである。 具体的には,(1)外部メモリ機構が従来エンコードされていた文書セグメントとその要約を追跡し,グローバルな文書理解と要約コヒーレンスを強化する。 (2)グローバルサリエントコンテンツは、その要約をサポートするために各文書セグメントを補強するために事前に識別される。 政府報告書、写本、科学論文、小説など、さまざまな分野のテキストに関する広範な実験は、AWESOMEが、より長いドキュメントの競合ベースラインよりも情報性、忠実性、一貫性を改善した要約を生成する一方で、GPUメモリのフットプリントが類似または小さいことを示している。

Long document summarization systems are critical for domains with lengthy and jargonladen text, yet they present significant challenges to researchers and developers with limited computing resources. Existing solutions mainly focus on efficient attentions or divide-and-conquer strategies. The former reduces theoretical time complexity, but is still memory-heavy. The latter methods sacrifice global context, leading to uninformative and incoherent summaries. This work aims to leverage the memory-efficient nature of divide-and-conquer methods while preserving global context. Concretely, our framework AWESOME uses two novel mechanisms: (1) External memory mechanisms track previously encoded document segments and their corresponding summaries, to enhance global document understanding and summary coherence. (2) Global salient content is further identified beforehand to augment each document segment to support its summarization. Extensive experiments on diverse genres of text, including government reports, transcripts, scientific papers, and novels, show that AWESOME produces summaries with improved informativeness, faithfulness, and coherence than competitive baselines on longer documents, while having a similar or smaller GPU memory footprint.
翻訳日:2023-05-25 18:53:03 公開日:2023-05-24
# ラベル付きテストデータなしの大規模言語モデル能力の推定

Estimating Large Language Model Capabilities without Labeled Test Data ( http://arxiv.org/abs/2305.14802v1 )

ライセンス: Link先を確認
Harvey Yiyun Fu, Qinyuan Ye, Albert Xu, Xiang Ren, Robin Jia(参考訳) LLM(Large Language Models)は、いくつかの例からICL(In-context Learning)を実行する素晴らしい能力を示したが、ICLの成功はタスクによって大きく異なる。 したがって、新しいタスクにiclが適用可能かどうかを迅速に判断することは重要であるが、テストデータに注釈がかかる場合、直接的にiclの精度を評価することはコストがかかる可能性がある。 本稿では,そのタスクに対してラベルのないデータのみを与えられた新しいタスクに対して,文脈内学習を行う場合のLLMの精度を予測できるICL精度推定タスクを提案する。 ICLの精度推定を行うために,LCM信頼スコアを特徴としてメタモデルを訓練する手法を提案する。 4 llms と 3 つのタスクコレクションをカバーする新しいベンチマークにおいて,本手法を複数の高精度推定ベースラインと比較した。 平均して、メタモデルはすべてのベースラインを改善し、合計12設定で40のラベル付きテスト例を直接評価するのと同じ推定性能を達成する。 ICLの動作時期の理解を深めるため,本手法の改善に向けた今後の取り組みとICL精度評価ベンチマークの評価を推奨する。

Large Language Models (LLMs) have exhibited an impressive ability to perform in-context learning (ICL) from only a few examples, but the success of ICL varies widely from task to task. Thus, it is important to quickly determine whether ICL is applicable to a new task, but directly evaluating ICL accuracy can be expensive in situations where test data is expensive to annotate -- the exact situations where ICL is most appealing. In this paper, we propose the task of ICL accuracy estimation, in which we predict the accuracy of an LLM when doing in-context learning on a new task given only unlabeled data for that task. To perform ICL accuracy estimation, we propose a method that trains a meta-model using LLM confidence scores as features. We compare our method to several strong accuracy estimation baselines on a new benchmark that covers 4 LLMs and 3 task collections. On average, the meta-model improves over all baselines and achieves the same estimation performance as directly evaluating on 40 labeled test examples per task, across the total 12 settings. We encourage future work to improve on our methods and evaluate on our ICL accuracy estimation benchmark to deepen our understanding of when ICL works.
翻訳日:2023-05-25 18:52:28 公開日:2023-05-24
# 画像キャプションのための様々なコンテキスト内構成の探索

Exploring Diverse In-Context Configurations for Image Captioning ( http://arxiv.org/abs/2305.14800v1 )

ライセンス: Link先を確認
Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen(参考訳) 言語モデル(LM)が文脈内数ショット学習者にとって良いことを発見した後、コンテキスト内シーケンス設定を最適化するための多くの戦略が提案されている。 近年、Vision-Language (VL) ドメインの研究者たちは、最も単純な方法である \ie, randomly sample を使って、テキスト内画像とテキストのペアの設定を行っている。 様々な構成がVLインコンテキスト学習に与える影響を検討するために,画像選択のための4つの戦略と,画像キャプションのためのインコンテキスト画像-テキストペアを構成するキャプション代入のための4つの戦略を考案した。 ここでは、視覚条件のLMとして見ることができるため、ケーススタディとして画像キャプションが使用される。 我々の総合的な実験は2つの反直感的だが有意義な洞察を与え、マルチモーダル・シナジーによるVLインコンテキスト学習の特徴をNLPの場合と比較した。

After discovering that Language Models (LMs) can be good in-context few-shot learners, numerous strategies have been proposed to optimize in-context sequence configurations. Recently, researchers in Vision-Language (VL) domains also develop their few-shot learners, while they only use the simplest way, \ie, randomly sampling, to configure in-context image-text pairs. In order to explore the effects of varying configurations on VL in-context learning, we devised four strategies for image selection and four for caption assignment to configure in-context image-text pairs for image captioning. Here Image Captioning is used as the case study since it can be seen as the visually-conditioned LM. Our comprehensive experiments yield two counter-intuitive but valuable insights, highlighting the distinct characteristics of VL in-context learning due to multi-modal synergy, as compared to the NLP case.
翻訳日:2023-05-25 18:51:56 公開日:2023-05-24
# MQuAKE:マルチホップ質問による言語モデルにおける知識編集の評価

MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions ( http://arxiv.org/abs/2305.14795v1 )

ライセンス: Link先を確認
Zexuan Zhong, Zhengxuan Wu, Christopher D. Manning, Christopher Potts, Danqi Chen(参考訳) 大きな言語モデル(LLM)に格納されている情報は、すぐに時代遅れになり、スクラッチから再トレーニングすることは、多くの場合オプションではない。 これは最近、モデル重み付けを更新して新しい事実を注入する様々なテクニックを生み出した。 現在の評価パラダイムは極めて限定的であり、主に編集された事実のリコールを検証するが、1つの事実を変更することは、モデルの関連する信念に波及する変化を引き起こすべきである。 もし英国首相をリシ・スナックに編集したら、誰がイギリス首相と結婚するのか、別の答えを得るべきだ。 本研究では,編集されたモデルが,編集された事実の関連する結果として,どの回答を変更すべきかを正しく判断するマルチホップ質問を含むベンチマークMQuAKE(Multi-hop Question Answering for Knowledge Editing)を提案する。 現在の知識編集アプローチは、編集された事実を正確に思い出すことができるが、構築されたマルチホップの質問で破滅的に失敗する。 そこで我々は,すべての編集された事実を外部に格納し,言語モデルを反復的に促し,編集された事実と一致する回答を生成するシンプルなメモリベースアプローチであるmelloを提案する。 MQuAKEは依然として挑戦的だが、MLLoはLLM(最大175B)と同等にスケールし、以前のモデルエディタよりも大きなマージンで優れていることを示す。

The information stored in large language models (LLMs) falls out of date quickly, and retraining from scratch is often not an option. This has recently given rise to a range of techniques for injecting new facts through updating model weights. Current evaluation paradigms are extremely limited, mainly validating the recall of edited facts, but changing one fact should cause rippling changes to the model's related beliefs. If we edit the UK Prime Minister to now be Rishi Sunak, then we should get a different answer to Who is married to the British Prime Minister? In this work, we present a benchmark MQuAKE (Multi-hop Question Answering for Knowledge Editing) comprising multi-hop questions that assess whether edited models correctly answer questions where the answer should change as an entailed consequence of edited facts. While we find that current knowledge-editing approaches can recall edited facts accurately, they fail catastrophically on the constructed multi-hop questions. We thus propose a simple memory-based approach, MeLLo, which stores all edited facts externally while prompting the language model iteratively to generate answers that are consistent with the edited facts. While MQuAKE remains challenging, we show that MeLLo scales well with LLMs (up to 175B) and outperforms previous model editors by a large margin.
翻訳日:2023-05-25 18:51:37 公開日:2023-05-24
# Debiasing made State-of-the-art: Revising the Simple Seed-based Weak Supervision for Text Classification

Debiasing Made State-of-the-art: Revisiting the Simple Seed-based Weak Supervision for Text Classification ( http://arxiv.org/abs/2305.14794v1 )

ライセンス: Link先を確認
Chengyu Dong, Zihan Wang, Jingbo Shang(参考訳) 弱教師付きテキスト分類の最近の進歩は、高レベルの人間のヒューリスティックを質の高い擬似ラベルに変換する洗練された手法の設計に主に焦点をあてている。 本稿では,疑似ラベルを生成する最も簡単な方法であるシードマッチングに基づく手法を再検討し,そのパワーが極めて過小評価されたことを示す。 シードマッチングの限定的な性能は,単純なシードマッチングルールによるラベルバイアスによるものであり,高品質な擬似ラベル選択に対する信頼性の学習を防止できることを示した。 興味深いことに、マッチした入力テキストにあるシードワードを削除するだけでラベルバイアスが軽減され、信頼性が向上する。 その後、シードマッチングによって達成されるパフォーマンスが大幅に向上し、最先端と同等、あるいはそれ以上に向上することができる。 また、シード語が知られていない場合の処理には、入力テキスト中の単語トークンをランダムに削除し、削除率を高くすることを提案する。 驚くべきことに、このランダムな削除方法を備えたシードマッチングは、しばしば、シード削除よりも優れた性能を達成できる。

Recent advances in weakly supervised text classification mostly focus on designing sophisticated methods to turn high-level human heuristics into quality pseudo-labels. In this paper, we revisit the seed matching-based method, which is arguably the simplest way to generate pseudo-labels, and show that its power was greatly underestimated. We show that the limited performance of seed matching is largely due to the label bias injected by the simple seed-match rule, which prevents the classifier from learning reliable confidence for selecting high-quality pseudo-labels. Interestingly, simply deleting the seed words present in the matched input texts can mitigate the label bias and help learn better confidence. Subsequently, the performance achieved by seed matching can be improved significantly, making it on par with or even better than the state-of-the-art. Furthermore, to handle the case when the seed words are not made known, we propose to simply delete the word tokens in the input text randomly with a high deletion ratio. Remarkably, seed matching equipped with this random deletion method can often achieve even better performance than that with seed deletion.
翻訳日:2023-05-25 18:51:12 公開日:2023-05-24
# サイクルトレーニングによる忠実な低リソースデータ・テキスト生成

Faithful Low-Resource Data-to-Text Generation through Cycle Training ( http://arxiv.org/abs/2305.14793v1 )

ライセンス: Link先を確認
Zhuoer Wang, Marcus Collins, Nikhita Vedula, Simone Filice, Shervin Malmasi, Oleg Rokhlenko(参考訳) 近年、構造化データからテキストを生成する方法は、主に大規模データセット上で事前訓練された言語モデルの微調整によって大きく進歩している。 しかし、そのようなモデルは入力データ、特にドメイン外のデータに忠実な出力を生成することができない。 十分な注釈付きデータは特定のドメインでは利用できないことが多いため、出力テキストの忠実性を改善するための教師なしのアプローチが求められます。 この課題は構造化データとテキストの表現の一貫性の1つであるので,本研究におけるサイクルトレーニングの有効性を評価した。 サイクルトレーニングでは、構造化されたデータからテキストを生成するモデルと、自然言語のテキストから構造化されたデータを生成するモデルである。 我々は,webnlg,e2e,wtq,wsqlのデータセットにおけるデータ対テキスト生成タスクの完全教師ありアプローチとほぼ同じ性能を,少量の教師ありデータ(本事例では100サンプル)で初期化するサイクルトレーニングによって達成することを示す。 本研究では,自動評価メトリクスと新たに設計された人間評価スキーマを用いて,多種多様な生成エラーを低減できるサイクルトレーニング戦略の有効性を明らかにする。 私たちのコードはhttps://github.com/Edillower/CycleNLG.comで公開されています。

Methods to generate text from structured data have advanced significantly in recent years, primarily due to fine-tuning of pre-trained language models on large datasets. However, such models can fail to produce output faithful to the input data, particularly on out-of-domain data. Sufficient annotated data is often not available for specific domains, leading us to seek an unsupervised approach to improve the faithfulness of output text. Since the problem is fundamentally one of consistency between the representations of the structured data and text, we evaluate the effectiveness of cycle training in this work. Cycle training uses two models which are inverses of each other: one that generates text from structured data, and one which generates the structured data from natural language text. We show that cycle training, when initialized with a small amount of supervised data (100 samples in our case), achieves nearly the same performance as fully supervised approaches for the data-to-text generation task on the WebNLG, E2E, WTQ, and WSQL datasets. We perform extensive empirical analysis with automated evaluation metrics and a newly designed human evaluation schema to reveal different cycle training strategies' effectiveness of reducing various types of generation errors. Our code is publicly available at https://github.com/Edillower/CycleNLG.
翻訳日:2023-05-25 18:50:51 公開日:2023-05-24
# NuScenes-QA: 自律運転シナリオのためのマルチモーダルビジュアル質問回答ベンチマーク

NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario ( http://arxiv.org/abs/2305.14836v1 )

ライセンス: Link先を確認
Tianwen Qian, Jingjing Chen, Linhai Zhuo, Yang Jiao, Yu-Gang Jiang(参考訳) 本稿では,道路ビューの手がかりに基づく自然言語質問への回答を目的とした,自律運転における視覚的質問応答(VQA)タスクを紹介する。 従来のVQAタスクと比較して、自律運転シナリオにおけるVQAは多くの課題を提示している。 まず、生の視覚データはマルチモーダルで、画像と点雲はそれぞれカメラとLiDARによってキャプチャされる。 第二に、データは連続的にリアルタイムに取得されるため、マルチフレームである。 第3に、屋外のシーンは前景と静的背景の両方を動かしている。 既存のVQAベンチマークは、これらの複雑さに適切に対処できない。 このギャップを埋めるため,自動運転シナリオにおけるVQAの最初のベンチマークであるNuScenes-QAを提案し,34Kの視覚シーンと460Kの質問応答ペアを含む。 具体的には,既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。 その後、これらのテンプレートに基づいて質問応答ペアをプログラム的に生成する。 包括的統計によると、我々のNuScenes-QAは多様な質問形式を持つ大規模ベンチマークである。 そこで我々は,高度な3D検出とVQA技術を用いた一連のベースラインを開発した。 当社の広範な実験では、この新しいタスクが抱える課題が浮かび上がっています。 コードとデータセットはhttps://github.com/qiantianwen/NuScenes-QA.comで公開されている。

We introduce a novel visual question answering (VQA) task in the context of autonomous driving, aiming to answer natural language questions based on street-view clues. Compared to traditional VQA tasks, VQA in autonomous driving scenario presents more challenges. Firstly, the raw visual data are multi-modal, including images and point clouds captured by camera and LiDAR, respectively. Secondly, the data are multi-frame due to the continuous, real-time acquisition. Thirdly, the outdoor scenes exhibit both moving foreground and static background. Existing VQA benchmarks fail to adequately address these complexities. To bridge this gap, we propose NuScenes-QA, the first benchmark for VQA in the autonomous driving scenario, encompassing 34K visual scenes and 460K question-answer pairs. Specifically, we leverage existing 3D detection annotations to generate scene graphs and design question templates manually. Subsequently, the question-answer pairs are generated programmatically based on these templates. Comprehensive statistics prove that our NuScenes-QA is a balanced large-scale benchmark with diverse question formats. Built upon it, we develop a series of baselines that employ advanced 3D detection and VQA techniques. Our extensive experiments highlight the challenges posed by this new task. Codes and dataset are available at https://github.com/qiantianwen/NuScenes-QA.
翻訳日:2023-05-25 18:43:15 公開日:2023-05-24
# SummIt: ChatGPTによる反復的なテキスト要約

SummIt: Iterative Text Summarization via ChatGPT ( http://arxiv.org/abs/2305.14835v1 )

ライセンス: Link先を確認
Haopeng Zhang, Xiao Liu, Jiawei Zhang(参考訳) 既存のテキスト要約システムは近年大きく進歩しているが、通常は単一のステップで要約を生成する。 ワンショット要約設定は時々不適切であるが、生成された要約には幻覚が含まれているか、読者の興味に関連する重要な詳細を見落としている可能性がある。 本稿では,chatgpt のような大規模言語モデルに基づく反復的テキスト要約フレームワーク summit を提案することで,この制限に対処する。 私たちのフレームワークは,生成した要約を自己評価とフィードバックを通じて反復的に洗練することを可能にします。 また、文脈内学習を用いて、合理的な生成と要約の洗練を導くことも検討する。 さらに,本フレームワークに知識とトピック抽出器を統合することにより,要約忠実度と可制御性を向上する可能性についても検討する。 実験および定性分析により,3つのベンチマーク要約データセット上でのフレームワークの性能を評価する。 また、モデルの改良の有効性を検証し、過剰補正の潜在的な問題を見つけるために人的評価を行う。 私たちのコードは \url{https://github.com/hpzhang94/summ_it} で利用可能です。

Existing text summarization systems have made significant progress in recent years but typically generates summaries in a single step. The one-shot summarization setting is sometimes inadequate, however, as the generated summary may contain hallucinations or overlook important details related to the reader's interests. In this paper, we address this limitation by proposing SummIt, an iterative text summarization framework based on large language models like ChatGPT. Our framework enables the model to refine the generated summary iteratively through self-evaluation and feedback, closely resembling the iterative process humans undertake when drafting and revising summaries. We also explore using in-context learning to guide the rationale generation and summary refinement. Furthermore, we explore the potential benefits of integrating knowledge and topic extractors into the framework to enhance summary faithfulness and controllability. We evaluate the performance of our framework on three benchmark summarization datasets through empirical and qualitative analyses. We also conduct a human evaluation to validate the effectiveness of the model's refinements and find a potential issue of over-correction. Our code is available at \url{https://github.com/hpzhang94/summ_it}.
翻訳日:2023-05-25 18:42:54 公開日:2023-05-24
# od-nerf: on-the-fly dynamic neural radiance fieldの効率的なトレーニング

OD-NeRF: Efficient Training of On-the-Fly Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2305.14831v1 )

ライセンス: Link先を確認
Zhiwen Yan, Chen Li, Gim Hee Lee(参考訳) dynamic neural radiance fields (dynamic nerfs) は3次元動的シーンの新たなビュー合成において印象的な結果を示している。 しかし、訓練のための完全なビデオシーケンスと、ダイナミックな3dシーンの再生に類似した、新しいビュー合成を必要とすることが多い。 一方,本研究では,ダイナミックシーンをストリーミング可能な動的NeRFを効率よく訓練し,レンダリングするOD-NeRFを提案する。 オンザフライのトレーニングでは、トレーニングフレームが順次利用可能になり、モデルがトレーニングされ、フレーム単位でレンダリングされる。 効率の良いオンザフライトレーニングの鍵となる課題は、前のフレームから推定した放射能場を効果的に活用する方法である。 この課題に取り組むために 提案します 1) 今のフレームと前のフレームの対応を暗黙的に追跡する多視点投影色に条件付きNeRFモデル 2)最後のフレームからの占有グリッドを利用して,現在のフレームで効率的にサンプリングを行う遷移更新アルゴリズム。 本アルゴリズムは,実世界の動的シーンにおける最先端技術と比較して,インタラクティブな6fpsトレーニングと合成動的シーンのレンダリングを実現することができる。

Dynamic neural radiance fields (dynamic NeRFs) have demonstrated impressive results in novel view synthesis on 3D dynamic scenes. However, they often require complete video sequences for training followed by novel view synthesis, which is similar to playing back the recording of a dynamic 3D scene. In contrast, we propose OD-NeRF to efficiently train and render dynamic NeRFs on-the-fly which instead is capable of streaming the dynamic scene. When training on-the-fly, the training frames become available sequentially and the model is trained and rendered frame-by-frame. The key challenge of efficient on-the-fly training is how to utilize the radiance field estimated from the previous frames effectively. To tackle this challenge, we propose: 1) a NeRF model conditioned on the multi-view projected colors to implicitly track correspondence between the current and previous frames, and 2) a transition and update algorithm that leverages the occupancy grid from the last frame to sample efficiently at the current frame. Our algorithm can achieve an interactive speed of 6FPS training and rendering on synthetic dynamic scenes on-the-fly, and a significant speed-up compared to the state-of-the-art on real-world dynamic scenes.
翻訳日:2023-05-25 18:42:36 公開日:2023-05-24
# 無線で人体をモニタリングする関連知識蒸留について

On Correlated Knowledge Distillation for Monitoring Human Pose with Radios ( http://arxiv.org/abs/2305.14829v1 )

ライセンス: Link先を確認
Shiva Raj Pokhrel, Jonathan Kua, Deol Satish, Phil Williams, Arkady Zaslavsky, Seng W. Loke, Jinho Choi(参考訳) 本研究では,無線周波数(RF)センシング技術とCorrelated Knowledge Distillation(CKD)理論を結合して,軽量でほぼリアルタイムで高精度なポーズ監視システムを構築することで,新しいアイデアの実現可能性を検討するための簡易な実験ベッドを提案する。 提案するckdフレームワークは,ロバストな"教師"モデルからパラメータ化された"学生"モデルへのポーズ知識の転送と融合を行う。 有効性を確認するため,我々は,sdr(software defined radio)を用いた実験装置でロジットを蒸留するckdを実装し,rf-visual信号相関について検討した。 我々のCKD-RFセンシング技術は,SDR-feed Student Class Network(RF信号など)とカメラフィードTeacher Class Network(画像,ビデオなど)の2つのモードで特徴付けられる。 特にckdモデルは,知識ベースを蒸留し,融合することにより,マルチブランチ教師と学生ネットワークを訓練する。 結果のCKDモデルはその後、マルチモーダル相関を識別し、逆の学生分岐を教えるために使用される。 学習を単純に集約する代わりに、ckdトレーニングは2つのドメイン、すなわち視覚画像とrf信号との複数の並列変換で構成された。 トレーニングされたCKDモデルは、プライバシーを効率的に保護し、2つの異なるニューラルネットワークからのマルチモーダル相関ロジットを使用して、視覚信号やビデオフレームを(RF信号のみを使用して)使用せずにポーズを推定する。

In this work, we propose and develop a simple experimental testbed to study the feasibility of a novel idea by coupling radio frequency (RF) sensing technology with Correlated Knowledge Distillation (CKD) theory towards designing lightweight, near real-time and precise human pose monitoring systems. The proposed CKD framework transfers and fuses pose knowledge from a robust "Teacher" model to a parameterized "Student" model, which can be a promising technique for obtaining accurate yet lightweight pose estimates. To assure its efficacy, we implemented CKD for distilling logits in our integrated Software Defined Radio (SDR)-based experimental setup and investigated the RF-visual signal correlation. Our CKD-RF sensing technique is characterized by two modes -- a camera-fed Teacher Class Network (e.g., images, videos) with an SDR-fed Student Class Network (e.g., RF signals). Specifically, our CKD model trains a dual multi-branch teacher and student network by distilling and fusing knowledge bases. The resulting CKD models are then subsequently used to identify the multimodal correlation and teach the student branch in reverse. Instead of simply aggregating their learnings, CKD training comprised multiple parallel transformations with the two domains, i.e., visual images and RF signals. Once trained, our CKD model can efficiently preserve privacy and utilize the multimodal correlated logits from the two different neural networks for estimating poses without using visual signals/video frames (by using only the RF signals).
翻訳日:2023-05-25 18:42:15 公開日:2023-05-24
# 文書画像における少数ショットエンティティ認識に向けて:画像操作にロバストなグラフニューラルネットワークアプローチ

Towards Few-shot Entity Recognition in Document Images: A Graph Neural Network Approach Robust to Image Manipulation ( http://arxiv.org/abs/2305.14828v1 )

ライセンス: Link先を確認
Prashant Krishnan, Zilong Wang, Yangkun Wang and Jingbo Shang(参考訳) 近年,境界ボックス座標を事前学習言語モデルに組み込むことによって,文書画像からの実体認識に顕著な性能が達成されている。 座標を用いることで、各トークンの絶対位置を簡単にモデル化できるが、文書画像(例えば、シフト、回転、スケーリング)の操作に敏感であるかもしれない。 本稿では,トークン間のトポロジカルな隣接関係をさらに紹介し,それらの相対的な位置情報を強調する。 具体的には、文書中のトークンをノードとみなし、k-アネレス境界ボックスの位相的ヒューリスティックに基づいてエッジを定式化する。 このような隣接グラフはシフト、回転、スケーリングを含むアフィン変換に不変である。 言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより,これらのグラフを事前学習言語モデルに組み込むことで,新しいモデル LAGER が実現される。 2つのベンチマークデータセットの大規模な実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回り、操作に対する堅牢性も向上している。

Recent advances of incorporating layout information, typically bounding box coordinates, into pre-trained language models have achieved significant performance in entity recognition from document images. Using coordinates can easily model the absolute position of each token, but they might be sensitive to manipulations in document images (e.g., shifting, rotation or scaling), especially when the training data is limited in few-shot settings. In this paper, we propose to further introduce the topological adjacency relationship among the tokens, emphasizing their relative position information. Specifically, we consider the tokens in the documents as nodes and formulate the edges based on the topological heuristics from the k-nearest bounding boxes. Such adjacency graphs are invariant to affine transformations including shifting, rotations and scaling. We incorporate these graphs into the pre-trained language model by adding graph neural network layers on top of the language model embeddings, leading to a novel model LAGER. Extensive experiments on two benchmark datasets show that LAGER significantly outperforms strong baselines under different few-shot settings and also demonstrate better robustness to manipulations.
翻訳日:2023-05-25 18:41:46 公開日:2023-05-24
# ゼロショットおよびマイショットインテント分類のための事前学習インテントアウェアエンコーダ

Pre-training Intent-Aware Encoders for Zero- and Few-Shot Intent Classification ( http://arxiv.org/abs/2305.14827v1 )

ライセンス: Link先を確認
Mujeen Sung, James Gung, Elman Mansimov, Nikolaos Pappas, Raphael Shu, Salvatore Romeo, Yi Zhang, Vittorio Castelli(参考訳) Intent Classification (IC) は、タスク指向対話システムにおいて重要な役割を担い、与えられた発話からユーザ意図を識別する。 しかし、ICの限定アノテーションで訓練されたモデルは、目に見えない意図クラスへの一般化の欠如に悩まされることが多い。 本稿では,テキストエンコーダのための新しい事前学習法を提案し,icタスクに適した組込みを生成するためにpsuedoラベルを用いたコントラスト学習を用いた。 この事前学習戦略を適用することで、事前学習されたインテントアウェアエンコーダ(pie)も導入する。 具体的には、まずタグをトレーニングし、意図の解釈に不可欠な発話中のキーフレーズを識別する。 次に、抽出したフレーズを用いて、コントラスト的な方法でテキストエンコーダを事前学習する例を作成する。 その結果、4つのICデータセット上でのNウェイゼロおよびワンショット設定に対する先行訓練文エンコーダよりも最大5.4%と4.0%の精度を実現した。

Intent classification (IC) plays an important role in task-oriented dialogue systems as it identifies user intents from given utterances. However, models trained on limited annotations for IC often suffer from a lack of generalization to unseen intent classes. We propose a novel pre-training method for text encoders that uses contrastive learning with intent psuedo-labels to produce embeddings that are well-suited for IC tasks. By applying this pre-training strategy, we also introduce the pre-trained intent-aware encoder (PIE). Specifically, we first train a tagger to identify key phrases within utterances that are crucial for interpreting intents. We then use these extracted phrases to create examples for pre-training a text encoder in a contrastive manner. As a result, our PIE model achieves up to 5.4% and 4.0% higher accuracy than the previous state-of-the-art pre-trained sentence encoder for the N-way zero- and one-shot settings on four IC datasets.
翻訳日:2023-05-25 18:41:25 公開日:2023-05-24
# 生成グラフ変換による交通基礎モデルの構築

Building Transportation Foundation Model via Generative Graph Transformer ( http://arxiv.org/abs/2305.14826v1 )

ライセンス: Link先を確認
Xuhong Wang, Ding Wang, Liang Chen and Yilun Lin(参考訳) 都市交通の効率的な管理は、特に渋滞や事故、遅延が発生する人口密集地において、都市交通の維持に不可欠である。 しかし,既存の予測手法では,単一目的を最適化し,交通システムの複雑な構成を理解する上で,課題に直面している。 さらに、マクロシステムを理解する能力が欠如しており、ビッグデータを効率的に利用できない。 本稿では,交通シミュレーションの原理を交通予測に統合した交通基盤モデル(TFM)を提案する。 tfmは、グラフ構造と動的グラフ生成アルゴリズムを使用して、輸送システムアクタの参加行動と相互作用をキャプチャする。 このデータ駆動・モデルフリーシミュレーション手法は、構造的複雑性とモデル精度の観点から従来のシステムで直面する課題に対処し、実データによる複雑な輸送問題を解決する基盤を提供する。 提案手法は,都市交通環境における交通結果を正確に予測する有望な結果を示す。

Efficient traffic management is crucial for maintaining urban mobility, especially in densely populated areas where congestion, accidents, and delays can lead to frustrating and expensive commutes. However, existing prediction methods face challenges in terms of optimizing a single objective and understanding the complex composition of the transportation system. Moreover, they lack the ability to understand the macroscopic system and cannot efficiently utilize big data. In this paper, we propose a novel approach, Transportation Foundation Model (TFM), which integrates the principles of traffic simulation into traffic prediction. TFM uses graph structures and dynamic graph generation algorithms to capture the participatory behavior and interaction of transportation system actors. This data-driven and model-free simulation method addresses the challenges faced by traditional systems in terms of structural complexity and model accuracy and provides a foundation for solving complex transportation problems with real data. The proposed approach shows promising results in accurately predicting traffic outcomes in an urban transportation setting.
翻訳日:2023-05-25 18:41:09 公開日:2023-05-24
# 大規模言語モデルはシンボリック推論ではなく文脈内意味推論である

Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners ( http://arxiv.org/abs/2305.14825v1 )

ライセンス: Link先を確認
Xiaojuan Tang, Zilong Zheng, Jiaqi Li, Fanxu Meng, Song-Chun Zhu, Yitao Liang, Muhan Zhang(参考訳) 大規模言語モデル(llm)の創発的な少数ショット推論能力は、近年、自然言語と機械学習コミュニティを刺激している。 多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。 本研究では,学習した言語トークンの「textit{semantics}」が推論過程において最も重い処理を行うと仮定する。 人間の象徴的推論プロセスと異なり、llmの意味的表現はトークン間の強いつながりを生み出し、表面的な論理連鎖を構成する。 本仮説を検証するために,言語推論から意味論を分離し,推論能力,推論,帰納,誘拐の3種類の推論能力を評価する。 本研究は,LLMにおける意味論が意味論的推論において重要な役割を担っていることを明らかにする。 この驚くべき観察は、現代のLLMが人間の知能のように誘導的、誘因的、誘因的推論能力を習得したかどうかを疑問視し、ブラックボックスのLLMに存在する魔法を明らかにするための研究を動機付けている。 本分析は,言語モデルの推論能力の発達と評価における意味論の役割について,新たな視点を提供する。 コードは {\url{https://github.com/XiaojuanTang/ICSR}}で入手できる。

The emergent few-shot reasoning capabilities of Large Language Models (LLMs) have excited the natural language and machine learning community over recent years. Despite of numerous successful applications, the underlying mechanism of such in-context capabilities still remains unclear. In this work, we hypothesize that the learned \textit{semantics} of language tokens do the most heavy lifting during the reasoning process. Different from human's symbolic reasoning process, the semantic representations of LLMs could create strong connections among tokens, thus composing a superficial logical chain. To test our hypothesis, we decouple semantics from the language reasoning process and evaluate three kinds of reasoning abilities, i.e., deduction, induction and abduction. Our findings reveal that semantics play a vital role in LLMs' in-context reasoning -- LLMs perform significantly better when semantics are consistent with commonsense but struggle to solve symbolic or counter-commonsense reasoning tasks by leveraging in-context new knowledge. The surprising observations question whether modern LLMs have mastered the inductive, deductive and abductive reasoning abilities as in human intelligence, and motivate research on unveiling the magic existing within the black-box LLMs. On the whole, our analysis provides a novel perspective on the role of semantics in developing and evaluating language models' reasoning abilities. Code is available at {\url{https://github.com/XiaojuanTang/ICSR}}.
翻訳日:2023-05-25 18:40:52 公開日:2023-05-24
# 時代遅れの要素を識別する時間的過失

Mitigating Temporal Misalignment by Discarding Outdated Facts ( http://arxiv.org/abs/2305.14824v1 )

ライセンス: Link先を確認
Michael J.Q. Zhang and Eunsol Choi(参考訳) 大規模な言語モデルは、事前トレーニング中に見られる膨大な量の知識を保持できるが、そのような知識は時代遅れになりがちであり、更新するのは簡単ではない。 さらに、これらのモデルは、過去に収集されたデータについてのみ訓練されたにもかかわらず、現在に関する質問に答えるタスクとして、時間的ミスアライメントの下でしばしば使用される。 時間的ミスアライメントの効果を軽減するために,与えられた事実がいつまで真実であるかを予測するタスクとして,実時間予測を提案する。 実験では, 急激な変化を招きやすい事実の同定が, 時代遅れの情報のリサイクリングを回避し, 最新の知識ソースを探すためにどの予測が必要なのかを明らかにする。 また,オープンリトライバル質問応答などの知識集約的タスクのキャリブレーションを,揮発性事実を捨てることによる時間的不一致の下で,ファクト継続のモデリングがいかに改善するかを示す。 私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されます。

While large language models are able to retain vast amounts of world knowledge seen during pretraining, such knowledge is prone to going out of date and is nontrivial to update. Furthermore, these models are often used under temporal misalignment, tasked with answering questions about the present, despite having only been trained on data collected in the past. To mitigate the effects of temporal misalignment, we propose fact duration prediction: the task of predicting how long a given fact will remain true. In our experiments, we demonstrate how identifying facts that are prone to rapid change can help models avoid from reciting outdated information and identify which predictions require seeking out up-to-date knowledge sources. We also show how modeling fact duration improves calibration for knowledge-intensive tasks, such as open-retrieval question answering, under temporal misalignment by discarding volatile facts. Our data and code will be released publicly at https://github.com/mikejqzhang/mitigating_misalignment.
翻訳日:2023-05-25 18:40:27 公開日:2023-05-24
# 著作権はプライバシーに還元できるか?

Can Copyright be Reduced to Privacy? ( http://arxiv.org/abs/2305.14822v1 )

ライセンス: Link先を確認
Niva Elkin-Koren and Uri Hacohen and Roi Livni and Shay Moran(参考訳) 生成型AIモデルが、トレーニングされた著作権された入力コンテンツと著しく類似した出力を生成するのではないかという懸念が高まっている。 この懸念は、生成モデルの品質と複雑さが大幅に改善され、著作権物質を含む大規模なデータセットが利用可能になったためエスカレートしている。 研究者は、侵害するサンプルを生産するリスクを軽減するための戦略を積極的に検討しており、最近の研究は、著作権のあるコンテンツを保護するために微分プライバシーやその他のアルゴリズムの安定性のような手法を採用することを示唆している。 本研究では, 著作権法を不当に侵害することなく, 生成モデルの責任性を確保するために, 差分プライバシーなどのアルゴリズム的安定性技術が適切かどうかを考察する。 プライバシーと著作権には根本的な違いがあり、見落としるべきではない。 特に、アルゴリズムの安定性は、コピーを検出する実用的なツールとして認識されるかもしれないが、必ずしも著作権保護に等しいものではないことを強調する。 したがって、著作権侵害の標準として採用されれば、著作権法を意図した目的を損なう可能性がある。

There is an increasing concern that generative AI models may produce outputs that are remarkably similar to the copyrighted input content on which they are trained. This worry has escalated as the quality and complexity of generative models have immensely improved, and the availability of large datasets containing copyrighted material has increased. Researchers are actively exploring strategies to mitigate the risk of producing infringing samples, and a recent line of work suggests to employ techniques such as differential privacy and other forms of algorithmic stability to safeguard copyrighted content. In this work, we examine the question whether algorithmic stability techniques such as differential privacy are suitable to ensure the responsible use of generative models without inadvertently violating copyright laws. We argue that there are fundamental differences between privacy and copyright that should not be overlooked. In particular we highlight that although algorithmic stability may be perceived as a practical tool to detect copying, it does not necessarily equate to copyright protection. Therefore, if it is adopted as standard for copyright infringement, it may undermine copyright law intended purposes.
翻訳日:2023-05-25 18:40:08 公開日:2023-05-24
# SWAMP: 繰り返しマグニチュード・プルーニングのための複数粒子を用いたスパース重量平均化

SWAMP: Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning ( http://arxiv.org/abs/2305.14852v1 )

ライセンス: Link先を確認
Moonseok Choi, Hyungi Lee, Giung Nam, Juho Lee(参考訳) 現代のニューラルネットワークのサイズが絶え間なく大きくなる中、推論速度の加速とメモリ要求の最小化により、スパースアーキテクチャの重要性が高まっている。 グローバルプルーニング技術に関して言えば、イテレーティブ・マグニチュード・プルーニング(IMP)は、非常にスパースな状況において、その単純さにもかかわらず最先端のアルゴリズムである。 近年, 2 つの IMP ソリューションが損失障壁を伴わずに線形に接続されているという発見を踏まえ, 2 つの IMP ソリューションのアンサンブルに匹敵する性能を実現する IMP の簡単な修正である Sparse Weight Averaging with Multiple Particles (SWAMP) を提案する。 各イテレーションにおいて、複数のスパースモデルを同時に訓練し、異なるバッチオーダを使用して、同じマッチングチケットを使用して、そのようなモデルを重み平均して1つのマスクを生成する。 提案手法は,様々なデータおよびニューラルネットワーク構造に関する広範囲な実験により,既存のベースラインと異なるスパルシティーを一貫して上回ることを実証する。

Given the ever-increasing size of modern neural networks, the significance of sparse architectures has surged due to their accelerated inference speeds and minimal memory demands. When it comes to global pruning techniques, Iterative Magnitude Pruning (IMP) still stands as a state-of-the-art algorithm despite its simple nature, particularly in extremely sparse regimes. In light of the recent finding that the two successive matching IMP solutions are linearly connected without a loss barrier, we propose Sparse Weight Averaging with Multiple Particles (SWAMP), a straightforward modification of IMP that achieves performance comparable to an ensemble of two IMP solutions. For every iteration, we concurrently train multiple sparse models, referred to as particles, using different batch orders yet the same matching ticket, and then weight average such models to produce a single mask. We demonstrate that our method consistently outperforms existing baselines across different sparsities through extensive experiments on various data and neural network structures.
翻訳日:2023-05-25 18:34:21 公開日:2023-05-24
# DuDGAN:デュアル拡散によるクラス依存型GANの改善

DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion ( http://arxiv.org/abs/2305.14849v1 )

ライセンス: Link先を確認
Taesun Yeom, Minhyeok Lee(参考訳) generative adversarial network (gans) を用いたクラス条件画像生成は様々な手法で研究されてきたが、クラス内変動の高いデータセットの場合、モード崩壊、トレーニング不安定性、低品質出力などの課題に直面している。 さらに、ほとんどのganは、しばしばより大きなイテレーションに収束し、トレーニング手順でのイテレーション有効性が低下する。 diffusion-ganは現実的なサンプルを生成する可能性を示したが、クラス条件標本の生成には限界がある。 このような制約を克服するために,DuDGANと呼ばれる2つの拡散型ノイズ注入プロセスを含むGANを用いたクラス条件画像生成手法を提案する。 本手法は,識別器,生成器,分類器の3つのユニークなネットワークからなる。 訓練中、gaussian-mixtureノイズは2つのノイズ認識ネットワーク(判別器と分類器)に異なる方法で注入される。 このノイズの多いデータは、より困難なタスクを徐々に導入することで、過剰フィッティングを防ぐのに役立つ。 その結果,提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れていることがわかった。 AFHQ, Food-101, CIFAR-10データセットを用いて本手法の評価を行い, FID, KID, Precision, Recallのスコアを比較モデルと比較し,提案手法の有効性を強調した。

Class-conditional image generation using generative adversarial networks (GANs) has been investigated through various techniques; however, it continues to face challenges such as mode collapse, training instability, and low-quality output in cases of datasets with high intra-class variation. Furthermore, most GANs often converge in larger iterations, resulting in poor iteration efficacy in training procedures. While Diffusion-GAN has shown potential in generating realistic samples, it has a critical limitation in generating class-conditional samples. To overcome these limitations, we propose a novel approach for class-conditional image generation using GANs called DuDGAN, which incorporates a dual diffusion-based noise injection process. Our method consists of three unique networks: a discriminator, a generator, and a classifier. During the training process, Gaussian-mixture noises are injected into the two noise-aware networks, the discriminator and the classifier, in distinct ways. This noisy data helps to prevent overfitting by gradually introducing more challenging tasks, leading to improved model performance. As a result, our method outperforms state-of-the-art conditional GAN models for image generation in terms of performance. We evaluated our method using the AFHQ, Food-101, and CIFAR-10 datasets and observed superior results across metrics such as FID, KID, Precision, and Recall score compared with comparison models, highlighting the effectiveness of our approach.
翻訳日:2023-05-25 18:34:04 公開日:2023-05-24
# 言語モデルを用いたドラフトイベントスキーマ

Drafting Event Schemas using Language Models ( http://arxiv.org/abs/2305.14847v1 )

ライセンス: Link先を確認
Anisha Gunjal, Greg Durrett(参考訳) 過去の研究は、イベント予測とイベント言語モデリングを研究しており、時にはイベントスキーマの形式で知識の構造的表現を介する。 このようなスキーマは、説明可能な予測と、不完全な情報が与えられた見えない事象の予測につながる可能性がある。 本稿では、複雑なイベントを記述するためのスキーマを作成するプロセスについて考察する。 我々は、大きな言語モデル(LLM)を使用して、自然言語でスキーマを直接ドラフトします。 私たちの焦点は、キーイベントの十分な多様性とリコール、スキーマを十分に記述的なスタイルで生成できるかどうかにあります。 大規模言語モデルは、2つの異なるデータセットから抽出したスキーマに対して適度なリコールを達成することができ、複数のプロンプトと複数のサンプルを組み合わせると、さらによい結果が得られることを示す。 さらに,イベントのインスタンスに対するスキーマのマッチングや,金と予測スキーマの重複評価にも,テキストによる補間手法が有効であることを示す。 提案手法は,大規模言語モデルからスキーマへのイベント知識の蒸留を容易にする方法である。

Past work has studied event prediction and event language modeling, sometimes mediated through structured representations of knowledge in the form of event schemas. Such schemas can lead to explainable predictions and forecasting of unseen events given incomplete information. In this work, we look at the process of creating such schemas to describe complex events. We use large language models (LLMs) to draft schemas directly in natural language, which can be further refined by human curators as necessary. Our focus is on whether we can achieve sufficient diversity and recall of key events and whether we can produce the schemas in a sufficiently descriptive style. We show that large language models are able to achieve moderate recall against schemas taken from two different datasets, with even better results when multiple prompts and multiple samples are combined. Moreover, we show that textual entailment methods can be used for both matching schemas to instances of events as well as evaluating overlap between gold and predicted schemas. Our method paves the way for easier distillation of event knowledge from large language model into schemas.
翻訳日:2023-05-25 18:33:38 公開日:2023-05-24
# クリーンな特徴混成によるターゲットとした敵の移動性向上のための競争の導入

Introducing Competition to Boost the Transferability of Targeted Adversarial Examples through Clean Feature Mixup ( http://arxiv.org/abs/2305.14846v1 )

ライセンス: Link先を確認
Junyoung Byun, Myung-Joon Kwon, Seungju Cho, Yoonji Kim, Changick Kim(参考訳) ディープニューラルネットワークは敵の例に影響を受けやすいことが広く知られており、微妙な入力修正によって誤った予測を引き起こす可能性がある。 これらの敵の例はモデル間で転送可能である傾向にあるが、決定境界が著しく異なるため、標的攻撃は依然として攻撃の成功率を下げている。 対象とする対向例の転送可能性を高めるために,最適化プロセスに競合を導入することを提案する。 私たちのアイデアは、異なるターゲットクラスに対する逆摂動と正しいクラスへの友好摂動という2つの新しいタイプの競合ノイズの存在下で逆摂動を作ることです。 これらの競合により、敵の例がネットワークを欺いてターゲットクラスにつながる特定の特徴を抽出するとしても、この混乱は他の競合によって抑制される。 したがって、この競争において、敵の例は、より多様な特徴を活用して干渉を克服し、異なるモデルへの転送可能性を改善することで、異なる攻撃戦略をとるべきである。 計算の複雑さを考慮すると、モデル推論で保存されたクリーンな特徴をランダムに混合することで、これらの2種類の競合による機能空間における様々な干渉を効率的にシミュレートし、この手法をclean feature mixup(cfm)と名付けた。 imagenet互換データセットとcifar-10データセットの広範な実験結果から,提案手法が既存のベースラインよりも高いマージンを示した。 私たちのコードはhttps://github.com/dreamflake/cfmで利用可能です。

Deep neural networks are widely known to be susceptible to adversarial examples, which can cause incorrect predictions through subtle input modifications. These adversarial examples tend to be transferable between models, but targeted attacks still have lower attack success rates due to significant variations in decision boundaries. To enhance the transferability of targeted adversarial examples, we propose introducing competition into the optimization process. Our idea is to craft adversarial perturbations in the presence of two new types of competitor noises: adversarial perturbations towards different target classes and friendly perturbations towards the correct class. With these competitors, even if an adversarial example deceives a network to extract specific features leading to the target class, this disturbance can be suppressed by other competitors. Therefore, within this competition, adversarial examples should take different attack strategies by leveraging more diverse features to overwhelm their interference, leading to improving their transferability to different models. Considering the computational complexity, we efficiently simulate various interference from these two types of competitors in feature space by randomly mixing up stored clean features in the model inference and named this method Clean Feature Mixup (CFM). Our extensive experimental results on the ImageNet-Compatible and CIFAR-10 datasets show that the proposed method outperforms the existing baselines with a clear margin. Our code is available at https://github.com/dreamflake/CFM.
翻訳日:2023-05-25 18:33:21 公開日:2023-05-24
# 言語間視覚伝達のためのメタラーニング

Meta-Learning For Vision-and-Language Cross-lingual Transfer ( http://arxiv.org/abs/2305.14843v1 )

ライセンス: Link先を確認
Hanxu Hu, Frank Keller(参考訳) 現在のvison-Language Model (PVLM) は、様々なマルチモーダルデータセットにおいて優れた性能を発揮する。 近年,多言語モデルの構築を目的とした研究が行われ,多言語多モーダルデータセットが提案されている。 現在のpvlmは、マルチモーダルなゼロショットや少数ショットのクロスリンガル転送、特に低リソース言語で使用される場合、これらのデータセットでパフォーマンスが悪い。 この問題を解決するために,新しいメタ学習型微調整フレームワークを提案する。 本フレームワークは,mamlを言語間マルチモーダルで設計することにより,視覚言語シナリオにおける新しい言語に迅速に適応する。 XVNLI, xGQA, MARVL, xFlicker&Co の視覚言語理解タスクおよびデータセットにおけるゼロショットおよび少数ショットの言語間移動における現在のPVLMの性能を向上させる実験を行った。

Current pre-trained vison-language models (PVLMs) achieve excellent performance on a range of multi-modal datasets. Recent work has aimed at building multilingual models, and a range of novel multilingual multi-modal datasets have been proposed. Current PVLMs typically perform poorly on these datasets when used for multi-modal zero-shot or few-shot cross-lingual transfer, especially for low-resource languages. To alleviate this problem, we propose a novel meta-learning fine-tuning framework. Our framework makes current PVLMs rapidly adaptive to new languages in vision-language scenarios by designing MAML in a cross-lingual multi-modal manner. Experiments show that our method boosts the performance of current state-of-the-art PVLMs in both zero-shot and few-shot cross-lingual transfer on a range of vision-language understanding tasks and datasets (XVNLI, xGQA, MaRVL, xFlicker&Co
翻訳日:2023-05-25 18:32:53 公開日:2023-05-24
# 自然言語処理における感性分析手法の探求:包括的考察

Exploring Sentiment Analysis Techniques in Natural Language Processing: A Comprehensive Review ( http://arxiv.org/abs/2305.14842v1 )

ライセンス: Link先を確認
Karthick Prasad Gunasekaran(参考訳) 感性分析(英: Sentiment Analysis、SA)は、テキストによる感情の検出と理解を自動化するプロセスである。 過去10年間で、自然言語処理(NLP)分野において、SAは大きな人気を集めている。 ソーシャルメディアやオンラインプラットフォームの普及に伴い、SAは顧客からのフィードバックを集め、マーケティング戦略を形作ることの重要性が高まっている。 さらに、研究者は様々なトピックに対する大衆の感情を分析するためにSAに依存している。 本研究は,SAにおける最新の動向と技術を探るため,総合的な調査を行った。 調査には、レキシコンベース、グラフベース、ネットワークベース、マシンラーニング、ディープラーニング、アンサンブルベース、ルールベース、ハイブリッド技術など、幅広い方法が含まれている。 論文はまた、皮肉と皮肉の扱い、多言語データの解析、倫理的懸念の対処など、saの課題と機会についても取り上げている。 実践的なケーススタディとして、twitterは最大のオンラインソーシャルメディアプラットフォームのひとつに選ばれた。 さらに研究者たちは、ソーシャルメディア、ヘルスケア、マーケティング、金融、政治など、SAのさまざまな応用分野にも光を当てた。 また,既存のトレンド,技術,データセット,評価指標の比較,総合的な分析を行った。 最終的な目標は、研究者や実践者がSAテクニックの体系的なレビューを行い、既存のギャップを特定し、改善の可能性を提案することである。 本研究の目的は,SAプロセスの効率性と精度の向上であり,よりスムーズでエラーのない結果をもたらすことである。

Sentiment analysis (SA) is the automated process of detecting and understanding the emotions conveyed through written text. Over the past decade, SA has gained significant popularity in the field of Natural Language Processing (NLP). With the widespread use of social media and online platforms, SA has become crucial for companies to gather customer feedback and shape their marketing strategies. Additionally, researchers rely on SA to analyze public sentiment on various topics. In this particular research study, a comprehensive survey was conducted to explore the latest trends and techniques in SA. The survey encompassed a wide range of methods, including lexicon-based, graph-based, network-based, machine learning, deep learning, ensemble-based, rule-based, and hybrid techniques. The paper also addresses the challenges and opportunities in SA, such as dealing with sarcasm and irony, analyzing multi-lingual data, and addressing ethical concerns. To provide a practical case study, Twitter was chosen as one of the largest online social media platforms. Furthermore, the researchers shed light on the diverse application areas of SA, including social media, healthcare, marketing, finance, and politics. The paper also presents a comparative and comprehensive analysis of existing trends and techniques, datasets, and evaluation metrics. The ultimate goal is to offer researchers and practitioners a systematic review of SA techniques, identify existing gaps, and suggest possible improvements. This study aims to enhance the efficiency and accuracy of SA processes, leading to smoother and error-free outcomes.
翻訳日:2023-05-25 18:32:33 公開日:2023-05-24
# UNetアーキテクチャと転送学習を用いた深層学習に基づくバイオメディカルイメージセグメンテーション

Deep Learning-based Bio-Medical Image Segmentation using UNet Architecture and Transfer Learning ( http://arxiv.org/abs/2305.14841v1 )

ライセンス: Link先を確認
Nima Hassanpour and Abouzar Ghavami(参考訳) イメージセグメンテーション(英: Image segmentation)は、バイオメディカル画像処理を含む現実世界で広く使われているコンピュータビジョンの分野である。 近年のディープラーニングの進歩により、画像のセグメンテーションは非常に高い性能で達成されている。 近年,UNetアーキテクチャが新たなディープラーニングセグメンテーション手法のコアとなっている。 本稿では,Pytorchの基本ブロックをスクラッチから実装し,複数のバイオメディカル画像データセット上での性能を評価する。 また,生体画像データセットに新しい修正unetセグメンテーションパッケージを適用するために,転送学習を用いる。 トレーニング済みのトランスファーモデルを個々のデータセットで微調整する。 性能とUNetの基本的な実装を比較します。 トランスファー学習モデルは,スクラッチから実装したunetモデルよりも画像分割の性能が良いことを示す。

Image segmentation is a branch of computer vision that is widely used in real world applications including biomedical image processing. With recent advancement of deep learning, image segmentation has achieved at a very high level performance. Recently, UNet architecture is found as the core of novel deep learning segmentation methods. In this paper we implement UNet architecture from scratch with using basic blocks in Pytorch and evaluate its performance on multiple biomedical image datasets. We also use transfer learning to apply novel modified UNet segmentation packages on the biomedical image datasets. We fine tune the pre-trained transferred model with each specific dataset. We compare its performance with our fundamental UNet implementation. We show that transferred learning model has better performance in image segmentation than UNet model that is implemented from scratch.
翻訳日:2023-05-25 18:32:09 公開日:2023-05-24
# 効率的な視覚トランスフォーマへのトークンの影響予測

Predicting Token Impact Towards Efficient Vision Transformer ( http://arxiv.org/abs/2305.14840v1 )

ライセンス: Link先を確認
Hong Wang, Su Yang, Xiaoke Huang, Weishan Zhang(参考訳) 自己注意の前に無関係なトークンを減らすためのトークンフィルタリングは、効率的な視覚変換を実現するための簡単な方法である。 これは、機能選択の観点からトークンフィルタリングを初めて見る作業であり、一度マスクされた損失をどの程度変えられるかに応じてトークンの重要性を重み付けします。 もし損失が利息のトークンをマスキングした後で大きく変化した場合、そのようなトークンは最終決定に重大な影響を与え、従って関連することを意味する。 そうでなければ、トークンは最終決定にはあまり重要ではないため、フィルタリングすることができる。 トレーニングデータ全体から一般化されたトークンフィルタリングモジュールを適用すると、自己照準モジュールに供給されるトークン番号が推論フェーズ内で明らかに減少し、その後のすべての自己照準層での計算量が大幅に減少する。 トークンフィルタは非常に単純なネットワークで実現でき、多層パーセプトロンを利用する。 自己アテンション前の初めから一度だけトークンフィルタリングを実行するという一意性を除けば、他のトークンフィルタとメソッドを異なるものにするのは、特徴選択の観点からトークンの影響を予測することにある。 提案手法は,スクラッチからのトレーニングに基づく既存手法と比較してデプロイが容易な微調整によってバックボーンを最適化した上で,軽量モデルにアプローチする効率的な方法であることを示す。

Token filtering to reduce irrelevant tokens prior to self-attention is a straightforward way to enable efficient vision Transformer. This is the first work to view token filtering from a feature selection perspective, where we weigh the importance of a token according to how much it can change the loss once masked. If the loss changes greatly after masking a token of interest, it means that such a token has a significant impact on the final decision and is thus relevant. Otherwise, the token is less important for the final decision, so it can be filtered out. After applying the token filtering module generalized from the whole training data, the token number fed to the self-attention module can be obviously reduced in the inference phase, leading to much fewer computations in all the subsequent self-attention layers. The token filter can be realized using a very simple network, where we utilize multi-layer perceptron. Except for the uniqueness of performing token filtering only once from the very beginning prior to self-attention, the other core feature making our method different from the other token filters lies in the predictability of token impact from a feature selection point of view. The experiments show that the proposed method provides an efficient way to approach a light weighted model after optimized with a backbone by means of fine tune, which is easy to be deployed in comparison with the existing methods based on training from scratch.
翻訳日:2023-05-25 18:31:58 公開日:2023-05-24
# PaCE: プログレッシブ・コンポジションエキスパートによるマルチモーダル対話事前学習

PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts ( http://arxiv.org/abs/2305.14839v1 )

ライセンス: Link先を確認
Yunshui Li, Binyuan Hui, ZhiChao Yin, Min Yang, Fei Huang and Yongbin Li(参考訳) マルチモーダル情報の知覚と人間との対話の実現は、人工知能の長期的な目標である。 プレトレーニングは、一般的にマルチモーダル対話の効果的なアプローチと見なされる。 しかし、マルチモーダル対話データの入手が限られているため、マルチモーダル対話事前学習に関する研究はいまだに少ない。 しかし、他の興味深い課題は、様々なモダリティやタスクを含むマルチモーダル対話の包含性から生まれる。 さらに、新しいタスクの形式は、将来予測不可能なポイントで生まれる可能性がある。 したがって,マルチモーダル対話モデルでは,このようなシナリオに十分な柔軟性を持たせることが不可欠である。 本稿では,統一的,構造化,構成的多モーダル対話事前学習フレームワークである \textbf{pace} を提案する。 複数の対話関連タスクに対応するために、いくつかの基本的な専門家を組み合わせており、限られた対話と広範な非対話マルチモーダルデータを用いて事前訓練することができる。 さらに,過去の古参の専門家が,その能力拡大を促進するために,新しい専門家を支援できるプログレッシブトレーニング手法を提案する。 実験の結果,PaCEは8つのマルチモーダルダイアログベンチマークで最先端の結果を得ることができた。

Perceiving multi-modal information and fulfilling dialogues with humans is a long-term goal of artificial intelligence. Pre-training is commonly regarded as an effective approach for multi-modal dialogue. However, due to the limited availability of multi-modal dialogue data, there is still scarce research on multi-modal dialogue pre-training. Yet another intriguing challenge emerges from the encompassing nature of multi-modal dialogue, which involves various modalities and tasks. Moreover, new forms of tasks may arise at unpredictable points in the future. Hence, it is essential for designed multi-modal dialogue models to possess sufficient flexibility to adapt to such scenarios. This paper proposes \textbf{PaCE}, a unified, structured, compositional multi-modal dialogue pre-training framework. It utilizes a combination of several fundamental experts to accommodate multiple dialogue-related tasks and can be pre-trained using limited dialogue and extensive non-dialogue multi-modal data. Furthermore, we propose a progressive training method where old experts from the past can assist new experts, facilitating the expansion of their capabilities. Experimental results demonstrate that PaCE achieves state-of-the-art results on eight multi-modal dialog benchmarks.
翻訳日:2023-05-25 18:31:35 公開日:2023-05-24
# ComSL: エンドツーエンド音声テキスト翻訳のための複合言語モデル

ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation ( http://arxiv.org/abs/2305.14838v1 )

ライセンス: Link先を確認
Chenyang Le, Yao Qian, Long Zhou, Shujie Liu, Michael Zeng, Xuedong Huang(参考訳) 音声と言語間のモダリティギャップに加えて、トレーニングデータとgpu消費の需要が大きいため、音声と言語の合同トレーニングは困難である。 公立事前訓練された音声のみと言語のみの複合アーキテクチャ上に構築された音声言語モデルであるComSLについて述べる。 特に,トランスファー学習にクロスモダリティ学習を取り入れ,マルチタスク学習方式で下流タスクを同時に行うことを提案する。 提案手法は,21言語を対象とした多言語音声から英語への翻訳タスクにおいて,最先端の平均BLEUスコア31.5を達成し,エンドツーエンドの音声からテキストへの翻訳タスクに有効であることを示した。

Joint speech-language training is challenging due to the large demand for training data and GPU consumption, as well as the modality gap between speech and language. We present ComSL, a speech-language model built atop a composite architecture of public pretrained speech-only and language-only models and optimized data-efficiently for spoken language tasks. Particularly, we propose to incorporate cross-modality learning into transfer learning and conduct them simultaneously for downstream tasks in a multi-task learning manner. Our approach has demonstrated effectiveness in end-to-end speech-to-text translation tasks, achieving a new state-of-the-art average BLEU score of 31.5 on the multilingual speech to English text translation task for 21 languages, as measured on the public CoVoST2 evaluation set.
翻訳日:2023-05-25 18:31:17 公開日:2023-05-24
# 異なる測定文脈間の定量的関係

Quantitative Relations Between Different Measurement Contexts ( http://arxiv.org/abs/2305.14873v1 )

ライセンス: Link先を確認
Ming Ji and Holger F. Hofmann(参考訳) 量子論において、測定コンテキストはヒルベルト空間内の直交基底によって定義され、各基底ベクトルは特定の測定結果を表す。 したがって、2つの異なる測定コンテキスト間の正確な定量的関係は、ヒルベルト空間における非直交状態の内積によって特徴づけられる。 ここでは、異なる文脈で共有される測定結果を用いて、異なる文脈を表すヒルベルト空間ベクトルの内部積の間の特定の量的関係を導出する。 量子文脈性(quantum contextity)のパラドックスを記述する確率は、非常に少数の内積から導出され、量子文脈性は異なる測定コンテキストを表すヒルベルト空間ベクトル間の量的関係の必要な結果であることが示されている。 2つの系の積空間への解析の適用により、量子エンタングルメントの非局所性は、1つの系における測定コンテキスト間の関係を表す局所内積に遡ることができることが明らかとなった。 したがって、量子力学の本質的な非古典的特徴は、ヒルベルト空間形式論によって記述された異なる測定コンテキスト間の定量的関係から体系的に導出することができる。

In quantum theory, a measurement context is defined by an orthogonal basis in a Hilbert space, where each basis vector represents a specific measurement outcome. The precise quantitative relation between two different measurement contexts can thus be characterized by the inner products of nonorthogonal states in that Hilbert space. Here, we use measurement outcomes that are shared by different contexts to derive specific quantitative relations between the inner products of the Hilbert space vectors that represent the different contexts. It is shown that the probabilities that describe the paradoxes of quantum contextuality can be derived from a very small number of inner products, demonstrating that quantum contextuality is a necessary consequence of the quantitative relations between Hilbert space vectors representing different measurement contexts. The application of our analysis to a product space of two systems reveals that the non-locality of quantum entanglement can be traced back to a local inner product representing the relation between measurement contexts in only one system. Our results thus indicate that the essential non-classical features of quantum mechanics can all be derived systematically from the quantitative relations between different measurement contexts described by the Hilbert space formalism.
翻訳日:2023-05-25 18:24:29 公開日:2023-05-24
# 機械学習に基づく情報融合型aiモデルの不確実性定量化のための時系列認識不確実性ラッパー

Timeseries-aware Uncertainty Wrappers for Uncertainty Quantification of Information-Fusion-Enhanced AI Models based on Machine Learning ( http://arxiv.org/abs/2305.14872v1 )

ライセンス: Link先を確認
Janek Gro{\ss}, Michael Kl\"as, Lisa J\"ockel, Pascal Gerber(参考訳) サイバー物理システムにおける人工知能(AI)コンポーネントの使用が一般的になりつつあるため、信頼性の高いシステムアーキテクチャの必要性が高まっている。 データ駆動モデルは知覚タスクに優れるが、モデルの結果は通常、安全クリティカルなアプリケーションには十分信頼できない。 本稿では,時系列データを用いた不確実性推定のための時系列認識型不確実性ラッパを提案する。 不確実性ラッパーは、連続したモデル予測に対する情報融合と組み合わせて適用される。 不確実性ラッパーの適用は、トラヒックサイン認識ユースケースを用いて実証される。 本稿では,情報融合によるモデル精度の向上と,タイムリー認識による入力品質特性による不確実性推定の品質向上が可能であることを示す。

As the use of Artificial Intelligence (AI) components in cyber-physical systems is becoming more common, the need for reliable system architectures arises. While data-driven models excel at perception tasks, model outcomes are usually not dependable enough for safety-critical applications. In this work,we present a timeseries-aware uncertainty wrapper for dependable uncertainty estimates on timeseries data. The uncertainty wrapper is applied in combination with information fusion over successive model predictions in time. The application of the uncertainty wrapper is demonstrated with a traffic sign recognition use case. We show that it is possible to increase model accuracy through information fusion and additionally increase the quality of uncertainty estimates through timeseries-aware input quality features.
翻訳日:2023-05-25 18:24:13 公開日:2023-05-24
# ClusterLLM: テキストクラスタリングガイドとしての大規模言語モデル

ClusterLLM: Large Language Models as a Guide for Text Clustering ( http://arxiv.org/abs/2305.14871v1 )

ライセンス: Link先を確認
Yuwei Zhang, Zihan Wang, Jingbo Shang(参考訳) chatgpt のような命令調整された大規模言語モデルからのフィードバックを活用する,新しいテキストクラスタリングフレームワーク clusterllm を紹介する。 従来の"小さな"埋め込みをベースとした教師なしの手法と比較して、ClusterLLMは、(1)埋め込みがアクセスできない場合でもLCMの創発的な能力を享受し、(2)テキスト命令や注釈付きデータによるクラスタリングに対するユーザの好みを理解している。 まず,A,B,Cが異なるクラスタに属する類似データポイントである場合,強硬な三重項質問<does A better to B than C>を構成することにより,クラスタリングの視点についての洞察をChatGPTに促す。 筆者らは,この戦略が小型埋め込み機の微調整とChatGPTクエリのコスト効率に有効であることを実証的に示す。 第二に、ChatGPTは、ペアワイズな質問<do AとBは同じカテゴリに属する>によって、クラスタの粒度をクラスタ化するのに役立ち、ChatGPTの回答と最も整合したクラスタ階層から粒度を調整する。 14のデータセットに対する大規模な実験によると、ClusterLLMはデータセット当たりの平均コストが約0.6ドルで、クラスタリング品質を継続的に改善している。

We introduce ClusterLLM, a novel text clustering framework that leverages feedback from an instruction-tuned large language model, such as ChatGPT. Compared with traditional unsupervised methods that builds upon "small" embedders, ClusterLLM exhibits two intriguing advantages: (1) it enjoys the emergent capability of LLM even if its embeddings are inaccessible; and (2) it understands the user's preference on clustering through textual instruction and/or a few annotated data. First, we prompt ChatGPT for insights on clustering perspective by constructing hard triplet questions <does A better correspond to B than C>, where A, B and C are similar data points that belong to different clusters according to small embedder. We empirically show that this strategy is both effective for fine-tuning small embedder and cost-efficient to query ChatGPT. Second, we prompt ChatGPT for helps on clustering granularity by carefully designed pairwise questions <do A and B belong to the same category>, and tune the granularity from cluster hierarchies that is the most consistent with the ChatGPT answers. Extensive experiments on 14 datasets show that ClusterLLM consistently improves clustering quality, at an average cost of ~$0.6 per dataset.
翻訳日:2023-05-25 18:24:02 公開日:2023-05-24
# 車:概念化-ゼロショットコモンセンス質問応答のための推論

CAR: Conceptualization-Augmented Reasoner for Zero-Shot Commonsense Question Answering ( http://arxiv.org/abs/2305.14869v1 )

ライセンス: Link先を確認
Weiqi Wang, Tianqing Fang, Wenxuan Ding, Baixuan Xu, Xin Liu, Yangqiu Song, Antoine Bosselut(参考訳) zero-shot commonsense question answeringのタスクは、特定のデータセットに示される以上の一般的なシナリオを推論する能力のモデルを評価する。 このタスクに取り組むための既存のアプローチは、CSKBから構築された合成QAペアにモデルを事前学習することで、CSKB(CommonSense Knowledge Bases)からの外部知識を活用する。 これらのアプローチでは、負の例(ディストラクタ)は、かなり原始的なキーワード制約を用いてcskbからランダムにサンプリングすることで定式化される。 cskbの固有の不完全性は、合成qaペアの意味的カバレッジを制限し、人間のアノテーションの欠如は、サンプルされた否定的な例を潜在的に非形式的で矛盾する可能性がある。 上記の制限に対処するため,概念化のパワーをフル活用するゼロショットコモンセンス質問応答フレームワークである概念化拡張推論(CAR)を提案する。 特に、CARはコモンセンスの知識を多くの高レベルなインスタンスに抽象化し、CSKBのカバレッジを増大させ、基礎的な答え空間を拡大し、偽陰性なイントラクタを選択する可能性を減らす。 広範な実験により、gpt3.5やchatgptといった大規模言語モデルを含む既存の方法よりも、自動車はゼロショット・コモンセンスシナリオに関する質問に答えることにより堅牢に一般化できることが示されている。 私たちのコード、データ、モデルチェックポイントはhttps://github.com/HKUST-KnowComp/CAR.orgで公開されています。

The task of zero-shot commonsense question answering evaluates models on their capacity to reason about general scenarios beyond those presented in specific datasets. Existing approaches for tackling this task leverage external knowledge from CommonSense Knowledge Bases (CSKBs) by pretraining the model on synthetic QA pairs constructed from CSKBs. In these approaches, negative examples (distractors) are formulated by randomly sampling from CSKBs using fairly primitive keyword constraints. However, two bottlenecks limit these approaches: the inherent incompleteness of CSKBs limits the semantic coverage of synthetic QA pairs, and the lack of human annotations makes the sampled negative examples potentially uninformative and contradictory. To tackle these limitations above, we propose Conceptualization-Augmented Reasoner (CAR), a zero-shot commonsense question-answering framework that fully leverages the power of conceptualization. Specifically, CAR abstracts a commonsense knowledge triple to many higher-level instances, which increases the coverage of CSKB and expands the ground-truth answer space, reducing the likelihood of selecting false-negative distractors. Extensive experiments demonstrate that CAR more robustly generalizes to answering questions about zero-shot commonsense scenarios than existing methods, including large language models, such as GPT3.5 and ChatGPT. Our codes, data, and model checkpoints are available at https://github.com/HKUST-KnowComp/CAR.
翻訳日:2023-05-25 18:23:36 公開日:2023-05-24
# AIガバナンスのためのゲーム理論フレームワーク

A Game-Theoretic Framework for AI Governance ( http://arxiv.org/abs/2305.14865v1 )

ライセンス: Link先を確認
Na Zhang, Kun Yue, Chao Fang(参考訳) 変革的な汎用技術として、AIはさまざまな産業に力を与え、ユビキタスなアプリケーションを通じて私たちの生活を形作り続けています。 広範囲にわたるAIデプロイメントによる大きなメリットにもかかわらず、関連するダウンサイドリスクに対処し、AIの進歩が安全で公平で責任があり、人間の価値と一致していることを保証することが不可欠である。 そのためには、効果的なAIガバナンスを確立する必要があります。 本研究では,規制当局とAI企業間の戦略的相互作用が,AIガバナンスのためのゲーム理論モデリングフレームワークの提案を動機とした,Stackelbergゲームに固有の構造を持つことを示す。 特に、リーダーとフォロワからなるstackelbergゲームのようなインタラクションを定式化し、そのゲーム構造を同時プレイと比べて、その基盤となるゲーム構造をキャプチャする。 さらに、リーダーの選択は、自然に2つの設定をもたらす。 ひとつは、民間ドメインのAIガバナンスに、もうひとつは安全クリティカルで軍事的なドメインに、もうひとつは、インテリジェントなシステムの能力に基づいて、ガバナンスの2つの設定を選択することが可能です。 私たちの知る限りでは、この研究はAIガバナンスの分析と構造化にゲーム理論を使った最初のものである。 また、将来的な方向性についても議論し、この学際分野への研究の関心を高めることを期待する。 高いレベルでは、この研究が、既存の質的アプローチの多くの欠点を克服する大きな約束を持つ、技術政策分野のための定量的かつai駆動の手法である、技術政策の新しいパラダイムの開発に寄与することを望んでいる。

As a transformative general-purpose technology, AI has empowered various industries and will continue to shape our lives through ubiquitous applications. Despite the enormous benefits from wide-spread AI deployment, it is crucial to address associated downside risks and therefore ensure AI advances are safe, fair, responsible, and aligned with human values. To do so, we need to establish effective AI governance. In this work, we show that the strategic interaction between the regulatory agencies and AI firms has an intrinsic structure reminiscent of a Stackelberg game, which motivates us to propose a game-theoretic modeling framework for AI governance. In particular, we formulate such interaction as a Stackelberg game composed of a leader and a follower, which captures the underlying game structure compared to its simultaneous play counterparts. Furthermore, the choice of the leader naturally gives rise to two settings. And we demonstrate that our proposed model can serves as a unified AI governance framework from two aspects: firstly we can map one setting to the AI governance of civil domains and the other to the safety-critical and military domains, secondly, the two settings of governance could be chosen contingent on the capability of the intelligent systems. To the best of our knowledge, this work is the first to use game theory for analyzing and structuring AI governance. We also discuss promising directions and hope this can help stimulate research interest in this interdisciplinary area. On a high, we hope this work would contribute to develop a new paradigm for technology policy: the quantitative and AI-driven methods for the technology policy field, which holds significant promise for overcoming many shortcomings of existing qualitative approaches.
翻訳日:2023-05-25 18:23:06 公開日:2023-05-24
# 教師を必要としない大規模言語モデル蒸留

Large Language Model Distillation Doesn't Need a Teacher ( http://arxiv.org/abs/2305.14864v1 )

ライセンス: Link先を確認
Ananya Harsh Jha, Dirk Groeneveld, Emma Strubell, Iz Beltagy(参考訳) 知識蒸留は、より小さな学生モデルを訓練し、より大きな教師の出力分布と一致させ、計算制約下でのエンドタスク性能を最大化する。 しかし、既存の言語モデル蒸留に関する文献では、主にエンコーダのみのモデルを圧縮することに焦点を当てている。 このセットアップを、数十億から数十億のパラメータを持つ、最近の大規模言語モデルに再考する必要があります。 タスク固有の微調整はこのスケールでは非現実的であり、モデル性能はゼロ/フェーショットプロンプトを用いてしばしば測定される。 そこで本研究では,エンドタスク微調整データにアクセスせずに大規模言語モデルのタスク非依存ゼロショット蒸留を提唱する。 本研究では,大規模モデルの切り抜き版を初期化に用い,言語モデルを用いた事前学習を継続する,教師不要なタスク非依存蒸留法を提案する。 教師なしの方法は、学生と教師の両方をGPUメモリに収めることが不可能な蒸留体制において輝く。 その単純さにもかかわらず、この方法は計算効率が1.5倍でありながら、13個のゼロショットエンドタスクにおけるバニラ蒸留法とパープレキシティと精度を一致または上回って、モデルサイズを効果的に50\%削減することができる。

Knowledge distillation trains a smaller student model to match the output distribution of a larger teacher to maximize the end-task performance under computational constraints. However, existing literature on language model distillation primarily focuses on compressing encoder-only models that are then specialized by task-specific supervised finetuning. We need to rethink this setup for more recent large language models with tens to hundreds of billions of parameters. Task-specific finetuning is impractical at this scale, and model performance is often measured using zero/few-shot prompting. Thus, in this work, we advocate for task-agnostic zero-shot evaluated distillation for large language models without access to end-task finetuning data. We propose a teacher-free task-agnostic distillation method, which uses a truncated version of the larger model for initialization, and continues pretraining this model using a language modeling objective. Our teacher-free method shines in a distillation regime where it is infeasible to fit both the student and teacher into the GPU memory. Despite its simplicity, our method can effectively reduce the model size by 50\%, matching or outperforming the vanilla distillation method on perplexity and accuracy on 13 zero-shot end-tasks while being 1.5x computationally efficient.
翻訳日:2023-05-25 18:22:38 公開日:2023-05-24
# ニューラルネットワークの実用可能性双対性

Utility-Probability Duality of Neural Networks ( http://arxiv.org/abs/2305.14859v1 )

ライセンス: Link先を確認
Huang Bojun, Fei Yuan(参考訳) 現代のニューラルネットワークのトレーニングは、所望の出力の確率分布に適合するプロセスであると一般的に理解されている。 しかし、多くの言語生成タスクにおける最近のパラドックス観測は、この正準確率に基づく説明がディープラーニングの実証的成功に実際に寄与するかどうか疑問視している。 そこで本研究では,ディープラーニングにおける標準教師あり学習手順に対するユーティリティベースの説明法を提案する。 基本的な考え方は、学習したニューラルネットワークを確率モデルとしてではなく、トレーニングデータに現れる好みをエンコードする順序効用関数として解釈することである。 この観点では、ニューラルネットワークのトレーニングは実用的学習プロセスに対応する。 具体的には、ソフトマックス出力を持つ全てのニューラルネットワークに対して、最大推定値(MLE)のSGD学習ダイナミクスを、ニューラルネットワークを最適なユーティリティ関数に最適化する反復過程と見なすことができる。 このユーティリティに基づく解釈は、訓練されたニューラルネットワークに関するいくつかの他のパラドックス的な観察を説明することができる。 さらに,実効性に基づく理論では,学習した公益価値を,確率互換決定規則が劇的(二桁)性能改善を享受する新しい種類の確率推定に変換できる方程式も含んでいる。 これらの証拠は、現代のニューラルネットワークが(真に)モデリングしていることの観点で、ユーティリティ・プローバビリティの双対性現象を明らかにする。我々は、説明不能な人が現れるまでは、それらは一つのもの(確率)だと考え、考え方を変えて別のもの(有効性値)として扱うことは、元の(確率的)アイデンティティに関する微妙な点が残っているにもかかわらず、理論を概ね調和させる。

It is typically understood that the training of modern neural networks is a process of fitting the probability distribution of desired output. However, recent paradoxical observations in a number of language generation tasks let one wonder if this canonical probability-based explanation can really account for the empirical success of deep learning. To resolve this issue, we propose an alternative utility-based explanation to the standard supervised learning procedure in deep learning. The basic idea is to interpret the learned neural network not as a probability model but as an ordinal utility function that encodes the preference revealed in training data. In this perspective, training of the neural network corresponds to a utility learning process. Specifically, we show that for all neural networks with softmax outputs, the SGD learning dynamic of maximum likelihood estimation (MLE) can be seen as an iteration process that optimizes the neural network toward an optimal utility function. This utility-based interpretation can explain several otherwise-paradoxical observations about the neural networks thus trained. Moreover, our utility-based theory also entails an equation that can transform the learned utility values back to a new kind of probability estimation with which probability-compatible decision rules enjoy dramatic (double-digits) performance improvements. These evidences collectively reveal a phenomenon of utility-probability duality in terms of what modern neural networks are (truly) modeling: We thought they are one thing (probabilities), until the unexplainable showed up; changing mindset and treating them as another thing (utility values) largely reconcile the theory, despite remaining subtleties regarding its original (probabilistic) identity.
翻訳日:2023-05-25 18:22:18 公開日:2023-05-24
# Pre-RMSNorm および Pre-CRMSNorm 変換器: 等価かつ効率的な Pre-LN 変換器

Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers ( http://arxiv.org/abs/2305.14858v1 )

ライセンス: Link先を確認
Zixuan Jiang, Jiaqi Gu, Hanqing Zhu, David Z. Pan(参考訳) トランスフォーマーは機械学習アプリケーションで大きな成功を収めた。 レイヤー正規化 (LayerNorm, LN) やルート平均角正規化 (RMSNorm) のような正規化技術はトランスフォーマーの訓練の加速と安定化に重要な役割を果たしている。 LayerNormは入力ベクトルを更新および再スケールするが、RMSNormはRMS値でのみベクトルを再スケールする。 より計算効率が良いにもかかわらず、RMSNormはトランスフォーマーの表現能力を損なう可能性がある。 現在、LayerNormを採用するモデルや、RMSNormを使用しているモデル、特に最近の大規模言語モデルでは、推奨の正規化技術について合意が得られていない。 1つの正規化でトランスフォーマーを他の型に変換するのは難しい。 2つの正規化型の間には相違点が続いているが、本研究では、Pre-LNとPre-RMSNormの2つの主流トランスフォーマーアーキテクチャを統合するソリューションを提案する。 Pre-LN変換器のメインブランチにある本質的に冗長な平均情報を除去することで、LayerNormをRMSNormに還元し、高い効率を実現することができる。 さらに、ゼロ平均ベクトルのロスレス圧縮に基づいて、圧縮RMSNorm(CRMSNorm)とプレCRMSNorm変換器を提案する。 我々は、トレーニングと推論の両方において、Pre-LN、Pre-RMSNorm、Pre-CRMSNorm Transformerの等価性を正式に確立する。 これは、Pre-LN変換器をPre-(C)RMSNormでほぼ無償で置き換えることができ、同じ算術的機能と自由効率の改善を提供することを意味する。 実験により、Pre-LN変換器のトレーニングと推論時間を最大10%削減できることが示された。

Transformers have achieved great success in machine learning applications. Normalization techniques, such as Layer Normalization (LayerNorm, LN) and Root Mean Square Normalization (RMSNorm), play a critical role in accelerating and stabilizing the training of Transformers. While LayerNorm recenters and rescales input vectors, RMSNorm only rescales the vectors by their RMS value. Despite being more computationally efficient, RMSNorm may compromise the representation ability of Transformers. There is currently no consensus regarding the preferred normalization technique, as some models employ LayerNorm while others utilize RMSNorm, especially in recent large language models. It is challenging to convert Transformers with one normalization to the other type. While there is an ongoing disagreement between the two normalization types, we propose a solution to unify two mainstream Transformer architectures, Pre-LN and Pre-RMSNorm Transformers. By removing the inherent redundant mean information in the main branch of Pre-LN Transformers, we can reduce LayerNorm to RMSNorm, achieving higher efficiency. We further propose the Compressed RMSNorm (CRMSNorm) and Pre-CRMSNorm Transformer based on a lossless compression of the zero-mean vectors. We formally establish the equivalence of Pre-LN, Pre-RMSNorm, and Pre-CRMSNorm Transformer variants in both training and inference. It implies that Pre-LN Transformers can be substituted with Pre-(C)RMSNorm counterparts at almost no cost, offering the same arithmetic functionality along with free efficiency improvement. Experiments demonstrate that we can reduce the training and inference time of Pre-LN Transformers by up to 10%.
翻訳日:2023-05-25 18:21:47 公開日:2023-05-24
# BUFFET: 言語間移動のための大規模言語モデルのベンチマーク

BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer ( http://arxiv.org/abs/2305.14857v1 )

ライセンス: Link先を確認
Akari Asai, Sneha Kudugunta, Xinyan Velocity Yu, Terra Blevins, Hila Gonen, Machel Reid, Yulia Tsvetkov, Sebastian Ruder, Hannaneh Hajishirzi(参考訳) 自然言語処理における数少ない一般化の進歩にもかかわらず、ほとんどのモデルは主に英語で開発され評価されている。 このベンチマークでは、54言語にまたがる15種類のタスクをシーケンス・ツー・シーケンス形式で統一し、いくつかの例と命令の固定セットを提供する。 BUFFETは、広範囲のタスクや言語を横断する数ショットの言語間転送のための厳密で公平な評価フレームワークを確立するように設計されている。 BUFFETを用いて,テキスト内学習と微調整の異なる多言語多言語大言語モデルの徹底的な評価を行う。 コンテクスト内言語間移動における改善の余地は極めて大きい。 特に、文脈内学習のChatGPTは、英語のタスクデータと少数ショットのインランゲージの例に基づいて微調整された、はるかに小さなmT5ベースモデルよりも性能が劣ることが多い。 本研究は,前訓練の改善,理解,今後の評価など,多言語間トランスファーにおける今後の研究への様々な道筋を示唆する。

Despite remarkable advancements in few-shot generalization in natural language processing, most models are developed and evaluated primarily in English. To facilitate research on few-shot cross-lingual transfer, we introduce a new benchmark, called BUFFET, which unifies 15 diverse tasks across 54 languages in a sequence-to-sequence format and provides a fixed set of few-shot examples and instructions. BUFFET is designed to establish a rigorous and equitable evaluation framework for few-shot cross-lingual transfer across a broad range of tasks and languages. Using BUFFET, we perform thorough evaluations of state-of-the-art multilingual large language models with different transfer methods, namely in-context learning and fine-tuning. Our findings reveal significant room for improvement in few-shot in-context cross-lingual transfer. In particular, ChatGPT with in-context learning often performs worse than much smaller mT5-base models fine-tuned on English task data and few-shot in-language examples. Our analysis suggests various avenues for future research in few-shot cross-lingual transfer, such as improved pretraining, understanding, and future evaluations.
翻訳日:2023-05-25 18:21:17 公開日:2023-05-24
# 顔画像品質評価手法の最適化による改善

Optimization-Based Improvement of Face Image Quality Assessment Techniques ( http://arxiv.org/abs/2305.14856v1 )

ライセンス: Link先を確認
\v{Z}iga Babnik, Naser Damer, Vitomir \v{S}truc(参考訳) 現代の顔認識(fr)モデルは、制約された設定で理想に近い認識性能を達成するが、制約のない(現実の)シナリオに完全には変換しない。 このような制約のない環境でのFRシステムの性能と安定性を向上させるため、FIQA(face Image Quality Assessment)技術は、認識プロセスに役立つ入力顔画像からサンプル品質情報を推測しようとする。 既存のfiqa技術は、高品質画像と低品質画像の違いを効率的に捉えることができるが、それらは通常、同じ品質の画像と完全に区別できないため、多くのシナリオでパフォーマンスが低下する。 この問題に対処するため,本稿では,既存のfiqa技術の性能向上を目的とした品質ラベル最適化手法を提案する。 改良された最適化手法は、与えられたFIQA技術で生成された初期品質スコアに追加情報(選択されたFRモデルで計算)を注入し、「実際の」画像品質のより良い推定値を生成する。 提案手法は,6種類の最先端FIQAアプローチ (CR-FIQA, FaceQAN, SER-FIQ, PCNet, MagFace, SDD-FIQA) を,3つのターゲットFRモデル (ArcFace, ElasticFace, CurricularFace) を用いて,一般に使用されているベンチマーク (LFW, CFPFP, CPLFW, CALFW, XQLFW) で評価した。

Contemporary face recognition (FR) models achieve near-ideal recognition performance in constrained settings, yet do not fully translate the performance to unconstrained (realworld) scenarios. To help improve the performance and stability of FR systems in such unconstrained settings, face image quality assessment (FIQA) techniques try to infer sample-quality information from the input face images that can aid with the recognition process. While existing FIQA techniques are able to efficiently capture the differences between high and low quality images, they typically cannot fully distinguish between images of similar quality, leading to lower performance in many scenarios. To address this issue, we present in this paper a supervised quality-label optimization approach, aimed at improving the performance of existing FIQA techniques. The developed optimization procedure infuses additional information (computed with a selected FR model) into the initial quality scores generated with a given FIQA technique to produce better estimates of the "actual" image quality. We evaluate the proposed approach in comprehensive experiments with six state-of-the-art FIQA approaches (CR-FIQA, FaceQAN, SER-FIQ, PCNet, MagFace, SDD-FIQA) on five commonly used benchmarks (LFW, CFPFP, CPLFW, CALFW, XQLFW) using three targeted FR models (ArcFace, ElasticFace, CurricularFace) with highly encouraging results.
翻訳日:2023-05-25 18:20:54 公開日:2023-05-24
# 量子巡回冗長性チェックコード

Quantum cyclic redundancy check codes ( http://arxiv.org/abs/2305.14883v1 )

ライセンス: Link先を確認
Ricard Vilar and Simeon Ball(参考訳) 古典的巡回冗長性チェックコードの概念を量子循環冗長性チェックコードにまで拡張する。 これにより、バースト長が量子ライガー境界に達するバースト誤差を補正できる量子安定化器符号を構築することができる。 次に,高速な線形時間復号アルゴリズムを示す量子巡回冗長性チェック符号の一群を考える。

We extend the idea of classical cyclic redundancy check codes to quantum cyclic redundancy check codes. This allows us to construct codes quantum stabiliser codes which can correct burst errors where the burst length attains the quantum Reiger bound. We then consider a certain family of quantum cyclic redundancy check codes for which we present a fast linear time decoding algorithm.
翻訳日:2023-05-25 18:14:28 公開日:2023-05-24
# 視覚的質問応答による解釈

Interpretable by Design Visual Question Answering ( http://arxiv.org/abs/2305.14882v1 )

ライセンス: Link先を確認
Xingyu Fu, Ben Zhou, Sihao Chen, Mark Yatskar, Dan Roth(参考訳) モデル解釈可能性(Model Interpretability)は、特に視覚と言語を同時に調整し、推論する必要があるマルチモーダル環境で、AIコミュニティにとって長年、難しい問題だった。 本稿では,視覚質問応答(VQA)の問題に着目する。 従来の研究はブラックボックスマルチモーダルモデルのネットワーク構造を探索しようとしていたが、我々は解釈可能性を明確な追加目標として扱うために、異なる角度からこの問題に取り組むことを提案した。 画像と疑問が与えられた場合、解釈可能なVQAモデルは、その画像のどの部分から得られる結論を判断し、各ステートメントがどのように回答にたどり着くかを示すことができるべきである。 ここでは、VQA問題に対する明示的な中間的動的推論構造を設計し、最終回答予測にのみこの構造を用いるシンボリック推論を実施する。 InterVQAは、最先端(ソータ)のエンドタスクのパフォーマンスと同様に、高品質な明示的な中間推論ステップを生成する。

Model interpretability has long been a hard problem for the AI community especially in the multimodal setting, where vision and language need to be aligned and reasoned at the same time. In this paper, we specifically focus on the problem of Visual Question Answering (VQA). While previous researches try to probe into the network structures of black-box multimodal models, we propose to tackle the problem from a different angle -- to treat interpretability as an explicit additional goal. Given an image and question, we argue that an interpretable VQA model should be able to tell what conclusions it can get from which part of the image, and show how each statement help to arrive at an answer. We introduce InterVQA: Interpretable-by-design VQA, where we design an explicit intermediate dynamic reasoning structure for VQA problems and enforce symbolic reasoning that only use the structure for final answer prediction to take place. InterVQA produces high-quality explicit intermediate reasoning steps, while maintaining similar to the state-of-the-art (sota) end-task performance.
翻訳日:2023-05-25 18:14:22 公開日:2023-05-24
# NV中心を持つ統計的偏極ナノNMRのための最適検出プロトコル

An optimal sensing protocol for statistically polarized nano-NMR with NV centers ( http://arxiv.org/abs/2305.14881v1 )

ライセンス: Link先を確認
Nicolas Staudenmaier, Anjusha Vijayakumar-Sreeja, Genko Genov, Daniel Cohen, Christoph Findler, Johannes Lang, Alex Retzker, Fedor Jelezko, Santiago Oviedo-Casado(参考訳) 拡散ノイズは、成功した液体状態のナノNMR分光の主要な制約である。 本研究では,Fisher情報を忠実な尺度として用いて理論的に計算し,多くの実験シナリオにおいて位相感度プロトコルが優れていることを実験的に示す。 量子ヘテロダイン検出のための最適実験パラメータを導出し、これまでで最も正確な統計的に偏極化されたナノNMR Qdyne実験を行い、化学シフトの解決とナノスケールでのJ$カップリングを導いた。

Diffusion noise represents a major constraint to successful liquid state nano-NMR spectroscopy. Using the Fisher information as a faithful measure, we calculate theoretically and show experimentally that phase sensitive protocols are superior in most experimental scenarios, as they maximize information extraction from correlations in the sample. We derive the optimal experimental parameters for quantum heterodyne detection and present the most accurate statistically polarized nano-NMR Qdyne experiments to date, leading the way to resolve chemical shifts and $J$-couplings at the nano-scale.
翻訳日:2023-05-25 18:14:04 公開日:2023-05-24
# 多分解能特徴誘導型異常検出用変圧器

Multiresolution Feature Guidance Based Transformer for Anomaly Detection ( http://arxiv.org/abs/2305.14880v1 )

ライセンス: Link先を確認
Shuting Yan, Pingping Chen, Honghui Chen, Huan Mao, Feng Chen and Zhijian Lin(参考訳) 異常検出は、通常の画像から逸脱した画像を識別する教師なし学習として表現される。 一般に、異常検出タスクの主な課題は2つあり、すなわち、クラス不均衡と異常の予期せぬ性質である。 本稿では,非教師付き異常検出と局所化のためのトランスフォーマーGTransに基づく多分解能特徴誘導手法を提案する。 GTransでは、ImageNet上で事前トレーニングされたAnomaly Guided Network (AGN) が開発され、機能やトークンのサロゲートラベルを提供する。 AGNの暗黙的な知識指導の下で、Transという名前の異常検出ネットワークはTransformerを使用して、マルチレゾリューションを持つ特徴の関係を効果的に確立し、通常のデータ多様体に適合するTransの能力を高める。 AGNの強い一般化能力のため、GTransはAGNとTransから抽出したマルチスケール特徴の空間的距離と方向の違いを比較して異常を同定する。 実験により,提案したGTransはMVTec ADデータセット上の検出と位置決めの両方において最先端の性能を達成できることを示した。 GTransは、MVTec ADデータセットでそれぞれ99.0%と97.9%のAUROCスコアを画像レベルと画素レベルの異常検出を達成する。

Anomaly detection is represented as an unsupervised learning to identify deviated images from normal images. In general, there are two main challenges of anomaly detection tasks, i.e., the class imbalance and the unexpectedness of anomalies. In this paper, we propose a multiresolution feature guidance method based on Transformer named GTrans for unsupervised anomaly detection and localization. In GTrans, an Anomaly Guided Network (AGN) pre-trained on ImageNet is developed to provide surrogate labels for features and tokens. Under the tacit knowledge guidance of the AGN, the anomaly detection network named Trans utilizes Transformer to effectively establish a relationship between features with multiresolution, enhancing the ability of the Trans in fitting the normal data manifold. Due to the strong generalization ability of AGN, GTrans locates anomalies by comparing the differences in spatial distance and direction of multi-scale features extracted from the AGN and the Trans. Our experiments demonstrate that the proposed GTrans achieves state-of-the-art performance in both detection and localization on the MVTec AD dataset. GTrans achieves image-level and pixel-level anomaly detection AUROC scores of 99.0% and 97.9% on the MVTec AD dataset, respectively.
翻訳日:2023-05-25 18:13:53 公開日:2023-05-24
# bytesize32: テキストゲームとして表現されるタスク固有の世界モデルを生成するコーパスとチャレンジタスク

ByteSized32: A Corpus and Challenge Task for Generating Task-Specific World Models Expressed as Text Games ( http://arxiv.org/abs/2305.14879v1 )

ライセンス: Link先を確認
Ruoyao Wang, Graham Todd, Eric Yuan, Ziang Xiao, Marc-Alexandre C\^ot\'e, Peter Jansen(参考訳) 本研究では,テキストベースのゲーム生成問題として,科学的・常識的推論タスクの明示的な世界モデルを生成するための言語モデルの能力について検討する。 ByteSized32はPythonで記述された32個の高度に測定されたテキストゲームのコーパスで、それぞれが24k行のコードで、それぞれが特定のタスクを中心としており、評価のための16の未確認テキストゲーム仕様とペアリングされている。 本稿では,シミュレーションの有効性,タスク仕様の遵守,遊戯性,勝手性,物理世界との整合度を評価するための,自動的および手作業によるメトリクススイートを提案する。 このシミュレーション・アズ・コード生成タスクにおけるGPT-4の単発評価では、27%のケースで実行可能なゲームを生成することができ、この課題の難しさを浮き彫りにしている。 我々は,gpt-4が標準に近いタスクソリューションをうまくシミュレートできることを示す能力など,今後の改善の領域について論じる。

In this work we examine the ability of language models to generate explicit world models of scientific and common-sense reasoning tasks by framing this as a problem of generating text-based games. To support this, we introduce ByteSized32, a corpus of 32 highly-templated text games written in Python totaling 24k lines of code, each centered around a particular task, and paired with a set of 16 unseen text game specifications for evaluation. We propose a suite of automatic and manual metrics for assessing simulation validity, compliance with task specifications, playability, winnability, and alignment with the physical world. In a single-shot evaluation of GPT-4 on this simulation-as-code-generation task, we find it capable of producing runnable games in 27% of cases, highlighting the difficulty of this challenge task. We discuss areas of future improvement, including GPT-4's apparent capacity to perform well at simulating near canonical task solutions, with performance dropping off as simulations include distractors or deviate from canonical solutions in the action space.
翻訳日:2023-05-25 18:13:32 公開日:2023-05-24
# gpt-4を用いた翻訳後自動編集

Leveraging GPT-4 for Automatic Translation Post-Editing ( http://arxiv.org/abs/2305.14878v1 )

ライセンス: Link先を確認
Vikas Raunak, Amr Sharaf, Hany Hassan Awadallah, Arul Menezes(参考訳) ニューラル機械翻訳(NMT)は機械翻訳(MT)の主要なアプローチであるが、NMTモデルの出力は、特に臨界条件下でエラーの修正と品質向上のために翻訳後編集を必要とする。 本研究では,Large Language Models (LLM) を用いた翻訳後編集タスクを形式化し,GPT-4を用いて複数の言語ペア間でNMT出力を自動的に後編集する方法について検討する。 その結果, GPT-4は翻訳後編集に適しており, 対象言語が英語でなくても意味のある編集が可能であることがわかった。 特に、GPT-4に基づく後編集を用いて、WMT-22英語、英語、英語、中国語、ドイツ語のペアについて、最先端のMT品質指標を用いて評価した。

While Neural Machine Translation (NMT) represents the leading approach to Machine Translation (MT), the outputs of NMT models still require translation post-editing to rectify errors and enhance quality, particularly under critical settings. In this work, we formalize the task of translation post-editing with Large Language Models (LLMs) and explore the use of GPT-4 to automatically post-edit NMT outputs across several language pairs. Our results demonstrate that GPT-4 is adept at translation post-editing and produces meaningful edits even when the target language is not English. Notably, we achieve state-of-the-art performance on WMT-22 English-Chinese, English-German, Chinese-English and German-English language pairs using GPT-4 based post-editing, as evaluated by state-of-the-art MT quality metrics.
翻訳日:2023-05-25 18:13:12 公開日:2023-05-24
# 統一評価と分析による確率に基づくプロンプト選択の改善

Improving Probability-based Prompt Selection Through Unified Evaluation and Analysis ( http://arxiv.org/abs/2305.14877v1 )

ライセンス: Link先を確認
Sohee Yang, Jonghyeon Kim, Joel Jang, Seonghyeon Ye, Hyunji Lee, Minjoon Seo(参考訳) 大規模言語モデル(llm)は、タスク固有のトレーニングを必要としないが、複数のプロンプト候補が存在する場合にパフォーマンスの変動に苦しむプロンプトを通じて、リソース効率のよい方法で幅広いタスクを解決できる優れた能力を示している。 これまでの研究では、与えられたタスクの候補間の最適なプロンプトを選択することを目的とした、勾配のない確率に基づくプロンプト選択手法を導入していたが、包括的かつ公平な比較には至らなかった。 本論文では,13の共通NLPタスクに対して広範な実験を行うことで,既存の確率ベースのプロンプト選択手法を解釈し,評価する統合フレームワークを提案する。 既存の手法はすべて、入力と対応するモデル出力間の相互情報(mi)を最大化する手法のいくつかの変種に統一できることがわかった。 この発見を用いて、miのいくつかの変種を開発し、選択したプロンプトのパフォーマンスと最適なoracleプロンプトのパフォーマンスの比率として、最良プロンプト選択法の有効性を87.79%から94.98%に向上させる。 さらに,既存の手法と直交し,最良手法の迅速選択効率を99.44%向上させるcbm(calitration by marginalization)と呼ばれる新しい校正法を提案する。 私たちの作業で使用されるコードとデータセットはhttps://github.com/soheeyang/unified-prompt-selectionで公開される。

Large Language Models (LLMs) have demonstrated great capabilities in solving a wide range of tasks in a resource-efficient manner through prompting, which does not require task-specific training, but suffers from performance fluctuation when there are multiple prompt candidates. Previous works have introduced gradient-free probability-based prompt selection methods that aim to choose the optimal prompt among the candidates for a given task but fail to provide a comprehensive and fair comparison between each other. In this paper, we propose a unified framework to interpret and evaluate the existing probability-based prompt selection methods by performing extensive experiments on 13 common NLP tasks. We find that all existing methods can be unified into some variant of the method that maximizes the mutual information between the input and the corresponding model output (denoted as MI). Using the finding, we develop several variants of MI and increases the effectiveness of the best prompt selection method from 87.79% to 94.98%, measured as the ratio of the performance of the selected prompt to that of the optimal oracle prompt. Furthermore, we propose a novel calibration method called Calibration by Marginalization (CBM) that is orthogonal to existing methods and helps increase the prompt selection effectiveness of the best method by 99.44%. The code and datasets used in our work will be released at https://github.com/soheeyang/unified-prompt-selection.
翻訳日:2023-05-25 18:12:55 公開日:2023-05-24
# 後方防御のための再建型ニューロンプルーニング

Reconstructive Neuron Pruning for Backdoor Defense ( http://arxiv.org/abs/2305.14876v1 )

ライセンス: Link先を確認
Yige Li, Xixiang Lyu, Xingjun Ma, Nodens Koren, Lingjuan Lyu, Bo Li, Yu-Gang Jiang(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱であることが判明し、ミッションクリティカルなアプリケーションへのデプロイに対するセキュリティ上の懸念が高まっている。 既存の防御方法は有望な結果を示してきたが、バックドアDNNのバックドア関連ニューロンを効果的に除去する方法はまだ明らかになっていない。 本稿では,未学習でバックドアニューロンを曝露し,その後回復する「emph{Reconstructive Neuron Pruning}(RNP)」と呼ばれる新しい防御法を提案する。 具体的には、RNPはまず、クリーンサンプルの小さなサブセットでモデルのエラーを最大化し、次に同じデータ上でモデルのエラーを最小化することで神経細胞を復元する。 RNPでは、アンラーニングはニューロンレベルで行われ、リカバリはフィルタレベルで行われ、非対称再構成学習手順を形成する。 このような非対称なプロセスは、少数のクリーンサンプルのみに対して、広範囲の攻撃によって移植されたバックドアニューロンを効果的に露出させ、プーンし、新しい最先端の防御性能を実現することができることを示す。 さらに, バックドア除去, トリガーリカバリ, バックドアラベル検出, バックドアサンプル検出など, バックドア防御作業の改善にRNPの中間段階における未学習モデルを直接利用することができる。 コードは \url{https://github.com/bboylyg/RNP} で入手できる。

Deep neural networks (DNNs) have been found to be vulnerable to backdoor attacks, raising security concerns about their deployment in mission-critical applications. While existing defense methods have demonstrated promising results, it is still not clear how to effectively remove backdoor-associated neurons in backdoored DNNs. In this paper, we propose a novel defense called \emph{Reconstructive Neuron Pruning} (RNP) to expose and prune backdoor neurons via an unlearning and then recovering process. Specifically, RNP first unlearns the neurons by maximizing the model's error on a small subset of clean samples and then recovers the neurons by minimizing the model's error on the same data. In RNP, unlearning is operated at the neuron level while recovering is operated at the filter level, forming an asymmetric reconstructive learning procedure. We show that such an asymmetric process on only a few clean samples can effectively expose and prune the backdoor neurons implanted by a wide range of attacks, achieving a new state-of-the-art defense performance. Moreover, the unlearned model at the intermediate step of our RNP can be directly used to improve other backdoor defense tasks including backdoor removal, trigger recovery, backdoor label detection, and backdoor sample detection. Code is available at \url{https://github.com/bboylyg/RNP}.
翻訳日:2023-05-25 18:12:30 公開日:2023-05-24
# LoopBoxes -- コラボレーティブ・アクセシブルなデジタル音楽機器の評価

LoopBoxes -- Evaluation of a Collaborative Accessible Digital Musical Instrument ( http://arxiv.org/abs/2305.14875v1 )

ライセンス: Link先を確認
Andreas F\"orster and Alarith Uhde and Mathias Komesker and Christina Komesker and Irina Schmidt(参考訳) loopboxes(ループボックスス)は、特別な教育的ニーズ(sen)を持つ子供向けのループベースの音楽制作への直感的なアクセスをデザインした、アクセス可能なデジタル楽器である。 本報告では,ドイツ・ベルリンの音楽祭におけるパイロット・スタディの形での楽器の評価と,SEN学校における児童・音楽教師とのケーススタディについて述べる。 3つのモジュールで構成されたモジュールシステムを構築しました。 パイロット研究は非公式な観察とアンケート(n = 39)を用いて評価され、全年齢グループにまたがる先行的音楽知識を有しない人々のために音楽を作ることができ、協調的な音楽プロセスを促進することを示唆した。 ケーススタディは観察と質的なインタビューに基づいていた。 この機器は学校設定のニーズに合致し、将来のバージョンがすべての生徒、特に複雑な障害を持つ生徒にどのようにアクセスできるかを示した。 さらに,学校環境における楽器の長期的実装には,アウト・オブ・ザ・ボックス機能が必要であると考えられる。

LoopBoxes is an accessible digital musical instrument designed to create an intuitive access to loop based music making for children with special educational needs (SEN). This paper describes the evaluation of the instrument in the form of a pilot study during a music festival in Berlin, Germany, as well as a case study with children and music teachers in a SEN school setting. We created a modular system composed of three modules that afford single user as well as collaborative music making. The pilot study was evaluated using informal observation and questionnaires (n = 39), and indicated that the instrument affords music making for people with and without prior musical knowledge across all age groups and fosters collaborative musical processes. The case study was based on observation and a qualitative interview. It confirmed that the instrument meets the needs of the school settings and indicated how future versions could expand access to all students, especially those experiencing complex disabilities. In addition, out-of-the-box functionality seems to be crucial for the long-term implementation of the instrument in a school setting.
翻訳日:2023-05-25 18:12:05 公開日:2023-05-24
# 言葉からワイヤーへ:自然言語記述から電子デバイスを生成する

From Words to Wires: Generating Functioning Electronic Devices from Natural Language Descriptions ( http://arxiv.org/abs/2305.14874v1 )

ライセンス: Link先を確認
Peter Jansen(参考訳) 本研究では,現代の言語モデルには,コード生成に類似した高レベルテキスト記述からの電子回路設計能力があることを示す。 入力、出力、センサ、モーター、プロトコル、ロジックを含むarduinoエコシステムにおける一般的なマイクロコントローラ回路とコードを設計するモデルの能力を評価するpins100とmicro25の2つのベンチマークを紹介し、gpt-4やclaude-v1といったモデルが完全なデバイスの生成において60%から96%のpass@1を達成する。 我々は,放射線による乱数生成装置,絵文字キーボード,可視分光計,補助装置など,中程度に複雑なデバイスの設計アシスタントとして言語モデルを使用する6つのケーススタディと,質的分析性能を提供し,評価課題を概説し,複雑な回路設計と実用性を改善するための開発領域を提案する。 本研究は,自然言語処理と電子設計の分野での研究を促進することを目的としている。

In this work, we show that contemporary language models have a previously unknown skill -- the capacity for electronic circuit design from high-level textual descriptions, akin to code generation. We introduce two benchmarks: Pins100, assessing model knowledge of electrical components, and Micro25, evaluating a model's capability to design common microcontroller circuits and code in the Arduino ecosystem that involve input, output, sensors, motors, protocols, and logic -- with models such as GPT-4 and Claude-V1 achieving between 60% to 96% Pass@1 on generating full devices. We include six case studies of using language models as a design assistant for moderately complex devices, such as a radiation-powered random number generator, an emoji keyboard, a visible spectrometer, and several assistive devices, while offering a qualitative analysis performance, outlining evaluation challenges, and suggesting areas of development to improve complex circuit design and practical utility. With this work, we aim to spur research at the juncture of natural language processing and electronic design.
翻訳日:2023-05-25 18:11:46 公開日:2023-05-24
# 室温での空洞光学実験における膜発振器の光自己冷却

Optical self-cooling of a membrane oscillator in a cavity optomechanical experiment at room temperature ( http://arxiv.org/abs/2305.14903v1 )

ライセンス: Link先を確認
P. Vezio, M. Bonaldi, A. Borrielli, F. Marino, B. Morana, P.M. Sarro, E. Serra, and F. Marin(参考訳) 熱雑音は、マクロ系における量子挙動を観測するための大きな障害である。 その効果を緩和するために、量子光学実験は通常極低温環境で行われる。 しかし、この条件は基礎研究から量子技術応用への移行においてかなり複雑である。 したがって、室温実験において量子状態を達成する可能性を探究することは興味深い。 本研究では,空洞光力学実験において,sin膜のサイドバンド冷却振動モードの限界をテストする。 有効温度は数mkで、約100の音素占有数に対応する。 レーザー源の過大な古典ノイズによりさらなる冷却が防止されることを示すとともに, 地中冷却の達成に向けての道筋を概説する。

Thermal noise is a major obstacle to observing quantum behavior in macroscopic systems. To mitigate its effect, quantum optomechanical experiments are typically performed in a cryogenic environment. However, this condition represents a considerable complication in the transition from fundamental research to quantum technology applications. It is therefore interesting to explore the possibility of achieving the quantum regime in room temperature experiments. In this work we test the limits of sideband cooling vibration modes of a SiN membrane in a cavity optomechanical experiment. We obtain an effective temperature of a few mK, corresponding to a phononic occupation number of around 100. We show that further cooling is prevented by the excess classical noise of our laser source, and we outline the road toward the achievement of ground state cooling
翻訳日:2023-05-25 18:05:07 公開日:2023-05-24
# m4:マルチジェネレータ、マルチドメイン、多言語ブラックボックスマシン生成テキスト検出

M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection ( http://arxiv.org/abs/2305.14902v1 )

ライセンス: Link先を確認
Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, Akim Tsvigun, Chenxi Whitehouse, Osama Mohammed Afzal, Tarek Mahmoud, Alham Fikri Aji, Preslav Nakov(参考訳) 大規模言語モデル (LLM) は, 多様なユーザクエリに対して流動的な応答を生成できることが顕著に示されているが, ジャーナリズム, 教育, 学術的文脈におけるそのようなテキストの誤用が懸念されている。 本研究では,機械生成テキストを識別し,誤用を検知する自動システムを開発することを目的としている。 まず,マシン生成テキスト検出のためのマルチジェネレータ,マルチドメイン,多言語コーパスである大規模ベンチマークm4を紹介する。 データセットを用いて,様々な手法を実験し,異なる領域や異なる大規模言語モデルによって生成された場合,検出者が未知の例をうまく一般化することは困難であることを示す。 このような場合、検出器は機械が生成したテキストを人間書きと誤分類する傾向がある。 これらの結果から,解決には程遠い問題であり,改善の余地がたくさんあることが示唆された。 我々は、異なるジェネレータ、ドメイン、言語をカバーするデータセットM4が、この押し付け社会問題に対するより堅牢なアプローチに向けた将来の研究を可能にすると信じている。 m4データセットはhttps://github.com/mbzuai-nlp/m4で利用可能である。

Large language models (LLMs) have demonstrated remarkable capability to generate fluent responses to a wide variety of user queries, but this has also resulted in concerns regarding the potential misuse of such texts in journalism, educational, and academic context. In this work, we aim to develop automatic systems to identify machine-generated text and to detect potential misuse. We first introduce a large-scale benchmark M4, which is multi-generator, multi-domain, and multi-lingual corpus for machine-generated text detection. Using the dataset, we experiment with a number of methods and we show that it is challenging for detectors to generalize well on unseen examples if they are either from different domains or are generated by different large language models. In such cases, detectors tend to misclassify machine-generated text as human-written. These results show that the problem is far from solved and there is a lot of room for improvement. We believe that our dataset M4, which covers different generators, domains and languages, will enable future research towards more robust approaches for this pressing societal problem. The M4 dataset is available at https://github.com/mbzuai-nlp/M4.
翻訳日:2023-05-25 18:04:57 公開日:2023-05-24
# 頑健な多段階質問応答のための潜在回答を用いた問合せ連鎖訓練

Chain-of-Questions Training with Latent Answers for Robust Multistep Question Answering ( http://arxiv.org/abs/2305.14901v1 )

ライセンス: Link先を確認
Wang Zhu, Jesse Thomason, Robin Jia(参考訳) 我々は言語モデル(LM)を訓練し、サブクエストの生成と回答によって多段階の質問に頑健に答える。 本稿では,人間に注釈付き質問分解意味表現(qdmr)を活用し,質問と回答を同時生成するモデルを学習する枠組みであるchain-of-questionsを提案する。 重要な技術的課題は、QDMRはサブクエストのみを含むが、これらのサブクエストに応答しないため、サブアンサーを潜在変数として扱い、Hard-EMとMAPOの新しい動的混合を用いてそれらを最適化する。 DROPコントラストセットでは9.0F1,HOTPOTQA対向セットでは24.3F1でGPT-3.5より優れた9.0F1,強いニューロシンボリックメソッドでは高い性能を示し,本フレームワークの有効性とロバスト性を示す。

We train a language model (LM) to robustly answer multistep questions by generating and answering sub-questions. We propose Chain-of-Questions, a framework that trains a model to generate sub-questions and sub-answers one at a time by leveraging human annotated question decomposition meaning representation (QDMR). The key technical challenge is that QDMR only contains sub-questions but not answers to those sub-questions, so we treat sub-answers as latent variables and optimize them using a novel dynamic mixture of Hard-EM and MAPO. Chain-of-Questions greatly outperforms strong neuro-symbolic methods by 9.0 F1 on DROP contrast set, and outperforms GPT-3.5 by 24.3 F1 on HOTPOTQA adversarial set, thus demonstrating the effectiveness and robustness of our framework.
翻訳日:2023-05-25 18:04:35 公開日:2023-05-24
# PIVOINE:オープンワールド情報抽出のためのインストラクションチューニング

PIVOINE: Instruction Tuning for Open-world Information Extraction ( http://arxiv.org/abs/2305.14898v1 )

ライセンス: Link先を確認
Keming Lu, Xiaoman Pan, Kaiqiang Song, Hongming Zhang, Dong Yu, Jianshu Chen(参考訳) 非構造化テキストから包括的なエンティティプロファイルを抽出するオープンワールド情報抽出(オープンワールドie)の問題を考える。 従来の閉世界情報抽出(IE)とは違い、オープンワールドIEは、エンティティと関係が事前に定義されたオントロジーを超えた、より一般的な状況を考える。 より重要なことは、オープンワールドIEを実行し、(おそらくはきめ細かな)自然言語命令で特徴づけられる望ましいエンティティプロファイルを抽出できる大規模言語モデル(LLM)を開発することである。 命令チューニングを用いてLLMを微調整することでこれを実現できる。 特にINSTRUCTOPENWIKIは,包括的コーパス,豊富なアノテーション,多種多様な命令を満載したオープンワールドIE向け指導チューニングデータセットである。 InSTRUCTOPENWIKI上で事前学習したBLOOMモデルを微調整し、強力な命令追従機能を備えたオープンワールドIE用LLMであるPIVOINEを得る。 実験により、PIVOINEは従来の閉世界法や他のLCMベースラインよりも大幅に優れており、目に見えない命令やアウトオブオントロジーのケースで顕著な一般化能力を示すことが示された。 その結果、PIVOINEはIEのオープンワールドチャレンジに効果的に取り組むための有望なソリューションとして登場した。

We consider the problem of Open-world Information Extraction (Open-world IE), which extracts comprehensive entity profiles from unstructured texts. Different from the conventional closed-world setting of Information Extraction (IE), Open-world IE considers a more general situation where entities and relations could be beyond a predefined ontology. More importantly, we seek to develop a large language model (LLM) that is able to perform Open-world IE to extract desirable entity profiles characterized by (possibly fine-grained) natural language instructions. We achieve this by finetuning LLMs using instruction tuning. In particular, we construct INSTRUCTOPENWIKI, a substantial instruction tuning dataset for Open-world IE enriched with a comprehensive corpus, extensive annotations, and diverse instructions. We finetune the pretrained BLOOM models on INSTRUCTOPENWIKI and obtain PIVOINE, an LLM for Open-world IE with strong instruction-following capabilities. Our experiments demonstrate that PIVOINE significantly outperforms traditional closed-world methods and other LLM baselines, displaying impressive generalization capabilities on both unseen instructions and out-of-ontology cases. Consequently, PIVOINE emerges as a promising solution to tackle the open-world challenge in IE effectively.
翻訳日:2023-05-25 18:04:14 公開日:2023-05-24
# テキストエンコーダは、コントラスト視覚言語モデルにおけるパフォーマンスボトルネックである

Text encoders are performance bottlenecks in contrastive vision-language models ( http://arxiv.org/abs/2305.14897v1 )

ライセンス: Link先を確認
Amita Kamath, Jack Hessel, Kai-Wei Chang(参考訳) CLIPのような高性能視覚言語(VL)モデルは、単一のベクトルを使ってキャプションを表現する。 このボトルネックで、言語に関する情報はどの程度失われていますか? 最初にCompPromptsをキュレートします。これは、VLモデルがキャプチャできるべき構成的なイメージキャプションのセットです(例えば、シングルオブジェクト、オブジェクト+プロパティ、複数の対話オブジェクト)。 そして,複数のVLモデルによって生成された単一ベクトルテキスト表現からキャプションを再構築することを目的とした,テキストのみの回復プローブを訓練する。 このアプローチではイメージを必要とせず、以前の作業よりも広い範囲のシーンでテストすることができます。 私たちはそれを見つけました 1) CLIP のテキストエンコーダは,オブジェクト関係,属性オブジェクト関連,カウント,否定に不足する。 2)一部のテキストエンコーダは,他よりも著しく優れている。 3) テキストのみのリカバリ性能は,制御ImCaps上でのマルチモーダルマッチング性能を予測する。 具体的には、コントラストビジョン+言語モデルの合成因子のモデル化には、テキストのみの復元性が必須(しかし不十分)条件であることを示唆している。 データ+コードをリリースします。

Performant vision-language (VL) models like CLIP represent captions using a single vector. How much information about language is lost in this bottleneck? We first curate CompPrompts, a set of increasingly compositional image captions that VL models should be able to capture (e.g., single object, to object+property, to multiple interacting objects). Then, we train text-only recovery probes that aim to reconstruct captions from single-vector text representations produced by several VL models. This approach doesn't require images, allowing us to test on a broader range of scenes compared to prior work. We find that: 1) CLIP's text encoder falls short on object relationships, attribute-object association, counting, and negations; 2) some text encoders work significantly better than others; and 3) text-only recovery performance predicts multi-modal matching performance on ControlledImCaps: a new evaluation benchmark we collect+release consisting of fine-grained compositional images+captions. Specifically -- our results suggest text-only recoverability is a necessary (but not sufficient) condition for modeling compositional factors in contrastive vision+language models. We release data+code.
翻訳日:2023-05-25 18:03:51 公開日:2023-05-24
# 質問応答を用いた心理指標抽出

Extracting Psychological Indicators Using Question Answering ( http://arxiv.org/abs/2305.14891v1 )

ライセンス: Link先を確認
Luka Pavlovi\'c(参考訳) そこで本研究では,質問応答のない例を用いて,質問応答タスクを用いて,ビッグ5の心理的特徴の1つを示すテキストスパンを抽出する手法を提案する。 我々はSQuAD 2.0データセットを微調整したRoBERTaモデルを利用した。 このモデルはredditのコメントを利用してさらに微調整された。 トレーニングデータセットに回答のない例の割合が全体のパフォーマンスに与える影響について検討した。 本研究で得られた結果は、SQuAD 2.0ベンチマークと一致し、さらなる研究のための良いベースラインを提供する。

In this work, we propose a method for extracting text spans that may indicate one of the BIG5 psychological traits using a question-answering task with examples that have no answer for the asked question. We utilized the RoBERTa model fine-tuned on SQuAD 2.0 dataset. The model was further fine-tuned utilizing comments from Reddit. We examined the effect of the percentage of examples with no answer in the training dataset on the overall performance. The results obtained in this study are in line with the SQuAD 2.0 benchmark and present a good baseline for further research.
翻訳日:2023-05-25 18:03:25 公開日:2023-05-24
# HARD:ロバスト蒸留のためのハード強化

HARD: Hard Augmentations for Robust Distillation ( http://arxiv.org/abs/2305.14890v1 )

ライセンス: Link先を確認
Arne F. Nix, Max F. Burg, Fabian H. Sinz(参考訳) 知識蒸留 (KD) は、教師から学生モデルに機能的活動のみに基づいて知識を伝達するシンプルで成功した方法である。 しかし、現在のKDにはいくつかの欠点がある: この手法はシフト等分散や領域一般化からの移行に苦慮し、既定の非KDモデルトレーニングよりも最適化時間が長くなるといった単純な帰納バイアスを伝達するのに不適であることが最近示されている。 KDのこれらの側面を改善するために、教師と学生が同意しない合成データポイントを生成する一般的なデータ拡張フレームワークである、ロバスト蒸留のためのハード拡張(HARD)を提案する。 簡単なおもちゃの例で、我々の拡張フレームワークはKDとの単純な等式を伝達する問題を解く。 次に,このフレームワークを実世界のタスクに適用し,簡単な空間変換から,事前学習された変分オートエンコーダによる無拘束画像操作まで,様々な拡張モデルに適用する。 学習の強化により,ドメイン内およびドメイン外評価におけるKD性能が大幅に向上することが判明した。 さらに,本手法は,教師から生徒に受け継がれる特性に関する質的な洞察を提供するため,最先端のデータ拡張でも優れる。 したがって、HARDはKDで訓練されたモデルの一般化と収束速度を改善するために調整された、汎用的で動的に最適化されたデータ拡張技術である。

Knowledge distillation (KD) is a simple and successful method to transfer knowledge from a teacher to a student model solely based on functional activity. However, current KD has a few shortcomings: it has recently been shown that this method is unsuitable to transfer simple inductive biases like shift equivariance, struggles to transfer out of domain generalization, and optimization time is magnitudes longer compared to default non-KD model training. To improve these aspects of KD, we propose Hard Augmentations for Robust Distillation (HARD), a generally applicable data augmentation framework, that generates synthetic data points for which the teacher and the student disagree. We show in a simple toy example that our augmentation framework solves the problem of transferring simple equivariances with KD. We then apply our framework in real-world tasks for a variety of augmentation models, ranging from simple spatial transformations to unconstrained image manipulations with a pretrained variational autoencoder. We find that our learned augmentations significantly improve KD performance on in-domain and out-of-domain evaluation. Moreover, our method outperforms even state-of-the-art data augmentations and since the augmented training inputs can be visualized, they offer a qualitative insight into the properties that are transferred from the teacher to the student. Thus HARD represents a generally applicable, dynamically optimized data augmentation technique tailored to improve the generalization and convergence speed of models trained with KD.
翻訳日:2023-05-25 18:03:12 公開日:2023-05-24
# NLG評価指標の評価:測定理論の観点から

Evaluating NLG Evaluation Metrics: A Measurement Theory Perspective ( http://arxiv.org/abs/2305.14889v1 )

ライセンス: Link先を確認
Ziang Xiao, Susu Zhang, Vivian Lai, Q. Vera Liao(参考訳) 自然言語生成(NLG)モデル評価における基本的な課題、評価指標の設計と妥当性について考察する。 既存の指標の限界と人的判断の問題を認識し,NLG評価指標の妥当性と信頼性を概念化し,評価するための枠組みとして,試験設計の基礎となる計測理論を用いる。 このアプローチは、"良い"メトリクスを定義し、堅牢なメトリクスを開発し、メトリクスパフォーマンスを評価するための体系的な方法を提供します。 本稿では, nlg評価の文脈における計測理論の核となる概念と, nlgメトリクスの性能評価のための重要な手法を紹介する。 このフレームワークを通じて,有効で信頼性の高いメトリクスの設計,評価,解釈を促進し,最終的に実世界における堅牢で効果的なnlgモデルの発展に寄与する。

We address the fundamental challenge in Natural Language Generation (NLG) model evaluation, the design and validation of evaluation metrics. Recognizing the limitations of existing metrics and issues with human judgment, we propose using measurement theory, the foundation of test design, as a framework for conceptualizing and evaluating the validity and reliability of NLG evaluation metrics. This approach offers a systematic method for defining "good" metrics, developing robust metrics, and assessing metric performance. In this paper, we introduce core concepts in measurement theory in the context of NLG evaluation and key methods to evaluate the performance of NLG metrics. Through this framework, we aim to promote the design, evaluation, and interpretation of valid and reliable metrics, ultimately contributing to the advancement of robust and effective NLG models in real-world settings.
翻訳日:2023-05-25 18:02:12 公開日:2023-05-24
# 検索型言語モデルのプライバシーへの影響

Privacy Implications of Retrieval-Based Language Models ( http://arxiv.org/abs/2305.14888v1 )

ライセンス: Link先を確認
Yangsibo Huang, Samyak Gupta, Zexuan Zhong, Kai Li, Danqi Chen(参考訳) 検索型言語モデル(LM)は、外部データストアから取得したテキストを組み込むことにより、パラメトリック言語と比較して解釈可能性、事実性、適応性が改善された。 パラメトリックモデルがプライベートデータを漏洩しやすいことはよく知られているが、検索データストアの追加がモデルプライバシにどのように影響するかはまだ不明である。 本研究では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。 私たちのゴールは、プライバシが懸念されるドメインにおける最適な設計とトレーニング手順を探求することであり、ユーティリティとプライバシのバランスを取ることを目的としています。 重要なことに、$k$NN-LMsはパラメトリックモデルよりもプライベートデータストアから個人情報をリークする可能性が高い。 プライバシーリスクの軽減についても検討する。 プライバシ情報がテキストで標的にされ、容易に検出されると、単純なサニタイズステップによってリスクが完全に排除されると同時に、クエリとキーエンコーダの分離によって、さらに優れたユーティリティプライバシトレードオフが実現される。 さもなければ、データストアとエンコーダトレーニングの両方で、パブリックデータとプライベートデータを混合する戦略を検討する。 これらの手法は緩やかな改善をもたらすが、将来の作業にかなりの余地を残している。 本研究は,検索型LMのプライバシーリスクをよりよく理解し,軽減するための知見を提供するものである。 私たちのコードは、https://github.com/Princeton-SysML/kNNLM_privacy で利用可能です。

Retrieval-based language models (LMs) have demonstrated improved interpretability, factuality, and adaptability compared to their parametric counterparts, by incorporating retrieved text from external datastores. While it is well known that parametric models are prone to leaking private data, it remains unclear how the addition of a retrieval datastore impacts model privacy. In this work, we present the first study of privacy risks in retrieval-based LMs, particularly $k$NN-LMs. Our goal is to explore the optimal design and training procedure in domains where privacy is of concern, aiming to strike a balance between utility and privacy. Crucially, we find that $k$NN-LMs are more susceptible to leaking private information from their private datastore than parametric models. We further explore mitigations of privacy risks. When privacy information is targeted and readily detected in the text, we find that a simple sanitization step would completely eliminate the risks, while decoupling query and key encoders achieves an even better utility-privacy trade-off. Otherwise, we consider strategies of mixing public and private data in both datastore and encoder training. While these methods offer modest improvements, they leave considerable room for future work. Together, our findings provide insights for practitioners to better understand and mitigate privacy risks in retrieval-based LMs. Our code is available at: https://github.com/Princeton-SysML/kNNLM_privacy .
翻訳日:2023-05-25 18:01:49 公開日:2023-05-24
# シーングラフに基づくビュー不変・高精度ループ検出に向けて

Towards View-invariant and Accurate Loop Detection Based on Scene Graph ( http://arxiv.org/abs/2305.14885v1 )

ライセンス: Link先を確認
Chuhao Liu and Shaojie Shen(参考訳) ループ検出は、蓄積されたポーズドリフトを補正することにより、視覚的同時局在マッピング(SLAM)において重要な役割を果たす。 屋内シナリオでは、リッチに分散されたセマンティックランドマークはビューポイント不変であり、ループ検出において強い記述力を持つ。 現在のセマンティクス支援ループ検出は、セマンティクスインスタンス間のトポロジーを埋め込んでループを検索する。 しかし,現在のセマンティックス支援ループ検出手法では,曖昧な意味的インスタンスや劇的な視点の違いを扱うことが困難であり,文献では十分に対応されていない。 本稿では,屋内シーンにおける視覚的SLAMをターゲットとした,インクリメンタルなシーングラフに基づくループ検出手法を提案する。 マクロビュートポロジー、マイクロビュートポロジー、セマンティックインスタンスの占有を共同で考慮し、正しい対応を見つける。 ハンドヘルドrgb-dシークエンスを用いた実験では,大幅に変化する視点でループを正確に検出できることを示す。 類似したトポロジーと外観を持つ物体を観察する精度は高い。 また,室内環境の変化にもロバストであることを示す。

Loop detection plays a key role in visual Simultaneous Localization and Mapping (SLAM) by correcting the accumulated pose drift. In indoor scenarios, the richly distributed semantic landmarks are view-point invariant and hold strong descriptive power in loop detection. The current semantic-aided loop detection embeds the topology between semantic instances to search a loop. However, current semantic-aided loop detection methods face challenges in dealing with ambiguous semantic instances and drastic viewpoint differences, which are not fully addressed in the literature. This paper introduces a novel loop detection method based on an incrementally created scene graph, targeting the visual SLAM at indoor scenes. It jointly considers the macro-view topology, micro-view topology, and occupancy of semantic instances to find correct correspondences. Experiments using handheld RGB-D sequence show our method is able to accurately detect loops in drastically changed viewpoints. It maintains a high precision in observing objects with similar topology and appearance. Our method also demonstrates that it is robust in changed indoor scenes.
翻訳日:2023-05-25 18:01:24 公開日:2023-05-24
# 言語モデルに基づくパーザの構造的曖昧さとその曖昧さ--オランダ語句相対化の場合

Structural Ambiguity and its Disambiguation in Language Model Based Parsers: the Case of Dutch Clause Relativization ( http://arxiv.org/abs/2305.14917v1 )

ライセンス: Link先を確認
Gijs Wijnholds and Michael Moortgat(参考訳) 本稿では,オランダ関係節の構造的曖昧性について述べる。 接地による曖昧さ解消の課題を検討することで,先行文の存在が関係節曖昧さをいかに解決できるかを検討する。 この手法を2つの解析アーキテクチャに適用し、今日の2つのニューラルパーサのパーシングと言語モデルコンポーネントをデミスタライズする。 結果は、証明ネットに基づくニューロシンボリックパーサーは、普遍的な依存関係に基づくアプローチよりもデータバイアスの修正に対してよりオープンであることを示している。

This paper addresses structural ambiguity in Dutch relative clauses. By investigating the task of disambiguation by grounding, we study how the presence of a prior sentence can resolve relative clause ambiguities. We apply this method to two parsing architectures in an attempt to demystify the parsing and language model components of two present-day neural parsers. Results show that a neurosymbolic parser, based on proof nets, is more open to data bias correction than an approach based on universal dependencies, although both setups suffer from a comparable initial data bias.
翻訳日:2023-05-25 17:55:47 公開日:2023-05-24
# CoinEM:潜時変動モデルに対する調整不要粒子ベース変分推定

CoinEM: Tuning-Free Particle-Based Variational Inference for Latent Variable Models ( http://arxiv.org/abs/2305.14916v1 )

ライセンス: Link先を確認
Louis Sharrock, Daniel Dodd, Christopher Nemeth(参考訳) 本稿では,極端最大推定による潜在変数モデルを学習するための2つの新しい粒子ベースアルゴリズムを提案する。 本手法は最適化問題としての限界最大度推定の観点、すなわち自由エネルギー汎関数の最小化を基礎としている。 この問題を解決する一つの方法は、自由エネルギーに関連する勾配流の離散化を考えることである。 本研究では,一般的なstein変分勾配降下アルゴリズムの拡張に類似した手法について検討する。 特に、このアルゴリズムの降下補題を確立し、各イテレーションで自由エネルギーが減少することを保証する。 この方法と、勾配流の離散化として得られた他の方法は、適切な速度での収束を確保するために、実践者が慎重に調整しなければならない学習率に必ず依存する。 このことを念頭に,コンベックス最適化によるコイン賭け手法に基づいて,完全に学習率フリーである自由エネルギーを最適化する別のアルゴリズムを提案する。 我々は,複数の高次元設定を含む幅広い数値実験において,アルゴリズムの性能を検証する。 我々の結果は、ハイパーパラメータチューニングを必要とせず、既存の粒子法と競合する。

We introduce two new particle-based algorithms for learning latent variable models via marginal maximum likelihood estimation, including one which is entirely tuning-free. Our methods are based on the perspective of marginal maximum likelihood estimation as an optimization problem: namely, as the minimization of a free energy functional. One way to solve this problem is to consider the discretization of a gradient flow associated with the free energy. We study one such approach, which resembles an extension of the popular Stein variational gradient descent algorithm. In particular, we establish a descent lemma for this algorithm, which guarantees that the free energy decreases at each iteration. This method, and any other obtained as the discretization of the gradient flow, will necessarily depend on a learning rate which must be carefully tuned by the practitioner in order to ensure convergence at a suitable rate. With this in mind, we also propose another algorithm for optimizing the free energy which is entirely learning rate free, based on coin betting techniques from convex optimization. We validate the performance of our algorithms across a broad range of numerical experiments, including several high-dimensional settings. Our results are competitive with existing particle-based methods, without the need for any hyperparameter tuning.
翻訳日:2023-05-25 17:55:34 公開日:2023-05-24
# gamus: リモートセンシングデータのための幾何対応マルチモーダル意味セグメンテーションベンチマーク

GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for Remote Sensing Data ( http://arxiv.org/abs/2305.14914v1 )

ライセンス: Link先を確認
Zhitong Xiong, Sining Chen, Yi Wang, Lichao Mou, Xiao Xiang Zhu(参考訳) 正規化デジタル表面モデル(nDSM)の幾何学的情報は、土地被覆のセマンティッククラスと強く相関している。 2つのモード(RGBとnDSM(高さ))を共同で展開することはセグメンテーション性能を向上させる大きな可能性を持つ。 しかし、以下の課題により、リモートセンシングの分野ではまだ未調査の分野である。 まず、既存のデータセットのスケールは比較的小さく、既存のデータセットの多様性は限られており、バリデーションの能力を制限する。 第二に、パフォーマンスアセスメントの統一ベンチマークが欠如しているため、異なるモデルの有効性を比較するのが困難である。 最後に,高度なマルチモーダルセマンティクスセグメンテーション手法は,リモートセンシングデータに対して深く検討されていない。 本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセグメンテーションのためのリモートセンシングベンチマークデータセットを提案する。 既存の手法の公平かつ包括的な分析に向けて,提案するベンチマークは, 1) 共登録rgb及びndsmペア及び画素別意味ラベルを含む大規模データセット 2) 遠隔センシングデータを用いた畳み込み・変圧器型ネットワークにおける既存マルチモーダル核融合戦略の包括的評価と解析 さらに,timf(transformer-based intermediary multi-modal fusion)モジュールを提案し,トークンレベルの適応型マルチモーダル融合による意味セグメンテーション性能を向上させる。 これらの方法の広範な分析を行い、実験結果を通じて貴重な知見を提供する。 ベンチマークとベースラインのコードは、 \url{https://github.com/EarthNets/RSI-MMSegmentation}でアクセスできる。

Geometric information in the normalized digital surface models (nDSM) is highly correlated with the semantic class of the land cover. Exploiting two modalities (RGB and nDSM (height)) jointly has great potential to improve the segmentation performance. However, it is still an under-explored field in remote sensing due to the following challenges. First, the scales of existing datasets are relatively small and the diversity of existing datasets is limited, which restricts the ability of validation. Second, there is a lack of unified benchmarks for performance assessment, which leads to difficulties in comparing the effectiveness of different models. Last, sophisticated multi-modal semantic segmentation methods have not been deeply explored for remote sensing data. To cope with these challenges, in this paper, we introduce a new remote-sensing benchmark dataset for multi-modal semantic segmentation based on RGB-Height (RGB-H) data. Towards a fair and comprehensive analysis of existing methods, the proposed benchmark consists of 1) a large-scale dataset including co-registered RGB and nDSM pairs and pixel-wise semantic labels; 2) a comprehensive evaluation and analysis of existing multi-modal fusion strategies for both convolutional and Transformer-based networks on remote sensing data. Furthermore, we propose a novel and effective Transformer-based intermediary multi-modal fusion (TIMF) module to improve the semantic segmentation performance through adaptive token-level multi-modal fusion.The designed benchmark can foster future research on developing new methods for multi-modal learning on remote sensing data. Extensive analyses of those methods are conducted and valuable insights are provided through the experimental results. Code for the benchmark and baselines can be accessed at \url{https://github.com/EarthNets/RSI-MMSegmentation}.
翻訳日:2023-05-25 17:55:15 公開日:2023-05-24
# colada: 言語横断型エンティティ認識のための協調ラベル修飾フレームワーク

CoLaDa: A Collaborative Label Denoising Framework for Cross-lingual Named Entity Recognition ( http://arxiv.org/abs/2305.14913v1 )

ライセンス: Link先を確認
Tingting Ma, Qianhui Wu, Huiqiang Jiang, B\"orje F. Karlsson, Tiejun Zhao, Chin-Yew Lin(参考訳) NER(クロスランガルな名前付きエンティティ認識)は、与えられたソース言語でラベル付きデータを活用することで、ターゲット言語によく一般化するNERシステムを訓練することを目的としている。 以前の研究では、ソース言語ラベル付きデータを翻訳したり、ターゲット言語ラベルなしデータで知識蒸留を行うことで、データ不足の問題を緩和している。 しかし,これらの手法は自動ラベリング法によりラベルノイズに悩まされる可能性がある。 本稿では,この問題を解決するために,協調ラベル分類フレームワークであるcoladaを提案する。 具体的には、まず、異なるデータソースでトレーニングされたモデルが互いに使用する疑似ラベルを協調的にデノベートすることを可能にする、モデルコラボレーションに基づくデノベーションスキームを探求する。 次に,表現空間における各トークン近傍のラベル一貫性を考慮したインスタンス協調に基づく戦略を提案する。 異なるベンチマークデータセットの実験により、提案したCoLaDaは、特に遠い言語に一般化する場合に、従来の手法よりも優れた結果が得られることが示された。

Cross-lingual named entity recognition (NER) aims to train an NER system that generalizes well to a target language by leveraging labeled data in a given source language. Previous work alleviates the data scarcity problem by translating source-language labeled data or performing knowledge distillation on target-language unlabeled data. However, these methods may suffer from label noise due to the automatic labeling process. In this paper, we propose CoLaDa, a Collaborative Label Denoising Framework, to address this problem. Specifically, we first explore a model-collaboration-based denoising scheme that enables models trained on different data sources to collaboratively denoise pseudo labels used by each other. We then present an instance-collaboration-based strategy that considers the label consistency of each token's neighborhood in the representation space for denoising. Experiments on different benchmark datasets show that the proposed CoLaDa achieves superior results compared to previous methods, especially when generalizing to distant languages.
翻訳日:2023-05-25 17:54:48 公開日:2023-05-24
# SVDinsTN:効率的な構造探索を用いたテンソルネットワーク表現の統合手法

SVDinsTN: An Integrated Method for Tensor Network Representation with Efficient Structure Search ( http://arxiv.org/abs/2305.14912v1 )

ライセンス: Link先を確認
Yu-Bang Zheng, Xi-Le Zhao, Junhua Zeng, Chao Li, Qibin Zhao, Heng-Chao Li, Ting-Zhu Huang(参考訳) テンソルネットワーク(TN)表現は、データ解析と機械学習の強力な技術である。 TN構造探索(TN-SS)の課題は、コンパクトな表現を実現するために最適な構造を探すことを目的としている。 既存のTN-SS法は主に、繰り返し構造評価によって計算コストが過大になる2段階最適化法を採用している。 この問題に対処するために,svd-inspired tn decomposition (svdinstn) という効率的な統合型(シングルレベル)手法を提案する。 完全接続されたTNの各エッジに対角係数を挿入することにより、TNコアと対角因子を同時に計算し、最もコンパクトなTN構造を示す因子の空間性を明らかにする。 実世界のデータを用いた実験結果から,SVDinsTNは既存のTN-SS法と比較して,実行時に約10^2\sim{}10^3$の高速化を実現し,表現能力の水準を維持した。

Tensor network (TN) representation is a powerful technique for data analysis and machine learning. It practically involves a challenging TN structure search (TN-SS) problem, which aims to search for the optimal structure to achieve a compact representation. Existing TN-SS methods mainly adopt a bi-level optimization method that leads to excessive computational costs due to repeated structure evaluations. To address this issue, we propose an efficient integrated (single-level) method named SVD-inspired TN decomposition (SVDinsTN), eliminating the need for repeated tedious structure evaluation. By inserting a diagonal factor for each edge of the fully-connected TN, we calculate TN cores and diagonal factors simultaneously, with factor sparsity revealing the most compact TN structure. Experimental results on real-world data demonstrate that SVDinsTN achieves approximately $10^2\sim{}10^3$ times acceleration in runtime compared to the existing TN-SS methods while maintaining a comparable level of representation ability.
翻訳日:2023-05-25 17:54:29 公開日:2023-05-24
# ショートカットからトリガーへ:POEによるバックドアディフェンス

From Shortcuts to Triggers: Backdoor Defense with Denoised PoE ( http://arxiv.org/abs/2305.14910v1 )

ライセンス: Link先を確認
Qin Liu, Fei Wang, Chaowei Xiao, Muhao Chen(参考訳) 言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。 したがって、それらに対処するための防衛ソリューションを調査することが重要である。 既存のバックドア防御法は主に露骨な引き金によるバックドア攻撃に重点を置いており、様々なバックドア攻撃に対する普遍的な防御は、ほとんど探索されていない。 本稿では,様々なバックドア攻撃を防御するために,エンド・ツー・エンドのアンサンブルベースのバックドア防御フレームワークdpoe(denoized product-of-experts)を提案する。 DPoEは、バックドアショートカットをキャプチャする浅いモデルと、バックドアショートカットを学習するのを防ぐメインモデルである。 バックドア攻撃によるラベルフリップに対処するため、DPoEはデノイングデザインを取り入れている。 SST-2データセットの実験では、DPoEは単語レベル、文レベル、構文的トリガを含む様々な種類のバックドアトリガに対する防御性能を著しく向上することが示された。 さらにDPoEは、複数の種類のトリガーを混ぜるより難しいが実用的な設定でも有効である。

Language models are often at risk of diverse backdoor attacks, especially data poisoning. Thus, it is important to investigate defense solutions for addressing them. Existing backdoor defense methods mainly focus on backdoor attacks with explicit triggers, leaving a universal defense against various backdoor attacks with diverse triggers largely unexplored. In this paper, we propose an end-to-end ensemble-based backdoor defense framework, DPoE (Denoised Product-of-Experts), which is inspired by the shortcut nature of backdoor attacks, to defend various backdoor attacks. DPoE consists of two models: a shallow model that captures the backdoor shortcuts and a main model that is prevented from learning the backdoor shortcuts. To address the label flip caused by backdoor attackers, DPoE incorporates a denoising design. Experiments on SST-2 dataset show that DPoE significantly improves the defense performance against various types of backdoor triggers including word-level, sentence-level, and syntactic triggers. Furthermore, DPoE is also effective under a more challenging but practical setting that mixes multiple types of trigger.
翻訳日:2023-05-25 17:54:11 公開日:2023-05-24
# 事前学習型大規模言語モデルを活用したモデルベースタスク計画のための世界モデルの構築と活用

Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning ( http://arxiv.org/abs/2305.14909v1 )

ライセンス: Link先を確認
Lin Guan, Karthik Valmeekam, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 計画問題に事前訓練された大規模言語モデル(LLM)を適用することへの関心が高まっている。 しかし、プランナーとして直接llmを使用する方法は、現在、計画の正確さの制限、シミュレータや実際の環境とのインタラクションからのフィードバックへの強い依存、人間フィードバックの活用の非効率など、いくつかの要因により実用的ではない。 本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。 LLMが最初に完全に機能するPDDLモデルを生成できないという事実に対処するため、PDDLとPDDLバリデータや人間などの修正フィードバック源とのインタフェースとしてLLMを用いる。 PDDLの背景を欠いているユーザに対しては、LDMがPDDLを自然言語に変換し、基礎となるドメインモデルへの修正フィードバックを効果的にエンコードできることを示す。 私たちのフレームワークは、外部プランナーが提供する正確性保証を享受するだけでなく、ユーザが前回の作業のように生成されたすべてのプランを検査し(インタラクティブなプロンプトを通じて)修正するのではなく、最初にドメインモデルを修正できるようにすることによって、人間による関与を低減します。 2つのIPCドメインと、ALFWorldのような一般的なベンチマークよりも複雑であるハウスドメインにおいて、GPT-4が40以上のアクションに対して高品質なPDDLモデルを生成するために活用できることを示し、修正されたPDDLモデルを用いて48の課題計画タスクの解決に成功した。 ソースコードを含むリソースは、https://guansuns.github.io/pages/llm-dm。

There is a growing interest in applying pre-trained large language models (LLMs) to planning problems. However, methods that use LLMs directly as planners are currently impractical due to several factors, including limited correctness of plans, strong reliance on feedback from interactions with simulators or even the actual environment, and the inefficiency in utilizing human feedback. In this work, we introduce a novel alternative paradigm that constructs an explicit world (domain) model in planning domain definition language (PDDL) and then uses it to plan with sound domain-independent planners. To address the fact that LLMs may not generate a fully functional PDDL model initially, we employ LLMs as an interface between PDDL and sources of corrective feedback, such as PDDL validators and humans. For users who lack a background in PDDL, we show that LLMs can translate PDDL into natural language and effectively encode corrective feedback back to the underlying domain model. Our framework not only enjoys the correctness guarantee offered by the external planners but also reduces human involvement by allowing users to correct domain models at the beginning, rather than inspecting and correcting (through interactive prompting) every generated plan as in previous work. On two IPC domains and a Household domain that is more complicated than commonly used benchmarks such as ALFWorld, we demonstrate that GPT-4 can be leveraged to produce high-quality PDDL models for over 40 actions, and the corrected PDDL models are then used to successfully solve 48 challenging planning tasks. Resources including the source code will be released at: https://guansuns.github.io/pages/llm-dm.
翻訳日:2023-05-25 17:53:52 公開日:2023-05-24
# PURR: 言語モデル破壊を通知する言語モデル幻覚を効果的に編集する

PURR: Efficiently Editing Language Model Hallucinations by Denoising Language Model Corruptions ( http://arxiv.org/abs/2305.14908v1 )

ライセンス: Link先を確認
Anthony Chen, Panupong Pasupat, Sameer Singh, Hongrae Lee and Kelvin Guu(参考訳) 大規模な言語モデルの顕著な能力には永続的な欠点が伴っている。 この問題に対処するため、最近の研究では、特にプロンプトベースの編集を通して、言語モデルの出力を編集し、貢献するアプローチを導入している。 しかし、大規模な言語モデルを編集するために使用する推論コストと速度は現在、プロンプトベースのメソッドをボトルネックにしている。 これらのボトルネックは、コンパクトなエディタのトレーニングを動機付けている。 これらの課題を克服するために、我々は大規模な言語モデルの力を利用して、テキストに汚職(すなわちノイズ)を導入し、その後、微調整されたコンパクトエディターを使って、関連する証拠を取り入れて汚職を軽視する。 我々の方法論は完全に教師なしであり、あらゆる領域でのトレーニングのための偽の幻覚を与えてくれる。 我々のPetite Unsupervised Research and RevisionモデルであるPURRは、微調整とプロンプトに基づく既存の編集方法に対する属性の改善だけでなく、桁違いに高速な実行時間を実現する。

The remarkable capabilities of large language models have been accompanied by a persistent drawback: the generation of false and unsubstantiated claims commonly known as "hallucinations". To combat this issue, recent research has introduced approaches that involve editing and attributing the outputs of language models, particularly through prompt-based editing. However, the inference cost and speed of using large language models for editing currently bottleneck prompt-based methods. These bottlenecks motivate the training of compact editors, which is challenging due to the scarcity of training data for this purpose. To overcome these challenges, we exploit the power of large language models to introduce corruptions (i.e., noise) into text and subsequently fine-tune compact editors to denoise the corruptions by incorporating relevant evidence. Our methodology is entirely unsupervised and provides us with faux hallucinations for training in any domain. Our Petite Unsupervised Research and Revision model, PURR, not only improves attribution over existing editing methods based on fine-tuning and prompting, but also achieves faster execution times by orders of magnitude.
翻訳日:2023-05-25 17:53:18 公開日:2023-05-24
# インコンテキスト学習のためのカバレッジに基づくサンプル選択

Coverage-based Example Selection for In-Context Learning ( http://arxiv.org/abs/2305.14907v1 )

ライセンス: Link先を確認
Shivanshu Gupta, Sameer Singh, Matt Gardner(参考訳) インコンテキスト学習(icl:in-context learning)は、プロンプトをいくつかのタスク例で条件付けすることで、新しいタスクを実行するための大きな言語モデルの機能である。 最も類似した例を独立に選択する標準的なアプローチは、重要な情報を無視しながら冗長なデモを選択する。 本研究は,テスト入力の有意義な側面(例えば推論パターン)のカバレッジに基づいて,デモンストレーションのインフォメーション性を評価するためのフレームワークを提案する。 このフレームワークを用いて,コンテキストトークンの埋め込みがこれらの健全な側面を効果的に捉え,そのリコールをBERTScore-Recall (BSR) を用いて測定することにより,信頼性の高い情報量が得られることを示す。 さらに、BSRのようなリコールメトリクスを拡張して、それらのセットバージョンを提案し、最大情報的なデモセットを見つける。 6つの複雑な構成生成タスクと7つの多種多様なLCMにおいて、Set-BSRは平均16%の類似性に基づくアプローチよりも優れており、学習自由であるにもかかわらず、タスクやLLM固有のトレーニングを利用する手法よりも優れていることが示される。

In-context learning (ICL), the ability of large language models to perform novel tasks by conditioning on a prompt with a few task examples, requires demonstrations that are informative about the test instance. The standard approach of independently selecting the most similar examples selects redundant demonstrations while overlooking important information. This work proposes a framework for assessing the informativeness of demonstrations based on their coverage of salient aspects (e.g., reasoning patterns) of the test input. Using this framework, we show that contextual token embeddings effectively capture these salient aspects, and their recall measured using BERTScore-Recall (BSR) yields a reliable measure of informativeness. Further, we extend recall metrics like BSR to propose their set versions to find maximally informative sets of demonstrations. On 6 complex compositional generation tasks and 7 diverse LLMs, we show that Set-BSR outperforms the standard similarity-based approach by up to 16% on average and, despite being learning-free, often surpasses methods that leverage task or LLM-specific training.
翻訳日:2023-05-25 17:52:57 公開日:2023-05-24
# ニュース記事中の情報ソースの特定

Identifying Informational Sources in News Articles ( http://arxiv.org/abs/2305.14904v1 )

ライセンス: Link先を確認
Alexander Spangher, Nanyun Peng, Jonathan May, Emilio Ferrara(参考訳) ニュース記事はジャーナリストが報道に使用する情報ソースによって駆動される。 ソースがストーリーでいつ、どのように、なぜ一緒に使われるかのモデリングは、私たちが消費する情報をよりよく理解するのに役立ちます。 本研究では,この目的に向けて,ニュース執筆に使用される情報ソースの最大かつ最も広範囲にアノテートされたデータセットを構築する。 当社のデータセットは,情報検出とソース帰属のための高パフォーマンスモデルのトレーニングに使用できることを示す。 さらに,ニュース記事のソースの構成性を研究するための新たなタスクであるソース予測を導入する。 本稿は,ニュース記事の内部構造を探求し,計画に基づく言語生成を支援する物語科学にとって重要な証明であり,ジャーナリストを支援するためのソースレコメンデーションシステムに向けた重要なステップであると考えている。

News articles are driven by the informational sources journalists use in reporting. Modeling when, how and why sources get used together in stories can help us better understand the information we consume and even help journalists with the task of producing it. In this work, we take steps toward this goal by constructing the largest and widest-ranging annotated dataset, to date, of informational sources used in news writing. We show that our dataset can be used to train high-performing models for information detection and source attribution. We further introduce a novel task, source prediction, to study the compositionality of sources in news articles. We show good performance on this task, which we argue is an important proof for narrative science exploring the internal structure of news articles and aiding in planning-based language generation, and an important step towards a source-recommendation system to aid journalists.
翻訳日:2023-05-25 17:52:36 公開日:2023-05-24
# 既存のエンド・ツー・エンドのエンティティリンクシステムの公平かつ詳細な評価

A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking Systems ( http://arxiv.org/abs/2305.14937v1 )

ライセンス: Link先を確認
Hannah Bast and Matthias Hertel and Natalie Prange(参考訳) 既存のエンティティリンクシステムの評価では、システムが特定のアプリケーションに対してどのように機能するかはほとんど語られません。 多くのベンチマークが名前付きエンティティに焦点を当てている; どのエンティティを含めるべきかを定義するのは難しい; エンティティ認識とエンティティリンクの曖昧さがある; 多くのベンチマークには過度な適合を招いたり、限定的な意味のある評価結果につながるエラーやアーティファクトがある。 我々は、既存の様々なエンド・ツー・エンドのエンティティリンカをより有意義で公平に評価する。 我々は,これらのリンカの長所と短所と,各出版物の成果がどの程度再現できるかを特徴付ける。 本評価は,これらの問題に対処する2つの新しいベンチマークと同様に,上記の問題を様々な程度に示す,広く使用されているベンチマークに基づく。

Existing evaluations of entity linking systems often say little about how the system is going to perform for a particular application. There are four fundamental reasons for this: many benchmarks focus on named entities; it is hard to define which other entities to include; there are ambiguities in entity recognition and entity linking; many benchmarks have errors or artifacts that invite overfitting or lead to evaluation results of limited meaningfulness. We provide a more meaningful and fair in-depth evaluation of a variety of existing end-to-end entity linkers. We characterize the strengths and weaknesses of these linkers and how well the results from the respective publications can be reproduced. Our evaluation is based on several widely used benchmarks, which exhibit the problems mentioned above to various degrees, as well as on two new benchmarks, which address these problems.
翻訳日:2023-05-25 17:45:06 公開日:2023-05-24
# 言語モデリングにおける公平性とプライバシーのトレードオフ

Trade-Offs Between Fairness and Privacy in Language Modeling ( http://arxiv.org/abs/2305.14936v1 )

ライセンス: Link先を確認
Cleo Matzken, Steffen Eger, Ivan Habernal(参考訳) 現代のNLPモデルにおけるプライバシー保護の重要性が高まっている。 このようなモデルの社会的バイアスを軽減する必要もあります。 しかし、同時に両方を持てますか? 既存の研究によると、プライバシーの保護は分類タスクのバイアスが悪化する価格から来ている。 本稿では,プライバシ保護とデバイアス技術の両方をテキスト生成モデルのトレーニングに組み込む際に,このトレードオフがどの程度有効かを検討する。 ある次元に沿ったモデルの改善は、モデルの実用性だけでなく、他の次元にもどのように影響しますか? バイアス検出,プライバシ攻撃,言語モデリング,ダウンストリームタスクのパフォーマンスなど,幅広い実験を実施している。

Protecting privacy in contemporary NLP models is gaining in importance. So does the need to mitigate social biases of such models. But can we have both at the same time? Existing research suggests that privacy preservation comes at the price of worsening biases in classification tasks. In this paper, we explore the extent to which this tradeoff really holds when we incorporate both privacy preservation and de-biasing techniques into training text generation models. How does improving the model along one dimension affect the other dimension as well as the utility of the model? We conduct an extensive set of experiments that include bias detection, privacy attacks, language modeling, and performance on downstream tasks.
翻訳日:2023-05-25 17:44:50 公開日:2023-05-24
# 議論における適切な言語モデリング

Modeling Appropriate Language in Argumentation ( http://arxiv.org/abs/2305.14935v1 )

ライセンス: Link先を確認
Timon Ziegenbein, Shahbaz Syed, Felix Lange, Martin Potthast and Henning Wachsmuth(参考訳) オンライン討論モデレーターは、議論参加者の貢献が適切か、市民性を維持するために削除されるべきかについて、アドホックな判断をしなければならない。 攻撃的言語と結果のツールに関する既存の研究は、そのような決定に関わった多くの人々の1つの側面しかカバーしていない。 議論の中で何が適切かという問題は、まだ体系的に解決されていない。 本稿では,最初に適切な言語を議論の中で操作する。 特に,議論の品質評価,特に修辞学の観点から,欠陥の欠如による適切性をモデル化する。 これらから、オンライン議論において不適切な言語を決定する14次元の新しい分類法を導出する。 3つの引数品質コーパスに基づいて、14次元に注釈付けされた2191個の引数のコーパスを作成する。 実証分析は、分類学が適切性の概念を包括的にカバーし、議論品質の次元といくつかの妥当な相関を示すことを支持している。 さらに, 正当性を評価するためのベースラインアプローチの結果から, すべての次元をコーパス上で計算的にモデル化できることが示唆された。

Online discussion moderators must make ad-hoc decisions about whether the contributions of discussion participants are appropriate or should be removed to maintain civility. Existing research on offensive language and the resulting tools cover only one aspect among many involved in such decisions. The question of what is considered appropriate in a controversial discussion has not yet been systematically addressed. In this paper, we operationalize appropriate language in argumentation for the first time. In particular, we model appropriateness through the absence of flaws, grounded in research on argument quality assessment, especially in aspects from rhetoric. From these, we derive a new taxonomy of 14 dimensions that determine inappropriate language in online discussions. Building on three argument quality corpora, we then create a corpus of 2191 arguments annotated for the 14 dimensions. Empirical analyses support that the taxonomy covers the concept of appropriateness comprehensively, showing several plausible correlations with argument quality dimensions. Moreover, results of baseline approaches to assessing appropriateness suggest that all dimensions can be modeled computationally on the corpus.
翻訳日:2023-05-25 17:44:40 公開日:2023-05-24
# 言語モデルを用いた識別器誘導多段階推論

Discriminator-Guided Multi-step Reasoning with Language Models ( http://arxiv.org/abs/2305.14934v1 )

ライセンス: Link先を確認
Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang(参考訳) マルチステップ推論の文脈では、言語モデル(lms)の確率はしばしば誤って調整される。 したがって、推論タスクの標準的な復号法であるgreedy decodingは、しばしば誤った解をもたらす。 さらに、自己整合性や検証器などの手法は、LM分布からのサンプリングに依存し、根本問題に対処しない。 そこで我々は,正しい推論ステップを生成するためにモデルを段階的にデコードするGRACE(Guiding Multi-step ReAsoning with a CorrectnEss Discriminator)を提案する。 GRACEは、正しいステップと正しいステップを区別するように訓練された判別器モデルを使用して、各推論ステップの正しさに基づいて復号の好みを調整する。 重要な点として、GRACE は LM の微調整や再訓練を必要としない。 4つの一般的な数学推論ベンチマークに対する従来のデコード戦略と比較すると、グレースは最終回答の正確さとステップの正確さの両方が大幅に改善され、欲望のデコードと自己一貫性の両方を上回っている。 \footnote{Our code は \url{https://github.com/mukhal/grace にある。 }}

In the context of multi-step reasoning, language models (LMs) probabilities are often miscalibrated -- solutions with high probabilities are not always correct. Therefore, greedy decoding, which is the standard decoding method for reasoning tasks, often yields incorrect solutions. In addition, methods such as self-consistency and verifiers rely on sampling from the LM distribution and do not tackle the underlying issue. To address this, we introduce Guiding Multi-step ReAsoning with a CorrectnEss Discriminator (GRACE), a stepwise decoding approach that nudges the model towards producing correct reasoning steps. GRACE employs a discriminator model, which is trained to differentiate correct steps from invalid ones, to adjust decoding preferences based on the correctness of each reasoning step. Importantly, GRACE does not require fine-tuning or re-training the LMs. When compared with conventional decoding strategies over four popular math reasoning benchmarks, GRACE exhibits significant improvements in both final answer accuracy and step correctness, outperforming both greedy decoding and self-consistency.\footnote{Our code can be found at \url{https://github.com/mukhal/grace.}}
翻訳日:2023-05-25 17:44:23 公開日:2023-05-24
# 大規模言語モデルの強みとバイアスを明らかにするインコンテキスト・インフォメーション

In-Context Impersonation Reveals Large Language Models' Strengths and Biases ( http://arxiv.org/abs/2305.14930v1 )

ライセンス: Link先を確認
Leonard Salewski, Stephan Alaniz, Isabel Rio-Torto, Eric Schulz, Zeynep Akata(参考訳) 日常会話では、人間は異なる役割を担い、選択した役割に語彙を適応することができる。 LLMがテキスト・イン・コンテクストを生成する際に,その役割を異にするかどうかを検討する。 我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。 私たちは、プロンプトに社会的なアイデンティティまたはドメインの専門知識に関連付けられたペルソナをプレフィックスすることでこれを行います。 マルチアームバンディットタスクでは、異なる年齢の子どものふりをしたLSMが、人間のような発達段階の探索を回復する。 言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。 最後に,異なるカテゴリを記述する際に,llmsの擬態が視覚情報に補完するかどうかを検証した。 鳥の専門家になるよう促されたLLMは、車の専門家になるよう促された鳥よりも鳥をうまく説明します。 男性であるように促されたLSMは、女性であるように促された車よりも、車を記述するのが得意である。 これらの結果から, LLMは多様な役割を担っており, この文脈内偽造は, 隠れた強みや偏見を明らかにするのに有効であることが示唆された。

In everyday conversations, humans can take on different roles and adapt their vocabulary to their chosen roles. We explore whether LLMs can take on, that is impersonate, different roles when they generate text in-context. We ask LLMs to assume different personas before solving vision and language tasks. We do this by prefixing the prompt with a persona that is associated either with a social identity or domain expertise. In a multi-armed bandit task, we find that LLMs pretending to be children of different ages recover human-like developmental stages of exploration. In a language-based reasoning task, we find that LLMs impersonating domain experts perform better than LLMs impersonating non-domain experts. Finally, we test whether LLMs' impersonations are complementary to visual information when describing different categories. We find that impersonation can improve performance: an LLM prompted to be a bird expert describes birds better than one prompted to be a car expert. However, impersonation can also uncover LLMs' biases: an LLM prompted to be a man describes cars better than one prompted to be a woman. These findings demonstrate that LLMs are capable of taking on diverse roles and that this in-context impersonation can be used to uncover their hidden strengths and biases.
翻訳日:2023-05-25 17:44:02 公開日:2023-05-24
# 言語モデルをユーザの意見に合わせる

Aligning Language Models to User Opinions ( http://arxiv.org/abs/2305.14929v1 )

ライセンス: Link先を確認
EunJeong Hwang, Bodhisattwa Prasad Majumder, Niket Tandon(参考訳) 人間と対話するLLMを開発する上で重要な側面は、モデルの振る舞いをユーザーに合わせることである。 llmを特定のパーソナラとして、特にその関連する段階でキャプチャされたユーザーグループまたはイデオロギーパーソナとして振る舞うように促すことができる。 しかし、LLMを特定のユーザーとベストに調整する方法は、人口統計学やイデオロギーの集団ではない。 世論調査(Pew Researchによる)では、ユーザとその人口統計学とイデオロギーの意見が相互予測者ではないことが判明した。 我々はこの洞察を用いて,利用者の意見とユーザ人口,イデオロギーの両方をモデル化し,幅広いトピックを対象とした調査質問から世論を予測する上で,最大7ポイントの精度向上を実現している。 人口統計学とイデオロギーを併用したLCMの典型的なアプローチに加えて,個人ユーザからの最も関連性の高い過去の意見を活用すれば,より正確なユーザ意見の予測が可能になる。

An important aspect of developing LLMs that interact with humans is to align models' behavior to their users. It is possible to prompt an LLM into behaving as a certain persona, especially a user group or ideological persona the model captured during its pertaining stage. But, how to best align an LLM with a specific user and not a demographic or ideological group remains an open question. Mining public opinion surveys (by Pew Research), we find that the opinions of a user and their demographics and ideologies are not mutual predictors. We use this insight to align LLMs by modeling both user opinions as well as user demographics and ideology, achieving up to 7 points accuracy gains in predicting public opinions from survey questions across a broad set of topics. In addition to the typical approach of prompting LLMs with demographics and ideology, we discover that utilizing the most relevant past opinions from individual users enables the model to predict user opinions more accurately.
翻訳日:2023-05-25 17:43:40 公開日:2023-05-24
# 信頼できる誤情報緩和に向けて:一般化・不確かさ・GPT-4

Towards Reliable Misinformation Mitigation: Generalization, Uncertainty, and GPT-4 ( http://arxiv.org/abs/2305.14928v1 )

ライセンス: Link先を確認
Kellin Pelrine, Meilina Reksoprodjo, Caleb Gupta, Joel Christoph, Reihaneh Rabbany(参考訳) 誤報は社会的な課題であり、現在のアプローチは効果的な解決策を生み出していない。 完全予測が達成不可能な状況下で, 一般化, ソフトな分類, および最近の大規模言語モデルを活用して, より実用的なツールを作成することを提案する。 まず、GPT-4や他の言語モデルが文献における既存の手法より優れていることを示す。 次に、GPT-4とRoBERTa-largeが障害モードに重大な違いを示し、大幅な性能改善の可能性を秘めていることを示す。 最後に, 不確かさを定量化するために, これらのモデルがソフト分類フレームワークに採用可能であることを示す。 ハード分類結果が劣るモデルは, ソフト分類性能に優れることがわかった。 全体として、この研究は、誤情報に関する現実世界の進歩を促進する将来のツールの基盤となる。

Misinformation poses a critical societal challenge, and current approaches have yet to produce an effective solution. We propose focusing on generalization, soft classification, and leveraging recent large language models to create more practical tools in contexts where perfect predictions remain unattainable. We begin by demonstrating that GPT-4 and other language models can outperform existing methods in the literature. Next, we explore their generalization, revealing that GPT-4 and RoBERTa-large exhibit critical differences in failure modes, which offer potential for significant performance improvements. Finally, we show that these models can be employed in soft classification frameworks to better quantify uncertainty. We find that models with inferior hard classification results can achieve superior soft classification performance. Overall, this research lays groundwork for future tools that can drive real-world progress on misinformation.
翻訳日:2023-05-25 17:43:21 公開日:2023-05-24
# ユニバーサル・セルフアダプティブ・プロンプティング

Universal Self-adaptive Prompting ( http://arxiv.org/abs/2305.14926v1 )

ライセンス: Link先を確認
Xingchen Wan, Ruoxi Sun, Hootan Nakhost, Hanjun Dai, Julian Martin Eisenschlos, Sercan O. Arik, Tomas Pfister(参考訳) 現代の大規模言語モデル(LLM)の目印は、その印象的なゼロショットと少数ショットの能力であり、しばしばプロンプトベースおよび/またはコンテキスト内学習によって引き起こされる。 しかしながら、llmにおけるゼロショット性能は、高いコベットと最も一般的なものであるにもかかわらず、ガイダンスの欠如と、地上ラベルが使用できない場合の一般的なタスクに既存の自動プロンプト設計手法を適用することの難しさにより、依然として弱い。 本研究では,ゼロショット学習に特化した自動プロンプト設計手法であるuniversal self-adaptive prompting (usp) を提案する。 普遍的なプロンプトを達成するため、USPは可能なNLPタスクを3つの可能なタスクタイプのうちの1つに分類し、対応するセレクタを使用して、最も適切なクエリとゼロショットモデル生成レスポンスを擬似デモとして選択し、ICLをゼロショット設定に完全に自動で一般化する。 2つのPaLMモデルを用いたゼロショットUSPの評価を行い、標準ゼロショットベースラインよりもかなり強く、20以上の自然言語理解(NLU)タスクと自然言語生成(NLG)タスクにまたがる数ショットベースラインに匹敵する性能を示した。

A hallmark of modern large language models (LLMs) is their impressive general zero-shot and few-shot abilities, often elicited through prompt-based and/or in-context learning. However, while highly coveted and being the most general, zero-shot performances in LLMs are still typically weaker due to the lack of guidance and the difficulty of applying existing automatic prompt design methods in general tasks when ground-truth labels are unavailable. In this study, we address this by presenting Universal Self-adaptive Prompting (USP), an automatic prompt design approach specifically tailored for zero-shot learning (while compatible with few-shot). Requiring only a small amount of unlabeled data & an inference-only LLM, USP is highly versatile: to achieve universal prompting, USP categorizes a possible NLP task into one of the three possible task types, and then uses a corresponding selector to select the most suitable queries & zero-shot model-generated responses as pseudo-demonstrations, thereby generalizing ICL to the zero-shot setup in a fully automated way. We evaluate zero-shot USP with two PaLM models, and demonstrate performances that are considerably stronger than standard zero-shot baselines and are comparable to or even superior than few-shot baselines across more than 20 natural language understanding (NLU) and natural language generation (NLG) tasks.
翻訳日:2023-05-25 17:43:07 公開日:2023-05-24
# 対話モデルのためのフルーガルプロンプト

Frugal Prompting for Dialog Models ( http://arxiv.org/abs/2305.14919v1 )

ライセンス: Link先を確認
Bishal Santra, Sakya Basak, Abhinandan De, Manish Gupta, Pawan Goyal(参考訳) 自然言語処理(nlp)タスクにおける大規模言語モデル(llms)の使用は急速に増加しており、研究者がこの分野の課題にアプローチする方法が変化している。 これらのモデルの能力を十分に活用するには、異なる入力プロトコルに対するそれらの振る舞いをよりよく理解する必要がある。 LLMでは、ユーザーはテキストベースのインターフェイスを通じてモデルと直接対話し、様々なタスクを定義し、解決することができる。 したがって,対話モデルでは特に訓練を受けていなかったが,これらのLLMの会話能力の理解も重要である。 本研究では,LLMを用いた対話システム構築のための様々な手法について検討する。 プロンプトチューニングの一環として、命令、exemplars、現在のクエリ、追加コンテキストを提供するさまざまな方法を実験します。 この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。 そこで本研究では,よりコンパクトな対話履歴情報提供方法を提案するとともに,優れた性能と推論APIコストの低減を図った。 この研究は、LLMをインタラクティブシステム構築に効果的に利用する方法の理解に寄与する。

The use of large language models (LLMs) in natural language processing (NLP) tasks is rapidly increasing, leading to changes in how researchers approach problems in the field. To fully utilize these models' abilities, a better understanding of their behavior for different input protocols is required. With LLMs, users can directly interact with the models through a text-based interface to define and solve various tasks. Hence, understanding the conversational abilities of these LLMs, which may not have been specifically trained for dialog modeling, is also important. This study examines different approaches for building dialog systems using LLMs by considering various aspects of the prompt. As part of prompt tuning, we experiment with various ways of providing instructions, exemplars, current query and additional context. The research also analyzes the representations of dialog history that have the optimal usable-information density. Based on the findings, the paper suggests more compact ways of providing dialog history information while ensuring good performance and reducing model's inference-API costs. The research contributes to a better understanding of how LLMs can be effectively used for building interactive systems.
翻訳日:2023-05-25 17:42:39 公開日:2023-05-24
# ガイド付きスパース容積融合による単眼ビデオからのインクリメンタルデンス再構成

Incremental Dense Reconstruction from Monocular Video with Guided Sparse Feature Volume Fusion ( http://arxiv.org/abs/2305.14918v1 )

ライセンス: Link先を確認
Xingxing Zuo, Nan Yang, Nathaniel Merrill, Binbin Xu, Stefan Leutenegger(参考訳) 様々なロボティクスやarアプリケーションを可能にするため、単眼ビデオから3dの高密度構造を段階的に回収することが重要となる。 特徴ボリュームは、最初に深さを見積もる必要なしに、効率的で正確な増分的密度復元を可能にすることが最近示されているが、高分解能特徴ボリュームのメモリ消費が大きいため、深さベースの方法ほど高分解能は達成できない。 本文は,従来の特徴量に基づく手法よりも高分解能を達成できるとともに,ほとんどのボクセルが空である大規模屋外シナリオにおいて好適な,新しい深部特徴量からTSDF(Truncated Signed Distance Function)値を予測する,リアルタイム特徴量に基づく高密度再構成手法を提案する。 不確実性を考慮したマルチビューステレオ(MVS)ネットワークを利用して、物理的表面の初期ボクセル位置をスパース特徴量で推定する。 そして、回収した3次元形状を精錬するために、潜在的な表面位置のマルチビュー画像から深い特徴を注意深く集約し、時間的に融合する。 従来よりも高分解能を実現することに加えて, 多くの場合, 細部まで細部まで, より完全な再構築を行う方法が提案されている。 提案手法は, 屋内と屋外の両方において, 最先端の再建手法と比較して, 極めて競争力のあるリアルタイム再構築手法であることを示す。

Incrementally recovering 3D dense structures from monocular videos is of paramount importance since it enables various robotics and AR applications. Feature volumes have recently been shown to enable efficient and accurate incremental dense reconstruction without the need to first estimate depth, but they are not able to achieve as high of a resolution as depth-based methods due to the large memory consumption of high-resolution feature volumes. This letter proposes a real-time feature volume-based dense reconstruction method that predicts TSDF (Truncated Signed Distance Function) values from a novel sparsified deep feature volume, which is able to achieve higher resolutions than previous feature volume-based methods, and is favorable in large-scale outdoor scenarios where the majority of voxels are empty. An uncertainty-aware multi-view stereo (MVS) network is leveraged to infer initial voxel locations of the physical surface in a sparse feature volume. Then for refining the recovered 3D geometry, deep features are attentively aggregated from multiview images at potential surface locations, and temporally fused. Besides achieving higher resolutions than before, our method is shown to produce more complete reconstructions with finer detail in many cases. Extensive evaluations on both public and self-collected datasets demonstrate a very competitive real-time reconstruction result for our method compared to state-of-the-art reconstruction methods in both indoor and outdoor settings.
翻訳日:2023-05-25 17:42:22 公開日:2023-05-24
# GPTにおける常識知識の編集

Editing Commonsense Knowledge in GPT ( http://arxiv.org/abs/2305.14956v1 )

ライセンス: Link先を確認
Anshita Gupta, Debanjan Mondal, Akshay Krishna Sheshadri, Wenlong Zhao, Xiang Lorraine Li, Sarah Wiegreffe, Niket Tandon(参考訳) 変圧器における百科事典知識を更新するためのメモリ編集手法は、その有効性、特異性、一般化の利点に注目が集まっている。 しかし、そのような手法が常識知識のよりニュアンス的な領域に適応できるかは不明である。 GPT-2 Large および XL におけるコモンセンスミスを編集するための MEMIT の適応である $MEMIT_{CSK}$ を提案する。 さまざまなトークン場所への編集を拡張し、ロバストな層選択戦略を採用する。 MEMIT_{CSK}$で編集されたモデルは、PEP3kと20Qのサブセットで10.97%、F1スコアが10.73%の微調整ベースラインを上回っている。 さらに, 影響のない地域, 影響のある地域, 影響のあるパラフレーズ, 影響のある推論課題を含む新しい評価データセットMEMIT-CSK-PROBEを提案する。 $MEMIT_{CSK}$は、MEMIT-CSK-PROBEにおける微調整ベースラインを13.72%、総合スコア5.57%で上回るセマンティック一般化を示す。 これらの結果から,gptにおけるコモンセンスに関する文脈特異的ユーザフィードバックを,ヒューマン・イン・ザ・ループシステムによるモデル動作の編集,修正,カスタマイズによって取り入れる,今後の方向性が示唆された。

Memory editing methods for updating encyclopedic knowledge in transformers have received increasing attention for their efficacy, specificity, and generalization advantages. However, it remains unclear if such methods can be adapted for the more nuanced domain of commonsense knowledge. We propose $MEMIT_{CSK}$, an adaptation of MEMIT to edit commonsense mistakes in GPT-2 Large and XL. We extend editing to various token locations and employ a robust layer selection strategy. Models edited by $MEMIT_{CSK}$ outperforms the fine-tuning baselines by 10.97% and 10.73% F1 scores on subsets of PEP3k and 20Q. We further propose a novel evaluation dataset, MEMIT-CSK-PROBE, that contains unaffected neighborhood, affected neighborhood, affected paraphrase, and affected reasoning challenges. $MEMIT_{CSK}$ demonstrates favorable semantic generalization, outperforming fine-tuning baselines by 13.72% and 5.57% overall scores on MEMIT-CSK-PROBE. These results suggest a compelling future direction of incorporating context-specific user feedback concerning commonsense in GPT by direct model editing, rectifying and customizing model behaviors via human-in-the-loop systems.
翻訳日:2023-05-25 17:36:18 公開日:2023-05-24
# dc-net: サルエント物体検出のための分割・変換

DC-Net: Divide-and-Conquer for Salient Object Detection ( http://arxiv.org/abs/2305.14955v1 )

ライセンス: Link先を確認
Jiayi Zhu, Xuebin Qin, Abdulmotaleb Elsaddik(参考訳) 本稿では,有意なオブジェクト検出(SOD)タスクにDivide-and-Conquerを導入し,そのモデルが有意性マップを予測するための事前知識を学習できるようにする。 そこで本研究では,2つのエンコーダを用いて最終給与マップを予測可能な異なるサブタスクを解く,新たなネットワークdc-netを設計し,エッジマップを幅4とサルエントオブジェクトの位置マップで予測し,特徴マップをデコーダに集約して最終給与マップを予測した。 DC-Netのデコーダは、新しく設計された2段階のResidual nested-ASPP(ResASPP$^{2}$)モジュールで構成されており、多数のコンボリューション操作で多数の異なる特徴をキャプチャでき、高解像度を常に維持でき、大かつコンパクトな有効受容場(ERF)を得ることができるという利点がある。 並列計算の利点を活かして,dc-netの高速化に並列加速度を応用し,高効率(60 fps,55 fps)で6つのlr-sodと5つのhr-sodデータセットの競合性能を実現する。 コードと結果は、https://github.com/PiggyJerry/DC-Net.comで公開されている。

In this paper, we introduce Divide-and-Conquer into the salient object detection (SOD) task to enable the model to learn prior knowledge that is for predicting the saliency map. We design a novel network, Divide-and-Conquer Network (DC-Net) which uses two encoders to solve different subtasks that are conducive to predicting the final saliency map, here is to predict the edge maps with width 4 and location maps of salient objects and then aggregate the feature maps with different semantic information into the decoder to predict the final saliency map. The decoder of DC-Net consists of our newly designed two-level Residual nested-ASPP (ResASPP$^{2}$) modules, which have the ability to capture a large number of different scale features with a small number of convolution operations and have the advantages of maintaining high resolution all the time and being able to obtain a large and compact effective receptive field (ERF). Based on the advantage of Divide-and-Conquer's parallel computing, we use Parallel Acceleration to speed up DC-Net, allowing it to achieve competitive performance on six LR-SOD and five HR-SOD datasets under high efficiency (60 FPS and 55 FPS). Codes and results are available: https://github.com/PiggyJerry/DC-Net.
翻訳日:2023-05-25 17:35:57 公開日:2023-05-24
# 注意を集中する(適応型IIRフィルタで)

Focus Your Attention (with Adaptive IIR Filters) ( http://arxiv.org/abs/2305.14952v1 )

ライセンス: Link先を確認
Shahar Lutati, Itamar Zimerman, Lior Wolf(参考訳) 本稿では,2次インパルス応答(iir)フィルタを用いて,従来の注意を払拭する前に入力シーケンスを処理できる新しい層を提案する。 入力はチャンクに分割され、これらのフィルタの係数は、因果性を維持するために以前のチャンクに基づいて決定される。 比較的低い順序であるにもかかわらず、因果適応フィルタは関連する配列要素に注意を向けるように示される。 レイヤは、パラメータのごく一部と入力サイズのサブクワッドラティックな時間的複雑さで、アートネットワークの状態と一致して実行される。 得られた層はheyna,gpt2,megaなどの層に好適であり,複数の長距離シーケンス問題に対するパラメータ数と得られた性能レベルの両方について好適である。

We present a new layer in which dynamic (i.e.,input-dependent) Infinite Impulse Response (IIR) filters of order two are used to process the input sequence prior to applying conventional attention. The input is split into chunks, and the coefficients of these filters are determined based on previous chunks to maintain causality. Despite their relatively low order, the causal adaptive filters are shown to focus attention on the relevant sequence elements. The layer performs on-par with state of the art networks, with a fraction of the parameters and with time complexity that is sub-quadratic with input size. The obtained layer is favorable to layers such as Heyna, GPT2, and Mega, both with respect to the number of parameters and the obtained level of performance on multiple long-range sequence problems.
翻訳日:2023-05-25 17:35:26 公開日:2023-05-24
# デュアルサイド・フュージョン3Dポッド転送

Dual-Side Feature Fusion 3D Pose Transfer ( http://arxiv.org/abs/2305.14951v1 )

ライセンス: Link先を確認
Jue Liu, Feipeng Da(参考訳) 3Dポーズ転送は、従来の変形転送の付加的な入力と対応の問題を解決し、ソースメッシュとターゲットメッシュのみを入力し、ソースメッシュのポーズをターゲットメッシュに転送する。 近年提案されている軽量な手法のいくつかはメモリ消費が少ないが、見当たらないポーズではスパイクや歪みを引き起こすが、大きな行列乗算や逆ネットワークが組み込まれているため訓練にコストがかかるものもある。 さらに、頂点の数が異なるメッシュは、ポーズ転送の難しさも増す。 本研究では, 軽量手法の姿勢伝達精度を向上させるために, デュアルサイド機能融合ポーズ転送ネットワークを提案する。 提案手法では,ポーズ特徴を復号化ネットワークへの側入力の1つとして,複数のスケールでレイヤごとに対象メッシュ層に融合する。 提案するFeature Fusion Adaptive Instance Normalizationは,特徴量と特徴量とを非正規化パラメータとしてフューズする2つの入力チャネルを持つ特性を持ち,ネットワークのポーズ伝達能力を高める。 実験の結果,提案手法は,軽量なネットワーク構造を維持しながら,最先端の手法よりも高いポーズ伝達能力を有し,より高速に収束できることがわかった。

3D pose transfer solves the problem of additional input and correspondence of traditional deformation transfer, only the source and target meshes need to be input, and the pose of the source mesh can be transferred to the target mesh. Some lightweight methods proposed in recent years consume less memory but cause spikes and distortions for some unseen poses, while others are costly in training due to the inclusion of large matrix multiplication and adversarial networks. In addition, the meshes with different numbers of vertices also increase the difficulty of pose transfer. In this work, we propose a Dual-Side Feature Fusion Pose Transfer Network to improve the pose transfer accuracy of the lightweight method. Our method takes the pose features as one of the side inputs to the decoding network and fuses them into the target mesh layer by layer at multiple scales. Our proposed Feature Fusion Adaptive Instance Normalization has the characteristic of having two side input channels that fuse pose features and identity features as denormalization parameters, thus enhancing the pose transfer capability of the network. Extensive experimental results show that our proposed method has stronger pose transfer capability than state-of-the-art methods while maintaining a lightweight network structure, and can converge faster.
翻訳日:2023-05-25 17:35:12 公開日:2023-05-24
# 大規模言語モデルに対する敵対的デモンストレーション攻撃

Adversarial Demonstration Attacks on Large Language Models ( http://arxiv.org/abs/2305.14950v1 )

ライセンス: Link先を確認
Jiongxiao Wang, Zichen Liu, Keun Hee Park, Muhao Chen, Chaowei Xiao(参考訳) ChatGPT や GPT-4 のようなより強力な大規模言語モデル (LLM) の出現に伴い、インコンテキスト学習 (ICL) はプレコンディションのプロンプトとしてデータラベルペアを活用することで、これらのモデルを特定のタスクに活用する上で大きな注目を集めている。 デモを組み込むことで、さまざまなタスクにわたるLLMのパフォーマンスを大幅に向上させることができるが、新たなセキュリティ上の懸念が生じている。 本稿では,実演の効果に着目し,敵対的視点からiclのセキュリティ上の懸念について検討する。 提案手法は,入力を変更せずに実演のみを操作することを目的として,TextAttackに基づくICL攻撃を提案する。 その結果,実演回数が増加するにつれて,文脈内学習の堅牢性が低下することが示された。 また,反対に攻撃されたデモは多様な入力例に対する転送可能性を示す。 これらの知見は、ICLに関連する重大なセキュリティリスクを強調し、特にLSMの進歩において、ICLの堅牢性に関する広範な研究の必要性を浮き彫りにしている。

With the emergence of more powerful large language models (LLMs), such as ChatGPT and GPT-4, in-context learning (ICL) has gained significant prominence in leveraging these models for specific tasks by utilizing data-label pairs as precondition prompts. While incorporating demonstrations can greatly enhance the performance of LLMs across various tasks, it may introduce a new security concern: attackers can manipulate only the demonstrations without changing the input to perform an attack. In this paper, we investigate the security concern of ICL from an adversarial perspective, focusing on the impact of demonstrations. We propose an ICL attack based on TextAttack, which aims to only manipulate the demonstration without changing the input to mislead the models. Our results demonstrate that as the number of demonstrations increases, the robustness of in-context learning would decreases. Furthermore, we also observe that adversarially attacked demonstrations exhibit transferability to diverse input examples. These findings emphasize the critical security risks associated with ICL and underscore the necessity for extensive research on the robustness of ICL, particularly given its increasing significance in the advancement of LLMs.
翻訳日:2023-05-25 17:34:50 公開日:2023-05-24
# 低リソース言語における文書接地対話システムのための言語間データ拡張

Cross-lingual Data Augmentation for Document-grounded Dialog Systems in Low Resource Languages ( http://arxiv.org/abs/2305.14949v1 )

ライセンス: Link先を確認
Qi Gou, Zehua Xia, Wenzhe Du(参考訳) 本稿では,DGDS(Document-Grounded Dialogue Systems)におけるデータ不足問題に対処する枠組みを提案する。 我々のモデルは、低リソース言語における対話生成能力を高めるために、高リソース言語を活用している。 具体的には,新たなパイプラインclem(cross-lingual enhanced model)として,逆訓練検索(retriever and re-ranker)とfid(fusion-in-decoder)ジェネレータを提案する。 また,高リソース言語をさらに活用するために,様々な言語にまたがって翻訳訓練を行うための革新的なアーキテクチャを提案する。 広範な実験結果から,本モデルの有効性を実証し,dialdoc 2023コンペティションで4位となった。 したがって、CLEMはDGDSの資源不足に対する解決策として機能し、多言語アライメントタスクに有用なガイダンスを提供する。

This paper proposes a framework to address the issue of data scarcity in Document-Grounded Dialogue Systems(DGDS). Our model leverages high-resource languages to enhance the capability of dialogue generation in low-resource languages. Specifically, We present a novel pipeline CLEM (Cross-Lingual Enhanced Model) including adversarial training retrieval (Retriever and Re-ranker), and Fid (fusion-in-decoder) generator. To further leverage high-resource language, we also propose an innovative architecture to conduct alignment across different languages with translated training. Extensive experiment results demonstrate the effectiveness of our model and we achieved 4th place in the DialDoc 2023 Competition. Therefore, CLEM can serve as a solution to resource scarcity in DGDS and provide useful guidance for multi-lingual alignment tasks.
翻訳日:2023-05-25 17:34:29 公開日:2023-05-24
# Music Representing Corpus Virtual: 人工知能と機械学習による探索的音楽生成、音響設計、楽器作成のためのオープンソースライブラリ

Music Representing Corpus Virtual: An Open Sourced Library for Explorative Music Generation, Sound Design, and Instrument Creation with Artificial Intelligence and Machine Learning ( http://arxiv.org/abs/2305.14948v1 )

ライセンス: Link先を確認
Christopher Johann Clarke(参考訳) Music Representing Corpus Virtual (MRCV)は、音楽生成、サウンドデザイン、仮想機器作成(MGSDIC)における人工知能(AI)と機械学習(ML)の機能を調べるために設計されたオープンソースのソフトウェアスイートである。 このソフトウェアは、mgsdicに探索的なアプローチを提供することに重点を置いて、さまざまなレベルのユーザからアクセスすることができる。 MRCVの主な目的は、創造性を促進することであり、ユーザーはニューラルネットワークをトレーニングするための入力データセットをカスタマイズし、各ニューラルネットワーク(Github Wikiに詳しく説明されている)にさまざまなオプションを提供することができる。 このソフトウェアスイートは、aiやmlの経験に関係なく、ミュージシャン、オーディオ専門家、サウンドデザイナー、作曲家がアクセスできるように設計されている。 ドキュメントは、技術的な詳細を抽象化して、理解しやすいように準備されています。 ソフトウェアはオープンソースであり、ユーザーは開発に貢献でき、コミュニティは他のユーザの洞察や経験から一括して恩恵を受けることができる。

Music Representing Corpus Virtual (MRCV) is an open source software suite designed to explore the capabilities of Artificial Intelligence (AI) and Machine Learning (ML) in Music Generation, Sound Design, and Virtual Instrument Creation (MGSDIC). The software is accessible to users of varying levels of experience, with an emphasis on providing an explorative approach to MGSDIC. The main aim of MRCV is to facilitate creativity, allowing users to customize input datasets for training the neural networks, and offering a range of options for each neural network (thoroughly documented in the Github Wiki). The software suite is designed to be accessible to musicians, audio professionals, sound designers, and composers, regardless of their prior experience in AI or ML. The documentation is prepared in such a way as to abstract technical details, thereby making it easy to understand. The software is open source, meaning users can contribute to its development, and the community can collectively benefit from the insights and experience of other users.
翻訳日:2023-05-25 17:34:13 公開日:2023-05-24
# 大規模言語モデルの能力はどの程度予測可能か? big-bench のケーススタディ

How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench ( http://arxiv.org/abs/2305.14947v1 )

ライセンス: Link先を確認
Qinyuan Ye, Harvey Yiyun Fu, Xiang Ren, Robin Jia(参考訳) 大規模言語モデル(LLM)の機能の予測可能性について検討する:異なるモデルファミリを用いた過去の実験の記録、パラメータ数、タスク数、インコンテキストの例の数から、新しい実験構成でLLMの性能を正確に予測できるだろうか? この質問への回答は、LLMユーザ(例えば、どのモデルを試すかを決める)、開発者(例えば、代表的タスクの評価を優先順位付けする)、研究コミュニティ(例えば、さらなる調査を保証できる予測の難しい能力を特定する)に実践的な意味を持つ。 BIGベンチ実験記録の性能予測問題について検討した。 ランダムな列車試験分割では、MLPベースの予測器がRMSEを5%以下に達成し、実験記録に学習可能なパターンが存在することを示す。 さらに,フルセットの性能を最大に回復できるビッグベンチタスクのインフォメーションサブセットである"small-bench"を探索する問題を定式化し,新しいモデルファミリを3倍小さくして,ビッグベンチハードとして評価する上で有用な部分集合を求める。

We investigate the predictability of large language model (LLM) capabilities: given records of past experiments using different model families, numbers of parameters, tasks, and numbers of in-context examples, can we accurately predict LLM performance on new experiment configurations? Answering this question has practical implications for LLM users (e.g., deciding which models to try), developers (e.g., prioritizing evaluation on representative tasks), and the research community (e.g., identifying hard-to-predict capabilities that warrant further investigation). We study the performance prediction problem on experiment records from BIG-bench. On a random train-test split, an MLP-based predictor achieves RMSE below 5%, demonstrating the presence of learnable patterns within the experiment records. Further, we formulate the problem of searching for "small-bench," an informative subset of BIG-bench tasks from which the performance of the full set can be maximally recovered, and find a subset as informative for evaluating new model families as BIG-bench Hard, while being 3x smaller.
翻訳日:2023-05-25 17:33:52 公開日:2023-05-24
# 制約領域におけるベイズ推論の学習率

Learning Rate Free Bayesian Inference in Constrained Domains ( http://arxiv.org/abs/2305.14943v1 )

ライセンス: Link先を確認
Louis Sharrock, Lester Mackey, Christopher Nemeth(参考訳) そこで本研究では,完全学習率フリーの制約領域をサンプリングするための新しい粒子ベースアルゴリズムを提案する。 提案手法は, コンベックス最適化によるコインベッティングのアイデアと, 確率測度空間上のミラー化最適化問題としての制約サンプリングの視点を利用する。 この観点から、Langevin 動的ミラー化や Stein 変分勾配勾配勾配のミラー化など、既存の制約付きサンプリングアルゴリズムの統一フレームワークも導入する。 提案手法は,シンプレックス上のターゲットからのサンプリング,公平性制約によるサンプリング,選択後の推定における制約付きサンプリング問題など,様々な数値例で性能を示す。 提案手法は,ハイパーパラメータを調整することなく,既存の制約サンプリング手法と競合する性能を実現する。

We introduce a suite of new particle-based algorithms for sampling on constrained domains which are entirely learning rate free. Our approach leverages coin betting ideas from convex optimisation, and the viewpoint of constrained sampling as a mirrored optimisation problem on the space of probability measures. Based on this viewpoint, we also introduce a unifying framework for several existing constrained sampling algorithms, including mirrored Langevin dynamics and mirrored Stein variational gradient descent. We demonstrate the performance of our algorithms on a range of numerical examples, including sampling from targets on the simplex, sampling with fairness constraints, and constrained sampling problems in post-selection inference. Our results indicate that our algorithms achieve competitive performance with existing constrained sampling methods, without the need to tune any hyperparameters.
翻訳日:2023-05-25 17:33:31 公開日:2023-05-24
# LLMは社会的知識を理解するか? SocKETベンチマークによる大規模言語モデルの妥当性評価

Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large Language Models with SocKET Benchmark ( http://arxiv.org/abs/2305.14938v1 )

ライセンス: Link先を確認
Minje Choi, Jiaxin Pei, Sagar Kumar, Chang Shu and David Jurgens(参考訳) 大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。 LLMは、人間と対話する会話エージェントを含む多くの形式で展開されているが、LLMがいかにしてtextit{social}言語を理解するかを測定するための基礎的なベンチマークは欠如している。 ここでは,社会知識をテストする58のnlpタスクを含む新たな理論駆動ベンチマークsocketを紹介し,ユーモアと皮肉,攻撃性,感情と感情,信頼性の5つのカテゴリに分類した。 ベンチマークテストでは、現在のモデルが適度な性能しか得られず、理論から予測された様々なタスクの種類やカテゴリ間のタスク転送の可能性を示す。 ゼロショット評価を通じて,事前トレーニングされたモデルには,ソーシャル言語理解と1つのタスクでのトレーニングが,ゼロショットテストの他に対する改善に役立つことを示す。 我々のベンチマークは、言語の重要な次元でモデルパフォーマンスを解析する体系的な方法を提供し、より社会的に認識されたLLMを構築するための改善の余地を指摘する。 関連するリソースはhttps://github.com/minjechoi/SOCKETで公開されている。

Large language models (LLMs) have been shown to perform well at a variety of syntactic, discourse, and reasoning tasks. While LLMs are increasingly deployed in many forms including conversational agents that interact with humans, we lack a grounded benchmark to measure how well LLMs understand \textit{social} language. Here, we introduce a new theory-driven benchmark, SocKET, that contains 58 NLP tasks testing social knowledge which we group into five categories: humor & sarcasm, offensiveness, sentiment & emotion, and trustworthiness. In tests on the benchmark, we demonstrate that current models attain only moderate performance but reveal significant potential for task transfer among different types and categories of tasks, which were predicted from theory. Through zero-shot evaluations, we show that pretrained models already possess some innate but limited capabilities of social language understanding and training on one category of tasks can improve zero-shot testing on others. Our benchmark provides a systematic way to analyze model performance on an important dimension of language and points to clear room for improvement to build more socially-aware LLMs. The associated resources are released at https://github.com/minjechoi/SOCKET.
翻訳日:2023-05-25 17:33:19 公開日:2023-05-24
# キャリブレーションを問う:人間のフィードバックを微調整した言語モデルからキャリブレーションされた信頼スコアを除去するための戦略

Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback ( http://arxiv.org/abs/2305.14975v1 )

ライセンス: Link先を確認
Katherine Tian, Eric Mitchell, Allan Zhou, Archit Sharma, Rafael Rafailov, Huaxiu Yao, Chelsea Finn, Christopher D. Manning(参考訳) 信頼できる現実の予測システムは、その答えに対する自信は、答えが正しい可能性を示すものであり、低信頼の予測の場合、より高価な専門家に延期することができる。 近年の研究では、教師なし事前学習が極めてよく校正された大きな言語モデル(LM)を生成することが示されているが、実際最も広く使われているLMは、初期教師なし事前学習段階の後に人間からのフィードバックによる強化学習(RLHF-LM)によって微調整され、これらのモデルが祖先の十分な校正性を維持するかどうかが示されている。 本稿では,RLHF を微調整した LLM から信頼性スコアを抽出する計算可能な手法を幅広く評価する。 RLHF-LMは正しいプロンプト戦略により、モデルの条件付き確率よりも格付けのよい確率を言語化し、かなりよく校正された予測を可能にする。 プロンプト戦略と温度スケーリングを組み合わせることで,rlhf-lmsの予測校正誤差を50%以上低減できることがわかった。

A trustworthy real-world prediction system should be well-calibrated; that is, its confidence in an answer is indicative of the likelihood that the answer is correct, enabling deferral to a more expensive expert in cases of low-confidence predictions. While recent studies have shown that unsupervised pre-training produces large language models (LMs) that are remarkably well-calibrated, the most widely-used LMs in practice are fine-tuned with reinforcement learning with human feedback (RLHF-LMs) after the initial unsupervised pre-training stage, and results are mixed as to whether these models preserve the well-calibratedness of their ancestors. In this paper, we conduct a broad evaluation of computationally feasible methods for extracting confidence scores from LLMs fine-tuned with RLHF. We find that with the right prompting strategy, RLHF-LMs verbalize probabilities that are much better calibrated than the model's conditional probabilities, enabling fairly well-calibrated predictions. Through a combination of prompting strategy and temperature scaling, we find that we can reduce the expected calibration error of RLHF-LMs by over 50%.
翻訳日:2023-05-25 17:25:16 公開日:2023-05-24
# 確率的潜在表現を用いたブロック局所学習

Block-local learning with probabilistic latent representations ( http://arxiv.org/abs/2305.14974v1 )

ライセンス: Link先を確認
David Kappel, Khaleelulla Khan Nazeer, Cabrel Teguemne Fokam, Christian Mayr, Anand Subramoney(参考訳) ユビキタスなバックプロパゲーションアルゴリズムは、ネットワークのブロック間でシーケンシャルな更新を必要とする。 さらに、バックプロパゲーションは、更新を計算するために重み行列の転置に依存し、ブロック間で重み輸送の問題を引き起こす。 どちらも、デバイス間のモデルの効率的な並列化と水平スケーリングを防止する。 そこで本稿では,ターゲットから入力への情報を後方に伝播し,局所的な損失を補うツインネットワークを提案する。 前向きおよび後向きの伝播は、重量輸送とロックの問題に対処するため、異なる重みのセットで並列に動作することができる。 提案手法は,ネットワーク層の活性化を確率分布のパラメータとして扱うエンドツーエンドトレーニングの統計的解釈から導かれる。 学習フレームワークはこれらのパラメータを局所的に使用して前方情報と後方情報とのマッチングを評価する。 エラーバックプロパゲーションは各ブロック内でローカルに実行され、‘ブロックローカル’学習に繋がる。 従来提案されていた誤りのバックプロパゲーションの代替案が,本モデルの特別な事例として現れている。 ブロックローカル学習を用いて、トランスフォーマーを含む様々なタスクやアーキテクチャの結果を示す。 これらの結果は、分散環境で非常に大きなネットワークをトレーニングするための新しい原則付きフレームワークを提供し、ニューロモルフィックシステムにも適用できる。

The ubiquitous backpropagation algorithm requires sequential updates across blocks of a network, introducing a locking problem. Moreover, backpropagation relies on the transpose of weight matrices to calculate updates, introducing a weight transport problem across blocks. Both these issues prevent efficient parallelisation and horizontal scaling of models across devices. We propose a new method that introduces a twin network that propagates information backwards from the targets to the input to provide auxiliary local losses. Forward and backward propagation can work in parallel and with different sets of weights, addressing the problems of weight transport and locking. Our approach derives from a statistical interpretation of end-to-end training which treats activations of network layers as parameters of probability distributions. The resulting learning framework uses these parameters locally to assess the matching between forward and backward information. Error backpropagation is then performed locally within each block, leading to `block-local' learning. Several previously proposed alternatives to error backpropagation emerge as special cases of our model. We present results on various tasks and architectures, including transformers, demonstrating state-of-the-art performance using block-local learning. These results provide a new principled framework to train very large networks in a distributed setting and can also be applied in neuromorphic systems.
翻訳日:2023-05-25 17:24:51 公開日:2023-05-24
# OverPrompt: 効率的な文脈学習アプローチによるチャットGPT機能向上

OverPrompt: Enhancing ChatGPT Capabilities through an Efficient In-Context Learning Approach ( http://arxiv.org/abs/2305.14973v1 )

ライセンス: Link先を確認
Jiazheng Li, Runcong Zhao, Yulan He, Lin Gui(参考訳) 事前訓練された大規模言語モデルの例外的な性能は、様々な応用に革命をもたらしたが、生産環境への導入は、特に長いプロンプトを利用する場合、禁止的なコストと非効率さによって妨げられている。 本稿では,複数の入力を並列に処理することで,LLMの効率と性能を向上させるためのコンテキスト内学習手法であるOverPromptを提案する。 さまざまなデータセットで評価され、OverPromptはタスク効率を高め、パフォーマンス改善のためのさまざまなサンプルを統合する。 特に、文脈情報を補足すると、事実チェックや感情分析のタスクが増幅される。 合成データグルーピングはパフォーマンスをさらに向上させ、データ拡張に実行可能なアプローチを示唆する。

The exceptional performance of pre-trained large language models has revolutionised various applications, but their adoption in production environments is hindered by prohibitive costs and inefficiencies, particularly when utilising long prompts. This paper proposes OverPrompt, an in-context learning method aimed at improving LLM efficiency and performance by processing multiple inputs in parallel. Evaluated across diverse datasets, OverPrompt enhances task efficiency and integrates a diverse range of examples for improved performance. Particularly, it amplifies fact-checking and sentiment analysis tasks when supplemented with contextual information. Synthetic data grouping further enhances performance, suggesting a viable approach for data augmentation.
翻訳日:2023-05-25 17:24:31 公開日:2023-05-24
# 医者に診てから病気になる? 事象時相推論における知識衝突の診断と緩和

Getting Sick After Seeing a Doctor? Diagnosing and Mitigating Knowledge Conflicts in Event Temporal Reasoning ( http://arxiv.org/abs/2305.14970v1 )

ライセンス: Link先を確認
Tianqing Fang, Zhaowei Wang, Wenxuan Zhou, Hongming Zhang, Yangqiu Song, Muhao Chen(参考訳) イベント時間的推論は、2つ以上のイベント間の時間的関係を特定することを目的としている。 しかし、文脈における事象の実際の時間的関係と、モデルによって学習された事前知識やバイアスとの間にミスマッチがあるときに知識が衝突する。 まず, 事象の時間的推論において, 事象関係の先行バイアス, 緊張バイアス, 物語バイアス, 依存バイアスなど, 異なる種類のバイアスを, 知識衝突を研究する指標として体系的に定義する。 このようなイベント関連知識の衝突を軽減するために,事前学習された言語モデル (plm) と大規模言語モデル (llm) の両方に対して,追加のトレーニングデータやインコンテキスト学習のデモンストレーションとして適用可能な,偽データ拡張に基づく手法を導入する。 実験から,幻覚の低減のための事象時相推論タスクにおける知識衝突の軽減の重要性が示唆され,モデル性能向上のための反事実データ拡張の可能性が強調された。

Event temporal reasoning aims at identifying the temporal relations between two or more events. However, knowledge conflicts arise when there is a mismatch between the actual temporal relations of events in the context and the prior knowledge or biases learned by the model. We first systematically define distinct kinds of bias in event temporal reasoning, which include event relation prior bias, tense bias, narrative bias, and dependency bias, as indicators to study knowledge conflicts. To mitigate such event-related knowledge conflict, we introduce a Counterfactual Data Augmentation based method that can be applied to both Pre-trained Language Models (PLMs) and Large Language Models (LLMs) either as additional training data or demonstrations for In-Context Learning. Experiments suggest the importance of mitigating knowledge conflicts in event temporal reasoning tasks for reducing hallucination and highlight the potential of counterfactual data augmentation for improving model performance.
翻訳日:2023-05-25 17:24:21 公開日:2023-05-24
# MMNet:画像セグメント参照のためのマルチマスクネットワーク

MMNet: Multi-Mask Network for Referring Image Segmentation ( http://arxiv.org/abs/2305.14969v1 )

ライセンス: Link先を確認
Yichen Yan, Xingjian He, Wenxuan Wan, Jing Liu(参考訳) 参照画像分割は、画像から自然言語表現で参照されるオブジェクトを分割することを目的としている。 しかし、この課題は、テキストと画像の異なるデータ特性と、多様なオブジェクトと制約のない言語表現によって引き起こされるランダム性のため、困難である。 これまでの作業のほとんどは、多種多様なオブジェクトと制約のない言語によって引き起こされる固有の不確実性を完全に解決することなく、クロスモーダルな機能融合の改善に重点を置いていた。 これらの問題を解決するために,画像分割(MMNet)を参照するためのエンドツーエンドマルチマスクネットワークを提案する。 まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成するための注意機構を使用します。 次に、これらのクエリを使用して一連のセグメンテーションマスクを生成し、その重要性を反映したスコアを各マスクに割り当てる。 最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。 本稿では,RefCOCO,RefCOCO+,G-Refの2つのデータセットに対して,ポストプロセッシングを必要とせず,最先端のアプローチと比較して優れた性能を示す。 これにより,提案フレームワークの有効性がさらに検証される。

Referring image segmentation aims to segment an object referred to by natural language expression from an image. However, this task is challenging due to the distinct data properties between text and image, and the randomness introduced by diverse objects and unrestricted language expression. Most of previous work focus on improving cross-modal feature fusion while not fully addressing the inherent uncertainty caused by diverse objects and unrestricted language. To tackle these problems, we propose an end-to-end Multi-Mask Network for referring image segmentation(MMNet). we first combine picture and language and then employ an attention mechanism to generate multiple queries that represent different aspects of the language expression. We then utilize these queries to produce a series of corresponding segmentation masks, assigning a score to each mask that reflects its importance. The final result is obtained through the weighted sum of all masks, which greatly reduces the randomness of the language expression. Our proposed framework demonstrates superior performance compared to state-of-the-art approaches on the two most commonly used datasets, RefCOCO, RefCOCO+ and G-Ref, without the need for any post-processing. This further validates the efficacy of our proposed framework.
翻訳日:2023-05-25 17:24:04 公開日:2023-05-24
# LLMの非依存化: ジェイルブレイクの理解、分析、防止

Tricking LLMs into Disobedience: Understanding, Analyzing, and Preventing Jailbreaks ( http://arxiv.org/abs/2305.14965v1 )

ライセンス: Link先を確認
Abhinav Rao, Sachin Vashistha, Atharva Naik, Somak Aditya, Monojit Choudhury(参考訳) 商用のLarge Language Models (LLMs) による最近の調査では、非専門家のユーザは単にプロンプトを操作するだけで LLM をジェイルブレイクでき、結果として出力の退行、プライバシとセキュリティの侵害、攻撃的なアウトプット、コンテンツ規制ポリシー違反などが発生する。 これらの攻撃とその緩和を形式化し分析するために、限定的な正式な研究がなされている。 このギャップを埋めるには、形式主義と既知の(そして可能な)脱獄の分類を提案します。 GPT 3.5, OPT, BLOOM, FLAN-T5-xxl などのオープンソースおよび商用 LLM 上で, 既存のjailbreak 手法とその有効性を調査した。 さらに,限定的なプロンプトガードを提案し,既知の攻撃タイプに対する有効性について考察する。

Recent explorations with commercial Large Language Models (LLMs) have shown that non-expert users can jailbreak LLMs by simply manipulating the prompts; resulting in degenerate output behavior, privacy and security breaches, offensive outputs, and violations of content regulator policies. Limited formal studies have been carried out to formalize and analyze these attacks and their mitigations. We bridge this gap by proposing a formalism and a taxonomy of known (and possible) jailbreaks. We perform a survey of existing jailbreak methods and their effectiveness on open-source and commercial LLMs (such as GPT 3.5, OPT, BLOOM, and FLAN-T5-xxl). We further propose a limited set of prompt guards and discuss their effectiveness against known attack types.
翻訳日:2023-05-25 17:23:43 公開日:2023-05-24
# ソーシャルメディアにおける政治的傾向の検出と評価

Detecting and Characterizing Political Incivility on Social Media ( http://arxiv.org/abs/2305.14964v1 )

ライセンス: Link先を確認
Sagi Penzel, Nir Lotan, Alon Zoizner, Einat Minkov(参考訳) 政治コミュニケーションの研究者は、ソーシャルメディアにおける政治的市民の影響と認識を研究している。 しかし、政治的近親性を自動的に検出し特徴付ける試みは、今のところ比較的少ない。 私たちの研究では、twitterの政治的近親性を研究し、いくつかの研究の貢献を示しました。 まず,クラウドソーシングを用いて収集・ラベル付けした大規模データセットを用いて,最先端の市民検出結果を示す。 重要なことは、無礼な政治的言論と反民主的な言論を区別することである。 大規模な政治的近視性検出を応用し,この現象をユーザ間で広める要因について考察し,非文明的な政治コンテンツをオンラインで広める傾向のあるユーザのネットワーク特性について考察する。 最後に,ツイート内容と並行して,ツイート著者の社会的文脈情報をモデル化する手法を提案する。 この結果は、ヘイトスピーチやスタンス検出のような関連するタスクを約束する。

Researchers of political communication study the impact and perceptions of political incivility on social media. Yet, so far, relatively few works attempted to automatically detect and characterize political incivility. In our work, we study political incivility in Twitter, presenting several research contributions. First, we present state-of-the-art incivility detection results using a large dataset, which we collected and labeled via crowd sourcing. Importantly, we distinguish between uncivil political speech that is impolite and intolerant anti-democratic discourse. Applying political incivility detection at large-scale, we derive insights regarding the prevalence of this phenomenon across users, and explore the network characteristics of users who are susceptible to disseminating uncivil political content online. Finally, we propose an approach for modeling social context information about the tweet author alongside the tweet content, showing that this leads to significantly improved performance on the task of political incivility detection. This result holds promise for related tasks, such as hate speech and stance detection.
翻訳日:2023-05-25 17:23:26 公開日:2023-05-24
# PESCO:ゼロショットテキスト分類のためのプロンプト強化セルフコントラスト学習

PESCO: Prompt-enhanced Self Contrastive Learning for Zero-shot Text Classification ( http://arxiv.org/abs/2305.14963v1 )

ライセンス: Link先を確認
Yau-Shian Wang and Ta-Chung Chi and Ruohong Zhang and Yiming Yang(参考訳) ゼロショットテキスト分類の性能を大幅に向上させる新しいコントラスト学習フレームワークPESCOを提案する。 我々は,各文書を問合せとして扱うニューラルテキストマッチング問題としてテキスト分類を定式化し,(1)ラベルマッチングを強化するプロンプトの追加,(2)検索したラベルを用いて,対比学習の自己学習ループにおけるトレーニングセットを充実させることにより,各クエリから関連するクラスラベルへのマッピングを学習する。 PESCOは4つのベンチマークテキスト分類データセット上で最先端のパフォーマンスを達成する。 DBpediaでは、ラベル付きデータなしで98.5 %の精度を実現しています。 大規模な実験と分析により、ゼロショットテキスト分類の性能向上にPESCOのすべてのコンポーネントが必要であることが示された。

We present PESCO, a novel contrastive learning framework that substantially improves the performance of zero-shot text classification. We formulate text classification as a neural text matching problem where each document is treated as a query, and the system learns the mapping from each query to the relevant class labels by (1) adding prompts to enhance label matching, and (2) using retrieved labels to enrich the training set in a self-training loop of contrastive learning. PESCO achieves state-of-the-art performance on four benchmark text classification datasets. On DBpedia, we achieve 98.5\% accuracy without any labeled data, which is close to the fully-supervised result. Extensive experiments and analyses show all the components of PESCO are necessary for improving the performance of zero-shot text classification.
翻訳日:2023-05-25 17:23:10 公開日:2023-05-24
# ICDAR 2023 企業文書におけるロバストレイアウトセグメンテーションの競争

ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents ( http://arxiv.org/abs/2305.14962v1 )

ライセンス: Link先を確認
Christoph Auer, Ahmed Nassar, Maksym Lysak, Michele Dolfi, Nikolaos Livathinos, Peter Staar(参考訳) ドキュメントを機械処理可能な表現に変換することは、複雑な構造と形式の変化のために難しい課題である。 レイアウト構造やコンテンツをpdfファイルやスキャンした資料から復元することは、数十年間、重要な問題だった。 ICDARは、最先端をベンチマークし、文書レイアウト理解のための新しいソリューションの開発を奨励するコンテストを主催する長い伝統がある。 本稿では,企業文書におけるロバストレイアウトセグメンテーションに関するコンペティションである \textit{icdar 2023 competition on robust layout segmentation in corporate documents} の結果を紹介する。 これまでのコンペティションを乗り越えるために、私たちはハードコンペティションデータセットを開発し、トレーニング用の最近のdoclaynetデータセットを提案しました。 私たちは45のチーム登録を記録し、21チームから公式の応募を受け取りました。 提案手法では,近年のコンピュータビジョンモデル,データ拡張戦略,アンサンブル手法の興味深い組み合わせを認識し,課題の精度を著しく向上する。 vision-transformerベースのメソッドの採用への明確な傾向は明らかです。 その結果,ドキュメントレイアウト理解のための堅牢かつ高一般化手法の実現に向けた大きな進歩が示された。

Transforming documents into machine-processable representations is a challenging task due to their complex structures and variability in formats. Recovering the layout structure and content from PDF files or scanned material has remained a key problem for decades. ICDAR has a long tradition in hosting competitions to benchmark the state-of-the-art and encourage the development of novel solutions to document layout understanding. In this report, we present the results of our \textit{ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents}, which posed the challenge to accurately segment the page layout in a broad range of document styles and domains, including corporate reports, technical literature and patents. To raise the bar over previous competitions, we engineered a hard competition dataset and proposed the recent DocLayNet dataset for training. We recorded 45 team registrations and received official submissions from 21 teams. In the presented solutions, we recognize interesting combinations of recent computer vision models, data augmentation strategies and ensemble methods to achieve remarkable accuracy in the task we posed. A clear trend towards adoption of vision-transformer based methods is evident. The results demonstrate substantial progress towards achieving robust and highly generalizing methods for document layout understanding.
翻訳日:2023-05-25 17:22:54 公開日:2023-05-24
# 生存分析のためのディープラーニング: レビュー

Deep Learning for Survival Analysis: A Review ( http://arxiv.org/abs/2305.14961v1 )

ライセンス: Link先を確認
Simon Wiegrebe, Philipp Kopper, Raphael Sonabend, and Andreas Bender(参考訳) 近年の深層学習(DL)技術の生存分析分野への流入は、高次元のオミクスデータや画像やテキストなどの非構造化データの利用の増加と相まって、例えば、高次元または非構造化データから学ぶなど、大きな方法論的進歩をもたらした。 現代のDLベースのサバイバルメソッドは2010年代半ばから開発されてきたが、時間とイベントのデータ設定におけるシナリオの小さなサブセット(例えばシングルリスクの右チャージサバイバルタスク)に対処し、より複雑な(そして一般的な)設定を組み込むことを無視することが多い。 これは部分的には、各分野の専門家間の交流の欠如によるものである。 本研究は,DL関連属性と生存関連属性の両方に基づいて,DL関連手法の総合的な体系的レビューを行う。 そうすることで、特定のユースケースに適用可能なdl技術に興味を持つ実践者に有用な概要を提供し、両方の分野の研究者が将来の調査の方向性を特定できるようにしたいと考えています。 このレビューに含まれるメソッドの詳細な特徴を、オープンソースでインタラクティブなテーブルとして提供します。 この研究領域は急速に進展しており、研究コミュニティが情報を最新に保つことに貢献することを奨励している。

The influx of deep learning (DL) techniques into the field of survival analysis in recent years, coupled with the increasing availability of high-dimensional omics data and unstructured data like images or text, has led to substantial methodological progress; for instance, learning from such high-dimensional or unstructured data. Numerous modern DL-based survival methods have been developed since the mid-2010s; however, they often address only a small subset of scenarios in the time-to-event data setting - e.g., single-risk right-censored survival tasks - and neglect to incorporate more complex (and common) settings. Partially, this is due to a lack of exchange between experts in the respective fields. In this work, we provide a comprehensive systematic review of DL-based methods for time-to-event analysis, characterizing them according to both survival- and DL-related attributes. In doing so, we hope to provide a helpful overview to practitioners who are interested in DL techniques applicable to their specific use case as well as to enable researchers from both fields to identify directions for future investigation. We provide a detailed characterization of the methods included in this review as an open-source, interactive table: https://survival-org.github.io/DL4Survival. As this research area is advancing rapidly, we encourage the research community to contribute to keeping the information up to date.
翻訳日:2023-05-25 17:22:30 公開日:2023-05-24
# 大規模言語モデルは効果的なテーブル・ツー・テキスト生成器、評価器、フィードバックプロバイダである

Large Language Models are Effective Table-to-Text Generators, Evaluators, and Feedback Providers ( http://arxiv.org/abs/2305.14987v1 )

ライセンス: Link先を確認
Yilun Zhao, Haowei Zhang, Shengyun Si, Linyong Nan, Xiangru Tang, Arman Cohan(参考訳) 大きな言語モデル(LLM)は、制御可能なテキスト生成において顕著な能力を示している。 しかし、構造化テーブルからテキストを生成するllmの可能性はほとんど未検討のままである。 本稿では,テーブル・ツー・テクスチャ生成タスクにおけるLLMの能力について検討し,特に提供するテーブルに論理的に関連付けられる自然言語文の生成におけるそれらの性能について検討する。 まず、LLMが最先端のテーブル・トゥ・テクストの微調整モデルと比較し、従来の最先端の微調整モデルと比較して忠実な文を生成することを示す。 この結果から,LLMが信頼度レベルの自動評価指標として機能するかどうかを検討する。 人的評価を通して, LLMから採用した評価指標は, 既存の忠実度レベルの指標と比較して, 人的判断と相関することを示した。 最後に、チェーン・オブ・シークレット・プロンプトを用いたLLMが、他のテーブル・オブ・テキストモデル世代に対して高忠実な自然言語フィードバックを生成できることを示し、LLMからより小さなモデルへのテキスト生成能力の蒸留に関する今後の研究の洞察を提供する。

Large language models (LLMs) have shown remarkable ability on controllable text generation. However, the potential of LLMs in generating text from structured tables remains largely under-explored. In this paper, we study the capabilities of LLMs for table-to-text generation tasks, particularly aiming to investigate their performance in generating natural language statements that can be logically entailed by a provided table. First, we investigate how LLMs compare to state-of-the-art table-to-text fine-tuned models, and demonstrate that LLMs can generate statements with higher faithfulness compared with previous state-of-the-art fine-tuned models. Given this finding, we next explore whether LLMs can serve as faithfulness-level automated evaluation metrics. Through human evaluation, we show that evaluation metrics adopted from LLMs correlates better with human judgments compared with existing faithfulness-level metrics. Finally, we demonstrate that LLMs using chain-of-thought prompting can generate high-fidelity natural language feedback for other table-to-text models' generations, provide insights for future work regarding the distillation of text generation capabilities from LLMs to smaller models.
翻訳日:2023-05-25 17:16:51 公開日:2023-05-24
# コンピュータビジョンのための深層学習法の非適応的ロバスト性

Non-adversarial Robustness of Deep Learning Methods for Computer Vision ( http://arxiv.org/abs/2305.14986v1 )

ライセンス: Link先を確認
Gorana Goji\'c, Vladimir Vincan, Ognjen Kunda\v{c}ina, Dragi\v{s}a Mi\v{s}kovi\'c and Dinu Dragan(参考訳) 非敵対的ロバスト性(Non-adversarial robustness、Natural robustness)は、データの自然な変動に起因する分散シフトに直面しても、パフォーマンスを維持することができるディープラーニングモデルの特性である。 しかし, 分布シフトのタイプを事前に予測することは困難であるため, この特性の実現は困難である。 この課題に対処するために、研究者は様々なアプローチを提案しており、そのうちのいくつかは潜在的分布シフトを予測し、もう1つはモデル一般化性を高めるために既に発生したシフトに関する知識を利用している。 本稿では、コンピュータビジョン手法のロバスト性を改善する最新の手法の概要と、データ分散シフト時のモデルの性能を評価するためによく使用されるロバスト性ベンチマークデータセットの概要について述べる。 最後に,このアプローチの強みと限界について検討し,コンピュータビジョンにおけるディープラーニングのロバスト性向上の一般的な傾向を明らかにする。

Non-adversarial robustness, also known as natural robustness, is a property of deep learning models that enables them to maintain performance even when faced with distribution shifts caused by natural variations in data. However, achieving this property is challenging because it is difficult to predict in advance the types of distribution shifts that may occur. To address this challenge, researchers have proposed various approaches, some of which anticipate potential distribution shifts, while others utilize knowledge about the shifts that have already occurred to enhance model generalizability. In this paper, we present a brief overview of the most recent techniques for improving the robustness of computer vision methods, as well as a summary of commonly used robustness benchmark datasets for evaluating the model's performance under data distribution shifts. Finally, we examine the strengths and limitations of the approaches reviewed and identify general trends in deep learning robustness improvement for computer vision.
翻訳日:2023-05-25 17:16:27 公開日:2023-05-24
# idealgpt: 大きな言語モデルによるビジョンと言語推論を反復的に分解する

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models ( http://arxiv.org/abs/2305.14985v1 )

ライセンス: Link先を確認
Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A. Ayyubi, Kai-Wei Chang, Shih-Fu Chang(参考訳) 視覚と言語(VL)理解の分野は、エンドツーエンドの大規模訓練済みVLモデル(VLM)によって前例のない進歩を遂げた。 しかし、マルチステップ推論を必要とするゼロショット推論タスクには不足している。 この目標を達成するために、以前の作業は分割・分散パイプラインに頼っている。 本稿では、これまでの取り組みにはいくつかの固有の欠点があることを論じる。 1) ドメイン固有のサブクエスチョン分解モデルに依存する。 2)サブクエストやサブアンサーが不十分な情報を提供しても,モデルに最終回答の予測を強制する。 本稿では,大規模言語モデル(LLM)を用いたVL推論を反復的に分解するフレームワークであるIdealGPTを用いて,これらの制限に対処する。 具体的には、idealgpt は llm を使って sub-questions を生成し、vlm は対応する sub-answer を提供し、他の llm は最終回答を達成する。 これら3つのモジュールは、モデルが主質問に対する最終回答を確信するまで、反復的に分割・分割手順を実行する。 ゼロショット設定下で複数の挑戦的VL推論タスクにおけるIdealGPTの評価を行った。 特に、IdealGPTは、VCRでは10%、SNLI-VEでは15%、既存のGPT-4のようなモデルよりも優れています。 コードはhttps://github.com/Hxyou/IdealGPTで入手できる。

The field of vision-and-language (VL) understanding has made unprecedented progress with end-to-end large pre-trained VL models (VLMs). However, they still fall short in zero-shot reasoning tasks that require multi-step inferencing. To achieve this goal, previous works resort to a divide-and-conquer pipeline. In this paper, we argue that previous efforts have several inherent shortcomings: 1) They rely on domain-specific sub-question decomposing models. 2) They force models to predict the final answer even if the sub-questions or sub-answers provide insufficient information. We address these limitations via IdealGPT, a framework that iteratively decomposes VL reasoning using large language models (LLMs). Specifically, IdealGPT utilizes an LLM to generate sub-questions, a VLM to provide corresponding sub-answers, and another LLM to reason to achieve the final answer. These three modules perform the divide-and-conquer procedure iteratively until the model is confident about the final answer to the main question. We evaluate IdealGPT on multiple challenging VL reasoning tasks under a zero-shot setting. In particular, our IdealGPT outperforms the best existing GPT-4-like models by an absolute 10% on VCR and 15% on SNLI-VE. Code is available at https://github.com/Hxyou/IdealGPT
翻訳日:2023-05-25 17:16:11 公開日:2023-05-24
# amortized bayesian inferenceの逆ロバスト性

Adversarial robustness of amortized Bayesian inference ( http://arxiv.org/abs/2305.14984v1 )

ライセンス: Link先を確認
Manuel Gl\"ockler, Michael Deistler, Jakob H. Macke(参考訳) ベイズ推論は通常、新しい観測ごとに別々にコストのかかる推論手順を実行する必要がある。 対照的に、amortized bayesian inferenceのアイデアは、まずシミュレーションデータに対する推論ネットワークのトレーニングに計算コストを投資することであり、その後、新しい観測のために推論(すなわち、後方分布の見積もりを返すために)を迅速に実行するのに使うことができる。 このアプローチは、科学と工学の多くの実世界のモデルに適用されてきたが、観測データの逆摂動に対してどの程度頑健であるかは明らかではない。 本稿では,多次元後方分布のシミュレーションに基づく推定に焦点をあて,償却ベイズ推定の対角的ロバスト性について検討する。 観測対象のほとんど認識不能な摂動は、予測された後部および高度に非現実的な後部予測サンプルに劇的な変化をもたらし、いくつかのベンチマークタスクと神経科学による実世界の例を示す。 本研究では,条件付密度推定器のフィッシャー情報をペナライズすることに基づく計算効率の高い正規化スキームを提案し,不定形ベイズ推定の逆ロバスト性を改善する方法を示す。

Bayesian inference usually requires running potentially costly inference procedures separately for every new observation. In contrast, the idea of amortized Bayesian inference is to initially invest computational cost in training an inference network on simulated data, which can subsequently be used to rapidly perform inference (i.e., to return estimates of posterior distributions) for new observations. This approach has been applied to many real-world models in the sciences and engineering, but it is unclear how robust the approach is to adversarial perturbations in the observed data. Here, we study the adversarial robustness of amortized Bayesian inference, focusing on simulation-based estimation of multi-dimensional posterior distributions. We show that almost unrecognizable, targeted perturbations of the observations can lead to drastic changes in the predicted posterior and highly unrealistic posterior predictive samples, across several benchmark tasks and a real-world example from neuroscience. We propose a computationally efficient regularization scheme based on penalizing the Fisher information of the conditional density estimator, and show how it improves the adversarial robustness of amortized Bayesian inference.
翻訳日:2023-05-25 17:15:43 公開日:2023-05-24
# 大規模言語モデルによるアラビア語AIのベンチマーク

Benchmarking Arabic AI with Large Language Models ( http://arxiv.org/abs/2305.14982v1 )

ライセンス: Link先を確認
Ahmed Abdelali, Hamdy Mubarak, Shammur Absar Chowdhury, Maram Hasanain, Basel Mousi, Sabri Boughorbel, Yassine El Kheir, Daniel Izham, Fahim Dalvi, Majd Hawasly, Nizi Nazar, Yousseif Elshahawy, Ahmed Ali, Nadir Durrani, Natasa Milic-Frayling, Firoj Alam(参考訳) 大きなファンデーションモデル(FM)によって、言語技術(AI一般)は、大規模なタスク固有のデータセットの開発の必要性を排除し、ゼロショットから少数ショット学習までのセットアップを通じて、さまざまなタスクをサポートするという、新しいパラダイムに入りつつある。 しかし、FMの能力を理解するには、FMのパフォーマンスと最新技術(SOTA)タスク固有のモデルを比較して、体系的なベンチマークを行う必要がある。 その目標を掲げて、過去の作業は英語に焦点を合わせ、複数の言語に関するいくつかの取り組みを含んでいた。 本研究は、アラビア語の標準nlpおよび音声処理におけるfmsの性能を、シーケンスタグ付けから多様な領域にわたるコンテンツ分類まで、様々なタスクを含む評価することで、現在進行中の研究に寄与している。 GPT-3.5-turbo、Whisper、USMを使ったゼロショット学習から始まり、59の公開データセットを使用して33のユニークなタスクに対処し、96のテストセットアップを実現しました。 いくつかのタスクでは、FMはSOTAモデルと同等かそれ以上の性能を持つが、大多数では性能が劣る。 FMs性能の促進の重要性を考慮し,我々の迅速な戦略を詳細に検討し,その結果について詳しく述べる。 アラビアAIに関する今後の研究は、数発のプロンプト、タスクの範囲の拡大、および追加のオープンソースモデルを調査する予定である。

With large Foundation Models (FMs), language technologies (AI in general) are entering a new paradigm: eliminating the need for developing large-scale task-specific datasets and supporting a variety of tasks through set-ups ranging from zero-shot to few-shot learning. However, understanding FMs capabilities requires a systematic benchmarking effort by comparing FMs performance with the state-of-the-art (SOTA) task-specific models. With that goal, past work focused on the English language and included a few efforts with multiple languages. Our study contributes to ongoing research by evaluating FMs performance for standard Arabic NLP and Speech processing, including a range of tasks from sequence tagging to content classification across diverse domains. We start with zero-shot learning using GPT-3.5-turbo, Whisper, and USM, addressing 33 unique tasks using 59 publicly available datasets resulting in 96 test setups. For a few tasks, FMs performs on par or exceeds the performance of the SOTA models but for the majority it under-performs. Given the importance of prompt for the FMs performance, we discuss our prompt strategies in detail and elaborate on our findings. Our future work on Arabic AI will explore few-shot prompting, expand the range of tasks, and investigate additional open-source models.
翻訳日:2023-05-25 17:15:22 公開日:2023-05-24
# 概要品質を犠牲にすることなく抽象要約の実現

Improving Factuality of Abstractive Summarization without Sacrificing Summary Quality ( http://arxiv.org/abs/2305.14981v1 )

ライセンス: Link先を確認
Tanay Dixit, Fei Wang, Muhao Chen(参考訳) 抽象要約の事実整合性の改善は広く研究されているトピックである。 しかし、事実認識モデルを訓練する以前の研究のほとんどは、それが要約品質に負の影響を無視している。 本稿では,要約品質を犠牲にすることなく要約事実を改善するための候補要約生成とランキング技術であるEFACTSUMを提案する。 比較学習フレームワークを改良した候補サマリーと組み合わせることで,実感と類似度に基づく測定値の両方が大幅に向上することを示す。 具体的には,2つの指標を効果的に組み合わせ,トレーニング中の衝突を防止したランキング戦略を提案する。 提案手法を用いてトレーニングしたモデルでは,XSUM上のFactCCに対して6ポイント,CNN/DM上の11ポイントに対して絶対的な改善が得られた。

Improving factual consistency of abstractive summarization has been a widely studied topic. However, most of the prior works on training factuality-aware models have ignored the negative effect it has on summary quality. We propose EFACTSUM (i.e., Effective Factual Summarization), a candidate summary generation and ranking technique to improve summary factuality without sacrificing summary quality. We show that using a contrastive learning framework with our refined candidate summaries leads to significant gains on both factuality and similarity-based metrics. Specifically, we propose a ranking strategy in which we effectively combine two metrics, thereby preventing any conflict during training. Models trained using our approach show up to 6 points of absolute improvement over the base model with respect to FactCC on XSUM and 11 points on CNN/DM, without negatively affecting either similarity-based metrics or absractiveness.
翻訳日:2023-05-25 17:14:57 公開日:2023-05-24
# スケールの問題:AttributionはWaveletドメインと出会い、画像破壊に対するモデル感度を説明する

Scale Matters: Attribution Meets the Wavelet Domain to Explain Model Sensitivity to Image Corruptions ( http://arxiv.org/abs/2305.14979v1 )

ライセンス: Link先を確認
Gabriel Kasmi and Laurent Dubus and Yves-Marie Saint Drenan and Philippe Blanc(参考訳) ニューラルネットワークはコンピュータビジョンにおいて顕著な性能を示しているが、実際のシナリオでの展開は、画像の破損に敏感であるため困難である。 既存の帰属法は画像の腐敗に対する感受性を説明するには役に立たないが、ロバスト性に関する文献はモデルに基づく説明のみを提供する。 しかし、画像の腐敗下でモデルの振る舞いを精査する能力は、ユーザの信頼を高めるために不可欠である。 この目的に向けて、画素領域から空間スケール領域への属性の一般化であるWavelet sCale Attribution Method (WCAM)を導入する。 空間スケール領域における属性は、モデルをどのスケールにフォーカスするか、どこにフォーカスするかを明らかにする。 我々は,WCAMが画像の破損下でのモデルの故障を説明し,予測に十分な情報を特定し,ズームインが精度を高める方法を説明する。

Neural networks have shown remarkable performance in computer vision, but their deployment in real-world scenarios is challenging due to their sensitivity to image corruptions. Existing attribution methods are uninformative for explaining the sensitivity to image corruptions, while the literature on robustness only provides model-based explanations. However, the ability to scrutinize models' behavior under image corruptions is crucial to increase the user's trust. Towards this end, we introduce the Wavelet sCale Attribution Method (WCAM), a generalization of attribution from the pixel domain to the space-scale domain. Attribution in the space-scale domain reveals where and on what scales the model focuses. We show that the WCAM explains models' failures under image corruptions, identifies sufficient information for prediction, and explains how zoom-in increases accuracy.
翻訳日:2023-05-25 17:14:41 公開日:2023-05-24
# 確率的指数積分器

Probabilistic Exponential Integrators ( http://arxiv.org/abs/2305.14978v1 )

ライセンス: Link先を確認
Nathanael Bosch, Philipp Hennig, Filip Tronarp(参考訳) 確率的解法は、力学系におけるシミュレーション、不確実性定量化、推論のための柔軟で効率的なフレームワークを提供する。 しかし、標準解法と同様に、数値精度のためではなく安定性のために小さなステップが必要となる特定の剛性系で性能上のペナルティを被る。 本稿では,確率指数積分器による半線形問題において,この問題を大幅に緩和する。 先行する高速線形ダイナミクスを組み込むことで、望ましい性質を持つ確率的積分器のクラスに到達する。 すなわち、それらはL安定であることが証明され、ある場合には古典的な指数積分器に還元され、数値誤差の確率的説明を与える利点が加わった。 この方法は、前回の推定でベクトル場のヤコビアンを通して、前者の半線型性を補足することで任意の非線形系に一般化され、確率的指数的ローゼンブロック法がもたらされる。 本研究では,複数の微分方程式に対する提案手法の評価を行い,確率的解法よりも安定性と効率が向上したことを示す。 この貢献により、確率的数値の中で効果的に取り組める問題の範囲が拡大される。

Probabilistic solvers provide a flexible and efficient framework for simulation, uncertainty quantification, and inference in dynamical systems. However, like standard solvers, they suffer performance penalties for certain stiff systems, where small steps are required not for reasons of numerical accuracy but for the sake of stability. This issue is greatly alleviated in semi-linear problems by the probabilistic exponential integrators developed in this paper. By including the fast, linear dynamics in the prior, we arrive at a class of probabilistic integrators with favorable properties. Namely, they are proven to be L-stable, and in a certain case reduce to a classic exponential integrator -- with the added benefit of providing a probabilistic account of the numerical error. The method is also generalized to arbitrary non-linear systems by imposing piece-wise semi-linearity on the prior via Jacobians of the vector field at the previous estimates, resulting in probabilistic exponential Rosenbrock methods. We evaluate the proposed methods on multiple stiff differential equations and demonstrate their improved stability and efficiency over established probabilistic solvers. The present contribution thus expands the range of problems that can be effectively tackled within probabilistic numerics.
翻訳日:2023-05-25 17:14:27 公開日:2023-05-24
# サンプリングに基づくインスタンス分割ネットワークの不確かさ推定

Sampling-based Uncertainty Estimation for an Instance Segmentation Network ( http://arxiv.org/abs/2305.14977v1 )

ライセンス: Link先を確認
Florian Heidecker, Ahmad El-Khateeb, Bernhard Sick(参考訳) 機械学習モデル(ML)の予測の不確実性の検証が注目されている。 この目的のために用いられる不確実性モデリングの手法はモンテカルロ(mc)-ドロップアウトであり、単一の入力に対して繰り返し予測が生成される。 したがって、クラスタリングは結果の不確実性を記述するために必要であるが、効率的なクラスタリングによってのみ、各オブジェクトにアタッチされたモデルからの不確実性を記述することができる。 この記事では、ベイジアン・ガウス混合(BGM)を用いてこの問題を解決する。 さらに,Mask-RCNNモデルに統合し,各インスタンスの最も正確な不確実性近似値を取得し,グラフィカルに提示する,焦点損失や校正など,ドロップアウト率の異なる手法について検討する。

The examination of uncertainty in the predictions of machine learning (ML) models is receiving increasing attention. One uncertainty modeling technique used for this purpose is Monte-Carlo (MC)-Dropout, where repeated predictions are generated for a single input. Therefore, clustering is required to describe the resulting uncertainty, but only through efficient clustering is it possible to describe the uncertainty from the model attached to each object. This article uses Bayesian Gaussian Mixture (BGM) to solve this problem. In addition, we investigate different values for the dropout rate and other techniques, such as focal loss and calibration, which we integrate into the Mask-RCNN model to obtain the most accurate uncertainty approximation of each instance and showcase it graphically.
翻訳日:2023-05-25 17:14:08 公開日:2023-05-24
# GPTAraEval:アラビア語NLPにおけるChatGPTの総合評価

GPTAraEval: A Comprehensive Evaluation of ChatGPT on Arabic NLP ( http://arxiv.org/abs/2305.14976v1 )

ライセンス: Link先を確認
Md Tawkat Islam Khondaker, Abdul Waheed, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed(参考訳) 最近のChatGPTの出現は、NLPの風景に革命的な変化をもたらした。 ChatGPTは一貫して英語のベンチマークで顕著な性能を示しているが、他のほとんどの言語での正確な性能はほとんど不明である。 アラビア語におけるChatGPTの能力をよりよく理解するために、広範囲のアラビア語NLPタスクにおいて、モデルを大規模に評価する。 すなわち、ChatGPTを32種類の自然言語理解および生成タスクで60以上のデータセット上で評価する。 我々の知る限り、我々の研究はアラビア語のNLP上でのChatGPTの大規模なパフォーマンス分析を初めて提供する。 我々の結果は、英語のベンチマークで成功したにもかかわらず、ChatGPTで訓練されたインコンテキスト(フェーショット)は、アラビア語で微調整されたより小さな専用モデルよりも一貫して優れていることを示している。 これらの結果から,ChatGPT などの命令調整 LLM の改善には重要な場所があることが示唆された。

The recent emergence of ChatGPT has brought a revolutionary change in the landscape of NLP. Although ChatGPT has consistently shown impressive performance on English benchmarks, its exact capabilities on most other languages remain largely unknown. To better understand ChatGPT's capabilities on Arabic, we present a large-scale evaluation of the model on a broad range of Arabic NLP tasks. Namely, we evaluate ChatGPT on 32 diverse natural language understanding and generation tasks on over 60 different datasets. To the best of our knowledge, our work offers the first performance analysis of ChatGPT on Arabic NLP at such a massive scale. Our results show that, despite its success on English benchmarks, ChatGPT trained in-context (few-shot) is consistently outperformed by much smaller dedicated models finetuned on Arabic. These results suggest that there is significant place for improvement for instruction-tuned LLMs such as ChatGPT.
翻訳日:2023-05-25 17:13:55 公開日:2023-05-24
# 名前付きエンティティ間の次数関係のモデル化のためのRelEntLessベンチマーク

A RelEntLess Benchmark for Modelling Graded Relations between Named Entities ( http://arxiv.org/abs/2305.15002v1 )

ライセンス: Link先を確認
Asahi Ushio and Jose Camacho Collados and Steven Schockaert(参考訳) これらの関係をどの程度満足しているかに基づいてエンティティペアをランク付けすることは可能だが、それらを満たすペアとそうでないペアの間に線を引くことは困難である。 このようなグレード付き関係は多くのアプリケーションにおいて中心的な役割を果たすが、通常は既存の知識グラフではカバーされない。 本稿では,このギャップを埋めるためにLarge Language Models (LLM) を用いる可能性を検討する。 この目的のために,与えられた格付け関係をどの程度満たしているかに応じてエンティティペアをランク付けしなければならない,新たなベンチマークを導入する。 このタスクは数ショットのランキング問題として定式化され、モデルでは関係と5つの原型インスタンスの記述にしかアクセスできない。 提案したベンチマークを用いて,GPT-4 のような一般向け LLM とクローズドモデルの両方をカバーする,最新の LLM の評価を行った。 全体として、モデルのサイズと性能の間には強い相関関係が見られ、より小さな言語モデルでは単純なベースラインを上回りません。 最大のFlan-T5およびOPTモデルの結果は極めて強いが、人間のパフォーマンスとの明確なギャップは残る。

Relations such as "is influenced by", "is known for" or "is a competitor of" are inherently graded: we can rank entity pairs based on how well they satisfy these relations, but it is hard to draw a line between those pairs that satisfy them and those that do not. Such graded relations play a central role in many applications, yet they are typically not covered by existing Knowledge Graphs. In this paper, we consider the possibility of using Large Language Models (LLMs) to fill this gap. To this end, we introduce a new benchmark, in which entity pairs have to be ranked according to how much they satisfy a given graded relation. The task is formulated as a few-shot ranking problem, where models only have access to a description of the relation and five prototypical instances. We use the proposed benchmark to evaluate state-of-the-art relation embedding strategies as well as several recent LLMs, covering both publicly available LLMs and closed models such as GPT-4. Overall, we find a strong correlation between model size and performance, with smaller Language Models struggling to outperform a naive baseline. The results of the largest Flan-T5 and OPT models are remarkably strong, although a clear gap with human performance remains.
翻訳日:2023-05-25 17:07:00 公開日:2023-05-24
# オブジェクト発見のための複素値オートエンコーダのコントラストトレーニング

Contrastive Training of Complex-Valued Autoencoders for Object Discovery ( http://arxiv.org/abs/2305.15001v1 )

ライセンス: Link先を確認
Aleksandar Stani\'c, Anand Gopalakrishnan, Kazuki Irie, J\"urgen Schmidhuber(参考訳) 現在の最先端のオブジェクト中心モデルは、バインディングにスロットと注意に基づくルーティングを使用する。 しかしながら、このモデルのクラスにはいくつかの概念的な制限がある: スロットの数はハードワイヤであり、全てのスロットは同等の容量を持ち、訓練は高い計算コストを持ち、スロット内にオブジェクトレベルの関係因子は存在しない。 同期ベースのモデルは、それらの相成分に結合情報を格納する複雑な値のアクティベーションを使用することで、これらの制限に対処することができる。 しかし、このような同期ベースのモデルの動作例はごく最近まで開発されており、まだおもちゃのグレースケールデータセットと3つ未満のオブジェクトの同時保存に限られている。 ここでは,最新の同期モデルを大幅に改善する,アーキテクチャ修正と新しいコントラスト学習手法を紹介する。 マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見でき、3つ以上のオブジェクトを同時に表現できる同期ベースモデルのクラスを初めて得る。

Current state-of-the-art object-centric models use slots and attention-based routing for binding. However, this class of models has several conceptual limitations: the number of slots is hardwired; all slots have equal capacity; training has high computational cost; there are no object-level relational factors within slots. Synchrony-based models in principle can address these limitations by using complex-valued activations which store binding information in their phase components. However, working examples of such synchrony-based models have been developed only very recently, and are still limited to toy grayscale datasets and simultaneous storage of less than three objects in practice. Here we introduce architectural modifications and a novel contrastive learning method that greatly improve the state-of-the-art synchrony-based model. For the first time, we obtain a class of synchrony-based models capable of discovering objects in an unsupervised manner in multi-object color datasets and simultaneously representing more than three objects
翻訳日:2023-05-25 17:06:38 公開日:2023-05-24
# SOCRATIC QUESTIONINGの技法:再帰的思考と自己探究によるゼロショットマルチモーダル推論

The Art of SOCRATIC QUESTIONING: Zero-shot Multimodal Reasoning with Recursive Thinking and Self-Questioning ( http://arxiv.org/abs/2305.14999v1 )

ライセンス: Link先を確認
Jingyuan Qi, Zhiyang Xu, Ying Shen, Minqian Liu, Di Jin, Qifan Wang, Lifu Huang(参考訳) chain-of-thought prompting(cot)は,問題を分解してステップバイステップで取り組むことで,複雑な推論問題を大規模言語モデルで解決可能にする。 しかし、Chain-of-Thoughtは、言語モデルに出発点を導き、以前のステップのみに基づいて次のステップを生成することを要求する、欲張りの思考プロセスである。 この思考過程は、人間が複雑な問題にアプローチする方法とは異なる。例えば、私たちは、元の問題に関連するサブプロイムを積極的に引き上げ、再帰的に答える。 本研究では,自己問合せ・再帰的思考過程をシミュレートする,分割・探索型ファッションアルゴリズムであるsocratic questioningを提案する。 ソクラティック質問は、大規模な言語モデルを用いて、元の問題に関連するサブプロブレムを中間段階として提案するセルフクエストモジュールと、ソクラティック質問は再帰的にバックトラックを作成し、元の問題に到達するまでサブプロブレムに答える。 提案アルゴリズムを視覚的質問応答タスクに適用し,それを3つの公開ベンチマークデータセット上で評価することにより,(ほぼ)全データセットのベースラインに対する大幅な性能向上を観察する。 さらに, 質的分析により, ソクラテス的質問によって引き起こされる中間的思考過程が, 複雑な推論問題の帰納的思考過程とよく似ていることを示す。

Chain-of-Thought prompting (CoT) enables large-scale language models to solve complex reasoning problems by decomposing the problem and tackling it step-by-step. However, Chain-of-Thought is a greedy thinking process that requires the language model to come up with a starting point and generate the next step solely based on previous steps. This thinking process is different from how humans approach a complex problem e.g., we proactively raise sub-problems related to the original problem and recursively answer them. In this work, we propose Socratic Questioning, a divide-and-conquer fashion algorithm that simulates the self-questioning and recursive thinking process. Socratic Questioning is driven by a Self-Questioning module that employs a large-scale language model to propose sub-problems related to the original problem as intermediate steps and Socratic Questioning recursively backtracks and answers the sub-problems until reaches the original problem. We apply our proposed algorithm to the visual question-answering task as a case study and by evaluating it on three public benchmark datasets, we observe a significant performance improvement over all baselines on (almost) all datasets. In addition, the qualitative analysis clearly demonstrates the intermediate thinking steps elicited by Socratic Questioning are similar to the human's recursively thinking process of a complex reasoning problem.
翻訳日:2023-05-25 17:06:22 公開日:2023-05-24
# 基準自由画像キャプション評価指標のロバスト性に関する検討

An Examination of the Robustness of Reference-Free Image Captioning Evaluation Metrics ( http://arxiv.org/abs/2305.14998v1 )

ライセンス: Link先を確認
Saba Ahmadi, Aishwarya Agrawal(参考訳) 近年,クリップスコア (hessel et al., 2021) や umic (lee et al., 2021) などの参照フリー指標が画像キャプションの自動評価のために提案されている。 本研究では,2つのキャプションの区別を必要とするシナリオにおいて,これらの指標の堅牢性を評価することに重点を置いている。 以上の結果より,CLIPScoreとUMICの両者は,ヒトの判断に高い相関性があることが判明した。 しかし、異なる種類の細粒度エラーを比較すると、どちらの指標もキャプションの難解さに対する感度が限定され、十分な視覚基盤の欠如に対する強い感度を示す。 視覚的な接地面をさらに調査すると,クリップスコアとumicはキャプションで言及される画像関連オブジェクトのサイズに影響され,クリップコアはキャプション内の画像関連オブジェクトの参照数にも敏感であることがわかった。 キャプションの言語的側面から見ると,どちらの指標も否定を理解する能力に欠けており,UMICはキャプションの長さに敏感であり,CLIPScoreは文の構造に敏感である。 画像キャプションにおける基準のない評価を改善するための貴重なガイドとして,本研究の成果が期待できる。

Recently, reference-free metrics such as CLIPScore (Hessel et al., 2021) and UMIC (Lee et al., 2021) have been proposed for automatic evaluation of image captions, demonstrating a high correlation with human judgment. In this work, our focus lies in evaluating the robustness of these metrics in scenarios that require distinguishing between two captions with high lexical overlap but very different meanings. Our findings reveal that despite their high correlation with human judgment, both CLIPScore and UMIC struggle to identify fine-grained errors in captions. However, when comparing different types of fine-grained errors, both metrics exhibit limited sensitivity to implausibility of captions and strong sensitivity to lack of sufficient visual grounding. Probing further into the visual grounding aspect, we found that both CLIPScore and UMIC are impacted by the size of image-relevant objects mentioned in the caption, and that CLIPScore is also sensitive to the number of mentions of image-relevant objects in the caption. In terms of linguistic aspects of a caption, we found that both metrics lack the ability to comprehend negation, UMIC is sensitive to caption lengths, and CLIPScore is insensitive to the structure of the sentence. We hope our findings will serve as a valuable guide towards improving reference-free evaluation in image captioning.
翻訳日:2023-05-25 17:05:54 公開日:2023-05-24
# ACL OCL Corpus:Computational Linguisticsにおけるオープンサイエンスの進歩

The ACL OCL Corpus: advancing Open science in Computational Linguistics ( http://arxiv.org/abs/2305.14996v1 )

ライセンス: Link先を確認
Shaurya Rohatgi, Yanxia Qin, Benjamin Aw, Niranjana Unnithan, Min-Yen Kan(参考訳) 我々はACLアンソロジーの学術コーパスを提示し、ACL OCLと命名された計算言語学領域におけるオープン科学研究を支援する。 以前のARC版やAAN版と比較すると、ACL OCLは論理セクション、数字への参照、大きな知識リソース(意味学者)へのリンクを含む構造化フルテキストを含んでいる。 ACL OCLには74kの科学論文と2022年9月までに抽出された210kの論文が含まれている。 計算言語学領域の発展を観察するために,全ocl論文のトピックを教師付きニューラルモデルを用いて検出する。 我々は'syntax: Tagging, Chunking and Parsing'というトピックが大幅に縮小し、'Natural Language Generation'が復活しているのを観察する。 私たちのデータセットはオープンで、https://huggingface.co/datasets/ACL-OCL/ACL-OCL-Corpusでダウンロードできます。

We present a scholarly corpus from the ACL Anthology to assist Open scientific research in the Computational Linguistics domain, named as ACL OCL. Compared with previous ARC and AAN versions, ACL OCL includes structured full-texts with logical sections, references to figures, and links to a large knowledge resource (semantic scholar). ACL OCL contains 74k scientific papers, together with 210k figures extracted up to September 2022. To observe the development in the computational linguistics domain, we detect the topics of all OCL papers with a supervised neural model. We observe ''Syntax: Tagging, Chunking and Parsing'' topic is significantly shrinking and ''Natural Language Generation'' is resurging. Our dataset is open and available to download from HuggingFace in https://huggingface.co/datasets/ACL-OCL/ACL-OCL-Corpus.
翻訳日:2023-05-25 17:05:28 公開日:2023-05-24
# RefGPT: 参照 -> GPT と GPT による真正かつカスタマイズされた対話生成

RefGPT: Reference -> Truthful & Customized Dialogues Generation by GPTs and for GPTs ( http://arxiv.org/abs/2305.14994v1 )

ライセンス: Link先を確認
Dongjie Yang, Ruifeng Yuan, YuanTao Fan, YiFei Yang, Zili Wang, Shushen Wang, Hai Zhao(参考訳) ChatGPTのような一般的なチャットモデルは、高品質な命令データでLLM(Large Language Models)をチューニングすることで、幅広いNLPタスクを解決するための印象的な能力を得た。 しかし、人間による高品質なデータ収集、特にマルチターン対話は、ほとんどの人にとって高価で持続不可能である。 これまでの研究では、強力なLLMを使って対話を自動的に生成していたが、LLMの幻覚のため、すべて非現実的な対話を発生させる。 そこで本研究では,RefGPTという手法を用いて,モデル幻覚による事実誤りを気にすることなく,膨大な真実とカスタマイズされた対話を生成する手法を提案する。 refgptは、会話生成におけるモデル幻覚を、llmが与えられた参照を利用するように制限することで解決する。 さらに、RefGPTはすべての発話の詳細な制御を追加し、高度なカスタマイズを可能にする。 また、RefGPTに基づいて、GPT-4によって生成された2つの高品質な対話データセット、すなわちRefGPT-FactとRefGPT-Codeを提案する。 RefGPT-Factは事実知識に基づく100kのマルチターン対話データセットであり、RefGPT-Codeは幅広いコーディングシナリオをカバーする76kのマルチターン対話データセットである。 私たちのコードとデータセットはhttps://github.com/ziliwangnlp/RefGPTで公開されています

General chat models, like ChatGPT, have attained impressive capability to resolve a wide range of NLP tasks by tuning Large Language Models (LLMs) with high-quality instruction data. However, collecting human-written high-quality data, especially multi-turn dialogues, is expensive and unattainable for most people. Though previous studies have used powerful LLMs to generate the dialogues automatically, but they all suffer from generating untruthful dialogues because of the LLMs hallucination. Therefore, we propose a method called RefGPT to generate enormous truthful and customized dialogues without worrying about factual errors caused by the model hallucination. RefGPT solves the model hallucination in dialogue generation by restricting the LLMs to leverage the given reference instead of reciting their own knowledge to generate dialogues. Additionally, RefGPT adds detailed controls on every utterances to enable highly customization capability, which previous studies have ignored. On the basis of RefGPT, we also propose two high-quality dialogue datasets generated by GPT-4, namely RefGPT-Fact and RefGPT-Code. RefGPT-Fact is 100k multi-turn dialogue datasets based on factual knowledge and RefGPT-Code is 76k multi-turn dialogue dataset covering a wide range of coding scenarios. Our code and datasets are released in https://github.com/ziliwangnlp/RefGPT
翻訳日:2023-05-25 17:05:11 公開日:2023-05-24
# テキストの簡易化の制御法 簡易化保存のための制御トークンに関する実証的研究

How To Control Text Simplification? An Empirical Study of Control Tokens for Meaning Preserving Controlled Simplification ( http://arxiv.org/abs/2305.14993v1 )

ライセンス: Link先を確認
Sweta Agrawal and Marine Carpuat(参考訳) text simplificationはテキストを特定のオーディエンスのために読みやすく書き直し、その意味を維持している。 しかし、テキストの読みやすさの決定は、誰が意図した読者であるかに依存する。 最近の研究は、所望の読み上げグレードレベルを指定することから、低レベルの単純化編集操作を直接エンコードする制御トークンの提供まで、出力の単純さを制御するための豊富な技術を導入している。 しかし、実際に単純化を制御する入力パラメータを設定する方法はまだ不明である。 既存のアプローチでは、個々のソーステキストの複雑さを無視して、それらをコーパスレベルに設定しており、インスタンスレベルで直接評価していません。 本研究では,異なる制御機構がモデル出力の妥当性と簡易性に与える影響を理解するための実証的研究を行う。 これらの知見に基づき,文レベルの制御トークンを簡易に予測し,簡易テキストの品質を向上させる手法を提案する。 元の複雑なテキストから抽出した特徴とユーザ指定の複雑さを用いて制御トークンの値を予測することで、コーパスレベルの検索に基づくヒューリスティックよりも単純化された出力の品質を向上させる。

Text simplification rewrites text to be more readable for a specific audience, while preserving its meaning. However, determining what makes a text easy to read depends on who are the intended readers. Recent work has introduced a wealth of techniques to control output simplicity, ranging from specifying the desired reading grade level to providing control tokens that directly encode low-level simplification edit operations. However, it remains unclear how to set the input parameters that control simplification in practice. Existing approaches set them at the corpus level, disregarding the complexity of individual source text, and do not directly evaluate them at the instance level. In this work, we conduct an empirical study to understand how different control mechanisms impact the adequacy and simplicity of model outputs. Based on these insights, we introduce a simple method for predicting control tokens at the sentence level to enhance the quality of the simplified text. Predicting control token values using features extracted from the original complex text and a user-specified degree of complexity improves the quality of the simplified outputs over corpus-level search-based heuristics.
翻訳日:2023-05-25 17:04:44 公開日:2023-05-24
# 言語モデルによる推論は世界モデルによる計画

Reasoning with Language Model is Planning with World Model ( http://arxiv.org/abs/2305.14992v1 )

ライセンス: Link先を確認
Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, Zhiting Hu(参考訳) 大規模言語モデル(LLM)は、特に中間推論ステップ(例えばChain-of-Thought, CoT)を生成するよう促されたときに顕著な推論能力を示す。 しかしながら、LLMは、与えられた環境でタスクを実行するためのアクションプランの作成や、複雑な数学、論理的、常識的推論の実行など、人間にとって容易な問題に苦しむことができる。 この不足は、llmsが世界$\textit{state}$(環境ステータス、中間変数値など)を予測し、アクションの長期的な結果をシミュレートするために内部で$\textit{world model}$を欠いていることに起因する。 これは、LCMが人間の脳に似た計画を行うのを防ぐもので、代替の推論経路を探索し、将来の状態と報酬を予測し、既存の推論手順を反復的に洗練する。 この制限を克服するために、新しいLCM推論フレームワークである$\underline{R}\textit{easoning vi}\underline{a} \underline{P}\textit{lanning}$ $\textbf{(RAP)}$を提案する。 RAPは、LLMを世界モデルと推論エージェントの両方として再利用し、広大な推論空間における戦略的探索のための(Monto Carlo Tree Searchに基づく)原則的計画アルゴリズムを組み込んでいる。 推論中、LLM(エージェント)は、LLM(ワールドモデル)とタスク固有報酬の指導の下で推論ツリーを漸進的に構築し、探索用$\textit{vsの適切なバランスで、高い回帰推論パスを効率的に取得する。 利用料は$ exploitation。 我々は、計画生成、数理推論、論理推論など、様々な困難な推論問題にRAPを適用する。 これらの課題に対する実証的な結果は、cotを含む様々な強固なベースラインに対するrapの優越性を示す。 LLAMA-33BのRAPはGPT-4のCoTを33%の相対的な改善で上回っている。

Large language models (LLMs) have shown remarkable reasoning capabilities, especially when prompted to generate intermediate reasoning steps (e.g., Chain-of-Thought, CoT). However, LLMs can still struggle with problems that are easy for humans, such as generating action plans for executing tasks in a given environment, or performing complex math, logical, and commonsense reasoning. The deficiency stems from the key fact that LLMs lack an internal $\textit{world model}$ to predict the world $\textit{state}$ (e.g., environment status, intermediate variable values) and simulate long-term outcomes of actions. This prevents LLMs from performing deliberate planning akin to human brains, which involves exploring alternative reasoning paths, anticipating future states and rewards, and iteratively refining existing reasoning steps. To overcome the limitations, we propose a new LLM reasoning framework, $\underline{R}\textit{easoning vi}\underline{a} \underline{P}\textit{lanning}$ $\textbf{(RAP)}$. RAP repurposes the LLM as both a world model and a reasoning agent, and incorporates a principled planning algorithm (based on Monto Carlo Tree Search) for strategic exploration in the vast reasoning space. During reasoning, the LLM (as agent) incrementally builds a reasoning tree under the guidance of the LLM (as world model) and task-specific rewards, and obtains a high-reward reasoning path efficiently with a proper balance between exploration $\textit{vs.}$ exploitation. We apply RAP to a variety of challenging reasoning problems including plan generation, math reasoning, and logical inference. Empirical results on these tasks demonstrate the superiority of RAP over various strong baselines, including CoT and least-to-most prompting with self-consistency. RAP on LLAMA-33B surpasses CoT on GPT-4 with 33% relative improvement in a plan generation setting.
翻訳日:2023-05-25 17:04:24 公開日:2023-05-24
# MuLER: 詳細でスケーラブルなリファレンスベースの評価

MuLER: Detailed and Scalable Reference-based Evaluation ( http://arxiv.org/abs/2305.14991v1 )

ライセンス: Link先を確認
Taelin Karidi, Leshem Choshen, Gal Patel, Omri Abend(参考訳) 本稿では,機械翻訳(MT)などのテキスト生成のための基準ベース評価基準を,微細な解析ツールに変換する手法(MulER)を提案する。 システムとメトリックが与えられたとき、ミューラーは選択されたメトリックが特定のエラータイプをどれだけペナルティ化するか(例えば、場所の名前の変換エラー)を定量化する。 MuLERは、特定の現象に対する目標となる改善作業に繋がる、詳細なエラー解析を可能にする。 我々は,MulERの妥当性を実証し,MT評価におけるユーザビリティや要約などのタスクを示すために,合成的および自然主義的な設定の両方で実験を行う。 2014-2020年のWMTへの全ての申請を分析し、一貫した傾向を見出した。 例えば、名詞と動詞は最も頻繁に使われるPOSタグの1つである。 しかし、翻訳は最も難しいものの一つである。 ほとんどのPOSタグのパフォーマンスはシステム全体のパフォーマンスによって改善されるが、いくつかのものは相関しない(言語から言語へのアイデンティティの変更)。 要約による予備実験も同様の傾向を示す。

We propose a novel methodology (namely, MuLER) that transforms any reference-based evaluation metric for text generation, such as machine translation (MT) into a fine-grained analysis tool. Given a system and a metric, MuLER quantifies how much the chosen metric penalizes specific error types (e.g., errors in translating names of locations). MuLER thus enables a detailed error analysis which can lead to targeted improvement efforts for specific phenomena. We perform experiments in both synthetic and naturalistic settings to support MuLER's validity and showcase its usability in MT evaluation, and other tasks, such as summarization. Analyzing all submissions to WMT in 2014-2020, we find consistent trends. For example, nouns and verbs are among the most frequent POS tags. However, they are among the hardest to translate. Performance on most POS tags improves with overall system performance, but a few are not thus correlated (their identity changes from language to language). Preliminary experiments with summarization reveal similar trends.
翻訳日:2023-05-25 17:03:43 公開日:2023-05-24
# Dolphin: アラビア語のNLGのベンチマーク

Dolphin: A Challenging and Diverse Benchmark for Arabic NLG ( http://arxiv.org/abs/2305.14989v1 )

ライセンス: Link先を確認
El Moatez Billah Nagoudi, Ahmed El-Shangiti, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) 我々は、アラビア語の言語や品種を幅広く収集するための評価フレームワークの必要性に対処する新しいベンチマークであるDolphinを紹介する。 提案するベンチマークは,テキスト要約,機械翻訳,質問応答,対話生成など,13種類のNLGタスクを含む。 イルカは50のテストスプリットにまたがる40の多様で代表的な公開データセットで構成されており、実世界のシナリオとアラビア語の言語豊かさを反映して注意深くキュレートされている。 アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定し、研究者が現在の方法論の境界を押し上げることを約束する。 我々はDolphinを広範囲に分析し、その多様性と現在のアラビアのNLG研究のギャップを明らかにする。 また、ベンチマークでアラビア語と多言語モデルを評価し、研究者が比較できる強力なベースラインを設定することができます。

We present Dolphin, a novel benchmark that addresses the need for an evaluation framework for the wide collection of Arabic languages and varieties. The proposed benchmark encompasses a broad range of 13 different NLG tasks, including text summarization, machine translation, question answering, and dialogue generation, among others. Dolphin comprises a substantial corpus of 40 diverse and representative public datasets across 50 test splits, carefully curated to reflect real-world scenarios and the linguistic richness of Arabic. It sets a new standard for evaluating the performance and generalization capabilities of Arabic and multilingual models, promising to enable researchers to push the boundaries of current methodologies. We provide an extensive analysis of Dolphin, highlighting its diversity and identifying gaps in current Arabic NLG research. We also evaluate several Arabic and multilingual models on our benchmark, allowing us to set strong baselines against which researchers can compare.
翻訳日:2023-05-25 17:03:25 公開日:2023-05-24
# コード実行を用いた大規模言語モデルの時間解答解

Unlocking Temporal Question Answering for Large Language Models Using Code Execution ( http://arxiv.org/abs/2305.15014v1 )

ライセンス: Link先を確認
Xingxuan Li, Liying Cheng, Qingyu Tan, Hwee Tou Ng, Shafiq Joty, Lidong Bing(参考訳) 大規模言語モデル (LLM) は自然言語処理 (NLP) において大きく進歩しており、様々な用途で広く利用されている。 chain-of-thought (cot) のような最近の研究は、中間的推論ステップが数学問題や記号的質問応答タスクのような複雑な推論タスクに対するllmの性能を向上させることを示した。 しかし、時間的推論に関してはLLMが直面する課題に気づく。 予備実験の結果, 中間的推論ステップの生成は, 複雑な時間的質問応答タスクの性能を必ずしも高めるものではないことがわかった。 そこで,本稿では,llmの抽出能力とpythonソルバの論理的推論能力を組み合わせた新しいフレームワークを提案する。 複雑な時間的推論タスクの処理におけるフレームワークの有効性を示す実験と分析を行った。

Large language models (LLMs) have made significant progress in natural language processing (NLP), and are utilized extensively in various applications. Recent works, such as chain-of-thought (CoT), have shown that intermediate reasoning steps can improve the performance of LLMs for complex reasoning tasks, such as math problems and symbolic question-answering tasks. However, we notice the challenge that LLMs face when it comes to temporal reasoning. Our preliminary experiments show that generating intermediate reasoning steps does not always boost the performance of complex temporal question-answering tasks. Therefore, we propose a novel framework that combines the extraction capability of LLMs and the logical reasoning capability of a Python solver to tackle this issue. Extensive experiments and analysis demonstrate the effectiveness of our framework in handling intricate time-bound reasoning tasks.
翻訳日:2023-05-25 16:57:51 公開日:2023-05-24
# 局所sgdは損失関数の2次情報を利用して収束を加速する

Local SGD Accelerates Convergence by Exploiting Second Order Information of the Loss Function ( http://arxiv.org/abs/2305.15013v1 )

ライセンス: Link先を確認
Linxuan Pan, Shenghui Song(参考訳) 複数の更新を繰り返して、局所統計勾配降下(L-SGD)は、フェデレート学習のような分散機械学習スキームに非常に有効であることが証明されている。 実際、多くの革新的な研究により、独立かつ同一に分散された(IID)データを持つL-SGDがSGDより優れていることが示されている。 その結果、L-SGDのパワーを明らかにするために広範囲な努力がなされた。 しかし、既存の分析では、小さなミニバッチデータ(L-SGD)による複数のローカル更新が、1つの大きなバッチデータとより大きな学習率(SGD)で更新に置き換えられない理由を説明できなかった。 本稿では,L-SGDの強みを理解するための新たな視点を提供する。 IIDデータを用いてL-SGDが損失関数の2次情報を効果的に探索できることを理論的に証明する。 特に、SGDと比較して、L-SGDの更新は、小さな固有値を持つヘッセン行列の固有ベクトルに対してはるかに大きい射影を持ち、より速く収束する。 ある条件下では、L-SGD はニュートン法にもアプローチできる。 実験結果は、2つの一般的なデータセットで理論的結果を検証する。

With multiple iterations of updates, local statistical gradient descent (L-SGD) has been proven to be very effective in distributed machine learning schemes such as federated learning. In fact, many innovative works have shown that L-SGD with independent and identically distributed (IID) data can even outperform SGD. As a result, extensive efforts have been made to unveil the power of L-SGD. However, existing analysis failed to explain why the multiple local updates with small mini-batches of data (L-SGD) can not be replaced by the update with one big batch of data and a larger learning rate (SGD). In this paper, we offer a new perspective to understand the strength of L-SGD. We theoretically prove that, with IID data, L-SGD can effectively explore the second order information of the loss function. In particular, compared with SGD, the updates of L-SGD have much larger projection on the eigenvectors of the Hessian matrix with small eigenvalues, which leads to faster convergence. Under certain conditions, L-SGD can even approach the Newton method. Experiment results over two popular datasets validate the theoretical results.
翻訳日:2023-05-25 16:57:37 公開日:2023-05-24
# 熱力学量を用いた多体絡み合いの実験的検証

Experimental Verification of Many-Body Entanglement Using Thermodynamic Quantities ( http://arxiv.org/abs/2305.15012v1 )

ライセンス: Link先を確認
Jitendra Joshi, Mir Alimuddin, T S Mahesh, Manik Banik(参考訳) 量子絡み合いの現象は、新しい量子技術を可能にするいくつかの重要なプロトコルの下にある。 極めてデリケートなリソースの絡み合い状態であることは、外部環境によって容易に混乱するので、絡み合いを含むプロトコルの実装を成功させる上で、絡み合い認証の問題は極めて重要である。 本研究では,ある種の熱力学量を測定することで容易に検証できるマルチキュービットシステムの絡み合い基準を提案する。 特に、この基準は、大域的および局所的な相互作用の下で孤立量子系から抽出可能な最適作業の差に依存する。 原理の証明として,原子磁気共鳴アーキテクチャを用いて最大10量子ビットの核スピンレジスタに関する熱力学的基準を提案する。 我々は、恒星トポロジー系におけるうるさいグリーンベルガー・ホーネ・ザイリンガー状態のクラスを作成し、提案基準によりそれらの絡み合いを証明した。 また、多体システムにおいて、状態に関する知識が部分的にあるいは全くない場合にのみ、エレガントなエンタングルメント認証を提供する。

The phenomenon of quantum entanglement underlies several important protocols that enable emerging quantum technologies. Being an extremely delicate resource entangled states easily get perturbed by their external environment, and thus makes the question of entanglement certification immensely crucial for successful implementation of the protocols involving entanglement. In this work, we propose a set of entanglement criteria for multi-qubit systems that can be easily verified by measuring certain thermodynamic quantities. In particular, the criteria depend on the difference in optimal works extractable from an isolated quantum system under global and local interactions, respectively. As a proof of principle, we demonstrate the proposed thermodynamic criteria on nuclear spin registers of up to 10 qubits using Nuclear Magnetic Resonance architecture. We prepare noisy Greenberger-Horne-Zeilinger class of states in star-topology systems and certify their entanglement through our proposed criteria. We also provide elegant means of entanglement certification in many-body systems when only partial or even no knowledge about the state is available.
翻訳日:2023-05-25 16:57:15 公開日:2023-05-24
# Bactrian-X : 低ランク適応型多言語レプリケーションフォローモデル

Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation ( http://arxiv.org/abs/2305.15011v1 )

ライセンス: Link先を確認
Haonan Li and Fajri Koto and Minghao Wu and Alham Fikri Aji and Timothy Baldwin(参考訳) インストラクションチューニングは自然言語処理の分野で大きな可能性を秘めている。 しかし、高品質な命令応答データセットが不足しているため、多言語命令チューニングの研究は限られている。 このギャップに対処するため,52言語にまたがる340万の命令応答対からなる多言語並列データセットであるBactrian-Xを提案する。 このデータセットを活用することで、基礎モデルとシームレスに統合された軽量なコンポーネントであるローランク適応(LoRA)を使用して、アダプタセットをトレーニングする。 これらのアダプタはベースモデルよりもかなり小さいパラメータ数を持ち、様々な言語や言語グループのプラグインとして簡単に置き換えられる。 52言語に対する広範囲な実験を通じて,多言語評価設定におけるモデルの優れた性能を示す。 提案モデルはバニラモデルと既存の命令調整モデルの両方を上回っている。 コードとモデルはhttps://github.com/mbzuai-nlp/bactrian-xで公開されている。

Instruction tuning has shown great promise in the field of natural language processing. However, the research on multilingual instruction tuning has been limited due to the scarcity of high-quality instruction-response datasets. To address this gap, we present Bactrian-X, a comprehensive multilingual parallel dataset of 3.4 million instruction-response pairs across 52 languages. Leveraging this dataset, we train a set of adapters using low-rank adaptation (LoRA), which are lightweight components seamlessly integrated with foundational models. These adapters have a significantly smaller parameter count than the base model, making them easily replaceable and usable as plug-ins for different languages or language groups. Through extensive experiments on 52 languages, we demonstrate the superior performance of our models in various multilingual evaluation settings. Our proposed models outperform both the vanilla models and the existing instruction-tuned models. The code and models are publicly available at https://github.com/mbzuai-nlp/bactrian-x.
翻訳日:2023-05-25 16:56:57 公開日:2023-05-24
# 生物医学的事前学習モデルに知識を注入する多型と同名置換

Injecting Knowledge into Biomedical Pre-trained Models via Polymorphism and Synonymous Substitution ( http://arxiv.org/abs/2305.15010v1 )

ライセンス: Link先を確認
Hongbo Zhang and Xiang Wan and Benyou Wang(参考訳) 事前学習言語モデル(PLM)は、トレーニングデータに存在する関係知識を格納できると考えられていた。 しかし、いくつかの関係知識は \textbf{report bias} のためにplmにおいて安全でない形で破棄されているように見える: 低頻度関係知識はplmの高周波知識と比較して過度に表現される可能性がある。 このことは、関係知識が PLM の格納された知識に冗長ではなく、むしろ補完的なものであることを示唆する。 PLMにリレーショナル知識を注入するために,3つの観測(多形性,同義置換,関連性)にインスパイアされたPLMにリレーショナル知識を注入する手法を提案する。 特に、トレーニングコーパス内のエンティティを関連エンティティ(ハイパーnyms/hyponyms/synonyms、あるいは任意関連概念)に切り替えます。 実験結果から,提案手法は関係知識を捉えるだけでなく,様々な生物医学的下流タスクの性能を向上させることができることがわかった。 我々のモデルは \url{https://github.com/StevenZHB/BioPLM_InjectingKnowledge} で利用可能です。

Pre-trained language models (PLMs) were considered to be able to store relational knowledge present in the training data. However, some relational knowledge seems to be discarded unsafely in PLMs due to \textbf{report bias}: low-frequency relational knowledge might be underexpressed compared to high-frequency one in PLMs. This gives us a hint that relational knowledge might not be redundant to the stored knowledge of PLMs, but rather be complementary. To additionally inject relational knowledge into PLMs, we propose a simple-yet-effective approach to inject relational knowledge into PLMs, which is inspired by three observations (namely, polymorphism, synonymous substitution, and association). In particular, we switch entities in the training corpus to related entities (either hypernyms/hyponyms/synonyms, or arbitrarily-related concepts). Experimental results show that the proposed approach could not only better capture relational knowledge, but also improve the performance in various biomedical downstream tasks. Our model is available in \url{https://github.com/StevenZHB/BioPLM_InjectingKnowledge}.
翻訳日:2023-05-25 16:56:42 公開日:2023-05-24
# 155MeV電子照射によるダイヤモンド中のNV中心の生成

Creation of NV centers in diamond under 155 MeV electron irradiation ( http://arxiv.org/abs/2305.15009v1 )

ライセンス: Link先を確認
Elena Losero, Valentin Goblot, Yuchun Zhu, Hossein Babashah, Victor Boureau, Florian Burkart, and Christophe Galland(参考訳) 負電荷窒素空孔中心(NV-)の高濃度を示す単結晶ダイヤモンド基板は、磁気センサ、温度計、電気計などの光ポンピング固体センサの開発に需要が高まっている。 窒素不純物は結晶成長中に容易に組み込むことができるが、空孔の生成にはさらなる処理が必要である。 電子照射とアニーリングは、しばしばこの文脈で選択され、結晶格子構造やnv光学およびスピン特性に負の影響を及ぼす重い粒子による照射の利点を提供する。 プロセスの最適化とNVセンサの感度向上には、電子照射の可能性の徹底的な調査が必要である。 本研究では、155MeVの超高エネルギー電子を含む未発見状態における電子照射の効果について検討する。 生成空孔の濃度を推定するシミュレーションモデルを開発し,窒素富裕HPHTダイヤモンドを非常に大きな試料容積に照射したことにより,NV-濃度が3桁以上増加することを実験的に示す。 さらに、この特異な状態における電子照射が、NVセンシング、すなわち電荷状態変換効率およびスピン緩和時間に関連する他の特徴量に与える影響について論じる。 最後に、超高エネルギー照射の効果を従来の低エネルギー照射法と比較し、透過電子顕微鏡から200keVの電子を異なる基板と照射流束に利用し、155MeVで1電子あたりの空孔生成の60倍の収率を与える。

Single-crystal diamond substrates presenting a high concentration of negatively charged nitrogen-vacancy centers (NV-) are on high demand for the development of optically pumped solid-state sensors such as magnetometers, thermometers or electrometers. While nitrogen impurities can be easily incorporated during crystal growth, the creation of vacancies requires further treatment. Electron irradiation and annealing is often chosen in this context, offering advantages with respect to irradiation by heavier particles that negatively affect the crystal lattice structure and consequently the NV- optical and spin properties. A thorough investigation of electron irradiation possibilities is needed to optimize the process and improve the sensitivity of NV-based sensors. In this work we examine the effect of electron irradiation in a previously unexplored regime: extremely high energy electrons, at 155 MeV. We develop a simulation model to estimate the concentration of created vacancies and experimentally demonstrate an increase of NV- concentration by more than 3 orders of magnitude following irradiation of a nitrogen-rich HPHT diamond over a very large sample volume, which translates into an important gain in sensitivity. Moreover, we discuss the impact of electron irradiation in this peculiar regime on other figures of merits relevant for NV sensing, i.e. charge state conversion efficiency and spin relaxation time. Finally, the effect of extremely high energy irradiation is compared with the more conventional low energy irradiation process, employing 200 keV electrons from a transmission electron microscope, for different substrates and irradiation fluences, evidencing sixty-fold higher yield of vacancy creation per electron at 155 MeV.
翻訳日:2023-05-25 16:56:19 公開日:2023-05-24
# チャットボットはプライバシーに敏感なアプリケーションに適しているか? 入力レギュレーションとプロンプトによる衛生に関する研究

Are Chatbots Ready for Privacy-Sensitive Applications? An Investigation into Input Regurgitation and Prompt-Induced Sanitization ( http://arxiv.org/abs/2305.15008v1 )

ライセンス: Link先を確認
Aman Priyanshu, Supriti Vijay, Ayush Kumar, Rakshit Naidu and Fatemehsadat Mireshghallah(参考訳) LLMを利用したチャットボットは、医療、パーソナルアシスタント、業界の雇用決定などのアプリケーションで広く採用されている。 多くの場合、チャットボットは、インコンテキスト学習のためのサンプル、データベースから取得したレコード、会話の一部として、そのプロンプトに機密性の高い個人情報を入力される。 プロンプトで提供される情報は出力に直接表示され、機密情報があればプライバシーに悪影響を及ぼす可能性がある。 そこで本論文では,これらのモデルの推論における入力コピーと再生能力の理解と,HIPAAやGDPRなどの規則に従って直接このコピーを制限できるように指示する方法について,その内部知識に基づいて検討する。 より具体的には、ChatGPTが100人の候補者のカバーレターを要約するよう促されると、57.4%のケースで個人識別可能な情報(PII)の動詞を保持でき、この保持は、性同一性などの属性に基づいて、異なるサブグループ間で不均一であることがわかった。 次に、ChatGPTのプライバシ関連ポリシーと民営化メカニズムに対する認識を調査し、直接指示することで、準拠した出力を提供し、出力からPIIのかなりの排除を観察する。

LLM-powered chatbots are becoming widely adopted in applications such as healthcare, personal assistants, industry hiring decisions, etc. In many of these cases, chatbots are fed sensitive, personal information in their prompts, as samples for in-context learning, retrieved records from a database, or as part of the conversation. The information provided in the prompt could directly appear in the output, which might have privacy ramifications if there is sensitive information there. As such, in this paper, we aim to understand the input copying and regurgitation capabilities of these models during inference and how they can be directly instructed to limit this copying by complying with regulations such as HIPAA and GDPR, based on their internal knowledge of them. More specifically, we find that when ChatGPT is prompted to summarize cover letters of a 100 candidates, it would retain personally identifiable information (PII) verbatim in 57.4% of cases, and we find this retention to be non-uniform between different subgroups of people, based on attributes such as gender identity. We then probe ChatGPT's perception of privacy-related policies and privatization mechanisms by directly instructing it to provide compliant outputs and observe a significant omission of PII from output.
翻訳日:2023-05-25 16:55:51 公開日:2023-05-24
# プライバシポリシからの情報抽出への人間によるアプローチ

A Human-in-the-Loop Approach for Information Extraction from Privacy Policies under Data Scarcity ( http://arxiv.org/abs/2305.15006v1 )

ライセンス: Link先を確認
Michael Gebauer, Faraz Mashhur, Nicola Leschke, Elias Gr\"unewald, Frank Pallas(参考訳) プライバシポリシの機械可読表現は、幅広い新しいプライバシ向上技術、特に透明性向上技術(tets)の扉を開くものである。 このような表現を生成するには、文書化されたプライバシーポリシーから透明性情報を抽出する必要がある。 しかし、それぞれの手動アノテーションと抽出プロセスは手間がかかり、専門家の知識が必要となる。 完全な自動アノテーションに対するアプローチは、プライバシーポリシーの特定の領域における過度に高いエラー率のために、これまで成功していない。 結局、適切な注釈付きプライバシーポリシーの欠如と、各機械可読表現の欠如は、政策認識とデータ対象のインフォームドネスを促進する新しい技術アプローチの開発と確立を永続的に妨げている。 本研究では,ML生成提案と究極的には人間のアノテーション決定を統合したプライバシポリシアノテーションに対するHuman-in-the-Loopアプローチのプロトタイプシステムを提案する。 本稿では,プライバシポリシアノテーションの領域で一般的なデータ不足の制約に特化して,MLに基づく提案システムを提案する。 そこで本研究では,アノテーションプロセスの合理化を図り,ユーザに対して意味のある予測を行う。 さらに,本手法は,本手法が他の法律文書の抽出モデルよりも優れた性能を提供することを示すために,原型的実装を通じて評価する。

Machine-readable representations of privacy policies are door openers for a broad variety of novel privacy-enhancing and, in particular, transparency-enhancing technologies (TETs). In order to generate such representations, transparency information needs to be extracted from written privacy policies. However, respective manual annotation and extraction processes are laborious and require expert knowledge. Approaches for fully automated annotation, in turn, have so far not succeeded due to overly high error rates in the specific domain of privacy policies. In the end, a lack of properly annotated privacy policies and respective machine-readable representations persists and enduringly hinders the development and establishment of novel technical approaches fostering policy perception and data subject informedness. In this work, we present a prototype system for a `Human-in-the-Loop' approach to privacy policy annotation that integrates ML-generated suggestions and ultimately human annotation decisions. We propose an ML-based suggestion system specifically tailored to the constraint of data scarcity prevalent in the domain of privacy policy annotation. On this basis, we provide meaningful predictions to users thereby streamlining the annotation process. Additionally, we also evaluate our approach through a prototypical implementation to show that our ML-based extraction approach provides superior performance over other recently used extraction models for legal documents.
翻訳日:2023-05-25 16:55:28 公開日:2023-05-24
# 大規模言語モデルの時代における感性分析:現実性チェック

Sentiment Analysis in the Era of Large Language Models: A Reality Check ( http://arxiv.org/abs/2305.15005v1 )

ライセンス: Link先を確認
Wenxuan Zhang, Yue Deng, Bing Liu, Sinno Jialin Pan, Lidong Bing(参考訳) 感性分析(SA)は、自然言語処理における長年の研究分野である。 人間の感情や意見に豊富な洞察を与えることができ、学界と産業の両方からかなりの関心が寄せられている。 ChatGPTのような大規模言語モデル(LLM)の出現により、SA問題への雇用の可能性は大きくなっている。 しかし,既存のLLMが,感情分析タスクにどの程度活用できるかは明らかになっていない。 本稿では,従来の感情分類からアスペクトベースの感情分析,主観的テキストの多面的分析に至るまで,様々な感情分析タスクを行う上でのLLMの能力に関する包括的調査を提案する。 26のデータセットで13のタスクにまたがるパフォーマンスを評価し、ドメイン固有データセットでトレーニングされたsmall language model(slm)と比較する。 我々の研究は、より単純なタスクでllmが十分なパフォーマンスを示す一方で、より深い理解や構造化された感情情報を必要とする複雑なタスクでは遅れていることを示している。 しかし、LLMは、数ショットの学習環境でSLMよりも大幅に優れており、アノテーションリソースが制限されている場合の可能性を示している。 また,LLMのSA能力を評価する上での現在の評価実践の限界を強調し,より包括的で現実的な評価のために,新しいベンチマークである \textsc{SentiEval} を提案する。 調査中のデータとコードは、 \url{https://github.com/DAMO-NLP-SG/LLM-Sentiment}で公開されている。

Sentiment analysis (SA) has been a long-standing research area in natural language processing. It can offer rich insights into human sentiments and opinions and has thus seen considerable interest from both academia and industry. With the advent of large language models (LLMs) such as ChatGPT, there is a great potential for their employment on SA problems. However, the extent to which existing LLMs can be leveraged for different sentiment analysis tasks remains unclear. This paper aims to provide a comprehensive investigation into the capabilities of LLMs in performing various sentiment analysis tasks, from conventional sentiment classification to aspect-based sentiment analysis and multifaceted analysis of subjective texts. We evaluate performance across 13 tasks on 26 datasets and compare the results against small language models (SLMs) trained on domain-specific datasets. Our study reveals that while LLMs demonstrate satisfactory performance in simpler tasks, they lag behind in more complex tasks requiring deeper understanding or structured sentiment information. However, LLMs significantly outperform SLMs in few-shot learning settings, suggesting their potential when annotation resources are limited. We also highlight the limitations of current evaluation practices in assessing LLMs' SA abilities and propose a novel benchmark, \textsc{SentiEval}, for a more comprehensive and realistic evaluation. Data and code during our investigations are available at \url{https://github.com/DAMO-NLP-SG/LLM-Sentiment}.
翻訳日:2023-05-25 16:55:08 公開日:2023-05-24
# LLMDet:大規模言語モデル検出ツール

LLMDet: A Large Language Models Detection Tool ( http://arxiv.org/abs/2305.15004v1 )

ライセンス: Link先を確認
Kangxi Wu, Liang Pang, Huawei Shen, Xueqi Cheng and Tat-Seng Chua(参考訳) 生成言語モデルの進歩により、生成されたテキストは、流布度や多様性の観点から、高品質な人間によるテキストに著しく近づきつつある。 これは、テキストのソースを識別できる非常に実用的な検出ツールであり、好ましくはそれが発する言語モデルをピンポイントする。 しかし、既存の検出ツールは一般的に言語モデルへのアクセスを必要としており、マシン生成されたテキストと人間によるテキストの区別しかできない。 そこで本稿では,事前学習により得られたモデルの次の予測確率の事前情報を利用して,テキストのプロキシ・パープレキシティを算出できる,効率的でセキュアでスケーラブルな検出ツールであるllmdetを提案する。 その後、プロキシのパープレキシティによって測定されたモデルの自己透かし情報を用いて、テキストのソースを検出する。 提案手法は, 速度と安全性を確保しつつ, 特に, 97.97\%の認識精度を実現し, 印象的な検出性能を示した。 さらに,本ツールでは,テキストに責任を持つ大規模言語モデル(GPT-2, OPT, LLaMA, Vicuna...)を識別する有望な結果を示す。 コードと処理データを \url{https://github.com/trustedllm/llmdet} でリリースします。

With the advancement of generative language models, the generated text has come remarkably close to high-quality human-authored text in terms of fluency and diversity. This calls for a highly practical detection tool that can identify the source of text, preferably pinpointing the language model it originates from. However, existing detection tools typically require access to language models and can only differentiate between machine-generated and human-authored text, failing to meet the requirements of rapid detection and text tracing. Therefore, in this paper, we propose an efficient, secure, and scalable detection tool called LLMDet, which calculates the proxy perplexity of text by utilizing the prior information of the model's next-token probabilities, obtained through pre-training. Subsequently, we use the self-watermarking information of the model, as measured by proxy perplexity, to detect the source of the text. We found that our method demonstrates impressive detection performance while ensuring speed and security, particularly achieving a recognition accuracy of 97.97\% for human-authored text. Furthermore, our detection tool also shows promising results in identifying the large language model (e.g., GPT-2, OPT, LLaMA, Vicuna...) responsible for the text. We release the code and processed data at \url{https://github.com/TrustedLLM/LLMDet}.
翻訳日:2023-05-25 16:54:44 公開日:2023-05-24
# Dior-CVAE: 変分ダイアログ生成における拡散先行

Dior-CVAE: Diffusion Priors in Variational Dialog Generation ( http://arxiv.org/abs/2305.15025v1 )

ライセンス: Link先を確認
Tianyu Yang and Thy Thy Tran and Iryna Gurevych(参考訳) 条件変分オートエンコーダ(CVAE)は,最近,対話コンテキストと潜在的応答の関係を表す潜在変数を導入することで,多様な応答生成に使用されている。 しかし, CVAEモデルによる生成応答の多様性は, アイソトロピックなガウス事前仮定の単純化により制限される。 本稿では,拡散モデルによる情報伝達を前提とした階層型CVAEモデルであるDior-CVAEを提案する。 Dior-CVAEは、アテンション機構を使用し、それらをデコーダ層に注入する一連のレイヤワイド潜在変数を導出する。 後部崩壊を緩和するために, 潜伏注入時の記憶低下を提案する。 遅延変数の事前分布は拡散モデルによりパラメータ化され、多重モード分布を導入する。 概して、2つの人気のあるオープンドメインダイアログデータセットに関する実験は、ダイアログ応答生成における以前のトランスフォーマティブベースの変分ダイアログモデルよりも、このアプローチの利点を示している。 Dior-CVAEとすべてのベースラインをhttps://github.com/SkyFishMoon/Latent-Diffusion-Response-Generationで再現するためのコードを公開しています。

Conditional variational autoencoders (CVAEs) have been used recently for diverse response generation, by introducing latent variables to represent the relationship between a dialog context and its potential responses. However, the diversity of the generated responses brought by a CVAE model is limited due to the oversimplified assumption of the isotropic Gaussian prior. We propose, Dior-CVAE, a hierarchical CVAE model with an informative prior produced by a diffusion model. Dior-CVAE derives a series of layer-wise latent variables using attention mechanism and infusing them into decoder layers accordingly. We propose memory dropout in the latent infusion to alleviate posterior collapse. The prior distribution of the latent variables is parameterized by a diffusion model to introduce a multimodal distribution. Overall, experiments on two popular open-domain dialog datasets indicate the advantages of our approach over previous Transformer-based variational dialog models in dialog response generation. We publicly release the code for reproducing Dior-CVAE and all baselines at https://github.com/SkyFishMoon/Latent-Diffusion-Response-Generation.
翻訳日:2023-05-25 16:48:01 公開日:2023-05-24
# ChatAgri: 言語横断型農業用テキスト分類におけるChatGPTの可能性を探る

ChatAgri: Exploring Potentials of ChatGPT on Cross-linguistic Agricultural Text Classification ( http://arxiv.org/abs/2305.15024v1 )

ライセンス: Link先を確認
Biao Zhao, Weiqiang Jin, Javier Del Ser, Guang Yang(参考訳) 持続可能なスマート農業の時代、大量の農業ニュースがインターネットに投稿され、農業に関する膨大な知識が蓄積されている。 この文脈では、必要な農業知識に高い効率でアクセスするための効果的なテキスト分類手法を検討することが急務である。 事前学習された言語モデル(plm)に微調整戦略を用いる主流のディープラーニングアプローチは、過去数年間で著しいパフォーマンス向上を示している。 それにもかかわらず、これらの方法はまだ解決が難しい多くの欠点に直面している。 1.高価な労働集約アノテーションによる限られた農業訓練データ 2.貧弱なドメイン転送可能性、特に言語横断能力 本研究は、最近のChatGPT(GPT-3.5, GPT-4)がもたらす異常な成功に触発され、農業情報化分野に適用するChatGPTの能力と活用性を体系的に検討し、検討する。 .... (項参照) コードはgithub https://github.com/albert-jin/agricultural_textual_classification_chatgptで公開されている。

In the era of sustainable smart agriculture, a massive amount of agricultural news text is being posted on the Internet, in which massive agricultural knowledge has been accumulated. In this context, it is urgent to explore effective text classification techniques for users to access the required agricultural knowledge with high efficiency. Mainstream deep learning approaches employing fine-tuning strategies on pre-trained language models (PLMs), have demonstrated remarkable performance gains over the past few years. Nonetheless, these methods still face many drawbacks that are complex to solve, including: 1. Limited agricultural training data due to the expensive-cost and labour-intensive annotation; 2. Poor domain transferability, especially of cross-linguistic ability; 3. Complex and expensive large models deployment.Inspired by the extraordinary success brought by the recent ChatGPT (e.g. GPT-3.5, GPT-4), in this work, we systematically investigate and explore the capability and utilization of ChatGPT applying to the agricultural informatization field. ....(shown in article).... Code has been released on Github https://github.com/albert-jin/agricultural_textual_classification_ChatGPT.
翻訳日:2023-05-25 16:47:34 公開日:2023-05-24
# Cheap and Quick: 大規模言語モデルのための効率的な視覚言語指導チューニング

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models ( http://arxiv.org/abs/2305.15023v1 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, Rongrong Ji(参考訳) 近年、人工知能の次のマイルストーンと見なされる視覚言語(vl)学習など、大規模言語モデル(llm)のマルチモーダル能力の拡張への関心が高まっている。 しかし、既存のソリューションは非常に高価であり、過剰なパラメータを最適化するだけでなく、VL命令のチューニングの前にも大規模な事前学習が必要である。 本稿では,Mixture-of-Modality Adaptation (MMA)と呼ばれる,LLMの有効なVL適応のための,新規で安価なソリューションを提案する。 画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAはLLMとVLタスクのギャップを埋めるために、軽量モジュール(アダプタ)を採用する。 一方、MMAは、LLMが自然言語理解能力を損なうことなく、シングルモーダル命令とマルチモーダル命令の自動シフトを実現するためのルーティングアルゴリズムも備えている。 mmaを検証するために、llamaと呼ばれる最近のllmに適用し、これをlavinという大きな視覚言語指示モデルと呼ぶ。 mmaとlavinを検証するために,マルチモーダル科学質問応答とマルチモーダル対話という2つの設定で広範な実験を行った。 実験結果は,既存のマルチモーダルLLMよりもLaVINの競争性能と訓練効率が優れているだけでなく,汎用チャットボットとしての可能性も確認した。 さらに重要なことに、LaVINの実際の支出は極めて安価であり、例えば3.8Mのトレーニング可能なパラメータを持つ訓練時間は1.4時間に過ぎず、MMAの有効性を大きく確認している。 私たちのプロジェクトはhttps://luogen1996.github.io/lavinでリリースしています。

Recently, growing interest has been aroused in extending the multimodal capability of large language models (LLMs), e.g., vision-language (VL) learning, which is regarded as the next milestone of artificial general intelligence. However, existing solutions are prohibitively expensive, which not only need to optimize excessive parameters, but also require another large-scale pre-training before VL instruction tuning. In this paper, we propose a novel and affordable solution for the effective VL adaption of LLMs, called Mixture-of-Modality Adaptation (MMA). Instead of using large neural networks to connect the image encoder and LLM, MMA adopts lightweight modules, i.e., adapters, to bridge the gap between LLMs and VL tasks, which also enables the joint optimization of the image and language models. Meanwhile, MMA is also equipped with a routing algorithm to help LLMs achieve an automatic shift between single- and multi-modal instructions without compromising their ability of natural language understanding. To validate MMA, we apply it to a recent LLM called LLaMA and term this formed large vision-language instructed model as LaVIN. To validate MMA and LaVIN, we conduct extensive experiments under two setups, namely multimodal science question answering and multimodal dialogue. The experimental results not only demonstrate the competitive performance and the superior training efficiency of LaVIN than existing multimodal LLMs, but also confirm its great potential as a general-purpose chatbot. More importantly, the actual expenditure of LaVIN is extremely cheap, e.g., only 1.4 training hours with 3.8M trainable parameters, greatly confirming the effectiveness of MMA. Our project is released at https://luogen1996.github.io/lavin.
翻訳日:2023-05-25 16:47:08 公開日:2023-05-24
# dot製品による階層型クラスタリングによる隠れ木構造回復

Hierarchical clustering with dot products recovers hidden tree structure ( http://arxiv.org/abs/2305.15022v1 )

ライセンス: Link先を確認
Annie Gray, Alexander Modell, Patrick Rubin-Delanchy, Nick Whiteley(参考訳) 本稿では,高度に確立された凝集クラスタリングアルゴリズムについて,階層構造の復元に焦点をあてた新しい視点を提案する。 我々は、例えば最小距離またはクラスタ内分散ではなく、最大平均ドット積でクラスタをマージする、標準アルゴリズムの単純な変種を推奨する。 このアルゴリズムによって出力される木は、汎用的確率的グラフィカルモデルの下で、データ内の生成階層構造のボナfide推定を提供する。 重要な技術的革新は、このモデルにおける階層的情報がどのようにしてデータから復元できる木幾何に変換されるかを理解し、サンプルサイズとデータ次元を同時に増やすことの利点を特徴付けることである。 UPGMAやWardの手法,HDBSCANといった既存手法よりも,実データの方が優れた木回復性能を示す。

In this paper we offer a new perspective on the well established agglomerative clustering algorithm, focusing on recovery of hierarchical structure. We recommend a simple variant of the standard algorithm, in which clusters are merged by maximum average dot product and not, for example, by minimum distance or within-cluster variance. We demonstrate that the tree output by this algorithm provides a bona fide estimate of generative hierarchical structure in data, under a generic probabilistic graphical model. The key technical innovations are to understand how hierarchical information in this model translates into tree geometry which can be recovered from data, and to characterise the benefits of simultaneously growing sample size and data dimension. We demonstrate superior tree recovery performance with real data over existing approaches such as UPGMA, Ward's method, and HDBSCAN.
翻訳日:2023-05-25 16:46:23 公開日:2023-05-24
# embodiedgpt: 思考の具体的連鎖による視覚言語事前学習

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought ( http://arxiv.org/abs/2305.15021v1 )

ライセンス: Link先を確認
Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, Ping Luo(参考訳) Embodied AIはロボット工学における重要なフロンティアであり、ロボットが物理的な環境で長時間の作業を達成するためのアクションシーケンスを計画し実行することができる。 本稿では,エンボディaiのためのエンドツーエンドのマルチモーダル基盤モデルであるembodiedgptを紹介し,マルチモーダル理解と実行能力を備えたエンボディエージェントの能力について述べる。 これを達成するために、私たちは以下の努力をしました。 i)EgoCOTと呼ばれる大規模実施計画データセットを構築した。 データセットは、Ego4Dデータセットから慎重に選択されたビデオと、それに対応する高品質な言語命令で構成されている。 具体的には、効果的な実施計画のための「思考の連鎖」モードによる一連のサブゴールを生成する。 (ii)プレフィックスチューニングにより,7b大言語モデル(llm)をエゴコットデータセットに適用することにより,高品質な計画生成のための効果的な訓練手法を提案する。 3)LLM生成計画クエリからタスク関連特徴を抽出し,高レベル計画と低レベル制御のクローズドループを形成するパラダイムを導入する。 広汎な実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。 特に、EmbodiedGPTは、より効果的な特徴を抽出することにより、実施制御タスクの成功率を大幅に向上させる。 また、Franka Kitchenベンチマークでは1.6倍、Meta-Worldベンチマークでは1.3倍、Ego4DデータセットではBLIP-2ベースラインが微調整されている。

Embodied AI is a crucial frontier in robotics, capable of planning and executing action sequences for robots to accomplish long-horizon tasks in physical environments. In this work, we introduce EmbodiedGPT, an end-to-end multi-modal foundation model for embodied AI, empowering embodied agents with multi-modal understanding and execution capabilities. To achieve this, we have made the following efforts: (i) We craft a large-scale embodied planning dataset, termed EgoCOT. The dataset consists of carefully selected videos from the Ego4D dataset, along with corresponding high-quality language instructions. Specifically, we generate a sequence of sub-goals with the "Chain of Thoughts" mode for effective embodied planning. (ii) We introduce an efficient training approach to EmbodiedGPT for high-quality plan generation, by adapting a 7B large language model (LLM) to the EgoCOT dataset via prefix tuning. (iii) We introduce a paradigm for extracting task-related features from LLM-generated planning queries to form a closed loop between high-level planning and low-level control. Extensive experiments show the effectiveness of EmbodiedGPT on embodied tasks, including embodied planning, embodied control, visual captioning, and visual question answering. Notably, EmbodiedGPT significantly enhances the success rate of the embodied control task by extracting more effective features. It has achieved a remarkable 1.6 times increase in success rate on the Franka Kitchen benchmark and a 1.3 times increase on the Meta-World benchmark, compared to the BLIP-2 baseline fine-tuned with the Ego4D dataset.
翻訳日:2023-05-25 16:46:08 公開日:2023-05-24
# 語彙トリミングによる効率的な多言語モデル圧縮

An Efficient Multilingual Language Model Compression through Vocabulary Trimming ( http://arxiv.org/abs/2305.15020v1 )

ライセンス: Link先を確認
Asahi Ushio and Yi Zhou and Jose Camacho-Collados(参考訳) 多言語言語モデル(LM)は、特に非英語言語において、NLPにおいて強力なツールとなっている。 それでも、多言語LMのモデルパラメータは、異なる言語におけるトークンをカバーする語彙の埋め込み行列が大きいため、大きなままである。 それとは対照的に、単言語lmsは言語固有の語彙のみを持つターゲット言語で訓練することができるが、高品質なlmをスクラッチから達成するには、大きな予算と信頼性の高いコーパスが必要となる。 本稿では,無関係なトークンを語彙から削除することにより,多言語lm語彙を対象言語に還元する手法である語彙トリミング(vt)を提案する。 理論上、VTは既存の多言語LMを圧縮して、多言語LMでカバーされた任意の言語で単言語LMを構築することができる。 実験では,VTは多言語LMの本来の性能を維持できるが,そのサイズは従来の多言語LMよりも小さい(一般的には原語彙の約50%は十分である)。 7言語で広く使われている4つの多言語LMのうち、4つのNLPタスク(2つの生成タスクと2つの分類タスク)で評価を行う。 最後に,この手法は単言語と多言語の両方において,個別に再学習する必要がなく,かつ潜在的に有害な社会バイアスを制限することなく,小型の単言語モデルとして維持できることを示す。

Multilingual language model (LM) have become a powerful tool in NLP especially for non-English languages. Nevertheless, model parameters of multilingual LMs remain large due to the larger embedding matrix of the vocabulary covering tokens in different languages. On the contrary, monolingual LMs can be trained in a target language with the language-specific vocabulary only, but this requires a large budget and availability of reliable corpora to achieve a high-quality LM from scratch. In this paper, we propose vocabulary-trimming (VT), a method to reduce a multilingual LM vocabulary to a target language by deleting irrelevant tokens from its vocabulary. In theory, VT can compress any existing multilingual LM to build monolingual LMs in any language covered by the multilingual LM. In our experiments, we show that VT can retain the original performance of the multilingual LM, while being smaller in size (in general around 50% of the original vocabulary size is enough) than the original multilingual LM. The evaluation is performed over four NLP tasks (two generative and two classification tasks) among four widely used multilingual LMs in seven languages. Finally, we show that this methodology can keep the best of both monolingual and multilingual worlds by keeping a small size as monolingual models without the need for specifically retraining them, and even limiting potentially harmful social biases.
翻訳日:2023-05-25 16:45:40 公開日:2023-05-24
# n$-qubit control--$zx$ gate を $n$-qubit toffoli gate に変更

Modifying $n$-qubit controlled-$ZX$ gate to be $n$-qubit Toffoli gate ( http://arxiv.org/abs/2305.15018v1 )

ライセンス: Link先を確認
Jian Leng, Fan Yang, Xiang-Bin Wang(参考訳) 制御された [phys. rev. a, 87, 062318 (2013)] のzx$ゲートの分解は、アンシラのない8n-20$の浅い回路深度を持つ。 ここでは、この分解を$n$-qubit Toffoli ゲートを 2n-3$ 追加のシングルキュービットゲートで分解する。 回路深さは変化せず、アンシラは不要である。 分解後の回路は、現在の物理システムで容易に構築可能であることを示す。

The decomposition for controlled-$ZX$ gate in [Phys. Rev. A, 87, 062318 (2013)] has a shallow circuit depth $8n-20$ with no ancilla. Here we modify this decomposition to decompose $n$-qubit Toffoli gate with only $2n-3$ additional single-qubit gates. The circuit depth is unchanged and no ancilla is needed. We explicitly show that the circuit after decomposition can be easily constructed in present physical systems.
翻訳日:2023-05-25 16:45:15 公開日:2023-05-24
# Calc-X:シンボリックシステムとの相互作用によるアリーメティック・チェーン・オブ・ソート・データセットの強化

Calc-X: Enriching Arithmetical Chain-of-Thoughts Datasets by Interaction with Symbolic Systems ( http://arxiv.org/abs/2305.15017v1 )

ライセンス: Link先を確認
Marek Kadl\v{c}\'ik, Michal \v{S}tef\'anik(参考訳) 本報告では,計算機などの非パラメトリックなコンポーネントの統合による算術的推論を必要とするチェーン・オブ・シークレット・データセットの強化について概説する。 我々は、GSM8K、Ape210K、AQuA-RAT、MathQAなどの重要な関連するデータセットを分析し、半構造化鎖を扱うのに適した、機械処理可能なHTMLライクなフォーマットを提案する。 データセットをこの統一形式に変換することで、大規模言語モデルと記号システムの効果的な統合を可能にし、算術的推論タスクをより効率的に扱えるようにします。

This report overviews our ongoing work in enriching chain-of-thoughts datasets requiring arithmetical reasoning with the integration of non-parametric components, such as a calculator. We conduct an analysis of prominent relevant datasets such as GSM8K, Ape210K, AQuA-RAT, and MathQA and propose a machine-processable HTML-like format specifically tailored for working with semi-structured chains. By converting the datasets into this unified format, we enable the effective integration of large language models and symbolic systems, empowering them to tackle arithmetical reasoning tasks more efficiently.
翻訳日:2023-05-25 16:45:01 公開日:2023-05-24
# 教師なしによるデータセットのクラス分離可能性推定法とllms微調整への応用

An Unsupervised Method for Estimating Class Separability of Datasets with Application to LLMs Fine-Tuning ( http://arxiv.org/abs/2305.15016v1 )

ライセンス: Link先を確認
Najah Ghalyan, Kostis Gourgoulias, Yash Satsangi, Sean Moran, Maxime Labonne, Joseph Sabelja(参考訳) 本稿では,データ多様体の位相特性を利用してラベルを必要とせずにデータのクラス分離性を推定する教師なし手法を提案する。 提案手法により推定されたクラス分離性と,FDR(Fisher Discriminant Ratio)などの教師付き指標とラベルを必要とする分類器の相互検証との間には,明確な相関関係と整合性を示す。 これにより、半教師付き学習やトランスダクティブ学習のようなラベル付きデータとラベルなしデータの両方から学習することを目的とした学習パラダイムの実装が可能になる。 これは、ラベル付きデータと学習プロセスを強化するために使用できる比較的大きなラベル付きデータセットがある場合に特に有用です。 組込み空間多様体のクラス分離性を教師なし設定で監視することにより,自動停止基準付き言語モデルの微調整を実現する。 提案手法は,FDRによって計算されたクラス分離性とクラス分離性との間に明確な整合性を示す合成データ上で検証された。 この手法は、パブリックデータと内部データの両方に実装されている。 その結果、提案手法は、ラベルを必要とせずに、言語モデルの微調整をいつ停止または継続するかの決定を効果的に支援することができ、また、埋め込み多様体のクラス分離可能性の定量化により、最大分類性能を達成することが期待される。

This paper proposes an unsupervised method that leverages topological characteristics of data manifolds to estimate class separability of the data without requiring labels. Experiments conducted in this paper on several datasets demonstrate a clear correlation and consistency between the class separability estimated by the proposed method with supervised metrics like Fisher Discriminant Ratio~(FDR) and cross-validation of a classifier, which both require labels. This can enable implementing learning paradigms aimed at learning from both labeled and unlabeled data, like semi-supervised and transductive learning. This would be particularly useful when we have limited labeled data and a relatively large unlabeled dataset that can be used to enhance the learning process. The proposed method is implemented for language model fine-tuning with automated stopping criterion by monitoring class separability of the embedding-space manifold in an unsupervised setting. The proposed methodology has been first validated on synthetic data, where the results show a clear consistency between class separability estimated by the proposed method and class separability computed by FDR. The method has been also implemented on both public and internal data. The results show that the proposed method can effectively aid -- without the need for labels -- a decision on when to stop or continue the fine-tuning of a language model and which fine-tuning iteration is expected to achieve a maximum classification performance through quantification of the class separability of the embedding manifold.
翻訳日:2023-05-25 16:44:49 公開日:2023-05-24
# VQAにおける忠実で可視な視界計測

Measuring Faithful and Plausible Visual Grounding in VQA ( http://arxiv.org/abs/2305.15015v1 )

ライセンス: Link先を確認
Daniel Reich, Felix Putze, Tanja Schultz(参考訳) VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)のメトリクスは主に、与えられた質問に対する回答を推測する際の、画像の関連部分への依存度を測定することを目的としている。 VGの欠如は最先端のVQAシステムに共通する問題であり、無関係な画像部品に過度に依存したり、視覚的モダリティを完全に無視したりすることができる。 VQAモデルの推論能力はいくつかの定性的な図によって説明されることが多いが、ほとんどのシステムはVG特性について定量的に評価されていない。 我々は、システムのVGを有意に測定する簡単な計算基準は、この欠点を解消し、モデル評価と分析にもう1つの価値ある次元を加えるのに役立つと考えている。 この目的のために,モデルが成立するかどうかをキャプチャする新しいVGメトリックを提案する。 a)シーン内の質問対象を特定すること,及び b) 実際に,その回答を生成する際に,当該対象物に含まれる情報に依存する。すなわち,その視覚的接地が「不利」かつ「嘆かわしい」ものである場合 FPVG(Faithful and Plausible Visual Grounding)と呼ばれる我々のメトリクスは、ほとんどのVQAモデルの設計を簡単に決定できる。 FPVGの詳細な説明と,様々なVQAアーキテクチャにまたがる参照システムの評価を行う。 GQAデータセットのメトリック計算をサポートするコードはGitHubで公開されている。

Metrics for Visual Grounding (VG) in Visual Question Answering (VQA) systems primarily aim to measure a system's reliance on relevant parts of the image when inferring an answer to the given question. Lack of VG has been a common problem among state-of-the-art VQA systems and can manifest in over-reliance on irrelevant image parts or a disregard for the visual modality entirely. Although inference capabilities of VQA models are often illustrated by a few qualitative illustrations, most systems are not quantitatively assessed for their VG properties. We believe, an easily calculated criterion for meaningfully measuring a system's VG can help remedy this shortcoming, as well as add another valuable dimension to model evaluations and analysis. To this end, we propose a new VG metric that captures if a model a) identifies question-relevant objects in the scene, and b) actually relies on the information contained in the relevant objects when producing its answer, i.e., if its visual grounding is both "faithful" and "plausible". Our metric, called "Faithful and Plausible Visual Grounding" (FPVG), is straightforward to determine for most VQA model designs. We give a detailed description of FPVG and evaluate several reference systems spanning various VQA architectures. Code to support the metric calculations on the GQA data set is available on GitHub.
翻訳日:2023-05-25 16:44:23 公開日:2023-05-24
# 大規模言語モデルによる忠実な合成データの生成:計算社会科学を事例として

Generating Faithful Synthetic Data with Large Language Models: A Case Study in Computational Social Science ( http://arxiv.org/abs/2305.15041v1 )

ライセンス: Link先を確認
Veniamin Veselovsky, Manoel Horta Ribeiro, Akhil Arora, Martin Josifoski, Ashton Anderson, Robert West(参考訳) 大規模言語モデル(llm)は、合成データ生成を民主化し、nlpタスクの幅を広げ、単純化する可能性を秘めている。 ここでは、合成データ生成における幅広い問題に取り組み、その生成分布は、研究者が関心を持つ実世界のデータ分布とは異なることが多い(言い換えれば、それは偽りである)。 サーカズム検出に関するケーススタディでは, 接地, フィルタリング, 分類に基づく生成という合成データの忠実性を高めるための3つの戦略について検討した。 これらの戦略を,生成した合成データを用いて学習した分類器の性能を用いて評価する。 3つの戦略はいずれも分類器の性能を改善するが、手元にあるタスクに最適であることがわかった。 合成データ生成は、NLP研究において絶え間なく増加する役割を担っているため、我々はこの研究が実用性向上の足掛かりになることを期待している。 本稿では,特定のタスクに対して高い(er)忠実性を持つ合成データを生成する方法を提案する。

Large Language Models (LLMs) have democratized synthetic data generation, which in turn has the potential to simplify and broaden a wide gamut of NLP tasks. Here, we tackle a pervasive problem in synthetic data generation: its generative distribution often differs from the distribution of real-world data researchers care about (in other words, it is unfaithful). In a case study on sarcasm detection, we study three strategies to increase the faithfulness of synthetic data: grounding, filtering, and taxonomy-based generation. We evaluate these strategies using the performance of classifiers trained with generated synthetic data on real-world data. While all three strategies improve the performance of classifiers, we find that grounding works best for the task at hand. As synthetic data generation plays an ever-increasing role in NLP research, we expect this work to be a stepping stone in improving its utility. We conclude this paper with some recommendations on how to generate high(er)-fidelity synthetic data for specific tasks.
翻訳日:2023-05-25 16:38:21 公開日:2023-05-24
# 自然言語生成のためのアクティブラーニング

Active Learning for Natural Language Generation ( http://arxiv.org/abs/2305.15040v1 )

ライセンス: Link先を確認
Yotam Perlitz and Ariel Gera, Michal Shmueli-Scheuer, Dafna Sheinwald, Noam Slonim, Liat Ein-Dor(参考訳) テキスト生成の分野は、手動アノテーションに関わる非常に高価で時間のかかるプロセスのため、ラベル付きデータの深刻な不足に苦しむ。 この問題に対処するための自然なアプローチは、最も有意義な例を選択的に選択することによって、アノテーション効率を改善するための有名な機械学習テクニックであるactive learning (al)である。 しかし、ALはテキスト分類の文脈でよく研究されてきたが、テキスト生成への応用はほとんど未調査のままである。 本稿では,多種多様なタスク群と多元的al戦略を考慮したテキスト生成のためのアクティブラーニングに関する最初の体系的研究を行う。 以上の結果から,既存のal戦略は,分類の成功にもかかわらず,テキスト生成シナリオにはほとんど効果がなく,ランダムなサンプル選択のベースラインを一貫して超えていないことが示唆された。 分類シナリオと生成シナリオの顕著な違いを浮き彫りにして,既存のal戦略の選択行動を分析した。 本研究の目的は,ALをNLGタスクに適用するための新しいアプローチを探ることである。

The field of text generation suffers from a severe shortage of labeled data due to the extremely expensive and time consuming process involved in manual annotation. A natural approach for coping with this problem is active learning (AL), a well-known machine learning technique for improving annotation efficiency by selectively choosing the most informative examples to label. However, while AL has been well-researched in the context of text classification, its application to text generation remained largely unexplored. In this paper, we present a first systematic study of active learning for text generation, considering a diverse set of tasks and multiple leading AL strategies. Our results indicate that existing AL strategies, despite their success in classification, are largely ineffective for the text generation scenario, and fail to consistently surpass the baseline of random example selection. We highlight some notable differences between the classification and generation scenarios, and analyze the selection behaviors of existing AL strategies. Our findings motivate exploring novel approaches for applying AL to NLG tasks.
翻訳日:2023-05-25 16:38:04 公開日:2023-05-24
# GPT-4は良いデータアナリストか?

Is GPT-4 a Good Data Analyst? ( http://arxiv.org/abs/2305.15038v1 )

ライセンス: Link先を確認
Liying Cheng, Xingxuan Li, Lidong Bing(参考訳) 大規模言語モデル(LLM)は、コンテキスト理解、コード生成、言語生成、データストーリテリングなど、多くのドメインやタスクにおいて、その強力な能力を実証しているため、多くのデータアナリストは、ジョブがAIに置き換えられることを懸念する可能性がある。 この論争を巻き起こす話題は世間の注目を集めている。 しかし、我々はまだ結論を出すことなく、異なる意見の段階にある。 本研究は,「GPT-4は優れたデータ分析者か?」という研究課題を提起し,本研究の目的を,直接比較研究を行うことである。 詳細は、GPT-4をデータアナリストとして、幅広い領域のデータベースでエンドツーエンドのデータ分析を行う。 本稿では,gpt-4のプロンプトを慎重に設計し,課題に取り組むための枠組みを提案する。 また,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。 実験の結果, GPT-4はヒトに匹敵する性能を示した。 我々はまた、GPT-4がデータアナリストを置き換えられるという結論に達する前に、さらなる研究に光を当てるために、我々の結果に関する詳細な議論も行っている。

As large language models (LLMs) have demonstrated their powerful capabilities in plenty of domains and tasks, including context understanding, code generation, language generation, data storytelling, etc., many data analysts may raise concerns if their jobs will be replaced by AI. This controversial topic has drawn a lot of attention in public. However, we are still at a stage of divergent opinions without any definitive conclusion. Motivated by this, we raise the research question of "is GPT-4 a good data analyst?" in this work and aim to answer it by conducting head-to-head comparative studies. In detail, we regard GPT-4 as a data analyst to perform end-to-end data analysis with databases from a wide range of domains. We propose a framework to tackle the problems by carefully designing the prompts for GPT-4 to conduct experiments. We also design several task-specific evaluation metrics to systematically compare the performance between several professional human data analysts and GPT-4. Experimental results show that GPT-4 can achieve comparable performance to humans. We also provide in-depth discussions about our results to shed light on further studies before we reach the conclusion that GPT-4 can replace data analysts.
翻訳日:2023-05-25 16:37:48 公開日:2023-05-24
# 自己ICL:自己生成デモによるゼロショットインコンテキスト学習

Self-ICL: Zero-Shot In-Context Learning with Self-Generated Demonstrations ( http://arxiv.org/abs/2305.15035v1 )

ライセンス: Link先を確認
Wei-Lin Chen, Cheng-Kuang Wu, Hsin-Hsi Chen(参考訳) 大規模言語モデル(LM)は、いくつかのインプット・アウトプット・デモを行うことで、ターゲットタスクに適応する優れたコンテキスト内学習(ICL)能力を示した。 iclの改善に向けて、既存のトレーニングコーパスから代表的なデモンストレーションを選択するための様々な方法が提案されている。 しかし、このような設定は実世界のプラクティスとは一致せず、エンドユーザは通常、デモンストレーションプールにアクセスせずにlmsをクエリする。 lmsのゼロショット能力が過小評価されているという証拠に触発され、デモの役割は主にモデル固有の機能を明らかにするためであり、ゼロショットiclのためのシンプルなフレームワークであるself-iclを導入する。 テスト入力が与えられたら、Self-ICLはまずモデルに擬似入力を生成するよう促す。 次に、ゼロショットプロンプトにより擬似入力の擬似ラベルを予測する。 最後に、疑似入力ラベル対からの擬似デーモンストレーションを構築し、テスト入力に対してiclを実行する。 BIG-Bench Hardの評価では、Self-ICLはゼロショットおよびゼロショットチェーンのベースラインを、ヘッド・ツー・ヘッドとオールタスク平均のパフォーマンスで着実に上回っている。 本研究は,ゼロショット性能向上に向けて,LMの本質的な能力をブートストラップする可能性を示唆している。

Large language models (LMs) have exhibited superior in-context learning (ICL) ability to adopt to target tasks by prompting with a few input-output demonstrations. Towards better ICL, different methods are proposed to select representative demonstrations from existing training corpora. However, such a setting is not aligned with real-world practices, as end-users usually query LMs without accesses to demonstration pools. Inspired by evidence suggesting LMs' zero-shot capabilities are underrated, and the role of demonstrations are primarily for exposing models' intrinsic functionalities, we introduce Self-ICL, a simple framework for zero-shot ICL. Given a test input, Self-ICL first prompts the model to generate pseudo-inputs. Next, the model predicts pseudo-labels for the pseudo-inputs via zero-shot prompting. Finally, we construct pseudo-demonstrations from pseudo-input-label pairs, and perform ICL for the test input. Evaluation on BIG-Bench Hard shows Self-ICL steadily surpasses zero-shot and zero-shot chain-of-thought baselines on head-to-head and all-task average performance. Our findings suggest the possibility to bootstrap LMs' intrinsic capabilities towards better zero-shot performance.
翻訳日:2023-05-25 16:37:27 公開日:2023-05-24
# SmartTrim: 効率的なビジョンランゲージモデルのための適応トークンとパラメータプランニング

SmartTrim: Adaptive Tokens and Parameters Pruning for Efficient Vision-Language Models ( http://arxiv.org/abs/2305.15033v1 )

ライセンス: Link先を確認
Zekun Wang, Jingchang Chen, Wangchunshu Zhou, Ming Liu, Bing Qin(参考訳) 様々な視覚言語タスクにおける顕著な性能にもかかわらず、トランスフォーマーベースの事前訓練された視覚言語モデル(VLM)は、長い入力と多数のパラメータから生じる効率の問題に悩まされ、現実の応用が制限されている。 しかし、ほとんどのサンプルでは巨大な計算は冗長であり、冗長性の程度と各コンポーネントはタスクや入力インスタンスによって大きく異なる。 そこで本研究では,VLMのための適応加速度法SmartTrimを提案する。 具体的には、SmartTrimは軽量トリミングモジュールをバックボーンに組み込んで、追加の事前トレーニングやデータ拡張を必要とせずに、冗長な入力とパラメータでタスク固有のプルーニングを実行する。 視覚表現とテキスト表現はvlmで相互補完するので,クロスモーダルなインタラクション情報を利用して冗長な部分を特定するためのより重要な意味的ガイダンスを提供する。 一方,本研究では,トリミングモデルとフル容量モデルとの整合性を奨励し,さらなる性能向上をもたらす自己蒸留戦略を導入する。 実験結果から,SmartTrimは視覚言語タスクにおいて,VLMの計算オーバーヘッド(2~3倍)を大幅に低減し,その性能は1~2%しか低下しないことがわかった。 従来のアクセラレーション手法と比較して、SmartTrimはより良い効率と性能のトレードオフを実現し、リソース制約のあるシナリオに適用する可能性を示している。

Despite achieving remarkable performance on various vision-language tasks, Transformer-based pretrained vision-language models (VLMs) still suffer from efficiency issues arising from long inputs and numerous parameters, limiting their real-world applications. However, the huge computation is redundant for most samples and the degree of redundancy and the respective components vary significantly depending on tasks and input instances. In this work, we propose an adaptive acceleration method SmartTrim for VLMs, which adjusts the inference overhead based on the complexity of instances. Specifically, SmartTrim incorporates lightweight trimming modules into the backbone to perform task-specific pruning on redundant inputs and parameters, without the need for additional pre-training or data augmentation. Since visual and textual representations complement each other in VLMs, we propose to leverage cross-modal interaction information to provide more critical semantic guidance for identifying redundant parts. Meanwhile, we introduce a self-distillation strategy that encourages the trimmed model to be consistent with the full-capacity model, which yields further performance gains. Experimental results demonstrate that SmartTrim significantly reduces the computation overhead (2-3 times) of various VLMs with comparable performance (only a 1-2% degradation) on various vision-language tasks. Compared to previous acceleration methods, SmartTrim attains a better efficiency-performance trade-off, demonstrating great potential for application in resource-constrained scenarios.
翻訳日:2023-05-25 16:37:06 公開日:2023-05-24
# BERTの蒸留方法:重量初期化および蒸留対象物の影響に関する実証的研究

How to Distill your BERT: An Empirical Study on the Impact of Weight Initialisation and Distillation Objectives ( http://arxiv.org/abs/2305.15032v1 )

ライセンス: Link先を確認
Xinpeng Wang, Leonie Weissweiler, Hinrich Sch\"utze, Barbara Plank(参考訳) 近年,様々な中間層蒸留(ILD)の目的が,知識蒸留(KD)によるBERTモデルの圧縮を改善することが示されている。 しかし、タスク固有の設定とタスクに依存しない設定の両方において、目標の包括的な評価は不足している。 私たちの知る限りでは、両方の環境で蒸留目標を総合的に評価するのはこれが初めてです。 注意伝達は全体として最高のパフォーマンスを示す。 また,教師層から生徒を初期化する際の層選択の影響について検討し,課題特異的蒸留における性能に有意な影響を見出した。 バニラKDと隠れ状態移動では、教師の低い層での初期化は、特にQNLI(精度で17.8の絶対的な変化)のタスクにおいて、より高い層よりも大幅に改善される。 注意伝達は、異なる初期設定の下で一貫して振る舞う。 我々は、さらなる研究のために、効率的なトランスフォーマーベースのモデル蒸留フレームワークとしてコードをリリースします。

Recently, various intermediate layer distillation (ILD) objectives have been shown to improve compression of BERT models via Knowledge Distillation (KD). However, a comprehensive evaluation of the objectives in both task-specific and task-agnostic settings is lacking. To the best of our knowledge, this is the first work comprehensively evaluating distillation objectives in both settings. We show that attention transfer gives the best performance overall. We also study the impact of layer choice when initializing the student from the teacher layers, finding a significant impact on the performance in task-specific distillation. For vanilla KD and hidden states transfer, initialisation with lower layers of the teacher gives a considerable improvement over higher layers, especially on the task of QNLI (up to an absolute percentage change of 17.8 in accuracy). Attention transfer behaves consistently under different initialisation settings. We release our code as an efficient transformer-based model distillation framework for further studies.
翻訳日:2023-05-25 16:36:39 公開日:2023-05-24
# 低光度画像強調による画像圧縮の協調最適化

Jointly Optimizing Image Compression with Low-light Image Enhancement ( http://arxiv.org/abs/2305.15030v1 )

ライセンス: Link先を確認
Shilv Cai, Xu Zou, Liqun Chen, Luxin Yan, Sheng Zhong(参考訳) 学習に基づく画像圧縮手法は大きな進歩を遂げた。 それらのほとんどが汎用自然画像のために設計されている。 実際、低照度画像は環境への影響や照明不足や露光時間の制限といった技術的制約のために頻繁に発生する。 %) , 汎用画像圧縮アルゴリズムが低光度画像を圧縮すると, 有用なディテール情報が失われ, 画像エンハンスメントが劇的に減少する。 低照度画像が既存の一般的な画像圧縮手法によって圧縮されると、有用な情報(テクスチャの詳細など)が失われ、低照度画像の強調が劇的に低下する。 低照度画像の圧縮率と高精細化性能を同時に達成するために,低照度画像強調の協調最適化を伴う新しい画像圧縮フレームワークを提案する。 我々は、主エンハンスメント分岐と信号-雑音比~(SNR)対応分岐を含む、計算コストの低いエンドツーエンドトレーニング可能な2分岐アーキテクチャを設計する。 実験の結果,提案手法は低光度画像の逐次解である ``compress before enhance" や ``enhance before compress" よりも大幅に改善できることがわかった。 ソースコードは補足資料に含まれている。

Learning-based image compression methods have made great progress. Most of them are designed for generic natural images. In fact, low-light images frequently occur due to unavoidable environmental influences or technical limitations, such as insufficient lighting or limited exposure time. %When general-purpose image compression algorithms compress low-light images, useful detail information is lost, resulting in a dramatic decrease in image enhancement. Once low-light images are compressed by existing general image compression approaches, useful information(e.g., texture details) would be lost resulting in a dramatic performance decrease in low-light image enhancement. To simultaneously achieve a higher compression rate and better enhancement performance for low-light images, we propose a novel image compression framework with joint optimization of low-light image enhancement. We design an end-to-end trainable two-branch architecture with lower computational cost, which includes the main enhancement branch and the signal-to-noise ratio~(SNR) aware branch. Experimental results show that our proposed joint optimization framework achieves a significant improvement over existing ``Compress before Enhance" or ``Enhance before Compress" sequential solutions for low-light images. Source codes are included in the supplementary material.
翻訳日:2023-05-25 16:36:25 公開日:2023-05-24
# imagenetvc:1000のimagenetカテゴリにおけるゼロショットビジュアルコモンセンスの評価

ImageNetVC: Zero-Shot Visual Commonsense Evaluation on 1000 ImageNet Categories ( http://arxiv.org/abs/2305.15028v1 )

ライセンス: Link先を確認
Heming Xia, Qingxiu Dong, Lei Li, Jingjing Xu, Ziwei Qin, Zhifang Sui(参考訳) 近年,PLM(Pretrained Language Models)が汎用インタフェースとして機能し,包括的視覚的知識の需要が高まっている。 しかしながら、現在のPLMとその視覚的拡張型(VaLM)が視覚的常識知識をどの程度習得できるかは不明である。 そこで本研究では,1,000のイメージネットカテゴリを対象としたゼロショット視覚的コモンセンス評価のための,詳細な人間アノテーション付きデータセットであるImageNetVCを提案する。 ImageNetVCを利用することで、単調なPLMとVaLMの両方の基本的な視覚的常識知識を探求し、スケーリング法則とVaLMに対するバックボーンモデルの影響を明らかにする。 さらに,大規模モデルの視覚コモンセンス知識に影響を与える要因について検討し,視覚コモンセンス知識に富んだ言語モデルの開発に関する知見を提供する。 私たちのコードとデータセットはhttps://github.com/hemingkx/imagenetvc.com/で利用可能です。

Recently, Pretrained Language Models (PLMs) have been serving as general-purpose interfaces, posing a significant demand for comprehensive visual knowledge. However, it remains unclear how well current PLMs and their visually augmented counterparts (VaLMs) can master visual commonsense knowledge. To investigate this, we propose ImageNetVC, a fine-grained, human-annotated dataset specifically designed for zero-shot visual commonsense evaluation across 1,000 ImageNet categories. Utilizing ImageNetVC, we delve into the fundamental visual commonsense knowledge of both unimodal PLMs and VaLMs, uncovering the scaling law and the influence of the backbone model on VaLMs. Furthermore, we investigate the factors affecting the visual commonsense knowledge of large-scale models, providing insights into the development of language models enriched with visual commonsense knowledge. Our code and dataset are available at https://github.com/hemingkx/ImageNetVC.
翻訳日:2023-05-25 16:36:03 公開日:2023-05-24
# ディープアンサンブルと(変数)ベイズ法による厳密なリンク

A Rigorous Link between Deep Ensembles and (Variational) Bayesian Methods ( http://arxiv.org/abs/2305.15027v1 )

ライセンス: Link先を確認
Veit David Wild, Sahra Ghalebikesabi, Dino Sejdinovic, Jeremias Knoblauch(参考訳) ベイズ法,変分ベイズ法,アンサンブル法の数学的に厳密な関係を確立する。 これに向けた重要なステップは、確率測度の空間における凸最適化として一般的にディープラーニングで発生する非凸最適化問題を再構築することである。 技術的なレベルでは、ワッサーシュタイン勾配流のレンズを通して一般化された変分推論を研究することに貢献した。 その結果、深層学習における不確かさの定量化に一般的に用いられる様々な非分離なアプローチの統一理論が生まれ、深層アンサンブルや(可変的な)ベイズ法などが含まれる。 これはパラメータ化された変分推論に基づく手続きよりも深いアンサンブルが成功した理由に関する新たな見解を提供し、収束保証を持つ新しいセンスリングスキームの導出を可能にする。 熱力学における粒子系の相互作用と直接平行に相互作用するディープアンサンブルの族を提案し、この理論を用いてこれらのアルゴリズムの収束を確率測度の空間上の明確に定義された大域最小化器に証明する。

We establish the first mathematically rigorous link between Bayesian, variational Bayesian, and ensemble methods. A key step towards this it to reformulate the non-convex optimisation problem typically encountered in deep learning as a convex optimisation in the space of probability measures. On a technical level, our contribution amounts to studying generalised variational inference through the lense of Wasserstein gradient flows. The result is a unified theory of various seemingly disconnected approaches that are commonly used for uncertainty quantification in deep learning -- including deep ensembles and (variational) Bayesian methods. This offers a fresh perspective on the reasons behind the success of deep ensembles over procedures based on parameterised variational inference, and allows the derivation of new ensembling schemes with convergence guarantees. We showcase this by proposing a family of interacting deep ensembles with direct parallels to the interactions of particle systems in thermodynamics, and use our theory to prove the convergence of these algorithms to a well-defined global minimiser on the space of probability measures.
翻訳日:2023-05-25 16:35:46 公開日:2023-05-24
# 自然言語から検証画像生成への視覚属性の伝達

Transferring Visual Attributes from Natural Language to Verified Image Generation ( http://arxiv.org/abs/2305.15026v1 )

ライセンス: Link先を確認
Rodrigo Valerio, Joao Bordalo, Michal Yarom, Yonattan Bitton, Idan Szpektor, Joao Magalhaes(参考訳) text to image generation methods (t2i) は、アートやその他の創造的なアーティファクトの生成に広く使われている。 視覚幻覚は創造性が評価されるシナリオにおいて肯定的な要因となりうるが、そのような人工物は、生成した画像が明示的な視覚要素なしで複雑な自然言語でグラウンドドする必要がある場合にはあまり適していない。 本稿では,非視覚情報を含むt2i法や正確な生成に知識を必要とするテキスト要素の限界をしばしば破る自然複合言語の存在下で,t2i法の一貫性を強化することを提案する。 これらの現象に対処するために,自然なプロンプトを視覚的プロンプトに変換する自然言語・検証画像生成手法 (NL2VI) を提案する。 T2Iモデルは視覚的プロンプトのための画像を生成し、VQAアルゴリズムで検証する。 実験的に、自然なプロンプトと画像生成を一致させることで、生成した画像の一貫性を11%向上させることができる。 さらに、改善は料理やdiyタスクのような困難な領域に一般化され、生成された画像の正確さがアクションを説明する上で重要である。

Text to image generation methods (T2I) are widely popular in generating art and other creative artifacts. While visual hallucinations can be a positive factor in scenarios where creativity is appreciated, such artifacts are poorly suited for cases where the generated image needs to be grounded in complex natural language without explicit visual elements. In this paper, we propose to strengthen the consistency property of T2I methods in the presence of natural complex language, which often breaks the limits of T2I methods by including non-visual information, and textual elements that require knowledge for accurate generation. To address these phenomena, we propose a Natural Language to Verified Image generation approach (NL2VI) that converts a natural prompt into a visual prompt, which is more suitable for image generation. A T2I model then generates an image for the visual prompt, which is then verified with VQA algorithms. Experimentally, aligning natural prompts with image generation can improve the consistency of the generated images by up to 11% over the state of the art. Moreover, improvements can generalize to challenging domains like cooking and DIY tasks, where the correctness of the generated image is crucial to illustrate actions.
翻訳日:2023-05-25 16:35:29 公開日:2023-05-24
# 説明可能な質問回答のための階層的質問分解木の推論

Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering ( http://arxiv.org/abs/2305.15056v1 )

ライセンス: Link先を確認
Jiajie Zhang, Shulin Cao, Tingjia Zhang, Xin Lv, Jiaxin Shi, Qi Tian, Juanzi Li, Lei Hou(参考訳) 説明可能な質問応答(XQA)は、与えられた質問に答え、その答えが選択された理由を説明することを目的としている。 既存のXQAメソッドは、構造化知識ベースや非構造化コーパスなど、単一の知識ソースでの推論に重点を置いている。 しかし、複雑な質問に答えるためには、異種知識ソースからの情報を統合することが不可欠である。 本稿では,複雑な質問を単純な質問に分解し,各質問に対して適切な知識ソースを選択することにより,異種知識統合のための質問分解の活用を提案する。 推論を容易にするために,階層的質問分解木 (RoHT) を用いた2段階のXQAフレームワークを提案する。 まず、複雑な質問の意味を理解するために、階層的質問分解木(HQDT)を構築し、次に、根から葉までHQDT上で確率論的推論を行い、異なる木レベルで異質な知識を集約し、解の分解と解答の確率を考慮した最良の解を求める。 複雑なQAデータセットKQA Pro と Musique の実験から,私たちのフレームワークは SOTA メソッドよりも優れており,知識統合と RoHT フレームワークに質問分解を活用できることの有効性が示されている。

Explainable question answering (XQA) aims to answer a given question and provide an explanation why the answer is selected. Existing XQA methods focus on reasoning on a single knowledge source, e.g., structured knowledge bases, unstructured corpora, etc. However, integrating information from heterogeneous knowledge sources is essential to answer complex questions. In this paper, we propose to leverage question decomposing for heterogeneous knowledge integration, by breaking down a complex question into simpler ones, and selecting the appropriate knowledge source for each sub-question. To facilitate reasoning, we propose a novel two-stage XQA framework, Reasoning over Hierarchical Question Decomposition Tree (RoHT). First, we build the Hierarchical Question Decomposition Tree (HQDT) to understand the semantics of a complex question; then, we conduct probabilistic reasoning over HQDT from root to leaves recursively, to aggregate heterogeneous knowledge at different tree levels and search for a best solution considering the decomposing and answering probabilities. The experiments on complex QA datasets KQA Pro and Musique show that our framework outperforms SOTA methods significantly, demonstrating the effectiveness of leveraging question decomposing for knowledge integration and our RoHT framework.
翻訳日:2023-05-25 16:27:54 公開日:2023-05-24
# 音声認識と音声変換の反復的改善

Iteratively Improving Speech Recognition and Voice Conversion ( http://arxiv.org/abs/2305.15055v1 )

ライセンス: Link先を確認
Mayank Kumar Singh, Naoya Takahashi, Onoe Naoyuki(参考訳) 音声変換(VC)タスクに関する多くの既存の研究は、ソースと変換されたサンプル間の言語的一貫性を確保するために自動音声認識(ASR)モデルを使用している。 しかし、低データリソース領域では、高品質のASRをトレーニングすることは難しい課題である。 本研究では,ASRモデルとVCモデルの両方を改善する新しい反復的手法を提案する。 本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。 次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。 改良されたASRモデルを用いてVCモデルを訓練し,両モデルの改善を実験的に示す。 提案フレームワークは,低データ環境における主観的および客観的評価において,英語歌唱およびヒンズー語音声領域におけるasrおよびone-shot vcのベースラインモデルを上回る。

Many existing works on voice conversion (VC) tasks use automatic speech recognition (ASR) models for ensuring linguistic consistency between source and converted samples. However, for the low-data resource domains, training a high-quality ASR remains to be a challenging task. In this work, we propose a novel iterative way of improving both the ASR and VC models. We first train an ASR model which is used to ensure content preservation while training a VC model. In the next iteration, the VC model is used as a data augmentation method to further fine-tune the ASR model and generalize it to diverse speakers. By iteratively leveraging the improved ASR model to train VC model and vice-versa, we experimentally show improvement in both the models. Our proposed framework outperforms the ASR and one-shot VC baseline models on English singing and Hindi speech domains in subjective and objective evaluations in low-data resource settings.
翻訳日:2023-05-25 16:27:30 公開日:2023-05-24
# 因果メディエーション分析を用いた言語モデルにおける算数推論の理解

Understanding Arithmetic Reasoning in Language Models using Causal Mediation Analysis ( http://arxiv.org/abs/2305.15054v1 )

ライセンス: Link先を確認
Alessandro Stolfo, Yonatan Belinkov, Mrinmaya Sachan(参考訳) 近年,大規模言語モデル (LLM) における数学的推論が注目されているが,これらのモデルがどのように処理し,算術的タスクに関連する情報を格納しているかは限定的に理解されている。 本稿では,因果媒介分析フレームワークを用いた算術的質問に対するLLMの機械論的解釈を提案する。 特定のモデルコンポーネントのアクティベーションに介入し、予測される確率の変化を測定することで、特定の予測に責任のあるパラメータのサブセットを識別する。 異なる大きさ(2.8Bおよび6Bパラメータ)の事前学習言語モデルを分析する。 実験結果から,中間層の小さな集合が算術に基づく質問の予測に大きく影響し,正しい予測と間違った予測のアクティベーションパターンが異なることが明らかとなった。 また、注意機構の役割についても検討し、算術的クエリに対するモデルのアクティベーションパターンと事実知識の予測を比較した。 本研究は,算術的タスクに対する LLM の機械的解釈に関する知見を提供し,算術的推論に関わる特定の要素を強調した。

Mathematical reasoning in large language models (LLMs) has garnered attention in recent research, but there is limited understanding of how these models process and store information related to arithmetic tasks. In this paper, we present a mechanistic interpretation of LLMs for arithmetic-based questions using a causal mediation analysis framework. By intervening on the activations of specific model components and measuring the resulting changes in predicted probabilities, we identify the subset of parameters responsible for specific predictions. We analyze two pre-trained language models with different sizes (2.8B and 6B parameters). Experimental results reveal that a small set of mid-late layers significantly affect predictions for arithmetic-based questions, with distinct activation patterns for correct and wrong predictions. We also investigate the role of the attention mechanism and compare the model's activation patterns for arithmetic queries with the prediction of factual knowledge. Our findings provide insights into the mechanistic interpretation of LLMs for arithmetic tasks and highlight the specific components involved in arithmetic reasoning.
翻訳日:2023-05-25 16:27:16 公開日:2023-05-24
# Tip-of-the-tongue Retrievalのための複雑なクエリの分解

Decomposing Complex Queries for Tip-of-the-tongue Retrieval ( http://arxiv.org/abs/2305.15053v1 )

ライセンス: Link先を確認
Kevin Lin and Kyle Lo and Joseph E. Gonzalez and Dan Klein(参考訳) 項目を再検索する場合、詳細の特定を忘れたり不確実であったりするユーザは、情報ニーズを表現するための創造的な戦略 - コンテンツ要素(書籍キャラクタやイベントなど)、ドキュメントテキスト(書籍カバーの説明など)を超えた情報、あるいは個人的なコンテキスト(書籍を読むときなど)を記述した複雑なクエリーに依存することが多い。 この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的な重複に大きく依存するモデルでは特に困難である。 本研究では,クエリを個別の手がかりに分解し,サブクエリとして特別な検索者にルーティングし,結果をアンサンブルすることで,複雑なクエリを扱うためのシンプルな効果的なフレームワークを提案する。 このアプローチでは、既製のレトリバー(例えば、本カバーの画像を取得するCLIP)を利用するか、レトリバー固有のロジック(例えば、日付制約)を組み込むことができます。 本フレームワークは,TOTの問い合わせを解決するために,オンラインコミュニティから14,441のリアルタイムクエリブックペアを新たに収集したRecall@5に対して,ゴールドブックのリコールを最大7%改善できることを示す。

When re-finding items, users who forget or are uncertain about identifying details often rely on creative strategies for expressing their information needs -- complex queries that describe content elements (e.g., book characters or events), information beyond the document text (e.g., descriptions of book covers), or personal context (e.g., when they read a book). This retrieval setting, called tip of the tongue (TOT), is especially challenging for models heavily reliant on lexical and semantic overlap between query and document text. In this work, we introduce a simple yet effective framework for handling such complex queries by decomposing the query into individual clues, routing those as sub-queries to specialized retrievers, and ensembling the results. This approach allows us to take advantage of off-the-shelf retrievers (e.g., CLIP for retrieving images of book covers) or incorporate retriever-specific logic (e.g., date constraints). We show that our framework incorportating query decompositions into retrievers can improve gold book recall up to 7% relative again for Recall@5 on a new collection of 14,441 real-world query-book pairs from an online community for resolving TOT inquiries.
翻訳日:2023-05-25 16:27:00 公開日:2023-05-24
# ゼロショット社会政治イベント抽出のためのモンテカルロ言語モデルパイプライン

A Monte Carlo Language Model Pipeline for Zero-Shot Sociopolitical Event Extraction ( http://arxiv.org/abs/2305.15051v1 )

ライセンス: Link先を確認
Erica Cai, Brendan O'Connor(参考訳) 我々はdyadic zero-shot event extraction (ee) をアクタのペア間のアクションを識別する。 \emph{zero-shot}設定により、社会科学者や他の非計算研究者は、トレーニングなしでカスタマイズされたユーザー特定イベントのセットを抽出でき、その結果、 \emph{dyadic}イベントデータベースが作成され、アクターと彼らが代表するより高いレベルの組織や国の間の社会政治関係のダイナミクスを洞察することができる。 残念なことに、現在のゼロショットEEメソッドは、単語感覚の曖昧さ、モダリティのミスマッチ、効率性といった問題を含む、そのタスクに対して不十分であることがわかった。 大規模言語モデルのストレートフォワード適用は、一般的にさらに悪化する。 本研究では,モンテカルロ法を用いて,生成出力のランダム性を活用し,克服する手法を提案する。 従来のアプローチよりも90%少ないクエリを実行し、広く使用されているAutomatic Content extractデータセットで強いパフォーマンスを発揮する。 最後に,本手法を拡張してアクター論争の関連性を抽出し,その方法と知見を国際関係ケーススタディで実証する。

We consider dyadic zero-shot event extraction (EE) to identify actions between pairs of actors. The \emph{zero-shot} setting allows social scientists or other non-computational researchers to extract any customized, user-specified set of events without training, resulting in a \emph{dyadic} event database, allowing insight into sociopolitical relational dynamics among actors and the higher level organizations or countries they represent. Unfortunately, we find that current zero-shot EE methods perform poorly for the task, with issues including word sense ambiguity, modality mismatch, and efficiency. Straightforward application of large language model prompting typically performs even worse. We address these challenges with a new fine-grained, multi-stage generative question-answer method, using a Monte Carlo approach to exploit and overcome the randomness of generative outputs. It performs 90\% fewer queries than a previous approach, with strong performance on the widely-used Automatic Content Extraction dataset. Finally, we extend our method to extract affiliations of actor arguments and demonstrate our method and findings on a dyadic international relations case study.
翻訳日:2023-05-25 16:26:39 公開日:2023-05-24
# Ranger:エフェクトサイズに基づくマルチタスク評価ツールキット

Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation ( http://arxiv.org/abs/2305.15048v1 )

ライセンス: Link先を確認
Mete Sertkan, Sophia Althammer and Sebastian Hofst\"atter(参考訳) 本稿では,nlpとirにおけるマルチタスク評価のための効果サイズに基づくメタアナリシスを簡易に利用するためのツールキット ranger を提案する。 私たちはコミュニティがしばしば、比較不可能なメトリクスやシナリオよりも結果を集約するという課題に直面しているのを観察しました。 Rangerでは、複数のタスクに対する処理の効果を1つの統計的評価に組み合わせ、メトリクスの比較と全体的な要約効果の計算を可能にするタスク非依存ツールキットを提供することにより、この問題に対処することを目指している。 本ツールキットは,複数のタスクに対する評価結果を明確化するための,公開可能な森林プロットを生成する。 ready-to-use ranger toolkitの目標は、堅牢で効果量ベースの評価を促進し、コミュニティにおける評価基準を改善することです。 我々は、rangerの利点を強調するために、共通ir設定とnlp設定の2つのケーススタディを提供する。

In this paper, we introduce Ranger - a toolkit to facilitate the easy use of effect-size-based meta-analysis for multi-task evaluation in NLP and IR. We observed that our communities often face the challenge of aggregating results over incomparable metrics and scenarios, which makes conclusions and take-away messages less reliable. With Ranger, we aim to address this issue by providing a task-agnostic toolkit that combines the effect of a treatment on multiple tasks into one statistical evaluation, allowing for comparison of metrics and computation of an overall summary effect. Our toolkit produces publication-ready forest plots that enable clear communication of evaluation results over multiple tasks. Our goal with the ready-to-use Ranger toolkit is to promote robust, effect-size-based evaluation and improve evaluation standards in the community. We provide two case studies for common IR and NLP settings to highlight Ranger's benefits.
翻訳日:2023-05-25 16:26:17 公開日:2023-05-24
# Ghostbuster: 大きな言語モデルで書かれたテキストゴーストを検出する

Ghostbuster: Detecting Text Ghostwritten by Large Language Models ( http://arxiv.org/abs/2305.15047v1 )

ライセンス: Link先を確認
Vivek Verma, Eve Fleisig, Nicholas Tomlin, Dan Klein(参考訳) 本稿では,AI生成テキストを検出する最先端システムであるGhostbusterを紹介する。 提案手法は,弱い言語モデルを通じて文書を渡し,その特徴の可能な組み合わせについて構造化検索を行い,選択した特徴の分類器を訓練して,対象文書がai生成であるかどうかを判定する。 重要なのは、Ghostbusterはターゲットモデルからトークンの確率にアクセスする必要がないため、ブラックボックスモデルや未知のモデルバージョンによって生成されたテキストを検出するのに役立つ。 私たちのモデルと合わせて,複数のドメイン(学生エッセイ,創造的フィクション,ニュース)とタスク設定(文書レベル検出,著者識別,段落レベル検出の課題課題)をカバーする,人間とaiが生成したテキストの3つの新しいデータセットを検出ベンチマークとしてリリースした。 Ghostbusterは、文書レベルの検出で3つのデータセットの平均99.1 F1であり、GPTZeroやDectorGPTといった従来のアプローチを最大32.7 F1で上回っている。

We introduce Ghostbuster, a state-of-the-art system for detecting AI-generated text. Our method works by passing documents through a series of weaker language models and running a structured search over possible combinations of their features, then training a classifier on the selected features to determine if the target document was AI-generated. Crucially, Ghostbuster does not require access to token probabilities from the target model, making it useful for detecting text generated by black-box models or unknown model versions. In conjunction with our model, we release three new datasets of human and AI-generated text as detection benchmarks that cover multiple domains (student essays, creative fiction, and news) and task setups: document-level detection, author identification, and a challenge task of paragraph-level detection. Ghostbuster averages 99.1 F1 across all three datasets on document-level detection, outperforming previous approaches such as GPTZero and DetectGPT by up to 32.7 F1.
翻訳日:2023-05-25 16:26:01 公開日:2023-05-24
# SETI:テキスト推論の体系性評価

SETI: Systematicity Evaluation of Textual Inference ( http://arxiv.org/abs/2305.15045v1 )

ライセンス: Link先を確認
Xiyan Fu, Anette Frank(参考訳) テキスト推論の領域において,事前学習された言語モデル(PLM)を評価するための新しい総合的ベンチマークSETI(Systematicity Evaluation of Textual Inference)を提案する。 特に、SETIは3つの異なるNLIタスクとそれに対応するデータセットを提供し、推論プロセスにおける様々なタイプの体系性を評価する。 これらの課題を解決するために、モデルは既知のプリミティブ構成子に基づいて構成推論を行う必要がある。 6種類の広帯域PLM上でSETI実験を行った。 その結果、様々なplmは、プリミティブと優れたパフォーマンスを組み合わせる方法の知識に遭遇した際に、目に見えない合成推論を解決できることがわかった。 しかし、この知識がモデルに知られていない場合(40-100%ポイント減少)、それらはかなり制限される。 さらに, PLMは最小限のショットにおいて重要な構成知識に晒された場合, 劇的に改善できることがわかった。 これらの結果から,SETIはテキスト推論における系統的一般化を実現する上で,PLMの今後の進歩を測定するための最初のベンチマークであると考えられた。

We propose SETI (Systematicity Evaluation of Textual Inference), a novel and comprehensive benchmark designed for evaluating pre-trained language models (PLMs) for their systematicity capabilities in the domain of textual inference. Specifically, SETI offers three different NLI tasks and corresponding datasets to evaluate various types of systematicity in reasoning processes. In order to solve these tasks, models are required to perform compositional inference based on known primitive constituents. We conduct experiments of SETI on six widely used PLMs. Results show that various PLMs are able to solve unseen compositional inferences when having encountered the knowledge of how to combine primitives, with good performance. However, they are considerably limited when this knowledge is unknown to the model (40-100% points decrease). Furthermore, we find that PLMs can improve drastically once exposed to crucial compositional knowledge in minimalistic shots. These findings position SETI as the first benchmark for measuring the future progress of PLMs in achieving systematicity generalization in the textual inference.
翻訳日:2023-05-25 16:25:42 公開日:2023-05-24
# 要約は役に立ちますか? 下流作業におけるテキスト要約の人間性評価

Is Summary Useful or Not? An Extrinsic Human Evaluation of Text Summaries on Downstream Tasks ( http://arxiv.org/abs/2305.15044v1 )

ライセンス: Link先を確認
Xiao Pu, Mingqi Gao, Xiaojun Wan(参考訳) 自動テキスト要約の研究は人間と自動評価に大きく依存している。 近年の人間評価研究では,テキスト要約の汎用的品質,例えばインフォメーション性やコヒーレンスを判断する本質的評価手法が主に採用されているが,本研究は,テキスト要約の有用性評価に特化している。 本研究では,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの下流タスクを慎重に設計する。 本研究では,システムランキングとユーザ行動データを用いて,異なる要約モデルの性能評価を行う。 要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。 以上の結果から,微調整された要約システムのランキングが下流のタスクに近接しているため,微調整されたモデルによって生成された要約は3つのタスク全体の有用性が高まることが示された。 しかし、ゼロショット設定でモデルによって生成された要約は、テキスト分類や類似度評価タスクに偏っていることが判明した。 さらに本研究は,14の内在的自動指標と人的基準との相関性を評価し,質問応答タスクにおける要約の有用性を評価する上で,内在的自動指標が有効であることを示す。 これは、要約のパフォーマンスと有用性を評価する際に、本質的な自動メトリクスにのみ依存する制限を強調している。

Research on automated text summarization relies heavily on human and automatic evaluation. While recent work on human evaluation mainly adopted intrinsic evaluation methods, judging the generic quality of text summaries, e.g. informativeness and coherence, our work focuses on evaluating the usefulness of text summaries with extrinsic methods. We carefully design three different downstream tasks for extrinsic human evaluation of summaries, i.e., question answering, text classification and text similarity assessment. We carry out experiments using system rankings and user behavior data to evaluate the performance of different summarization models. We find summaries are particularly useful in tasks that rely on an overall judgment of the text, while being less effective for question answering tasks. The results show that summaries generated by fine-tuned models lead to higher consistency in usefulness across all three tasks, as rankings of fine-tuned summarization systems are close across downstream tasks according to the proposed extrinsic metrics. Summaries generated by models in the zero-shot setting, however, are found to be biased towards the text classification and similarity assessment tasks, due to its general and less detailed summary style. We further evaluate the correlation of 14 intrinsic automatic metrics with human criteria and show that intrinsic automatic metrics perform well in evaluating the usefulness of summaries in the question-answering task, but are less effective in the other two tasks. This highlights the limitations of relying solely on intrinsic automatic metrics in evaluating the performance and usefulness of summaries.
翻訳日:2023-05-25 16:25:24 公開日:2023-05-24
# 深層学習のトレーニングのようにテストする

Test like you Train in Implicit Deep Learning ( http://arxiv.org/abs/2305.15042v1 )

ライセンス: Link先を確認
Zaccharie Ramzi, Pierre Ablin, Gabriel Peyr\'e, Thomas Moreau(参考訳) 暗黙のディープラーニングは、メタラーニングからDeep Equilibrium Networks (DEQs)まで幅広いアプリケーションで最近人気を集めている。 一般的な定式化では、ディープラーニングパイプラインのいくつかのコンポーネントを暗黙的に表現することに依存している。 実際には、内的問題の解は、通常一定数の内的反復を伴う反復的な手順で訓練中に近似される。 推論の間、内部問題は新しいデータで解決する必要がある。 一般的に信じられているのは、トレーニングで使用するものよりも内部イテレーションの数を増やすことで、パフォーマンスが向上するということだ。 本稿では,このような仮定に疑問を呈し,簡単な設定で詳細な理論解析を行う。 テスト時のイテレーション数の増加は、過度にパラメータ化されたネットワークのパフォーマンスを改善することができない。 暗黙的なディープラーニング問題に対して,我々の理論を検証した。 deqは、通常、過剰パラメータ化されているが、推論時のイテレーション数の増加の恩恵を受けないが、メタラーニングは、通常、過剰パラメータ化されていない。

Implicit deep learning has recently gained popularity with applications ranging from meta-learning to Deep Equilibrium Networks (DEQs). In its general formulation, it relies on expressing some components of deep learning pipelines implicitly, typically via a root equation called the inner problem. In practice, the solution of the inner problem is approximated during training with an iterative procedure, usually with a fixed number of inner iterations. During inference, the inner problem needs to be solved with new data. A popular belief is that increasing the number of inner iterations compared to the one used during training yields better performance. In this paper, we question such an assumption and provide a detailed theoretical analysis in a simple setting. We demonstrate that overparametrization plays a key role: increasing the number of iterations at test time cannot improve performance for overparametrized networks. We validate our theory on an array of implicit deep-learning problems. DEQs, which are typically overparametrized, do not benefit from increasing the number of iterations at inference while meta-learning, which is typically not overparametrized, benefits from it.
翻訳日:2023-05-25 16:24:57 公開日:2023-05-24
# PathAsst: ジェネレーティブファウンデーションAIアシスタントによる病理の再定義

PathAsst: Redefining Pathology through Generative Foundation AI Assistant for Pathology ( http://arxiv.org/abs/2305.15072v1 )

ライセンス: Link先を確認
Yuxuan Sun, Chenglu Zhu, Sunyi Zheng, Kai Zhang, Zhongyi Shui, Xiaoxuan Yu, Yizhi Zhao, Honglin Li, Yunlong Zhang, Ruojia Zhao, Xinheng Lyu, Lin Yang(参考訳) 大規模言語モデル(LLM)やマルチモーダル技術の発展が進み続け、汎用多モーダル大規模言語モデル(MLLM)の開発が進み、自然画像の解釈にも大きな応用がなされている。 しかし、病理学の分野は、正確でタイムリーでパーソナライズされた診断の必要性が高まっているにもかかわらず、この点に関してほとんど解明されていない。 病理学MLLMのギャップを埋めるため,病理学における診断・予測分析に革命をもたらすための生成基盤AIアシスタントであるPathAsstを本研究で紹介する。 pathasstを開発するために,pubmed,comprehensive pathology texts,reputable pathology website,および病理学者による注釈付きプライベートデータなど,さまざまな信頼できる情報源から142k以上の高品質の病理テキストペアを収集した。 ChatGPT/GPT-4の高度な機能を活用し,180K以上の命令追従サンプルを生成する。 さらに,パスタストが入力画像とユーザの意図に基づいて,これらのモデルと効果的に相互作用することを可能にし,モデルの診断能力を向上させることを目的として,追加の命令追従データを考案する。 その後、我々のPathAsstは、CLIPビジョンエンコーダと協調して、Vicuna-13B言語モデルに基づいて訓練される。 PathAsstの結果は、病理診断と治療プロセスを改善するためにAIを活用した生成基盤モデルを活用する可能性を示している。 私たちは、厳格にキュレートされたデータセットと、研究者が自身のデータセットの広範な収集と事前処理を支援するために設計された包括的なツールキットをオープンソース化することを約束しています。 リソースはhttps://github.com/superjamessyx/Generative-Foundation-AI-Assistant-for-Pathologyで取得できる。

As advances in large language models (LLMs) and multimodal techniques continue to mature, the development of general-purpose multimodal large language models (MLLMs) has surged, with significant applications in natural image interpretation. However, the field of pathology has largely remained untapped in this regard, despite the growing need for accurate, timely, and personalized diagnostics. To bridge the gap in pathology MLLMs, we present the PathAsst in this study, which is a generative foundation AI assistant to revolutionize diagnostic and predictive analytics in pathology. To develop PathAsst, we collect over 142K high-quality pathology image-text pairs from a variety of reliable sources, including PubMed, comprehensive pathology textbooks, reputable pathology websites, and private data annotated by pathologists. Leveraging the advanced capabilities of ChatGPT/GPT-4, we generate over 180K instruction-following samples. Furthermore, we devise additional instruction-following data, specifically tailored for the invocation of the pathology-specific models, allowing the PathAsst to effectively interact with these models based on the input image and user intent, consequently enhancing the model's diagnostic capabilities. Subsequently, our PathAsst is trained based on Vicuna-13B language model in coordination with the CLIP vision encoder. The results of PathAsst show the potential of harnessing the AI-powered generative foundation model to improve pathology diagnosis and treatment processes. We are committed to open-sourcing our meticulously curated dataset, as well as a comprehensive toolkit designed to aid researchers in the extensive collection and preprocessing of their own datasets. Resources can be obtained at https://github.com/superjamessyx/Generative-Foundation-AI-Assistant-for-Pathology.
翻訳日:2023-05-25 16:18:56 公開日:2023-05-24
# 予測を個人化するアノテーションインプテーション:分布ダイナミクスとモデル予測に関する初期研究

Annotation Imputation to Individualize Predictions: Initial Studies on Distribution Dynamics and Model Predictions ( http://arxiv.org/abs/2305.15070v1 )

ライセンス: Link先を確認
London Lowmanstone, Ruyuan Wan, Risako Owan, Jaehyung Kim, Dongyeop Kang(参考訳) クラウドソーシングによるデータアノテートには時間と費用がかかる。 これらのコストのため、データセットの作成者は、データの小さなサブセットのみにアノテータラベルを付けることが多い。 アノテーションタがサンプルをラベル付けするために選択されていない場合、アノテーションに関する彼らの意見は失われる。 これは、正確なラベルがない主観的なNLPデータセットに特に関係している。 そこで本研究では,すべてのアノテータの意見を復元するための命令法を提案し,アノテータの視点を残さずにデータセットを作成する。 次に、インプットされたデータセット(元のスパースデータセットではなく)のデータでモデルをトレーニングし、プロンプトして、多数派と個別のアノテーションに関する予測を行います。 残念ながら、ベースライン手法によって提供されるインプットデータでは予測が改善されない。 しかし,本論文の分析により,異なるインプテーション手法が元のデータにどのように影響するかを深く理解し,今後のインプテーション手法を示唆する。 すべてのコードとデータを公開しています。

Annotating data via crowdsourcing is time-consuming and expensive. Owing to these costs, dataset creators often have each annotator label only a small subset of the data. This leads to sparse datasets with examples that are marked by few annotators; if an annotator is not selected to label an example, their opinion regarding it is lost. This is especially concerning for subjective NLP datasets where there is no correct label: people may have different valid opinions. Thus, we propose using imputation methods to restore the opinions of all annotators for all examples, creating a dataset that does not leave out any annotator's view. We then train and prompt models with data from the imputed dataset (rather than the original sparse dataset) to make predictions about majority and individual annotations. Unfortunately, the imputed data provided by our baseline methods does not improve predictions. However, through our analysis of it, we develop a strong understanding of how different imputation methods impact the original data in order to inform future imputation techniques. We make all of our code and data publicly available.
翻訳日:2023-05-25 16:18:24 公開日:2023-05-24
# ToMChallenges: 心の理論を探求するための原則ガイド型データセットと多変量評価タスク

ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind ( http://arxiv.org/abs/2305.15068v1 )

ライセンス: Link先を確認
Xiaomeng Ma, Lingyu Gao, Qihui Xu(参考訳) 異なる個人の精神状態を理解する能力である心の理論(ToM)は、多くの実践的応用に不可欠である。 大規模言語モデルの開発に伴い、ToMタスクを実行できるかどうかという議論が激化している。 以前の研究では、大きな言語モデルでToMをテストするために異なるタスクとプロンプトを使用しており、結果は矛盾している。 本研究では,sally-anne と smarties テストに基づく心の理論を総合的に評価するためのデータセットである tomchallenges を提案する。 テスト毎に30種類のバリエーション(例えば、人物の名前、場所、項目の変更など)を作成しました。 各バリエーションについて、モデルの異なる側面に対する理解をテストする:現実、信念、第一の信念、第二の信念。 私たちは、各タスクカテゴリ用にカスタマイズされたユニークなプロンプトを作成することで、さまざまなタスクにデータを適用する。 モデルが堅牢なToMを持つなら、異なるテスト間で異なるプロンプトに対して優れたパフォーマンスを達成することができるはずだ。 GPT-3.5モデルであるtext-davinci-003とgpt-3.5-turbo-0301をデータセットで評価した。 結果から,ToMタスクにおける一貫したパフォーマンスは依然として課題であることが示唆された。

Theory of Mind (ToM), the capacity to comprehend the mental states of distinct individuals, is essential for numerous practical applications. With the development of large language models, there is a heated debate about whether they are able to perform ToM tasks. Previous studies have used different tasks and prompts to test the ToM on large language models and the results are inconsistent: some studies asserted these models are capable of exhibiting ToM, while others suggest the opposite. In this study, We present ToMChallenges, a dataset for comprehensively evaluating Theory of Mind based on Sally-Anne and Smarties tests. We created 30 variations of each test (e.g., changing the person's name, location, and items). For each variation, we test the model's understanding of different aspects: reality, belief, 1st order belief, and 2nd order belief. We adapt our data for various tasks by creating unique prompts tailored for each task category: Fill-in-the-Blank, Multiple Choice, True/False, Chain-of-Thought True/False, Question Answering, and Text Completion. If the model has a robust ToM, it should be able to achieve good performance for different prompts across different tests. We evaluated two GPT-3.5 models, text-davinci-003 and gpt-3.5-turbo-0301, with our datasets. Our results indicate that consistent performance in ToM tasks remains a challenge.
翻訳日:2023-05-25 16:18:07 公開日:2023-05-24
# すべての指標が有罪ではない: llmパラフレージングによるnlg評価の改善

Not All Metrics Are Guilty: Improving NLG Evaluation with LLM Paraphrasing ( http://arxiv.org/abs/2305.15067v1 )

ライセンス: Link先を確認
Tianyi Tang, Hongyuan Lu, Yuchen Eleanor Jiang, Haoyang Huang, Dongdong Zhang, Wayne Xin Zhao, Furu Wei(参考訳) 自然言語生成(NLG)に関するほとんどの研究は、サンプルに対する限られた参照を持つ評価ベンチマークに依存しており、人間の判断と相関が低い可能性がある。 根本的な理由は、1つの意味意味が実際には異なる形で表現できるためであり、1つまたは少数の参照による評価はモデルの仮説の品質を正確に反映するものではないかもしれない。 そこで本研究では,参照回数を増大させることで,既存の評価ベンチマークを強化する手法であるPara-Refを提案する。 我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。 機械翻訳, テキスト要約, 画像キャプションなどの代表的NLGタスクに対する実験結果から, 自動評価指標を+7.82%の比率で評価することで, 人的評価との相関を効果的に改善できることが示された。 コードとデータはhttps://github.com/rucaibox/para-refでリリースします。

Most research about natural language generation (NLG) relies on evaluation benchmarks with limited references for a sample, which may result in poor correlations with human judgements. The underlying reason is that one semantic meaning can actually be expressed in different forms, and the evaluation with a single or few references may not accurately reflect the quality of the model's hypotheses. To address this issue, this paper presents a novel method, named Para-Ref, to enhance existing evaluation benchmarks by enriching the number of references. We leverage large language models (LLMs) to paraphrase a single reference into multiple high-quality ones in diverse expressions. Experimental results on representative NLG tasks of machine translation, text summarization, and image caption demonstrate that our method can effectively improve the correlation with human evaluation for sixteen automatic evaluation metrics by +7.82% in ratio. We release the code and data at https://github.com/RUCAIBox/Para-Ref.
翻訳日:2023-05-25 16:17:43 公開日:2023-05-24
# gpt4graph: 大きな言語モデルは、グラフ構造化データを理解できますか? 経験的評価とベンチマーク

GPT4Graph: Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking ( http://arxiv.org/abs/2305.15066v1 )

ライセンス: Link先を確認
Jiayan Guo and Lun Du and Hengyu Liu(参考訳) chatgptのような大規模言語モデル(llm)は、人工知能(agi)にとって不可欠となり、様々な自然言語処理タスクにおいて優れた性能を示している。 現実の世界では、グラフデータはユビキタスであり、AGIの重要な部分であり、ソーシャルネットワーク分析、バイオインフォマティクス、レコメンデーションシステムといった領域で広く利用されている。 大規模言語モデルのトレーニングコーパスにはアルゴリズム的な要素が含まれており、グラフデータに関連する問題に対して一定の効果を達成できる。 しかし、グラフ構造化データでのパフォーマンスについてはまだほとんど研究されていない。 本研究では,多種多様な構造的・意味的タスクを用いて,グラフデータの理解におけるllmの習熟度評価を行う。 本分析は,グラフ理解におけるLLMの能力を評価する10のタスクを含む。 本研究は,グラフ構造理解における言語モデルの現在の限界を明らかにするだけでなく,さらなる発展とグラフ処理能力向上のための新しいアプローチの必要性を強調するものである。 本研究は,言語モデルとグラフ理解のギャップを埋める上で,より効果的なグラフマイニングと知識抽出の道を開く上での貴重な知見である。

Large language models~(LLM) like ChatGPT have become indispensable to artificial general intelligence~(AGI), demonstrating excellent performance in various natural language processing tasks. In the real world, graph data is ubiquitous and an essential part of AGI and prevails in domains like social network analysis, bioinformatics and recommender systems. The training corpus of large language models often includes some algorithmic components, which allows them to achieve certain effects on some graph data-related problems. However, there is still little research on their performance on a broader range of graph-structured data. In this study, we conduct an extensive investigation to assess the proficiency of LLMs in comprehending graph data, employing a diverse range of structural and semantic-related tasks. Our analysis encompasses 10 distinct tasks that evaluate the LLMs' capabilities in graph understanding. Through our study, we not only uncover the current limitations of language models in comprehending graph structures and performing associated reasoning tasks but also emphasize the necessity for further advancements and novel approaches to enhance their graph processing capabilities. Our findings contribute valuable insights towards bridging the gap between language models and graph understanding, paving the way for more effective graph mining and knowledge extraction.
翻訳日:2023-05-25 16:17:27 公開日:2023-05-24
# 推論時間ポリシーアダプタ(ipa) : 微調整なしで超大規模lmsを調整

Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning ( http://arxiv.org/abs/2305.15065v1 )

ライセンス: Link先を確認
Ximing Lu, Faeze Brahman, Peter West, Jaehun Jang, Khyathi Chandu, Abhilasha Ravichander, Lianhui Qin, Prithviraj Ammanabrolu, Liwei Jiang, Sahana Ramnath, Nouha Dziri, Jillian Fisher, Bill Yuchen Lin, Skyler Hallinan, Xiang Ren, Sean Welleck, Yejin Choi(参考訳) 大規模な言語モデルは、例や指示によって促される様々な言語タスクに優れている。 しかし、これらのモデルをプロンプトだけで制御することは限られている。 言語モデルの微調整(強化学習など)は効果的であるが、高価であり、モデルアクセスを必要とする。 本稿では、gpt-3などの言語モデルを微調整することなく効率的に調整する推論時間ポリシーアダプタ(ipa)を提案する。 IPAは、拡張学習によって任意のユーザ目標を最適化するように訓練された軽量ポリシーアダプタを通じて、デコーディング時間中に大きなベースモデルをガイドする。 毒性低減やオープンドメイン生成といった5つの困難なテキスト生成タスクにおいて、IPAは、既製の言語モデルよりも大幅に改善されている。 競争力のあるベースライン法よりも優れており、時には高価な微調整も行う。 特に、GPT-2をIPAで調整することはGPT-3より優れているが、GPT-3をIPAで調整することは、GPT-3よりも大きなパフォーマンス向上をもたらす。 我々の有望な結果は、極規模の言語モデルをカスタマイズする軽量な代替手段としてのIPAの可能性を強調します。

Large language models excel at a variety of language tasks when prompted with examples or instructions. Yet controlling these models through prompting alone is limited. Tailoring language models through fine-tuning (e.g., via reinforcement learning) can be effective, but it is expensive and requires model access. We propose Inference-time Policy Adapters (IPA), which efficiently tailors a language model such as GPT-3 without fine-tuning it. IPA guides a large base model during decoding time through a lightweight policy adaptor trained to optimize an arbitrary user objective with reinforcement learning. On five challenging text generation tasks, such as toxicity reduction and open-domain generation, IPA consistently brings significant improvements over off-the-shelf language models. It outperforms competitive baseline methods, sometimes even including expensive fine-tuning. In particular, tailoring GPT-2 with IPA can outperform GPT-3, while tailoring GPT- 3 with IPA brings a major performance boost over GPT-3 (and sometimes even over GPT-4). Our promising results highlight the potential of IPA as a lightweight alternative to tailoring extreme-scale language models.
翻訳日:2023-05-25 16:17:06 公開日:2023-05-24
# グラディエント・デモのない対話型タスクのための大規模言語モデルのプロンプト最適化

Prompt Optimization of Large Language Model for Interactive Tasks without Gradient and Demonstrations ( http://arxiv.org/abs/2305.15064v1 )

ライセンス: Link先を確認
Siqi Ouyang and Lei Li(参考訳) 大規模言語モデル(LLM)は言語能力に優れるが、対話型タスクを独立して解く際には課題に直面している。 既存のメソッドはグラデーションアクセスに依存しており、gpt-4のような最先端のllmではアクセスできないことが多い。 本研究では,LSM-POを提案する。LSMは,勾配アクセスや広範囲な実演なしにこれらの課題に対処できる新しい手法である。 鍵となるアイデアは、テキストベースの計画を維持し、現在の計画の長所と短所を反映するようにLCMに依頼し、その計画を更新し、新しい計画でより多くの経験を集めることである。 HotpotQAの実験では、LLM-POは推論コストを抑えつつ、テキスト内学習(ICL)ベースラインよりも高いもしくは同等の成功率を達成することが示された。

Large language models (LLMs) have demonstrated remarkable language proficiency, but they face challenges when solving interactive tasks independently. Existing methods either rely on gradient access, which is often inaccessible in state-of-the-art LLMs like GPT-4, or necessitate diverse and high-quality in-context demonstrations. In this study, we propose LLM-PO, a novel approach that enables LLMs to address these tasks without gradient access or extensive demonstrations. The key idea is to maintain a text-based plan and ask LLMs to reflect on pros and cons of the current plan based on experience collected with it, to update the plan, and to collect more experiences with the new plan. Experiments on HotpotQA demonstrate that LLM-PO achieves higher or on par success rates compared to in-context learning (ICL) baselines while requiring less inference cost.
翻訳日:2023-05-25 16:16:45 公開日:2023-05-24
# 弁護士LLaMA技術報告

Lawyer LLaMA Technical Report ( http://arxiv.org/abs/2305.15062v1 )

ライセンス: Link先を確認
Quzhe Huang, Mingxu Tao, Zhenwei An, Chen Zhang, Cong Jiang, Zhibin Chen, Zirui Wu, Yansong Feng(参考訳) LLaMAのような大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。 それでも、法律や医学などの特定の領域に展開する場合、モデルはまだドメイン固有の知識の不足や、ドメイン関連の問題を解決するためにその知識を活用する能力の不足という課題に直面しています。 本稿では,法域に焦点をあて,継続トレーニング段階におけるドメイン知識の注入方法と,モデルが実践的な問題に対処する上で適切な微調整タスクを設計する方法を検討する。 さらに,モデル生成時の幻覚問題を緩和するために,検索モジュールを追加し,モデルがクエリに答える前に関連項目を抽出する。 抽出された証拠により、我々のモデルはより信頼できる応答を生成することができる。 データとモデルはhttps://github.com/andrewzhe/lawyer-llamaでリリースします。

Large Language Models (LLMs), like LLaMA, have exhibited remarkable performances across various tasks. Nevertheless, when deployed to specific domains such as law or medicine, the models still confront the challenge of a deficiency in domain-specific knowledge and an inadequate capability to leverage that knowledge to resolve domain-related problems. In this paper, we focus on the legal domain and explore how to inject domain knowledge during the continual training stage and how to design proper supervised finetune tasks to help the model tackle practical issues. Moreover, to alleviate the hallucination problem during model's generation, we add a retrieval module and extract relevant articles before the model answers any queries. Augmenting with the extracted evidence, our model could generate more reliable responses. We release our data and model at https://github.com/AndrewZhe/lawyer-llama.
翻訳日:2023-05-25 16:16:28 公開日:2023-05-24
# 誰がこのコードを書いたのか? コード生成のための透かし

Who Wrote this Code? Watermarking for Code Generation ( http://arxiv.org/abs/2305.15060v1 )

ライセンス: Link先を確認
Taehyun Lee, Seokhee Hong, Jaewoo Ahn, Ilgee Hong, Hwaran Lee, Sangdoo Yun, Jamin Shin, Gunhee Kim(参考訳) コードのための大規模な言語モデルは、最近実行可能コードの生成において顕著なパフォーマンスを示している。 しかし、この急速な進歩は、コードライセンス問題、コード盗作、マルウェア生成など、多くの法的・倫理的な問題に伴い、機械生成コードの透かしを非常にタイムリーな問題にしている。 このような差し迫ったニーズにもかかわらず、LLMの既存の透かしや機械によるテキスト検出手法がコード生成タスクで適切に機能しないことがわかった。 そこで,本研究では,機械生成コードの透かしにおける従来のアプローチを大幅に改善する新しい透かし手法であるSWEETを提案する。 提案手法は,定義しきい値を超え,十分なエントロピーを有するトークンに透かしを選択的に適用する。 コード生成ベンチマーク実験により,従来のLLM透かし方式に比べて,透かしコードの品質が優れていることがわかった。 さらに,本手法は,機械生成コード検出のタスクにおいて,検出GPTよりも優れていた。

Large language models for code have recently shown remarkable performance in generating executable code. However, this rapid advancement has been accompanied by many legal and ethical concerns, such as code licensing issues, code plagiarism, and malware generation, making watermarking machine-generated code a very timely problem. Despite such imminent needs, we discover that existing watermarking and machine-generated text detection methods for LLMs fail to function with code generation tasks properly. Hence, in this work, we propose a new watermarking method, SWEET, that significantly improves upon previous approaches when watermarking machine-generated code. Our proposed method selectively applies watermarking to the tokens with high enough entropy, surpassing a defined threshold. The experiments on code generation benchmarks show that our watermarked code has superior quality compared to code produced by the previous state-of-the-art LLM watermarking method. Furthermore, our watermark method also outperforms DetectGPT for the task of machine-generated code detection.
翻訳日:2023-05-25 16:16:16 公開日:2023-05-24
# 文字列部分順序の学習

Learning the String Partial Order ( http://arxiv.org/abs/2305.15057v1 )

ライセンス: Link先を確認
Tianyu Liu, Afra Amini, Mrinmaya Sachan, Ryan Cotterell(参考訳) 入力文字列中のトークンの部分順序付けとして,ほとんどの構造化された予測問題を線形時間と空間で解くことができることを示す。 提案手法は,入力文字列中の各トークンの実際の数値を計算し,それに応じてトークンをソートし,文字列内のトークンの総順序を2つに抑える。 各順序は、より小さいトークンからより大きなトークンへ向けられた一連のエッジを持つ。 合計順序の交叉は、入力トークンの集合上の部分順序となり、その後、所望の構造を表す有向グラフに復号される。 実験の結果,本手法は合計2桁,95.7 LASと97.1 UASの交叉を用いて95.4 LASと96.9 UASを達成することがわかった。 また,本手法は最初の線形複素性共参照分解モデルであり,state of the artに匹敵するイングリッシュ・オントノート・ベンチマークで79.2 f1を達成した。

We show that most structured prediction problems can be solved in linear time and space by considering them as partial orderings of the tokens in the input string. Our method computes real numbers for each token in an input string and sorts the tokens accordingly, resulting in as few as 2 total orders of the tokens in the string. Each total order possesses a set of edges oriented from smaller to greater tokens. The intersection of total orders results in a partial order over the set of input tokens, which is then decoded into a directed graph representing the desired structure. Experiments show that our method achieves 95.4 LAS and 96.9 UAS by using an intersection of 2 total orders, 95.7 LAS and 97.1 UAS with 4 on the English Penn Treebank dependency parsing benchmark. Our method is also the first linear-complexity coreference resolution model and achieves 79.2 F1 on the English OntoNotes benchmark, which is comparable with state of the art.
翻訳日:2023-05-25 16:16:00 公開日:2023-05-24
# Neural Schr\"odinger Bridgeによる未ペア画像変換

Unpaired Image-to-Image Translation via Neural Schr\"odinger Bridge ( http://arxiv.org/abs/2305.15086v1 )

ライセンス: Link先を確認
Beomsu Kim, Gihyun Kwon, Kwanyoung Kim, Jong Chul Ye(参考訳) 拡散モデルは、確率微分方程式(SDE)をシミュレートしてノイズからデータを生成する強力な生成モデルである。 近年,拡散モデルは顕著な進歩を遂げているが,ガウスの前提により,画像から画像への変換作業に制限がある。 任意の2つの分布を変換するSDEを学習するSchr\"odinger Bridge (SB)は、この問題に対する魅力的な解決策として浮上している。 しかし、これまでのSBモデルは高解像度画像間の未ペア翻訳に成功していない。 本研究では,非ペアデータ間のsbを学習するために,sbと逆訓練と正規化を組み合わせたunpaired neural schr\"odinger bridge (unsb)を提案する。 我々は、UNSBはスケーラブルであり、様々な画像から画像への変換タスクをうまく解決できることを実証した。 コード: \url{https://github.com/cyclomon/UNSB}

Diffusion models are a powerful class of generative models which simulate stochastic differential equations (SDEs) to generate data from noise. Although diffusion models have achieved remarkable progress in recent years, they have limitations in the unpaired image-to-image translation tasks due to the Gaussian prior assumption. Schr\"odinger Bridge (SB), which learns an SDE to translate between two arbitrary distributions, have risen as an attractive solution to this problem. However, none of SB models so far have been successful at unpaired translation between high-resolution images. In this work, we propose the Unpaired Neural Schr\"odinger Bridge (UNSB), which combines SB with adversarial training and regularization to learn a SB between unpaired data. We demonstrate that UNSB is scalable, and that it successfully solves various unpaired image-to-image translation tasks. Code: \url{https://github.com/cyclomon/UNSB}
翻訳日:2023-05-25 16:08:23 公開日:2023-05-24
# 交通映像の異常検出のためのオーディオ・ビジュアルデータセットと方法

Audio-Visual Dataset and Method for Anomaly Detection in Traffic Videos ( http://arxiv.org/abs/2305.15084v1 )

ライセンス: Link先を確認
B{\l}a\.zej Leporowski, Arian Bakhtiarnia, Nicole Bonnici, Adrian Muscat, Luca Zanella, Yiming Wang and Alexandros Iosifidis(参考訳) 我々は,MAVADと呼ばれる実世界のシーンから得られる交通異常検出のための,多様な気象条件と照明条件を備えた最初の音声視覚データセットを提案する。 さらに,映像系列から抽出した視覚的特徴と音声的特徴をクロスアテンションを用いて組み合わせ,異常を検出するAVACAという手法を提案する。 オーディオの追加により,AVACAの性能が最大5.2%向上することが実証された。 また,画像の匿名化の影響も評価し,平均的な性能低下は1.7%であった。

We introduce the first audio-visual dataset for traffic anomaly detection taken from real-world scenes, called MAVAD, with a diverse range of weather and illumination conditions. In addition, we propose a novel method named AVACA that combines visual and audio features extracted from video sequences by means of cross-attention to detect anomalies. We demonstrate that the addition of audio improves the performance of AVACA by up to 5.2%. We also evaluate the impact of image anonymization, showing only a minor decrease in performance averaging at 1.7%.
翻訳日:2023-05-25 16:08:06 公開日:2023-05-24
# 翻訳指導による多言語ファインタニングによる大言語モデルの翻訳能力の軽減

Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions ( http://arxiv.org/abs/2305.15083v1 )

ライセンス: Link先を確認
Jiahuan Li, Hao Zhou, Shujian Huang, Shanbo Chen, Jiajun Chen(参考訳) ChatGPTやGPT4のような大規模事前学習言語モデル~(LLM)は、並列コーパスで明示的に訓練されることなく、多言語翻訳において強力な能力を示している。 LLMが様々な言語に対して翻訳命令を実行する能力を得る様子は興味深い。 本稿では,多言語事前学習型言語モデルXGLM-7Bを微調整し,与えられた指示に従って多言語翻訳を行う。 まず,多言語LLMは従来よりも翻訳能力が強いことを示す。 ある言語ペアの場合、パフォーマンスは言語ファミリーと事前トレーニングフェーズで使用されるデータ量の両方に依存する。 第2に,llmsの翻訳命令実行能力は,翻訳命令の理解と異なる言語間のアライメントに依存することがわかった。 適切な拡張によって、LLMは、命令チューニングフェーズ中に見つからない言語ペアであっても、翻訳タスクをうまく実行することができた。

Large-scale Pretrained Language Models~(LLMs), such as ChatGPT and GPT4, have shown strong abilities in multilingual translations, without being explicitly trained on parallel corpora. It is interesting how the LLMs obtain their ability to carry out translation instructions for different languages. In this paper, we present a detailed analysis by finetuning a multilingual pretrained language model, XGLM-7B, to perform multilingual translation following given instructions. Firstly, we show that the multilingual LLMs have stronger translation abilities than previously demonstrated. For a certain language pair, the performance depends on both the language families and the amount of data used in the pretraining phase. Secondly, we find that LLMs' ability to carry out translation instructions relies on the understanding of translation instruction and the alignment among different languages. With proper enhancement, LLMs could perform the translation task well even for those language pairs unseen during the instruction tuning phase.
翻訳日:2023-05-25 16:07:56 公開日:2023-05-24
# Cream: コントラスト読解モデルと冷凍大言語モデルによる視覚的な自然言語理解

Cream: Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models ( http://arxiv.org/abs/2305.15080v1 )

ライセンス: Link先を確認
Geewook Kim, Hodong Lee, Daehee Kim, Haeji Jung, Sanghee Park, Yoonsik Kim, Sangdoo Yun, Taeho Kil, Bado Lee, Seunghyun Park(参考訳) 大規模言語モデル(LLM)の進歩は、視覚領域への拡張を探求する研究の急増にインスピレーションを与えている。 最近のモデルは、画像の抽象的なキャプションを生成し、自然な会話を行うという約束を示す一方で、テキストリッチな画像のパフォーマンスは改善の余地を残している。 本稿では,LLMの言語画像理解能力を高めるために,既存の手法で見過ごされる複雑な詳細を捉えることで,新たなニューラルネットワークであるContrastive Reading Model(Cream)を提案する。 Creamは視覚と補助エンコーダを統合し、コントラストのある特徴アライメント技術で補完することで、文書画像内のテキスト情報のより効果的な理解を実現する。 私たちのアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントへの道を開くことを目的としています。 文書画像上の視覚的質問応答などの様々なタスクに対する厳密な評価は、視覚的文書理解の分野における最先端モデルとしてのCreamの有効性を示す。 コードベースと新たに生成されたデータセットはhttps://github.com/naver-ai/creamで提供します。

Advances in Large Language Models (LLMs) have inspired a surge of research exploring their expansion into the visual domain. While recent models exhibit promise in generating abstract captions for images and conducting natural conversations, their performance on text-rich images leaves room for improvement. In this paper, we propose the Contrastive Reading Model (Cream), a novel neural architecture designed to enhance the language-image understanding capability of LLMs by capturing intricate details typically overlooked by existing methods. Cream integrates vision and auxiliary encoders, complemented by a contrastive feature alignment technique, resulting in a more effective understanding of textual information within document images. Our approach, thus, seeks to bridge the gap between vision and language understanding, paving the way for more sophisticated Document Intelligence Assistants. Rigorous evaluations across diverse tasks, such as visual question answering on document images, demonstrate the efficacy of Cream as a state-of-the-art model in the field of visual document understanding. We provide our codebase and newly-generated datasets at https://github.com/naver-ai/cream
翻訳日:2023-05-25 16:07:41 公開日:2023-05-24
# イベント誘導型シャッターフレーム補正, 欠陥, 補間のためのINR学習

Learning INR for Event-guided Rolling Shutter Frame Correction, Deblur, and Interpolation ( http://arxiv.org/abs/2305.15078v1 )

ライセンス: Link先を確認
Yunfan Lu, Guoqiang Liang, Lin Wang(参考訳) 高速カメラ動作下でのローリングシャッター(RS)カメラで捉えた画像は、しばしば明らかな画像歪みやぼやけを伴い、露光時間内にグローバルシャッター(GS)フレーム列の行ワイドな組み合わせとしてモデル化され、RSぼやけ画像から高フレームレートのGSシャープフレームを復元するには、RS補正、デブロワー、フレーム補間を同時に考慮する必要がある。 単純な方法は、完全なプロセスを別々のタスクに分解し、既存のメソッドをカスケードすることですが、結果として累積エラーと目に見えるアーティファクトが発生します。 イベントカメラには、高時間分解能などの多くの利点があり、この問題の可能性を秘めている。 この目的のために,rsボケ画像とペアイベントデータから高フレームのシャープgsフレームを回収する最初の試みを行う。 我々のキーとなるアイデアは、暗黙の神経表現(INR)を学び、位置と時間座標を直接RGB値にマッピングし、画像復元プロセスにおけるロックの劣化に対処することです。 具体的には、空間時空間暗黙符号化(STE)を導入し、RSのぼやけた画像やイベントを空間時空間表現(STR)に変換する。 特定のシャープフレーム(GSまたはRS)を問合せするために、露光時間をSTRに埋め込んで、埋め込み特徴をデコードしてシャープフレームを復元する。 さらに、ネットワークのトレーニングを改善するために、RSぼかし画像誘導積分損失を提案する。 本手法は0.379Mのパラメータしか含まないため比較的軽量であり,STEは任意の数の補間フレームに対してのみ1回のみ呼び出されるため,高い効率を示す。 実験の結果,本手法は1~2つのタスクに対処する先行手法よりも有意に優れていた。

Images captured by rolling shutter (RS) cameras under fast camera motion often contain obvious image distortions and blur, which can be modeled as a row-wise combination of a sequence of global shutter (GS) frames within the exposure time naturally, recovering high-frame-rate GS sharp frames from an RS blur image needs to simultaneously consider RS correction, deblur, and frame interpolation Taking this task is nontrivial, and to our knowledge, no feasible solutions exist by far. A naive way is to decompose the complete process into separate tasks and simply cascade existing methods; however, this results in cumulative errors and noticeable artifacts. Event cameras enjoy many advantages, e.g., high temporal resolution, making them potential for our problem. To this end, we make the first attempt to recover high-frame-rate sharp GS frames from an RS blur image and paired event data. Our key idea is to learn an implicit neural representation (INR) to directly map the position and time coordinates to RGB values to address the interlocking degradations in the image restoration process. Specifically, we introduce spatial-temporal implicit encoding (STE) to convert an RS blur image and events into a spatial-temporal representation (STR). To query a specific sharp frame (GS or RS), we embed the exposure time into STR and decode the embedded features to recover a sharp frame. Moreover, we propose an RS blur image-guided integral loss to better train the network. Our method is relatively lightweight as it contains only 0.379M parameters and demonstrates high efficiency as the STE is called only once for any number of interpolation frames. Extensive experiments show that our method significantly outperforms prior methods addressing only one or two of the tasks.
翻訳日:2023-05-25 16:07:22 公開日:2023-05-24
# スクラッチによる文埋め込みの対比学習

Contrastive Learning of Sentence Embeddings from Scratch ( http://arxiv.org/abs/2305.15077v1 )

ライセンス: Link先を確認
Junlei Zhang, Zhenzhong Lan, Junxian He(参考訳) コントラスト学習は、最先端の文埋め込みを訓練する主要なアプローチである。 これまでの研究は、人間の注釈付き自然言語推論(nli)データや、教師なしの大規模非ラベル文を用いて、文埋め込みを学習してきた。 しかし、ラベルのないデータであっても、様々な理由から特定のドメインで課題を提起している。 これらの問題に対処するために、合成データによる文埋め込みを訓練するコントラスト学習フレームワークSynCSEを提案する。 具体的には,(1)ラベルなし文(同期部分)に対する肯定的および否定的アノテーションの生成,(2)対応するアノテーションをスクラッチから生成すること(同期スクラッチ),など,比較学習に必要なデータサンプルを合成する大規模言語モデルの利用について検討する。 SynCSE-partial と SynCSE-scratch はどちらも教師なしベースラインを大幅に上回り、SynCSE-partial は教師付きモデルに匹敵する性能をほとんどの設定で達成している。

Contrastive learning has been the dominant approach to train state-of-the-art sentence embeddings. Previous studies have typically learned sentence embeddings either through the use of human-annotated natural language inference (NLI) data or via large-scale unlabeled sentences in an unsupervised manner. However, even in the case of unlabeled data, their acquisition presents challenges in certain domains due to various reasons. To address these issues, we present SynCSE, a contrastive learning framework that trains sentence embeddings with synthesized data. Specifically, we explore utilizing large language models to synthesize the required data samples for contrastive learning, including (1) producing positive and negative annotations given unlabeled sentences (SynCSE-partial), and (2) generating sentences along with their corresponding annotations from scratch (SynCSE-scratch). Experimental results on sentence similarity and reranking tasks indicate that both SynCSE-partial and SynCSE-scratch greatly outperform unsupervised baselines, and SynCSE-partial even achieves comparable performance to the supervised models in most settings.
翻訳日:2023-05-25 16:06:47 公開日:2023-05-24
# メタ学習による言語モデルのオンライン適応

Meta-Learning Online Adaptation of Language Models ( http://arxiv.org/abs/2305.15076v1 )

ライセンス: Link先を確認
Nathan Hu, Eric Mitchell, Christopher D. Manning, Chelsea Finn(参考訳) 大きな言語モデルは、驚くほど広い世界の知識をパラメータにエンコードする。 しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「棚の生命」を制限することができる。 オンラインの微調整は、この劣化を減らすことができるが、adamのような標準のオプティマイザを使ったドキュメントストリームの微調整は、残念なほど低いレベルの情報取り込みをもたらす。 オンラインの微調整は重要な情報に十分「注意」できないと仮定する。 すなわち、事実情報を表す重要なトークンからの勾配信号は、本質的にノイズの多いトークンからの勾配によって取り除かれ、動的で文脈対応の学習速度が有益な可能性があることを示唆している。 この仮説をテストするために、オンラインの微調整中にトークン毎の言語モデリングの損失を再強調するために、小さな自己回帰モデル(autoregressive model)をメタトレーニングします。 このアプローチをコンテキスト対応メタ学習ロススケーリング(CaMeLS)と呼ぶ。 実験の結果,CaMeLSを用いた何千もの文書ストリームの微調整は,標準的なオンライン微調整に比べて知識保持を著しく向上させることがわかった。 最後に、メタ学習重みは一般的なものであり、多くのLMのオンライン適応性を高めるために単一の再重み付けモデルを用いることができる。

Large language models encode surprisingly broad knowledge about the world into their parameters. However, the knowledge in static language models can fall out of date, limiting the model's effective "shelf life." While online fine-tuning can reduce this degradation, we find that fine-tuning on a stream of documents using standard optimizers such as Adam leads to a disappointingly low level of information uptake. We hypothesize that online fine-tuning does not sufficiently 'attend' to important information. That is, the gradient signal from important tokens representing factual information is drowned out by the gradient from inherently noisy tokens, suggesting a dynamic, context-aware learning rate may be beneficial. To test this hypothesis, we meta-train a small, autoregressive model to reweight the language modeling loss for each token during online fine-tuning, with the objective of maximizing the out-of-date base language model's ability to answer questions about a document after a single weighted gradient step. We call this approach Context-aware Meta-learned Loss Scaling (CaMeLS). Across three different distributions of documents, our experiments find that fine-tuning on streams of thousands of documents with CaMeLS substantially improves knowledge retention compared to standard online fine-tuning. Finally, we find that the meta-learned weights are general, and that a single reweighting model can be used to enhance the online adaptation of many LMs.
翻訳日:2023-05-25 16:06:27 公開日:2023-05-24
# HuatuoGPT, 医師になるための言語モデルへの取り組み

HuatuoGPT, towards Taming Language Model to Be a Doctor ( http://arxiv.org/abs/2305.15075v1 )

ライセンス: Link先を確認
Hongbo Zhang and Junying Chen and Feng Jiang and Fei Yu and Zhihong Chen and Jianquan Li and Guiming Chen and Xiangbo Wu and Zhiyi Zhang and Qingying Xiao and Xiang Wan and Benyou Wang and Haizhou Li(参考訳) 本稿では,医療相談のための大規模言語モデル(LLM)であるHuatuoGPTを提案する。 HuatuoGPTの中核的なレシピは、監督された微調整段階において、ChatGPT} の \textit{distilled データと、医師の \textit{real-world データの両方を活用することである。 ChatGPTの反応は通常、詳細に表現され、情報的であるが、統合的診断など、多くの面で医師のようには実行できない。 我々は、医師による実世界のデータは、前者が医師のように振る舞うために蒸留された言語モデルをテームできるという意味で、蒸留されたデータと相補的であると論じている。 両方のデータの強みをうまく活用するために、私たちは報酬モデルをトレーニングし、RLAIF(AIフィードバックからの強化学習)スタイルに従って、両方のデータがもたらすメリットと言語モデルを整合させる。 モデルの評価とベンチマークを行うため,自動および手動のメトリクスを含む総合的な評価手法を提案する。 実験の結果, huatuogpt は gpt-4 評価, 人的評価, 医療ベンチマークデータセットにおいて, オープンソース llm 間の医療コンサルテーションを行い, 最先端の結果を得ることができた。 追加の現実世界データとRLAIFを使用することで、蒸留言語モデル(HuatuoGPT)は、ほとんどの場合、教師モデルChatGPTよりも優れていることに注意する必要がある。 私たちのコード、データ、モデルは、 \url{https://github.com/FreedomIntelligence/HuatuoGPT}で公開されています。 オンラインデモは \url{https://www.huatuogpt.cn/} で公開されている。

In this paper, we present HuatuoGPT, a large language model (LLM) for medical consultation. The core recipe of HuatuoGPT is to leverage both \textit{distilled data from ChatGPT} and \textit{real-world data from doctors} in the supervised fine-tuned stage. The responses of ChatGPT are usually detailed, well-presented and informative while it cannot perform like a doctor in many aspects, e.g. for integrative diagnosis. We argue that real-world data from doctors would be complementary to distilled data in the sense the former could tame a distilled language model to perform like doctors. To better leverage the strengths of both data, we train a reward model to align the language model with the merits that both data bring, following an RLAIF (reinforced learning from AI feedback) fashion. To evaluate and benchmark the models, we propose a comprehensive evaluation scheme (including automatic and manual metrics). Experimental results demonstrate that HuatuoGPT achieves state-of-the-art results in performing medical consultation among open-source LLMs in GPT-4 evaluation, human evaluation, and medical benchmark datasets. It is worth noting that by using additional real-world data and RLAIF, the distilled language model (i.e., HuatuoGPT) outperforms its teacher model ChatGPT in most cases. Our code, data, and models are publicly available at \url{https://github.com/FreedomIntelligence/HuatuoGPT}. The online demo is available at \url{https://www.HuatuoGPT.cn/}.
翻訳日:2023-05-25 16:06:05 公開日:2023-05-24
# LLMは十分に進歩したか? 大規模言語モデルのベンチマークを解く問題

Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models ( http://arxiv.org/abs/2305.15074v1 )

ライセンス: Link先を確認
Daman Arora, Himanshu Gaurav Singh, Mausam(参考訳) 既存の推論ベンチマークにおけるLLM(Large Language Models)のパフォーマンスは、ここ数年で大幅に向上した。 これに対して我々は,LLMの問題解決能力を評価する上で,かなり難しいベンチマークデータセットであるJEEBenchを提案する。 我々は, IIT JEE-Advanced 試験から, 数学, 物理, 化学の課題を450点評価した。 このベンチマークで問題を解くには、ドメイン内知識の深層に基づくロングホリゾン推論が不可欠です。 GPTシリーズの評価では、新しいモデルでは性能が向上するが、最高性能はGPT-4であり、自己整合性やChain-of-Thoughtなどの手法を用いても40%未満であることがわかった。 本分析は,GPT4の低性能に対する主要な寄与要因として,代数的操作の誤りと関連ドメイン固有概念の検索の失敗が示されている。 ベンチマークの難易度を考えると、LSMを用いた問題解決における今後の研究をガイドできることを願っている。 コードとデータセットはここにある。

The performance on Large Language Models (LLMs) on existing reasoning benchmarks has shot up considerably over the past years. In response, we present JEEBench, a considerably more challenging benchmark dataset for evaluating the problem solving abilities of LLMs. We curate 450 challenging pre-engineering mathematics, physics and chemistry problems from the IIT JEE-Advanced exam. Long-horizon reasoning on top of deep in-domain knowledge is essential for solving problems in this benchmark. Our evaluation on the GPT series of models reveals that although performance improves with newer models, the best being GPT-4, the highest performance, even after using techniques like Self-Consistency and Chain-of-Thought prompting is less than 40 percent. Our analysis demonstrates that errors in algebraic manipulation and failure in retrieving relevant domain specific concepts are primary contributors to GPT4's low performance. Given the challenging nature of the benchmark, we hope that it can guide future research in problem solving using LLMs. Our code and dataset is available here.
翻訳日:2023-05-25 16:05:36 公開日:2023-05-24
# 第1および第2近傍のみを測定するハイパーキューブにおける量子ランダムウォーク探索アルゴリズムのロバスト性

Robustness of Quantum Random Walk Search Algorithm in Hypercube when only first or both first and second neighbors are measured ( http://arxiv.org/abs/2305.15073v1 )

ライセンス: Link先を確認
Hristo Tonchev, Petar Danev(参考訳) 本研究では,ハイパーキューブ上での2つの量子ランダムウォーク探索アルゴリズムの堅牢性について検討する。 前述した最初の修正では、イテレーション毎に量子ウォークのみを適用する。 第二に、解の最も近い近傍は古典的に測定される。 提案手法では,一般家庭反射法と追加位相乗算器を用いてトラバースコインを構築し,それらの位相差に対するアルゴリズムの安定性について検討する。 我々は,これらの位相間の特定の関係を保存した場合,修正されていないアルゴリズムがより堅牢になることを示した。 ここで研究した最初の修正は、量子ランダムウォーク探索アルゴリズムのロバスト性にいかなる変化も起こさない。 しかし、第1および第2の近傍の測定を含む場合、いくつかの違いがある。 最も重要なのは、我々のロバスト性の研究から見て、アルゴリズムの安定性、特に大コイン次元の安定性の向上である。

In this work we study the robustness of two modifications of quantum random walk search algorithm on hypercube. In the first previously suggested modification, on each even iteration only quantum walk is applied. And in the second, the closest neighbors of the solution are measured classically. In our approach the traversing coin is constructed by both generalized Householder reflection and an additional phase multiplier and we investigate the stability of the algorithm to deviations in those phases. We have shown that the unmodified algorithm becomes more robust when a certain relation between those phases is preserved. The first modification we study here does not lead to any change in the robustness of quantum random walk search algorithm. However, when a measurement of the first and second neighbors is included, there are some differences. The most important one, in view of our study of the robustness, is an increase in the stability of the algorithm, especially for large coin dimensions.
翻訳日:2023-05-25 16:05:22 公開日:2023-05-24
# フーリエ変圧器:fftオペレータによるシーケンス冗長性除去による長距離高速モデリング

Fourier Transformer: Fast Long Range Modeling by Removing Sequence Redundancy with FFT Operator ( http://arxiv.org/abs/2305.15099v1 )

ライセンス: Link先を確認
Ziwei He, Meng Yang, Minwei Feng, Jingcheng Yin, Xinbing Wang, Jingwen Leng, Zhouhan Lin(参考訳) トランスフォーマーモデルは計算上必要であり、長い列に対して非常にコストがかかることが知られており、自己アテンションモジュールは列の長さに関して二次時間と空間の複雑さを用いる。 多くの研究者は、この制限を克服するために新しいタイプの自己注意を設計したり、新しいパラメータを導入したりすることに重点を置いている。 この研究では、変圧器の非効率性は別の観点から考慮されている。 本研究では,既製高速フーリエ変換 (fft) 演算子を用いて離散コサイン変換 (dct) を行うことにより,隠れ列の冗長性を漸進的に除去する手法であるフーリエ変圧器を提案する。 フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。 実験により,長距離モデリングベンチマークLRAにおけるトランスフォーマーモデル間の最先端性能が向上し,速度と空間の両面で有意な改善が得られた。 CNN/DailyMailやELI5などのシークエンス・ツー・シークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTや他の効率的なモデルよりも優れています。 \footnote{Our code is public available at \url{https://github.com/LUMIA-Group/FourierTransformer}}

The transformer model is known to be computationally demanding, and prohibitively costly for long sequences, as the self-attention module uses a quadratic time and space complexity with respect to sequence length. Many researchers have focused on designing new forms of self-attention or introducing new parameters to overcome this limitation, however a large portion of them prohibits the model to inherit weights from large pretrained models. In this work, the transformer's inefficiency has been taken care of from another perspective. We propose Fourier Transformer, a simple yet effective approach by progressively removing redundancies in hidden sequence using the ready-made Fast Fourier Transform (FFT) operator to perform Discrete Cosine Transformation (DCT). Fourier Transformer is able to significantly reduce computational costs while retain the ability to inherit from various large pretrained models. Experiments show that our model achieves state-of-the-art performances among all transformer-based models on the long-range modeling benchmark LRA with significant improvement in both speed and space. For generative seq-to-seq tasks including CNN/DailyMail and ELI5, by inheriting the BART weights our model outperforms the standard BART and other efficient models. \footnote{Our code is publicly available at \url{https://github.com/LUMIA-Group/FourierTransformer}}
翻訳日:2023-05-25 16:00:22 公開日:2023-05-24
# ゼロショット情報検索のためのReferral Augmentation

Referral Augmentation for Zero-Shot Information Retrieval ( http://arxiv.org/abs/2305.15098v1 )

ライセンス: Link先を確認
Michael Tang, Shunyu Yao, John Yang, Karthik Narasimhan(参考訳) そこで本研究では,ある文書を引用・リンクする他の文書からのテキストなど,文書インデックスと参照インデックスを結合する簡易な手法であるreferral-augmented retrieval (rar)を提案する。 この手法の背景にある重要な洞察は、レファレンスがドキュメントをより完全でマルチビューで表現することであり、pagerankのようなアルゴリズムのページリンクがウェブページの重要性を包括的に示すのと同様である。 RARはスパースと高密度のレトリバーの両方で動作し、DocT5QueryやQuery2Docのような生成テキスト拡張テクニックを37%と21%の絶対的な改善でACLの紙検索Recall@10を上回ります。 また,マルチレハラルアグリゲーションのための異なる手法を分析し,rarが再学習することなく最新の情報検索を可能にすることを示す。

We propose Referral-Augmented Retrieval (RAR), a simple technique that concatenates document indices with referrals, i.e. text from other documents that cite or link to the given document, to provide significant performance gains for zero-shot information retrieval. The key insight behind our method is that referrals provide a more complete, multi-view representation of a document, much like incoming page links in algorithms like PageRank provide a comprehensive idea of a webpage's importance. RAR works with both sparse and dense retrievers, and outperforms generative text expansion techniques such as DocT5Query and Query2Doc a 37% and 21% absolute improvement on ACL paper retrieval Recall@10 -- while also eliminating expensive model training and inference. We also analyze different methods for multi-referral aggregation and show that RAR enables up-to-date information retrieval without re-training.
翻訳日:2023-05-25 15:59:57 公開日:2023-05-24
# 建設進捗モニタリングのためのコンピュータビジョン:リアルタイム物体検出手法

Computer Vision for Construction Progress Monitoring: A Real-Time Object Detection Approach ( http://arxiv.org/abs/2305.15097v1 )

ライセンス: Link先を確認
Jiesheng Yang, Andreas Wilde, Karsten Menzel, Md Zubair Sheikh, Boris Kuznetsov(参考訳) 建設進捗監視(CPM)は、効率的なプロジェクト管理、オンタイムおよび予算の納入を保証するために不可欠である。 従来のCPMメソッドは、しばしば手動による検査と報告に頼っている。 本稿では,最先端オブジェクト検出アルゴリズムを用いたCPMの自動検出手法を提案する。 提案手法は、例えば、yolov8のリアルタイム機能と高い精度を利用して、サイト画像やビデオ内の構築要素を特定し追跡する。 さまざまなビルディング要素で構成され、トレーニングと検証のために関連するオブジェクトをアノテートしたデータセットが作成された。 提案手法の性能は,精度,リコール,F1スコアなどの基準値を用いて評価し,既存手法よりも大幅に向上した。 コンピュータビジョンをCPMに統合することで、ステークホルダーはプロジェクトの進捗を監視し、タイムリーな意思決定を促進し、最終的に建設プロジェクトの完了に寄与する信頼性、効率、費用効率のよい手段を提供する。

Construction progress monitoring (CPM) is essential for effective project management, ensuring on-time and on-budget delivery. Traditional CPM methods often rely on manual inspection and reporting, which are time-consuming and prone to errors. This paper proposes a novel approach for automated CPM using state-of-the-art object detection algorithms. The proposed method leverages e.g. YOLOv8's real-time capabilities and high accuracy to identify and track construction elements within site images and videos. A dataset was created, consisting of various building elements and annotated with relevant objects for training and validation. The performance of the proposed approach was evaluated using standard metrics, such as precision, recall, and F1-score, demonstrating significant improvement over existing methods. The integration of Computer Vision into CPM provides stakeholders with reliable, efficient, and cost-effective means to monitor project progress, facilitating timely decision-making and ultimately contributing to the successful completion of construction projects.
翻訳日:2023-05-25 15:59:42 公開日:2023-05-24
# MLMプレトレーニングのための動的マスキング速度スケジューリング

Dynamic Masking Rate Schedules for MLM Pretraining ( http://arxiv.org/abs/2305.15096v1 )

ライセンス: Link先を確認
Zachary Ankner, Naomi Saphra, Davis Blalock, Jonathan Frankle, and Matthew L. Leavitt(参考訳) Masked Language Modeling (MLM) で訓練されたトランスフォーマーのほとんどの研究は、オリジナルのBERTモデルの固定マスキングレート15%を使用している。 代わりに私たちの仕事は、トレーニングを通してマスキング比率を動的にスケジュールします。 プレトレーニング期間中にマスキング率を30%から15%に直線的に減少させることで,標準の15%固定レートと比較して平均接着精度が0.46%向上することがわかった。 さらなる分析により、スケジューリングから得られる利益は、ハイマスキングとローマスキングの双方に暴露されることが示されている。 本研究は,マスク言語モデルの品質向上と事前学習における最大1.89倍の高速化を実現するため,マスキングレートスケジューリングが簡単な方法であることを示す。

Most works on transformers trained with the Masked Language Modeling (MLM) objective use the original BERT model's fixed masking rate of 15%. Our work instead dynamically schedules the masking ratio throughout training. We found that linearly decreasing the masking rate from 30% to 15% over the course of pretraining improves average GLUE accuracy by 0.46% in BERT-base, compared to a standard 15% fixed rate. Further analyses demonstrate that the gains from scheduling come from being exposed to both high and low masking rate regimes. Our results demonstrate that masking rate scheduling is a simple way to improve the quality of masked language models and achieve up to a 1.89x speedup in pretraining.
翻訳日:2023-05-25 15:59:26 公開日:2023-05-24
# InpaintNeRF360:unbounded Neural Radiance Field上のテキストガイド3Dインペインティング

InpaintNeRF360: Text-Guided 3D Inpainting on Unbounded Neural Radiance Fields ( http://arxiv.org/abs/2305.15094v1 )

ライセンス: Link先を確認
Dongqing Wang, Tong Zhang, Alaa Abboud, Sabine S\"usstrunk(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、非常に現実的な新しいビューを生成する。 しかし、NeRFで表現される3Dシーンを360度ビューで編集し、特に幾何学的および測光的一貫性を維持しながらオブジェクトを除去することは、NeRFの暗黙的なシーン表現のために難しい問題である。 本稿では,NeRFをベースとした3Dシーンを描画するためのガイダンスとして自然言語命令を利用する統一フレームワークであるInpaintNeRF360を提案する。 また,視認性を確保するために,奥行き空間ウォーピングを応用し,知覚的事前情報を用いたインペインテッドnerfモデルをさらに洗練する。 InpaintNeRF360は、複数のオブジェクトを同時に削除したり、テキスト命令に基づいてオブジェクトの外観を変更することができる。 我々は,NeRFを用いて訓練した非有界および正面面の両方のシーンに対する広範な実験を通じて,我々のアプローチの有効性を実証し,暗示放射野の編集性を高める可能性を示した。

Neural Radiance Fields (NeRF) can generate highly realistic novel views. However, editing 3D scenes represented by NeRF across 360-degree views, particularly removing objects while preserving geometric and photometric consistency, remains a challenging problem due to NeRF's implicit scene representation. In this paper, we propose InpaintNeRF360, a unified framework that utilizes natural language instructions as guidance for inpainting NeRF-based 3D scenes.Our approach employs a promptable segmentation model by generating multi-modal prompts from the encoded text for multiview segmentation. We apply depth-space warping to enforce viewing consistency in the segmentations, and further refine the inpainted NeRF model using perceptual priors to ensure visual plausibility. InpaintNeRF360 is capable of simultaneously removing multiple objects or modifying object appearance based on text instructions while synthesizing 3D viewing-consistent and photo-realistic inpainting. Through extensive experiments on both unbounded and frontal-facing scenes trained through NeRF, we demonstrate the effectiveness of our approach and showcase its potential to enhance the editability of implicit radiance fields.
翻訳日:2023-05-25 15:59:13 公開日:2023-05-24
# CSTS: 条件付きセマンティックテキストの類似性

CSTS: Conditional Semantic Textual Similarity ( http://arxiv.org/abs/2305.15093v1 )

ライセンス: Link先を確認
Ameet Deshpande, Carlos E. Jimenez, Howard Chen, Vishvak Murahari, Victoria Graf, Tanmay Rajpurohit, Ashwin Kalyan, Danqi Chen, Karthik Narasimhan(参考訳) セマンティックテキスト類似性(STS)は、情報検索、質問応答、埋め込み方法など、一対の文間の類似度を測定するNLPにおける基礎的なタスクである。 しかし、本質的にあいまいな作業であり、文の類似性は興味のある特定の側面に依存する。 この曖昧性は、自然言語(ヘリオ, コンディション)で解明されたアスペクトで条件付けられた類似度を測定する条件STS(C-STS)と呼ばれる新しいタスクを提案することで解決する。 例えば、「nbaプレーヤーが3つポイントを放つ」と「男がテニスボールを空中に投げてサーブする」という文の類似性は、「ボールの動き」(上向きとも)と「ボールの大きさ」(大小と小小)の条件の方が高い。 C-STSの利点は2つある: 1) STSの主観性と曖昧さを低減し、(2) 多様な条件を用いた微粒な類似性評価を可能にする。 C-STSには様々なドメインから約20,000のインスタンスが含まれており、最も高性能な微調整および文脈内学習モデル(GPT-4, Flan, SimCSE)でさえ、Spearman相関スコアが50。 我々はコミュニティに対して,C-STSでのモデル評価を奨励し,セマンティックな類似性と自然言語理解のより包括的な視点を提供する。

Semantic textual similarity (STS) has been a cornerstone task in NLP that measures the degree of similarity between a pair of sentences, with applications in information retrieval, question answering, and embedding methods. However, it is an inherently ambiguous task, with the sentence similarity depending on the specific aspect of interest. We resolve this ambiguity by proposing a novel task called conditional STS (C-STS) which measures similarity conditioned on an aspect elucidated in natural language (hereon, condition). As an example, the similarity between the sentences "The NBA player shoots a three-pointer." and "A man throws a tennis ball into the air to serve." is higher for the condition "The motion of the ball." (both upward) and lower for "The size of the ball." (one large and one small). C-STS's advantages are two-fold: (1) it reduces the subjectivity and ambiguity of STS, and (2) enables fine-grained similarity evaluation using diverse conditions. C-STS contains almost 20,000 instances from diverse domains and we evaluate several state-of-the-art models to demonstrate that even the most performant fine-tuning and in-context learning models (GPT-4, Flan, SimCSE) find it challenging, with Spearman correlation scores of <50. We encourage the community to evaluate their models on C-STS to provide a more holistic view of semantic similarity and natural language understanding.
翻訳日:2023-05-25 15:58:52 公開日:2023-05-24
# FedZero:フェデレーションラーニングで再生可能エネルギーを活用する

FedZero: Leveraging Renewable Excess Energy in Federated Learning ( http://arxiv.org/abs/2305.15092v1 )

ライセンス: Link先を確認
Philipp Wiesner, Ramin Khalili, Dennis Grinwald, Pratik Agrawal, Lauritz Thamsen, Odej Kao(参考訳) Federated Learning(FL)は、データ共有なしでデータサイロやエッジデバイス間での分散モデルトレーニングを可能にする、新興の機械学習技術である。 しかし、FLは集中型モデルトレーニングと比較して必然的に非効率を導入し、将来的には、既に高いエネルギー使用量と関連する機械学習の炭素排出量をさらに増加させます。 近年,低炭素エネルギーの可利用性に基づくワークロードのスケジューリングが注目されているが,FLの文脈ではまだ研究されていない。 しかしながら、flは、地理的に分散された環境でスケジュールされたエネルギー集約的なバッチプロセスを構成するトレーニングジョブとして、カーボンアウェアコンピューティングの非常に有望なユースケースである。 我々は,再生可能エネルギーと計算インフラの予備容量を専ら運用するFLシステムであるFedZeroを提案する。 エネルギーと負荷予測に基づいて、FedZeroはチェリーピッキングクライアントによる過剰エネルギーの時空間的可用性を利用して、迅速な収束と公正な参加を図っている。 実太陽および負荷トレースに基づいて評価したところ、FedZeroは最先端のアプローチよりも制約の下でかなり早く収束し、高度にスケーラブルであり、予測エラーに対して堅牢であることがわかった。

Federated Learning (FL) is an emerging machine learning technique that enables distributed model training across data silos or edge devices without data sharing. Yet, FL inevitably introduces inefficiencies compared to centralized model training, which will further increase the already high energy usage and associated carbon emissions of machine learning in the future. Although the scheduling of workloads based on the availability of low-carbon energy has received considerable attention in recent years, it has not yet been investigated in the context of FL. However, FL is a highly promising use case for carbon-aware computing, as training jobs constitute of energy-intensive batch processes scheduled in geo-distributed environments. We propose FedZero, a FL system that operates exclusively on renewable excess energy and spare capacity of compute infrastructure to effectively reduce the training's operational carbon emissions to zero. Based on energy and load forecasts, FedZero leverages the spatio-temporal availability of excess energy by cherry-picking clients for fast convergence and fair participation. Our evaluation, based on real solar and load traces, shows that FedZero converges considerably faster under the mentioned constraints than state-of-the-art approaches, is highly scalable, and is robust against forecasting errors.
翻訳日:2023-05-25 15:58:06 公開日:2023-05-24
# 衛星画像時系列における複雑な物体変化のモデル化:CSPと時空間グラフに基づくアプローチ

Modeling Complex Object Changes in Satellite Image Time-Series: Approach based on CSP and Spatiotemporal Graph ( http://arxiv.org/abs/2305.15091v1 )

ライセンス: Link先を確認
Zouhayra Ayadi, Wadii Boulila, Imed Riadh Farah(参考訳) 本稿では,複雑な地理的物体の進化を自動的に監視し,解析する手法を提案する。 オブジェクトは空間的関係,空間的関係,時空間関係を分離した時空間グラフとしてモデル化され,制約満足度問題(CSP)を用いて頻繁な部分グラフを検出する。 第1に、衛星画像内の複素物体の同定、第2に、複素物体の時空間変化をモデル化するための時空間グラフの構築、第3に、ベース時空間グラフで検出すべき部分グラフの作成、第4に、サブグラフを検出して制約ネットワークを解いて関連する部分グラフを決定することによる時空間グラフの解析である。 最後のステップはさらに2つのサブステップに分けられる。 (i)変数や制約を定義した制約ネットワークのモデル化、 (ii)時空間グラフの関連部分グラフを見つけるための制約ネットワークの解法。 サウジアラビアの複数の都市を対象とした実世界の衛星画像を用いて実験を行い,提案手法の有効性を実証した。

This paper proposes a method for automatically monitoring and analyzing the evolution of complex geographic objects. The objects are modeled as a spatiotemporal graph, which separates filiation relations, spatial relations, and spatiotemporal relations, and is analyzed by detecting frequent sub-graphs using constraint satisfaction problems (CSP). The process is divided into four steps: first, the identification of complex objects in each satellite image; second, the construction of a spatiotemporal graph to model the spatiotemporal changes of the complex objects; third, the creation of sub-graphs to be detected in the base spatiotemporal graph; and fourth, the analysis of the spatiotemporal graph by detecting the sub-graphs and solving a constraint network to determine relevant sub-graphs. The final step is further broken down into two sub-steps: (i) the modeling of the constraint network with defined variables and constraints, and (ii) the solving of the constraint network to find relevant sub-graphs in the spatiotemporal graph. Experiments were conducted using real-world satellite images representing several cities in Saudi Arabia, and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2023-05-25 15:57:24 公開日:2023-05-24
# STAR:大規模言語モデルを用いた構造化テキストデータ生成による低リソースイベント抽出の促進

STAR: Boosting Low-Resource Event Extraction by Structure-to-Text Data Generation with Large Language Models ( http://arxiv.org/abs/2305.15090v1 )

ライセンス: Link先を確認
Mingyu Derek Ma, Xiaoxuan Wang, Po-Nien Kung, P. Jeffrey Brantingham, Nanyun Peng, Wei Wang(参考訳) イベント抽出などの構造予測タスクは、出力構造とサブタスク依存性の詳細な理解を必要とするため、適切なパフォーマンスを得るためには、依然としてタスク固有のトレーニングデータに大きく依存している。 人的アノテーションのコストが高いため、人的コストを最小限に抑える低リソースイベント抽出は、現実世界の情報抽出アプリケーションにおいて緊急に必要である。 低リソースイベント抽出性能を高めるために、限られた種実演を与えられたデータインスタンスを合成することを提案する。 本稿では,まず複雑なイベント構造(Y)を生成し,次に入力路(X)を生成する構造からテキストへのデータ生成手法STARを提案する。 詳細なステップバイステップ命令の設計を行い,自己回帰によって特定したエラーケースや品質上の問題を自己改善することが可能である。 実験の結果,STARによって生成されたデータは,低リソースのイベント抽出性能を著しく向上させることができることが示唆された。

Structure prediction tasks such as event extraction require an in-depth understanding of the output structure and sub-task dependencies, thus they still heavily rely on task-specific training data to obtain reasonable performance. Due to the high cost of human annotation, low-resource event extraction, which requires minimal human cost, is urgently needed in real-world information extraction applications. We propose to synthesize data instances given limited seed demonstrations to boost low-resource event extraction performance. We propose STAR, a structure-to-text data generation method that first generates complicated event structures (Y) and then generates input passages (X), all with Large Language Models. We design fine-grained step-by-step instructions and the error cases and quality issues identified through self-reflection can be self-refined. Our experiments indicate that data generated by STAR can significantly improve the low-resource event extraction performance and they are even more effective than human-curated data points in some cases.
翻訳日:2023-05-25 15:56:55 公開日:2023-05-24
# pento-diaref:例から表現生成を参照するインクリメンタルアルゴリズムを学ぶための診断データセット

Pento-DIARef: A Diagnostic Dataset for Learning the Incremental Algorithm for Referring Expression Generation from Examples ( http://arxiv.org/abs/2305.15087v1 )

ライセンス: Link先を確認
Philipp Sadler and David Schlangen(参考訳) nlpタスクは通常、例のインスタンス化(例:イメージiとテキストtのペア)を含むデータセットを通じて拡張的に定義されるが、タスクの言語記述で呼び出される機能(例:「tはiの記述であり、iの内容を認識し理解する必要がある」)によって動機づけられている。 本稿では,よく知られた記号的アルゴリズム(インクリメンタルアルゴリズム)によって参照表現が生成されるパズルピースの視覚領域における診断データセットであるpento-diarefを提案する。 視覚的入力から表現を生成する単純なタスク定義を考えると、ニューラルネットワークが基礎となる正規性を拾い上げ、その能力を示すのに、拡張記述(データセット)が十分かどうかが問題となる。 視覚検出ステップとターゲットデータ生成スキームによって支持されるモデルがほぼ完全なBLEU@1スコアと文の精度を達成するのに対し、より単純なベースラインは達成しない。

NLP tasks are typically defined extensionally through datasets containing example instantiations (e.g., pairs of image i and text t), but motivated intensionally through capabilities invoked in verbal descriptions of the task (e.g., "t is a description of i, for which the content of i needs to be recognised and understood"). We present Pento-DIARef, a diagnostic dataset in a visual domain of puzzle pieces where referring expressions are generated by a well-known symbolic algorithm (the "Incremental Algorithm"), which itself is motivated by appeal to a hypothesised capability (eliminating distractors through application of Gricean maxims). Our question then is whether the extensional description (the dataset) is sufficient for a neural model to pick up the underlying regularity and exhibit this capability given the simple task definition of producing expressions from visual inputs. We find that a model supported by a vision detection step and a targeted data generation scheme achieves an almost perfect BLEU@1 score and sentence accuracy, whereas simpler baselines do not.
翻訳日:2023-05-25 15:56:35 公開日:2023-05-24
# ランダム射影測定による量子リセットの最初の検出確率

First detection probability in quantum resetting via random projective measurements ( http://arxiv.org/abs/2305.15123v1 )

ライセンス: Link先を確認
Manas Kulkarni, Satya N. Majumdar(参考訳) ランダム射影測定対象の汎用量子系における「興味のある状態」の最初の検出時間の確率分布を$F_r(t)$で計算する一般的なフレームワークを提供する。 我々の「量子リセット」プロトコルでは、状態のリセットは古典的確率的な動きによってではなく、ランダムな射影測定によって実装される。 次に、この一般的なフレームワークを定数率$r$でPoissoinan測定プロトコルに適用し、一般的な2レベルシステムに対して$F_r(t)$の正確な結果を得ることができることを示す。 興味深いことに、結果は関連する検出スキームに大きく依存しており、関心の状態が初期状態と一致するか異なるかの2つの補完スキームを研究している。 最初のスキームでは$F_r(t)$は$F_r(t)\sim t^2$として$t\to 0$として、第二スキームでは$t\to 0$として定数に近づく。 平均最初の検出時間は、測定レート$r$の関数として、2つのスキームでかなり異なる挙動を示す。 前者では、平均検出時間は、最大値$r^*$で1つの最小値を持つ$r$の非単調関数であり、後者では、有限の最適値が存在しないことをシグナルとして$r$の単調に減少する関数である。 これらの任意の2レベルシステムの一般的な予測は、光-物質相互作用のJaynes-Cummingsモデルにおいて明示的な計算によって検証される。 また, 非ポアソニアン測定プロトコルに対して, 連続独立測定値間の間隔を一般分布 $p(\tau)$ で分配する更新構造を一般化し, 短時間の$f_r(t)\sim p(0)\, t^2$ の挙動が $p(0)\ne 0$ であることを示す。 この普遍的な$t^2$法則は、初期において支配的な純粋量子力学から生じる。

We provide a general framework to compute the probability distribution $F_r(t)$ of the first detection time of a 'state of interest' in a generic quantum system subjected to random projective measurements. In our 'quantum resetting' protocol, resetting of a state is not implemented by an additional classical stochastic move, but rather by the random projective measurement. We then apply this general framework to Poissoinan measurement protocol with a constant rate $r$ and demonstrate that exact results for $F_r(t)$ can be obtained for a generic two level system. Interestingly, the result depends crucially on the detection schemes involved and we have studied two complementary schemes, where the state of interest either coincides or differs from the initial state. We show that $F_r(t)$ at short times vanishes universally as $F_r(t)\sim t^2$ as $t\to 0$ in the first scheme, while it approaches a constant as $t\to 0$ in the second scheme. The mean first detection time, as a function of the measurement rate $r$, also shows rather different behaviors in the two schemes. In the former, the mean detection time is a nonmonotonic function of $r$ with a single minimum at an optimal value $r^*$, while in the later, it is a monotonically decreasing function of $r$, signalling the absence of a finite optimal value. These general predictions for arbitrary two level systems are then verified via explicit computation in the Jaynes-Cummings model of light-matter interaction. We also generalise our results to non-Poissonian measurement protocols with a renewal structure where the intervals between successive independent measurements are distributed via a general distribution $p(\tau)$ and show that the short time behavior of $F_r(t)\sim p(0)\, t^2$ is universal as long as $p(0)\ne 0$. This universal $t^2$ law emerges from purely quantum dynamics that dominates at early times.
翻訳日:2023-05-25 15:49:09 公開日:2023-05-24
# 表データによる深部異常検出のための個別入力

Beyond Individual Input for Deep Anomaly Detection on Tabular Data ( http://arxiv.org/abs/2305.15121v1 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel and Bich-Li\^en Doan(参考訳) 異常検出は金融、医療、サイバーセキュリティなど様々な分野において不可欠である。 本稿では,教師付きタスクのために最初に提案された非パラメトリックトランスフォーマ(npts)を利用して,特徴量とサンプル値の両方の依存関係をキャプチャする,新しい深層異常検出法を提案する。 再構成に基づくフレームワークでは,NPTモデルを用いて正規サンプルのマスク特徴を再構成する。 モデルでは,推論中にマスクした特徴を再構成し,異常スコアを生成する。 我々の知る限り、本提案手法は、表付きデータセットにおける異常検出のための特徴特徴とサンプルサンプルの依存関係を結合する最初の方法である。 本手法は,表型データセットの広範なベンチマークで評価し,f1-score と auroc の両方に基づく既存の最先端手法よりも優れることを示す。 さらに,本研究は,表データ上の他のタスクに対するNPTの可能性を探るための新たな研究指針を開く。

Anomaly detection is crucial in various domains, such as finance, healthcare, and cybersecurity. In this paper, we propose a novel deep anomaly detection method for tabular data that leverages Non-Parametric Transformers (NPTs), a model initially proposed for supervised tasks, to capture both feature-feature and sample-sample dependencies. In a reconstruction-based framework, we train the NPT model to reconstruct masked features of normal samples. We use the model's ability to reconstruct the masked features during inference to generate an anomaly score. To the best of our knowledge, our proposed method is the first to combine both feature-feature and sample-sample dependencies for anomaly detection on tabular datasets. We evaluate our method on an extensive benchmark of tabular datasets and demonstrate that our approach outperforms existing state-of-the-art methods based on both the F1-Score and AUROC. Moreover, our work opens up new research directions for exploring the potential of NPTs for other tasks on tabular data.
翻訳日:2023-05-25 15:48:30 公開日:2023-05-24
# 形態素タグのもう1つの行き止まり? 摂動入力とパーシング

Another Dead End for Morphological Tags? Perturbed Inputs and Parsing ( http://arxiv.org/abs/2305.15119v1 )

ライセンス: Link先を確認
Alberto Mu\~noz-Ortiz and David Vilares(参考訳) 構文解析におけるpart-of-speech タグの有用性は,単語文脈付きパーサの成功によって大いに疑問視されている。 しかし、ほとんどの研究は粗い粒度のタグと高品質のコンテンツに限られています。 これらの設定を拡張し、逆攻撃を設計し、パーサーによる形態情報の使用の有無を検証する。 i) エラーの伝播に寄与する、または (ii)一方、単語のみのニューラルパーサが犯す誤りを訂正する役割を果たせる場合。 14の多様なud木バンクの結果は、そのような攻撃下では、トランジッションモデルやグラフベースモデルの場合、パフォーマンスがさらに速く低下すると同時に、(よりパフォーマンスの低い)シーケンスラベリングパーサが有用であることを示している。 また, 形態素タグが語彙摂動に対してユートピーに頑健であれば, 解析ミスを訂正できることを示した。

The usefulness of part-of-speech tags for parsing has been heavily questioned due to the success of word-contextualized parsers. Yet, most studies are limited to coarse-grained tags and high quality written content; while we know little about their influence when it comes to models in production that face lexical errors. We expand these setups and design an adversarial attack to verify if the use of morphological information by parsers: (i) contributes to error propagation or (ii) if on the other hand it can play a role to correct mistakes that word-only neural parsers make. The results on 14 diverse UD treebanks show that under such attacks, for transition- and graph-based models their use contributes to degrade the performance even faster, while for the (lower-performing) sequence labeling parsers they are helpful. We also show that if morphological tags were utopically robust against lexical perturbations, they would be able to correct parsing mistakes.
翻訳日:2023-05-25 15:48:13 公開日:2023-05-24
# マトロイド制約によるストリーミングサブモジュラー最大化の公平性

Fairness in Streaming Submodular Maximization over a Matroid Constraint ( http://arxiv.org/abs/2305.15118v1 )

ライセンス: Link先を確認
Marwa El Halabi, Federico Fusco, Ashkan Norouzi-Fard, Jakab Tardos, Jakub Tarnawski(参考訳) ストリーミングサブモジュールの最大化は、大規模データセットから代表サブセットを選択するタスクの自然なモデルである。 データポイントが性別や人種のような繊細な属性を持つ場合、偏見や差別を避けるために公平さを強制することが重要になる。 これにより、公正な機械学習アルゴリズムの開発に大きな関心が寄せられた。 近年,濃度制約下での単調部分モジュラー最大化のためのアルゴリズムが開発されている。 本稿では,この問題をマトロイド制約に自然に一般化する手法について検討する。 ストリーミングアルゴリズムと、効率、品質、公正性のトレードオフを提供する非可視性結果を提供する。 本研究は,代表的なクラスタリング,映画レコメンデーション,ソーシャルネットワークにおける最大カバレッジなど,よく知られた実世界の応用を実証的に検証する。

Streaming submodular maximization is a natural model for the task of selecting a representative subset from a large-scale dataset. If datapoints have sensitive attributes such as gender or race, it becomes important to enforce fairness to avoid bias and discrimination. This has spurred significant interest in developing fair machine learning algorithms. Recently, such algorithms have been developed for monotone submodular maximization under a cardinality constraint. In this paper, we study the natural generalization of this problem to a matroid constraint. We give streaming algorithms as well as impossibility results that provide trade-offs between efficiency, quality and fairness. We validate our findings empirically on a range of well-known real-world applications: exemplar-based clustering, movie recommendation, and maximum coverage in social networks.
翻訳日:2023-05-25 15:47:55 公開日:2023-05-24
# 考察:特徴フィードバックに基づく臨床的に誘発された甲状腺超音波病変の検出

Thinking Twice: Clinical-Inspired Thyroid Ultrasound Lesion Detection Based on Feature Feedback ( http://arxiv.org/abs/2305.15114v1 )

ライセンス: Link先を確認
Lingtao Wang, Jianrui Ding, Fenghe Tang, Chunping Ning(参考訳) 甲状腺病変の正確な検出はコンピュータ診断の重要な側面である。 しかし,既存のほとんどの検出手法は1つの特徴抽出処理のみを実行し,超音波画像のノイズやぼやけた特徴の影響を受けうるマルチスケール特徴を融合する。 本研究では,臨床診断に触発された特徴フィードバック機構に基づく新たな検出ネットワークを提案する。 このメカニズムは、まず全体像を大まかに観察し、興味の詳細に焦点を当てる。 フィードバック機能選択モジュールと機能フィードバックピラミッドの2つの部分で構成されている。 フィードバック特徴選択モジュールは、空間及びチャネル次元の第一フェーズで抽出された特徴を効率よく選択し、粗い観察に類似した高い意味的事前知識を生成する。 特徴フィードバックピラミッドは、この高い意味的事前知識を使用して、第2フェーズにおける特徴抽出を強化し、2つの特徴を適応的に融合させる。 また, 放射線技師は診断用病変の形状や大きさに注目することが多いため, 多スケールの特徴を集約する適応型検出ヘッド戦略を提案する。 提案手法は, 甲状腺超音波データセットのAPが70.3%, AP50が99.0%であり, リアルタイム要件を満たす。 コードはhttps://github.com/HIT-wanglingtao/Thinking-Twice.comで公開されている。

Accurate detection of thyroid lesions is a critical aspect of computer-aided diagnosis. However, most existing detection methods perform only one feature extraction process and then fuse multi-scale features, which can be affected by noise and blurred features in ultrasound images. In this study, we propose a novel detection network based on a feature feedback mechanism inspired by clinical diagnosis. The mechanism involves first roughly observing the overall picture and then focusing on the details of interest. It comprises two parts: a feedback feature selection module and a feature feedback pyramid. The feedback feature selection module efficiently selects the features extracted in the first phase in both space and channel dimensions to generate high semantic prior knowledge, which is similar to coarse observation. The feature feedback pyramid then uses this high semantic prior knowledge to enhance feature extraction in the second phase and adaptively fuses the two features, similar to fine observation. Additionally, since radiologists often focus on the shape and size of lesions for diagnosis, we propose an adaptive detection head strategy to aggregate multi-scale features. Our proposed method achieves an AP of 70.3% and AP50 of 99.0% on the thyroid ultrasound dataset and meets the real-time requirement. The code is available at https://github.com/HIT-wanglingtao/Thinking-Twice.
翻訳日:2023-05-25 15:47:43 公開日:2023-05-24
# OPC UAを用いた強化学習の活用に関するミニレビュー

A Mini Review on the utilization of Reinforcement Learning with OPC UA ( http://arxiv.org/abs/2305.15113v1 )

ライセンス: Link先を確認
Simon Schindler, Martin Uray, Stefan Huber(参考訳) 強化学習(Reinforcement Learning, RL)は、ロボット工学、自然言語処理、ゲームプレイといった様々な分野に適用された強力な機械学習パラダイムである。 シーケンシャルな意思決定問題を解決するために、設計は経験から学び、動的環境の変化に適応できる。 これらの能力により、産業における複雑なプロセスの制御と最適化の第一候補となる。 この可能性を完全に活用する鍵は、既存の産業システムへのRLのシームレスな統合である。 産業用通信標準であるOpen Platform Communications UnifiedArchitecture (OPC UA)はこのギャップを埋める可能性がある。 しかし、RLとOPC UAは異なる分野のものであるため、研究者は2つの技術間のギャップを埋める必要がある。 この研究は、このギャップを埋めるために、両方の技術の技術的な概要を簡潔に提供し、RLとOPC UAをどのように組み合わせて適用するかについての洞察を得るために、半発掘的な文献レビューを実施している。 この調査では、RLとOPC UAの交差に続き、3つの主要な研究トピックが特定されている。 文献レビューの結果は、RLは産業プロセスの制御と最適化のための有望な技術であるが、現実のシナリオに適度に少ない労力で展開するために必要な標準化されたインターフェースを持っていないことを示している。

Reinforcement Learning (RL) is a powerful machine learning paradigm that has been applied in various fields such as robotics, natural language processing and game playing achieving state-of-the-art results. Targeted to solve sequential decision making problems, it is by design able to learn from experience and therefore adapt to changing dynamic environments. These capabilities make it a prime candidate for controlling and optimizing complex processes in industry. The key to fully exploiting this potential is the seamless integration of RL into existing industrial systems. The industrial communication standard Open Platform Communications UnifiedArchitecture (OPC UA) could bridge this gap. However, since RL and OPC UA are from different fields,there is a need for researchers to bridge the gap between the two technologies. This work serves to bridge this gap by providing a brief technical overview of both technologies and carrying out a semi-exhaustive literature review to gain insights on how RL and OPC UA are applied in combination. With this survey, three main research topics have been identified, following the intersection of RL with OPC UA. The results of the literature review show that RL is a promising technology for the control and optimization of industrial processes, but does not yet have the necessary standardized interfaces to be deployed in real-world scenarios with reasonably low effort.
翻訳日:2023-05-25 15:47:21 公開日:2023-05-24
# 部分データからのカオス力学の再構成,予測,安定性

Reconstruction, forecasting, and stability of chaotic dynamics from partial data ( http://arxiv.org/abs/2305.15111v1 )

ライセンス: Link先を確認
Elise \"Ozalp and Georgios Margazoglou and Luca Magri(参考訳) 部分的観測によるカオスシステムの安定性の予測と計算は、従来の方程式に基づく方法が適さないタスクである。 本稿では,データ駆動方式を提案する。 (i)観測されていない(隠された)カオス変数のダイナミクスを推測する(フルステート再構成) 二 完全状態の進化を予知すること、及び (iii)全状態の安定性を推定する。 タスクは、長い短期記憶(LSTM)ネットワークで実行され、状態の一部に制限された観測(データ)で訓練される。 (i)低分解能LSTM(LH-LSTM)は、トレーニング入力として部分的な観察を行い、損失を計算する際にシステム全体の状態にアクセスする必要がある。 (II) 物理インフォームドLSTM (PI-LSTM) は、部分的な観測と力学系の進化方程式の積分的な定式化を組み合わせたものである。 まず、我々は lstms のヤコビアンを導出する。 第二に、カオス偏微分方程式、倉本-シヴァシンスキー(KS)およびローレンツ-96系を解析する。 提案するネットワークは,時間的および統計的に隠れた変数を予測できることを示す。 カオス的アトラクタの安定性を特徴づけるリアプノフ指数と共変リアプノフベクトルは、部分的観測から正しく推測される。 第3に、PI-LSTMは、入力次元が小さい場合や、アトラクターのKaplan-Yorke次元に類似する場合に隠れたカオス力学を再構築し、LH-LSTMより優れる。 この研究は、完全な状態を再構築し、隠れた変数を推論し、部分的なデータからカオスシステムの安定性を計算する新しい機会を開く。

The forecasting and computation of the stability of chaotic systems from partial observations are tasks for which traditional equation-based methods may not be suitable. In this computational paper, we propose data-driven methods to (i) infer the dynamics of unobserved (hidden) chaotic variables (full-state reconstruction); (ii) time forecast the evolution of the full state; and (iii) infer the stability properties of the full state. The tasks are performed with long short-term memory (LSTM) networks, which are trained with observations (data) limited to only part of the state: (i) the low-to-high resolution LSTM (LH-LSTM), which takes partial observations as training input, and requires access to the full system state when computing the loss; and (ii) the physics-informed LSTM (PI-LSTM), which is designed to combine partial observations with the integral formulation of the dynamical system's evolution equations. First, we derive the Jacobian of the LSTMs. Second, we analyse a chaotic partial differential equation, the Kuramoto-Sivashinsky (KS), and the Lorenz-96 system. We show that the proposed networks can forecast the hidden variables, both time-accurately and statistically. The Lyapunov exponents and covariant Lyapunov vectors, which characterize the stability of the chaotic attractors, are correctly inferred from partial observations. Third, the PI-LSTM outperforms the LH-LSTM by successfully reconstructing the hidden chaotic dynamics when the input dimension is smaller or similar to the Kaplan-Yorke dimension of the attractor. This work opens new opportunities for reconstructing the full state, inferring hidden variables, and computing the stability of chaotic systems from partial data.
翻訳日:2023-05-25 15:47:00 公開日:2023-05-24
# セマンティック学習によるLTL合成における勝利政策

Guessing Winning Policies in LTL Synthesis by Semantic Learning ( http://arxiv.org/abs/2305.15109v1 )

ライセンス: Link先を確認
Jan Kretinsky, Tobias Meggendorfer, Maximilian Prokop, Sabine Rieder(参考訳) LTL合成問題から派生したパリティゲームにおいて,勝利戦略を推測する学習的手法を提案する。 安価に得られる推測は、いくつかの応用で有用である。 ゲームの大きさが厳密なアプローチを禁止している場合に、予想される戦略を最善策として適用できるだけでなく、厳密なLTL合成のスケーラビリティをいくつかの方法で向上させることもできる。 まず、予測された戦略が勝っているかどうかを確認することは、構築するよりも容易である。 第二に、もし推測が間違っていたとしても、戦略イテレーションによってスクラッチから構築するよりも早く修正することができる。 第3に、この推測は、最も実りある方向の探査を優先するために、オンザフライアプローチで使用できる。 以前の作品とは対照的に (i)~ゲーム状態における高度に構造化された論理情報、いわゆるセマンティックラベリング(最近のLTL-to-automata翻訳)、および (ii) 事前に解決されたゲームから学習することで、それを適切に反映させることにより、解決プロセスを人間的な推論に近づける。

We provide a learning-based technique for guessing a winning strategy in a parity game originating from an LTL synthesis problem. A cheaply obtained guess can be useful in several applications. Not only can the guessed strategy be applied as best-effort in cases where the game's huge size prohibits rigorous approaches, but it can also increase the scalability of rigorous LTL synthesis in several ways. Firstly, checking whether a guessed strategy is winning is easier than constructing one. Secondly, even if the guess is wrong in some places, it can be fixed by strategy iteration faster than constructing one from scratch. Thirdly, the guess can be used in on-the-fly approaches to prioritize exploration in the most fruitful directions. In contrast to previous works, we (i)~reflect the highly structured logical information in game's states, the so-called semantic labelling, coming from the recent LTL-to-automata translations, and (ii)~learn to reflect it properly by learning from previously solved games, bringing the solving process closer to human-like reasoning.
翻訳日:2023-05-25 15:46:33 公開日:2023-05-24
# SPARQLセマンティックパーシングにおけるT2T LMにおける出力語彙の役割

The Role of Output Vocabulary in T2T LMs for SPARQL Semantic Parsing ( http://arxiv.org/abs/2305.15108v1 )

ライセンス: Link先を確認
Debayan Banerjee, Pranav Ajit Nair, Ricardo Usbeck, Chris Biemann(参考訳) 本研究では,テキスト・ツー・テキスト(t2t)モデルにおける出力語彙の役割を,sparql意味解析のタスクで分析する。 我々は、知識グラフ質問応答(kgqa)のコンテキスト内で実験を行い、タスクは自然言語の質問をsparqlクエリ言語に変換することである。 我々は,クエリ語彙が人間の語彙と異なることを観察する。 言語モデル(LM)は、人間の言語タスクのために事前訓練されているため、クエリ語彙をLMトークン化に慣れた語彙に置き換えれば、モデルの性能が向上する可能性がある。 クエリに対して慎重に選択された語彙置換を行い、GrailQAデータセットの17%の範囲で絶対的なゲインを求める。

In this work, we analyse the role of output vocabulary for text-to-text (T2T) models on the task of SPARQL semantic parsing. We perform experiments within the the context of knowledge graph question answering (KGQA), where the task is to convert questions in natural language to the SPARQL query language. We observe that the query vocabulary is distinct from human vocabulary. Language Models (LMs) are pre-dominantly trained for human language tasks, and hence, if the query vocabulary is replaced with a vocabulary more attuned to the LM tokenizer, the performance of models may improve. We carry out carefully selected vocabulary substitutions on the queries and find absolute gains in the range of 17% on the GrailQA dataset.
翻訳日:2023-05-25 15:46:14 公開日:2023-05-24
# SBOX-COSTベンチマークスイートにおける厳密なボックス制約問題に対するモジュラCMA-ESの解析

Analysis of modular CMA-ES on strict box-constrained problems in the SBOX-COST benchmarking suite ( http://arxiv.org/abs/2305.15102v1 )

ライセンス: Link先を確認
Diederick Vermetten and Manuel L\'opez-Ib\'a\~nez and Olaf Mersmann and Richard Allmendinger and Anna V. Kononova(参考訳) ボックス制約は決定変数の領域を制限し、例えば物理的、自然的、空間的制限のために現実世界の最適化問題に共通する。 したがって、ボックス制約に違反する解は回避できない。 この仮定は、COCO/BBOBのような既存のベンチマークスイートのような文献では無視されることが多く、オプティマイザは実現不可能なソリューションを評価することができる。 本稿では,bbobベンチマークスイートの変種であるstrict-box-constrained benchmarking suite(sbox-cost)に関する初期研究について述べる。 具体的には,BBOBとSBOX-COSTのパフォーマンス差を2つの初期化法と6つの制約処理戦略の関数として理解したい。 期待に反して、飽和によるbox-constraintsの処理は、まったく処理しないよりも必ずしもよいものではないことが分かっています。 しかしながら、すべてのBBOB関数において、飽和度は処理しないよりも優れており、その差は次元の数によって増加する。 厳密なボックス制約は、特に問題次元が増加するにつれて、古典的なcma-esの性能に明確な負の影響(均一なランダム初期化と制約ハンドリングがない)を持つ。

Box-constraints limit the domain of decision variables and are common in real-world optimization problems, for example, due to physical, natural or spatial limitations. Consequently, solutions violating a box-constraint may not be evaluable. This assumption is often ignored in the literature, e.g., existing benchmark suites, such as COCO/BBOB, allow the optimizer to evaluate infeasible solutions. This paper presents an initial study on the strict-box-constrained benchmarking suite (SBOX-COST), which is a variant of the well-known BBOB benchmark suite that enforces box-constraints by returning an invalid evaluation value for infeasible solutions. Specifically, we want to understand the performance difference between BBOB and SBOX-COST as a function of two initialization methods and six constraint-handling strategies all tested with modular CMA-ES. We find that, contrary to what may be expected, handling box-constraints by saturation is not always better than not handling them at all. However, across all BBOB functions, saturation is better than not handling, and the difference increases with the number of dimensions. Strictly enforcing box-constraints also has a clear negative effect on the performance of classical CMA-ES (with uniform random initialization and no constraint handling), especially as problem dimensionality increases.
翻訳日:2023-05-25 15:46:03 公開日:2023-05-24
# octバイオマーカー分類のための臨床ラベル付きコントラスト学習

Clinically Labeled Contrastive Learning for OCT Biomarker Classification ( http://arxiv.org/abs/2305.15154v1 )

ライセンス: Link先を確認
Kiran Kokilepersaud, Stephanie Trejo Corona, Mohit Prabhushankar, Ghassan AlRegib, Charles Wykoff(参考訳) 本稿では,臨床データから抽出可能なラベルに基づく医用画像の対比学習のための,新しい正負のセット選択戦略を提案する。 医学分野では、診断と治療のプロセスの異なる段階で異なる目的のために機能するデータのための様々なラベルが存在する。 臨床ラベルとバイオマーカーは2つの例である。 一般的に、臨床ラベルは定期的な臨床治療中に定期的に収集されるため、より多くの量で入手しやすいが、バイオマーカーラベルは専門家による分析と解釈を必要とする。 眼科領域では,光学コヒーレンストモグラフィー(OCT)スキャンで現れるバイオマーカー構造と臨床値の相関が示されている。 この関係をバイオマーカーラベルのないデータのための擬似ラベルとして臨床データを用いて活用し,教師付きコントラスト損失を伴うバックボーンネットワークのトレーニングのための正のインスタンスと負のインスタンスを選択する。 このようにして、バックボーンネットワークは、利用可能な臨床データ分布に合わせて表現空間を学習する。 次に、この方法で訓練されたネットワークを、クロスエントロピー損失を伴うバイオマーカーラベルデータの少ない量で微調整し、これらの主要な疾患指標をoctスキャンから直接分類する。 また,臨床のコントラスト損失を線形に組み合わせた手法を提案することで,この概念を拡大する。 我々は, 異なる粒度のバイオマーカーを用いた新しい環境下で, 自己管理手法の状態を評価した。 総バイオマーカー検出AUROCでは,最大5倍の性能向上を示した。

This paper presents a novel positive and negative set selection strategy for contrastive learning of medical images based on labels that can be extracted from clinical data. In the medical field, there exists a variety of labels for data that serve different purposes at different stages of a diagnostic and treatment process. Clinical labels and biomarker labels are two examples. In general, clinical labels are easier to obtain in larger quantities because they are regularly collected during routine clinical care, while biomarker labels require expert analysis and interpretation to obtain. Within the field of ophthalmology, previous work has shown that clinical values exhibit correlations with biomarker structures that manifest within optical coherence tomography (OCT) scans. We exploit this relationship by using the clinical data as pseudo-labels for our data without biomarker labels in order to choose positive and negative instances for training a backbone network with a supervised contrastive loss. In this way, a backbone network learns a representation space that aligns with the clinical data distribution available. Afterwards, we fine-tune the network trained in this manner with the smaller amount of biomarker labeled data with a cross-entropy loss in order to classify these key indicators of disease directly from OCT scans. We also expand on this concept by proposing a method that uses a linear combination of clinical contrastive losses. We benchmark our methods against state of the art self-supervised methods in a novel setting with biomarkers of varying granularity. We show performance improvements by as much as 5\% in total biomarker detection AUROC.
翻訳日:2023-05-25 15:40:18 公開日:2023-05-24
# カウリフラワーにおける画像ベースハーベスト可読性予測のためのサリエンシマップクラスタからの信頼性スコア

Reliability Scores from Saliency Map Clusters for Improved Image-based Harvest-Readiness Prediction in Cauliflower ( http://arxiv.org/abs/2305.15149v1 )

ライセンス: Link先を確認
Jana Kierdorf and Ribana Roscher(参考訳) カウリフラワー(Cauliflower)は、収穫時期を重要視する販売の高品質な基準を満たさなければならない手作作物である。 しかし、カリフラワーの頭部が天蓋で覆われているため、正確な収量決定は困難である。 ディープラーニングは自動収穫可否推定を可能にするが、フィールド変数と限られたトレーニングデータによる誤差が発生する可能性がある。 本稿では,解釈可能な機械学習を用いて,収穫量分類器の信頼性を解析する。 塩分マップのクラスターを同定することにより,各分類結果に対する信頼性スコアを,領域と画像特性に関する知識を用いて導出する。 見えないデータの場合、信頼性は使用できます。 (i)農家に意思決定を改善するよう指示し、 (ii)モデル予測精度を向上させる。 また,GrowliFlowerデータセットと異なる発達段階における単一カリフラワー植物のRGB画像を用いて,サリエンシマッピング手法の検討を行い,信頼性スコアの質の異なる結果が得られた。 最も適切な解釈ツールを用いて、分類結果を調整し、全体の精度を88.14%に15.72%改善し、平均クラス精度を88.52%に15.44%向上させた。

Cauliflower is a hand-harvested crop that must fulfill high-quality standards in sales making the timing of harvest important. However, accurately determining harvest-readiness can be challenging due to the cauliflower head being covered by its canopy. While deep learning enables automated harvest-readiness estimation, errors can occur due to field-variability and limited training data. In this paper, we analyze the reliability of a harvest-readiness classifier with interpretable machine learning. By identifying clusters of saliency maps, we derive reliability scores for each classification result using knowledge about the domain and the image properties. For unseen data, the reliability can be used to (i) inform farmers to improve their decision-making and (ii) increase the model prediction accuracy. Using RGB images of single cauliflower plants at different developmental stages from the GrowliFlower dataset, we investigate various saliency mapping approaches and find that they result in different quality of reliability scores. With the most suitable interpretation tool, we adjust the classification result and achieve a 15.72% improvement of the overall accuracy to 88.14% and a 15.44% improvement of the average class accuracy to 88.52% for the GrowliFlower dataset.
翻訳日:2023-05-25 15:39:13 公開日:2023-05-24
# プライバシとユーティリティのバランスをとるための理論的に原理的な連合学習

Theoretically Principled Federated Learning for Balancing Privacy and Utility ( http://arxiv.org/abs/2305.15148v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Wenjie Li, Kai Chen, Shutao Xia, Qiang Yang(参考訳) 本稿では,プライバシとユーティリティのトレードオフを容易にするモデルパラメータの歪みによるプライバシ保護機構の一般学習フレームワークを提案する。 このアルゴリズムは、歪みから実際の値にマップする任意のプライバシー測定に適用できる。 フェデレーション学習では、各モデルパラメータ、各クライアント、各通信ラウンドに対するパーソナライズされたユーティリティプライバシートレードオフを実現することができる。 このような適応的できめ細かい保護は、プライバシー保護された連合学習の有効性を向上させることができる。 理論的には,本アルゴリズムが生成する保護ハイパーパラメータの効用損失と最適保護ハイパーパラメータの損失の差は,反復数でサブリニアであることが示されている。 アルゴリズムのサブリニア性は,反復回数が無限大となると,アルゴリズムの性能と最適性能の平均差がゼロになることを示す。 さらに,提案アルゴリズムの収束率について述べる。 提案手法が同一のプライバシ予算下でのベースライン手法よりも有効であることを示すため,ベンチマークデータセット上で実証実験を行った。

We propose a general learning framework for the protection mechanisms that protects privacy via distorting model parameters, which facilitates the trade-off between privacy and utility. The algorithm is applicable to arbitrary privacy measurements that maps from the distortion to a real value. It can achieve personalized utility-privacy trade-off for each model parameter, on each client, at each communication round in federated learning. Such adaptive and fine-grained protection can improve the effectiveness of privacy-preserved federated learning. Theoretically, we show that gap between the utility loss of the protection hyperparameter output by our algorithm and that of the optimal protection hyperparameter is sub-linear in the total number of iterations. The sublinearity of our algorithm indicates that the average gap between the performance of our algorithm and that of the optimal performance goes to zero when the number of iterations goes to infinity. Further, we provide the convergence rate of our proposed algorithm. We conduct empirical results on benchmark datasets to verify that our method achieves better utility than the baseline methods under the same privacy budget.
翻訳日:2023-05-25 15:38:50 公開日:2023-05-24
# ReLUニューラルネットワークにおけるテンペレからベネインオーバーフィッティングへ

From Tempered to Benign Overfitting in ReLU Neural Networks ( http://arxiv.org/abs/2305.15141v1 )

ライセンス: Link先を確認
Guy Kornowski, Gilad Yehudai, Ohad Shamir(参考訳) 過パラメータニューラルネットワーク(NN)は、ノイズの多いデータに完全に適合するように訓練された場合でも、適切に一般化する。 この現象は、補間予測器が最適に近い性能を達成する「ベニグナーオーバーフィッティング(benign overfitting)」という大きな仕事の動機となった。 近年, NNの動作は, 最適ではないが非自明であり, ノイズレベルの関数として劣化する, オーバーフィッティング(tempered overfitting)と表現されることが予想され, 実証的に確認されている。 しかし、非線形NNに対するこの主張の理論的正当性は今のところ欠落している。 本稿では,これら補完的視点の橋渡しを目的としたいくつかの結果について述べる。 本研究では, 2層relu nnを用いた簡易な分類法について検討し, 種々の仮定の下では, 1次元データの極端な場合の温和化から高次元の良性への過フィッティング遷移のタイプを証明した。 したがって、入力次元は、この設定におけるオーバーフィッティングのタイプに重要な役割を持ち、中間次元についても経験的に検証する。 全体として、我々の結果は、寸法、サンプルサイズ、アーキテクチャとトレーニングアルゴリズムの間の複雑な接続と、他方では結果が過度に適合するタイプに光を当てた。

Overparameterized neural networks (NNs) are observed to generalize well even when trained to perfectly fit noisy data. This phenomenon motivated a large body of work on "benign overfitting", where interpolating predictors achieve near-optimal performance. Recently, it was conjectured and empirically observed that the behavior of NNs is often better described as "tempered overfitting", where the performance is non-optimal yet also non-trivial, and degrades as a function of the noise level. However, a theoretical justification of this claim for non-linear NNs has been lacking so far. In this work, we provide several results that aim at bridging these complementing views. We study a simple classification setting with 2-layer ReLU NNs, and prove that under various assumptions, the type of overfitting transitions from tempered in the extreme case of one-dimensional data, to benign in high dimensions. Thus, we show that the input dimension has a crucial role on the type of overfitting in this setting, which we also validate empirically for intermediate dimensions. Overall, our results shed light on the intricate connections between the dimension, sample size, architecture and training algorithm on the one hand, and the type of resulting overfitting on the other hand.
翻訳日:2023-05-25 15:38:33 公開日:2023-05-24
# ソーシャルメディアユーザのためのトピック誘導自己紹介生成

Topic-Guided Self-Introduction Generation for Social Media Users ( http://arxiv.org/abs/2305.15138v1 )

ライセンス: Link先を確認
Chunpu Xu, Jing Li, Piji Li, Min Yang(参考訳) 何百万というユーザーがソーシャルメディアで活動している。 ユーザが自分自身やネットワークをよりよく見せるために,ユーザの興味を概説した短い文章であるソーシャルメディアの自己導入の自己生成を探索する。 従来の作業プロファイルはタグを持つユーザ(例えば年齢)に対して,文章レベルの自己紹介を調査して,ユーザがお互いを知るためのより自然で魅力的な方法を提供する。 ここでは、ユーザのツイート履歴を利用して自己導入を生成する。 このタスクは、履歴の内容が長く、騒がしく、様々な個人的な興味を示すため、非自明である。 そこで,本稿では,ユーザの興味を反映させるために,潜在トピックをモデル化し,そのトピック混合がユーザの履歴を符号化し,トピックワードが自己イントロダクションをデコードする,新たな統一トピックガイドエンコーダ・デコーダ(utged)フレームワークを提案する。 実験では、大規模なTwitterデータセットを収集し、広範な結果から、トピックモデリングなしで高度なエンコーダデコーダモデルに対するUTGEDの優位性を示している。

Millions of users are active on social media. To allow users to better showcase themselves and network with others, we explore the auto-generation of social media self-introduction, a short sentence outlining a user's personal interests. While most prior work profiles users with tags (e.g., ages), we investigate sentence-level self-introductions to provide a more natural and engaging way for users to know each other. Here we exploit a user's tweeting history to generate their self-introduction. The task is non-trivial because the history content may be lengthy, noisy, and exhibit various personal interests. To address this challenge, we propose a novel unified topic-guided encoder-decoder (UTGED) framework; it models latent topics to reflect salient user interest, whose topic mixture then guides encoding a user's history and topic words control decoding their self-introduction. For experiments, we collect a large-scale Twitter dataset, and extensive results show the superiority of our UTGED to the advanced encoder-decoder models without topic modeling.
翻訳日:2023-05-25 15:38:09 公開日:2023-05-24
# resync:リーマン部分次数に基づくロバスト回転同期

ReSync: Riemannian Subgradient-based Robust Rotation Synchronization ( http://arxiv.org/abs/2305.15136v1 )

ライセンス: Link先を確認
Huikang Liu, Xiao Li, Anthony Man-Cho So(参考訳) この研究は、様々な工学的応用で生じるロバストな回転同期問題を解くためのリーマン次数に基づくアルゴリズムであるReSyncを提示する。 resyncは、非滑らかかつ非凸な回転群上の最小二乗最小化公式を解き、基礎となる回転を直接回復することを目指している。 ランダムな汚職条件下では、ReSyncの強力な理論的保証を提供する。 具体的には、まず、ReSyncの初期化手順が、地軸回転の周囲の局所領域に存在する適切な初期点をもたらすことを示す。 次に、上記の定式化の弱いシャープネス特性を確立し、この特性を利用して、接地対地回転に対する再同期の局所線形収束を導出する。 これらの保証を組み合わせることで、ReSyncは適切な条件下での地絡回転に線形に収束する。 実験結果は再同期の有効性を示す。

This work presents ReSync, a Riemannian subgradient-based algorithm for solving the robust rotation synchronization problem, which arises in various engineering applications. ReSync solves a least-unsquared minimization formulation over the rotation group, which is nonsmooth and nonconvex, and aims at recovering the underlying rotations directly. We provide strong theoretical guarantees for ReSync under the random corruption setting. Specifically, we first show that the initialization procedure of ReSync yields a proper initial point that lies in a local region around the ground-truth rotations. We next establish the weak sharpness property of the aforementioned formulation and then utilize this property to derive the local linear convergence of ReSync to the ground-truth rotations. By combining these guarantees, we conclude that ReSync converges linearly to the ground-truth rotations under appropriate conditions. Experiment results demonstrate the effectiveness of ReSync.
翻訳日:2023-05-25 15:37:48 公開日:2023-05-24
# 画像レイアウトにおける一般化問題を理解するネットワーク

Networks are Slacking Off: Understanding Generalization Problem in Image Deraining ( http://arxiv.org/abs/2305.15134v1 )

ライセンス: Link先を確認
Jinjin Gu, Xianzheng Ma, Xiangtao Kong, Yu Qiao, Chao Dong(参考訳) Deep deraining Networkは、実験室のベンチマークで成功したが、現実世界のアプリケーションにデプロイすると、常にかなりの一般化問題に遭遇する。 ディープラーニングにおける一般的な視点は、よりリッチな画像コンテンツ知識が一般化問題の克服を促進することを期待しながら、高度に複雑なトレーニングデータの使用を促進する。 しかし,包括的かつ体系的な実験により,この戦略がネットワークの一般化能力を高めるものではないことを見出した。 逆に、ネットワークが特定の劣化に対して過度に適合する傾向が増す。 実験により, 学習データの複雑さを単純化することで, 分散ネットワークにおけるより良い一般化が達成できることが判明した。 これは、トレーニング中にネットワークがダウンしているため、すなわち、画像コンテンツの最も複雑な要素を学習し、トレーニング損失を最小限に抑えるために劣化することによる。 背景画像の複雑さが雨害よりも小さい場合、ネットワークは背景の復元を優先し、雨パターンへの過度な適合を回避し、一般化性能を向上させる。 我々の研究は、低レベルの視覚タスクにおける一般化問題をよりよく理解するための貴重な視点と方法論を提供するだけでなく、有望な実用的な可能性を示す。

Deep deraining networks, while successful in laboratory benchmarks, consistently encounter substantial generalization issues when deployed in real-world applications. A prevailing perspective in deep learning encourages the use of highly complex training data, with the expectation that a richer image content knowledge will facilitate overcoming the generalization problem. However, through comprehensive and systematic experimentation, we discovered that this strategy does not enhance the generalization capability of these networks. On the contrary, it exacerbates the tendency of networks to overfit to specific degradations. Our experiments reveal that better generalization in a deraining network can be achieved by simplifying the complexity of the training data. This is due to the networks are slacking off during training, that is, learning the least complex elements in the image content and degradation to minimize training loss. When the complexity of the background image is less than that of the rain streaks, the network will prioritize the reconstruction of the background, thereby avoiding overfitting to the rain patterns and resulting in improved generalization performance. Our research not only offers a valuable perspective and methodology for better understanding the generalization problem in low-level vision tasks, but also displays promising practical potential.
翻訳日:2023-05-25 15:37:34 公開日:2023-05-24
# 自然言語理解の定義とテストの自由度について

On Degrees of Freedom in Defining and Testing Natural Language Understanding ( http://arxiv.org/abs/2305.15130v1 )

ライセンス: Link先を確認
Saku Sugawara, Shun Tsugita(参考訳) 自然言語理解(NLU)の研究は、しばしばシステムの能力を誇張または過小評価し、結果の再現性を制限する。 これらの誤った評価は、NLUを適切に定義およびテストすることの難しさに起因する。 本稿では,2種類の研究者の自由度を同定することで,この課題を再考する。 我々はチューリングテストの本来の解釈を再検討し、NLUテストが運用定義を提供していないことを示し、テスト対象がステークホルダーの目的を満たすのに十分な言語を十分に理解していることの帰納的証拠を提供する。 言い換えれば、利害関係者は自分の目的を通じて自由にNLUを定義できます。 テスト結果を帰納的証拠として使用するためには、テストスコアの解釈が有効かどうかをステークホルダーが慎重に評価する必要がある。 しかしながら、NLUテストの設計と使用には、ターゲットスキルの指定や評価基準の定義など、他の自由度が含まれる。 その結果,利害関係者間の合意形成が困難になる。 この問題を解決するために,テストコンポーネントをまたいだ一連の検証基準からなるフレームワークである妥当性議論を提案する。 NLU研究の現在の実践がそれらの基準と結びつき、それらを総合的なチェックリストに整理できることを実証することにより、信頼性テストセットを設計し、科学的コミュニケーションを促進するための一貫性のあるガイドラインとして有効であることを示す。

Natural language understanding (NLU) studies often exaggerate or underestimate the capabilities of systems, thereby limiting the reproducibility of their findings. These erroneous evaluations can be attributed to the difficulty of defining and testing NLU adequately. In this position paper, we reconsider this challenge by identifying two types of researcher degrees of freedom. We revisit Turing's original interpretation of the Turing test and indicate that an NLU test does not provide an operational definition; it merely provides inductive evidence that the test subject understands the language sufficiently well to meet stakeholder objectives. In other words, stakeholders are free to arbitrarily define NLU through their objectives. To use the test results as inductive evidence, stakeholders must carefully assess if the interpretation of test scores is valid or not. However, designing and using NLU tests involve other degrees of freedom, such as specifying target skills and defining evaluation metrics. As a result, achieving consensus among stakeholders becomes difficult. To resolve this issue, we propose a validity argument, which is a framework comprising a series of validation criteria across test components. By demonstrating that current practices in NLU studies can be associated with those criteria and organizing them into a comprehensive checklist, we prove that the validity argument can serve as a coherent guideline for designing credible test sets and facilitating scientific communication.
翻訳日:2023-05-25 15:37:13 公開日:2023-05-24
# 不整合深部回帰問題に対する不確かさ投票専門家の混在

Mixture of Experts with Uncertainty Voting for Imbalanced Deep Regression Problems ( http://arxiv.org/abs/2305.15178v1 )

ライセンス: Link先を確認
Yuchang Jiang, Vivien Sainte Fare Garnot, Konrad Schindler, Jan Dirk Wegner(参考訳) 現実の問題、特に回帰問題に機械学習を適用する場合、データの不均衡は普遍的である。 トレーニングデータが不均衡であれば、学習はターゲット分布の密集した領域に支配され、その結果、学習された回帰器は疎有な領域で性能が低下する傾向にある。 オーバーサンプリングや再重み付けといった標準的な手段以外にも、不均衡なデータから学ぶための2つの主な方向があります。 回帰については、最近の研究は分布の連続性に依存しているが、分類では、混合・オブ・エキスパートモデルを採用し、いくつかのアンサンブルのメンバーがスパーサー領域の予測を専門とする傾向があった。 ここでは、専門家の混合アプローチを回帰設定に適応する。 このアプローチを使用する際の大きな疑問は、複数の専門家による予測をひとつのアウトプットにする方法だ。 確率的深層学習に関する最近の研究からインスピレーションを得て,個々の専門家の照会的不確実性に基づく融合を提案し,個別の集約モジュールの必要性を回避した。 提案手法はMOUVと呼ばれ,各専門家が出力値だけでなく,その不確実性も予測する。 提案手法は,複数の公開ベンチマークで既存の手法と比較し,mouvが先行技術よりも常に優れており,同時に不確実性の推定精度も向上していることを示した。 私たちのコードはリンクアップ公開で利用可能です。

Data imbalance is ubiquitous when applying machine learning to real-world problems, particularly regression problems. If training data are imbalanced, the learning is dominated by the densely covered regions of the target distribution, consequently, the learned regressor tends to exhibit poor performance in sparsely covered regions. Beyond standard measures like over-sampling or re-weighting, there are two main directions to handle learning from imbalanced data. For regression, recent work relies on the continuity of the distribution; whereas for classification there has been a trend to employ mixture-of-expert models and let some ensemble members specialize in predictions for the sparser regions. Here, we adapt the mixture-of-experts approach to the regression setting. A main question when using this approach is how to fuse the predictions from multiple experts into one output. Drawing inspiration from recent work on probabilistic deep learning, we propose to base the fusion on the aleatoric uncertainties of individual experts, thus obviating the need for a separate aggregation module. In our method, dubbed MOUV, each expert predicts not only an output value but also its uncertainty, which in turn serves as a statistically motivated criterion to rely on the right experts. We compare our method with existing alternatives on multiple public benchmarks and show that MOUV consistently outperforms the prior art, while at the same time producing better calibrated uncertainty estimates. Our code is available at link-upon-publication.
翻訳日:2023-05-25 15:30:25 公開日:2023-05-24
# 潜在談話推論を用いた事前学習多人数対話モデル

Pre-training Multi-party Dialogue Models with Latent Discourse Inference ( http://arxiv.org/abs/2305.15175v1 )

ライセンス: Link先を確認
Yiyang Li, Xinting Huang, Wei Bi, Hai Zhao(参考訳) マルチパーティ対話は、複数のインターロケータを含むため、モデルにとって1対1の対話よりも理解が難しい。 これらの障害を乗り越えるためには、多人数対話の談話構造を理解するモデル、すなわち各発話が応答するモデルを事前学習することが効果的な方法である。 しかし、マルチパーティ対話コーパスにおける明示的な注釈付き談話ラベルの欠如により、それまでの作業では、ラベルなしのマルチパーティー会話データをそのままにすることで、事前学習プロセスのスケールアップに失敗している。 ラベルなしデータを完全に活用するために, 談話構造を潜在変数として扱い, 教師なし潜伏変数推論法を用いて, 共同推論を行い, 談話認識モデルを事前学習することを提案する。 複数の下流タスクの実験では、事前学習したモデルが強いベースラインを大きなマージンで上回り、最先端(SOTA)の結果が得られ、提案手法の有効性を正当化している。 本論文の公式実装はhttps://github.com/EricLee8/MPD_EMVIで公開されている。

Multi-party dialogues are more difficult for models to understand than one-to-one two-party dialogues, since they involve multiple interlocutors, resulting in interweaving reply-to relations and information flows. To step over these obstacles, an effective way is to pre-train a model that understands the discourse structure of multi-party dialogues, namely, to whom each utterance is replying. However, due to the lack of explicitly annotated discourse labels in multi-party dialogue corpora, previous works fail to scale up the pre-training process by putting aside the unlabeled multi-party conversational data for nothing. To fully utilize the unlabeled data, we propose to treat the discourse structures as latent variables, then jointly infer them and pre-train the discourse-aware model by unsupervised latent variable inference methods. Experiments on multiple downstream tasks show that our pre-trained model outperforms strong baselines by large margins and achieves state-of-the-art (SOTA) results, justifying the effectiveness of our method. The official implementation of this paper is available at https://github.com/EricLee8/MPD_EMVI.
翻訳日:2023-05-25 15:30:00 公開日:2023-05-24
# 科学シミュレータのモデルとパラメータの同時同定

Simultaneous identification of models and parameters of scientific simulators ( http://arxiv.org/abs/2305.15174v1 )

ライセンス: Link先を確認
Cornelius Schr\"oder, Jakob H. Macke(参考訳) 多くの科学モデルは複数の離散成分から構成されており、サイエンティストはしばしばどの成分を含むべきかをヒューリスティックに決定する。 ベイズ推論は、モデルコンポーネントを体系的に選択するための数学的フレームワークを提供するが、モデルコンポーネントに対する事前分布の定義と関連する推論スキームの開発は困難である。 固定された候補コンポーネントの集合上で暗黙的なモデル事前を定義し、ニューラルネットワークをトレーニングし、シミュレーションからモデルコンポーネントと関連するパラメータの両方の結合確率分布を推定する。 モデル成分上の分布を表現するために、グラスマン形式における多変量二元分布の条件混合を導入する。 本手法は,任意の構成確率シミュレータに適用可能である。 まず, 冗長成分を有する簡易時系列モデルを用いて, シンボリック表現とそのパラメータのセット上での関節後縁分布を検索し, 強相関後縁の冗長性を正確に把握できることを示す。 次に,認知神経科学における一般的なモデルクラスであるドリフト拡散モデルに適用する。 提案手法は, 従来手法と同様に実験データを説明するが, 完全確率的手法は複数のデータ一貫性のあるモデル構成を発見し, 同定不能なモデルコンポーネントやパラメータを明らかにするのに役立つ。 本手法は,データ駆動科学的探究のための強力なツールであり,科学者は本質的モデルコンポーネントを体系的に同定し,不確実性に左右されるモデリング決定を行うことができる。

Many scientific models are composed of multiple discrete components, and scien tists often make heuristic decisions about which components to include. Bayesian inference provides a mathematical framework for systematically selecting model components, but defining prior distributions over model components and developing associated inference schemes has been challenging. We approach this problem in an amortized simulation-based inference framework: We define implicit model priors over a fixed set of candidate components and train neural networks to infer joint probability distributions over both, model components and associated parameters from simulations. To represent distributions over model components, we introduce a conditional mixture of multivariate binary distributions in the Grassmann formalism. Our approach can be applied to any compositional stochastic simulator without requiring access to likelihood evaluations. We first illustrate our method on a simple time series model with redundant components and show that it can retrieve joint posterior distribution over a set of symbolic expressions and their parameters while accurately capturing redundancy with strongly correlated posteriors. We then apply our approach to drift-diffusion models, a commonly used model class in cognitive neuroscience. After validating the method on synthetic data, we show that our approach explains experimental data as well as previous methods, but that our fully probabilistic approach can help to discover multiple data-consistent model configurations, as well as reveal non-identifiable model components and parameters. Our method provides a powerful tool for data-driven scientific inquiry which will allow scientists to systematically identify essential model components and make uncertainty-informed modelling decisions.
翻訳日:2023-05-25 15:29:39 公開日:2023-05-24
# 知覚-NeRF:拡散モデルからの擬似観測によるNeRF再構成の促進

Deceptive-NeRF: Enhancing NeRF Reconstruction using Pseudo-Observations from Diffusion Models ( http://arxiv.org/abs/2305.15171v1 )

ライセンス: Link先を確認
Xinhang Liu, Shiu-hong Kao, Jiaben Chen, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,合成擬似観測を用いて再構成されたNeRFモデルの品質を向上させるための新しい手法であるDeceptive-NeRFについて紹介する。 提案手法には3つの重要なステップがある。 1) 粗いNeRFモデルをスパース入力から再構成すること。 2) 粗いモデルに基づいて擬似観測を生成する。 3) 擬似観測を用いてNeRFモデルを改良し, 高品質な再構成を実現する。 粗いrgb画像と、入力画像から埋め込まれた粗いnerfおよび潜在テキストから派生した深度マップに基づいて、粗いrgb画像と条件付き画像を生成できる整流潜在拡散モデルを開発し、再構成されたシーンの同一性を忠実に保存するフォトリアリスティックな擬似観測を生成する。 広汎な実験により,本手法は有効であり,非常に少ない入力でも知覚的に高品質なNeRFを生成できることが判明した。

This paper introduces Deceptive-NeRF, a new method for enhancing the quality of reconstructed NeRF models using synthetically generated pseudo-observations, capable of handling sparse input and removing floater artifacts. Our proposed method involves three key steps: 1) reconstruct a coarse NeRF model from sparse inputs; 2) generate pseudo-observations based on the coarse model; 3) refine the NeRF model using pseudo-observations to produce a high-quality reconstruction. To generate photo-realistic pseudo-observations that faithfully preserve the identity of the reconstructed scene while remaining consistent with the sparse inputs, we develop a rectification latent diffusion model that generates images conditional on a coarse RGB image and depth map, which are derived from the coarse NeRF and latent text embedding from input images. Extensive experiments show that our method is effective and can generate perceptually high-quality NeRF even with very sparse inputs.
翻訳日:2023-05-25 15:29:11 公開日:2023-05-24
# 不確かさを説明する:ガウス過程モデルのための確率的シェープ値

Explaining the Uncertain: Stochastic Shapley Values for Gaussian Process Models ( http://arxiv.org/abs/2305.15167v1 )

ライセンス: Link先を確認
Siu Lun Chau and Krikamol Muandet and Dino Sejdinovic(参考訳) 本稿では,GPの完全解析的共分散構造を利用するガウス過程 (GP) を説明するための新しい手法を提案する。 本手法は確率的協調ゲームに拡張されたShapley値の一般的な解の概念に基づいており、その結果、ランダム変数である説明が得られる。 提案手法を用いて生成したGP説明は,Shapley値と類似の公理を満足し,特徴量やデータ観測値の共分散関数を有する。 この共分散により説明の不確実性が定量化され、説明間の統計的依存性が研究される。 さらに,提案手法を予測説明問題に拡張し,説明関数に先立ってシェープリー関数を提案し,新たに計算したデータに基づいてシェープリー値を予測する。 提案手法の有効性を概説する。

We present a novel approach for explaining Gaussian processes (GPs) that can utilize the full analytical covariance structure present in GPs. Our method is based on the popular solution concept of Shapley values extended to stochastic cooperative games, resulting in explanations that are random variables. The GP explanations generated using our approach satisfy similar favorable axioms to standard Shapley values and possess a tractable covariance function across features and data observations. This covariance allows for quantifying explanation uncertainties and studying the statistical dependencies between explanations. We further extend our framework to the problem of predictive explanation, and propose a Shapley prior over the explanation function to predict Shapley values for new data based on previously computed ones. Our extensive illustrations demonstrate the effectiveness of the proposed approach.
翻訳日:2023-05-25 15:28:56 公開日:2023-05-24
# サンプリング機構を用いたパーソナライズDP-SGD

Personalized DP-SGD using Sampling Mechanisms ( http://arxiv.org/abs/2305.15165v1 )

ライセンス: Link先を確認
Geon Heo, Junseok Seo, and Steven Euijong Whang(参考訳) 個人化されたプライバシは、信頼できるAIのディープラーニングにおいて重要になる。 Differentially Private Stochastic Gradient Descent (DP-SGD)は、プライバシーをサポートするディープラーニング手法で広く使われているが、すべての個人に同じレベルのプライバシーを提供するため、過剰な保護と低ユーティリティにつながる可能性がある。 実際には、異なるユーザが異なるプライバシーレベルを必要とする場合があり、プライバシー要件の低いユーザに関するより多くの情報を使用することで、モデルを改善することができる。 dp-sgdを使用する場合、個人の差分プライバシーに関する最近の研究もあるが、それらは主に個人のプライバシー会計であり、異なるプライバシーレベルを満たすことに注力していない。 したがって、DP-SGDを拡張して、最近のプライバシー概念である$\Phi$,$\Delta$)-Personalized Differential Privacy (($\Phi$,$\Delta$)-PDPをサポートする。 本アルゴリズムはマルチラウンドのパーソナライズされたサンプリング機構を用いてdp-sgdイテレーションに組み込む。 実データを用いた実験により,本アルゴリズムはDP-SGDとDP-SGDと既存のPDP機構とを組込みサンプリング機構によるモデル性能と効率の観点から比較した。

Personalized privacy becomes critical in deep learning for Trustworthy AI. While Differentially Private Stochastic Gradient Descent (DP-SGD) is widely used in deep learning methods supporting privacy, it provides the same level of privacy to all individuals, which may lead to overprotection and low utility. In practice, different users may require different privacy levels, and the model can be improved by using more information about the users with lower privacy requirements. There are also recent works on differential privacy of individuals when using DP-SGD, but they are mostly about individual privacy accounting and do not focus on satisfying different privacy levels. We thus extend DP-SGD to support a recent privacy notion called ($\Phi$,$\Delta$)-Personalized Differential Privacy (($\Phi$,$\Delta$)-PDP), which extends an existing PDP concept called $\Phi$-PDP. Our algorithm uses a multi-round personalized sampling mechanism and embeds it within the DP-SGD iterations. Experiments on real datasets show that our algorithm outperforms DP-SGD and simple combinations of DP-SGD with existing PDP mechanisms in terms of model performance and efficiency due to its embedded sampling mechanism.
翻訳日:2023-05-25 15:28:42 公開日:2023-05-24
# 低温におけるリンドープダイヤモンド中の負電荷単一窒素空孔中心のドーパント支援安定化

Dopant-assisted stabilization of negatively charged single nitrogen-vacancy centers in phosphorus-doped diamond at low temperatures ( http://arxiv.org/abs/2305.15160v1 )

ライセンス: Link先を確認
Jianpei Geng, Tetyana Shalomayeva, Mariia Gryzlova, Amlan Mukherjee, Santo Santonocito, Dzhavid Dzhavadzade, Durga Dasari, Hiromitsu Kato, Rainer St\"ohr, Andrej Denisenko, Norikazu Mizuochi, and J\"org Wrachtrup(参考訳) 電荷状態不安定性は固体スピン系の実装におけるボトルネックであり、スピンベースの量子技術の発展に大きな課題をもたらす。 本研究では,液体ヘリウム温度におけるリンドープダイヤモンド中の負帯電窒素空孔(nv$^-$)中心の安定化について検討する。 ナノスケールでの電荷拡散を伴うリンドナーの光イオン化は、NV$^0$をNV$^-$変換し、追加の励起レーザーを必要とせずにNV$^-$電荷状態を安定化させる。 蛍光体による安定化を実験と理論モデルで検討し確認した。 成長中に生成したNV$^-$中心に対して安定な発光励起スペクトルを得る。 電荷状態をリアルタイム監視するために共鳴励起下で連続的に蛍光を記録し、時間トレースからイオン化および再結合速度を抽出する。 我々は, リン原子の光イオン化に起因する従来の二次依存とは対照的に, 再結合速度の線形レーザーパワー依存性を見出した。

Charge state instabilities have been a bottleneck for the implementation of solid-state spin systems and pose a major challenge to the development of spin-based quantum technologies. Here we investigate the stabilization of negatively charged nitrogen-vacancy (NV$^-$) centers in phosphorus-doped diamond at liquid helium temperatures. Photoionization of phosphorous donors in conjunction with charge diffusion at the nanoscale enhances NV$^0$ to NV$^-$ conversion and stabilizes the NV$^-$ charge state without the need for an additional repump laser. The phosphorus-assisted stabilization is explored and confirmed both with experiments and our theoretical model. Stable photoluminescence-excitation spectra are obtained for NV$^-$ centers created during the growth. The fluorescence is continuously recorded under resonant excitation to real-time monitor the charge state and the ionization and recombination rates are extracted from time traces. We find a linear laser power dependence of the recombination rate as opposed to the conventional quadratic dependence, which is attributed to the photo-ionization of phosphorus atoms.
翻訳日:2023-05-25 15:28:16 公開日:2023-05-24
# 分散部分モデル学習による連合学習におけるより適切なパーソナライズに向けて

Towards More Suitable Personalization in Federated Learning via Decentralized Partial Model Training ( http://arxiv.org/abs/2305.15157v1 )

ライセンス: Link先を確認
Yifan Shi, Yingqi Liu, Yan Sun, Zihao Lin, Li Shen, Xueqian Wang, Dacheng Tao(参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、実際のFLシステムにおけるデータ不均一性(data heterogeneity)に直面する問題に対して、各クライアントが最大のパーソナライズド・モデルを作成することを目的としている。 しかし、既存の作業のほとんどは、中央サーバが失敗した場合、大きな通信負荷と破壊のリスクに直面する必要がある。 限定的な努力だけが分散的な方法で使われてきたが、全てのモデルを隣人と共有することによる表現能力の低下に苦しめられている。 そこで本稿では,DFedAlt と呼ばれる分散部分モデルトレーニングによるパーソナライズされたFLフレームワークを提案する。 ピアツーピアで部分的にパーソナライズされたモデルをトレーニングするために、共有パラメータと個人パラメータを交互に更新することで、現代のディープモデルの「右」コンポーネントをパーソナライズする。 共有パラメータ集約プロセスをさらに促進するために、共有パラメータを更新するためのローカルシャープネス認識最小化(SAM)オプティマイザを統合するDFedSaltを提案する。 クライアント間の共有モデルの不整合を克服するために、勾配の方向に適切な摂動を追加する。 理論的には、pflにおける分散部分モデルトレーニングのための一般的な非凸設定における両アルゴリズムの収束解析を提供する。 様々なデータ分割設定を用いた実世界データ実験の結果 (i)分権訓練は部分的パーソナライズに適しており、SOTA PFLベースラインと比較して最先端(SOTA)の精度が高い。 (i)適切な摂動を持つ共有パラメータは、DFedSaltが最も競争力を発揮する分散トレーニングに適した部分的パーソナライズされたFLとなる。

Personalized federated learning (PFL) aims to produce the greatest personalized model for each client to face an insurmountable problem--data heterogeneity in real FL systems. However, almost all existing works have to face large communication burdens and the risk of disruption if the central server fails. Only limited efforts have been used in a decentralized way but still suffers from inferior representation ability due to sharing the full model with its neighbors. Therefore, in this paper, we propose a personalized FL framework with a decentralized partial model training called DFedAlt. It personalizes the "right" components in the modern deep models by alternately updating the shared and personal parameters to train partially personalized models in a peer-to-peer manner. To further promote the shared parameters aggregation process, we propose DFedSalt integrating the local Sharpness Aware Minimization (SAM) optimizer to update the shared parameters. It adds proper perturbation in the direction of the gradient to overcome the shared model inconsistency across clients. Theoretically, we provide convergence analysis of both algorithms in the general non-convex setting for decentralized partial model training in PFL. Our experiments on several real-world data with various data partition settings demonstrate that (i) decentralized training is more suitable for partial personalization, which results in state-of-the-art (SOTA) accuracy compared with the SOTA PFL baselines; (ii) the shared parameters with proper perturbation make partial personalized FL more suitable for decentralized training, where DFedSalt achieves most competitive performance.
翻訳日:2023-05-25 15:27:58 公開日:2023-05-24
# Momentumがエラーフィードバックを改善!

Momentum Provably Improves Error Feedback! ( http://arxiv.org/abs/2305.15155v1 )

ライセンス: Link先を確認
Ilyas Fatkhullin, Alexander Tyurin, Peter Richt\'arik(参考訳) 分散環境で機械学習モデルをトレーニングする際の通信オーバーヘッドが高いため、現代のアルゴリズムは損失のある通信圧縮に依存している。 しかし、未処理の場合、圧縮による誤差が伝播し、指数的発散を含む非常に不安定な挙動を引き起こす可能性がある。 約10年前、Seide氏らは、この問題を緩和するための非常に効果的なヒューリスティックとして、EF14と呼ばれるエラーフィードバック(EF)機構を提案した。 しかし、過去10年間のEF分野の着実にアルゴリズムと理論的進歩にもかかわらず、我々の理解は完璧には程遠い。 この作業では、最も差し迫った問題のひとつに対処します。 特に、標準的な非凸設定では、EFのすべての既知の変種は収束するために非常に大きなバッチサイズに依存しており、実際には禁止される。 我々は、この問題を理論的にも現実的にも取り除く驚くほど単純な修正を提案する: Richt\'{a}rik et al による EF の最新の化へのPolyak の運動量の適用。 【2021年】ef21として知られる。 EF21-SGDMと命名したこのアルゴリズムは,従来の誤りフィードバックアルゴリズムの標準滑らか性および有界分散仮定に基づく通信とサンプルの複雑さを改善し,有界勾配の相似性などのより強い仮定を必要としない。 さらに, 複雑度をさらに向上させるダブルモーメント方式を提案する。 本手法から圧縮を除去した場合でも,本手法は新規であり,ポリアックの運動量に富む非凸確率最適化の研究には独立した手法である。

Due to the high communication overhead when training machine learning models in a distributed environment, modern algorithms invariably rely on lossy communication compression. However, when untreated, the errors caused by compression propagate, and can lead to severely unstable behavior, including exponential divergence. Almost a decade ago, Seide et al [2014] proposed an error feedback (EF) mechanism, which we refer to as EF14, as an immensely effective heuristic for mitigating this issue. However, despite steady algorithmic and theoretical advances in the EF field in the last decade, our understanding is far from complete. In this work we address one of the most pressing issues. In particular, in the canonical nonconvex setting, all known variants of EF rely on very large batch sizes to converge, which can be prohibitive in practice. We propose a surprisingly simple fix which removes this issue both theoretically, and in practice: the application of Polyak's momentum to the latest incarnation of EF due to Richt\'{a}rik et al. [2021] known as EF21. Our algorithm, for which we coin the name EF21-SGDM, improves the communication and sample complexities of previous error feedback algorithms under standard smoothness and bounded variance assumptions, and does not require any further strong assumptions such as bounded gradient dissimilarity. Moreover, we propose a double momentum version of our method that improves the complexities even further. Our proof seems to be novel even when compression is removed from the method, and as such, our proof technique is of independent interest in the study of nonconvex stochastic optimization enriched with Polyak's momentum.
翻訳日:2023-05-25 15:27:02 公開日:2023-05-24
# Sinkhorn divergence を用いた特徴整列N-BEATS

Feature-aligned N-BEATS with Sinkhorn divergence ( http://arxiv.org/abs/2305.15196v1 )

ライセンス: Link先を確認
Myeongho Jeon, Myungjoo Kang, Joonhun Lee, Kyunghyun Park(参考訳) 本研究では,一変量時系列予測問題に対する領域一般化モデルとして特徴整列N-BEATSを提案する。 提案手法は,N-BEATS (Oreshkin et al. [34]) の2重残スタックアーキテクチャを表現学習フレームワークに拡張したものである。 このモデルは、各スタックにおける N-BEATS の残留作用素の複雑な組成によって引き起こされる限界特徴確率測度(すなわち、複数のソース領域のプッシュフォワード測度)を伴い、シンクホーン発散(Genevay et al. [14])と呼ばれるエントロピック正規化ワッサーシュタイン距離を介してそれらをスタックワイズする新しい構造である。 損失関数は、複数のソース領域に対する典型的な予測損失と、シンクホーン発散で計算されたアライメント損失から成り、N-BEATSの解釈可能な設計を維持しながら、複数のソースデータシーケンスにわたって不変の特徴をスタックワイズに学習することができる。 提案手法の総合的な実験的評価を行い,元のN-BEATSに基づく手法と比較して,モデルの予測と一般化能力を示す。

In this study, we propose Feature-aligned N-BEATS as a domain generalization model for univariate time series forecasting problems. The proposed model is an extension of the doubly residual stacking architecture of N-BEATS (Oreshkin et al. [34]) into a representation learning framework. The model is a new structure that involves marginal feature probability measures (i.e., pushforward measures of multiple source domains) induced by the intricate composition of residual operators of N-BEATS in each stack and aligns them stack-wise via an entropic regularized Wasserstein distance referred to as the Sinkhorn divergence (Genevay et al. [14]). The loss function consists of a typical forecasting loss for multiple source domains and an alignment loss calculated with the Sinkhorn divergence, which allows the model to learn invariant features stack-wise across multiple source data sequences while retaining N-BEATS's interpretable design. We conduct a comprehensive experimental evaluation of the proposed approach and the results demonstrate the model's forecasting and generalization capabilities in comparison with methods based on the original N-BEATS.
翻訳日:2023-05-25 15:21:06 公開日:2023-05-24
# DiffBlender:スケーラブルで構成可能なマルチモーダルテキスト・画像拡散モデル

DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.15194v1 )

ライセンス: Link先を確認
Sungnyun Kim, Junsoo Lee, Kibeom Hong, Daesik Kim, Namhyuk Ahn(参考訳) 拡散型テキスト画像生成モデルの最近の進歩は、テキスト記述の条件付けにより、生成能力を著しく向上させた。 しかし,テキストプロンプトのみに依存することは細かなカスタマイズにはまだ制約があるため,条件生成の境界を拡張し,スケッチ,ボックス,スタイル埋め込みといった多様な種類のモダリティを同時に取り入れることを目指している。 そこで我々は, 差分blender と呼ばれるマルチモーダルテキストから画像への拡散モデルを設計し, わずか数個のハイパーネットワークを訓練することにより, 単一モデルで上記の目標を達成する。 DiffBlenderは、既存の大規模生成モデルのパラメータを変更することなく、入力モダリティの便利なスケーリングを容易にする。 さらに,既存の手法と定量的・質的比較を行い,マルチモーダル生成の新しい基準を定式化する。 条件付モダリティのチャネルを多様化させることにより、DiffBlenderは提供された情報を忠実に反映するか、あるいはその欠如により想像的生成を生成する。

The recent progress in diffusion-based text-to-image generation models has significantly expanded generative capabilities via conditioning the text descriptions. However, since relying solely on text prompts is still restrictive for fine-grained customization, we aim to extend the boundaries of conditional generation to incorporate diverse types of modalities, e.g., sketch, box, and style embedding, simultaneously. We thus design a multimodal text-to-image diffusion model, coined as DiffBlender, that achieves the aforementioned goal in a single model by training only a few small hypernetworks. DiffBlender facilitates a convenient scaling of input modalities, without altering the parameters of an existing large-scale generative model to retain its well-established knowledge. Furthermore, our study sets new standards for multimodal generation by conducting quantitative and qualitative comparisons with existing approaches. By diversifying the channels of conditioning modalities, DiffBlender faithfully reflects the provided information or, in its absence, creates imaginative generation.
翻訳日:2023-05-25 15:20:44 公開日:2023-05-24
# 追加課題への適応的政策学習

Adaptive Policy Learning to Additional Tasks ( http://arxiv.org/abs/2305.15193v1 )

ライセンス: Link先を確認
Wenjian Hao, Zehui Lu, Zihao Liang, Tianyu Zhou, Shaoshuai Mou(参考訳) 本稿では,事前学習した方針を調整して,本来のタスクを変更することなく追加タスクに適応させるポリシー学習手法を提案する。 本稿では,適応政策グラディエント (APG) という手法を提案し,ベルマンの最適性原理と政策勾配法を組み合わせて収束率を向上させる。 本稿では,それぞれ$\mathcal{o}(1/t)$と$\mathcal{o}(1/\epsilon)$の収束率とサンプル複雑性を保証した理論的解析を行う。 さらに,足場,月面着陸機,ロボットアームなどの難解な数値シミュレーションを行い,APGが従来の決定論的方針勾配法と同等の性能を示しながら,より少ないデータ利用とより高速な収束を実現していることを示す。

This paper develops a policy learning method for tuning a pre-trained policy to adapt to additional tasks without altering the original task. A method named Adaptive Policy Gradient (APG) is proposed in this paper, which combines Bellman's principle of optimality with the policy gradient approach to improve the convergence rate. This paper provides theoretical analysis which guarantees the convergence rate and sample complexity of $\mathcal{O}(1/T)$ and $\mathcal{O}(1/\epsilon)$, respectively, where $T$ denotes the number of iterations and $\epsilon$ denotes the accuracy of the resulting stationary policy. Furthermore, several challenging numerical simulations, including cartpole, lunar lander, and robot arm, are provided to show that APG obtains similar performance compared to existing deterministic policy gradient methods while utilizing much less data and converging at a faster rate.
翻訳日:2023-05-25 15:20:25 公開日:2023-05-24
# 波長スケール二ホウ化マグネシウム薄膜と可変高速度インダクタンスデバイス

Wafer-scale magnesium diboride thin films and devices with tunable high kinetic inductance ( http://arxiv.org/abs/2305.15190v1 )

ライセンス: Link先を確認
Changsub Kim, Christina Bell, Jake Evans, Jonathan Greenfield, Nathan Lewis, Daniel Cunnane(参考訳) 過去10年間の超伝導デバイスと検出器技術の進歩は、量子コンピュータ、遠赤外線望遠鏡用検出器、光通信における実用的な応用を実現している。 しかし、超伝導薄膜材料はほとんど変化がなく、アルミニウムは超伝導量子ビットの材料であり、Nb化合物は高周波数デバイスである。 金属超伝導体のうち、最も高い$\mathrm{T}_c$ (39 K) で知られる$\mathrm{MgB}_2$は、高周波数超伝導デバイスが THz 周波数に向かって移動するための実行可能な材料である。 しかし、薄膜の合成の難しさは、多くの応用に期待できる予備的な結果にもかかわらず、超伝導エレクトロニクスの応用基盤に$\mathrm{MgB}_2$デバイスを実装することを妨げている。 4インチSiウェハ上にMg-B共スパッタ膜を堆積し, 膜を密封して密閉環境を作り, その後, 最適化した後焼鈍工程を施して, 滑らかで均一な$\mathrm{MgB}_2$膜を開発した。 さらに, 成熟したデバイス製造過程を報告し, フィルムの特性を測定するための試験構造を示す。 これには、$\mathrm{10}^4$ 4.5 K以上の内部Q因子を持つ共振器とチューナブルな高速度インダクタンス(5-50 pH/$\square$は40nmフィルムで容易に達成できる)が含まれ、高周波および高温の$\mathrm{MgB}_2$マイクロデバイスの開発経路を開く。

Progress in superconducting device and detector technologies over the past decade have realized practical applications in quantum computers, detectors for far-IR telescopes, and optical communications. Superconducting thin film materials, however, have remained largely unchanged, with aluminum still being the material of choice for superconducting qubits, and Nb compounds for higher frequency devices. $\mathrm{MgB}_2$, known for its highest $\mathrm{T}_c$ (39 K) among metallic superconductors, is a viable material for higher frequency superconducting devices moving towards THz frequencies. However, difficulty in synthesizing thin films have prevented implementation of $\mathrm{MgB}_2$ devices into the application base of superconducting electronics, despite promising preliminary results for a number of applications. We have developed smooth and uniform $\mathrm{MgB}_2$ films on 4-inch Si wafers by depositing uniform Mg-B co-sputtered film, capping the film in situ to create a closed environment, followed by an optimized post-annealing step. We further report mature device fabrication processes and demonstrate test structures to measure properties of the films. This includes resonators with internal Q factor over $\mathrm{10}^4$ at 4.5 K and tunable high kinetic inductance (5-50 pH/$\square$ readily achieved in a 40 nm film), opening up the path for development of high frequency and high temperature $\mathrm{MgB}_2$ microdevices.
翻訳日:2023-05-25 15:20:05 公開日:2023-05-24
# Black-Box vs. Gray-Box: スピンと衝撃によるテーブルテニス球軌道予測の学習事例

Black-Box vs. Gray-Box: A Case Study on Learning Table Tennis Ball Trajectory Prediction with Spin and Impacts ( http://arxiv.org/abs/2305.15189v1 )

ライセンス: Link先を確認
Jan Achterhold, Philip Tobuschat, Hao Ma, Dieter Buechler, Michael Muehlebach, Joerg Stueckler(参考訳) 本稿では,卓球軌道のフィルタリングと予測を行う手法を提案する。 グレーボックスのアプローチは物理モデルに基づいています。 同時に、我々はデータを使用して、ダイナミックスモデルのパラメータ、拡張カルマンフィルタ、およびボールの初期状態を予測するニューラルモデルのパラメータを学習する。 我々は,2つのブラックボックスアプローチにおいて,物理的事前知識が提供されていないアプローチよりも優れた予測性能を示す。 ニューラルネットワークを用いてボールランチャーのパラメータからスピンを初期化すると、計測されたボールの位置からスピンを推定するよりも、長時間の予測性能が劇的に向上することを示す。 ボール軌道の正確な予測は、成功するリターンには不可欠である。 そこで, 空気圧型人工筋肉ロボットによるリターン性能の評価を行い, リターン率を29/30 (97.7%) とした。

In this paper, we present a method for table tennis ball trajectory filtering and prediction. Our gray-box approach builds on a physical model. At the same time, we use data to learn parameters of the dynamics model, of an extended Kalman filter, and of a neural model that infers the ball's initial condition. We demonstrate superior prediction performance of our approach over two black-box approaches, which are not supplied with physical prior knowledge. We demonstrate that initializing the spin from parameters of the ball launcher using a neural network drastically improves long-time prediction performance over estimating the spin purely from measured ball positions. An accurate prediction of the ball trajectory is crucial for successful returns. We therefore evaluate the return performance with a pneumatic artificial muscular robot and achieve a return rate of 29/30 (97.7%).
翻訳日:2023-05-25 15:19:30 公開日:2023-05-24
# ディープクープマン表現に基づく政策学習

Policy Learning based on Deep Koopman Representation ( http://arxiv.org/abs/2305.15188v1 )

ライセンス: Link先を確認
Wenjian Hao, Paulo C. Heredia, Bowen Huang, Zehui Lu, Zihao Liang, Shaoshuai Mou(参考訳) 本稿では,未知の力学系を近似し,環境との相互作用を通じて収集された観測データを用いて,最適政策を同時に探索する,クープマン作用素理論とポリシー勾配アプローチに基づくポリシー学習アルゴリズムを提案する。 提案アルゴリズムには2つの革新がある: 1つは、未知の力学系の線形近似を達成するための政策勾配に、いわゆるディープ・クープマン表現を導入し、データ効率を改善することを目的として、次に、ベルマンの最適性原理を適用して、システム力学によって誘導される長期タスクの累積誤差を回避する。 さらに,提案アルゴリズムの漸近収束を証明し,対応するサンプリング複雑性を特徴付けるための理論的解析を行った。 これらの結論は、いくつかの挑戦的なベンチマーク環境のシミュレーションでも支持されている。

This paper proposes a policy learning algorithm based on the Koopman operator theory and policy gradient approach, which seeks to approximate an unknown dynamical system and search for optimal policy simultaneously, using the observations gathered through interaction with the environment. The proposed algorithm has two innovations: first, it introduces the so-called deep Koopman representation into the policy gradient to achieve a linear approximation of the unknown dynamical system, all with the purpose of improving data efficiency; second, the accumulated errors for long-term tasks induced by approximating system dynamics are avoided by applying Bellman's principle of optimality. Furthermore, a theoretical analysis is provided to prove the asymptotic convergence of the proposed algorithm and characterize the corresponding sampling complexity. These conclusions are also supported by simulations on several challenging benchmark environments.
翻訳日:2023-05-25 15:19:16 公開日:2023-05-24
# 認知理論に基づく交通行動予測モデルを用いた事例研究

Using Models Based on Cognitive Theory to Predict Human Behavior in Traffic: A Case Study ( http://arxiv.org/abs/2305.15187v1 )

ライセンス: Link先を確認
Julian F. Schumann, Aravinda Ramakrishnan Srinivasan, Jens Kober, Gustav Markkula, Arkady Zgonnikov(参考訳) 自動走行車の開発は輸送に革命をもたらす可能性があるが、現在、安全で時間効率のよい運転スタイルを保証することはできない。 人間の行動を予測する信頼できるモデルは、この問題を克服するために不可欠である。 データ駆動モデルは一般的にこの目的に使用されるが、安全クリティカルなエッジケースでは脆弱である。 これは認知理論を組み込んだモデルに関心を寄せてきたが、そのようなモデルは説明目的のために一般的に開発されているため、行動予測におけるこのアプローチの有効性は、これまでほとんどテストされていない。 本稿では,人間の認知,意思決定,運動制御の最新の理論を取り入れた,車線変化や交差点など多くの重要な交通相互作用を伴うギャップ受容シナリオにおける人間の行動予測モデルである「emph{Commotions} モデル」の有用性について検討する。 このモデルは、いくつかの自然主義的データセットをまたいで、確立されたデータ駆動予測モデルと競合したり、さらに優れることを示す。 これらの結果は、自動運転車の行動予測モデルに認知理論を組み込むことの可能性を実証する。

The development of automated vehicles has the potential to revolutionize transportation, but they are currently unable to ensure a safe and time-efficient driving style. Reliable models predicting human behavior are essential for overcoming this issue. While data-driven models are commonly used to this end, they can be vulnerable in safety-critical edge cases. This has led to an interest in models incorporating cognitive theory, but as such models are commonly developed for explanatory purposes, this approach's effectiveness in behavior prediction has remained largely untested so far. In this article, we investigate the usefulness of the \emph{Commotions} model -- a novel cognitively plausible model incorporating the latest theories of human perception, decision-making, and motor control -- for predicting human behavior in gap acceptance scenarios, which entail many important traffic interactions such as lane changes and intersections. We show that this model can compete with or even outperform well-established data-driven prediction models across several naturalistic datasets. These results demonstrate the promise of incorporating cognitive theory in behavior prediction models for automated vehicles.
翻訳日:2023-05-25 15:19:01 公開日:2023-05-24
# SciReviewGen: 自動文献レビュー生成のための大規模データセット

SciReviewGen: A Large-scale Dataset for Automatic Literature Review Generation ( http://arxiv.org/abs/2305.15186v1 )

ライセンス: Link先を確認
Tetsu Kasanishi, Masaru Isonuma, Junichiro Mori, Ichiro Sakata(参考訳) 自動文献レビュー生成は自然言語処理において最も難しいタスクの1つである。 大規模言語モデルは文献レビュー生成に取り組んできたが、大規模なデータセットが存在しないことは、進歩に支障をきたした。 我々は1万以上の文献レビューと690,000の論文からなるSciReviewGenをリリースした。 このデータセットに基づいて,文献レビュー生成用に拡張されたfusion-in-decoderを含む文献レビュー生成タスクにおける最近のトランスフォーマライズモデルを評価する。 人的評価の結果,機械による要約は人によるレビューと同等であり,幻覚や詳細な情報の欠如といった自動文献レビュー生成の課題を明らかにした。 データセットとコードはhttps://github.com/tetsu9923/SciReviewGen.comから入手可能です。

Automatic literature review generation is one of the most challenging tasks in natural language processing. Although large language models have tackled literature review generation, the absence of large-scale datasets has been a stumbling block to the progress. We release SciReviewGen, consisting of over 10,000 literature reviews and 690,000 papers cited in the reviews. Based on the dataset, we evaluate recent transformer-based summarization models on the literature review generation task, including Fusion-in-Decoder extended for literature review generation. Human evaluation results show that some machine-generated summaries are comparable to human-written reviews, while revealing the challenges of automatic literature review generation such as hallucinations and a lack of detailed information. Our dataset and code are available at https://github.com/tetsu9923/SciReviewGen.
翻訳日:2023-05-25 15:18:42 公開日:2023-05-24
# 中国語文法誤り訂正における事前学習言語モデルはモデルアンサンブルに有用か?

Are Pre-trained Language Models Useful for Model Ensemble in Chinese Grammatical Error Correction? ( http://arxiv.org/abs/2305.15183v1 )

ライセンス: Link先を確認
Chenming Tang, Xiuyu Wu and Yunfang Wu(参考訳) モデルアンサンブルは文法的誤り訂正(GEC)に広く使われており、モデル性能が向上している。 我々は、事前学習言語モデル(PLM)によって計算されるパープレキシティ(PPL)に基づくモデルアンサンブルが、ECシステムに利益をもたらすと仮定する。 この目的のために、4つの洗練された単一モデルを持つ強力なPLMに基づく複数のアンサンブル戦略を探索する。 しかし、PLMベースのアンサンブル後にパフォーマンスは向上しないが、さらに悪化する。 この驚くべき結果によって、データに関する詳細な分析と、gecに関する洞察が得られました。 正しい文の人間の参照は、テストデータでは十分ではなく、正しい文と慣用句とのギャップは我々の注意に値する。 さらに、PLMベースのアンサンブル戦略は、GCCベンチマークデータを拡張および改善する効果的な方法を提供する。 ソースコードはhttps://github.com/JamyDon/PLMベース-CGEC-Model-Ensembleで公開されています。

Model ensemble has been in widespread use for Grammatical Error Correction (GEC), boosting model performance. We hypothesize that model ensemble based on the perplexity (PPL) computed by pre-trained language models (PLMs) should benefit the GEC system. To this end, we explore several ensemble strategies based on strong PLMs with four sophisticated single models. However, the performance does not improve but even gets worse after the PLM-based ensemble. This surprising result sets us doing a detailed analysis on the data and coming up with some insights on GEC. The human references of correct sentences is far from sufficient in the test data, and the gap between a correct sentence and an idiomatic one is worth our attention. Moreover, the PLM-based ensemble strategies provide an effective way to extend and improve GEC benchmark data. Our source code is available at https://github.com/JamyDon/PLM-based-CGEC-Model-Ensemble.
翻訳日:2023-05-25 15:18:30 公開日:2023-05-24
# hitin:階層認識木同型ネットワークによる階層的テキスト分類

HiTIN: Hierarchy-aware Tree Isomorphism Network for Hierarchical Text Classification ( http://arxiv.org/abs/2305.15182v1 )

ライセンス: Link先を確認
He Zhu, Chong Zhang, Junjie Huang, Junran Wu, Ke Xu(参考訳) 階層的テキスト分類(HTC)は、ラベルが複雑な階層構造を形成するため、多ラベル分類の挑戦的なサブタスクである。 既存のHTCのデュアルエンコーダメソッドは、メモリオーバーヘッドが大きく、その構造エンコーダはドメイン知識に大きく依存する。 このような観察の下では,従来の統計やラベルセマンティクスを使わずにhtcのパフォーマンスを向上できる強力な一般化機能を備えたメモリフレンドリーモデルの実現可能性について検討する傾向がある。 本稿では,ラベル階層の構文情報のみを用いてテキスト表現を強化する階層認識木同型ネットワーク(hitin)を提案する。 具体的には,ラベル階層を構造エントロピーの指導により,符号木と呼ばれる非重み付き木構造に変換する。 次に、構造エンコーダを設計し、コードツリーに階層認識情報をテキスト表現に組み込む。 テキストエンコーダの他に、HiTINには、メモリを大幅に節約する、少数の多層認識と線形変換しか含まれていない。 我々は3つの一般的なデータセットで実験を行い、その結果、HiTINは最先端(SOTA)手法よりもテスト性能が良く、メモリ消費も少ないことを示した。

Hierarchical text classification (HTC) is a challenging subtask of multi-label classification as the labels form a complex hierarchical structure. Existing dual-encoder methods in HTC achieve weak performance gains with huge memory overheads and their structure encoders heavily rely on domain knowledge. Under such observation, we tend to investigate the feasibility of a memory-friendly model with strong generalization capability that could boost the performance of HTC without prior statistics or label semantics. In this paper, we propose Hierarchy-aware Tree Isomorphism Network (HiTIN) to enhance the text representations with only syntactic information of the label hierarchy. Specifically, we convert the label hierarchy into an unweighted tree structure, termed coding tree, with the guidance of structural entropy. Then we design a structure encoder to incorporate hierarchy-aware information in the coding tree into text representations. Besides the text encoder, HiTIN only contains a few multi-layer perceptions and linear transformations, which greatly saves memory. We conduct experiments on three commonly used datasets and the results demonstrate that HiTIN could achieve better test performance and less memory consumption than state-of-the-art (SOTA) methods.
翻訳日:2023-05-25 15:18:16 公開日:2023-05-24
# L-CAD:任意のレベル記述による言語ベースの色付け

L-CAD: Language-based Colorization with Any-level Descriptions ( http://arxiv.org/abs/2305.15217v1 )

ライセンス: Link先を確認
Zheng Chang, Shuchen Weng, Peixuan Zhang, Yu Li, Si Li, Boxin Shi(参考訳) 言語ベースのカラー化は、ユーザフレンドリーな自然言語記述の指導の下で、有意義で視覚的な色を生み出す。 従来手法では、画像内のほとんどのオブジェクトに対して、ユーザが包括的な色記述を提供することを暗黙的に仮定していた。 本稿では,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。 我々は、その頑健な言語理解と豊かな色に事前訓練されたモダリティ生成モデルを活用し、あらゆるレベルの記述の本質的なあいまいさに対処する。 さらに,局所的な空間構造を保ち,ゴースト効果を防止するために,入力条件と整合するモジュールを設計する。 提案する新しいサンプリング戦略により,多様で複雑なシナリオでインスタンス対応のカラー化を実現する。 広範な実験結果から,任意のレベル記述を効果的に処理し,言語ベースと自動カラー化手法を両立させる利点が示された。 コードと事前訓練されたモデルは、https://github.com/changzheng123/L-CADで入手できる。

Language-based colorization produces plausible and visually pleasing colors under the guidance of user-friendly natural language descriptions. Previous methods implicitly assume that users provide comprehensive color descriptions for most of the objects in the image, which leads to suboptimal performance. In this paper, we propose a unified model to perform language-based colorization with any-level descriptions. We leverage the pretrained cross-modality generative model for its robust language understanding and rich color priors to handle the inherent ambiguity of any-level descriptions. We further design modules to align with input conditions to preserve local spatial structures and prevent the ghosting effect. With the proposed novel sampling strategy, our model achieves instance-aware colorization in diverse and complex scenarios. Extensive experimental results demonstrate our advantages of effectively handling any-level descriptions and outperforming both language-based and automatic colorization methods. The code and pretrained models are available at: https://github.com/changzheng123/L-CAD.
翻訳日:2023-05-25 15:11:17 公開日:2023-05-24
# 影円錐:双曲空間における部分順序を明かす

Shadow Cones: Unveiling Partial Orders in Hyperbolic Space ( http://arxiv.org/abs/2305.15215v1 )

ライセンス: Link先を確認
Tao Yu, Toni J.B. Liu, Albert Tseng, Christopher De Sa(参考訳) 双曲空間は、ユークリッド空間では耐えられない階層構造の優れた低次元埋め込みを生み出すことが示されている。 これに基いて、ガネア等に関する詳細なコーン定式化は、測地線凸錐を用いて双曲空間に部分順序を埋め込む。 しかし、これらの包含錐は接ベクトルやリーマン空間の指数写像のような複素概念を通じての定義によって直感的な解釈を欠いている。 本稿では,一般多様体上の部分次数を定義するための物理的直感的な解釈を提供する,革新的なフレームワークであるshadow conesを提案する。 これは、太陽と月の関係に触発された比喩的な光源と物体影を使用することによって達成される。 シャドウコーンは、アンブラル錐体とペナンブラル錐体という2つの主要なクラスからなる。 その結果,シャドーコーンはWordNetやConceptNetなど,さまざまなデータセットにまたがる堅牢な表現と一般化機能を提供し,性能の高いエンテーメントコーンよりも優れていた。 その結果,シャドウコーンは,部分順序を幾何学的にエンコードする革新的,汎用的なアプローチを提供し,階層構造を持つデータセットの表現と解析を向上できることが示されている。

Hyperbolic space has been shown to produce superior low-dimensional embeddings of hierarchical structures that are unattainable in Euclidean space. Building upon this, the entailment cone formulation of Ganea et al. uses geodesically convex cones to embed partial orderings in hyperbolic space. However, these entailment cones lack intuitive interpretations due to their definitions via complex concepts such as tangent vectors and the exponential map in Riemannian space. In this paper, we present shadow cones, an innovative framework that provides a physically intuitive interpretation for defining partial orders on general manifolds. This is achieved through the use of metaphoric light sources and object shadows, inspired by the sun-earth-moon relationship. Shadow cones consist of two primary classes: umbral and penumbral cones. Our results indicate that shadow cones offer robust representation and generalization capabilities across a variety of datasets, such as WordNet and ConceptNet, thereby outperforming the top-performing entailment cones. Our findings indicate that shadow cones offer an innovative, general approach to geometrically encode partial orders, enabling better representation and analysis of datasets with hierarchical structures.
翻訳日:2023-05-25 15:11:00 公開日:2023-05-24
# gtnet: 3dポイントクラウド分類と意味セグメンテーションのためのグラフトランスフォーマーネットワーク

GTNet: Graph Transformer Network for 3D Point Cloud Classification and Semantic Segmentation ( http://arxiv.org/abs/2305.15213v1 )

ライセンス: Link先を確認
Wei Zhou, Qian Wang, Weiwei Jin, Xinzhe Shi, Dekui Wang, Xingxing Hao, Yongxiang Yu(参考訳) 近年,グラフベースおよびトランスフォーマーベースのディープラーニングネットワークは,様々なポイントクラウドタスクにおいて優れた性能を示した。 既存のグラフ手法のほとんどは静的グラフに基づいており、グラフ関係を確立するために固定的な入力を取る。 さらに、多くのグラフ法では、隣接する特徴を最大化および平均化することにより、1つの隣接点だけが中心点または異なる隣接点の特徴に影響を与えることが、中心点の特徴に同じ影響を与え、点間の相関や差を無視する。 トランスフォーマーベースのほとんどの手法は、グローバルな注意に基づくポイントクラウドの特徴を抽出し、近隣地域の特徴学習を欠いている。 これら2つのモデルの問題を解決するために,グラフトランスフォーマーと呼ばれる新しい特徴抽出ブロックを提案し,gtnetと呼ばれる3dポイントポイントポイントクラウド学習ネットワークを構築し,ローカルおよびグローバルパターン上のポイントクラウドの特徴を学習する。 Graph Transformerは、グラフベースとTransformerベースのメソッドの利点を統合し、Local TransformerとGlobal Transformerモジュールで構成される。 Local Transformerは、動的グラフを使用して、動的に更新されたグラフ関係を持つドメイン内のクロスアテンションによって、近隣のすべてのポイントが異なる重みを持つセントロイドの特徴に影響を与えるように、すべての近隣のポイントウェイトを計算する。 また,ネットワークの深さの増加に伴う勾配の消失を避けるため,gtnet における中心的特徴の残差接続を行うとともに,局所的幾何記述子を局所的変圧器に生成し,モデルの局所的情報学習能力を強化する。 最後に,GTNetを用いて形状分類,部分分割,意味分割を行う。

Recently, graph-based and Transformer-based deep learning networks have demonstrated excellent performances on various point cloud tasks. Most of the existing graph methods are based on static graph, which take a fixed input to establish graph relations. Moreover, many graph methods apply maximization and averaging to aggregate neighboring features, so that only a single neighboring point affects the feature of centroid or different neighboring points have the same influence on the centroid's feature, which ignoring the correlation and difference between points. Most Transformer-based methods extract point cloud features based on global attention and lack the feature learning on local neighbors. To solve the problems of these two types of models, we propose a new feature extraction block named Graph Transformer and construct a 3D point point cloud learning network called GTNet to learn features of point clouds on local and global patterns. Graph Transformer integrates the advantages of graph-based and Transformer-based methods, and consists of Local Transformer and Global Transformer modules. Local Transformer uses a dynamic graph to calculate all neighboring point weights by intra-domain cross-attention with dynamically updated graph relations, so that every neighboring point could affect the features of centroid with different weights; Global Transformer enlarges the receptive field of Local Transformer by a global self-attention. In addition, to avoid the disappearance of the gradient caused by the increasing depth of network, we conduct residual connection for centroid features in GTNet; we also adopt the features of centroid and neighbors to generate the local geometric descriptors in Local Transformer to strengthen the local information learning capability of the model. Finally, we use GTNet for shape classification, part segmentation and semantic segmentation tasks in this paper.
翻訳日:2023-05-25 15:10:40 公開日:2023-05-24
# パラメータ効率の良い言語モデルの微調整のための適応プレフィックスチューニング

Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model Fine-tuning ( http://arxiv.org/abs/2305.15212v1 )

ライセンス: Link先を確認
Zhen-Ru Zhang, Chuanqi Tan, Haiyang Xu, Chengyu Wang, Jun Huang, Songfang Huang(参考訳) パラメータ全体のダウンストリームタスクで事前学習された大きな言語モデルを微調整することは、非常に高価である。 そのため、パラメータ効率のよい微調整が注目され、凍結事前学習モデルでいくつかのタスク固有のパラメータのみを最適化する。 本研究では,Transformer層に挿入される連続プレフィックスベクトル(擬似トークン)のみを最適化するプレフィックスチューニングに焦点を当てる。 学習された構文と意味論表現が異なる層で大きく異なるという観測に基づいて、適応接頭辞は固定層よりも各層にさらに調整され、より効果的で効率的な微調整が可能になると論じた。 そこで我々は, ゲート機構を用いて, きめ細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整するための適応的修正調整(APT)を提案する。 SuperGLUEとNERデータセットの実験は、APTの有効性を示している。 さらに,ゲートを探索として,変数プレフィックスの有効性と有効性を検証する。

Fine-tuning large pre-trained language models on various downstream tasks with whole parameters is prohibitively expensive. Hence, Parameter-efficient fine-tuning has attracted attention that only optimizes a few task-specific parameters with the frozen pre-trained model. In this work, we focus on prefix tuning, which only optimizes continuous prefix vectors (i.e. pseudo tokens) inserted into Transformer layers. Based on the observation that the learned syntax and semantics representation varies a lot at different layers, we argue that the adaptive prefix will be further tailored to each layer than the fixed one, enabling the fine-tuning more effective and efficient. Thus, we propose Adaptive Prefix Tuning (APT) to adjust the prefix in terms of both fine-grained token level and coarse-grained layer level with a gate mechanism. Experiments on the SuperGLUE and NER datasets show the effectiveness of APT. In addition, taking the gate as a probing, we validate the efficiency and effectiveness of the variable prefix.
翻訳日:2023-05-25 15:10:07 公開日:2023-05-24
# dashcamデータを用いた警察の展開における不一致の検出

Detecting disparities in police deployments using dashcam data ( http://arxiv.org/abs/2305.15210v1 )

ライセンス: Link先を確認
Matt Franchi, J.D. Zamfirescu-Pereira, Wendy Ju, Emma Pierson(参考訳) 大規模警察データは、警察行動と警察アルゴリズムの不平等を検出するために不可欠である。 しかし、1つの重要な警察データはほとんど米国内で利用できない:どの地区に最も重い警察がいるかを収集した警察配備データである。 ここでは,公共ストリートシーンのダシュカム画像から警察車両を検出することで,警察の展開レベルの格差を定量化できることを示す。 ニューヨーク市のライドシェアドライバーによる24,803,854枚のダッシュカム画像を用いて、警察車両を高精度(平均精度0.82, AUC 0.99)で検出し、警察車両を含む233,596枚の画像を特定する。 警察車両の配備レベルでは、地区全体でかなりの不平等がある。 配置レベルが最も高い地域は、最も低い地域よりも約20倍高い。 著しく異なる2つの地域は高い警察車両の配備を経験する - 1)高密度、高所得、商業地域、 2)黒人とヒスパニック系住民の比率が高い低所得地区。 我々は、これらの差異が、エクイティのポリシングと、データのポリシングを訓練したアルゴリズムに与える影響について論じる。

Large-scale policing data is vital for detecting inequity in police behavior and policing algorithms. However, one important type of policing data remains largely unavailable within the United States: aggregated police deployment data capturing which neighborhoods have the heaviest police presences. Here we show that disparities in police deployment levels can be quantified by detecting police vehicles in dashcam images of public street scenes. Using a dataset of 24,803,854 dashcam images from rideshare drivers in New York City, we find that police vehicles can be detected with high accuracy (average precision 0.82, AUC 0.99) and identify 233,596 images which contain police vehicles. There is substantial inequality across neighborhoods in police vehicle deployment levels. The neighborhood with the highest deployment levels has almost 20 times higher levels than the neighborhood with the lowest. Two strikingly different types of areas experience high police vehicle deployments - 1) dense, higher-income, commercial areas and 2) lower-income neighborhoods with higher proportions of Black and Hispanic residents. We discuss the implications of these disparities for policing equity and for algorithms trained on policing data.
翻訳日:2023-05-25 15:09:49 公開日:2023-05-24
# 償却コスト推定による科学シミュレータの一般化ベイズ推定

Generalized Bayesian Inference for Scientific Simulators via Amortized Cost Estimation ( http://arxiv.org/abs/2305.15208v1 )

ライセンス: Link先を確認
Richard Gao, Michael Deistler, Jakob H. Macke(参考訳) シミュレーションベース推論 (SBI) は暗黙の確率を持つシミュレータに対してアモータイズされたベイズ推論を可能にする。 しかし、我々が主に予測シミュレーションの品質に関心を持つ場合、またはモデルが観測されたデータを正確に再現できない場合(すなわち、不特定化されている場合)、ベイズ後方を狙うことは過度に制限される可能性がある。 一般化ベイズ推論(gbi)は、確率関数をデータに対するパラメータの良さを評価するコスト関数に置き換え、(不特定)シミュレータモデルの推論を堅牢化することを目的としている。 しかし、GBI法は一般的に、推論中に各パラメータ値のコスト関数を推定するために複数のシミュレーションを実行する必要がある。 本稿では,この課題に対処するために,GBI の償却コスト推定 (ACE) を提案する。我々は,ニューラルネットワークをトレーニングしてコスト関数を近似し,パラメータと観測データとの予測距離として定義する。 トレーニングされたネットワークはMCMCと組み合わせて、追加のシミュレーションを実行せずにGBI後部を推測することができる。 いくつかのベンチマークタスクにおいて、ACEはコストを正確に予測し、特に不特定シミュレータにおいて、他のSBI法よりも合成観測に近い予測シミュレーションを提供する。 最後に,Allen Cell Types Databaseから実際の細胞内記録を与えられたHodgkin-Huxleyモデルのパラメータを推論するためにACEを適用した。 ACEは、標準のSBI法よりもはるかにシミュレーション効率のよいデータマッチングパラメータを識別する。 要約すると、ACEはSBI法とGBIの強度を組み合わせて、科学シミュレーターのための堅牢でシミュレーションによる推論を行う。

Simulation-based inference (SBI) enables amortized Bayesian inference for simulators with implicit likelihoods. But when we are primarily interested in the quality of predictive simulations, or when the model cannot exactly reproduce the observed data (i.e., is misspecified), targeting the Bayesian posterior may be overly restrictive. Generalized Bayesian Inference (GBI) aims to robustify inference for (misspecified) simulator models, replacing the likelihood-function with a cost function that evaluates the goodness of parameters relative to data. However, GBI methods generally require running multiple simulations to estimate the cost function at each parameter value during inference, making the approach computationally infeasible for even moderately complex simulators. Here, we propose amortized cost estimation (ACE) for GBI to address this challenge: We train a neural network to approximate the cost function, which we define as the expected distance between simulations produced by a parameter and observed data. The trained network can then be used with MCMC to infer GBI posteriors for any observation without running additional simulations. We show that, on several benchmark tasks, ACE accurately predicts cost and provides predictive simulations that are closer to synthetic observations than other SBI methods, especially for misspecified simulators. Finally, we apply ACE to infer parameters of the Hodgkin-Huxley model given real intracellular recordings from the Allen Cell Types Database. ACE identifies better data-matching parameters while being an order of magnitude more simulation-efficient than a standard SBI method. In summary, ACE combines the strengths of SBI methods and GBI to perform robust and simulation-amortized inference for scientific simulators.
翻訳日:2023-05-25 15:09:32 公開日:2023-05-24
# 内在的次元による暗黙的バイアスと敵意攻撃の関連

Relating Implicit Bias and Adversarial Attacks through Intrinsic Dimension ( http://arxiv.org/abs/2305.15203v1 )

ライセンス: Link先を確認
Lorenzo Basile, Nikos Karantzas, Alberto D'Onofrio, Luca Bortolussi, Alex Rodriguez, Fabio Anselmi(参考訳) 分類における優れた性能にもかかわらず、ニューラルネットワークは敵の攻撃に弱いことが知られている。 これらの攻撃は、モデルを騙すように設計された入力データの小さな摂動である。 当然、モデルのアーキテクチャ、設定、プロパティ、および攻撃の性質の間の潜在的なつながりについて疑問が生まれます。 本研究は,ニューラルネットワークの暗黙のバイアスに着目し,特定のパターンや結果を好む本質的な傾向を示すことにより,この問題に光を当てることを目的とする。 具体的には,正確な画像分類に必要なフーリエ周波数を含む暗黙のバイアスの一側面について検討する。 我々はこれらの周波数と攻撃成功に必要な周波数の統計的関係を評価するために試験を行う。 そこで本研究では,この関係を解明するために,座標集合間の非線形相関を明らかにする新しい手法を提案する。 内在次元と相関の絡み合いを利用して,フーリエ空間におけるネットワークバイアスと対向攻撃の標的周波数が密接な関係にあることを示す。

Despite their impressive performance in classification, neural networks are known to be vulnerable to adversarial attacks. These attacks are small perturbations of the input data designed to fool the model. Naturally, a question arises regarding the potential connection between the architecture, settings, or properties of the model and the nature of the attack. In this work, we aim to shed light on this problem by focusing on the implicit bias of the neural network, which refers to its inherent inclination to favor specific patterns or outcomes. Specifically, we investigate one aspect of the implicit bias, which involves the essential Fourier frequencies required for accurate image classification. We conduct tests to assess the statistical relationship between these frequencies and those necessary for a successful attack. To delve into this relationship, we propose a new method that can uncover non-linear correlations between sets of coordinates, which, in our case, are the aforementioned frequencies. By exploiting the entanglement between intrinsic dimension and correlation, we provide empirical evidence that the network bias in Fourier space and the target frequencies of adversarial attacks are closely tied.
翻訳日:2023-05-25 15:09:01 公開日:2023-05-24
# 重み付き問題の量子近似最適化におけるパラメータ設定

Parameter Setting in Quantum Approximate Optimization of Weighted Problems ( http://arxiv.org/abs/2305.15201v1 )

ライセンス: Link先を確認
Shree Hari Sureshbabu, Dylan Herman, Ruslan Shaydulin, Joao Basso, Shouvanik Chakrabarti, Yue Sun, and Marco Pistoia(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、量子コンピュータにおける組合せ最適化問題を解くための主要な候補アルゴリズムである。 しかし、多くの場合、QAOAは計算集約的なパラメータ最適化を必要とする。 パラメータ最適化の課題は、位相演算子の固有値が非整数であり、QAOAエネルギーランドスケープが周期的でない重み付き問題の場合において特に顕著である。 本研究では,重み付き問題の一般クラスに適用したQAOAのパラメータ設定ヒューリスティックスを開発する。 まず、重み付けされたMaxCut問題に適用した深さ$p=1$のQAOAに対する最適パラメータを、重み付けの異なる仮定の下で導出する。 特に、平均的な場合、ゼロに近い最初の局所最適値が世界最適QAOAパラメータを与えるという従来の知恵を厳密に証明する。 第二に、$p\geq 1$ の場合、重み付き MaxCut の QAOA エネルギーランドスケープが、パラメータの単純な再スケーリングの下での未重み付きケースにアプローチすることを証明する。 したがって、未重み付きMaxCutで得られたパラメータを重み付き問題に使用することができる。 最後に、$p=1$のQAOAの目的が期待値に集中していることが証明され、これはパラメータ設定規則がランダムな重み付きインスタンスに対して高い確率で保持されることを意味する。 一般重み付きグラフ上でこのアプローチを数値的に検証し、提案した固定パラメータのQAOAエネルギーが最適化パラメータのQAOAからわずか1.1$%離れていることを示す。 第3に,重み付きmaxcutの解析結果に着想を得た一般ヒューリスティックリスケーリングスキームを提案し,ポートフォリオ最適化問題に適用したxyハミング重み保存ミキサーを用いたqaoaの有効性を示す。 我々のヒューリスティックは局所最適化器の収束を改善し、平均7.2倍のイテレーション数を減らす。

Quantum Approximate Optimization Algorithm (QAOA) is a leading candidate algorithm for solving combinatorial optimization problems on quantum computers. However, in many cases QAOA requires computationally intensive parameter optimization. The challenge of parameter optimization is particularly acute in the case of weighted problems, for which the eigenvalues of the phase operator are non-integer and the QAOA energy landscape is not periodic. In this work, we develop parameter setting heuristics for QAOA applied to a general class of weighted problems. First, we derive optimal parameters for QAOA with depth $p=1$ applied to the weighted MaxCut problem under different assumptions on the weights. In particular, we rigorously prove the conventional wisdom that in the average case the first local optimum near zero gives globally-optimal QAOA parameters. Second, for $p\geq 1$ we prove that the QAOA energy landscape for weighted MaxCut approaches that for the unweighted case under a simple rescaling of parameters. Therefore, we can use parameters previously obtained for unweighted MaxCut for weighted problems. Finally, we prove that for $p=1$ the QAOA objective sharply concentrates around its expectation, which means that our parameter setting rules hold with high probability for a random weighted instance. We numerically validate this approach on general weighted graphs and show that on average the QAOA energy with the proposed fixed parameters is only $1.1$ percentage points away from that with optimized parameters. Third, we propose a general heuristic rescaling scheme inspired by the analytical results for weighted MaxCut and demonstrate its effectiveness using QAOA with the XY Hamming-weight-preserving mixer applied to the portfolio optimization problem. Our heuristic improves the convergence of local optimizers, reducing the number of iterations by 7.2x on average.
翻訳日:2023-05-25 15:08:45 公開日:2023-05-24
# マイクロ波ドレッシングによるRydberg状態dc偏光率の低減

Reducing Rydberg state dc polarizability by microwave dressing ( http://arxiv.org/abs/2305.15200v1 )

ライセンス: Link先を確認
J.C. Bohorquez, R. Chinnarasu, J. Isaacs, D. Booth, M. Beck, R. McDermott, and M. Saffman(参考訳) 我々はセシウム原子Rydberg状態のdc偏光率の減少をマイクロ波電場ドレッシングを用いた77K環境で実証した。 特に、5,35 GHzから5,1D_{5/2}$の共鳴を持つ5,2P_{3/2}$の偏光性は、低温環境下で超伝導共振器と対向するのに適している。 磁気オプティカルトラップ(MOT)損失分光法を用いてライドバーグ状態の偏光性を測定する。 52P_{3/2}$と51D_{5/2}$を結合した非共振性無線周波数(RF)ドレッシング場を用いて、52P_{3/2}$状態のdc偏光性の80$$以上を実証する。 実験結果はSherley-Floquetフォーマリズムを用いて開発された原子組立場系の数値モデルとよく一致している。 また,dc の偏光性低下は,dc とドレッシング場が整列している場合にはほぼゼロ化可能であるが,直交する場合には2つの偏光性低下の要因しか示さない。 これらの結果は、表面近傍に存在する様々なdc場に対するリドベルク共鳴の安定化に役立ち、ハイブリッドリドベルク原子アップコンダクタンス共振器量子ゲートの開発を進展させる。

We demonstrate reduction of the dc polarizability of Cesium atom Rydberg states in a 77 K environment utilizing microwave field dressing. In particular we reduce the polarizability of $52P_{3/2}$ states which have resonances at 5.35 GHz to $51D_{5/2}$, suitable for interfacing Rydberg atoms to superconducting resonators in a cryogenic environment. We measure the polarizability of the Rydberg states using Magneto-Optical-Trap (MOT) loss spectroscopy. Using an off-resonant radio-frequency (RF) dressing field coupling $52P_{3/2}$ and $51D_{5/2}$ we demonstrate a reduction in dc polarizability of the $ 52P_{3/2}$ states over 80$\%$. Experimental findings are in good agreement with a numerical model of the atom-dressing field system developed using the Shirley-Floquet formalism. We also demonstrate that the dc polarizability reduction is highly anisotropic, with near total nulling possible when the dc and dressing fields are aligned, but only a factor of two reduction in polarizability when the fields are orthogonal. These results may aid in stabilizing Rydberg resonances against varying dc fields present near surfaces, enabling advancement in the development of hybrid Rydberg atom - superconducting resonator quantum gates.
翻訳日:2023-05-25 15:08:13 公開日:2023-05-24
# cross-dataset remote photoplethysmographyにおける一般化の促進

Promoting Generalization in Cross-Dataset Remote Photoplethysmography ( http://arxiv.org/abs/2305.15199v1 )

ライセンス: Link先を確認
Nathan Vance, Jeremy Speth, Benjamin Sporrer, Patrick Flynn(参考訳) 遠隔プラチスモグラフィ(remote Photoplethysmography, RPPG)は、カメラを用いて被験者の心拍数を遠隔監視する手法であり、手作りの技法からディープラーニングモデルへのシフトが見られる。 現在のソリューションは大きなパフォーマンス向上をもたらすが、これらのモデルはトレーニングデータセット固有のパルス波の特徴に偏りを覚える傾向にある。 モデルがトレーニング中に見る心拍数の範囲と変動範囲を広げることで,学習バイアスを軽減するため,学習時のモデルの収束性の向上とテスト時のデータセット間一般化を実現している。 3方向のクロスデータセット分析を通じて、平均絶対誤差を毎分13回以上から毎分3回以下に削減できることを実証する。 提案手法を最近のrPPGシステムと比較し,様々な評価パラメータの下で同様の性能を示す。

Remote Photoplethysmography (rPPG), or the remote monitoring of a subject's heart rate using a camera, has seen a shift from handcrafted techniques to deep learning models. While current solutions offer substantial performance gains, we show that these models tend to learn a bias to pulse wave features inherent to the training dataset. We develop augmentations to mitigate this learned bias by expanding both the range and variability of heart rates that the model sees while training, resulting in improved model convergence when training and cross-dataset generalization at test time. Through a 3-way cross dataset analysis we demonstrate a reduction in mean absolute error from over 13 beats per minute to below 3 beats per minute. We compare our method with other recent rPPG systems, finding similar performance under a variety of evaluation parameters.
翻訳日:2023-05-25 15:07:47 公開日:2023-05-24
# より正確なモバイルセルトラフィック予測への道のりについて

On the road to more accurate mobile cellular traffic predictions ( http://arxiv.org/abs/2305.15234v1 )

ライセンス: Link先を確認
Natalia Vassileva Vesselinova(参考訳) 論文で報告されている主な貢献は、モバイルセルトラフィック予測をはるかに正確にするための新しいパラダイムである。 具体的には、自由に利用可能な道路メトリクスを組み込むことで、データ生成プロセスと空間依存を特徴付ける。 したがって、これは予測見積もりを改善する手段となる。 道路のセグメントを覆うセルの短期的将来負荷を予測するために,光学習構造において,道路流量と平均速度変数をセルネットワーク交通量と併用する。 これは、主に都市シナリオ(歩行者の速度と制限された車両速度)を研究し、ネットワークメトリクスとメタ情報のみを使用して中長期予測を行う機械学習アプローチを開発する先行技術とは対照的である。 学習構造は、セルまたはエッジレベルで使用することができ、連合学習と集中学習の両方に応用することができる。

The main contribution reported in the paper is a novel paradigm through which mobile cellular traffic forecasting is made substantially more accurate. Specifically, by incorporating freely available road metrics we characterise the data generation process and spatial dependencies. Therefore, this provides a means for improving the forecasting estimates. We employ highway flow and average speed variables together with a cellular network traffic metric in a light learning structure to predict the short-term future load on a cell covering a segment of a highway. This is in sharp contrast to prior art that mainly studies urban scenarios (with pedestrian and limited vehicular speeds) and develops machine learning approaches that use exclusively network metrics and meta information to make mid-term and long-term predictions. The learning structure can be used at a cell or edge level, and can find application in both federated and centralised learning.
翻訳日:2023-05-25 15:02:05 公開日:2023-05-24
# 文脈学習による多言語モデルにおける言語間伝達性の向上

Boosting Cross-lingual Transferability in Multilingual Models via In-Context Learning ( http://arxiv.org/abs/2305.15233v1 )

ライセンス: Link先を確認
Sunkyoung Kim, Dayeon Ki, Yireun Kim, Jinsik Lee(参考訳) 既存のクロスリンガルトランスファー(clt)プロンプトメソッドは、ソース言語でのモノリンガルデモンストレーションの例にのみ関係している。 本稿では、実演例を構築するために、ソース言語とターゲット言語の両方を活用する新しい言語間移動促進手法であるIn-CLTを提案する。 質問応答タスクに着目し,多言語ベンチマークの総合評価を行う。 実験結果から,In-CLTは多言語モデルの言語間移動性を向上するだけでなく,目立たない言語一般化能力も示している。 In-CLTプロンプトは,従来の言語間転送手法と比較して,平均10~20倍の精度でモデル性能を向上させる。 また、他の多言語ベンチマーク、特に推論タスクにおける驚くべきパフォーマンス向上も観察する。 さらに, 言語間伝達ギャップの観点から, 語彙類似性とコーパス前訓練との関係について検討した。

Existing cross-lingual transfer (CLT) prompting methods are only concerned with monolingual demonstration examples in the source language. In this paper, we propose In-CLT, a novel cross-lingual transfer prompting method that leverages both source and target languages to construct the demonstration examples. We conduct comprehensive evaluations on multilingual benchmarks, focusing on question answering tasks. Experiment results show that In-CLT prompt not only improves multilingual models' cross-lingual transferability, but also demonstrates remarkable unseen language generalization ability. In-CLT prompting, in particular, improves model performance by 10 to 20\% points on average when compared to prior cross-lingual transfer approaches. We also observe the surprising performance gain on the other multilingual benchmarks, especially in reasoning tasks. Furthermore, we investigate the relationship between lexical similarity and pre-training corpora in terms of the cross-lingual transfer gap.
翻訳日:2023-05-25 15:01:53 公開日:2023-05-24
# フォノンによる巨大物体を持つ空間量子重ね合わせの普遍的極限

Universal limit on spatial quantum superpositions with massive objects due to phonons ( http://arxiv.org/abs/2305.15230v1 )

ライセンス: Link先を確認
Carsten Henkel and Ron Folman(参考訳) 重ね合わせ原理は量子理論の原理の1つである。 宇宙量子の重ね合わせはこれまで、光子や素粒子から原子や分子まで、小さなシステムでしかテストされていない。 このような巨大な物体の重ね合わせは長年の目標だった。 これは、新しいレジームにおいて量子論を検証するためだけでなく、量子重力界面を調べるためにも重要である。 さらに、このような実験によってエキゾチックな理論を検証でき、新しい技術も実現できるかもしれない。 このような重ね合わせを作ることは環境の非一貫性によって悪名高いため、大きな物体は繊細な量子状態が統計的な混合物(古典的状態)となる環境と強く結合する。 しかし、孤立技術の発展は、将来このような非一貫性を抑える可能性がある。 ここでは、外部ではなく、オブジェクトの内部にあるデコヒーレンスチャネルを示し、その結果、分離の改善は役に立たない。 このチャネルは、物体内のフォノン(音波)に由来する。 このようなフォノンが任意の分割過程の一部として励起されることを示し、大質量物体との将来の空間的量子重ね合わせの可能性に関する基礎的かつ普遍的な限界を確立する。

The superposition principle is one of the founding principles of quantum theory. Spatial quantum superpositions have so far been tested only with small systems, from photons and elementary particles to atoms and molecules. Such superpositions for massive objects have been a long-standing sought-after goal. This is important not only in order to confirm quantum theory in new regimes, but also in order to probe the quantum-gravity interface. In addition, such an experiment will enable to test exotic theories, and may even enable new technology. Creating such superpositions is notoriously hard because of environmental decoherence, whereby the large object couples strongly to the environment which turns the delicate quantum state into a statistical mixture (classical state). However, advances in the technology of isolation could in future suppress such decoherence. Here we present a decoherence channel which is not external but internal to the object, and consequently improved isolation would not help. This channel originates from the phonons (sound waves) within the object. We show that such phonons are excited as part of any splitting process, and thus we establish a fundamental and universal limit on the possibility of future spatial quantum superpositions with massive objects.
翻訳日:2023-05-25 15:01:39 公開日:2023-05-24
# 短線と直線:微分多様体の測地学

Short and Straight: Geodesics on Differentiable Manifolds ( http://arxiv.org/abs/2305.15228v1 )

ライセンス: Link先を確認
Daniel Kelshaw, Luca Magri(参考訳) 機械学習モデルによって発見されたマニフォールドは、基礎となるデータのコンパクトな表現を提供する。 これらの多様体上の測地学は局所的な長さ最小化曲線を定義し、距離の概念を提供する。 本研究では,測地線長を最小化する既存の手法をまず解析する。 これらは有効な経路や測地線距離を得るのに適していないことが判明した。 我々は,ハミルトニアン保存測地線を得る手段を提供する微分幾何学の数値ツールを活用することで,これらの欠点を解消する。 次に,連続多様体上の距離場と測地流のモデルに基づくパラメータ化を提案する。 提案手法は, 近似や離散化の必要性を排除し, アイコン方程式への多様体対応拡張を利用する。 最後に,Ricciスカラーのより大きい値を示す多様体の領域の標本化とスケーリングのための曲率に基づくトレーニング機構を開発する。 このサンプリングとスケーリングのアプローチは、高次測地偏差を受ける多様体の領域を捕捉することを保証する。 提案手法は,多様体上の有効な測地線と測地線距離を計算するための原理的手法である。 この研究は、可微分多様体上の潜在空間補間、最適制御、距離計算の機会を開く。

Manifolds discovered by machine learning models provide a compact representation of the underlying data. Geodesics on these manifolds define locally length-minimising curves and provide a notion of distance, which are key for reduced-order modelling, statistical inference, and interpolation. In this work, we first analyse existing methods for computing length-minimising geodesics. We find that these are not suitable for obtaining valid paths, and thus, geodesic distances. We remedy these shortcomings by leveraging numerical tools from differential geometry, which provide the means to obtain Hamiltonian-conserving geodesics. Second, we propose a model-based parameterisation for distance fields and geodesic flows on continuous manifolds. Our approach exploits a manifold-aware extension to the Eikonal equation, eliminating the need for approximations or discretisation. Finally, we develop a curvature-based training mechanism, sampling and scaling points in regions of the manifold exhibiting larger values of the Ricci scalar. This sampling and scaling approach ensures that we capture regions of the manifold subject to higher degrees of geodesic deviation. Our proposed methods provide principled means to compute valid geodesics and geodesic distances on manifolds. This work opens opportunities for latent-space interpolation, optimal control, and distance computation on differentiable manifolds.
翻訳日:2023-05-25 15:01:19 公開日:2023-05-24
# 合成負データを用いた学習によるリアルタイム高密度異常検出

Real time dense anomaly detection by learning on synthetic negative data ( http://arxiv.org/abs/2305.15227v1 )

ライセンス: Link先を確認
Anja Deli\'c and Matej Grci\'c and Sini\v{s}a \v{S}egvi\'c(参考訳) 密度異常検出へのほとんどのアプローチは、生成的モデリングや、負のデータで訓練する識別的手法に依存している。 判別的予測のクロスエントロピーと予測されたエネルギーベース密度の負の対数確率に応じて同じ共有表現を最適化する最近のハイブリッド手法を検討する。 我々は、その作業を、慣性分布の境界で合成陰性をサンプリングする、合同で訓練された生成フローで拡張する。 提案する拡張は,実負のデータを用いずにハイブリッド手法を学習できる可能性を提供する。 実験は,合成陰性データを用いたトレーニングの効果を分析し,訓練と評価におけるエネルギー密度の寄与を検証する。

Most approaches to dense anomaly detection rely on generative modeling or on discriminative methods that train with negative data. We consider a recent hybrid method that optimizes the same shared representation according to cross-entropy of the discriminative predictions, and negative log likelihood of the predicted energy-based density. We extend that work with a jointly trained generative flow that samples synthetic negatives at the border of the inlier distribution. The proposed extension provides potential to learn the hybrid method without real negative data. Our experiments analyze the impact of training with synthetic negative data and validate contribution of the energy-based density during training and evaluation.
翻訳日:2023-05-25 15:01:01 公開日:2023-05-24
# SAIL: 検索強化型インストラクション学習

SAIL: Search-Augmented Instruction Learning ( http://arxiv.org/abs/2305.15225v1 )

ライセンス: Link先を確認
Hongyin Luo, Yung-Sung Chuang, Yuan Gong, Tianhua Zhang, Yoon Kim, Xixin Wu, Danny Fox, Helen Meng, James Glass(参考訳) 大規模言語モデル(LLM)は、命令の微調整によって大幅に改善されているが、透明性と最新の知識と情報を活用する能力が欠けている。 本研究では,社内および外部検索エンジンが生成する複雑な検索結果に対して,言語生成と命令追従能力を前提とした検索学習(sail)を提案する。 命令チューニングコーパスを用いて、異なる検索APIやドメインから各トレーニングケースの検索結果を収集し、\textit{(instruction, grounding information, response)}三つ組を含む新しい検索グラウンドトレーニングセットを構築する。 次に、構築したトレーニングセット上でLLaMA-7Bモデルを微調整する。 収集された結果には無関係な言語と否定的な言語が含まれているため、モデルは信頼できる検索結果を基礎にし、注意をそらし、ターゲットの応答を生成することを学ぶ必要がある。 検索結果のデノゲーションプロセスは、検索されたパスは情報的かもしれないが、指示追従応答を含まないため、明確な信頼できる情報選択とマルチホップ推論を必要とする。 実験により、細調整されたSAIL-7Bモデルは、強い指示追従能力を有し、オープンな質問応答や事実チェックなど、透明性に敏感なタスクにおいて、大幅に向上することが示された。

Large language models (LLMs) have been significantly improved by instruction fine-tuning, but still lack transparency and the ability to utilize up-to-date knowledge and information. In this work, we propose search-augmented instruction learning (SAIL), which grounds the language generation and instruction following abilities on complex search results generated by in-house and external search engines. With an instruction tuning corpus, we collect search results for each training case from different search APIs and domains, and construct a new search-grounded training set containing \textit{(instruction, grounding information, response)} triplets. We then fine-tune the LLaMA-7B model on the constructed training set. Since the collected results contain unrelated and disputing languages, the model needs to learn to ground on trustworthy search results, filter out distracting passages, and generate the target response. The search result-denoising process entails explicit trustworthy information selection and multi-hop reasoning, since the retrieved passages might be informative but not contain the instruction-following answer. Experiments show that the fine-tuned SAIL-7B model has a strong instruction-following ability, and it performs significantly better on transparency-sensitive tasks, including open-ended question answering and fact checking.
翻訳日:2023-05-25 15:00:51 公開日:2023-05-24
# 電子健康記録の神経要約

Neural Summarization of Electronic Health Records ( http://arxiv.org/abs/2305.15222v1 )

ライセンス: Link先を確認
Koyena Pal, Seyed Ali Bahrainian, Laura Mercurio, Carsten Eickhoff(参考訳) 病院退院文書は、医療従事者によって書かれた、もっとも必要不可欠な、しかし時間のかかる文書である。 本研究の目的は,ニューラルネットワーク要約モデルを用いて病院退院サマリーを自動的に生成することであった。 放電サマリーを生成する様々なデータ準備とニューラルネットワークトレーニング手法について検討した。 看護ノートとMIMIC-IIIデータセットからの放電サマリーを用いて,4つの最先端ニューラルネットワーク要約モデル(BART,T5,Longformer,FLAN-T5)を用いて,放電サマリーの様々なセクションの自動生成の可能性を検討した。 本実験は,看護ノート等の学習環境と,目標出力としての退院要領の個別部分(例えば「現在の病気の歴史」)が,言語モデルの効率とテキスト品質を向上させることを示唆した。 我々の研究結果によると、細調整されたBARTモデルは標準の市販モデルに対してROUGE F1スコアを43.6%改善した。 また,ベースラインBARTモデルを他のセットアップで微調整することで,改善の度合いが異なる(最大80%の相対的改善)ことも見出した。 また、細調整T5は他の細調整モデルよりも高いROUGE F1スコアを達成し、細調整FLAN-T5は全体的なROUGEスコア、すなわち45.6を達成している。 微調整言語モデルの大多数では, 総括要約報告部は, 別々に, レポート全体を定量的に比較した。 一方,これまで微調整を指導していた微調整言語モデルでは,レポート全体の要約性能が向上した。 本研究は,言語モデルによるアウトレットサマリーの自動生成を目的とした集中型データセットにより,コヒーレント・アウトレット・サマリーを生成できることを結論する。

Hospital discharge documentation is among the most essential, yet time-consuming documents written by medical practitioners. The objective of this study was to automatically generate hospital discharge summaries using neural network summarization models. We studied various data preparation and neural network training techniques that generate discharge summaries. Using nursing notes and discharge summaries from the MIMIC-III dataset, we studied the viability of the automatic generation of various sections of a discharge summary using four state-of-the-art neural network summarization models (BART, T5, Longformer and FLAN-T5). Our experiments indicated that training environments including nursing notes as the source, and discrete sections of the discharge summary as the target output (e.g. "History of Present Illness") improve language model efficiency and text quality. According to our findings, the fine-tuned BART model improved its ROUGE F1 score by 43.6% against its standard off-the-shelf version. We also found that fine-tuning the baseline BART model with other setups caused different degrees of improvement (up to 80% relative improvement). We also observed that a fine-tuned T5 generally achieves higher ROUGE F1 scores than other fine-tuned models and a fine-tuned FLAN-T5 achieves the highest ROUGE score overall, i.e., 45.6. For majority of the fine-tuned language models, summarizing discharge summary report sections separately outperformed the summarization the entire report quantitatively. On the other hand, fine-tuning language models that were previously instruction fine-tuned showed better performance in summarizing entire reports. This study concludes that a focused dataset designed for the automatic generation of discharge summaries by a language model can produce coherent Discharge Summary sections.
翻訳日:2023-05-25 15:00:26 公開日:2023-05-24
# 短期的エンパワーメントの選択はホメオスタティック神経細胞オートマトンの進化を加速する

Selection for short-term empowerment accelerates the evolution of homeostatic neural cellular automata ( http://arxiv.org/abs/2305.15220v1 )

ライセンス: Link先を確認
Caitlin Grasso and Josh Bongard(参考訳) エンパワーメント(ドメインに依存しない情報理論の指標)は、フィットネス機能として使われる際にホメオスタシスが可能な神経細胞オートマトン(nca)の進化的探索を支援することが以前に示されている。 本研究は,NCAを具現化した分散センサモレータシステムに対して,エージェントの行動と将来の感覚の最大時間付き相互情報として定義されたエンパワーメントを成功させた。 しかし,行動とそれに対応する感覚との時間遅延は任意に選択された。 ここでは, 従来の研究を拡大し, ホメオスタティックNCAの発見を加速する補助的目的として, エンパワーメントの作用する時間スケールが有効性に与える影響を探求する。 ホメオスタシスのみの進化的選択と比較して,より長い遅延時間でエンパワーメントが大幅に改善されることが示唆された。 さらに,進化したncasの安定性と適応性についても評価した。 短期的なNCAはより安定しており, ホームスタティックな課題を克服する上で, より優れた一般化が期待できる。 これらの知見は、他のアーティファクトの進化におけるエンパワーメントの利用を動機付け、それらに対する望ましい行動の進化を加速するためにどのように組み込むべきかを示唆している。 本論文のソースコードは, https://github.com/caitlingrasso/empowered-nca-II で公開されている。

Empowerment -- a domain independent, information-theoretic metric -- has previously been shown to assist in the evolutionary search for neural cellular automata (NCA) capable of homeostasis when employed as a fitness function. In our previous study, we successfully extended empowerment, defined as maximum time-lagged mutual information between agents' actions and future sensations, to a distributed sensorimotor system embodied as an NCA. However, the time-delay between actions and their corresponding sensations was arbitrarily chosen. Here, we expand upon previous work by exploring how the time scale at which empowerment operates impacts its efficacy as an auxiliary objective to accelerate the discovery of homeostatic NCAs. We show that shorter time delays result in marked improvements over empowerment with longer delays, when compared to evolutionary selection only for homeostasis. Moreover, we evaluate stability and adaptability of evolved NCAs, both hallmarks of living systems that are of interest to replicate in artificial ones. We find that short-term empowered NCA are more stable and are capable of generalizing better to unseen homeostatic challenges. Taken together, these findings motivate the use of empowerment during the evolution of other artifacts, and suggest how it should be incorporated to accelerate evolution of desired behaviors for them. Source code for the experiments in this paper can be found at: https://github.com/caitlingrasso/empowered-nca-II.
翻訳日:2023-05-25 14:59:55 公開日:2023-05-24
# DynStatF: LiDAR 3Dオブジェクト検出のための効率的な特徴融合戦略

DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object Detection ( http://arxiv.org/abs/2305.15219v1 )

ライセンス: Link先を確認
Yao Rong, Xiangyu Wei, Tianwei Lin, Yueyu Wang, Enkelejda Kasneci(参考訳) 複数の前のフレームでLiDAR入力を増強することで、よりリッチなセマンティック情報が提供され、3次元オブジェクト検出のパフォーマンスが向上するが、多フレームの混在する点雲は、動きのぼけや不正確な点投影による正確な位置情報を損なう可能性がある。 本研究では,マルチフレーム(ダイナミックブランチ)が提供するリッチな意味情報と,現在の単一フレーム(静的ブランチ)からの正確な位置情報を強化する,新しい機能融合戦略であるdynstaf(dynamic-static fusion)を提案する。 補足的特徴を効果的に抽出し集約するために、DynStaFは、2つのモジュール、NCA(Neighborhood Cross Attention)とDSI(Dynamic-Static Interaction)を含んでいる。 NCAは静的ブランチの機能をクエリとして、動的ブランチの機能をキー(値)として取ります。 注意力を計算する際,点雲のスパーシティに対処し,近傍位置のみを考慮に入れる。 ncaは異なる機能マップスケールで2つの機能を融合し、dsiは包括的なインタラクションを提供する。 提案する戦略であるDynStaFを分析するため,nuScenesデータセットについて広範な実験を行った。 テストセットでは、DynStaF は NDS の PointPillars のパフォーマンスを57.7% から61.6% に大きく向上させた。 centerpointと組み合わせると、61.0%のmapと67.7%のndsを実現し、最先端のパフォーマンスを実現します。

Augmenting LiDAR input with multiple previous frames provides richer semantic information and thus boosts performance in 3D object detection, However, crowded point clouds in multi-frames can hurt the precise position information due to the motion blur and inaccurate point projection. In this work, we propose a novel feature fusion strategy, DynStaF (Dynamic-Static Fusion), which enhances the rich semantic information provided by the multi-frame (dynamic branch) with the accurate location information from the current single-frame (static branch). To effectively extract and aggregate complimentary features, DynStaF contains two modules, Neighborhood Cross Attention (NCA) and Dynamic-Static Interaction (DSI), operating through a dual pathway architecture. NCA takes the features in the static branch as queries and the features in the dynamic branch as keys (values). When computing the attention, we address the sparsity of point clouds and take only neighborhood positions into consideration. NCA fuses two features at different feature map scales, followed by DSI providing the comprehensive interaction. To analyze our proposed strategy DynStaF, we conduct extensive experiments on the nuScenes dataset. On the test set, DynStaF increases the performance of PointPillars in NDS by a large margin from 57.7% to 61.6%. When combined with CenterPoint, our framework achieves 61.0% mAP and 67.7% NDS, leading to state-of-the-art performance without bells and whistles.
翻訳日:2023-05-25 14:59:30 公開日:2023-05-24
# 画像・テキスト・パラメトリックデータを用いた車両評価予測のためのマルチモーダル機械学習

Multi-modal Machine Learning for Vehicle Rating Predictions Using Image, Text, and Parametric Data ( http://arxiv.org/abs/2305.15218v1 )

ライセンス: Link先を確認
Hanqi Su, Binyang Song and Faez Ahmed(参考訳) 正確な車両評価予測は、優れた車両の設計と構成を容易にする。 この予測により、自動車デザイナーやメーカーはデザインをタイムリーに最適化し、改善し、製品性能を高め、消費者を効果的に惹きつけることができる。 しかし、既存のデータ駆動方式のほとんどは、テキスト、画像、パラメトリックデータのような単一のモードからのデータに依存しており、利用可能な情報の限定的かつ不完全な探索をもたらす。 これらの手法は、複数のモードからのデータの包括的な分析と探索を欠き、おそらく不正確な結論を導き、この分野の進歩を妨げる。 この制限を克服するために,より包括的かつ正確な車両評価予測のためのマルチモーダル学習モデルを提案する。 具体的には、パラメトリック仕様、テキスト記述、車両のイメージから特徴を同時に学習し、合計スコア、批評家スコア、パフォーマンススコア、安全スコア、インテリアスコアを含む5つの車両評価スコアを予測する。 マルチモーダル学習モデルと対応するユニモーダルモデルを比較し,マルチモーダルモデルの説明力は,ユニモーダルモデルよりも4%~12%高いことがわかった。 そこで本研究では, SHAPを用いた感度解析を行い, 設計者や製造者に設計と最適化の方向性を提供する。 本研究は,車両設計,評価,最適化におけるデータ駆動型マルチモーダル学習手法の重要性を強調する。 コードはhttp://decode.mit.edu/projects/vehicleratings/で公開しています。

Accurate vehicle rating prediction can facilitate designing and configuring good vehicles. This prediction allows vehicle designers and manufacturers to optimize and improve their designs in a timely manner, enhance their product performance, and effectively attract consumers. However, most of the existing data-driven methods rely on data from a single mode, e.g., text, image, or parametric data, which results in a limited and incomplete exploration of the available information. These methods lack comprehensive analyses and exploration of data from multiple modes, which probably leads to inaccurate conclusions and hinders progress in this field. To overcome this limitation, we propose a multi-modal learning model for more comprehensive and accurate vehicle rating predictions. Specifically, the model simultaneously learns features from the parametric specifications, text descriptions, and images of vehicles to predict five vehicle rating scores, including the total score, critics score, performance score, safety score, and interior score. We compare the multi-modal learning model to the corresponding unimodal models and find that the multi-modal model's explanatory power is 4% - 12% higher than that of the unimodal models. On this basis, we conduct sensitivity analyses using SHAP to interpret our model and provide design and optimization directions to designers and manufacturers. Our study underscores the importance of the data-driven multi-modal learning approach for vehicle design, evaluation, and optimization. We have made the code publicly available at http://decode.mit.edu/projects/vehicleratings/.
翻訳日:2023-05-25 14:59:03 公開日:2023-05-24
# 戦略論理における分散

Discounting in Strategy Logic ( http://arxiv.org/abs/2305.15256v1 )

ライセンス: Link先を確認
Munyque Mittelmann, Aniello Murano, Laurent Perrussel(参考訳) マルチエージェントシステムでは、戦略や時間について推論したい限り、分散は重要な次元です。 遠い未来が近い将来ほど重要でないという直感を捉えているため、経済学における重要な側面である。 従来の検証手法では、エージェントの集団に勝利戦略があるかどうかを確認することができるが、目標を早く満たすことは、長い待ち時間後にそれを満足することとは異なるという事実を考慮に入れない。 本稿では, SLdisc[D] と表記される一連の割引関数 D に対して, 将来の割引でStrategy Logic を強化する。 SLdisc[D]の仕様の満足値は[0, 1]の値であり、要求を満たすのに要する時間が長いほど、満足値は小さくなる。 このアプローチをゲーム理論の古典的な例で動機付け、モデルチェックsldisc[d]-formulaの複雑さを研究します。

Discounting is an important dimension in multi-agent systems as long as we want to reason about strategies and time. It is a key aspect in economics as it captures the intuition that the far-away future is not as important as the near future. Traditional verification techniques allow to check whether there is a winning strategy for a group of agents but they do not take into account the fact that satisfying a goal sooner is different from satisfying it after a long wait. In this paper, we augment Strategy Logic with future discounting over a set of discounted functions D, denoted SLdisc[D]. We consider "until" operators with discounting functions: the satisfaction value of a specification in SLdisc[D] is a value in [0, 1], where the longer it takes to fulfill requirements, the smaller the satisfaction value is. We motivate our approach with classical examples from Game Theory and study the complexity of model-checking SLdisc[D]-formulas.
翻訳日:2023-05-25 14:50:53 公開日:2023-05-24
# 音声によるLM:音声トークン以外の音声言語モデリング

LMs with a Voice: Spoken Language Modeling beyond Speech Tokens ( http://arxiv.org/abs/2305.15255v1 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Julian Salazar, Chulayutsh Asawaroengchai, Soroosh Mariooryad, RJ Skerry-Ryan, Michelle Tadmor Ramanovich(参考訳) 本稿では,前訓練言語モデル(lms)を音声継続に適応させる新しいアプローチであるspectronを提案する。 事前学習した音声エンコーダを利用することで、本モデルはテキストと音声の両方の出力を生成し、システム全体がスペクトルを直接操作するエンドツーエンドの訓練を行う。 スペクトログラム領域におけるモデル全体の訓練は、離散的な音声表現を使用する既存のカスケード法と比較して、音声継続システムを単純化する。 さらに,提案手法は,既存の言語モデルに先行する知識の恩恵を受けつつ,意味的内容と話者保存の両方において既存の音声言語モデルを上回ることを示す。 オーディオサンプルは当社のwebサイトhttps://michelleramanovich.github.io/spectron/spectronにあります。

We present SPECTRON, a novel approach to adapting pre-trained language models (LMs) to perform speech continuation. By leveraging pre-trained speech encoders, our model generates both text and speech outputs with the entire system being trained end-to-end operating directly on spectrograms. Training the entire model in the spectrogram domain simplifies our speech continuation system versus existing cascade methods which use discrete speech representations. We further show our method surpasses existing spoken language models both in semantic content and speaker preservation while also benefiting from the knowledge transferred from pre-existing models. Audio samples can be found in our website https://michelleramanovich.github.io/spectron/spectron
翻訳日:2023-05-25 14:50:37 公開日:2023-05-24
# 粒子雲発生のための平均場への注意

Attention to Mean-Fields for Particle Cloud Generation ( http://arxiv.org/abs/2305.15254v1 )

ライセンス: Link先を確認
Benno K\"ach, Isabell Melzer-Pellmann(参考訳) 機械学習を用いたコライダーデータの生成は、特に光度の高い将来の衝突者にとって、モンテカルロの従来のシミュレーション手法に関連する計算問題の増加により、粒子物理学における顕著な研究トピックとして浮上している。 粒子雲の生成は点雲の生成と類似しているが、粒子間の複雑な相関を正確にモデル化することは大きな課題である。 さらに、変動粒子雲はこれらの困難をさらに悪化させ、より洗練されたモデルを必要とする。 本研究では,これらの課題に対処するために注意に基づくアグリゲーション機構を用いた新しいモデルを提案する。 モデルは敵対的なトレーニングパラダイムでトレーニングされ、ジェネレータと批評家の両方が入力に対して順列の等分散/不変性を示す。 トレーニングを安定させるために、批評家の新たな特徴マッチング損失を導入する。 提案モデルでは,パラメータが大幅に少ないのに対して,最先端のモデルと競合する。

The generation of collider data using machine learning has emerged as a prominent research topic in particle physics due to the increasing computational challenges associated with traditional Monte Carlo simulation methods, particularly for future colliders with higher luminosity. Although generating particle clouds is analogous to generating point clouds, accurately modelling the complex correlations between the particles presents a considerable challenge. Additionally, variable particle cloud sizes further exacerbate these difficulties, necessitating more sophisticated models. In this work, we propose a novel model that utilizes an attention-based aggregation mechanism to address these challenges. The model is trained in an adversarial training paradigm, ensuring that both the generator and critic exhibit permutation equivariance/invariance with respect to their input. A novel feature matching loss in the critic is introduced to stabilize the training. The proposed model performs competitively to the state-of-art whilst having significantly fewer parameters.
翻訳日:2023-05-25 14:50:26 公開日:2023-05-24
# ドメイン一般化の評価プロトコルの再考

Rethinking the Evaluation Protocol of Domain Generalization ( http://arxiv.org/abs/2305.15253v1 )

ライセンス: Link先を確認
Han Yu, Xingxuan Zhang, Renzhe Xu, Jiashuo Liu, Yue He, Peng Cui(参考訳) ドメインの一般化は、複数のトレーニングドメインから学んだ共通知識を活用して、アウト・オブ・ディストリビューション(OOD)の一般化の課題を解決することを目的としている。 OOD一般化能力を正確に評価するには、テストデータ情報が利用できないことを保証する必要がある。 しかし、現在のドメイン一般化プロトコルは、テストデータ情報漏洩の可能性がある。 本稿では,現プロトコルの2つの側面,すなわち ImageNet と Oracle モデル選択の事前学習において,テストデータ情報漏洩の潜在的なリスクについて検討する。 我々は,複数のテスト領域をスクラッチからトレーニングすることで,OODの一般化能力をより正確に評価できることを示した。 また、修正されたプロトコルでアルゴリズムを再実行し、より公平な比較でドメインの一般化における将来の研究を促進する新しいリーダーボードを導入する。

Domain generalization aims to solve the challenge of Out-of-Distribution (OOD) generalization by leveraging common knowledge learned from multiple training domains to generalize to unseen test domains. To accurately evaluate the OOD generalization ability, it is necessary to ensure that test data information is unavailable. However, the current domain generalization protocol may still have potential test data information leakage. This paper examines the potential risks of test data information leakage in two aspects of the current protocol: pretraining on ImageNet and oracle model selection. We propose that training from scratch and using multiple test domains would result in a more precise evaluation of OOD generalization ability. We also rerun the algorithms with the modified protocol and introduce a new leaderboard to encourage future research in domain generalization with a fairer comparison.
翻訳日:2023-05-25 14:50:12 公開日:2023-05-24
# 関数近似と理論的保証を考慮した決定型アクタ臨界

Decision-Aware Actor-Critic with Function Approximation and Theoretical Guarantees ( http://arxiv.org/abs/2305.15249v1 )

ライセンス: Link先を確認
Sharan Vaswani, Amirreza Kazemi, Reza Babanezhad, Nicolas Le Roux(参考訳) アクタ-クリティック(ac)法は強化学習(rl)において広く用いられており、アクタとして任意のポリシー勾配法や批判者としての価値ベース法を用いる柔軟性がある。 批評家は通常、俳優との高い報酬を達成するという真の目標と相関する可能性のあるTDエラーを最小化することで訓練される。 我々は,このミスマッチに対処するために,俳優と批評家を意思決定的に訓練するための共同目標を設計する。 提案手法は,任意の関数近似を処理可能な汎用的なacアルゴリズムの設計に使用する。 結果のアルゴリズムは,ポリシーの選択や批判パラメータ化に関わらず,単調な政策改善を保証する条件を明示的に特徴付ける。 ジェネリックアルゴリズムを確立すると、サロゲート関数の列(TRPO、PPOに似ている)を最大化するアクターと、密接な連結対象を最小化する批評家が生じる。 単純なバンディット例を用いて,提案する評価対象の標準二乗誤差に対する効果を実証する。 最後に,単純なrl問題に対する決定認識型アクタ批判フレームワークのメリットを実証的に実証する。

Actor-critic (AC) methods are widely used in reinforcement learning (RL) and benefit from the flexibility of using any policy gradient method as the actor and value-based method as the critic. The critic is usually trained by minimizing the TD error, an objective that is potentially decorrelated with the true goal of achieving a high reward with the actor. We address this mismatch by designing a joint objective for training the actor and critic in a decision-aware fashion. We use the proposed objective to design a generic, AC algorithm that can easily handle any function approximation. We explicitly characterize the conditions under which the resulting algorithm guarantees monotonic policy improvement, regardless of the choice of the policy and critic parameterization. Instantiating the generic algorithm results in an actor that involves maximizing a sequence of surrogate functions (similar to TRPO, PPO) and a critic that involves minimizing a closely connected objective. Using simple bandit examples, we provably establish the benefit of the proposed critic objective over the standard squared error. Finally, we empirically demonstrate the benefit of our decision-aware actor-critic framework on simple RL problems.
翻訳日:2023-05-25 14:49:59 公開日:2023-05-24
# マスク画像モデリングにおけるデータスケーリングの深化

Delving Deeper into Data Scaling in Masked Image Modeling ( http://arxiv.org/abs/2305.15248v1 )

ライセンス: Link先を確認
Cheng-Ze Lu, Xiaojie Jin, Qibin Hou, Jun Hao Liew, Ming-Ming Cheng, Jiashi Feng(参考訳) 自己教師付き学習手法が無制限のデータでスケールできるかどうかを理解することは、大規模モデルのトレーニングに不可欠である。 本研究では、視覚認識のためのマスク付き画像モデリング(MIM)手法(例えば、MAE)のスケーリング能力に関する実証的研究を行う。 手動でキュレートされ、オブジェクト中心である広く使われているimagenetデータセットに依存するほとんどの以前の作品とは異なり、我々はさらに一歩進んで、より実用的な環境でこの問題を調査することを提案する。 具体的には、webで収集したcoyo-700mデータセットを利用する。 coyoデータセットからさまざまなトレーニングイメージをランダムにサンプリングし,0.5m,1m,5m,10m,100m画像を含む一連のサブデータセットを構築し,事前トレーニングを行う。 我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。 研究で明らかになったのは 1)MIMは,訓練データの規模が比較的小さい場合に,モデル容量を改善する効果的な方法とみなすことができる。 2 強力な再建目標は、下流業務に容量を増したモデルを養うことができる。 3) mim事前トレーニングは,ほとんどのシナリオにおいてデータ非依存であり,事前トレーニングデータのサンプリング戦略は重要ではない。 これらの観測が将来のMIM研究に有用な洞察を与えることを期待している。

Understanding whether self-supervised learning methods can scale with unlimited data is crucial for training large-scale models. In this work, we conduct an empirical study on the scaling capability of masked image modeling (MIM) methods (e.g., MAE) for visual recognition. Unlike most previous works that depend on the widely-used ImageNet dataset, which is manually curated and object-centric, we take a step further and propose to investigate this problem in a more practical setting. Specifically, we utilize the web-collected Coyo-700M dataset. We randomly sample varying numbers of training images from the Coyo dataset and construct a series of sub-datasets, containing 0.5M, 1M, 5M, 10M, and 100M images, for pre-training. Our goal is to investigate how the performance changes on downstream tasks when scaling with different sizes of data and models. The study reveals that: 1) MIM can be viewed as an effective method to improve the model capacity when the scale of the training data is relatively small; 2) Strong reconstruction targets can endow the models with increased capacities on downstream tasks; 3) MIM pre-training is data-agnostic under most scenarios, which means that the strategy of sampling pre-training data is non-critical. We hope these observations could provide valuable insights for future research on MIM.
翻訳日:2023-05-25 14:49:40 公開日:2023-05-24
# 遺伝的プログラミングを用いたELA誘導関数進化の課題

Challenges of ELA-guided Function Evolution using Genetic Programming ( http://arxiv.org/abs/2305.15245v1 )

ライセンス: Link先を確認
Fu Xing Long, Diederick Vermetten, Anna V. Kononova, Roman Kalkreuth, Kaifeng Yang, Thomas B\"ack, Niki van Stein(参考訳) 最適化コミュニティ内では、新しい最適化問題をどうやって生成するかという疑問が近年は高まっている。 インスタンス空間分析(ISA)のようなトピックの中で、新しい問題の発生は、まだ既存の研究で検討されていない新しいベンチマークを提供することができる。 さらに、この関数生成は複雑な実世界の最適化問題を解決するためにも活用できる。 対象問題と同様の特性を持つ関数を生成することで、アルゴリズムの選択と構成のためのロバストなテストセットを作成することができる。 しかし、特定の対象特性を持つ関数の生成は依然として困難である。 低レベルのランドスケープ特性をキャプチャする機能は存在するが、意図した高レベルの特徴をキャプチャするとは限らない。 これらの探索的ランドスケープ分析(ela)特性に導かれる遺伝的プログラミング(gp)アプローチは、必ずしも満足できる機能を見つけることができない。 以上の結果から, 景観特性の重み付けに対する注意深い考察が, 対象の景観に十分適応する関数の進化に必要である可能性が示唆された。

Within the optimization community, the question of how to generate new optimization problems has been gaining traction in recent years. Within topics such as instance space analysis (ISA), the generation of new problems can provide new benchmarks which are not yet explored in existing research. Beyond that, this function generation can also be exploited for solving complex real-world optimization problems. By generating functions with similar properties to the target problem, we can create a robust test set for algorithm selection and configuration. However, the generation of functions with specific target properties remains challenging. While features exist to capture low-level landscape properties, they might not always capture the intended high-level features. We show that a genetic programming (GP) approach guided by these exploratory landscape analysis (ELA) properties is not always able to find satisfying functions. Our results suggest that careful considerations of the weighting of landscape properties, as well as the distance measure used, might be required to evolve functions that are sufficiently representative to the target landscape.
翻訳日:2023-05-25 14:49:20 公開日:2023-05-24
# マシン・アンラーニング : その性質、スコープ、そして「削除文化」の重要性

Machine Unlearning: its nature, scope, and importance for a "delete culture" ( http://arxiv.org/abs/2305.15242v1 )

ライセンス: Link先を確認
Luciano Floridi(参考訳) この記事では、デジタル時代の情報を記録から削除する文化の変化と、プライバシ、知的財産権(IP)、ChatGPTのような大規模言語モデルへの影響について説明する。 プライバシやIPを侵害する可能性があるためだけでなく、容認できない、あるいは望ましくないために、情報が利用できない、あるいはアクセスできない、削除文化を定義することから始まる。 次に、このコンテキストにおける2つの戦略に焦点を当てる。削除、情報の入手不能化、アクセス不能化のためのブロッキングである。 この記事は、どちらの戦略も重要な意味を持ち、特に情報が利用できない機械学習(ml)モデルについて論じている。 しかし、機械学習(mu)の新たな研究領域は、潜在的な解決策として強調されている。 MUはまだ初期段階で、MLモデルから特定のデータポイントを削除し、効果的に完全に特定の情報を“忘れる”ことを目指している。 もし成功すれば、MUは情報の過剰さを管理し、プライバシーとIPのより優れた保護を確保するための実現可能な手段を提供することができる。 しかし、MUの誤用、過剰使用、未使用などの潜在的な倫理的リスクは、適切な政策を策定するために体系的に研究されるべきである。

The article explores the cultural shift from recording to deleting information in the digital age and its implications on privacy, intellectual property (IP), and Large Language Models like ChatGPT. It begins by defining a delete culture where information, in principle legal, is made unavailable or inaccessible because unacceptable or undesirable, especially but not only due to its potential to infringe on privacy or IP. Then it focuses on two strategies in this context: deleting, to make information unavailable; and blocking, to make it inaccessible. The article argues that both strategies have significant implications, particularly for machine learning (ML) models where information is not easily made unavailable. However, the emerging research area of Machine Unlearning (MU) is highlighted as a potential solution. MU, still in its infancy, seeks to remove specific data points from ML models, effectively making them 'forget' completely specific information. If successful, MU could provide a feasible means to manage the overabundance of information and ensure a better protection of privacy and IP. However, potential ethical risks, such as misuse, overuse, and underuse of MU, should be systematically studied to devise appropriate policies.
翻訳日:2023-05-25 14:49:06 公開日:2023-05-24
# 単一拡散モデルによるロバスト分類

Robust Classification via a Single Diffusion Model ( http://arxiv.org/abs/2305.15241v1 )

ライセンス: Link先を確認
Huanran Chen, Yinpeng Dong, Zhengyi Wang, Xiao Yang, Chengqi Duan, Hang Su, Jun Zhu(参考訳) 近年, 画像分類器の対向ロバスト性向上に拡散モデルを適用し, 対向雑音を浄化したり, 対向訓練のための実データを生成することに成功した。 しかし、拡散に基づく浄化は強い適応攻撃によって回避できるが、敵の訓練は目に見えない脅威の下ではうまく機能せず、これらの方法の必然的な制限が示される。 本稿では,拡散モデルの表現力をよりよく活用するために,事前学習した拡散モデルから構築した生成的分類器であるロバスト拡散分類器(RDC)を提案する。 提案手法はまず与えられた入力のデータ確率を最大化し,ベイズの定理により拡散モデルの条件付き確率を用いて最適化された入力のクラス確率を予測する。 本手法は特定の敵攻撃の訓練を必要としないため,複数の未確認脅威に対して防御することがより一般的であることを示す。 特に、rdcは、cifar-10で$\epsilon_\infty=8/255$の$\ell_\infty$ノルムバウンドの摂動に対して73.24\%の堅牢な精度を達成し、以前の最先端の敵対的トレーニングモデルを$2.34\%$で上回った。 本研究は, 比較検討された識別分類器と比較して, 対向的堅牢性に対する拡散モデルを用いて, 生成型分類器の可能性を明らかにするものである。

Recently, diffusion models have been successfully applied to improving adversarial robustness of image classifiers by purifying the adversarial noises or generating realistic data for adversarial training. However, the diffusion-based purification can be evaded by stronger adaptive attacks while adversarial training does not perform well under unseen threats, exhibiting inevitable limitations of these methods. To better harness the expressive power of diffusion models, in this paper we propose Robust Diffusion Classifier (RDC), a generative classifier that is constructed from a pre-trained diffusion model to be adversarially robust. Our method first maximizes the data likelihood of a given input and then predicts the class probabilities of the optimized input using the conditional likelihood of the diffusion model through Bayes' theorem. Since our method does not require training on particular adversarial attacks, we demonstrate that it is more generalizable to defend against multiple unseen threats. In particular, RDC achieves $73.24\%$ robust accuracy against $\ell_\infty$ norm-bounded perturbations with $\epsilon_\infty=8/255$ on CIFAR-10, surpassing the previous state-of-the-art adversarial training models by $+2.34\%$. The findings highlight the potential of generative classifiers by employing diffusion models for adversarial robustness compared with the commonly studied discriminative classifiers.
翻訳日:2023-05-25 14:48:46 公開日:2023-05-24
# 倫理とディープラーニング

Ethics and Deep Learning ( http://arxiv.org/abs/2305.15239v1 )

ライセンス: Link先を確認
Travis LaCroix and Simon J. D. Prince(参考訳) この記事は、prince (2023, understanding deep learning)の21章として表示され、教科書の完全な草案はここで入手できる。 本章では、aiシステムの設計と利用から生じる潜在的な害について考察する。 これにはアルゴリズムバイアス、説明可能性の欠如、データのプライバシー侵害、軍事化、詐欺、環境問題などが含まれる。 目的は、もっと倫理的になるためのアドバイスを提供することではない。 その代わり、思想を表現し、哲学、政治科学、より広い社会科学に注目された重要な領域で会話を始めることが目的である。

This article appears as chapter 21 of Prince (2023, Understanding Deep Learning); a complete draft of the textbook is available here: http://udlbook.com. This chapter considers potential harms arising from the design and use of AI systems. These include algorithmic bias, lack of explainability, data privacy violations, militarization, fraud, and environmental concerns. The aim is not to provide advice on being more ethical. Instead, the goal is to express ideas and start conversations in key areas that have received attention in philosophy, political science, and the broader social sciences.
翻訳日:2023-05-25 14:48:18 公開日:2023-05-24
# 効率的なBERT事前学習におけるトークン投下戦略の再検討

Revisiting Token Dropping Strategy in Efficient BERT Pretraining ( http://arxiv.org/abs/2305.15273v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Xuebo Liu, Min Zhang, Bo Du and Dacheng Tao(参考訳) トークンドロップは、複数の中間層で入力トークンのサブセットの計算をスキップすることで、BERTのようなマスク付き言語モデルの事前トレーニングを高速化する、最近提案された戦略である。 下流タスクのパフォーマンスを劣化させることなく、トレーニング時間を効果的に削減できる。 しかし,トークンのドロップは意味的損失問題を起こしやすく,意味論的タスクの処理に不足していることが実証的に判明した。 そこで本研究では,トークンドロップを改善するための簡易かつ効果的な意味一貫性学習手法(sctd)を提案する。 ScTDの目的は、表現空間における意味情報の保存方法を学ぶことをモデルに奨励することである。 12のタスクに関する大規模な実験は、ScTDの助けを借りて、トークンのドロップがすべてのタスクタイプとモデルサイズで一貫性があり、重要なパフォーマンス向上を達成することを示しています。 さらに奨励的に、ScTDは事前トレーニング時間の最大57%を節約し、バニラトークンのドロップよりも平均1.56%改善する。

Token dropping is a recently-proposed strategy to speed up the pretraining of masked language models, such as BERT, by skipping the computation of a subset of the input tokens at several middle layers. It can effectively reduce the training time without degrading much performance on downstream tasks. However, we empirically find that token dropping is prone to a semantic loss problem and falls short in handling semantic-intense tasks. Motivated by this, we propose a simple yet effective semantic-consistent learning method (ScTD) to improve the token dropping. ScTD aims to encourage the model to learn how to preserve the semantic information in the representation space. Extensive experiments on 12 tasks show that, with the help of our ScTD, token dropping can achieve consistent and significant performance gains across all task types and model sizes. More encouragingly, ScTD saves up to 57% of pretraining time and brings up to +1.56% average improvement over the vanilla token dropping.
翻訳日:2023-05-25 14:44:09 公開日:2023-05-24
# vitmatte:プレトレーニングプレーンビジョントランスフォーマーによるイメージマットリングの強化

ViTMatte: Boosting Image Matting with Pretrained Plain Vision Transformers ( http://arxiv.org/abs/2305.15272v1 )

ライセンス: Link先を確認
Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang(参考訳) 近年、様々なコンピュータビジョンタスクにおいて、モデリング能力の強化と大規模な事前トレーニングにより、プレーンビジョントランスフォーマー(ViT)の性能が向上している。 しかし、彼らはまだイメージマットングの問題を克服していない。 画像のマッチングはViTsによって促進される可能性があり、ViTMatteと呼ばれる新しい効率的で堅牢なViTベースのマッチングシステムを提案する。 我々の方法は i) コンボリューションネックと組み合わされたハイブリッドアテンション機構により, マットリング作業における優れた性能計算トレードオフを実現する。 (ii)さらに,マッティングに必要な詳細情報を補完するための単純な軽量畳み込みのみからなる詳細キャプチャモジュールを紹介する。 我々の知る限りでは、ViTMatteは、簡潔な適応で画像マッチングにViTの可能性を解き放つ最初の試みである。 様々な事前訓練戦略、簡潔なアーキテクチャ設計、柔軟な推論戦略など、ViTからマッティングまで多くの優れた特性を継承している。 コンポジション1k と Distinctions-646 の ViTMatte を画像マッチングの最もよく使われるベンチマークとして評価し,提案手法は最先端の性能を達成し,従来よりも大きなマージンを達成している。

Recently, plain vision Transformers (ViTs) have shown impressive performance on various computer vision tasks, thanks to their strong modeling capacity and large-scale pretraining. However, they have not yet conquered the problem of image matting. We hypothesize that image matting could also be boosted by ViTs and present a new efficient and robust ViT-based matting system, named ViTMatte. Our method utilizes (i) a hybrid attention mechanism combined with a convolution neck to help ViTs achieve an excellent performance-computation trade-off in matting tasks. (ii) Additionally, we introduce the detail capture module, which just consists of simple lightweight convolutions to complement the detailed information required by matting. To the best of our knowledge, ViTMatte is the first work to unleash the potential of ViT on image matting with concise adaptation. It inherits many superior properties from ViT to matting, including various pretraining strategies, concise architecture design, and flexible inference strategies. We evaluate ViTMatte on Composition-1k and Distinctions-646, the most commonly used benchmark for image matting, our method achieves state-of-the-art performance and outperforms prior matting works by a large margin.
翻訳日:2023-05-25 14:43:51 公開日:2023-05-24
# 複数の顔反応生成のための可逆的グラフニューラルネットワークによる反応分布学習

Reversible Graph Neural Network-based Reaction Distribution Learning for Multiple Appropriate Facial Reactions Generation ( http://arxiv.org/abs/2305.15270v1 )

ライセンス: Link先を確認
Tong Xu, Micol Spitale, Hao Tang, Lu Liu, Hatice Gunes, Siyang Song(参考訳) 人間と人間の対話における顔反応の生成は複雑で、複数の顔反応が話者の行動に適しているため、文脈に大きく依存する。 これは既存の機械学習(ML)手法に挑戦し、トレーニング戦略では各入力話者の振る舞いから特定の(複数の)顔反応を再現するモデルを強制する。 本論文では, 顔反応生成問題を1対1マッピング問題として再定式化する, 顔反応生成フレームワークを提案する。 これは,複数の異なる適切な顔反応ではなく,聞き手の適切な顔反応の分布を,訓練中の「1」分布ラベルとして要約することにより,この問題にアプローチすることを意味する。 私たちのモデルは知覚プロセッサ、認知プロセッサ、運動プロセッサで構成されています。 モータプロセッサは、新しい可逆性多次元エッジグラフニューラルネットワーク(regnn)によって実装される。 これにより、トレーニングプロセス中に適切な顔反応の分布を得ることができ、認知プロセッサを訓練して適切な顔反応分布を予測することができる。 推論段階では、REGNNは、この分布を入力として、適切な顔反応を復号する。 実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。 改善された性能は、提案された適切な顔反応分布学習戦略とREGNNの使用に起因する。 コードはhttps://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generationで公開されている。

Generating facial reactions in a human-human dyadic interaction is complex and highly dependent on the context since more than one facial reactions can be appropriate for the speaker's behaviour. This has challenged existing machine learning (ML) methods, whose training strategies enforce models to reproduce a specific (not multiple) facial reaction from each input speaker behaviour. This paper proposes the first multiple appropriate facial reaction generation framework that re-formulates the one-to-many mapping facial reaction generation problem as a one-to-one mapping problem. This means that we approach this problem by considering the generation of a distribution of the listener's appropriate facial reactions instead of multiple different appropriate facial reactions, i.e., 'many' appropriate facial reaction labels are summarised as 'one' distribution label during training. Our model consists of a perceptual processor, a cognitive processor, and a motor processor. The motor processor is implemented with a novel Reversible Multi-dimensional Edge Graph Neural Network (REGNN). This allows us to obtain a distribution of appropriate real facial reactions during the training process, enabling the cognitive processor to be trained to predict the appropriate facial reaction distribution. At the inference stage, the REGNN decodes an appropriate facial reaction by using this distribution as input. Experimental results demonstrate that our approach outperforms existing models in generating more appropriate, realistic, and synchronized facial reactions. The improved performance is largely attributed to the proposed appropriate facial reaction distribution learning strategy and the use of a REGNN. The code is available at https://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generation.
翻訳日:2023-05-25 14:43:27 公開日:2023-05-24
# OOD例を用いた大規模言語モデルの一般推論能力の検証

Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples ( http://arxiv.org/abs/2305.15269v1 )

ライセンス: Link先を確認
Abulhair Saparov, Richard Yuanzhe Pang, Vishakh Padmakumar, Nitish Joshi, Seyed Mehran Kazemi, Najoung Kim, He He(参考訳) 証明の空間の難解な大きさを考えると、一般帰納的推論が可能なモデルは、より複雑な証明に一般化しなければならない。 近年の研究では、大規模言語モデル(llm)は、思考連鎖のプロンプトを与える抽象的推論能力を持っていることが示されている。 しかし、それらは主に、モーダスポネンまたは特定の大きさの証明、およびインコンテキストの例と同じ分布でテストされてきた。 LLMの一般的な推論能力を測定するために、我々は幅広い推論規則を検証し、より複雑な証明に一般化する能力を、複数の角度からより単純な演示(深さ、幅、組成の一般化)から測定する。 体系的な探索を容易にするために,推論規則と証明複雑性の制御を可能にする新しい合成およびプログラム可能な推論データセットを構築した。 様々な大きさのLLMと訓練目的の4つの実験により,より長い構成的証明に一般化できることを示した。 しかし、彼らは仮説的な準防備、特にケースによる証明と矛盾による証明を作るために明示的なデモンストレーションを必要としている。

Given the intractably large size of the space of proofs, any model that is capable of general deductive reasoning must generalize to proofs of greater complexity. Recent studies have shown that large language models (LLMs) possess some abstract deductive reasoning ability given chain-of-thought prompts. However, they have primarily been tested on proofs using modus ponens or of a specific size, and from the same distribution as the in-context examples. To measure the general deductive reasoning ability of LLMs, we test on a broad set of deduction rules and measure their ability to generalize to more complex proofs from simpler demonstrations from multiple angles: depth-, width-, and compositional generalization. To facilitate systematic exploration, we construct a new synthetic and programmable reasoning dataset that enables control over deduction rules and proof complexity. Our experiments on four LLMs of various sizes and training objectives show that they are able to generalize to longer and compositional proofs. However, they require explicit demonstrations to produce hypothetical subproofs, specifically in proof by cases and proof by contradiction.
翻訳日:2023-05-25 14:42:49 公開日:2023-05-24
# EvEval: 大規模言語モデルのためのイベントセマンティクスの総合評価

EvEval: A Comprehensive Evaluation of Event Semantics for Large Language Models ( http://arxiv.org/abs/2305.15268v1 )

ライセンス: Link先を確認
Zhengwei Tao, Zhi Jin, Xiaoying Bai, Haiyan Zhao, Yanlin Feng, Jia Li, Wenpeng Hu(参考訳) イベントは様々な文脈で発生の基本的な単位として機能する。 テキスト情報におけるイベントセマンティクスの処理は、多くの自然言語処理(NLP)アプリケーションの基礎を形成する。 最近の研究は、イベントセマンティック処理に対処するために大きな言語モデル(LLM)を活用し始めている。 しかし、LLMがこれらの課題に効果的に対処できる範囲は、まだ不明である。 さらに、イベントセマンティクス処理のための包括的な評価フレームワークが欠如していることは、これらの能力を評価する上で大きな課題となる。 本稿では, イベントセマンティック処理の網羅的枠組みを提案し, 理解, 推論, 予測を包含し, そのきめ細かい側面を包含する。 モデルのイベントセマンティック処理能力を総合的に評価するために,EVEVALと呼ばれる新しいベンチマークを導入する。 イベントセマンティクス処理のすべての側面をカバーする8つのデータセットを収集します。 EVEVALで大規模な実験を行い、得られた結果に基づいていくつかの注目すべき結果を得た。

Events serve as fundamental units of occurrence within various contexts. The processing of event semantics in textual information forms the basis of numerous natural language processing (NLP) applications. Recent studies have begun leveraging large language models (LLMs) to address event semantic processing. However, the extent that LLMs can effectively tackle these challenges remains uncertain. Furthermore, the lack of a comprehensive evaluation framework for event semantic processing poses a significant challenge in evaluating these capabilities. In this paper, we propose an overarching framework for event semantic processing, encompassing understanding, reasoning, and prediction, along with their fine-grained aspects. To comprehensively evaluate the event semantic processing abilities of models, we introduce a novel benchmark called EVEVAL. We collect 8 datasets that cover all aspects of event semantic processing. Extensive experiments are conducted on EVEVAL, leading to several noteworthy findings based on the obtained results.
翻訳日:2023-05-25 14:42:16 公開日:2023-05-24
# スコアマッチング物体を用いたエネルギーベース正規化流れの訓練

Training Energy-Based Normalizing Flow with Score-Matching Objectives ( http://arxiv.org/abs/2305.15267v1 )

ライセンス: Link先を確認
Chen-Hao Chao, Wei-Fang Sun, Yen-Chang Hsu, Zsolt Kira, Chun-Yi Lee(参考訳) 本稿では,フローベースモデルとエネルギーベース生成モデルのパラメータ化の関係を確立し,エネルギーベース正規化フロー(EBFlow)と呼ばれる新しいフローベースモデリング手法を提案する。 EBFlowをスコアマッチング目的に最適化することにより、線形変換に対するヤコビ行列式の計算を完全にバイパスできることを示す。 この機能により、各トレーニングイテレーションの計算時間の複雑さを$\mathcal{o}(d^2l)$から$\mathcal{o}(d^3l)$に増やすことなく、フローベースのモデルの構築において任意の線形層を使用できる。 これにより、EBFlowのトレーニングは、一般的に推奨される最大可能性トレーニング方法よりも効率的になる。 実行時間の短縮に加えて,スコアマッチング手法の分析に基づいて開発した多数の手法により,ebflowのトレーニング安定性と経験的パフォーマンスを向上させる。 実験の結果,nll(負対数類似度)の点で有意なマージンを持つ事前効率的なトレーニング手法を上回って,最大推定値と比較して大きな速度向上を達成できた。

In this paper, we establish a connection between the parameterization of flow-based and energy-based generative models, and present a new flow-based modeling approach called energy-based normalizing flow (EBFlow). We demonstrate that by optimizing EBFlow with score-matching objectives, the computation of Jacobian determinants for linear transformations can be entirely bypassed. This feature enables the use of arbitrary linear layers in the construction of flow-based models without increasing the computational time complexity of each training iteration from $\mathcal{O}(D^2L)$ to $\mathcal{O}(D^3L)$ for an $L$-layered model that accepts $D$-dimensional inputs. This makes the training of EBFlow more efficient than the commonly-adopted maximum likelihood training method. In addition to the reduction in runtime, we enhance the training stability and empirical performance of EBFlow through a number of techniques developed based on our analysis on the score-matching methods. The experimental results demonstrate that our approach achieves a significant speedup compared to maximum likelihood estimation, while outperforming prior efficient training techniques with a noticeable margin in terms of negative log-likelihood (NLL).
翻訳日:2023-05-25 14:41:53 公開日:2023-05-24
# 言語モデルのメモリ効率適応のための全カラムサンプリング

Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model ( http://arxiv.org/abs/2305.15265v1 )

ライセンス: Link先を確認
Zirui Liu, Guanchu Wang, Shaochen Zhong, Zhaozhuo Xu, Daochen Zha, Ruixiang Tang, Zhimeng Jiang, Kaixiong Zhou, Vipin Chaudhary, Shuai Xu, Xia Hu(参考訳) モデルサイズの急激な増加に伴い,大規模な事前学習型言語モデルの微調整は,メモリ使用量の増加によりますます困難になっている。 以前の作業は通常、ネットワーク内のトレーニング可能なパラメータの数を減らすことに重点を置いていた。 モデルパラメータはメモリ使用量に寄与するが、トレーニング中の主なメモリボトルネックは、勾配計算に不可欠な機能マップ(アクティベーションとも呼ばれる)を保存することにある。 特に、ニューラルネットワークは通常、確率勾配降下を用いて訓練される。 確率的最適化では、勾配推定器が合理的な分散で偏りがない限り、モデルはノイズの勾配を扱うことができる。 このモチベーションの後に、分散を低減した行列生成のための WTA-CRS と呼ばれる新しい非偏り推定器群を提案する。 我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。 線形演算を変換器の近似演算に置き換えることで、最大2.7$\times$ピークメモリ削減をほぼ精度低下なく達成でき、最大6.4\times$より大きなバッチサイズを実現することができる。 同じハードウェアで、WTA-CRSはより大きなモデルやより高速なトレーニング速度をバッチサイズで適用することで、ダウンストリームタスクのパフォーマンスを向上させることができる。

With the rapid growth in model size, fine-tuning the large pre-trained language model has become increasingly difficult due to its extensive memory usage. Previous works usually focus on reducing the number of trainable parameters in the network. While the model parameters do contribute to memory usage, the primary memory bottleneck during training arises from storing feature maps, also known as activations, as they are crucial for gradient calculation. Notably, neural networks are usually trained using stochastic gradient descent. We argue that in stochastic optimization, models can handle noisy gradients as long as the gradient estimator is unbiased with reasonable variance. Following this motivation, we propose a new family of unbiased estimators called WTA-CRS, for matrix production with reduced variance, which only requires storing the sub-sampled activations for calculating the gradient. Our work provides both theoretical and experimental evidence that, in the context of tuning transformers, our proposed estimators exhibit lower variance compared to existing ones. By replacing the linear operation with our approximated one in transformers, we can achieve up to 2.7$\times$ peak memory reduction with almost no accuracy drop and enables up to $6.4\times$ larger batch size. Under the same hardware, WTA-CRS enables better down-streaming task performance by applying larger models and/or faster training speed with larger batch sizes.
翻訳日:2023-05-25 14:41:25 公開日:2023-05-24
# 特徴が希少なときにエラーフィードバックが輝く

Error Feedback Shines when Features are Rare ( http://arxiv.org/abs/2305.15264v1 )

ライセンス: Link先を確認
Peter Richt\'arik, Elnur Gasanov, Konstantin Burlachenko(参考訳) We provide the first proof that gradient descent $\left({\color{green}\sf GD}\right)$ with greedy sparsification $\left({\color{green}\sf TopK}\right)$ and error feedback $\left({\color{green}\sf EF}\right)$ can obtain better communication complexity than vanilla ${\color{green}\sf GD}$ when solving the distributed optimization problem $\min_{x\in \mathbb{R}^d} {f(x)=\frac{1}{n}\sum_{i=1}^n f_i(x)}$, where $n$ = # of clients, $d$ = # of features, and $f_1,\dots,f_n$ are smooth nonconvex functions. 2014年に${\color{green}\sf EF}$がSeideらによって最初に提案されて以来、集中的な研究が続けられたが、この問題は現在まで未解決のままである。 例えば、少数のクライアントが所有するデータに各機能が存在している場合に、その機能が希少である場合に、${\color{green}\sf EF}$が政権に輝くことを示す。 To illustrate our main result, we show that in order to find a random vector $\hat{x}$ such that $\lVert {\nabla f(\hat{x})} \rVert^2 \leq \varepsilon$ in expectation, ${\color{green}\sf GD}$ with the ${\color{green}\sf Top1}$ sparsifier and ${\color{green}\sf EF}$ requires ${\cal O} \left(\left( L+{\color{blue}r} \sqrt{ \frac{{\color{red}c}}{n} \min \left( \frac{{\color{red}c}}{n} \max_i L_i^2, \frac{1}{n}\sum_{i=1}^n L_i^2 \right) }\right) \frac{1}{\varepsilon} \right)$ bits to be communicated by each worker to the server only, where $L$ is the smoothness constant of $f$, $L_i$ is the smoothness constant of $f_i$, ${\color{red}c}$ is the maximal number of clients owning any feature ($1\leq {\color{red}c} \leq n$), and ${\color{blue}r}$ is the maximal number of features owned by any client ($1\leq {\color{blue}r} \leq d$). 明らかに、通信複雑性は、${\color{red}c}$が減少するにつれて改善され(つまり、機能がより稀になるにつれて)、同じ状態にある${\color{green}\sf GD}$の通信複雑性は${\cal O}({\color{blue}r} L \frac{1}{\varepsilon})$よりもずっと良くなる。

We provide the first proof that gradient descent $\left({\color{green}\sf GD}\right)$ with greedy sparsification $\left({\color{green}\sf TopK}\right)$ and error feedback $\left({\color{green}\sf EF}\right)$ can obtain better communication complexity than vanilla ${\color{green}\sf GD}$ when solving the distributed optimization problem $\min_{x\in \mathbb{R}^d} {f(x)=\frac{1}{n}\sum_{i=1}^n f_i(x)}$, where $n$ = # of clients, $d$ = # of features, and $f_1,\dots,f_n$ are smooth nonconvex functions. Despite intensive research since 2014 when ${\color{green}\sf EF}$ was first proposed by Seide et al., this problem remained open until now. We show that ${\color{green}\sf EF}$ shines in the regime when features are rare, i.e., when each feature is present in the data owned by a small number of clients only. To illustrate our main result, we show that in order to find a random vector $\hat{x}$ such that $\lVert {\nabla f(\hat{x})} \rVert^2 \leq \varepsilon$ in expectation, ${\color{green}\sf GD}$ with the ${\color{green}\sf Top1}$ sparsifier and ${\color{green}\sf EF}$ requires ${\cal O} \left(\left( L+{\color{blue}r} \sqrt{ \frac{{\color{red}c}}{n} \min \left( \frac{{\color{red}c}}{n} \max_i L_i^2, \frac{1}{n}\sum_{i=1}^n L_i^2 \right) }\right) \frac{1}{\varepsilon} \right)$ bits to be communicated by each worker to the server only, where $L$ is the smoothness constant of $f$, $L_i$ is the smoothness constant of $f_i$, ${\color{red}c}$ is the maximal number of clients owning any feature ($1\leq {\color{red}c} \leq n$), and ${\color{blue}r}$ is the maximal number of features owned by any client ($1\leq {\color{blue}r} \leq d$). Clearly, the communication complexity improves as ${\color{red}c}$ decreases (i.e., as features become more rare), and can be much better than the ${\cal O}({\color{blue}r} L \frac{1}{\varepsilon})$ communication complexity of ${\color{green}\sf GD}$ in the same regime.
翻訳日:2023-05-25 14:40:59 公開日:2023-05-24
# 並列コンテキストを再考する Windows: フラストレーションにシンプルな代替手段とチェーン・オブ・フォールト劣化

Revisiting Parallel Context Windows: A Frustratingly Simple Alternative and Chain-of-Thought Deterioration ( http://arxiv.org/abs/2305.15262v1 )

ライセンス: Link先を確認
Kejuan Yang, Xiao Liu, Kaiwen Men, Aohan Zeng, Yuxiao Dong, Jie Tang(参考訳) 我々は,最近の並列統合手法であるParallel Context Windows (PCW)の評価において,LLaMAの2048のような言語モデルの最大コンテキスト長を拡張する2つの重要な制約を,ウィンドウワイドアテンションと位置埋め込み技術を用いて同定する。 まず,単純な重み付き和アンサンブルが,文脈内少数ショット分類では欠落していることを示す。 さらに、より挑戦的な CoT (Chain-of-Thought) 推論(HotpotQA など)では、PCW は問題理解と偽推論に関して予期せぬ劣化を示す。 この結果から,既存のPCW設計では,実世界のアプリケーションにおける文書の扱いにおいて,十分な改善と実用性は得られないことが示唆された。 言語モデルの長いコンテキスト理解能力を実現するためのコミュニティの努力は、報われるべきです。

We identify two crucial limitations in the evaluation of recent parallel-integrated method Parallel Context Windows (PCW), which extends the maximum context lengths of language models, e.g., 2048 for LLaMA, by harnessing window-wise attention and positional embedding techniques. We first show that a simple yet strong baseline, weighted sum ensemble, is missing for the in-context few-shot classification. Moreover, on more challenging Chain-of-Thought (CoT) reasoning (e.g., HotpotQA), PCW would present unexpected deterioration regarding question miscomprehension and false inference. Based on our findings, we suggest that the existing PCW design may not guarantee sufficient improvement and practicality in handling lengthy documents in real-world applications. More community efforts on enabling language models' long context understanding ability should be paid.
翻訳日:2023-05-25 14:39:59 公開日:2023-05-24
# 協調的世界モデル:オンラインOffline Transfer RLアプローチ

Collaborative World Models: An Online-Offline Transfer RL Approach ( http://arxiv.org/abs/2305.15260v1 )

ライセンス: Link先を確認
Qi Wang, Junming Yang, Yunbo Wang, Xin Jin, Wenjun Zeng, Xiaokang Yang(参考訳) オフラインデータセットにおける視覚強化学習(RL)モデルの訓練は、表現学習における問題と値関数における過大評価の問題により困難である。 本稿では,オフライン環境における視覚rlの性能向上を目的とした,コラボレーティブ・ワールド・モデル(coworld)と呼ばれるトランスファー学習手法を提案する。 原文(投稿日:2019/09/17)へのリンク ターゲットドメインで学んだオフラインポリシーに対して、オンラインの‘テストベッド’として補助的なRLモデルをトレーニングするために、簡単に相互作用可能なオフザシェルフシミュレータを使用することが中心的な考え方だ。 具体的には、coworldはドメインコラボレーティブな表現学習を行い、オンラインとオフラインの隠れた状態分散の間のギャップを埋める。 さらに、ソースRLエージェントがターゲット認識値の推定を可能とし、効果的なオフラインポリシー正則化を可能にするドメイン協調行動学習を行う。 実験によると、coworldはdeepmind controlとmeta-worldのオフラインビジュアルコントロールタスクで既存のメソッドを大幅に上回っている。

Training visual reinforcement learning (RL) models in offline datasets is challenging due to overfitting issues in representation learning and overestimation problems in value function. In this paper, we propose a transfer learning method called Collaborative World Models (CoWorld) to improve the performance of visual RL under offline conditions. The core idea is to use an easy-to-interact, off-the-shelf simulator to train an auxiliary RL model as the online ``test bed'' for the offline policy learned in the target domain, which provides a flexible constraint for the value function -- Intuitively, we want to mitigate the overestimation problem of value functions outside the offline data distribution without impeding the exploration of actions with potential advantages. Specifically, CoWorld performs domain-collaborative representation learning to bridge the gap between online and offline hidden state distributions. Furthermore, it performs domain-collaborative behavior learning that enables the source RL agent to provide target-aware value estimation, allowing for effective offline policy regularization. Experiments show that CoWorld significantly outperforms existing methods in offline visual control tasks in DeepMind Control and Meta-World.
翻訳日:2023-05-25 14:39:43 公開日:2023-05-24
# チャットGPT・大規模言語モデル・AI時代の科学 : 研究倫理の見直しと応答方法への挑戦

Science in the Era of ChatGPT, Large Language Models and AI: Challenges for Research Ethics Review and How to Respond ( http://arxiv.org/abs/2305.15299v1 )

ライセンス: Link先を確認
Evangelos Pournaras(参考訳) ChatGPTのような人工知能(AI)の大規模な言語モデルは、科学と研究に顕著だが議論の余地がある。 本稿では,科学行為における認識論的課題,倫理的・整合性リスクについて検討する。 これは、AI時代の高品質な研究倫理レビューのための、新たなタイムリーな基礎を築くことを目的としている。 研究機器と主題としてのAI言語モデルの役割は、科学者、参加者、レビュアーに対する倫理的意味とともに精査されている。 10のレコメンデーションは、AI言語モデルによるより責任ある研究行動に対する応答を形成する。

Large language models of artificial intelligence (AI) such as ChatGPT find remarkable but controversial applicability in science and research. This paper reviews epistemological challenges, ethical and integrity risks in science conduct. This is with the aim to lay new timely foundations for a high-quality research ethics review in the era of AI. The role of AI language models as a research instrument and subject is scrutinized along with ethical implications for scientists, participants and reviewers. Ten recommendations shape a response for a more responsible research conduct with AI language models.
翻訳日:2023-05-25 14:31:44 公開日:2023-05-24
# マルチフュージョン:多言語多モード画像生成のための事前学習モデル

MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal Image Generation ( http://arxiv.org/abs/2305.15296v1 )

ライセンス: Link先を確認
Marco Bellagente, Manuel Brack, Hannah Teufel, Felix Friedrich, Bj\"orn Deiseroth, Constantin Eichenberg, Andrew Dai, Robert Baldock, Souradeep Nanda, Koen Oostermeijer, Andres Felipe Cruz-Salinas, Patrick Schramowski, Kristian Kersting, Samuel Weinbach(参考訳) 最近のtext-to-image diffusion models(dm)の人気は、ユーザに提供する直感的なインターフェースに起因している。 意図された生成は自然言語で表現でき、モデルはテキストプロンプトの忠実な解釈を生成する。 しかし、複雑なアイデアやニュアンスをテキストだけで表現することは困難である。 画像生成を容易にするために,複数のモダリティや言語を任意にインターリーブした入力で複雑でニュアンスな概念を表現できるMultiFusionを提案する。 mutlifusionは事前トレーニングされたモデルを活用し、それらを結合システムに統合することで、スクラッチから広範なトレーニングの必要性を回避する。 実験結果は,個々のモジュールから下流モデルへの効率的な機能移行を実証する。 特に、すべての独立したコンポーネントの融合により、画像生成モジュールは単一の言語でモノモダルデータのみを訓練しているにもかかわらず、多言語、インターリーブされたマルチモーダル入力を利用することができる。

The recent popularity of text-to-image diffusion models (DM) can largely be attributed to the intuitive interface they provide to users. The intended generation can be expressed in natural language, with the model producing faithful interpretations of text prompts. However, expressing complex or nuanced ideas in text alone can be difficult. To ease image generation, we propose MultiFusion that allows one to express complex and nuanced concepts with arbitrarily interleaved inputs of multiple modalities and languages. MutliFusion leverages pre-trained models and aligns them for integration into a cohesive system, thereby avoiding the need for extensive training from scratch. Our experimental results demonstrate the efficient transfer of capabilities from individual modules to the downstream model. Specifically, the fusion of all independent components allows the image generation module to utilize multilingual, interleaved multimodal inputs despite being trained solely on monomodal data in a single language.
翻訳日:2023-05-25 14:31:35 公開日:2023-05-24
# 反復的検索生成シナジーによる検索適応型大規模言語モデルの拡張

Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy ( http://arxiv.org/abs/2305.15294v1 )

ライセンス: Link先を確認
Zhihong Shao, Yeyun Gong, Yelong Shen, Minlie Huang, Nan Duan, Weizhu Chen(参考訳) 大きな言語モデルは強力なテキストプロセッサと推論器であるが、いまだに時代遅れの知識や幻覚など、世界への接続を必要とする制限を被っている。 検索型大規模言語モデルは,外部知識に基づくモデル生成の基盤として,広く注目を集めている。 しかし、検索者は関連性、特に複雑な情報を必要とするクエリーを捉えるのに苦労する。 近年の研究では、検索に積極的に関与する大きな言語モデル、すなわち、生成による検索を改善することで、関連性モデリングを改善することが提案されている。 本稿では, iter-retgen と呼ばれる手法により, 検索と生成を反復的に相乗的に行うことで, 高い性能を実現することを示す。 モデル出力は、タスクを完了するのに必要なものを示し、それゆえ、より関連する知識を取得するための情報的コンテキストを提供し、結果として次のイテレーションでより良いアウトプットを生成するのに役立つ。 出力を生成するときに生成と検索をインターリーブする最近の研究と比較すると、iter-retgenプロセスはすべての知識を全体として取得し、構造的な制約なしに生成の柔軟性を保っている。 マルチホップ質問応答、事実検証、コモンセンス推論に基づいてIter-RetGenを評価し、パラメトリック知識と非パラメトリック知識を柔軟に活用できることを示し、検索と生成のオーバーヘッドを少なくしつつ、最先端の検索強化ベースラインに勝ったり、競合することを示す。 世代別検索適応によりさらに性能を向上させることができる。

Large language models are powerful text processors and reasoners, but are still subject to limitations including outdated knowledge and hallucinations, which necessitates connecting them to the world. Retrieval-augmented large language models have raised extensive attention for grounding model generation on external knowledge. However, retrievers struggle to capture relevance, especially for queries with complex information needs. Recent work has proposed to improve relevance modeling by having large language models actively involved in retrieval, i.e., to improve retrieval with generation. In this paper, we show that strong performance can be achieved by a method we call Iter-RetGen, which synergizes retrieval and generation in an iterative manner. A model output shows what might be needed to finish a task, and thus provides an informative context for retrieving more relevant knowledge which in turn helps generate a better output in the next iteration. Compared with recent work which interleaves retrieval with generation when producing an output, Iter-RetGen processes all retrieved knowledge as a whole and largely preserves the flexibility in generation without structural constraints. We evaluate Iter-RetGen on multi-hop question answering, fact verification, and commonsense reasoning, and show that it can flexibly leverage parametric knowledge and non-parametric knowledge, and is superior to or competitive with state-of-the-art retrieval-augmented baselines while causing fewer overheads of retrieval and generation. We can further improve performance via generation-augmented retrieval adaptation.
翻訳日:2023-05-25 14:31:18 公開日:2023-05-24
# シャープネス認識最小化における正規化の役割

The Crucial Role of Normalization in Sharpness-Aware Minimization ( http://arxiv.org/abs/2305.15287v1 )

ライセンス: Link先を確認
Yan Dai, Kwangjun Ahn, Suvrit Sra(参考訳) Sharpness-Aware Minimization (SAM)は、ディープニューラルネットワークの予測性能を大幅に改善する勾配に基づく最適化(Foret et al., ICLR 2021)である。 その結果、その実証的な成功を説明することへの関心が高まっている。 特に、SAM更新の重要なコンポーネントである正規化による役割の理解に重点を置いています。 我々は、SAMにおける凸関数と非凸関数の両方に対する正規化の効果を理論的に経験的に研究し、正規化が果たす2つの重要な役割を明らかにした。 一 アルゴリズムの安定化に役立ち、かつ ii) アルゴリズムがminimaの連続体(多様体)に沿ってドリフトすることを可能にする。 さらに、正規化のこれらの2つの性質はSAMを超パラメータの選択に対して堅牢にし、SAMの実用性を支持することを主張する。 我々の結論は様々な実験によって裏付けられている。

Sharpness-Aware Minimization (SAM) is a recently proposed gradient-based optimizer (Foret et al., ICLR 2021) that greatly improves the prediction performance of deep neural networks. Consequently, there has been a surge of interest in explaining its empirical success. We focus, in particular, on understanding the role played by normalization, a key component of the SAM updates. We theoretically and empirically study the effect of normalization in SAM for both convex and non-convex functions, revealing two key roles played by normalization: i) it helps in stabilizing the algorithm; and ii) it enables the algorithm to drift along a continuum (manifold) of minima -- a property identified by recent theoretical works that is the key to better performance. We further argue that these two properties of normalization make SAM robust against the choice of hyper-parameters, supporting the practicality of SAM. Our conclusions are backed by various experiments.
翻訳日:2023-05-25 14:30:53 公開日:2023-05-24
# replicable強化学習

Replicable Reinforcement Learning ( http://arxiv.org/abs/2305.15284v1 )

ライセンス: Link先を確認
Eric Eaton, Marcel Hussing, Michael Kearns, Jessica Sorrell(参考訳) 社会的、行動的、データ科学における複製可能性の危機は、複製性のためのアルゴリズムフレームワーク、すなわち、アルゴリズムが同じ分布から2つの異なるサンプルを実行する際に(高い確率で)同じ出力を生成するという要求を定式化した。 まだ初期段階だが、統計的クエリ学習、ヘビーヒッター問題、分散テストなど、機械学習と統計学における多くの基本的なタスクのために、確実に再現可能なアルゴリズムが開発されている。 本研究では,レプリケーブル強化学習(replicable reinforcement learning)の研究を開始し,並列値反復のためのproplicableアルゴリズムと,エピソディック設定におけるr-maxのreplicableバージョンを提供する。 これらは、バッチ学習設定とは異なるレプリケーションの課題を示す、制御問題に対する最初の公式な再現性結果である。

The replicability crisis in the social, behavioral, and data sciences has led to the formulation of algorithm frameworks for replicability -- i.e., a requirement that an algorithm produce identical outputs (with high probability) when run on two different samples from the same underlying distribution. While still in its infancy, provably replicable algorithms have been developed for many fundamental tasks in machine learning and statistics, including statistical query learning, the heavy hitters problem, and distribution testing. In this work we initiate the study of replicable reinforcement learning, providing a provably replicable algorithm for parallel value iteration, and a provably replicable version of R-max in the episodic setting. These are the first formal replicability results for control problems, which present different challenges for replication than batch learning settings.
翻訳日:2023-05-25 14:30:35 公開日:2023-05-24
# フォトニック貯留層コンピュータを用いた高速人行動認識

High Speed Human Action Recognition using a Photonic Reservoir Computer ( http://arxiv.org/abs/2305.15283v1 )

ライセンス: Link先を確認
Enrico Picco, Piotr Antonik, Serge Massar(参考訳) ビデオにおける人間の行動の認識はコンピュータビジョンにおける最も活発な研究分野の一つである。 標準的アプローチは生のビデオデータの多かれ少なかれ複雑な前処理段階で構成され、その後比較的単純な分類アルゴリズムが続く。 ここでは,貯水池計算アルゴリズムを用いて人間の行動の認識に対処し,分類器の段階に焦点をあてる。 そこで本研究では,簡易な短時間・長時間スケールで組み合わせた「興味の時間ステップ」に基づく新しい貯留層コンピュータのトレーニング手法を提案する。 我々は,このアルゴリズムの性能を,KTHデータセット上の1つの非線形ノードと遅延線に基づく数値シミュレーションとフォトニック実装の両方を用いて検討した。 我々は,複数の映像ストリームをリアルタイムで処理できる点まで,高い精度と速度で課題を解決した。 本研究は、ビデオ処理のための効率的な専用ハードウェアを開発するための重要なステップである。

The recognition of human actions in videos is one of the most active research fields in computer vision. The canonical approach consists in a more or less complex preprocessing stages of the raw video data, followed by a relatively simple classification algorithm. Here we address recognition of human actions using the reservoir computing algorithm, which allows us to focus on the classifier stage. We introduce a new training method for the reservoir computer, based on "Timesteps Of Interest", which combines in a simple way short and long time scales. We study the performance of this algorithm using both numerical simulations and a photonic implementation based on a single non-linear node and a delay line on the well known KTH dataset. We solve the task with high accuracy and speed, to the point of allowing for processing multiple video streams in real time. The present work is thus an important step towards developing efficient dedicated hardware for video processing.
翻訳日:2023-05-25 14:30:20 公開日:2023-05-24
# 厳密なゼロショット階層分類のための単純かつ効果的な枠組み

A Simple and Effective Framework for Strict Zero-Shot Hierarchical Classification ( http://arxiv.org/abs/2305.15282v1 )

ライセンス: Link先を確認
Rohan Bhambhoria, Lei Chen, Xiaodan Zhu(参考訳) 近年、大規模言語モデル(LLM)は、特にゼロまたは少数ショット設定において、ベンチマークタスクにおいて強力なパフォーマンスを実現している。 しかしながら、これらのベンチマークは、階層的な分類のような現実世界の課題に適切に対処しないことが多い。 この課題に対処するために,階層型データセットの従来のタスクを,より示唆的なロングテール予測タスクにリファクタリングすることを提案する。 これらの場合、LSMは失敗しがちである。 これらの制約に対処するため、厳密なゼロショット設定で高い性能を実現するLLMと併用してエンテーメント・コントラディション予測(entailment-contradiction prediction)を提案する。 重要なことに、このメソッドはパラメータ更新やリソース集約的なプロセスを必要としず、複数のデータセットにまたがる強力なパフォーマンスを実現します。

In recent years, large language models (LLMs) have achieved strong performance on benchmark tasks, especially in zero or few-shot settings. However, these benchmarks often do not adequately address the challenges posed in the real-world, such as that of hierarchical classification. In order to address this challenge, we propose refactoring conventional tasks on hierarchical datasets into a more indicative long-tail prediction task. We observe LLMs are more prone to failure in these cases. To address these limitations, we propose the use of entailment-contradiction prediction in conjunction with LLMs, which allows for strong performance in a strict zero-shot setting. Importantly, our method does not require any parameter updates, a resource-intensive process and achieves strong performance across multiple datasets.
翻訳日:2023-05-25 14:30:06 公開日:2023-05-24
# 後継・先駆的探究

Successor-Predecessor Intrinsic Exploration ( http://arxiv.org/abs/2305.15277v1 )

ライセンス: Link先を確認
Changmin Yu, Neil Burgess, Maneesh Sahani, Sam Gershman(参考訳) 探索は強化学習、特に外部報酬が希薄な環境では不可欠である。 ここでは,エージェントが自己生成した内在的な報酬によって外部の報酬を過度に増強する,内在的な報酬による探索に焦点を当てる。 内在的な報酬の研究には長い歴史があるが、既存の手法では、状態の将来の見通しに基づく内在的な報酬の構成に焦点をあて、遷移系列の振り返り構造に含まれる情報を無視している。 ここでは,局地的な情報ではなく,グローバルな情報に基づく効率的な探索を容易にするために,エージェントが振り返り情報を利用して構造認識による爆発行動を生成することを論じる。 本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。 本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。 また, 深層強化学習エージェントにSPIEを実装し, 既存のスパース・リワード・アタリゲームに比べて, 実験性能が向上することを示す。

Exploration is essential in reinforcement learning, particularly in environments where external rewards are sparse. Here we focus on exploration with intrinsic rewards, where the agent transiently augments the external rewards with self-generated intrinsic rewards. Although the study of intrinsic rewards has a long history, existing methods focus on composing the intrinsic reward based on measures of future prospects of states, ignoring the information contained in the retrospective structure of transition sequences. Here we argue that the agent can utilise retrospective information to generate explorative behaviour with structure-awareness, facilitating efficient exploration based on global instead of local information. We propose Successor-Predecessor Intrinsic Exploration (SPIE), an exploration algorithm based on a novel intrinsic reward combining prospective and retrospective information. We show that SPIE yields more efficient and ethologically plausible exploratory behaviour in environments with sparse rewards and bottleneck states than competing methods. We also implement SPIE in deep reinforcement learning agents, and show that the resulting agent achieves stronger empirical performance than existing methods on sparse-reward Atari games.
翻訳日:2023-05-25 14:29:52 公開日:2023-05-24
# インクリメンタル学習によるロバストスパース平均推定

Robust Sparse Mean Estimation via Incremental Learning ( http://arxiv.org/abs/2305.15276v1 )

ライセンス: Link先を確認
Jianhao Ma, Rui Ray Chen, Yinghui He, Salar Fattahi, Wei Hu(参考訳) 本稿では,重み付き分布から引き出された部分的破損標本の集合から,k$-sparse平均を推定することを目的とした,ロバストなスパース平均推定問題について検討する。 既存の推定装置はこの設定で2つの重要な課題に直面している。 まず、計算効率の良いアルゴリズムは$\tilde\omega(k^2)$のサンプルを必要とするが、統計的に最適のアルゴリズムは$\tilde o(k)$のサンプルを必要とする。 第二に、既存の推定器は周囲の寸法に劣るほど実用性に欠ける。 本稿では, 実測値の回収に$\tilde O(k)$サンプルしか必要とせず, ほぼ直線時間とメモリ(双方の周囲次元に関して)で動作する, 適度な条件下で両課題を克服する単純な平均推定器を提案する。 私たちは、ゼロ要素を任意に小さく保ちながら、平均の最上位の$k$非ゼロ要素を漸進的に学習できる単純な非凸フレームワークを導入します。 既存の推定器とは異なり、我々の方法はスパーシティレベル$k$に関する事前知識を必要としない。 我々は情報理論上の下界を一致させることで推定器の最適性を証明する。 最後に,理論的な知見を裏付ける一連のシミュレーションを行う。 私たちのコードはhttps://github.com/huihui0902/Robust_mean_estimationで利用可能です。

In this paper, we study the problem of robust sparse mean estimation, where the goal is to estimate a $k$-sparse mean from a collection of partially corrupted samples drawn from a heavy-tailed distribution. Existing estimators face two critical challenges in this setting. First, they are limited by a conjectured computational-statistical tradeoff, implying that any computationally efficient algorithm needs $\tilde\Omega(k^2)$ samples, while its statistically-optimal counterpart only requires $\tilde O(k)$ samples. Second, the existing estimators fall short of practical use as they scale poorly with the ambient dimension. This paper presents a simple mean estimator that overcomes both challenges under moderate conditions: it runs in near-linear time and memory (both with respect to the ambient dimension) while requiring only $\tilde O(k)$ samples to recover the true mean. At the core of our method lies an incremental learning phenomenon: we introduce a simple nonconvex framework that can incrementally learn the top-$k$ nonzero elements of the mean while keeping the zero elements arbitrarily small. Unlike existing estimators, our method does not need any prior knowledge of the sparsity level $k$. We prove the optimality of our estimator by providing a matching information-theoretic lower bound. Finally, we conduct a series of simulations to corroborate our theoretical findings. Our code is available at https://github.com/huihui0902/Robust_mean_estimation.
翻訳日:2023-05-25 14:29:35 公開日:2023-05-24
# 識別言語モデル事前学習のための自己進化学習

Self-Evolution Learning for Discriminative Language Model Pretraining ( http://arxiv.org/abs/2305.15275v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao(参考訳) 差別的言語モデル(例えば、bert)で広く使われているマスキング言語モデリングは、ランダムマスキング戦略を一般的に採用している。 しかし、ランダムマスキングは文の意味における異なる単語の重要性を考慮しない。 そのため、様々なマスキング戦略(例えばエンティティレベルのマスキング)が提案されているが、その多くは高価な事前知識を必要とし、一般的に既存のモデル重みを再利用せずにスクラッチからトレーニングする。 本稿では,データから知識を十分に活用するための,単純かつ効果的なトークンマスキングと学習方法である自己進化学習(SE)を提案する。 seはインフォメーションが未熟なトークンを学習することに集中し、新しいトークン固有のラベル平滑化アプローチを導入することで、トレーニングを適応的に規則化する。 10のタスクの実験では、SEは異なるPLMに対して一貫した、重要な改善(+1.43~2.12の平均スコア)をもたらす。 詳細な分析では、SEは言語知識の学習と一般化を改善している。

Masked language modeling, widely used in discriminative language model (e.g., BERT) pretraining, commonly adopts a random masking strategy. However, random masking does not consider the importance of the different words in the sentence meaning, where some of them are more worthy to be predicted. Therefore, various masking strategies (e.g., entity-level masking) are proposed, but most of them require expensive prior knowledge and generally train from scratch without reusing existing model weights. In this paper, we present Self-Evolution learning (SE), a simple and effective token masking and learning method to fully and wisely exploit the knowledge from data. SE focuses on learning the informative yet under-explored tokens and adaptively regularizes the training by introducing a novel Token-specific Label Smoothing approach. Experiments on 10 tasks show that our SE brings consistent and significant improvements (+1.43~2.12 average scores) upon different PLMs. In-depth analyses demonstrate that SE improves linguistic knowledge learning and generalization.
翻訳日:2023-05-25 14:29:11 公開日:2023-05-24
# テキスト・画像生成と評価のためのビジュアルプログラミング

Visual Programming for Text-to-Image Generation and Evaluation ( http://arxiv.org/abs/2305.15328v1 )

ライセンス: Link先を確認
Jaemin Cho, Abhay Zala, Mohit Bansal(参考訳) 多くのドメインで大きな言語モデルが印象的なパフォーマンスを示しているため、近年では視覚および言語タスクのためのビジュアルモジュールのコントローラとして言語モデル(lms)が採用されている。 既存の研究は、lmsを視覚的理解に活用することに焦点を当てているが、テキスト・ツー・イメージ(t2i)生成と評価のための2つの新しい解釈可能/説明可能なビジュアルプログラミングフレームワークを提案する。 まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。 最初の2つのステップ(object/count生成とlayout生成)をテキストレイアウトペアで微調整するためにlmを使用します。 我々のステップバイステップT2I生成フレームワークは、エンドツーエンドモデルよりも強力な空間制御を提供する。 さらに、事前に定義されたオブジェクトクラスのみを扱うことができる以前のレイアウト誘導T2I作業の制限を克服し、事前訓練されたLMの世界知識を活用する。 我々のVPGenは、最先端のT2I生成モデルよりも、オブジェクトのカウント/空間関係/スケールの制御を改善したことを示す。 第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。 従来のT2I評価と異なり、あるスキルでは正確だが他のスキルでは信頼性が低い単一のスコアリングモデルでは、VPEvalは異なるスキルの専門家である視覚モジュールのセットを呼び出す評価プログラムを生成し、評価結果の視覚的・テキスト的説明を提供する。 分析の結果、vpevalは、広く使われている単一モデルに基づく評価よりも、スキル固有のオープンエンドプロンプトに対して、より人間関係的な評価を提供していることがわかった。 我々は,T2Iモデルの解釈可能・説明可能な生成と評価の今後の進歩を期待する。 ウェブサイト:https://vp-t2i.github.io

As large language models have demonstrated impressive performance in many domains, recent works have adopted language models (LMs) as controllers of visual modules for vision-and-language tasks. While existing work focuses on equipping LMs with visual understanding, we propose two novel interpretable/explainable visual programming frameworks for text-to-image (T2I) generation and evaluation. First, we introduce VPGen, an interpretable step-by-step T2I generation framework that decomposes T2I generation into three steps: object/count generation, layout generation, and image generation. We employ an LM to handle the first two steps (object/count generation and layout generation), by finetuning it on text-layout pairs. Our step-by-step T2I generation framework provides stronger spatial control than end-to-end models, the dominant approach for this task. Furthermore, we leverage the world knowledge of pretrained LMs, overcoming the limitation of previous layout-guided T2I works that can only handle predefined object classes. We demonstrate that our VPGen has improved control in counts/spatial relations/scales of objects than state-of-the-art T2I generation models. Second, we introduce VPEval, an interpretable and explainable evaluation framework for T2I generation based on visual programming. Unlike previous T2I evaluations with a single scoring model that is accurate in some skills but unreliable in others, VPEval produces evaluation programs that invoke a set of visual modules that are experts in different skills, and also provides visual+textual explanations of the evaluation results. Our analysis shows VPEval provides a more human-correlated evaluation for skill-specific and open-ended prompts than widely used single model-based evaluation. We hope our work encourages future progress on interpretable/explainable generation and evaluation for T2I models. Website: https://vp-t2i.github.io
翻訳日:2023-05-25 14:23:26 公開日:2023-05-24
# 可視性アンサンブル予測の統計的後処理

Statistical post-processing of visibility ensemble forecasts ( http://arxiv.org/abs/2305.15325v1 )

ライセンス: Link先を確認
S\'andor Baran and M\'aria Lakatos(参考訳) 可視性の正確かつ信頼性の高い予測を可能にすることは、航空気象学だけでなく、水や道路輸送においても重要である。 現在、いくつかの気象サービスは可視性の予測を提供しているが、その技術や可視性予測の信頼性は温度や風速といった他の変数と比べてはるかに低下している。 したがって、ある種のキャリブレーションは強く推奨され、通常は、機械学習ベースの技術を含むパラメトリックまたは非パラメトリックアプローチによって、手前の気象量の予測分布を推定することを意味する。 世界気象機関(World Meteorological Organization)の提案によれば、可視性観測は通常離散値で報告されるため、この変数の予測分布は離散確率法則であり、キャリブレーションを分類問題に還元することができる。 中央・西欧の2つのやや重なり合う領域と2つの異なる期間をカバーした欧州中レージ気象予報センターの可視的アンサンブル予測に基づき、局所的、半局所的に訓練された比例オッズ対数回帰(POLR)と多層パーセプトロン(MLP)ニューラルネットワーク分類器の予測性能について検討した。 気候学的な予測は生のアンサンブルを広範囲に上回るが,ポストプロセッシングにより予測能力は向上し,一般にPOLRモデルの方がMPPモデルよりも優れていることを示す。

To be able to produce accurate and reliable predictions of visibility has crucial importance in aviation meteorology, as well as in water- and road transportation. Nowadays, several meteorological services provide ensemble forecasts of visibility; however, the skill, and reliability of visibility predictions are far reduced compared to other variables, such as temperature or wind speed. Hence, some form of calibration is strongly advised, which usually means estimation of the predictive distribution of the weather quantity at hand either by parametric or non-parametric approaches, including also machine learning-based techniques. As visibility observations - according to the suggestion of the World Meteorological Organization - are usually reported in discrete values, the predictive distribution for this particular variable is a discrete probability law, hence calibration can be reduced to a classification problem. Based on visibility ensemble forecasts of the European Centre for Medium-Range Weather Forecasts covering two slightly overlapping domains in Central and Western Europe and two different time periods, we investigate the predictive performance of locally, semi-locally and regionally trained proportional odds logistic regression (POLR) and multilayer perceptron (MLP) neural network classifiers. We show that while climatological forecasts outperform the raw ensemble by a wide margin, post-processing results in further substantial improvement in forecast skill and in general, POLR models are superior to their MLP counterparts.
翻訳日:2023-05-25 14:22:52 公開日:2023-05-24
# 極端なリスクに対するモデル評価

Model evaluation for extreme risks ( http://arxiv.org/abs/2305.15324v1 )

ライセンス: Link先を確認
Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins, Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul Christiano, Allan Dafoe(参考訳) 汎用AIシステムを構築するための現在のアプローチは、有益かつ有害な能力を持つシステムを生成する傾向がある。 ai開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルなど、極端なリスクをもたらす能力につながる可能性がある。 モデル評価が極端なリスクに対処するために重要である理由を説明する。 開発者は("危険な能力評価"を通じて)危険な能力と、("評価"を通じて)その能力を害に当てはめるモデルの拡張性を識別できなければなりません。 これらの評価は、政策立案者や他の利害関係者に情報を提供し、モデルトレーニング、デプロイメント、セキュリティに関する責任ある決定を下すために重要になります。

Current approaches to building general-purpose AI systems tend to produce systems with both beneficial and harmful capabilities. Further progress in AI development could lead to capabilities that pose extreme risks, such as offensive cyber capabilities or strong manipulation skills. We explain why model evaluation is critical for addressing extreme risks. Developers must be able to identify dangerous capabilities (through "dangerous capability evaluations") and the propensity of models to apply their capabilities for harm (through "alignment evaluations"). These evaluations will become critical for keeping policymakers and other stakeholders informed, and for making responsible decisions about model training, deployment, and security.
翻訳日:2023-05-25 14:22:24 公開日:2023-05-24
# 関係データベースの基礎モデルに向けて [ビジョンペーパー]

Towards Foundation Models for Relational Databases [Vision Paper] ( http://arxiv.org/abs/2305.15321v1 )

ライセンス: Link先を確認
Liane Vogel, Benjamin Hilprecht, Carsten Binnig(参考訳) タブラル表現学習は近年多くの注目を集めている。 しかし、既存のアプローチは単一のテーブルからのみ表現を学習するため、コンテキスト化された表現の重要な情報を含む近隣のテーブルを含む関係データベースの完全な構造から学習する可能性を無視している。 さらに、現在のモデルはスケールが著しく制限されており、大規模なデータベースから学ぶことを妨げる。 本稿では,完全な関係構造から学べるだけでなく,現実世界で一般的に見られるより大きなデータベースサイズにまでスケールできる関係表現学習のビジョンを紹介する。 さらに,このビジョンを実現する上での機会と課題についても議論し,最初の非常に有望な成果を提示する。 全体として、この方向は、現在テキストや画像でしか利用できないリレーショナルデータベースの基礎モデルにつながる可能性があると論じる。

Tabular representation learning has recently gained a lot of attention. However, existing approaches only learn a representation from a single table, and thus ignore the potential to learn from the full structure of relational databases, including neighboring tables that can contain important information for a contextualized representation. Moreover, current models are significantly limited in scale, which prevents that they learn from large databases. In this paper, we thus introduce our vision of relational representation learning, that can not only learn from the full relational structure, but also can scale to larger database sizes that are commonly found in real-world. Moreover, we also discuss opportunities and challenges we see along the way to enable this vision and present initial very promising results. Overall, we argue that this direction can lead to foundation models for relational databases that are today only available for text and images.
翻訳日:2023-05-25 14:22:13 公開日:2023-05-24
# 非エルミート量子ウォークによる量子活性粒子の定義

Defining a quantum active particle using non-Hermitian quantum walk ( http://arxiv.org/abs/2305.15319v1 )

ライセンス: Link先を確認
Manami Yamagishi, Naomichi Hatano, Hideaki Obuse(参考訳) 本研究の目的は,量子フレームワークにおける活性物質の定義と,量子および古典的活性物質の差と共通性を検討することである。 活性物質の研究分野はより広範囲に拡大してきたが、ほとんどの研究は古典系で行われ、反対に量子活性物質の普遍的な理論的枠組みは存在しない。 本稿では,非エルミート量子ウォークを持つ真の量子アクティブマターモデルを提案し,一次元および二次元系において数値計算結果を示す。 schweitzer \textit{et al.} と同様の結果を再現することを目指している。 すなわち、ブラウン粒子は有限エネルギーのテイクアップを持ち、活性となり、潜在的な壁を登る。 非エルミート量子ウォークを持つシステムを実現する。 両状態間の非対称遷移に対して、新しい内部状態、基底状態および励起状態、および新しい非エルミート作用素$N(g)$を導入する。 非ハーミティシティパラメータ$g$は励起状態への遷移を促進するので、粒子は環境からエネルギーを取り出す。 離散時間量子ウォークにおけるコイン演算子に対するパラメータ $\theta$ を演算することで運動量保存のないシステムを実現し、一次元離散時間量子ウォークの連続極限がパラメータ $\theta$ に比例した質量を持つディラック方程式を与えるという性質を利用する。 量子アクティブ粒子では、古典的活性ブラウン粒子に類似した非ハーミティシティパラメータ$g$が増加するにつれて、量子ウォーカーの運動が非自明な方法でより活発になる。 一方,量子ウォークの特異な特徴,すなわち,ピーク(1d)の弾道的伝播と,一定エネルギー面(2d)に留まっているウォーカーの存在も観察する。

The main aim of the present paper is to define an active matter in a quantum framework and investigate difference and commonalities of quantum and classical active matters. Although the research field of active matter has been expanding wider and wider, most research is conducted in classical systems; on the contrary, there is no universal theoretical framework for quantum active matter. We here propose a truly quantum active-matter model with a non-Hermitian quantum walk and show numerical results in one- and two-dimensional systems. We aim to reproduce similar results that Schweitzer \textit{et al.} obtained with their classical active Brownian particle; that is, the Brownian particle, with a finite energy take-up, becomes active and climbs up a potential wall. We realize such a system with non-Hermitian quantum walks. We introduce new internal states, the ground state and the excited state, and a new non-Hermitian operator $N(g)$ for an asymmetric transition between both states. The non-Hermiticity parameter $g$ promotes transition to the excited state and hence the particle takes up energy from the environment. We realize a system without momentum conservation by manipulating a parameter $\theta$ for the coin operator for a discrete-time quantum walk; we utilize the property that the continuum limit of a one-dimensional discrete-time quantum walk gives the Dirac equation with its mass proportional to the parameter $\theta$. With our quantum active particle, we successfully observe that the movement of the quantum walker becomes more active in a non-trivial way as we increase the non-Hermiticity parameter $g$, which is similar to the classical active Brownian particle. Meanwhile, we also observe unique features of quantum walks, namely, ballistic propagation of peaks (1D) and the walker staying on the constant energy plane (2D).
翻訳日:2023-05-25 14:22:00 公開日:2023-05-24
# 確率論理プログラミングにおける「もし」

"What if?" in Probabilistic Logic Programming ( http://arxiv.org/abs/2305.15318v1 )

ライセンス: Link先を確認
Rafael Kiesel, Kilian R\"uckschlo{\ss} and Felix Weitk\"amper(参考訳) ProbLogプログラムは、特定の確率でのみ保持される事実を持つ論理プログラムである。 このコントリビューションでは、"What if"クエリに答える機能によって、このProbLog言語を拡張します。 直感的には、problogプログラムは、相互に独立なブール確率変数を用いて方程式系を解いて分布を定義する。 因果性理論において、ジューデア・パールはそのような方程式系に対する反事実推論を提案する。 パールの計算に基づいて,problogプログラム上でこれらの反事実クエリを,正しさの証明と実装の完全な実装とともに処理する手順を提案する。 後者を用いて、推論のスケーラビリティに対する異なるパラメータの影響についての洞察を提供する。 最後に,提案手法がcp-logic,すなわち論理プログラムの因果意味論と一致することを示す。

A ProbLog program is a logic program with facts that only hold with a specified probability. In this contribution we extend this ProbLog language by the ability to answer "What if" queries. Intuitively, a ProbLog program defines a distribution by solving a system of equations in terms of mutually independent predefined Boolean random variables. In the theory of causality, Judea Pearl proposes a counterfactual reasoning for such systems of equations. Based on Pearl's calculus, we provide a procedure for processing these counterfactual queries on ProbLog programs, together with a proof of correctness and a full implementation. Using the latter, we provide insights into the influence of different parameters on the scalability of inference. Finally, we also show that our approach is consistent with CP-logic, i.e. with the causal semantics for logic programs with annotated with disjunctions.
翻訳日:2023-05-25 14:21:30 公開日:2023-05-24
# 薄い空気のトレーニング:生成データによる画像分類の改善

Training on Thin Air: Improve Image Classification with Generated Data ( http://arxiv.org/abs/2305.15316v1 )

ライセンス: Link先を確認
Yongchao Zhou, Hshmat Sahak, Jimmy Ba(参考訳) 識別モデルを訓練するための高品質なデータを取得することは、効果的な予測システムを構築する上で非常に難しい側面である。 本稿では,画像分類のための多種多様な高品質なトレーニングデータを生成するために,事前学習された生成モデルである安定拡散を利用した簡易かつ効果的な拡散反転法を提案する。 提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜伏空間に反転させることでデータカバレッジを保証し,これらのベクトルのノイズバージョンに生成モデルを条件づけることにより,多様な新しい訓練画像を生成する。 生成した画像が元のデータセットに取って代わることができ、サンプルの複雑さが2~3倍向上し、サンプリング時間が6.5倍減少する。 さらに,提案手法は,汎用的なプロンプトベースのステアリング手法とKNN検索ベースラインを多種多様なデータセットで一貫して上回っている。 さらに,広範に使用されているデータ拡張手法との互換性と,生成されたデータの信頼性を実証し,様々なニューラルアーキテクチャをサポートし,少ない学習能力を向上させる。

Acquiring high-quality data for training discriminative models is a crucial yet challenging aspect of building effective predictive systems. In this paper, we present Diffusion Inversion, a simple yet effective method that leverages the pre-trained generative model, Stable Diffusion, to generate diverse, high-quality training data for image classification. Our approach captures the original data distribution and ensures data coverage by inverting images to the latent space of Stable Diffusion, and generates diverse novel training images by conditioning the generative model on noisy versions of these vectors. We identify three key components that allow our generated images to successfully supplant the original dataset, leading to a 2-3x enhancement in sample complexity and a 6.5x decrease in sampling time. Moreover, our approach consistently outperforms generic prompt-based steering methods and KNN retrieval baseline across a wide range of datasets. Additionally, we demonstrate the compatibility of our approach with widely-used data augmentation techniques, as well as the reliability of the generated data in supporting various neural architectures and enhancing few-shot learning.
翻訳日:2023-05-25 14:21:11 公開日:2023-05-24
# 不均一データセットのためのパーソナライズド辞書学習

Personalized Dictionary Learning for Heterogeneous Datasets ( http://arxiv.org/abs/2305.15311v1 )

ライセンス: Link先を確認
Geyu Liang and Naichen Shi and Raed Al Kontar and Salar Fattahi(参考訳) 我々はパーソナライズド辞書学習(PerDL)という問題を導入し,共通性を共有する異種データセットから疎線形表現を学習することを目的とする。 PerDLでは、各データセットの共有およびユニークな機能をグローバルおよびローカル辞書としてモデル化します。 PerDLの課題は、古典辞書学習(DL)から受け継がれるだけでなく、共有された特徴とユニークな特徴の未知の性質によってもたらされる。 本稿では,この問題を厳密に定式化し,グローバル辞書とローカル辞書を確実に解離させる条件を提供する。 これらの条件下では、異種データセットからグローバル辞書とローカル辞書の両方を復元できるPersonalized Matching and Averaging(PerMA)と呼ばれるメタアルゴリズムを提供する。 PerMAは非常に効率的で、適切な条件下では線形速度で基底真理に収束する。 さらに、弱い学習者の予測を改善するために、強い学習者から力を借りる。 グローバルディクショナリーとローカルディクショナリーを抽出する一般的なフレームワークとして、不均衡なデータセットによるトレーニングやビデオ監視など、異なる学習タスクにおけるPerDLの適用例を示す。

We introduce a relevant yet challenging problem named Personalized Dictionary Learning (PerDL), where the goal is to learn sparse linear representations from heterogeneous datasets that share some commonality. In PerDL, we model each dataset's shared and unique features as global and local dictionaries. Challenges for PerDL not only are inherited from classical dictionary learning (DL), but also arise due to the unknown nature of the shared and unique features. In this paper, we rigorously formulate this problem and provide conditions under which the global and local dictionaries can be provably disentangled. Under these conditions, we provide a meta-algorithm called Personalized Matching and Averaging (PerMA) that can recover both global and local dictionaries from heterogeneous datasets. PerMA is highly efficient; it converges to the ground truth at a linear rate under suitable conditions. Moreover, it automatically borrows strength from strong learners to improve the prediction of weak learners. As a general framework for extracting global and local dictionaries, we show the application of PerDL in different learning tasks, such as training with imbalanced datasets and video surveillance.
翻訳日:2023-05-25 14:20:53 公開日:2023-05-24
# 画像分割参照のためのマルチモーダル相互注意と反復的相互作用

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation ( http://arxiv.org/abs/2305.15302v1 )

ライセンス: Link先を確認
Chang Liu, Henghui Ding, Yulun Zhang, Xudong Jiang(参考訳) 自然言語表現で指定された対象のマスク生成を目的とした画像セグメンテーションを参照する問題に対処する。 最近の多くの作品では、transformerを使用して、参加者の視覚領域を集約することで対象オブジェクトの特徴を抽出する。 しかし、transformerの一般的な注意機構は、注意重み計算に言語入力のみを使用する。 したがって、その出力特徴は視覚情報に支配され、モデルがマルチモーダル情報を包括的に理解することを制限し、その後のマスクデコーダが出力マスクを抽出する不確実性をもたらす。 この問題に対処するため、我々は2つの入力モダリティから情報を融合するマルチモーダル相互注意(\mathrm{m^3att}$)とマルチモーダル相互デコーダ(\mathrm{m^3dec}$)を提案する。 さらに、{$\mathrm{M^3Dec}$} に基づいて、言語と視覚の特徴間の連続的かつ詳細な相互作用を可能にする反復的マルチモーダルインタラクション($\mathrm{IMI}$)を提案する。 さらに,抽出した特徴で言語情報が失われたり歪んだりするのを防ぐために,言語特徴の再構成(\mathrm{lfr}$)を導入する。 広範な実験により,提案手法がベースラインを著しく改善し,refcoco系列データセットの参照画像セグメンテーション法を一貫して上回ることを示した。

We address the problem of referring image segmentation that aims to generate a mask for the object specified by a natural language expression. Many recent works utilize Transformer to extract features for the target object by aggregating the attended visual regions. However, the generic attention mechanism in Transformer only uses the language input for attention weight calculation, which does not explicitly fuse language features in its output. Thus, its output feature is dominated by vision information, which limits the model to comprehensively understand the multi-modal information, and brings uncertainty for the subsequent mask decoder to extract the output mask. To address this issue, we propose Multi-Modal Mutual Attention ($\mathrm{M^3Att}$) and Multi-Modal Mutual Decoder ($\mathrm{M^3Dec}$) that better fuse information from the two input modalities. Based on {$\mathrm{M^3Dec}$}, we further propose Iterative Multi-modal Interaction ($\mathrm{IMI}$) to allow continuous and in-depth interactions between language and vision features. Furthermore, we introduce Language Feature Reconstruction ($\mathrm{LFR}$) to prevent the language information from being lost or distorted in the extracted feature. Extensive experiments show that our proposed approach significantly improves the baseline and outperforms state-of-the-art referring image segmentation methods on RefCOCO series datasets consistently.
翻訳日:2023-05-25 14:20:31 公開日:2023-05-24
# READ: 大形変圧器の繰り返し適応

READ: Recurrent Adaptation of Large Transformers ( http://arxiv.org/abs/2305.15348v1 )

ライセンス: Link先を確認
Sid Wang, John Nguyen, Ke Li, Carole-Jean Wu(参考訳) 微調整された大規模なトランスフォーマーは、自然言語処理やコンピュータビジョンタスクにまたがる多くのAIアプリケーションが急増した。 しかし,モデルのサイズやタスク数が増加するにつれて,事前学習したモデルパラメータの微調整は不可能となる。 パラメータ効率変換学習(PETL)法は,これらの課題に対処することを目的としている。 PETL法はトレーニング可能なパラメータの数を削減できるが、微調整には依然としてかなりのエネルギーと計算資源を必要とする。 本稿では,従来のPETLアプローチの限界を克服するために,軽量でメモリ効率のよい微調整法である \textbf{RE}current \textbf{AD}aption (READ) を導入する。 具体的には、readはbackboneモデルの横に小さなrnnネットワークを挿入するので、モデルがbackboneネットワークをバックプロパゲートする必要がなくなる。 GLUEベンチマークの総合的な経験的評価を通じて、READはトレーニングメモリ使用量の5,6\%の削減とGPUエネルギー使用量の8,4\%の削減を達成でき、フルチューニングと比較してモデル品質をトレーニングできることを示した。 さらに、読み取りのモデルサイズはバックボーンモデルサイズでは成長せず、大規模なトランスフォーマーを微調整するための高度にスケーラブルなソリューションとなる。

Fine-tuning large-scale Transformers has led to the explosion of many AI applications across Natural Language Processing and Computer Vision tasks. However, fine-tuning all pre-trained model parameters becomes impractical as the model size and number of tasks increase. Parameter-efficient transfer learning (PETL) methods aim to address these challenges. While effective in reducing the number of trainable parameters, PETL methods still require significant energy and computational resources to fine-tune. In this paper, we introduce \textbf{RE}current \textbf{AD}aption (READ) -- a lightweight and memory-efficient fine-tuning method -- to overcome the limitations of the current PETL approaches. Specifically, READ inserts a small RNN network alongside the backbone model so that the model does not have to back-propagate through the large backbone network. Through comprehensive empirical evaluation of the GLUE benchmark, we demonstrate READ can achieve a $56\%$ reduction in the training memory consumption and an $84\%$ reduction in the GPU energy usage while retraining high model quality compared to full-tuning. Additionally, the model size of READ does not grow with the backbone model size, making it a highly scalable solution for fine-tuning large Transformers.
翻訳日:2023-05-25 14:12:59 公開日:2023-05-24
# 2つの特徴の物語:ゼロショットセマンティック対応のための安定拡散補完DINO

A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence ( http://arxiv.org/abs/2305.15347v1 )

ライセンス: Link先を確認
Junyi Zhang, Charles Herrmann, Junhwa Hur, Luisa Polania Cabrera, Varun Jampani, Deqing Sun, Ming-Hsuan Yang(参考訳) テキストと画像の拡散モデルは高品質な画像の生成と編集に大きな進歩をもたらした。 その結果,分類,意味セグメンテーション,スタイライゼーションなど,下流タスクの単一画像を理解し,処理する拡散モデル機能について,多くのアプローチが検討されている。 しかし、これらの機能が複数の異なる画像やオブジェクトで明らかにするものについて、あまり知られていない。 本研究では,安定拡散(sd)特徴を意味的かつ密接な対応に活用し,sd特徴がsota表現と定量的に類似していることを発見する。 興味深いことに、定性的な分析により、SD機能は、最近リリースされたDINOv2のような既存の表現学習機能とは全く異なる性質を持つことが明らかになった。 これら2つの機能の単純な融合は驚くほどうまく動作し、これらの融合した特徴に対して近接した隣人によるゼロショット評価は、ベンチマークデータセット(SPair-71k、PF-Pascal、TSS)の最先端メソッドよりも大きなパフォーマンス向上をもたらす。 また,これらの対応により,2つのイメージをスワップするなど,興味深い応用が可能となることを示す。

Text-to-image diffusion models have made significant advances in generating and editing high-quality images. As a result, numerous approaches have explored the ability of diffusion model features to understand and process single images for downstream tasks, e.g., classification, semantic segmentation, and stylization. However, significantly less is known about what these features reveal across multiple, different images and objects. In this work, we exploit Stable Diffusion (SD) features for semantic and dense correspondence and discover that with simple post-processing, SD features can perform quantitatively similar to SOTA representations. Interestingly, the qualitative analysis reveals that SD features have very different properties compared to existing representation learning features, such as the recently released DINOv2: while DINOv2 provides sparse but accurate matches, SD features provide high-quality spatial information but sometimes inaccurate semantic matches. We demonstrate that a simple fusion of these two features works surprisingly well, and a zero-shot evaluation using nearest neighbors on these fused features provides a significant performance gain over state-of-the-art methods on benchmark datasets, e.g., SPair-71k, PF-Pascal, and TSS. We also show that these correspondences can enable interesting applications such as instance swapping in two images.
翻訳日:2023-05-25 14:12:38 公開日:2023-05-24
# 自動質問応答評価器によるスーパービジョンによる回答生成

Learning Answer Generation using Supervision from Automatic Question Answering Evaluators ( http://arxiv.org/abs/2305.15344v1 )

ライセンス: Link先を確認
Matteo Gabburo, Siddhant Garg, Rik Koncel-Kedziorski, Alessandro Moschitti(参考訳) 近年の研究では、文レベルの抽出QA(すなわち、Answer Sentence Selection (AS2)に基づく)が、AS2モデルでランク付けされた上位kの回答文を用いて回答を生成するジェネレーションベースのQA(GenQA)モデルより優れていることが示されている。 本稿では,GAVA (Automatic QA Evaluation Model) を用いたGenQAのための新しいトレーニングパラダイムを提案する。 具体的には、これらのQA評価モデルからGenQAモデルに知識を伝達する3つの戦略を提案する。 (i)genqaモデルが生成し、gava(静的に、トレーニング前に)がラベル付けした回答でトレーニングデータを増強すること。 (二)動的に、各訓練時期において、及び 3)GenQAモデルの学習におけるジェネレータ損失の重み付けにGAVAスコアを用いた。 提案手法を2つの学術的, 1つの産業的データセット上で評価し, これまでの技術状況よりも精度が向上した。

Recent studies show that sentence-level extractive QA, i.e., based on Answer Sentence Selection (AS2), is outperformed by Generation-based QA (GenQA) models, which generate answers using the top-k answer sentences ranked by AS2 models (a la retrieval-augmented generation style). In this paper, we propose a novel training paradigm for GenQA using supervision from automatic QA evaluation models (GAVA). Specifically, we propose three strategies to transfer knowledge from these QA evaluation models to a GenQA model: (i) augmenting training data with answers generated by the GenQA model and labelled by GAVA (either statically, before training, or (ii) dynamically, at every training epoch); and (iii) using the GAVA score for weighting the generator loss during the learning of the GenQA model. We evaluate our proposed methods on two academic and one industrial dataset, obtaining a significant improvement in answering accuracy over the previous state of the art.
翻訳日:2023-05-25 14:12:13 公開日:2023-05-24
# あなたのモデルは"MADD"ですか? 予測的学生モデルのためのアルゴリズムフェアネス評価手法の提案

Is Your Model "MADD"? A Novel Metric to Evaluate Algorithmic Fairness for Predictive Student Models ( http://arxiv.org/abs/2305.15342v1 )

ライセンス: Link先を確認
M\'elina Verger, S\'ebastien Lall\'e, Fran\c{c}ois Bouchet, Vanda Luengo(参考訳) 予測学習モデルは,教育成果の向上や利害関係者の支援などにより,学習環境においてますます活用されている。 しかし、予測モデルは偏りがあり、不公平な結果をもたらし、一部の学生に対する潜在的な差別と潜在的に有害な長期的影響をもたらす可能性がある。 このことは、そのようなバイアスを捕捉し定量化するための公正度メトリクスの研究を促している。 それにもかかわらず、教育で使われる既存の公平度指標は予測パフォーマンス指向であり、モデルの振る舞いや結果のバイアスの深刻さを考慮せずに、学生のグループ間での偏りのある結果を評価することに焦点を当てている。 そこで本研究では,予測性能から独立してモデルの識別行動を分析するために,モデル絶対密度距離(MADD)を提案する。 また,モデルが学生のグループ間でどのように区別されるかの詳細な人的評価を可能にするために,補完的な可視化に基づく分析も提供する。 オープン教育データセット上での予測分類モデルを用いて,オンラインコースにおける学生成功予測の共通課題に対するアプローチを評価した。 また、教育で開発された唯一の予測パフォーマンス指向公正度指標であるabrocaと比較した。 その結果,(1)公平な予測性能は,公平なモデルの行動を保証するものではない,(2)データバイアスと予測パフォーマンスバイアスと識別行動バイアスの間に直接的な関係がない,(3)同じデータで訓練されたモデルでは,異なる敏感な特徴によって異なる識別行動を示す,という結果が得られた。 そこで我々は,予測性能を満足するモデル上でMADDを使用することで,モデル選択とその使用方法のより詳細な理解を得ることを推奨する。

Predictive student models are increasingly used in learning environments due to their ability to enhance educational outcomes and support stakeholders in making informed decisions. However, predictive models can be biased and produce unfair outcomes, leading to potential discrimination against some students and possible harmful long-term implications. This has prompted research on fairness metrics meant to capture and quantify such biases. Nonetheless, so far, existing fairness metrics used in education are predictive performance-oriented, focusing on assessing biased outcomes across groups of students, without considering the behaviors of the models nor the severity of the biases in the outcomes. Therefore, we propose a novel metric, the Model Absolute Density Distance (MADD), to analyze models' discriminatory behaviors independently from their predictive performance. We also provide a complementary visualization-based analysis to enable fine-grained human assessment of how the models discriminate between groups of students. We evaluate our approach on the common task of predicting student success in online courses, using several common predictive classification models on an open educational dataset. We also compare our metric to the only predictive performance-oriented fairness metric developed in education, ABROCA. Results on this dataset show that: (1) fair predictive performance does not guarantee fair models' behaviors and thus fair outcomes, (2) there is no direct relationship between data bias and predictive performance bias nor discriminatory behaviors bias, and (3) trained on the same data, models exhibit different discriminatory behaviors, according to different sensitive features too. We thus recommend using the MADD on models that show satisfying predictive performance, to gain a finer-grained understanding on how they behave and to refine models selection and their usage.
翻訳日:2023-05-25 14:11:53 公開日:2023-05-24
# 微分可能なエージェントベースモデルのベイズ校正

Bayesian calibration of differentiable agent-based models ( http://arxiv.org/abs/2305.15340v1 )

ライセンス: Link先を確認
Arnau Quera-Bofarull, Ayush Chopra, Anisoara Calinescu, Michael Wooldridge, Joel Dyer(参考訳) エージェントベースモデリング(ABMing)は、複雑なシステムをモデル化するための強力で直感的なアプローチであるが、ABMの可能性関数の難易度とこれらのモデルを構成する数学的操作の非微分性は、現実の世界での使用に挑戦している。 これらの困難により、ABMの近似ベイズ推定法や任意のABMに対する微分可能近似の構築に関する研究が生み出されているが、ABMの特定の場合に対する近似ベイズ推定技術の設計に向けた研究はほとんど行われていない。 本研究は,このギャップに対処し,相違可能なABMに対する不特定なベイズパラメータ推論を提供するために,一般化された変分推論手法をどのように活用するかを論じる。 新型コロナウイルス(COVID-19)パンデミックの異なるABMに関する実験で、我々のアプローチが正確な推論をもたらすことを実証し、今後の取り組みの道筋について論じる。

Agent-based modelling (ABMing) is a powerful and intuitive approach to modelling complex systems; however, the intractability of ABMs' likelihood functions and the non-differentiability of the mathematical operations comprising these models present a challenge to their use in the real world. These difficulties have in turn generated research on approximate Bayesian inference methods for ABMs and on constructing differentiable approximations to arbitrary ABMs, but little work has been directed towards designing approximate Bayesian inference techniques for the specific case of differentiable ABMs. In this work, we aim to address this gap and discuss how generalised variational inference procedures may be employed to provide misspecification-robust Bayesian parameter inferences for differentiable ABMs. We demonstrate with experiments on a differentiable ABM of the COVID-19 pandemic that our approach can result in accurate inferences, and discuss avenues for future work.
翻訳日:2023-05-25 14:11:24 公開日:2023-05-24
# 発話間セマンティックパーシングのためのインテクスト学習における制約違反の測定と緩和

Measuring and Mitigating Constraint Violations of In-Context Learning for Utterance-to-API Semantic Parsing ( http://arxiv.org/abs/2305.15338v1 )

ライセンス: Link先を確認
Shufan Wang, Sebastien Jean, Sailik Sengupta, James Gung, Nikolaos Pappas, Yi Zhang(参考訳) タスク指向のセマンティック解析では、自然言語によるユーザの発話を、事前に定義されたAPI仕様に従って実行できる機械解釈可能なプログラム(API呼び出し)に変換することを目的としている。 LLM(Large Language Models)の人気により、コンテキスト内学習は、特にデータ限定のレシエーションにおいて、このようなシナリオの強力なベースラインを提供する。 しかし、LSMは幻覚を生じさせることが知られており、生成したコンテンツの制約に強い挑戦をもたらす。 したがって、LLMがAPIの構造的制約とタスク固有の制約を尊重するタスク指向の発話対API生成を効果的に実行できるかどうかは不明である。 本研究では,そのような制約違反を計測し,分析し,緩和する。 まず,タスク指向発話からapi概念を得る際の制約のカテゴリを特定し,従来の制約を補完するきめ細かいメトリクスを定義する。 第2に,これらのメトリクスを活用して,最先端llmに見られる制約違反の詳細なエラー解析を行い,2つの緩和戦略であるsemantic-retrieval of demonstrations(srd)とapi-aware constraintsed decoding(api-cd)を調査した。 実験の結果、これらの戦略は制約違反の低減と生成されたAPI呼び出しの品質向上に有効であるが、実装の複雑さとレイテンシを考慮すると慎重に検討する必要があることがわかった。

In executable task-oriented semantic parsing, the system aims to translate users' utterances in natural language to machine-interpretable programs (API calls) that can be executed according to pre-defined API specifications. With the popularity of Large Language Models (LLMs), in-context learning offers a strong baseline for such scenarios, especially in data-limited regimes. However, LLMs are known to hallucinate and therefore pose a formidable challenge in constraining generated content. Thus, it remains uncertain if LLMs can effectively perform task-oriented utterance-to-API generation where respecting API's structural and task-specific constraints is crucial. In this work, we seek to measure, analyze and mitigate such constraints violations. First, we identify the categories of various constraints in obtaining API-semantics from task-oriented utterances, and define fine-grained metrics that complement traditional ones. Second, we leverage these metrics to conduct a detailed error analysis of constraints violations seen in state-of-the-art LLMs, which motivates us to investigate two mitigation strategies: Semantic-Retrieval of Demonstrations (SRD) and API-aware Constrained Decoding (API-CD). Our experiments show that these strategies are effective at reducing constraints violations and improving the quality of the generated API calls, but require careful consideration given their implementation complexity and latency.
翻訳日:2023-05-25 14:11:06 公開日:2023-05-24
# 遅延空間における直接操作による対話型データアノテーションの深部生成モデル

A Deep Generative Model for Interactive Data Annotation through Direct Manipulation in Latent Space ( http://arxiv.org/abs/2305.15337v1 )

ライセンス: Link先を確認
Hannes Kath, Thiago S. Gouv\^ea, Daniel Sonntag(参考訳) 多くの分野のアプリケーションにおける機械学習(ML)の影響は、注釈付きデータの欠如によって制約される。 ml支援データアノテーションのための既存のツールの1つは、グラフィカルユーザインタフェースの座標と、直接操作によるインタラクションのためのニューラルネットワークの潜在空間との類似性に依存している。 この作品では 1)ネットワークトレーニングの反復と勾配を反映した時間と力の2つの新しいアナロジーを提案してパラダイムを拡大する。 2)内部構造とユーザが提供したアノテーションの両方を考慮した,コンパクトなグラフィック表現を学習するためのネットワークモデルを提案する。 3) モデルハイパーパラメータが学習したデータのグラフィカル表現に与える影響について検討し, 今後のユーザ研究の候補モデルの変種を同定する。

The impact of machine learning (ML) in many fields of application is constrained by lack of annotated data. Among existing tools for ML-assisted data annotation, one little explored tool type relies on an analogy between the coordinates of a graphical user interface and the latent space of a neural network for interaction through direct manipulation. In the present work, we 1) expand the paradigm by proposing two new analogies: time and force as reflecting iterations and gradients of network training; 2) propose a network model for learning a compact graphical representation of the data that takes into account both its internal structure and user provided annotations; and 3) investigate the impact of model hyperparameters on the learned graphical representations of the data, identifying candidate model variants for a future user study.
翻訳日:2023-05-25 14:10:40 公開日:2023-05-24
# Gorilla: 大きな言語モデルと大規模API

Gorilla: Large Language Model Connected with Massive APIs ( http://arxiv.org/abs/2305.15334v1 )

ライセンス: Link先を確認
Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez(参考訳) 大規模言語モデル(llm)は最近、数学的推論やプログラム合成など、様々なタスクに優れたモデルによって、印象的な進歩を遂げている。 しかし、API呼び出しによる効果的なツール使用の可能性は、まだ満たされていない。 GPT-4のような現在の最先端のLCMでも、正確な入力引数を生成できないことと、API呼び出しの間違った使用を幻覚させる傾向のため、これは難しいタスクである。 APIコールの記述において,GorillaはGPT-4の性能を上回る微調整のLLaMAモデルである。 ドキュメントレトリバーと組み合わせると、gorillaはテスト時のドキュメント変更に適応する強力な能力を示し、柔軟なユーザー更新やバージョン変更を可能にする。 また、llmを直接促す際によく発生する幻覚の問題を実質的に軽減する。 モデルの能力を評価するために、HuggingFace、TorchHub、TensorHub APIからなる包括的なデータセットであるAPIBenchを紹介します。 検索システムをGorillaとうまく統合することで、LCMがツールをより正確に使用し、頻繁に更新されたドキュメントに追従し、その結果、出力の信頼性と適用性を高める可能性が示される。 gorillaのコード、モデル、データ、デモはhttps://gorilla.cs.berkeley.eduで利用可能である。

Large Language Models (LLMs) have seen an impressive wave of advances recently, with models now excelling in a variety of tasks, such as mathematical reasoning and program synthesis. However, their potential to effectively use tools via API calls remains unfulfilled. This is a challenging task even for today's state-of-the-art LLMs such as GPT-4, largely due to their inability to generate accurate input arguments and their tendency to hallucinate the wrong usage of an API call. We release Gorilla, a finetuned LLaMA-based model that surpasses the performance of GPT-4 on writing API calls. When combined with a document retriever, Gorilla demonstrates a strong capability to adapt to test-time document changes, enabling flexible user updates or version changes. It also substantially mitigates the issue of hallucination, commonly encountered when prompting LLMs directly. To evaluate the model's ability, we introduce APIBench, a comprehensive dataset consisting of HuggingFace, TorchHub, and TensorHub APIs. The successful integration of the retrieval system with Gorilla demonstrates the potential for LLMs to use tools more accurately, keep up with frequently updated documentation, and consequently increase the reliability and applicability of their outputs. Gorilla's code, model, data, and demo are available at https://gorilla.cs.berkeley.edu
翻訳日:2023-05-25 14:10:26 公開日:2023-05-24
# ユーザ中心のランキングで品質飽和の呪いを破る

Breaking the Curse of Quality Saturation with User-Centric Ranking ( http://arxiv.org/abs/2305.15333v1 )

ライセンス: Link先を確認
Zhuokai Zhao, Yang Yang, Wenyu Wang, Chihuang Liu, Yu Shi, Wenjie Hu, Haotian Zhang, Shuang Yang(参考訳) 検索、広告、レコメンデーションにおける重要なパズルは、ランキングモデルが利用可能なユーザーインタラクションデータのごく一部しか利用できないことである。 その結果、データボリューム、モデルサイズ、あるいは計算フロップが増加すると、すぐにリターンが減少する。 この問題を調査し,その根源の1つが,境界のない語彙を持ち,モデル複雑性を制御できない,いわゆる ‘item-centric'' の定式化にある可能性があることを発見した。 品質の飽和を緩和するために,dyadicユーザとitemインタラクションデータの変換ビューに基づく,‘ユーザ中心のランキング’という別の定式化を導入する。 この定式化は有望なスケーリング特性を持ち、より大規模なデータセット上でより優れた収束モデルをトレーニングできることを示す。

A key puzzle in search, ads, and recommendation is that the ranking model can only utilize a small portion of the vastly available user interaction data. As a result, increasing data volume, model size, or computation FLOPs will quickly suffer from diminishing returns. We examined this problem and found that one of the root causes may lie in the so-called ``item-centric'' formulation, which has an unbounded vocabulary and thus uncontrolled model complexity. To mitigate quality saturation, we introduce an alternative formulation named ``user-centric ranking'', which is based on a transposed view of the dyadic user-item interaction data. We show that this formulation has a promising scaling property, enabling us to train better-converged models on substantially larger data sets.
翻訳日:2023-05-25 14:10:04 公開日:2023-05-24
# 戦略的専門家によるノンレグレットオンライン予測

No-Regret Online Prediction with Strategic Experts ( http://arxiv.org/abs/2305.15331v1 )

ライセンス: Link先を確認
Omid Sadeghi and Maryam Fazel(参考訳) オンラインバイナリ予測の一般化をエキスパートアドバイスフレームワークを用いて研究し、各ラウンドで、学習者は、Kドルの専門家のプールから$m\geq 1$のエキスパートを選ぶことができ、全体的なユーティリティは、選択した専門家のモジュラーまたはサブモジュラー関数である。 我々は,専門家が戦略的に行動する場面に着目し,アルゴリズムの予測への影響を最大化することを目的とした。 この設定は、学習者が異なる予測者を集約して予測を行うだけでなく、相対的なパフォーマンスに応じてそれらをランク付けしようとする予測競技に応用される。 私たちの目標は、以下の2つの要件を満たすアルゴリズムを設計することです。 1) $\textit{Incentive-compatible}$: 専門家に彼らの信念を真実に報告するよう促し、 2) $\textit{no-regret}$: 従属する中での$m$専門家の最高の固定セットの真の信念に関して、サブリニアな後悔を達成する。 以前の研究では、$m=1$でこのフレームワークを研究しており、この問題に対してインセンティブ互換のno-regretアルゴリズムを提供した。 まず、簡単な$m=1$設定の削減は効率的でも効果的でもないことを示す。 次に,実用関数の具体的構造を利用して2つの目的を達成するアルゴリズムを提案する。

We study a generalization of the online binary prediction with expert advice framework where at each round, the learner is allowed to pick $m\geq 1$ experts from a pool of $K$ experts and the overall utility is a modular or submodular function of the chosen experts. We focus on the setting in which experts act strategically and aim to maximize their influence on the algorithm's predictions by potentially misreporting their beliefs about the events. Among others, this setting finds applications in forecasting competitions where the learner seeks not only to make predictions by aggregating different forecasters but also to rank them according to their relative performance. Our goal is to design algorithms that satisfy the following two requirements: 1) $\textit{Incentive-compatible}$: Incentivize the experts to report their beliefs truthfully, and 2) $\textit{No-regret}$: Achieve sublinear regret with respect to the true beliefs of the best fixed set of $m$ experts in hindsight. Prior works have studied this framework when $m=1$ and provided incentive-compatible no-regret algorithms for the problem. We first show that a simple reduction of our problem to the $m=1$ setting is neither efficient nor effective. Then, we provide algorithms that utilize the specific structure of the utility functions to achieve the two desired goals.
翻訳日:2023-05-25 14:09:49 公開日:2023-05-24
# 確率的未発達連帯学習

Stochastic Unrolled Federated Learning ( http://arxiv.org/abs/2305.15371v1 )

ライセンス: Link先を確認
Samar Hadou, Navid NaderiAlizadeh, and Alejandro Ribeiro(参考訳) アルゴリズムの展開は、学習ベースの最適化パラダイムとして登場し、学習可能なニューラルネットワークオプティマイザで断続的な反復アルゴリズムを展開する。 本研究では,連帯学習シナリオにアルゴリズムを展開する手法である確率的連帯学習(surf)を提案する。 提案手法は,この拡張の2つの課題,すなわち,非学習最適化者にデータセット全体を供給して,学習の降下方向と分散的な性質を見出す必要性に対処する。 我々は,各階層に確率的ミニバッチを供給し,従属制約を課し,ミニバッチによるランダム性を緩和することで,従来の課題を回避する。 本稿では,分散勾配降下(dgd)アルゴリズムをグラフニューラルネットワーク(gnn)ベースの未ロールアーキテクチャに展開することで,連合学習におけるトレーニングの分散性を維持することで,後者の課題に対処する。 提案したアンロール最適化器がほぼ最適領域に無限に収束することを理論的に証明する。 また,広範な数値実験を通じて,画像分類器の協調学習における提案手法の有効性を実証する。

Algorithm unrolling has emerged as a learning-based optimization paradigm that unfolds truncated iterative algorithms in trainable neural-network optimizers. We introduce Stochastic UnRolled Federated learning (SURF), a method that expands algorithm unrolling to a federated learning scenario. Our proposed method tackles two challenges of this expansion, namely the need to feed whole datasets to the unrolled optimizers to find a descent direction and the decentralized nature of federated learning. We circumvent the former challenge by feeding stochastic mini-batches to each unrolled layer and imposing descent constraints to mitigate the randomness induced by using mini-batches. We address the latter challenge by unfolding the distributed gradient descent (DGD) algorithm in a graph neural network (GNN)-based unrolled architecture, which preserves the decentralized nature of training in federated learning. We theoretically prove that our proposed unrolled optimizer converges to a near-optimal region infinitely often. Through extensive numerical experiments, we also demonstrate the effectiveness of the proposed framework in collaborative training of image classifiers.
翻訳日:2023-05-25 14:04:02 公開日:2023-05-24
# SAMScore:画像翻訳評価のための意味的構造類似度指標

SAMScore: A Semantic Structural Similarity Metric for Image Translation Evaluation ( http://arxiv.org/abs/2305.15367v1 )

ライセンス: Link先を確認
Yunxiang Li, Meixu Chen, Wenxuan Yang, Kai Wang, Jun Ma, Alan C. Bovik, You Zhang(参考訳) 画像翻訳には、スタイル転送やモダリティ変換といった幅広い応用があり、通常、高いリアリズムと忠実性を持つ画像を生成することを目的としている。 これらの問題は、特に意味的構造を保存することが重要である場合になお困難である。 従来の画像レベルの類似度指標は、画像のセマンティクスが高レベルであり、元の画像に対するピクセルワイドな忠実さに強く支配されないため、限られた用途である。 このギャップを埋めるために,画像翻訳モデルの忠実度を評価する汎用的な意味構造類似度指標であるSAMScoreを紹介する。 samscoreは、最近発表された高性能segment anythingモデル(sam)に基づいており、スタンドアウト精度と意味的類似性の比較を行うことができる。 19のイメージ翻訳タスクにSAMScoreを適用した結果,すべてのタスクにおいて,他の競合指標よりも優れていることがわかった。 我々は,SAMScoreが画像翻訳の活発な分野を推し進める上で有用なツールであることを実証し,新たな翻訳モデルのより正確な評価を可能にすることを期待する。 コードはhttps://github.com/Kent0n-Li/SAMScoreで公開されている。

Image translation has wide applications, such as style transfer and modality conversion, usually aiming to generate images having both high degrees of realism and faithfulness. These problems remain difficult, especially when it is important to preserve semantic structures. Traditional image-level similarity metrics are of limited use, since the semantics of an image are high-level, and not strongly governed by pixel-wise faithfulness to an original image. Towards filling this gap, we introduce SAMScore, a generic semantic structural similarity metric for evaluating the faithfulness of image translation models. SAMScore is based on the recent high-performance Segment Anything Model (SAM), which can perform semantic similarity comparisons with standout accuracy. We applied SAMScore on 19 image translation tasks, and found that it is able to outperform all other competitive metrics on all of the tasks. We envision that SAMScore will prove to be a valuable tool that will help to drive the vibrant field of image translation, by allowing for more precise evaluations of new and evolving translation models. The code is available at https://github.com/Kent0n-Li/SAMScore.
翻訳日:2023-05-25 14:03:43 公開日:2023-05-24
# 境界注意マッピング(bam):火傷のセグメント化のための細粒度塩分マップ

Boundary Attention Mapping (BAM): Fine-grained saliency maps for segmentation of Burn Injuries ( http://arxiv.org/abs/2305.15365v1 )

ライセンス: Link先を確認
Mahla Abdolahnejad, Justin Lee, Hannah Chan, Alex Morzycki, Olivier Ethier, Anthea Mo, Peter X. Liu, Joshua N. Wong, Colin Hong, Rakesh Joshi(参考訳) 熱傷は熱的、化学的、電気的侮辱のようなメカニズムによって生じる。 熱傷の迅速かつ正確な評価は、決定的な臨床治療の決定に不可欠である。 現在、視覚的および触覚的観察によるバーンアセスメントの主なアプローチは、およそ60%-80%の精度である。 金の基準は生検であり、第2位はレーザードップラーイメージング(LDI)アセスメントのような非侵襲的な方法であり、熱傷の重症度と治癒に必要な時間を予測するのに最大97%の精度を持つ。 本稿では,熱傷に影響を受ける皮膚の領域を分割し,熱傷性を評価するための機械学習パイプラインを提案する。 火傷の2Dカラー画像のセグメンテーションにより、傷のない皮膚と損傷していない皮膚を脱線させ、火傷患者の遠隔監視中であっても、局所的な火傷/関心領域の範囲と境界を明確に示すことができる。 われわれは、CNN(Convolutional Neural Network)を訓練し、4つの燃え尽き度を分類した。 我々は,この訓練されたCNNを用いて,皮膚の焼傷画像から熱傷領域を正確に局所化・分別化するために,塩分濃度マッピング法である境界注意マッピング(BAM)を構築した。 2つのデータセットを用いた広範囲な実験と評価を通じて,提案パイプラインの有効性を実証した。 1)4つの熱傷の皮膚熱傷画像1684枚からなる皮膚熱傷画像データセット。 2) LDIデータセットは, LDIスキャンを用いて, 合計184個の皮膚熱傷画像からなる。 最初のデータセットを使用してトレーニングされたCNNは、平均F1スコア78%、マイクロ/マクロ平均ROC85%を達成し、4つの燃え尽き度を分類した。 さらに, 損傷境界測定におけるBAM値とLDI値の比較により, 本法により得られたセグメンテーションの精度は91.60%, 感度78.17%, 特異度93.37%であった。

Burn injuries can result from mechanisms such as thermal, chemical, and electrical insults. A prompt and accurate assessment of burns is essential for deciding definitive clinical treatments. Currently, the primary approach for burn assessments, via visual and tactile observations, is approximately 60%-80% accurate. The gold standard is biopsy and a close second would be non-invasive methods like Laser Doppler Imaging (LDI) assessments, which have up to 97% accuracy in predicting burn severity and the required healing time. In this paper, we introduce a machine learning pipeline for assessing burn severities and segmenting the regions of skin that are affected by burn. Segmenting 2D colour images of burns allows for the injured versus non-injured skin to be delineated, clearly marking the extent and boundaries of the localized burn/region-of-interest, even during remote monitoring of a burn patient. We trained a convolutional neural network (CNN) to classify four severities of burns. We built a saliency mapping method, Boundary Attention Mapping (BAM), that utilises this trained CNN for the purpose of accurately localizing and segmenting the burn regions from skin burn images. We demonstrated the effectiveness of our proposed pipeline through extensive experiments and evaluations using two datasets; 1) A larger skin burn image dataset consisting of 1684 skin burn images of four burn severities, 2) An LDI dataset that consists of a total of 184 skin burn images with their associated LDI scans. The CNN trained using the first dataset achieved an average F1-Score of 78% and micro/macro- average ROC of 85% in classifying the four burn severities. Moreover, a comparison between the BAM results and LDI results for measuring injury boundary showed that the segmentations generated by our method achieved 91.60% accuracy, 78.17% sensitivity, and 93.37% specificity.
翻訳日:2023-05-25 14:03:24 公開日:2023-05-24
# 逆選好学習:逆関数を持たない選好ベースRL

Inverse Preference Learning: Preference-based RL without a Reward Function ( http://arxiv.org/abs/2305.15363v1 )

ライセンス: Link先を確認
Joey Hejna, Dorsa Sadigh(参考訳) リワード関数は設計が難しく、しばしば人間の意図と整合するのは難しい。 優先度に基づく強化学習(RL)アルゴリズムは、人間のフィードバックから報酬関数を学習することでこれらの問題に対処する。 しかし、好みに基づくRL手法の大多数は、教師付き報酬モデルとオフザシェルフRLアルゴリズムを効果的に組み合わせている。 現代のアプローチでは、トランスフォーマーのようなより大きく複雑な報酬アーキテクチャを使うことで、パフォーマンスとクエリの複雑さを改善しようとしている。 高度に複雑なアーキテクチャを使う代わりに、オフラインの選好データから学習するために特別に設計された新しいパラメータ効率の高いアルゴリズムである逆選好学習(ipl)を開発した。 当社の重要な洞察は、固定ポリシーの場合、$q$-functionが報酬関数に関するすべての情報をエンコードし、効果的に交換可能にすることです。 この知見を用いて、学習した報酬関数の必要性を完全に排除する。 得られたアルゴリズムはよりシンプルでパラメータ効率が良い。 連続的な制御とロボットのベンチマークのスイート全体で、IPLはトランスフォーマーベースの報酬関数と非マルコフの報酬関数を活用するより複雑なアプローチと比較して、アルゴリズムのハイパーパラメータを少なくし、ネットワークパラメータを学習する。 私たちのコードは公開されています。

Reward functions are difficult to design and often hard to align with human intent. Preference-based Reinforcement Learning (RL) algorithms address these problems by learning reward functions from human feedback. However, the majority of preference-based RL methods na\"ively combine supervised reward models with off-the-shelf RL algorithms. Contemporary approaches have sought to improve performance and query complexity by using larger and more complex reward architectures such as transformers. Instead of using highly complex architectures, we develop a new and parameter-efficient algorithm, Inverse Preference Learning (IPL), specifically designed for learning from offline preference data. Our key insight is that for a fixed policy, the $Q$-function encodes all information about the reward function, effectively making them interchangeable. Using this insight, we completely eliminate the need for a learned reward function. Our resulting algorithm is simpler and more parameter-efficient. Across a suite of continuous control and robotics benchmarks, IPL attains competitive performance compared to more complex approaches that leverage transformer-based and non-Markovian reward functions while having fewer algorithmic hyperparameters and learned network parameters. Our code is publicly released.
翻訳日:2023-05-25 14:02:48 公開日:2023-05-24
# 文選択のための文脈認識トランスプレトレーニング

Context-Aware Transformer Pre-Training for Answer Sentence Selection ( http://arxiv.org/abs/2305.15358v1 )

ライセンス: Link先を確認
Luca Di Liello, Siddhant Garg, Alessandro Moschitti(参考訳) 回答文選択(as2)は、正確な質問応答パイプラインを構築するためのコアコンポーネントである。 AS2モデルは、与えられた質問に答える確率に基づいて、候補文のセットをランク付けする。 as2の最先端技術は、事前学習されたトランスフォーマーを大きな注釈付きデータセットに転送し、候補文周辺の局所的な文脈情報を利用する。 本稿では,コンテキストas2の下流微調整タスクを模倣した3つの事前学習目標を提案する。 これにより、コンテキストAS2の微調整時にLMを専門化できる。 3つのパブリックデータセットと2つの大規模産業データセットに対する実験により、トレーニング前のアプローチ(RoBERTaとELECTRAが適用)によって、いくつかのデータセットにおいて、ベースラインコンテキストAS2の精度が最大8%向上することが示された。

Answer Sentence Selection (AS2) is a core component for building an accurate Question Answering pipeline. AS2 models rank a set of candidate sentences based on how likely they answer a given question. The state of the art in AS2 exploits pre-trained transformers by transferring them on large annotated datasets, while using local contextual information around the candidate sentence. In this paper, we propose three pre-training objectives designed to mimic the downstream fine-tuning task of contextual AS2. This allows for specializing LMs when fine-tuning for contextual AS2. Our experiments on three public and two large-scale industrial datasets show that our pre-training approaches (applied to RoBERTa and ELECTRA) can improve baseline contextual AS2 accuracy by up to 8% on some datasets.
翻訳日:2023-05-25 14:02:26 公開日:2023-05-24
# 画像超解像のための最適境界条件付き拡散モードの解法

Solving Diffusion ODEs with Optimal Boundary Conditions for Better Image Super-Resolution ( http://arxiv.org/abs/2305.15357v1 )

ライセンス: Link先を確認
Yiyang Ma, Huan Yang, Wenhan Yang, Jianlong Fu, Jiaying Liu(参考訳) 拡散モデルは、強力な生成モデルの一種であり、画像超解像(SR)タスクにおいて印象的な結果をもたらした。 しかし、拡散モデルの逆過程に導入されたランダム性により、拡散ベースのsrモデルの性能はサンプリングのたびに変動し、特にサンプリングされたステップがほとんどないサンプラーでは顕著である。 この拡散モデル固有のランダム性は非効率性と不安定性をもたらし、SR結果の品質を保証することは困難である。 しかし、我々の研究は、このランダム性を機会として捉えており、それを十分に分析し活用することで、一連の拡散ベースのSR手法の恩恵を受ける可能性を持つ効果的なプラグアンドプレイサンプリング手法の構築につながる。 より詳しくは、拡散常微分方程式(拡散ODE)を最適境界条件(BC)で解き、BCの選択と対応するSR結果との間の特性を解析することにより、事前訓練された拡散ベースSRモデルから高品質なSR画像のサンプリングを行うことを提案する。 我々の分析は、空間全体における効率的な探索を通して、およそ最適なBCを得るための経路を示す。 提案手法で得られたsrの質は,事前学習した拡散ベースsrモデルでランダム性を有する電流法で得られた結果の質を上回っており,本手法では追加のトレーニングを行わず,現在の拡散ベースのsrモデルである `boosts'' をサンプリングする。

Diffusion models, as a kind of powerful generative model, have given impressive results on image super-resolution (SR) tasks. However, due to the randomness introduced in the reverse process of diffusion models, the performances of diffusion-based SR models are fluctuating at every time of sampling, especially for samplers with few resampled steps. This inherent randomness of diffusion models results in ineffectiveness and instability, making it challenging for users to guarantee the quality of SR results. However, our work takes this randomness as an opportunity: fully analyzing and leveraging it leads to the construction of an effective plug-and-play sampling method that owns the potential to benefit a series of diffusion-based SR methods. More in detail, we propose to steadily sample high-quality SR images from pretrained diffusion-based SR models by solving diffusion ordinary differential equations (diffusion ODEs) with optimal boundary conditions (BCs) and analyze the characteristics between the choices of BCs and their corresponding SR results. Our analysis shows the route to obtain an approximately optimal BC via an efficient exploration in the whole space. The quality of SR results sampled by the proposed method with fewer steps outperforms the quality of results sampled by current methods with randomness from the same pretrained diffusion-based SR model, which means that our sampling method ``boosts'' current diffusion-based SR models without any additional training.
翻訳日:2023-05-25 14:02:14 公開日:2023-05-24
# 反事実学習による弱教師付き物体定位におけるバイアスド・アクティベーションの軽減

Mitigating Biased Activation in Weakly-supervised Object Localization via Counterfactual Learning ( http://arxiv.org/abs/2305.15354v1 )

ライセンス: Link先を確認
Feifei Shao, Yawei Luo, Lei Chen, Ping Liu, Yi Yang, Jun Xiao(参考訳) 本稿では,クラスアクティベーションマッピング(CAM)に基づく事前の弱教師付きオブジェクトローカライゼーション手法において,バイアス付アクティベーションの未解決問題に焦点をあてる。 我々は,この問題の原因を因果的観点から分析し,その背景を共同設立者とする。 そこで本研究では,共起関係を抑えるために,前景と非現実的背景を結合することで,対物表現を合成する,対物共起学習(CCL)パラダイムを提案する。 具体的には,対物表現摂動機構をバニラカムモデルに組み込んだ対物表現camと呼ばれる新しいネットワーク構造を設計する。 このメカニズムは前景と背景を分離し、反事実表現を合成する役割を担っている。 これらの合成表現を用いて検出モデルを訓練することにより、不注意な共起背景の影響を最小限に抑えながら、一定の前景コンテンツに焦点を合わせることをモデルに強制する。 私たちの知る限りでは、この方向への最初の試みである。 いくつかのベンチマークでの大規模な実験により、Counterfactual-CAMは偏りのあるアクティベーション問題を緩和し、オブジェクトのローカライゼーション精度の向上を実現している。

In this paper, we focus on an under-explored issue of biased activation in prior weakly-supervised object localization methods based on Class Activation Mapping (CAM). We analyze the cause of this problem from a causal view and attribute it to the co-occurring background confounders. Following this insight, we propose a novel Counterfactual Co-occurring Learning (CCL) paradigm to synthesize the counterfactual representations via coupling constant foreground and unrealized backgrounds in order to cut off their co-occurring relationship. Specifically, we design a new network structure called Counterfactual-CAM, which embeds the counterfactual representation perturbation mechanism into the vanilla CAM-based model. This mechanism is responsible for decoupling foreground as well as background and synthesizing the counterfactual representations. By training the detection model with these synthesized representations, we compel the model to focus on the constant foreground content while minimizing the influence of distracting co-occurring background. To our best knowledge, it is the first attempt in this direction. Extensive experiments on several benchmarks demonstrate that Counterfactual-CAM successfully mitigates the biased activation problem, achieving improved object localization accuracy.
翻訳日:2023-05-25 14:01:44 公開日:2023-05-24
# ディープラーニングモデルを表現、可視化、更新する仮想現実ツール

A Virtual Reality Tool for Representing, Visualizing and Updating Deep Learning Models ( http://arxiv.org/abs/2305.15353v1 )

ライセンス: Link先を確認
Hannes Kath, Bengt L\"uers, Thiago S. Gouv\^ea, Daniel Sonntag(参考訳) ディープラーニングはユビキタスだが、透明性の欠如は、いくつかの潜在的なアプリケーション領域への影響を制限する。 さまざまなカテゴリにデータ入力を割り当てるプロセスを自動化するための仮想現実ツールを示す。 データセットは仮想空間内の点の雲として表現される。 ユーザは動きを通して雲を探索し、手のジェスチャーを使って雲の一部を分類する。 これはクラウドの段階的な動きを引き起こす:同じカテゴリのポイントが互いに惹きつけられ、異なるグループが押し離され、ポイントは全空間を活用する方法でグローバルに分散される。 仮想現実で観察される空間、時間、力は、よく定義された機械学習の概念、すなわち潜在空間、トレーニング時代、バックプロパゲーションにマッピングすることができる。 当社のツールは、ディープニューラルネットワークの内部動作を具体的かつ透明にする方法を示しています。 このアプローチは、新しい分野のエンドユーザによるディープラーニングアプリケーションの自律的な開発を促進することを期待しています。

Deep learning is ubiquitous, but its lack of transparency limits its impact on several potential application areas. We demonstrate a virtual reality tool for automating the process of assigning data inputs to different categories. A dataset is represented as a cloud of points in virtual space. The user explores the cloud through movement and uses hand gestures to categorise portions of the cloud. This triggers gradual movements in the cloud: points of the same category are attracted to each other, different groups are pushed apart, while points are globally distributed in a way that utilises the entire space. The space, time, and forces observed in virtual reality can be mapped to well-defined machine learning concepts, namely the latent space, the training epochs and the backpropagation. Our tool illustrates how the inner workings of deep neural networks can be made tangible and transparent. We expect this approach to accelerate the autonomous development of deep learning applications by end users in novel areas.
翻訳日:2023-05-25 14:01:22 公開日:2023-05-24
# バンディット非確率制御の最適速度

Optimal Rates for Bandit Nonstochastic Control ( http://arxiv.org/abs/2305.15352v1 )

ライセンス: Link先を確認
Y. Jennifer Sun, Stephen Newman, Elad Hazan(参考訳) LQR(Linear Quadratic Regulator)とLQG(Linear Quadratic Gaussian)の制御は、最適制御における基礎的かつ広範囲に研究された問題である。 半対向摂動と時変対向帯域損失関数のLQRおよびLQG問題について検討した。 最もよく知られている半線形後悔アルゴリズムは$t^{\frac{3}{4}}$の時間軸依存性を持ち、著者らは$\sqrt{t}$のタイトなレートが達成できるかどうかという疑問を投げかけた。 我々は、既知のシステムと未知のシステムの両方において、最適な後悔(対数的要因まで)を達成するLQRとLQGのアルゴリズムを与える。 提案手法の中心的なコンポーネントは,メモリを用いたバンドット凸最適化のための新しいスキームである。

Linear Quadratic Regulator (LQR) and Linear Quadratic Gaussian (LQG) control are foundational and extensively researched problems in optimal control. We investigate LQR and LQG problems with semi-adversarial perturbations and time-varying adversarial bandit loss functions. The best-known sublinear regret algorithm of~\cite{gradu2020non} has a $T^{\frac{3}{4}}$ time horizon dependence, and its authors posed an open question about whether a tight rate of $\sqrt{T}$ could be achieved. We answer in the affirmative, giving an algorithm for bandit LQR and LQG which attains optimal regret (up to logarithmic factors) for both known and unknown systems. A central component of our method is a new scheme for bandit convex optimization with memory, which is of independent interest.
翻訳日:2023-05-25 14:01:07 公開日:2023-05-24
# ブラックボックス変分推論の収束

Black-Box Variational Inference Converges ( http://arxiv.org/abs/2305.15349v1 )

ライセンス: Link先を確認
Kyurae Kim, Kaiwen Wu, Jisu Oh, Yian Ma, Jacob R. Gardner(参考訳) モンテカルロ変分推論(Monte Carlo variational inference)としても知られる完全なブラックボックス変分推論(BBVI)に対する最初の収束保証を提供する。 bbvi(bounded domain,bounded support,only optimize for the scale, such)の簡易バージョンに関する予備的な調査が実施されたが、私たちのセットアップにはそのようなアルゴリズムによる修正は必要ない。 本研究は, 強いログコンベビティと位置スケールのばらつきを有する後葉密度について検討した。 また,本分析の結果から,アルゴリズムの設計選択,特に変分近似のスケールの非線形パラメータ化は,最適下収束率をもたらすことが明らかとなった。 幸いなことに、近確率勾配勾配でBBVIを走らせるとこれらの制限が修正され、最も強い収束率保証が達成される。 ベイズ推論問題におけるBBVIの他の標準実装との比較により,この理論的知見を評価する。

We provide the first convergence guarantee for full black-box variational inference (BBVI), also known as Monte Carlo variational inference. While preliminary investigations worked on simplified versions of BBVI (e.g., bounded domain, bounded support, only optimizing for the scale, and such), our setup does not need any such algorithmic modifications. Our results hold for log-smooth posterior densities with and without strong log-concavity and the location-scale variational family. Also, our analysis reveals that certain algorithm design choices commonly employed in practice, particularly, nonlinear parameterizations of the scale of the variational approximation, can result in suboptimal convergence rates. Fortunately, running BBVI with proximal stochastic gradient descent fixes these limitations, and thus achieves the strongest known convergence rate guarantees. We evaluate this theoretical insight by comparing proximal SGD against other standard implementations of BBVI on large-scale Bayesian inference problems.
翻訳日:2023-05-25 14:00:50 公開日:2023-05-24
# 同様の尺度で人間とモデルを比較する:共参照分解における認知性バイアス評価に向けて

Comparing Humans and Models on a Similar Scale: Towards Cognitive Gender Bias Evaluation in Coreference Resolution ( http://arxiv.org/abs/2305.15389v1 )

ライセンス: Link先を確認
Gili Lior and Gabriel Stanovsky(参考訳) Spurious correlations is a important factor of model performance in various NLP task(例:性別や人種的アーティファクト)は、しばしば実際のタスクに対して「ショートカット」であると考えられる。 しかし、人間も同様に社会的および認知的前提に基づいて素早く(時には誤った)予測をする傾向がある。 モデルバイアスが人間の行動を反映している程度を定量化できるか? この疑問に答えることは、モデルのパフォーマンスを軽視し、人間と有意義な比較を提供するのに役立つだろう。 我々は、人間の意思決定のための双対過程理論のレンズを通してこの問題にアプローチする。 この理論は、自動無意識の(時にはバイアスのかかる)「高速システム」と「スローシステム」とを区別する。 本研究は,「高速」システム研究のための自己評価読解法と,制約された時間条件下での「遅い」システム研究のための質問応答を用いて,男女バイアスのクラウドソーシング実験を2回行った。 実世界のデータでは、人間はモデルに比べて性別に偏りのある決定を$\sim$3\%、合成データモデルは$\sim$12\%の偏りを持つ。

Spurious correlations were found to be an important factor explaining model performance in various NLP tasks (e.g., gender or racial artifacts), often considered to be ''shortcuts'' to the actual task. However, humans tend to similarly make quick (and sometimes wrong) predictions based on societal and cognitive presuppositions. In this work we address the question: can we quantify the extent to which model biases reflect human behaviour? Answering this question will help shed light on model performance and provide meaningful comparisons against humans. We approach this question through the lens of the dual-process theory for human decision-making. This theory differentiates between an automatic unconscious (and sometimes biased) ''fast system'' and a ''slow system'', which when triggered may revisit earlier automatic reactions. We make several observations from two crowdsourcing experiments of gender bias in coreference resolution, using self-paced reading to study the ''fast'' system, and question answering to study the ''slow'' system under a constrained time setting. On real-world data humans make $\sim$3\% more gender-biased decisions compared to models, while on synthetic data models are $\sim$12\% more biased.
翻訳日:2023-05-25 13:54:12 公開日:2023-05-24
# Peek Across: クロスドキュメント質問回答によるマルチドキュメントモデリングの改善

Peek Across: Improving Multi-Document Modeling via Cross-Document Question-Answering ( http://arxiv.org/abs/2305.15387v1 )

ライセンス: Link先を確認
Avi Caciularu, Matthew E. Peters, Jacob Goldberger, Ido Dagan, Arman Cohan(参考訳) マルチドキュメント事前学習目標を言語モデルに統合することで、マルチドキュメントダウンストリームタスクが著しく改善された。 本研究では,事前学習目標に答える新たなクロスドキュメント質問から汎用マルチドキュメントモデルを事前学習することにより,この概念を拡張することを提案する。 そのため、局所関係文書の集合(あるいはクラスタ)が与えられた場合、体系的に1つの文書に有意な文から意味的指向の質問を生成し、事前学習中にモデルに挑戦し、他の局所関連文書に「覗き込み」しながらこれらの質問に答える。 同様に、このモデルは、またクロスドキュメントの情報を利用して、質問が生成された文を復元するためにも挑戦される。 この新しいマルチドキュメントqa定式化は、モデルにクロステキスト情報関係の回復を指示し、人工的に事前学習データを増加させる自然な拡張を導入する。 さらに、分類タスクや要約タスクにフォーカスする従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成(例えば、QA)と長いテキスト生成(例えば、要約)の両方を含むタスクを実行できる。 このスキームの後、我々はQAmdenと呼ばれるモデルを事前訓練し、マルチドキュメントQA、要約、クエリ中心の要約を含む複数のマルチドキュメントタスクのパフォーマンスを評価し、最大7%の改善を実現し、ゼロショット GPT-3.5 と GPT-4 を著しく上回ります。

The integration of multi-document pre-training objectives into language models has resulted in remarkable improvements in multi-document downstream tasks. In this work, we propose extending this idea by pre-training a generic multi-document model from a novel cross-document question answering pre-training objective. To that end, given a set (or cluster) of topically-related documents, we systematically generate semantically-oriented questions from a salient sentence in one document and challenge the model, during pre-training, to answer these questions while "peeking" into other topically-related documents. In a similar manner, the model is also challenged to recover the sentence from which the question was generated, again while leveraging cross-document information. This novel multi-document QA formulation directs the model to better recover cross-text informational relations, and introduces a natural augmentation that artificially increases the pre-training data. Further, unlike prior multi-document models that focus on either classification or summarization tasks, our pre-training objective formulation enables the model to perform tasks that involve both short text generation (e.g., QA) and long text generation (e.g., summarization). Following this scheme, we pre-train our model -- termed QAmden -- and evaluate its performance across several multi-document tasks, including multi-document QA, summarization, and query-focused summarization, yielding improvements of up to 7%, and significantly outperforms zero-shot GPT-3.5 and GPT-4.
翻訳日:2023-05-25 13:53:46 公開日:2023-05-24
# vistaar: インド語asrのさまざまなベンチマークとトレーニングセット

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR ( http://arxiv.org/abs/2305.15386v1 )

ライセンス: Link先を確認
Kaushal Santosh Bhogale, Sai Sundaresan, Abhigyan Raman, Tahir Javed, Mitesh M. Khapra, Pratyush Kumar(参考訳) 世界中の人々に新しいLSMベースのユースケースを利用できるようにするためには、ASRシステムの改善が必要である。 本稿では,インド語に焦点をあて,インド語に対するASRシステムの評価と改善には,多様なベンチマークが必要であることを論じる。 これに対処するために、vistaarをさまざまな言語とドメインの組み合わせにわたる59のベンチマークセットとしてコラボレートし、3つのasrシステムと2つの商用システムを評価した。 また、インド12の言語で利用可能なトレーニングデータセットにwhisperモデルを微調整することで、indicwhisperモデルのトレーニングも行います。 IndicWhisperはVistaarベンチマークで考慮されたASRシステムを大幅に改善することを示す。 実際、indicwhisper は 59 ベンチマーク中 39 で最低の wer を持ち、平均 4.1 wer である。 すべてのデータセット、コード、モデルをオープンソースにしています。

Improving ASR systems is necessary to make new LLM-based use-cases accessible to people across the globe. In this paper, we focus on Indian languages, and make the case that diverse benchmarks are required to evaluate and improve ASR systems for Indian languages. To address this, we collate Vistaar as a set of 59 benchmarks across various language and domain combinations, on which we evaluate 3 publicly available ASR systems and 2 commercial systems. We also train IndicWhisper models by fine-tuning the Whisper models on publicly available training datasets across 12 Indian languages totalling to 10.7K hours. We show that IndicWhisper significantly improves on considered ASR systems on the Vistaar benchmark. Indeed, IndicWhisper has the lowest WER in 39 out of the 59 benchmarks, with an average reduction of 4.1 WER. We open-source all datasets, code and models.
翻訳日:2023-05-25 13:52:57 公開日:2023-05-24
# フィールド間リンクの欠如としての行動定量化:デジタル精神医学ツールとその神経生物学における役割

Behavior quantification as the missing link between fields: Tools for digital psychiatry and their role in the future of neurobiology ( http://arxiv.org/abs/2305.15385v1 )

ライセンス: Link先を確認
Michaela Ennis(参考訳) 同じ精神疾患を持つ人と、時間とともに1人以内にも観察される大きな行動の多様性は、臨床実践と生物医学研究の両方を複雑にする。 しかし、現代の技術は行動特性を改善するエキサイティングな機会である。 患者調査や臨床面接など、質的、あるいは測定不能な既存の精神医学的手法は、より多くの能力で収集され、新しい定量的尺度を作成するために分析される。 さらに、携帯電話のGPSやスマートウォッチの加速度計などの受動的センサーストリームを連続的に収集する能力は、これまで完全に現実的ではなかった新しい疑問の道を開いた。 その時間的に密集した性質は、リアルタイムの神経および行動信号の凝集研究を可能にする。 精神疾患の包括的な神経生物学モデルを開発するためには,まず行動定量化のための強力な手法を開発することが重要である。 それは、新しいデータ処理ツール、新しい機械学習技術、そして究極的には、学際的な作業の実施方法のシフトを必要とします。 私の論文では、デジタル精神医学の異なる視点を採る研究プロジェクトについて詳述し、その後、その分野の将来に関する結論づけられた議論とアイデアを結びつけます。 関連するソフトウェアインフラストラクチャにも,広範なドキュメントを提供しています。 主な貢献は、科学的議論と、精神医学研究データ型として日々のフリーフォームオーディオジャーナルの概念結果の証明、そして、新しい安定性定理と、提案されたマルチ領域のリカレントニューラルネットワークアーキテクチャのパイロット実験的な成功である。

The great behavioral heterogeneity observed between individuals with the same psychiatric disorder and even within one individual over time complicates both clinical practice and biomedical research. However, modern technologies are an exciting opportunity to improve behavioral characterization. Existing psychiatry methods that are qualitative or unscalable, such as patient surveys or clinical interviews, can now be collected at a greater capacity and analyzed to produce new quantitative measures. Furthermore, recent capabilities for continuous collection of passive sensor streams, such as phone GPS or smartwatch accelerometer, open avenues of novel questioning that were previously entirely unrealistic. Their temporally dense nature enables a cohesive study of real-time neural and behavioral signals. To develop comprehensive neurobiological models of psychiatric disease, it will be critical to first develop strong methods for behavioral quantification. There is huge potential in what can theoretically be captured by current technologies, but this in itself presents a large computational challenge -- one that will necessitate new data processing tools, new machine learning techniques, and ultimately a shift in how interdisciplinary work is conducted. In my thesis, I detail research projects that take different perspectives on digital psychiatry, subsequently tying ideas together with a concluding discussion on the future of the field. I also provide software infrastructure where relevant, with extensive documentation. Major contributions include scientific arguments and proof of concept results for daily free-form audio journals as an underappreciated psychiatry research datatype, as well as novel stability theorems and pilot empirical success for a proposed multi-area recurrent neural network architecture.
翻訳日:2023-05-25 13:52:40 公開日:2023-05-24
# フィードバックグラフを用いたオンライン学習のためのMinimaxレグレクトについて

On the Minimax Regret for Online Learning with Feedback Graphs ( http://arxiv.org/abs/2305.15383v1 )

ライセンス: Link先を確認
Khaled Eldowa, Emmanuel Esposito, Tommaso Cesari, Nicol\`o Cesa-Bianchi(参考訳) 本研究では,オンライン学習の後悔に対する上層と下層の境界を,強く観察不能なフィードバックグラフを用いて改善する。 この問題の最もよく知られている上限は$\mathcal{o}\bigl(\sqrt{\alpha t\ln k}\bigr)$であり、ここで$k$はアクションの数、$\alpha$はグラフの独立数、$t$は時間軸である。 $\sqrt{\ln K}$因子は、$\alpha = 1$(専門家の場合)に必要であることが知られている。 一方、$\alpha = K$(盗賊の場合)の場合、ミニマックスレートは$\Theta\bigl(\sqrt{KT}\bigr)$、下界の$\Omega\bigl(\sqrt{\alpha T}\bigr)$は任意の$\alpha$に対して保持されることが知られている。 改良された上限 $\mathcal{o}\bigl(\sqrt{\alpha t(1+\ln(k/\alpha)))}\bigr)$ は任意の$\alpha$ に対して成立し、中間の場合を補間しながら、バンディットや専門家の下限に一致する。 この結果を証明するために、$q$-Tsallis entropyで、$\alpha$と異なる$q \in [1/2, 1)$の慎重に選択された値にFTRLを使用する。 このアルゴリズムの解析には、後悔の中の分散項に新しい境界が必要である。 また,我々の手法を時間変化グラフに拡張する方法を,その独立数の事前知識を必要とせずに示す。 我々の上限は改良された$\Omega\bigl(\sqrt{\alpha T(\ln K)/(\ln\alpha)}\bigr)$ lower bound for all $\alpha > 1$で補われ、その解析はマルチタスク学習への新たな還元に依存している。 これは、対数因子はすぐに$\alpha < k$ となることを示している。

In this work, we improve on the upper and lower bounds for the regret of online learning with strongly observable undirected feedback graphs. The best known upper bound for this problem is $\mathcal{O}\bigl(\sqrt{\alpha T\ln K}\bigr)$, where $K$ is the number of actions, $\alpha$ is the independence number of the graph, and $T$ is the time horizon. The $\sqrt{\ln K}$ factor is known to be necessary when $\alpha = 1$ (the experts case). On the other hand, when $\alpha = K$ (the bandits case), the minimax rate is known to be $\Theta\bigl(\sqrt{KT}\bigr)$, and a lower bound $\Omega\bigl(\sqrt{\alpha T}\bigr)$ is known to hold for any $\alpha$. Our improved upper bound $\mathcal{O}\bigl(\sqrt{\alpha T(1+\ln(K/\alpha))}\bigr)$ holds for any $\alpha$ and matches the lower bounds for bandits and experts, while interpolating intermediate cases. To prove this result, we use FTRL with $q$-Tsallis entropy for a carefully chosen value of $q \in [1/2, 1)$ that varies with $\alpha$. The analysis of this algorithm requires a new bound on the variance term in the regret. We also show how to extend our techniques to time-varying graphs, without requiring prior knowledge of their independence numbers. Our upper bound is complemented by an improved $\Omega\bigl(\sqrt{\alpha T(\ln K)/(\ln\alpha)}\bigr)$ lower bound for all $\alpha > 1$, whose analysis relies on a novel reduction to multitask learning. This shows that a logarithmic factor is necessary as soon as $\alpha < K$.
翻訳日:2023-05-25 13:52:12 公開日:2023-05-24
# 依存型高階論理の定理証明-拡張プレプリント

Theorem Proving in Dependently-Typed Higher-Order Logic -- Extended Preprint ( http://arxiv.org/abs/2305.15382v1 )

ライセンス: Link先を確認
Colin Rothgang and Florian Rabe and Christoph Benzm\"uller(参考訳) 高階論理holは、型付きデータ構造の表現と推論に非常にシンプルな構文と意味論を提供する。 しかし型システムは、型が用語に依存する可能性のある高度な機能を持っていない。 依存型理論はそのようなリッチな型システムを提供するが、HOLとはかなり概念的な違いがある。 本稿では,HOLのスタイルと概念的枠組みを保持するHOLの拡張DHOLを提案する。 さらに、DHOLからHOLへの変換を構築し、それをHOL定理証明器にプリプロセッサとして実装し、DHOLの定理証明器を得る。

Higher-order logic HOL offers a very simple syntax and semantics for representing and reasoning about typed data structures. But its type system lacks advanced features where types may depend on terms. Dependent type theory offers such a rich type system, but has rather substantial conceptual differences to HOL, as well as comparatively poor proof automation support. We introduce a dependently-typed extension DHOL of HOL that retains the style and conceptual framework of HOL. Moreover, we build a translation from DHOL to HOL and implement it as a preprocessor to a HOL theorem prover, thereby obtaining a theorem prover for DHOL.
翻訳日:2023-05-25 13:51:25 公開日:2023-05-24
# 単語埋め込みを用いた尿素言語に対する感性分析

Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages ( http://arxiv.org/abs/2305.15380v1 )

ライセンス: Link先を確認
Khalid Alnajjar, Mika H\"am\"al\"ainen, Jack Rueter(参考訳) 本稿では,多言語からの単語埋め込みを,Erzya,Moksha,Udmurt,Komi-Zyrianの4つの少数言語に翻訳する手法を提案する。 さらに、これらの単語埋め込みを整列させ、感情分析を行うために英語データに基づいて訓練された新しいニューラルネットワークモデルを示し、整列した単語埋め込みを通して絶滅危惧言語データに適用する。 このモデルをテストするために,4言語とフィンランド語に対する小さな感情分析コーパスを注釈した。 絶滅危惧言語毎に,少なくとも56 %の精度を達成できた。 モデルと感情コーパスは、この論文とともにリリースされる。 我々の研究によると、最先端のニューラルモデルは絶滅危惧言語で使用でき、唯一の要件は絶滅危惧言語と多数言語の間の辞書である。

In this paper, we present an approach for translating word embeddings from a majority language into 4 minority languages: Erzya, Moksha, Udmurt and Komi-Zyrian. Furthermore, we align these word embeddings and present a novel neural network model that is trained on English data to conduct sentiment analysis and then applied on endangered language data through the aligned word embeddings. To test our model, we annotated a small sentiment analysis corpus for the 4 endangered languages and Finnish. Our method reached at least 56\% accuracy for each endangered language. The models and the sentiment corpus will be released together with this paper. Our research shows that state-of-the-art neural models can be used with endangered languages with the only requirement being a dictionary between the endangered language and a majority language.
翻訳日:2023-05-25 13:51:15 公開日:2023-05-24
# コード生成におけるソーシャルバイアスの発見と定量化

Uncovering and Quantifying Social Biases in Code Generation ( http://arxiv.org/abs/2305.15377v1 )

ライセンス: Link先を確認
Yan Liu, Xiaokang Chen, Yan Gao, Zhe Su, Fengji Zhang, Daoguang Zan, Jian-Guang Lou, Pin-Yu Chen, Tsung-Yi Ho(参考訳) copilotのような自動コード生成ツールが普及するにつれ、これらのツールの潜在的な危険性の研究が重要になっている。 本研究では,事前学習したコード生成モデルにおける社会的バイアス問題について検討する。 コード生成モデルにおいて,コードプロンプトを構築し,社会的バイアスを明らかにするための新しいパラダイムを提案する。 生成されたコードにおける社会的偏見の重症度を定量化するために,各人口層間での社会的偏見と微妙な不公平さを評価するために,3つの指標とともにデータセットを開発した。 プリトレーニングされた3つのコード生成モデル(codex、incoder、codegen)の実験の結果、深刻な社会的バイアスが明らかになった。 さらに,社会バイアスの少ないコード生成モデルのさらなる選択に有用な洞察を提供するために分析を行う。 (この作品には、特定の社会集団の個人に対して攻撃的なステレオタイプ、協会、その他の害を潜在的に含んでいる例が含まれる。)

With the popularity of automatic code generation tools, such as Copilot, the study of the potential hazards of these tools is gaining importance. In this work, we explore the social bias problem in pre-trained code generation models. We propose a new paradigm to construct code prompts and successfully uncover social biases in code generation models. To quantify the severity of social biases in generated code, we develop a dataset along with three metrics to evaluate the overall social bias and fine-grained unfairness across different demographics. Experimental results on three pre-trained code generation models (Codex, InCoder, and CodeGen) with varying sizes, reveal severe social biases. Moreover, we conduct analysis to provide useful insights for further choice of code generation models with low social bias. (This work contains examples that potentially implicate stereotypes, associations, and other harms that could be offensive to individuals in certain social groups.)
翻訳日:2023-05-25 13:51:03 公開日:2023-05-24
# asper: 統合エンティティ関係抽出のための解集合プログラミング拡張ニューラルネットワークモデル

ASPER: Answer Set Programming Enhanced Neural Network Models for Joint Entity-Relation Extraction ( http://arxiv.org/abs/2305.15374v1 )

ライセンス: Link先を確認
Trung Hoang Le, Huiping Cao, Tran Cao Son(参考訳) ジョイント・エンティティ・リレーション(ER)抽出のための多くのアプローチが提案されている。 これらの手法のほとんどは、手作業による大量のトレーニングデータに依存している。 しかし、手動のデータアノテーションは時間がかかり、労力がかかり、エラーが発生しやすい。 人間は(推論を通じて)データと知識の両方を使って学習する。 Answer Set Programming (ASP) は知識表現や推論において広く利用されている手法であり、不完全な情報による推論には耐え難い。 本稿では、データとドメイン知識の両方から学習することで、エンティティと関係を協調的に認識する新しいアプローチである、ASP-enhanced Entity-Relation extract (ASPER)を提案する。 特に、ASPERはニューラルネットワークモデルの学習プロセスにおいて、事実知識(ASPで事実として表現される)と派生知識(ASPで規則として表現される)を活用する。 我々は,2つの実データに対して実験を行い,本手法を3つのベースラインと比較した。 その結果、ASPERモデルはベースラインを一貫して上回ります。

A plethora of approaches have been proposed for joint entity-relation (ER) extraction. Most of these methods largely depend on a large amount of manually annotated training data. However, manual data annotation is time consuming, labor intensive, and error prone. Human beings learn using both data (through induction) and knowledge (through deduction). Answer Set Programming (ASP) has been a widely utilized approach for knowledge representation and reasoning that is elaboration tolerant and adept at reasoning with incomplete information. This paper proposes a new approach, ASP-enhanced Entity-Relation extraction (ASPER), to jointly recognize entities and relations by learning from both data and domain knowledge. In particular, ASPER takes advantage of the factual knowledge (represented as facts in ASP) and derived knowledge (represented as rules in ASP) in the learning process of neural network models. We have conducted experiments on two real datasets and compare our method with three baselines. The results show that our ASPER model consistently outperforms the baselines.
翻訳日:2023-05-25 13:50:46 公開日:2023-05-24
# 一般的なニューラルネットワークは子供の視覚経験から何を学べるのか?

What can generic neural networks learn from a child's visual experience? ( http://arxiv.org/abs/2305.15372v1 )

ライセンス: Link先を確認
A. Emin Orhan, Brenden M. Lake(参考訳) 幼児は自我中心の視覚体験に基づいて、世界の洗練された内部モデルを開発する。 そもそもの制約によって、どれくらいが駆動され、どれくらいが経験によって駆動されますか? そこで本研究では,子どもの視覚体験の現実的代理人に対して,明示的な監督やドメイン固有の帰納的バイアスを伴わずに最先端のニューラルネットワークを訓練する。 具体的には、2年以上に渡り収集された1人の子供のヘッドカムビデオの200時間の埋め込みモデルと生成モデルの両方を訓練する。 72の異なるモデルをトレーニングし,モデルアーキテクチャと自己教師あり学習アルゴリズムを探索し,ダウンストリームタスクにおけるパフォーマンスを総合的に評価した。 最高の埋め込みモデルは、平均して高性能なImageNetトレーニングモデルの70%で実行される。 また、ラベル付き例なしで幅広い意味カテゴリーを学習し、位置の監督なしに画像内の意味カテゴリをローカライズすることを学ぶ。 しかし、これらのモデルはオブジェクト中心ではなく、イメージネット訓練モデルよりも背景に敏感である。 同じデータでトレーニングされた生成モデルは、テクスチャ、色、方向、粗い輪郭など、部分的にマスキングされたオブジェクトの単純な特性を外挿することに成功しました。 実験を他の2人の子供と再現し、非常によく似た結果が得られた。 広範に有用な高次視覚表現は、強い帰納バイアスを伴わずに、子供の視覚経験の代表例から頑健に学習できる。

Young children develop sophisticated internal models of the world based on their egocentric visual experience. How much of this is driven by innate constraints and how much is driven by their experience? To investigate these questions, we train state-of-the-art neural networks on a realistic proxy of a child's visual experience without any explicit supervision or domain-specific inductive biases. Specifically, we train both embedding models and generative models on 200 hours of headcam video from a single child collected over two years. We train a total of 72 different models, exploring a range of model architectures and self-supervised learning algorithms, and comprehensively evaluate their performance in downstream tasks. The best embedding models perform at 70% of a highly performant ImageNet-trained model on average. They also learn broad semantic categories without any labeled examples and learn to localize semantic categories in an image without any location supervision. However, these models are less object-centric and more background-sensitive than comparable ImageNet-trained models. Generative models trained with the same data successfully extrapolate simple properties of partially masked objects, such as their texture, color, orientation, and rough outline, but struggle with finer object details. We replicate our experiments with two other children and find very similar results. Broadly useful high-level visual representations are thus robustly learnable from a representative sample of a child's visual experience without strong inductive biases.
翻訳日:2023-05-25 13:50:28 公開日:2023-05-24
# 思考連鎖の背後にある謎の解明に向けて--理論的展望

Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective ( http://arxiv.org/abs/2305.15408v1 )

ライセンス: Link先を確認
Guhao Feng, Yuntian Gu, Bohang Zhang, Haotian Ye, Di He, Liwei Wang(参考訳) 近年の研究では、特に数学や推論を含む複雑なタスクを扱う場合、CoT(Chain-of-Thought prompting)がLarge Language Models(LLM)の性能を劇的に改善できることが判明している。 実験的な成功にもかかわらず、CoTの背後にあるメカニズムとLLMの可能性を解き放つ方法はまだ解明されていない。 本稿では,これらの疑問に理論的に答える第一歩を踏み出す。 具体的には,基本的な数学的および意思決定問題の解法におけるLLMのCoTによる能力について検討する。 まず,任意の有界深度変換器は,モデルサイズが入力長に対して超多項式的に大きくなる限り,基本演算/方程式の正解を直接出力できないことを示す。 対照的に,定サイズの自己回帰変換器は,一般的な数学言語形式を用いてCoTの導出を生成することで,両タスクを解くのに十分であることを示す。 さらに, COT を用いた LLM は, 動的プログラミング(Dynamic Programming) と呼ばれる一般的な意思決定問題を解くことができ, 複雑な実世界のタスクに対処する能力の正当化を図っている。 最後に、4つのタスクに関する広範な実験では、トランスフォーマーは常に直接答えを予測できないが、十分なCoTの実証から正しいソリューションを段階的に生成できることが示されている。

Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this paper, we take a first step towards theoretically answering these questions. Specifically, we examine the capacity of LLMs with CoT in solving fundamental mathematical and decision-making problems. We start by giving an impossibility result showing that any bounded-depth Transformer cannot directly output correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, we then prove by construction that autoregressive Transformers of a constant size suffice to solve both tasks by generating CoT derivations using a commonly-used math language format. Moreover, we show LLMs with CoT are capable of solving a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks. Finally, extensive experiments on four tasks show that, while Transformers always fail to predict the answers directly, they can consistently learn to generate correct solutions step-by-step given sufficient CoT demonstrations.
翻訳日:2023-05-25 13:44:47 公開日:2023-05-24
# 画像のバランシング:合成コントラストセットによるビジョンランゲージデータセットのデバイアス

Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic Contrast Sets ( http://arxiv.org/abs/2305.15407v1 )

ライセンス: Link先を確認
Brandon Smith, Miguel Farinha, Siobhan Mackenzie Hall, Hannah Rose Kirk, Aleksandar Shtedritski, Max Bain(参考訳) 視覚言語モデルの人気は高まり、大規模な画像の生成、編集、キャプションの可視性も高まっているが、その出力はインターネットから未作成の画像テキストペアを事前学習中に学んだ社会バイアスを持続し、増幅することができる。 デバイアス手法が提案されているが、これらのモデルバイアスの測定はデータセットバイアスによる妥当性を欠いている。 背景状況と性別の偏りを評価するために最もよく使われるデータセットであるCOCOキャピションには、素早い相関関係があることを実証する。 一般的に使用されているバイアスメトリクス(Bias@Kなど)はジェンダー単位のベースレートに依存しているため、これは問題となる。 そこで本研究では,ココデータセットを合成,男女バランスの取れたコントラストセットで拡張し,対象者の性別のみを編集し,背景を固定する新しいデータセットデバイアスパイプラインを提案する。 しかし,既存の画像編集手法には限界があり,品質の低い画像を生成する場合があるため,実画像との類似性に基づいて生成画像を自動的にフィルタリングする手法を提案する。 バランスの取れた合成コントラストセットを用いて、複数のCLIPモデルでバイアスをベンチマークし、元のCOCO画像の不均衡によってメトリクスがどのように歪められているかを示す。 その結果,提案手法は評価の有効性を向上し,視覚言語モデルにおけるバイアスのより現実的な理解に寄与することが示唆された。

Vision-language models are growing in popularity and public visibility to generate, edit, and caption images at scale; but their outputs can perpetuate and amplify societal biases learned during pre-training on uncurated image-text pairs from the internet. Although debiasing methods have been proposed, we argue that these measurements of model bias lack validity due to dataset bias. We demonstrate there are spurious correlations in COCO Captions, the most commonly used dataset for evaluating bias, between background context and the gender of people in-situ. This is problematic because commonly-used bias metrics (such as Bias@K) rely on per-gender base rates. To address this issue, we propose a novel dataset debiasing pipeline to augment the COCO dataset with synthetic, gender-balanced contrast sets, where only the gender of the subject is edited and the background is fixed. However, existing image editing methods have limitations and sometimes produce low-quality images; so, we introduce a method to automatically filter the generated images based on their similarity to real images. Using our balanced synthetic contrast sets, we benchmark bias in multiple CLIP-based models, demonstrating how metrics are skewed by imbalance in the original COCO images. Our results indicate that the proposed approach improves the validity of the evaluation, ultimately contributing to more realistic understanding of bias in vision-language models.
翻訳日:2023-05-25 13:44:22 公開日:2023-05-24
# 並列データを用いない単位系音声対音声翻訳

Unit-based Speech-to-Speech Translation Without Parallel Data ( http://arxiv.org/abs/2305.15405v1 )

ライセンス: Link先を確認
Anuj Diwan, Anirudh Srinivasan, David Harwath, Eunsol Choi(参考訳) ソースとターゲット言語間の並列データに依存しない教師なし音声音声翻訳システム(S2ST)を提案する。 提案手法は,音源および対象言語音声信号を自動検出された離散単位にマッピングし,教師なし単位間機械翻訳として再編成する。 我々は3段階の訓練手順を開発する。 (a)特定目的語を用いた単位ベースエンコーダ・デコーダ言語モデルの事前学習 (b)単言語テキスト埋め込み空間を整列して作成した語間翻訳音声ペアによる訓練 (c)初期翻訳モデルから非教師なし翻訳ブートストラップを実行する。 提案手法では,音声信号のテキストへのマッピングを回避し,音声認識やテキストを音声モデルに置き換える代わりに,音声単位と単位音声モデルを用いる。 合成話者Europarl-ST とドイツ語-英語評価セットを用いて,この制約されたシナリオ下では単位ベース翻訳が可能であり,ドイツ語では9.29 ASR-BLEU,ドイツ語では8.07を達成できた。

We propose an unsupervised speech-to-speech translation (S2ST) system that does not rely on parallel data between the source and target languages. Our approach maps source and target language speech signals into automatically discovered, discrete units and reformulates the problem as unsupervised unit-to-unit machine translation. We develop a three-step training procedure that involves (a) pre-training an unit-based encoder-decoder language model with a denoising objective (b) training it with word-by-word translated utterance pairs created by aligning monolingual text embedding spaces and (c) running unsupervised backtranslation bootstrapping off of the initial translation model. Our approach avoids mapping the speech signal into text and uses speech-to-unit and unit-to-speech models instead of automatic speech recognition and text to speech models. We evaluate our model on synthetic-speaker Europarl-ST English-German and German-English evaluation sets, finding that unit-based translation is feasible under this constrained scenario, achieving 9.29 ASR-BLEU in German to English and 8.07 in English to German.
翻訳日:2023-05-25 13:43:55 公開日:2023-05-24
# RoMa: 複雑な特徴マッチングのためのロバストなロバストな損失を再考

RoMa: Revisiting Robust Losses for Dense Feature Matching ( http://arxiv.org/abs/2305.15404v1 )

ライセンス: Link先を確認
Johan Edstedt, Qiyu Sun, Georg B\"okman, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) Dense機能マッチングは、3Dシーンの2つの画像間のすべての対応を推定する重要なコンピュータビジョンタスクである。 本稿では,マルコフ連鎖の観点からのマッチングにおけるロバストな損失を再考し,理論的洞察と性能の大きな向上をもたらす。 まず、マッチングをマルコフ連鎖として統一的に定式化することから始め、マッチングのために分離すべき2つの重要な段階を特定する。 1つ目は粗い段階であり、そこでは推定結果がグローバルに一貫性を持たなければならない。 2つ目は、モデルが正確なローカライゼーション機能を必要とするリファインメントステージである。 これらの段階が異なる問題を考慮しているという洞察に触発されて、我々は、完全に局所化されていない優れたグローバルな一貫性を提供する回帰分類パラダイムに従う粗いマッチングを提案する。 これに続き、よく動機づけられたロバストな回帰損失を用いて、局所的な機能改善ステージが続き、非常に正確な一致が得られる。 提案手法はRoMaと呼ばれ,最先端技術と比較して大幅に改善されている。 コードはhttps://github.com/Parskatt/RoMaで入手できる。

Dense feature matching is an important computer vision task that involves estimating all correspondences between two images of a 3D scene. In this paper, we revisit robust losses for matching from a Markov chain perspective, yielding theoretical insights and large gains in performance. We begin by constructing a unifying formulation of matching as a Markov chain, based on which we identify two key stages which we argue should be decoupled for matching. The first is the coarse stage, where the estimated result needs to be globally consistent. The second is the refinement stage, where the model needs precise localization capabilities. Inspired by the insight that these stages concern distinct issues, we propose a coarse matcher following the regression-by-classification paradigm that provides excellent globally consistent, albeit not exactly localized, matches. This is followed by a local feature refinement stage using well-motivated robust regression losses, yielding extremely precise matches. Our proposed approach, which we call RoMa, achieves significant improvements compared to the state-of-the-art. Code is available at https://github.com/Parskatt/RoMa
翻訳日:2023-05-25 13:43:38 公開日:2023-05-24
# AV-TranSpeech:音声によるロバスト音声合成

AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation ( http://arxiv.org/abs/2305.15403v1 )

ライセンス: Link先を確認
Rongjie Huang, Huadai Liu, Xize Cheng, Yi Ren, Linjun Li, Zhenhui Ye, Jinzheng He, Lichao Zhang, Jinglin Liu, Xiang Yin, Zhou Zhao(参考訳) direct speech-to-speech translation (s2st) は、ある言語から別の言語に翻訳することを目的としており、今日までかなりの進歩を遂げている。 最近の成功にもかかわらず、現在のS2STモデルは相変わらずノイズの多い環境の劣化に悩まされ、視覚音声(唇と歯の動き)の翻訳に失敗している。 本研究では、中間テキストに依存しない最初の音声-視覚音声合成モデルであるAV-S2STを提案する。 AV-TranSpeechは、オーディオストリームを視覚情報で補完し、システムのロバスト性を促進し、多くの実用的応用: ディクテーションまたはダビングアーカイブフィルムを開放する。 並列av-s2stデータによるデータ不足の軽減 1)教師なし視聴覚データによる自己教師付き事前学習の探索と文脈表現の学習 2) 音声のみのコーパスで訓練したS2STモデルを用いたクロスモーダル蒸留を導入し, ビジュアルデータの要求をさらに軽減した。 AV-TranSpeechは、ノイズの種類に関わらず、すべての設定下でオーディオのみのモデルより優れていることを示す。 低リソースの視聴覚データ(10h,30h)では、クロスモーダル蒸留はベースラインと比較して平均7.6 bleuの改善をもたらす。 オーディオサンプルはhttps://AV-TranSpeech.github.ioで入手できる。

Direct speech-to-speech translation (S2ST) aims to convert speech from one language into another, and has demonstrated significant progress to date. Despite the recent success, current S2ST models still suffer from distinct degradation in noisy environments and fail to translate visual speech (i.e., the movement of lips and teeth). In this work, we present AV-TranSpeech, the first audio-visual speech-to-speech (AV-S2ST) translation model without relying on intermediate text. AV-TranSpeech complements the audio stream with visual information to promote system robustness and opens up a host of practical applications: dictation or dubbing archival films. To mitigate the data scarcity with limited parallel AV-S2ST data, we 1) explore self-supervised pre-training with unlabeled audio-visual data to learn contextual representation, and 2) introduce cross-modal distillation with S2ST models trained on the audio-only corpus to further reduce the requirements of visual data. Experimental results on two language pairs demonstrate that AV-TranSpeech outperforms audio-only models under all settings regardless of the type of noise. With low-resource audio-visual data (10h, 30h), cross-modal distillation yields an improvement of 7.6 BLEU on average compared with baselines. Audio samples are available at https://AV-TranSpeech.github.io
翻訳日:2023-05-25 13:43:20 公開日:2023-05-24
# sin3dm: 単一の3次元テクスチャ形状から拡散モデルを学ぶ

Sin3DM: Learning a Diffusion Model from a Single 3D Textured Shape ( http://arxiv.org/abs/2305.15399v1 )

ライセンス: Link先を確認
Rundi Wu, Ruoshi Liu, Carl Vondrick, Changxi Zheng(参考訳) 入力例に似た新しい3Dモデルを合成することは、長い間、コンピュータグラフィックスの研究者やアーティストによって追求されてきた。 本稿では,単一の3次元テクスチャ形状から内部パッチ分布を学習し,微細な形状とテクスチャ詳細を備えた高品質なバリエーションを生成する拡散モデルであるsin3dmを提案する。 拡散モデルを3Dで直接訓練すると、大きなメモリと計算コストが生じる。 したがって、まず入力を低次元の潜在空間に圧縮し、次に拡散モデルを訓練する。 具体的には、入力された3次元テクスチャ形状を、入力の符号付き距離とテクスチャフィールドを表す三面体特徴マップに符号化する。 拡散モデルのデノージングネットワークは、オーバーフィッティングを避けるために限られた受容場を有し、三面体対応の2d畳み込みブロックを用いて結果品質を向上させる。 ランダムに新しいサンプルを生成するだけでなく、リターゲティング、アウトペインティング、ローカル編集などの応用も促進する。 広範囲な質的定量的評価により,従来の手法よりも高品質な形状の3次元形状を生成できることを示した。

Synthesizing novel 3D models that resemble the input example has long been pursued by researchers and artists in computer graphics. In this paper, we present Sin3DM, a diffusion model that learns the internal patch distribution from a single 3D textured shape and generates high-quality variations with fine geometry and texture details. Training a diffusion model directly in 3D would induce large memory and computational cost. Therefore, we first compress the input into a lower-dimensional latent space and then train a diffusion model on it. Specifically, we encode the input 3D textured shape into triplane feature maps that represent the signed distance and texture fields of the input. The denoising network of our diffusion model has a limited receptive field to avoid overfitting, and uses triplane-aware 2D convolution blocks to improve the result quality. Aside from randomly generating new samples, our model also facilitates applications such as retargeting, outpainting and local editing. Through extensive qualitative and quantitative evaluation, we show that our model can generate 3D shapes of various types with better quality than prior methods.
翻訳日:2023-05-25 13:42:56 公開日:2023-05-24
# tドープ安定化状態の学習

Learning t-doped stabilizer states ( http://arxiv.org/abs/2305.15398v1 )

ライセンス: Link先を確認
Lorenzo Leone, Salvatore F. E. Oliviero and Alioscia Hamma(参考訳) 本稿では,非クリフォードゲートの有限数tをドープしたクリフォード回路により計算基底状態から得られた学習状態を対象とした学習アルゴリズムを提案する。 そこで本研究では, 安定性エントロピーのツールを用いて, t-ドープ安定化状態の代数的枠組みを提案する。 そこで本研究では, 状態のベルサンプリングによって得られるポーリ作用素の期待値と, その共役を計算ベースで求めることで得られる分布からのサンプリングを用いるアルゴリズムを開発した。 このアルゴリズムは複雑さのリソースである$O(\exp(t)\poly(n))$を必要とし、指数的に小さな失敗の確率を示す。

In this paper, we present a learning algorithm aimed at learning states obtained from computational basis states by Clifford circuits doped with a finite number t of non-Clifford gates. To tackle this problem, we introduce a novel algebraic framework for t-doped stabilizer states by utilizing tools from stabilizer entropy. Leveraging this new structure, we develop an algorithm that uses sampling from the distribution obtained by squaring expectation values of Pauli operators that can be obtained by Bell sampling on the state and its conjugate in the computational basis. The algorithm requires resources of complexity $O(\exp(t)\poly(n))$ and exhibits an exponentially small probability of failure.
翻訳日:2023-05-25 13:42:37 公開日:2023-05-24
# データ中毒に対する確率的ロバスト性を有する微分プライベート決定木

Differentially-Private Decision Trees with Probabilistic Robustness to Data Poisoning ( http://arxiv.org/abs/2305.15394v1 )

ライセンス: Link先を確認
Dani\"el Vos, Jelle Vos, Tianyu Li, Zekeriya Erkin, Sicco Verwer(参考訳) 決定木は非線形学習問題に適した解釈可能なモデルである。 トレーニングデータ内のサンプルのプライバシを保証するシステムである差分プライバシーによって、決定木学習アルゴリズムを拡張する作業が数多く行われている。 しかし、この目的のための現在の最先端のアルゴリズムは、小さなプライバシー上の利益のために多くのユーティリティを犠牲にしている。 これらのソリューションはランダムな決定ノードを生成し、決定木の精度を低下させるか、ラベルの葉に過大なプライバシー予算を費やす。 さらに、多くの作業では、データが連続している場合、機能値に関する情報をサポートしたり、リークしたりしない。 少額のプライバシー予算を消費しながら、良好な分割を選択するプライベートヒストグラムに基づくprivatreeと呼ばれる新しい手法を提案する。 結果として得られるツリーは、プライバシーとユーティリティのトレードオフを著しく改善し、追加情報を漏らさずに、数値と分類の混合データを受け入れる。 最後に、データ中毒攻撃に対して堅牢性を保証することは難しいことで悪名高いが、異なる個人学習者に対するバックドア攻撃の成功率の限界が証明されている。 実験の結果,privatreeは従来の予測精度よりも優れており,通常の決定木と比較してバックドア攻撃に対するロバスト性が著しく向上した。

Decision trees are interpretable models that are well-suited to non-linear learning problems. Much work has been done on extending decision tree learning algorithms with differential privacy, a system that guarantees the privacy of samples within the training data. However, current state-of-the-art algorithms for this purpose sacrifice much utility for a small privacy benefit. These solutions create random decision nodes that reduce decision tree accuracy or spend an excessive share of the privacy budget on labeling leaves. Moreover, many works do not support or leak information about feature values when data is continuous. We propose a new method called PrivaTree based on private histograms that chooses good splits while consuming a small privacy budget. The resulting trees provide a significantly better privacy-utility trade-off and accept mixed numerical and categorical data without leaking additional information. Finally, while it is notoriously hard to give robustness guarantees against data poisoning attacks, we prove bounds for the expected success rates of backdoor attacks against differentially-private learners. Our experimental results show that PrivaTree consistently outperforms previous works on predictive accuracy and significantly improves robustness against backdoor attacks compared to regular decision trees.
翻訳日:2023-05-25 13:42:27 公開日:2023-05-24
# layoutgpt: 大きな言語モデルによる構成的ビジュアルプランニングと生成

LayoutGPT: Compositional Visual Planning and Generation with Large Language Models ( http://arxiv.org/abs/2305.15393v1 )

ライセンス: Link先を確認
Weixi Feng, Wanrong Zhu, Tsu-jui Fu, Varun Jampani, Arjun Akula, Xuehai He, Sugato Basu, Xin Eric Wang, William Yang Wang(参考訳) 視覚生成において高いユーザ制御性を達成するには、レイアウトのような複雑なきめ細かい入力が必要になることが多い。 しかし、このような入力は単純なテキスト入力に比べてユーザにとって大きな負担となる。 そこで本研究では,Large Language Models (LLM) がテキスト条件からレイアウトを生成することで視覚プランナとして機能し,視覚生成モデルと協調する方法について検討する。 LLMのビジュアルプランニングスキルを高めるために,スタイルシート言語でテキスト内ビジュアルデモを作成する手法であるLayoutGPTを提案する。 LayoutGPTは、2D画像から3D屋内シーンまで、複数のドメインで可塑性レイアウトを生成することができる。 LayoutGPTはまた、数値や空間関係のような困難な言語概念を忠実なテキストから画像生成のためのレイアウトアレンジメントに変換する上で、優れたパフォーマンスを示す。 下流画像生成モデルと組み合わせると、layoutgptは、テキストから画像へのモデル/システムよりも20〜40%優れ、数値的および空間的正確性のために視覚的レイアウトを設計する際に、人間ユーザーと同等の性能を達成している。 最後に、LayoutGPTは3次元屋内シーン合成における教師あり手法に匹敵する性能を達成し、複数の視覚領域におけるその有効性と可能性を示す。

Attaining a high degree of user controllability in visual generation often requires intricate, fine-grained inputs like layouts. However, such inputs impose a substantial burden on users when compared to simple text inputs. To address the issue, we study how Large Language Models (LLMs) can serve as visual planners by generating layouts from text conditions, and thus collaborate with visual generative models. We propose LayoutGPT, a method to compose in-context visual demonstrations in style sheet language to enhance the visual planning skills of LLMs. LayoutGPT can generate plausible layouts in multiple domains, ranging from 2D images to 3D indoor scenes. LayoutGPT also shows superior performance in converting challenging language concepts like numerical and spatial relations to layout arrangements for faithful text-to-image generation. When combined with a downstream image generation model, LayoutGPT outperforms text-to-image models/systems by 20-40% and achieves comparable performance as human users in designing visual layouts for numerical and spatial correctness. Lastly, LayoutGPT achieves comparable performance to supervised methods in 3D indoor scene synthesis, demonstrating its effectiveness and potential in multiple visual domains.
翻訳日:2023-05-25 13:42:07 公開日:2023-05-24
# テキストから画像へのパーソナライズのためのニューラル空間時間表現

A Neural Space-Time Representation for Text-to-Image Personalization ( http://arxiv.org/abs/2305.15391v1 )

ライセンス: Link先を確認
Yuval Alaluf, Elad Richardson, Gal Metzer, Daniel Cohen-Or(参考訳) テキストから画像へのパーソナライズ手法の重要な側面は、対象概念が生成プロセス内で表現される方法である。 この選択は、学習した概念を保存するのに必要な視覚的忠実性、下流編集性、ディスクスペースに大きく影響します。 本稿では,プロセスの時間ステップ(時間)とU-Netレイヤ(空間)の両方に依存した新しいテキスト条件空間を探索し,その魅力的な特性を示す。 時空表現における単一の概念は、時間と空間の組み合わせごとに数百のベクトルで構成されており、この空間を直接最適化することは困難である。 代わりに、現在の時間と空間パラメータを受信し、一致するトークン埋め込みを出力する小さなニューラルマッパーを最適化することで、この分野の概念を暗黙的に表現することを提案する。 そうすることで、パーソナライズされた概念全体が学習されたマッパーのパラメータによって表現され、コンパクトで表現力のある表現となる。 他のパーソナライズ方法と同様に、我々のニューラルマッパーの出力はテキストエンコーダの入力空間に存在する。 我々は,テキストエンコーダの出力に付加される残差をニューラルマッパーが出力するテキストバイパスを導入することにより,概念の収束性と視覚的忠実性を大幅に向上させることができることを観察した。 最後に,暗黙の表現に対して重要度に基づく順序付けを課す方法を示し,学習した概念の再構成と編集性を,単一のトレーニングモデルを用いてユーザに提供する。 提案手法は, 生成モデル自体のパラメータを微調整することなく, 高品質かつ制御可能な構成を生成できることを示し, 様々な概念やプロンプトに対するアプローチの有効性を示す。

A key aspect of text-to-image personalization methods is the manner in which the target concept is represented within the generative process. This choice greatly affects the visual fidelity, downstream editability, and disk space needed to store the learned concept. In this paper, we explore a new text-conditioning space that is dependent on both the denoising process timestep (time) and the denoising U-Net layers (space) and showcase its compelling properties. A single concept in the space-time representation is composed of hundreds of vectors, one for each combination of time and space, making this space challenging to optimize directly. Instead, we propose to implicitly represent a concept in this space by optimizing a small neural mapper that receives the current time and space parameters and outputs the matching token embedding. In doing so, the entire personalized concept is represented by the parameters of the learned mapper, resulting in a compact, yet expressive, representation. Similarly to other personalization methods, the output of our neural mapper resides in the input space of the text encoder. We observe that one can significantly improve the convergence and visual fidelity of the concept by introducing a textual bypass, where our neural mapper additionally outputs a residual that is added to the output of the text encoder. Finally, we show how one can impose an importance-based ordering over our implicit representation, providing users control over the reconstruction and editability of the learned concept using a single trained model. We demonstrate the effectiveness of our approach over a range of concepts and prompts, showing our method's ability to generate high-quality and controllable compositions without fine-tuning any parameters of the generative model itself.
翻訳日:2023-05-25 13:41:44 公開日:2023-05-24
# replug: 検索型ブラックボックス言語モデル

REPLUG: Retrieval-Augmented Black-Box Language Models ( http://arxiv.org/abs/2301.12652v4 )

ライセンス: Link先を確認
Weijia Shi, Sewon Min, Michihiro Yasunaga, Minjoon Seo, Rich James, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih(参考訳) 本稿では,言語モデル(LM)をブラックボックスとして扱い,調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークREPLUGを紹介する。 検索されたテキストをエンコードするために特別なクロスアテンション機構を持つ言語モデルを訓練する以前の検索拡張LMとは異なり、REPLUGは検索した文書を凍結したブラックボックスLMの入力に単純にプリペンドする。 このシンプルな設計は、既存の検索モデルや言語モデルにも容易に適用できる。 さらに,LMを用いて検索モデルを監督し,LMがより良い予測を行うのに役立つ文書を見つけることができることを示す。 実験の結果, 調整したレトリバーを用いたREPLUGでは, GPT-3 (175B) の言語モデルの性能が6.3%向上し, 5ショットMMLUでのコーデックスの性能が5.1%向上した。

We introduce REPLUG, a retrieval-augmented language modeling framework that treats the language model (LM) as a black box and augments it with a tuneable retrieval model. Unlike prior retrieval-augmented LMs that train language models with special cross attention mechanisms to encode the retrieved text, REPLUG simply prepends retrieved documents to the input for the frozen black-box LM. This simple design can be easily applied to any existing retrieval and language models. Furthermore, we show that the LM can be used to supervise the retrieval model, which can then find documents that help the LM make better predictions. Our experiments demonstrate that REPLUG with the tuned retriever significantly improves the performance of GPT-3 (175B) on language modeling by 6.3%, as well as the performance of Codex on five-shot MMLU by 5.1%.
翻訳日:2023-05-25 11:25:27 公開日:2023-05-24
# Bias-to-Text: 言語解釈による未知のビジュアルバイアスの回避

Bias-to-Text: Debiasing Unknown Visual Biases through Language Interpretation ( http://arxiv.org/abs/2301.11104v3 )

ライセンス: Link先を確認
Younghyun Kim, Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jaeho Lee, Jinwoo Shin(参考訳) モデルのバイアスは、機械学習システムをデプロイする場合に重大な問題となるが、それを説明可能な方法で診断することは困難である。 これに対処するために,画像分類器やテキストから画像への生成モデルといった視覚モデルのバイアスを,言語解釈を用いて識別し軽減するbias-to-text(b2t)フレームワークを導入する。 視覚バイアスの言語記述は、新しいバイアスの発見と効果的なモデルバイアスの発見を可能にする説明可能な形式を提供する。 そこで本研究では,誤認識や生成画像のキャプションにおける共通キーワードの分析を行う。 本稿では,バイアスキーワードと画像の類似性を比較することにより,キャプションのバイアスを回避するための新しいスコア関数を提案する。 さらに,B2Tフレームワークのバイアスキーワードを用いて,ゼロショット分類器とテキスト画像拡散モデルをデバイアス化する手法を提案する。 様々な画像分類・生成タスクにおけるフレームワークの有効性を実証する。 分類器では,Kaggle Face のキーワード "(スポーツ) プレーヤ" と "(スポーツ) の"女性" の相関関係が新たに発見され,Waterbirds の最低グループ精度は,ベースラインと比較して11%向上した。 生成モデルでは、不公平(性別バイアスなど)と不安全(「裸」など)の画像生成を検出し、効果的に防止する。

Biases in models pose a critical issue when deploying machine learning systems, but diagnosing them in an explainable manner can be challenging. To address this, we introduce the bias-to-text (B2T) framework, which uses language interpretation to identify and mitigate biases in vision models, such as image classifiers and text-to-image generative models. Our language descriptions of visual biases provide explainable forms that enable the discovery of novel biases and effective model debiasing. To achieve this, we analyze common keywords in the captions of mispredicted or generated images. Here, we propose novel score functions to avoid biases in captions by comparing the similarities between bias keywords and those images. Additionally, we present strategies to debias zero-shot classifiers and text-to-image diffusion models using the bias keywords from the B2T framework. We demonstrate the effectiveness of our framework on various image classification and generation tasks. For classifiers, we discover a new spurious correlation between the keywords "(sports) player" and "female" in Kaggle Face and improve the worst-group accuracy on Waterbirds by 11% through debiasing, compared to the baseline. For generative models, we detect and effectively prevent unfair (e.g., gender-biased) and unsafe (e.g., "naked") image generation.
翻訳日:2023-05-25 11:25:10 公開日:2023-05-24
# 大規模言語モデルによる自己検証による推論精度の向上

Large Language Models are Better Reasoners with Self-Verification ( http://arxiv.org/abs/2212.09561v4 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Kang Liu, Jun Zhao(参考訳) 近年、思考(CoT)の連鎖により、GPT-3のような大規模言語モデル(LLM)は、算術、常識、論理的推論といったいくつかの自然言語処理タスクにおいて強い推論能力を示している。 しかし、CoT を用いた LLM では、複数ステップのプロンプトとマルチトークン予測が必要であり、個々のミスに非常に敏感であり、エラーの蓄積に弱い。 上記の問題は、LLMが答えを検証する能力を必要としている。 実際、ある思考決定タスクで結論を推論した後、人々は間違いを避けるためのステップを再検証することでそれらをチェックします。 本稿では,LLMにも類似した自己検証能力があることを示す。 本稿では,CoTによる結論を,元の問題を解決する条件の一つとみなす。 原条件をマスキングし、その結果を予測することにより、再予測された条件が正しいかどうかに基づいて説明可能な回答検証スコアを算出する。 実験の結果,提案手法は様々な算術,コモンセンス,論理推論データセットの推論性能を向上させることができることがわかった。 私たちのコードは、https://github.com/WENGSYX/Self-Verificationで公開されています。

Recently, with the chain of thought (CoT) prompting, large language models (LLMs), e.g., GPT-3, have shown strong reasoning ability in several natural language processing tasks such as arithmetic, commonsense, and logical reasoning. However, LLMs with CoT require multi-step prompting and multi-token prediction, which is highly sensitive to individual mistakes and vulnerable to error accumulation. The above issues make the LLMs need the ability to verify the answers. In fact, after inferring conclusions in some thinking decision tasks, people often check them by re-verifying steps to avoid some mistakes. In this paper, we propose and prove that LLMs also have similar self-verification abilities. We take the conclusion obtained by CoT as one of the conditions for solving the original problem. By taking turns masking the original conditions and predicting their results, we calculate an explainable answer verification score based on whether the re-predicted conditions are correct. Experimental results demonstrate that the proposed method can improve the reasoning performance on various arithmetic, commonsense, and logical reasoning datasets. Our code is publicly available at: https://github.com/WENGSYX/Self-Verification.
翻訳日:2023-05-25 11:24:36 公開日:2023-05-24
# 構造化コンポーネントの学習:モジュラーと解釈可能な多変量時系列予測に向けて

Learning Structured Components: Towards Modular and Interpretable Multivariate Time Series Forecasting ( http://arxiv.org/abs/2305.13036v2 )

ライセンス: Link先を確認
Jinliang Deng, Xiusi Chen, Renhe Jiang, Du Yin, Yi Yang, Xuan Song, Ivor W. Tsang(参考訳) 多変量時系列予測(MTS)は多くの実世界のアプリケーションにおいて最重要かつ基本的な問題である。 MTS予測の核となる問題は、複雑な時空間パターンを効果的にモデル化する方法である。 本稿では,時空間パターンの各コンポーネントを個別にモデル化するモジュール型かつ解釈可能な予測フレームワークを開発する。 このフレームワークをSCNN(Structured Component-based Neural Network)と呼ぶ。 SCNNは、空間時間パターンの潜在構造を算術的に特徴づける、MSSの事前定義された生成プロセスで動作する。 逆プロセスに従って、SCNNはMSSデータを構造化されたコンポーネントと不均一なコンポーネントに分離し、それぞれこれらのコンポーネントの進化を外挿する。 SCNNが3つの実世界のデータセットの最先端モデルよりも優れた性能を達成できることを示すため、大規模な実験が行われた。 さらに,異なる構成のSCNNについて検討し,SCNNの特性の詳細な分析を行う。

Multivariate time-series (MTS) forecasting is a paramount and fundamental problem in many real-world applications. The core issue in MTS forecasting is how to effectively model complex spatial-temporal patterns. In this paper, we develop a modular and interpretable forecasting framework, which seeks to individually model each component of the spatial-temporal patterns. We name this framework SCNN, short for Structured Component-based Neural Network. SCNN works with a pre-defined generative process of MTS, which arithmetically characterizes the latent structure of the spatial-temporal patterns. In line with its reverse process, SCNN decouples MTS data into structured and heterogeneous components and then respectively extrapolates the evolution of these components, the dynamics of which is more traceable and predictable than the original MTS. Extensive experiments are conducted to demonstrate that SCNN can achieve superior performance over state-of-the-art models on three real-world datasets. Additionally, we examine SCNN with different configurations and perform in-depth analyses of the properties of SCNN.
翻訳日:2023-05-25 11:15:04 公開日:2023-05-24
# 大言語モデルは半構造化インタビューの帰納的テーマ分析をエミュレートできるか? アプローチとモデルの限界に関する探索と挑発

Can Large Language Models emulate an inductive Thematic Analysis of semi-structured interviews? An exploration and provocation on the limits of the approach and the model ( http://arxiv.org/abs/2305.13014v2 )

ライセンス: Link先を確認
Stefano De Paoli(参考訳) 大規模言語モデル(LLM)は、いくつかの分野や作業領域に適用可能な強力な生成人工知能ソリューションとして登場した。 本稿では, GPT 3.5-Turboモデルを用いて, 帰納的テーマ解析のいくつかの側面をエミュレートした実験結果と考察を行った。 本研究のこれまでの研究は、導出分析の実施に大きく取り組んできた。 主題分析 (thematic analysis) は、社会科学において一般的に用いられる分析の定性的手法であり、人間の分析者による解釈と定性データにおける明示的・潜在的な意味の同定に基づいている。 LLMによる人間の解釈に基づく分析の試みは、明らかに挑発であると同時に、これらのシステムが質的研究でどのように使えるかを学ぶための方法でもある。 本論文は,このエミュレーションを試みる動機について述べるとともに,ブラウンとクラークが提案したテーマ分析への6つのステップを少なくとも部分的にllmで再現できることを示すとともに,モデルが生成するアウトプットを反映する。 論文では、これまでThematic Analysisで分析されていたオープンアクセス半構造化インタビューのデータセットを2つ使用した。 以前に作成された分析(および関連するテーマ)を使用して、LLMが生成した結果と比較した。 結果は、モデルが少なくとも一部主要なテーマを推測できることを示している。 本論文の目的は, 定性解析における人間アナリストの代替ではなく, LLMデータ操作のいくつかの要素がある程度の定性研究を支援することができるかを知ることである。

Large Language Models (LLMs) have emerged as powerful generative Artificial Intelligence solutions which can be applied to several fields and areas of work. This paper presents results and reflection of an experiment done to use the model GPT 3.5-Turbo to emulate some aspects of an inductive Thematic Analysis. Previous research on this subject has largely worked on conducting deductive analysis. Thematic Analysis is a qualitative method for analysis commonly used in social sciences and it is based on interpretations made by the human analyst(s) and the identification of explicit and latent meanings in qualitative data. Attempting an analysis based on human interpretation with an LLM clearly is a provocation but also a way to learn something about how these systems can or cannot be used in qualitative research. The paper presents the motivations for attempting this emulation, it reflects on how the six steps to a Thematic Analysis proposed by Braun and Clarke can at least partially be reproduced with the LLM and it also reflects on what are the outputs produced by the model. The paper used two existing datasets of open access semi-structured interviews, previously analysed with Thematic Analysis by other researchers. It used the previously produced analysis (and the related themes) to compare with the results produced by the LLM. The results show that the model can infer at least partially some of the main Themes. The objective of the paper is not to replace human analysts in qualitative analysis but to learn if some elements of LLM data manipulation can to an extent be of support for qualitative research.
翻訳日:2023-05-25 11:14:51 公開日:2023-05-24
# 階層型統合拡散モデルによる実像分解

Hierarchical Integration Diffusion Model for Realistic Image Deblurring ( http://arxiv.org/abs/2305.12966v2 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Ding Liu, Bin Xia, Jinjin Gu, Linghe Kong, Xin Yuan(参考訳) 拡散モデル (DM) は近年, 画像劣化において導入され, 特に細部再構成において有望な性能を示した。 しかし、拡散モデルは、大量の計算資源を消費する純粋なガウスノイズからクリーンなイメージを復元するために、多数の推論反復を必要とする。 さらに、拡散モデルにより合成された分布は、しばしば対象結果と不一致であり、歪みに基づくメトリクスの制限につながる。 上記の問題に対処するために,実像デブラリングのための階層的統合拡散モデル(hi-diff)を提案する。 具体的には、高いコンパクト化された潜在空間でDMを実行し、デブロアリングプロセスの前の特徴を生成する。 退化処理は回帰法により実施され、歪み精度が向上する。 一方、非常にコンパクトな潜在空間は、DMの効率性を保証する。 さらに,複数スケールの回帰モデルに事前を融合させる階層型統合モジュールを設計し,複雑なぼやけたシナリオにおけるより優れた一般化を実現する。 人工的および実世界のぼかしデータセットに関する総合的な実験は、HI-Diffが最先端の手法より優れていることを示す。 コードとトレーニングされたモデルはhttps://github.com/zhengchen1999/hi-diffで入手できる。

Diffusion models (DMs) have recently been introduced in image deblurring and exhibited promising performance, particularly in terms of details reconstruction. However, the diffusion model requires a large number of inference iterations to recover the clean image from pure Gaussian noise, which consumes massive computational resources. Moreover, the distribution synthesized by the diffusion model is often misaligned with the target results, leading to restrictions in distortion-based metrics. To address the above issues, we propose the Hierarchical Integration Diffusion Model (HI-Diff), for realistic image deblurring. Specifically, we perform the DM in a highly compacted latent space to generate the prior feature for the deblurring process. The deblurring process is implemented by a regression-based method to obtain better distortion accuracy. Meanwhile, the highly compact latent space ensures the efficiency of the DM. Furthermore, we design the hierarchical integration module to fuse the prior into the regression-based model from multiple scales, enabling better generalization in complex blurry scenarios. Comprehensive experiments on synthetic and real-world blur datasets demonstrate that our HI-Diff outperforms state-of-the-art methods. Code and trained models are available at https://github.com/zhengchen1999/HI-Diff.
翻訳日:2023-05-25 11:14:23 公開日:2023-05-24
# 反復型キャプションと大規模言語モデルを用いたアルバムストーリーテリング

Album Storytelling with Iterative Story-aware Captioning and Large Language Models ( http://arxiv.org/abs/2305.12943v2 )

ライセンス: Link先を確認
Munan Ning, Yujia Xie, Dongdong Chen, Zeyin Song, Lu Yuan, Yonghong Tian, Qixiang Ye, Li Yuan(参考訳) この研究は、アルバムを鮮明でコヒーレントなストーリーに変換する方法を研究し、これは私たちが「アルバムストーリーテリング」と呼ぶタスクである。 このタスクは記憶を保存し、経験を共有するのに役立つが、現在の文献では未熟な領域である。 近年のLarge Language Models (LLMs) の発展により、長い一貫性のあるテキストを生成することが可能となり、アルバムストーリーテリングのためのAIアシスタントを開発する機会が開かれた。 自然なアプローチの1つは、アルバムの各写真を記述するためにキャプションモデルを使用し、LLMを使用して生成されたキャプションを要約し、エンゲージメントなストーリーに書き換えることである。 しかし,この結果から,画像と矛盾する幻覚的な情報を含むストーリーが生まれることがしばしばあり,それぞれのキャプション(ストーリー非依存)が必ずしも物語全体に関する記述や必要な情報を見逃しているわけではない。 これらの制約に対処するため、我々は新しい反復的なアルバムストーリーテリングパイプラインを提案する。 具体的には、最初のストーリーから始めて、ストーリー全体をガイダンスとして、キャプションを洗練させるストーリー対応キャプションモデルを構築する。 精製されたキャプションはLLMに入力され、新しい精巧なストーリーを生成する。 このプロセスは、ストーリーが一貫性を維持しながら事実上の誤りを最小限に抑えるまで繰り返される。 提案するパイプラインを評価するために,vlogからのイメージコレクションの新たなデータセットと体系的な評価メトリクスを導入する。 提案手法はアルバムのより正確で魅力的なストーリーを効果的に生成し,コヒーレンスと鮮明さを高めた。

This work studies how to transform an album to vivid and coherent stories, a task we refer to as "album storytelling". While this task can help preserve memories and facilitate experience sharing, it remains an underexplored area in current literature. With recent advances in Large Language Models (LLMs), it is now possible to generate lengthy, coherent text, opening up the opportunity to develop an AI assistant for album storytelling. One natural approach is to use caption models to describe each photo in the album, and then use LLMs to summarize and rewrite the generated captions into an engaging story. However, we find this often results in stories containing hallucinated information that contradicts the images, as each generated caption ("story-agnostic") is not always about the description related to the whole story or miss some necessary information. To address these limitations, we propose a new iterative album storytelling pipeline. Specifically, we start with an initial story and build a story-aware caption model to refine the captions using the whole story as guidance. The polished captions are then fed into the LLMs to generate a new refined story. This process is repeated iteratively until the story contains minimal factual errors while maintaining coherence. To evaluate our proposed pipeline, we introduce a new dataset of image collections from vlogs and a set of systematic evaluation metrics. Our results demonstrate that our method effectively generates more accurate and engaging stories for albums, with enhanced coherence and vividness.
翻訳日:2023-05-25 11:14:04 公開日:2023-05-24
# multitabqa:マルチテーブル質問応答のための表回答生成

MultiTabQA: Generating Tabular Answers for Multi-Table Question Answering ( http://arxiv.org/abs/2305.12820v2 )

ライセンス: Link先を確認
Vaishali Pal, Andrew Yates, Evangelos Kanoulas, Maarten de Rijke(参考訳) 大規模言語モデルを用いた表型質問応答(QA)の最近の進歩は,そのカバレッジに制約があり,単一のテーブル上でのみ回答できる。 しかし、現実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。 単一のテーブルの質問は、セット操作、Cartesian製品(ジョイン)、ネストクエリといった一般的なテーブル操作を含まない。 さらに、マルチテーブル操作は表の出力をもたらすことが多く、表のQAモデルのテーブル生成能力を必要とする。 このギャップを埋めるために,複数のテーブルにまたがる質問に答える新しいタスクを提案する。 我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。 効果的なトレーニングを実現するために,132,645のSQLクエリと表解からなる事前学習データセットを構築した。 さらに, テーブル構造の様々な粒度を評価するために, 異なる厳密さのテーブル固有指標を導入することにより, 生成されたテーブルを評価する。 MultiTabQAは、Spider、Atis、GeoQueryの3つのデータセットを微調整することで、マルチテーブルのQA設定に適合する、最先端のシングルテーブルQAモデルを上回っている。

Recent advances in tabular question answering (QA) with large language models are constrained in their coverage and only answer questions over a single table. However, real-world queries are complex in nature, often over multiple tables in a relational database or web page. Single table questions do not involve common table operations such as set operations, Cartesian products (joins), or nested queries. Furthermore, multi-table operations often result in a tabular output, which necessitates table generation capabilities of tabular QA models. To fill this gap, we propose a new task of answering questions over multiple tables. Our model, MultiTabQA, not only answers questions over multiple tables, but also generalizes to generate tabular answers. To enable effective training, we build a pre-training dataset comprising of 132,645 SQL queries and tabular answers. Further, we evaluate the generated tables by introducing table-specific metrics of varying strictness assessing various levels of granularity of the table structure. MultiTabQA outperforms state-of-the-art single table QA models adapted to a multi-table QA setting by finetuning on three datasets: Spider, Atis and GeoQuery.
翻訳日:2023-05-25 11:13:36 公開日:2023-05-24
# 追加被覆分布を用いたオフライン強化学習

Offline Reinforcement Learning with Additional Covering Distributions ( http://arxiv.org/abs/2305.12679v2 )

ライセンス: Link先を確認
Chenjie Mao(参考訳) 我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。 努力にもかかわらず、理論的な有限サンプル保証を持つ既存のアルゴリズムは、通常、探索的データカバレッジや強力な実現可能な関数クラスを想定している。 これらの強い仮定にうまく対処する最近の研究は存在するが、MDPの一部でのみ満足できるギャップ仮定を必要とするか、学習された政策の最適性をさらに難易度にするための行動規則化を利用するかのいずれかである。 この課題を解決するために,一般MDPに対するサンプル効率の良いオフラインRLは,部分的カバレッジデータセットと,被覆分布の付加的な側情報を与える弱い実現可能な関数クラスのみを用いて実現可能であることを示す,余分な重要サンプリング(MIS)に基づく単純なアルゴリズムに対する有限サンプル保証を提供する。 さらに,学習過程におけるこの帰納的バイアスの影響を明らかにするため,最適軌跡の事前知識とデータセットのカバレッジ要件とのトレードオフを明らかにした。

We study learning optimal policies from a logged dataset, i.e., offline RL, with function approximation. Despite the efforts devoted, existing algorithms with theoretic finite-sample guarantees typically assume exploratory data coverage or strong realizable function classes, which is hard to be satisfied in reality. While there are recent works that successfully tackle these strong assumptions, they either require the gap assumptions that only could be satisfied by part of MDPs or use the behavior regularization that makes the optimality of learned policy even intractable. To solve this challenge, we provide finite-sample guarantees for a simple algorithm based on marginalized importance sampling (MIS), showing that sample-efficient offline RL for general MDPs is possible with only a partial coverage dataset and weak realizable function classes given additional side information of a covering distribution. Furthermore, we demonstrate that the covering distribution trades off prior knowledge of the optimal trajectories against the coverage requirement of the dataset, revealing the effect of this inductive bias in the learning processes.
翻訳日:2023-05-25 11:13:14 公開日:2023-05-24
# 医用画像解析のためのパラメーター効率の微調整:逃避機会

Parameter-Efficient Fine-Tuning for Medical Image Analysis: The Missed Opportunity ( http://arxiv.org/abs/2305.08252v3 )

ライセンス: Link先を確認
Raman Dutt, Linus Ericsson, Pedro Sanchez, Sotirios A. Tsaftaris, Timothy Hospedales(参考訳) 本稿では,多種多様な医用画像解析タスクにおけるパラメータ効率向上技術(PEFT)の総合評価について述べる。 PEFTは、自然言語処理、ビジョン、スピーチ、そして視覚言語やテキスト・ツー・イメージ生成のようなモーダルなタスクにおいて、事前訓練されたモデルから知識を伝達するための貴重なアプローチとして、ますます活用されている。 しかし、医用画像解析への応用はいまだに未解明である。 基礎モデルが医学領域でますます活用されるようになるにつれて、ダウンストリームタスクの範囲を補強する知識伝達の様々な戦略を調査し、比較評価することが重要となる。 コンボリューションとトランスフォーマーに基づくネットワークのために提案された16種類のPEFT手法を,サイズ,モダリティ,複雑性の6つの医学データセットを対象とした画像分類とテキスト・ツー・イメージ生成タスクに着目し,本研究で評価した。 600以上の制御された実験により,特定のシナリオ下では最大22%の性能向上を示し,医療用テキスト・画像生成におけるPEFTの有効性を示した。 さらに, 従来の微調整手法よりもPEFT法が特に優位である事例を明らかにし, 下流データ量との関係について検討する。

We present a comprehensive evaluation of Parameter-Efficient Fine-Tuning (PEFT) techniques for diverse medical image analysis tasks. PEFT is increasingly exploited as a valuable approach for knowledge transfer from pre-trained models in natural language processing, vision, speech, and cross-modal tasks, such as vision-language and text-to-image generation. However, its application in medical image analysis remains relatively unexplored. As foundation models are increasingly exploited in the medical domain, it is crucial to investigate and comparatively assess various strategies for knowledge transfer that can bolster a range of downstream tasks. Our study, the first of its kind (to the best of our knowledge), evaluates 16 distinct PEFT methodologies proposed for convolutional and transformer-based networks, focusing on image classification and text-to-image generation tasks across six medical datasets ranging in size, modality, and complexity. Through a battery of more than 600 controlled experiments, we demonstrate performance gains of up to 22% under certain scenarios and demonstrate the efficacy of PEFT for medical text-to-image generation. Further, we reveal the instances where PEFT methods particularly dominate over conventional fine-tuning approaches by studying their relationship with downstream data volume.
翻訳日:2023-05-25 11:12:32 公開日:2023-05-24
# 多数派が間違っている場合:主観的タスクに対するアノテーションの不一致をモデル化する

When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks ( http://arxiv.org/abs/2305.06626v3 )

ライセンス: Link先を確認
Eve Fleisig, Rediet Abebe, Dan Klein(参考訳) アノテーターの過半数の投票は、自然言語処理における基礎的な真理ラベルに使われるのが一般的であるが、ヘイトスピーチ検出のようなタスクにおけるアノテーターの不一致は、グループ間での意見の相違を反映しうる。 したがって、ヘイトスピーチ検出における重要な問題は、そのグループがアノテータプールのごく一部を構成する場合、対象とする人口集団に対して、声明が攻撃的であるかどうかを決定することである。 我々は,潜在的に攻撃的なテキストに対する個々の注釈格付けを予測するモデルを構築し,この情報をテキストの予測対象グループと組み合わせ,対象グループメンバの意見をモデル化する。 評価基準を22%向上して個々の注釈者の格付けを予測し、33%向上させるなど、さまざまな指標で利益が得られ、下降するモデルの不確実性を示す指標を提供する。 我々は,各注釈者とその評価をリンクする注釈者idを追跡する必要なしに,オンラインコンテンツの人口統計情報や意見を用いて注釈者評価を予測できることを見出した。 また,アノテータのオンライン体験に対する非侵襲的調査質問の利用は,アノテータの意見を予測する際に,プライバシーを最大化し,不要な人口統計情報の収集を最小化するのに役立つことがわかった。

Though majority vote among annotators is typically used for ground truth labels in natural language processing, annotator disagreement in tasks such as hate speech detection may reflect differences in opinion across groups, not noise. Thus, a crucial problem in hate speech detection is determining whether a statement is offensive to the demographic group that it targets, when that group may constitute a small fraction of the annotator pool. We construct a model that predicts individual annotator ratings on potentially offensive text and combines this information with the predicted target group of the text to model the opinions of target group members. We show gains across a range of metrics, including raising performance over the baseline by 22% at predicting individual annotators' ratings and by 33% at predicting variance among annotators, which provides a metric for model uncertainty downstream. We find that annotator ratings can be predicted using their demographic information and opinions on online content, without the need to track identifying annotator IDs that link each annotator to their ratings. We also find that use of non-invasive survey questions on annotators' online experiences helps to maximize privacy and minimize unnecessary collection of demographic information when predicting annotators' opinions.
翻訳日:2023-05-25 11:12:09 公開日:2023-05-24
# 逆線形帯域に対する1次および2次境界

First- and Second-Order Bounds for Adversarial Linear Contextual Bandits ( http://arxiv.org/abs/2305.00832v3 )

ライセンス: Link先を確認
Julia Olkhovskaya, Jack Mayo, Tim van Erven, Gergely Neu and Chen-Yu Wei(参考訳) 我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。 固定された既知分布から$d$次元の文脈が引き出されると仮定すると、$T$ラウンドにおける最悪の後悔は$\tilde O(\sqrt{Kd T})$としてスケールすることが知られている。 文脈の密度がlog-concaveであるという追加の仮定の下で、学習者の損失の累積的第2モーメント(v_t$)の項で、次数$\tilde o(k\sqrt{d v_t}) と次数$\tilde o(k\sqrt{d l_t^*}) と密接に関連する次数$\tilde o(k\sqrt{d l_t^*})$ を得る。 v_t$ や $l_t^*$ は$t$ よりもかなり小さいため、環境が比較的良質な場合の最悪の後悔よりも改善される。 本研究は,連続指数重みアルゴリズムの確率的単純性に対する縮小版を用いて,文脈を伴わない線形バンディット設定への新たな接続を活用し,解析を行った。

We consider the adversarial linear contextual bandit setting, which allows for the loss functions associated with each of $K$ arms to change over time without restriction. Assuming the $d$-dimensional contexts are drawn from a fixed known distribution, the worst-case expected regret over the course of $T$ rounds is known to scale as $\tilde O(\sqrt{Kd T})$. Under the additional assumption that the density of the contexts is log-concave, we obtain a second-order bound of order $\tilde O(K\sqrt{d V_T})$ in terms of the cumulative second moment of the learner's losses $V_T$, and a closely related first-order bound of order $\tilde O(K\sqrt{d L_T^*})$ in terms of the cumulative loss of the best policy $L_T^*$. Since $V_T$ or $L_T^*$ may be significantly smaller than $T$, these improve over the worst-case regret whenever the environment is relatively benign. Our results are obtained using a truncated version of the continuous exponential weights algorithm over the probability simplex, which we analyse by exploiting a novel connection to the linear bandit setting without contexts.
翻訳日:2023-05-25 11:11:44 公開日:2023-05-24
# マルチモーダル自動ファクトチェック:調査

Multimodal Automated Fact-Checking: A Survey ( http://arxiv.org/abs/2305.13507v2 )

ライセンス: Link先を確認
Akhtar Mubashara, Schlichtkrull Michael, Guo Zhijiang, Cocarascu Oana, Simperl Elena, Vlachos Andreas(参考訳) 誤った情報、すなわち、事実的に誤った情報はしばしば、キャプションを伴う画像など、複数のモダリティで伝達される。 人間によってより信頼できると考えられており、テキストのみのものよりも速く広く広がる。 研究機関が自動化事実チェック(AFC)を調査する一方で、以前の調査は主にテキストの誤報に焦点を当てていた。 本研究では,マルチモーダル情報に特有のサブタスクを含むafcのフレームワークを概念化する。 さらに, 異なるコミュニティで開発された関連用語を, 枠組みの文脈で議論する。 実世界のファクトチェックでは,テキスト,画像,音声,ビデオという4つのモダリティに注目した。 ベンチマークとモデルを調査し、今後の研究の限界と将来的な方向性について論じる。

Misinformation, i.e. factually incorrect information, is often conveyed in multiple modalities, e.g. an image accompanied by a caption. It is perceived as more credible by humans, and spreads faster and wider than its text-only counterparts. While an increasing body of research investigates automated fact-checking (AFC), previous surveys mostly focus on textual misinformation. In this survey, we conceptualise a framework for AFC including subtasks unique to multimodal misinformation. Furthermore, we discuss related terminological developed in different communities in the context of our framework. We focus on four modalities prevalent in real-world fact-checking: text, image, audio, and video. We survey benchmarks and models, and discuss limitations and promising directions for future research.
翻訳日:2023-05-25 11:05:21 公開日:2023-05-24
# Flover: 効率的な自己回帰モデル並列推論のための時間統合フレームワーク

Flover: A Temporal Fusion Framework for Efficient Autoregressive Model Parallel Inference ( http://arxiv.org/abs/2305.13484v2 )

ライセンス: Link先を確認
Jinghan Yao, Nawras Alnaasan, Tian Chen, Aamir Shafi, Hari Subramoni, Dhabaleswar K. (DK) Panda(参考訳) ディープラーニングの分野では、モデルがより複雑になり、多様なアプリケーションにデプロイされるにつれて、モデル推論のパフォーマンスが重要な側面となっている。 これらのうち、自己回帰モデルは、多くの生成タスクにおける最先端のパフォーマンスのために際立っている。 これらのモデルは設計上、現在のトークンの確率分布が前のトークンに条件付けられている時間的依存構造を利用する。 しかし、本質的にシーケンシャルな特徴はマルコフ連鎖の仮定に忠実であり、時間的並列性が欠如しており、これは独特な課題をもたらす。 特に、ポアソン時間分布に従う推論要求が多様な応答長を必要とする産業文脈では、この並列性の欠如はより深い。 動的バッチ処理や並列モデルインスタンスといった既存のソリューションは、過度なオーバーヘッドと柔軟性の欠如を伴い、粗い粒度のメソッドは最適なレイテンシとスループットを達成できない。 自動回帰モデルにおける効率的な推論のための時間的融合フレームワークであるFravorを提案し、ヒューリスティックな設定の必要性を排除し、幅広い推論シナリオに適用する。 リクエストの時間性に対してより詳細な並列性を提供し、効率的なメモリシャッフルアルゴリズムを使用することで、NVIDIA Triton FasterTransformerが提供する最先端ソリューションと比較して、GPTモデルの最大11倍高速な推論を実現している。 重要なのは、先進的なテンソル並列技術を活用することで、floverはシングルgpuセットアップからマルチノードシナリオまで、さまざまな計算環境にまたがって有効性が証明され、ハードウェア境界を超える堅牢なパフォーマンス最適化を提供する。

In the rapidly evolving field of deep learning, the performance of model inference has become a pivotal aspect as models become more complex and are deployed in diverse applications. Among these, autoregressive models stand out due to their state-of-the-art performance in numerous generative tasks. These models, by design, harness a temporal dependency structure, where the current token's probability distribution is conditioned on preceding tokens. This inherently sequential characteristic, however, adheres to the Markov Chain assumption and lacks temporal parallelism, which poses unique challenges. Particularly in industrial contexts where inference requests, following a Poisson time distribution, necessitate diverse response lengths, this absence of parallelism is more profound. Existing solutions, such as dynamic batching and concurrent model instances, nevertheless, come with severe overheads and a lack of flexibility, these coarse-grained methods fall short of achieving optimal latency and throughput. To address these shortcomings, we propose Flavor -- a temporal fusion framework for efficient inference in autoregressive models, eliminating the need for heuristic settings and applies to a wide range of inference scenarios. By providing more fine-grained parallelism on the temporality of requests and employing an efficient memory shuffle algorithm, Flover achieves up to 11x faster inference on GPT models compared to the cutting-edge solutions provided by NVIDIA Triton FasterTransformer. Crucially, by leveraging the advanced tensor parallel technique, Flover proves efficacious across diverse computational landscapes, from single-GPU setups to multi-node scenarios, thereby offering robust performance optimization that transcends hardware boundaries.
翻訳日:2023-05-25 11:05:09 公開日:2023-05-24
# 内因性運動の測定とモデル化

Measuring and Modeling Physical Intrinsic Motivation ( http://arxiv.org/abs/2305.13452v2 )

ライセンス: Link先を確認
Julio Martinez, Felix Binder, Haoliang Wang, Nicker Haber, Judith Fan, Daniel L. K. Yamins(参考訳) 人間は、興味深い物理的ダイナミクスを持つ状況を探すために、対話的なエージェントです。 ここでは、身体固有のモチベーションの機能形式を定式化する。 私たちはまず、人間が様々な物理シナリオをいかに興味深いかを評価する。 次に,本研究は,本質的な動機付けの様々な仮説を実装することで,人間の興味ある応答をモデル化する。 人間の反応の最も優れた予測者は、物理的予測損失から派生したモデルである逆報酬である。 また、単純なシーン特徴モデルでは、すべてのシナリオにおける人間の反応の予測を一般化しないことがわかった。 最後に、対角線モデルとシーン内の衝突数とを線形に組み合わせることで、人間の反応の予測能力が最大に向上し、高い情報獲得と身体活動をもたらすシナリオに人間を駆り立てることが示唆される。

Humans are interactive agents driven to seek out situations with interesting physical dynamics. Here we formalize the functional form of physical intrinsic motivation. We first collect ratings of how interesting humans find a variety of physics scenarios. We then model human interestingness responses by implementing various hypotheses of intrinsic motivation including models that rely on simple scene features to models that depend on forward physics prediction. We find that the single best predictor of human responses is adversarial reward, a model derived from physical prediction loss. We also find that simple scene feature models do not generalize their prediction of human responses across all scenarios. Finally, linearly combining the adversarial model with the number of collisions in a scene leads to the greatest improvement in predictivity of human responses, suggesting humans are driven towards scenarios that result in high information gain and physical activity.
翻訳日:2023-05-25 11:04:41 公開日:2023-05-24
# 同時学習による正規化:ホップ分類の事例研究

Regularization Through Simultaneous Learning: A Case Study for Hop Classification ( http://arxiv.org/abs/2305.13447v2 )

ライセンス: Link先を確認
Pedro Henrique Nascimento Castro, Gabriel C\'assia Fortuna, Rafael Alves Bonfim de Queiroz, Gladston Juliano Prates Moreira and Eduardo Jos\'e da Silva Luz(参考訳) ディープニューラルネットワークにおけるオーバーフィッティングは依然として一般的な課題であり、最適な現実世界のパフォーマンスをもたらす。 正規化手法を採用することは、この課題に対抗し、モデルの一般化を改善する共通の戦略である。 本稿では,移動学習とマルチタスク学習の原則に基づく新たな正規化アプローチである同時学習を,ビール生産の不可欠なコンポーネントであるホップ品種の分類に適用する。 提案手法は,目的のデータセットと相乗効果の補助的データセットのパワーを利用して,関連性の高い特徴の獲得を増幅する。 モデルの最終層の戦略的変更により、異なるタスクとして扱うことなく、両方のデータセットを同時に分類することが可能となる。 これを実現するために,グループ間ペナルティを含む損失関数を定式化する。 InceptionV3 と ResNet50 モデルを用いて実験を行い,UFOP-HVD ホップ葉のデータセットをターゲットとし,ImageNet と PlantNet を補助データセットとした。 提案手法は, 正規化のないモデルとドロップアウト正規化を採用したモデルと比較して, 精度が5~22ポイント向上した。 さらに,ネットワークの畳み込み層におけるクラス特徴間の相関を解析し,特徴の質を評価するために考案された解釈可能性の手法を提案する。

Overfitting remains a prevalent challenge in deep neural networks, leading to suboptimal real-world performance. Employing regularization techniques is a common strategy to counter this challenge, improving model generalization. This paper proposes Simultaneous Learning, a novel regularization approach drawing on Transfer Learning and Multi-task Learning principles, applied specifically to the classification of hop varieties - an integral component of beer production. Our approach harnesses the power of auxiliary datasets in synergy with the target dataset to amplify the acquisition of highly relevant features. Through a strategic modification of the model's final layer, we enable the simultaneous classification of both datasets without the necessity to treat them as disparate tasks. To realize this, we formulate a loss function that includes an inter-group penalty. We conducted experimental evaluations using the InceptionV3 and ResNet50 models, designating the UFOP-HVD hop leaf dataset as the target and ImageNet and PlantNet as auxiliary datasets. Our proposed method exhibited a substantial performance advantage over models without regularization and those adopting dropout regularization, with accuracy improvements ranging from 5 to 22 percentage points. Additionally, we introduce a technique for interpretability devised to assess the quality of features by analyzing correlations among class features in the network's convolutional layers.
翻訳日:2023-05-25 11:04:27 公開日:2023-05-24
# 大規模視覚表現学習の効率化

Efficient Large-Scale Vision Representation Learning ( http://arxiv.org/abs/2305.13399v2 )

ライセンス: Link先を確認
Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin Mejran, Vaibhav Malpani and Mahir Yavuz(参考訳) 本稿では,単一モダリティ視覚表現学習へのアプローチについて述べる。 製品コンテンツのビジョン表現を理解することは、eコマースにおけるレコメンデーション、検索、広告アプリケーションにとって不可欠である。 我々は、畳み込みニューラルネットワークと視覚変換器ファミリーの両方において、複数の事前学習されたバックボーンアーキテクチャを含む、低リソース環境下で、大規模視覚表現学習モデルを効率的にチューニングするための技術の詳細とコントラストについて述べる。 大規模なeコマースアプリケーションの課題を強調し、視覚的な表現をより効率的に訓練し、評価し、提供する取り組みを強調します。 我々は,視覚的に類似した広告レコメンデーションを含むいくつかの下流タスクに対するアブレーション研究を行う。 下流タスクにおける視覚表現のオフライン性能を評価する。 そこで本研究では,視覚的に類似したレコメンデーションシステムのためのテキスト対画像生成オフライン評価手法を提案する。 最後に、etsyにデプロイされた機械学習システムのオンライン結果を含める。

In this article, we present our approach to single-modality vision representation learning. Understanding vision representations of product content is vital for recommendations, search, and advertising applications in e-commerce. We detail and contrast techniques used to fine tune large-scale vision representation learning models in an efficient manner under low-resource settings, including several pretrained backbone architectures, both in the convolutional neural network as well as the vision transformer family. We highlight the challenges for e-commerce applications at-scale and highlight the efforts to more efficiently train, evaluate, and serve visual representations. We present ablation studies for several downstream tasks, including our visually similar ad recommendations. We evaluate the offline performance of the derived visual representations in downstream tasks. To this end, we present a novel text-to-image generative offline evaluation method for visually similar recommendation systems. Finally, we include online results from deployed machine learning systems in production at Etsy.
翻訳日:2023-05-25 11:04:07 公開日:2023-05-24
# ディープニューラルネットワークによる多次元関数データのマルチクラス分類

Multiclass classification for multidimensional functional data through deep neural networks ( http://arxiv.org/abs/2305.13349v2 )

ライセンス: Link先を確認
Shuoyang Wang, Guanqun Cao(参考訳) 多次元領域上の関数観測の本質的に無限次元の特徴は、標準分類法を効果的に適用不能にする。 そこで本研究では,革新的なデータマイニング・分類ツールとして,mfdnn(multiclass functional deep neural network)分類器を提案する。 具体的には,整流子線形単位(relu)アクティベーション関数を持つ疎深層ニューラルネットワークアーキテクチャを検討し,マルチクラス分類におけるクロスエントロピー損失を最小化する。 このニューラルネットワークアーキテクチャは、実装に現代的な計算ツールを使用することができます。 誤分類リスク関数の収束率は、全観測データと離散観測された多次元関数データの両方に対しても導出される。 シミュレーションデータと異なるアプリケーションドメインのベンチマークデータセットにおけるmfDNNの性能を示す。

The intrinsically infinite-dimensional features of the functional observations over multidimensional domains render the standard classification methods effectively inapplicable. To address this problem, we introduce a novel multiclass functional deep neural network (mfDNN) classifier as an innovative data mining and classification tool. Specifically, we consider sparse deep neural network architecture with rectifier linear unit (ReLU) activation function and minimize the cross-entropy loss in the multiclass classification setup. This neural network architecture allows us to employ modern computational tools in the implementation. The convergence rates of the misclassification risk functions are also derived for both fully observed and discretely observed multidimensional functional data. We demonstrate the performance of mfDNN on simulated data and several benchmark datasets from different application domains.
翻訳日:2023-05-25 11:03:53 公開日:2023-05-24
# Adaptive Chameleon or Stubborn Sloth:知識クラッシュにおける大規模言語モデルの振る舞いの解明

Adaptive Chameleon or Stubborn Sloth: Unraveling the Behavior of Large Language Models in Knowledge Clashes ( http://arxiv.org/abs/2305.13300v2 )

ライセンス: Link先を確認
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su(参考訳) 大規模言語モデル(LLM)に外部情報を提供することにより、LLMの静的パラメトリックメモリの限界に対処するための有望なソリューションとしてツール拡張(検索拡張を含む)が登場した。 しかし、その証拠がパラメトリックメモリと矛盾する場合、LCMはこのような外部証拠に対してどの程度受容的か? 知識衝突に遭遇したLLMの行動に関する包括的かつ制御された最初の調査について述べる。 本研究では,LLMから高品質なパラメトリックメモリを抽出し,対応する対向メモリを構築するための体系的枠組みを提案する。 本研究は, LLMの動作に矛盾すると思われることが判明した。 一方, 従来の知恵とは違って, LLM は, パラメトリックメモリと矛盾する場合であっても, 外部の証拠が一貫性があり, 説得力があることを考えると, 外部の証拠に対して高い受容性を持つことがわかった。 一方、LCMは、矛盾する証拠を同時に提示されているにもかかわらず、外部証拠がパラメトリックメモリと整合した情報を含む場合、強い確証バイアスを示す。 これらの結果は,ツールおよび検索拡張LDMのさらなる開発と展開に注意すべき重要な意味を持つ。

By providing external information to large language models (LLMs), tool augmentation (including retrieval augmentation) has emerged as a promising solution for addressing the limitations of LLMs' static parametric memory. However, how receptive are LLMs to such external evidence, especially when the evidence conflicts with their parametric memory? We present the first comprehensive and controlled investigation into the behavior of LLMs when encountering knowledge conflicts. We propose a systematic framework to elicit high-quality parametric memory from LLMs and construct the corresponding counter-memory, which enables us to conduct a series of controlled experiments. Our investigation reveals seemingly contradicting behaviors of LLMs. On the one hand, different from prior wisdom, we find that LLMs can be highly receptive to external evidence even when that conflicts with their parametric memory, given that the external evidence is coherent and convincing. On the other hand, LLMs also demonstrate a strong confirmation bias when the external evidence contains some information that is consistent with their parametric memory, despite being presented with conflicting evidence at the same time. These results pose important implications that are worth careful consideration for the further development and deployment of tool- and retrieval-augmented LLMs.
翻訳日:2023-05-25 11:03:41 公開日:2023-05-24
# 高異方性雑音感度を有するゲルマニウムホールスピン量子ビットのスイートスポット動作

Sweet-spot operation of a germanium hole spin qubit with highly anisotropic noise sensitivity ( http://arxiv.org/abs/2305.13150v2 )

ライセンス: Link先を確認
N.W. Hendrickx, L. Massai, M. Mergenthaler, F. Schupp, S. Paredes, S.W. Bedell, G. Salis, and A. Fuhrer(参考訳) 価バンドホール状態によって定義されるスピン量子ビットは、高速でスケーラブルな量子ビット制御を可能にする電場に固有の結合のため、量子情報処理の魅力的な候補である。 特に、ゲルマニウムの重孔は、高速かつ高忠実な量子ビット演算の最近の実証で大きな可能性を示してきた。 しかし、クビット駆動とデコヒーレンスを弱めるメカニズムと異方性はほとんど不明である。 ここでは,高異方性のヘビーホールである$g$-tensor とその電界依存性について報告し,$g$-tensor の電気変調とqubit 駆動とデコヒーレンスの両方を関連付けることができた。 また、予測されたIsing型超微細相互作用も確認するが、量子コヒーレンスが最終的に1/f$の電荷雑音によって制限されることを示す。 最後に、量子ビットを低磁場で操作し、単一量子ビットゲートの忠実度を99.94 %維持しながら、$t_2^*=9.2$$$${\mu}$sの低下時間を測定する。

Spin qubits defined by valence band hole states comprise an attractive candidate for quantum information processing due to their inherent coupling to electric fields enabling fast and scalable qubit control. In particular, heavy holes in germanium have shown great promise, with recent demonstrations of fast and high-fidelity qubit operations. However, the mechanisms and anisotropies that underlie qubit driving and decoherence are still mostly unclear. Here, we report on the highly anisotropic heavy-hole $g$-tensor and its dependence on electric fields, allowing us to relate both qubit driving and decoherence to an electric modulation of the $g$-tensor. We also confirm the predicted Ising-type hyperfine interaction but show that qubit coherence is ultimately limited by $1/f$ charge noise. Finally, we operate the qubit at low magnetic field and measure a dephasing time of $T_2^*=9.2$ ${\mu}$s, while maintaining a single-qubit gate fidelity of 99.94 %, that remains well above 99 % at an operation temperature T>1 K. This understanding of qubit driving and decoherence mechanisms are key for the design and operation of scalable and highly coherent hole qubit arrays.
翻訳日:2023-05-25 11:03:16 公開日:2023-05-24
# シリコンの電荷ノイズとクロストークに頑健なニューラルネットワーク設計三量子ゲート

Neural-network-designed three-qubit gates robust against charge noise and crosstalk in silicon ( http://arxiv.org/abs/2305.13132v2 )

ライセンス: Link先を確認
David W. Kanaar and J. P. Kestner(参考訳) 半導体量子ドットのスピン量子ビットは量子コンピューティングにとって有望なプラットフォームであるが、大規模システムへのスケールはクロストークと電荷ノイズによって阻害される。 ここでのクロストークは、目標の量子ビットの共鳴回転中のアイドル量子ビットの不要なオフ共振回転を指す。 クロストークとチャージノイズを持つ3ビットシステムでは、2ビットゲートの合成ではなく、1ショットでトフォリゲートなどの3ビットゲートを生成するゲートプロトコルを解析的に生成することは困難である。 そこで、物理インフォームドニューラルネットワークを数値的に最適化し、トフォリ等価ゲートを生成する理論的に堅牢な形状のパルスを生成する。 さらに、ロバストな$\frac{\pi}{2}$$X$とCZゲートもこの研究で示され、電荷ノイズに対してロバストなゲートの普遍的なセットを生成する。 ロバストパルスは、非ローブストパルスの10倍のmVではなく、数mVの電圧における平均準定常変動に対して10^{-3}$の不完全性を維持する。

Spin qubits in semiconductor quantum dots are a promising platform for quantum computing, however scaling to large systems is hampered by crosstalk and charge noise. Crosstalk here refers to the unwanted off-resonant rotation of idle qubits during the resonant rotation of the target qubit. For a three-qubit system with crosstalk and charge noise, it is difficult to analytically create gate protocols that produce three-qubit gates, such as the Toffoli gate, directly in a single shot instead of through the composition of two-qubit gates. Therefore, we numerically optimize a physics-informed neural network to produce theoretically robust shaped pulses that generate a Toffoli-equivalent gate. Additionally, robust $\frac{\pi}{2}$ $X$ and CZ gates are also presented in this work to create a universal set of gates robust against charge noise. The robust pulses maintain an infidelity of $10^{-3}$ for average quasistatic fluctuations in the voltage of up to a few mV instead of tenths of mV for non-robust pulses.
翻訳日:2023-05-25 11:02:53 公開日:2023-05-24
# AVeriTeC: Webによる実世界のクレーム検証のためのデータセット

AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web ( http://arxiv.org/abs/2305.13117v2 )

ライセンス: Link先を確認
Michael Schlichtkrull, Zhijiang Guo, Andreas Vlachos(参考訳) 既存のファクトチェック用のデータセットには、人工的なクレームへの依存、証拠のアノテーションの欠如、中間的推論、クレーム後に公開された証拠など、かなりの制限がある。 本稿では,50の異なる組織によるファクトチェックをカバーする実世界の4,568件の新しいデータセットであるAVeriTeCを紹介する。 それぞれの主張には、オンラインで入手可能な証拠が支持する質問と回答のペアと、証拠が合わさって評決を生成する方法を説明する文書的正当化が注釈されている。 多段階のアノテーションプロセスを通じて、文脈依存、証拠不足、時間的漏洩などの一般的な落とし穴を避け、評決で$\kappa=0.619$という実質的なアノテーション間合意に達する。 我々は,オープンウェブに対する質問回答のステップを通じて,クレームを検証するためのベースラインと評価手法を開発した。

Existing datasets for automated fact-checking have substantial limitations, such as relying on artificial claims, lacking annotations for evidence and intermediate reasoning, or including evidence published after the claim. In this paper we introduce AVeriTeC, a new dataset of 4,568 real-world claims covering fact-checks by 50 different organizations. Each claim is annotated with question-answer pairs supported by evidence available online, as well as textual justifications explaining how the evidence combines to produce a verdict. Through a multi-round annotation process, we avoid common pitfalls including context dependence, evidence insufficiency, and temporal leakage, and reach a substantial inter-annotator agreement of $\kappa=0.619$ on verdicts. We develop a baseline as well as an evaluation scheme for verifying claims through several question-answering steps against the open web.
翻訳日:2023-05-25 11:02:35 公開日:2023-05-24
# マルチキャパシティモデルのワンストップ訓練

One-stop Training of Multiple Capacity Models ( http://arxiv.org/abs/2305.14066v2 )

ライセンス: Link先を確認
Lan Jiang, Haoyang Huang, Dongdong Zhang, Rui Jiang, Furu Wei(参考訳) さまざまな能力を持つトレーニングモデルは、異なるシナリオにデプロイする上で有利である。 高容量モデルはより良いパフォーマンスを提供するが、低容量モデルはトレーニングと推論のために計算リソースを少なくする。 本研究では,高容量・低容量モデルの共同学習のためのワンストップトレーニングフレームワークを提案する。 このフレームワークは、2つの複合モデルアーキテクチャと、TSJT(Two-Stage Joint-Training)と呼ばれるジョイントトレーニングアルゴリズムで構成されている。 複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合し、より高速で効率的な収束をもたらす。 マルチリンガル機械翻訳ベンチマークWMT10の大規模な実験により,本手法は低容量ベースラインモデルより優れ,高容量モデルでは同等あるいは優れた性能が得られることが示された。 特に,本手法が初期訓練過程に大きな影響を与え,より効率的な収束と優れた解法が導かれることを示した。

Training models with varying capacities can be advantageous for deploying them in different scenarios. While high-capacity models offer better performance, low-capacity models require fewer computing resources for training and inference. In this work, we propose a novel one-stop training framework to jointly train high-capacity and low-capactiy models. This framework consists of two composite model architectures and a joint training algorithm called Two-Stage Joint-Training (TSJT). Unlike knowledge distillation, where multiple capacity models are trained from scratch separately, our approach integrates supervisions from different capacity models simultaneously, leading to faster and more efficient convergence. Extensive experiments on the multilingual machine translation benchmark WMT10 show that our method outperforms low-capacity baseline models and achieves comparable or better performance on high-capacity models. Notably, the analysis demonstrates that our method significantly influences the initial training process, leading to more efficient convergence and superior solutions.
翻訳日:2023-05-25 10:55:20 公開日:2023-05-24
# ひずみゲルマニウム二重量子井戸における垂直ゲート定義二重量子ドット

A vertical gate-defined double quantum dot in a strained germanium double quantum well ( http://arxiv.org/abs/2305.14064v2 )

ライセンス: Link先を確認
Hanifa Tidjani, Alberto Tosato, Alexander Ivlev, Corentin D\'eprez, Stefan Oosterhout, Lucas Stehouwer, Amir Sammak, Giordano Scappucci and Menno Veldhorst(参考訳) シリコン-ゲルマニウムヘテロ構造におけるゲート定義量子ドットは、量子計算とシミュレーションのための魅力的なプラットフォームとなっている。 これまでのところ、発展は単一の平面で定義された量子ドットに限られている。 本稿では,複数の量子井戸を持つヘテロ構造を活用し,平面系を超越する手法を提案する。 歪んだゲルマニウム二重量子井戸におけるゲート定義垂直2量子ドットの動作を実証する。 量子輸送測定では、二重量子ドット系に対応する安定性図を観測する。 我々は、近くのゲートとの容量結合を分析し、2つの量子ドットを中央プランジャゲートの下に蓄積する。 位置と推定サイズを抽出し、2つの量子井戸に2つの量子ドットが垂直に積み重ねられていると結論付ける。 課題と機会を議論し、量子コンピューティングと量子シミュレーションの潜在的な応用について概説する。

Gate-defined quantum dots in silicon-germanium heterostructures have become a compelling platform for quantum computation and simulation. Thus far, developments have been limited to quantum dots defined in a single plane. Here, we propose to advance beyond planar systems by exploiting heterostructures with multiple quantum wells. We demonstrate the operation of a gate-defined vertical double quantum dot in a strained germanium double quantum well. In quantum transport measurements we observe stability diagrams corresponding to a double quantum dot system. We analyze the capacitive coupling to the nearby gates and find two quantum dots accumulated under the central plunger gate. We extract the position and estimated size, from which we conclude that the double quantum dots are vertically stacked in the two quantum wells. We discuss challenges and opportunities and outline potential applications in quantum computing and quantum simulation.
翻訳日:2023-05-25 10:55:04 公開日:2023-05-24
# Sparse4D v2: スパースモデルによる経時的核融合

Sparse4D v2: Recurrent Temporal Fusion with Sparse Model ( http://arxiv.org/abs/2305.14018v2 )

ライセンス: Link先を確認
Xuewu Lin, Tianwei Lin, Zixiang Pei, Lichao Huang, Zhizhong Su(参考訳) スパースアルゴリズムは多視点時間知覚タスクに優れた柔軟性を提供する。 本稿では,マルチフレーム特徴サンプリングの帰納形式を実装した時間的融合モジュールを改良したsparse4dの拡張版を提案する。 画像特徴と構造化アンカー特徴を効果的に分離することにより、sparse4dは、時間的特徴の高度に効率的な変換を可能にする。 反復時間融合アプローチは2つの大きな利点をもたらす。 まず、時間的融合の計算複雑性を$o(t)$から$o(1)$に削減し、推論速度とメモリ使用量を大幅に改善する。 第二に、長期情報の融合を可能にし、時間融合によるパフォーマンスの向上がより顕著になる。 提案手法であるSparse4Dv2により,スパース認識アルゴリズムの性能が向上し,nuScenes 3D 検出ベンチマークの最先端結果が得られた。 コードは \url{https://github.com/linxuewu/Sparse4D} で入手できる。

Sparse algorithms offer great flexibility for multi-view temporal perception tasks. In this paper, we present an enhanced version of Sparse4D, in which we improve the temporal fusion module by implementing a recursive form of multi-frame feature sampling. By effectively decoupling image features and structured anchor features, Sparse4D enables a highly efficient transformation of temporal features, thereby facilitating temporal fusion solely through the frame-by-frame transmission of sparse features. The recurrent temporal fusion approach provides two main benefits. Firstly, it reduces the computational complexity of temporal fusion from $O(T)$ to $O(1)$, resulting in significant improvements in inference speed and memory usage. Secondly, it enables the fusion of long-term information, leading to more pronounced performance improvements due to temporal fusion. Our proposed approach, Sparse4Dv2, further enhances the performance of the sparse perception algorithm and achieves state-of-the-art results on the nuScenes 3D detection benchmark. Code will be available at \url{https://github.com/linxuewu/Sparse4D}.
翻訳日:2023-05-25 10:54:54 公開日:2023-05-24
# フレキシブル文法に基づく言語モデルのための制約付きデコーディング

Flexible Grammar-Based Constrained Decoding for Language Models ( http://arxiv.org/abs/2305.13971v2 )

ライセンス: Link先を確認
Saibo Geng, Martin Josifosky, Maxime Peyrard, Robert West(参考訳) LLMは多くのタスクで印象的な数ショットのパフォーマンスを示している。 しかし、情報抽出など複雑な出力構造を確実に生成する上ではまだ苦労している。 この制限は、LLMが微調整なしで、特定の文法に従う構造よりも自由テキストを生成する傾向があるという事実に由来する。 本稿では,形式的な文法制約により復号性を高めることを提案する。 より具体的には、私たちのフレームワークは、Context-Free Grammar(CFG)を前提として、各デコードステップで生成されたトークンが文法生成規則に準拠した有効な継続をもたらすことを保証します。 このプロセスは有効なシーケンスの生成を保証する。 重要なことは、我々のフレームワークは任意のCFGやデコードアルゴリズムと簡単に組み合わせることができる。 我々は,多くのNLPタスクの出力を形式言語として表現できることを示す。 文法における大きなアルファベット (wikidata entities and relations) を含む2つの課題(情報抽出とエンティティの曖昧さ)を用いて実験を行った。 llamaモデルを用いた結果から,文法制約付きデコーディングは非制約型デコーディングを実質的に上回っており,タスク固有の微調整モデルとも競合することがわかった。 これらの結果から,デコード中に文法に基づく制約を統合することは,llmが構造化アウトプットを確実に生成する上で,特にトレーニングデータが不足し,微調整が高価である場合に大きな期待が持てることが示唆された。

LLMs have shown impressive few-shot performance across many tasks. However, they still struggle when it comes to reliably generating complex output structures, such as those required for information extraction. This limitation stems from the fact that LLMs, without fine-tuning, tend to generate free text rather than structures precisely following a specific grammar. In this work, we propose to enrich the decoding with formal grammar constraints. More concretely, given Context-Free Grammar(CFG), our framework ensures that the token generated in each decoding step would lead to a valid continuation compliant with the grammar production rules. This process guarantees the generation of valid sequences. Importantly, our framework can be readily combined with any CFG or decoding algorithm. We demonstrate that the outputs of many NLP tasks can be represented as formal languages, making them suitable for direct use in our framework. We conducted experiments with two challenging tasks involving large alphabets in their grammar (Wikidata entities and relations): information extraction and entity disambiguation. Our results with LLaMA models indicate that grammar-constrained decoding substantially outperforms unconstrained decoding and even competes with task-specific fine-tuned models. These findings suggest that integrating grammar-based constraints during decoding holds great promise in making LLMs reliably produce structured outputs, especially in setting where training data is scarce and fine-tuning is expensive.
翻訳日:2023-05-25 10:54:34 公開日:2023-05-24
# 全分解能反復計数

Full Resolution Repetition Counting ( http://arxiv.org/abs/2305.13778v2 )

ライセンス: Link先を確認
Jianing Li and Bowen Chen and Zhiyong Wang and Honghai Liu(参考訳) 繰り返しアクションのカウントは、クラスに依存しないアクションの繰り返しの数を見積もることを目的としている。 ビデオの様々な長さと繰り返し動作を扱うために、エンドツーエンドのビデオモデルトレーニングにおける最適化の課題として、ダウンサンプリングは最近の最先端の手法で一般的に利用されており、複数の繰り返しサンプルを無視している。 本稿では,オフライン特徴抽出と時間畳み込みネットワークを組み合わせることで,全時間分解視点から繰り返し動作を理解することを試みる。 前回のステップでは,ビデオの長さや動作周波数に関わらず,すべての繰り返しを保存しながら,ダウンサンプリングすることなく繰り返しカウントネットワークをトレーニングすることが可能であり,後段のネットワークでは,全フレームを柔軟かつ動的に拡張した時間的受容野でモデル化し,全繰り返しをグローバルに取得できる。 提案手法は,TransRAC,UCFRep,QUVAの3つの公開データセットにおいて,より優れた,あるいは同等のパフォーマンスが得られることを示す。 この作業がコミュニティに、完全な時間的解決の重要性について考えさせることを期待しています。

Given an untrimmed video, repetitive actions counting aims to estimate the number of repetitions of class-agnostic actions. To handle the various length of videos and repetitive actions, also optimization challenges in end-to-end video model training, down-sampling is commonly utilized in recent state-of-the-art methods, leading to ignorance of several repetitive samples. In this paper, we attempt to understand repetitive actions from a full temporal resolution view, by combining offline feature extraction and temporal convolution networks. The former step enables us to train repetition counting network without down-sampling while preserving all repetition regardless of the video length and action frequency, and the later network models all frames in a flexible and dynamically expanding temporal receptive field to retrieve all repetitions with a global aspect. We experimentally demonstrate that our method achieves better or comparable performance in three public datasets, i.e., TransRAC, UCFRep and QUVA. We expect this work will encourage our community to think about the importance of full temporal resolution.
翻訳日:2023-05-25 10:54:10 公開日:2023-05-24
# VisorGPT: 生成的事前学習による視覚的優先学習

VisorGPT: Learning Visual Prior via Generative Pre-Training ( http://arxiv.org/abs/2305.13777v2 )

ライセンス: Link先を確認
Jinheng Xie, Kai Ye, Yudong Li, Yuexiang Li, Kevin Qinghong Lin, Yefeng Zheng, Linlin Shen, Mike Zheng Shou(参考訳) 視覚データ内の様々な物や物は、ディープニューラルネットワークによって学習できる特定の特徴を持ち、モデル内のオブジェクトの位置や形状など、視覚的に先行するものとして暗黙的に表現される。 このような事前処理は多くの視覚タスクに影響を与える可能性がある。 例えば、条件付き画像合成では、事前に固執しない空間条件は、視覚的に不正確な合成結果をもたらす。 この作業は、視覚的事前学習とサンプリングのカスタマイズを可能にすることを目的としている。 言語モデリングの進歩に触発されて、私たちはVisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通してビジュアル・プレトレーニングを学ぶことを提案する。 例えば、バウンディングボックス、人間のポーズ、インスタンスマスクなど、オブジェクトの視覚的な位置をシーケンスに識別することで、最大化によるモデルの事前設定が可能になる。 さらに、様々な視覚的位置を統一し、学習前の逐次的な出力のサンプリングをカスタマイズできるようにする。 実験の結果,制御ネットのような条件付き画像合成モデルに対して,正確な人間のポーズをカスタマイズするなど,視覚的なタスクの多くに使用できる視覚的事前を効果的にモデル化できることが示されている。 コードはhttps://github.com/Sierkinhane/VisorGPTでリリースされる。

Various stuff and things in visual data possess specific traits, which can be learned by deep neural networks and are implicitly represented as the visual prior, \emph{e.g.,} object location and shape, in the model. Such prior potentially impacts many vision tasks. For example, in conditional image synthesis, spatial conditions failing to adhere to the prior can result in visually inaccurate synthetic results. This work aims to explicitly learn the visual prior and enable the customization of sampling. Inspired by advances in language modeling, we propose to learn Visual prior via Generative Pre-Training, dubbed VisorGPT. By discretizing visual locations of objects, \emph{e.g.,} bounding boxes, human pose, and instance masks, into sequences, \our~can model visual prior through likelihood maximization. Besides, prompt engineering is investigated to unify various visual locations and enable customized sampling of sequential outputs from the learned prior. Experimental results demonstrate that \our~can effectively model the visual prior, which can be employed for many vision tasks, such as customizing accurate human pose for conditional image synthesis models like ControlNet. Code will be released at https://github.com/Sierkinhane/VisorGPT.
翻訳日:2023-05-25 10:53:48 公開日:2023-05-24
# オンポリシー強化学習によるオークション型レコメンダシステムの長期的価値最適化

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning ( http://arxiv.org/abs/2305.13747v2 )

ライセンス: Link先を確認
Ruiyang Xu, Jalaj Bhandari, Dmytro Korenkevych, Fan Liu, Yuchen He, Alex Nikulkov, Zheqing Zhu(参考訳) オークションベースのレコメンデーターシステムはオンライン広告プラットフォームで一般的であるが、通常、ユーザの行動に対するレコメンデーションの下流効果を無視して、すぐに期待されるリターン指標に基づいてレコメンデーションスロットを割り当てるように最適化されている。 本研究では,オークションベースのレコメンデーションシステムにおいて,長期リターン指標の最適化に強化学習を用いる。 基本強化学習アルゴリズムである時間差学習を用いて,長期ユーザエンゲージメント指標の高いレコメンデーションに向けてシステムをバイアスする1段階のポリシー改善手法を実装した。 これはオークションフレームワークとの互換性を維持しながら、長期にわたって価値を最適化する。 提案手法は,提案手法が既存のオークションベースポリシーを有効に改善することを示す動的プログラミングの考え方に基づいている。 オークションベースのレコメンデーションシステムで実施したオンラインA/Bテストを通じて,提案手法がユーザエンゲージメントの長期指標において,現在の生産システムより優れていることを実証的に証明した。

Auction-based recommender systems are prevalent in online advertising platforms, but they are typically optimized to allocate recommendation slots based on immediate expected return metrics, neglecting the downstream effects of recommendations on user behavior. In this study, we employ reinforcement learning to optimize for long-term return metrics in an auction-based recommender system. Utilizing temporal difference learning, a fundamental reinforcement learning algorithm, we implement an one-step policy improvement approach that biases the system towards recommendations with higher long-term user engagement metrics. This optimizes value over long horizons while maintaining compatibility with the auction framework. Our approach is grounded in dynamic programming ideas which show that our method provably improves upon the existing auction-based base policy. Through an online A/B test conducted on an auction-based recommender system which handles billions of impressions and users daily, we empirically establish that our proposed method outperforms the current production system in terms of long-term user engagement metrics.
翻訳日:2023-05-25 10:53:26 公開日:2023-05-24
# LogicLLM:大規模言語モデルのための自己教師型論理強化トレーニング

LogicLLM: Exploring Self-supervised Logic-enhanced Training for Large Language Models ( http://arxiv.org/abs/2305.13718v2 )

ライセンス: Link先を確認
Fangkai Jiao, Zhiyang Teng, Shafiq Joty, Bosheng Ding, Aixin Sun, Zhengyuan Liu, Nancy F. Chen(参考訳) 言語モデルの論理的推論能力を改善する努力は、主に教師付き微調整に依存し、新しいドメインやタスクへの一般化を妨げる。 LLM(Large Langauge Models)の開発は、豊富な知識を単一のプロキシに圧縮する能力を示し、複数のタスクに効果的に取り組むことができる。 予備実験では, LLMは論理的推論の能力を示していない。 論理推論ベンチマークにおけるllmsのパフォーマンスは、既存の最先端のベースラインよりもはるかに低い。 本稿では,自己教師付きポストトレーニングを通じて論理知識を組み込むことの実現可能性について検討し,論理LLM(LogicLLM)と呼ぶコンテキスト内学習を通じてそれを活性化する試みを行う。 具体的には、自動回帰客観的なMERItを考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの難解な論理推論ベンチマークの結果は、logicllmの有効性を示している。 さらに,論理指向プロキシタスクの設計における重要な要因を分析するために,広範なアブレーション研究を行う。

Existing efforts to improve logical reasoning ability of language models have predominantly relied on supervised fine-tuning, hindering generalization to new domains and/or tasks. The development of Large Langauge Models (LLMs) has demonstrated the capacity of compressing abundant knowledge into a single proxy, enabling them to tackle multiple tasks effectively. Our preliminary experiments, nevertheless, show that LLMs do not show capability on logical reasoning. The performance of LLMs on logical reasoning benchmarks is far behind the existing state-of-the-art baselines. In this paper, we make the first attempt to investigate the feasibility of incorporating logical knowledge through self-supervised post-training, and activating it via in-context learning, which we termed as LogicLLM. Specifically, we devise an auto-regressive objective variant of MERIt and integrate it with two LLM series, i.e., FLAN-T5 and LLaMA, with parameter size ranging from 3 billion to 13 billion. The results on two challenging logical reasoning benchmarks demonstrate the effectiveness of LogicLLM. Besides, we conduct extensive ablation studies to analyze the key factors in designing logic-oriented proxy tasks.
翻訳日:2023-05-25 10:53:06 公開日:2023-05-24
# IdEALS: 言語スキル向上のための慣用表現

IdEALS: Idiomatic Expressions for Advancement of Language Skills ( http://arxiv.org/abs/2305.13637v2 )

ライセンス: Link先を確認
Narutatsu Ri, Bill Sun, Sam Davidson, Zhou Yu(参考訳) 文法的誤り訂正法(GEC)の開発において顕著な進展がみられたが, 単語選択の改良は, 語句を先進表現に置き換えることによる文表現性の向上を目立って欠いている。 本稿では,この領域に焦点をあて,学生の文章に慣用表現を取り入れることの課題について検討する。 そこで本研究では,実世界のデータを用いて,広範囲なトレーニングセットと専門家アノテートテストセットをキュレートし,さまざまなアプローチを評価し,その性能を人的専門家と比較する。

Although significant progress has been made in developing methods for Grammatical Error Correction (GEC), addressing word choice improvements has been notably lacking and enhancing sentence expressivity by replacing phrases with advanced expressions is an understudied aspect. In this paper, we focus on this area and present our investigation into the task of incorporating the usage of idiomatic expressions in student writing. To facilitate our study, we curate extensive training sets and expert-annotated testing sets using real-world data and evaluate various approaches and compare their performance against human experts.
翻訳日:2023-05-25 10:52:47 公開日:2023-05-24
# 翻訳とアノテーション融合による低リソースエンティティ認識の改善

Better Low-Resource Entity Recognition Through Translation and Annotation Fusion ( http://arxiv.org/abs/2305.13582v2 )

ライセンス: Link先を確認
Yang Chen, Vedaant Shah, Alan Ritter(参考訳) 事前訓練された多言語モデルにより、言語間移動が大幅に進歩した。 しかし、これらのモデルは、特に事前学習されたデータに表示されていない言語に対して、高リソース言語から低リソース言語に移行する際に、パフォーマンスの差を示すことが多い。 低リソース言語と比較してこれらのモデルの性能が優れていることに感銘を受けて、低リソース言語テキストを低リソース言語に変換し、完全に教師付きモデルを使用してアノテーションを低リソース言語に戻すための高リソース言語に変換する、Translation-and-fusionフレームワークを導入する。 このフレームワークに基づいて,高リソース言語からの予測を融合し,低リソース言語で堅牢な予測を行うように訓練されたモデルであるtransfusionを提案する。 提案手法は,25言語をカバーする低リソースなエンティティ認識(NER)データセットである MasakhaNER2.0 と LORELEI NER を用いて評価し,英語の微調整システムに対して+16F$_1$まで改善し,トランスレート・トレインシステムと比較して最先端性能を実現した。 本分析では,翻訳誤りやソース言語の予測誤りに頑健なTransFusion法と,適応型多言語言語モデルに補完するTransFusion法の特徴について述べる。

Pre-trained multilingual language models have enabled significant advancements in cross-lingual transfer. However, these models often exhibit a performance disparity when transferring from high-resource languages to low-resource languages, especially for languages that are underrepresented or not in the pre-training data. Motivated by the superior performance of these models on high-resource languages compared to low-resource languages, we introduce a Translation-and-fusion framework, which translates low-resource language text into a high-resource language for annotation using fully supervised models before fusing the annotations back into the low-resource language. Based on this framework, we present TransFusion, a model trained to fuse predictions from a high-resource language to make robust predictions on low-resource languages. We evaluate our methods on two low-resource named entity recognition (NER) datasets, MasakhaNER2.0 and LORELEI NER, covering 25 languages, and show consistent improvement up to +16 F$_1$ over English fine-tuning systems, achieving state-of-the-art performance compared to Translate-train systems. Our analysis depicts the unique advantages of the TransFusion method which is robust to translation errors and source language prediction errors, and complimentary to adapted multilingual language models.
翻訳日:2023-05-25 10:52:35 公開日:2023-05-24
# アンカー予測:インターネットリンクの自動リファインメント

Anchor Prediction: Automatic Refinement of Internet Links ( http://arxiv.org/abs/2305.14337v2 )

ライセンス: Link先を確認
Nelson F. Liu and Kenton Lee and Kristina Toutanova(参考訳) インターネットリンクにより、ユーザーは関連する情報に便利なアクセスを提供することで、トピックの理解を深めることができる。 しかし、ほとんどのリンクは未登録であり、ターゲットWebページ全体をリンクしており、読者はリンクのソースコンテキストに対する理解を深めるターゲットWebページの特定の部分のローカライズにかなりの労力を費やす可能性がある。 本稿では,リンクされたWebページの情報を効果的に見つけるために,リンクされたターゲットWebページの特定の部分を特定することを目的として,アンカー予測のタスクを導入する。 我々は,ソース記事の著者による関連性判断を反映した34kのアンカーリンクのコレクションであるauthoranchorsデータセットをリリースする。 読者関連判断をモデル化するために、読者が有用なアンカーの評価セットであるReaderAnchorsを注釈してリリースする。 分析の結果、効果的なアンカー予測では、長いソースとターゲットwebページを同時に推論し、暗黙の関係を判断し、関連するが冗長ではないターゲットwebページの一部を特定することがしばしば求められている。 我々は、タスクのベースライン性能を確立するために、パフォーマンスの高いT5ベースのランキング手法をベンチマークし、改善の余地を十分に見つける。

Internet links enable users to deepen their understanding of a topic by providing convenient access to related information. However, the majority of links are unanchored -- they link to a target webpage as a whole, and readers may expend considerable effort localizing the specific parts of the target webpage that enrich their understanding of the link's source context. To help readers effectively find information in linked webpages, we introduce the task of anchor prediction, where the goal is to identify the specific part of the linked target webpage that is most related to the source linking context. We release the AuthorAnchors dataset, a collection of 34K naturally-occurring anchored links, which reflect relevance judgments by the authors of the source article. To model reader relevance judgments, we annotate and release ReaderAnchors, an evaluation set of anchors that readers find useful. Our analysis shows that effective anchor prediction often requires jointly reasoning over lengthy source and target webpages to determine their implicit relations and identify parts of the target webpage that are related but not redundant. We benchmark a performant T5-based ranking approach to establish baseline performance on the task, finding ample room for improvement.
翻訳日:2023-05-25 10:46:51 公開日:2023-05-24
# ChatCoT: チャットベースの大規模言語モデルに基づくツール拡張型Chain-of-Thought Reasoning

ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models ( http://arxiv.org/abs/2305.14323v2 )

ライセンス: Link先を確認
Zhipeng Chen, Kun Zhou, Beichen Zhang, Zheng Gong, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 大規模言語モデル(llm)は様々な評価ベンチマークで優れた性能を達成しているが、特定の知識とマルチホップ推論を必要とする複雑な推論タスクにはまだ苦労している。 推論能力を向上させるために,チャットベースのLLMのためのツール拡張チェーン推論フレームワークである \textbf{ChatCoT} を提案する。 ChatCoTでは、チャットを通じてより自然な方法でツールを活用するために、マルチターン会話として思考の連鎖(CoT)推論をモデル化します。 各ターンで、LSMはツールと対話するか、推論を実行することができる。 提案手法は,チャットベースのLLMのマルチターン会話能力を効果的に活用し,思考連鎖とツール操作を統一的に統合する。 特に、ツールやタスク、推論形式によって会話の初期のターンを初期化し、ステップバイステップのツールによる推論を実行するための反復的な \emph{tool-augmented reasoning} ステップを提案する。 2つの複雑な推論データセット(MATHとHotpotQA)の実験結果は、ChatCoTが複雑な推論タスクに与える影響を示し、最先端のベースラインに対して6.8倍の相対的な改善を実現している。 私たちのコードとデータは、 \url{https://github.com/rucaibox/chatcot} で利用可能です。

Although large language models (LLMs) have achieved excellent performance in a variety of evaluation benchmarks, they still struggle in complex reasoning tasks which require specific knowledge and multi-hop reasoning. To improve the reasoning abilities, we propose \textbf{ChatCoT}, a tool-augmented chain-of-thought reasoning framework for chat-based LLMs. In ChatCoT, we model the chain-of-thought~(CoT) reasoning as multi-turn conversations, to utilize tools in a more natural way through chatting. At each turn, LLMs can either interact with tools or perform the reasoning. Our approach can effectively leverage the multi-turn conversation ability of chat-based LLMs, and integrate the thought chain following and tools manipulation in a unified way. Specially, we initialize the early turns of the conversation by the tools, tasks and reasoning format, and propose an iterative \emph{tool-augmented reasoning} step to perform step-by-step tool-augmented reasoning. The experiment results on two complex reasoning datasets (MATH and HotpotQA) have shown the effectiveness of ChatCoT on complex reasoning tasks, achieving a 6.8\% relative improvement over the state-of-the-art baseline. Our code and data are available at: \url{https://github.com/RUCAIBOX/ChatCoT}.
翻訳日:2023-05-25 10:46:29 公開日:2023-05-24
# DUBLIN -- 言語画像ネットワークによる文書理解

DUBLIN -- Document Understanding By Language-Image Network ( http://arxiv.org/abs/2305.14218v2 )

ライセンス: Link先を確認
Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary(参考訳) 視覚的文書理解は、文書画像中のテキストとビジュアル要素の両方を分析する複雑なタスクである。 既存のモデルは、しばしば手動の機能エンジニアリングやドメイン固有のパイプラインに依存しており、異なるドキュメントタイプや言語での一般化能力を制限する。 本稿では,文書画像の空間的情報と意味的情報の両方を活用する,masked Document Content Generation Task,Bunding Box Task,Rendered Question Answering Taskの3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。 本モデルは,webベースの構造的読解,文書の視覚的質問応答,キー情報抽出,ダイアグラム理解,テーブル質問応答など,いくつかのベンチマークにおいて,競争的あるいは最先端的な結果を達成する。 特に, DUBLIN は WebSRC データセット上で 77.75 と 84.25 の EM を達成する最初のピクセルベースモデルであることを示す。 また,本モデルでは,DocVQAおよびAI2Dデータセットにおいて,現行の画素ベースSoTAモデルよりも2%,21%優れていた。 また、DUBLINは、セマンティックエンティティ認識のためのXFUNDデータセット上のテキストベースのSoTAメソッドに匹敵するパフォーマンスを達成する最初のピクセルベースモデルである。 さらに、文書画像としてレンダリングすることでテキストベースのデータセットの新しいベースラインを作成し、この方向の研究を促進する。

Visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document types and languages. In this paper, we propose DUBLIN, which is pretrained on web pages using three novel objectives: Masked Document Content Generation Task, Bounding Box Task, and Rendered Question Answering Task, that leverage both the spatial and semantic information in the document images. Our model achieves competitive or state-of-the-art results on several benchmarks, such as Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding, and Table Question Answering. In particular, we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75 and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms the current pixel-based SoTA models on DocVQA and AI2D datasets by 2% and 21%, respectively. Also, DUBLIN is the first ever pixel-based model which achieves comparable performance to text-based SoTA methods on XFUND dataset for Semantic Entity Recognition showcasing its multilingual capability. Moreover, we create new baselines for text-based datasets by rendering them as document images to promote research in this direction.
翻訳日:2023-05-25 10:46:05 公開日:2023-05-24
# GPTはいくつあるか? 人間のデモグラフィーデータを用いた言語モデル評価のためのHumBELフレームワーク

How Old is GPT?: The HumBEL Framework for Evaluating Language Models using Human Demographic Data ( http://arxiv.org/abs/2305.14195v2 )

ライセンス: Link先を確認
Anthony Sicilia, Jennifer C. Gates, and Malihe Alikhani(参考訳) 大規模な事前学習型言語モデル(LM)は、NLP全体にわたって広く使用されるが、既存の評価プロトコルでは、LM言語の使用が特定の人間の人口統計群とどのように一致しているかは考慮していない。 このギャップを補うために、人間のサブ人口と比較し、LM言語スキルをどのように測定するかを検討する。 本稿では,(人間)年齢によって組織される言語スキル獲得基準が確立された音声言語病理からの臨床技術を提案する。 ドメインの専門家(すなわち臨床ライセンスの言語病理学者)による評価を行い、また、大規模に臨床評価を代用する自動化手法を提案する。 gpt-3.5では,単語の意味を推測する必要のあるタスクにおいて,典型的な6~9歳児の能力を模倣し,記憶時では21歳児を上回っていた。 GPT-3.5(InstructGPT)も社会語の使用に支障を来しており、テストされた実用的スキルの50%以下である。 特定の単語のパート・オブ・音声や連想的な単語関係を理解する際の誤りを示す。 最終的には、これらのモデルをパブリックなツールとして使用する場合、人口統計アライメントと会話目標を検討することの重要性を再考する。 私たちのフレームワークはコード、データ、pythonパッケージを通じて公開されます。

While large pre-trained language models (LMs) find greater use across NLP, existing evaluation protocols do not consider how LM language use aligns with particular human demographic groups, which can be an important consideration in conversational AI applications. To remedy this gap, we consider how LM language skills can be measured and compared to human sub-populations. We suggest clinical techniques from Speech Language Pathology, which has well-established norms for acquisition of language skills, organized by (human) age. We conduct evaluation with a domain expert (i.e., a clinically licensed speech language pathologist), and also propose automated techniques to substitute clinical evaluation at scale. We find LM capability varies widely depending on task with GPT-3.5 mimicking the ability of a typical 6-9 year old at tasks requiring inference about word meanings and simultaneously outperforming a typical 21 year old at memorization. GPT-3.5 (InstructGPT) also has trouble with social language use, exhibiting less than 50\% of the tested pragmatic skills. It shows errors in understanding particular word parts-of-speech and associative word relations, among other lexical features. Ultimately, findings reiterate the importance of considering demographic alignment and conversational goals when using these models as public-facing tools. Our framework will be publicly available via code, data, and a python package.
翻訳日:2023-05-25 10:45:41 公開日:2023-05-24
# DetGPT: 推論で必要なものを検出する

DetGPT: Detect What You Need via Reasoning ( http://arxiv.org/abs/2305.14167v2 )

ライセンス: Link先を確認
Renjie Pi, Jiahui Gao, Shizhe Diao, Rui Pan, Hanze Dong, Jipeng Zhang, Lewei Yao, Jianhua Han, Hang Xu, Lingpeng Kong, Tong Zhang(参考訳) 近年,大規模言語モデル(LLM)の開発により,コンピュータビジョンの分野が大幅に進歩している。 これらのモデルは、人間と機械の間のより効果的で洗練された相互作用を可能にし、人間と機械の知性の境界を曖昧にする新しいテクニックの道を開いた。 本稿では、推論に基づくオブジェクト検出と呼ばれるオブジェクト検出の新しいパラダイムを提案する。 特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能であり,対話性が向上する。 提案手法はdetgptと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を用いて,ユーザの指示と視覚シーンのコンテキスト内で推論を行う。 これにより、明示的に言及されていないオブジェクトであっても、ユーザの表現された要求に基づいて、DetGPTが自動的に関心の対象を特定できる。 例えば、ユーザーが冷たい飲み物を欲しがっている場合、DetGPTはイメージを分析し、冷蔵庫を特定し、典型的な冷蔵庫の内容の知識を使って飲み物を見つけることができる。 この柔軟性により、ロボット工学や自動化から自動運転まで、幅広い分野に適用できます。 全体として、提案したパラダイムとDetGPTは、人間と機械間のより洗練された直感的な相互作用の可能性を示している。 提案したパラダイムとアプローチがコミュニティにインスピレーションを与え、よりインタラクティブで多目的なオブジェクト検出システムへの扉を開くことを願っています。 プロジェクトページはdetgpt.github.ioで公開しています。

In recent years, the field of computer vision has seen significant advancements thanks to the development of large language models (LLMs). These models have enabled more effective and sophisticated interactions between humans and machines, paving the way for novel techniques that blur the lines between human and machine intelligence. In this paper, we introduce a new paradigm for object detection that we call reasoning-based object detection. Unlike conventional object detection methods that rely on specific object names, our approach enables users to interact with the system using natural language instructions, allowing for a higher level of interactivity. Our proposed method, called DetGPT, leverages state-of-the-art multi-modal models and open-vocabulary object detectors to perform reasoning within the context of the user's instructions and the visual scene. This enables DetGPT to automatically locate the object of interest based on the user's expressed desires, even if the object is not explicitly mentioned. For instance, if a user expresses a desire for a cold beverage, DetGPT can analyze the image, identify a fridge, and use its knowledge of typical fridge contents to locate the beverage. This flexibility makes our system applicable across a wide range of fields, from robotics and automation to autonomous driving. Overall, our proposed paradigm and DetGPT demonstrate the potential for more sophisticated and intuitive interactions between humans and machines. We hope that our proposed paradigm and approach will provide inspiration to the community and open the door to more interative and versatile object detection systems. Our project page is launched at detgpt.github.io.
翻訳日:2023-05-25 10:45:17 公開日:2023-05-24
# 不均一なモジュラー量子コンピューティングネットワークアーキテクチャ上の分散回路

Distributing circuits over heterogeneous, modular quantum computing network architectures ( http://arxiv.org/abs/2305.14148v2 )

ライセンス: Link先を確認
Pablo Andres-Martinez, Tim Forrer, Daniel Mills, Jun-Yi Wu, Luciana Henaut, Kentaro Yamamoto, Mio Murao, Ross Duncan(参考訳) 我々は,ベル状態を介して疎結合な量子コンピューティングモジュールのヘテロジニアスネットワークを考える。 これらの接続間の操作は計算のボトルネックとなり、モジュール内で実行される操作よりも計算にノイズを加える可能性が高い。 本稿では,上述のタイプのネットワーク上で,与えられた量子回路を1つの実装可能なものに変換する手法をいくつか導入し,そのために必要なベル状態の数を最小化する。 我々は,完全接続ネットワーク上での回路分布に関する先行研究を,異種ネットワークの場合にも拡張する。 一方、[Andres-Martinez & Heunen. 2019] のハイパーグラフアプローチを任意のネットワークトポロジに拡張しています。 また,ネットワーク内での絡み合いの効率的な共有を実現するために,Steiner木を用いて,既存のコネクションを可能な限り頻繁に再利用する。 一方で,[wu, et al. 2022] の埋め込み技術を2つ以上のモジュールを持つネットワークにまで拡張した。 さらに、これら2つの非互換なアプローチをどのように連携させるかについて議論する。 我々の提案は実装され、ベンチマークされ、その結果、2つのアプローチが互いに弱みを補うことが確認された。

We consider a heterogeneous network of quantum computing modules, sparsely connected via Bell states. Operations across these connections constitute a computational bottleneck and they are likely to add more noise to the computation than operations performed within a module. We introduce several techniques for transforming a given quantum circuit into one implementable on a network of the aforementioned type, minimising the number of Bell states required to do so. We extend previous works on circuit distribution over fully connected networks to the case of heterogeneous networks. On the one hand, we extend the hypergraph approach of [Andres-Martinez & Heunen. 2019] to arbitrary network topologies. We additionally make use of Steiner trees to find efficient realisations of the entanglement sharing within the network, reusing already established connections as often as possible. On the other hand, we extend the embedding techniques of [Wu, et al. 2022] to networks with more than two modules. Furthermore, we discuss how these two seemingly incompatible approaches can be made to cooperate. Our proposal is implemented and benchmarked; the results confirming that, when orchestrated, the two approaches complement each other's weaknesses.
翻訳日:2023-05-25 10:44:52 公開日:2023-05-24
# GrACE: 関連コード編集による生成

GrACE: Generation using Associated Code Edits ( http://arxiv.org/abs/2305.14129v2 )

ライセンス: Link先を確認
Priyanshu Gupta, Avishree Khare, Yasharth Bajpai, Saikat Chakraborty, Sumit Gulwani, Aditya Kanade, Arjun Radhakrishna, Gustavo Soares, Ashish Tiwari(参考訳) 開発者はバグ修正や新機能の追加など、さまざまな理由でコードの編集にかなりの時間を費やしている。 コード編集を予測する効果的な方法の設計は、コード編集の多様性と開発者の意図を捉えることの難しさから、活発だが困難な研究領域となっている。 本研究では,事前学習された大言語モデル(LLM)を,事前の関連編集の知識と組み合わせることで,これらの課題に対処する。 LLMの生成能力は、コード変更の多様性に対処し、事前編集でコード生成を条件付けることで、潜んでいる開発者の意図を捉えるのに役立つ。 Codex と CodeT5 の2つの有名な LLM を,ゼロショット設定と微調整設定でそれぞれ評価した。 2つのデータセットを用いて行った実験では、先行編集の知識がLLMの性能を大幅に向上させ、現在最先端のシンボルとニューラルアプローチと比較して、29%と54%の正確な編集コードを生成することができる。

Developers expend a significant amount of time in editing code for a variety of reasons such as bug fixing or adding new features. Designing effective methods to predict code edits has been an active yet challenging area of research due to the diversity of code edits and the difficulty of capturing the developer intent. In this work, we address these challenges by endowing pre-trained large language models (LLMs) of code with the knowledge of prior, relevant edits. The generative capability of the LLMs helps address the diversity in code changes and conditioning code generation on prior edits helps capture the latent developer intent. We evaluate two well-known LLMs, Codex and CodeT5, in zero-shot and fine-tuning settings respectively. In our experiments with two datasets, the knowledge of prior edits boosts the performance of the LLMs significantly and enables them to generate 29% and 54% more correctly edited code in top-1 suggestions relative to the current state-of-the-art symbolic and neural approaches, respectively.
翻訳日:2023-05-25 10:44:36 公開日:2023-05-24
# ベイズ最適化における関連する文脈変数のコスト認識学習

Cost-aware learning of relevant contextual variables within Bayesian optimization ( http://arxiv.org/abs/2305.14120v2 )

ライセンス: Link先を確認
Julien Martinelli, Ayush Bharti, S.T. John, Armi Tiihonen, Sabina Sloman, Louis Filstroff and Samuel Kaski(参考訳) 文脈ベイズ最適化(CBO)は、設計変数に関してブラックボックスで高価な関数を最適化する強力なフレームワークであり、同時に実験条件などの環境に関する関連するコンテキスト情報を統合する。 しかし、多くの実践シナリオにおいて、文脈変数の関連性は必ずしも事前に分かっていない。 さらに、現在のCBOアルゴリズムが考慮していない設定として、コンテキスト変数を自分自身で最適化する場合もある。 文脈変数の最適化はコストがかかるため、最小の関連する部分集合を決定するという問題を引き起こす。 本稿では,この問題をコスト認識型モデル選択boタスクとして捉え,新しい手法である感度分析駆動コンテキストボ(sadcbo)を用いて解決する。 入力点における後方サーロゲートモデルの感度解析によりコンテキスト変数の関連性を学習し,boの早期停止における最近の展開を利用して最適化コストを最小化する。 提案するsacboを合成実験の代替品に対して,広範なアブレーション研究とともに実証的に評価し,実例で一貫した改善を示す。

Contextual Bayesian Optimization (CBO) is a powerful framework for optimizing black-box, expensive-to-evaluate functions with respect to design variables, while simultaneously efficiently integrating relevant contextual information regarding the environment, such as experimental conditions. However, in many practical scenarios, the relevance of contextual variables is not necessarily known beforehand. Moreover, the contextual variables can sometimes be optimized themselves, a setting that current CBO algorithms do not take into account. Optimizing contextual variables may be costly, which raises the question of determining a minimal relevant subset. In this paper, we frame this problem as a cost-aware model selection BO task and address it using a novel method, Sensitivity-Analysis-Driven Contextual BO (SADCBO). We learn the relevance of context variables by sensitivity analysis of the posterior surrogate model at specific input points, whilst minimizing the cost of optimization by leveraging recent developments on early stopping for BO. We empirically evaluate our proposed SADCBO against alternatives on synthetic experiments together with extensive ablation studies, and demonstrate a consistent improvement across examples.
翻訳日:2023-05-25 10:44:21 公開日:2023-05-24
# 基礎モデルを用いた3次元オープン語彙セグメンテーション

3D Open-vocabulary Segmentation with Foundation Models ( http://arxiv.org/abs/2305.14093v2 )

ライセンス: Link先を確認
Kunhao Liu, Fangneng Zhan, Jiahui Zhang, Muyu Xu, Yingchen Yu, Abdulmotaleb El Saddik, Christian Theobalt, Eric Xing, Shijian Lu(参考訳) 3Dシーンのオープンボキャブラリセグメンテーションは人間の知覚の基本的な機能であり、コンピュータビジョン研究において重要な目的である。 しかし、このタスクは、堅牢で一般化可能なモデルをトレーニングするための大規模で多様な3dopen-vocabulary segmentationデータセットの欠如によって大きく妨げられている。 事前訓練された2Dオープン語彙セグメンテーションモデルからの知識の希釈は役立つが、2Dモデルは概ね近接語彙データセットで微調整されているため、オープン語彙の特徴を著しく損なう。 我々は,事前学習された基礎モデル clip と dino のオープンボキャブラリなマルチモーダル知識とオブジェクト推論能力を活用し,微調整を必要とせずに,3次元オープンボキャブラリセグメンテーションの課題に取り組む。 具体的には,CLIPからのオープンボキャブラリ知識とテキスト知識をニューラルラディアンス場(NeRF)に蒸留し,2次元特徴をビュー一貫性の3Dセグメンテーションに効果的に持ち上げる。 さらに,CLIP特徴のあいまいさを軽減し,DINO特徴から正確なオブジェクト境界を抽出し,トレーニング中にセグメンテーションアノテーションを不要にするため,Relevancy-Distribution Alignment LosとFeature-Distriion Alignment Losを導入する。 大規模な実験により,本手法はセグメンテーションアノテーションで訓練した完全教師付きモデルよりも優れており,2次元画像とテキストイメージペアから3次元オープン語彙セグメンテーションを効果的に学習できることが示唆された。

Open-vocabulary segmentation of 3D scenes is a fundamental function of human perception and thus a crucial objective in computer vision research. However, this task is heavily impeded by the lack of large-scale and diverse 3D open-vocabulary segmentation datasets for training robust and generalizable models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature significantly as the 2D models are mostly finetuned with close-vocabulary datasets. We tackle the challenges in 3D open-vocabulary segmentation by exploiting the open-vocabulary multimodal knowledge and object reasoning capability of pre-trained foundation models CLIP and DINO, without necessitating any fine-tuning. Specifically, we distill open-vocabulary visual and textual knowledge from CLIP into a neural radiance field (NeRF) which effectively lifts 2D features into view-consistent 3D segmentation. Furthermore, we introduce the Relevancy-Distribution Alignment loss and Feature-Distribution Alignment loss to respectively mitigate the ambiguities of CLIP features and distill precise object boundaries from DINO features, eliminating the need for segmentation annotations during training. Extensive experiments show that our method even outperforms fully supervised models trained with segmentation annotations, suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs.
翻訳日:2023-05-25 10:44:02 公開日:2023-05-24
# アクセプタビリティの判断を再考する

Revisiting Acceptability Judgements ( http://arxiv.org/abs/2305.14091v2 )

ライセンス: Link先を確認
Hai Hu and Ziyin Zhang and Weifang Huang and Jackie Yan-Ki Lai and Aini Li and Yina Ma and Jiahui Huang and Peng Zhang and Rui Wang(参考訳) NLPコミュニティが言語受容性に注目してから何年も経ちました。 本研究では,この話題を大規模言語モデルの文脈で再検討する。 CoLAC - Corpus of Linguistic Acceptability in Chineseを紹介します。これは、ネイティブスピーカーによって検証され、2つのラベルセットが付属する、最初の大規模非英語アクセプタビリティデータセットです。 実験の結果,最も大きなインストラクトGPTモデルでさえ,CoLAC上では偶然にのみ動作し,ChatGPTの性能(48.30 MCC)は教師付きモデル(59.03 MCC)と人間(65.11 MCC)より低い。 言語受容性に関する知識をタイプ論的に異なる言語間で伝達し,事前学習まで遡ることができることを,言語間伝達実験ときめ細かな言語解析を通じて初めて実証した。

Years have passed since the NLP community has last focused on linguistic acceptability. In this work, we revisit this topic in the context of large language models. We introduce CoLAC - Corpus of Linguistic Acceptability in Chinese, the first large-scale non-English acceptability dataset that is verified by native speakers and comes with two sets of labels. Our experiments show that even the largest InstructGPT model performs only at chance level on CoLAC, while ChatGPT's performance (48.30 MCC) is also way below supervised models (59.03 MCC) and human (65.11 MCC). Through cross-lingual transfer experiments and fine-grained linguistic analysis, we demonstrate for the first time that knowledge of linguistic acceptability can be transferred across typologically distinct languages, as well as be traced back to pre-training.
翻訳日:2023-05-25 10:43:30 公開日:2023-05-24