このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230525となっている論文です。

PDF登録状況(公開日: 20230525)

TitleAuthorsAbstract論文公表日・翻訳日
# 依存関係更新戦略とパッケージ特性

Dependency Update Strategies and Package Characteristics ( http://arxiv.org/abs/2305.15675v1 )

ライセンス: Link先を確認
Abbas Javan Jafari, Diego Elias Costa, Emad Shihab, Rabe Abdalkareem(参考訳) プロジェクト依存関係の管理は、ソフトウェア開発における重要なメンテナンス上の問題である。 開発者は重要なアップデートや修正を受けられるようにアップデート戦略を選択し、変更を壊すのを防ぐ必要がある。 セマンティック・バージョニングはこのジレンマに対処するために提案されたが、多くはより制限的または寛容な代替案を選んだ。 この実証研究は、パッケージの特性と依存関係の更新戦略との関係を調査し、開発者が更新戦略をどのように選択し変更するかを理解する。 我々は112,000以上のnpmパッケージを調査し,19の特性を用いて各パッケージの共通依存関係更新戦略を識別する予測モデルを構築した。 我々のモデルはベースラインよりも72%の最小限の改善を実現し、npmのデフォルト戦略よりもコミュニティの決定に適合する。 パッケージの特性の違いが予測更新戦略にどのように影響するかを考察し,依存数,年齢,リリース状況が最も影響のある機能であることを示す。 我々は,160個のパッケージの質的分析を行い,更新戦略の進化を補完する。 多くのパッケージで共通更新戦略は一貫しているが、バージョン1.0.0のリリースや変更の破壊といった特定のイベントは、時間とともに選択された更新戦略に影響を与える。

Managing project dependencies is a key maintenance issue in software development. Developers need to choose an update strategy that allows them to receive important updates and fixes while protecting them from breaking changes. Semantic Versioning was proposed to address this dilemma but many have opted for more restrictive or permissive alternatives. This empirical study explores the association between package characteristics and the dependency update strategy selected by its dependents to understand how developers select and change their update strategies. We study over 112,000 npm packages and use 19 characteristics to build a prediction model that identifies the common dependency update strategy for each package. Our model achieves a minimum improvement of 72% over the baselines and is much better aligned with community decisions than the npm default strategy. We investigate how different package characteristics can influence the predicted update strategy and find that dependent count, age and release status to be the highest influencing features. We complement the work with qualitative analyses of 160 packages to investigate the evolution of update strategies. While the common update strategy remains consistent for many packages, certain events such as the release of the 1.0.0 version or breaking changes influence the selected update strategy over time.
翻訳日:2023-10-24 05:46:45 公開日:2023-05-25
# energyanalyzer: 静的なwcet解析技術を使って組込みアプリケーションのエネルギー消費量を推定する

EnergyAnalyzer: Using Static WCET Analysis Techniques to Estimate the Energy Consumption of Embedded Applications ( http://arxiv.org/abs/2305.14968v2 )

ライセンス: Link先を確認
Simon Wegener, Kris K. Nikov, Jose Nunez-Yanez, Kerstin Eder(参考訳) 本稿では,静的予測可能なハードウェアイベントに基づいて,組込みソフトウェアのエネルギー消費を推定するコードレベル静的解析ツールであるEnergyAnalyzerを提案する。 このツールは、2つの予測可能なアーキテクチャ(ARM Cortex-M0 と Gaisler LEON3 )で開発された、最悪の実行時間(WCET)分析に使用される技術を利用する。 エネルギーアナライザーは、最適化畳み込みニューラルネットワークの候補の選択、カメラピルのプロトタイプのエネルギー消費量の分析、衛星通信ソフトウェアのエネルギー消費量の分析など、様々なユースケースに応用されている。 このツールはTeamPlayと呼ばれる大きなプロジェクトの一部として開発され、エネルギー特性が第一級市民である組み込みアプリケーションを開発するためのツールチェーンを提供することを目的としており、開発者はソースコードレベルでこれらのプロパティを直接反映することができる。 EnergyAnalyzerの分析能力は、2つのターゲットアーキテクチャに対して多数のベンチマークで検証され、その結果、静的に見積もられたエネルギー消費は、いくつかの例外を除いて、実際のハードウェア上で検証された経験的エネルギーモデルと比較して1%未満の差があることが示されている。

This paper presents EnergyAnalyzer, a code-level static analysis tool for estimating the energy consumption of embedded software based on statically predictable hardware events. The tool utilises techniques usually used for worst-case execution time (WCET) analysis together with bespoke energy models developed for two predictable architectures - the ARM Cortex-M0 and the Gaisler LEON3 - to perform energy usage analysis. EnergyAnalyzer has been applied in various use cases, such as selecting candidates for an optimised convolutional neural network, analysing the energy consumption of a camera pill prototype, and analysing the energy consumption of satellite communications software. The tool was developed as part of a larger project called TeamPlay, which aimed to provide a toolchain for developing embedded applications where energy properties are first-class citizens, allowing the developer to reflect directly on these properties at the source code level. The analysis capabilities of EnergyAnalyzer are validated across a large number of benchmarks for the two target architectures and the results show that the statically estimated energy consumption has, with a few exceptions, less than 1% difference compared to the underlying empirical energy models which have been validated on real hardware.
翻訳日:2023-10-24 05:44:32 公開日:2023-05-25
# ROSバグファイルからの時間ウィンドウROS計算グラフの自動抽出

Automatic Extraction of Time-windowed ROS Computation Graphs from ROS Bag Files ( http://arxiv.org/abs/2305.16405v1 )

ライセンス: Link先を確認
Zhuojun Chen and Michel Albonico and Ivano Malavolta(参考訳) ロボットシステムは異なる環境刺激に反応し、そのようなシステムを制御するソフトウェアを動的に再構成する可能性がある。 このようなダイナミズムの影響の1つは、実行時にシステムを再構成するソフトウェアアーキテクチャの再構成である。 このような再構成は、例えば性能とエネルギー効率の点で、ロボットシステムの実行時特性に大きな影響を及ぼす可能性がある。 ROS \emph{rosbag}パッケージを使うと、開発者はロボットミッションの実行に関連するタイムスタンプされたデータを記録、保存できる。 本研究では, ROS バッグファイルから静的に(時空の)建築情報を抽出する手法について述べる。 提案されたアプローチは、ROSベースのシステムのソフトウェアアーキテクチャ(とランタイム再構成)をよりよく議論し、推論するロボットコミュニティを支援することができる。 我々は4,434のgithubリポジトリから体系的に発掘された数百のros bagファイルに対するアプローチを評価した。

Robotic systems react to different environmental stimuli, potentially resulting in the dynamic reconfiguration of the software controlling such systems. One effect of such dynamism is the reconfiguration of the software architecture reconfiguration of the system at runtime. Such reconfigurations might severely impact the runtime properties of robotic systems, e.g., in terms of performance and energy efficiency. The ROS \emph{rosbag} package enables developers to record and store timestamped data related to the execution of robotic missions, implicitly containing relevant information about the architecture of the monitored system during its execution. In this study, we discuss about our approach for statically extracting (time-windowed) architectural information from ROS bag files. The proposed approach can support the robotics community in better discussing and reasoning the software architecture (and its runtime reconfigurations) of ROS-based systems. We evaluate our approach against hundreds of ROS bag files systematically mined from 4,434 public GitHub repositories.
翻訳日:2023-10-24 05:38:01 公開日:2023-05-25
# 継続的インテグレーションサービスが統合プルリクエストのデリバリ時間に与える影響

The Impact of a Continuous Integration Service on the Delivery Time of Merged Pull Requests ( http://arxiv.org/abs/2305.16365v1 )

ライセンス: Link先を確認
Jo\~ao Helis Bernardo, Daniel Alencar da Costa, Uir\'a Kulesza, Christoph Treude(参考訳) 継続的インテグレーション(継続的インテグレーション、ci)は、ソフトウェアを頻繁にビルドし、テストするソフトウェア開発プラクティスである。 CIを採用する大きな動機の1つは、CIを使用しないよりも、ソフトウェア機能を素早く提供できることである。 しかし、CIがソフトウェア機能の迅速な提供を支援するという実証的な証拠はほとんどない。 87のgithubプロジェクトの162,653プルリクエスト(prs)の分析を通じて、ciサービス(travisci)の採用が統合prの提供時間を短縮できるかどうかを実証的に調査した。 73のソフトウェアプロジェクトの参加者からの450の回答を分析して定量的研究を補完する。 当社の結果から,CIサービスの採用がマージPRのデリバリを迅速化するとは限らないことが分かる。 代わりに、CIサービスの重要な利点は、プロジェクトのレビュアーやメンテナをオーバーロードすることなく、PRの提出に関する意思決定を改善することである。 CIが提供する自動化と開発者の自信の向上は、CIサービスを採用する上で重要なメリットである。 さらに、開発者を引き付けて維持するオープンソースプロジェクトは、ciが貢献障壁を下げる一方で、コントリビューターがより自信を持ってプロジェクトに参加するように感じているため、プロジェクトにおけるciサービスの使用を考慮すべきである。

Continuous Integration (CI) is a software development practice that builds and tests software frequently (e.g., at every push). One main motivator to adopt CI is the potential to deliver software functionalities more quickly than not using CI. However, there is little empirical evidence to support that CI helps projects deliver software functionalities more quickly. Through the analysis of 162,653 pull requests (PRs) of 87 GitHub projects, we empirically study whether adopting a CI service (TravisCI) can quicken the time to deliver merged PRs. We complement our quantitative study by analyzing 450 survey responses from participants of 73 software projects. Our results reveal that adopting a CI service may not necessarily quicken the delivery of merge PRs. Instead, the pivotal benefit of a CI service is to improve the decision making on PR submissions, without compromising the quality or overloading the project's reviewers and maintainers. The automation provided by CI and the boost in developers' confidence are key advantages of adopting a CI service. Furthermore, open-source projects planning to attract and retain developers should consider the use of a CI service in their project, since CI is perceived to lower the contribution barrier while making contributors feel more confident and engaged in the project.
翻訳日:2023-10-24 05:37:45 公開日:2023-05-25
# 人気のgithubリポジトリにおけるワークフローとセキュリティポリシーに関する実証的研究

An Empirical Study on Workflows and Security Policies in Popular GitHub Repositories ( http://arxiv.org/abs/2305.16120v1 )

ライセンス: Link先を確認
Jessy Ayala and Joshua Garcia(参考訳) オープンソースプロジェクトでは、誰でもコントリビュートできるので、特にソフトウェアサプライチェーンに広く使用されているプロジェクトにおいて、セキュリティ上の懸念を報告するためのプロトコルに加えて、アクティブな継続的インテグレーションと継続的デリバリ(CI/CD)パイプラインを持つことが重要です。 これらのプロジェクトの多くはgithubにホストされており、2019年に導入されたgithub actionsを使用して、ソースコードの変更提案を検査し、脆弱性を報告するためのセキュリティポリシを定義することで、メンテナが自動化ワークフローを作成することができる。 我々は、スター数に基づいて、何千もの人気のあるリポジトリでgithubワークフローとセキュリティポリシーの使用率を測定するための実証的な調査を行っています。 トップ1のhundredとトップ1のリポジトリをgithubのトピック181とトップ4,900のリポジトリからクエリした結果、合計173万以上のプロジェクトから、プロジェクトの37%にワークフローが有効になり、7%がセキュリティポリシが設定されていることが分かりました。 GitHub上の34のプログラミング言語のうち、合計2,040のプロジェクトのトップ60リポジトリを使って、プロジェクトの57%がワークフローを有効にし、17%がセキュリティポリシーを定めていることがわかった。 さらに、バグと脆弱性チェックを実行するGitHub CodeQL静的解析をサポートするトップリポジトリからは、有効になったのは13.5%に過ぎません。 これらの結果は、オープンソースプロジェクトのメンテナがワークフローの構成を優先し、可能な限り自動静的解析を可能にし、脆弱性がソースコードに導入または残らないようにセキュリティポリシーを定義するべきであることを強調する。

In open-source projects, anyone can contribute, so it is important to have an active continuous integration and continuous delivery (CI/CD) pipeline in addition to a protocol for reporting security concerns, especially in projects that are widely used and belong to the software supply chain. Many of these projects are hosted on GitHub, where maintainers can create automated workflows using GitHub Actions, introduced in 2019, for inspecting proposed changes to source code and defining a security policy for reporting vulnerabilities. We conduct an empirical study to measure the usage of GitHub workflows and security policies in thousands of popular repositories based on the number of stars. After querying the top one-hundred and top one-thousand repositories from all 181 trending GitHub topics, and the top 4,900 overall repositories, totaling just over 173 thousand projects, we find that 37% of projects have workflows enabled and 7% have a security policy in place. Using the top 60 repositories from each of the 34 most popular programming languages on GitHub, 2,040 projects total, we find that 57% of projects have workflows enabled and 17% have a security policy in place. Furthermore, from those top repositories that have support for GitHub CodeQL static analysis, which performs bug and vulnerability checks, only 13.5% have it enabled; in fact, we find that only 1.7% of the top repositories using Kotlin have an active CodeQL scanning workflow. These results highlight that open-source project maintainers should prioritize configuring workflows, enabling automated static analysis whenever possible, and defining a security policy to prevent vulnerabilities from being introduced or remaining in source code.
翻訳日:2023-10-24 05:36:39 公開日:2023-05-25
# 要求工学における感情:システムマッピング研究

Emotions in Requirements Engineering: A Systematic Mapping Study ( http://arxiv.org/abs/2305.16091v1 )

ライセンス: Link先を確認
Tahira Iqbal, Hina Anwar, Syazwanie Filzah, Mohammad Gharib, Kerli Moose, Kuldar Taveter(参考訳) 要件エンジニアリング(RE)の目的は、ソフトウェアシステムのステークホルダーの期待と要求が確実に満たされるようにすることだ。 感情的な要求は、システムを使用する際にエンドユーザーがどう感じるべきかを表す感情的な要求として捉えられる。 機能的および品質(非機能的)な要件とは違い、感情的な要求はREコミュニティから比較的少ない関心を受けています。 本研究は,感情的要求に関する文献を探索し,地図化することの必要性が動機である。 この研究は、利用可能な文献を調査し分析するための体系的マッピング研究手法を適用し、感情的要求に関する最も関連する出版物を特定する。 工学的感情的要求に関する幅広い実践を扱った34の出版物を特定した。 特定された出版物は、アプリケーションドメイン、感情要求を表すために使用される引用とアーティファクト、感情関連要求工学における実践の状況について分析した。 この分析は、エンジニアリングの感情的要求における研究ギャップと研究方向を特定するのに役立つ。 著者の知識を最大限に活用するため、感情的要求に関する他の同様の研究は行われていない。

The purpose of requirements engineering (RE) is to make sure that the expectations and needs of the stakeholders of a software system are met. Emotional needs can be captured as emotional requirements that represent how the end user should feel when using the system. Differently from functional and quality (non-functional) requirements, emotional requirements have received relatively less attention from the RE community. This study is motivated by the need to explore and map the literature on emotional requirements. The study applies the systematic mapping study technique for surveying and analyzing the available literature to identify the most relevant publications on emotional requirements. We identified 34 publications that address a wide spectrum of practices concerned with engineering emotional requirements. The identified publications were analyzed with respect to the application domains, instruments used for eliciting and artefacts used for representing emotional requirements, and the state of the practice in emotion-related requirements engineering. This analysis serves to identify research gaps and research directions in engineering emotional requirements. To the best of the knowledge by the authors, no other similar study has been conducted on emotional requirements.
翻訳日:2023-10-24 05:36:11 公開日:2023-05-25
# ログ解析がログベース異常検出に及ぼす影響

Impact of Log Parsing on Log-based Anomaly Detection ( http://arxiv.org/abs/2305.15897v1 )

ライセンス: Link先を確認
Zanis Ali Khan, Donghwan Shin, Domenico Bianculli, Lionel Briand(参考訳) ソフトウェアシステムは大量のデータをログし、重要な実行時情報を記録します。 例えばログベースの異常検出では、ログに記録された情報を処理することで、分析中のシステムの異常動作を自動的に検出することを目的としている。 ディープラーニングモデルに基づくログベースの異常検出技術の多くは、ログ解析と呼ばれる前処理ステップを含む。 しかし,ログ解析が異常検出手法の精度に与える影響を理解することは,これまでほとんど注目されていない。 それゆえ、ログ解析のテクニックは、異常検出を助けるのに理想的に必要である。 本稿では,ログ解析が異常検出精度に与える影響に関する総合的研究について,13のログ解析手法と5つのディープラーニングに基づく異常検出手法を用いて報告する。 以上の結果から,ログ解析精度と異常検出精度との間には強い相関性は認められなかった(ログ解析精度の測定に使用される指標は別として)。 さらに, 従来の理論結果から, 正確な異常検出を行う上で重要な役割を担う精度に対して, ログ解析結果の識別可能性を示す性質を実験的に検証した。

Software systems log massive amounts of data, recording important runtime information. Such logs are used, for example, for log-based anomaly detection, which aims to automatically detect abnormal behaviors of the system under analysis by processing the information recorded in its logs. Many log-based anomaly detection techniques based on deep-learning models include a pre-processing step called log parsing. However, understanding the impact of log parsing on the accuracy of anomaly detection techniques has received surprisingly little attention so far. Investigating what are the key properties log parsing techniques should ideally have to help anomaly detection is therefore warranted. In this paper, we report on a comprehensive empirical study on the impact of log parsing on anomaly detection accuracy, using 13 log parsing techniques and five deep-learning-based anomaly detection techniques on two publicly available log datasets. Our empirical results show that, despite what is widely assumed, there is no strong correlation between log parsing accuracy and anomaly detection accuracy (regardless of the metric used for measuring log parsing accuracy). Moreover, we experimentally confirm existing theoretical results showing that it is a property that we refer to as distinguishability in log parsing results as opposed to their accuracy that plays an essential role in achieving accurate anomaly detection.
翻訳日:2023-10-24 05:35:54 公開日:2023-05-25
# 樹状統合に基づく二次ニューラルネットワークは従来の有意ニューラルネットワークより優れている

Dendritic Integration Based Quadratic Neural Networks Outperform Traditional Aritificial Ones ( http://arxiv.org/abs/2307.13609v1 )

ライセンス: Link先を確認
Chongming Liu, Songting Li and Douglas Zhou(参考訳) ANN(Artificial Neural Networks)に生物学的神経特性を組み込んで計算能力を高めることは、機械学習分野における大きな課題である。 近年,デンドライトがシナプス入力の2次積分規則に準拠していることが示唆され,新しいANNモデルであるDindritic Integration-Based Quadratic Neural Network (DIQNN)を提案する。 このモデルは、様々な分類タスクにおいて、従来のANNよりも優れた性能を示す。 DIQNN の計算コストを削減するため,従来の DIQNN の性能を維持しつつ,低ランク DIQNN を導入している。 さらに,一般化誤差を特徴付けるマージンを提案し,そのマージンが単調に増加することを理論的に証明する。 また,数値実験を用いて一般化とマージンの整合性を示す。 最後に、このマージンを損失関数に統合することで、テスト精度の変化が実際に加速される。 我々の研究は、従来のANNを超え、分類タスクにおける一般化エラーを解析するための理論的枠組みを提供する、脳に触発された新しいANNモデルに貢献している。

Incorporating biological neuronal properties into Artificial Neural Networks (ANNs) to enhance computational capabilities poses a formidable challenge in the field of machine learning. Inspired by recent findings indicating that dendrites adhere to quadratic integration rules for synaptic inputs, we propose a novel ANN model, Dendritic Integration-Based Quadratic Neural Network (DIQNN). This model shows superior performance over traditional ANNs in a variety of classification tasks. To reduce the computational cost of DIQNN, we introduce the Low-Rank DIQNN, while we find it can retain the performance of the original DIQNN. We further propose a margin to characterize the generalization error and theoretically prove this margin will increase monotonically during training. And we show the consistency between generalization and our margin using numerical experiments. Finally, by integrating this margin into the loss function, the change of test accuracy is indeed accelerated. Our work contributes a novel, brain-inspired ANN model that surpasses traditional ANNs and provides a theoretical framework to analyze the generalization error in classification tasks.
翻訳日:2023-10-23 16:33:52 公開日:2023-05-25
# 強化学習による相乗的形式的アルファコレクションの生成

Generating Synergistic Formulaic Alpha Collections via Reinforcement Learning ( http://arxiv.org/abs/2306.12964v1 )

ライセンス: Link先を確認
Shuo Yu, Hongyan Xue, Xiang Ao, Feiyang Pan, Jia He, Dandan Tu, and Qing He(参考訳) 量的取引の分野では、生株データを市場動向を示す指標に転換することが一般的である。 このような信号はアルファ因子と呼ばれる。 公式形式のアルファはより解釈可能であるため、リスクに関する実践者から好まれる。 実際、一組の定式アルファはより正確なモデリングのためにしばしば一緒に使用されるので、相乗的な定式アルファ集合がうまく働く必要がある。 しかし、ほとんどの伝統的なアルファ生成器はアルファを個別に採掘し、後にアルファが結合されるという事実を見渡した。 本稿では,新しいアルファマイニングフレームワークを提案する。アルファ生成器の最適化のために,下流の組み合わせモデルの性能を直接利用するという,相乗的なアルファセットのマイニングを優先する。 我々のフレームワークはまた、強化学習(RL)の強力な探索能力を活用し、公式アルファの広大な探索空間をよりよく探索する。 組み合わせモデルの性能への貢献は、RLプロセスで使用されるリターンに割り当てられ、アルファジェネレータを駆動して、現在のセットを改善したより良いアルファを見つける。 実世界の株式市場データの実験的評価は, 株価トレンド予測のための枠組みの有効性と有効性を示している。 投資シミュレーションの結果,我々のフレームワークは従来の手法に比べて高いリターンを達成できることがわかった。

In the field of quantitative trading, it is common practice to transform raw historical stock data into indicative signals for the market trend. Such signals are called alpha factors. Alphas in formula forms are more interpretable and thus favored by practitioners concerned with risk. In practice, a set of formulaic alphas is often used together for better modeling precision, so we need to find synergistic formulaic alpha sets that work well together. However, most traditional alpha generators mine alphas one by one separately, overlooking the fact that the alphas would be combined later. In this paper, we propose a new alpha-mining framework that prioritizes mining a synergistic set of alphas, i.e., it directly uses the performance of the downstream combination model to optimize the alpha generator. Our framework also leverages the strong exploratory capabilities of reinforcement learning~(RL) to better explore the vast search space of formulaic alphas. The contribution to the combination models' performance is assigned to be the return used in the RL process, driving the alpha generator to find better alphas that improve upon the current set. Experimental evaluations on real-world stock market data demonstrate both the effectiveness and the efficiency of our framework for stock trend forecasting. The investment simulation results show that our framework is able to achieve higher returns compared to previous approaches.
翻訳日:2023-06-26 01:11:19 公開日:2023-05-25
# 集束曲線の階層的予測 : 日頭電力価格オークションへの適用

Hierarchical forecasting for aggregated curves with an application to day-ahead electricity price auctions ( http://arxiv.org/abs/2305.16255v1 )

ライセンス: Link先を確認
Paul Ghelasi, Florian Ziel(参考訳) 集約曲線は経済と金融の共通構造であり、最も顕著な例は需給曲線である。 本研究では,全ての集約曲線が内在的階層構造を持つという事実を利用して,階層的和解法を用いて予測精度を向上させる。 我々は,集合曲線の構成や分解の方法に関する深い理論を提供し,これらの手法が弱い仮定の下で等価であると結論付ける。 我々は,以前に確立したボトムアップ法,トップダウン法,線形最適調整法を含む,集約曲線に対する複数の和解法を検討する。 また,ボトムアップやトップダウンの手法と同様の複雑さを持つ「集約ダウン」と呼ばれる新しいベンチマーク調整手法を提案するが,この設定では精度が向上する傾向にある。 我々は,ドイツの日頭電力オークション市場について,需要と供給曲線を予測し,その平衡が翌日の電力価格を決定する実験的な予測を行った。 以上の結果から,階層的調整手法により,集計曲線の予測精度の向上が期待できることがわかった。

Aggregated curves are common structures in economics and finance, and the most prominent examples are supply and demand curves. In this study, we exploit the fact that all aggregated curves have an intrinsic hierarchical structure, and thus hierarchical reconciliation methods can be used to improve the forecast accuracy. We provide an in-depth theory on how aggregated curves can be constructed or deconstructed, and conclude that these methods are equivalent under weak assumptions. We consider multiple reconciliation methods for aggregated curves, including previously established bottom-up, top-down, and linear optimal reconciliation approaches. We also present a new benchmark reconciliation method called 'aggregated-down' with similar complexity to bottom-up and top-down approaches, but it tends to provide better accuracy in this setup. We conducted an empirical forecasting study on the German day-ahead power auction market by predicting the demand and supply curves, where their equilibrium determines the electricity price for the next day. Our results demonstrate that hierarchical reconciliation methods can be used to improve the forecasting accuracy of aggregated curves.
翻訳日:2023-06-18 13:15:47 公開日:2023-05-25
# pcaとk-meansを用いたアフリカのヘアスタイルデータセットのクラスタリング

clustering an african hairstyle dataset using pca and k-means ( http://arxiv.org/abs/2306.06061v1 )

ライセンス: Link先を確認
Teffo Phomolo Nicrocia, Owolawi Pius Adewale, Pholo Moanda Diana(参考訳) デジタルトランスフォーメーションの採用は、アフリカの顔形状分類器の構築では表現されなかった。 本稿では,アフリカ女性画像の分類にk-meansを用いる手法を提案する。 アフリカの女性は、美容基準の推奨、個人の好み、または髪型の最新トレンドに頼り、適切な髪型を決定する。 本稿では,K平均クラスタリングを用いてアフリカの女性のイメージを分類する手法を提案する。 潜在的な顔クラスタを特定するために、Haarcascadeは特徴ベースのトレーニングに使われ、K平均クラスタリングは画像分類に適用される。

The adoption of digital transformation was not expressed in building an African face shape classifier. In this paper, an approach is presented that uses k-means to classify African women images. African women rely on beauty standards recommendations, personal preference, or the newest trends in hairstyles to decide on the appropriate hairstyle for them. In this paper, an approach is presented that uses K-means clustering to classify African women's images. In order to identify potential facial clusters, Haarcascade is used for feature-based training, and K-means clustering is applied for image classification.
翻訳日:2023-06-18 13:11:30 公開日:2023-05-25
# 金融調査のためのBitcoinネットワークにおける不正取引と不正ノードの謎

Demystifying Fraudulent Transactions and Illicit Nodes in the Bitcoin Network for Financial Forensics ( http://arxiv.org/abs/2306.06108v1 )

ライセンス: Link先を確認
Youssef Elmougy and Ling Liu(参考訳) Blockchainは、オープンで不変なトランザクションデータをマイニングすることで、金融法医学のユニークな説明可能なチャネルを提供する。 最近の急増は、マネーロンダリングやその他の不正行為などの異常検出のために暗号通貨トランザクションデータを使った機械学習モデルをトレーニングすることで目撃されている。 本稿では,bitcoinネットワークにおける不正検出に対する総括的応用データサイエンスアプローチについて述べる。 まず、楕円型トランザクションデータセットを拡張して、56のフィーチャと1.27mの時間的インタラクションを備えた822万以上のbitcoinウォレットアドレス(ノード)を含むelliptic++データセットをコントリビュートします。 これにより4種類のグラフデータを活用することで、不正取引の検出と、bitcoinネットワーク内の不正アドレス(アクタ)の検出の両方が可能になる。 (i)bitcoinネットワークにおけるマネーフローを表すトランザクション・ツー・トランザクショングラフ。 (ii)Bitcoinアドレス間のトランザクションフローのタイプをキャプチャするアドレス-アドレス間相互作用グラフ。 3 アドレスと取引の間の双方向の金銭フローを表すアドレス-取引グラフ(入力アドレスから1つ以上の取引へのBTCフロー及び取引から1つ以上の出力アドレスへのBTCフロー) (iv) 独自のBitcoinユーザを表すBitcoinアドレスのクラスタをキャプチャするユーザエンティティグラフ。 第2に,4つのグラフすべてにおいて,機械学習アルゴリズムを用いて不正検出を行う。 不正取引と不正アドレスの両方を効果的に検出するだけでなく,暗号通貨取引におけるマネーロンダリング脆弱性の根本原因や不正検出・防止戦略を深く理解する上で,address-to-addressとaddress-transaction graphから強化された機能を追加することが有効であることを示す。 github.com/git-disl/EllipticPlusPlusでリリース。

Blockchain provides the unique and accountable channel for financial forensics by mining its open and immutable transaction data. A recent surge has been witnessed by training machine learning models with cryptocurrency transaction data for anomaly detection, such as money laundering and other fraudulent activities. This paper presents a holistic applied data science approach to fraud detection in the Bitcoin network with two original contributions. First, we contribute the Elliptic++ dataset, which extends the Elliptic transaction dataset to include over 822k Bitcoin wallet addresses (nodes), each with 56 features, and 1.27M temporal interactions. This enables both the detection of fraudulent transactions and the detection of illicit addresses (actors) in the Bitcoin network by leveraging four types of graph data: (i) the transaction-to-transaction graph, representing the money flow in the Bitcoin network, (ii) the address-to-address interaction graph, capturing the types of transaction flows between Bitcoin addresses, (iii) the address-transaction graph, representing the bi-directional money flow between addresses and transactions (BTC flow from input address to one or more transactions and BTC flow from a transaction to one or more output addresses), and (iv) the user entity graph, capturing clusters of Bitcoin addresses representing unique Bitcoin users. Second, we perform fraud detection tasks on all four graphs by using diverse machine learning algorithms. We show that adding enhanced features from the address-to-address and the address-transaction graphs not only assists in effectively detecting both illicit transactions and illicit addresses, but also assists in gaining in-depth understanding of the root cause of money laundering vulnerabilities in cryptocurrency transactions and the strategies for fraud detection and prevention. Released at github.com/git-disl/EllipticPlusPlus.
翻訳日:2023-06-18 12:51:00 公開日:2023-05-25
# 配水ネットワークにおける漏洩検知器の逆攻撃

Adversarial Attacks on Leakage Detectors in Water Distribution Networks ( http://arxiv.org/abs/2306.06107v1 )

ライセンス: Link先を確認
Paul Stahlhofen, Andr\'e Artelt, Luca Hermes, Barbara Hammer(参考訳) 多くの機械学習モデルは、敵対的攻撃に対して脆弱である: 入力に小さな(認識不能な)摂動を追加する方法論があり、モデルが間違った予測を導き出す。 このような攻撃をよりよく理解することは、特に水流ネットワークの監視など、セキュリティクリティカルなドメインで使用されるモデルにおいて、モデルの堅牢性と信頼性を高めるカウンター測定を考案するために重要である。 配水ネットワークにおける機械学習に基づく漏洩検知器に対する敵攻撃の分類法を提案する。 これに続いて、我々は特定のタイプの攻撃に焦点を当てている:敵は最も感度の低い地点、すなわち、最大で検出不可能なリークが発生する可能性のある水ネットワークの場所を探索する。 最も敏感な点問題の数学的形式化に基づいて、3つの異なるアルゴリズムアプローチを用いて解を求める。 結果は,2つのベンチマーク水分布ネットワークで評価される。

Many Machine Learning models are vulnerable to adversarial attacks: There exist methodologies that add a small (imperceptible) perturbation to an input such that the model comes up with a wrong prediction. Better understanding of such attacks is crucial in particular for models used in security-critical domains, such as monitoring of water distribution networks, in order to devise counter-measures enhancing model robustness and trustworthiness. We propose a taxonomy for adversarial attacks against machine learning based leakage detectors in water distribution networks. Following up on this, we focus on a particular type of attack: an adversary searching the least sensitive point, that is, the location in the water network where the largest possible undetected leak could occur. Based on a mathematical formalization of the least sensitive point problem, we use three different algorithmic approaches to find a solution. Results are evaluated on two benchmark water distribution networks.
翻訳日:2023-06-18 12:50:32 公開日:2023-05-25
# CNN-Autoencoderを用いた有限ブロック長レジームにおけるガウスチャネルの符号化

Coding for the Gaussian Channel in the Finite Blocklength Regime Using a CNN-Autoencoder ( http://arxiv.org/abs/2306.09258v1 )

ライセンス: Link先を確認
Nourhan Hesham, Mohamed Bouzid, Ahmad Abdel-Qader, and Anas Chaaban(参考訳) 超高信頼性を必要とする遅延感度アプリケーションの開発は、無線ネットワークのさらなる課題を生み出した。 これは5gと5g以外のシステムがサポートしなければならないユースケースとして、超信頼性の低い低レイテンシ通信につながった。 しかし、低レイテンシ通信をサポートするには短いコードを使う必要があり、フレームエラー確率(FEP)の消滅には長いコードが必要である。 したがって、一定の信頼性要件を満たす有限ブロック長規則(FBR)の開発コードが必要である。 本稿では,ビットエラーとシンボルエラー率の観点からCNNの利用を探求する既存の研究と異なる視点で,固定ブロック長とターゲットFEPにおける信号対雑音比の範囲に対して,ガウスチャネル上の理論的最大到達率にアプローチする際の畳み込みニューラルネットワークオートエンコーダ(CNN-AE)の可能性を検討する。 そこで本研究では, cnn-aeアーキテクチャを数値的に評価し, 理論上の最大到達率, 極性2次振幅変調(qam), リード・ミュラー符号qam, 多レベル極性変調, ターボae-mod方式と比較した。 数値的な結果から,CNN-AEはこれらのベンチマーク手法より優れており,CNN-AEが遅延制約のあるアプリケーションに対してよい符号を学習する能力を示した。

The development of delay-sensitive applications that require ultra high reliability created an additional challenge for wireless networks. This led to Ultra-Reliable Low-Latency Communications, as a use case that 5G and beyond 5G systems must support. However, supporting low latency communications requires the use of short codes, while attaining vanishing frame error probability (FEP) requires long codes. Thus, developing codes for the finite blocklength regime (FBR) achieving certain reliability requirements is necessary. This paper investigates the potential of Convolutional Neural Networks autoencoders (CNN-AE) in approaching the theoretical maximum achievable rate over a Gaussian channel for a range of signal-to-noise ratios at a fixed blocklength and target FEP, which is a different perspective compared to existing works that explore the use of CNNs from bit-error and symbol-error rate perspectives. We explain the studied CNN-AE architecture, evaluate it numerically, and compare it to the theoretical maximum achievable rate and the achievable rates of polar coded quadrature amplitude modulation (QAM), Reed-Muller coded QAM, multilevel polar coded modulation, and a TurboAE-MOD scheme from the literature. Numerical results show that the CNN-AE outperforms these benchmark schemes and approaches the theoretical maximum rate, demonstrating the capability of CNN-AEs in learning good codes for delay-constrained applications.
翻訳日:2023-06-18 12:12:25 公開日:2023-05-25
# 言語モデルのための検出不能な透かし

Undetectable Watermarks for Language Models ( http://arxiv.org/abs/2306.09194v1 )

ライセンス: Link先を確認
Miranda Christ, Sam Gunn, Or Zamir(参考訳) GPT-4のような大規模言語モデルの能力の最近の進歩は、AI生成テキストを検出する能力に懸念を喚起している。 先行研究では、出力分布を顕著に変化させることで、モデル出力に透かしを埋め込む方法が提案されている。 出力分布に検出可能な変更を加えることなく、透かしを導入することは可能ですか? この目的のために,言語モデルに対する検出不能な透かしの概念を導入する。 すなわち、透かしは秘密鍵の知識によってのみ検出でき、秘密鍵がなければ、透かしと元のモデルの出力とを区別することができる。 特に、ユーザーがテキストの品質の劣化を観察することは不可能である。 重要なことは、ユーザーが任意に選択されたプロンプトでモデルを適応的にクエリすることを許された場合でも、透かしは検出できない。 暗号における標準仮定であるワンウェイ関数の存在に基づいて、検出不能な透かしを構築する。

Recent advances in the capabilities of large language models such as GPT-4 have spurred increasing concern about our ability to detect AI-generated text. Prior works have suggested methods of embedding watermarks in model outputs, by noticeably altering the output distribution. We ask: Is it possible to introduce a watermark without incurring any detectable change to the output distribution? To this end we introduce a cryptographically-inspired notion of undetectable watermarks for language models. That is, watermarks can be detected only with the knowledge of a secret key; without the secret key, it is computationally intractable to distinguish watermarked outputs from those of the original model. In particular, it is impossible for a user to observe any degradation in the quality of the text. Crucially, watermarks should remain undetectable even when the user is allowed to adaptively query the model with arbitrarily chosen prompts. We construct undetectable watermarks based on the existence of one-way functions, a standard assumption in cryptography.
翻訳日:2023-06-18 12:10:51 公開日:2023-05-25
# 制御可変遺伝的プログラミングによる記号回帰

Symbolic Regression via Control Variable Genetic Programming ( http://arxiv.org/abs/2306.08057v1 )

ライセンス: Link先を確認
Nan Jiang, Yexiang Xue(参考訳) 実験データから直接シンボル表現を学習することは、AIによる科学的発見の重要なステップである。 それでも、最先端のアプローチは単純な表現の学習に限られている。 多くの独立変数を含む表現の回帰は、まだ手が届かないままである。 科学で広く利用されている制御変数実験により,多くの独立変数に対するシンボリック回帰のための制御変数遺伝的プログラミング(CVGP)を提案する。 CVGPは、事前収集された固定データセットから学ぶのではなく、カスタマイズされた実験設計によってシンボル表現の発見を高速化する。 CVGPは、遺伝的プログラミングを用いて、他の変数が定数として保持される制御された実験において、少数の独立変数を含む単純な表現を適合させることから始まる。 そして、新しい独立変数を追加することで、前世代で学んだ式を拡張し、これらの変数を変更できる新しい制御変数実験を使用する。 理論的には、CVGPをインクリメンタルなビルディングアプローチとして示し、表現のクラスを学ぶ際に探索空間を指数関数的に減少させることができる。 CVGPは、複数の独立変数を含むシンボリック表現の学習において、いくつかのベースラインを上回っている。

Learning symbolic expressions directly from experiment data is a vital step in AI-driven scientific discovery. Nevertheless, state-of-the-art approaches are limited to learning simple expressions. Regressing expressions involving many independent variables still remain out of reach. Motivated by the control variable experiments widely utilized in science, we propose Control Variable Genetic Programming (CVGP) for symbolic regression over many independent variables. CVGP expedites symbolic expression discovery via customized experiment design, rather than learning from a fixed dataset collected a priori. CVGP starts by fitting simple expressions involving a small set of independent variables using genetic programming, under controlled experiments where other variables are held as constants. It then extends expressions learned in previous generations by adding new independent variables, using new control variable experiments in which these variables are allowed to vary. Theoretically, we show CVGP as an incremental building approach can yield an exponential reduction in the search space when learning a class of expressions. Experimentally, CVGP outperforms several baselines in learning symbolic expressions involving multiple independent variables.
翻訳日:2023-06-18 12:09:42 公開日:2023-05-25
# ソフトウェアアーキテクチャのレンズを通しての分散信頼

Distributed Trust Through the Lens of Software Architecture ( http://arxiv.org/abs/2306.08056v1 )

ライセンス: Link先を確認
Sin Kit Lo, Yue Liu, Guangsheng Yu, Qinghua Lu, Xiwei Xu, and Liming Zhu(参考訳) 分散信頼(Distributed Trust)は,近年,さまざまな視点から発展した,誤った概念だ。 現在の優位性はブロックチェーンと暗号通貨にあるが、分散信頼の概念は、フェデレーション学習の進歩、信頼に値する、責任あるAIのエコシステム設定、データ共有、組織の境界を越えたプライバシー問題、信頼できないサイバーセキュリティを育んでいる。 本稿では,複数の分野における分散信頼の概念について検討する。 システム/ソフトウェアアーキテクチャの観点からは、信頼の再分配/シフトと、分散信頼技術によって実現されるシステムやアプリケーションの関連するトレードオフを検討する必要がある。

Distributed trust is a nebulous concept that has evolved from different perspectives in recent years. While one can attribute its current prominence to blockchain and cryptocurrency, the distributed trust concept has been cultivating progress in federated learning, trustworthy and responsible AI in an ecosystem setting, data sharing, privacy issues across organizational boundaries, and zero trust cybersecurity. This paper will survey the concept of distributed trust in multiple disciplines. It will take a system/software architecture point of view to look at trust redistribution/shift and the associated tradeoffs in systems and applications enabled by distributed trust technologies.
翻訳日:2023-06-18 12:09:25 公開日:2023-05-25
# 隠れマルコフモデルを用いた非パラメトリック同定とピアニングズダイナミクスの推定:PSIDによる証拠

Nonparametric Identification and Estimation of Earnings Dynamics using a Hidden Markov Model: Evidence from the PSID ( http://arxiv.org/abs/2306.01760v1 )

ライセンス: Link先を確認
Tong Zhou(参考訳) 本稿では,収益持続性の複雑な性質を調べるために設計された隠れマルコフモデルを提案する。 提案したモデルは、ログアーニングの残余が永続成分と推移成分から成り、どちらも一般的なマルコフ過程に従っていると仮定する。 非パラメトリック同定は線形作用素のスペクトル分解によって達成され、モデル推定のための修正確率EMアルゴリズムが導入された。 この枠組みをPanel Study of Income Dynamics (PSID)データセットに適用すると、収益プロセスは非線形持続性、条件付き歪曲性、条件付きカルトーシスを示す。 さらに、過渡成分は非ガウス性を有しており、高照度世帯が負のショックを受ける場合や低照度世帯が正のショックを受ける場合、著しく非対称な分布的影響をもたらす。 我々の経験的知見はまた、2年から8年の範囲の地平線における収益にアーチ効果があることを明らかにし、さらに収益持続性の複雑なダイナミクスを浮き彫りにした。

This paper presents a hidden Markov model designed to investigate the complex nature of earnings persistence. The proposed model assumes that the residuals of log-earnings consist of a persistent component and a transitory component, both following general Markov processes. Nonparametric identification is achieved through spectral decomposition of linear operators, and a modified stochastic EM algorithm is introduced for model estimation. Applying the framework to the Panel Study of Income Dynamics (PSID) dataset, we find that the earnings process displays nonlinear persistence, conditional skewness, and conditional kurtosis. Additionally, the transitory component is found to possess non-Gaussian properties, resulting in a significantly asymmetric distributional impact when high-earning households face negative shocks or low-earning households encounter positive shocks. Our empirical findings also reveal the presence of ARCH effects in earnings at horizons ranging from 2 to 8 years, further highlighting the complex dynamics of earnings persistence.
翻訳日:2023-06-11 13:56:32 公開日:2023-05-25
# 現代教育におけるChatGPTの変容効果:AIチャットボットの誕生期

Transformative Effects of ChatGPT on Modern Education: Emerging Era of AI Chatbots ( http://arxiv.org/abs/2306.03823v1 )

ライセンス: Link先を確認
Sukhpal Singh Gill, Minxian Xu, Panos Patros, Huaming Wu, Rupinder Kaur, Kamalpreet Kaur, Stephanie Fuller, Manmeet Singh, Priyansh Arora, Ajith Kumar Parlikad, Vlado Stankovski, Ajith Abraham, Soumya K. Ghosh, Hanan Lutfiyya, Salil S. Kanhere, Rami Bahsoon, Omer Rana, Schahram Dustdar, Rizos Sakellariou, Steve Uhlig, Rajkumar Buyya(参考訳) aiベースのチャットボットであるchatgptがリリースされ、大量のデータ分析に基づいてコヒーレントで有用な応答を提供する。 本稿では,chatgptが現代教育に与える影響について,科学者,研究者,技術者が議論する。 本研究は、ChatGPT能力とその教育分野における利用に関する知識を改善し、潜在的な懸念と課題を特定することを目的とする。 予備評価の結果,ChatGPTは財務,コーディング,数学など各分野において異なる性能を示した。 ChatGPTは、教師コンテンツを作成し、質問に答え、グループワークを促進することによって、オンライン教育者としての提言や行動を提供することによって、教育者を支援する能力を持っているが、その使用には、不正確なデータや偽データを生成する可能性や、独創性が不可欠である重複コンテンツ(プラグマリズム)検出器の回避など、明確な欠点がある。 一般的な生成aiにおける幻覚、およびchatgptに関するしばしば報告される幻覚は、正確性が不可欠である限られた利点を生かすことができる。 ChatGPTに欠けているのは、誠実で機密性の高いコミュニケーションを提供するための確率的な手段だ。 教育機関で使用される学術的規制と評価の実践は、ChatGPTが教育のツールとして使用されるように更新する必要がある。 学習環境におけるChatGPTの変容効果に対処するためには,教師や生徒にその能力や限界を教育することが重要である。

ChatGPT, an AI-based chatbot, was released to provide coherent and useful replies based on analysis of large volumes of data. In this article, leading scientists, researchers and engineers discuss the transformative effects of ChatGPT on modern education. This research seeks to improve our knowledge of ChatGPT capabilities and its use in the education sector, identifying potential concerns and challenges. Our preliminary evaluation concludes that ChatGPT performed differently in each subject area including finance, coding and maths. While ChatGPT has the ability to help educators by creating instructional content, offering suggestions and acting as an online educator to learners by answering questions and promoting group work, there are clear drawbacks in its use, such as the possibility of producing inaccurate or false data and circumventing duplicate content (plagiarism) detectors where originality is essential. The often reported hallucinations within Generative AI in general, and also relevant for ChatGPT, can render its use of limited benefit where accuracy is essential. What ChatGPT lacks is a stochastic measure to help provide sincere and sensitive communication with its users. Academic regulations and evaluation practices used in educational institutions need to be updated, should ChatGPT be used as a tool in education. To address the transformative effects of ChatGPT on the learning environment, educating teachers and students alike about its capabilities and limitations will be crucial.
翻訳日:2023-06-11 13:38:42 公開日:2023-05-25
# NFT市場における異常取引検出

Abnormal Trading Detection in the NFT Market ( http://arxiv.org/abs/2306.04643v1 )

ライセンス: Link先を確認
Mingxiao Song and Yunsong Liu and Agam Shah and Sudheer Chava(参考訳) 非Fungible-Token(NFT)市場は近年爆発的な成長を遂げている。 DappRadarによると、世界最大のNTTマーケットプレースであるOpenSeaの取引額は2023年2月に3470億ドルに達した。 しかし、NFT市場はほとんどが規制されておらず、マネーロンダリング、詐欺、洗浄取引に関して大きな懸念がある。 アマチュアトレーダーと小売投資家はNTT市場のかなりの割合を占めている。 したがって、NFT取引に関わるリスクを研究者が強調することが重要である。 本稿では,他の取引業者を誤解させるおそれのあるウォッシュトレーディングなどの一般的な不正行為を明らかにする。 市場データを用いて,k-meansクラスタリング非教師付き学習アルゴリズムに供給され,トレーダーをグループに分類するネットワーク,金融,時間的視点から定量的な特徴を設計する。 最後に、クラスタリング結果の意義と規制が望ましくない振る舞いを減らす方法について論じる。 我々の取り組みは、規制当局が市場の悪役の検索スペースを狭めるだけでなく、アマチュアトレーダーが予期せぬ詐欺から身を守るための洞察を提供するのに役立つかもしれない。

The Non-Fungible-Token (NFT) market has experienced explosive growth in recent years. According to DappRadar, the total transaction volume on OpenSea, the largest NFT marketplace, reached 34.7 billion dollars in February 2023. However, the NFT market is mostly unregulated and there are significant concerns about money laundering, fraud and wash trading. Amateur traders and retail investors comprise a significant fraction of the NFT market. Hence it is important that researchers highlight the relevant risks involved in NFT trading. In this paper, we attempt to uncover common fraudulent behaviors such as wash trading that could mislead other traders. Using market data, we design quantitative features from the network, monetary, and temporal perspectives that are fed into K-means clustering unsupervised learning algorithm to sort traders into groups. Lastly, we discuss the clustering results' significance and how regulations can reduce undesired behaviors. Our work can potentially help regulators narrow down their search space for bad actors in the market as well as provide insights for amateur traders to protect themselves from unforeseen frauds.
翻訳日:2023-06-11 13:26:40 公開日:2023-05-25
# DiffusionShield: 生成拡散モデルに対する著作権保護のための透かし

DiffusionShield: A Watermark for Copyright Protection against Generative Diffusion Models ( http://arxiv.org/abs/2306.04642v1 )

ライセンス: Link先を確認
Yingqian Cui, Jie Ren, Han Xu, Pengfei He, Hui Liu, Lichao Sun, Jiliang Tang(参考訳) 近年,GDM(Generative Diffusion Models)は,画像の学習と生成において顕著な能力を示した。 GDMの大規模なコミュニティが自然に出現し、様々な分野におけるGDMの多様化が促進されている。 しかし、この制限のない増殖は著作権保護に関する深刻な懸念を引き起こした。 例えば、画家や写真家などのアーティストは、GDMが許可なく独自のクリエイティブ作品を自由に複製できるのではないかと懸念している。 これらの課題に対応して,GDMに適した新しい透かし方式DiffusionShieldを導入する。 DiffusionShieldは、所有権情報を認識不能な透かしにエンコードして画像に注入することで、GDMによる著作権侵害から画像を保護する。 その透かしはGDMによって容易に学習でき、生成した画像で再現される。 生成された画像から透かしを検出することにより、著作権侵害を証拠として露呈することができる。 diffusionshieldは、透かしの均一性と統合最適化方法の利点により、元の画像の歪みが少なく、透かし検出性能が高く、長いメッセージを埋め込むことができる。 我々は,GDMによる侵害防止におけるDiffusionShieldの有効性と従来の透かし法よりも優れていることを示すために,厳密で包括的な実験を行った。

Recently, Generative Diffusion Models (GDMs) have showcased their remarkable capabilities in learning and generating images. A large community of GDMs has naturally emerged, further promoting the diversified applications of GDMs in various fields. However, this unrestricted proliferation has raised serious concerns about copyright protection. For example, artists including painters and photographers are becoming increasingly concerned that GDMs could effortlessly replicate their unique creative works without authorization. In response to these challenges, we introduce a novel watermarking scheme, DiffusionShield, tailored for GDMs. DiffusionShield protects images from copyright infringement by GDMs through encoding the ownership information into an imperceptible watermark and injecting it into the images. Its watermark can be easily learned by GDMs and will be reproduced in their generated images. By detecting the watermark from generated images, copyright infringement can be exposed with evidence. Benefiting from the uniformity of the watermarks and the joint optimization method, DiffusionShield ensures low distortion of the original image, high watermark detection performance, and the ability to embed lengthy messages. We conduct rigorous and comprehensive experiments to show the effectiveness of DiffusionShield in defending against infringement by GDMs and its superiority over traditional watermarking methods.
翻訳日:2023-06-11 13:26:26 公開日:2023-05-25
# 多様性と識別的表現学習を用いた一般化可能な低リソース活動認識

Generalizable Low-Resource Activity Recognition with Diverse and Discriminative Representation Learning ( http://arxiv.org/abs/2306.04641v1 )

ライセンス: Link先を確認
Xin Qin, Jindong Wang, Shuo Ma, Wang Lu, Yongchun Zhu, Xing Xie, Yiqiang Chen(参考訳) HAR(Human Activity Recognition)は、人間のセンサーの読み取りから動作パターンを特定することに焦点を当てた時系列分類タスクである。 適切なデータは不可欠だが、オンラインWebアプリケーションのカスタマイズと最適化を支援する一般化可能なHARモデルをトレーニングする上で、大きなボトルネックとなる。 しかしながら、大規模なラベル付きデータを現実、すなわち低リソースの課題で収集するのは、時間と経済のコストがかかる。 一方、異なる人物から収集されたデータは、生活習慣や体型、年齢グループなどによって分布の変化がある。 低リソースと分散シフトの課題は新しい未発見の被験者に訓練されたモデルを適用するときにharに有害である。 本稿では,DDLearn(Diverse and Discriminative Expression Learning)と呼ばれる新しい手法を提案する。 DDLearnは多様性と差別学習を同時に検討している。 構築された自己教師付き学習タスクにより、ddlearnはデータの多様性を拡大し、潜在アクティビティ特性を探求する。 そこで,本研究では,元のドメインと拡張ドメイン間の分散を拡大し,学習特徴の多様性を保全するための多様性保存モジュールを提案する。 一方、DDLearnは、教師付きコントラスト学習を用いて識別表現を学習することで意味的識別を強化する。 3つの公開HARデータセットに対する大規模な実験により、我々の手法は、汎用的で説明可能な柔軟なフレームワークでありながら、低リソースの分散シフトシナリオ下での平均精度を9.5%向上させることで、最先端の手法を著しく上回ることを示した。

Human activity recognition (HAR) is a time series classification task that focuses on identifying the motion patterns from human sensor readings. Adequate data is essential but a major bottleneck for training a generalizable HAR model, which assists customization and optimization of online web applications. However, it is costly in time and economy to collect large-scale labeled data in reality, i.e., the low-resource challenge. Meanwhile, data collected from different persons have distribution shifts due to different living habits, body shapes, age groups, etc. The low-resource and distribution shift challenges are detrimental to HAR when applying the trained model to new unseen subjects. In this paper, we propose a novel approach called Diverse and Discriminative representation Learning (DDLearn) for generalizable low-resource HAR. DDLearn simultaneously considers diversity and discrimination learning. With the constructed self-supervised learning task, DDLearn enlarges the data diversity and explores the latent activity properties. Then, we propose a diversity preservation module to preserve the diversity of learned features by enlarging the distribution divergence between the original and augmented domains. Meanwhile, DDLearn also enhances semantic discrimination by learning discriminative representations with supervised contrastive learning. Extensive experiments on three public HAR datasets demonstrate that our method significantly outperforms state-of-art methods by an average accuracy improvement of 9.5% under the low-resource distribution shift scenarios, while being a generic, explainable, and flexible framework.
翻訳日:2023-06-11 13:26:05 公開日:2023-05-25
# FollowNet: 自動車追従行動モデリングのための総合ベンチマーク

FollowNet: A Comprehensive Benchmark for Car-Following Behavior Modeling ( http://arxiv.org/abs/2306.05381v1 )

ライセンス: Link先を確認
Xianda Chen, Meixin Zhu, Kehua Chen, Pengqin Wang, Hongliang Lu, Hui Zhong, Xu Han, Yinhai Wang(参考訳) 車両追尾は、後続の車両(FV)がその加速を調整してリード車両(LV)から安全な距離を維持する制御過程である。 近年、現実世界の運転データセットを通した車追跡をより正確にモデリングできるデータ駆動モデルが急増している。 公開されているデータセットはいくつかあるが、そのフォーマットは常に一貫性があるわけではない。 対照的に、画像認識やオブジェクト検出などの研究分野には、ImageNet、Microsoft COCO、KITTIといったベンチマークデータセットがある。 このギャップに対処し、微視的トラフィックフローモデリングの開発を促進するため、自動車追従行動モデリングのための公開ベンチマークデータセットを構築した。 ベンチマークは、同じ基準で5つの公開運転データセットから抽出された80k以上のカーフォローイベントで構成されている。 これらのイベントは、様々な道路タイプ、様々な気象条件、自動運転車との混合交通流を含む多様な状況をカバーする。 さらに,自動車追従モデルの現状を概観するために,ベンチマークを用いて代表ベースラインモデルを実装・テストした。 その結果、DDPGベースのモデルでは、従来のインテリジェントドライバモデル(IDM)やGazis-Herman-Rothery(GHR)モデルと比較して、間隔の低いMSEと競合的に動作し、ほとんどのデータセットでは完全なニューラルネットワーク(NN)や長短短期メモリ(LSTM)モデルと比較して衝突速度が小さいことがわかった。 確立されたベンチマークは、研究者に異なるカーフォローモデルのクロス比較のための一貫したデータフォーマットとメトリクスを提供し、より正確なモデルの開発を促進する。 我々はデータセットと実装コードをhttps://github.com/HKUST-DRIVE-AI-LAB/FollowNet.comでオープンソース化しました。

Car-following is a control process in which a following vehicle (FV) adjusts its acceleration to keep a safe distance from the lead vehicle (LV). Recently, there has been a booming of data-driven models that enable more accurate modeling of car-following through real-world driving datasets. Although there are several public datasets available, their formats are not always consistent, making it challenging to determine the state-of-the-art models and how well a new model performs compared to existing ones. In contrast, research fields such as image recognition and object detection have benchmark datasets like ImageNet, Microsoft COCO, and KITTI. To address this gap and promote the development of microscopic traffic flow modeling, we establish a public benchmark dataset for car-following behavior modeling. The benchmark consists of more than 80K car-following events extracted from five public driving datasets using the same criteria. These events cover diverse situations including different road types, various weather conditions, and mixed traffic flows with autonomous vehicles. Moreover, to give an overview of current progress in car-following modeling, we implemented and tested representative baseline models with the benchmark. Results show that the deep deterministic policy gradient (DDPG) based model performs competitively with a lower MSE for spacing compared to traditional intelligent driver model (IDM) and Gazis-Herman-Rothery (GHR) models, and a smaller collision rate compared to fully connected neural network (NN) and long short-term memory (LSTM) models in most datasets. The established benchmark will provide researchers with consistent data formats and metrics for cross-comparing different car-following models, promoting the development of more accurate models. We open-source our dataset and implementation code in https://github.com/HKUST-DRIVE-AI-LAB/FollowNet.
翻訳日:2023-06-11 13:19:32 公開日:2023-05-25
# 拡散モデルを用いた衛星映像の異常検出

Anomaly Detection in Satellite Videos using Diffusion Models ( http://arxiv.org/abs/2306.05376v1 )

ライセンス: Link先を確認
Akash Awasthi, Son Ly, Jaer Nizam, Samira Zare, Videet Mehta, Safwan Ahmed, Keshav Shah, Ramakrishna Nemani, Saurabh Prasad, Hien Van Nguyen(参考訳) 異常検出の定義は予期せぬ事象の識別である。 衛星データによる山火事、サイクロン、洪水などの極端な事象のリアルタイム検出は、災害管理に不可欠である。 いくつかの地球観測衛星は災害に関する情報を提供するが、静止軌道上の衛星は毎分間隔でデータを供給し、事実上宇宙からビデオを生成する。 監視ビデオの異常を識別する技術は数多く提案されているが、利用可能なデータセットには動的な動作がないため、非常に高速な動きの異常を見つけるために非常に高周波なデータセットに作用する異常フレームワークについて議論する。 本研究では,移動速度の速い異常を捕捉し,他のベースライン法より優れる動き成分を必要としない拡散モデルを提案する。

The definition of anomaly detection is the identification of an unexpected event. Real-time detection of extreme events such as wildfires, cyclones, or floods using satellite data has become crucial for disaster management. Although several earth-observing satellites provide information about disasters, satellites in the geostationary orbit provide data at intervals as frequent as every minute, effectively creating a video from space. There are many techniques that have been proposed to identify anomalies in surveillance videos; however, the available datasets do not have dynamic behavior, so we discuss an anomaly framework that can work on very high-frequency datasets to find very fast-moving anomalies. In this work, we present a diffusion model which does not need any motion component to capture the fast-moving anomalies and outperforms the other baseline methods.
翻訳日:2023-06-11 13:18:59 公開日:2023-05-25
# 主流メディアにおけるチャットGPTのマッピング:感性分析と単語周波数分析による早期定量化

Mapping ChatGPT in Mainstream Media: Early Quantitative Insights through Sentiment Analysis and Word Frequency Analysis ( http://arxiv.org/abs/2305.18340v1 )

ライセンス: Link先を確認
Maya Karanouh(参考訳) 人工知能(AI)を搭載したチャットボットChatGPTのユーザ獲得と人気が指数関数的に上昇し、メディアが広く報道された。 本稿では,2022年11月のchatgptの開始から2023年3月にかけて,テキストマイニングとnlp手法を,チャットgptと人工知能に関連する主要ニュース見出し10,902のコーパスに適用して,初期の傾向と感情を定量的に分析した。 感情分析の結果,ChatGPTと人工知能は主流メディアでは否定的よりも肯定的であった。 単語の頻度については、トップ周波数の単語の60%以上が大手テック問題や俳優に焦点をあて、仕事、多様性、倫理、著作権、性別、女性といった話題は表現力に乏しく、コーパス全体の6%しか占めていなかった。 本稿では,その支配マトリックスにおけるビッグデータとビッグデータのパワー構造と共謀に関する批判的分析を行う。

The exponential growth in user acquisition and popularity of ChatGPT, an artificial intelligence(AI) powered chatbot, was accompanied by widespread mainstream media coverage. This article presents a quantitative data analysis of the early trends and sentiments revealed by conducting text mining and NLP methods onto a corpus of 10,902 mainstream news headlines related to the subject of ChatGPT and artificial intelligence, from the launch of ChatGPT in November 2022 to March 2023. The findings revealed in sentiment analysis, ChatGPT and artificial intelligence, were perceived more positively than negatively in the mainstream media. In regards to word frequency results, over sixty-five percent of the top frequency words were focused on Big Tech issues and actors while topics such as jobs, diversity, ethics, copyright, gender and women were poorly represented or completely absent and only accounted for six percent of the total corpus. This article is a critical analysis into the power structures and collusions between Big Tech and Big Media in their matrix of domination.
翻訳日:2023-06-04 11:22:49 公開日:2023-05-25
# chatgptに関する調査:aiが生成するコンテンツ、課題、ソリューション

A Survey on ChatGPT: AI-Generated Contents, Challenges, and Solutions ( http://arxiv.org/abs/2305.18339v1 )

ライセンス: Link先を確認
Yuntao Wang, Yanghe Pan, Miao Yan, Zhou Su, and Tom H. Luan(参考訳) ChatGPTのような大規模な人工知能(AI)モデルの普及に伴い、AIGC(AI- generated content)が注目され、コンテンツ生成と知識表現のパラダイムシフトを導いている。 AIGCは、生成可能な大規模なAIアルゴリズムを使用して、ユーザが提供するプロンプトに基づいて、大規模で高品質で人間らしいコンテンツをより高速で低コストで作成する、あるいは置き換える。 AIGCの最近の顕著な進歩にもかかわらず、セキュリティ、プライバシ、倫理、法的課題に対処する必要がある。 本稿では,aigcパラダイムの作業原則,セキュリティとプライバシの脅威,最先端のソリューション,今後の課題に関する詳細な調査を行う。 具体的には、まずAIGCの実現可能な技術、一般的なアーキテクチャについて検討し、その動作モードと重要な特徴について論じる。 そして、AIGCに対するセキュリティおよびプライバシの脅威の分類を調査し、GPTおよびAIGC技術の倫理的および社会的意味を強調する。 さらに,AIGCモデルとその生成コンテンツに関する拡張可能なAIGCパラダイムに対する,最先端のAIGC透かし手法について概説する。 最後に,AIGCに関する今後の課題と研究の方向性を明らかにする。

With the widespread use of large artificial intelligence (AI) models such as ChatGPT, AI-generated content (AIGC) has garnered increasing attention and is leading a paradigm shift in content creation and knowledge representation. AIGC uses generative large AI algorithms to assist or replace humans in creating massive, high-quality, and human-like content at a faster pace and lower cost, based on user-provided prompts. Despite the recent significant progress in AIGC, security, privacy, ethical, and legal challenges still need to be addressed. This paper presents an in-depth survey of working principles, security and privacy threats, state-of-the-art solutions, and future challenges of the AIGC paradigm. Specifically, we first explore the enabling technologies, general architecture of AIGC, and discuss its working modes and key characteristics. Then, we investigate the taxonomy of security and privacy threats to AIGC and highlight the ethical and societal implications of GPT and AIGC technologies. Furthermore, we review the state-of-the-art AIGC watermarking approaches for regulatable AIGC paradigms regarding the AIGC model and its produced content. Finally, we identify future challenges and open research directions related to AIGC.
翻訳日:2023-06-04 11:22:28 公開日:2023-05-25
# 合成画像の効用を披露する「完璧さ」は必要ありません

You Don't Have to Be Perfect to Be Amazing: Unveil the Utility of Synthetic Images ( http://arxiv.org/abs/2305.18337v1 )

ライセンス: Link先を確認
Xiaodan Xing, Federico Felder, Yang Nan, Giorgos Papanastasiou, Walsh Simon, Guang Yang(参考訳) 深層生成モデルから生成された合成画像は、データの不足やデータのプライバシー問題に対処する可能性がある。 合成モデルの選択は画像品質の測定に基づいており、ほとんどの研究者は、Fr'echet Inception Distance (FID) や高ピーク信号-ノイズ比 (PSNR) のような、良好な忠実度スコアを持つ画像を生成する合成画像を好む。 しかし, 合成画像の品質は忠実度に限らず, 合成画像の品質を総合的に測定するためには, 幅広い指標を総合的に評価する必要がある。 さらに, 品質指標は合成画像の有用性の真正な予測には至らず, これらの評価指標との関係は明らかになっていない。 本研究では,合成画像の忠実性,多様性,プライバシ,ユーティリティなど,総合的な評価器のセットを構築した。 100k以上の胸部X線画像とその合成コピーを分析し、合成画像の忠実度、多様性、プライバシーの間に必然的なトレードオフがあることを実証した。 さらに,実効性スコアは高忠実度と高多様性の画像を必要としないことを実証的に実証した。 タスク内およびクロスタスクデータの増大に対して、モード崩壊画像と低忠実度画像は依然として高い有用性を示すことができる。 最後に,本実験により,高ユーティリティと高プライバシの両方で画像を生成することが可能であることが示され,プライバシ保護アプリケーションにおける深部生成モデルの利用に強い根拠が得られた。 本研究は, 医用画像の総合的な評価指導と, 医用画像合成における有用性を考慮した深部生成モデルの開発を推し進めるものである。

Synthetic images generated from deep generative models have the potential to address data scarcity and data privacy issues. The selection of synthesis models is mostly based on image quality measurements, and most researchers favor synthetic images that produce realistic images, i.e., images with good fidelity scores, such as low Fr\'echet Inception Distance (FID) and high Peak Signal-To-Noise Ratio (PSNR). However, the quality of synthetic images is not limited to fidelity, and a wide spectrum of metrics should be evaluated to comprehensively measure the quality of synthetic images. In addition, quality metrics are not truthful predictors of the utility of synthetic images, and the relations between these evaluation metrics are not yet clear. In this work, we have established a comprehensive set of evaluators for synthetic images, including fidelity, variety, privacy, and utility. By analyzing more than 100k chest X-ray images and their synthetic copies, we have demonstrated that there is an inevitable trade-off between synthetic image fidelity, variety, and privacy. In addition, we have empirically demonstrated that the utility score does not require images with both high fidelity and high variety. For intra- and cross-task data augmentation, mode-collapsed images and low-fidelity images can still demonstrate high utility. Finally, our experiments have also showed that it is possible to produce images with both high utility and privacy, which can provide a strong rationale for the use of deep generative models in privacy-preserving applications. Our study can shore up comprehensive guidance for the evaluation of synthetic images and elicit further developments for utility-aware deep generative models in medical image synthesis.
翻訳日:2023-06-04 11:22:09 公開日:2023-05-25
# まだいるのか? 製品量子化とそのハードウェア加速

Are We There Yet? Product Quantization and its Hardware Acceleration ( http://arxiv.org/abs/2305.18334v1 )

ライセンス: Link先を確認
Javier Fernandez-Marques, Ahmed F. AbouElhamayed, Nicholas D. Lane, Mohamed S. Abdelfattah(参考訳) 従来の乗算累積(MAC)演算は、ディープニューラルネットワーク(DNN)の計算時間を支配してきた。 近年、製品量子化(PQ)がこれらのワークロードに成功し、MACをメモリルックアップに置き換え、事前に計算されたドット製品に置き換えている。 この性質は、PQをモデルアクセラレーションの魅力的なソリューションにするが、計算およびメモリフットプリントにおける関連するトレードオフや精度への影響についてはほとんど理解されていない。 本研究では,異なるPQ設定とトレーニング手法が階層的再構成誤差とエンドツーエンドモデル精度に与える影響について検討した。 PQ DNNのデプロイ効率を調べると、FLOPやパラメータの数、CPU/GPUのパフォーマンスといったメトリクスが誤解を招く可能性があることが分かります。 この問題に対処し、ハードウェア効率の観点からPQをより正確に評価するために、PQモデルの実行速度と効率を評価するための最初のカスタムハードウェアアクセラレータを設計する。 高度に最適化された従来のDNNアクセラレータと比較しても、ResNet20の性能を40%から104%向上させることができるPQ構成を同定する。 ハードウェア性能は最近のPQソリューションを4倍に上回り、精度は0.6%しか低下しない。 この研究は、PQモデルの実用的でハードウェアを意識した設計を実証し、この新たなDNN近似手法を広く採用する道を開いた。

Conventional multiply-accumulate (MAC) operations have long dominated computation time for deep neural networks (DNNs). Recently, product quantization (PQ) has been successfully applied to these workloads, replacing MACs with memory lookups to pre-computed dot products. While this property makes PQ an attractive solution for model acceleration, little is understood about the associated trade-offs in terms of compute and memory footprint, and the impact on accuracy. Our empirical study investigates the impact of different PQ settings and training methods on layerwise reconstruction error and end-to-end model accuracy. When studying the efficiency of deploying PQ DNNs, we find that metrics such as FLOPs, number of parameters, and even CPU/GPU performance, can be misleading. To address this issue, and to more fairly assess PQ in terms of hardware efficiency, we design the first custom hardware accelerator to evaluate the speed and efficiency of running PQ models. We identify PQ configurations that are able to improve performance-per-area for ResNet20 by 40%-104%, even when compared to a highly optimized conventional DNN accelerator. Our hardware performance outperforms recent PQ solutions by 4x, with only a 0.6% accuracy degradation. This work demonstrates the practical and hardware-aware design of PQ models, paving the way for wider adoption of this emerging DNN approximation methodology.
翻訳日:2023-06-04 11:21:39 公開日:2023-05-25
# 待ち, 禁止, 受け入れ: 高等教育における生成AIへの適応政策の実証分析

Waiting, Banning, and Embracing: An Empirical Analysis of Adapting Policies for Generative AI in Higher Education ( http://arxiv.org/abs/2305.18617v1 )

ライセンス: Link先を確認
Ping Xiao, Yuanyuan Chen, and Weining Bao(参考訳) ChatGPTのようなジェネレーティブAIツールは近年、高等教育において大きな注目を集めている。 本研究の目的は、大学がAIツールの使用に関する政策を確立する方法を理解し、意思決定に影響を与える要因を探ることである。 本研究では,世界中の大学におけるChatGPT政策について,その存在,内容,発行日などについて検討した。 具体的には、2022年QS世界大学ランキングで上位500大学を分析した。 その結果,大学政策に有意な差異があることが示唆された。 この研究に含まれる大学の3分の1以下は、ChatGPTポリシーを実装していた。 ChatGPTポリシーを持つ大学のうち、約67%がChatGPTを教育と学習に取り入れており、その2倍以上の大学がChatGPTを禁止している。 評価においてchatgptの使用を禁止している大学の大半は、個々のインストラクターがこの制限的な政策から逸脱することを許している。 実験分析により,大学におけるChatGPT政策の可能性が,英語圏の大学における評価スコアや,ChatGPTに対する一般大衆の態度など,大きく,肯定的に相関している要因が明らかになった。 また,大学が禁止方針をとる確率は,学部生の比率,引用率,英語圏のダミーと正の相関があるのに対し,同じ国内でチャットgptを禁止している大学の数は負の相関関係にあることが分かった。 大学が直面する課題を経験的知見に基づいて議論する。

Generative AI tools such as ChatGPT have recently gained significant attention in higher education. This study aims to understand how universities establish policies regarding the use of AI tools and explore the factors that influence their decisions. Our study examines ChatGPT policies implemented at universities around the world, including their existence, content, and issuance dates. Specifically, we analyzed the top 500 universities according to the 2022 QS World University Rankings. Our findings indicate that there is significant variation in university policies. Less than one-third of the universities included in the study had implemented ChatGPT policies. Of the universities with ChatGPT policies, approximately 67 percent embraced ChatGPT in teaching and learning, more than twice the number of universities that banned it. The majority of the universities that ban the use of ChatGPT in assessments allow individual instructors to deviate from this restrictive policy. Our empirical analysis identifies several factors that are significantly and positively correlated with a university's likelihood of having a ChatGPT policy, including the university's academic reputation score, being in an English-speaking country, and the general public attitudes toward ChatGPT. In addition, we found that a university's likelihood of having a ban policy is positively associated with faculty student ratio, citations, and the English-speaking country dummy, while negatively associated with the number of peer universities within the same country that have banned ChatGPT. We discuss the challenges faced by universities based our empirical findings.
翻訳日:2023-06-04 11:10:00 公開日:2023-05-25
# コンパイラ生成強化学習フィードバックによるコードのチューニングモデル

Tuning Models of Code with Compiler-Generated Reinforcement Learning Feedback ( http://arxiv.org/abs/2305.18341v1 )

ライセンス: Link先を確認
Abhinav Jain (1), Chima Adiole (1), Swarat Chaudhuri (2), Thomas Reps (3), Chris Jermaine (1) ((1) Rice University, (2) UT Austin, (3) University of Wisconsin)(参考訳) コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主要なアプローチとして最近登場した。 しかし、これらのモデルが生成するコードは基本的な言語レベルの不変性に反し、下流タスクのパフォーマンスが低下する可能性がある。 RLCFと呼ばれるアプローチによってこの問題に対処し、コードコンパイラからのフィードバックを使って事前訓練されたLLMをさらに訓練する。 rlcfは、llmをステップバイステップでコードを生成し、受信するrlエージェントとして捉えている。 (i) 生成するコードが一連の正当性チェックを通すかどうかに関するコンパイラからのフィードバック (ii)異なるllmからのフィードバックは、生成したコードがトレーニングコーパス内の一連の参照プログラムに類似しているかどうかを判断する。 これらのフィードバックメカニズムは、静的な修正チェックをすべてパスしながら、生成されたコードをターゲットディストリビューション内に保持するのに役立つ。 RLCFはモデルと言語に依存しない。 JavaのMBJPタスクとMathQAタスクで実証的に評価します。 実験の結果,LCF は LLM が生成したプログラムが実行可能である確率を著しく高め,テスト時に適切な出力を出力し,LLM が 2x-8 以上の LLM の性能に匹敵することを示した。

Large Language Models (LLMs) pre-trained on code have recently emerged as the dominant approach to program synthesis. However, the code that these models produce can violate basic language-level invariants, leading to lower performance in downstream tasks. We address this issue through an approach, called RLCF, that further trains a pre-trained LLM using feedback from a code compiler. RLCF views the LLM as an RL agent that generates code step by step and receives: (i) compiler-derived feedback on whether the code it generates passes a set of correctness checks; and (ii) feedback from a different LLM on whether the generated code is similar to a set of reference programs in the training corpus. Together, these feedback mechanisms help the generated code remain within the target distribution while passing all static correctness checks. RLCF is model- and language-agnostic. We empirically evaluate it on the MBJP and MathQA tasks for Java. Our experiments show that RLCF significantly raises the odds that an LLM-generated program compiles, is executable, and produces the right output on tests, often allowing LLMs to match the performance of 2x-8x larger LLMs.
翻訳日:2023-06-04 11:08:02 公開日:2023-05-25
# 教師付き注意型マルチインスタンス学習による多視点超音波画像からの心疾患検出

Detecting Heart Disease from Multi-View Ultrasound Images via Supervised Attention Multiple Instance Learning ( http://arxiv.org/abs/2306.00003v1 )

ライセンス: Link先を確認
Zhe Huang, Benjamin S. Wessler, Michael C.Hughes(参考訳) 大動脈弁狭窄症(as)は、実質的な死亡と致死を引き起こす変性弁疾患である。 この状態は診断され、治療されない。 臨床では、心臓の数十枚の超音波画像を生成する経胸部心エコー検査のエキスパートレビューで診断される。 これらの図のいくつかだけが大動脈弁を示している。 ASのスクリーニングを自動化するためには、深層ネットワークは、ヒトの専門家が大動脈弁の視界を識別し、関連する画像を集約して研究レベルの診断を生成する能力の模倣を学ぶ必要がある。 従来のAS検出手法では、画像間の非フレキシブル平均に依存するため、精度が不十分であった。 さらに,市販の注目型マルチインスタンス学習 (MIL) では性能が低かった。 2つの重要な方法論的革新で、新しいエンドツーエンドのMILアプローチに貢献します。 まず、教師付注意技法は、学習した注意機構を導き、関連する視点を優先する。 第2に,新しい自己教師付き事前学習戦略は,先行文献で一般的である個々の画像ではなく,研究全体の表現に対比学習を適用する。 オープンアクセスデータセットと外部検証セットを用いた実験により,モデルサイズを削減しつつ,高い精度が得られることを示す。

Aortic stenosis (AS) is a degenerative valve condition that causes substantial morbidity and mortality. This condition is under-diagnosed and under-treated. In clinical practice, AS is diagnosed with expert review of transthoracic echocardiography, which produces dozens of ultrasound images of the heart. Only some of these views show the aortic valve. To automate screening for AS, deep networks must learn to mimic a human expert's ability to identify views of the aortic valve then aggregate across these relevant images to produce a study-level diagnosis. We find previous approaches to AS detection yield insufficient accuracy due to relying on inflexible averages across images. We further find that off-the-shelf attention-based multiple instance learning (MIL) performs poorly. We contribute a new end-to-end MIL approach with two key methodological innovations. First, a supervised attention technique guides the learned attention mechanism to favor relevant views. Second, a novel self-supervised pretraining strategy applies contrastive learning on the representation of the whole study instead of individual images as commonly done in prior literature. Experiments on an open-access dataset and an external validation set show that our approach yields higher accuracy while reducing model size.
翻訳日:2023-06-04 11:00:25 公開日:2023-05-25
# プログラム分割とフィルイン型トレーニングによる型予測

Type Prediction With Program Decomposition and Fill-in-the-Type Training ( http://arxiv.org/abs/2305.17145v1 )

ライセンス: Link先を確認
Federico Cassano, Ming-Ho Yee, Noah Shinn, Arjun Guha, Steven Holtzen(参考訳) TypeScriptとPythonは、オプションの型アノテーションをサポートする2つのプログラミング言語である。 これは自動型予測の動機となっている: 型なしのプログラムが与えられたら、よく型付けされた出力プログラムを生成する。 型予測には大きな言語モデル(LLM)が期待されているが、性能が悪く、プログラムがコンテキストウィンドウに収まらないこと、生成された型が型チェックをしないこと、出力プログラムがどの程度うまく型付けされているかを測定することは困難である。 大規模な言語モデルを活用する型予測のための検索ベースのアプローチであるOpenTauを構築することで、これらの課題に対処する。 本稿では,型予測品質の新たな指標を提案し,生成した型空間を探索する木に基づくプログラム分解を行い,LLMの補間ファインタニングを提案する。 TypeScriptの型予測のための新しいデータセットで作業を評価し、ファイルタイプチェックの47.4%(14.5%の絶対的改善)とファイル毎の3.3型のエラー率を示している。 すべてのコード、データ、モデルは、https://github.com/GammaTauAI/opentau.comで入手できる。

TypeScript and Python are two programming languages that support optional type annotations, which are useful but tedious to introduce and maintain. This has motivated automated type prediction: given an untyped program, produce a well-typed output program. Large language models (LLMs) are promising for type prediction, but there are challenges: fill-in-the-middle performs poorly, programs may not fit into the context window, generated types may not type check, and it is difficult to measure how well-typed the output program is. We address these challenges by building OpenTau, a search-based approach for type prediction that leverages large language models. We propose a new metric for type prediction quality, give a tree-based program decomposition that searches a space of generated types, and present fill-in-the-type fine-tuning for LLMs. We evaluate our work with a new dataset for TypeScript type prediction, and show that 47.4% of files type check (14.5% absolute improvement) with an overall rate of 3.3 type errors per file. All code, data, and models are available at: https://github.com/GammaTauAI/opentau.
翻訳日:2023-05-30 23:34:54 公開日:2023-05-25
# ghost in the minecraft: テキストベースの知識とメモリを備えた大規模言語モデルによるオープンワールド環境のエージェント

Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory ( http://arxiv.org/abs/2305.17144v1 )

ライセンス: Link先を確認
Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai(参考訳) 近年、Minecraftの魅惑的な領域は、オープンワールド環境で機能するインテリジェントエージェントを開発するための豊富なプラットフォームとして、かなりの研究関心を集めている。 しかし、現在の研究の展望は主に一般的な「オブタンダイアモンド」タスクのような特定の目的に焦点を当てており、より広い範囲のタスクに対して効果的な一般化をまだ示していない。 さらに、"ObtainDiamond"タスクの現在の成功率は約20%であり、既存のメソッドで使用される強化学習(RL)ベースのコントローラの制限を強調している。 これらの課題に対処するために、Ghost in the Minecraft (GITM)という、テキストベースの知識と記憶とLarge Language Models (LLM)を統合した新しいフレームワークを紹介します。 これらのエージェントはLLMの論理的・常識的能力を備えており、テキストベースのインタラクションで複雑な疎逆環境を巧みにナビゲートすることができる。 我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 結果として生じるLCMベースのエージェントは、従来のRLベースのコントローラよりも優れたロバスト性を示し、"ObtainDiamond"タスクで+47.5%の成功率を著しく向上させた。 特に、当社のエージェントはminecraft overworld technology treeのすべてのアイテムを初めて入手し、その広範な機能を示しました。 GITMはトレーニングにGPUを必要としないが、32CPUコアを持つ単一のCPUノードで十分である。 本研究は,LLMが長期の複雑なタスクに対処し,オープンワールド環境における不確実性に適応するための有能なエージェントを開発する可能性を示す。 プロジェクトのWebサイトはhttps://github.com/OpenGVLab/GITMを参照してください。

The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predominantly focuses on specific objectives, such as the popular "ObtainDiamond" task, and has not yet shown effective generalization to a broader spectrum of tasks. Furthermore, the current leading success rate for the "ObtainDiamond" task stands at around 20%, highlighting the limitations of Reinforcement Learning (RL) based controllers used in existing methods. To tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel framework integrates Large Language Models (LLMs) with text-based knowledge and memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These agents, equipped with the logic and common sense capabilities of LLMs, can skillfully navigate complex, sparse-reward environments with text-based interactions. We develop a set of structured actions and leverage LLMs to generate action plans for the agents to execute. The resulting LLM-based agent markedly surpasses previous methods, achieving a remarkable improvement of +47.5% in success rate on the "ObtainDiamond" task, demonstrating superior robustness compared to traditional RL-based controllers. Notably, our agent is the first to procure all items in the Minecraft Overworld technology tree, demonstrating its extensive capabilities. GITM does not need any GPU for training, but a single CPU node with 32 CPU cores is enough. This research shows the potential of LLMs in developing capable agents for handling long-horizon, complex tasks and adapting to uncertainties in open-world environments. See the project website at https://github.com/OpenGVLab/GITM.
翻訳日:2023-05-30 23:34:03 公開日:2023-05-25
# 一般スーパーネットワークにおけるニューラルネットワークの自動探索に向けて

Towards Automatic Neural Architecture Search within General Super-Networks ( http://arxiv.org/abs/2305.18030v1 )

ライセンス: Link先を確認
Tianyi Chen, Luming Liang, Tianyu Ding, Ilya Zharkov(参考訳) 既存のニューラルネットワークサーチ(NAS)手法は、通常、事前に手作りのサーチスペースを持つ、特定の超深層ニューラルネットワーク(スーパーネットワーク)に依存している。 このような要件は、人間の専門知識や手作業による介入なしに、一般的なシナリオにそれらを拡張することが難しくなります。 この制限を克服するため、我々はNot-Train-Once(OTOv3)の第3世代を提案する。 OTOv3はおそらく、一般的なスーパーネットワークを訓練し、単発で高性能なサブネットワークを事前訓練や微調整なしで製造する最初の自動化システムである。 技術的には、OTOv3は人間の努力を最小限にするために3つの顕著な貢献をしている。 (i)一般スーパーネットワークのための検索空間の自動構築 (ii)階層的半空間投影勾配(h2spg)で、依存グラフを利用して最適化中のネットワークの妥当性を確保し、高い性能と階層的グループスパーシティの両方のソリューションを確実に作成する。 (iii)スーパーネットワークとh2spgソリューションに基づくサブネットワークの自動構築。 数値計算により,regnet,stackedunets,superresnet,dartなどのスーパーネットワーク上で,cifar10, fashion-mnist,imagenet,stl-10,svnhなどのベンチマークデータセット上でのotov3の有効性を示す。 OTOv3によって計算されたサブネットワークは、スーパーネットワークや他の最先端技術と比較して、より優れたパフォーマンスを達成する。 ライブラリはhttps://github.com/tianyic/only_train_onceでリリースされる。

Existing neural architecture search (NAS) methods typically rely on pre-specified super deep neural networks (super-networks) with handcrafted search spaces beforehand. Such requirements make it challenging to extend them onto general scenarios without significant human expertise and manual intervention. To overcome the limitations, we propose the third generation of Only-Train-Once (OTOv3). OTOv3 is perhaps the first automated system that trains general super-networks and produces high-performing sub-networks in the one shot manner without pretraining and fine-tuning. Technologically, OTOv3 delivers three noticeable contributions to minimize human efforts: (i) automatic search space construction for general super-networks; (ii) a Hierarchical Half-Space Projected Gradient (H2SPG) that leverages the dependency graph to ensure the network validity during optimization and reliably produces a solution with both high performance and hierarchical group sparsity; and (iii) automatic sub-network construction based on the super-network and the H2SPG solution. Numerically, we demonstrate the effectiveness of OTOv3 on a variety of super-networks, including RegNet, StackedUnets, SuperResNet, and DARTS, over benchmark datasets such as CIFAR10, Fashion-MNIST, ImageNet, STL-10, and SVNH. The sub-networks computed by OTOv3 achieve competitive even superior performance compared to the super-networks and other state-of-the-arts. The library will be released at https://github.com/tianyic/only_train_once.
翻訳日:2023-05-30 15:09:20 公開日:2023-05-25
# ディープベイズ最適化を用いた逆タンパク質フォールディング

Inverse Protein Folding Using Deep Bayesian Optimization ( http://arxiv.org/abs/2305.18089v1 )

ライセンス: Link先を確認
Natalie Maus and Yimeng Zeng and Daniel Allen Anderson and Phillip Maffettone and Aaron Solomon and Peyton Greenside and Osbert Bastani and Jacob R. Gardner(参考訳) 逆タンパク質折り畳み(inverse protein folding) -- バックボーン原子座標からタンパク質配列を予測するタスク -- は、タンパク質の「トップダウン」における重要な問題として表面化した。 現代のアプローチでは、タンパク質配列上の大きな生成モデルがバックボーンに条件付けされている条件付き生成モデル問題としてこの問題が取り上げられている。 これらの生成モデルは、非常に高速に有望なシーケンスを生成するが、生成モデルからの独立な描画は、正しいバックボーンに確実に折り畳まれるシーケンスを生成できない可能性がある。 さらに、制約がある場合など、純粋な生成アプローチを他の設定に適応させることは困難である。 本稿では,近年のベイズ最適化における「深い」あるいは「相対空間」を用いて解く最適化問題として,生成する逆折りたたみを改良する問題を取り上げる。 本手法は, tmスコアとrmsdで測定した目標骨格構造に対する構造的誤差を大幅に低減したタンパク質配列を, 少ない計算資源で一貫して生成する。 さらに,制約に対処する能力など,この問題に対する最適化ベースのアプローチの他の利点を示す。

Inverse protein folding -- the task of predicting a protein sequence from its backbone atom coordinates -- has surfaced as an important problem in the "top down", de novo design of proteins. Contemporary approaches have cast this problem as a conditional generative modelling problem, where a large generative model over protein sequences is conditioned on the backbone. While these generative models very rapidly produce promising sequences, independent draws from generative models may fail to produce sequences that reliably fold to the correct backbone. Furthermore, it is challenging to adapt pure generative approaches to other settings, e.g., when constraints exist. In this paper, we cast the problem of improving generated inverse folds as an optimization problem that we solve using recent advances in "deep" or "latent space" Bayesian optimization. Our approach consistently produces protein sequences with greatly reduced structural error to the target backbone structure as measured by TM score and RMSD while using fewer computational resources. Additionally, we demonstrate other advantages of an optimization-based approach to the problem, such as the ability to handle constraints.
翻訳日:2023-05-30 15:03:30 公開日:2023-05-25
# 分子ドッキングと機械学習回帰法を用いたCOVID-19 3CLプロテアーゼを標的とした薬物精製

Drug Repurposing Targeting COVID-19 3CL Protease using Molecular Docking and Machine Learning Regression Approach ( http://arxiv.org/abs/2305.18088v1 )

ライセンス: Link先を確認
Imra Aqeel, Abdul Majid(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界的な健康危機を引き起こし、治療薬の早期発見の必要性が高まっている。 本研究では,SARS-CoV-2の主要プロテアーゼ3CLを標的とした新型コロナウイルス治療の可能性として,FDAが承認した5903薬を含む世界承認薬をスクリーニングするために,Zincデータベースを使用した。 薬物分子の有効性を確認するため,autodock-vinaを用いた分子ドッキングを行った。 薬物再資源化手法の効率を高めるために, 決定木, 余剰木, MLP, KNN, XGBoost, 勾配ブースティングなどのQSARモデリングのための機械学習回帰手法を用いて, 結合親和性をモデル化した。 その結果,決定木回帰(DTR)モデルにより,R2およびRMSEの統計的測定精度が向上した。 これらのシミュレーション結果は高い結合親和性と良好な結合エネルギーを有する薬物の同定に寄与した。 統計分析の結果,ZINC0003873365,ZINC000085432544,ZINC000203757351,ZINC000085536956,ZINC000085536990,ZINC0008214470,Z INC000261494640,ZINC000169344691,ZINC000094303244,ZINC00009565618608,ZINC0000956565669,ZINC000095618 743,ZINC0002568676767の範囲内において,それぞれ13の有望薬物(ZINC00009565656743,ZINC0002568676767)を検索した。 さらに, 特定のプロテアーゼに対する最適な結合相互作用に関して, 選択された薬剤の物理化学的性質を解析した。 我々の研究は、COVID-19に対する薬物再精製の効果的な枠組みを提供してきた。 これは、分子ドッキングと機械学習回帰アプローチを組み合わせることで、潜在的な治療候補の同定を加速する可能性を強調している。

The COVID-19 pandemic has created a global health crisis, driving the need for the rapid identification of potential therapeutics. In this study, we used the Zinc database to screen the world-approved including FDA-approved 5903 drugs for repurposing as potential COVID-19 treatments targeting the main protease 3CL of SARS-CoV-2. We performed molecular docking using Autodock-Vina to check the efficacy of drug molecules. To enhance the efficiency of drug repurposing approach, we modeled the binding affinities using several machine learning regression approaches for QSAR modeling such as decision tree, extra trees, MLP, KNN, XGBoost, and gradient boosting. The computational results demonstrated that Decision Tree Regression (DTR) model has improved statistical measures of R2 and RMSE. These simulated results helped to identify drugs with high binding affinity and favorable binding energies. From the statistical analysis, we shortlisted 13 promising drugs with their respective Zinc IDs (ZINC000003873365, ZINC000085432544, ZINC000203757351, ZINC000085536956, ZINC000085536990, ZINC000008214470, ZINC000261494640, ZINC000169344691, ZINC000094303244, ZINC000095618608, ZINC000095618689, ZINC000095618743, and ZINC000253684767) within the range of -15.1 kcal/mol to -12.7 kcal/mol. Further, we analyzed the physiochemical properties of these selected drugs with respect to their best binding interaction to specific target protease. Our study has provided an efficient framework for drug repurposing against COVID-19. This highlights the potential of combining molecular docking with machine learning regression approaches to accelerate the identification of potential therapeutic candidates.
翻訳日:2023-05-30 15:03:09 公開日:2023-05-25
# quantum 3.0: 量子学習、量子ヒューリスティックなど

Quantum 3.0: Quantum Learning, Quantum Heuristics and Beyond ( http://arxiv.org/abs/2305.18091v1 )

ライセンス: Link先を確認
Mrittunjoy Guha Majumdar(参考訳) 量子学習パラダイム(quantum learning paradigms)は、量子力学と情報処理の概念的要素を最大限に活用し、経験を通じて特定のタスクに対するコンピューティングシステムの操作性と機能を改善する方法について論じる。 これは、物理学、統計、情報処理の交差点に位置し、データサイエンス、機械学習、人工知能の次のフロンティアである。 量子学習パラダイムの進歩は、より効率的なデータストレージと計算速度の必要性、新しいアルゴリズムの開発、および特定の物理システムと学習アーキテクチャの間の構造的共鳴など、複数の要因によって駆動される。 高度な科学分析や商業といった分野におけるデータ集約的プロセスに対するより良い計算方法の要求に加え、教育、エネルギー、マーケティング、医薬品、医療、金融、産業におけるデータ駆動意思決定の促進が求められている。

Quantum learning paradigms address the question of how best to harness conceptual elements of quantum mechanics and information processing to improve operability and functionality of a computing system for specific tasks through experience. It is one of the fastest evolving framework, which lies at the intersection of physics, statistics and information processing, and is the next frontier for data sciences, machine learning and artificial intelligence. Progress in quantum learning paradigms is driven by multiple factors: need for more efficient data storage and computational speed, development of novel algorithms as well as structural resonances between specific physical systems and learning architectures. Given the demand for better computation methods for data-intensive processes in areas such as advanced scientific analysis and commerce as well as for facilitating more data-driven decision-making in education, energy, marketing, pharmaceuticals and health-care, finance and industry.
翻訳日:2023-05-30 14:49:28 公開日:2023-05-25
# 吸収を伴うカオスキャビティの時間遅延統計

Time delay statistics for chaotic cavities with absorption ( http://arxiv.org/abs/2305.18235v1 )

ライセンス: Link先を確認
Marcel Novaes(参考訳) 量子カオス系における時間遅延統計に対する半古典的アプローチとして、吸収の存在下での時間反転対称性の破れについて述べる。 時間遅延作用素のシュールモーメントに対する3種類の式を導出する: 逆チャネル数におけるパワー級数として1/M$、係数が吸収時間の有理関数として$\tau_a$、係数がM$の有理関数である強い吸収に合わせた$\tau_a$、係数がM$の有理関数として$/\tau_a$、係数がM$の有理関数である弱い吸収に調整された$/M$。

We present a semiclassical approach for time delay statistics in quantum chaotic systems, in the presence of absorption, for broken time-reversal symmetry. We derive three kinds of expressions for Schur-moments of the time delay operator: as a power series in inverse channel number, $1/M$, whose coefficients are rational functions of absorption time, $\tau_a$; as a power series in $\tau_a$, tailored to strong absorption, whose coefficients are rational functions of $M$; as a power series in $1/\tau_a$, tailored to weak absorption, whose coefficients are rational functions of $M$.
翻訳日:2023-05-30 14:03:14 公開日:2023-05-25
# 学習予測を用いたオンライン動的認識

Online Dynamic Acknowledgement with Learned Predictions ( http://arxiv.org/abs/2305.18227v1 )

ライセンス: Link先を確認
Sungjin Im, Benjamin Moseley, Chenyang Xu, Ruilong Zhang(参考訳) オンラインの動的認識問題を再検討する。 問題では、リクエストのシーケンスが時間とともに到着して認識され、すべての優れたリクエストが1つの承認によって同時に満たされる。 問題の目標は、要求の総遅延と承認コストを最小化することである。 このエレガントなモデルは、承認コストと要求によって経験される待ちの間のトレードオフを研究する。 この問題はよく研究され、厳しい競争比率が決定されている。 このよく研究された問題に対して、より優れた性能を得るために機械学習による予測を効果的に活用する方法に焦点をあてる。 精度の高い予測で最適に任意に接近するアルゴリズムを開発し、予測にアクセスせずに最良のオンラインアルゴリズムが提供できるものに近い保証を同時に有し、同時に最適な一貫性と堅牢性を達成する。 この新たな結果は,新しい予測誤差尺度によって実現される。 作業前に問題に対するエラー対策は定義されておらず,到達時間の異なる要求が目的に対して異なる影響を持つという課題により,自然な対策は失敗に終わった。 当社のアイデアが,適切なエラー対策に抵抗する時間的側面を持つ,他のオンライン問題にも活用できることを願っています。

We revisit the online dynamic acknowledgment problem. In the problem, a sequence of requests arrive over time to be acknowledged, and all outstanding requests can be satisfied simultaneously by one acknowledgement. The goal of the problem is to minimize the total request delay plus acknowledgement cost. This elegant model studies the trade-off between acknowledgement cost and waiting experienced by requests. The problem has been well studied and the tight competitive ratios have been determined. For this well-studied problem, we focus on how to effectively use machine-learned predictions to have better performance. We develop algorithms that perform arbitrarily close to the optimum with accurate predictions while concurrently having the guarantees arbitrarily close to what the best online algorithms can offer without access to predictions, thereby achieving simultaneous optimum consistency and robustness. This new result is enabled by our novel prediction error measure. No error measure was defined for the problem prior to our work, and natural measures failed due to the challenge that requests with different arrival times have different effects on the objective. We hope our ideas can be used for other online problems with temporal aspects that have been resisting proper error measures.
翻訳日:2023-05-30 14:02:33 公開日:2023-05-25
# 「なぜこの仕事を彼らに割り当てなかったのですか。」 ネゴシエーション・アウェアなタスク割当と対比的説明生成

`Why didn't you allocate this task to them?' Negotiation-Aware Explicable Task Allocation and Contrastive Explanation Generation ( http://arxiv.org/abs/2002.01640v4 )

ライセンス: Link先を確認
Zahra Zahedi, Sailik Sengupta, Subbarao Kambhampati(参考訳) タスク割り当てはマルチエージェントシステムにおいて重要な問題である。 チームメンバーがチームメイトのコストと全体的なパフォーマンス指標について不完全な知識を持つ人間である場合、より難しくなります。 本稿では,交渉をシミュレートした集中型人工知能タスク割当(AITA)を提案し,交渉に配慮した説明可能なタスク割当を生成する。 チームメンバーが提案された割り当てに不満であれば、反事実を使って、提案された割り当てに疑問を投げかけることができます。 模擬交渉の一部を利用することで、他人のホイルを補充するコストについて最小限の情報を提供する対照的な説明を行うことができる。 人間の研究では,(1)本手法を用いて提案した割当が多数派に公平に現れ,(2)反事実が生じると,その説明が容易に理解され,納得できることを示す。 最後に、異なる種類の不完全性が説明長に及ぼす影響を実証的に研究し、チームメイトのコストの過小評価がしばしばそれを増加させることを見出します。

Task allocation is an important problem in multi-agent systems. It becomes more challenging when the team-members are humans with imperfect knowledge about their teammates' costs and the overall performance metric. In this paper, we propose a centralized Artificial Intelligence Task Allocation (AITA) that simulates a negotiation and produces a negotiation-aware explicable task allocation. If a team-member is unhappy with the proposed allocation, we allow them to question the proposed allocation using a counterfactual. By using parts of the simulated negotiation, we are able to provide contrastive explanations that provide minimum information about other's cost to refute their foil. With human studies, we show that (1) the allocation proposed using our method appears fair to the majority, and (2) when a counterfactual is raised, explanations generated are easy to comprehend and convincing. Finally, we empirically study the effect of different kinds of incompleteness on the explanation-length and find that underestimation of a teammate's costs often increases it.
翻訳日:2023-05-30 01:19:00 公開日:2023-05-25
# 引数マイニングのためのマルチタスク注意残差ネットワーク

Multi-Task Attentive Residual Networks for Argument Mining ( http://arxiv.org/abs/2102.12227v3 )

ライセンス: Link先を確認
Andrea Galassi, Marco Lippi, Paolo Torroni(参考訳) 複数の引数マイニングタスクにおける残差ネットワークとニューラルアテンションの利用について検討する。 本稿では,文書構造や引数構造を仮定することなく,注意とマルチタスク学習を活用し,アンサンブルを利用した残余アーキテクチャを提案する。 我々は,ユーザ生成コメント,科学論文,説得エッセイの5つのコーパスについて,広範囲にわたる実験的評価を行った。 以上の結果から,本手法は高度な計算フットプリントやコーパス固有の設計を持つ最先端アーキテクチャに対する強力な競合であり,汎用性,性能精度,モデルサイズ削減の両立を図っている。

We explore the use of residual networks and neural attention for multiple argument mining tasks. We propose a residual architecture that exploits attention, multi-task learning, and makes use of ensemble, without any assumption on document or argument structure. We present an extensive experimental evaluation on five different corpora of user-generated comments, scientific publications, and persuasive essays. Our results show that our approach is a strong competitor against state-of-the-art architectures with a higher computational footprint or corpus-specific design, representing an interesting compromise between generality, performance accuracy and reduced model size.
翻訳日:2023-05-30 00:44:57 公開日:2023-05-25
# ニューラルネットワークにおける2次元曲線:ガウス過程を用いた新しい展望

Double-descent curves in neural networks: a new perspective using Gaussian processes ( http://arxiv.org/abs/2102.07238v5 )

ライセンス: Link先を確認
Ouns El Harzli, Bernardo Cuenca Grau, Guillermo Valle-P\'erez and Ard A. Louis(参考訳) ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加と共に下降する現象を記述し、データポイントの数より少ない最適なパラメータ数に達した後に成長するが、過度にパラメータ化された状態に再び下降する。 本稿では、ニューラルネットワークガウス過程(NNGP)カーネルのスペクトルの幅依存性摂動として経験的特徴共分散行列のスペクトル分布を特徴付けるために、ランダム行列理論の手法を用いて、ニューラルネットワークの文脈におけるNNGP文献とランダム行列理論の文献との新たな接続を確立する。 解析式は,対応するカーネルの一般化挙動とGP回帰を解析し,広帯域依存的経験的カーネルと広帯域非依存的NNGPカーネルとの相違によって支配される二重発光現象の新たな解釈を提供する。

Double-descent curves in neural networks describe the phenomenon that the generalisation error initially descends with increasing parameters, then grows after reaching an optimal number of parameters which is less than the number of data points, but then descends again in the overparameterized regime. In this paper, we use techniques from random matrix theory to characterize the spectral distribution of the empirical feature covariance matrix as a width-dependent perturbation of the spectrum of the neural network Gaussian process (NNGP) kernel, thus establishing a novel connection between the NNGP literature and the random matrix theory literature in the context of neural networks. Our analytical expression allows us to study the generalisation behavior of the corresponding kernel and GP regression, and provides a new interpretation of the double-descent phenomenon, namely as governed by the discrepancy between the width-dependent empirical kernel and the width-independent NNGP kernel.
翻訳日:2023-05-30 00:44:46 公開日:2023-05-25
# 3次元点雲の部分分割に対するクロスシェイプ注意

Cross-Shape Attention for Part Segmentation of 3D Point Clouds ( http://arxiv.org/abs/2003.09053v5 )

ライセンス: Link先を確認
Marios Loizou, Siddhant Garg, Dmitry Petrov, Melinos Averkiou, Evangelos Kalogerakis(参考訳) 本稿では,3次元形状分割を目的とし,コレクション内の形状にまたがる点的特徴表現を伝播する深層学習手法を提案する。 形状の特徴と他の形状との相互作用を可能にするクロスシェイプアテンション機構を提案する。 このメカニズムは、点間の相互作用の度合いと、形状間の特徴伝播の仲介の両方を評価し、その結果の点次特徴表現の精度と一貫性を向上させる。 また,各試験形状に対して,横断型注意操作に適した形状を選択する形状検索手法を提案する。 我々の実験は、私たちのアプローチが人気のPartNetデータセットに最先端の結果をもたらすことを示した。

We present a deep learning method that propagates point-wise feature representations across shapes within a collection for the purpose of 3D shape segmentation. We propose a cross-shape attention mechanism to enable interactions between a shape's point-wise features and those of other shapes. The mechanism assesses both the degree of interaction between points and also mediates feature propagation across shapes, improving the accuracy and consistency of the resulting point-wise feature representations for shape segmentation. Our method also proposes a shape retrieval measure to select suitable shapes for cross-shape attention operations for each test shape. Our experiments demonstrate that our approach yields state-of-the-art results in the popular PartNet dataset.
翻訳日:2023-05-30 00:44:29 公開日:2023-05-25
# crosssum: 1500以上の言語ペアに対する英語中心のクロスリンガル要約

CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+ Language Pairs ( http://arxiv.org/abs/2112.08804v3 )

ライセンス: Link先を確認
Abhik Bhattacharjee, Tahmid Hasan, Wasi Uddin Ahmad, Yuan-Fang Li, Yong-Bin Kang, Rifat Shahriyar(参考訳) 1500以上の言語対における1,68万記事要約サンプルからなる大規模言語間要約データセットであるCrossSumについて述べる。 多言語抽象要約データセットから言語間検索により、異なる言語で書かれた並列記事の調整を行い、その品質を検証するために制御された人間評価を行うことでクロスサムを作成する。 対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。 また,モデル生成要約を自動的に評価する組み込みメトリクスであるlaseも紹介する。 LaSEはROUGEと強く相関しており、ROUGEとは異なり、ターゲット言語に参照がない場合でも確実に測定することができる。 ROUGEとLaSEの性能は,提案モデルがベースラインモデルより一貫して優れていることを示している。 私たちの知る限りでは、CrossSumは最大の言語間要約データセットであり、英語を中心としない初めてのデータセットです。 データセット、トレーニング、評価スクリプト、モデルをリリースし、言語間の要約に関する将来の研究を促進する。 リソースはhttps://github.com/csebuetnlp/crosssumにある。

We present CrossSum, a large-scale cross-lingual summarization dataset comprising 1.68 million article-summary samples in 1,500+ language pairs. We create CrossSum by aligning parallel articles written in different languages via cross-lingual retrieval from a multilingual abstractive summarization dataset and perform a controlled human evaluation to validate its quality. We propose a multistage data sampling algorithm to effectively train a cross-lingual summarization model capable of summarizing an article in any target language. We also introduce LaSE, an embedding-based metric for automatically evaluating model-generated summaries. LaSE is strongly correlated with ROUGE and, unlike ROUGE, can be reliably measured even in the absence of references in the target language. Performance on ROUGE and LaSE indicate that our proposed model consistently outperforms baseline models. To the best of our knowledge, CrossSum is the largest cross-lingual summarization dataset and the first ever that is not centered around English. We are releasing the dataset, training and evaluation scripts, and models to spur future research on cross-lingual summarization. The resources can be found at https://github.com/csebuetnlp/CrossSum
翻訳日:2023-05-30 00:37:29 公開日:2023-05-25
# 説明可能な設計を支援する方法論とソフトウェアアーキテクチャ

A Methodology and Software Architecture to Support Explainability-by-Design ( http://arxiv.org/abs/2206.06251v2 )

ライセンス: Link先を確認
Trung Dong Huynh, Niko Tsakalakis, Ayah Helal, Sophie Stalla-Bourdillon, Luc Moreau(参考訳) アルゴリズムは、私たちの生活の様々な側面を制御または影響する多くの技術システムにおいて重要な役割を果たす。 その結果、法律、規則、行動規範、そして大衆によって、ユーザや組織のニーズに対応するための彼らの決定に関する説明がますます期待されている。 しかし、法律や規則はそのような期待に応える方法を規定していないため、組織はしばしば説明可能性に対する独自のアプローチを考案し、必然的にコンプライアンスと優れたガバナンスのコストを増加させます。 そこで我々は,意思決定システムの設計に説明能力を含める積極的尺度によって特徴付けられる,説明可能性に基づく設計手法を構想する。 方法論は, (A)説明要求分析, (B)説明技術設計, (C)説明検証の3段階からなる。 本稿では、特定のアプリケーションコンテキストに対してドメインの専門家が要求する要件から説明機能を実装するための技術ワークフローであるフェーズ(B)について述べる。 このフェーズの出力は一連の設定であり、再利用可能な説明サービスにより、ターゲットアプリケーションが提供するログを利用して、アプリケーションの決定の出所トレースを作成することができる。 その前駆者は、関連するデータポイントを抽出するためにクエリされ、消費者にパーソナライズされた説明を構築するための説明プランに使用できる。 ワークフローに従って、組織は特定の要件を満たす説明を生成するために意思決定システムを設計することができる。 このプロセスを容易にするために、再利用可能なコンポーネントを備えたソフトウェアアーキテクチャを提案し、その結果の説明機能をアプリケーションに組み込む。 最後に、ワークフローを2つのアプリケーションシナリオに適用し、関連する開発コストを測定しました。 その結果、このアプローチは発達時間の観点からは扱いやすいことが示され、1文あたり2時間程度に抑えられる可能性がある。

Algorithms play a crucial role in many technological systems that control or affect various aspects of our lives. As a result, providing explanations for their decisions to address the needs of users and organisations is increasingly expected by laws, regulations, codes of conduct, and the public. However, as laws and regulations do not prescribe how to meet such expectations, organisations are often left to devise their own approaches to explainability, inevitably increasing the cost of compliance and good governance. Hence, we envision Explainability-by-Design, a holistic methodology characterised by proactive measures to include explanation capability in the design of decision-making systems. The methodology consists of three phases: (A) Explanation Requirement Analysis, (B) Explanation Technical Design, and (C) Explanation Validation. This paper describes phase (B), a technical workflow to implement explanation capability from requirements elicited by domain experts for a specific application context. Outputs of this phase are a set of configurations, allowing a reusable explanation service to exploit logs provided by the target application to create provenance traces of the application's decisions. The provenance then can be queried to extract relevant data points, which can be used in explanation plans to construct explanations personalised to their consumers. Following the workflow, organisations can design their decision-making systems to produce explanations that meet the specified requirements. To facilitate the process, we present a software architecture with reusable components to incorporate the resulting explanation capability into an application. Finally, we applied the workflow to two application scenarios and measured the associated development costs. It was shown that the approach is tractable in terms of development time, which can be as low as two hours per sentence.
翻訳日:2023-05-30 00:19:02 公開日:2023-05-25
# 専門家の解釈可能な混合

Interpretable Mixture of Experts ( http://arxiv.org/abs/2206.02107v2 )

ライセンス: Link先を確認
Aya Abdelsalam Ismail, Sercan \"O. Arik, Jinsung Yoon, Ankur Taly, Soheil Feizi and Tomas Pfister(参考訳) 信頼性のあるモデル説明の必要性は多くの機械学習アプリケーション、特に表や時系列のデータにおいて顕著である。 この目的に向けて,新しい解釈可能なモデリングフレームワークである Interpretable Mixture of Experts (IME) を導入し,多くのケースにおいて 'black-box' Deep Neural Networks (DNN) に匹敵する高い精度を実現する。 IMEは割り当てモジュールと専門家の混合物で構成され、各サンプルは予測のために単一の専門家に割り当てられる。 課題と専門家の解釈に基づくIMEの複数のオプションを導入する。 専門家が線形モデルのような解釈可能なものを選ぶと、IMEが生成した説明が予測の計算方法の正確な記述である、本質的に解釈可能なアーキテクチャが得られる。 スタンドアローンで本質的に解釈可能なアーキテクチャを構成することに加えて、IMEは既存のDNNと統合され、DNNの精度を維持しながらサンプルのサブセットに解釈可能性を提供するという前提を持っている。 15の表と時系列のデータセットに関する広範な実験により、IMEは単一の解釈可能なモデルよりも正確であることが示され、既存の最先端のDNNと正確に比較可能である。 ほとんどのデータセットでは、IMEはDNNよりも優れ、忠実な説明を提供する。 最後に、IMEの説明は、ユーザスタディを通じて一般的に使われるポストホックな説明方法と比較される -- 参加者は、IMEの説明が与えられたときのモデルの振る舞いをより正確に予測し、IMEの説明をより忠実で信頼できるものにすることができる。

The need for reliable model explanations is prominent for many machine learning applications, particularly for tabular and time-series data as their use cases often involve high-stakes decision making. Towards this goal, we introduce a novel interpretable modeling framework, Interpretable Mixture of Experts (IME), that yields high accuracy, comparable to `black-box' Deep Neural Networks (DNNs) in many cases, along with useful interpretability capabilities. IME consists of an assignment module and a mixture of experts, with each sample being assigned to a single expert for prediction. We introduce multiple options for IME based on the assignment and experts being interpretable. When the experts are chosen to be interpretable such as linear models, IME yields an inherently-interpretable architecture where the explanations produced by IME are the exact descriptions of how the prediction is computed. In addition to constituting a standalone inherently-interpretable architecture, IME has the premise of being integrated with existing DNNs to offer interpretability to a subset of samples while maintaining the accuracy of the DNNs. Through extensive experiments on 15 tabular and time-series datasets, IME is demonstrated to be more accurate than single interpretable models and perform comparably with existing state-of-the-art DNNs in accuracy. On most datasets, IME even outperforms DNNs, while providing faithful explanations. Lastly, IME's explanations are compared to commonly-used post-hoc explanations methods through a user study -- participants are able to better predict the model behavior when given IME explanations, while finding IME's explanations more faithful and trustworthy.
翻訳日:2023-05-30 00:18:36 公開日:2023-05-25
# Fix-A-Step: 未修正データからの半教師付き学習

Fix-A-Step: Semi-supervised Learning from Uncurated Unlabeled Data ( http://arxiv.org/abs/2208.11870v3 )

ライセンス: Link先を確認
Zhe Huang, Mary-Joy Sidhom, Benjamin S. Wessler, Michael C. Hughes(参考訳) semi-supervised learning (ssl) は、小さなラベル付きデータセットの分類器のトレーニングに比べて、多くのラベル付き画像のトレーニングにより精度が向上する。 医用イメージングのような実際のアプリケーションでは、ラベルなしのデータは、即時に収集され、それゆえアンキュレートされる:おそらくクラスや特徴のラベル付きセットとは異なる。 残念なことに、最新のディープSSLは、未ラベルのデータを使用すれば、しばしば精度が悪くなる。 最近の複雑な治療法は、ラベル付けされていない画像を検出し、それらを捨てたり、下げたりしようとする。 代わりにFix-A-Stepを紹介します。これは、未修正の未ラベルのイメージを潜在的に有用であると見なすシンプルな手順です。 最初の洞察は、未修正画像でもラベル付きデータの有用な拡張が得られるということです。 第2に、マルチタスクSSL損失の最適化がラベル付きセットの精度を損なうのを防ぐために勾配降下更新を変更する。 Fix-A-Stepは、多くの一般的なディープSSLメソッドを修復し、テストされたすべてのメソッドと人工クラスミスマッチレベルにわたるCIFARベンチマークの精度を改善します。 heart2heartと呼ばれる新しい医療用sslベンチマークでは、35万3500枚の真に未解決な超音波画像から学べる。

Semi-supervised learning (SSL) promises improved accuracy compared to training classifiers on small labeled datasets by also training on many unlabeled images. In real applications like medical imaging, unlabeled data will be collected for expediency and thus uncurated: possibly different from the labeled set in classes or features. Unfortunately, modern deep SSL often makes accuracy worse when given uncurated unlabeled data. Recent complex remedies try to detect out-of-distribution unlabeled images and then discard or downweight them. Instead, we introduce Fix-A-Step, a simpler procedure that views all uncurated unlabeled images as potentially helpful. Our first insight is that even uncurated images can yield useful augmentations of labeled data. Second, we modify gradient descent updates to prevent optimizing a multi-task SSL loss from hurting labeled-set accuracy. Fix-A-Step can repair many common deep SSL methods, improving accuracy on CIFAR benchmarks across all tested methods and levels of artificial class mismatch. On a new medical SSL benchmark called Heart2Heart, Fix-A-Step can learn from 353,500 truly uncurated ultrasound images to deliver gains that generalize across hospitals.
翻訳日:2023-05-30 00:07:54 公開日:2023-05-25
# COVID-19における主要関心事の識別のための教師なし機械学習フレームワーク

Unsupervised machine learning framework for discriminating major variants of concern during COVID-19 ( http://arxiv.org/abs/2208.01439v3 )

ライセンス: Link先を確認
Rohitash Chandra, Chaarvi Bansal, Mingyue Kang, Tom Blau, Vinti Agarwal, Pranjal Singh, Laurence O. W. Wilson, Seshadri Vasan(参考訳) ウイルスの変異率が高いため、新型コロナウイルスのパンデミックは急速に進展した。 デルタやオミクロンなどの特定の変異株はウイルスの性質が変化し、深刻な感染と死亡率に繋がった。 これらの変種は世界中の医療システムを負担し、旅行、生産性、世界経済に大きな影響を与えた。 教師なし機械学習手法は、非ラベルデータの圧縮、キャラクタリゼーション、可視化を行うことができる。 本稿では、教師なし機械学習手法を用いて、ゲノム配列に基づいて、主要なCOVID-19変異体間の関連を識別、可視化する枠組みを提案する。 これらの手法は,選択された次元還元法とクラスタリング法を組み合わせたものである。 本フレームワークは、データをk-mer解析してRNA配列を処理し、さらに視覚化し、主成分分析(PCA)、t分散確率的隣接埋め込み(t-SNE)、均一多様体近似投影(UMAP)を含む選択された次元減少法を用いて結果と比較する。 また,本フレームワークでは,デンドログラムを用いて選択された変異種(デルタ,オミクロン)に対する主要変異種間の突然変異差と国別突然変異差を可視化するために凝集的階層クラスタリングを用いる。 また,デンドログラムを用いて選択した変異株に対する国別変異差も提示する。 提案手法は,主要な変種を効果的に区別し,将来に出現する変種を識別する可能性を秘めている。

Due to the high mutation rate of the virus, the COVID-19 pandemic evolved rapidly. Certain variants of the virus, such as Delta and Omicron, emerged with altered viral properties leading to severe transmission and death rates. These variants burdened the medical systems worldwide with a major impact to travel, productivity, and the world economy. Unsupervised machine learning methods have the ability to compress, characterize, and visualize unlabelled data. This paper presents a framework that utilizes unsupervised machine learning methods to discriminate and visualize the associations between major COVID-19 variants based on their genome sequences. These methods comprise a combination of selected dimensionality reduction and clustering techniques. The framework processes the RNA sequences by performing a k-mer analysis on the data and further visualises and compares the results using selected dimensionality reduction methods that include principal component analysis (PCA), t-distributed stochastic neighbour embedding (t-SNE), and uniform manifold approximation projection (UMAP). Our framework also employs agglomerative hierarchical clustering to visualize the mutational differences among major variants of concern and country-wise mutational differences for selected variants (Delta and Omicron) using dendrograms. We also provide country-wise mutational differences for selected variants via dendrograms. We find that the proposed framework can effectively distinguish between the major variants and has the potential to identify emerging variants in the future.
翻訳日:2023-05-30 00:06:53 公開日:2023-05-25
# 人の嗜好の変化:重み付き多目的検索モデル

Everyone's Preference Changes Differently: Weighted Multi-Interest Retrieval Model ( http://arxiv.org/abs/2207.06652v4 )

ライセンス: Link先を確認
Hui Shi, Yupeng Gu, Yitong Zhou, Bo Zhao, Sicun Gao, Jishen Zhao(参考訳) ユーザ埋め込み(ユーザのベクトル表現)はレコメンデーションシステムにおいて不可欠である。 検索タスクに類似した項目を見つけるためにユーザのための表現を構築するための様々なアプローチが提案されており、産業向けレコメンデーションシステムでも有効であることが証明されている。 近年,各埋め込みが特定のトピックに対するユーザの関心を表すことを期待して,複数の埋め込みをユーザを表現する能力を発見した。 多目的表現では、異なるトピックに対するユーザの好みと、時間とともに好みがどのように変化するかをモデル化することが重要です。 しかし、既存のアプローチでは、各利子に対するユーザーの親和性の推定に失敗したり、不当にすべてのユーザーの興味が時間とともに均等に低下し、候補検索のリコールを損なうと仮定している。 本稿では,ユーザのシーケンシャルなエンゲージメントをより効果的に利用することで,ユーザにとってのマルチ興味を生み出すだけでなく,各埋め込みに対する嗜好を表す重みを自動的に学習し,各関心から候補を比例的に取り出す手法であるmulti-interest preference(mip)モデルを提案する。 本手法の有効性を実証するために,様々な産業規模のデータセットで広範な実験を行った。

User embeddings (vectorized representations of a user) are essential in recommendation systems. Numerous approaches have been proposed to construct a representation for the user in order to find similar items for retrieval tasks, and they have been proven effective in industrial recommendation systems as well. Recently people have discovered the power of using multiple embeddings to represent a user, with the hope that each embedding represents the user's interest in a certain topic. With multi-interest representation, it's important to model the user's preference over the different topics and how the preference change with time. However, existing approaches either fail to estimate the user's affinity to each interest or unreasonably assume every interest of every user fades with an equal rate with time, thus hurting the recall of candidate retrieval. In this paper, we propose the Multi-Interest Preference (MIP) model, an approach that not only produces multi-interest for users by using the user's sequential engagement more effectively but also automatically learns a set of weights to represent the preference over each embedding so that the candidates can be retrieved from each interest proportionally. Extensive experiments have been done on various industrial-scale datasets to demonstrate the effectiveness of our approach.
翻訳日:2023-05-30 00:06:25 公開日:2023-05-25
# 弱教師付き検出変換器による新しい物体検出のスケーリング

Scaling Novel Object Detection with Weakly Supervised Detection Transformers ( http://arxiv.org/abs/2207.05205v3 )

ライセンス: Link先を確認
Tyler LaBonte, Yale Song, Xin Wang, Vibhav Vineet, Neel Joshi(参考訳) 重要なオブジェクト検出タスクは、既存のモデルを微調整して、新しいオブジェクトを検出することですが、標準的なワークフローには、収集に要する時間と費用のかかるバウンディングボックスアノテーションが必要です。 weakly supervised object detection (wsod)は、画像レベルのラベルを使ってオブジェクト検出をトレーニングできる魅力的な代替手段を提供する。 しかし、現在のwsodモデルの実用的応用は限定的であり、小規模のデータスケールでのみ動作し、複数のトレーニングと改良を必要とする。 そこで本研究では,大規模事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にするWeakly Supervised Detection Transformerを提案する。 さらに、事前訓練された知識を活用して、WSODメソッドでよく使われる多重インスタンス学習(MIL)フレームワークを改善します。 実験の結果,提案手法は大規模新規物体検出データセットの先行モデルよりも優れており,wodプリトレーニングでは,クラス量が画像量よりも重要であることが明らかとなった。 コードはhttps://github.com/tmlabonte/weakly-supervised-DETRで公開されている。

A critical object detection task is finetuning an existing model to detect novel objects, but the standard workflow requires bounding box annotations which are time-consuming and expensive to collect. Weakly supervised object detection (WSOD) offers an appealing alternative, where object detectors can be trained using image-level labels. However, the practical application of current WSOD models is limited, as they only operate at small data scales and require multiple rounds of training and refinement. To address this, we propose the Weakly Supervised Detection Transformer, which enables efficient knowledge transfer from a large-scale pretraining dataset to WSOD finetuning on hundreds of novel objects. Additionally, we leverage pretrained knowledge to improve the multiple instance learning (MIL) framework often used in WSOD methods. Our experiments show that our approach outperforms previous state-of-the-art models on large-scale novel object detection datasets, and our scaling study reveals that class quantity is more important than image quantity for WSOD pretraining. The code is available at https://github.com/tmlabonte/weakly-supervised-DETR.
翻訳日:2023-05-30 00:06:03 公開日:2023-05-25
# 広帯域ニューラルネットワークにおける表現ダイナミクスに及ぼす学習規則の影響

The Influence of Learning Rule on Representation Dynamics in Wide Neural Networks ( http://arxiv.org/abs/2210.02157v2 )

ライセンス: Link先を確認
Blake Bordelon, Cengiz Pehlevan(参考訳) ディープニューラルネットワークの学習ルールの変更が学習のダイナミクスや表現をどのように変えるのかは不明だ。 学習特徴量,関数近似,学習規則の関係を明らかにするために,勾配降下(GD)で訓練された無限幅の深層ネットワークと,フィードバックアライメント(FA),ダイレクトフィードバックアライメント(DFA),エラー変調ヘビアン学習(Hebb),ゲート線形ネットワーク(GLN)などの生物学的に有望な代替品を解析した。 これらの学習規則のそれぞれにおいて、無限幅における出力関数の進化は、時間変化の有効な神経接核(entk)によって制御される。 遅延訓練限界では、このeNTKは静的であり、進化しないが、リッチ平均場法では、このカーネルの進化は動的平均場理論(DMFT)と独立に決定することができる。 このDMFTは、これらの学習規則によって引き起こされる特徴と予測力学の比較を可能にする。 遅延限界では、DFAとHebbは最終層の特徴しか学習できないのに対し、完全なFAは、フィードフォワードとフィードバックの重み行列の最初の相関によって決定されたスケールで以前の層を利用することができる。 豊かな体制では、DFAとFAは時間的に進化し、深さに依存するNTKを利用する。 直観的に言うと、リッチレジームで訓練されたfaネットワークは、前方と後方のパスウェイトの相関が小さい場合に初期化すれば、より多くの機能学習を示す。 GLN は遅延極限核に対して非常に単純な公式を認め、ゲーティング関数の下での条件付きガウス性を保持する。 エラー変調hebbルールは、カーネルのタスク関連アライメントが非常に小さく、最前層でタスク関連学習を実行する。

It is unclear how changing the learning rule of a deep neural network alters its learning dynamics and representations. To gain insight into the relationship between learned features, function approximation, and the learning rule, we analyze infinite-width deep networks trained with gradient descent (GD) and biologically-plausible alternatives including feedback alignment (FA), direct feedback alignment (DFA), and error modulated Hebbian learning (Hebb), as well as gated linear networks (GLN). We show that, for each of these learning rules, the evolution of the output function at infinite width is governed by a time varying effective neural tangent kernel (eNTK). In the lazy training limit, this eNTK is static and does not evolve, while in the rich mean-field regime this kernel's evolution can be determined self-consistently with dynamical mean field theory (DMFT). This DMFT enables comparisons of the feature and prediction dynamics induced by each of these learning rules. In the lazy limit, we find that DFA and Hebb can only learn using the last layer features, while full FA can utilize earlier layers with a scale determined by the initial correlation between feedforward and feedback weight matrices. In the rich regime, DFA and FA utilize a temporally evolving and depth-dependent NTK. Counterintuitively, we find that FA networks trained in the rich regime exhibit more feature learning if initialized with smaller correlation between the forward and backward pass weights. GLNs admit a very simple formula for their lazy limit kernel and preserve conditional Gaussianity of their preactivations under gating functions. Error modulated Hebb rules show very small task-relevant alignment of their kernels and perform most task relevant learning in the last layer.
翻訳日:2023-05-29 23:59:01 公開日:2023-05-25
# グラフニューラルネットワークによる線形プログラム表現について

On Representing Linear Programs by Graph Neural Networks ( http://arxiv.org/abs/2209.12288v2 )

ライセンス: Link先を確認
Ziang Chen, Jialin Liu, Xinshang Wang, Jianfeng Lu, Wotao Yin(参考訳) 最適化学習は、最適化問題を解決することや、機械学習(ML)を使用して既存の最適化アルゴリズムを改善することを目的とした、急速に成長する分野である。 In particular, the graph neural network (GNN) is considered a suitable ML model for optimization problems whose variables and constraints are permutation--invariant, for example, the linear program (LP). While the literature has reported encouraging numerical results, this paper establishes the theoretical foundation of applying GNNs to solving LPs. Given any size limit of LPs, we construct a GNN that maps different LPs to different outputs. We show that properly built GNNs can reliably predict feasibility, boundedness, and an optimal solution for each LP in a broad class. Our proofs are based upon the recently--discovered connections between the Weisfeiler--Lehman isomorphism test and the GNN. この結果を検証するため、簡単なGNNをトレーニングし、LPをそれらの実現可能性とソリューションにマッピングする精度を示す。

Learning to optimize is a rapidly growing area that aims to solve optimization problems or improve existing optimization algorithms using machine learning (ML). In particular, the graph neural network (GNN) is considered a suitable ML model for optimization problems whose variables and constraints are permutation--invariant, for example, the linear program (LP). While the literature has reported encouraging numerical results, this paper establishes the theoretical foundation of applying GNNs to solving LPs. Given any size limit of LPs, we construct a GNN that maps different LPs to different outputs. We show that properly built GNNs can reliably predict feasibility, boundedness, and an optimal solution for each LP in a broad class. Our proofs are based upon the recently--discovered connections between the Weisfeiler--Lehman isomorphism test and the GNN. To validate our results, we train a simple GNN and present its accuracy in mapping LPs to their feasibilities and solutions.
翻訳日:2023-05-29 23:57:42 公開日:2023-05-25
# 文書レベルのイベント引数抽出

Few-Shot Document-Level Event Argument Extraction ( http://arxiv.org/abs/2209.02203v2 )

ライセンス: Link先を確認
Xianjun Yang, Yujie Lu, Linda Petzold(参考訳) イベント引数抽出(EAE)は文レベルではよく研究されているが、文書レベルでは未探索である。 本稿では,文書中の文中に実際に分布するイベント引数をキャプチャする手法について検討する。 事前の作業は通常、利用可能な引数アノテーションが通常限定されているという事実を無視して、リッチなドキュメント管理への完全なアクセスを前提とします。 このギャップを埋めるために,既存のドキュメントレベルのイベント抽出データセットに基づいて,ドキュメントレベルのイベント引数抽出ベンチマークである fewdocae を提案する。 まず、新しい問題を定義し、従来のN-Way-K-Shot戦略の代わりに、新しいN-Way-D-Docサンプリングによってコーパスを再構築する。 次に、現在のドキュメントレベルのニューラルモデルを数ショット設定に調整し、ドメイン内およびクロスドメイン設定でベースライン結果を提供する。 引数抽出は複数の文の文脈に依存しており、学習プロセスはごく少数の例に限られているため、この新しいタスクは仮定的に低いパフォーマンスで非常に困難であることがわかった。 FewDocAEは低リソース体制下での実践的利用と密接に関連しているので、このベンチマークがさらなる研究を促進することを願っている。 データとコードはオンラインで公開されます。

Event argument extraction (EAE) has been well studied at the sentence level but under-explored at the document level. In this paper, we study to capture event arguments that actually spread across sentences in documents. Prior works usually assume full access to rich document supervision, ignoring the fact that the available argument annotation is usually limited. To fill this gap, we present FewDocAE, a Few-Shot Document-Level Event Argument Extraction benchmark, based on the existing document-level event extraction dataset. We first define the new problem and reconstruct the corpus by a novel N -Way-D-Doc sampling instead of the traditional N -Way-K-Shot strategy. Then we adjust the current document-level neural models into the few-shot setting to provide baseline results under in- and cross-domain settings. Since the argument extraction depends on the context from multiple sentences and the learning process is limited to very few examples, we find this novel task to be very challenging with substantively low performance. Considering FewDocAE is closely related to practical use under low-resource regimes, we hope this benchmark encourages more research in this direction. Our data and codes will be available online.
翻訳日:2023-05-29 23:56:48 公開日:2023-05-25
# 固有リワードマッチングを用いたスキルベース強化学習

Skill-Based Reinforcement Learning with Intrinsic Reward Matching ( http://arxiv.org/abs/2210.07426v4 )

ライセンス: Link先を確認
Ademi Adeniji, Amber Xie, Pieter Abbeel(参考訳) 教師なしのスキル発見は、自律的な行動プリミティブ獲得において有望であるが、タスク非依存のスキル事前学習と下流のタスク対応の微調整の間には、大きな方法論的な切り離しがある。 我々は本質的報酬マッチング(irm)を示し、これらの2つの学習フェーズを$\textit{skill discriminator}$で統一する。 従来のアプローチでは、適切なスキルを実証的に決定するために、しばしば高価な環境のロールアウトに頼っている。 しかしながら、タスクの最も簡潔で完全な記述は報酬関数自身であり、スキル学習手法はスキルポリシーに対応する識別器を介して$\textit{intrinsic}$報酬関数を学ぶ。 そこで本研究では,環境サンプルを使わずに,固有および下流タスクの報酬を$\textit{match}$に設定し,未検出タスクの最適スキルを判定し,サンプル効率を向上させる手法を提案する。 さらに,irmを複雑で長大なタスクのシーケンススキルに一般化し,フェッチテーブル上とフランカキッチンロボット操作ベンチマークの両方において,事前訓練されたスキルを従来よりもはるかに効果的に活用できることを実証する。

While unsupervised skill discovery has shown promise in autonomously acquiring behavioral primitives, there is still a large methodological disconnect between task-agnostic skill pretraining and downstream, task-aware finetuning. We present Intrinsic Reward Matching (IRM), which unifies these two phases of learning via the $\textit{skill discriminator}$, a pretraining model component often discarded during finetuning. Conventional approaches finetune pretrained agents directly at the policy level, often relying on expensive environment rollouts to empirically determine the optimal skill. However, often the most concise yet complete description of a task is the reward function itself, and skill learning methods learn an $\textit{intrinsic}$ reward function via the discriminator that corresponds to the skill policy. We propose to leverage the skill discriminator to $\textit{match}$ the intrinsic and downstream task rewards and determine the optimal skill for an unseen task without environment samples, consequently finetuning with greater sample-efficiency. Furthermore, we generalize IRM to sequence skills for complex, long-horizon tasks and demonstrate that IRM enables us to utilize pretrained skills far more effectively than previous skill selection methods on both the Fetch tabletop and Franka Kitchen robot manipulation benchmarks.
翻訳日:2023-05-29 23:48:31 公開日:2023-05-25
# トポロジカル誘導による混雑環境のスケーラブルなマルチロボット運動計画

Scalable Multi-robot Motion Planning for Congested Environments With Topological Guidance ( http://arxiv.org/abs/2210.07141v2 )

ライセンス: Link先を確認
Courtney McBeth, James Motes, Diane Uwacu, Marco Morales, Nancy M. Amato(参考訳) マルチロボットモーションプランニング(mrmp)は、連続状態空間における一連のロボットの衝突のない経路を見つける問題である。 MRMPの難しさは、ロボットの数の増加とともに増加し、ロボット間の調整が必要な倉庫通路など、ロボットが通過しなければならない狭い通路のある環境で悪化する。 単一ロボット環境では、トポロジー誘導動作計画手法により、これらの制約された環境での性能が向上している。 本研究では,既存のトポロジ誘導型単一ロボット動作計画法をマルチロボット領域に拡張し,トポロジカルガイダンスによる効率向上を図る。 本手法は,多くの狭い経路を持つ複雑な環境における経路を効率的に計画する能力を示し,従来の手法に比べて最大25倍の大きさのロボットチームにスケールする。 環境のトポロジの知識を活用することで、他の方法よりも高品質なソリューションを見つけることができる。

Multi-robot motion planning (MRMP) is the problem of finding collision-free paths for a set of robots in a continuous state space. The difficulty of MRMP increases with the number of robots and is exacerbated in environments with narrow passages that robots must pass through, like warehouse aisles where coordination between robots is required. In single-robot settings, topology-guided motion planning methods have shown improved performance in these constricted environments. In this work, we extend an existing topology-guided single-robot motion planning method to the multi-robot domain to leverage the improved efficiency provided by topological guidance. We demonstrate our method's ability to efficiently plan paths in complex environments with many narrow passages, scaling to robot teams of size up to 25 times larger than existing methods in this class of problems. By leveraging knowledge of the topology of the environment, we also find higher-quality solutions than other methods.
翻訳日:2023-05-29 23:48:04 公開日:2023-05-25
# 言語モデルにおける口頭暗記の防止はプライバシーの誤った感覚をもたらす

Preventing Verbatim Memorization in Language Models Gives a False Sense of Privacy ( http://arxiv.org/abs/2210.17546v2 )

ライセンス: Link先を確認
Daphne Ippolito, Florian Tram\`er, Milad Nasr, Chiyuan Zhang, Matthew Jagielski, Katherine Lee, Christopher A. Choquette-Choo, Nicholas Carlini(参考訳) ニューラルネットワークモデルにおけるデータ記憶の研究は、トレーニングデータを取得するモデルに関連するリスク(プライバシーや著作権など)を理解し、潜在的な対策の評価を支援する。 トレーニングセットのサブストリングと正確に一致するモデル生成として定義される、多くの先行作業と最近展開されたディフェンスは、"verbatim memorization"にフォーカスしている。 我々は、動詞の暗記定義があまりに制限的であり、より微妙な暗記形式を捉えることができないと主張している。 具体的には、ブルームフィルタに基づく効率的な防御を設計・実装し、すべての暗記を完璧に防止する。 しかし,この「完璧な」フィルタは,トレーニングデータの漏洩を防止できないことを示す。 実際、それはプラウシブルで最小限に修正された「スタイル・トランスファー」プロンプトによって容易に回避され、場合によっては修正されていないオリジナルのプロンプトでさえも記憶された情報を抽出する。 例えば、all-CAPITALテキストを出力するようにモデルに指示すると、冗長マッチングに基づいて暗記チェックをバイパスする。 最後に、潜在的な代替定義と記憶の定義が、ニューラルネットワークモデルにとって難しいが決定的なオープン問題である理由について論じる。

Studying data memorization in neural language models helps us understand the risks (e.g., to privacy or copyright) associated with models regurgitating training data, and aids in the evaluation of potential countermeasures. Many prior works -- and some recently deployed defenses -- focus on "verbatim memorization", defined as a model generation that exactly matches a substring from the training set. We argue that verbatim memorization definitions are too restrictive and fail to capture more subtle forms of memorization. Specifically, we design and implement an efficient defense based on Bloom filters that perfectly prevents all verbatim memorization. And yet, we demonstrate that this "perfect" filter does not prevent the leakage of training data. Indeed, it is easily circumvented by plausible and minimally modified "style-transfer" prompts -- and in some cases even the non-modified original prompts -- to extract memorized information. For example, instructing the model to output ALL-CAPITAL texts bypasses memorization checks based on verbatim matching. We conclude by discussing potential alternative definitions and why defining memorization is a difficult yet crucial open question for neural language models.
翻訳日:2023-05-29 23:40:07 公開日:2023-05-25
# グラフニューラルネットワークによる混合整数線形プログラムの表現について

On Representing Mixed-Integer Linear Programs by Graph Neural Networks ( http://arxiv.org/abs/2210.10759v2 )

ライセンス: Link先を確認
Ziang Chen, Jialin Liu, Xinshang Wang, Jianfeng Lu, Wotao Yin(参考訳) Mixed-integer linear programming (MILP) は一般にNP-hardであるのに対し、実践的なMILPは過去20年間で約100倍のスピードアップを受けている。 それでも多くのミルプのクラスは、そのサイズが大きくなるとすぐに解決不能になり、研究者がミルプの新しい加速技術を探す動機となった。 深層学習では実験結果が強く,MILPソリューションプロセスの様々な段階における決定にグラフニューラルネットワーク(GNN)を適用することにより,多くの結果が得られた。 しかしながら、全てのGNNが同等に扱い、一般的なMILPを表現する能力が欠如していることを示す、実現不可能なMILPが存在する。 次に,ミルプを展開可能なものに制限したり,ランダムな特徴を加えたりすることで,ミルプ実現可能性,最適目的値,最適解を所定の精度で確実に予測できるgnnが存在することを示す。 理論的結果を検証するため, 小規模数値実験を行った。

While Mixed-integer linear programming (MILP) is NP-hard in general, practical MILP has received roughly 100--fold speedup in the past twenty years. Still, many classes of MILPs quickly become unsolvable as their sizes increase, motivating researchers to seek new acceleration techniques for MILPs. With deep learning, they have obtained strong empirical results, and many results were obtained by applying graph neural networks (GNNs) to making decisions in various stages of MILP solution processes. This work discovers a fundamental limitation: there exist feasible and infeasible MILPs that all GNNs will, however, treat equally, indicating GNN's lacking power to express general MILPs. Then, we show that, by restricting the MILPs to unfoldable ones or by adding random features, there exist GNNs that can reliably predict MILP feasibility, optimal objective values, and optimal solutions up to prescribed precision. We conducted small-scale numerical experiments to validate our theoretical findings.
翻訳日:2023-05-29 23:38:13 公開日:2023-05-25
# 量子エントロピーの強部分付加性の新たな作用素拡張

A new operator extension of strong subadditivity of quantum entropy ( http://arxiv.org/abs/2211.13372v3 )

ライセンス: Link先を確認
Ting-Chun Lin, Isaac H. Kim, Min-Hsiu Hsieh(参考訳) S(\rho)$ を密度行列 $\rho$ のフォン・ノイマンエントロピーとする。 弱単調性は$S(\rho_{AB}) - S(\rho_A) + S(\rho_{BC})S(\rho_C)\geq 0$ for any tripartite density matrix $\rho_{ABC}$ であると主張する。 作用素の不等式を証明し、状態$\rho_{ABC}$に対して期待値を取ると、弱単調性不等式に還元される。 この不等式を2つの独立密度行列とそれらのR'enyi- Generalizationを含むものへ一般化する。

Let $S(\rho)$ be the von Neumann entropy of a density matrix $\rho$. Weak monotonicity asserts that $S(\rho_{AB}) - S(\rho_A) + S(\rho_{BC}) - S(\rho_C)\geq 0$ for any tripartite density matrix $\rho_{ABC}$, a fact that is equivalent to the strong subadditivity of entropy. We prove an operator inequality, which, upon taking an expectation value with respect to the state $\rho_{ABC}$, reduces to the weak monotonicity inequality. Generalizations of this inequality to the one involving two independent density matrices, as well as their R\'enyi-generalizations, are also presented.
翻訳日:2023-05-29 23:20:01 公開日:2023-05-25
# 非パラメトリックマスキング言語モデリング

Nonparametric Masked Language Modeling ( http://arxiv.org/abs/2212.01349v2 )

ライセンス: Link先を確認
Sewon Min, Weijia Shi, Mike Lewis, Xilun Chen, Wen-tau Yih, Hannaneh Hajishirzi, Luke Zettlemoyer(参考訳) 既存の言語モデル(lms)は有限の語彙よりもソフトマックスでトークンを予測するため、希少なトークンやフレーズの予測が困難になる。 NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。 NPMは[MASK]をテキストコーパスからトークンを取得するだけで埋めます。 そこで本研究では,npmをコントラスト目標と全コーパス検索に対するバッチ内近似を用いて効率的に訓練できることを示す。 分類、事実探索、質問応答を含む16のタスクにおけるゼロショット評価は、NPMが検索と生成のアプローチの有無にかかわらず、かなり大きなパラメトリックモデルより優れていることを示す。 特に、希少なパターン(単語の感覚や事実)の扱いや、希少な、あるいはほとんど見えない単語(例えば、非ラテン文字)の予測が優れている。 モデルとコードはgithub.com/facebookresearch/NPMで公開しています。

Existing language models (LMs) predict tokens with a softmax over a finite vocabulary, which can make it difficult to predict rare tokens or phrases. We introduce NPM, the first nonparametric masked language model that replaces this softmax with a nonparametric distribution over every phrase in a reference corpus. NPM fills in the [MASK] solely from retrieving a token from a text corpus. We show that NPM can be efficiently trained with a contrastive objective and an in-batch approximation to full corpus retrieval. Zero-shot evaluation on 16 tasks including classification, fact probing and question answering demonstrates that NPM outperforms significantly larger parametric models, either with or without a retrieve-and-generate approach. It is particularly better at dealing with rare patterns (word senses or facts) and predicting rare or nearly unseen words (e.g., non-Latin script). We release the model and code at github.com/facebookresearch/NPM.
翻訳日:2023-05-29 23:09:10 公開日:2023-05-25
# oasum: 大規模オープンドメインアスペクトベースの要約

OASum: Large-Scale Open Domain Aspect-based Summarization ( http://arxiv.org/abs/2212.09233v2 )

ライセンス: Link先を確認
Xianjun Yang, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Xiaoman Pan, Linda Petzold, Dong Yu(参考訳) アスペクトやクエリベースの要約は、ユーザーの興味に基づいて区別された要約を生成することができるため、最近さらに注目を集めている。 しかしながら、アスペクトまたはクエリベースの要約のための現在のデータセットは、特定のドメインに焦点を当てるか、比較的小さなインスタンスを含むか、少数のアスペクトタイプしか含まない。 このような制限は、この方向のさらなる探検を妨げる。 本研究では、ウィキペディア.orgのクラウドソーシングの知識を活用し、200万ページで約100万の異なるアスペクトを持つ370万以上のインスタンスを含む、OASumという高品質で大規模なオープンドメインアスペクトベースの要約データセットを自動生成する。 我々はOASumのベンチマーク結果を提供し、様々なアスペクトベースの要約生成能力を示す。 特定のドメインにおけるデータの不足を克服するために、我々は7つの下流データセットでゼロショット、少数ショット、微調整を行う。 具体的には、ゼロ/フェーショットおよび微調整の結果、コーパスで事前訓練されたモデルは、バックボーンモデルと比較して強いアスペクトまたはクエリ中心の生成能力を示す。 データセットと事前トレーニングされたチェックポイントは公開されています。

Aspect or query-based summarization has recently caught more attention, as it can generate differentiated summaries based on users' interests. However, the current dataset for aspect or query-based summarization either focuses on specific domains, contains relatively small-scale instances, or includes only a few aspect types. Such limitations hinder further explorations in this direction. In this work, we take advantage of crowd-sourcing knowledge on Wikipedia.org and automatically create a high-quality, large-scale open-domain aspect-based summarization dataset named OASum, which contains more than 3.7 million instances with around 1 million different aspects on 2 million Wikipedia pages. We provide benchmark results on OASum and demonstrate its ability for diverse aspect-based summarization generation. To overcome the data scarcity problem on specific domains, we also perform zero-shot, few-shot, and fine-tuning on seven downstream datasets. Specifically, zero/few-shot and fine-tuning results show that the model pre-trained on our corpus demonstrates a strong aspect or query-focused generation ability compared with the backbone model. Our dataset and pre-trained checkpoints are publicly available.
翻訳日:2023-05-29 23:00:24 公開日:2023-05-25
# TruFor: 信頼できる画像偽造検出とローカライゼーションのための全周手がかりを活用する

TruFor: Leveraging all-round clues for trustworthy image forgery detection and localization ( http://arxiv.org/abs/2212.10957v3 )

ライセンス: Link先を確認
Fabrizio Guillaro and Davide Cozzolino and Avneesh Sud and Nicholas Dufour and Luisa Verdoliva(参考訳) 本稿では,従来のチープフェイクから深層学習に基づくより最近の操作まで,多種多様な画像操作法に適用可能な法医学的枠組みであるtruforを提案する。 我々は、RGB画像と学習されたノイズ感度指紋を組み合わせたトランスフォーマーベースの融合アーキテクチャにより、高レベルのトレースと低レベルのトレースの両方を抽出する。 後者は、実際のデータのみを自己管理的にトレーニングすることで、カメラの内部および外部処理に関連するアーティファクトを埋め込むことを学ぶ。 ファジトリーは、各プリスタンイメージを特徴付ける期待される正規パターンから逸脱として検出される。 異常を探すことで、さまざまなローカル操作を堅牢に検出し、一般化を確実にすることができる。 画素レベルのローカライゼーションマップと全画像整合性スコアに加えて,本手法では,ローカライズ予測がエラーを起こしやすい領域をハイライトする信頼性マップを出力する。 これは、誤報を減らし、大規模な分析を可能にするために、法医学的な応用において特に重要である。 いくつかのデータセットに対する大規模な実験により、我々の手法は、安価なフェイクとディープフェイク操作の両方を確実に検出し、ローカライズすることができ、最先端の作業より優れていることが示されている。 コードはhttps://grip-unina.github.io/TruFor/で公開されている。

In this paper we present TruFor, a forensic framework that can be applied to a large variety of image manipulation methods, from classic cheapfakes to more recent manipulations based on deep learning. We rely on the extraction of both high-level and low-level traces through a transformer-based fusion architecture that combines the RGB image and a learned noise-sensitive fingerprint. The latter learns to embed the artifacts related to the camera internal and external processing by training only on real data in a self-supervised manner. Forgeries are detected as deviations from the expected regular pattern that characterizes each pristine image. Looking for anomalies makes the approach able to robustly detect a variety of local manipulations, ensuring generalization. In addition to a pixel-level localization map and a whole-image integrity score, our approach outputs a reliability map that highlights areas where localization predictions may be error-prone. This is particularly important in forensic applications in order to reduce false alarms and allow for a large scale analysis. Extensive experiments on several datasets show that our method is able to reliably detect and localize both cheapfakes and deepfakes manipulations outperforming state-of-the-art works. Code is publicly available at https://grip-unina.github.io/TruFor/
翻訳日:2023-05-29 22:50:04 公開日:2023-05-25
# self-instruct: 言語モデルと自己生成命令の整合

Self-Instruct: Aligning Language Models with Self-Generated Instructions ( http://arxiv.org/abs/2212.10560v2 )

ライセンス: Link先を確認
Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi(参考訳) 大きな"インストラクションチューニング"言語モデル(命令に応答するために微調整された)は、ゼロショットを新しいタスクに一般化する驚くべき能力を示している。 それでも、それらはしばしば量、多様性、創造性に制限される人間による命令データに大きく依存しているため、チューニングされたモデルの一般化を妨げる。 我々は,事前学習された言語モデルの命令追従能力を改善するためのフレームワークであるself-instructを紹介する。 パイプラインは言語モデルから命令、入力、および出力を生成し、元のモデルを微調整するために使用する前に、無効または類似のサンプルをフィルタする。 提案手法をバニラgpt3に適用し,個人ユーザデータと人間のアノテーションで学習したinstructgpt-001の性能に匹敵する,スーパーナチュラルインストラクションの原型モデルに対する絶対値の33%向上を実証した。 さらに,新しいタスクに対する専門家による指示の集合をキュレートし,既存の公開命令データセットを用いてGPT3とセルフインストラクトのチューニング性能を大きなマージンで向上させ,InstructGPT-001の背後には5%の絶対差しか残っていないことを示す。 Self-Instructは、事前訓練された言語モデルを命令と整合させるほとんどアノテーションのない方法を提供する。 コードとデータはhttps://github.com/yizhongw/self-instruct.com/で入手できます。

Large "instruction-tuned" language models (i.e., finetuned to respond to instructions) have demonstrated a remarkable ability to generalize zero-shot to new tasks. Nevertheless, they depend heavily on human-written instruction data that is often limited in quantity, diversity, and creativity, therefore hindering the generality of the tuned model. We introduce Self-Instruct, a framework for improving the instruction-following capabilities of pretrained language models by bootstrapping off their own generations. Our pipeline generates instructions, input, and output samples from a language model, then filters invalid or similar ones before using them to finetune the original model. Applying our method to the vanilla GPT3, we demonstrate a 33% absolute improvement over the original model on Super-NaturalInstructions, on par with the performance of InstructGPT-001, which was trained with private user data and human annotations. For further evaluation, we curate a set of expert-written instructions for novel tasks, and show through human evaluation that tuning GPT3 with Self-Instruct outperforms using existing public instruction datasets by a large margin, leaving only a 5% absolute gap behind InstructGPT-001. Self-Instruct provides an almost annotation-free method for aligning pre-trained language models with instructions, and we release our large synthetic dataset to facilitate future studies on instruction tuning. Our code and data are available at https://github.com/yizhongw/self-instruct.
翻訳日:2023-05-29 22:49:23 公開日:2023-05-25
# socratic pretraining: 制御可能な要約のための質問駆動事前トレーニング

Socratic Pretraining: Question-Driven Pretraining for Controllable Summarization ( http://arxiv.org/abs/2212.10449v2 )

ライセンス: Link先を確認
Artidoro Pagnoni, Alexander R. Fabbri, Wojciech Kry\'sci\'nski, Chien-Sheng Wu(参考訳) ラベル付きデータが少ない長い文書管理可能な要約では、事前トレーニングされたモデルはタスクへの適応に苦労し、ユーザクエリに効果的に対応します。 本稿では,要約タスクの制御性を改善するために特別に設計された質問駆動・教師なし事前学習目標であるsocratic pretrainingを提案する。 モデルのトレーニングによって、与えられたコンテキストで関連する質問を生成し、答えることによって、ソクラティック事前学習は、モデルがより効果的にユーザが提供するクエリに準拠し、関連するコンテンツを要約することを可能にする。 本稿では,2つの要約領域,短い物語と対話,およびキーワード,質問,ファクトイドQAペアといった複数の制御戦略の広範な実験を通じて,このアプローチの有効性を実証する。 本手法はラベルなし文書と質問生成システムのみに依存しており,教師ありデータを用いた事前調整手法よりも優れている。 さらに,Socraticプレトレーニングはタスク固有のラベル付きデータ要求を半分に削減し,ユーザが提供するクエリに忠実であり,QMSumとSQuALITYの最先端性能を実現していることを示す。

In long document controllable summarization, where labeled data is scarce, pretrained models struggle to adapt to the task and effectively respond to user queries. In this paper, we introduce Socratic pretraining, a question-driven, unsupervised pretraining objective specifically designed to improve controllability in summarization tasks. By training a model to generate and answer relevant questions in a given context, Socratic pretraining enables the model to more effectively adhere to user-provided queries and identify relevant content to be summarized. We demonstrate the effectiveness of this approach through extensive experimentation on two summarization domains, short stories and dialogue, and multiple control strategies: keywords, questions, and factoid QA pairs. Our pretraining method relies only on unlabeled documents and a question generation system and outperforms pre-finetuning approaches that use additional supervised data. Furthermore, our results show that Socratic pretraining cuts task-specific labeled data requirements in half, is more faithful to user-provided queries, and achieves state-of-the-art performance on QMSum and SQuALITY.
翻訳日:2023-05-29 22:48:57 公開日:2023-05-25
# SPEED:リニア・ヘテロセダスティックバンドの政策評価のための実験的設計

SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits ( http://arxiv.org/abs/2301.12357v2 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Qiaomin Xie, Josiah Hanna, Robert Nowak(参考訳) 本稿では,線形帯域における政策評価のための最適データ収集の問題について検討する。 政策評価において、我々は目標ポリシーを与えられ、多武装バンディット環境で実行した場合に得られる期待報酬を見積もる。 本研究は,線形バンディット設定におけるヘテロシデスティック報酬ノイズを含む政策評価のための最適なデータ収集戦略に焦点を当てた最初の研究である。 まず,重み付き最小二乗推定の最適設計をヘテロシデスティック線形バンディット設定において定式化し,目標政策のmseを減少させる。 次に、この定式化を使用して、データ収集中のアクション毎のサンプルの最適な割り当てを導出します。 次に, 最適設計を追跡し, 最適設計に対する後悔を生じる新しいアルゴリズム速度(構造的ポリシー評価実験設計)を提案する。 最後に、oracleの戦略に匹敵する平均二乗誤差で、ターゲットのポリシーを実行するよりもかなり低い、というポリシー評価のスピードを実証的に検証します。

In this paper, we study the problem of optimal data collection for policy evaluation in linear bandits. In policy evaluation, we are given a target policy and asked to estimate the expected reward it will obtain when executed in a multi-armed bandit environment. Our work is the first work that focuses on such optimal data collection strategy for policy evaluation involving heteroscedastic reward noise in the linear bandit setting. We first formulate an optimal design for weighted least squares estimates in the heteroscedastic linear bandit setting that reduces the MSE of the value of the target policy. We then use this formulation to derive the optimal allocation of samples per action during data collection. We then introduce a novel algorithm SPEED (Structured Policy Evaluation Experimental Design) that tracks the optimal design and derive its regret with respect to the optimal design. Finally, we empirically validate that SPEED leads to policy evaluation with mean squared error comparable to the oracle strategy and significantly lower than simply running the target policy.
翻訳日:2023-05-29 21:01:31 公開日:2023-05-25
# 量子光と古典光を用いたホログラフィの強度干渉法

Intensity interferometry for holography with quantum and classical light ( http://arxiv.org/abs/2301.10068v2 )

ライセンス: Link先を確認
G.S. Thekkadath, D. England, F. Bouchard, Y. Zhang, M.S. Kim, B. Sussman(参考訳) Hanbury Brown と Twiss が最初に示したように、独立光源間の干渉は振幅よりも強度の相関を測定することで観測することができる。 本研究では,この強度干渉法の概念をホログラフィに適用する。 信号ビームを基準と組み合わせ、時間タグ付き単光子カメラを用いてその強度相関を測定する。 これらの相関は,信号波面を強度と位相の両方で再構成する干渉パターンを示す。 我々は1つの光子を含む古典光と量子光を用いて原理を実証する。 信号と参照は位相安定である必要はないため、この技術は局所参照を用いて自己発光またはリモートオブジェクトのホログラムを生成するために使用することができ、新しいホログラフィー応用への扉を開くことができる。

As first demonstrated by Hanbury Brown and Twiss, it is possible to observe interference between independent light sources by measuring correlations in their intensities rather than their amplitudes. In this work, we apply this concept of intensity interferometry to holography. We combine a signal beam with a reference and measure their intensity cross-correlations using a time-tagging single-photon camera. These correlations reveal an interference pattern from which we reconstruct the signal wavefront in both intensity and phase. We demonstrate the principle with classical and quantum light, including a single photon. Since the signal and reference do not need to be phase-stable, this technique can be used to generate holograms of self-luminous or remote objects using a local reference, thus opening the door to new holography applications.
翻訳日:2023-05-29 21:00:29 公開日:2023-05-25
# Ground(less) Truth:人間-アルゴリズム意思決定におけるプロキシラベルの因果的枠組み

Ground(less) Truth: A Causal Framework for Proxy Labels in Human-Algorithm Decision-Making ( http://arxiv.org/abs/2302.06503v4 )

ライセンス: Link先を確認
Luke Guerdan, Amanda Coston, Zhiwei Steven Wu, Kenneth Holstein(参考訳) 人間-AI意思決定に関する文献は、人間の判断と統計モデルを組み合わせて意思決定を改善する戦略を研究している。 この領域の研究は、"ground truth"ラベルでの予測性能の向上を実証することにより、モデル、インターフェイス、ワークフローの改善提案を評価することが多い。 しかし、このプラクティスは人間の判断とモデル予測の主な違いを見落としている。 人間は、病気の状態、オンラインコメントの「毒性」、将来の「ジョブパフォーマンス」など、直接観察できない潜在的構造を含む、決定に対するより広範な関心の現象を推論する一方で、予測モデルは、既存のデータセットで容易に利用できるプロキシラベルをターゲットにしている。 予測モデルの単純なプロキシへの依存は、様々な統計バイアス源に弱い。 本稿では,人間のAI意思決定タスクにおけるプロキシラベルの有効性に影響を与える5つの変数バイアス源を同定する。 我々は,各バイアス間の関係を解消する因果枠組みを開発し,特定の人間-ai意思決定タスクにおいてどのような懸念があるかを明らかにする。 我々は,事前モデリング作業における暗黙の仮定を明確化するためにフレームワークをどのように利用できるかを実証し,これらの仮定が実際に有効であるかどうかを検証するための評価戦略を推奨する。 そして、我々の枠組みを利用して、人間とAIの意思決定を調査する事前の人体実験の設計を再検討し、少数の研究のみが対象の変数バイアスに関連する要因を調査することを発見した。 今後の研究において、ターゲット変数バイアスに対処する機会について論じる。

A growing literature on human-AI decision-making investigates strategies for combining human judgment with statistical models to improve decision-making. Research in this area often evaluates proposed improvements to models, interfaces, or workflows by demonstrating improved predictive performance on "ground truth" labels. However, this practice overlooks a key difference between human judgments and model predictions. Whereas humans reason about broader phenomena of interest in a decision -- including latent constructs that are not directly observable, such as disease status, the "toxicity" of online comments, or future "job performance" -- predictive models target proxy labels that are readily available in existing datasets. Predictive models' reliance on simplistic proxies makes them vulnerable to various sources of statistical bias. In this paper, we identify five sources of target variable bias that can impact the validity of proxy labels in human-AI decision-making tasks. We develop a causal framework to disentangle the relationship between each bias and clarify which are of concern in specific human-AI decision-making tasks. We demonstrate how our framework can be used to articulate implicit assumptions made in prior modeling work, and we recommend evaluation strategies for verifying whether these assumptions hold in practice. We then leverage our framework to re-examine the designs of prior human subjects experiments that investigate human-AI decision-making, finding that only a small fraction of studies examine factors related to target variable bias. We conclude by discussing opportunities to better address target variable bias in future research.
翻訳日:2023-05-29 20:52:51 公開日:2023-05-25
# 一般測地上のリーマン流マッチング

Riemannian Flow Matching on General Geometries ( http://arxiv.org/abs/2302.03660v2 )

ライセンス: Link先を確認
Ricky T. Q. Chen, Yaron Lipman(参考訳) 本稿では,多様体上の連続正規化フローをトレーニングするための簡易かつ強力なフレームワークであるリーマンフローマッチング(RFM)を提案する。 多様体上の生成モデリングの既存の方法は、高価なシミュレーションを必要とするか、本質的に高次元にスケールできないか、あるいは偏りのある訓練目的をもたらす量を制限するために近似を使用する。 リーマンフローマッチングはこれらの制限を回避し、従来のアプローチよりもいくつかの利点がある: 単純な測地ではシミュレーションが不要であり、分岐計算を必要としない、そしてその対象ベクトル場を閉形式で計算する。 RFMの背後にある重要な要素は、既存のユークリッドの場合を含む対象ベクトル場を定義するための比較的単純なプレメトリックの構築である。 一般的な測地線に拡張するために、ハエの事前測度を効率的に計算するためにスペクトル分解を用いる。 本手法は,実世界の非ユークリッドデータセットにおける最先端のパフォーマンスを実現し,非自明な曲率と境界を持つ三角形メッシュを含む一般ジオメトリの扱いやすいトレーニングを行う。

We propose Riemannian Flow Matching (RFM), a simple yet powerful framework for training continuous normalizing flows on manifolds. Existing methods for generative modeling on manifolds either require expensive simulation, are inherently unable to scale to high dimensions, or use approximations for limiting quantities that result in biased training objectives. Riemannian Flow Matching bypasses these limitations and offers several advantages over previous approaches: it is simulation-free on simple geometries, does not require divergence computation, and computes its target vector field in closed-form. The key ingredient behind RFM is the construction of a relatively simple premetric for defining target vector fields, which encompasses the existing Euclidean case. To extend to general geometries, we rely on the use of spectral decompositions to efficiently compute premetrics on the fly. Our method achieves state-of-the-art performance on real-world non-Euclidean datasets, and we demonstrate tractable training on general geometries, including triangular meshes with highly non-trivial curvature and boundaries.
翻訳日:2023-05-29 20:51:35 公開日:2023-05-25
# 高エネルギー物理のための可逆エネルギーベース確率モデル

Versatile Energy-Based Probabilistic Models for High Energy Physics ( http://arxiv.org/abs/2302.00695v3 )

ライセンス: Link先を確認
Taoli Cheng, Aaron Courville(参考訳) 古典的な生成的モデリングアプローチとして、エネルギーベースのモデルはエネルギー関数の形での柔軟性の自然な利点を持つ。 近年,コンピュータビジョンや自然言語処理における高次元データモデリングにおいて,エネルギーモデルが大きな成功を収めている。 これらの進歩に伴い,大型ハドロン衝突型加速器における高エネルギー物理現象の多目的エネルギーベース確率モデルを構築した。 このフレームワークは強力な生成モデルの上に構築され、高次粒子間相互作用を記述する。 応用面では、物理シミュレーションのための強力なパラメータ化イベントジェネレータ、スプリアス相関のない一般的な異常信号検出器、粒子識別のための拡張イベント分類器として機能する。

As a classical generative modeling approach, energy-based models have the natural advantage of flexibility in the form of the energy function. Recently, energy-based models have achieved great success in modeling high-dimensional data in computer vision and natural language processing. In line with these advancements, we build a multi-purpose energy-based probabilistic model for High Energy Physics events at the Large Hadron Collider. This framework builds on a powerful generative model and describes higher-order inter-particle interactions.It suits different encoding architectures and builds on implicit generation. As for applicational aspects, it can serve as a powerful parameterized event generator for physics simulation, a generic anomalous signal detector free from spurious correlations, and an augmented event classifier for particle identification.
翻訳日:2023-05-29 20:50:26 公開日:2023-05-25
# $\omega$pap空間:高階、再帰的確率的、微分可能プログラムに関する推論

$\omega$PAP Spaces: Reasoning Denotationally About Higher-Order, Recursive Probabilistic and Differentiable Programs ( http://arxiv.org/abs/2302.10636v2 )

ライセンス: Link先を確認
Mathieu Huot, Alexander K. Lew, Vikash K. Mansinghka, Sam Staton(参考訳) 我々は、表現的微分可能かつ確率的プログラミング言語を推論するために、$\omega$pap空間のカテゴリという新しい設定を導入する。 我々の意味論は、一般的な再帰、高次関数、不連続プリミティブ、離散的および連続的なサンプリングなど、最も実用的な確率的および微分可能なプログラムに意味を割り当てるのに十分である。 しかし、重要なことは、多くの病理的記述を排除し、決定論的微分可能プログラムと確率的プログラムの両方に関する新しい結果を確立するのに十分である。 決定論的設定では、自動微分に対する非常に一般的な正当性定理と勾配降下におけるその使用を証明する。 確率的設定では,確率的プログラムのトレース密度関数のほぼすべての可微分性と,モンテカルロ推定における密度計算のための便利なベース測度の存在を定式化する。 いくつかのケースでは、これらの結果は以前には知られていたが、操作上の風味を持つ詳細な証明を必要とした。

We introduce a new setting, the category of $\omega$PAP spaces, for reasoning denotationally about expressive differentiable and probabilistic programming languages. Our semantics is general enough to assign meanings to most practical probabilistic and differentiable programs, including those that use general recursion, higher-order functions, discontinuous primitives, and both discrete and continuous sampling. But crucially, it is also specific enough to exclude many pathological denotations, enabling us to establish new results about both deterministic differentiable programs and probabilistic programs. In the deterministic setting, we prove very general correctness theorems for automatic differentiation and its use within gradient descent. In the probabilistic setting, we establish the almost-everywhere differentiability of probabilistic programs' trace density functions, and the existence of convenient base measures for density computation in Monte Carlo inference. In some cases these results were previously known, but required detailed proofs with an operational flavor; by contrast, all our proofs work directly with programs' denotations.
翻訳日:2023-05-29 20:44:12 公開日:2023-05-25
# 医療用フェイスマスクと身体からの感情認識--深層学習の視点からの考察

Medical Face Masks and Emotion Recognition from the Body: Insights from a Deep Learning Perspective ( http://arxiv.org/abs/2302.10021v2 )

ライセンス: Link先を確認
Nikolaos Kegkeroglou, Panagiotis P. Filntisis, Petros Maragos(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは間違いなく基準を変え、生活のあらゆる側面、特に社会コミュニケーションに影響を与えた。 感染防止のため、医療用マスクを広範囲に着用せざるを得なくなった。 この顔閉塞は、顔からの感情的な読みを強く刺激し、身体全体を感情的なキューとして組み込むよう促す。 本稿では,顔のオクルージョンが感情認識性能に及ぼす影響について洞察的な研究を行い,平たいマスク付き顔に対する全身入力の優越性を示す。 我々は,時間的セグメントネットワークフレームワークに基づくディープラーニングモデルを用いて,顔マスクの影響を完全に克服することを目指している。 顔と身体の特徴は単一の入力から学べるが、これは無関係な情報混乱につながる可能性がある。 これらの特徴を別々に処理し、予測スコアを下げることで、両方のモダリティをより効果的に活用しています。 このフレームワークは、隣接するフレーム間で情報を混ざり合うことによって、時間的モデリングも自然にサポートする。 これらの手法は、重要な領域に適用される安全プロトコルによって引き起こされる感情認識の困難に対処できる効果的なシステムを形成する。

The COVID-19 pandemic has undoubtedly changed the standards and affected all aspects of our lives, especially social communication. It has forced people to extensively wear medical face masks, in order to prevent transmission. This face occlusion can strongly irritate emotional reading from the face and urges us to incorporate the whole body as an emotional cue. In this paper, we conduct insightful studies about the effect of face occlusion on emotion recognition performance, and showcase the superiority of full body input over the plain masked face. We utilize a deep learning model based on the Temporal Segment Network framework, and aspire to fully overcome the face mask consequences. Although facial and bodily features can be learned from a single input, this may lead to irrelevant information confusion. By processing those features separately and fusing their prediction scores, we are more effectively taking advantage of both modalities. This framework also naturally supports temporal modeling, by mingling information among neighboring frames. In combination, these techniques form an effective system capable of tackling emotion recognition difficulties, caused by safety protocols applied in crucial areas.
翻訳日:2023-05-29 20:43:50 公開日:2023-05-25
# SyreaNet: 合成画像と実画像を統合する物理ガイド付き水中画像強調フレームワーク

SyreaNet: A Physically Guided Underwater Image Enhancement Framework Integrating Synthetic and Real Images ( http://arxiv.org/abs/2302.08269v2 )

ライセンス: Link先を確認
Junjie Wen, Jinqiang Cui, Zhenjun Zhao, Ruixin Yan, Zhi Gao, Lihua Dou, Ben M. Chen(参考訳) 水中画像強調(UIE)は高レベルの視覚関連水中作業に不可欠である。 近年、学習に基づくuie手法は目覚ましい成果を上げているが、様々な水中条件に一貫して対応することが課題となっている。 1) UIEにおける簡易な大気画像形成モデルの使用は,重大な誤りをもたらす可能性がある。 2)合成画像のみを訓練したネットワークでは,実際の水中画像への一般化が困難であった。 本稿では,本研究で初めて,改良された水中画像形成モデルと新規ドメイン適応(da)戦略の指導のもとに合成データと実データの両方を統合する,uieのためのフレームワーク \textit{syreanet}を提案する。 まず,修正モデルに基づく水中画像合成モジュールを提案する。 そして、合成画像と実際の水中画像の両方を組み合わせることにより、明瞭な画像を予測するように物理的に誘導された不等角化ネットワークを設計する。 ドメイン内およびドメイン間ギャップは、ドメイン知識を完全に交換することで解消される。 sota(state-of-the-art)学習に基づくuie法よりも,質的かつ定量的にフレームワークの優位性を示す広範な実験を行った。 コードとデータセットはhttps://github.com/RockWenJJ/SyreaNet.gitで公開されている。

Underwater image enhancement (UIE) is vital for high-level vision-related underwater tasks. Although learning-based UIE methods have made remarkable achievements in recent years, it's still challenging for them to consistently deal with various underwater conditions, which could be caused by: 1) the use of the simplified atmospheric image formation model in UIE may result in severe errors; 2) the network trained solely with synthetic images might have difficulty in generalizing well to real underwater images. In this work, we, for the first time, propose a framework \textit{SyreaNet} for UIE that integrates both synthetic and real data under the guidance of the revised underwater image formation model and novel domain adaptation (DA) strategies. First, an underwater image synthesis module based on the revised model is proposed. Then, a physically guided disentangled network is designed to predict the clear images by combining both synthetic and real underwater images. The intra- and inter-domain gaps are abridged by fully exchanging the domain knowledge. Extensive experiments demonstrate the superiority of our framework over other state-of-the-art (SOTA) learning-based UIE methods qualitatively and quantitatively. The code and dataset are publicly available at https://github.com/RockWenJJ/SyreaNet.git.
翻訳日:2023-05-29 20:42:04 公開日:2023-05-25
# 拡散モデルによる効果的なデータ拡張

Effective Data Augmentation With Diffusion Models ( http://arxiv.org/abs/2302.07944v2 )

ライセンス: Link先を確認
Brandon Trabucco, Kyle Doherty, Max Gurinas, Ruslan Salakhutdinov(参考訳) データ強化はディープラーニングにおける最も一般的なツールの1つであり、分類、生成モデル、表現学習など、近年の多くの進歩を支えている。 データ拡張に対する標準的なアプローチは、回転やフリップのような単純な変換を組み合わせて、既存の画像から新しい画像を生成する。 しかし、これらの新しい画像は、データに存在するキーセマンティック軸に沿って多様性を欠いている。 現在の拡張では、シーンに存在する動物種のような高レベルのセマンティック属性を変更してデータの多様性を高めることはできない。 我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。 本手法は,市販の拡散モデルを用いて画像編集を行い,いくつかのラベル付き例から新たな視覚概念に一般化する。 本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。

Data augmentation is one of the most prevalent tools in deep learning, underpinning many recent advances, including those from classification, generative models, and representation learning. The standard approach to data augmentation combines simple transformations like rotations and flips to generate new images from existing ones. However, these new images lack diversity along key semantic axes present in the data. Current augmentations cannot alter the high-level semantic attributes, such as animal species present in a scene, to enhance the diversity of data. We address the lack of diversity in data augmentation with image-to-image transformations parameterized by pre-trained text-to-image diffusion models. Our method edits images to change their semantics using an off-the-shelf diffusion model, and generalizes to novel visual concepts from a few labelled examples. We evaluate our approach on few-shot image classification tasks, and on a real-world weed recognition task, and observe an improvement in accuracy in tested domains.
翻訳日:2023-05-29 20:41:46 公開日:2023-05-25
# 有限幅ニューラルネットワークを用いたベイズ推定

Bayesian inference with finitely wide neural networks ( http://arxiv.org/abs/2303.02859v2 )

ライセンス: Link先を確認
Chi-Ken Lu(参考訳) 解析的推論(例えば、予測分布は閉じた形で行われる)は、広いニューラルネットワークをベイズ設定のガウス過程として扱う機械学習実践者にとって魅力的な利点となるかもしれない。 しかし、現実的な幅は有限であり、モデル内の確率変数の偏辺化が単純であるガウス性から弱い偏差を引き起こす。 多変量エッジワース展開に基づき、ランダムニューラルネットワークからの出力の有限集合をモデル化し、対応する辺および条件特性を導出するために微分形式の非ガウス分布を提案する。 したがって,ベイズ回帰課題における非ガウス的後方分布を導出することができる。 さらに、深いガウス過程の重み空間表現であるボトルネック付きディープニューラルネットワークにおいて、非ガウス性は限界核を通して研究される。

The analytic inference, e.g. predictive distribution being in closed form, may be an appealing benefit for machine learning practitioners when they treat wide neural networks as Gaussian process in Bayesian setting. The realistic widths, however, are finite and cause weak deviation from the Gaussianity under which partial marginalization of random variables in a model is straightforward. On the basis of multivariate Edgeworth expansion, we propose a non-Gaussian distribution in differential form to model a finite set of outputs from a random neural network, and derive the corresponding marginal and conditional properties. Thus, we are able to derive the non-Gaussian posterior distribution in Bayesian regression task. In addition, in the bottlenecked deep neural networks, a weight space representation of deep Gaussian process, the non-Gaussianity is investigated through the marginal kernel.
翻訳日:2023-05-29 20:33:34 公開日:2023-05-25
# 平均場ニューラルネットワークにおける有限幅カーネルのダイナミクスと予測変動

Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean Field Neural Networks ( http://arxiv.org/abs/2304.03408v2 )

ライセンス: Link先を確認
Blake Bordelon, Cengiz Pehlevan(参考訳) 広義だが有限な特徴学習ニューラルネットワークにおける有限幅効果のダイナミクスを解析する。 無限幅深層ニューラルネットワークカーネルの動的平均場理論記述と予測ダイナミクスから、ネットワークウェイトのランダム初期化に対するdmftオーダーパラメータの$\mathcal{o}(1/\sqrt{\text{width}})$ゆらぎを特徴づける。 我々の結果は,先行分析とは異なり,幅の摂動的ではあるが,特徴学習の強さにおいて非摂動的である。 ネットワークトレーニングの遅延制限では、すべてのカーネルはランダムだが静的であり、予測分散は普遍的な形式を持つ。 しかし、リッチで特徴学習の体制では、カーネルと予測のゆらぎは、自己整合的に計算できる分散と動的に結合する。 2層ネットワークにおいて,機能学習によって最終接核の分散と最終ネットワーク予測を動的に低減できることを示す。 また,初期化のばらつきが,大規模だが有限のネットワークでオンライン学習を遅くする可能性を示す。 より深いネットワークでは、カーネルの分散はその後の大きな特徴学習強度で劇的に増大するが、機能学習は特徴カーネルの信号対雑音比を改善し続けている。 離散時間において,安定性効果のエッジのような大きな学習速度現象は無限幅ダイナミクスによってよく捉えられ,初期化分散は動的に減少することを示した。 CIFAR-10で訓練されたCNNに対して、有限幅によるネットワークダイナミクスのバイアスと分散の両方に有意な補正を経験的に求める。

We analyze the dynamics of finite width effects in wide but finite feature learning neural networks. Starting from a dynamical mean field theory description of infinite width deep neural network kernel and prediction dynamics, we provide a characterization of the $\mathcal{O}(1/\sqrt{\text{width}})$ fluctuations of the DMFT order parameters over random initializations of the network weights. Our results, while perturbative in width, unlike prior analyses, are non-perturbative in the strength of feature learning. In the lazy limit of network training, all kernels are random but static in time and the prediction variance has a universal form. However, in the rich, feature learning regime, the fluctuations of the kernels and predictions are dynamically coupled with a variance that can be computed self-consistently. In two layer networks, we show how feature learning can dynamically reduce the variance of the final tangent kernel and final network predictions. We also show how initialization variance can slow down online learning in wide but finite networks. In deeper networks, kernel variance can dramatically accumulate through subsequent layers at large feature learning strengths, but feature learning continues to improve the signal-to-noise ratio of the feature kernels. In discrete time, we demonstrate that large learning rate phenomena such as edge of stability effects can be well captured by infinite width dynamics and that initialization variance can decrease dynamically. For CNNs trained on CIFAR-10, we empirically find significant corrections to both the bias and variance of network dynamics due to finite width.
翻訳日:2023-05-29 20:25:08 公開日:2023-05-25
# 双極子対称性破壊からの非フェルミ液体

Non-Fermi Liquids from Dipolar Symmetry Breaking ( http://arxiv.org/abs/2304.01181v2 )

ライセンス: Link先を確認
Amogh Anakru, Zhen Bi(参考訳) フラクトロニック位相の出現と量子力学の新しい普遍性クラスは、凝縮系における双極子対称性の重要性を強調している。 本研究では,種々の空間次元のフェルミオンモデルにおける双極子対称性の対称性破断相の性質について検討する。 このような系では、フェルミオンは双極子凝縮によってエネルギー分散を得る。 変換対称性と双極子対称性の間の非自明な可換性のため、二極子縮合の金石モードは分散フェルミオンに強く結合し、自然に低エネルギーで非フェルミ液体を生じさせる。 双極子対称性の破れ相のIR記述は、創発的U(1)ゲージ場と結合するフェルミ曲面のよく知られた理論に類似している。 また,双極子対称性がわずかに破れた場合の交叉挙動と異方性双極子保存の場合についても論じる。

The emergence of fractonic topological phases and novel universality classes for quantum dynamics highlights the importance of dipolar symmetry in condensed matter systems. In this work, we study the properties of symmetry-breaking phases of the dipolar symmetries in fermionic models in various spatial dimensions. In such systems, fermions obtain energy dispersion through dipole condensation. Due to the nontrivial commutation between the translation symmetry and dipolar symmetry, the Goldstone modes of the dipolar condensate are strongly coupled to the dispersive fermions and naturally give rise to non-Fermi liquids at low energies. The IR description of the dipolar symmetry-breaking phase is analogous to the well-known theory of a Fermi surface coupled to an emergent U(1) gauge field. We also discuss the crossover behavior when the dipolar symmetry is slightly broken and the cases with anisotropic dipolar conservation.
翻訳日:2023-05-29 20:24:24 公開日:2023-05-25
# abstractors: シンボリックメッセージパッシングとリレーショナル推論のためのトランスフォーマーモジュール

Abstractors: Transformer Modules for Symbolic Message Passing and Relational Reasoning ( http://arxiv.org/abs/2304.00195v2 )

ライセンス: Link先を確認
Awni Altabaa, Taylor Webb, Jonathan Cohen, John Lafferty(参考訳) 関係性、類似性、抽象性の点での推論は人間の知性の目印である。 活発な議論は、これがシンボリック処理の使用に依存するのか、あるいは画像、音声、そして最近では言語処理などのタスクに使われているのと同じ関数近似を用いて達成できるのかである。 我々は,「関係性ボトルネック」と呼ばれる学習のための帰納的バイアスの影響下で,抽象的な記号が分散した神経表現から出現する認知神経科学の原理に動機づけられた中間的アプローチを提案する。 我々は,この帰納的バイアスをトランスフォーマーの拡張の観点から捉え,特定の種類の注意機構が関係的ボトルネックを強制し,分散シンボルを変換して関係的推論と抽象化の形式を実装するフレームワークを提案する。 モデルが計算できる関係関数のクラスを理論的に解析し、標準的なトランスフォーマーアーキテクチャと比較して、関係タスクにおいて優れたサンプル効率を示す。

Reasoning in terms of relations, analogies, and abstraction is a hallmark of human intelligence. An active debate is whether this relies on the use of symbolic processing or can be achieved using the same forms of function approximation that have been used for tasks such as image, audio, and, most recently, language processing. We propose an intermediate approach, motivated by principles of cognitive neuroscience, in which abstract symbols can emerge from distributed, neural representations under the influence of an inductive bias for learning that we refer to as a ``relational bottleneck.'' We present a framework that casts this inductive bias in terms of an extension of Transformers, in which specific types of attention mechanisms enforce the relational bottleneck and transform distributed symbols to implement a form of relational reasoning and abstraction. We theoretically analyze the class of relation functions the models can compute and empirically demonstrate superior sample-efficiency on relational tasks compared to standard Transformer architectures.
翻訳日:2023-05-29 20:23:56 公開日:2023-05-25
# 自己定義: 自己フィードバックによる反復的リファインメント

Self-Refine: Iterative Refinement with Self-Feedback ( http://arxiv.org/abs/2303.17651v2 )

ライセンス: Link先を確認
Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck, Amir Yazdanbakhsh, Peter Clark(参考訳) 人間と同様に、大きな言語モデル(LLM)は、最初の試行で最高の出力を生成するとは限らない。 人間が文章を洗練する方法に動機づけられ、反復的なフィードバックと洗練を通じてllmからの最初の出力を改善するためのアプローチであるself-refineを紹介します。 主なアイデアは、LLMを使って初期出力を生成することであり、同じLLMが出力に対してフィードバックを提供し、それを使って自分自身を反復的に洗練する。 Self-Refineは、教師付きトレーニングデータ、追加のトレーニング、強化学習を一切必要とせず、代わりにジェネレータ、精製器、フィードバックプロバイダとして単一のLCMを使用する。 GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論まで, 7 つのタスクにまたがる自己定義を評価する。 すべての評価されたタスクにおいて、自己定義で生成されたアウトプットは人間によって好まれ、従来の1ステップ生成を使用して同じllmで生成されたものよりも自動メトリクスが好まれる。 我々の研究は、GPT-4のような最先端のLCMでさえ、単純なスタンドアロンアプローチを使ってテスト時にさらに改善できることを示します。

Like humans, large language models (LLMs) do not always generate the best output on their first try. Motivated by how humans refine their written text, we introduce Self-Refine, an approach for improving initial outputs from LLMs through iterative feedback and refinement. The main idea is to generate an initial output using an LLMs; then, the same LLMs provides feedback for its output and uses it to refine itself, iteratively. Self-Refine does not require any supervised training data, additional training, or reinforcement learning, and instead uses a single LLM as the generator, refiner, and feedback provider. We evaluate Self-Refine across 7 diverse tasks, ranging from dialog response generation to mathematical reasoning, using state-of-the-art (GPT-3.5, ChatGPT, and GPT-4) LLMs. Across all evaluated tasks, outputs generated with Self-Refine are preferred by humans and automatic metrics over those generated with the same LLM using conventional one-step generation, improving by ~20% absolute on average in task performance. Our work demonstrates that even state-of-the-art LLMs like GPT-4 can be further improved at test time using our simple, standalone approach.
翻訳日:2023-05-29 20:23:38 公開日:2023-05-25
# ゼロサムマルコフゲームにおける強化学習のための新しいポリシー反復アルゴリズム

A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum Markov Games ( http://arxiv.org/abs/2303.09716v2 )

ライセンス: Link先を確認
Anna Winnicki, R. Srikant(参考訳) 多くのモデルベース強化学習(RL)アルゴリズムは、モデルをほぼ学習した学習フェーズと、学習したモデルを使用してポリシーを導出する計画フェーズという、2つのフェーズを反復的に実装したと見なすことができる。 標準的なMDPの場合、価値反復またはポリシー反復を用いて学習問題を解くことができる。 しかし、ゼロサムマルコフゲームの場合、効率的なポリシー反復アルゴリズムは存在しない。例えばHansen et al. (2013) では、αが割引因子である Omega(1/(1-alpha)) の MDP を解くことで、唯一既知のポリシー反復の収束版を実装することが示されている。 マルコフゼロサムゲームのための別のアルゴリズムはナイーブ・ポリシー・イテレーション(naive policy iteration)と呼ばれ、実装が容易であるが、非常に制限された仮定の下でのみ確実に収束する。 単純ポリシー反復アルゴリズムの修正の試みにはいくつかの制限がある。 ここでは,ゲームに対するナイーブなポリシー反復の簡単な変形が収束し,指数関数的に速く収束することを示す。 政策反復を示唆する唯一の追加は、政策改善フェーズにおけるルックアヘッドの使用です。 これは、ルックアヘッドがゲームでRLでよく使用されるため、魅力的である。 さらに,最近注目されている線形mdpに対応する線形マルコフゲームにおいて,lookaheadを効率的に実装できることを示す。 次に,提案手法を計画段階に用いたマルチエージェント強化学習を考察し,そのアルゴリズムにサンプルおよび時間複雑性境界を与える。

Many model-based reinforcement learning (RL) algorithms can be viewed as having two phases that are iteratively implemented: a learning phase where the model is approximately learned and a planning phase where the learned model is used to derive a policy. In the case of standard MDPs, the learning problem can be solved using either value iteration or policy iteration. However, in the case of zero-sum Markov games, there is no efficient policy iteration algorithm; e.g., it has been shown in Hansen et al. (2013) that one has to solve Omega(1/(1-alpha)) MDPs, where alpha is the discount factor, to implement the only known convergent version of policy iteration. Another algorithm for Markov zero-sum games, called naive policy iteration, is easy to implement but is only provably convergent under very restrictive assumptions. Prior attempts to fix naive policy iteration algorithm have several limitations. Here, we show that a simple variant of naive policy iteration for games converges, and converges exponentially fast. The only addition we propose to naive policy iteration is the use of lookahead in the policy improvement phase. This is appealing because lookahead is anyway often used in RL for games. We further show that lookahead can be implemented efficiently in linear Markov games, which are the counterpart of the linear MDPs and have been the subject of much attention recently. We then consider multi-agent reinforcement learning which uses our algorithm in the planning phases, and provide sample and time complexity bounds for such an algorithm.
翻訳日:2023-05-29 20:22:49 公開日:2023-05-25
# 回復型生涯学習のための視覚トランスフォーマーにおける人工海馬育成のための学習

Learning to Grow Artificial Hippocampi in Vision Transformers for Resilient Lifelong Learning ( http://arxiv.org/abs/2303.08250v2 )

ライセンス: Link先を確認
Chinmay Savadikar, Michelle Dai, Tianfu Wu(参考訳) 人間の知能によって保持される破滅的な記憶(レジリエンス)のない生涯学習は、脳の洗練された記憶機構、特にヒッポカンピが維持する長期記憶(LM)と絡み合っている。 ディープラーニングにおけるトランスフォーマーの優位性により、トランスフォーマーの人工ヒッポカンピ(ArtiHippo)をどのように実装するかを探求する必要が迫られている。 本稿では,視覚変換器(ViT)におけるArtiHippoの学習方法を提案する。 4つの側面を研究しています i) ViTsの中核機能を維持しながら可塑性を確保するためにArtiHippoをViTsに配置する方法 (ii)生涯学習における異なる性質の課題に取り組むための表現性と適応性を確保するためにアルティヒッポを実現するための表現的スキームはどのようなものか? (iii)課題シナジーを活用し、破滅的な忘れを克服するためにアルティヒッポを育む方法 (4)提案したArtiHippoとプロンプトベースのアプローチを最大限に活用する方法。 実験において、提案手法は挑戦的なvisual domain decathlon(vdd)ベンチマークと最近提案された5つのデータセットベンチマークでテストされている。 相変わらず学び続ける有能なアーティヒッポよりも一貫して優れたパフォーマンスを得る。

Lifelong learning without catastrophic forgetting (i.e., resiliency) possessed by human intelligence is entangled with sophisticated memory mechanisms in the brain, especially the long-term memory (LM) maintained by Hippocampi. With the dominance of Transformers in deep learning, it is a pressing need to explore what would be, and how to implement, Artificial Hippocampi (ArtiHippo) in Transformers. This paper presents a method of learning to grow ArtiHippo in Vision Transformers (ViTs) for resilient lifelong learning. We study four aspects: (i) Where to place ArtiHippo in ViTs to enable plasticity while preserving the core function of ViTs at streaming tasks? (ii) What representational scheme to use to realize ArtiHippo to ensure expressivity and adaptivity for tackling tasks of different nature in lifelong learning? (iii) How to learn to grow ArtiHippo to exploit task synergies and to overcome catastrophic forgetting? (iv) How to harness the best of our proposed ArtiHippo and prompting-based approaches? In experiments, the proposed method is tested on the challenging Visual Domain Decathlon (VDD) benchmark and the recently proposed 5-Dataset benchmark. It obtains consistently better performance than the prior art with sensible ArtiHippo learned continually.
翻訳日:2023-05-29 20:21:58 公開日:2023-05-25
# analogical --大規模言語モデルにおける長文アナロジー評価のための新しいベンチマーク

ANALOGICAL -- A Novel Benchmark for Long Text Analogy Evaluation in Large Language Models ( http://arxiv.org/abs/2305.05050v3 )

ライセンス: Link先を確認
Thilini Wijesiriwardene, Ruwan Wickramarachchi, Bimal G. Gajera, Shreeyash Mukul Gowaikar, Chandan Gupta, Aman Chadha, Aishwarya Naresh Reganti, Amit Sheth, Amitava Das(参考訳) 過去10年間で、単語レベルの類推という形で、Word2vecのような単語埋め込み手法の品質を評価するための本質的な尺度として重要な役割を果たしてきた。 しかし、現代の大規模言語モデル(LLM)は、GLUEやSuperGLUEのようなベンチマークに基づく外部尺度に基づいて主に評価されており、LLMが長いテキスト間の類似性を引き出すことができるかどうかについてはいくつかの研究がある。 本稿では,6段階の複雑さを持つ長文のアナロジーの分類において,LLMを内在的に評価する新しいベンチマークであるANALOGICALを提案する。 (i)単語 (ii)単語対文 (三)統語論、 (4)否定 (v)以下 (vi)メタファー。 13のデータセットと3つの異なる距離測度を用いて、意味ベクトル空間における類似対を識別する8つのLLMの能力を評価する。 我々の評価では,類推分類法を上昇させる際,llm が類推を識別することがますます困難になっていることがわかった。

Over the past decade, analogies, in the form of word-level analogies, have played a significant role as an intrinsic measure of evaluating the quality of word embedding methods such as word2vec. Modern large language models (LLMs), however, are primarily evaluated on extrinsic measures based on benchmarks such as GLUE and SuperGLUE, and there are only a few investigations on whether LLMs can draw analogies between long texts. In this paper, we present ANALOGICAL, a new benchmark to intrinsically evaluate LLMs across a taxonomy of analogies of long text with six levels of complexity -- (i) word, (ii) word vs. sentence, (iii) syntactic, (iv) negation, (v) entailment, and (vi) metaphor. Using thirteen datasets and three different distance measures, we evaluate the abilities of eight LLMs in identifying analogical pairs in the semantic vector space. Our evaluation finds that it is increasingly challenging for LLMs to identify analogies when going up the analogy taxonomy.
翻訳日:2023-05-29 20:04:54 公開日:2023-05-25
# モデルは本当に指示に従うことを学ぶのか? 命令調律に関する経験的研究

Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning ( http://arxiv.org/abs/2305.11383v2 )

ライセンス: Link先を確認
Po-Nien Kung and Nanyun Peng(参考訳) 命令チューニング(IT)に関する最近の研究は、目に見えないタスクに対してゼロショットの一般化性で大きな成果を上げている。 微調整のためのモデルに追加のコンテキスト(例えばタスク定義、例)を提供することで、未調整モデルよりもはるかに高いパフォーマンスを実現した。 優れたパフォーマンス向上にもかかわらず、モデルがITから学んだことはまだ検討されていない。 本研究は、モデルトレーニングと修正命令の比較により、モデルがIT中にどのようにインストラクションを利用するかを分析する。 具体的には、すべてのセマンティックコンポーネントを削除し、出力空間情報のみを残すことで、単純化されたタスク定義を作成する。 私たちの実験では、単純化されたタスク定義やごまかしの例で訓練されたモデルが、元の命令や例で訓練されたモデルと同等の性能を達成できることを示しました。 さらに,ゼロショット分類タスクを行うためのランダムベースラインを導入し,低リソース設定では類似の性能(42.6%の完全一致)を達成し(43%の完全一致),どちらの手法もnaive t5を有意に上回っている(完全一致の30%)。 我々の分析は、現在のITモデルの顕著なパフォーマンス向上が、出力フォーマットの学習や推測といった表面的なパターンを拾い上げることによってもたらされることを示す。 本研究は,より信頼性の高いIT手法と評価の必要性を強調した。

Recent works on instruction tuning (IT) have achieved great performance with zero-shot generalizability to unseen tasks. With additional context (e.g., task definition, examples) provided to models for fine-tuning, they achieved much higher performance than untuned models. Despite impressive performance gains, what models learn from IT remains understudied. In this work, we analyze how models utilize instructions during IT by comparing model training with altered vs. original instructions. Specifically, we create simplified task definitions by removing all semantic components and only leaving the output space information, and delusive examples that contain incorrect input-output mapping. Our experiments show that models trained on simplified task definition or delusive examples can achieve comparable performance to the ones trained on the original instructions and examples. Furthermore, we introduce a random baseline to perform zeroshot classification tasks, and find it achieves similar performance (42.6% exact-match) as IT does (43% exact-match) in low resource setting, while both methods outperform naive T5 significantly (30% per exact-match). Our analysis provides evidence that the impressive performance gain of current IT models can come from picking up superficial patterns, such as learning the output format and guessing. Our study highlights the urgent need for more reliable IT methods and evaluation.
翻訳日:2023-05-29 19:46:08 公開日:2023-05-25
# 生物学的制約のあるディープラーニングアーキテクチャによるV1特性の説明

Explaining V1 Properties with a Biologically Constrained Deep Learning Architecture ( http://arxiv.org/abs/2305.11275v2 )

ライセンス: Link先を確認
Galen Pogoncheff, Jacob Granley, Michael Beyeler(参考訳) 畳み込みニューラルネットワーク(CNN)は、生物学的特異性の欠如にもかかわらず、最近、腹側視覚の流れの有望なモデルとして登場した。 一次視覚野(v1)の現在の最先端モデルは、敵対的な例と広範囲な拡張データによる訓練から表面化しているが、これらのモデルは、生物学的回路から生じるv1で観察される重要な神経特性を説明することができない。 このギャップに対処するため、我々は神経科学由来のアーキテクチャコンポーネントをCNNに体系的に組み込んで、V1における神経活動を包括的に説明するメカニズムとアーキテクチャのセットを特定した。 モデルv1アライメントの大幅な改善は,中心回りのアンタゴニズム,局所受容場,調律正規化,皮質拡大をシミュレートするアーキテクチャコンポーネントの統合によるものである。 タスク駆動型CNNをこれらの特殊なコンポーネントの集合で強化すると、V1神経活動とチューニング特性の最先端の説明をもたらす潜在表現を持つモデルを明らかにする。 我々は,これまでにないV1の説明に寄与するアーキテクチャ要素の集合を体系的に確立し,NeuroAIの分野における重要な進歩を浮き彫りにした。 脳のシリコン内モデルから得られる神経科学の洞察は、神経科学と人工知能の両方の分野を大きく前進させる可能性がある。

Convolutional neural networks (CNNs) have recently emerged as promising models of the ventral visual stream, despite their lack of biological specificity. While current state-of-the-art models of the primary visual cortex (V1) have surfaced from training with adversarial examples and extensively augmented data, these models are still unable to explain key neural properties observed in V1 that arise from biological circuitry. To address this gap, we systematically incorporated neuroscience-derived architectural components into CNNs to identify a set of mechanisms and architectures that comprehensively explain neural activity in V1. We show drastic improvements in model-V1 alignment driven by the integration of architectural components that simulate center-surround antagonism, local receptive fields, tuned normalization, and cortical magnification. Upon enhancing task-driven CNNs with a collection of these specialized components, we uncover models with latent representations that yield state-of-the-art explanation of V1 neural activity and tuning properties. Our results highlight an important advancement in the field of NeuroAI, as we systematically establish a set of architectural components that contribute to unprecedented explanation of V1. The neuroscience insights that could be gleaned from increasingly accurate in-silico models of the brain have the potential to greatly advance the fields of both neuroscience and artificial intelligence.
翻訳日:2023-05-29 19:45:46 公開日:2023-05-25
# INVICTUS: 相乗学習と探索によるブール論理回路合成の最適化

INVICTUS: Optimizing Boolean Logic Circuit Synthesis via Synergistic Learning and Search ( http://arxiv.org/abs/2305.13164v2 )

ライセンス: Link先を確認
Animesh Basak Chowdhury, Marco Romanelli, Benjamin Tan, Ramesh Karri, Siddharth Garg(参考訳) 論理合成はチップ設計における最初の、そして最も重要なステップである。 このステップは、ハードウェア記述言語(verilogなど)で記述されたチップ仕様をブール論理ゲートを使用して最適化された実装に変換する。 最先端論理合成アルゴリズムは多くの論理最小化ヒューリスティックを持ち、一般に人間の経験と直観に基づいて順次適用される。 順序の選択は、合成回路の品質(例えば、面積と遅延)に大きな影響を与える。 本稿では,以前に見られた設計のトレーニングデータセットに基づいて,論理最小化ヒューリスティックス(合成レシピ)のシーケンスを自動的に生成するモデルベースオフライン強化学習(RL)ソリューションであるINVICTUSを提案する。 鍵となる課題は、新しい設計が過去の設計(加算器や乗算器など)と非常によく似たものから、全く新しい(新しいプロセッサ命令など)ものまで様々である。 従来の研究と比較すると、invictusはrlと検索法を組み合わせてオンラインのアウトオブディストリビューション検出器と組み合わせて、幅広いベンチマークで合成レシピを生成する最初のソリューションである。 その結果, 合成回路の領域分解生成物(adp)は, 最先端技術よりも最大30%向上した。 さらに、INVICTUSは最先端と比較して最大6.3\times$ランタイム削減(so-ADP)を達成する。

Logic synthesis is the first and most vital step in chip design. This steps converts a chip specification written in a hardware description language (such as Verilog) into an optimized implementation using Boolean logic gates. State-of-the-art logic synthesis algorithms have a large number of logic minimization heuristics, typically applied sequentially based on human experience and intuition. The choice of the order greatly impacts the quality (e.g., area and delay) of the synthesized circuit. In this paper, we propose INVICTUS, a model-based offline reinforcement learning (RL) solution that automatically generates a sequence of logic minimization heuristics ("synthesis recipe") based on a training dataset of previously seen designs. A key challenge is that new designs can range from being very similar to past designs (e.g., adders and multipliers) to being completely novel (e.g., new processor instructions). %Compared to prior work, INVICTUS is the first solution that uses a mix of RL and search methods joint with an online out-of-distribution detector to generate synthesis recipes over a wide range of benchmarks. Our results demonstrate significant improvement in area-delay product (ADP) of synthesized circuits with up to 30\% improvement over state-of-the-art techniques. Moreover, INVICTUS achieves up to $6.3\times$ runtime reduction (iso-ADP) compared to the state-of-the-art.
翻訳日:2023-05-29 19:35:12 公開日:2023-05-25
# DermSynth3D:in-the-wild Annotated Dermatology画像の合成

DermSynth3D: Synthesis of in-the-wild Annotated Dermatology Images ( http://arxiv.org/abs/2305.12621v2 )

ライセンス: Link先を確認
Ashish Sinha, Jeremy Kawahara, Arezou Pakzad, Kumar Abhishek, Matthieu Ruthven, Enjie Ghorbel, Anis Kacem, Djamila Aouada, Ghassan Hamarneh(参考訳) 近年, 深層学習(DL)は皮膚画像解析の分野で大きな可能性を秘めている。 しかし、この領域の既存のデータセットには、少数の画像サンプル、限られた疾患条件、不十分なアノテーション、標準化されていない画像取得など、重大な制限がある。 これらの欠点に対処するため,DermSynth3Dという新しいフレームワークを提案する。 DermSynth3Dは、人体の3Dテクスチャメッシュに、微分可能なレンダラーを用いて皮膚の病気パターンをブレンドし、さまざまな背景の照明条件下で、様々なカメラ視点から2D画像を生成する。 筆者らの手法は、ブレンディングとレンダリングを制約するトップダウンルールに従属し、より有意義な結果が得られるように、肌の状態の2D画像を作成する。 このフレームワークは、皮膚、皮膚、体部、病変周辺のバウンディングボックス、深度マップ、およびカメラの位置や照明条件などの他の3dシーンパラメータのセマンティックセグメンテーションのための、フォトリアリスティックな2d皮膚鏡画像および対応する濃密なアノテーションを生成する。 DermSynth3Dは、さまざまな皮膚科学タスクのためのカスタムデータセットを作成することができる。 本稿では,DermSynth3Dを用いて合成データ上でDLモデルを訓練し,実際の2次元皮膚画像を用いて各種皮膚学タスクで評価することにより,データの有効性を示す。 コードをhttps://github.com/sfu-mial/DermSynth3Dで公開しています。

In recent years, deep learning (DL) has shown great potential in the field of dermatological image analysis. However, existing datasets in this domain have significant limitations, including a small number of image samples, limited disease conditions, insufficient annotations, and non-standardized image acquisitions. To address these shortcomings, we propose a novel framework called DermSynth3D. DermSynth3D blends skin disease patterns onto 3D textured meshes of human subjects using a differentiable renderer and generates 2D images from various camera viewpoints under chosen lighting conditions in diverse background scenes. Our method adheres to top-down rules that constrain the blending and rendering process to create 2D images with skin conditions that mimic in-the-wild acquisitions, ensuring more meaningful results. The framework generates photo-realistic 2D dermoscopy images and the corresponding dense annotations for semantic segmentation of the skin, skin conditions, body parts, bounding boxes around lesions, depth maps, and other 3D scene parameters, such as camera position and lighting conditions. DermSynth3D allows for the creation of custom datasets for various dermatology tasks. We demonstrate the effectiveness of data generated using DermSynth3D by training DL models on synthetic data and evaluating them on various dermatology tasks using real 2D dermatological images. We make our code publicly available at https://github.com/sfu-mial/DermSynth3D.
翻訳日:2023-05-29 19:34:14 公開日:2023-05-25
# 協調学習音声感情と自動音声認識の有効性とノイズロバスト性について

On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition ( http://arxiv.org/abs/2305.12540v2 )

ライセンス: Link先を確認
Lokesh Bansal, S. Pavankumar Dubagunta, Malolan Chetlur, Pushpak Jagtap, Aravind Ganapathiraju(参考訳) 音声感情認識(SER)と自動音声認識(ASR)の両方を、ノイズの多い環境で現実の応用のために2つの独立した、しばしば独立したアプローチを用いて行う。 本稿では,低リソース環境でのASR-SERマルチタスク学習を共同で検討し,SERだけでなくASRでも改善が観察できることを示す。 また,背景雑音,バブル,音楽の存在に対する協調学習モデルの堅牢性についても検討した。 IEMOCAPデータセットの実験結果によると、共同学習はクリーンシナリオにおいて、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%向上させることができる。 ノイズのシナリオでは、MUSANを付加したデータの結果、結合アプローチは独立したASRおよびSERアプローチよりも多くのノイズ条件で優れることが示された。 全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。

New-age conversational agent systems perform both speech emotion recognition (SER) and automatic speech recognition (ASR) using two separate and often independent approaches for real-world application in noisy environments. In this paper, we investigate a joint ASR-SER multitask learning approach in a low-resource setting and show that improvements are observed not only in SER, but also in ASR. We also investigate the robustness of such jointly trained models to the presence of background noise, babble, and music. Experimental results on the IEMOCAP dataset show that joint learning can improve ASR word error rate (WER) and SER classification accuracy by 10.7% and 2.3% respectively in clean scenarios. In noisy scenarios, results on data augmented with MUSAN show that the joint approach outperforms the independent ASR and SER approaches across many noisy conditions. Overall, the joint ASR-SER approach yielded more noise-resistant models than the independent ASR and SER approaches.
翻訳日:2023-05-29 19:33:48 公開日:2023-05-25
# 音声認識のためのマルチヘッド状態空間モデル

Multi-Head State Space Model for Speech Recognition ( http://arxiv.org/abs/2305.12498v2 )

ライセンス: Link先を確認
Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales(参考訳) 状態空間モデル(SSM)は、最近、小規模シーケンスおよび言語モデリングタスクにおいて有望な結果を示し、多くの注意に基づくアプローチに対抗し、性能を向上している。 本稿では,並列ヘッドをシーケンスデータ上で局所的および大域的時間ダイナミクスを学ぶために,特別なゲーティング機構を備えたマルチヘッド状態空間(mh-ssm)アーキテクチャを提案する。 変圧器エンコーダにおけるマルチヘッドアテンションの代替として、この新モデルは、LibriSpeech音声認識コーパスにおいてトランスデューサを著しく上回っている。 さらに, stateformer と呼ばれる mh-ssms 層でトランスフォーマーブロックを拡張し,librispeech タスクで最先端のパフォーマンスを実現し,開発時の単語誤り率は 1.76\%/4.37\%,テストセットでは 1.91\%/4.36\% であった。

State space models (SSMs) have recently shown promising results on small-scale sequence and language modelling tasks, rivalling and outperforming many attention-based approaches. In this paper, we propose a multi-head state space (MH-SSM) architecture equipped with special gating mechanisms, where parallel heads are taught to learn local and global temporal dynamics on sequence data. As a drop-in replacement for multi-head attention in transformer encoders, this new model significantly outperforms the transformer transducer on the LibriSpeech speech recognition corpus. Furthermore, we augment the transformer block with MH-SSMs layers, referred to as the Stateformer, achieving state-of-the-art performance on the LibriSpeech task, with word error rates of 1.76\%/4.37\% on the development and 1.91\%/4.36\% on the test sets without using an external language model.
翻訳日:2023-05-29 19:33:31 公開日:2023-05-25
# 衛星, 回転, コンテクストデータの階層的融合による作物分類の促進

Boosting Crop Classification by Hierarchically Fusing Satellite, Rotational, and Contextual Data ( http://arxiv.org/abs/2305.12011v2 )

ライセンス: Link先を確認
Valentin Barriere and Martin Claverie and Maja Schneider and Guido Lemoine and Rapha\"el d'Andrimont(参考訳) 季節内作物の正確な分類は農作物生産量の推定とモニタリングに不可欠である。 しかし, 植物の成長パターンの複雑さと時空間変動は重要な課題である。 現在のディープラーニングベースの手法では、単一およびマルチモーダル時系列からの作物タイプ分類が期待できるが、既存の手法のほとんどは、衛星リモートセンシングデータや作物の回転パターンのような単一のモダリティに依存している。 本稿では,複数年にわたる精度と堅牢性向上のためのモデルにマルチモーダル情報を融合する新しい手法を提案する。 このアプローチは、Sentinel-2とLandsat 8のリモートセンシング時系列、パーセルの作物回転、および局所的な作物分布の3つのモードに依存している。 このアプローチを評価するため、フランスとオランダで740万の農業パーセルの注釈付きデータセットを新たにリリースしました。 表面反射率(赤とNIR)と生体物理変数(LAI, FAPAR)の時系列とを関連づける。 さらに,作物種を階層的クラス構造に自動集約し,有意義なモデル評価を行う新しい手法と,早期シーズン分類のための新しいデータ提供手法を提案する。 151種から8種にまたがるセマンティックドメインにおいて,マルチモーダルアプローチの性能を異なるアグリゲーションレベルで評価した。 その結果,NLデータセットでは 91\% から 95\% ,FRデータセットでは 85\% から 89\% の精度が得られた。 データセットを事前トレーニングすることで、国間のドメイン適応性が向上し、クロスドメインのゼロショット学習が可能になり、フランスからオランダまでの数ショット環境でのパフォーマンスが堅牢になる。 提案手法は,しばしば見過ごされがちな時空間的文脈を学習法で利用することで,比較した手法を上回っている。

Accurate in-season crop type classification is crucial for the crop production estimation and monitoring of agricultural parcels. However, the complexity of the plant growth patterns and their spatio-temporal variability present significant challenges. While current deep learning-based methods show promise in crop type classification from single- and multi-modal time series, most existing methods rely on a single modality, such as satellite optical remote sensing data or crop rotation patterns. We propose a novel approach to fuse multimodal information into a model for improved accuracy and robustness across multiple years and countries. The approach relies on three modalities used: remote sensing time series from Sentinel-2 and Landsat 8 observations, parcel crop rotation and local crop distribution. To evaluate our approach, we release a new annotated dataset of 7.4 million agricultural parcels in France and Netherlands. We associate each parcel with time-series of surface reflectance (Red and NIR) and biophysical variables (LAI, FAPAR). Additionally, we propose a new approach to automatically aggregate crop types into a hierarchical class structure for meaningful model evaluation and a novel data-augmentation technique for early-season classification. Performance of the multimodal approach was assessed at different aggregation level in the semantic domain spanning from 151 to 8 crop types or groups. It resulted in accuracy ranging from 91\% to 95\% for NL dataset and from 85\% to 89\% for FR dataset. Pre-training on a dataset improves domain adaptation between countries, allowing for cross-domain zero-shot learning, and robustness of the performances in a few-shot setting from France to Netherlands. Our proposed approach outperforms comparable methods by enabling learning methods to use the often overlooked spatio-temporal context of parcels, resulting in increased preci...
翻訳日:2023-05-29 19:32:49 公開日:2023-05-25
# トポロジック・アグノシズムを克服する: 骨格トポロジカル・アウェアネスによる骨格に基づく行動認識の強化

Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action Recognition through Redefined Skeletal Topology Awareness ( http://arxiv.org/abs/2305.11468v2 )

ライセンス: Link先を確認
Yuxuan Zhou, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Yifeng Geng, Xuansong Xie, Margret Keuper(参考訳) グラフ畳み込みネットワーク(GCN)は、長い間、骨格に基づく行動認識の最先端を定義しており、グラフの隣接行列を通して人間の関節トポロジーの複雑なダイナミクスを解き放つ能力を活用してきた。 しかし、これらの最先端モデルには固有の欠陥があり、モデルの重みとともに隣接行列を最適化する傾向がある。 このプロセスは、一見効率的だが、骨の接続データが徐々に崩壊し、マップに求めていたトポロジーとは無関係なモデルで終わる。 そこで我々は,(1) 骨結合を符号化する革新的な経路を, グラフ距離のパワーを利用して構築する3つの戦略を提案する。 このアプローチは、従来のGCNでしばしば失われる重要なトポロジカルニュアンスを保存する。 2) 骨格配列の時間的平均は, 控えめな視線にもかかわらず, 行動特異的な情報を持っている。 3) 異なる行動にまたがる共同対共同関係の強い変動がみられた。 この発見は、人間の動きを象徴する関係構成のバリエーションを捉えるための単一の隣接行列の限界を明らかにする。 この進化は、パラメータを実質的なマージン(40%以上)で削減し、元のGCNよりもパフォーマンスを高めます。 私たちのフルモデルであるblockgcnは、小さなモデルサイズに対するスケルトンベースのアクション認識の新しい標準を確立します。 その高精度、特に大規模なNTU RGB+D 120データセットは、BlockGCNの有効性の説得力のある証明である。 ソースコードとモデルはhttps://github.com/ZhouYuxuanYX/BlockGCNで見ることができる。

Graph Convolutional Networks (GCNs) have long defined the state-of-the-art in skeleton-based action recognition, leveraging their ability to unravel the complex dynamics of human joint topology through the graph's adjacency matrix. However, an inherent flaw has come to light in these cutting-edge models: they tend to optimize the adjacency matrix jointly with the model weights. This process, while seemingly efficient, causes a gradual decay of bone connectivity data, culminating in a model indifferent to the very topology it sought to map. As a remedy, we propose a threefold strategy: (1) We forge an innovative pathway that encodes bone connectivity by harnessing the power of graph distances. This approach preserves the vital topological nuances often lost in conventional GCNs. (2) We highlight an oft-overlooked feature - the temporal mean of a skeletal sequence, which, despite its modest guise, carries highly action-specific information. (3) Our investigation revealed strong variations in joint-to-joint relationships across different actions. This finding exposes the limitations of a single adjacency matrix in capturing the variations of relational configurations emblematic of human movement, which we remedy by proposing an efficient refinement to Graph Convolutions (GC) - the BlockGC. This evolution slashes parameters by a substantial margin (above 40%), while elevating performance beyond original GCNs. Our full model, the BlockGCN, establishes new standards in skeleton-based action recognition for small model sizes. Its high accuracy, notably on the large-scale NTU RGB+D 120 dataset, stand as compelling proof of the efficacy of BlockGCN. The source code and model can be found at https://github.com/ZhouYuxuanYX/BlockGCN.
翻訳日:2023-05-29 19:32:06 公開日:2023-05-25
# 相互作用範囲拡大による超伝導量子コンピュータの離散時間-結晶応答の安定化

Stabilization of Discrete Time-Crystaline Response on a Superconducting Quantum Computer by increasing the Interaction Range ( http://arxiv.org/abs/2305.14426v2 )

ライセンス: Link先を確認
Andrea Solfanelli, Stefano Ruffo, Sauro Succi, Nicol\`o Defenu(参考訳) 本研究は、超伝導量子プロセッサを用いて、近接近傍を超える結合を持つ系のダイナミクスを再現する新しい方法を提案する。 複雑な量子多体系の量子シミュレーションは、ノイズの多い中間スケール量子(nisq)デバイスの短期的目標である。 しかし、ネイティブ量子ビットの接続が限られているため、長距離相互作用を必要とする量子アルゴリズムの実装が妨げられる。 量子プロセッサネイティブゲートの普遍性を利用することで、物理的に切り離された量子ビット間の結合の実装が可能になることを示す。 提案手法の有効性を実証するため,Floquet駆動型量子スピンチェーンの量子シミュレーションをIBM量子超伝導プロセッサ上で実装した。 具体的には, 相互作用範囲が増加するにつれて, 離散フロッケ時間結晶応答が熱前安定化することを示す。 本手法は, 可変相互作用範囲を持つ系の研究を可能にし, 長距離相互作用量子系の物理を探求する新たな機会を開く。

This work presents a novel method for reproducing the dynamics of systems with couplings beyond nearest neighbors using a superconducting quantum processor. Quantum simulation of complex quantum many-body systems is a promising short-term goal of noisy intermediate-scale quantum (NISQ) devices. However, the limited connectivity of native qubits hinders the implementation of quantum algorithms that require long-range interactions. We show that utilizing the universality of quantum processor native gates allows the implementation of couplings among physically disconnected qubits. To demonstrate the effectiveness of our method, we implement a quantum simulation, on IBM quantum superconducting processors, of a Floquet-driven quantum spin chain featuring interactions beyond nearest neighbors. Specifically, we benchmark the prethermal stabilization of discrete Floquet time crystalline response as the interaction range increases, a phenomenon which was never experimentally observed before. Our method enables the study of systems with tunable interaction ranges, opening up new opportunities to explore the physics of long-range interacting quantum systems.
翻訳日:2023-05-29 19:24:54 公開日:2023-05-25
# federated variational inference: パーソナライゼーションと一般化の改善に向けて

Federated Variational Inference: Towards Improved Personalization and Generalization ( http://arxiv.org/abs/2305.13672v2 )

ライセンス: Link先を確認
Elahe Vedadi, Joshua V. Dillon, Philip Andrew Mansfield, Karan Singhal, Arash Afkanpour, Warren Richard Morningstar(参考訳) 従来のフェデレーション学習アルゴリズムは、すべてのクライアントのデータを活用することで、単一のグローバルモデルをトレーニングする。 しかし、クライアント生成分布と予測モデルの不均一性のため、これらのアプローチは予測過程を適切に近似したり、最適な状態に収束したり、新しいクライアントに一般化したりはできない。 本研究では,クライアントデータ分布と予測モデルにおける不均一性を仮定した,ステートレスクロスデバイスフェデレーション学習におけるパーソナライゼーションと一般化について検討する。 まず階層的生成モデルを提案し,ベイズ推論を用いて形式化する。 次に,モデルを効率的に学習するために変分推論を用いてこの過程を近似する。 我々はこのアルゴリズムをフェデレート変分推論 (FedVI) と呼ぶ。 我々は、FedVIの一般化境界を提供するためにPAC-Bayes解析を用いる。 我々は,FEMNISTとCIFAR-100画像分類のモデルを評価し,FedVIが両タスクの最先端性に勝っていることを示す。

Conventional federated learning algorithms train a single global model by leveraging all participating clients' data. However, due to heterogeneity in client generative distributions and predictive models, these approaches may not appropriately approximate the predictive process, converge to an optimal state, or generalize to new clients. We study personalization and generalization in stateless cross-device federated learning setups assuming heterogeneity in client data distributions and predictive models. We first propose a hierarchical generative model and formalize it using Bayesian Inference. We then approximate this process using Variational Inference to train our model efficiently. We call this algorithm Federated Variational Inference (FedVI). We use PAC-Bayes analysis to provide generalization bounds for FedVI. We evaluate our model on FEMNIST and CIFAR-100 image classification and show that FedVI beats the state-of-the-art on both tasks.
翻訳日:2023-05-29 19:24:38 公開日:2023-05-25
# エンティティと参照情報によるノルウェーのUDツリーバンクの調整

Aligning the Norwegian UD Treebank with Entity and Coreference Information ( http://arxiv.org/abs/2305.13527v2 )

ライセンス: Link先を確認
Tollef Emil J{\o}rgensen and Andre K{\aa}sen(参考訳) 本稿では,ノルウェーの2つの書式である bokm{\aa}l と nynorsk に対して,共通依存関係 (ud) ツリーバンクを基盤としたエンティティとコリファレンスアノテートデータの統合について述べる。 調整および変換されたコーパスはノルウェー名称エンティティ(NorNE)とノルウェーアナフォラ解決コーパス(NARC)である。 NorNEはツリーバンクの古いバージョンと一致しているが、NARCは不一致であり、元のアノテーションからUD構造やCoNLL-Uフォーマットへの広範な変換を必要とする。 ここでは、変換とアライメントのプロセスと、データ内の発見された問題とエラーの分析をデモします。 これらの手順と開発システムは、将来のコーパスアライメントとコア参照アノテーションの取り組みに役立つかもしれない。 合併したコーパスは、名前付きエンティティとコア参照情報を備えた最初のノルウェーのUDツリーバンクで構成されている。

This paper presents a merged collection of entity and coreference annotated data grounded in the Universal Dependencies (UD) treebanks for the two written forms of Norwegian: Bokm{\aa}l and Nynorsk. The aligned and converted corpora are the Norwegian Named Entities (NorNE) and Norwegian Anaphora Resolution Corpus (NARC). While NorNE is aligned with an older version of the treebank, NARC is misaligned and requires extensive transformation from the original annotations to the UD structure and CoNLL-U format. We here demonstrate the conversion and alignment processes, along with an analysis of discovered issues and errors in the data - some of which include data split overlaps in the original treebank. These procedures and the developed system may prove helpful for future corpus alignment and coreference annotation endeavors. The merged corpora comprise the first Norwegian UD treebank enriched with named entities and coreference information.
翻訳日:2023-05-29 19:23:53 公開日:2023-05-25
# 大規模言語モデルを用いた遺伝子集合要約

Gene Set Summarization using Large Language Models ( http://arxiv.org/abs/2305.13338v2 )

ライセンス: Link先を確認
Marcin P. Joachimiak, J. Harry Caufield, Nomi L. Harris, Hyeongsik Kim, Christopher J. Mungall(参考訳) 分子生物学者は、高スループット実験と計算解析から得られた遺伝子リストをしばしば解釈する。 これは典型的には、遺伝子オントロジー(GO)のような知識ベース(KB)からのキュレートされたアサーションに基づいて、遺伝子またはそれらの性質に関連する生物学的機能用語の過剰または過小表現を測定する統計エンリッチメント解析として行われる。 遺伝子リストの解釈は、テキスト要約タスクとしてフレーム化され、Large Language Models (LLM) が利用可能になり、科学的なテキストを直接利用でき、KBへの依存を避けることができる。 本研究では,GPTモデルを用いて遺伝子セット関数の要約を行うSPINDOCTOR(Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting)を開発した。 本手法では,(1) オントロジ的KBアノテーションから得られた構造化テキスト,(2) オントロジのない物語遺伝子要約,(3) 直接モデル検索など,遺伝子機能の異なる情報源を利用できる。 これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。 しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。 重要な点として、これらの方法が標準的なエンリッチメントから最も正確で情報的な用語を再結合することは滅多になかった。 結果は極めて非決定論的であり、わずかに異なる用語リストが生じる。 この結果から, LLM を用いた手法は, 標準項濃縮分析の代替として不適であり, オントロジ的アサーションのマニュアルキュレーションは依然として必要であることが示唆された。

Molecular biologists frequently interpret gene lists derived from high-throughput experiments and computational analysis. This is typically done as a statistical enrichment analysis that measures the over- or under-representation of biological function terms associated with genes or their properties, based on curated assertions from a knowledge base (KB) such as the Gene Ontology (GO). Interpreting gene lists can also be framed as a textual summarization task, enabling the use of Large Language Models (LLMs), potentially utilizing scientific texts directly and avoiding reliance on a KB. We developed SPINDOCTOR (Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting), a method that uses GPT models to perform gene set function summarization as a complement to standard enrichment analysis. This method can use different sources of gene functional information: (1) structured text derived from curated ontological KB annotations, (2) ontology-free narrative gene summaries, or (3) direct model retrieval. We demonstrate that these methods are able to generate plausible and biologically valid summary GO term lists for gene sets. However, GPT-based approaches are unable to deliver reliable scores or p-values and often return terms that are not statistically significant. Crucially, these methods were rarely able to recapitulate the most precise and informative term from standard enrichment, likely due to an inability to generalize and reason using an ontology. Results are highly nondeterministic, with minor variations in prompt resulting in radically different term lists. Our results show that at this point, LLM-based methods are unsuitable as a replacement for standard term enrichment analysis and that manual curation of ontological assertions remains necessary.
翻訳日:2023-05-29 19:23:37 公開日:2023-05-25
# 説明可能性の評価に関する実験的検討

An Experimental Investigation into the Evaluation of Explainability Methods ( http://arxiv.org/abs/2305.16361v1 )

ライセンス: Link先を確認
S\'edrick Stassin, Alexandre Englebert, G\'eraldin Nanfack, Julien Albert, Nassim Versbraegen, Gilles Peiffer, Miriam Doh, Nicolas Riche, Beno\^it Frenay, Christophe De Vleeschouwer(参考訳) Explainable Artificial Intelligence (XAI)は、人工知能(AI)システムの予測の背後にある推論の理解を支援することを目的としている。 近年、多くのXAIアプローチが出現している。 その結果、XAI手法の評価に関するサブフィールドが注目され、様々なアプローチや基準を用いて、どの手法が最良の説明を提供するかを決定することが目的となった。 しかしながら、文献はXAI手法の評価に使用できる評価基準そのものの比較を欠いている。 この研究はこのギャップを埋めるために、9つの最先端xai法と3つのダミー法(例えばランダム塩分マップ)を基準として適用した場合の14の異なる指標を比較している。 実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。 また,ベースラインハイパーパラメータの変化が評価基準値に与える影響も明らかにした。 最後に,ダミー法を用いて評価基準の信頼性を評価し,その限界を指摘する。

EXplainable Artificial Intelligence (XAI) aims to help users to grasp the reasoning behind the predictions of an Artificial Intelligence (AI) system. Many XAI approaches have emerged in recent years. Consequently, a subfield related to the evaluation of XAI methods has gained considerable attention, with the aim to determine which methods provide the best explanation using various approaches and criteria. However, the literature lacks a comparison of the evaluation metrics themselves, that one can use to evaluate XAI methods. This work aims to fill this gap by comparing 14 different metrics when applied to nine state-of-the-art XAI methods and three dummy methods (e.g., random saliency maps) used as references. Experimental results show which of these metrics produces highly correlated results, indicating potential redundancy. We also demonstrate the significant impact of varying the baseline hyperparameter on the evaluation metric values. Finally, we use dummy methods to assess the reliability of metrics in terms of ranking, pointing out their limitations.
翻訳日:2023-05-29 19:06:55 公開日:2023-05-25
# 平衡混合を用いた多変量ソフトセンサのタスク関係のモデル化

Modeling Task Relationships in Multi-variate Soft Sensor with Balanced Mixture-of-Experts ( http://arxiv.org/abs/2305.16360v1 )

ライセンス: Link先を確認
Yuxin Huang, Hao Wang, Zhaoran Liu, Licheng Pan, Haozhe Li, Xinggao Liu(参考訳) 複数の品質変数の正確な推定は、データ効率や負の伝達問題に長年直面してきた産業用ソフトセンサーモデルの構築に不可欠である。 タスク間でバックボーンパラメータを共有する方法は、データ効率の問題に対処するが、負の転送問題を軽減できない。 この問題に対処するために,マルチゲート・エキスパート(mmoe)モジュールとタスク・グラデーション・バランシング(tgb)モジュールからなるbmoe( balanced mixture-of-experts)を提案する。 moeモジュールはタスク間の関係を表現し、tgbモジュールはタスク間の勾配を動的にバランスさせる。 両者は負の転送問題を緩和するために協力する。 典型的な硫黄回収装置の実験では、BMoEはタスク関係をモデル化し、トレーニングプロセスを効果的にバランスさせ、ベースラインモデルよりも優れた性能を達成する。

Accurate estimation of multiple quality variables is critical for building industrial soft sensor models, which have long been confronted with data efficiency and negative transfer issues. Methods sharing backbone parameters among tasks address the data efficiency issue; however, they still fail to mitigate the negative transfer problem. To address this issue, a balanced Mixture-of-Experts (BMoE) is proposed in this work, which consists of a multi-gate mixture of experts (MMoE) module and a task gradient balancing (TGB) module. The MoE module aims to portray task relationships, while the TGB module balances the gradients among tasks dynamically. Both of them cooperate to mitigate the negative transfer problem. Experiments on the typical sulfur recovery unit demonstrate that BMoE models task relationship and balances the training process effectively, and achieves better performance than baseline models significantly.
翻訳日:2023-05-29 19:06:38 公開日:2023-05-25
# スパンジング林による分化性クラスタリング

Differentiable Clustering with Perturbed Spanning Forests ( http://arxiv.org/abs/2305.16358v1 )

ライセンス: Link先を確認
Lawrence Stewart (SIERRA), Francis S Bach (SIERRA), Felipe Llinares L\'opez (IRIT), Quentin Berthet(参考訳) そこで本研究では,複数の連結成分を有する樹木の種別である最小重み付きスパンニングフォレストに基づく分化可能なクラスタリング手法を提案する。 本手法は,線形プログラムの解の確率的摂動に依存し,滑らかかつ効率的な勾配計算を行う。 これにより、エンドツーエンドのトレーニング可能なパイプラインにクラスタリングを含めることができます。 提案手法は,ノイズの多いデータセットや難解なジオメトリなど,難しい設定でもうまく機能することを示す。 また、この演算を用いて部分クラスタリングデータから効率よく学習するアドホック損失を定式化する。 教師付きおよび半教師付きタスクのための実世界の複数のデータセット上でその性能を示す。

We introduce a differentiable clustering method based on minimum-weight spanning forests, a variant of spanning trees with several connected components. Our method relies on stochastic perturbations of solutions of linear programs, for smoothing and efficient gradient computations. This allows us to include clustering in end-to-end trainable pipelines. We show that our method performs well even in difficult settings, such as datasets with high noise and challenging geometries. We also formulate an ad hoc loss to efficiently learn from partial clustering data using this operation. We demonstrate its performance on several real world datasets for supervised and semi-supervised tasks.
翻訳日:2023-05-29 19:06:21 公開日:2023-05-25
# EDM3:マルチタスクテキスト生成のためのイベント検出

EDM3: Event Detection as Multi-task Text Generation ( http://arxiv.org/abs/2305.16357v1 )

ライセンス: Link先を確認
Ujjwala Anantheswaran and Himanshu Gupta and Mihir Parmar and Kuntal Kumar Pal and Chitta Baral(参考訳) イベント検出(英: Event detection)とは、テキスト中の事象を識別し、イベント識別と分類の2つのサブタスクから構成される。 本稿では,3つの生成タスク(識別,分類,複合検出)を定式化するイベント検出の新しい手法であるEDM3を提案する。 edm3は、イベント検出とサブタスクを同時に行うために活用可能な転送可能な知識を学習し、パイプライン型アプローチに固有のエラー伝播を緩和する。 従来のデータセットやドメイン固有のアプローチとは異なり、EDM3は既存の言語モデルの知識を利用しており、どんな分類スキーマでもトレーニングすることができる。 私たちは、複数のイベント検出データセット(RAMS、WikiEvents、MAVEN、MLEE)でEDM3を評価する。 1)シングルタスクのパフォーマンスが平均8.4%、そして 2) インストラクションプロンプトなしのマルチタスク性能は平均2.4%向上した。 我々は、ramのsoma結果(71.3%対65.1%f-1)と、他のデータセットの競合性能を得る。 我々は,低リソース・マルチセンス環境での有効性を実証するためのアプローチを分析した。 また,マルチワードやマルチクラスイベントトリガなどの非標準イベント設定に対して,このアプローチの有効性を示す。 以上の結果から,EDM3は実世界のアプリケーションに可能性を持つイベント検出のための,有望なアプローチであることがわかった。

Event detection refers to identifying event occurrences in a text and comprises of two subtasks; event identification and classification. We present EDM3, a novel approach for Event Detection that formulates three generative tasks: identification, classification, and combined detection. We show that EDM3 helps to learn transferable knowledge that can be leveraged to perform Event Detection and its subtasks concurrently, mitigating the error propagation inherent in pipelined approaches. Unlike previous dataset- or domain-specific approaches, EDM3 utilizes the existing knowledge of language models, allowing it to be trained over any classification schema. We evaluate EDM3 on multiple event detection datasets: RAMS, WikiEvents, MAVEN, and MLEE, showing that EDM3 outperforms 1) single-task performance by 8.4% on average and 2) multi-task performance without instructional prompts by 2.4% on average. We obtain SOTA results on RAMS (71.3% vs. 65.1% F-1) and competitive performance on other datasets. We analyze our approach to demonstrate its efficacy in low-resource and multi-sentence settings. We also show the effectiveness of this approach on non-standard event configurations such as multi-word and multi-class event triggers. Overall, our results show that EDM3 is a promising approach for Event Detection that has the potential for real-world applications.
翻訳日:2023-05-29 19:06:11 公開日:2023-05-25
# PandaGPT:教科をフォローする1つのモデル

PandaGPT: One Model To Instruction-Follow Them All ( http://arxiv.org/abs/2305.16355v1 )

ライセンス: Link先を確認
Yixuan Su and Tian Lan and Huayang Li and Jialu Xu and Yan Wang and Deng Cai(参考訳) PandaGPTは,視覚的および聴覚的指示追従機能を備えた大規模LANguage moDelsをエミュレートする手法である。 実験の結果,PandaGPTは詳細な画像記述生成,ビデオにインスパイアされたストーリーの執筆,音声に関する質問への回答など,複雑なタスクを実行できることがわかった。 さらに興味深いことに、PandaGPTはマルチモーダル入力を同時に受け取り、それらのセマンティクスを自然に構成することができる。 例えば、PandaGPTは、オブジェクトが画像やビデオでどのように見えるか、音声でどのように聞こえるか、を接続できる。 そのためにPandaGPTは、ImageBindのマルチモーダルエンコーダと、Vicunaの大規模言語モデルを組み合わせる。 特に、PandaGPTのトレーニングには、画像テキストペアのみが必要である。 異なるモダリティからのデータを同じ空間に埋め込むためのimagebindの強力な能力のおかげで、pandagptは、画像やテキスト以外のデータ(ビデオ、オーディオ、深度、熱、immなど)に対して、ゼロショット、クロスモーダルな振る舞いを創発的に表示する。 私たちは、PandaGPTがAGIを構築する最初のステップとして機能し、人間がしているように、異なるモダリティで入力を認識し、理解することができることを願っています。 プロジェクトページはhttps://panda-gpt.github.io/にあります。

We present PandaGPT, an approach to emPower large lANguage moDels with visual and Auditory instruction-following capabilities. Our pilot experiments show that PandaGPT can perform complex tasks such as detailed image description generation, writing stories inspired by videos, and answering questions about audios. More interestingly, PandaGPT can take multimodal inputs simultaneously and compose their semantics naturally. For example, PandaGPT can connect how objects look in an image/video and how they sound in an audio. To do so, PandaGPT combines the multimodal encoders from ImageBind and the large language models from Vicuna. Notably, only aligned image-text pairs are required for the training of PandaGPT. Thanks to the strong capability of ImageBind in embedding data from different modalities into the same space, PandaGPT displays emergent, i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g., video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an initial step toward building AGI that can perceive and understand inputs in different modalities holistically, as we humans do. Our project page is at https://panda-gpt.github.io/.
翻訳日:2023-05-29 19:05:50 公開日:2023-05-25
# Betray Oneself:Mono-to-Stereo変換による新しいオーディオディープフェイク検出モデル

Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion ( http://arxiv.org/abs/2305.16353v1 )

ライセンス: Link先を確認
Rui Liu, Jinhua Zhang, Guanglai Gao and Haizhou Li(参考訳) 音声ディープフェイク検出(ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。 伝統的に、モノ信号を入力とし、ロバストな特徴抽出と効果的な分類器設計に焦点を当てる。 しかし、オーディオ信号の二重チャネルステレオ情報には、従来研究されていないディープフェイクのための重要な手がかりも含まれている。 本稿では,モノ・ステレオ変換過程において,音声の真正性を見いだそうとする新しいADDモデル M2S-ADDを提案する。 まず、事前訓練されたステレオシンセサイザーを用いてモノをステレオ信号に投影し、次に左右のチャネル信号を処理するためにデュアルブランチニューラルネットワークを用いる。 このようにして、偽音声のアーティファクトを効果的に明らかにし、ADD性能を向上する。 ASVspoof2019データベースでの実験では、M2S-ADDは入力モノの全てのベースラインより優れていた。 ソースコードは \url{https://github.com/AI-S2-Lab/M2S-ADD} で公開しています。

Audio Deepfake Detection (ADD) aims to detect the fake audio generated by text-to-speech (TTS), voice conversion (VC) and replay, etc., which is an emerging topic. Traditionally we take the mono signal as input and focus on robust feature extraction and effective classifier design. However, the dual-channel stereo information in the audio signal also includes important cues for deepfake, which has not been studied in the prior work. In this paper, we propose a novel ADD model, termed as M2S-ADD, that attempts to discover audio authenticity cues during the mono-to-stereo conversion process. We first projects the mono to a stereo signal using a pretrained stereo synthesizer, then employs a dual-branch neural architecture to process the left and right channel signals, respectively. In this way, we effectively reveal the artifacts in the fake audio, thus improve the ADD performance. The experiments on the ASVspoof2019 database show that M2S-ADD outperforms all baselines that input mono. We release the source code at \url{https://github.com/AI-S2-Lab/M2S-ADD}.
翻訳日:2023-05-29 19:05:27 公開日:2023-05-25
# DeepGate2: 関数型回路表現学習

DeepGate2: Functionality-Aware Circuit Representation Learning ( http://arxiv.org/abs/2305.16373v1 )

ライセンス: Link先を確認
Zhengyuan Shi, Hongyang Pan, Sadaf Khan, Min Li, Yi Liu, Junhua Huang, Hui-Ling Zhen, Mingxuan Yuan, Zhufei Chu and Qiang Xu(参考訳) 回路表現学習は、回路要素の神経表現を得ることを目的としており、様々なEDAや論理推論タスクに適用できる有望な研究方向として登場した。 deepgateのような既存のソリューションは、回路構造情報と機能動作の両方を埋め込む可能性がある。 しかし、それらの能力は、弱い監督や欠陥のあるモデル設計のために制限されており、下流のタスクでは不満足なパフォーマンスをもたらす。 本稿では,DeepGate2について紹介する。DeepGateは,学習効率と効率の両面で,オリジナルのDeepGateソリューションを大幅に改善する,新しい機能認識学習フレームワークである。 我々のアプローチでは、サンプル論理ゲート間のペアワイズ真理表の違いをトレーニング監督として、回路機能を明確に考慮したよく設計されたスケーラブルな損失関数と併用する。 さらに,回路特性を考慮し,効率的な1ラウンドグラフニューラルネットワーク(GNN)を設計することにより,元のDeepGateソリューションよりも学習速度が桁違いに速くなった。 実験の結果,論理合成とブール充足性解法という2つの実用的な下流課題において有意な改善が示された。 コードはhttps://github.com/cure-lab/deepgate2で入手できる。

Circuit representation learning aims to obtain neural representations of circuit elements and has emerged as a promising research direction that can be applied to various EDA and logic reasoning tasks. Existing solutions, such as DeepGate, have the potential to embed both circuit structural information and functional behavior. However, their capabilities are limited due to weak supervision or flawed model design, resulting in unsatisfactory performance in downstream tasks. In this paper, we introduce DeepGate2, a novel functionality-aware learning framework that significantly improves upon the original DeepGate solution in terms of both learning effectiveness and efficiency. Our approach involves using pairwise truth table differences between sampled logic gates as training supervision, along with a well-designed and scalable loss function that explicitly considers circuit functionality. Additionally, we consider inherent circuit characteristics and design an efficient one-round graph neural network (GNN), resulting in an order of magnitude faster learning speed than the original DeepGate solution. Experimental results demonstrate significant improvements in two practical downstream tasks: logic synthesis and Boolean satisfiability solving. The code is available at https://github.com/cure-lab/DeepGate2
翻訳日:2023-05-29 18:56:31 公開日:2023-05-25
# 材料コンテキストにおける高次元教師なしクラスタリングタスクにおける等方性定量化指標

Metrics for quantifying isotropy in high dimensional unsupervised clustering tasks in a materials context ( http://arxiv.org/abs/2305.16372v1 )

ライセンス: Link先を確認
Samantha Durdy, Michael W. Gaultois, Vladimir Gusev, Danushka Bollegala, and Matthew J. Rosseinsky(参考訳) クラスタリングは機械学習では一般的なタスクだが、ラベルのないデータのクラスタは定量化が難しい。 化学におけるクラスタリングアルゴリズムの適用は、しばしば材料表現に依存する。 異なる表現、クラスタリングアルゴリズム、または結果のクラスタに対するデータ変換の影響を確認することは、これらのデータの次元性のため困難である。 本稿では,既存の導出に基づく新しいインプラントを含むクラスターの等方性測定の徹底的な解析を行う。 比較のために医用画像法で一般的な方法である分数異方性を用いて,これらの測定値を拡張し,クラスター群の平均異方性を調べる。 このような測定のユースケースは、無機結晶構造データベースの異なる表現に対するカーネル近似関数の効果を定量化することによって示される。 これらの手法の幅広い適用性は、mnistデータセットの学習埋め込みの分析で示される。 ランダムクラスタは、提示される等方性測度の違いを調べ、各手法が寸法でどのようにスケールするかを調べる。 これらの尺度のPython実装は、コミュニティが使用するために提供されている。

Clustering is a common task in machine learning, but clusters of unlabelled data can be hard to quantify. The application of clustering algorithms in chemistry is often dependant on material representation. Ascertaining the effects of different representations, clustering algorithms, or data transformations on the resulting clusters is difficult due to the dimensionality of these data. We present a thorough analysis of measures for isotropy of a cluster, including a novel implantation based on an existing derivation. Using fractional anisotropy, a common method used in medical imaging for comparison, we then expand these measures to examine the average isotropy of a set of clusters. A use case for such measures is demonstrated by quantifying the effects of kernel approximation functions on different representations of the Inorganic Crystal Structure Database. Broader applicability of these methods is demonstrated in analysing learnt embedding of the MNIST dataset. Random clusters are explored to examine the differences between isotropy measures presented, and to see how each method scales with the dimensionality. Python implementations of these measures are provided for use by the community.
翻訳日:2023-05-29 18:55:58 公開日:2023-05-25
# intapt:非ネイティブ音声認識の強化のための情報理論的対向プロンプトチューニング

INTapt: Information-Theoretic Adversarial Prompt Tuning for Enhanced Non-Native Speech Recognition ( http://arxiv.org/abs/2305.16371v1 )

ライセンス: Link先を確認
Eunseop Yoon, Hee Suk Yoon, John Harvill, Mark Hasegawa-Johnson and Chang D. Yoo(参考訳) 自動音声認識(ASR)システムは、自己教師付き音声表現学習に基づいて事前訓練された大規模な音声モデルを用いて、前例のない性能を達成した。 しかしながら、これらの事前訓練された音声モデルは、あまり表現されないアクセントよりも、事前訓練された音声コーパスにおける顕著なアクセント(L1)英語アクセント)を表現しやすい傾向にあるため、表現バイアスに悩まされ、非ネイティブ(L2)英語アクセントのパフォーマンスが低下する。 この問題を軽減するためのアプローチはいくつかあるが、これらの手法はすべて、事前訓練されたモデルの重みを更新する必要がある。 本稿では,前訓練モデルの注意を,バックボーン重みを更新せずにネイティブ(l1)英語音声に類似させるように再調整可能な,元の入力に連結されたプロンプトを導入する情報理論的逆向プロンプトチューニング(intapt)を提案する。 インタプタは,(1)原入力とプロンプト連結入力のアクセント特徴依存性を低減するための逆トレーニング,(2)ASR性能を向上させるためのCTC損失を最小化するためのトレーニングの2つの方法で同時に訓練される。 実験の結果,インタプタはL2英語の性能を向上し,L2アクセントとL1アクセントの特徴的類似性を高めることがわかった。

Automatic Speech Recognition (ASR) systems have attained unprecedented performance with large speech models pre-trained based on self-supervised speech representation learning. However, these pre-trained speech models suffer from representational bias as they tend to better represent those prominent accents (i.e., native (L1) English accent) in the pre-training speech corpus than less represented accents, resulting in a deteriorated performance for non-native (L2) English accents. Although there have been some approaches to mitigate this issue, all of these methods require updating the pre-trained model weights. In this paper, we propose Information Theoretic Adversarial Prompt Tuning (INTapt), which introduces prompts concatenated to the original input that can re-modulate the attention of the pre-trained model such that the corresponding input resembles a native (L1) English speech without updating the backbone weights. INTapt is trained simultaneously in the following two manners: (1) adversarial training to reduce accent feature dependence between the original input and the prompt-concatenated input and (2) training to minimize CTC loss for improving ASR performance to a prompt-concatenated input. Experimental results show that INTapt improves the performance of L2 English and increases feature similarity between L2 and L1 accents.
翻訳日:2023-05-29 18:55:29 公開日:2023-05-25
# stecformer:多変量時系列予測のための時空間符号化カスケードトランス

Stecformer: Spatio-temporal Encoding Cascaded Transformer for Multivariate Long-term Time Series Forecasting ( http://arxiv.org/abs/2305.16370v1 )

ライセンス: Link先を確認
Zheng Sun, Yi Wei, Wenxiao Jia, and Long Yu(参考訳) 多変量時系列予測は、エネルギー消費や天気予報など、多くの分野において大きな応用である。 変圧器に基づく手法の開発により,多変量長期時系列予測の性能は大幅に向上しているが,変圧器モデルにおける空間的特徴の抽出は稀であり,予測期間の一貫性が大きすぎて不十分である。 本研究では,特徴抽出と目標予測の観点から,これらの問題を解決するための完全な解を提案する。 抽出のために,半適応グラフを含む効率的な時空間符号化抽出器を設計し,時空間情報を取得する。 予測のために,各区間間の相関性を高めるために,カスケード復号予測器(cdp)を提案する。 提案手法は時空間符号化カスケード変換器(Stecformer)と呼ばれ、ベースラインモデルよりも顕著なギャップを達成し、5つのベンチマークデータセット上でのトランスフォーマーベースの手法の最先端性能に匹敵する。 今後,多変量長期時系列予測における定期的な構成として,我々の試みが望まれる。

Multivariate long-term time series forecasting is of great application across many domains, such as energy consumption and weather forecasting. With the development of transformer-based methods, the performance of multivariate long-term time series forecasting has been significantly improved, however, the study of spatial features extracting in transformer-based model is rare and the consistency of different prediction periods is unsatisfactory due to the large span. In this work, we propose a complete solution to address these problems in terms of feature extraction and target prediction. For extraction, we design an efficient spatio-temporal encoding extractor including a semi-adaptive graph to acquire sufficient spatio-temporal information. For prediction, we propose a Cascaded Decoding Predictor (CDP) to strengthen the correlation between different intervals, which can also be utilized as a generic component to improve the performance of transformer-based methods. The proposed method, termed as Spatio-temporal Encoding Cascaded Transformer (Stecformer), achieving a notable gap over the baseline model and is comparable with the state-of-the-art performance of transformer-based methods on five benchmark datasets. We hope our attempt will serve as a regular configuration in multivariate long-term time series forecasting in the future.
翻訳日:2023-05-29 18:54:50 公開日:2023-05-25
# 半自動コーナケース検出と評価パイプライン

A Semi-Automated Corner Case Detection and Evaluation Pipeline ( http://arxiv.org/abs/2305.16369v1 )

ライセンス: Link先を確認
Isabelle Tulleners, Tobias Moers, Thomas Schulik, Martin Sedlacek(参考訳) 自動運転車を一般向けに展開するためには、さまざまなシナリオにおいて安全かつ堅牢にトラフィックを処理できることを証明する必要がある。 自動運転車の重要な構成要素は、車両の周囲の環境を捉え、処理する知覚システムである。 知覚システムは、ディープニューラルネットワークをトレーニングするために大きなデータセットを必要とする。 これらのデータセット内のデータのどの部分がコーナーケースを記述しているかを知ることは、ネットワークのトレーニングやテストにおいて有利である。 これらのコーナーケースは、ネットワークにとって稀で潜在的に困難な状況を記述する。 我々は,集合的専門家知識記述を拡張ki absicherungオントロジーに変換するパイプラインを提案する。 オントロジーは知覚データセットにマッピングできるシーンやシナリオを記述するために使われる。 コーナーケースはデータセットから抽出することができる。 また、抽出したコーナーケースに対して検出ネットワークの評価を行い、その性能を測定することができる。

In order to deploy automated vehicles to the public, it has to be proven that the vehicle can safely and robustly handle traffic in many different scenarios. One important component of automated vehicles is the perception system that captures and processes the environment around the vehicle. Perception systems require large datasets for training their deep neural network. Knowing which parts of the data in these datasets describe a corner case is an advantage during training or testing of the network. These corner cases describe situations that are rare and potentially challenging for the network. We propose a pipeline that converts collective expert knowledge descriptions into the extended KI Absicherung ontology. The ontology is used to describe scenes and scenarios that can be mapped to perception datasets. The corner cases can then be extracted from the datasets. In addition, the pipeline enables the evaluation of the detection networks against the extracted corner cases to measure their performance.
翻訳日:2023-05-29 18:54:28 公開日:2023-05-25
# 神経不完全因子分解:共役勾配法による学習前条件

Neural incomplete factorization: learning preconditioners for the conjugate gradient method ( http://arxiv.org/abs/2305.16368v1 )

ライセンス: Link先を確認
Paul H\"ausner, Ozan \"Oktem, Jens Sj\"olund(参考訳) 本稿では,科学計算と最適化において遭遇する大規模線形方程式系を高速化する,新しいデータ駆動型手法を提案する。 本手法は,グラフニューラルネットワークの自己教師型トレーニングを利用して,特定の問題領域に合わせた効果的なプレコンディショナーを生成する。 従来の手作りプリコンディショナーを共役勾配法に置き換えることで,neural incomplete factorization (neuralif) と呼ばれるアプローチにより,高速化と計算効率が向上した。 提案手法のコアとなるのは,スパース行列理論に着想を得た新しいメッセージパッシングブロックであり,マトリクスのスパース因数分解を求める目的と整合する。 本研究では,科学計算から生じる合成問題と実世界の問題の両方について,提案手法を評価する。 以上の結果から,NeuralIFは不完全なColesky法を含む汎用プレコンディショナーよりも一貫して優れており,トレーニングデータ分布外においても,様々な指標の競合性能を実現していることがわかった。

In this paper, we develop a novel data-driven approach to accelerate solving large-scale linear equation systems encountered in scientific computing and optimization. Our method utilizes self-supervised training of a graph neural network to generate an effective preconditioner tailored to the specific problem domain. By replacing conventional hand-crafted preconditioners used with the conjugate gradient method, our approach, named neural incomplete factorization (NeuralIF), significantly speeds-up convergence and computational efficiency. At the core of our method is a novel message-passing block, inspired by sparse matrix theory, that aligns with the objective to find a sparse factorization of the matrix. We evaluate our proposed method on both a synthetic and a real-world problem arising from scientific computing. Our results demonstrate that NeuralIF consistently outperforms the most common general-purpose preconditioners, including the incomplete Cholesky method, achieving competitive performance across various metrics even outside the training data distribution.
翻訳日:2023-05-29 18:54:15 公開日:2023-05-25
# 大規模言語モデルによるロールプレイ

Role-Play with Large Language Models ( http://arxiv.org/abs/2305.16367v1 )

ライセンス: Link先を確認
Murray Shanahan, Kyle McDonell, Laria Reynolds(参考訳) 対話エージェントのパフォーマンスが人間らしくなるにつれて,人間同型化の罠に陥ることなく,ハイレベルな言葉で表現する効果的な方法を開発することが不可欠である。 本稿では,ロールプレイの概念を先導する。 ロールプレイの観点から対話エージェントの振る舞いをキャスティングすることで、実際に欠落している言語モデルに人間の特性を記述することなく、身近な民間心理学用語で表現することができる。 対話エージェントの振る舞いの2つの重要なケース、すなわち(正当な)偽装と(明快な)自己認識である。

As dialogue agents become increasingly human-like in their performance, it is imperative that we develop effective ways to describe their behaviour in high-level terms without falling into the trap of anthropomorphism. In this paper, we foreground the concept of role-play. Casting dialogue agent behaviour in terms of role-play allows us to draw on familiar folk psychological terms, without ascribing human characteristics to language models they in fact lack. Two important cases of dialogue agent behaviour are addressed this way, namely (apparent) deception and (apparent) self-awareness.
翻訳日:2023-05-29 18:53:57 公開日:2023-05-25
# エニグマの解法:形式的定理証明のためのサブゴールに基づく実証学習

Decomposing the Enigma: Subgoal-based Demonstration Learning for Formal Theorem Proving ( http://arxiv.org/abs/2305.16366v1 )

ライセンス: Link先を確認
Xueliang Zhao, Wenda Li, Lingpeng Kong(参考訳) 大規模言語モデル~(LLM)は形式定理証明の領域における興味深い探索の道を示す。 にもかかわらず、これらのモデルの完全な利用、特にデモフォーマットと組織の観点からは、未調査領域である。 まず, 強化学習とロボット工学の領域から, サブゴール学習の洞察を基礎として, 実演例ごとに異なるサブゴールの構築を提案し, サブゴール学習の関連する理論に従ってこれらのサブゴールを洗練させる。 第二に, 拡散モデルの最近の進歩を活かして, 最適組織を予測し, デモ組織領域内で持続する2つの複雑な問題, サブセット選択と順序決定を同時に解決する。 サブゴールをベースとした学習手法の統合により,MiniF2Fベンチマークの検証精度は38.9\%から44.3\%に向上した。 さらに,実験組織への拡散モデルの適用により,45.5\%の精度向上や,長期間の最先端手法と比較してサンプリング効率の向上が5.5\times$に向上する可能性がある。 我々のコードは \url{https://github.com/HKUNLP/subgoal-theorem-prover} で入手できる。

Large language models~(LLMs) present an intriguing avenue of exploration in the domain of formal theorem proving. Nonetheless, the full utilization of these models, particularly in terms of demonstration formatting and organization, remains an underexplored area. In an endeavor to enhance the efficacy of LLMs, we introduce a subgoal-based demonstration learning framework, consisting of two primary elements: Firstly, drawing upon the insights of subgoal learning from the domains of reinforcement learning and robotics, we propose the construction of distinct subgoals for each demonstration example and refine these subgoals in accordance with the pertinent theories of subgoal learning. Secondly, we build upon recent advances in diffusion models to predict the optimal organization, simultaneously addressing two intricate issues that persist within the domain of demonstration organization: subset selection and order determination. Through the integration of subgoal-based learning methodologies, we have successfully increased the prevailing proof accuracy from 38.9\% to 44.3\% on the miniF2F benchmark. Furthermore, the adoption of diffusion models for demonstration organization can lead to an additional enhancement in accuracy to 45.5\%, or a $5\times$ improvement in sampling efficiency compared with the long-standing state-of-the-art method. Our code is available at \url{https://github.com/HKUNLP/subgoal-theorem-prover}.
翻訳日:2023-05-29 18:53:46 公開日:2023-05-25
# E2EAI: アクティブ投資のためのエンドツーエンドのディープラーニングフレームワーク

E2EAI: End-to-End Deep Learning Framework for Active Investing ( http://arxiv.org/abs/2305.16364v1 )

ライセンス: Link先を確認
Zikai Wei, Bo Dai, Dahua Lin(参考訳) アクティブ・インベストメント(Active Investment)は、市場で比較的利益があると思われる資産のポートフォリオを構築することを目的としている。 近年、より活発なリターンを持つ「深層要素」を追求するためのディープラーニングの適用や、アセットトレンド予測のための有望なパイプラインへの取り組みが増えている。 しかし、エンドツーエンドのディープラーニングフレームワーク(E2E)を通じて、アクティブな投資ポートフォリオを構築する方法に関する疑問は、まだオープンであり、既存の作業で対処されることはめったにない。 本稿では, 因子選択, 因子組合せ, 株式選択, ポートフォリオ構築を通じて, ほぼすべての要因投資プロセスをカバーするE2Eを提案する。 実際の株式市場データに関する大規模な実験は、アクティブ投資におけるエンドツーエンドのディープ・リーン・フレームワークの有効性を示している。

Active investing aims to construct a portfolio of assets that are believed to be relatively profitable in the markets, with one popular method being to construct a portfolio via factor-based strategies. In recent years, there have been increasing efforts to apply deep learning to pursue "deep factors'' with more active returns or promising pipelines for asset trends prediction. However, the question of how to construct an active investment portfolio via an end-to-end deep learning framework (E2E) is still open and rarely addressed in existing works. In this paper, we are the first to propose an E2E that covers almost the entire process of factor investing through factor selection, factor combination, stock selection, and portfolio construction. Extensive experiments on real stock market data demonstrate the effectiveness of our end-to-end deep leaning framework in active investing.
翻訳日:2023-05-29 18:53:23 公開日:2023-05-25
# サブポピュレーションモデルの性能向上のためのエンサンブル合成EHR生成

Ensemble Synthetic EHR Generation for Increasing Subpopulation Model's Performance ( http://arxiv.org/abs/2305.16363v1 )

ライセンス: Link先を確認
Oriel Perets, Nadav Rappoport(参考訳) 電子健康記録(EHR)は、特定のサブ集団(SP)の表現率が異なることが多い。 患者人口、臨床症状の有病率、医療センタータイプなどの要因がこの過小評価に寄与する。 その結果、そのようなデータセット上で機械学習モデルをトレーニングする場合、モデルは一般化に苦慮し、表現不足のSPでは性能が悪くなる。 そこで本研究では,生成モデルを利用した新しいアンサンブルフレームワークを提案する。 具体的には、各SPに対してGANベースの合成データ生成装置を訓練し、各SPトレーニングセットに合成サンプルを組み込む。 最終的に、SP固有の予測モデルを訓練する。 本手法を適切に評価するために,MIMICデータベースから検索した2つの実世界のユースケースデータセットを用いた評価パイプラインを設計する。 提案手法は,表現不足のSPに対するモデル性能の向上を示す。 私たちのコードとモデルは補足として提供され、パブリックリポジトリで公開されます。

Electronic health records (EHR) often contain different rates of representation of certain subpopulations (SP). Factors like patient demographics, clinical condition prevalence, and medical center type contribute to this underrepresentation. Consequently, when training machine learning models on such datasets, the models struggle to generalize well and perform poorly on underrepresented SPs. To address this issue, we propose a novel ensemble framework that utilizes generative models. Specifically, we train a GAN-based synthetic data generator for each SP and incorporate synthetic samples into each SP training set. Ultimately, we train SP-specific prediction models. To properly evaluate this method, we design an evaluation pipeline with 2 real-world use case datasets, queried from the MIMIC database. Our approach shows increased model performance over underrepresented SPs. Our code and models are given as supplementary and will be made available on a public repository.
翻訳日:2023-05-29 18:53:09 公開日:2023-05-25
# NISQと量子インスピレーションドコンピューティングのコラテラル最適化へのアプローチ

Approaching Collateral Optimization for NISQ and Quantum-Inspired Computing ( http://arxiv.org/abs/2305.16395v1 )

ライセンス: Link先を確認
Megan Giron and Georgios Korpas and Waqas Parvaiz and Prashant Malik and Johannes Aspman(参考訳) 担保最適化(Collateral optimization)とは、債務や担保取引を充足するための金融資産の体系的な配分であり、同時にコストを最小化し、利用可能な資源の使用を最適化する。 { これは、所定の取引又は取引の集合から生じる露出をカバーするために投じられる最適の担保量を確認するために、資金のコストや基礎資産の品質などの特徴の数を評価することを含む。 共通の目的の1つは、特定の取引又は取引のポートフォリオに関連するリスクを軽減するために必要な担保コストを最小化し、関連する当事者の十分な保護を確保することである。 多くの場合、これは大規模な組合せ最適化問題をもたらす。 本研究では、まず、並列最適化問題に対するMILP(Mixed Integer Linear Programming)の定式化と、ハイブリッド量子およびNISQ-ready方式でこの問題にアプローチする道を開くための2次非制約バイナリ最適化(QUBO)の定式化について述べる。 様々なソフトウェア開発キット (SDK) を用いて局所的な小規模テストを行い, 定式化の挙動と性能向上の可能性について議論する。 さらに, 並列最適化に適した組合せ最適化問題に対して, 代替手法を提案する最近の文献を調査する。

Collateral optimization refers to the systematic allocation of financial assets to satisfy obligations or secure transactions, while simultaneously minimizing costs and optimizing the usage of available resources. {This involves assessing number of characteristics, such as cost of funding and quality of the underlying assets to ascertain the optimal collateral quantity to be posted to cover exposure arising from a given transaction or a set of transactions. One of the common objectives is to minimise the cost of collateral required to mitigate the risk associated with a particular transaction or a portfolio of transactions while ensuring sufficient protection for the involved parties}. Often, this results in a large-scale combinatorial optimization problem. In this study, we initially present a Mixed Integer Linear Programming (MILP) formulation for the collateral optimization problem, followed by a Quadratic Unconstrained Binary optimization (QUBO) formulation in order to pave the way towards approaching the problem in a hybrid-quantum and NISQ-ready way. We conduct local computational small-scale tests using various Software Development Kits (SDKs) and discuss the behavior of our formulations as well as the potential for performance enhancements. We further survey the recent literature that proposes alternative ways to attack combinatorial optimization problems suitable for collateral optimization.
翻訳日:2023-05-29 18:47:40 公開日:2023-05-25
# ニューラルネットワークを用いた小惑星アルベドの固有軌道要素のモデル化

Using neural networks to model Main Belt Asteroid albedos as a function of their proper orbital elements ( http://arxiv.org/abs/2305.16392v1 )

ライセンス: Link先を確認
Zachary Murray(参考訳) 小惑星の直径は伝統的に推定が難しい。 直接の直径測定がオカルテーションまたは直接レーダー観測によって行われない場合、最も一般的な方法は赤外線観測から直径を近似することである。 直径が判明すれば、可視光観測との比較により、天体の可視幾何学的アルベドを見つけることができる。 小惑星アルベドの最大のデータセットの1つは、可視光と赤外線の両方で小惑星アルベドを測定するNEOWISEミッションに由来する。 我々はこれらのアルベドを、ニューラルネットワークのアンサンブルを用いて、小惑星家族ポータルから利用できる適切な要素の関数としてモデル化する。 可視と赤外の両方の幾何学的アルベドは、ベルト内の小惑星の位置と大きく相関し、小惑星群と背景帯の両方で発生する。 アンサンブルの予測は, 平均アルベドを単純に採用したモデルと比較して, アルベドの平均誤差を約37%減少させることがわかった。 次に、このモデルを使って、50万個の小惑星のアルベドを予測し、適切な要素を小惑星ファミリーポータルで提供し、その結果をカタログで提供する。 最後に、現在分類されているいくつかの小惑星群は、類似したアルベドのより大きな小惑星群の中に存在しており、これは家族同定のさらなる改善が可能であることを示唆している。

Asteroid diameters are traditionally difficult to estimate. When a direct measurement of the diameter cannot be made through either occultation or direct radar observation, the most common method is to approximate the diameter from infrared observations. Once the diameter is known, a comparison with visible light observations can be used to find the visible geometric albedo of the body. One of the largest datasets of asteroid albedos comes from the NEOWISE mission, which measured asteroid albedos both in the visible and infrared. We model these albedos as a function of proper elements available from the Asteroid Families Portal using an ensemble of neural networks. We find that both the visible and infrared geometric albedos are significantly correlated with asteroid position in the belt and occur in both asteroid families and in the background belt. We find that the ensemble's prediction reduces the average error in albedo by about 37% compared to a model that simply adopts an average albedo, with no regard for the dynamical state of the body. We then use this model to predict albedos for the half million main belt asteroids with proper elements available in the Asteroid Families Portal and provide the results in a catalog. Finally, we show that several presently categorized asteroid families exist within much larger groups of asteroids of similar albedos - this may suggest that further improvements in family identification can be made.
翻訳日:2023-05-29 18:47:17 公開日:2023-05-25
# 推薦システムのためのグラフベースモデル非依存データサブサンプリング

Graph-Based Model-Agnostic Data Subsampling for Recommendation Systems ( http://arxiv.org/abs/2305.16391v1 )

ライセンス: Link先を確認
Xiaohui Chen, Jiankai Sun, Taiqing Wang, Ruocheng Guo, Li-Ping Liu, Aonan Zhang(参考訳) データサブサンプリングは大規模レコメンデーションシステムのトレーニングを高速化するために広く使われている。 ほとんどのサブサンプリング手法はモデルベースであり、サンプル硬度などのデータ重要度を測定するために事前訓練されたパイロットモデルを必要とする。 しかし、パイロットモデルが不特定である場合、モデルベースのサブサンプリング手法は劣化する。 実際のレコメンデーションシステムではモデル誤特定が持続するので、グラフで表される入力データ構造のみを探索することで、モデル非依存なデータサブサンプリング手法を提案する。 具体的には,ユーザ-テムグラフのトポロジを調査し,ユーザ-テムグラフ間の相互作用(ユーザ-テムグラフのエッジ)の重要度をグラフコンダクタンスにより推定し,続いてネットワーク上の伝搬ステップにより推定された重要度を緩和する。 提案手法はモデル非依存であるため,モデル非依存とモデルベースの両方のサブサンプリング手法の利点を活かすことができる。 経験的に、この2つの組み合わせは、使用済みデータセット上のどのメソッドよりも一貫して改善されていることを示す。 KuaiRec と MIND のデータセットによる実験結果から,提案手法はベースライン手法よりも優れた結果が得られることが示された。

Data subsampling is widely used to speed up the training of large-scale recommendation systems. Most subsampling methods are model-based and often require a pre-trained pilot model to measure data importance via e.g. sample hardness. However, when the pilot model is misspecified, model-based subsampling methods deteriorate. Since model misspecification is persistent in real recommendation systems, we instead propose model-agnostic data subsampling methods by only exploring input data structure represented by graphs. Specifically, we study the topology of the user-item graph to estimate the importance of each user-item interaction (an edge in the user-item graph) via graph conductance, followed by a propagation step on the network to smooth out the estimated importance value. Since our proposed method is model-agnostic, we can marry the merits of both model-agnostic and model-based subsampling methods. Empirically, we show that combing the two consistently improves over any single method on the used datasets. Experimental results on KuaiRec and MIND datasets demonstrate that our proposed methods achieve superior results compared to baseline approaches.
翻訳日:2023-05-29 18:46:52 公開日:2023-05-25
# 境界強零モード

Boundary Strong Zero Modes ( http://arxiv.org/abs/2305.16382v1 )

ライセンス: Link先を確認
Christopher T. Olund, Norman Y. Yao, Jack Kemp(参考訳) 強いゼロモードは、障害のないシステムでも無限の温度で情報を保存できる、エッジローカライズされた自由度である。 これまでのところ、その安定性はシステムの物理的端でのみ体系的に調査されている。 ここでは、強零モードの概念を二つのシステムの境界まで拡張し、これらの境界の強零モードの安定性を統一する枠組みを示す。 自明な位相と位相の界面に存在することが保証されるゼロ温度トポロジカルエッジモードとは異なり、境界強度ゼロモードの堅牢性は著しく微妙である。 この微妙さは次の二分法によって最もよく説明できる: 自明な位相と順序の位相の間の界面が強い零モードの存在を保証していないのに対して、2つの順序の位相の間の界面は、ある場合には、完全に強い零モードにつながる。

Strong zero modes are edge-localized degrees of freedom capable of storing information at infinite temperature, even in systems with no disorder. To date, their stability has only been systematically explored at the physical edge of a system. Here, we extend the notion of strong zero modes to the boundary between two systems, and present a unifying framework for the stability of these boundary strong zero modes. Unlike zero-temperature topological edge modes, which are guaranteed to exist at the interface between a trivial and topological phase, the robustness of boundary strong zero modes is significantly more subtle. This subtlety is perhaps best illustrated by the following dichotomy: we find that the interface between a trivial and ordered phase does not guarantee the existence of a strong zero mode, while the interface between two ordered phases can, in certain cases, lead to an exact strong zero mode.
翻訳日:2023-05-29 18:46:34 公開日:2023-05-25
# DPOK:微調整テキスト・画像拡散モデルの強化学習

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16381v1 )

ライセンス: Link先を確認
Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, Kimin Lee(参考訳) 人間のフィードバックから学ぶことで、テキストから画像へのモデルを改善することが示されている。 これらのテクニックはまず、人間がタスクで関心を持っているものをキャプチャして、学習した報酬関数に基づいてモデルを改善する報酬関数を学習する。 比較的単純なアプローチ(例えば報酬スコアに基づく拒絶サンプリング)が研究されているが、報酬関数を持つ微調整のテキスト・ツー・イメージモデルはまだ難しい。 本研究では,オンライン強化学習(RL)を用いてテキスト・画像の微調整を行う。 本稿では, 拡散モデルに着目し, 微調整タスクをRL問題として定義し, フィードバック学習報酬を最大化するためにポリシー勾配を用いた事前学習されたテキスト・画像拡散モデルを更新する。 我々のアプローチはdpokと呼ばれ、ポリシー最適化とkl正規化を統合する。 我々は、RLファインチューニングと教師付きファインチューニングの両方に対するKL正規化の分析を行う。 実験の結果,DPOKは画像テキストアライメントと画質の両方に関して,教師付き微調整よりも優れていることがわかった。

Learning from human feedback has been shown to improve text-to-image models. These techniques first learn a reward function that captures what humans care about in the task and then improve the models based on the learned reward function. Even though relatively simple approaches (e.g., rejection sampling based on reward scores) have been investigated, fine-tuning text-to-image models with the reward function remains challenging. In this work, we propose using online reinforcement learning (RL) to fine-tune text-to-image models. We focus on diffusion models, defining the fine-tuning task as an RL problem, and updating the pre-trained text-to-image diffusion models using policy gradient to maximize the feedback-trained reward. Our approach, coined DPOK, integrates policy optimization with KL regularization. We conduct an analysis of KL regularization for both RL fine-tuning and supervised fine-tuning. In our experiments, we show that DPOK is generally superior to supervised fine-tuning with respect to both image-text alignment and image quality.
翻訳日:2023-05-29 18:46:19 公開日:2023-05-25
# Scan and Snap: 1層トランスにおけるトレーニングダイナミクスとトークン構成の理解

Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer ( http://arxiv.org/abs/2305.16380v1 )

ライセンス: Link先を確認
Yuandong Tian, Yiping Wang, Beidi Chen, Simon Du(参考訳) トランスフォーマーアーキテクチャは、複数の研究領域で顕著なパフォーマンスを示し、多くのニューラルネットワークモデルのバックボーンとなっている。 しかし、その仕組みについては理解が限られている。 特に、単純な予測損失により、勾配 \emph{training dynamics} からどのように表現が現れるかは謎のままである。 本稿では, 1層自己着脱層と1層デコーダ層を有する1層変圧器について,次のトークン予測タスクに対するsgdトレーニングダイナミクスを数学的に厳密に解析する。 自己注意層が入力トークンを結合する方法の動的プロセスのブラックボックスを開き、基礎となる帰納バイアスの性質を明らかにする。 より具体的に言うと (a)位置符号化なし。 (b)長い入力シーケンス、及び (c)デコーダ層は自己アテンション層よりも早く学習し、自己アテンションが \emph{discriminative scan algorithm} として機能することを証明する。 異なるトークンの中では、トレーニングセット内のキーとクエリトークンの間の低いから高い共起の順序に従って、徐々に注目の重みを減らします。 興味深いことに、この手順は勝者の獲得に繋がらないが、2つの層の学習速度によって制御され、(ほとんど)固定されたトークンの組み合わせを残している 'emph{phase transition} によって減速する。 合成および実世界データ(wikitext)上でのこの \textbf{\emph{scan and snap}} ダイナミクスを検証する。

Transformer architecture has shown impressive performance in multiple research domains and has become the backbone of many neural network models. However, there is limited understanding on how it works. In particular, with a simple predictive loss, how the representation emerges from the gradient \emph{training dynamics} remains a mystery. In this paper, for 1-layer transformer with one self-attention layer plus one decoder layer, we analyze its SGD training dynamics for the task of next token prediction in a mathematically rigorous manner. We open the black box of the dynamic process of how the self-attention layer combines input tokens, and reveal the nature of underlying inductive bias. More specifically, with the assumption (a) no positional encoding, (b) long input sequence, and (c) the decoder layer learns faster than the self-attention layer, we prove that self-attention acts as a \emph{discriminative scanning algorithm}: starting from uniform attention, it gradually attends more to distinct key tokens for a specific next token to be predicted, and pays less attention to common key tokens that occur across different next tokens. Among distinct tokens, it progressively drops attention weights, following the order of low to high co-occurrence between the key and the query token in the training set. Interestingly, this procedure does not lead to winner-takes-all, but decelerates due to a \emph{phase transition} that is controllable by the learning rates of the two layers, leaving (almost) fixed token combination. We verify this \textbf{\emph{scan and snap}} dynamics on synthetic and real-world data (WikiText).
翻訳日:2023-05-29 18:46:04 公開日:2023-05-25
# 学習効率のよい視覚強化学習のための効果的な強化

Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning ( http://arxiv.org/abs/2305.16379v1 )

ライセンス: Link先を確認
Guozheng Ma, Linrui Zhang, Haoyu Wang, Lu Li, Zilin Wang, Zhen Wang, Li Shen, Xueqian Wang, Dacheng Tao(参考訳) データ拡張(da)は、視覚強化学習(rl)アルゴリズムのサンプル効率を向上させるための重要な技術である。 特に、単純な観察変換のみを用いると、追加の補助的な表現タスクや事前訓練されたエンコーダなしで優れた性能が得られる。 しかし, サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。 本研究は, この課題を解明し, DAの可能性を探るため, DAの属性が有効性に与える影響を評価するための総合的な実験を行い, 個々のDA操作において, 空間的多様性とわずかな硬さの両方が不可欠であることを明らかにする。 そこで,本研究ではランダムパドレサイズ (rand pr) を提案する。 2) 多種類のDA融合スキームでは,DA硬度の増加と不安定なデータ分布により,現在の融合スキームは個々の操作よりも高いサンプリング効率を達成できない。 RLの非定常的な性質を考慮に入れ,データ分散の整合性を維持しつつ,異なるDA操作の周期サイクルを実行し,型多様性を向上させるRL調整型多型DA融合スキーム(CycAug)を提案する。 DeepMind Control スイートと CARLA 駆動シミュレータの広範囲な評価により,本手法が従来の最先端手法に比べて優れたサンプル効率を実現することが示された。

Data augmentation (DA) is a crucial technique for enhancing the sample efficiency of visual reinforcement learning (RL) algorithms. Notably, employing simple observation transformations alone can yield outstanding performance without extra auxiliary representation tasks or pre-trained encoders. However, it remains unclear which attributes of DA account for its effectiveness in achieving sample-efficient visual RL. To investigate this issue and further explore the potential of DA, this work conducts comprehensive experiments to assess the impact of DA's attributes on its efficacy and provides the following insights and improvements: (1) For individual DA operations, we reveal that both ample spatial diversity and slight hardness are indispensable. Building on this finding, we introduce Random PadResize (Rand PR), a new DA operation that offers abundant spatial diversity with minimal hardness. (2) For multi-type DA fusion schemes, the increased DA hardness and unstable data distribution result in the current fusion schemes being unable to achieve higher sample efficiency than their corresponding individual operations. Taking the non-stationary nature of RL into account, we propose a RL-tailored multi-type DA fusion scheme called Cycling Augmentation (CycAug), which performs periodic cycles of different DA operations to increase type diversity while maintaining data distribution consistency. Extensive evaluations on the DeepMind Control suite and CARLA driving simulator demonstrate that our methods achieve superior sample efficiency compared with the prior state-of-the-art methods.
翻訳日:2023-05-29 18:45:34 公開日:2023-05-25
# sim-suction:合成ベンチマークを用いたクラッタ環境における吸引把握ポリシーの学習

Sim-Suction: Learning a Suction Grasp Policy for Cluttered Environments Using a Synthetic Benchmark ( http://arxiv.org/abs/2305.16378v1 )

ライセンス: Link先を確認
Juncheng Li, David J. Cappelleri(参考訳) 本稿では,動的カメラ視点を持つ移動体操作プラットフォームのためのロバストな物体認識型吸引把持ポリシであるsim-suctionを提案する。 吸引把握ポリシーは、通常、大規模で正確に注釈された吸引把握データセットを必要とするデータ駆動アプローチを用いる。 しかし、散らばった環境における吸引把握データセットの生成は未解明のままであり、興味の対象とその周辺環境との関係については不確実性を残している。 そこで本研究では,500個の乱雑な環境と320万個のアノテートされた吸引把握ポーズからなる,ベンチマーク合成データセットSim-Suction-Datasetを提案する。 効率的なsim-suction-dataset生成プロセスは、解析モデルと動的物理的シミュレーションを組み合わせて、高速で正確な吸入把握ポーズアノテーションを作成することによって、新しい洞察を提供する。 sim-suction-pointnet では,ゼロショットテキスト対セグメンテーションの相乗効果を活かし,sim-suction-dataset からポイントワイズアバタンスを学習することにより,ロバストな6次元吸引把持ポーズを生成する。 全ての物体を拾うための実世界の実験では、Sim-Suction-Pointnetは96.76%、94.23%、92.39%の粗いレベル1オブジェクト(原始的な形状)、粗いレベル2オブジェクト(より複雑な形状)、粗い混合オブジェクトをそれぞれ達成している。 Sim-Suctionポリシーは、散らかった混合シーンで約21%テストされた最先端のベンチマークを上回った。

This paper presents Sim-Suction, a robust object-aware suction grasp policy for mobile manipulation platforms with dynamic camera viewpoints, designed to pick up unknown objects from cluttered environments. Suction grasp policies typically employ data-driven approaches, necessitating large-scale, accurately-annotated suction grasp datasets. However, the generation of suction grasp datasets in cluttered environments remains underexplored, leaving uncertainties about the relationship between the object of interest and its surroundings. To address this, we propose a benchmark synthetic dataset, Sim-Suction-Dataset, comprising 500 cluttered environments with 3.2 million annotated suction grasp poses. The efficient Sim-Suction-Dataset generation process provides novel insights by combining analytical models with dynamic physical simulations to create fast and accurate suction grasp pose annotations. We introduce Sim-Suction-Pointnet to generate robust 6D suction grasp poses by learning point-wise affordances from the Sim-Suction-Dataset, leveraging the synergy of zero-shot text-to-segmentation. Real-world experiments for picking up all objects demonstrate that Sim-Suction-Pointnet achieves success rates of 96.76%, 94.23%, and 92.39% on cluttered level 1 objects (prismatic shape), cluttered level 2 objects (more complex geometry), and cluttered mixed objects, respectively. The Sim-Suction policies outperform state-of-the-art benchmarks tested by approximately 21% in cluttered mixed scenes.
翻訳日:2023-05-29 18:45:06 公開日:2023-05-25
# タスク特異的アンダーサンプルMRI再構成のための制約付き確率マスク学習

Constrained Probabilistic Mask Learning for Task-specific Undersampled MRI Reconstruction ( http://arxiv.org/abs/2305.16376v1 )

ライセンス: Link先を確認
Tobias Weber, Michael Ingrisch, Bernd Bischl, David R\"ugamer(参考訳) アンサンプリングは磁気共鳴イメージング(MRI)において、k空間のデータ点数をサブサンプリングし、画像品質の低下による取得時間を短縮する一般的な方法である。 本研究では,タスクやドメイン固有のパターンを抽出するために,アンダーサンプリングマスクを直接学習する。 この離散最適化課題を解決するために,我々は,完全確率的,微分可能,汎用性,およびマスク最適化のためのモデルフリーなフレームワーク prom と呼ばれる一般最適化ルーチンを提案する。 膝, 脳, 心臓MRIのデータセットを解析した結果, 解剖学的に異なる部位で最適なアンダーサンプリングマスクが明らかとなった。 さらに、ProMは、完全にサンプリングされたMRIでトレーニングされたネットワークとのセグメンテーションのような下流タスクのパフォーマンスを最大化するアンダーサンプリングマスクを作成することができる。 極端な加速要因があるにもかかわらず、ProMは既存の手法よりも汎用性が高く、データ駆動の全目的マスク生成の道を開く。

Undersampling is a common method in Magnetic Resonance Imaging (MRI) to subsample the number of data points in k-space and thereby reduce acquisition times at the cost of decreased image quality. In this work, we directly learn the undersampling masks to derive task- and domain-specific patterns. To solve this discrete optimization challenge, we propose a general optimization routine called ProM: A fully probabilistic, differentiable, versatile, and model-free framework for mask optimization that enforces acceleration factors through a convex constraint. Analyzing knee, brain, and cardiac MRI datasets with our method, we discover that different anatomic regions reveal distinct optimal undersampling masks. Furthermore, ProM can create undersampling masks that maximize performance in downstream tasks like segmentation with networks trained on fully-sampled MRIs. Even with extreme acceleration factors, ProM yields reasonable performance while being more versatile than existing methods, paving the way for data-driven all-purpose mask generation.
翻訳日:2023-05-29 18:44:38 公開日:2023-05-25
# データトポロジに依存したニューラルネットワーク幅の上界

Data Topology-Dependent Upper Bounds of Neural Network Widths ( http://arxiv.org/abs/2305.16375v1 )

ライセンス: Link先を確認
Sangmin Lee, Jong Chul Ye(参考訳) 本稿では,ディープニューラルネットワークの普遍近似特性とデータセットのトポロジカル特性の関係について検討する。 私たちの主な貢献は、ネットワーク幅にデータトポロジ依存の上界を導入することです。 具体的には,まず,reluアクティベーション関数とmaxプーリングを適用した3層ニューラルネットワークを用いて,タイト凸ポリトープを包含するコンパクト集合上のインジケータ関数を近似できることを示す。 これが単純複体に拡張され、その位相構造に基づく幅上限が導かれる。 さらに、選択位相空間のベッチ数に関する上限を計算する。 最後に、トポロジカルアプローチを用いて、3層ReLUネットワークの普遍近似特性を証明した。 また,本研究で提案するネットワーク構造に勾配降下が収束することを確認した。

This paper investigates the relationship between the universal approximation property of deep neural networks and topological characteristics of datasets. Our primary contribution is to introduce data topology-dependent upper bounds on the network width. Specifically, we first show that a three-layer neural network, applying a ReLU activation function and max pooling, can be designed to approximate an indicator function over a compact set, one that is encompassed by a tight convex polytope. This is then extended to a simplicial complex, deriving width upper bounds based on its topological structure. Further, we calculate upper bounds in relation to the Betti numbers of select topological spaces. Finally, we prove the universal approximation property of three-layer ReLU networks using our topological approach. We also verify that gradient descent converges to the network structure proposed in our study.
翻訳日:2023-05-29 18:44:19 公開日:2023-05-25
# NODDLE: Node2vecベースのリンク予測のためのディープラーニングモデル

NODDLE: Node2vec based deep learning model for link prediction ( http://arxiv.org/abs/2305.16421v1 )

ライセンス: Link先を確認
Kazi Zainab Khanam, Aditya Singhal, and Vijay Mago(参考訳) グラフネットワークにおけるエッジの存在確率の計算はリンク予測として知られている。 従来の手法では静的ネットワーク内の2つのノード間の類似度を計算するが、最近の研究は動的に進化するネットワークの評価に焦点を当てている。 node2vecのような深層学習技術とネットワーク表現学習アルゴリズムは予測精度が著しく向上しているが、node2vecの確率的勾配降下(sgd)法は、事前のネットワーク情報の不足により、中間的な局所的最適値に陥りがちであり、ネットワークのグローバル構造を捉えることができない。 この問題に対処するために,我々は,node2vecが抽出した機能を組み込んだディープラーニングモデルnoddle (integration of node2vec and deep learning method)を提案する。 NODDLEは、Adam、Adamax、Adadelta、Adagradといった適応学習オプティマイザを活用して、リンク予測のパフォーマンスを向上させる。 実験の結果,従来のソーシャル・ネットワーク・データセットよりも優れた結果が得られることがわかった。

Computing the probability of an edge's existence in a graph network is known as link prediction. While traditional methods calculate the similarity between two given nodes in a static network, recent research has focused on evaluating networks that evolve dynamically. Although deep learning techniques and network representation learning algorithms, such as node2vec, show remarkable improvements in prediction accuracy, the Stochastic Gradient Descent (SGD) method of node2vec tends to fall into a mediocre local optimum value due to a shortage of prior network information, resulting in failure to capture the global structure of the network. To tackle this problem, we propose NODDLE (integration of NOde2vec anD Deep Learning mEthod), a deep learning model which incorporates the features extracted by node2vec and feeds them into a four layer hidden neural network. NODDLE takes advantage of adaptive learning optimizers such as Adam, Adamax, Adadelta, and Adagrad to improve the performance of link prediction. Experimental results show that this method yields better results than the traditional methods on various social network datasets.
翻訳日:2023-05-29 18:37:03 公開日:2023-05-25
# 不均質データによるフェデレーションニューラル圧縮

Federated Neural Compression Under Heterogeneous Data ( http://arxiv.org/abs/2305.16416v1 )

ライセンス: Link先を確認
Eric Lei, Hamed Hassani, Shirin Saeedi Bidokhti(参考訳) そこで我々は,クライアント間で分散し,統計的に異種でありながら共通の表現を共有する実世界データから圧縮機を学習することを目的とした,連合学習型圧縮問題について議論する。 両特性を包含する分散ソースモデルを提案し,クライアントが共有する解析および合成変換を用いた圧縮機アーキテクチャを提案する。 パーソナライズされたフェデレーション学習手法にインスパイアされ、各クライアントにパーソナライズされたエントロピーモデルを採用する。 これにより、グローバルな潜在性空間をクライアント間で学び、クライアントの潜在性分布に適応するパーソナライズされたエントロピーモデルが可能になる。 本研究では,この手法が局所的手法よりも優れていることを実証的に示し,統計的に不均一なフェデレーション設定において,学習された圧縮が共有グローバル表現の恩恵を受けることを示す。

We discuss a federated learned compression problem, where the goal is to learn a compressor from real-world data which is scattered across clients and may be statistically heterogeneous, yet share a common underlying representation. We propose a distributed source model that encompasses both characteristics, and naturally suggests a compressor architecture that uses analysis and synthesis transforms shared by clients. Inspired by personalized federated learning methods, we employ an entropy model that is personalized to each client. This allows for a global latent space to be learned across clients, and personalized entropy models that adapt to the clients' latent distributions. We show empirically that this strategy outperforms solely local methods, which indicates that learned compression also benefits from a shared global representation in statistically heterogeneous federated settings.
翻訳日:2023-05-29 18:36:39 公開日:2023-05-25
# ZeroAvatar:単一画像からのゼロショット3Dアバター生成

ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image ( http://arxiv.org/abs/2305.16411v1 )

ライセンス: Link先を確認
Zhenzhen Weng, Zeyu Wang, Serena Yeung(参考訳) 近年のテキスト・画像生成の進歩は、ゼロショット3次元形状生成に大きな進歩をもたらした。 これは、プレトレーニングされたテキストから画像への拡散モデルを使用して、3dニューラルネットワークの提示パラメータ(例えばneural radiance field(nerf))を最適化する手法である。 有望な結果を示す一方で、既存の方法では人体のような複雑な形状を保存できないことが多い。 この課題に対処するために、最適化プロセスに先立って、明示的な3次元人体を導入するZeroAvatarを提案する。 具体的には、まず1つの画像からパラメトリック人体のパラメータを推定し、精錬する。 そして、最適化の際、仮定されたパラメトリック体を追加の幾何制約として使用し、拡散モデルと基礎となる密度場を正則化する。 最後に,目に見えない部分のテクスチャの完成をさらに導くために,uv誘導型テクスチャ正規化用語を提案する。 我々は、ZeroAvatarが既存のゼロショット画像-3D法よりも優れた最適化に基づく画像-3Dアバター生成の堅牢性と3D一貫性を著しく向上することを示す。

Recent advancements in text-to-image generation have enabled significant progress in zero-shot 3D shape generation. This is achieved by score distillation, a methodology that uses pre-trained text-to-image diffusion models to optimize the parameters of a 3D neural presentation, e.g. Neural Radiance Field (NeRF). While showing promising results, existing methods are often not able to preserve the geometry of complex shapes, such as human bodies. To address this challenge, we present ZeroAvatar, a method that introduces the explicit 3D human body prior to the optimization process. Specifically, we first estimate and refine the parameters of a parametric human body from a single image. Then during optimization, we use the posed parametric body as additional geometry constraint to regularize the diffusion model as well as the underlying density field. Lastly, we propose a UV-guided texture regularization term to further guide the completion of texture on invisible body parts. We show that ZeroAvatar significantly enhances the robustness and 3D consistency of optimization-based image-to-3D avatar generation, outperforming existing zero-shot image-to-3D methods.
翻訳日:2023-05-29 18:36:25 公開日:2023-05-25
# グループ間バイアスに対する影響と特異性の影響に関する実証研究

Counterfactual Probing for the influence of affect and specificity on Intergroup Bias ( http://arxiv.org/abs/2305.16409v1 )

ライセンス: Link先を確認
Venkata S Govindarajan, Kyle Mahowald, David I. Beaver, Junyi Jessy Li(参考訳) NLPにおける偏見の研究は、否定的または悲観的な言語使用に関するものであるが、Govindarajan et al. (2023) は集団間社会的文脈における偏見の修正と言語行動への影響について述べている。 本稿では,2つの実用的特徴(特異性と影響)が異なるグループ間文脈で体系的に異なるかどうかを考察し,この新たなバイアスフレーミングと言語出力を結びつける。 予備分析では、igr(supervised intergroup relationship)ラベルを用いたツイートの特異性と影響の相関が緩やかに示されている。 IGRラベルを予測するために微調整されたニューラルモデルは、分類に確実に影響を及ぼすが、モデルの特異性の使用は決定的ではない。 コードとデータは、https://github.com/venkatasg/intergroup-probingにある。

While existing work on studying bias in NLP focues on negative or pejorative language use, Govindarajan et al. (2023) offer a revised framing of bias in terms of intergroup social context, and its effects on language behavior. In this paper, we investigate if two pragmatic features (specificity and affect) systematically vary in different intergroup contexts -- thus connecting this new framing of bias to language output. Preliminary analysis finds modest correlations between specificity and affect of tweets with supervised intergroup relationship (IGR) labels. Counterfactual probing further reveals that while neural models finetuned for predicting IGR labels reliably use affect in classification, the model's usage of specificity is inconclusive. Code and data can be found at: https://github.com/venkatasg/intergroup-probing
翻訳日:2023-05-29 18:36:04 公開日:2023-05-25
# バイリンガルコミュニティにおける非ソース言語の非慣習的記述のためのスクリプト正規化

Script Normalization for Unconventional Writing of Under-Resourced Languages in Bilingual Communities ( http://arxiv.org/abs/2305.16407v1 )

ライセンス: Link先を確認
Sina Ahmadi and Antonios Anastasopoulos(参考訳) ソーシャルメディアの幅広いアクセシビリティは、言語的に過小評価されたコミュニティに、彼らの母国語でコンテンツを作る特別な機会を与えてきた。 しかし、これはスクリプトの正規化におけるある種の課題、特にバイリンガルコミュニティの言語話者がネイティブ言語を書くために別のスクリプトや正書法に依存する場合である。 本稿では、主にペルソ・アラビア文字で書かれたいくつかの言語に対するスクリプト正規化の問題に対処する。 各種ノイズレベルの合成データと変圧器モデルを用いて, この問題を効果的に再現できることを実証した。 また,実データについても小規模評価を行っている。 実験の結果,スクリプトの正規化は,機械翻訳や言語識別などの下流タスクの性能向上にも有用であることが示唆された。

The wide accessibility of social media has provided linguistically under-represented communities with an extraordinary opportunity to create content in their native languages. This, however, comes with certain challenges in script normalization, particularly where the speakers of a language in a bilingual community rely on another script or orthography to write their native language. This paper addresses the problem of script normalization for several such languages that are mainly written in a Perso-Arabic script. Using synthetic data with various levels of noise and a transformer-based model, we demonstrate that the problem can be effectively remediated. We conduct a small-scale evaluation of real data as well. Our experiments indicate that script normalization is also beneficial to improve the performance of downstream tasks such as machine translation and language identification.
翻訳日:2023-05-29 18:35:47 公開日:2023-05-25
# 自発音声から認知症を識別する最適輸送領域適応法とコンテキスト認識注意層

Context-Aware Attention Layers coupled with Optimal Transport Domain Adaptation methods for recognizing dementia from spontaneous speech ( http://arxiv.org/abs/2305.16406v1 )

ライセンス: Link先を確認
Loukas Ilias, Dimitris Askounis(参考訳) アルツハイマー病(ad)は複雑な神経認知疾患であり、認知症の主な原因である。 自発的発話による認知症診断を目標とする研究が数多く提案されているが、まだ限界がある。 既存の最先端のアプローチでは、マルチモーダルな手法を提案し、言語と音響モデルを個別に訓練し、多数投票のアプローチを採用し、入力レベル、すなわち早期融合または訓練中に異なるモーダルの表現を結合する。 また、文脈情報を考慮せずに表現間の依存関係を計算するセルフアテンション層も採用している。 また,モデル校正に関する先行研究は行われていない。 これらの制約に対処するため,AD患者検出のための新しい手法を提案する。 まず、オーディオファイルをlog-mel spectrograms、delta、delta-deltaに変換し、3つのチャンネルからなるオーディオファイル毎の画像を作成する。 次に、各転写文字と画像をそれぞれBERTモデルとDeiTモデルに渡す。 その後、コンテキストベースの自己アテンション層、ゲートモデル付き自己アテンション層、および最適なトランスポートドメイン適応法を用いて、モーダル内およびモーダル間相互作用をキャプチャする。 最後に, 自己と横断的特徴を融合する2つの手法を活用した。 モデルキャリブレーションを考慮した場合,ラベル平滑化を適用する。 パフォーマンスとキャリブレーションの両方のメトリクスを使用します。 adressチャレンジデータセットで実施した実験は、既存の研究活動に対して導入したアプローチが、それぞれ91.25%、f1-scoreが91.25%、91.06%の精度に達するという効果を示している。

Alzheimer's disease (AD) constitutes a complex neurocognitive disease and is the main cause of dementia. Although many studies have been proposed targeting at diagnosing dementia through spontaneous speech, there are still limitations. Existing state-of-the-art approaches, which propose multimodal methods, train separately language and acoustic models, employ majority-vote approaches, and concatenate the representations of the different modalities either at the input level, i.e., early fusion, or during training. Also, some of them employ self-attention layers, which calculate the dependencies between representations without considering the contextual information. In addition, no prior work has taken into consideration the model calibration. To address these limitations, we propose some new methods for detecting AD patients, which capture the intra- and cross-modal interactions. First, we convert the audio files into log-Mel spectrograms, their delta, and delta-delta and create in this way an image per audio file consisting of three channels. Next, we pass each transcript and image through BERT and DeiT models respectively. After that, context-based self-attention layers, self-attention layers with a gate model, and optimal transport domain adaptation methods are employed for capturing the intra- and inter-modal interactions. Finally, we exploit two methods for fusing the self and cross-attended features. For taking into account the model calibration, we apply label smoothing. We use both performance and calibration metrics. Experiments conducted on the ADReSS Challenge dataset indicate the efficacy of our introduced approaches over existing research initiatives with our best performing model reaching Accuracy and F1-score up to 91.25% and 91.06% respectively.
翻訳日:2023-05-29 18:35:33 公開日:2023-05-25
# GrowSP: 3次元点雲の教師なしセマンティックセマンティックセグメンテーション

GrowSP: Unsupervised Semantic Segmentation of 3D Point Clouds ( http://arxiv.org/abs/2305.16404v1 )

ライセンス: Link先を確認
Zihui Zhang, Bo Yang, Bing Wang, Bo Li(参考訳) 原点雲からの3次元セマンティックセグメンテーションの問題について検討する。 ニューラルネットワークのトレーニングに大量の人的アノテーションを頼りにしている既存の手法とは違って、我々はGrowSPと呼ばれる、人間のラベルや事前訓練されたモデルを必要としない、3Dシーンのすべてのポイントにおける複雑な意味クラスを識別する、最初の純粋に教師なしの手法を提案する。 我々のアプローチの鍵は、スーパーポイントの進行的成長を通して3次元意味要素を発見することである。 提案手法は3つの主成分からなる。 1)入力点クラウドからポイント単位の特徴を学習する特徴抽出器 2) スーパーポイントコンストラクタは、スーパーポイントのサイズを段階的に拡大し、 3) セマンティックプリミティブクラスタリングモジュールは、スーパーポイントを最終的なセマンティックセグメンテーションのためのセマンティック要素にグループ化する。 提案手法を複数のデータセット上で広範囲に評価し,教師なしベースラインに対して優れた性能を示し,従来の完全教師付きポイントネットにアプローチした。 私たちの研究が、教師なしの3d意味学習のより高度な手法を刺激できることを願っています。

We study the problem of 3D semantic segmentation from raw point clouds. Unlike existing methods which primarily rely on a large amount of human annotations for training neural networks, we propose the first purely unsupervised method, called GrowSP, to successfully identify complex semantic classes for every point in 3D scenes, without needing any type of human labels or pretrained models. The key to our approach is to discover 3D semantic elements via progressive growing of superpoints. Our method consists of three major components, 1) the feature extractor to learn per-point features from input point clouds, 2) the superpoint constructor to progressively grow the sizes of superpoints, and 3) the semantic primitive clustering module to group superpoints into semantic elements for the final semantic segmentation. We extensively evaluate our method on multiple datasets, demonstrating superior performance over all unsupervised baselines and approaching the classic fully-supervised PointNet. We hope our work could inspire more advanced methods for unsupervised 3D semantic learning.
翻訳日:2023-05-29 18:35:01 公開日:2023-05-25
# 平均対称性を持つ位相相:疎結合、乱れ、内在的

Topological Phases with Average Symmetries: the Decohered, the Disordered, and the Intrinsic ( http://arxiv.org/abs/2305.16399v1 )

ライセンス: Link先を確認
Ruochen Ma and Jian-Hao Zhang and Zhen Bi and Meng Cheng and Chong Wang(参考訳) グローバル対称性は、トポロジカル量子相の風景を大いに豊かにし、トポロジカル絶縁体の対称性保護から、分数量子ホール効果のエノンの対称性電荷分数化まで重要な役割を果たす。 混合量子状態のトポロジカル位相は、開放量子系のデコヒーレンスや不完全な結晶性固体の障害に由来するもので、近年大きな関心を集めている。 純粋な状態とは異なり、混合量子状態は平均対称性を示すことができる。 対称性に保護された位相相は, 平均対称性を持つ混合状態に対して十分に定義できることがわかった。 本研究では,一般対称性群に適用可能な平均対称性保護位相位相(aspt)位相の系統的分類と特徴付けを行い,ボソニックおよびフェルミオン系の平均対称性と正確な対称性の両方を包含する。 さらに、不規則なボゾン系における平均対称性リッチトポロジカル位の理論を定式化する。 我々は、純状態対称性リッチトポロジカル位相(SET)相からの多くの概念(例えば、アノン置換、対称性分数化、't Hooft anomaly)がASET相に対してよく定義されるが、様々な興味深いツイストを持つことを示した。 我々の体系的アプローチは, 先行文献におけるニュアンス問題を明確にし, 説得力のある新物理を明らかにするのに役立つ。

Global symmetries greatly enrich the landscape of topological quantum phases, playing an essential role from symmetry-protection of topological insulators to symmetry charge fractionalization on anyons in fractional quantum Hall effect. Topological phases in mixed quantum states, originating from decoherence in open quantum systems or disorders in imperfect crystalline solids, have recently garnered significant interest. Unlike pure states, mixed quantum states can exhibit average symmetries -- symmetries that keep the total ensemble invariant but not on each individual state. It was realized that symmetry-protected topological phases could be well-defined for such mixed states carrying average symmetries. In this work, we present a systematic classification and characterization of average symmetry-protected topological (ASPT) phases applicable to generic symmetry groups, encompassing both average and exact symmetries, for bosonic and fermionic systems. Moreover, we formulate the theory of average symmetry-enriched topological (ASET) orders in disordered bosonic systems. We demonstrate that numerous concepts from pure state symmetry-enriched topological (SET) phases, such as anyon permutation, symmetry fractionalization, and 't Hooft anomaly, are well-defined for ASET phases but with various intriguing twists. Our systematic approach helps clarify nuanced issues in previous literature and uncovers compelling new physics.
翻訳日:2023-05-29 18:34:44 公開日:2023-05-25
# 拡散モデルは視覚・言語共振器か?

Are Diffusion Models Vision-And-Language Reasoners? ( http://arxiv.org/abs/2305.16397v1 )

ライセンス: Link先を確認
Benno Krojer, Elinor Poole-Dayan, Vikram Voleti, Christopher Pal, Siva Reddy(参考訳) テキスト条件付き画像生成モデルは最近、ノイズ拡散プロセスを用いて膨大な定性的成功を示している。 しかし、識別的視覚・言語モデルとは異なり、これらの拡散に基づく生成モデルを用いて合成性などの高レベル現象の自動細粒度定量的評価を行うことは非自明な課題である。 この目標に向けて、私たちは2つのイノベーションを実行します。 まず、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対して拡散モデル(この場合、安定拡散)を変換する。 第2に,7つの複雑な視覚言語タスク,バイアス評価,詳細な分析を備えた生成的判別評価ベンチマーク(gdbench)ベンチマークを紹介する。 安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。 生成能力を保ちながらMS-COCOを微調整し, 転送設定により構成性能をさらに向上する。 また, 拡散モデルにおける定型バイアスを測定し, 安定拡散2.1は, ほとんどが安定拡散1.5よりも偏りが少ないことを見出した。 全体として,本研究の結果は,差別的・生成的モデル評価を近づけるエキサイティングな方向を示している。 間もなくコードとベンチマークのセットアップをリリースします。

Text-conditioned image generation models have recently shown immense qualitative success using denoising diffusion processes. However, unlike discriminative vision-and-language models, it is a non-trivial task to subject these diffusion-based generative models to automatic fine-grained quantitative evaluation of high-level phenomena such as compositionality. Towards this goal, we perform two innovations. First, we transform diffusion-based models (in our case, Stable Diffusion) for any image-text matching (ITM) task using a novel method called DiffusionITM. Second, we introduce the Generative-Discriminative Evaluation Benchmark (GDBench) benchmark with 7 complex vision-and-language tasks, bias evaluation and detailed analysis. We find that Stable Diffusion + DiffusionITM is competitive on many tasks and outperforms CLIP on compositional tasks like like CLEVR and Winoground. We further boost its compositional performance with a transfer setup by fine-tuning on MS-COCO while retaining generative capabilities. We also measure the stereotypical bias in diffusion models, and find that Stable Diffusion 2.1 is, for the most part, less biased than Stable Diffusion 1.5. Overall, our results point in an exciting direction bringing discriminative and generative model evaluation closer. We will release code and benchmark setup soon.
翻訳日:2023-05-29 18:34:18 公開日:2023-05-25
# ADLER -- 適応学習率のための効率的なヘッセン的戦略

ADLER -- An efficient Hessian-based strategy for adaptive learning rate ( http://arxiv.org/abs/2305.16396v1 )

ライセンス: Link先を確認
Dario Balboni, Davide Bacciu(参考訳) ヘシアンベクトル積が容易に計算可能な深層モデルのヘッシアンに対する正の半定値近似を導出する。 これにより、局所二次近似の最小化に基づく適応的sgd学習率戦略が実現可能であり、単一のsgd実行の計算のわずか2倍の計算を必要とするが、分類タスクにおいて異なるモデルアーキテクチャ(cnn with and without remaining connections)上のsgd学習率のグリッド検索と相性が良い。 また,新しい近似法をガウスニュートン近似法と比較した。

We derive a sound positive semi-definite approximation of the Hessian of deep models for which Hessian-vector products are easily computable. This enables us to provide an adaptive SGD learning rate strategy based on the minimization of the local quadratic approximation, which requires just twice the computation of a single SGD run, but performs comparably with grid search on SGD learning rates on different model architectures (CNN with and without residual connections) on classification tasks. We also compare the novel approximation with the Gauss-Newton approximation.
翻訳日:2023-05-29 18:33:58 公開日:2023-05-25
# 回転効果下における2次元量子環の光学的および電子的性質

Optical and electronic properties of a two-dimensional quantum ring under rotating effects ( http://arxiv.org/abs/2305.16448v1 )

ライセンス: Link先を確認
Daniel F. Lima, Frankbelson dos S. Azevedo, Lu\'is Fernando C. Pereira, Cleverson Filgueiras, Edilberto O. Silva(参考訳) この研究は、アハロノフ・ボーム効果と一様磁場を考慮した、回転するフレームにおける荷電粒子の非相対論的量子運動に関する研究である。 システムを記述するために運動方程式と対応する放射方程式を導出する。 最小結合のシュリンガー方程式は、運動量作用素を有効四元数に置換することで回転効果を組み込む。 さらに、環の平均半径に依存する放射ポテンシャル項が導入された。 解析は二次元平面内の運動に制限され、z$-direction における自由度は無視される。 ラジアル方程式を解くことにより、固有値と固有関数を決定し、エネルギーの明示的な表現を可能にする。 回転パラメータ値の変動に対して確率分布を解析し、回転が変化すると分布のシフトが明らかとなり、結果として遠心効果とリングのエッジの占有が得られる。 さらに、数値解析により、光吸収や屈折係数を含むエネルギーレベルと光学特性に顕著な回転効果が示される。

This work presents a study on the nonrelativistic quantum motion of a charged particle in a rotating frame, considering the Aharonov-Bohm effect and a uniform magnetic field. We derive the equation of motion and the corresponding radial equation to describe the system. The Schr\"odinger equation with minimal coupling incorporates rotation effects by substituting the momentum operator with an effective four-potential. Additionally, a radial potential term, dependent on the average radius of the ring, is introduced. The analysis is restricted to motion in a two-dimensional plane, neglecting the degree of freedom in the $z$-direction. By solving the radial equation, we determine the eigenvalues and eigenfunctions, allowing for an explicit expression of the energy. The probability distribution is analyzed for varying rotating parameter values, revealing a shift of the distribution as the rotation changes, resulting in a centrifugal effect and occupation of the ring's edges. Furthermore, numerical analysis demonstrates the significant rotational effects on energy levels and optical properties, including optical absorption and refractive coefficients.
翻訳日:2023-05-29 18:28:30 公開日:2023-05-25
# ジェンセン・シャノンの多様性の表現

The Representation Jensen-Shannon Divergence ( http://arxiv.org/abs/2305.16446v1 )

ライセンス: Link先を確認
Jhoan K. Hoyos-Osorio, Luis G. Sanchez-Giraldo(参考訳) 統計的多様性は、機械学習で複数の用途を見つける確率分布の違いを定量化する。 しかしながら、データの基盤となる分布は通常不明であるため、実証的なサンプルからの逸脱を推定することが基本的な課題である。 本稿では、カーネルヒルベルト空間(RKHS)の共分散演算子に基づく新しい発散であるJensen-Shannon Divergenceを提案する。 本手法では,データ分布をrkhsに埋め込み,表現の共分散演算子のスペクトルを利用する。 フーリエ特徴量を用いてデータをRKHSに明示的にマッピングすることで,経験的共分散行列から推定する。 この推定器は柔軟で、スケーラブルで、微分可能で、ミニバッチベースの最適化問題に適している。 さらに、RKHSに明示的にマッピングすることなく、カーネル行列に基づく推定器を提供する。 この量はJensen-Shannon分散の低い境界であることを示し、それを推定するための変分的アプローチを提案する。 複数のデータセットにおいて,関連する最先端技術を上回る2つのサンプルテストに適用した。 我々はjensen-shannon divergenceの表現をコスト関数として使用し,生成的敵ネットワークの訓練を行った。

Statistical divergences quantify the difference between probability distributions finding multiple uses in machine-learning. However, a fundamental challenge is to estimate divergence from empirical samples since the underlying distributions of the data are usually unknown. In this work, we propose the representation Jensen-Shannon Divergence, a novel divergence based on covariance operators in reproducing kernel Hilbert spaces (RKHS). Our approach embeds the data distributions in an RKHS and exploits the spectrum of the covariance operators of the representations. We provide an estimator from empirical covariance matrices by explicitly mapping the data to an RKHS using Fourier features. This estimator is flexible, scalable, differentiable, and suitable for minibatch-based optimization problems. Additionally, we provide an estimator based on kernel matrices without having an explicit mapping to the RKHS. We show that this quantity is a lower bound on the Jensen-Shannon divergence, and we propose a variational approach to estimate it. We applied our divergence to two-sample testing outperforming related state-of-the-art techniques in several datasets. We used the representation Jensen-Shannon divergence as a cost function to train generative adversarial networks which intrinsically avoids mode collapse and encourages diversity.
翻訳日:2023-05-29 18:28:12 公開日:2023-05-25
# Don't Retrain, just rewrite: Countering Adversarial Perturbations by Rewriting Text

Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by Rewriting Text ( http://arxiv.org/abs/2305.16444v1 )

ライセンス: Link先を確認
Ashim Gupta, Carter Wood Blum, Temma Choji, Yingjie Fei, Shalin Shah, Alakananda Vempala, Vivek Srikumar(参考訳) 言語モデルは、テキスト分類器を保護するために入力を変換できるのか? 本稿では,ATINTERについて述べる。ATINTERは,逆入力をインターセプトし,書き直しを学習し,下流テキスト分類器の非逆変換を行うモデルである。 4つのデータセットと5つの攻撃機構について実験したところ、ATINTERはタスク精度を損なうことなく、既存の防御手法よりも優れた敵の堅牢性を提供できることがわかった。 例えば、sst-2データセットを用いた感情分類において、提案手法は、最善の防御アプローチよりも、タスク精度の0.5%と2.5%の低下で4%以上の精度向上を図っている。 さらに,ATINTERは複数のダウンストリームタスクや分類器にまたがって,これらの設定に対して明示的に再トレーニングすることなく一般化可能であることを示す。 具体的には、sst-2データセット上の感情分類タスクの敵意の摂動を取り除くように訓練された場合、意味的に異なるニュース分類タスク(agnews上で)に転送し、敵意の強固さを10%以上向上させる。

Can language models transform inputs to protect text classifiers against adversarial attacks? In this work, we present ATINTER, a model that intercepts and learns to rewrite adversarial inputs to make them non-adversarial for a downstream text classifier. Our experiments on four datasets and five attack mechanisms reveal that ATINTER is effective at providing better adversarial robustness than existing defense approaches, without compromising task accuracy. For example, on sentiment classification using the SST-2 dataset, our method improves the adversarial accuracy over the best existing defense approach by more than 4% with a smaller decrease in task accuracy (0.5% vs 2.5%). Moreover, we show that ATINTER generalizes across multiple downstream tasks and classifiers without having to explicitly retrain it for those settings. Specifically, we find that when ATINTER is trained to remove adversarial perturbations for the sentiment classification task on the SST-2 dataset, it even transfers to a semantically different task of news classification (on AGNews) and improves the adversarial robustness by more than 10%.
翻訳日:2023-05-29 18:27:55 公開日:2023-05-25
# クロスレース・フェイス検証のためのヒューマンマシン比較: パフォーマンスの上限におけるレースバイアス?

Human-Machine Comparison for Cross-Race Face Verification: Race Bias at the Upper Limits of Performance? ( http://arxiv.org/abs/2305.16443v1 )

ライセンス: Link先を確認
Geraldine Jeckeln, Selin Yavuzcan, Kate A. Marquis, Prajay Sandipkumar Mehta, Amy N. Yates, P. Jonathon Phillips(参考訳) 顔認識アルゴリズムは人間よりも精度が高い場合もあるが、人間と機械はどちらも人種による精度の違いを示している。 アルゴリズムが改善を続けるにつれて、人間に対する人種バイアスを継続的に評価することが重要である。 我々は「クロスレース」顔認証の挑戦的なテストを構築し、人間と最先端の顔認識システム2つを比較した。 白人と黒人の同一顔と異なる顔のペアは、人間にとって困難であり、2019年のarcface顔認識アルゴリズムのオープンソース実装である(5)から選択された。 ヒトの被験者(54黒人、51白人)は、顔のペアが7点のlikertタイプのスケールで同一の同一性または異なる同一性を示したかどうかを判断した。 顔認識ベンダによる2つのトップパフォーマンス顔認識システムが同じテスト(7)を行った。 設計上、このテストは、チャンスを上回っていたが完璧に届かなかったグループとして、人間にとって困難であることが判明した。 どちらの最先端の顔認識システムも完璧(エラーなし)であり、両者の精度は同等だった。 我々は,黒と白の2つの顔画像間の身元確認のための最先端のシステムが一般人口を上回ることができると結論付けた。 この結果がwildイメージへの挑戦に一般化するかどうかは、制約のない環境に顔認識システムをデプロイする上で、重要な懸念事項である。

Face recognition algorithms perform more accurately than humans in some cases, though humans and machines both show race-based accuracy differences. As algorithms continue to improve, it is important to continually assess their race bias relative to humans. We constructed a challenging test of 'cross-race' face verification and used it to compare humans and two state-of-the-art face recognition systems. Pairs of same- and different-identity faces of White and Black individuals were selected to be difficult for humans and an open-source implementation of the ArcFace face recognition algorithm from 2019 (5). Human participants (54 Black; 51 White) judged whether face pairs showed the same identity or different identities on a 7-point Likert-type scale. Two top-performing face recognition systems from the Face Recognition Vendor Test-ongoing performed the same test (7). By design, the test proved challenging for humans as a group, who performed above chance, but far less than perfect. Both state-of-the-art face recognition systems scored perfectly (no errors), consequently with equal accuracy for both races. We conclude that state-of-the-art systems for identity verification between two frontal face images of Black and White individuals can surpass the general population. Whether this result generalizes to challenging in-the-wild images is a pressing concern for deploying face recognition systems in unconstrained environments.
翻訳日:2023-05-29 18:27:35 公開日:2023-05-25
# 線形回帰のための複数事前学習モデルによる表現伝達学習

Representation Transfer Learning via Multiple Pre-trained models for Linear Regression ( http://arxiv.org/abs/2305.16440v1 )

ライセンス: Link先を確認
Navjot Singh, Suhas Diggavi(参考訳) 本稿では,サンプル数が少ないデータ領域(ターゲット)における線形回帰モデル学習の問題について考察する。 学習を支援するために、トレーニング済みの回帰モデルセットを用意して、潜在的に異なるデータドメイン(ソース)でトレーニングします。 情報源と対象領域における線形モデルを生成するための表現構造を仮定し,対象モデルを構築するための表現伝達に基づく学習手法を提案する。 提案手法は以下の2段階からなる。 (i)異なるソース表現を利用して、対象データに適合した表現を構築すること、及び (ii)対象データ上の(パラメータを超える)回帰モデル全体を再訓練する微調整手順の初期化として得られたモデルを用いる。 トレーニング手法の各フェーズにおいて、真のデータ生成対象モデルと比較して学習モデルに過剰なリスク境界を提供する。 導出境界は,同じ過大なリスクを負う場合のソース表現を活用できないベースライン法と比較して,提案手法のサンプル複雑性の増大を示し,したがって,線形回帰に対する転送学習の有効性を理論的に示す。

In this paper, we consider the problem of learning a linear regression model on a data domain of interest (target) given few samples. To aid learning, we are provided with a set of pre-trained regression models that are trained on potentially different data domains (sources). Assuming a representation structure for the data generating linear models at the sources and the target domains, we propose a representation transfer based learning method for constructing the target model. The proposed scheme is comprised of two phases: (i) utilizing the different source representations to construct a representation that is adapted to the target data, and (ii) using the obtained model as an initialization to a fine-tuning procedure that re-trains the entire (over-parameterized) regression model on the target data. For each phase of the training method, we provide excess risk bounds for the learned model compared to the true data generating target model. The derived bounds show a gain in sample complexity for our proposed method compared to the baseline method of not leveraging source representations when achieving the same excess risk, therefore, theoretically demonstrating the effectiveness of transfer learning for linear regression.
翻訳日:2023-05-29 18:27:11 公開日:2023-05-25
# KeyPosS: GPSによるTrue-Range Multilaterationによるプラグアンドプレイ顔画像検出

KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration ( http://arxiv.org/abs/2305.16437v1 )

ライセンス: Link先を確認
Xu Bao, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Wangmeng Xiang, Jingdong Sun, Hanbing Liu, Wei Liu, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) 顔分析の分野では、顔認識や表情分析からアニメーションまで、さまざまな応用において正確なランドマーク検出が重要である。 しかし、従来のヒートマップや座標回帰に基づく手法は計算負荷や量子化誤差の点でしばしば問題に直面している。 これらの問題に対処するために,既存手法と区別される画期的な顔ランドマーク検出フレームワークであるKeyPoint Positioning System(KeyPosS)を紹介する。 KeyPosSは、当初GPSシステムで使われていたTrue-range Multilaterationアルゴリズムを使用して、計算集約的な回帰アプローチに頼ることなく、迅速かつ正確な顔のランドマーク検出を実現する。 このフレームワークは完全畳み込みネットワークを利用して距離マップを予測し、poi(point of interest)と複数のアンカーポイントの間の距離を計算する。 これらのアンカーポイントは、True-range Multilaterationアルゴリズムを通じてPOIの位置を三角測量するために巧妙に活用される。 特に、KeyPosSのプラグ&プレイの性質は、任意のデコードステージへのシームレスな統合を可能にし、汎用的で適応可能なソリューションを保証する。 我々は、4つの異なるデータセットの最先端モデルと比較し、KeyPosSの性能を徹底的に評価した。 その結果、KeyPosSは低解像度設定でリードメソッドを著しく上回り、時間オーバーヘッドは最小限であることがわかった。 コードはhttps://github.com/zhiqic/keypossで入手できる。

In the realm of facial analysis, accurate landmark detection is crucial for various applications, ranging from face recognition and expression analysis to animation. Conventional heatmap or coordinate regression-based techniques, however, often face challenges in terms of computational burden and quantization errors. To address these issues, we present the KeyPoint Positioning System (KeyPosS), a groundbreaking facial landmark detection framework that stands out from existing methods. For the first time, KeyPosS employs the True-range Multilateration algorithm, a technique originally used in GPS systems, to achieve rapid and precise facial landmark detection without relying on computationally intensive regression approaches. The framework utilizes a fully convolutional network to predict a distance map, which computes the distance between a Point of Interest (POI) and multiple anchor points. These anchor points are ingeniously harnessed to triangulate the POI's position through the True-range Multilateration algorithm. Notably, the plug-and-play nature of KeyPosS enables seamless integration into any decoding stage, ensuring a versatile and adaptable solution. We conducted a thorough evaluation of KeyPosS's performance by benchmarking it against state-of-the-art models on four different datasets. The results show that KeyPosS substantially outperforms leading methods in low-resolution settings while requiring a minimal time overhead. The code is available at https://github.com/zhiqic/KeyPosS.
翻訳日:2023-05-29 18:26:52 公開日:2023-05-25
# 数式のためのニューラルマシン翻訳

Neural Machine Translation for Mathematical Formulae ( http://arxiv.org/abs/2305.16433v1 )

ライセンス: Link先を確認
Felix Petersen, Moritz Schubotz, Andre Greiner-Petter, Bela Gipp(参考訳) 我々は,あいまいな表現言語とあいまいなコンテンツ言語との数学的公式のニューラルマシン翻訳の問題に取り組む。 自然言語のニューラルネットワーク翻訳と比較して、数学的公式はより小さい語彙とずっと長い記号列を持ち、その翻訳は数学的情報のニーズを満たすために極端な精度を必要とする。 本研究では,LaTeXからMathematica,LaTeXから意味論的LaTeXへの翻訳作業を行う。 再帰的、再帰的、変換的ネットワークは、全ての情報を保存するのに苦労するが、畳み込みシーケンス対シーケンスネットワークは、それぞれ95.1%と90.7%の正確な一致を達成する。

We tackle the problem of neural machine translation of mathematical formulae between ambiguous presentation languages and unambiguous content languages. Compared to neural machine translation on natural language, mathematical formulae have a much smaller vocabulary and much longer sequences of symbols, while their translation requires extreme precision to satisfy mathematical information needs. In this work, we perform the tasks of translating from LaTeX to Mathematica as well as from LaTeX to semantic LaTeX. While recurrent, recursive, and transformer networks struggle with preserving all contained information, we find that convolutional sequence-to-sequence networks achieve 95.1% and 90.7% exact matches, respectively.
翻訳日:2023-05-29 18:26:27 公開日:2023-05-25
# 神経(タンジェントカーネル)崩壊

Neural (Tangent Kernel) Collapse ( http://arxiv.org/abs/2305.16427v1 )

ライセンス: Link先を確認
Mariia Seleznova, Dana Weitzner, Raja Giryes, Gitta Kutyniok, Hung-Hsu Chou(参考訳) この研究は、訓練中のディープニューラルネットワーク(DNN)の進化を捉えるニューラル・タンジェント・カーネル(NTK)と、よく訓練された分類DNNの最終層の特徴における対称性と構造の出現を示すニューラル・コラプス(NC)現象の2つの重要な概念を橋渡しする。 我々は,経験的ntkがクラスラベルに整合したブロック構造,すなわち同一クラス内のサンプルが異なるクラスからのサンプルよりも強い相関を持つという自然な仮定を採用する。 この仮定では、平均二乗損失(MSE)で訓練されたDNNの力学を導出し、それらを解釈可能な位相に分解する。 さらに,ダイナミックスの本質を捉えた不変量を特定し,ブロック構造NTKを用いたDNNにおけるNCの出現を証明する。 我々は,3つの共通dnnアーキテクチャと3つのベンチマークデータセットに関する大規模数値実験を行い,理論を裏付ける。

This work bridges two important concepts: the Neural Tangent Kernel (NTK), which captures the evolution of deep neural networks (DNNs) during training, and the Neural Collapse (NC) phenomenon, which refers to the emergence of symmetry and structure in the last-layer features of well-trained classification DNNs. We adopt the natural assumption that the empirical NTK develops a block structure aligned with the class labels, i.e., samples within the same class have stronger correlations than samples from different classes. Under this assumption, we derive the dynamics of DNNs trained with mean squared (MSE) loss and break them into interpretable phases. Moreover, we identify an invariant that captures the essence of the dynamics, and use it to prove the emergence of NC in DNNs with block-structured NTK. We provide large-scale numerical experiments on three common DNN architectures and three benchmark datasets to support our theory.
翻訳日:2023-05-29 18:26:13 公開日:2023-05-25
# wacky vs. definitely wacky: 事前学習された言語モデルにおけるスカラ副詞の研究

Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained language models ( http://arxiv.org/abs/2305.16426v1 )

ライセンス: Link先を確認
Isabelle Lorge and Janet Pierrehumbert(参考訳) 単語意味のベクトル空間モデルは、同じ文脈で起こる単語が同様の意味を持つという仮定を共有している。 このようなモデルでは、それらの話題の関連性に類似しているが、その論理力が異なる単語は意味論的に近くなる傾向があり、論理的推論を含むNLPアプリケーションにおいてよく知られた課題を生み出す。 BERT、RoBERTa、GPT-3といった現代の事前訓練された言語モデルは、古典的な静的単語の埋め込みよりも論理的なタスクでより良いパフォーマンスを期待している。 しかし、その成功については諸説ある。 本稿では,この議論を,強い論理力を持つ未熟な単語のクラスであるスカラー副詞の体系的研究を通じて進めていく。 自然主義的ソーシャルメディアデータと構築事例の両方を含む3つのタスクを用いて, BERT, RoBERTa, GPT-2, GPT-3が, これらの共通語の一般的, 人間的, 知的な知識を示す程度について検討した。 私たちはこう問いかけます 1) モデルは, モダリティ, FREQUENCY, DEGREEの3つの意味カテゴリーに分類できるか? 2) 最大負から最大正までの全尺度の暗黙的表現は存在するか? 3) 単語頻度と文脈要因はモデルの性能にどのように影響するか? 論理的な意味のいくつかの側面を捉えているにもかかわらず、モデルは人間のパフォーマンスにかなり劣っている。

Vector space models of word meaning all share the assumption that words occurring in similar contexts have similar meanings. In such models, words that are similar in their topical associations but differ in their logical force tend to emerge as semantically close, creating well-known challenges for NLP applications that involve logical reasoning. Modern pretrained language models, such as BERT, RoBERTa and GPT-3 hold the promise of performing better on logical tasks than classic static word embeddings. However, reports are mixed about their success. In the current paper, we advance this discussion through a systematic study of scalar adverbs, an under-explored class of words with strong logical force. Using three different tasks, involving both naturalistic social media data and constructed examples, we investigate the extent to which BERT, RoBERTa, GPT-2 and GPT-3 exhibit general, human-like, knowledge of these common words. We ask: 1) Do the models distinguish amongst the three semantic categories of MODALITY, FREQUENCY and DEGREE? 2) Do they have implicit representations of full scales from maximally negative to maximally positive? 3) How do word frequency and contextual factors impact model performance? We find that despite capturing some aspects of logical meaning, the models fall far short of human performance.
翻訳日:2023-05-29 18:25:53 公開日:2023-05-25
# SketchOGD: メモリ効率のよい継続的学習

SketchOGD: Memory-Efficient Continual Learning ( http://arxiv.org/abs/2305.16424v1 )

ライセンス: Link先を確認
Benjamin Wright, Youngjae Min, Jeremy Bernstein, Navid Azizan(参考訳) 機械学習モデルが一連のタスクで継続的にトレーニングされている場合、以前のタスクで学んだことを忘れる義務があります。 破滅的な忘れ方に対する解決策の提案は、過去のタスクに関する情報を格納する傾向があるため、メモリ使用がそれらの実用性を決定する主要な考慮事項である。 本稿では,直交勾配降下 (ogd) と呼ばれる確立したアルゴリズムを改良し,破滅的忘れ方に対するメモリ効率の高い解を提案する。 OGDは以前のモデル勾配を利用して、以前のデータポイントのパフォーマンスを保ったウェイトアップデートを見つける。 しかし,従来のモデル勾配を記憶するメモリコストはアルゴリズムの実行時間とともに増大するので,OGDは任意の時間的水平線上の連続的な学習に不適である。 そこで本研究では,SketchOGDを提案する。 SketchOGDはオンラインスケッチアルゴリズムを使用して、モデル勾配を圧縮し、固定されたユーザ決定サイズのマトリックスに遭遇する。 OGDの既存のメモリ効率の亜種とは対照的に、SketchOGDはタスクの総数に関する事前知識を必要とせずにオンラインで動作し、実装が簡単で、分析に適している。 我々は,ogdの下流課題に適した新しい指標の下で,関連するスケッチの近似誤差に関する理論的保証を提供する。 実験により,SketchOGDはメモリ予算が固定された場合,現在最先端のOGDよりも優れていることがわかった。

When machine learning models are trained continually on a sequence of tasks, they are liable to forget what they learned on previous tasks -- a phenomenon known as catastrophic forgetting. Proposed solutions to catastrophic forgetting tend to involve storing information about past tasks, meaning that memory usage is a chief consideration in determining their practicality. This paper proposes a memory-efficient solution to catastrophic forgetting, improving upon an established algorithm known as orthogonal gradient descent (OGD). OGD utilizes prior model gradients to find weight updates that preserve performance on prior datapoints. However, since the memory cost of storing prior model gradients grows with the runtime of the algorithm, OGD is ill-suited to continual learning over arbitrarily long time horizons. To address this problem, this paper proposes SketchOGD. SketchOGD employs an online sketching algorithm to compress model gradients as they are encountered into a matrix of a fixed, user-determined size. In contrast to existing memory-efficient variants of OGD, SketchOGD runs online without the need for advance knowledge of the total number of tasks, is simple to implement, and is more amenable to analysis. We provide theoretical guarantees on the approximation error of the relevant sketches under a novel metric suited to the downstream task of OGD. Experimentally, we find that SketchOGD tends to outperform current state-of-the-art variants of OGD given a fixed memory budget.
翻訳日:2023-05-29 18:25:31 公開日:2023-05-25
# 第2の意思決定者:人間とAIの対立の序論

Alert of the Second Decision-maker: An Introduction to Human-AI Conflict ( http://arxiv.org/abs/2305.16477v1 )

ライセンス: Link先を確認
He Wen(参考訳) 人間と人工知能(AI)の協力は、このデジタル時代の重要な特徴である。 しかし、人間とAIは、同期して働くときに観察、解釈、行動の衝突があるかもしれない。 この現象はしばしば欠陥によって覆い隠され、残念ながら見過ごされている。 本稿では,人間とAIの対立概念,原因,測定方法,リスク評価を体系的に紹介する。 結果は、AIである人間の他に、潜在的な第2の意思決定者が存在すること、デジタル化されたプロセスシステムにおいて、人間とAIの対立はユニークかつ新たなリスクであり、これは従来の障害や障害分析と区別される必要がある学際的な分野である。

The collaboration between humans and artificial intelligence (AI) is a significant feature in this digital age. However, humans and AI may have observation, interpretation, and action conflicts when working synchronously. This phenomenon is often masked by faults and, unfortunately, overlooked. This paper systematically introduces the human-AI conflict concept, causes, measurement methods, and risk assessment. The results highlight that there is a potential second decision-maker besides the human, which is the AI; the human-AI conflict is a unique and emerging risk in digitalized process systems; and this is an interdisciplinary field that needs to be distinguished from traditional fault and failure analysis; the conflict risk is significant and cannot be ignored.
翻訳日:2023-05-29 18:18:01 公開日:2023-05-25
# 線形予測器とニューラルネットワークの初期化依存サンプル複雑性

Initialization-Dependent Sample Complexity of Linear Predictors and Neural Networks ( http://arxiv.org/abs/2305.16475v1 )

ライセンス: Link先を確認
Roey Magen and Ohad Shamir(参考訳) ベクトル値線形予測器(行列でパラメータ化)のサンプル複雑性に関する新しい結果と、より一般的にニューラルネットワークについて述べる。 固定参照行列$W_0$からパラメータのフロベニウスノルム距離のみを制御したサイズ非依存境界に着目し、スカラー値線形予測器のよく研究された設定を考えると、サンプル複雑性の挙動が驚くほど異なることを示す。 これはまた、フィードフォワードニューラルネットワークの新たなサンプル複雑性境界につながり、文献で開かれた問題に取り組み、一様収束なしに確実に学習可能な新しい凸線形予測問題を確立する。

We provide several new results on the sample complexity of vector-valued linear predictors (parameterized by a matrix), and more generally neural networks. Focusing on size-independent bounds, where only the Frobenius norm distance of the parameters from some fixed reference matrix $W_0$ is controlled, we show that the sample complexity behavior can be surprisingly different than what we may expect considering the well-studied setting of scalar-valued linear predictors. This also leads to new sample complexity bounds for feed-forward neural networks, tackling some open questions in the literature, and establishing a new convex linear prediction problem that is provably learnable without uniform convergence.
翻訳日:2023-05-29 18:17:50 公開日:2023-05-25
# fairdp: 異なるプライバシーを持つ認定公正性

FairDP: Certified Fairness with Differential Privacy ( http://arxiv.org/abs/2305.16474v1 )

ライセンス: Link先を確認
Khang Tran, Ferdinando Fioretto, Issa Khalil, My T. Thai, NhatHai Phan(参考訳) 本稿では,差分プライバシー(dp)と公平性を同時に確保する新しいメカニズムであるfairdpについて述べる。 fairdpは独立した個別グループのためのモデルを訓練し、グループ固有のクリッピング用語を用いてdpの異なる影響を評価し、限定する。 トレーニングプロセスを通じて、このメカニズムはグループモデルからの知識を段階的に統合し、下流タスクにおけるプライバシ、ユーティリティ、公平性のバランスをとる包括的なモデルを定式化する。 広範に理論的および実証的な分析により、FairDPの有効性が検証され、モデルユーティリティ、プライバシ、公正性のトレードオフが改善された。

This paper introduces FairDP, a novel mechanism designed to simultaneously ensure differential privacy (DP) and fairness. FairDP operates by independently training models for distinct individual groups, using group-specific clipping terms to assess and bound the disparate impacts of DP. Throughout the training process, the mechanism progressively integrates knowledge from group models to formulate a comprehensive model that balances privacy, utility, and fairness in downstream tasks. Extensive theoretical and empirical analyses validate the efficacy of FairDP, demonstrating improved trade-offs between model utility, privacy, and fairness compared with existing methods.
翻訳日:2023-05-29 18:17:36 公開日:2023-05-25
# 米国の亡命者におけるバイアス・一貫性・参加性:移民裁判所判決における外部要因の機械学習分析

Bias, Consistency, and Partisanship in U.S. Asylum Cases: A Machine Learning Analysis of Extraneous Factors in Immigration Court Decisions ( http://arxiv.org/abs/2305.16471v1 )

ライセンス: Link先を確認
Vyoma Raman, Catherine Vera, CJ Manna(参考訳) 本研究では,米国移民審査局(eoir)の移民裁判所における個人および体系的バイアスを測定するための,新たな2段階評価システムを提案する。 我々は、600万件近い移民裁判所の手続と228件のケースの特徴を分析し、アメリカの亡命判決が、事件のメリットに余計な要因に基づいて劇的に変化することを示している。 私たちは、空間と時間にまたがる可変性メトリクスの文献における重要なギャップを埋めます。 予測モデルを用いて,2つの指標を用いて,意思決定の総変動率の58.54%を説明する。 したがって、EOIRが申請者に亡命を許可するか否かは、個人の利益ではなく、政治的気候と主席判事の個人的多様性の複合効果に大きく依存する。 時系列分析により,1990年代前半にパルチザンが増加したが,世紀の変わり目以降に台頭したことを示す。 これらの結論は、米国移民制度の独立とデュープロセスへのコミットメントから逸脱する程度に顕著である。 当社のコントリビューションは,米国亡命意思決定プロセスにおけるシステム的不平等を明らかにするとともに,これらの問題を診断および監視するために,改良および標準化されたバラエティ指標を推奨する。

In this study, we introduce a novel two-pronged scoring system to measure individual and systemic bias in immigration courts under the U.S. Executive Office of Immigration Review (EOIR). We analyze nearly 6 million immigration court proceedings and 228 case features to build on prior research showing that U.S. asylum decisions vary dramatically based on factors that are extraneous to the merits of a case. We close a critical gap in the literature of variability metrics that can span space and time. Using predictive modeling, we explain 58.54% of the total decision variability using two metrics: partisanship and inter-judge cohort consistency. Thus, whether the EOIR grants asylum to an applicant or not depends in majority on the combined effects of the political climate and the individual variability of the presiding judge - not the individual merits of the case. Using time series analysis, we also demonstrate that partisanship increased in the early 1990s but plateaued following the turn of the century. These conclusions are striking to the extent that they diverge from the U.S. immigration system's commitments to independence and due process. Our contributions expose systemic inequities in the U.S. asylum decision-making process, and we recommend improved and standardized variability metrics to better diagnose and monitor these issues.
翻訳日:2023-05-29 18:17:24 公開日:2023-05-25
# インフルエンシャルメッセージがバリアントペルソナに及ぼす影響の測定

Measuring the Effect of Influential Messages on Varying Personas ( http://arxiv.org/abs/2305.16470v1 )

ライセンス: Link先を確認
Chenkai Sun, Jinning Li, Hou Pong Chan, ChengXiang Zhai, Heng Ji(参考訳) ユーザーがニュースイベントにどう反応するかを予測することで、知的エージェントやコンテンツ制作者が異なるコミュニティへの影響を見積り、未発表のメッセージを修正して、社会的衝突や道徳的負傷などの予期せぬ悪い結果を防ぐといった重要な応用が可能になる。 我々は、ニュースメッセージを見る際にペルソナ(個人またはグループ)が持つであろう応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。 ニュースに対する一般的なコメントのみを予測する従来の取り組みと比較して、提案課題はモデリングにパーソナライズを導入するだけでなく、各応答の感情極性と強度を予測する。 これにより、ペルソナの精神状態に関するより正確で包括的な推論が可能になる。 一方、生成した感情の次元は、評価と応用をより信頼できるものにします。 最初のベンチマークデータセットを作成し、13,357の回答と3,847のニュース見出しからなる。 我々は、データセットを用いてSOTAニューラル言語モデルをさらに評価する。 実験結果から,ペルソナ属性はすべての応答次元の性能に有効であることが示唆された。 分析の結果,提案手法はペルソナと一致する応答を予測でき,その副産物として,社会的ネットワークグループとその意見の分析において,極端な意見グループの発見など,多くの興味深い応用が可能となった。

Predicting how a user responds to news events enables important applications such as allowing intelligent agents or content producers to estimate the effect on different communities and revise unreleased messages to prevent unexpected bad outcomes such as social conflict and moral injury. We present a new task, Response Forecasting on Personas for News Media, to estimate the response a persona (characterizing an individual or a group) might have upon seeing a news message. Compared to the previous efforts which only predict generic comments to news, the proposed task not only introduces personalization in the modeling but also predicts the sentiment polarity and intensity of each response. This enables more accurate and comprehensive inference on the mental state of the persona. Meanwhile, the generated sentiment dimensions make the evaluation and application more reliable. We create the first benchmark dataset, which consists of 13,357 responses to 3,847 news headlines from Twitter. We further evaluate the SOTA neural language models with our dataset. The empirical results suggest that the included persona attributes are helpful for the performance of all response dimensions. Our analysis shows that the best-performing models are capable of predicting responses that are consistent with the personas, and as a byproduct, the task formulation also enables many interesting applications in the analysis of social network groups and their opinions, such as the discovery of extreme opinion groups.
翻訳日:2023-05-29 18:17:02 公開日:2023-05-25
# サイバー不確実性を考慮した自動電圧制御のためのベイズ強化学習

Bayesian Reinforcement Learning for Automatic Voltage Control under Cyber-Induced Uncertainty ( http://arxiv.org/abs/2305.16469v1 )

ライセンス: Link先を確認
Abhijeet Sahu and Katherine Davis(参考訳) 電圧制御は大規模な電力系統の信頼性の高い運用において重要である。 しかし、信頼性の高い動作を維持するための電圧制御の目的が、敵対的な存在下で生じる不確実性を維持するか、維持されることを保証するための電力系統の機構が現在構築されていない。 そこで本研究では,電力系統制御問題に対するベイズ強化学習(BRL)アプローチを導入し,サイバー環境における不確実性を考慮した持続電圧制御に着目した。 本研究は、部分観測可能なマルコフ決定問題(POMDP)を定式化して解決することにより、自動電圧制御のためのデータ駆動BRLベースのアプローチを提案する。 この技術はWSCCとIEEE 14バスシステムで評価される。 さらに、BRL技術は、様々なRL技術における探索と利用のしきい値を自動的に見つけるのに役立つ。

Voltage control is crucial to large-scale power system reliable operation, as timely reactive power support can help prevent widespread outages. However, there is currently no built in mechanism for power systems to ensure that the voltage control objective to maintain reliable operation will survive or sustain the uncertainty caused under adversary presence. Hence, this work introduces a Bayesian Reinforcement Learning (BRL) approach for power system control problems, with focus on sustained voltage control under uncertainty in a cyber-adversarial environment. This work proposes a data-driven BRL-based approach for automatic voltage control by formulating and solving a Partially-Observable Markov Decision Problem (POMDP), where the states are partially observable due to cyber intrusions. The techniques are evaluated on the WSCC and IEEE 14 bus systems. Additionally, BRL techniques assist in automatically finding a threshold for exploration and exploitation in various RL techniques.
翻訳日:2023-05-29 18:16:38 公開日:2023-05-25
# 相似構造解析手法による特徴データのリンクとクロスコンストラクションのためのペア可変オートエンコーダ(PairVAE)

Pair-Variational Autoencoders (PairVAE) for Linking and Cross-Reconstruction of Characterization Data from Complementary Structural Characterization Techniques ( http://arxiv.org/abs/2305.16467v1 )

ライセンス: Link先を確認
Shizhao Lu, Arthi Jayaraman(参考訳) 材料研究において、構造的特徴付けは、合成された材料の全体像を得るために、しばしば複数の相補的な技術を必要とする。 異なるキャラクタリゼーション技術(例えば散乱、顕微鏡、分光法)の可用性とアクセシビリティに応じて、各研究施設または学術研究所は、1つの技術で高出力能力にアクセスできるが、他の技術との制限(サンプル準備、解像度、アクセス時間)に直面している。 さらに、あるタイプの構造的特徴データは、他のものよりも容易に解釈できる(例えば、顕微鏡画像は小さな角度散乱プロファイルよりも解釈しやすい)。 したがって、複数の技術からペア化された構造的特徴データに基づいてトレーニングできる機械学習モデルを持つことは、モデルが他方から1組の特徴データを生成するのに有用である。 本稿では,スモールアングルx線散乱 (saxs) のデータを用いて,試料の2次元局所構造情報を示す走査型電子顕微鏡 (sem) の画像とバルク形態に関する情報を提示する。 新規ブロック共重合体のペアSAXSとSEMデータを用いてモルフォロジー(Doerk G.S.等によるオープンアクセスデータ、2023年1月13日 - 9(2): eadd3687]を組み立て、PairVAEを訓練した。 PairVAEは,サンプルのSAXS 2Dパターンを入力として,ブロック共重合体のSEM画像を生成することができ,その逆も可能であることを示す。 この手法は他の軟質材料の形態にも拡張でき、2次元SAXSパターンの容易に解釈できる貴重なツールとなり、構造-不適切な関係の下流での計算のためのデータベースを作成することができる。

In material research, structural characterization often requires multiple complementary techniques to obtain a holistic morphological view of the synthesized material. Depending on the availability of and accessibility of the different characterization techniques (e.g., scattering, microscopy, spectroscopy), each research facility or academic research lab may have access to high-throughput capability in one technique but face limitations (sample preparation, resolution, access time) with other techniques(s). Furthermore, one type of structural characterization data may be easier to interpret than another (e.g., microscopy images are easier to interpret than small angle scattering profiles). Thus, it is useful to have machine learning models that can be trained on paired structural characterization data from multiple techniques so that the model can generate one set of characterization data from the other. In this paper we demonstrate one such machine learning workflow, PairVAE, that works with data from Small Angle X-Ray Scattering (SAXS) that presents information about bulk morphology and images from Scanning Electron Microscopy (SEM) that presents two-dimensional local structural information of the sample. Using paired SAXS and SEM data of novel block copolymer assembled morphologies [open access data from Doerk G.S., et al. Science Advances. 2023 Jan 13;9(2): eadd3687], we train our PairVAE. After successful training, we demonstrate that the PairVAE can generate SEM images of the block copolymer morphology when it takes as input that sample's corresponding SAXS 2D pattern, and vice versa. This method can be extended to other soft materials morphologies as well and serves as a valuable tool for easy interpretation of 2D SAXS patterns as well as creating a database for other downstream calculations of structure-property relationships.
翻訳日:2023-05-29 18:16:22 公開日:2023-05-25
# 腫瘍免疫マイクロ環境の再現性と正確な評価のためのAI-Ready Multix Staining Dataset

An AI-Ready Multiplex Staining Dataset for Reproducible and Accurate Characterization of Tumor Immune Microenvironment ( http://arxiv.org/abs/2305.16465v1 )

ライセンス: Link先を確認
Parmida Ghahremani, Joseph Marino, Juan Hernandez-Prera, Janis V. de la Iglesia, Robbert JC Slebos, Christine H. Chung and Saad Nadeem(参考訳) 頭頸部扁平上皮癌8例のデジタル化画像と再登録画像を含む新しいai対応計算病理データセットについて紹介する。 特に, 腫瘍部位は, 高価な多重蛍光法 (mIF) で染色した後, 安価な多重免疫組織化学法 (mIHC) で残留した。 これは、これらの2つの染色方法の等価性を示す最初の公開データセットであり、その結果、いくつかのユースケースが可能となる: 等価性のため、我々の安価なmihc染色プロトコルは、高度に熟練した実験室技術者を必要とする高価なmif染色/走査の必要性を相殺することができる。 このデータセットは、SOTAの深層学習アプローチを推進するために、個々の病理学者(診断 > 50%)による主観的およびエラーを起こしやすい免疫細胞アノテーションとは対照的に、mIF/mIHCによる客観的な免疫細胞アノテーションを提供し、より再現性が高く正確な腫瘍免疫ミクロ環境(例えば、免疫療法)のキャラクタリゼーションを提供する。 本データセットの有効性は,(1)CD3/CD8腫瘍浸潤リンパ球のIHC定量化,(2)安価なmIF染色へのmIHC染色の仮想翻訳,(3)標準ヘマトキシリン画像上での仮想腫瘍/免疫細胞表現の3つのユースケースで実証された。 データセットは \url{https://github.com/nadeemlab/deepliif} で利用可能である。

We introduce a new AI-ready computational pathology dataset containing restained and co-registered digitized images from eight head-and-neck squamous cell carcinoma patients. Specifically, the same tumor sections were stained with the expensive multiplex immunofluorescence (mIF) assay first and then restained with cheaper multiplex immunohistochemistry (mIHC). This is a first public dataset that demonstrates the equivalence of these two staining methods which in turn allows several use cases; due to the equivalence, our cheaper mIHC staining protocol can offset the need for expensive mIF staining/scanning which requires highly-skilled lab technicians. As opposed to subjective and error-prone immune cell annotations from individual pathologists (disagreement > 50%) to drive SOTA deep learning approaches, this dataset provides objective immune and tumor cell annotations via mIF/mIHC restaining for more reproducible and accurate characterization of tumor immune microenvironment (e.g. for immunotherapy). We demonstrate the effectiveness of this dataset in three use cases: (1) IHC quantification of CD3/CD8 tumor-infiltrating lymphocytes via style transfer, (2) virtual translation of cheap mIHC stains to more expensive mIF stains, and (3) virtual tumor/immune cellular phenotyping on standard hematoxylin images. The dataset is available at \url{https://github.com/nadeemlab/DeepLIIF}.
翻訳日:2023-05-29 18:15:44 公開日:2023-05-25
# 水中ゴミの効率的な検出のための最適化カスタムデータセット

Optimized Custom Dataset for Efficient Detection of Underwater Trash ( http://arxiv.org/abs/2305.16460v1 )

ライセンス: Link先を確認
Jaskaran Singh Walia and Karthik Seemakurthy(参考訳) 水中廃棄物の正確な定量化と除去は海洋生物の保護と環境保全に重要な役割を果たす。 浮遊および表面の破片の検出は比較的単純であるが、水没した廃棄物の定量化は、光の屈折、吸収、懸濁粒子、色歪みなどの要因によって大きな課題が生じる。 本稿では,これらの課題に対して,カスタムデータセットの開発と,水中の海洋破片の効率的な検出手法を提案する。 データセットは多様な水中環境を含み、デブリのインスタンスの正確なラベル付けのためのアノテーションを含んでいる。 このカスタムデータセットの主な目的は、最先端のディープラーニングアーキテクチャを活用することで、リッターインスタンスの多様性を高め、深海環境における検出精度を向上させることである。

Accurately quantifying and removing submerged underwater waste plays a crucial role in safeguarding marine life and preserving the environment. While detecting floating and surface debris is relatively straightforward, quantifying submerged waste presents significant challenges due to factors like light refraction, absorption, suspended particles, and color distortion. This paper addresses these challenges by proposing the development of a custom dataset and an efficient detection approach for submerged marine debris. The dataset encompasses diverse underwater environments and incorporates annotations for precise labeling of debris instances. Ultimately, the primary objective of this custom dataset is to enhance the diversity of litter instances and improve their detection accuracy in deep submerged environments by leveraging state-of-the-art deep learning architectures.
翻訳日:2023-05-29 18:15:13 公開日:2023-05-25
# 複雑な背景と降雨条件における視覚に基づくUAV検出

Vision-based UAV Detection in Complex Backgrounds and Rainy Conditions ( http://arxiv.org/abs/2305.16450v1 )

ライセンス: Link先を確認
Adnan Munir, Abdul Jabbar Siddiqui(参考訳) UAVをリアルタイムで検出するために、コンピュータビジョンとディープラーニングアプローチが研究の分野を発展させている。 無人航空機(UAV)を多くの用途で採用する際の危険性や誤用が懸念されている。 これには潜在的なプライバシー侵害、安全関連の問題、セキュリティの脅威が含まれる。 視覚に基づく検知システムは、しばしばカメラやソフトウェアコンポーネントのようなハードウェアコンポーネントの組み合わせを構成する。 本研究では, 複雑な背景, 異なるUAVサイズ, 複雑な背景シナリオ, 豪雨条件など, 複雑な背景条件下でのUAV検出の課題に対して, 最新の視覚に基づく物体検出技術の性能について検討した。 これらの条件下で選択された手法の性能を調べるために、2つのデータセットがキュレートされた。 本稿では,1段検出器と2段検出器について検討し,評価を行った。 本論文は, 課題条件下でのUAV検出作業における選択されたモデルの性能に関する知見を提供するとともに, より堅牢なUAV検出手法の開発に資する。

To detect UAVs in real-time, computer vision and deep learning approaches are developing areas of research. There have been concerns raised regarding the possible hazards and misuse of employing unmanned aerial vehicles (UAVs) in many applications. These include potential privacy violations, safety-related issues, and security threats. Vision-based detection systems often comprise a combination of hardware components such as cameras and software components. In this work, the performance of recent and popular vision-based object detection techniques is investigated for the task of UAV detection under challenging conditions such as complex backgrounds, varying UAV sizes, complex background scenarios, and low-to-heavy rainy conditions. To study the performance of selected methods under these conditions, two datasets were curated: one with a sky background and one with complex background. In this paper, one-stage detectors and two-stage detectors are studied and evaluated. The findings presented in the paper shall help provide insights concerning the performance of the selected models for the task of UAV detection under challenging conditions and pave the way to develop more robust UAV detection methods
翻訳日:2023-05-29 18:14:59 公開日:2023-05-25
# 開量子系におけるリーブ・シュルツ・マティス理論

Lieb-Schultz-Mattis Theorem in Open Quantum Systems ( http://arxiv.org/abs/2305.16496v1 )

ライセンス: Link先を確認
Kohei Kawabata, Ramanjit Sohal, Shinsei Ryu(参考訳) リーブ=シュルツ=マティス(LSM)の定理は、量子多体系の一般的な制約を与え、ハルダンギャップ現象や物質の位相相において重要な役割を果たす。 ここで、LSM定理を開量子系に拡張し、対称性のみに基づくリウヴィリアンの定常状態とスペクトルギャップを制限する一般定理を確立する。 具体的には、非整数充填数に対して、変換不変性および$\mathrm{U} \left(1 \right)$対称性が同時に存在するとき、特異なギャップ付き定常状態が禁止されることを示す。 実例として、散逸的ギャップはスピン-1/2$散逸的ハイゼンベルクモデルでは開かないが、散逸的ギャップはスピン-1$対価で開くことができる(これは開量子系におけるハルデンギャップ現象の類似である)。 さらに、lsm制約は、リウヴィリアンの散逸形式因子の量子異常にそれ自体を表わすことを示した。 また、Kubo-Martin-Schwinger対称性のような開量子系に固有の対称性による LSM の制約も見出す。

The Lieb-Schultz-Mattis (LSM) theorem provides a general constraint on quantum many-body systems and plays a significant role in the Haldane gap phenomena and topological phases of matter. Here, we extend the LSM theorem to open quantum systems and establish a general theorem that restricts the steady state and spectral gap of Liouvillians based solely on symmetry. Specifically, we demonstrate that the unique gapped steady state is prohibited when translation invariance and $\mathrm{U} \left( 1 \right)$ symmetry are simultaneously present for noninteger filling numbers. As an illustrative example, we find that no dissipative gap is open in the spin-$1/2$ dissipative Heisenberg model while a dissipative gap can be open in the spin-$1$ counterpart -- an analog of the Haldane gap phenomena in open quantum systems. Furthermore, we show that the LSM constraint manifests itself in a quantum anomaly of the dissipative form factor of Liouvillians. We also find the LSM constraints due to symmetry intrinsic to open quantum systems, such as Kubo-Martin-Schwinger symmetry.
翻訳日:2023-05-29 18:09:53 公開日:2023-05-25
# 拡散型逆試料生成によるステルス性および制御性の向上

Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability ( http://arxiv.org/abs/2305.16494v1 )

ライセンス: Link先を確認
Haotian Xue, Alexandre Araujo, Bin Hu, Yongxin Chen(参考訳) ニューラルネットワークは、敵対的なサンプルに影響を受けやすいことが知られている。 デジタルシナリオや物理的シナリオでは勾配ベースの技術を使って簡単に生成できるが、自然画像の実際のデータ分布とは大きく異なり、強度とステルスネスのトレードオフをもたらす。 本稿では,Diffusion-based Projected Gradient Descent (Diff-PGD) と呼ばれる,現実的な対向サンプルを生成する新しいフレームワークを提案する。 拡散モデルで導かれる勾配を利用して、Diff-PGDは、逆サンプルが元のデータ分布に近づきながら有効性を維持する。 さらに,デジタルアタックや物理世界アタック,スタイルベースのアタックといった特定のタスクに対して,我々のフレームワークを簡単にカスタマイズできる。 従来の自然型逆解析法と比較して,他のサーロゲート損失(コンテンツ・スムースネス・スタイル損失など)から逆解析の最適化を分離し,より安定して制御可能とした。 最後に, Diff-PGD を用いて生成した試料は, 従来の勾配法よりも高い透過性, 抗精製能を有することを示した。 コードはhttps://github.com/xavihart/Diff-PGDでリリースされる

Neural networks are known to be susceptible to adversarial samples: small variations of natural examples crafted to deliberately mislead the models. While they can be easily generated using gradient-based techniques in digital and physical scenarios, they often differ greatly from the actual data distribution of natural images, resulting in a trade-off between strength and stealthiness. In this paper, we propose a novel framework dubbed Diffusion-Based Projected Gradient Descent (Diff-PGD) for generating realistic adversarial samples. By exploiting a gradient guided by a diffusion model, Diff-PGD ensures that adversarial samples remain close to the original data distribution while maintaining their effectiveness. Moreover, our framework can be easily customized for specific tasks such as digital attacks, physical-world attacks, and style-based attacks. Compared with existing methods for generating natural-style adversarial samples, our framework enables the separation of optimizing adversarial loss from other surrogate losses (e.g., content/smoothness/style loss), making it more stable and controllable. Finally, we demonstrate that the samples generated using Diff-PGD have better transferability and anti-purification power than traditional gradient-based methods. Code will be released in https://github.com/xavihart/Diff-PGD
翻訳日:2023-05-29 18:09:33 公開日:2023-05-25
# 深部畳み込みニューラルネットワークと視覚変換器を用いたストローク血液起源の画像分類

Image Classification of Stroke Blood Clot Origin using Deep Convolutional Neural Networks and Visual Transformers ( http://arxiv.org/abs/2305.16492v1 )

ライセンス: Link先を確認
David Azatyan(参考訳) ストロークは世界中で2つの死因の1つである。 多くの人は毎年脳卒中を患っている。 アメリカでは、毎年70万人以上の患者が虚血性脳梗塞に遭遇している。 心動脈硬化症と大動脈硬化症という2種類の急性虚血性脳梗塞(AIS)の亜型を分離するための人工知能の応用法について述べる。 このアプローチでは、4つのディープニューラルネットワークアーキテクチャと単純なアンサンブル手法が使われている。

Stroke is one of two main causes of death worldwide. Many individuals suffer from ischemic stroke every year. Only in US more over 700,000 individuals meet ischemic stroke due to blood clot blocking an artery to the brain every year. The paper describes particular approach how to apply Artificial Intelligence for purposes of separating two major acute ischemic stroke (AIS) etiology subtypes: cardiac and large artery atherosclerosis. Four deep neural network architectures and simple ensemble method are used in the approach.
翻訳日:2023-05-29 18:09:09 公開日:2023-05-25
# SAMoSSA:確率的自己回帰雑音を用いた多変量特異スペクトル解析

SAMoSSA: Multivariate Singular Spectrum Analysis with Stochastic Autoregressive Noise ( http://arxiv.org/abs/2305.16491v1 )

ライセンス: Link先を確認
Abdullah Alomar, Munther Dahleh, Sean Mann, Devavrat Shah(参考訳) 時系列分析の確立された実践は、決定論的、非定常的傾向と季節性成分を推定し、残りの確率的、定常的な成分を学習することを含む。 近年、相関した定常成分がない場合、多変量特異スペクトル分析(mssa)を用いて、決定論的非定常成分を正確に学習できることが示されているが、決定論的非定常成分がなければ、自己回帰的(ar)定常成分も、例えば通常の最小二乗(ols)を介して容易に学習できる。 しかし、決定論的要素と定常要素の両方を含む多段階学習アルゴリズムの理論的基盤は、その普及にもかかわらず文献に欠落している。 そこで本研究では,非定常成分を推定するためにmssaを最初に適用し,残差時系列から学習した定常ar成分が存在するにもかかわらず,非定常成分を推定する。 提案アルゴリズムSAMoSSAの有限サンプル予測整合性は,データ駆動型であり,パラメータ調整が最小限である。 理論的保証を確立するためには、3つのハードルを克服する。 i)安定したARプロセスのページ行列のスペクトルを特徴付けることにより、mSSAの分析を拡大する。 (ii)任意の有界摂動の存在下でのarプロセス識別の解析を延長する。 (iii)モデル同定のみを考えるのではなく、サンプル外あるいは予測誤差を特徴付ける。 代表的な実証研究を通じて,既存のベースラインと比較して,SAMoSSAの優れた性能を検証した。 特に、ARノイズ構造を説明するSAMoSSAの能力は、さまざまなベンチマークデータセットに対して5%から37%の改善をもたらす。

The well-established practice of time series analysis involves estimating deterministic, non-stationary trend and seasonality components followed by learning the residual stochastic, stationary components. Recently, it has been shown that one can learn the deterministic non-stationary components accurately using multivariate Singular Spectrum Analysis (mSSA) in the absence of a correlated stationary component; meanwhile, in the absence of deterministic non-stationary components, the Autoregressive (AR) stationary component can also be learnt readily, e.g. via Ordinary Least Squares (OLS). However, a theoretical underpinning of multi-stage learning algorithms involving both deterministic and stationary components has been absent in the literature despite its pervasiveness. We resolve this open question by establishing desirable theoretical guarantees for a natural two-stage algorithm, where mSSA is first applied to estimate the non-stationary components despite the presence of a correlated stationary AR component, which is subsequently learned from the residual time series. We provide a finite-sample forecasting consistency bound for the proposed algorithm, SAMoSSA, which is data-driven and thus requires minimal parameter tuning. To establish theoretical guarantees, we overcome three hurdles: (i) we characterize the spectra of Page matrices of stable AR processes, thus extending the analysis of mSSA; (ii) we extend the analysis of AR process identification in the presence of arbitrary bounded perturbations; (iii) we characterize the out-of-sample or forecasting error, as opposed to solely considering model identification. Through representative empirical studies, we validate the superior performance of SAMoSSA compared to existing baselines. Notably, SAMoSSA's ability to account for AR noise structure yields improvements ranging from 5% to 37% across various benchmark datasets.
翻訳日:2023-05-29 18:08:59 公開日:2023-05-25
# 法的引用予測のためのプロトタイプベース解釈可能性

Prototype-Based Interpretability for Legal Citation Prediction ( http://arxiv.org/abs/2305.16490v1 )

ライセンス: Link先を確認
Chu Fei Luo, Rohan Bhambhoria, Samuel Dahan, Xiaodan Zhu(参考訳) ディープラーニングは過去10年間に大きく進歩し、広範な社会的影響で問題を解決する可能性を示している。 法律などの高い意思決定領域では、専門家は、実用的な環境で利用するために自動システムの解釈可能性を必要とすることが多い。 本稿では,これらの要件を法的引用予測(lcp)の重要な問題に適用することを試みる。 我々は、前例と立法規定の両方に関して、弁護士の思考過程と平行してタスクを設計する。 最初の実験結果から,法の専門家のフィードバックを得て,対象の引用予測を洗練する。 さらに,弁護士が使用する決定パラメータに固執しながら高い性能を達成し,解釈可能性を高めるためのプロトタイプアーキテクチャを導入する。 本研究は,現状の法律言語処理モデルの構築と活用を行うとともに,社会的影響を生かしたハイテイクタスクの重要課題に対処する。

Deep learning has made significant progress in the past decade, and demonstrates potential to solve problems with extensive social impact. In high-stakes decision making areas such as law, experts often require interpretability for automatic systems to be utilized in practical settings. In this work, we attempt to address these requirements applied to the important problem of legal citation prediction (LCP). We design the task with parallels to the thought-process of lawyers, i.e., with reference to both precedents and legislative provisions. After initial experimental results, we refine the target citation predictions with the feedback of legal experts. Additionally, we introduce a prototype architecture to add interpretability, achieving strong performance while adhering to decision parameters used by lawyers. Our study builds on and leverages the state-of-the-art language processing models for law, while addressing vital considerations for high-stakes tasks with practical societal impact.
翻訳日:2023-05-29 18:08:32 公開日:2023-05-25
# EgoHumans:エゴセントリックな3Dマルチヒューマンベンチマーク

EgoHumans: An Egocentric 3D Multi-Human Benchmark ( http://arxiv.org/abs/2305.16487v1 )

ライセンス: Link先を確認
Rawal Khirodkar, Aayush Bansal, Lingni Ma, Richard Newcombe, Minh Vo, Kris Kitani(参考訳) EgoHumansは、エゴセントリックな人間の3Dポーズ推定と追跡の最先端化を図るために、新しいマルチビューマルチヒューマンビデオベンチマークである。 既存のエゴセントリックベンチマークは、1つの主題または屋内のみのシナリオをキャプチャし、現実のアプリケーションに対するコンピュータビジョンアルゴリズムの一般化を制限する。 本稿では,人間検出,追跡,2d/3dポーズ推定,メッシュリカバリといった多様なタスクをサポートするアノテーションを備えた,総合的な自己中心型マルチヒューマンベンチマークを構築するための,新たな3dキャプチャセットアップを提案する。 私たちは、サッカー、フェンシング、バレーボールなどの動的なアクティビティを捉えるために、消費者向けのカメラ付きメガネをエゴセントリックビューに活用しています。 さらに,重度の咬合や完全咬合下でも正確な3次元地中真実を再現する。 データセットは125万以上のエゴセントリックなイメージで構成され、さまざまなシーンにまたがって、挑戦的でコレオグラフィのないマルチヒューマンアクティビティと、高速に動くエゴセントリックなビューに焦点を当てている。 我々は,既存の最先端手法を厳格に評価し,そのエゴセントリックなシナリオ,特にマルチヒューマントラッキングにおける限界を強調する。 このような制約に対処するために,マルチストリームトランスフォーマーアーキテクチャと明示的な3次元空間推論を用いた新しいアプローチである egoformer を提案する。 egoformer は egohumans データセットで 13.6% の idf1 と 9.3 hota の先行技術を大きく上回っている。

We present EgoHumans, a new multi-view multi-human video benchmark to advance the state-of-the-art of egocentric human 3D pose estimation and tracking. Existing egocentric benchmarks either capture single subject or indoor-only scenarios, which limit the generalization of computer vision algorithms for real-world applications. We propose a novel 3D capture setup to construct a comprehensive egocentric multi-human benchmark in the wild with annotations to support diverse tasks such as human detection, tracking, 2D/3D pose estimation, and mesh recovery. We leverage consumer-grade wearable camera-equipped glasses for the egocentric view, which enables us to capture dynamic activities like playing soccer, fencing, volleyball, etc. Furthermore, our multi-view setup generates accurate 3D ground truth even under severe or complete occlusion. The dataset consists of more than 125k egocentric images, spanning diverse scenes with a particular focus on challenging and unchoreographed multi-human activities and fast-moving egocentric views. We rigorously evaluate existing state-of-the-art methods and highlight their limitations in the egocentric scenario, specifically on multi-human tracking. To address such limitations, we propose EgoFormer, a novel approach with a multi-stream transformer architecture and explicit 3D spatial reasoning to estimate and track the human pose. EgoFormer significantly outperforms prior art by 13.6% IDF1 and 9.3 HOTA on the EgoHumans dataset.
翻訳日:2023-05-29 18:08:17 公開日:2023-05-25
# バッチモデル統合:マルチタスクモデル統合フレームワーク

Batch Model Consolidation: A Multi-Task Model Consolidation Framework ( http://arxiv.org/abs/2305.16484v1 )

ライセンス: Link先を確認
Iordanis Fostiropoulos, Jiaye Zhu, Laurent Itti(参考訳) 連続学習(cl)では,事前学習したタスクの性能低下を伴わずに逐次的にタスクの流れを学習するモデルが必要となる。 現在のアプローチは、さまざまなドメインや困難からの長いタスクで失敗します。 既存のclアプローチの多くは、過度のメモリコストやトレーニング時間のため、あるいはひとつのデバイスに密結合しているため、実際に適用することが難しい。 広範に適用されたミニバッチトレーニングから導かれる直感を用いて,複数のエージェントがタスクの範囲に露出する条件下で,より現実的なCLをサポートするためにバッチモデル統合($\textbf{BMC}$)を提案する。 a $\textit{regularization}$ phase の間、bmc は複数の\textit{expert models}$ を複数の非結合タスクで並列に訓練する。 各専門家は、$\textit{stability loss}$を通じて$\textit{base model}$と重みを保ち、タスクのデータの一部から$\textit{buffer}$を構成する。 また、$\textit{consolidation}$フェーズでは、$\textit{expert models}$の'batches'の学習知識を$\textit{batched consolidated loss}$ in $\textit{memory}$データで組み合わせ、すべてのバッファを集約します。 本手法の各成分をアブレーション研究において徹底的に評価し,slit-cifar-100,tiny-imagenet,および71個の画像分類タスクと難易度からなるストリームデータセットの有効性を実証した。 私たちのメソッドは、71タスクの最後にパフォーマンスを維持できる唯一のアプローチであり、次のベストCLアプローチよりも70%優れています。

In Continual Learning (CL), a model is required to learn a stream of tasks sequentially without significant performance degradation on previously learned tasks. Current approaches fail for a long sequence of tasks from diverse domains and difficulties. Many of the existing CL approaches are difficult to apply in practice due to excessive memory cost or training time, or are tightly coupled to a single device. With the intuition derived from the widely applied mini-batch training, we propose Batch Model Consolidation ($\textbf{BMC}$) to support more realistic CL under conditions where multiple agents are exposed to a range of tasks. During a $\textit{regularization}$ phase, BMC trains multiple $\textit{expert models}$ in parallel on a set of disjoint tasks. Each expert maintains weight similarity to a $\textit{base model}$ through a $\textit{stability loss}$, and constructs a $\textit{buffer}$ from a fraction of the task's data. During the $\textit{consolidation}$ phase, we combine the learned knowledge on 'batches' of $\textit{expert models}$ using a $\textit{batched consolidation loss}$ in $\textit{memory}$ data that aggregates all buffers. We thoroughly evaluate each component of our method in an ablation study and demonstrate the effectiveness on standardized benchmark datasets Split-CIFAR-100, Tiny-ImageNet, and the Stream dataset composed of 71 image classification tasks from diverse domains and difficulties. Our method outperforms the next best CL approach by 70% and is the only approach that can maintain performance at the end of 71 tasks; Our benchmark can be accessed at https://github.com/fostiropoulos/stream_benchmark
翻訳日:2023-05-29 18:07:49 公開日:2023-05-25
# 拡張サンプルによる混合システムにおけるサンプル効率的な強化学習とその待ち行列ネットワークへの応用

Sample Efficient Reinforcement Learning in Mixed Systems through Augmented Samples and Its Applications to Queueing Networks ( http://arxiv.org/abs/2305.16483v1 )

ライセンス: Link先を確認
Honghao Wei, Xin Liu, Weina Wang, Lei Ying(参考訳) 本稿では,2種類の状態を持つシステムを含む強化学習問題(確率的および擬確率的)について考察する。 このようなシステムでは、確率状態は確率遷移核に従い、擬確率状態の遷移は確率状態/遷移から決定論的である。 本稿では,製造システム,通信ネットワーク,待ち行列ネットワークなど,様々な用途で広く利用されている混合システムについて述べる。 拡張データサンプルを生成することで学習を高速化する,効率的なRL法を提案する。 提案アルゴリズムはデータ駆動型であり,実データと増補データの両方からポリシーを学習する。 この方法は、データセットが確率状態の十分なカバレッジしか持たないように、サンプルの複雑さを減らし、学習を大幅に改善する。 そこで,Fitted Q Iteration (FQI) を用いて提案手法のサンプル複雑性を解析し,その最適性ギャップが$\tilde{\mathcal{O}}(\sqrt{{1}/{n}}+\sqrt{{1}/{m}})として減少することを示した。 拡張サンプルがなければ、擬似確率状態のデータカバレッジが不十分なため、最適性ギャップは$\tilde{\mathcal{O}}(1)$である。 複数の待ち行列ネットワークアプリケーションに対する実験結果から,提案手法が深いQ-ラーニングと深いポリシー勾配の両方において学習を著しく加速することを確認した。

This paper considers a class of reinforcement learning problems, which involve systems with two types of states: stochastic and pseudo-stochastic. In such systems, stochastic states follow a stochastic transition kernel while the transitions of pseudo-stochastic states are deterministic given the stochastic states/transitions. We refer to such systems as mixed systems, which are widely used in various applications, including manufacturing systems, communication networks, and queueing networks. We propose a sample efficient RL method that accelerates learning by generating augmented data samples. The proposed algorithm is data-driven and learns the policy from data samples from both real and augmented samples. This method significantly improves learning by reducing the sample complexity such that the dataset only needs to have sufficient coverage of the stochastic states. We analyze the sample complexity of the proposed method under Fitted Q Iteration (FQI) and demonstrate that the optimality gap decreases as $\tilde{\mathcal{O}}(\sqrt{{1}/{n}}+\sqrt{{1}/{m}}),$ where $n$ is the number of real samples and $m$ is the number of augmented samples per real sample. It is important to note that without augmented samples, the optimality gap is $\tilde{\mathcal{O}}(1)$ due to insufficient data coverage of the pseudo-stochastic states. Our experimental results on multiple queueing network applications confirm that the proposed method indeed significantly accelerates learning in both deep Q-learning and deep policy gradient.
翻訳日:2023-05-29 18:07:19 公開日:2023-05-25
# simhaze:実世界デハジングのためのゲームエンジンシミュレーションデータ

SimHaze: game engine simulated data for real-world dehazing ( http://arxiv.org/abs/2305.16481v1 )

ライセンス: Link先を確認
Zhengyang Lou, Huan Xu, Fangzhou Mu, Yanli Liu, Xiaoyu Zhang, Liang Shang, Jiang Li, Bochen Guan, Yin Li, Yu Hen Hu(参考訳) 深層モデルは、シングルイメージデハジングで最近成功した。 従来の手法では、クリーンな画像と推定深度マップに基づいて、ヘイズな画像を合成するペア画像から、完全に教師付きトレーニングを考慮し、学習する。 しかし、このパラダイムは、不正確な深さ推定のため、低品質のヘイズ画像を生成することができ、訓練されたモデルの一般化が不十分になる。 本稿では,コンピュータグラフィックスを活用してクリーンなペア画像を生成する方法を提案する。 現代のゲームエンジンを用いて, クリープクリーンな画像とその精密な深度マップをレンダリングし, 高品質なヘイズ画像を合成してデハジングモデルの訓練を行う。 この目的のために、新しい合成ヘイズデータセットであるSimHazeを紹介します。 さらに重要なことは、SimHazeを使用したトレーニングだけで、最新のデハージングモデルが以前のデハージングデータセットと比較して大幅にパフォーマンスが向上できることを示しています。 私たちのデータセットとコードは公開される予定だ。

Deep models have demonstrated recent success in single-image dehazing. Most prior methods consider fully supervised training and learn from paired clean and hazy images, where a hazy image is synthesized based on a clean image and its estimated depth map. This paradigm, however, can produce low-quality hazy images due to inaccurate depth estimation, resulting in poor generalization of the trained models. In this paper, we explore an alternative approach for generating paired clean-hazy images by leveraging computer graphics. Using a modern game engine, our approach renders crisp clean images and their precise depth maps, based on which high-quality hazy images can be synthesized for training dehazing models. To this end, we present SimHaze: a new synthetic haze dataset. More importantly, we show that training with SimHaze alone allows the latest dehazing models to achieve significantly better performance in comparison to previous dehazing datasets. Our dataset and code will be made publicly available.
翻訳日:2023-05-29 18:06:37 公開日:2023-05-25
# 確率的メトロロジーと経験的分布

Stochastic metrology and the empirical distribution ( http://arxiv.org/abs/2305.16480v1 )

ライセンス: Link先を確認
Joseph A. Smiga, Marco Radaelli, Felix C. Binder, Gabriel T. Landi(参考訳) 一般確率過程に起因した時系列におけるパラメータ推定の問題点について検討し, 結果が任意の時間的相関を示す可能性について検討した。 特に、確率過程が経験分布として知られる単一のヒストグラムに圧縮された場合、フィッシャー情報がどれだけ失われるかという問題に対処する。 以下に示すように、結果の相関関係のため、答えは自明ではない。 一般的な定常過程から離散時間マルコフ連鎖、連続時間古典マスター方程式まで、様々なシナリオのフィッシャー情報の実用的公式を導出する。 結果はいくつかの例で示される。

We study the problem of parameter estimation in time series stemming from general stochastic processes, where the outcomes may exhibit arbitrary temporal correlations. In particular, we address the question of how much Fisher information is lost if the stochastic process is compressed into a single histogram, known as the empirical distribution. As we show, the answer is non-trivial due to the correlations between outcomes. We derive practical formulas for the resulting Fisher information for various scenarios, from generic stationary processes to discrete-time Markov chains to continuous-time classical master equations. The results are illustrated with several examples.
翻訳日:2023-05-29 18:06:10 公開日:2023-05-25
# ディープニューラルネットワークのためのスライディングウィンドウサムアルゴリズム

Sliding Window Sum Algorithms for Deep Neural Networks ( http://arxiv.org/abs/2305.16513v1 )

ライセンス: Link先を確認
Roman Snytsar(参考訳) スライディングウィンドウ和は文字列インデックス、ハッシュ、時系列分析に広く使われている。 我々は,ウィンドウサイズ $w$ とプロセッサ数 p に対する o(p/w) の高速化を提供する汎用ベクトル化スライディング和アルゴリズムのファミリーを開発した。 さらに重要なのは、アルゴリズムが効率的なメモリアクセスパターンを示すことだ。 本稿では,Deep Neural Networks のトレーニングおよび推論におけるスライディング和アルゴリズムの適用について検討する。 プールと畳み込みプリミティブの両方をスライディング和として表現し,共有構造を持つ計算カーネルによって評価する方法を実証する。 我々は、スライディング和畳み込みカーネルが、CPU上で一般的に使われているGEMMカーネルよりも効率的であることを示し、GPUカーネルよりも優れた性能を示す。

Sliding window sums are widely used for string indexing, hashing and time series analysis. We have developed a family of the generic vectorized sliding sum algorithms that provide speedup of O(P/w) for window size $w$ and number of processors P. For a sum with a commutative operator the speedup is improved to O(P/log(w)). Even more important, our algorithms exhibit efficient memory access patterns. In this paper we study the application of the sliding sum algorithms to the training and inference of the Deep Neural Networks. We demonstrate how both pooling and convolution primitives could be expressed as sliding sums and evaluated by the compute kernels with the shared structure. We show that the sliding sum convolution kernels are more efficient than the commonly used GEMM kernels on the CPU, and could even outperform their GPU counterparts.
翻訳日:2023-05-29 17:58:52 公開日:2023-05-25
# RoLA:多変量時系列用リアルタイムオンライン軽量異常検出システム

RoLA: A Real-Time Online Lightweight Anomaly Detection System for Multivariate Time Series ( http://arxiv.org/abs/2305.16509v1 )

ライセンス: Link先を確認
Ming-Chang Lee and Jia-Chun Lin(参考訳) 多変量時系列とは、デバイスまたはシステムから同時に取られた2つ以上の変数の観測である。 適切なシステム運用とサービス品質を確保するために、多変量時系列を監視し、リアルタイムで異常を検出する必要性が高まっている。 また、異なる変数間の相関を考慮し、多変量時系列のパターンの変化に適応し、即時応答を提供し、教師なし学習とオンラインモデルトレーニングに基づく検出結果に関する支援情報を提供する軽量な異常検出システムを持つことも望ましい。 過去10年間で、多くの多変量時系列異常検出手法が導入された。 しかし、上記の機能をすべて提供することはできない。 本稿では,分割・分割戦略,並列処理,多数決ルールに基づく多変量時系列のリアルタイムオンライン軽量異常検出システムであるrolaを提案する。 RoLAは複数の軽量な異常検知器を用いて、マルチ変数の時系列を並列に監視し、ハエの変数間の相関を動的に決定し、その後、多数ルールに基づいてリアルタイムに異常を共同検出する。 rolaのパフォーマンスを実証するために,one ocean expeditionのフェリーボックスから提供される公開データセットに基づく実験を行った。 その結果,rolaは検出精度と軽量化を実現できた。

A multivariate time series refers to observations of two or more variables taken from a device or a system simultaneously over time. There is an increasing need to monitor multivariate time series and detect anomalies in real time to ensure proper system operation and good service quality. It is also highly desirable to have a lightweight anomaly detection system that considers correlations between different variables, adapts to changes in the pattern of the multivariate time series, offers immediate responses, and provides supportive information regarding detection results based on unsupervised learning and online model training. In the past decade, many multivariate time series anomaly detection approaches have been introduced. However, they are unable to offer all the above-mentioned features. In this paper, we propose RoLA, a real-time online lightweight anomaly detection system for multivariate time series based on a divide-and-conquer strategy, parallel processing, and the majority rule. RoLA employs multiple lightweight anomaly detectors to monitor multivariate time series in parallel, determine the correlations between variables dynamically on the fly, and then jointly detect anomalies based on the majority rule in real time. To demonstrate the performance of RoLA, we conducted an experiment based on a public dataset provided by the FerryBox of the One Ocean Expedition. The results show that RoLA provides satisfactory detection accuracy and lightweight performance.
翻訳日:2023-05-29 17:58:41 公開日:2023-05-25
# ほとんどのニューラルネットワークがほぼ学習可能

Most Neural Networks Are Almost Learnable ( http://arxiv.org/abs/2305.16508v1 )

ライセンス: Link先を確認
Amit Daniely, Nathan Srebro, Gal Vardi(参考訳) ランダムな定数深度ネットワークを学習するためのPTASを提案する。 固定された$\epsilon>0$とdeep $i$に対して、$\sqrt{d} \cdot \mathbb{S}^{d-1}$の任意の分布に対して、dep $i$のランダムなXavierネットワークを$\epsilon$の加算誤差まで学習するポリ時間アルゴリズムが存在することを示す。 このアルゴリズムは(\bar{d})^{\mathrm{poly}(\epsilon^{-1})}$の時間とサンプルの複雑さで動作し、ここで$\bar d$はネットワークのサイズである。 Sigmoid や ReLU のような活性化の場合、境界は $(\bar{d})^{\mathrm{polylog}(\epsilon^{-1})}$ に改善され、定数深度ランダムネットワークを学習するための準ポリ時間アルゴリズムが生成される。

We present a PTAS for learning random constant-depth networks. We show that for any fixed $\epsilon>0$ and depth $i$, there is a poly-time algorithm that for any distribution on $\sqrt{d} \cdot \mathbb{S}^{d-1}$ learns random Xavier networks of depth $i$, up to an additive error of $\epsilon$. The algorithm runs in time and sample complexity of $(\bar{d})^{\mathrm{poly}(\epsilon^{-1})}$, where $\bar d$ is the size of the network. For some cases of sigmoid and ReLU-like activations the bound can be improved to $(\bar{d})^{\mathrm{polylog}(\epsilon^{-1})}$, resulting in a quasi-poly-time algorithm for learning constant depth random networks.
翻訳日:2023-05-29 17:58:20 公開日:2023-05-25
# 超電導量子プロセッサの計算リーチの拡張

Extending the Computational Reach of a Superconducting Qutrit Processor ( http://arxiv.org/abs/2305.16507v1 )

ライセンス: Link先を確認
Noah Goss, Samuele Ferracin, Akel Hashim, Arnaud Carignan-Dugas, John Mark Kreikebaum, Ravi K. Naik, David I. Santiago, Irfan Siddiqi(参考訳) 量子コンピューティングは、量子シミュレーションや量子エラー補正を含む多くのアプリケーションに利点をもたらす、より大きくより接続された計算空間を利用する新しいアプローチである。 しかしながら、quditは一般的に、より複雑なエラーに苦しめられ、高いノイズ感度を被り、スケーリングが困難になる。 そこで本研究では,任意のマルコフ雑音を調整・緩和する手法を提案する。 我々は, 超伝導トランスモンクトリットプロセッサ上でのこれらの手法を実験的に実証し, 多成分クトリットエンタングルメントおよびランダム回路サンプリングの有効性をベンチマークし, 最大3倍の改善を得た。 私たちの知る限りでは、これはqutritsで実施された最初のエラー緩和実験です。 我々の研究は、高次元量子システムを操作する本質的な複雑さにもかかわらず、ノイズ調整とエラー緩和は今日のquditプロセッサの計算能力を大幅に拡張できることを示している。

Quantum computing with qudits is an emerging approach that exploits a larger, more-connected computational space, providing advantages for many applications, including quantum simulation and quantum error correction. Nonetheless, qudits are typically afflicted by more complex errors and suffer greater noise sensitivity which renders their scaling difficult. In this work, we introduce techniques to tailor and mitigate arbitrary Markovian noise in qudit circuits. We experimentally demonstrate these methods on a superconducting transmon qutrit processor, and benchmark their effectiveness for multipartite qutrit entanglement and random circuit sampling, obtaining up to 3x improvement in our results. To the best of our knowledge, this constitutes the first ever error mitigation experiment performed on qutrits. Our work shows that despite the intrinsic complexity of manipulating higher-dimensional quantum systems, noise tailoring and error mitigation can significantly extend the computational reach of today's qudit processors.
翻訳日:2023-05-29 17:57:57 公開日:2023-05-25
# 報酬機械誘導・自己ペース強化学習

Reward-Machine-Guided, Self-Paced Reinforcement Learning ( http://arxiv.org/abs/2305.16505v1 )

ライセンス: Link先を確認
Cevahir Koprulu and Ufuk Topcu(参考訳) 自己ペースト強化学習(RL)は、文脈上の確率分布の列、すなわちキュリキュラを自動生成することにより、学習のデータ効率を向上させることを目的としている。 しかし、既存の自己ペースrlのテクニックは、時間的に拡張された動作を伴う長期計画タスクでは失敗する。 タスク構造に関する事前知識を利用することで、自己ペースRLの有効性を向上させることができると仮定する。 我々は、報酬機械、すなわち基礎となるタスク構造を符号化する有限状態機械に導かれる自己ペースrlアルゴリズムを開発した。 アルゴリズムは報酬機を統合する 1) 選択したRLアルゴリズムによって得られるポリシー及び値関数の更新及び 2) コンテキスト分布を生成する自動カリキュラムの更新。 実験結果から,既存のベースラインが意味のある進歩を達成できない場合でも,提案アルゴリズムが最適動作を確実に達成できることを示す。 また、カリキュラムの長さを削減し、カリキュラム生成プロセスのばらつきをそれぞれ4分の1および4桁まで低減する。

Self-paced reinforcement learning (RL) aims to improve the data efficiency of learning by automatically creating sequences, namely curricula, of probability distributions over contexts. However, existing techniques for self-paced RL fail in long-horizon planning tasks that involve temporally extended behaviors. We hypothesize that taking advantage of prior knowledge about the underlying task structure can improve the effectiveness of self-paced RL. We develop a self-paced RL algorithm guided by reward machines, i.e., a type of finite-state machine that encodes the underlying task structure. The algorithm integrates reward machines in 1) the update of the policy and value functions obtained by any RL algorithm of choice, and 2) the update of the automated curriculum that generates context distributions. Our empirical results evidence that the proposed algorithm achieves optimal behavior reliably even in cases in which existing baselines cannot make any meaningful progress. It also decreases the curriculum length and reduces the variance in the curriculum generation process by up to one-fourth and four orders of magnitude, respectively.
翻訳日:2023-05-29 17:57:42 公開日:2023-05-25
# オープンソース大規模言語モデルのツール操作能力について

On the Tool Manipulation Capability of Open-source Large Language Models ( http://arxiv.org/abs/2305.16504v1 )

ライセンス: Link先を確認
Qiantong Xu, Fenglu Hong, Bo Li, Changran Hu, Zhengyu Chen, Jian Zhang(参考訳) 大規模言語モデル(LLM)を用いたソフトウェアツール操作に関する最近の研究は、主にクローズドモデルAPIに依存している。 これらのモデルの産業的採用は、閉じたLLM APIサービスに情報を公開する際のセキュリティと堅牢性リスクにより、かなり制約されている。 本稿では,オープンソース LLM をツール操作においてクローズド LLM API に競争力を持たせるために,実用的量の人的監督によって拡張できるかを問う。 一般的なツール操作障害を解析することにより、まずオープンソースのLCMは、障害を解決するために、使用例、コンテキスト内デモ、生成スタイルのトレーニングを必要とすることを実証する。 これらの知見は,LLM文献の古典的手法を再検討する動機となり,プログラムデータ生成やシステムプロンプト,テキスト内デモレトリバーとモデルアライメントして,ツール操作のためのオープンソース LLM を拡張できることを実証する。 これらの技術を評価するために、現実世界のタスクのための多様なソフトウェアツールからなるツール操作ベンチマークであるToolBenchを開発した。 当社の技術がオープンソースllmのリードを最大90%の成功率で向上させることを実証し,8つのツールベンチタスクのうち4つでopenai gpt-4に匹敵する能力を示した。 このような拡張は、通常、各ツールのデータキュレーションに約1人の開発者デーが必要であり、実用的な人間の監督によってレシピをレンダリングする。

Recent studies on software tool manipulation with large language models (LLMs) mostly rely on closed model APIs. The industrial adoption of these models is substantially constrained due to the security and robustness risks in exposing information to closed LLM API services. In this paper, we ask can we enhance open-source LLMs to be competitive to leading closed LLM APIs in tool manipulation, with practical amount of human supervision. By analyzing common tool manipulation failures, we first demonstrate that open-source LLMs may require training with usage examples, in-context demonstration and generation style regulation to resolve failures. These insights motivate us to revisit classical methods in LLM literature, and demonstrate that we can adapt them as model alignment with programmatic data generation, system prompts and in-context demonstration retrievers to enhance open-source LLMs for tool manipulation. To evaluate these techniques, we create the ToolBench, a tool manipulation benchmark consisting of diverse software tools for real-world tasks. We demonstrate that our techniques can boost leading open-source LLMs by up to 90% success rate, showing capabilities competitive to OpenAI GPT-4 in 4 out of 8 ToolBench tasks. We show that such enhancement typically requires about one developer day to curate data for each tool, rendering a recipe with practical amount of human supervision.
翻訳日:2023-05-29 17:57:26 公開日:2023-05-25
# IMBERT:BERTをインストールベースのバックドア攻撃に免疫させる

IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks ( http://arxiv.org/abs/2305.16503v1 )

ライセンス: Link先を確認
Xuanli He, Jun Wang, Benjamin Rubinstein, Trevor Cohn(参考訳) バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。 管理者はトレーニングフェーズにトリガーを挿入することで、妥協したモデルの予測を操作することができる。 クリーン入力のモデル予測に影響を与えることなく、ほぼ完璧な攻撃成功を達成できる様々なバックドア攻撃が考案されている。 このような脆弱性を緩和する手段は、特に自然言語処理において未開発である。 このギャップを埋めるために、IMBERTを導入する。これは、被害者モデルから得られた勾配または自己注意スコアを用いて、推論時にバックドア攻撃に対する自己防衛を行う。 我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。 これにより、広範囲にわたる挿入ベース攻撃において、2つのベースラインと比較してクリーンデータセットの競合精度を保ちながら、攻撃成功率を大幅に低減することができる。 最後に,本手法はモデル非依存であり,事前学習したトランスフォーマーモデルへの移植が容易であることを示す。

Backdoor attacks are an insidious security threat against machine learning models. Adversaries can manipulate the predictions of compromised models by inserting triggers into the training phase. Various backdoor attacks have been devised which can achieve nearly perfect attack success without affecting model predictions for clean inputs. Means of mitigating such vulnerabilities are underdeveloped, especially in natural language processing. To fill this gap, we introduce IMBERT, which uses either gradients or self-attention scores derived from victim models to self-defend against backdoor attacks at inference time. Our empirical studies demonstrate that IMBERT can effectively identify up to 98.5% of inserted triggers. Thus, it significantly reduces the attack success rate while attaining competitive accuracy on the clean dataset across widespread insertion-based attacks compared to two baselines. Finally, we show that our approach is model-agnostic, and can be easily ported to several pre-trained transformer models.
翻訳日:2023-05-29 17:57:03 公開日:2023-05-25
# 未知のパーソナライズドマニピュレーションによる戦略分類

Strategic Classification under Unknown Personalized Manipulation ( http://arxiv.org/abs/2305.16501v1 )

ライセンス: Link先を確認
Han Shao, Avrim Blum, Omar Montasser(参考訳) 戦略分類における基本的なミスバウンドとサンプルの複雑さについて検討し、エージェントは正と予測するために、その特徴ベクトルをある程度戦略的に操作することができる。 例えば、大学の入学を決定づける分類器がある場合、生徒の候補者は、gpaを改善するための簡単な授業を受け、satを取得し、分類器を騙すために学校を変更しようとする。 ボール操作は文献で広く研究されている操作のクラスであり、エージェントは境界半径ボール内で特徴ベクトルを修正できる。 従来の作業とは異なり、操作はパーソナライズされたものであり、エージェントは異なるレベルの操作能力(例えば、ボール操作のラジイの変化)を持ち、学習者には未知である。 学習者が最初に分類器をデプロイし、エージェントが操作セット内の特徴ベクトルを操作して展開された分類器をゲームする相互作用モデルで学習問題を形式化する。 本研究では,対話中に学習者が利用できる情報,例えば,初期特徴ベクトルの観察,操作済み特徴ベクトルの観察,あるいは原特徴ベクトルと操作済み特徴ベクトルの視認など,様々なシナリオについて検討する。 まず、ボール操作のシナリオにおいて、オンラインのミスバウンドとPACサンプルの複雑さを提供することから始める。 また, 対象関数が既知のクラス $\mathcal{h}$ に属する場合, 元のベクトルと操作された特徴ベクトルの両方が現れる最も単純なシナリオであっても, 誤差境界とサンプル複雑性は$\omega(|\mathcal{h}|)$ で限定されることを示した。

We study the fundamental mistake bound and sample complexity in the strategic classification, where agents can strategically manipulate their feature vector up to an extent in order to be predicted as positive. For example, given a classifier determining college admission, student candidates may try to take easier classes to improve their GPA, retake SAT and change schools in an effort to fool the classifier. Ball manipulations are a widely studied class of manipulations in the literature, where agents can modify their feature vector within a bounded radius ball. Unlike most prior work, our work considers manipulations to be personalized, meaning that agents can have different levels of manipulation abilities (e.g., varying radii for ball manipulations), and unknown to the learner. We formalize the learning problem in an interaction model where the learner first deploys a classifier and the agent manipulates the feature vector within their manipulation set to game the deployed classifier. We investigate various scenarios in terms of the information available to the learner during the interaction, such as observing the original feature vector before or after deployment, observing the manipulated feature vector, or not seeing either the original or the manipulated feature vector. We begin by providing online mistake bounds and PAC sample complexity in these scenarios for ball manipulations. We also explore non-ball manipulations and show that, even in the simplest scenario where both the original and the manipulated feature vectors are revealed, the mistake bounds and sample complexity are lower bounded by $\Omega(|\mathcal{H}|)$ when the target function belongs to a known class $\mathcal{H}$.
翻訳日:2023-05-29 17:56:46 公開日:2023-05-25
# コヒーレントなソフト模倣学習

Coherent Soft Imitation Learning ( http://arxiv.org/abs/2305.16498v1 )

ライセンス: Link先を確認
Joe Watson, Sandy H. Huang, Nicholas Heess(参考訳) 模倣学習法は、政策の行動クローニング(bc)または報酬の逆強化学習(irl)を通して専門家から学ぶことを求める。 このような方法でエージェントは、手作りの報酬機能でキャプチャが難しい人間から複雑なタスクを学習することができる。 BC または IRL の模倣の選択は、デモの質と状態対応のカバレッジと、マルコフの決定プロセスへの追加アクセスに依存する。 bcとirlを組み合わせたハイブリッド戦略は一般的ではなく、不正確な報酬に対する初期政策最適化は、bcによる政策の事前訓練の利点を減少させる。 この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。 エントロピー正規化(ソフト)強化学習設定では、正規化ポリシー更新を反転させることで、行動制限されたポリシーを形見賞と批判的仮説空間の両方として使用できることを示す。 このコヒーレンシー設備は、報酬推定と環境との付加的な相互作用を用いて、クローン化されたポリシーを微調整する。 このアプローチは、初期動作のクローン化を通じて模倣学習を便利に達成し、続いてオンラインまたはオフラインのデータソースによるRLによる改善を行う。 このアプローチの単純さは、敵対的なアプローチとは対照的に、安定した学習と最小限のハイパーパラメータチューニングによって、高次元および視覚ベースのタスクへの優雅なスケーリングを可能にする。

Imitation learning methods seek to learn from an expert either through behavioral cloning (BC) of the policy or inverse reinforcement learning (IRL) of the reward. Such methods enable agents to learn complex tasks from humans that are difficult to capture with hand-designed reward functions. Choosing BC or IRL for imitation depends on the quality and state-action coverage of the demonstrations, as well as additional access to the Markov decision process. Hybrid strategies that combine BC and IRL are not common, as initial policy optimization against inaccurate rewards diminishes the benefit of pretraining the policy with BC. This work derives an imitation method that captures the strengths of both BC and IRL. In the entropy-regularized ('soft') reinforcement learning setting, we show that the behaviour-cloned policy can be used as both a shaped reward and a critic hypothesis space by inverting the regularized policy update. This coherency facilities fine-tuning cloned policies using the reward estimate and additional interactions with the environment. This approach conveniently achieves imitation learning through initial behaviour cloning, followed by refinement via RL with online or offline data sources. The simplicity of the approach enables graceful scaling to high-dimensional and vision-based tasks, with stable learning and minimal hyperparameter tuning, in contrast to adversarial approaches.
翻訳日:2023-05-29 17:56:17 公開日:2023-05-25
# AD-NEV:多変量異常検出のためのスケーラブル多段階神経進化フレームワーク

AD-NEV: A Scalable Multi-level Neuroevolution Framework for Multivariate Anomaly Detection ( http://arxiv.org/abs/2305.16497v1 )

ライセンス: Link先を確認
Marcin Pietron, Dominik Zurek, Kamil Faber, Roberto Corizzo(参考訳) 異常検出ツールと手法は、現代のサイバー物理学および故障予測システムにおいて重要な能力を示す。 異常検出のためのディープラーニングアーキテクチャの急速な発展にもかかわらず、与えられたデータセットのモデル最適化は面倒で時間のかかるプロセスである。 神経進化は、勾配と非勾配の微調整の両方をサポートする最適なニューラルネットワークを学習するための完全自動化された探索法として、この問題に効果的で効率的な解決策となり得る。 しかし、既存の手法は主に機能部分空間やモデルの重みを考慮せずにモデルアーキテクチャを最適化することに焦点を当てている。 本研究では,多変量時系列異常検出のためのスケーラブルな多段階最適化ニューロ進化フレームワークであるAnomaly Detection Neuroevolution (AD-NEv)を提案する。 この方法は、相乗的に新しいアプローチを示す。 一 バンジ技術に基づくアンサンブルモデルのための特徴部分空間の最適化 二 単一異常検出モデルのモデルアーキテクチャを最適化すること。 三 ネットワーク重量の緩やかな微調整を行うこと。 広く採用されている多変量異常検出ベンチマークデータセットの広範な実験的評価は、AD-NEvによって抽出されたモデルが、異常検出のためによく知られたディープラーニングアーキテクチャより優れていることを示している。 さらに、AD-NEvはプロセス全体を効率的に実行でき、複数のGPUが利用可能な場合に高いスケーラビリティを示す。

Anomaly detection tools and methods present a key capability in modern cyberphysical and failure prediction systems. Despite the fast-paced development in deep learning architectures for anomaly detection, model optimization for a given dataset is a cumbersome and time consuming process. Neuroevolution could be an effective and efficient solution to this problem, as a fully automated search method for learning optimal neural networks, supporting both gradient and non-gradient fine tuning. However, existing methods mostly focus on optimizing model architectures without taking into account feature subspaces and model weights. In this work, we propose Anomaly Detection Neuroevolution (AD-NEv) - a scalable multi-level optimized neuroevolution framework for multivariate time series anomaly detection. The method represents a novel approach to synergically: i) optimize feature subspaces for an ensemble model based on the bagging technique; ii) optimize the model architecture of single anomaly detection models; iii) perform non-gradient fine-tuning of network weights. An extensive experimental evaluation on widely adopted multivariate anomaly detection benchmark datasets shows that the models extracted by AD-NEv outperform well-known deep learning architectures for anomaly detection. Moreover, results show that AD-NEv can perform the whole process efficiently, presenting high scalability when multiple GPUs are available.
翻訳日:2023-05-29 17:55:55 公開日:2023-05-25
# 神経波関数学習のためのスコアベースモデル

A Score-Based Model for Learning Neural Wavefunctions ( http://arxiv.org/abs/2305.16540v1 )

ライセンス: Link先を確認
Xuan Zhang, Shenglong Xu, Shuiwang Ji(参考訳) 量子モンテカルロとニューラルネットワークの波動関数は、量子多体系の基底状態の計算に成功している。 既存の最適化手法は、波動関数によって与えられる明示的な確率分布から局所エネルギーをサンプリングすることでエネルギーを計算する。 本研究では,スコアベースニューラルネットワークを用いて,量子多体基底状態の特性を得るための新しい最適化フレームワークを提案する。 新しいフレームワークは明示的な確率分布を必要とせず,langevin dynamicsによるサンプリングを行う。 本手法は局所エネルギーが対数波動関数の勾配として定義されるスコアと直接関連しているというキー観測に基づいている。 スコアマッチングと拡散モンテカルロ法にインスパイアされ、スコアベースモデルを基底状態に正しく収束させるための重み付けされたスコアマッチング目的を導出する。 まず,量子調和トラップ実験を行い,原子系の基底状態を正確に学習できることを示す。 高次元データ分布を暗黙的にモデル化することで、我々の研究は量子システムのより効率的な表現へと道を開く。

Quantum Monte Carlo coupled with neural network wavefunctions has shown success in computing ground states of quantum many-body systems. Existing optimization approaches compute the energy by sampling local energy from an explicit probability distribution given by the wavefunction. In this work, we provide a new optimization framework for obtaining properties of quantum many-body ground states using score-based neural networks. Our new framework does not require explicit probability distribution and performs the sampling via Langevin dynamics. Our method is based on the key observation that the local energy is directly related to scores, defined as the gradient of the logarithmic wavefunction. Inspired by the score matching and diffusion Monte Carlo methods, we derive a weighted score matching objective to guide our score-based models to converge correctly to ground states. We first evaluate our approach with experiments on quantum harmonic traps, and results show that it can accurately learn ground states of atomic systems. By implicitly modeling high-dimensional data distributions, our work paves the way toward a more efficient representation of quantum systems.
翻訳日:2023-05-29 17:49:43 公開日:2023-05-25
# コントラスト学習で学ぶ特徴は何か? クラス崩壊と特徴抑制における単純バイアスの役割について

Which Features are Learnt by Contrastive Learning? On the Role of Simplicity Bias in Class Collapse and Feature Suppression ( http://arxiv.org/abs/2305.16536v1 )

ライセンス: Link先を確認
Yihao Xue, Siddharth Joshi, Eric Gan, Pin-Yu Chen, Baharan Mirzasoleiman(参考訳) コントラスト学習(CL)は,ラベル管理の有無に関わらず,表現学習の強力な技術として登場した。 しかし、教師付きclはクラス内のサブクラスの表現を壊しがちであり、教師なしclはクラスに関係のない簡単な特徴を学ぶことに集中することで、難しいクラス関連機能を抑制する可能性がある。 しかし、 \textit{class collapse} や \textit{feature suppression} を \textit{test} 時に理論的に理解することはできない。 CL によって学習される \textit{which} 特徴を決定するための,理論的に厳密な最初の統一フレームワークを提供する。 我々の分析は、おそらく、より単純な解を見つけるための(確率的な)勾配勾配のバイアスが、サブクラス表現の崩壊と、より厳しいクラス関連特徴の抑制の鍵となることを示唆している。 さらに, 埋め込み次元の増大とデータ拡張の質の向上を理論的に動機づけた2つの方法として提示する。 また, 教師付きCLと教師なしCLを併用することで, 一般に用いられている確率勾配法を用いても, 高品質な表現が得られる理由を理論的に説明する。

Contrastive learning (CL) has emerged as a powerful technique for representation learning, with or without label supervision. However, supervised CL is prone to collapsing representations of subclasses within a class by not capturing all their features, and unsupervised CL may suppress harder class-relevant features by focusing on learning easy class-irrelevant features; both significantly compromise representation quality. Yet, there is no theoretical understanding of \textit{class collapse} or \textit{feature suppression} at \textit{test} time. We provide the first unified theoretically rigorous framework to determine \textit{which} features are learnt by CL. Our analysis indicate that, perhaps surprisingly, bias of (stochastic) gradient descent towards finding simpler solutions is a key factor in collapsing subclass representations and suppressing harder class-relevant features. Moreover, we present increasing embedding dimensionality and improving the quality of data augmentations as two theoretically motivated solutions to {feature suppression}. We also provide the first theoretical explanation for why employing supervised and unsupervised CL together yields higher-quality representations, even when using commonly-used stochastic gradient methods.
翻訳日:2023-05-29 17:49:26 公開日:2023-05-25
# ベクトル値変動空間とDNNの幅境界:重み減衰規則化に関する考察

Vector-Valued Variation Spaces and Width Bounds for DNNs: Insights on Weight Decay Regularization ( http://arxiv.org/abs/2305.16534v1 )

ライセンス: Link先を確認
Joseph Shenouda, Rahul Parhi, Kangwook Lee, Robert D. Nowak(参考訳) 損失項の最小化と勾配勾配勾配による2乗重みの和を訓練するディープニューラルネットワーク(DNN)は、重量減衰を伴うトレーニングの一般的なアプローチに対応する。 本稿では,この共通学習フレームワークに関する新たな知見を提供する。 マルチアウトプット(ベクトル値)ReLUニューラルネットワークの重み付けによるトレーニングによって学習される関数の種類を特徴付ける。 これにより、単一出力(スカラー値)ネットワークに制限された以前の特性が拡張される。 この特徴付けには、ベクトル値変動(VV)空間と呼ばれる新しい神経機能空間の定義が必要である。 ニューラルネットワーク(NN)が,VV空間上の学習問題に対する新しい表現定理による最適解であることを示す。 この新しいrepresenter定理は、これらの学習問題の解が、トレーニングデータ数で区切られた幅を持つベクトル値ニューラルネットワークとして存在することを示している。 次に、マルチタスクラッソ問題への新たな接続を通じて、DNNにおける同質層の幅に、より厳密な境界を導出する。 境界は、トレーニングデータの層内/層内への埋め込みの有効次元によって決定される。 この結果、DNNのアーキテクチャ要件に新たな光を当てることになる。 最後に、マルチタスクラッソ問題への接続は、事前訓練されたネットワークを圧縮する新しいアプローチを示唆している。

Deep neural networks (DNNs) trained to minimize a loss term plus the sum of squared weights via gradient descent corresponds to the common approach of training with weight decay. This paper provides new insights into this common learning framework. We characterize the kinds of functions learned by training with weight decay for multi-output (vector-valued) ReLU neural networks. This extends previous characterizations that were limited to single-output (scalar-valued) networks. This characterization requires the definition of a new class of neural function spaces that we call vector-valued variation (VV) spaces. We prove that neural networks (NNs) are optimal solutions to learning problems posed over VV spaces via a novel representer theorem. This new representer theorem shows that solutions to these learning problems exist as vector-valued neural networks with widths bounded in terms of the number of training data. Next, via a novel connection to the multi-task lasso problem, we derive new and tighter bounds on the widths of homogeneous layers in DNNs. The bounds are determined by the effective dimensions of the training data embeddings in/out of the layers. This result sheds new light on the architectural requirements for DNNs. Finally, the connection to the multi-task lasso problem suggests a new approach to compressing pre-trained networks.
翻訳日:2023-05-29 17:49:07 公開日:2023-05-25
# 政策蒸留を用いた深層強化学習モデルのための実例記述フレームワーク

Counterfactual Explainer Framework for Deep Reinforcement Learning Models Using Policy Distillation ( http://arxiv.org/abs/2305.16532v1 )

ライセンス: Link先を確認
Amir Samadi, Konstantinos Koufos and Mehrdad Dianati(参考訳) 深層強化学習(DRL)は複雑な制御問題を解く上で有望な能力を示した。 しかし、安全クリティカルなシステムにおけるDRLの応用は、そのようなアプリケーションの性能を保証するための堅牢な検証技術が固有の欠如によって妨げられている。 検証プロセスの重要な要件の1つは、システム機能を説明する効果的な技術、すなわちシステムが特定の状況で特定の結果を生成する理由の開発である。 近年,DRLにおける説明問題に対処するために,対実的(CF)説明法に基づく解釈手法が提案されている。 本稿では,ブラックボックスDRLによる決定を説明するための新しいCF説明フレームワークを提案する。 提案手法の有効性を評価するため,自動走行システムおよびatari pongゲームの分野で,いくつかの実験を行った。 本分析は,DRLの深い基盤となる様々な決定に対して,提案手法が妥当かつ有意義に説明できることを示す。 ソースコードは: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}

Deep Reinforcement Learning (DRL) has demonstrated promising capability in solving complex control problems. However, DRL applications in safety-critical systems are hindered by the inherent lack of robust verification techniques to assure their performance in such applications. One of the key requirements of the verification process is the development of effective techniques to explain the system functionality, i.e., why the system produces specific results in given circumstances. Recently, interpretation methods based on the Counterfactual (CF) explanation approach have been proposed to address the problem of explanation in DRLs. This paper proposes a novel CF explanation framework to explain the decisions made by a black-box DRL. To evaluate the efficacy of the proposed explanation framework, we carried out several experiments in the domains of automated driving systems and Atari Pong game. Our analysis demonstrates that the proposed framework generates plausible and meaningful explanations for various decisions made by deep underlying DRLs. Source codes are available at: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}
翻訳日:2023-05-29 17:48:48 公開日:2023-05-25
# 不確実性定量化のためのbi-fidelity variational auto-encoder

Bi-fidelity Variational Auto-encoder for Uncertainty Quantification ( http://arxiv.org/abs/2305.16530v1 )

ライセンス: Link先を確認
Nuojin Cheng, Osman Asif Malik, Stephen Becker, Alireza Doostan(参考訳) 物理システムからの関心量の不確実性(qois)の定量化はモデル検証の主要な目的である。 しかし、この目標を達成するには、計算効率と数値精度の要求のバランスをとる必要がある。 このトレードオフに対処するために,QoIの低忠実度(LF)と高忠実度(HF)サンプルからQoIに関連する不確かさを推定するために,変分オートエンコーダ(BF-VAE)の2次元定式化を提案する。 このモデルにより、LFから派生した情報を活用することで、HF QoIの統計量の近似が可能になる。 具体的には,VAEの確率的エンコーダ・デコーダ構造に組み込まれた2次元自己回帰モデルの設計を行う。 限られたHFデータが存在する場合のHFログの変動的下界を最大化するために有効なアルゴリズムが提案され、計算コストを低減したHFの実現が実現された。 さらに,提案するbf-vaeモデルの情報理論的解釈を行うために,bi-fidelity information bottleneck (bf-ib)の概念を導入する。 その結果,制限hfデータのみを用いて訓練したvaeと比較して,bf-vaeは精度が大幅に向上することが示された。

Quantifying the uncertainty of quantities of interest (QoIs) from physical systems is a primary objective in model validation. However, achieving this goal entails balancing the need for computational efficiency with the requirement for numerical accuracy. To address this trade-off, we propose a novel bi-fidelity formulation of variational auto-encoders (BF-VAE) designed to estimate the uncertainty associated with a QoI from low-fidelity (LF) and high-fidelity (HF) samples of the QoI. This model allows for the approximation of the statistics of the HF QoI by leveraging information derived from its LF counterpart. Specifically, we design a bi-fidelity auto-regressive model in the latent space that is integrated within the VAE's probabilistic encoder-decoder structure. An effective algorithm is proposed to maximize the variational lower bound of the HF log-likelihood in the presence of limited HF data, resulting in the synthesis of HF realizations with a reduced computational cost. Additionally, we introduce the concept of the bi-fidelity information bottleneck (BF-IB) to provide an information-theoretic interpretation of the proposed BF-VAE model. Our numerical results demonstrate that BF-VAE leads to considerably improved accuracy, as compared to a VAE trained using only HF data when limited HF data is available.
翻訳日:2023-05-29 17:48:33 公開日:2023-05-25
# トポロジカルフォトニクス : 基本概念,最近の展開,今後の方向性

Topological photonics: fundamental concepts, recent developments, and future directions ( http://arxiv.org/abs/2305.16528v1 )

ライセンス: Link先を確認
Mahmoud Jalali Mehrabad, Sunil Mittal, Mohammad Hafezi(参考訳) トポロジカルフォトニクスは古典的および量子フォトニクスアーキテクチャの開発のための新しいパラダイムとして登場しつつある。 トポロジカルフォトニクスを著しく興味深いものにしているのは、光伝播の固有の一方向性と同様に内蔵された保護である。 本稿では,トポロジカルフォトニクスの基本概念について,直観的かつ簡潔に概観する。 次に,この分野の主要な活動領域の最近の発展を,線形,非線形,量子的なレジームに分類した。 各節では,現在および今後の方向性の両面について論じるとともに,フォトニクスシステムにおけるトポロジカルな考え方の実装に関する課題や解明的な疑問について述べる。

Topological photonics is emerging as a new paradigm for the development of both classical and quantum photonic architectures. What makes topological photonics remarkably intriguing is the built-in protection as well as intrinsic unidirectionality of light propagation, which originates from the robustness of global topological invariants. In this Perspective, we present an intuitive and concise pedagogical overview of fundamental concepts in topological photonics. Then, we review the recent developments of the main activity areas of this field, categorized into linear, nonlinear, and quantum regimes. For each section, we discuss both current and potential future directions, as well as remaining challenges and elusive questions regarding the implementation of topological ideas in photonics systems.
翻訳日:2023-05-29 17:48:07 公開日:2023-05-25
# 回帰調整制御はいつ助けになるのか? 希少事象、ソボレフ埋め込みとミニマックス最適性

When can Regression-Adjusted Control Variates Help? Rare Events, Sobolev Embedding and Minimax Optimality ( http://arxiv.org/abs/2305.16527v1 )

ライセンス: Link先を確認
Jose Blanchet, Haoxuan Chen, Yiping Lu, Lexing Ying(参考訳) 本稿では,モンテカルロサンプリングの分散を緩和する制御変数として,機械学習に基づく推定器の利用について検討する。 具体的には,制御効率に影響を及ぼす要因を解明し,分散の低減を図る。 本研究では,(ランダム)四次ノードから得られた観測に基づいて,ソボレフ関数のモーメントをシミュレーションするプロトタイプ推定問題を検討する。 まず,この問題に対する情報理論上の下界を確立する。 次に、モンテカルロシミュレーションのばらつきを低減するために、非パラメトリック回帰調整制御バリアイトを用いた特定の二次規則を研究する。 この種の二次規則はモンテカルロ率を向上し、十分滑らかな仮定の下でミニマックス最適率を達成することを実証する。 ソボレフ埋め込み定理により、十分な滑らかさの仮定は希少かつ極端な事象の存在を排除する。 最後に, 希少かつ極端な事象が存在する場合, モンテカルロアルゴリズムの停止版は最小最大最適速度を達成できるが, 制御変数は収束率を向上できないことを示した。

This paper studies the use of a machine learning-based estimator as a control variate for mitigating the variance of Monte Carlo sampling. Specifically, we seek to uncover the key factors that influence the efficiency of control variates in reducing variance. We examine a prototype estimation problem that involves simulating the moments of a Sobolev function based on observations obtained from (random) quadrature nodes. Firstly, we establish an information-theoretic lower bound for the problem. We then study a specific quadrature rule that employs a nonparametric regression-adjusted control variate to reduce the variance of the Monte Carlo simulation. We demonstrate that this kind of quadrature rule can improve the Monte Carlo rate and achieve the minimax optimal rate under a sufficient smoothness assumption. Due to the Sobolev Embedding Theorem, the sufficient smoothness assumption eliminates the existence of rare and extreme events. Finally, we show that, in the presence of rare and extreme events, a truncated version of the Monte Carlo algorithm can achieve the minimax optimal rate while the control variate cannot improve the convergence rate.
翻訳日:2023-05-29 17:47:53 公開日:2023-05-25
# 説明可能なブースティングマシンを科学画像データに拡張する

Extending Explainable Boosting Machines to Scientific Image Data ( http://arxiv.org/abs/2305.16526v1 )

ライセンス: Link先を確認
Daniel Schug, Sai Yerramreddy, Rich Caruana, Craig Greenberg, and Justyna P. Zwolak(参考訳) 医学や科学といった結果の応用においてコンピュータビジョン技術の展開が一般化するにつれて、システム出力の説明の必要性が大きな関心事となっている。 残念ながら、最先端のコンピュータビジョンモデルの多くは不透明であり、説明の観点からの使用を困難にしており、不透明なモデルを説明する現在のアプローチは極めて制限があり、深刻な批判の対象となっている。 対照的に、説明可能なブースティングマシン(ebms)は、非常に優れたパフォーマンスモデルと同等の性能を解釈し達成しやすいモデルのクラスであるが、現在までebmは表データのみに限定されている。 科学における解釈可能なモデルの必要性が高まる中、ebmを科学的画像データに利用することを提案する。 量子技術の発展を支える重要な応用に触発されて、冷たい原子のソリトン画像データにebmsを適用し、その際に初めて画像データに対するebmsを実証する。 画像データの表化には,データの空間構造を保存するガボールウェーブレット変換を用いた手法を用いる。 提案手法は,画像の最先端説明可能性手法よりも優れた説明を提供する。

As the deployment of computer vision technology becomes increasingly common in applications of consequence such as medicine or science, the need for explanations of the system output has become a focus of great concern. Unfortunately, many state-of-the-art computer vision models are opaque, making their use challenging from an explanation standpoint, and current approaches to explaining these opaque models have stark limitations and have been the subject of serious criticism. In contrast, Explainable Boosting Machines (EBMs) are a class of models that are easy to interpret and achieve performance on par with the very best-performing models, however, to date EBMs have been limited solely to tabular data. Driven by the pressing need for interpretable models in science, we propose the use of EBMs for scientific image data. Inspired by an important application underpinning the development of quantum technologies, we apply EBMs to cold-atom soliton image data, and, in doing so, demonstrate EBMs for image data for the first time. To tabularize the image data we employ Gabor Wavelet Transform-based techniques that preserve the spatial structure of the data. We show that our approach provides better explanations than other state-of-the-art explainability methods for images.
翻訳日:2023-05-29 17:47:35 公開日:2023-05-25
# ゼロショットテキスト分類のためのラベル非依存事前学習

Label Agnostic Pre-training for Zero-shot Text Classification ( http://arxiv.org/abs/2305.16521v1 )

ライセンス: Link先を確認
Christopher Clarke, Yuzhao Heng, Yiping Kang, Krisztian Flautner, Lingjia Tang and Jason Mars(参考訳) 従来のテキスト分類のアプローチでは、通常、所定のテキストを分類できる予め定義されたラベルの固定セットの存在を仮定している。 しかし、現実世界の応用では、与えられたテキストを記述するための無限ラベル空間が存在する。 また、テキストのアスペクト(強調、話題等)やドメイン(財務、法律等)によって、ラベルの解釈は大きく異なる。 これはテキスト分類、特にゼロショットシナリオのタスクを非常に困難にしている。 本稿では,事前学習された言語モデル(PLM)を,様々な側面や領域にまたがって,目に見えないデータに一般化する能力の向上を目的として,ゼロショットテキスト分類の課題について検討する。 これを解決するために、ImplicitとExplicitの2つの新しい簡易かつ効果的な事前学習戦略を導入する。 これらのメソッドは、タスクレベルの理解を構築するためにモデルを条件付けすることを目的として、列車時のモデルにアスペクトレベルの理解を注入します。 これを評価するために、ゼロショット設定でテキスト分類を評価するための新しいベンチマークデータセットUTCDを構築し、リリースする。 UTCDによる実験結果から,ゼロショット形式化の配列にまたがる難解なデータセットの集合に対するゼロショット一般化の改善が得られた。

Conventional approaches to text classification typically assume the existence of a fixed set of predefined labels to which a given text can be classified. However, in real-world applications, there exists an infinite label space for describing a given text. In addition, depending on the aspect (sentiment, topic, etc.) and domain of the text (finance, legal, etc.), the interpretation of the label can vary greatly. This makes the task of text classification, particularly in the zero-shot scenario, extremely challenging. In this paper, we investigate the task of zero-shot text classification with the aim of improving the ability of pre-trained language models (PLMs) to generalize to both seen and unseen data across varying aspects and domains. To solve this we introduce two new simple yet effective pre-training strategies, Implicit and Explicit pre-training. These methods inject aspect-level understanding into the model at train time with the goal of conditioning the model to build task-level understanding. To evaluate this, we construct and release UTCD, a new benchmark dataset for evaluating text classification in zero-shot settings. Experimental results on UTCD show that our approach achieves improved zero-shot generalization on a suite of challenging datasets across an array of zero-shot formalizations.
翻訳日:2023-05-29 17:47:15 公開日:2023-05-25
# 確率的パロットを信頼する危険--オープンドメイン会話質問回答における信条と信頼-

The Dangers of trusting Stochastic Parrots: Faithfulness and Trust in Open-domain Conversational Question Answering ( http://arxiv.org/abs/2305.16519v1 )

ライセンス: Link先を確認
Sabrina Chiesurin, Dimitris Dimakopoulos, Marco Antonio Sobrevilla Cabezudo, Arash Eshghi, Ioannis Papaioannou, Verena Rieser, Ioannis Konstas(参考訳) 大規模言語モデルは、流動的で説得力のある出力を生成することが知られているが、知識ベースから得られる理性に関して「不信」などはしばしば誤りである。 本稿では,語彙的アライメント(ユーザが言ったことを繰り返す)など,ある種の高度な言語対話行動を示すタスクベースシステムの方が,実際に望ましいこと,信頼度が高いこと,代名詞やエリプシスなどの現象が好ましくないこと,などを示す。 我々は,タスクベースダイアログ生成のためのテストベッドとしてオープンドメイン質問応答システムを使用し,オープンドメインとクローズドブックのモデルを比較した。 この結果から,不誠実な応答を提供しながらユーザの入力を傍受することで,信頼に値するシステムの可能性を強調した。

Large language models are known to produce output which sounds fluent and convincing, but is also often wrong, e.g. "unfaithful" with respect to a rationale as retrieved from a knowledge base. In this paper, we show that task-based systems which exhibit certain advanced linguistic dialog behaviors, such as lexical alignment (repeating what the user said), are in fact preferred and trusted more, whereas other phenomena, such as pronouns and ellipsis are dis-preferred. We use open-domain question answering systems as our test-bed for task based dialog generation and compare several open- and closed-book models. Our results highlight the danger of systems that appear to be trustworthy by parroting user input while providing an unfaithful response.
翻訳日:2023-05-29 17:46:56 公開日:2023-05-25
# 構造化変分オートエンコーダの再検討

Revisiting Structured Variational Autoencoders ( http://arxiv.org/abs/2305.16543v1 )

ライセンス: Link先を確認
Yixiu Zhao, Scott W. Linderman(参考訳) 構造化変分オートエンコーダ(svaes)は、潜在変数の確率的グラフィカルモデルプリアーと、観測データに潜在変数をリンクするディープニューラルネットワークと、近似後続推定のための構造展開アルゴリズムを組み合わせた。 これらのモデルは、前者が一時的な依存関係をキャプチャできるシーケンシャルデータに特に魅力的である。 しかし、その概念的優越性にもかかわらず、SVAEは実装が困難であることが証明され、より一般的なアプローチが実際に好まれている。 ここでは、現代の機械学習ツールを使用してSVAEを再検討し、精度と効率の両面で、より一般的な選択肢よりも優位性を示す。 まず,sveeのコアであるメッセージパッシングアルゴリズムの,ハードウェアアクセラレーション,並列化,自動微分のための現代的な実装を開発する。 第2に, SVAE は事前構造を利用して, より正確なモデルと後部分布を学習し, 予測タスクの性能向上を図っている。 第三に、SVAEが自然に欠落したデータを処理できることを示し、この能力を活用して、新しい自己教師型トレーニングアプローチを開発する。 これらの結果は、構造化変分オートエンコーダを再検討する時間が熟していることを示している。

Structured variational autoencoders (SVAEs) combine probabilistic graphical model priors on latent variables, deep neural networks to link latent variables to observed data, and structure-exploiting algorithms for approximate posterior inference. These models are particularly appealing for sequential data, where the prior can capture temporal dependencies. However, despite their conceptual elegance, SVAEs have proven difficult to implement, and more general approaches have been favored in practice. Here, we revisit SVAEs using modern machine learning tools and demonstrate their advantages over more general alternatives in terms of both accuracy and efficiency. First, we develop a modern implementation for hardware acceleration, parallelization, and automatic differentiation of the message passing algorithms at the core of the SVAE. Second, we show that by exploiting structure in the prior, the SVAE learns more accurate models and posterior distributions, which translate into improved performance on prediction tasks. Third, we show how the SVAE can naturally handle missing data, and we leverage this ability to develop a novel, self-supervised training approach. Altogether, these results show that the time is ripe to revisit structured variational autoencoders.
翻訳日:2023-05-29 17:36:49 公開日:2023-05-25
# プライバシーを意識したガウス過程回帰

Privacy-aware Gaussian Process Regression ( http://arxiv.org/abs/2305.16541v1 )

ライセンス: Link先を確認
Rui Tuo, Raktim Bhattacharya(参考訳) プライバシー制約を考慮したガウス過程回帰の理論的および方法論的枠組みを提案する。 提案手法は,プライバシ上の懸念からデータから構築した忠実度の高い教師付き学習モデルを,データ所有者が共有しない場合に使用可能である。 提案手法の鍵となる考え方は,ガウス過程モデルの予測分散が所定のプライバシーレベルに達するまで,データに合成ノイズを加えることである。 合成雑音の最適共分散行列は半定値計画法で定式化される。 また,カーネルベースの手法を用いて,継続的なプライバシー制約下でのプライバシアウェアソリューションの定式化を行い,その理論的性質について検討する。 提案手法は,衛星の軌道を追跡するモデルを検討することで示される。

We propose the first theoretical and methodological framework for Gaussian process regression subject to privacy constraints. The proposed method can be used when a data owner is unwilling to share a high-fidelity supervised learning model built from their data with the public due to privacy concerns. The key idea of the proposed method is to add synthetic noise to the data until the predictive variance of the Gaussian process model reaches a prespecified privacy level. The optimal covariance matrix of the synthetic noise is formulated in terms of semi-definite programming. We also introduce the formulation of privacy-aware solutions under continuous privacy constraints using kernel-based approaches, and study their theoretical properties. The proposed method is illustrated by considering a model that tracks the trajectories of satellites.
翻訳日:2023-05-29 17:36:29 公開日:2023-05-25
# オンライン適応交通実験のための実用的なバッチベイズサンプリングアルゴリズムの評価

An Evaluation on Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation ( http://arxiv.org/abs/2305.14704v2 )

ライセンス: Link先を確認
Zezhong Zhang and Ted Yuan(参考訳) オンラインテストの高速化のため、固定水平A/Bテストに欠かせない代替手段として、マルチアームバンディットアルゴリズムによる適応的な交通実験が増えている。 適応的に収集されたデータを用いたベストアーム識別と統計的推測に関する最近の研究に基づいて,2つのバッチの重み付け方法(Naive Batch,Weighted Batch)と2つのベイズサンプリング戦略(Thompson Sampling,Top-Two Thompson Sampling)を組み合わせたベイズバッチバンドレートアルゴリズム(NB-TS,WB-TS,NB-TTTS,WB-TTTS,WB-TTTS)を導出した。 これらのベイジアンサンプリングアルゴリズムは, パイロット実験においてWB-TTTSの組み合わせの1つを新たに検討した, 報奨基準の要約バッチ統計に基づくものである。 4つのベイズサンプリングアルゴリズムの包括的評価は、テスト手法の信頼性、感度、後悔をカバーする。 さらに、評価には4つの実世界のeBay実験と40の再現可能な合成実験が含まれており、これは静止状態と非静止状態の両方をカバーする。 我々の評価は a) 文献で論じられることはめったにないが,同等のベストアームを有する偽陽性インフレが存在すること (b)偽陽性を制御するために、後方最適確率の収束と中性後方転位との間の関係が発見される。 (c)WB-TTTSは、競争的リコール、高い精度、非定常傾向に対する堅牢性を示す。 (d)NB-TSは、正確性及び堅牢性以外の後悔裁判の最小化に優れる。 (e)WB-TTTSは、A/Bテストに対する後悔が安価である場合、有望な代替手段である。

To speed up online testing, adaptive traffic experimentation through multi-armed bandit algorithms is rising as an essential complementary alternative to the fixed horizon A/B testing. Based on recent research on best arm identification and statistical inference with adaptively collected data, this paper derives and evaluates four Bayesian batch bandit algorithms (NB-TS, WB-TS, NB-TTTS, WB-TTTS), which are combinations of two ways of weighting batches (Naive Batch and Weighted Batch) and two Bayesian sampling strategies (Thompson Sampling and Top-Two Thompson Sampling) to adaptively determine traffic allocation. These derived Bayesian sampling algorithms are practically based on summary batch statistics of a reward metric for pilot experiments, where one of the combination WB-TTTS in this paper seems to be newly discussed. The comprehensive evaluation on the four Bayesian sampling algorithms covers trustworthiness, sensitivity and regret of a testing methodology. Moreover, the evaluation includes 4 real-world eBay experiments and 40 reproducible synthetic experiments to reveal the learnings, which covers both stationary and non-stationary situations. Our evaluation reveals that, (a) There exist false positives inflation with equivalent best arms, while seldom discussed in literatures; (b) To control false positives, connections between convergence of posterior optimal probabilities and neutral posterior reshaping are discovered; (c) WB-TTTS shows competitive recall, higher precision, and robustness against non-stationary trend; (d) NB-TS outperforms on minimizing regret trials except on precision and robustness; (e) WB-TTTS is a promising alternative if regret of A/B Testing is affordable, otherwise NB-TS is still a powerful choice with regret consideration for pilot experiments.
翻訳日:2023-05-29 10:52:22 公開日:2023-05-25
# ブラックボックス変分ベイズ推定のための実用的・整合勾配分散境界

Practical and Matching Gradient Variance Bounds for Black-Box Variational Bayesian Inference ( http://arxiv.org/abs/2303.10472v3 )

ライセンス: Link先を確認
Kyurae Kim, Kaiwen Wu, Jisu Oh, Jacob R. Gardner(参考訳) black-box variational inference(bbvi)の勾配分散を理解することは、その収束を確立しアルゴリズムの改善を開発する上で重要なステップである。 しかし、既存の研究ではbbviの勾配分散がbbviのワークホースである確率勾配降下(sgd)の収束を研究するのに使われた条件を満たすことがわかっていない。 本研究では, BBVI が, SGD の文献で用いられる$ABC$条件に対応して, 滑らかで二次的に成長するログライクな条件に適合することを示す。 この結果はBBVIの実践で広く用いられている非線形共分散パラメータ化に一般化される。 さらに, 平均場パラメタライゼーションのばらつきは, 寸法依存性が良好であることを示す。

Understanding the gradient variance of black-box variational inference (BBVI) is a crucial step for establishing its convergence and developing algorithmic improvements. However, existing studies have yet to show that the gradient variance of BBVI satisfies the conditions used to study the convergence of stochastic gradient descent (SGD), the workhorse of BBVI. In this work, we show that BBVI satisfies a matching bound corresponding to the $ABC$ condition used in the SGD literature when applied to smooth and quadratically-growing log-likelihoods. Our results generalize to nonlinear covariance parameterizations widely used in the practice of BBVI. Furthermore, we show that the variance of the mean-field parameterization has provably superior dimensional dependence.
翻訳日:2023-05-29 10:51:32 公開日:2023-05-25
# RGB-Dまたは深度画像からの3次元物体検出のためのフラストムVoxNet

Frustum VoxNet for 3D object detection from RGB-D or Depth images ( http://arxiv.org/abs/1910.05483v3 )

ライセンス: Link先を確認
Xiaoke Shen and Ioannis Stamos(参考訳) 近年,rgbの分類・検出システムや3d画像が多数登場している。 本研究では,RGB-Dあるいは深度のみの点群からの新しい3次元物体検出システムについて述べる。 我々のシステムはまず2Dで物体を検知する(RGBでも擬似RGBでも)。 次のステップは、これらの2D検出が定義する3Dフラストラム内の3Dオブジェクトを検出することである。 これは(フラスタムは本当に大きい可能性があるため)フラスタムの一部をボクセルライズすることで実現され、以前の作業のようにフラスタム全体を使わずに済む。 我々のシステムの主な新規性は、フラストラムのどの部分(3Dプロポーザル)を酸化させるかを決定することであり、それによって興味の対象の周囲に高分解能の表現を提供することができる。 また、私たちのシステムではメモリ要求を削減できます。 これらの3D提案は、効率的なResNetベースの3D完全畳み込みネットワーク(FCN)に供給される。 私たちの3D検出システムは高速で、ロボットプラットフォームに統合できます。 ボキセル化を行わないシステム(PointNetなど)に関しては,データセットのサブサンプリングを必要とせずに動作することが可能です。 私たちはまた、システムの効率をさらに向上させるパイプラインアプローチも導入しました。 SUN RGB-Dデータセットの結果から、我々のシステムは小さなネットワークをベースとして毎秒20フレームを処理でき、その検出結果を最先端のものと同等に処理し、2倍の高速化を実現している。

Recently, there have been a plethora of classification and detection systems from RGB as well as 3D images. In this work, we describe a new 3D object detection system from an RGB-D or depth-only point cloud. Our system first detects objects in 2D (either RGB or pseudo-RGB constructed from depth). The next step is to detect 3D objects within the 3D frustums these 2D detections define. This is achieved by voxelizing parts of the frustums (since frustums can be really large), instead of using the whole frustums as done in earlier work. The main novelty of our system has to do with determining which parts (3D proposals) of the frustums to voxelize, thus allowing us to provide high resolution representations around the objects of interest. It also allows our system to have reduced memory requirements. These 3D proposals are fed to an efficient ResNet-based 3D Fully Convolutional Network (FCN). Our 3D detection system is fast and can be integrated into a robotics platform. With respect to systems that do not perform voxelization (such as PointNet), our methods can operate without the requirement of subsampling of the datasets. We have also introduced a pipelining approach that further improves the efficiency of our system. Results on SUN RGB-D dataset show that our system, which is based on a small network, can process 20 frames per second with comparable detection results to the state-of-the-art, achieving a 2 times speedup.
翻訳日:2023-05-27 01:12:46 公開日:2023-05-25
# リニアリカレントニューラルネットワークのパワー

The Power of Linear Recurrent Neural Networks ( http://arxiv.org/abs/1802.03308v8 )

ライセンス: Link先を確認
Frieder Stolzenburg, Sandra Litz, Olivia Michael, Oliver Obst(参考訳) リカレントニューラルネットワークは、時系列に対処する強力な手段である。 自己回帰線形、すなわち線形活性化リカレントニューラルネットワーク(LRNN)が、関数値によって与えられる任意の時間依存関数 f(t) をいかに近似するかを示す。 近似は線形方程式系を解くだけで効果的に学習でき、バックプロパゲーションや類似の手法は不要である。 さらに、これはおそらくこの記事の主な貢献であり、lrnnのサイズは、ネットワーク遷移行列のスペクトル、すなわち固有値を調べることによって、最も関連する成分のみを取り込むことによって、1ステップで大幅に削減することができる。 したがって、他のアプローチとは対照的に、ネットワークの重みだけでなく、ネットワークアーキテクチャも学習します。 lrnnには興味深い特性があり、長期的には楕円軌道となり、さらなる値や関数のコンパクト表現の予測を可能にする。 実験では,複数重畳発振器(MSO),ロボットサッカー,株価予測などによってこれを実証した。 LRNNは、最小限のユニット数でMSOタスクのこれまでの最先端を上回ります。

Recurrent neural networks are a powerful means to cope with time series. We show how autoregressive linear, i.e., linearly activated recurrent neural networks (LRNNs) can approximate any time-dependent function f(t) given by a number of function values. The approximation can effectively be learned by simply solving a linear equation system; no backpropagation or similar methods are needed. Furthermore, and this is probably the main contribution of this article, the size of an LRNN can be reduced significantly in one step after inspecting the spectrum of the network transition matrix, i.e., its eigenvalues, by taking only the most relevant components. Therefore, in contrast to other approaches, we do not only learn network weights but also the network architecture. LRNNs have interesting properties: They end up in ellipse trajectories in the long run and allow the prediction of further values and compact representations of functions. We demonstrate this by several experiments, among them multiple superimposed oscillators (MSO), robotic soccer, and predicting stock prices. LRNNs outperform the previous state-of-the-art for the MSO task with a minimal number of units.
翻訳日:2023-05-27 01:12:20 公開日:2023-05-25
# 非オブザーブド共作者によるインストゥルメンタル変数駆動型ドメイン一般化

Instrumental Variable-Driven Domain Generalization with Unobserved Confounders ( http://arxiv.org/abs/2110.01438v2 )

ライセンス: Link先を確認
Junkun Yuan, Xu Ma, Ruoxuan Xiong, Mingming Gong, Xiangyu Liu, Fei Wu, Lanfen Lin, Kun Kuang(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインから、見えないターゲットドメインをうまく一般化できるモデルを学ぶことを目的としている。 既存のDG法は主に入力特徴の差分分布の不変な表現を学習するが、入力特徴が与えられたラベルの条件分布の不変性は未知の領域予測に必要不可欠である。 一方、入力特徴とラベルに影響を与える未観測の共同創設者の存在は、同時に突発的な相関を引き起こし、条件分布に含まれる不変関係の学習を妨げる。 興味深いことに、データ生成プロセスの因果的ビューでは、あるドメインの入力特徴が他のドメインに対して有効なインストゥルメンタル変数であることが分かる。 この発見に触発されて,2段階学習による未観測共同創設者のバイアスを除去し,インストゥルメンタル変数駆動型DG法(IV-DG)を提案する。 第1段階では、あるドメインの入力特徴の条件分布を他のドメインの入力特徴の条件分布として学習する。 第2段階では、ラベルと学習条件分布を予測して関係を推定する。 理論的解析とシミュレーション実験により、不変関係を正確に捉えることが示されている。 実世界のデータセットに関する大規模な実験は、IV-DG法が最先端の結果をもたらすことを示した。

Domain generalization (DG) aims to learn from multiple source domains a model that can generalize well on unseen target domains. Existing DG methods mainly learn the representations with invariant marginal distribution of the input features, however, the invariance of the conditional distribution of the labels given the input features is more essential for unknown domain prediction. Meanwhile, the existing of unobserved confounders which affect the input features and labels simultaneously cause spurious correlation and hinder the learning of the invariant relationship contained in the conditional distribution. Interestingly, with a causal view on the data generating process, we find that the input features of one domain are valid instrumental variables for other domains. Inspired by this finding, we propose an instrumental variable-driven DG method (IV-DG) by removing the bias of the unobserved confounders with two-stage learning. In the first stage, it learns the conditional distribution of the input features of one domain given input features of another domain. In the second stage, it estimates the relationship by predicting labels with the learned conditional distribution. Theoretical analyses and simulation experiments show that it accurately captures the invariant relationship. Extensive experiments on real-world datasets demonstrate that IV-DG method yields state-of-the-art results.
翻訳日:2023-05-27 00:45:03 公開日:2023-05-25
# 表現学習の理論は、カーネルメソッドの深い一般化を与える

A theory of representation learning gives a deep generalisation of kernel methods ( http://arxiv.org/abs/2108.13097v6 )

ライセンス: Link先を確認
Adam X. Yang, Maxime Robeyns, Edward Milsom, Ben Anson, Nandi Schoots, Laurence Aitchison(参考訳) 現代のディープラーニング手法の成功は、複数の層にまたがって入力を変換し、優れたハイレベルな表現を構築する能力に基づいています。 したがって、この表現学習の過程を理解することは重要である。 しかし、無限幅制限を含む標準的な理論的アプローチ(正式にはNNGP)は表現学習を排除している。 そこで我々は,有限幅モデルにおいて,標準無限幅極限の単純さを保ちながら表現学習のミラーリングを示す,新たな無限幅極限ベイズ表現学習限界(baiesian representation learning limit)を開発した。 特に,ベイズ表現学習限界における深いガウス過程 (dgps) は, 正確に多変量ガウス後段を持ち, 後方共分散は, ログ類似性を組み合わせた解釈可能な目標を最適化することで得られる。 これらの結果は広義に有限なDGPで実験的に検証する。 次に,この限界と目的を,深層カーネルマシン (DKM) と呼ばれるカーネルメソッドの柔軟な,深い一般化として活用する可能性を紹介する。 多くの単純カーネルメソッドと同様に、DKMはデータポイント数で3次スケールする。 したがって,点文献を誘導するガウス過程の手法を用いて,データポイント数を線形にスケールするスパースdkmを開発した。 最後に、これらのアプローチをアペンデンスにおけるNN(非ガウス後部を持つ)に拡張する。

The successes of modern deep machine learning methods are founded on their ability to transform inputs across multiple layers to build good high-level representations. It is therefore critical to understand this process of representation learning. However, standard theoretical approaches (formally NNGPs) involving infinite width limits eliminate representation learning. We therefore develop a new infinite width limit, the Bayesian representation learning limit, that exhibits representation learning mirroring that in finite-width models, yet at the same time, retains some of the simplicity of standard infinite-width limits. In particular, we show that Deep Gaussian processes (DGPs) in the Bayesian representation learning limit have exactly multivariate Gaussian posteriors, and the posterior covariances can be obtained by optimizing an interpretable objective combining a log-likelihood to improve performance with a series of KL-divergences which keep the posteriors close to the prior. We confirm these results experimentally in wide but finite DGPs. Next, we introduce the possibility of using this limit and objective as a flexible, deep generalisation of kernel methods, that we call deep kernel machines (DKMs). Like most naive kernel methods, DKMs scale cubically in the number of datapoints. We therefore use methods from the Gaussian process inducing point literature to develop a sparse DKM that scales linearly in the number of datapoints. Finally, we extend these approaches to NNs (which have non-Gaussian posteriors) in the Appendices.
翻訳日:2023-05-27 00:44:43 公開日:2023-05-25
# deepfreight:マルチトランスファートラック貨物配送のための深層強化学習と混合整数計画の統合

DeepFreight: Integrating Deep Reinforcement Learning and Mixed Integer Programming for Multi-transfer Truck Freight Delivery ( http://arxiv.org/abs/2103.03450v2 )

ライセンス: Link先を確認
Jiayu Chen, Abhishek K. Umrawal, Tian Lan, and Vaneet Aggarwal(参考訳) 貨物輸送需要と輸送コストの急激な増加により、効率よくコストを意識したソリューションを実現するための艦隊のインテリジェントな制御が重要な問題となっている。 本稿では,トラックディスパッチとパッケージマッチングという2つの密接なコラボレーションコンポーネントを含む,マルチトランスファー貨物配送のためのモデルフリーなディープラーニングアルゴリズムであるdeepfreightを提案する。 具体的には、qmixと呼ばれる深いマルチエージェント強化学習フレームワークを利用してディスパッチポリシを学習し、配信要求に対して複数のステップの共同車両ディスパッチ決定を得ることができる。 そして、トラックに配送要求を割り当てる効率的なマルチ転送マッチングアルゴリズムを実行する。 また、DeepFreightはさらなる最適化のためにMixed-Integer Linear Programming Optimizationrと統合されている。 評価の結果,提案システムは非常にスケーラブルであり,低供給時間と燃料消費を維持しつつ,100 %の配送成功が保証された。 コードはhttps://github.com/lucascjysdl/deepfreightで入手できる。

With the freight delivery demands and shipping costs increasing rapidly, intelligent control of fleets to enable efficient and cost-conscious solutions becomes an important problem. In this paper, we propose DeepFreight, a model-free deep-reinforcement-learning-based algorithm for multi-transfer freight delivery, which includes two closely-collaborative components: truck-dispatch and package-matching. Specifically, a deep multi-agent reinforcement learning framework called QMIX is leveraged to learn a dispatch policy, with which we can obtain the multi-step joint vehicle dispatch decisions for the fleet with respect to the delivery requests. Then an efficient multi-transfer matching algorithm is executed to assign the delivery requests to the trucks. Also, DeepFreight is integrated with a Mixed-Integer Linear Programming optimizer for further optimization. The evaluation results show that the proposed system is highly scalable and ensures a 100\% delivery success while maintaining low delivery-time and fuel consumption. The codes are available at https://github.com/LucasCJYSDL/DeepFreight.
翻訳日:2023-05-27 00:44:04 公開日:2023-05-25
# データ同化ネットワーク

Data Assimilation Networks ( http://arxiv.org/abs/2010.09694v3 )

ライセンス: Link先を確認
Pierre Boudier and Anthony Fillion and Serge Gratton and Selime G\"urol and Sixin Zhang(参考訳) データ同化(DA)は、システムの数学的表現と不確実性を考慮したノイズ観測を組み合わせることで、力学系の状態を予測することを目的としている。 最先端の手法はガウス誤差統計と準最適法につながる可能性のある非線形力学の線形化に基づいている。 この点に関して、これらの方法を改善する方法についてはまだ疑問の余地がある。 本稿では,連続するエルマンネットワークを一般化した完全データ駆動型ディープラーニングアーキテクチャと,雑音観測に基づく事前および後続の密度列を近似したデータ同化アルゴリズムを提案する。 構成により、我々のアプローチは一般の非線形力学や非ガウス密度に利用できる。 良く知られたLorenz-95システムとガウス誤差統計に基づく数値実験では,明示的な正規化手法を使わずに,システム状態の確率密度関数の解析と伝播の両面において,EnKFに匹敵する性能を達成している。

Data assimilation (DA) aims at forecasting the state of a dynamical system by combining a mathematical representation of the system with noisy observations taking into account their uncertainties. State of the art methods are based on the Gaussian error statistics and the linearization of the non-linear dynamics which may lead to sub-optimal methods. In this respect, there are still open questions how to improve these methods. In this paper, we propose a fully data driven deep learning architecture generalizing recurrent Elman networks and data assimilation algorithms which approximate a sequence of prior and posterior densities conditioned on noisy observations. By construction our approach can be used for general nonlinear dynamics and non-Gaussian densities. On numerical experiments based on the well-known Lorenz-95 system and with Gaussian error statistics, our architecture achieves comparable performance to EnKF on both the analysis and the propagation of probability density functions of the system state at a given time without using any explicit regularization technique.
翻訳日:2023-05-27 00:43:47 公開日:2023-05-25
# UCB帯域における最適対外攻撃

Near Optimal Adversarial Attack on UCB Bandits ( http://arxiv.org/abs/2008.09312v4 )

ライセンス: Link先を確認
Shiliang Zuo(参考訳) 私は、報酬が敵対的腐敗の対象となる確率的多腕バンディット問題を研究する。 私は、ucbアルゴリズムを用いた学習者を操作する新しい攻撃戦略を提案する。ここでは、$t$がラウンド数である$\widehat{o}(\sqrt{\log t})$という累積コストで、非最適ターゲットarm $t - o(t)$を引く。 また、累積攻撃コストに対する最初の下限も証明します。 下限は$O(\log \log T)$ factorまでの上限値と一致し、提案した攻撃戦略がほぼ最適であることを示す。

I study a stochastic multi-arm bandit problem where rewards are subject to adversarial corruption. I propose a novel attack strategy that manipulates a learner employing the UCB algorithm into pulling some non-optimal target arm $T - o(T)$ times with a cumulative cost that scales as $\widehat{O}(\sqrt{\log T})$, where $T$ is the number of rounds. I also prove the first lower bound on the cumulative attack cost. The lower bound matches the upper bound up to $O(\log \log T)$ factors, showing the proposed attack strategy to be near optimal.
翻訳日:2023-05-27 00:43:31 公開日:2023-05-25
# 安全な集合を伴うフェデレーション学習における品質推論

Quality Inference in Federated Learning with Secure Aggregation ( http://arxiv.org/abs/2007.06236v4 )

ライセンス: Link先を確認
Bal\'azs Pej\'o and Gergely Bicz\'ok(参考訳) フェデレート学習アルゴリズムは効率上の理由から開発され、個人データとビジネスデータのプライバシーと機密性を保証する。 データが明示的に共有されていないにもかかわらず、最近の研究では、このメカニズムが機密情報を漏洩する可能性があることが示されている。 したがって、セキュアアグリゲーションは多くの現実世界のシナリオで使われ、特定の参加者への帰属を防ぐ。 本稿では,個別のトレーニングデータセットの品質に着目し,セキュアなアグリゲーションを適用した場合でも,その品質情報を特定の参加者に推論し,属性付けることができることを示す。 具体的には,一連の画像認識実験を通じて,参加者の相対的品質秩序を推定する。 さらに,推定された品質情報を誤動作の検出,トレーニングパフォーマンスの安定化,参加者の個人貢献度の測定に応用した。

Federated learning algorithms are developed both for efficiency reasons and to ensure the privacy and confidentiality of personal and business data, respectively. Despite no data being shared explicitly, recent studies showed that the mechanism could still leak sensitive information. Hence, secure aggregation is utilized in many real-world scenarios to prevent attribution to specific participants. In this paper, we focus on the quality of individual training datasets and show that such quality information could be inferred and attributed to specific participants even when secure aggregation is applied. Specifically, through a series of image recognition experiments, we infer the relative quality ordering of participants. Moreover, we apply the inferred quality information to detect misbehaviours, to stabilize training performance, and to measure the individual contributions of participants.
翻訳日:2023-05-27 00:43:19 公開日:2023-05-25
# NISQデバイス上で実装可能な量子ポアソンソルバ(改良版)

A quantum Poisson solver implementable on NISQ devices (improved version) ( http://arxiv.org/abs/2005.00256v3 )

ライセンス: Link先を確認
Shengbin Wang, Zhimin Wang, Wendong Li, Lixin Fan, Guolong Cui, Zhiqiang Wei, Yongjian Gu(参考訳) 微分方程式を解くことは、量子コンピューティングの最も魅力的な応用の1つである。 一般の常微分方程式や偏微分方程式に対処する既存の量子アルゴリズムは、ノイズ中間量子(NISQ)デバイスでうまく実行するには高すぎると考えられている。 本稿では、簡単なry回転に基づく1次元ポアソン方程式を解くためのコンパクト量子アルゴリズムを提案する。 主な操作は確率振幅に基づいて行われる。 したがって, 本アルゴリズムは位相推定, ハミルトンシミュレーション, 算術の必要性を回避できる。 解誤差はポアソン方程式の有限差分近似からのみ生じる。 我々の量子ポアソン解法(QPS)は、方程式の線形系の次元の対数論である1ビットと2ビットのゲートにおいて3nと4n^3のゲート複素性を持つ。 解誤差 {\epsilon} の観点では、複雑性は qubits の log(1/{\epsilon}) と演算の poly(log(1/{\epsilon}) であり、最もよく知られた結果からなる。 現在のQPSは、NISQデバイスにおける潜在的な応用を表すかもしれない。

Solving differential equations is one of the most compelling applications of quantum computing. Most existing quantum algorithms addressing general ordinary and partial differential equations are thought to be too expensive to execute successfully on Noisy Intermediate-Scale Quantum (NISQ) devices. Here we propose a compact quantum algorithm for solving one-dimensional Poisson equation based on simple Ry rotation. The major operations are performed on probability amplitudes. Therefore, the present algorithm avoids the need to do phase estimation, Hamiltonian simulation and arithmetic. The solution error comes only from the finite difference approximation of the Poisson equation. Our quantum Poisson solver (QPS) has gate-complexity of 3n in qubits and 4n^3 in one- and two-qubit gates, where n is the logarithmic of the dimension of the linear system of equations. In terms of solution error {\epsilon}, the complexity is log(1/{\epsilon}) in qubits and poly(log(1/{\epsilon})) in operations, which is consist with the best known results. The present QPS may represent a potential application on NISQ devices.
翻訳日:2023-05-27 00:43:06 公開日:2023-05-25
# 深い監督による知識蒸留

Knowledge Distillation with Deep Supervision ( http://arxiv.org/abs/2202.07846v2 )

ライセンス: Link先を確認
Shiya Luo, Defang Chen, Can Wang(参考訳) 知識蒸留は,教師モデルの知識を生かして,軽量な学生モデルの性能を高めることを目的としている。 しかし, 従来の知識蒸留では, 教師の予測は, 生徒モデルの最終層に対する監督信号を提供するためにのみ用いられており, 浅い生徒層では, 層別バック伝播の正確な訓練指導が得られず, 効果的な知識伝達が阻害される可能性がある。 この問題に対処するために,教師モデルのクラス予測と特徴マップをフル活用して,浅層学習者のトレーニングを監督する,Deeply-Supervised Knowledge Distillation (DSKD)を提案する。 DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。 CIFAR-100とTinyImageNetの多種多様な教師学生モデルによる大規模な実験により,提案手法の有効性が確認された。 コードは、$\href{https://github.com/luoshiya/dskd}{https://github.com/luoshiya/dskd}$で入手できる。

Knowledge distillation aims to enhance the performance of a lightweight student model by exploiting the knowledge from a pre-trained cumbersome teacher model. However, in the traditional knowledge distillation, teacher predictions are only used to provide the supervisory signal for the last layer of the student model, which may result in those shallow student layers lacking accurate training guidance in the layer-by-layer back propagation and thus hinders effective knowledge transfer. To address this issue, we propose Deeply-Supervised Knowledge Distillation (DSKD), which fully utilizes class predictions and feature maps of the teacher model to supervise the training of shallow student layers. A loss-based weight allocation strategy is developed in DSKD to adaptively balance the learning process of each shallow layer, so as to further improve the student performance. Extensive experiments on CIFAR-100 and TinyImageNet with various teacher-student models show significantly performance, confirming the effectiveness of our proposed method. Code is available at: $\href{https://github.com/luoshiya/DSKD}{https://github.com/luoshiya/DSKD}$
翻訳日:2023-05-27 00:36:53 公開日:2023-05-25
# pNLP-Mixer: 言語のための効率的なオールMLPアーキテクチャ

pNLP-Mixer: an Efficient all-MLP Architecture for Language ( http://arxiv.org/abs/2202.04350v2 )

ライセンス: Link先を確認
Francesco Fusco, Damian Pascual, Peter Staar, Diego Antognini(参考訳) トランスフォーマーアーキテクチャに基づく大規模な事前学習型言語モデルは、自然言語処理(NLP)の状況を大きく変えた。 しかし、スマートウォッチのような制約のあるデバイスにオンデバイスアプリケーション向けにこれらのモデルをデプロイすることは、そのサイズと推論コストのため、全く現実的ではない。 トランスベースのアーキテクチャに代わるものとして、効率のよいnlpに関する最近の研究は、スロット充填やインテント分類といった単純なタスクにおいて、モデルサイズがメガバイトの順番で、重量効率のよいモデルが競合性能を達成できることを示した。 pNLP-Mixerアーキテクチャは、新しいプロジェクション層により高い重量効率を実現するデバイス上のNLPのための埋め込み不要なMLP-Mixerモデルである。 MTOPとMultiATISの2つの多言語意味解析データセットに対して,pNLP-Mixerモデルの評価を行った。 MTOPおよびマルチATISにおけるmBERTの性能は,170倍少ないパラメータを用いて99.4%,97.8%向上した。 私たちのモデルは、MTOPで最大7.8%のマージンで、小さなモデルの最先端(pQRNN)を常に打ち負かしています。

Large pre-trained language models based on transformer architecture have drastically changed the natural language processing (NLP) landscape. However, deploying those models for on-device applications in constrained devices such as smart watches is completely impractical due to their size and inference cost. As an alternative to transformer-based architectures, recent work on efficient NLP has shown that weight-efficient models can attain competitive performance for simple tasks, such as slot filling and intent classification, with model sizes in the order of the megabyte. This work introduces the pNLP-Mixer architecture, an embedding-free MLP-Mixer model for on-device NLP that achieves high weight-efficiency thanks to a novel projection layer. We evaluate a pNLP-Mixer model of only one megabyte in size on two multi-lingual semantic parsing datasets, MTOP and multiATIS. Our quantized model achieves 99.4% and 97.8% the performance of mBERT on MTOP and multi-ATIS, while using 170x fewer parameters. Our model consistently beats the state-of-the-art of tiny models (pQRNN), which is twice as large, by a margin up to 7.8% on MTOP.
翻訳日:2023-05-27 00:36:33 公開日:2023-05-25
# コヒーレント粒子損失を有する1次元フェルミオン液体中の絡み合いのFate

Fate of entanglement in one-dimensional fermion liquid with coherent particle loss ( http://arxiv.org/abs/2112.13550v2 )

ライセンス: Link先を確認
Wei-Zhu Yi, Hao-Jie Lin, Ze-Xun Lin, Wei-Qiang Chen(参考訳) 量子多体系と量子デバイスはノイズと粒子損失の有害な効果を経験し、それらの処理を開放量子系または近似的に非エルミート系として扱う必要がある。 これらの系は閉系と大きく異なる時間進化において非自明な特性を示す。 本稿では, 隣接格子粒子損失を有する1次元フェルミオン系の動的特性について検討する。 時間依存相関行列法とボゾナイズ手法を用いることにより、系が時間とともに進化するにつれて、その(二成分)フォン・ノイマンエントロピーは、相互作用の存在下でも、効果的なハミルトニアンスペクトルやリウビリアンスペクトルとは無関係に、短時間に熱化効果によって急速に増加する普遍的な挙動を示す。 さらに、隣接格子量子ジャンプによる実効ハミルトニアンの非対称な非エルミート項は、非エルミート皮膚効果においてユビキタスな運動量空間における準粒子の左右の非対称性をもたらし、初期の相互作用強度とは無関係に運動量空間の絡み合いをもたらすことを示す。 本研究は,非エルミート性フェルミイオン液体の開量子コンテキストにおける普遍的運命を照らし,非エルミート多体系の全時間的理解を深める。 さらに,本研究は,短期量子デバイスとオープンシステムの量子シミュレーションに有用な知見を提供する。

Quantum many-body systems and quantum devices experience the detrimental effects of noise and particle losses, necessitating their treatment as open quantum systems or, in approximation, as non-Hermitian systems. These systems exhibit nontrivial characteristics in their time evolution that differ significantly from closed systems. In this Letter, we study the dynamic properties of a one-dimensional fermionic system with adjacent-lattice particle loss. By utilizing time-dependent correlation matrix methods and bosonization techniques, we demonstrate that, as the system evolves over time, its (bipartite) von Neumann entropy exhibits a universal behavior of rapid increase due to thermalization effects at short times, independent of the effective Hamiltonian and Liouvillian spectra, even in the presence of interactions. Additionally, we show that the asymmetric non-Hermitian terms in the effective Hamiltonian caused by adjacent-lattice quantum jumps lead to left-right asymmetry of quasiparticles in momentum space, which is ubiquitous in non-Hermitian skin effects and introduces momentum-space entanglement independent of the interaction strength at early times. Our study illuminates the universal fate of non-Hermitian fermionic liquids in the open quantum context, enriching our understanding of non-Hermitian many-body systems over the entire time range. Furthermore, our findings provide valuable insights for near-term quantum devices and the quantum simulation of open systems.
翻訳日:2023-05-27 00:35:45 公開日:2023-05-25
# 高次サブシステム対称性の破断--サブ次元臨界性とフラクトン相転移

Higher-Form Subsystem Symmetry Breaking: Subdimensional Criticality and Fracton Phase Transitions ( http://arxiv.org/abs/2112.12735v2 )

ライセンス: Link先を確認
Brandon C. Rayhaun and Dominic J. Williamson(参考訳) サブシステム対称性は、物質の非伝統的な量子相、特にフラクトントポロジカル秩序の強力な組織原理として登場した。 本稿では,そのような対称性の特別なサブクラスである高次サブシステム対称性に注目し,従来の位相相の研究からフラクトン設定へツールを適用することを可能にする。 x-cubeモデルを含む親しみやすいフラクトン相からのある種の遷移は、高次サブシステム対称性の自発的崩壊の観点から理解できることを実証する。 これらの複雑なフラクトントポロジカル位相遷移の簡単な画像は、ゲージングを通して、低次元モデルの分離スタックの自発的な高次サブシステム対称性破壊相転移と、それらを正確に関連付けることによって得られる。 この視点を利用して、高次対称性を持つ正準モデルの積み重ねと観測に基づいて、2次元と3次元の空間次元における非典型的な部分次元臨界点の列を構築する。 多数の例を通して、高次サブシステム対称性を持つ理論における結合層構成の普遍性を説明する。

Subsystem symmetry has emerged as a powerful organizing principle for unconventional quantum phases of matter, most prominently fracton topological orders. Here, we focus on a special subclass of such symmetries, known as higher-form subsystem symmetries, which allow us to adapt tools from the study of conventional topological phases to the fracton setting. We demonstrate that certain transitions out of familiar fracton phases, including the X-cube model, can be understood in terms of the spontaneous breaking of higher-form subsystem symmetries. We find simple pictures for these seemingly complicated fracton topological phase transitions by relating them in an exact manner, via gauging, to spontaneous higher-form subsystem symmetry breaking phase transitions of decoupled stacks of lower-dimensional models. We harness this perspective to construct a sequence of unconventional subdimensional critical points in two and three spatial dimensions based on the stacking and gauging of canonical models with higher-form symmetry. Through numerous examples, we illustrate the ubiquity of coupled layer constructions in theories with higher-form subsystem symmetries.
翻訳日:2023-05-27 00:35:17 公開日:2023-05-25
# Colloquium: 量子ドットデバイス制御の自動化の進歩

Colloquium: Advances in automation of quantum dot devices control ( http://arxiv.org/abs/2112.09362v3 )

ライセンス: Link先を確認
Justyna P. Zwolak and Jacob M. Taylor(参考訳) 量子ドット配列(qds)は、スケーラブルで結合された量子ビットシステムを実現し、量子コンピュータの基本構成要素として機能する有望な候補システムである。 このような半導体量子システムでは、デバイスは何十もの個別の静電電圧と動的電圧を持ち、システムを単一電子系にローカライズし、良好な量子ビット動作を実現するために慎重に設定する必要がある。 所望のQD位置と電荷をゲート電圧にマッピングすることは、古典的な制御の問題となる。 QD量子ビットの増加に伴い、関連するパラメータ空間は十分に増大し、ヒューリスティックな制御が不可能になる。 近年,スクリプトベースのアルゴリズムと機械学習(ML)技術を組み合わせたデバイス制御を自動化する取り組みが盛んに行われている。 本稿では,2次元電子ガス中で生成するシリコンおよびGaAs系QDを中心に,最近のQDデバイス制御の自動化の進展を概観する。 物理に基づくモデリングと現代の数値最適化とMLを組み合わせることで、効率的でスケーラブルな制御が得られることが証明されている。 コンピュータ科学とMLとの理論的、計算的、実験的取り組みのさらなる統合は、量子コンピューティングのための半導体やその他のプラットフォームの発展に大きな可能性を秘めている。

Arrays of quantum dots (QDs) are a promising candidate system to realize scalable, coupled qubit systems and serve as a fundamental building block for quantum computers. In such semiconductor quantum systems, devices now have tens of individual electrostatic and dynamical voltages that must be carefully set to localize the system into the single-electron regime and to realize good qubit operational performance. The mapping of requisite QD locations and charges to gate voltages presents a challenging classical control problem. With an increasing number of QD qubits, the relevant parameter space grows sufficiently to make heuristic control unfeasible. In recent years, there has been considerable effort to automate device control that combines script-based algorithms with machine learning (ML) techniques. In this Colloquium, a comprehensive overview of the recent progress in the automation of QD device control is presented, with a particular emphasis on silicon- and GaAs-based QDs formed in two-dimensional electron gases. Combining physics-based modeling with modern numerical optimization and ML has proven effective in yielding efficient, scalable control. Further integration of theoretical, computational, and experimental efforts with computer science and ML holds vast potential in advancing semiconductor and other platforms for quantum computing.
翻訳日:2023-05-27 00:34:58 公開日:2023-05-25
# 変化点回帰のためのクロスバリデーション:落とし穴と解決策

Cross-validation for change-point regression: pitfalls and solutions ( http://arxiv.org/abs/2112.03220v2 )

ライセンス: Link先を確認
Florian Pein and Rajen D. Shah(参考訳) クロスバリデーションは、多くの非パラメトリック回帰問題においてパラメータ選択をチューニングするための標準的なアプローチである。 しかし、その使用は変化点回帰においてあまり一般的ではなく、おそらくその予測誤差に基づく基準は小さな急激な変化を許容し、したがって変化点の数と位置を推定するのに適さないと考えられる。 実際、二乗誤差損失を伴うクロスバリデーションの問題はより厳格であり、変更点数を体系的に過小評価し、変更が容易に検出できる単純な設定で平均関数を高最適に推定する可能性がある。 本稿では,2つの簡単な方法を提案する。まず,2乗誤差損失よりも絶対誤差を用いること,そして2つは,使用したホールドアウトセットを変更することである。 後者の場合、一般的な変更点推定手順に対して、変更点数の一貫した推定を可能にする条件を提供する。 これらの条件は,不正確な変更点数を付与した場合,その性能に関する新たな結果を用いて,最適分割に満足することを示す。 数値実験により、特に絶対誤差法は、誤差分布が適切に特定されている場合の古典的チューニングパラメータ選択を用いた共通変化点法と競合するが、これらを不特定モデルで大幅に上回ることを示す。 提案手法の実装は,CRAN上のRパッケージクロスバリデーションCPで利用可能である。

Cross-validation is the standard approach for tuning parameter selection in many non-parametric regression problems. However its use is less common in change-point regression, perhaps as its prediction error-based criterion may appear to permit small spurious changes and hence be less well-suited to estimation of the number and location of change-points. We show that in fact the problems of cross-validation with squared error loss are more severe and can lead to systematic under- or over-estimation of the number of change-points, and highly suboptimal estimation of the mean function in simple settings where changes are easily detectable. We propose two simple approaches to remedy these issues, the first involving the use of absolute error rather than squared error loss, and the second involving modifying the holdout sets used. For the latter, we provide conditions that permit consistent estimation of the number of change-points for a general change-point estimation procedure. We show these conditions are satisfied for optimal partitioning using new results on its performance when supplied with the incorrect number of change-points. Numerical experiments show that the absolute error approach in particular is competitive with common change-point methods using classical tuning parameter choices when error distributions are well-specified, but can substantially outperform these in misspecified models. An implementation of our methodology is available in the R package crossvalidationCP on CRAN.
翻訳日:2023-05-27 00:34:40 公開日:2023-05-25
# 量子力学における測定障害と保存則

Measurement disturbance and conservation laws in quantum mechanics ( http://arxiv.org/abs/2110.11705v3 )

ライセンス: Link先を確認
M. Hamed Mohammady, Takayuki Miyadera, Leon Loveridge(参考訳) 保存法の存在下、測定誤差と乱れは一般に運用条件で分析される。 我々は,不整合性,非整合性,コヒーレンスとの興味深い相互作用を浮き彫りにして,正確な,あるいは非摂動測定が可能な,必要な条件を示す新しい定量的境界を提供する。 ここで Wigner-Araki-Yanase (WAY) 定理のかなりの一般化を得る。 本研究は, 測定チャネルの固定点集合の解析によってさらに洗練され, その余分な構造が初めて特徴付けられる。

Measurement error and disturbance, in the presence of conservation laws, are analysed in general operational terms. We provide novel quantitative bounds demonstrating necessary conditions under which accurate or non-disturbing measurements can be achieved, highlighting an interesting interplay between incompatibility, unsharpness, and coherence. From here we obtain a substantial generalisation of the Wigner-Araki-Yanase (WAY) theorem. Our findings are further refined through the analysis of the fixed-point set of the measurement channel, some extra structure of which is characterised here for the first time.
翻訳日:2023-05-27 00:33:58 公開日:2023-05-25
# フェデレーション領域一般化のための協調的意味的アグリゲーションと校正

Collaborative Semantic Aggregation and Calibration for Federated Domain Generalization ( http://arxiv.org/abs/2110.06736v4 )

ライセンス: Link先を確認
Junkun Yuan, Xu Ma, Defang Chen, Fei Wu, Lanfen Lin, Kun Kuang(参考訳) ドメイン一般化(DG)は、未知のターゲットドメインに適切に一般化できるモデルとして、複数の既知のソースドメインから学習することを目的としている。 既存のDGメソッドは通常、共有マルチソースデータの融合を利用して一般化可能なモデルを訓練する。 しかし、今や膨大なデータが多くの場所に分散しており、プライバシーポリシーのために共有できない。 本稿では,ソースデータセットにのみアクセス可能で,プライバシ保護のためにローカルに学習できるフェデレーションドメイン一般化の問題に取り組む。 本稿では,CSAC(Collaborative Semantic Aggregation and Calibration)と呼ばれる新しいフレームワークを提案する。 安全でないデータ融合を回避しつつ、マルチソース意味情報を完全吸収するために、分離されたドメインでトレーニングされたモデルをレイヤごとに融合することにより、データフリーなセマンティックアグリゲーションを行う。 ドメインシフトに起因するセマンティックな転位問題に対処するため,各セマンティックレベルを調整し,ドメインの不変性を向上するアテンション機構を備えた層間セマンティックキャリブレーションを設計する。 本稿では,複数ソースのセマンティクス学習とアライメントを協調的に統合し,セマンティクス集約とキャリブレーションを交互に繰り返し,各データセットの局所化を保ち,データのプライバシを慎重に保護する。 大規模な実験により,この課題に対処する上で,本手法の有効性が示された。

Domain generalization (DG) aims to learn from multiple known source domains a model that can generalize well to unknown target domains. The existing DG methods usually exploit the fusion of shared multi-source data to train a generalizable model. However, tremendous data is distributed across lots of places nowadays that can not be shared due to privacy policies. In this paper, we tackle the problem of federated domain generalization where the source datasets can only be accessed and learned locally for privacy protection. We propose a novel framework called Collaborative Semantic Aggregation and Calibration (CSAC) to enable this challenging problem. To fully absorb multi-source semantic information while avoiding unsafe data fusion, we conduct data-free semantic aggregation by fusing the models trained on the separated domains layer-by-layer. To address the semantic dislocation problem caused by domain shift, we further design cross-layer semantic calibration with an attention mechanism to align each semantic level and enhance domain invariance. We unify multi-source semantic learning and alignment in a collaborative way by repeating the semantic aggregation and calibration alternately, keeping each dataset localized, and the data privacy is carefully protected. Extensive experiments show the significant performance of our method in addressing this challenging problem.
翻訳日:2023-05-27 00:33:48 公開日:2023-05-25
# 量子誤差補正による撮像星

Imaging stars with quantum error correction ( http://arxiv.org/abs/2204.06044v2 )

ライセンス: Link先を確認
Zixin Huang, Gavin K. Brennen, Yingkai Ouyang(参考訳) 高解像度で大型の光学干渉計の開発は、天文学的なイメージングに革命をもたらすだろう。 しかし、古典的な技法は、損失、ノイズ、受信光が一般的に量子であるという事実などの物理的限界によって妨げられている。 量子通信技術を用いてこれらの問題を克服する方法を示す。 遠方の望遠鏡で受信した星光の保護と撮像に量子誤差補正符号を用いるための一般的な枠組みを提案する。 我々の計画では、光の量子状態はStimulated Raman Adiabatic Passageを介して非放射性原子状態にコヒーレントに捕捉され、量子エラー訂正符号にインプリントされる。 コードは、画像パラメータを抽出するために必要な潜在的に騒がしい操作の間、信号を保護する。 小さい量子誤り訂正符号であっても、ノイズに対してかなりの保護を提供できることを示す。 大きな符号の場合、情報を保存するためのノイズしきい値が下にある。 提案手法は,従来の技術で実現可能な以上の画像分解能を向上できる,短期量子デバイスへの応用を示す。

The development of high-resolution, large-baseline optical interferometers would revolutionize astronomical imaging. However, classical techniques are hindered by physical limitations including loss, noise, and the fact that the received light is generally quantum in nature. We show how to overcome these issues using quantum communication techniques. We present a general framework for using quantum error correction codes for protecting and imaging starlight received at distant telescope sites. In our scheme, the quantum state of light is coherently captured into a non-radiative atomic state via Stimulated Raman Adiabatic Passage, which is then imprinted into a quantum error correction code. The code protects the signal during subsequent potentially noisy operations necessary to extract the image parameters. We show that even a small quantum error correction code can offer significant protection against noise. For large codes, we find noise thresholds below which the information can be preserved. Our scheme represents an application for near-term quantum devices that can increase imaging resolution beyond what is feasible using classical techniques.
翻訳日:2023-05-27 00:26:09 公開日:2023-05-25
# より詳細なガイダンスを探求する: データ拡張による手話翻訳のためのタスクアウェアインストラクションネットワーク

Explore More Guidance: A Task-aware Instruction Network for Sign Language Translation Enhanced with Data Augmentation ( http://arxiv.org/abs/2204.05953v3 )

ライセンス: Link先を確認
Yong Cao, Wei Li, Xianzhi Li, Min Chen, Guangyong Chen, Long Hu, Zhengdao Li, Hwang Kai(参考訳) 手話認識と翻訳は、まず認識モジュールを使用して手話ビデオから光沢を生成し、次に翻訳モジュールを使用して音声文に翻訳する。 既存の作業の多くは認識ステップに重点を置いており、手話翻訳にはあまり注意を払わない。 本研究では,手話翻訳のためのタスク認識型命令ネットワークであるTIN-SLTを提案する。 このように、事前学習されたモデルの言語能力はよく検討され、翻訳性能をさらに高めるために利用される。 さらに,手話グルースとターゲット音声言語の表現空間を探索することにより,トレーニングセットのデータ分布を調整するための多段階データ拡張スキームを提案する。 我々は,PHOENIX-2014-T と ASLG-PC12 という2つの挑戦的ベンチマークデータセットに対して,BLEU-4 の2つの実験を行った。 私たちのコードはhttps://github.com/yongcaoplus/TIN-SLTで公開されています。

Sign language recognition and translation first uses a recognition module to generate glosses from sign language videos and then employs a translation module to translate glosses into spoken sentences. Most existing works focus on the recognition step, while paying less attention to sign language translation. In this work, we propose a task-aware instruction network, namely TIN-SLT, for sign language translation, by introducing the instruction module and the learning-based feature fuse strategy into a Transformer network. In this way, the pre-trained model's language ability can be well explored and utilized to further boost the translation performance. Moreover, by exploring the representation space of sign language glosses and target spoken language, we propose a multi-level data augmentation scheme to adjust the data distribution of the training set. We conduct extensive experiments on two challenging benchmark datasets, PHOENIX-2014-T and ASLG-PC12, on which our method outperforms former best solutions by 1.65 and 1.42 in terms of BLEU-4. Our code is published at https://github.com/yongcaoplus/TIN-SLT.
翻訳日:2023-05-27 00:25:53 公開日:2023-05-25
# 空間概念に基づくトポロジカルセマンティクスマッピングを用いた音声指示からの階層的経路計画

Hierarchical Path-planning from Speech Instructions with Spatial Concept-based Topometric Semantic Mapping ( http://arxiv.org/abs/2203.10820v2 )

ライセンス: Link先を確認
Akira Taniguchi, Shuya Ito, Tadahiro Taniguchi(参考訳) 人間の音声指示による目的地への移動は、現実世界で動く自律移動ロボットにとって不可欠である。 ロボットは同じ目標に向かって異なる経路を取ることができるが、最短経路は必ずしも最適ではない。 望ましいアプローチは、waypointの仕様を柔軟に適合させ、より優れた代替パスを計画することである。 さらに、ロボットはリアルタイム推論機能を必要とする。 空間表現には意味、トポロジ、計量レベルが含まれ、それぞれが環境の異なる側面を捉えている。 本研究では,地形意味マップによる階層的空間表現と,ウェイポイントを含む音声指示による経路計画を実現することを目的とした。 位置接続を組み込んだマルチモーダル空間概念を用いた階層的経路計画法SpCoTMHPを提案する。 このアプローチは、階層レベル間の相互作用を伴う、新しい統合確率的生成モデルと高速近似推論を提供する。 確率的推論としての制御に基づく定式化は,提案した経路計画を理論的に支持する。 waypointを用いた音声指示によるナビゲーション実験では, wn-splが0.589秒, 計算時間が7.14秒短縮された。 階層的な空間表現は、人間とロボットの相互理解可能な形態を提供し、言語ベースのナビゲーションタスクを可能にする。

Navigating to destinations using human speech instructions is essential for autonomous mobile robots operating in the real world. Although robots can take different paths toward the same goal, the shortest path is not always optimal. A desired approach is to flexibly accommodate waypoint specifications, planning a better alternative path, even with detours. Furthermore, robots require real-time inference capabilities. Spatial representations include semantic, topological, and metric levels, each capturing different aspects of the environment. This study aims to realize a hierarchical spatial representation by a topometric semantic map and path planning with speech instructions, including waypoints. We propose SpCoTMHP, a hierarchical path-planning method that utilizes multimodal spatial concepts, incorporating place connectivity. This approach provides a novel integrated probabilistic generative model and fast approximate inference, with interaction among the hierarchy levels. A formulation based on control as probabilistic inference theoretically supports the proposed path planning. Navigation experiments using speech instruction with a waypoint demonstrated the performance improvement of path planning, WN-SPL by 0.589, and reduced computation time by 7.14 sec compared to conventional methods. Hierarchical spatial representations offer a mutually understandable form for humans and robots, enabling language-based navigation tasks.
翻訳日:2023-05-27 00:25:15 公開日:2023-05-25
# 深部生成前処理を用いた非線形イメージングモデルのベイズインバージョン

Bayesian Inversion for Nonlinear Imaging Models using Deep Generative Priors ( http://arxiv.org/abs/2203.10078v3 )

ライセンス: Link先を確認
Pakshal Bohra, Thanh-an Pham, Jonathan Dong, Michael Unser(参考訳) 現代のイメージングシステムの多くは、取得した測定結果から興味のイメージを推測するために計算パイプラインを組み込んでいる。 このような不適切な逆問題を解くベイズ的アプローチは、像の後方分布の特徴付けを伴う。 画像システムのモデルと、関心のイメージに関する事前の知識に依存している。 本研究では,画像の事前知識を深層生成モデルで指定する非線形イメージングモデルのためのベイズ型再構成フレームワークを提案する。 フォワードモデルがニューラルネットワークのような構造を持つ非線形逆問題に対して,メトロポリス調整ランゲヴィンアルゴリズムに基づくトラクタブル後方サンプリング手法を開発した。 このクラスは、最も実用的なイメージングモードを含んでいる。 本稿では, 定量的画像の復元を適切に行うために, 拡張深部生成前処理の概念を導入し, 2つの非線形イメージングモード-位相検索と光回折トモグラフィに適用することで, 枠組みの利点を示す。

Most modern imaging systems incorporate a computational pipeline to infer the image of interest from acquired measurements. The Bayesian approach to solve such ill-posed inverse problems involves the characterization of the posterior distribution of the image. It depends on the model of the imaging system and on prior knowledge on the image of interest. In this work, we present a Bayesian reconstruction framework for nonlinear imaging models where we specify the prior knowledge on the image through a deep generative model. We develop a tractable posterior-sampling scheme based on the Metropolis-adjusted Langevin algorithm for the class of nonlinear inverse problems where the forward model has a neural-network-like structure. This class includes most practical imaging modalities. We introduce the notion of augmented deep generative priors in order to suitably handle the recovery of quantitative images.We illustrate the advantages of our framework by applying it to two nonlinear imaging modalities-phase retrieval and optical diffraction tomography.
翻訳日:2023-05-27 00:24:57 公開日:2023-05-25
# ソーシャルメディアにおける社会的意味のコントラスト学習

Contrastive Learning of Sociopragmatic Meaning in Social Media ( http://arxiv.org/abs/2203.07648v5 )

ライセンス: Link先を確認
Chiyu Zhang, Muhammad Abdul-Mageed, Ganesh Jawahar(参考訳) NLPにおける表現とコントラスト学習の最近の進歩は、様々な言語コミュニティにおける相互作用における意味である「textit{sociopragmatic meaning}」のクラスを広く考慮していない。 このギャップを埋めるために,様々な社会プラグマティックなタスク(感情,ヘイトスピーチ,ユーモア,皮肉など)に移行可能なタスク非依存表現を学習するための新しい枠組みを提案する。 私たちのフレームワークは、一般的な設定と少数の設定の両方において、ドメイン内データとドメイン外データの両方に対して、他のコントラスト学習フレームワークよりも優れています。 例えば、2つの人気のある事前トレーニング言語モデルと比較して、データセットあたり20ドルのトレーニングサンプルのみを微調整すると、平均$F_1$が11.66$、データセットあたり$F_1$に改善される。

Recent progress in representation and contrastive learning in NLP has not widely considered the class of \textit{sociopragmatic meaning} (i.e., meaning in interaction within different language communities). To bridge this gap, we propose a novel framework for learning task-agnostic representations transferable to a wide range of sociopragmatic tasks (e.g., emotion, hate speech, humor, sarcasm). Our framework outperforms other contrastive learning frameworks for both in-domain and out-of-domain data, across both the general and few-shot settings. For example, compared to two popular pre-trained language models, our method obtains an improvement of $11.66$ average $F_1$ on $16$ datasets when fine-tuned on only $20$ training samples per dataset.Our code is available at: https://github.com/UBC-NLP/infodcl
翻訳日:2023-05-27 00:24:41 公開日:2023-05-25
# HyperMixer: トランスフォーマーに代わるMLPベースの低コスト

HyperMixer: An MLP-based Low Cost Alternative to Transformers ( http://arxiv.org/abs/2203.03691v2 )

ライセンス: Link先を確認
Florian Mai, Arnaud Pannatier, Fabio Fehr, Haolin Chen, Francois Marelli, Francois Fleuret, James Henderson(参考訳) トランスフォーマーベースのアーキテクチャは自然言語理解のモデルであるが、入力長が2次に複雑であり、多くのトレーニングデータを必要としており、チューニングが難しいため、かなりのコストがかかる。 低コストを追求する上で,シンプルなMLPアーキテクチャについて検討する。 MLPMixerのような既存のアーキテクチャは、各機能に独立して適用される静的MLPを通じてトークンの混合を実現するが、自然言語理解に必要な帰納的バイアスから分離しすぎている。 本稿では,ハイパーネットを用いたトークン混合MLPを動的に生成する,シンプルな変種HyperMixerを提案する。 実験により、我々のモデルは代替のMLPモデルよりも優れた性能を示し、トランスフォーマーと同等の性能を示す。 トランスフォーマーとは対照的に、ハイパーミキサーは処理時間、トレーニングデータ、ハイパーパラメータチューニングといった面で、これらをかなり低いコストで達成する。

Transformer-based architectures are the model of choice for natural language understanding, but they come at a significant cost, as they have quadratic complexity in the input length, require a lot of training data, and can be difficult to tune. In the pursuit of lower costs, we investigate simple MLP-based architectures. We find that existing architectures such as MLPMixer, which achieves token mixing through a static MLP applied to each feature independently, are too detached from the inductive biases required for natural language understanding. In this paper, we propose a simple variant, HyperMixer, which forms the token mixing MLP dynamically using hypernetworks. Empirically, we demonstrate that our model performs better than alternative MLP-based models, and on par with Transformers. In contrast to Transformers, HyperMixer achieves these results at substantially lower costs in terms of processing time, training data, and hyperparameter tuning.
翻訳日:2023-05-27 00:24:23 公開日:2023-05-25
# シングルタイムスケールアクター批判の小さなゲイン分析

A Small Gain Analysis of Single Timescale Actor Critic ( http://arxiv.org/abs/2203.02591v4 )

ライセンス: Link先を確認
Alex Olshevsky, Bahman Gharesifard(参考訳) 我々は,1ステップあたりの定常分布から1つのサンプルを用いて,比例したステップサイズと1つの批評家更新のみを使用するアクタ-クリティックの1バージョンについて検討する。 本手法は,小利得定理を用いて解析する。 具体的には,本手法が定常点を見つけるのに有効であることが証明され,結果として得られたサンプルの複雑さがアクター批判手法のテクニックの状態を$O \left(\mu^{-2} \epsilon^{-2} \right)$に改善し,批判に関連付けられた条件数である$\epsilon$-approximateの定常点を求める。

We consider a version of actor-critic which uses proportional step-sizes and only one critic update with a single sample from the stationary distribution per actor step. We provide an analysis of this method using the small-gain theorem. Specifically, we prove that this method can be used to find a stationary point, and that the resulting sample complexity improves the state of the art for actor-critic methods to $O \left(\mu^{-2} \epsilon^{-2} \right)$ to find an $\epsilon$-approximate stationary point where $\mu$ is the condition number associated with the critic.
翻訳日:2023-05-27 00:23:55 公開日:2023-05-25
# 超解像・異方性推定のための遠近光場

Disentangling Light Fields for Super-Resolution and Disparity Estimation ( http://arxiv.org/abs/2202.10603v3 )

ライセンス: Link先を確認
Yingqian Wang, Longguang Wang, Gaochang Wu, Jungang Yang, Wei An, Jingyi Yu, Yulan Guo(参考訳) 光フィールド(LF)カメラは光線の強度と方向の両方を記録し、3Dシーンを4DLF画像にエンコードする。 近年、さまざまなLF画像処理タスクに対して多くの畳み込みニューラルネットワーク(CNN)が提案されている。 しかし,空間的・角的な情報に相違があるため,CNNがLF画像を効果的に処理することは困難である。 本稿では,この結合した情報をLF画像処理のために切り離すための汎用メカニズムを提案する。 具体的には、まずドメイン固有の畳み込みのクラスを設計し、異なる次元からLFをアンタングルし、タスク固有のモジュールを設計することでこれらのアンタングル特徴を活用する。 我々の解離機構は、LF構造を予め組み込んで、4次元LFデータを効果的に扱うことができる。 提案手法に基づき,空間超解像・角超解像・不均質推定のための3つのネットワーク(DistgSSR,DistgASR,DistgDisp)を開発した。 実験の結果,ネットワークはこれら3つのタスクすべてに対して最先端の性能を達成し,この機構の有効性,効率,汎用性を実証した。 プロジェクトページ: https://yingqianwang.github.io/distglf/

Light field (LF) cameras record both intensity and directions of light rays, and encode 3D scenes into 4D LF images. Recently, many convolutional neural networks (CNNs) have been proposed for various LF image processing tasks. However, it is challenging for CNNs to effectively process LF images since the spatial and angular information are highly inter-twined with varying disparities. In this paper, we propose a generic mechanism to disentangle these coupled information for LF image processing. Specifically, we first design a class of domain-specific convolutions to disentangle LFs from different dimensions, and then leverage these disentangled features by designing task-specific modules. Our disentangling mechanism can well incorporate the LF structure prior and effectively handle 4D LF data. Based on the proposed mechanism, we develop three networks (i.e., DistgSSR, DistgASR and DistgDisp) for spatial super-resolution, angular super-resolution and disparity estimation. Experimental results show that our networks achieve state-of-the-art performance on all these three tasks, which demonstrates the effectiveness, efficiency, and generality of our disentangling mechanism. Project page: https://yingqianwang.github.io/DistgLF/.
翻訳日:2023-05-27 00:23:33 公開日:2023-05-25
# ポストホック概念記述はいつ可能か?

When are Post-hoc Conceptual Explanations Identifiable? ( http://arxiv.org/abs/2206.13872v4 )

ライセンス: Link先を確認
Tobias Leemann, Michael Kirchhof, Yao Rong, Enkelejda Kasneci, Gjergji Kasneci(参考訳) 概念的説明による学習された埋め込み空間の理解と分解への関心は着実に伸びている。 人間の概念ラベルが得られない場合、概念発見法は、オブジェクトの形や色といった解釈可能な概念のために訓練された埋め込み空間を探索し、意思決定のポストホックな説明を提供する。 従来の研究とは異なり、概念発見は特定可能であるべきであり、多くの既知の概念を証明して説明の信頼性を保証することができる。 出発点として, 概念発見と主成分分析, 独立成分分析などの古典的手法との関係を, 非ガウス分布を用いて独立概念を回復できることを示すことによって明確に示す。 本稿では,画像生成過程の関数的構成性を利用した2つの新しい手法を提案する。 私たちの実証可能な概念発見手法は、何百もの訓練されたモデルや依存する概念を含む実験のバッテリーでライバルより大幅に優れています。 この結果は,人間ラベルのない信頼性の高い概念発見のための厳密な基盤を提供する。

Interest in understanding and factorizing learned embedding spaces through conceptual explanations is steadily growing. When no human concept labels are available, concept discovery methods search trained embedding spaces for interpretable concepts like object shape or color that can be used to provide post-hoc explanations for decisions. Unlike previous work, we argue that concept discovery should be identifiable, meaning that a number of known concepts can be provably recovered to guarantee reliability of the explanations. As a starting point, we explicitly make the connection between concept discovery and classical methods like Principal Component Analysis and Independent Component Analysis by showing that they can recover independent concepts with non-Gaussian distributions. For dependent concepts, we propose two novel approaches that exploit functional compositionality properties of image-generating processes. Our provably identifiable concept discovery methods substantially outperform competitors on a battery of experiments including hundreds of trained models and dependent concepts, where they exhibit up to 29 % better alignment with the ground truth. Our results provide a rigorous foundation for reliable concept discovery without human labels.
翻訳日:2023-05-27 00:17:51 公開日:2023-05-25
# 軽度認知障害の変換予測のための不完全縦・マルチモーダルデータに基づくマルチビューインプットとクロスアテンションネットワーク

Multi-View Imputation and Cross-Attention Network Based on Incomplete Longitudinal and Multimodal Data for Conversion Prediction of Mild Cognitive Impairment ( http://arxiv.org/abs/2206.08019v2 )

ライセンス: Link先を確認
Tao Wang, Xiumei Chen, Xiaoling Zhang, Shuoling Zhou, Qianjin Feng and Meiyan Huang(参考訳) 軽度認知障害(MCI)患者がアルツハイマー病に転換するかどうかを予測することは重要な臨床的課題である。 縦・マルチモーダルデータに固有の経時変化と相補的情報は、MCI変換予測に不可欠であるが、これらのデータに欠落するデータの持続的問題は、それらの効果的な応用を妨げる可能性がある。 さらに、臨床における疾患進行の初期段階、特にベースライン訪問(bl)において、変換予測が達成されるべきである。 したがって, 病状進行情報を収集するためには, トレーニング中にのみ縦データを組み込む必要がある。 これらの課題に対処するために、データインプットとMCI変換予測を統合するために、MCNet(Multi-view imputation and Cross-attention Network)が提案された。 まず, 様々な欠落データシナリオを処理し, インプテーション誤差を低減するために, 逆学習と組み合わされた多視点インプテーション法を提案する。 第2に、2つのクロスアテンションブロックを導入し、長手およびマルチモーダルデータの潜在的な関連性を利用した。 最後に,データ計算,縦型分類,変換予測タスクのためのマルチタスク学習モデルを構築した。 モデルが適切に訓練された場合、長手データから得られた疾患進行情報をBLデータにより活用し、BLにおけるMCI変換予測を改善する。 MCNetは、MCI変換予測の有効性と柔軟性を検証するために、2つの独立したテストセットと単一モードBLデータでテストされた。 その結果、mcnetはいくつかの競合手法を上回った。 さらに,MCNetの解釈可能性を示した。 したがって、MCNetは、MCI変換予測のための長手およびマルチモーダルデータ解析において貴重なツールである可能性がある。 コードはhttps://github.com/Meiyan88/MCNETで入手できる。

Predicting whether subjects with mild cognitive impairment (MCI) will convert to Alzheimer's disease is a significant clinical challenge. Longitudinal variations and complementary information inherent in longitudinal and multimodal data are crucial for MCI conversion prediction, but persistent issue of missing data in these data may hinder their effective application. Additionally, conversion prediction should be achieved in the early stages of disease progression in clinical practice, specifically at baseline visit (BL). Therefore, longitudinal data should only be incorporated during training to capture disease progression information. To address these challenges, a multi-view imputation and cross-attention network (MCNet) was proposed to integrate data imputation and MCI conversion prediction in a unified framework. First, a multi-view imputation method combined with adversarial learning was presented to handle various missing data scenarios and reduce imputation errors. Second, two cross-attention blocks were introduced to exploit the potential associations in longitudinal and multimodal data. Finally, a multi-task learning model was established for data imputation, longitudinal classification, and conversion prediction tasks. When the model was appropriately trained, the disease progression information learned from longitudinal data can be leveraged by BL data to improve MCI conversion prediction at BL. MCNet was tested on two independent testing sets and single-modal BL data to verify its effectiveness and flexibility in MCI conversion prediction. Results showed that MCNet outperformed several competitive methods. Moreover, the interpretability of MCNet was demonstrated. Thus, our MCNet may be a valuable tool in longitudinal and multimodal data analysis for MCI conversion prediction. Codes are available at https://github.com/Meiyan88/MCNET.
翻訳日:2023-05-27 00:17:33 公開日:2023-05-25
# 不整合ラベルを用いたフェデレートマルチオルガンセグメンテーション

Federated Multi-organ Segmentation with Inconsistent Labels ( http://arxiv.org/abs/2206.07156v2 )

ライセンス: Link先を確認
Xuanang Xu, Hannah H. Deng, Jaime Gateno, Pingkun Yan(参考訳) フェデレーション学習は、異なるデータ所有者間でデータを共有することなく、大規模分散学習を可能にする新たなパラダイムであり、医療画像解析におけるデータのプライバシの懸念に対処するのに役立つ。 しかし、既存のメソッドによるクライアント間でのラベル一貫性の要求は、アプリケーションの範囲を大幅に制限します。 実際には、各臨床部位は他の部位と部分的にまたは全く重複しない特定の臓器にのみ注釈を付けることができる。 このような部分的なラベル付きデータを統合フェデレーションに組み込むことは、臨床的意義と緊急性を備えた未発見の問題である。 本研究は, 新規なFed-MENU (Federated Multi-Encoding U-Net) 法を多臓器セグメンテーションに適用することにより, 課題に対処する。 本手法では,異なるサブネットワークを用いて臓器特異的な特徴を抽出するために,マルチエンコードU-Net(MENU-Net)を提案する。 各サブネットワークは特定の組織の専門家と見なされ、そのクライアントのために訓練される。 さらに,異なるサブネットワークから抽出された臓器特有の特徴を情報的かつ独特なものにするために,補助的な汎用デコーダ(AGD)を設計することでMENU-Netのトレーニングを規則化する。 その結果,Fed-MENU法は局所学習法と集中学習法のいずれかによって訓練された他のモデルよりも優れた性能を有する部分ラベル付きデータセットを用いて,効果的にフェデレーション学習モデルを得ることができた。 ソースコードはhttps://github.com/DIAL-RPI/Fed-MENUで公開されている。

Federated learning is an emerging paradigm allowing large-scale decentralized learning without sharing data across different data owners, which helps address the concern of data privacy in medical image analysis. However, the requirement for label consistency across clients by the existing methods largely narrows its application scope. In practice, each clinical site may only annotate certain organs of interest with partial or no overlap with other sites. Incorporating such partially labeled data into a unified federation is an unexplored problem with clinical significance and urgency. This work tackles the challenge by using a novel federated multi-encoding U-Net (Fed-MENU) method for multi-organ segmentation. In our method, a multi-encoding U-Net (MENU-Net) is proposed to extract organ-specific features through different encoding sub-networks. Each sub-network can be seen as an expert of a specific organ and trained for that client. Moreover, to encourage the organ-specific features extracted by different sub-networks to be informative and distinctive, we regularize the training of the MENU-Net by designing an auxiliary generic decoder (AGD). Extensive experiments on six public abdominal CT datasets show that our Fed-MENU method can effectively obtain a federated learning model using the partially labeled datasets with superior performance to other models trained by either localized or centralized learning methods. Source code is publicly available at https://github.com/DIAL-RPI/Fed-MENU.
翻訳日:2023-05-27 00:17:03 公開日:2023-05-25
# 画像に基づく治療効果の不均一性

Image-based Treatment Effect Heterogeneity ( http://arxiv.org/abs/2206.06417v5 )

ライセンス: Link先を確認
Connor T. Jerzak, Fredrik Johansson, Adel Daoud(参考訳) ランダム化制御試験(RCTs)は、介入の平均治療効果(ATE)を推定するための金の標準と考えられている。 RCTの1つの用途は、世界の貧困の原因を研究することであり、2019年のノーベル賞で「世界の貧困を緩和するための実験的なアプローチ」としてドゥフロ、バネルジー、クレマーに与えられた。 ateは人口の要約であるため、反貧困実験は、rctデータ収集中に測定された年齢や民族といった表的な変数の条件付け(cate)によって、ate周辺の効果のばらつきを解き明かそうとすることが多い。 このような変数はCATEをアンパックする鍵となるが、実験の時間帯にしか観測されないため、歴史的、地理的、または近隣のコントリビュータが効果の変動を捉えるのに失敗することがある。 地球貧困研究において、実験ユニットの位置がほぼ分かっている場合、衛星画像は、異質性を理解する上で重要な要因の窓となる。 しかし、応用研究者が画像からCATEを解析できるようにする方法は存在しない。 本稿では, 深層確率モデルを用いて, 類似した処理効果分布の画像を同定し, 画像の潜在クラスタを推定する手法を提案する。 我々の解釈可能な画像CATEモデルは、効果クラスタ予測に寄与する画像セグメントの重要性を定量化する感度係数も含む。 提案手法をシミュレーションで比較し,本モデルが実際のRCTでどのように機能するかを示し, ウガンダ北部における反ポベルティ介入の効果を推定し, 実験データを収集しない国の他の地域に対する影響について, 後続の予測分布を求める。 すべてのモデルをオープンソースソフトウェアで利用できます。

Randomized controlled trials (RCTs) are considered the gold standard for estimating the average treatment effect (ATE) of interventions. One use of RCTs is to study the causes of global poverty -- a subject explicitly cited in the 2019 Nobel Memorial Prize awarded to Duflo, Banerjee, and Kremer "for their experimental approach to alleviating global poverty." Because the ATE is a population summary, anti-poverty experiments often seek to unpack the effect variation around the ATE by conditioning (CATE) on tabular variables such as age and ethnicity that were measured during the RCT data collection. Although such variables are key to unpacking CATE, using only such variables may fail to capture historical, geographical, or neighborhood-specific contributors to effect variation, as tabular RCT data are often only observed near the time of the experiment. In global poverty research, when the location of the experiment units is approximately known, satellite imagery can provide a window into such factors important for understanding heterogeneity. However, there is no method that specifically enables applied researchers to analyze CATE from images. In this paper, using a deep probabilistic modeling framework, we develop such a method that estimates latent clusters of images by identifying images with similar treatment effects distributions. Our interpretable image CATE model also includes a sensitivity factor that quantifies the importance of image segments contributing to the effect cluster prediction. We compare the proposed methods against alternatives in simulation; also, we show how the model works in an actual RCT, estimating the effects of an anti-poverty intervention in northern Uganda and obtaining a posterior predictive distribution over effects for the rest of the country where no experimental data was collected. We make all models available in open-source software.
翻訳日:2023-05-27 00:16:24 公開日:2023-05-25
# 音声から大うつ病の重症度を検出する:新しいハード・トレーニング法

Detecting the Severity of Major Depressive Disorder from Speech: A Novel HARD-Training Methodology ( http://arxiv.org/abs/2206.01542v2 )

ライセンス: Link先を確認
Edward L. Campbell, Judith Dineley, Pauline Conde, Faith Matcham, Femke Lamers, Sara Siddi, Laura Docio-Fernandez, Carmen Garcia-Mateo, Nicholas Cummins and the RADAR-CNS Consortium(参考訳) メジャー・うつ病(Major Depressive Disorder、MDD)は、社会経済的コストの高い世界的メンタルヘルス問題である。 したがって、MDDの予測と自動検出は社会に大きな影響を与える可能性がある。 非侵襲的で信号の収集が容易な音声は、MDDの診断と評価に役立つ有望なマーカーである。 この観点からは,大うつ病(radar-mdd)研究プログラムにおける遠隔診断の一環として,音声サンプルを収集した。 RADAR-MDDは、スペイン、イギリス、オランダにおけるMDDの歴史を持つ個人のコホートから、スピーチやその他のデジタルバイオマーカーを収集する観察的コホート研究である。 本稿では, RAAR-MDD音声コーパスを, 局所的な注意機構を持つシーケンス・ツー・シーケンスモデルの有効性を, 2階層の抑うつ重度分類パラダイムで検証するための実験的枠組みとして用いた。 また,新しいトレーニング手法であるHARD-Trainingを提案する。 モデル学習のためのより曖昧なサンプルの選択に基づく方法論であり、カリキュラム学習パラダイムに触発されたものである。 HARD-Training は平均 8.6% の増分で連続的に改善し,使用する2つの音声誘発タスクと RADAR-MDD 音声コーパスの各収集部位の分類器の性能が向上した。 本手法では, 言語によらずMDDの重大度を効果的に検出することができた。 最後に,潜在的なアルゴリズムバイアスに対する意識を高める必要性を認識し,性別別に結果のさらなる分析を行う。

Major Depressive Disorder (MDD) is a common worldwide mental health issue with high associated socioeconomic costs. The prediction and automatic detection of MDD can, therefore, make a huge impact on society. Speech, as a non-invasive, easy to collect signal, is a promising marker to aid the diagnosis and assessment of MDD. In this regard, speech samples were collected as part of the Remote Assessment of Disease and Relapse in Major Depressive Disorder (RADAR-MDD) research programme. RADAR-MDD was an observational cohort study in which speech and other digital biomarkers were collected from a cohort of individuals with a history of MDD in Spain, United Kingdom and the Netherlands. In this paper, the RADAR-MDD speech corpus was taken as an experimental framework to test the efficacy of a Sequence-to-Sequence model with a local attention mechanism in a two-class depression severity classification paradigm. Additionally, a novel training method, HARD-Training, is proposed. It is a methodology based on the selection of more ambiguous samples for the model training, and inspired by the curriculum learning paradigm. HARD-Training was found to consistently improve - with an average increment of 8.6% - the performance of our classifiers for both of two speech elicitation tasks used and each collection site of the RADAR-MDD speech corpus. With this novel methodology, our Sequence-to-Sequence model was able to effectively detect MDD severity regardless of language. Finally, recognising the need for greater awareness of potential algorithmic bias, we conduct an additional analysis of our results separately for each gender.
翻訳日:2023-05-27 00:15:56 公開日:2023-05-25
# 拡大ライセンスプレート認識のための異方性生成ネットワークと統一データセット

Disentangled Generation Network for Enlarged License Plate Recognition and A Unified Dataset ( http://arxiv.org/abs/2206.00859v2 )

ライセンス: Link先を確認
Chenglong Li, Xiaobin Yang, Guohao Wang, Aihua Zheng, Chang Tan, Ruoran Jia, and Jin Tang(参考訳) ライセンスプレートの認識は多くの実用化において重要な役割を担っているが、大型車両のライセンスプレートは、低分解能、汚染、低照度、閉塞などの要因により認識が困難である。 上記の要因を克服するため、運送管理部門は一般的に車両後部に拡大したナンバープレートを導入する。 しかし、拡大されたライセンスプレートは、位置、サイズ、スタイルが非標準であるため、多様性が高い。 さらに、背景領域には、ナンバープレート文字の認識を著しく乱す様々なノイズ情報が含まれている。 現存する研究は、この困難な問題を研究していない。 本研究では,まず,拡大したライセンスプレート認識問題に対処し,9342枚の画像を含むデータセットを作成し,実際のシーンの課題のほとんどをカバーする。 しかし、作成したデータでは、ライセンスプレートを広く認識する深い方法の訓練にはまだ不十分であり、大規模なトレーニングデータの構築は非常に時間がかかり、高い労働コストがかかる。 そこで本研究では,テキスト生成と背景生成をエンドツーエンドに切り離し,多様性と整合性を効果的に確保し,堅牢な拡張ライセンスプレート認識を実現するための,DGNet(Disentangled Generation Network)に基づくタスクレベル・アンタングル生成フレームワークを提案する。 作成したデータセットに対する大規模な実験を行い,提案手法の有効性を3つの代表的なテキスト認識フレームワークで示す。

License plate recognition plays a critical role in many practical applications, but license plates of large vehicles are difficult to be recognized due to the factors of low resolution, contamination, low illumination, and occlusion, to name a few. To overcome the above factors, the transportation management department generally introduces the enlarged license plate behind the rear of a vehicle. However, enlarged license plates have high diversity as they are non-standard in position, size, and style. Furthermore, the background regions contain a variety of noisy information which greatly disturbs the recognition of license plate characters. Existing works have not studied this challenging problem. In this work, we first address the enlarged license plate recognition problem and contribute a dataset containing 9342 images, which cover most of the challenges of real scenes. However, the created data are still insufficient to train deep methods of enlarged license plate recognition, and building large-scale training data is very time-consuming and high labor cost. To handle this problem, we propose a novel task-level disentanglement generation framework based on the Disentangled Generation Network (DGNet), which disentangles the generation into the text generation and background generation in an end-to-end manner to effectively ensure diversity and integrity, for robust enlarged license plate recognition. Extensive experiments on the created dataset are conducted, and we demonstrate the effectiveness of the proposed approach in three representative text recognition frameworks.
翻訳日:2023-05-27 00:15:33 公開日:2023-05-25
# SOM-CPC:高次時系列構造表現のための自己組織化マップを用いた教師なしコントラスト学習

SOM-CPC: Unsupervised Contrastive Learning with Self-Organizing Maps for Structured Representations of High-Rate Time Series ( http://arxiv.org/abs/2205.15875v2 )

ライセンス: Link先を確認
Iris A.M. Huijben, Arthur A. Nijdam, Sebastiaan Overeem, Merel M. van Gilst, Ruud J.G. van Sloun(参考訳) センサの数が増え続ける継続的監視は、多くのアプリケーションドメインで広く行われている。 しかし、取得した時系列は通常高次元で解釈が難しい。 表現型深層学習(DL)モデルは次元の減少に人気があるが、結果として生じる潜伏空間はしばしば解釈が困難である。 本研究では,高次元情報を保存しながら,組織化された2次元多様体内のデータを可視化するモデルSOM-CPCを提案する。 我々は、高レート時系列を含むほとんど探索されていない難解なシナリオに対処し、SOM-CPCがDLベースの特徴抽出などの強力なベースラインを上回り、続いて従来の次元削減技術、DLモデルと自己組織化マップ(SOM)を協調的に最適化するモデルを示す。 SOM-CPCは、高速データストリームにおける潜伏パターンをよりよく理解する可能性がある。

Continuous monitoring with an ever-increasing number of sensors has become ubiquitous across many application domains. However, acquired time series are typically high-dimensional and difficult to interpret. Expressive deep learning (DL) models have gained popularity for dimensionality reduction, but the resulting latent space often remains difficult to interpret. In this work we propose SOM-CPC, a model that visualizes data in an organized 2D manifold, while preserving higher-dimensional information. We address a largely unexplored and challenging set of scenarios comprising high-rate time series, and show on both synthetic and real-life data (physiological data and audio recordings) that SOM-CPC outperforms strong baselines like DL-based feature extraction, followed by conventional dimensionality reduction techniques, and models that jointly optimize a DL model and a Self-Organizing Map (SOM). SOM-CPC has great potential to acquire a better understanding of latent patterns in high-rate data streams.
翻訳日:2023-05-27 00:14:52 公開日:2023-05-25
# 深部ニューラルネットワークの加工・凍結部による次元低減訓練

Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep Neural Network, a Survey ( http://arxiv.org/abs/2205.08099v2 )

ライセンス: Link先を確認
Paul Wimmer, Jens Mehnert, Alexandru Paul Condurache(参考訳) 最先端のディープラーニングモデルには、数十億に達するパラメータ数がある。 このようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。 これらのコストの大部分は、ネットワークのトレーニングによるものです。 モデル圧縮は、ストレージと転送コストを低減し、前方および後方パスでの計算回数を減少させることで、トレーニングをさらに効率化する。 したがって、高い性能を維持しながらトレーニング時にもネットワークを圧縮することが重要な研究課題である。 本研究は,ディープラーニングモデルにおけるトレーニング中のトレーニング重み数を削減する手法に関する調査である。 導入されたほとんどのメソッドはネットワークパラメータを0に設定し、プルーニングと呼ばれる。 提案プルーニング手法は,初期化時のプルーニング,宝くじ,ダイナミックスパーストレーニングに分類される。 さらに,ネットワークの一部がランダム初期化時に凍結する手法について検討する。 重みを凍結することで、トレーニング可能なパラメータの数を縮小し、勾配計算とモデルの最適化空間の次元を減少させる。 本研究は,まず,訓練中の刈り取りと凍結を対象とする数学的モデルとして,次元性低減トレーニングを提案する。 その後,異なる次元性低減訓練法を提示し,議論する。

State-of-the-art deep learning models have a parameter count that reaches into the billions. Training, storing and transferring such models is energy and time consuming, thus costly. A big part of these costs is caused by training the network. Model compression lowers storage and transfer costs, and can further make training more efficient by decreasing the number of computations in the forward and/or backward pass. Thus, compressing networks also at training time while maintaining a high performance is an important research topic. This work is a survey on methods which reduce the number of trained weights in deep learning models throughout the training. Most of the introduced methods set network parameters to zero which is called pruning. The presented pruning approaches are categorized into pruning at initialization, lottery tickets and dynamic sparse training. Moreover, we discuss methods that freeze parts of a network at its random initialization. By freezing weights, the number of trainable parameters is shrunken which reduces gradient computations and the dimensionality of the model's optimization space. In this survey we first propose dimensionality reduced training as an underlying mathematical model that covers pruning and freezing during training. Afterwards, we present and discuss different dimensionality reduced training methods.
翻訳日:2023-05-27 00:14:32 公開日:2023-05-25
# より良い言語モデル事前学習のためのより良いマスキング

Learning Better Masking for Better Language Model Pre-training ( http://arxiv.org/abs/2208.10806v3 )

ライセンス: Link先を確認
Dongjie Yang, Zhuosheng Zhang, Hai Zhao(参考訳) Masked Language Modeling (MLM) は、事前学習言語モデル(PrLM)の認知目的として広く使われている。 既存のPrLMでは、トレーニング全体を通して一定のマスキング比を適用し、異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略が一般的である。 しかし、モデルはトレーニング前の状態から複雑な影響を受け、トレーニング時間が経つにつれて変化します。 本稿では,マスク率とマスキング内容の時間不変なMLM設定が最適結果をもたらす可能性は低いことを示し,時間不変なMLM設定の影響を探求する動機となる。 そこで本研究では,異なる学習段階におけるマスキング率とマスキング内容の適応的な調整を行い,下流課題における事前学習効率と有効性を向上させる2つのマスキング手法を提案する。 我々の研究は、時間変動マスキング戦略に関する先駆的な研究であり、マスキング比率とマスキングコンテンツがMLM事前学習にどのように影響するかをよりよく理解している。

Masked Language Modeling (MLM) has been widely used as the denoising objective in pre-training language models (PrLMs). Existing PrLMs commonly adopt a Random-Token Masking strategy where a fixed masking ratio is applied and different contents are masked by an equal probability throughout the entire training. However, the model may receive complicated impact from pre-training status, which changes accordingly as training time goes on. In this paper, we show that such time-invariant MLM settings on masking ratio and masked content are unlikely to deliver an optimal outcome, which motivates us to explore the influence of time-variant MLM settings. We propose two scheduled masking approaches that adaptively tune the masking ratio and masked content in different training stages, which improves the pre-training efficiency and effectiveness verified on the downstream tasks. Our work is a pioneer study on time-variant masking strategy on ratio and content and gives a better understanding of how masking ratio and masked content influence the MLM pre-training.
翻訳日:2023-05-27 00:07:14 公開日:2023-05-25
# lost in the shuffle: エラーの多いネットワーク頂点ラベルの存在下でのテストパワー

Lost in the Shuffle: Testing Power in the Presence of Errorful Network Vertex Labels ( http://arxiv.org/abs/2208.08638v4 )

ライセンス: Link先を確認
Ayushi Saxena and Vince Lyzinski(参考訳) 多くの2つのサンプルネットワーク仮説テスト手法は、ネットワーク間の頂点対応が既知であるという暗黙の仮定の下で動作する。 本稿では,ネットワーク間の不整合/ラベルシャッフルの頂点が存在する場合の2サンプルグラフ仮説テストにおけるパワー低下について考察する。 ランダムドット積と確率的ブロックモデルネットワークの文脈において、推定エッジ確率行列と隣接行列の間のFrobeniusノルム差に基づく一対の仮説テストのシャッフルによるパワー損失を理論的に探索する。 テストパワーの損失は、確率ブロックモデルとランダムドット積グラフモデルの両方において多くのシミュレーションや実験によってさらに強化され、最近提案された複数のテスト間でのパワー損失を比較する。 最後に、神経科学とソーシャルネットワーク分析の2つの例において、シャッフルが実データテストにもたらす影響を実証する。

Many two-sample network hypothesis testing methodologies operate under the implicit assumption that the vertex correspondence across networks is a priori known. In this paper, we consider the degradation of power in two-sample graph hypothesis testing when there are misaligned/label-shuffled vertices across networks. In the context of random dot product and stochastic block model networks, we theoretically explore the power loss due to shuffling for a pair of hypothesis tests based on Frobenius norm differences between estimated edge probability matrices or between adjacency matrices. The loss in testing power is further reinforced by numerous simulations and experiments, both in the stochastic block model and in the random dot product graph model, where we compare the power loss across multiple recently proposed tests in the literature. Lastly, we demonstrate the impact that shuffling can have in real-data testing in a pair of examples from neuroscience and from social network analysis.
翻訳日:2023-05-27 00:06:56 公開日:2023-05-25
# DICE:生成モデルを用いたデータ効率の良い臨床イベント抽出

DICE: Data-Efficient Clinical Event Extraction with Generative Models ( http://arxiv.org/abs/2208.07989v2 )

ライセンス: Link先を確認
Mingyu Derek Ma, Alexander K. Taylor, Wei Wang, Nanyun Peng(参考訳) 臨床領域のイベント抽出は、未調査の研究領域である。 曖昧なエンティティ境界を持つドメイン固有用語の大量さとともに、トレーニングデータの欠如は、タスクを特に困難にしている。 本稿では,臨床イベント抽出のための堅牢でデータ効率の良い生成モデルであるDICEを紹介する。 DICEは、イベント抽出を条件生成問題として捉え、バイオメディカル参照の境界を正確に決定する対照的な学習目標を導入する。 DICEはまた、イベント抽出タスクと共に補助的な参照識別タスクをトレーニングし、エンティティ参照境界をよりよく識別すると同時に、識別されたエンティティ参照をそれぞれのタスクのトリガーおよび引数候補として含めるための特別なマーカーも導入する。 臨床イベント抽出のベンチマークを行うため,既存の臨床情報抽出データセットであるMACCROBAT-EEをベースとした最初の臨床イベント抽出データセットであるMACCROBAT-EEを構成する。 臨床およびニュース領域イベント抽出におけるDICEの最先端性能を,特に低データ設定下で実証した。

Event extraction for the clinical domain is an under-explored research area. The lack of training data along with the high volume of domain-specific terminologies with vague entity boundaries makes the task especially challenging. In this paper, we introduce DICE, a robust and data-efficient generative model for clinical event extraction. DICE frames event extraction as a conditional generation problem and introduces a contrastive learning objective to accurately decide the boundaries of biomedical mentions. DICE also trains an auxiliary mention identification task jointly with event extraction tasks to better identify entity mention boundaries, and further introduces special markers to incorporate identified entity mentions as trigger and argument candidates for their respective tasks. To benchmark clinical event extraction, we compose MACCROBAT-EE, the first clinical event extraction dataset with argument annotation, based on an existing clinical information extraction dataset MACCROBAT. Our experiments demonstrate state-of-the-art performances of DICE for clinical and news domain event extraction, especially under low data settings.
翻訳日:2023-05-27 00:06:39 公開日:2023-05-25
# 曲面符号による非独立および非独立分布誤差の補正

Correcting non-independent and non-identically distributed errors with surface codes ( http://arxiv.org/abs/2208.02191v3 )

ライセンス: Link先を確認
Konstantin Tiurev, Peter-Jan H. S. Derks, Joschka Roffe, Jens Eisert, and Jan-Michael Reiner(参考訳) 量子誤り訂正符号の性能を研究する一般的なアプローチは、独立かつ同一に分散された単一ビット誤りを仮定することである。 しかし、利用可能な実験データによると、現代のマルチキュービットデバイスにおける現実的なエラーは、通常、キュービット間で独立でも同一でもない。 本研究では,既知の雑音構造に適応した位相曲面符号の特性をクリフォード共役によって開発・検討する。 局所的に一様でない単一ビット雑音に調整された曲面符号とスケーラブルな整合デコーダは、標準表面符号と比較して誤差閾値の増加とサブ閾値故障率の指数的抑制をもたらすことを示す。 さらに、局所的な2ビット雑音下での調整面符号の挙動について検討し、そのようなノイズの補正においてコード縮退が果たす役割を示す。 提案手法は, 量子ビット数やゲート数などのオーバーヘッドを伴わず, 標準整合デコーダを使用するため, 通常の表面符号誤り訂正に比べ, 余分なコストがかからない。

A common approach to studying the performance of quantum error correcting codes is to assume independent and identically distributed single-qubit errors. However, the available experimental data shows that realistic errors in modern multi-qubit devices are typically neither independent nor identical across qubits. In this work, we develop and investigate the properties of topological surface codes adapted to a known noise structure by Clifford conjugations. We show that the surface code locally tailored to non-uniform single-qubit noise in conjunction with a scalable matching decoder yields an increase in error thresholds and exponential suppression of sub-threshold failure rates when compared to the standard surface code. Furthermore, we study the behaviour of the tailored surface code under local two-qubit noise and show the role that code degeneracy plays in correcting such noise. The proposed methods do not require additional overhead in terms of the number of qubits or gates and use a standard matching decoder, hence come at no extra cost compared to the standard surface-code error correction.
翻訳日:2023-05-27 00:06:22 公開日:2023-05-25
# Claim-Dissector:ジョイントリグレードとVeracity予測を備えた解釈可能なFact-Checkingシステム

Claim-Dissector: An Interpretable Fact-Checking System with Joint Re-ranking and Veracity Prediction ( http://arxiv.org/abs/2207.14116v2 )

ライセンス: Link先を確認
Martin Fajcik, Petr Motlicek, Pavel Smrz(参考訳) ファクトチェックと分析のための新しい潜在変数モデルであり、クレームと検索されたエビデンスが共同で識別することを学ぶ。 (i)当該クレームに関連する証拠 (ii)クレームの妥当性。 本稿では,各証拠関連確率とその最終妥当性確率への寄与を解釈可能な方法で解き放つことを提案し,その最終的な妥当性確率は,各証拠関連確率の線形アンサンブルに比例する。 このようにして、最終的な予測確率に対する証拠の個々の寄与を特定できる。 このモデルでは,各証拠が(s) を支持しているか,(r) を反論しているか,さらに識別することができる。 これにより、S/R確率が最終的な判定にどの程度貢献するかを定量化したり、不一致の証拠を検出することができる。 その解釈可能な性質にもかかわらず、本システムはFEVERデータセットの最先端と競合する結果を、典型的な2段階のシステムパイプラインと比較して実現し、パラメータは大幅に少ない。 また、faviqとrealfcデータセットに新しい最先端を設定する。 さらに,我々のモデルでは,粗粒度監視を用いて細粒度関係の学習が可能であり,その2つの方法が示されている。 i)本モデルでは,段落レベルの関連性監視のみを用いながら,競争力のある文のリコールが可能であることを示す。 (ii) 妥当性の最も細かい粒度に目を向けると, このモデルはトークンレベルで妥当性を識別できることを示す。 そこで我々は,トークンレベルの解釈可能性に着目した新しいベンチマークTLR-FEVERを提案する。 そして、モデルが注目しているトークンにこれらのアノテーションがどの程度似ているかを測定します。

We present Claim-Dissector: a novel latent variable model for fact-checking and analysis, which given a claim and a set of retrieved evidences jointly learns to identify: (i) the relevant evidences to the given claim, (ii) the veracity of the claim. We propose to disentangle the per-evidence relevance probability and its contribution to the final veracity probability in an interpretable way -- the final veracity probability is proportional to a linear ensemble of per-evidence relevance probabilities. In this way, the individual contributions of evidences towards the final predicted probability can be identified. In per-evidence relevance probability, our model can further distinguish whether each relevant evidence is supporting (S) or refuting (R) the claim. This allows to quantify how much the S/R probability contributes to the final verdict or to detect disagreeing evidence. Despite its interpretable nature, our system achieves results competitive with state-of-the-art on the FEVER dataset, as compared to typical two-stage system pipelines, while using significantly fewer parameters. It also sets new state-of-the-art on FAVIQ and RealFC datasets. Furthermore, our analysis shows that our model can learn fine-grained relevance cues while using coarse-grained supervision, and we demonstrate it in 2 ways. (i) We show that our model can achieve competitive sentence recall while using only paragraph-level relevance supervision. (ii) Traversing towards the finest granularity of relevance, we show that our model is capable of identifying relevance at the token level. To do this, we present a new benchmark TLR-FEVER focusing on token-level interpretability -- humans annotate tokens in relevant evidences they considered essential when making their judgment. Then we measure how similar are these annotations to the tokens our model is focusing on.
翻訳日:2023-05-27 00:06:02 公開日:2023-05-25
# 欠測データを用いた深層学習一般化線形モデル

Deeply-Learned Generalized Linear Models with Missing Data ( http://arxiv.org/abs/2207.08911v2 )

ライセンス: Link先を確認
David K Lim and Naim U Rashid and Junier B Oliva and Joseph G Ibrahim(参考訳) 深層学習法(deep learning, dl)は近年急速に普及し, 生物医学における学習問題を監督する分野への応用が著しい成長を遂げている。 しかし、現代のバイオメディカルデータセットにおける欠落データの存在率と複雑さは、DL法に重大な課題をもたらしている。 本稿では,回帰問題と分類問題のための教師付きdlアーキテクチャである深層学習型線形モデルの文脈における欠落データの形式的扱いについて述べる。 本稿では,入力機能と学習時の応答の欠如の無知パターンと無知パターンの両方を柔軟に説明できる新しいアーキテクチャである「textit{dlglm}」を提案する。 統計的シミュレーションにより,MNARの欠落の有無に関わらず,教師あり学習課題に対する既存手法よりも優れていることを示す。 UCI Machine Learning Repositoryのバンクマーケティングデータセットのケーススタディで、電話調査データに基づいてクライアントが製品に加入するかどうかを予測する。 この記事の補足資料はオンラインで入手できる。

Deep Learning (DL) methods have dramatically increased in popularity in recent years, with significant growth in their application to supervised learning problems in the biomedical sciences. However, the greater prevalence and complexity of missing data in modern biomedical datasets present significant challenges for DL methods. Here, we provide a formal treatment of missing data in the context of deeply learned generalized linear models, a supervised DL architecture for regression and classification problems. We propose a new architecture, \textit{dlglm}, that is one of the first to be able to flexibly account for both ignorable and non-ignorable patterns of missingness in input features and response at training time. We demonstrate through statistical simulation that our method outperforms existing approaches for supervised learning tasks in the presence of missing not at random (MNAR) missingness. We conclude with a case study of a Bank Marketing dataset from the UCI Machine Learning Repository, in which we predict whether clients subscribed to a product based on phone survey data. Supplementary materials for this article are available online.
翻訳日:2023-05-27 00:05:17 公開日:2023-05-25
# 潜在ドメイン予測型ニューラル音声符号化

Latent-Domain Predictive Neural Speech Coding ( http://arxiv.org/abs/2207.08363v2 )

ライセンス: Link先を確認
Xue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu(参考訳) neural audio/speech codingは、従来の方法よりもずっと低いビットレートで高品質を提供する能力を示している。 しかし、既存のニューラルオーディオ/音声コーデックは、符号化のための畳み込みニューラルネットワークを備えた音響的特徴または学習的ブラインド特徴のいずれかを用いており、符号化された特徴の中にはまだ時間的冗長性がある。 本稿では,VQ-VAEフレームワークに潜時領域予測符号を導入し,その冗長性を完全に除去し,低遅延音声符号化のためのTF-Codecを提案する。 具体的には、過去の量子化潜在フレームからの予測に基づいて抽出された特徴を符号化し、時間相関をさらに除去する。 さらに、時間周波数入力に学習可能な圧縮を導入し、異なるビットレートで主周波数や詳細に対する注意を適応的に調整する。 距離-ソフトマッピングとGumbel-Softmaxに基づく微分可能ベクトル量子化法を提案し,遅延分布を速度制約でモデル化する。 多言語音声データセットにおける主観的な結果から,提案するtf-codecは1kbpsで9kbpsで,tf-codecは3kbpsで2つのevを9.6kbpsで,opusは12kbpsでそれぞれ上回った。 これらの技術の有効性を示すために多くの研究がなされている。

Neural audio/speech coding has recently demonstrated its capability to deliver high quality at much lower bitrates than traditional methods. However, existing neural audio/speech codecs employ either acoustic features or learned blind features with a convolutional neural network for encoding, by which there are still temporal redundancies within encoded features. This paper introduces latent-domain predictive coding into the VQ-VAE framework to fully remove such redundancies and proposes the TF-Codec for low-latency neural speech coding in an end-to-end manner. Specifically, the extracted features are encoded conditioned on a prediction from past quantized latent frames so that temporal correlations are further removed. Moreover, we introduce a learnable compression on the time-frequency input to adaptively adjust the attention paid to main frequencies and details at different bitrates. A differentiable vector quantization scheme based on distance-to-soft mapping and Gumbel-Softmax is proposed to better model the latent distributions with rate constraint. Subjective results on multilingual speech datasets show that, with low latency, the proposed TF-Codec at 1 kbps achieves significantly better quality than Opus at 9 kbps, and TF-Codec at 3 kbps outperforms both EVS at 9.6 kbps and Opus at 12 kbps. Numerous studies are conducted to demonstrate the effectiveness of these techniques.
翻訳日:2023-05-27 00:05:01 公開日:2023-05-25
# DGraph: グラフ異常検出のための大規模財務データセット

DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection ( http://arxiv.org/abs/2207.03579v3 )

ライセンス: Link先を確認
Xuanwen Huang, Yang Yang, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, Lei Chen, Michalis Vazirgiannis(参考訳) グラフ異常検出(GAD)はその実用性と理論的価値から最近ホットな研究スポットとなっている。 GADは異常サンプルの応用と希少性を強調するため、そのデータセットの多様性を豊かにすることは基本的な作業である。 そこで本稿では,金融分野における実世界の動的グラフであるdgraphを提案する。 DGraphは、現在のGADデータセットの多くの制限を克服する。 約3Mノード、4Mダイナミックエッジ、1Mグランドトラスノードを含む。 dgraphの包括的観察を行い、異常ノードと正常ノードは一般に異なる構造、近傍分布、時間的ダイナミクスを有することを明らかにした。 さらに,未ラベルノードは不正行為の検出にも不可欠であることを示す。 さらに,DGraphについて広範な実験を行った。 観察と実験により、dgraphはgad研究を前進させ、異常ノードの詳細な探索を可能にする。

Graph Anomaly Detection (GAD) has recently become a hot research spot due to its practicability and theoretical value. Since GAD emphasizes the application and the rarity of anomalous samples, enriching the varieties of its datasets is fundamental work. Thus, this paper present DGraph, a real-world dynamic graph in the finance domain. DGraph overcomes many limitations of current GAD datasets. It contains about 3M nodes, 4M dynamic edges, and 1M ground-truth nodes. We provide a comprehensive observation of DGraph, revealing that anomalous nodes and normal nodes generally have different structures, neighbor distribution, and temporal dynamics. Moreover, it suggests that unlabeled nodes are also essential for detecting fraudsters. Furthermore, we conduct extensive experiments on DGraph. Observation and experiments demonstrate that DGraph is propulsive to advance GAD research and enable in-depth exploration of anomalous nodes.
翻訳日:2023-05-27 00:04:16 公開日:2023-05-25
# 時間的ビデオグラウンドにおける事前学習言語モデルのパラメータ効率向上に向けて

Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding ( http://arxiv.org/abs/2209.13359v2 )

ライセンス: Link先を確認
Erica K. Shimomoto, Edison Marrese-Taylor, Hiroya Takamura, Ichiro Kobayashi, Hideki Nakayama, Yusuke Miyao(参考訳) 本稿では,未編集のビデオと自然言語文のクエリが与えられた場合,そのクエリによって記述されたビデオ内のアクションインスタンスの時間的境界を認識し,決定することを目的とした,TVG(Temporal Video Grounding)の課題について検討する。 最近の研究は、より高価なトレーニングコストで大規模事前学習言語モデル(PLM)によるクエリ入力を改善することで、この問題に対処している。 しかし、これらの作業は視覚入力の改善も提案しているため、この統合の効果は明らかではない。 そこで本研究では,TVGにおけるPLMの効果について検討し,NLPアダプタを用いたパラメータ効率訓練の適用性を評価する。 一般的なplmと既存のアプローチを組み合わせることで、追加パラメータの影響を減らすために異なるアダプタをテストする。 3つの挑戦的データセットの結果から,TVGモデルは視覚的入力を変更することなく,PLM統合と微調整の恩恵を受け,このタスクにおける文クエリ表現の重要性を強調した。 さらに、NLPアダプタは、我々のタスクに適合せず、より大きなTVGモデルにPLMを統合することができ、SOTAモデルに匹敵する結果を提供できるにもかかわらず、完全な微調整に代わる効果的な代替品であった。 最後に、我々の結果は、どのアダプタが異なるシナリオで最もうまく機能するかを明らかにしました。

This paper explores the task of Temporal Video Grounding (TVG) where, given an untrimmed video and a natural language sentence query, the goal is to recognize and determine temporal boundaries of action instances in the video described by the query. Recent works tackled this task by improving query inputs with large pre-trained language models (PLM) at the cost of more expensive training. However, the effects of this integration are unclear, as these works also propose improvements in the visual inputs. Therefore, this paper studies the effects of PLMs in TVG and assesses the applicability of parameter-efficient training with NLP adapters. We couple popular PLMs with a selection of existing approaches and test different adapters to reduce the impact of the additional parameters. Our results on three challenging datasets show that, without changing the visual inputs, TVG models greatly benefited from the PLM integration and fine-tuning, stressing the importance of sentence query representation in this task. Furthermore, NLP adapters were an effective alternative to full fine-tuning, even though they were not tailored to our task, allowing PLM integration in larger TVG models and delivering results comparable to SOTA models. Finally, our results shed light on which adapters work best in different scenarios.
翻訳日:2023-05-26 23:58:23 公開日:2023-05-25
# 医療・医用画像分析における公正性の進展と展望

Progress and Prospects for Fairness in Healthcare and Medical Image Analysis ( http://arxiv.org/abs/2209.13177v5 )

ライセンス: Link先を確認
Zikang Xu, Jun Li, Qingsong Yao, S. Kevin Zhou(参考訳) 機械学習を利用した医療画像解析は、現在の自動診断システムにおいて重要な部分となっている。 しかし、機械学習モデルは、例えば、年配の女性に悪い予測性能を与えるような、ある種のサブグループに対する体系的な偏見を示すことが示されている。 このような敏感な領域では有害で危険であるため、研究者は一般的な機械学習分野における公平性問題に対処するバイアス軽減アルゴリズムの開発に取り組んでいる。 しかし, 医用画像の特徴を考慮すれば, 医療用画像解析(MedIA)の公平性にはさらなる努力が必要である。 そこで本調査では, フェアネス研究の現在の動向と, メディアにおけるその状況について概観する。 具体的には、まず公平さの定義を議論し、医療画像におけるバイアスの原因を分析する。 そこで我々は,MedIAの公正性に関する現在の研究について論じ,また,MedIAの公正性を評価するために利用可能な公開医療画像データセットのコレクションについて述べる。 さらに, 分類, 物体検出, ランドマーク検出など, 医療画像における様々なタスクの公平性を評価するために, 広範囲にわたる実験を行った。 最後に,フェアメディア開発における課題と今後の方向性について論じる。

Machine learning-enabled medical imaging analysis has become a vital part of the current automatic diagnosis system. However, machine learning models have been shown to demonstrate a systematic bias towards certain subgroups of people, e.g., giving a worse predictive performance to old females. It is harmful and dangerous in such a sensitive area and therefore researchers have been working on developing bias mitigation algorithms to address the fairness issue in the general machine learning field. However, given the specific characteristics of medical imaging, fairness in medical image analysis (MedIA) requires additional efforts. Hence, in this survey, we give a comprehensive review of the current progress of fairness study and that in MedIA. Specifically, we first discuss the definitions of fairness and analyze the source of bias in medical imaging. Then, we discuss current research on fairness for MedIA and present a collection of public medical imaging datasets that can be used for evaluating fairness in MedIA. Furthermore, we conduct extensive experiments to evaluate the fairness of several different tasks for medical imaging, including classification, object detection, and landmark detection. Finally, we discuss the challenges and potential future directions in developing fair MedIA.
翻訳日:2023-05-26 23:58:01 公開日:2023-05-25
# 教師なし強化学習ベンチマークをPixelからマスターする

Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels ( http://arxiv.org/abs/2209.12016v2 )

ライセンス: Link先を確認
Sai Rajeswar, Pietro Mazzaglia, Tim Verbelen, Alexandre Pich\'e, Bart Dhoedt, Aaron Courville, Alexandre Lacoste(参考訳) 視覚感覚データから人工エージェントを制御するのは大変な作業だ。 強化学習(RL)アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。 問題を緩和するために、教師なしのRLは、将来のタスクに迅速に適応するために、自己教師付きインタラクションと学習を採用することを提案する。 しかし、Unsupervised RL Benchmark (URLB; Laskin et al. 2021) で示されているように、現在の教師なし戦略が一般化能力を改善するかどうかはまだ不明である。 本研究では, エージェントを事前学習するための教師なしモデルベースrlと, 新たに提案されたハイブリッドプランナーdyna-mpcを組み合わせたタスクアウェア微調整戦略を用いて, エージェントを下流タスクに適応させる新しい手法を提案する。 URLBでは,従来の基準値を上回る93.59%の正規化性能が得られた。 このアプローチは大規模な実証的研究を通じて実証的に評価され、設計選択の検証とモデル解析に使用しています。 また、Real-Word RLベンチマークでは、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。 プロジェクトウェブサイト: https://masteringurlb.github.io/

Controlling artificial agents from visual sensory data is an arduous task. Reinforcement learning (RL) algorithms can succeed but require large amounts of interactions between the agent and the environment. To alleviate the issue, unsupervised RL proposes to employ self-supervised interaction and learning, for adapting faster to future tasks. Yet, as shown in the Unsupervised RL Benchmark (URLB; Laskin et al. 2021), whether current unsupervised strategies can improve generalization capabilities is still unclear, especially in visual control settings. In this work, we study the URLB and propose a new method to solve it, using unsupervised model-based RL, for pre-training the agent, and a task-aware fine-tuning strategy combined with a new proposed hybrid planner, Dyna-MPC, to adapt the agent for downstream tasks. On URLB, our method obtains 93.59% overall normalized performance, surpassing previous baselines by a staggering margin. The approach is empirically evaluated through a large-scale empirical study, which we use to validate our design choices and analyze our models. We also show robust performance on the Real-Word RL benchmark, hinting at resiliency to environment perturbations during adaptation. Project website: https://masteringurlb.github.io/
翻訳日:2023-05-26 23:57:44 公開日:2023-05-25
# 量子誤差補正における論理ポーリ雑音の学習

Learning logical Pauli noise in quantum error correction ( http://arxiv.org/abs/2209.09267v2 )

ライセンス: Link先を確認
Thomas Wagner, Hermann Kampermann, Dagmar Bru{\ss} and Martin Kliesch(参考訳) 量子デバイスのキャラクタリゼーションは実用的実装には不可欠であるが、実験や古典的ポストプロセッシングではコストがかかる。 したがって、特定のアプリケーションに関連する情報のみを計測し、追加の労力をほとんど要しないプロトコルを開発することが望ましい。 本研究では,安定化型量子誤差補正の文脈における量子コンピュータの特性評価に注目する。 任意の安定化符号、サブシステム符号、データシンドローム符号に対して、パウリノイズによって引き起こされる論理的エラーチャネルを最小条件下でのシンドロームデータから推定できることを示す。 より正確には、そのようなコードに対して、コードがノイズを補正できる限り、推定が可能であることを示す。

The characterization of quantum devices is crucial for their practical implementation but can be costly in experimental effort and classical postprocessing. Therefore, it is desirable to measure only the information that is relevant for specific applications and develop protocols that require little additional effort. In this work, we focus on the characterization of quantum computers in the context of stabilizer quantum error correction. For arbitrary stabilizer codes, subsystem codes, and data syndrome codes, we prove that the logical error channel induced by Pauli noise can be estimated from syndrome data under minimal conditions. More precisely, for any such code, we show that the estimation is possible as long as the code can correct the noise.
翻訳日:2023-05-26 23:57:23 公開日:2023-05-25
# Q-learning Decision Transformer: オフラインRLにおける条件列モデリングのための動的プログラミングの活用

Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL ( http://arxiv.org/abs/2209.03993v4 )

ライセンス: Link先を確認
Taku Yamagata, Ahmed Khalil and Raul Santos-Rodriguez (Intelligent System Laboratory, University of Bristol)(参考訳) 近年の研究では、オフライン強化学習(RL)に条件付きポリシーを組み込むことが有望な結果をもたらすことが示されている。 Decision Transformer (DT)は条件付きポリシーアプローチとトランスフォーマーアーキテクチャを組み合わせることで、いくつかのベンチマークに対する競合性能を示す。 しかし、DTは縫合能力に欠けており、オフラインのRLが準最適軌道から最適なポリシーを学ぶための重要な能力の1つである。 この問題は、オフラインデータセットが準最適軌道のみを含む場合、特に重要になる。 一方、動的プログラミング(q-learningなど)に基づく従来のrlアプローチは、同じ制限を持たないが、不安定な学習行動、特にオフポリシー学習環境における関数近似に依存する場合には、問題となる。 本稿では、動的プログラミング(Q-learning)の利点を利用して、DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。 動的プログラミングの結果を利用して、トレーニングデータの戻り行をリラベルし、再ラベルされたデータでdtをトレーニングする。 我々のアプローチは、これらの2つのアプローチの利点を効果的に活用し、より良いパフォーマンスを達成するために互いの欠点を補う。 単純な玩具環境とより複雑なD4RLベンチマークの両方でこれを実証的に示す。

Recent works have shown that tackling offline reinforcement learning (RL) with a conditional policy produces promising results. The Decision Transformer (DT) combines the conditional policy approach and a transformer architecture, showing competitive performance against several benchmarks. However, DT lacks stitching ability -- one of the critical abilities for offline RL to learn the optimal policy from sub-optimal trajectories. This issue becomes particularly significant when the offline dataset only contains sub-optimal trajectories. On the other hand, the conventional RL approaches based on Dynamic Programming (such as Q-learning) do not have the same limitation; however, they suffer from unstable learning behaviours, especially when they rely on function approximation in an off-policy learning setting. In this paper, we propose the Q-learning Decision Transformer (QDT) to address the shortcomings of DT by leveraging the benefits of Dynamic Programming (Q-learning). It utilises the Dynamic Programming results to relabel the return-to-go in the training data to then train the DT with the relabelled data. Our approach efficiently exploits the benefits of these two approaches and compensates for each other's shortcomings to achieve better performance. We empirically show these in both simple toy environments and the more complex D4RL benchmark, showing competitive performance gains.
翻訳日:2023-05-26 23:57:10 公開日:2023-05-25
# テンソルネットワークを用いたスケーラブルでフレキシブルな古典影トモグラフィ

Scalable and Flexible Classical Shadow Tomography with Tensor Networks ( http://arxiv.org/abs/2209.02093v3 )

ライセンス: Link先を確認
Ahmed A. Akhtar, Hong-Ye Hu, Yi-Zhuang You(参考訳) 古典的シャドウトモグラフィーは量子状態の多くの特性をほとんど測定せずに予測するための強力なランダム化測定プロトコルである。 2つの古典的なシャドープロトコルは、局所作用素の予測には適しているが大きな作用素には非効率な単一量子ビット(局所)パウリ測定と、広いゲートオーバヘッドのため短期量子デバイスでは実現不可能である低ランク作用素にとって効率的であるグローバルクリフォード測定である。 本研究では, 有限深部局所クリフォードランダムユニタリ回路を用いて, パウリとクリフォード測定の限界を補間する汎用ランダム化計測のためのスケーラブルな古典的シャドウトモグラフィー手法を実証する。 この手法は,最近提案された局所スクランブル型古典影トモグラフィフレームワークとテンソルネットワーク技術を組み合わせて,古典影再構成マップの計算と様々な物理特性の評価を行う。 従来のシャドウトモグラフィーは、サンプリング効率が優れ、ゲートオーバーヘッドが最小であり、ノイズの多い中間スケール量子(NISQ)デバイスに親しみやすい浅い量子回路上で行うことができる。 浅回路計測プロトコルは,準局所作用素予測のためのpauli測定プロトコルよりも,即時かつ指数関数的に有利であることを示す。 また、パウリの測定よりも効率的な忠実度推定を可能にする。

Classical shadow tomography is a powerful randomized measurement protocol for predicting many properties of a quantum state with few measurements. Two classical shadow protocols have been extensively studied in the literature: the single-qubit (local) Pauli measurement, which is well suited for predicting local operators but inefficient for large operators; and the global Clifford measurement, which is efficient for low-rank operators but infeasible on near-term quantum devices due to the extensive gate overhead. In this work, we demonstrate a scalable classical shadow tomography approach for generic randomized measurements implemented with finite-depth local Clifford random unitary circuits, which interpolates between the limits of Pauli and Clifford measurements. The method combines the recently proposed locally-scrambled classical shadow tomography framework with tensor network techniques to achieve scalability for computing the classical shadow reconstruction map and evaluating various physical properties. The method enables classical shadow tomography to be performed on shallow quantum circuits with superior sample efficiency and minimal gate overhead and is friendly to noisy intermediate-scale quantum (NISQ) devices. We show that the shallow-circuit measurement protocol provides immediate, exponential advantages over the Pauli measurement protocol for predicting quasi-local operators. It also enables a more efficient fidelity estimation compared to the Pauli measurement.
翻訳日:2023-05-26 23:56:46 公開日:2023-05-25
# テンソルトレインを用いた深部重要なサンプリングと前兆および後遺症事象推定への応用

Deep importance sampling using tensor trains with application to a priori and a posteriori rare event estimation ( http://arxiv.org/abs/2209.01941v2 )

ライセンス: Link先を確認
Tiangang Cui, Sergey Dolgov, Robert Scheichl(参考訳) 本研究では,高次元問題における希少事象確率推定に適した重要度サンプリング手法を提案する。 次数保存変換の合成による基準分布のプッシュフォワードとして, 一般重要サンプリング問題における最適重要度分布を近似し, それぞれの変換を2乗テンソル-トレイン分解により生成する。 2乗テンソル-トレイン分解は、密度近似による秩序保存高次元変換を構築するためのスケーラブルなアンサッツを提供する。 架橋密度の列に沿って移動する地図の組成を使用することで、集中密度関数を直接近似する困難さが軽減される。 本研究では,非正規化確率分布に対する期待値を計算するために,テンソル-トレイン形式の変換の合成によって構築した,別の重要分布を用いて正規化定数を推定する比推定器を設計する。 これにより、自己正規化重要度サンプリングよりも理論的な分散の低減が得られ、ベイズ推論問題における稀な事象確率の効率的な計算への扉を開くことができる。 微分方程式に制約された問題に関する数値実験では、事象確率がゼロとなると計算複雑性がほとんど増減せず、複雑で高次元の後方密度に対して稀な事象確率の予測が不可能となる。

We propose a deep importance sampling method that is suitable for estimating rare event probabilities in high-dimensional problems. We approximate the optimal importance distribution in a general importance sampling problem as the pushforward of a reference distribution under a composition of order-preserving transformations, in which each transformation is formed by a squared tensor-train decomposition. The squared tensor-train decomposition provides a scalable ansatz for building order-preserving high-dimensional transformations via density approximations. The use of composition of maps moving along a sequence of bridging densities alleviates the difficulty of directly approximating concentrated density functions. To compute expectations over unnormalized probability distributions, we design a ratio estimator that estimates the normalizing constant using a separate importance distribution, again constructed via a composition of transformations in tensor-train format. This offers better theoretical variance reduction compared with self-normalized importance sampling, and thus opens the door to efficient computation of rare event probabilities in Bayesian inference problems. Numerical experiments on problems constrained by differential equations show little to no increase in the computational complexity with the event probability going to zero, and allow to compute hitherto unattainable estimates of rare event probabilities for complex, high-dimensional posterior densities.
翻訳日:2023-05-26 23:56:20 公開日:2023-05-25
# 外心的視点からの接地代

Grounded Affordance from Exocentric View ( http://arxiv.org/abs/2208.13196v2 )

ライセンス: Link先を確認
Hongchen Luo, Wei Zhai, Jing Zhang, Yang Cao, Dacheng Tao(参考訳) affordance groundingは、オブジェクトの"アクションの可能性"領域を見つけることを目的としている。 インタラクティブなアベイランスの多様性のため、異なる個人の特徴は多様な相互作用をもたらすため、オブジェクト部品とアベイランスラベルの間に明確なリンクを確立することは困難である。 人間は様々なエキゾセントリックな相互作用を、インタラクティブな多様性の影響に対抗するために不変のエゴセントリックな余裕に変える能力を持っている。 そこで本稿では, エージェントの能力を高めるために, 対人中心のインタラクションと自我中心のオブジェクトイメージを付与し, 対象物の空想知識を学習し, 空想ラベルのみを監督として, 自我中心のイメージに転送するタスクを提案する。 しかしながら、主に異なる地域と異なる視点に関して、ペルソナの間には「相互作用バイアス」がある。 この目的のために私たちは,外心的インタラクションからアフォーアンス特有の特徴を抽出し,エゴセントリックな視点に伝達する,クロスビューアフォーアンス知識伝達フレームワークを考案する。 具体的には、アフォーアンス・コリレーションを保存することにより、アフォーアンス領域の認識を高める。 さらに、36ドルのアプライアンスカテゴリから20万以上のイメージを収集し、ラベル付けすることで、agd20kというアプライアンスグラウンドデータセットを構築する。 実験の結果,本手法は客観的指標と視覚品質に代表されるモデルよりも優れていた。 コードはhttps://github.com/lhc1224/cross-view-affordance-groundingでリリースされる。

Affordance grounding aims to locate objects' "action possibilities" regions, which is an essential step toward embodied intelligence. Due to the diversity of interactive affordance, the uniqueness of different individuals leads to diverse interactions, which makes it difficult to establish an explicit link between object parts and affordance labels. Human has the ability that transforms the various exocentric interactions into invariant egocentric affordance to counter the impact of interactive diversity. To empower an agent with such ability, this paper proposes a task of affordance grounding from exocentric view, i.e., given exocentric human-object interaction and egocentric object images, learning the affordance knowledge of the object and transferring it to the egocentric image using only the affordance label as supervision. However, there is some "interaction bias" between personas, mainly regarding different regions and different views. To this end, we devise a cross-view affordance knowledge transfer framework that extracts affordance-specific features from exocentric interactions and transfers them to the egocentric view. Specifically, the perception of affordance regions is enhanced by preserving affordance co-relations. In addition, an affordance grounding dataset named AGD20K is constructed by collecting and labeling over 20K images from $36$ affordance categories. Experimental results demonstrate that our method outperforms the representative models regarding objective metrics and visual quality. Code is released at https://github.com/lhc1224/Cross-view-affordance-grounding.
翻訳日:2023-05-26 23:55:56 公開日:2023-05-25
# CMD:相互蒸留を用いた自己教師型3次元行動表現学習

CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation ( http://arxiv.org/abs/2208.12448v3 )

ライセンス: Link先を確認
Yunyao Mao, Wengang Zhou, Zhenbo Lu, Jiajun Deng, Houqiang Li(参考訳) 3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。 それでも、この情報をモデル化し活用する方法は、自己教師付き3次元行動表現学習において難しい問題である。 本研究では,双方向知識蒸留問題としてクロスモーダル相互作用を定式化する。 教師の知識を学生に伝達する古典的な蒸留ソリューションとは異なり、この研究では、知識は継続的に更新され、モダリティ間で双方向に蒸留される。 そこで,本稿では,以下の設計のクロスモーダル相互蒸留(cmd)フレームワークを提案する。 一方, 類似度分布は, 各モードで学習した知識をモデル化するために導入され, リレーショナル情報は対照的なフレームワークに自然に適合する。 一方, 教師と学生は, 蒸留工程を安定させ, モダリティ間で高信頼情報を伝達するために非対称な構成を用いる。 導出により、過去の作品における相互正の鉱業は、我々のCMDの劣化版とみなすことができる。 我々は,NTU RGB+D 60,NTU RGB+D 120,PKU-MMD IIデータセットについて広範な実験を行った。 提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。 コードはhttps://github.com/maoyunyao/cmdで入手できる。

In 3D action recognition, there exists rich complementary information between skeleton modalities. Nevertheless, how to model and utilize this information remains a challenging problem for self-supervised 3D action representation learning. In this work, we formulate the cross-modal interaction as a bidirectional knowledge distillation problem. Different from classic distillation solutions that transfer the knowledge of a fixed and pre-trained teacher to the student, in this work, the knowledge is continuously updated and bidirectionally distilled between modalities. To this end, we propose a new Cross-modal Mutual Distillation (CMD) framework with the following designs. On the one hand, the neighboring similarity distribution is introduced to model the knowledge learned in each modality, where the relational information is naturally suitable for the contrastive frameworks. On the other hand, asymmetrical configurations are used for teacher and student to stabilize the distillation process and to transfer high-confidence information between modalities. By derivation, we find that the cross-modal positive mining in previous works can be regarded as a degenerated version of our CMD. We perform extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD II datasets. Our approach outperforms existing self-supervised methods and sets a series of new records. The code is available at: https://github.com/maoyunyao/CMD
翻訳日:2023-05-26 23:55:27 公開日:2023-05-25
# モバイルデバイス上でのリアルタイム画像デノーミングに向けた軽量ネットワーク

Lightweight network towards real-time image denoising on mobile devices ( http://arxiv.org/abs/2211.04687v2 )

ライセンス: Link先を確認
Zhuoqun Liu and Meiguang Jin and Ying Chen and Huaida Liu and Canqian Yang and Hongkai Xiong(参考訳) 深層畳み込みニューラルネットワークは、画像復調タスクにおいて大きな進歩を遂げている。 しかし、複雑なアーキテクチャと計算コストがモバイルデバイスへのデプロイメントを妨げる。 軽量デノゲーションネットワークの設計における最近の取り組みは、FLOP(floating-point operation)の削減とパラメータ数の削減に重点を置いている。 しかしながら、これらのメトリクスはデバイス上のレイテンシに直接相関しない。 本稿では,CNNベースのモバイル端末における実行時の性能に影響を及ぼす真のボトルネック,すなわちメモリアクセスコストとNPU非互換な操作を特定し,それに基づいてモデルを構築する。 さらにデノージング性能を向上させるため,モバイルフレンドリーなアテンションモジュールmfaとモデルリパラメータモジュールrepconvを提案し,低レイテンシと優れたデノージング性能を両立させた。 そこで本稿では,モバイルフレンドリーなデノベーションネットワークであるMFDNetを提案する。 実験の結果,mfdnetはリアルタイム遅延下でsiddとdndのリアルタイムデノイジングベンチマークで最先端のパフォーマンスを達成していることがわかった。 コードと事前訓練されたモデルがリリースされる。

Deep convolutional neural networks have achieved great progress in image denoising tasks. However, their complicated architectures and heavy computational cost hinder their deployments on mobile devices. Some recent efforts in designing lightweight denoising networks focus on reducing either FLOPs (floating-point operations) or the number of parameters. However, these metrics are not directly correlated with the on-device latency. In this paper, we identify the real bottlenecks that affect the CNN-based models' run-time performance on mobile devices: memory access cost and NPU-incompatible operations, and build the model based on these. To further improve the denoising performance, the mobile-friendly attention module MFA and the model reparameterization module RepConv are proposed, which enjoy both low latency and excellent denoising performance. To this end, we propose a mobile-friendly denoising network, namely MFDNet. The experiments show that MFDNet achieves state-of-the-art performance on real-world denoising benchmarks SIDD and DND under real-time latency on mobile devices. The code and pre-trained models will be released.
翻訳日:2023-05-26 23:48:01 公開日:2023-05-25
# 自然言語による論理推論によるゼロショット分類

Zero-Shot Classification by Logical Reasoning on Natural Language Explanations ( http://arxiv.org/abs/2211.03252v2 )

ライセンス: Link先を確認
Chi Han, Hengzhi Pei, Xinya Du, Heng Ji(参考訳) 人間は、言語の説明に基づいて、目に見えないカテゴリのデータを分類することができる。 この能力は言語の合成の性質によるもので、以前の属性を組み合わせて新しいカテゴリを記述することができる。 例えば、sage thrasher は、"スリムなストレートな、比較的短い、黄色い目と長い尾を持っている"と表現できるので、他の人は、sage thrasher を認識するために、"slim straight relative short bill" 、"yellow eyes" 、"long tail" といった属性の知識を使うことができる。 この観察に触発されて,本研究では自然言語展開の論理的解析と推論によりゼロショット分類タスクに取り組む。 そこで本研究では,CLORE (LOGical Reasoning on Explanations) というフレームワークを提案する。 従来の手法ではテキスト情報を暗黙的な特徴とみなすことが多いが、CLOREは説明を論理構造に解析し、入力のthess構造に沿って明示的に理由を解析して分類スコアを生成する。 説明に基づくゼロショット分類ベンチマークによる実験の結果,cloreはベースラインよりも優れていることが示された。 また,視覚的モダリティのゼロショット分類にも拡張可能であることを示す。 分類決定の他に、CLOREは論理解析と推論プロセスを明確な論理形式として提供することができる。 経験的分析を通して、CLOREはベースラインよりも言語バイアスの影響を受けないことを示した。

Humans can classify data of an unseen category by reasoning on its language explanations. This ability is owing to the compositional nature of language: we can combine previously seen attributes to describe the new category. For example, we might describe a sage thrasher as "it has a slim straight relatively short bill, yellow eyes and a long tail", so that others can use their knowledge of attributes "slim straight relatively short bill", "yellow eyes" and "long tail" to recognize a sage thrasher. Inspired by this observation, in this work we tackle zero-shot classification task by logically parsing and reasoning on natural language expla-nations. To this end, we propose the framework CLORE (Classification by LOgical Reasoning on Explanations). While previous methods usually regard textual information as implicit features, CLORE parses explanations into logical structures and then explicitly reasons along thess structures on the input to produce a classification score. Experimental results on explanation-based zero-shot classification benchmarks demonstrate that CLORE is superior to baselines, which we further show mainly comes from higher scores on tasks requiring more logical reasoning. We also demonstrate that our framework can be extended to zero-shot classification on visual modality. Alongside classification decisions, CLORE can provide the logical parsing and reasoning process as a clear form of rationale. Through empirical analysis we demonstrate that CLORE is also less affected by linguistic biases than baselines.
翻訳日:2023-05-26 23:47:40 公開日:2023-05-25
# 小児集団に対する深部成体肺分画モデルの一般化 : 回顧的研究

Generalizability of Deep Adult Lung Segmentation Models to the Pediatric Population: A Retrospective Study ( http://arxiv.org/abs/2211.02475v2 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Feng Yang, Ghada Zamzmi, Zhiyun Xue, and Sameer Antani(参考訳) 臨床診断支援システムにおいて,胸部X線(CXRs)の肺分画は心肺疾患の診断の特異性を改善する重要な前提条件である。 現在の肺分画の深層学習モデルはCXRデータセットを用いて訓練され評価され、X線投影は成体から主に捉えられる。 しかし, 幼少期から成人期にかけて, 肺の形状は発達段階によって大きく異なることが報告されている。 これは、成人人口に訓練されたモデルが小児の肺分画のために配備された場合に、肺分画性能に悪影響を及ぼす年齢関連データ領域シフトをもたらす可能性がある。 この作業では、私たちの目標は (i)小児集団に対する深部成体肺分画モデルの一般化可能性の検討 (II)CXRモダリティ特異的ウェイト初期化,積み重ねアンサンブル,積み重ねアンサンブルのアンサンブルからなる段階的,体系的なアプローチにより性能を向上させる。 セグメンテーション性能と一般化性を評価するため,マルチスケール構造類似度指標(MS-SSIM),ユニオンの交点(IoU),ディーススコア(Dice score),95%ハウスドルフ距離(HD95),平均対称表面距離(ASSD)に加えて,平均肺輪郭距離(MLCD)と平均ハッシュスコア(AHS)からなる新しい評価指標を提案する。 提案手法によるクロスドメイン一般化では,有意な改善(p < 0.05)が認められた。 本研究は、他の医用画像モダリティおよび応用のためのディープセグメンテーションモデルのクロスドメイン一般化可能性を分析するパラダイムとして機能する可能性がある。

Lung segmentation in chest X-rays (CXRs) is an important prerequisite for improving the specificity of diagnoses of cardiopulmonary diseases in a clinical decision support system. Current deep learning models for lung segmentation are trained and evaluated on CXR datasets in which the radiographic projections are captured predominantly from the adult population. However, the shape of the lungs is reported to be significantly different across the developmental stages from infancy to adulthood. This might result in age-related data domain shifts that would adversely impact lung segmentation performance when the models trained on the adult population are deployed for pediatric lung segmentation. In this work, our goal is to (i) analyze the generalizability of deep adult lung segmentation models to the pediatric population and (ii) improve performance through a stage-wise, systematic approach consisting of CXR modality-specific weight initializations, stacked ensembles, and an ensemble of stacked ensembles. To evaluate segmentation performance and generalizability, novel evaluation metrics consisting of mean lung contour distance (MLCD) and average hash score (AHS) are proposed in addition to the multi-scale structural similarity index measure (MS-SSIM), the intersection of union (IoU), Dice score, 95% Hausdorff distance (HD95), and average symmetric surface distance (ASSD). Our results showed a significant improvement (p < 0.05) in cross-domain generalization through our approach. This study could serve as a paradigm to analyze the cross-domain generalizability of deep segmentation models for other medical imaging modalities and applications.
翻訳日:2023-05-26 23:47:12 公開日:2023-05-25
# クロスアテンションによる姿勢検出のための文脈情報統合

Contextual information integration for stance detection via cross-attention ( http://arxiv.org/abs/2211.01874v2 )

ライセンス: Link先を確認
Tilman Beck, Andreas Waldis, Iryna Gurevych(参考訳) 姿勢検出は、ターゲットに対する著者の姿勢を特定することを扱う。 既存の姿勢検出モデルは、適切な姿勢推定を可能にする関連する文脈情報を考慮していないため、ほとんどが制限されている。 補完的な文脈は知識ベースで見られるが、標準知識ベースのグラフ構造のため、事前学習された言語モデルにコンテキストを統合することは自明ではない。 これを解決するために,構造化知識源などの異種情報源からの文脈情報の統合や,大規模言語モデルの導入により,文脈情報をテキストとして統合する手法を検討する。 本手法は,多様で多様な姿勢検出ベンチマークにおいて,訓練中の目標を対象とするクロスターゲット設定において,競合ベースラインを上回ることができる。 ノイズの多い文脈に対してより頑健であり、ラベルとターゲット固有の語彙の間の望ましくない相関関係を規則化できることを実証する。 最後に、使用中の事前学習された言語モデルとは独立している。

Stance detection deals with identifying an author's stance towards a target. Most existing stance detection models are limited because they do not consider relevant contextual information which allows for inferring the stance correctly. Complementary context can be found in knowledge bases but integrating the context into pretrained language models is non-trivial due to the graph structure of standard knowledge bases. To overcome this, we explore an approach to integrate contextual information as text which allows for integrating contextual information from heterogeneous sources, such as structured knowledge sources and by prompting large language models. Our approach can outperform competitive baselines on a large and diverse stance detection benchmark in a cross-target setup, i.e. for targets unseen during training. We demonstrate that it is more robust to noisy context and can regularize for unwanted correlations between labels and target-specific vocabulary. Finally, it is independent of the pretrained language model in use.
翻訳日:2023-05-26 23:46:41 公開日:2023-05-25
# ガウスデータベースの相関検出とアライメント回復について

On Correlation Detection and Alignment Recovery of Gaussian Databases ( http://arxiv.org/abs/2211.01069v2 )

ライセンス: Link先を確認
Ran Tamir(参考訳) 本研究では,2つのガウスデータベース間の相関検出と部分的アライメント回復の連立問題を効率的に解く2段階アルゴリズムを提案する。 相関検出は仮説テスト問題であり、ヌル仮説の下ではデータベースは独立であり、代替仮説では未知の行置換の下で相関する。 我々は,タイプIとタイプIIの誤差確率のバウンダリを開発し,解析された検出器が最近提案した検出器よりも高い性能を示すことを示す。 提案した検出器は、従属指標の確率変数の和である統計に依存するので、タイプIの誤差確率を束縛するために、そのような統計の$k$-次モーメントを束縛する新しいグラフ理論手法を開発する。 データベースが関連付けられると、アルゴリズムは与えられたデータベース間の部分的アライメントを回復する。 さらに2つのアルゴリズムを提案します (i)部分アライメント回復のためのもう1つのアルゴリズムは、最初に提案されたアルゴリズムよりも信頼性と計算の複雑さの両方が高い。 二 最適回復手順と比較して計算量の削減と誤差確率の低さを図った完全整列回復アルゴリズム。

In this work, we propose an efficient two-stage algorithm solving a joint problem of correlation detection and partial alignment recovery between two Gaussian databases. Correlation detection is a hypothesis testing problem; under the null hypothesis, the databases are independent, and under the alternate hypothesis, they are correlated, under an unknown row permutation. We develop bounds on the type-I and type-II error probabilities, and show that the analyzed detector performs better than a recently proposed detector, at least for some specific parameter choices. Since the proposed detector relies on a statistic, which is a sum of dependent indicator random variables, then in order to bound the type-I probability of error, we develop a novel graph-theoretic technique for bounding the $k$-th order moments of such statistics. When the databases are accepted as correlated, the algorithm also recovers some partial alignment between the given databases. We also propose two more algorithms: (i) One more algorithm for partial alignment recovery, whose reliability and computational complexity are both higher than those of the first proposed algorithm. (ii) An algorithm for full alignment recovery, which has a reduced amount of calculations and a not much lower error probability, when compared to the optimal recovery procedure.
翻訳日:2023-05-26 23:46:25 公開日:2023-05-25
# ディック超放射能は近傍近傍の相互作用を必要とする

Dicke superradiance requires interactions beyond nearest-neighbors ( http://arxiv.org/abs/2211.00668v2 )

ライセンス: Link先を確認
Wai-Keong Mok, Ana Asenjo-Garcia, Tze Chien Sum, Leong-Chuan Kwek(参考訳) 光子を媒介とするエミッタの励起アンサンブル内の相互作用はディック超放射能を生じさせ、発光速度は大幅に向上し、短時間で高強度バーストとして現れる。 超ラジアントバーストは、エミッター間の長距離相互作用を持つ系で一般的に観測されるが、最小相互作用範囲は未知である。 そこで, 補助ハミルトニアンのスペクトル半径を上限にすることで, 最大放射率を制限する新しい理論的手法を提案する。 このツールを用いて、任意の順序列に対して、すべての次元において最も近い隣り合う相互作用しか持たないことを証明する。 ディック超放射能は、次のアネレスト-隣の相互作用を最小限に含める必要があることを示す。 指数関数的に崩壊する相互作用では、臨界カップリングは全ての次元のエミッターの数とは漸近的に独立しており、その結果、集合的な強化がデコヒーレンス効果とバランスをとるしきい値相互作用範囲を定義する。 本研究は,多体量子系における集団崩壊の理解と,エネルギー収穫や量子センシングなどの応用のための物理系における超ラジアント放出の設計に関する重要な物理知見を提供する。

Photon-mediated interactions within an excited ensemble of emitters can result in Dicke superradiance, where the emission rate is greatly enhanced, manifesting as a high-intensity burst at short times. The superradiant burst is most commonly observed in systems with long-range interactions between the emitters, although the minimal interaction range remains unknown. Here, we put forward a new theoretical method to bound the maximum emission rate by upper bounding the spectral radius of an auxiliary Hamiltonian. We harness this tool to prove that for an arbitrary ordered array with only nearest-neighbor interactions in all dimensions, a superradiant burst is not physically observable. We show that Dicke superradiance requires minimally the inclusion of next-nearest-neighbor interactions. For exponentially decaying interactions, the critical coupling is found to be asymptotically independent of the number of emitters in all dimensions, thereby defining the threshold interaction range where the collective enhancement balances out the decoherence effects. Our findings provide key physical insights to the understanding of collective decay in many-body quantum systems, and the designing of superradiant emission in physical systems for applications such as energy harvesting and quantum sensing.
翻訳日:2023-05-26 23:46:05 公開日:2023-05-25
# ランダム発話結合に基づく短ビデオ音声認識改善のためのデータ拡張

Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech Recognition ( http://arxiv.org/abs/2210.15876v2 )

ライセンス: Link先を確認
Yist Y. Lin, Tao Han, Haihua Xu, Van Tung Pham, Yerbolat Khassanov, Tze Yuang Chong, Yi He, Lu Lu, Zejun Ma(参考訳) エンドツーエンド自動音声認識(ASR)フレームワークの制限の1つは、列車-テスト発話長が一致しない場合、その性能が損なわれることである。 本稿では,短ビデオASRタスクにおける列車-テスト発話長ミスマッチ問題を軽減するために,オンザフライランダム発話結合(RUC)に基づくデータ拡張手法を提案する。 具体的には、人間が書き起こした訓練発話は、短時間の自発音声(平均3秒)よりずっと短い傾向にあるが、音声活動検出フロントエンドから発生するテスト発話は、より長い(平均10秒)。 このようなミスマッチは、最適でないパフォーマンスにつながる可能性がある。 実験により,提案手法は,短時間で性能低下を伴わずに,長い発話認識を大幅に改善することがわかった。 全体として、15言語の平均単語誤り率を5.72%削減し、様々な発話長に対する堅牢性を改善した。

One of limitations in end-to-end automatic speech recognition (ASR) framework is its performance would be compromised if train-test utterance lengths are mismatched. In this paper, we propose an on-the-fly random utterance concatenation (RUC) based data augmentation method to alleviate train-test utterance length mismatch issue for short-video ASR task. Specifically, we are motivated by observations that our human-transcribed training utterances tend to be much shorter for short-video spontaneous speech (~3 seconds on average), while our test utterance generated from voice activity detection front-end is much longer (~10 seconds on average). Such a mismatch can lead to suboptimal performance. Empirically, it's observed the proposed RUC method significantly improves long utterance recognition without performance drop on short one. Overall, it achieves 5.72% word error rate reduction on average for 15 languages and improved robustness to various utterance length.
翻訳日:2023-05-26 23:45:41 公開日:2023-05-25
# 非構造データモデリングのための連続畳み込み学習型フィルタ

A Continuous Convolutional Trainable Filter for Modelling Unstructured Data ( http://arxiv.org/abs/2210.13416v3 )

ライセンス: Link先を確認
Dario Coscia, Laura Meneghetti, Nicola Demo, Giovanni Stabile, Gianluigi Rozza(参考訳) 畳み込みニューラルネットワーク(CNN)はディープラーニングにおいて最も重要なアーキテクチャの一つである。 cnnの基本構成ブロックは、離散グリッドとして表現され、離散入力データで畳み込みを実行するために使用される訓練可能なフィルタである。 本研究では,非構造化データでも動作可能なトレーニング可能な畳み込みフィルタの連続バージョンを提案する。 この新しいフレームワークは、多くの複雑な問題に対するこの重要な学習テクニックの使用を拡大し、個別のドメインを越えてcnnを探索することを可能にする。 実験により,連続フィルタは最先端の離散フィルタに匹敵する精度を実現でき,非構造化領域の問題を解決するためのビルディングブロックとして,現在のディープラーニングアーキテクチャで使用できることを示した。

Convolutional Neural Network (CNN) is one of the most important architectures in deep learning. The fundamental building block of a CNN is a trainable filter, represented as a discrete grid, used to perform convolution on discrete input data. In this work, we propose a continuous version of a trainable convolutional filter able to work also with unstructured data. This new framework allows exploring CNNs beyond discrete domains, enlarging the usage of this important learning technique for many more complex problems. Our experiments show that the continuous filter can achieve a level of accuracy comparable to the state-of-the-art discrete filter, and that it can be used in current deep learning architectures as a building block to solve problems with unstructured domains as well.
翻訳日:2023-05-26 23:45:19 公開日:2023-05-25
# Code4Struct:Few-Shotイベント構造予測のためのコード生成

Code4Struct: Code Generation for Few-Shot Event Structure Prediction ( http://arxiv.org/abs/2210.12810v2 )

ライセンス: Link先を確認
Xingyao Wang, Sha Li, Heng Ji(参考訳) 大言語モデル(LLM)は、自然言語(NL)を構造化コードに翻訳する際、テキストとコードの混合で訓練された。 セマンティック構造がコードに便利に変換できることを観察し、このようなテキストから構造への変換機能を活用して、構造化予測タスクに取り組むCode4Structを提案する。 ケーススタディとして、テキストをコードを使ってクラスオブジェクトとして表現できるイベントアグリゲーション構造に変換するイベント引数抽出(eae)を定式化する。 この構造とコードのアライメントにより、継承や型アノテーションといったプログラミング言語(pl)の機能を利用して、外部の知識の導入や制約の追加を可能にします。 テキストベースのプロンプトの変種を使用するよりも,EAEをコード生成問題として定式化する方が有利であることを示す。 イベントタイプ毎に20のトレーニングイベントインスタンスのみを使用するにもかかわらず、Code4Structは4,202のインスタンスでトレーニングされた教師付きモデルに匹敵し、20ショットデータで29.5%の絶対F1でトレーニングされた現在のSOTA(State-of-the-art)を上回っている。 Code4Structは、兄弟イベントタイプからの10ショットトレーニングデータを使用して、ゼロリソースイベントタイプの引数を予測し、ゼロショットベースラインを12%の絶対F1で上回る。

Large Language Model (LLM) trained on a mixture of text and code has demonstrated impressive capability in translating natural language (NL) into structured code. We observe that semantic structures can be conveniently translated into code and propose Code4Struct to leverage such text-to-structure translation capability to tackle structured prediction tasks. As a case study, we formulate Event Argument Extraction (EAE) as converting text into event-argument structures that can be represented as a class object using code. This alignment between structures and code enables us to take advantage of Programming Language (PL) features such as inheritance and type annotation to introduce external knowledge or add constraints. We show that, with sufficient in-context examples, formulating EAE as a code generation problem is advantageous over using variants of text-based prompts. Despite only using 20 training event instances for each event type, Code4Struct is comparable to supervised models trained on 4,202 instances and outperforms current state-of-the-art (SOTA) trained on 20-shot data by 29.5% absolute F1. Code4Struct can use 10-shot training data from a sibling event type to predict arguments for zero-resource event types and outperforms the zero-shot baseline by 12% absolute F1.
翻訳日:2023-05-26 23:45:07 公開日:2023-05-25
# MEGAN: マルチ説明グラフアテンションネットワーク

MEGAN: Multi-Explanation Graph Attention Network ( http://arxiv.org/abs/2211.13236v2 )

ライセンス: Link先を確認
Jonas Teufel, Luca Torresi, Patrick Reiser, Pascal Friederich(参考訳) 本稿では,マルチエクスラレーショングラフアテンションネットワーク(MEGAN)を提案する。 既存のグラフ説明可能性手法とは異なり、ネットワークは複数のチャネルに沿ってノードとエッジの帰属説明を生成でき、その数はタスク仕様とは独立している。 これはグラフ回帰予測の解釈性を改善するために重要であることが証明され、説明は基準値にw.r.tと負の証拠に分割できる。 さらに,注意に基づくネットワークは完全に微分可能であり,説明を指導した方法で積極的に訓練することができる。 まず, 既知基底説明を用いた合成グラフ回帰データセットを用いて, モデルを検証する。 本研究のネットワークは, 説明監督中にほぼ完全な説明精度を達成し, 単項および複数説明事例の既存のベースライン説明可能性手法よりも優れていた。 最後に、複数の実世界のデータセットでモデルの能力を実証する。 我々は,これらの課題に対する人間の直感と一致した,まばらな高忠実度説明を生成する。

We propose a multi-explanation graph attention network (MEGAN). Unlike existing graph explainability methods, our network can produce node and edge attributional explanations along multiple channels, the number of which is independent of task specifications. This proves crucial to improve the interpretability of graph regression predictions, as explanations can be split into positive and negative evidence w.r.t to a reference value. Additionally, our attention-based network is fully differentiable and explanations can actively be trained in an explanation-supervised manner. We first validate our model on a synthetic graph regression dataset with known ground-truth explanations. Our network outperforms existing baseline explainability methods for the single- as well as the multi-explanation case, achieving near-perfect explanation accuracy during explanation supervision. Finally, we demonstrate our model's capabilities on multiple real-world datasets. We find that our model produces sparse high-fidelity explanations consistent with human intuition about those tasks.
翻訳日:2023-05-26 23:39:26 公開日:2023-05-25
# RobustLoc:運転環境におけるロバストカメラポッドの回帰

RobustLoc: Robust Camera Pose Regression in Challenging Driving Environments ( http://arxiv.org/abs/2211.11238v4 )

ライセンス: Link先を確認
Sijie Wang, Qiyu Kang, Rui She, Wee Peng Tay, Andreas Hartmannsgruber, Diego Navarro Navarro(参考訳) カメラのリローカライゼーションは自動運転に様々な応用がある。 従来のカメラポーズ回帰モデルは、環境摂動がほとんどない理想的なシナリオのみを考える。 季節, 天気, 照明, 不安定な物体の存在に変化をもたらす可能性のある運転環境に対処するため, ニューラル微分方程式からの摂動に対する頑健さを導出するRobostLocを提案する。 本モデルでは,多視点画像から特徴地図を抽出する畳み込みニューラルネットワーク,インタラクティブに情報を拡散するロバストなニューラルネットワーク方程式拡散ブロックモジュール,多層トレーニングによる分岐ポーズデコーダを用いて車両のポーズ推定を行う。 実験により、ロバストロックは現在の最先端カメラの回帰モデルを超え、様々な環境で堅牢な性能を達成することが示された。 私たちのコードは、https://github.com/sijieaaa/RobustLocでリリースされています。

Camera relocalization has various applications in autonomous driving. Previous camera pose regression models consider only ideal scenarios where there is little environmental perturbation. To deal with challenging driving environments that may have changing seasons, weather, illumination, and the presence of unstable objects, we propose RobustLoc, which derives its robustness against perturbations from neural differential equations. Our model uses a convolutional neural network to extract feature maps from multi-view images, a robust neural differential equation diffusion block module to diffuse information interactively, and a branched pose decoder with multi-layer training to estimate the vehicle poses. Experiments demonstrate that RobustLoc surpasses current state-of-the-art camera pose regression models and achieves robust performance in various environments. Our code is released at: https://github.com/sijieaaa/RobustLoc
翻訳日:2023-05-26 23:38:51 公開日:2023-05-25
# バイアスゼロのスカラー不変量ネットワーク

Scalar Invariant Networks with Zero Bias ( http://arxiv.org/abs/2211.08486v2 )

ライセンス: Link先を確認
Chuqin Geng, Xiaojie Xu, Haolin Ye, Xujie Si(参考訳) weightsと同じく、バイアス項はニューラルネットワークを含む多くの一般的な機械学習モデルの学習可能なパラメータである。 バイアスは、コンピュータビジョンの幅広いタスクを解決するために、ニューラルネットワークの表現力を効果的に増加させると考えられている。 しかし、入力空間における画像の本質的な分布と、モデルが第一原理から持つべき所望の特性を考えると、画像分類などの多くの画像関連課題に対処する際にバイアスは完全に無視できる。 我々の観察では、ゼロバイアスニューラルネットワークは、少なくとも実用的な画像分類タスクにおいてバイアスのあるニューラルネットワークと相容れない性能を示す。 さらに,ゼロバイアスニューラルネットワークがスカラー(乗算)不変性と呼ばれる優れた特性を持っていることを証明し,入力画像のコントラストを変更する場合,ニューラルネットワークの予測が同じであることを示す。 次にスカラー不変性をより一般的なケースに拡張し、入力空間のある種の凸領域を正式に検証する。 さらに、ゼロ画像の予測におけるゼロバイアスニューラルネットワークの公平性を示す。 特定のラベルに傾いている最先端のモデルとは対照的に、ゼロバイアスニューラルネットワークはすべてのラベルに対して一様である。 これらのメリットに基づいて、バイアス項を下げることは、畳み込みを超国家的不変性(transnational invariance)として適用する精神を共有するcvタスクのためのニューラルネットワークアーキテクチャを設計する上で、事前のものであると考えることができる。

Just like weights, bias terms are the learnable parameters of many popular machine learning models, including neural networks. Biases are believed to effectively increase the representational power of neural networks to solve a wide range of tasks in computer vision. However, we argue that if we consider the intrinsic distribution of images in the input space as well as some desired properties a model should have from the first principles, biases can be completely ignored in addressing many image-related tasks, such as image classification. Our observation indicates that zero-bias neural networks could perform comparably to neural networks with bias at least on practical image classification tasks. In addition, we prove that zero-bias neural networks possess a nice property called scalar (multiplication) invariance, which allows the prediction of neural networks remains the same when altering the contrast of the input image. We then extend scalar invariance to more general cases that allow us to formally verify certain convex regions of the input space. Besides that, we show the fairness of zero-bias neural networks in predicting the zero image. In contrast to the state-of-art models which lean towards certain labels, zero-bias neural networks have a uniform belief in all labels. Based on those merits, we believe dropping bias terms can be considered as a prior in designing neural network architecture for some CV tasks, which shares the spirit of adapting convolutions as the transnational invariance prior.
翻訳日:2023-05-26 23:38:35 公開日:2023-05-25
# ディープニューラルネットワークによる一般化バランス重み付け

Generalized Balancing Weights via Deep Neural Networks ( http://arxiv.org/abs/2211.07533v5 )

ライセンス: Link先を確認
Yoshiaki Kitazawa(参考訳) 観測データから因果効果を推定することは、多くの領域において中心的な問題である。 一般的なアプローチは、データの分布がランダム化を模倣するような重みと共変量のバランスをとることである。 本稿では,神経バランス重み (neural balancing weights, nbw) を一般化し, 離散的および連続的介入の混合による因果効果を推定する。 f$-divergenceの変動表現を最適化することにより, 源と平衡分布の密度比を直接推定し, 重みを得た。 このために、サンプル複雑性が基底真理値や偏りのないミニバッチ勾配とは無関係な推定子を持つため、効率的な最適化を示すために、$\alpha$-divergenceを選択した。 さらに,バランスウェイトの一般化性能の向上と,バランスウェイトによって変化する分布のバランスの確認という,バランスウェイトの推定方法を提案する。 最後に,多次元データのバランスをとる際の次元の呪いの一般的な問題として,重みのサンプルサイズ要件について考察する。 本研究は,変分$f$-divergencesを用いて多次元データのバランス重みを推定するための基礎的アプローチを提供する。

Estimating causal effects from observational data is a central problem in many domains. A general approach is to balance covariates with weights such that the distribution of the data mimics randomization. We present generalized balancing weights, Neural Balancing Weights (NBW), to estimate the causal effects of an arbitrary mixture of discrete and continuous interventions. The weights were obtained through direct estimation of the density ratio between the source and balanced distributions by optimizing the variational representation of $f$-divergence. For this, we selected $\alpha$-divergence as it presents efficient optimization because it has an estimator whose sample complexity is independent of its ground truth value and unbiased mini-batch gradients; moreover, it is advantageous for the vanishing-gradient problem. In addition, we provide the following two methods for estimating the balancing weights: improving the generalization performance of the balancing weights and checking the balance of the distribution changed by the weights. Finally, we discuss the sample size requirements for the weights as a general problem of a curse of dimensionality when balancing multidimensional data. Our study provides a basic approach for estimating the balancing weights of multidimensional data using variational $f$-divergences.
翻訳日:2023-05-26 23:38:14 公開日:2023-05-25
# FedCL: ユーザ不均一性を同期的に相関させる多相学習

FedCL: Federated Multi-Phase Curriculum Learning to Synchronously Correlate User Heterogeneity ( http://arxiv.org/abs/2211.07248v2 )

ライセンス: Link先を確認
Mingjie Wang, Jianxiong Guo, Weijia Jia(参考訳) Federated Learning(FL)は、機械学習アルゴリズムのトレーニングに使用される分散学習手法である。 FLでは、グローバルモデルがローカルデータにアクセスすることなく、ローカルモデルのパラメータを反復的に収集する。 しかし、FLにおける重要な課題は、局所的なデータ分布の不均一性を扱うことである。 この問題に対処するために、現在の手法では知識蒸留、重み付けされたモデル集約、マルチタスク学習などの異なる戦略を採用している。 これらのアプローチを非同期fl(asynchronous fl)と呼び、モデルドリフトが発生したり、過小評価されたりした、ローカルあるいはポストホックなユーザモデルを調整する。 本稿では,FLにおけるユーザ不均一性の課題に対処するための,アクティブかつ同期的な相関手法を提案する。 具体的には,各ラウンドのユーザ学習ペースを動的多相カリキュラムでアクティブかつ同期的にスケジューリングすることで,FLを標準的なディープラーニングとして近似することを目的とする。 グローバルカリキュラムは、サーバ上のすべてのユーザーカリキュラムを統合する自己回帰オートエンコーダによって形成される。 このグローバルカリキュラムは、複数のフェーズに分割され、ユーザにブロードキャストされ、ドメインに依存しない学習ペースを計測および調整します。 実験により,本手法はユーザ不均一性が高い場合においても,一般化性能において既存の非同期アプローチよりも優れていることが示された。

Federated Learning (FL) is a decentralized learning method used to train machine learning algorithms. In FL, a global model iteratively collects the parameters of local models without accessing their local data. However, a significant challenge in FL is handling the heterogeneity of local data distribution, which often results in a drifted global model that is difficult to converge. To address this issue, current methods employ different strategies such as knowledge distillation, weighted model aggregation, and multi-task learning. These approaches are referred to as asynchronous FL, as they align user models either locally or post-hoc, where model drift has already occurred or has been underestimated. In this paper, we propose an active and synchronous correlation approach to address the challenge of user heterogeneity in FL. Specifically, our approach aims to approximate FL as standard deep learning by actively and synchronously scheduling user learning pace in each round with a dynamic multi-phase curriculum. A global curriculum is formed by an auto-regressive auto-encoder that integrates all user curricula on the server. This global curriculum is then divided into multiple phases and broadcast to users to measure and align the domain-agnostic learning pace. Empirical studies demonstrate that our approach outperforms existing asynchronous approaches in terms of generalization performance, even in the presence of severe user heterogeneity.
翻訳日:2023-05-26 23:37:54 公開日:2023-05-25
# 説得的筆記法による健康情報の説明と検出

Using Persuasive Writing Strategies to Explain and Detect Health Misinformation ( http://arxiv.org/abs/2211.05985v2 )

ライセンス: Link先を確認
Danial Kamali, Joseph Romain, Huiyi Liu, Wei Peng, Jingbo Meng, Parisa Kordjamshidi(参考訳) 誤報の拡散は今日の社会で顕著な問題であり、学術や産業の多くの研究者がそれと戦おうとしている。 毎日生成される膨大な誤った情報のために、このタスクを人間のファクトチェックに委ねるのは非現実的です。 データ科学者と研究者は何年もの間、誤情報の自動検出に取り組んできたが、今日でも難しい問題だ。 本研究の目的は,文章のセグメントを説得力のある書き方で分類することで,なぜ記事が誤情報としてマークされるのかを解釈可能な推論を行うことである。 そこで本研究では,人間のアノテーションを用いたデータセットと共に,多くの一般的な説得力のある記述戦術を含む新しいアノテーションスキームを提案する。 そこで本研究では,テキスト分類にRoBERTaモデルを用いる。 言語モデルに基づくベースラインを複数開発し,提案する説得戦略ラベル予測の結果と,それらの中間ラベルが誤情報を検出し,解釈可能な結果を生成するための改善点を示す。

The spread of misinformation is a prominent problem in today's society, and many researchers in academia and industry are trying to combat it. Due to the vast amount of misinformation that is created every day, it is unrealistic to leave this task to human fact-checkers. Data scientists and researchers have been working on automated misinformation detection for years, and it is still a challenging problem today. The goal of our research is to add a new level to automated misinformation detection; classifying segments of text with persuasive writing techniques in order to produce interpretable reasoning for why an article can be marked as misinformation. To accomplish this, we present a novel annotation scheme containing many common persuasive writing tactics, along with a dataset with human annotations accordingly. For this task, we make use of a RoBERTa model for text classification, due to its high performance in NLP. We develop several language model-based baselines and present the results of our persuasive strategy label predictions as well as the improvements these intermediate labels make in detecting misinformation and producing interpretable results.
翻訳日:2023-05-26 23:37:32 公開日:2023-05-25
# 平均と最悪のロバストさの学習性について

On Proper Learnability between Average- and Worst-case Robustness ( http://arxiv.org/abs/2211.05656v5 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) 最近、Montasserら。 [2019] は, 有限VC次元が正反対に堅牢なPAC学習に十分でないことを示した。 この難しさを鑑みて、対向的に堅牢なPAC学習設定に対する緩和が適切な学習可能性を実現するかを研究する努力が増えている。 本研究では,最悪のロバスト損失の緩和下での適切な学習の研究を開始する。 我々は、VCクラスが適切なPAC学習が可能なロバストな損失緩和のファミリを与え、標準PAC学習設定で必要とされるものに近いサンプル複雑性を持つ。 一方、最悪ケースのロバストな損失を既存かつ自然に緩和するためには、有限VC次元は適切な学習には不十分であることを示す。 最後に、敵対的に堅牢な経験的リスク最小化器に対する新しい一般化保証を与える。

Recently, Montasser et al. [2019] showed that finite VC dimension is not sufficient for proper adversarially robust PAC learning. In light of this hardness, there is a growing effort to study what type of relaxations to the adversarially robust PAC learning setup can enable proper learnability. In this work, we initiate the study of proper learning under relaxations of the worst-case robust loss. We give a family of robust loss relaxations under which VC classes are properly PAC learnable with sample complexity close to what one would require in the standard PAC learning setup. On the other hand, we show that for an existing and natural relaxation of the worst-case robust loss, finite VC dimension is not sufficient for proper learning. Lastly, we give new generalization guarantees for the adversarially robust empirical risk minimizer.
翻訳日:2023-05-26 23:36:57 公開日:2023-05-25
# PAD-Net: 動的ネットワークのための効率的なフレームワーク

PAD-Net: An Efficient Framework for Dynamic Networks ( http://arxiv.org/abs/2211.05528v2 )

ライセンス: Link先を確認
Shwai He, Liang Ding, Daize Dong, Boan Liu, Fuqiang Yu, Dacheng Tao(参考訳) 動的畳み込み(DY-Conv)やMixture of Experts(MoE)といった動的ネットワークは、許容する計算コストでモデルの表現能力を大幅に改善できるため、広く研究されている。 動的ネットワークを実装する一般的なプラクティスは、与えられた静的レイヤを、すべてのパラメータが動的(少なくとも1つの層内で)で入力によって変化する完全に動的層に変換することである。 しかし、このような完全な動的設定は冗長なパラメータと高いデプロイメントコストを引き起こし、ダイナミックネットワークの適用範囲を幅広いタスクやモデルに制限する可能性がある。 私たちの研究の主な貢献は、動的ネットワークにおける基本的な常識に挑戦し、冗長な動的パラメータを静的に変換するために部分動的ネットワーク、すなわちpad-netを提案することです。 また、動的パラメータと静的パラメータを効率的に分割する反復モード分割を設計する。 本手法は画像分類とGLUEベンチマークの両方において,DY-ConvとMoEという2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。 さらに、完全な動的ネットワークを$+0.7\%$ top-1 accで上回り、ResNet-50の動的パラメータは$30\%、BERTの動的パラメータは$50\%で言語理解の平均スコアは$+1.9\%である。 コードは: \url{https://github.com/Shwai-He/PAD-Net}.orgでリリースされる。

Dynamic networks, e.g., Dynamic Convolution (DY-Conv) and the Mixture of Experts (MoE), have been extensively explored as they can considerably improve the model's representation power with acceptable computational cost. The common practice in implementing dynamic networks is to convert the given static layers into fully dynamic ones where all parameters are dynamic (at least within a single layer) and vary with the input. However, such a fully dynamic setting may cause redundant parameters and high deployment costs, limiting the applicability of dynamic networks to a broader range of tasks and models. The main contributions of our work are challenging the basic commonsense in dynamic networks and proposing a partially dynamic network, namely PAD-Net, to transform the redundant dynamic parameters into static ones. Also, we further design Iterative Mode Partition to partition dynamic and static parameters efficiently. Our method is comprehensively supported by large-scale experiments with two typical advanced dynamic architectures, i.e., DY-Conv and MoE, on both image classification and GLUE benchmarks. Encouragingly, we surpass the fully dynamic networks by $+0.7\%$ top-1 acc with only $30\%$ dynamic parameters for ResNet-50 and $+1.9\%$ average score in language understanding with only $50\%$ dynamic parameters for BERT. Code will be released at: \url{https://github.com/Shwai-He/PAD-Net}.
翻訳日:2023-05-26 23:36:25 公開日:2023-05-25
# 言語モデルのロバスト性および一般化性に及ぼす対人訓練の影響

Impact of Adversarial Training on Robustness and Generalizability of Language Models ( http://arxiv.org/abs/2211.05523v2 )

ライセンス: Link先を確認
Enes Altinisik, Hassan Sajjad, Husrev Taha Sencar, Safa Messaoud, Sanjay Chawla(参考訳) 敵の訓練は敵の攻撃に対する最も効果的な防御として広く認められている。 しかし、敵対的に訓練されたモデルにおける堅牢性と一般化の両立にはトレードオフが伴うことも十分に確立されている。 この研究の目的は、言語モデルにおける敵対的トレーニングのための異なるアプローチを深く比較することである。 具体的には、事前学習データ拡張とトレーニング時間入力摂動と埋め込み空間摂動がトランスフォーマーベース言語モデルの堅牢性と一般化に及ぼす影響について検討する。 以上の結果から,データの強化や入力空間の摂動によるトレーニングにより,より頑健性が得られることが示唆された。 しかし、埋め込み空間摂動によるトレーニングは一般化を著しく改善する。 学習モデルのニューロンの言語的相関解析により、改良された一般化は「より専門的な」ニューロンによるものであることが明らかになった。 我々の知識を最大限に活用するために、言語モデルの対角訓練における逆例を生成する様々な方法の深い定性的な分析を行うのは、これが初めてである。

Adversarial training is widely acknowledged as the most effective defense against adversarial attacks. However, it is also well established that achieving both robustness and generalization in adversarially trained models involves a trade-off. The goal of this work is to provide an in depth comparison of different approaches for adversarial training in language models. Specifically, we study the effect of pre-training data augmentation as well as training time input perturbations vs. embedding space perturbations on the robustness and generalization of transformer-based language models. Our findings suggest that better robustness can be achieved by pre-training data augmentation or by training with input space perturbation. However, training with embedding space perturbation significantly improves generalization. A linguistic correlation analysis of neurons of the learned models reveals that the improved generalization is due to 'more specialized' neurons. To the best of our knowledge, this is the first work to carry out a deep qualitative analysis of different methods of generating adversarial examples in adversarial training of language models.
翻訳日:2023-05-26 23:35:58 公開日:2023-05-25
# MIMOが必要なのは、ビデオ予測のための強力なマルチインマルチアウトベースライン

MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction ( http://arxiv.org/abs/2212.04655v2 )

ライセンス: Link先を確認
Shuliang Ning, Mengcheng Lan, Yanran Li, Chaofeng Chen, Qian Chen, Xunlai Chen, Xiaoguang Han, Shuguang Cui(参考訳) ビデオ予測に対する既存のアプローチの主流は、現在のフレームを入力として、次のフレームを再帰的に予測するシングルインシングルアウト(SISO)アーキテクチャに基づくモデルを構築している。 この方法では、長期的な未来を推定しようとすると、パフォーマンスが悪化することが多いため、予測モデルの実用性が制限される。 あるいは、全ての将来のフレームを1ショットで出力するマルチインマルチアウト(mimo)アーキテクチャは、自然に再帰的な手法を破り、エラーの蓄積を防ぐ。 しかし、映像予測のためのMIMOモデルはほとんど提案されておらず、日時により性能が劣るだけである。 この領域におけるmimoモデルの真の強みはよく分かっておらず、ほとんど未調査である。 そこで我々は,シンプルなMIMOアーキテクチャがどこまで進めるかを徹底的に活用するために,包括的な調査を行う。 意外なことに、我々の経験的研究は、単純なMIMOモデルが、予想よりもはるかに大きなマージンを持つ最先端の作業、特に長期エラーの蓄積に優れた性能を発揮することを明らかにした。 多数の方法と設計を探索した後,ローカルな時空間ブロックを持つ純粋なトランスフォーマーを拡張したMIMOアーキテクチャと,MIMO-VPと呼ばれる新しいマルチ出力デコーダを提案し,ビデオ予測における新しい標準を確立する。 我々は、MNIST、Human3.6M、Weather、KITTIの4つの非常に競争性の高いベンチマークでモデルを評価した。 広範な実験により,我々のモデルが優れた性能向上率ですべてのベンチマークで1位を獲得し,効率,量,品質といったあらゆる面で最高のsisoモデルを超えていることが示された。 我々は,ビデオ予測タスクの今後の研究を促進するために,我々のモデルは新たなベースラインとして機能すると考えている。 コードはリリースされます。

The mainstream of the existing approaches for video prediction builds up their models based on a Single-In-Single-Out (SISO) architecture, which takes the current frame as input to predict the next frame in a recursive manner. This way often leads to severe performance degradation when they try to extrapolate a longer period of future, thus limiting the practical use of the prediction model. Alternatively, a Multi-In-Multi-Out (MIMO) architecture that outputs all the future frames at one shot naturally breaks the recursive manner and therefore prevents error accumulation. However, only a few MIMO models for video prediction are proposed and they only achieve inferior performance due to the date. The real strength of the MIMO model in this area is not well noticed and is largely under-explored. Motivated by that, we conduct a comprehensive investigation in this paper to thoroughly exploit how far a simple MIMO architecture can go. Surprisingly, our empirical studies reveal that a simple MIMO model can outperform the state-of-the-art work with a large margin much more than expected, especially in dealing with longterm error accumulation. After exploring a number of ways and designs, we propose a new MIMO architecture based on extending the pure Transformer with local spatio-temporal blocks and a new multi-output decoder, namely MIMO-VP, to establish a new standard in video prediction. We evaluate our model in four highly competitive benchmarks (Moving MNIST, Human3.6M, Weather, KITTI). Extensive experiments show that our model wins 1st place on all the benchmarks with remarkable performance gains and surpasses the best SISO model in all aspects including efficiency, quantity, and quality. We believe our model can serve as a new baseline to facilitate the future research of video prediction tasks. The code will be released.
翻訳日:2023-05-26 23:29:18 公開日:2023-05-25
# 音素ベースニューラルトランスデューサの格子自由系列判別訓練

Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural Transducers ( http://arxiv.org/abs/2212.04325v3 )

ライセンス: Link先を確認
Zijian Yang, Wei Zhou, Ralf Schl\"uter, Hermann Ney(参考訳) 近年,RNN-Transducersは様々な自動音声認識タスクにおいて顕著な成果を上げている。 しかし,RNNトランスデューサでは,ハイブリッドモデルにおいて優れた性能を示す格子フリーシーケンス識別訓練法はほとんど研究されていない。 本研究では,音素ベースニューラルトランスデューサの最終後方出力に使用する格子フリーな最大相互情報,格子フリーセグメントレベル最小ベイズリスク,格子フリー最小ベイズリスクという3つの格子フリートレーニング目標を提案する。 N-bestリストを用いた基準と比較すると、格子フリーな手法はトレーニング中の仮説生成の復号ステップを排除し、より効率的なトレーニングをもたらす。 実験の結果, 格子自由法は, シーケンスレベルのクロスエントロピー訓練モデルと比較して, 単語誤り率を最大6.5%向上させることがわかった。 N-best-listベースの最小ベイズリスク目標と比較すると、格子フリーな手法は性能の低下とともに40%から70%の相対的なトレーニングタイムスピードアップが得られる。

Recently, RNN-Transducers have achieved remarkable results on various automatic speech recognition tasks. However, lattice-free sequence discriminative training methods, which obtain superior performance in hybrid models, are rarely investigated in RNN-Transducers. In this work, we propose three lattice-free training objectives, namely lattice-free maximum mutual information, lattice-free segment-level minimum Bayes risk, and lattice-free minimum Bayes risk, which are used for the final posterior output of the phoneme-based neural transducer with a limited context dependency. Compared to criteria using N-best lists, lattice-free methods eliminate the decoding step for hypotheses generation during training, which leads to more efficient training. Experimental results show that lattice-free methods gain up to 6.5% relative improvement in word error rate compared to a sequence-level cross-entropy trained model. Compared to the N-best-list based minimum Bayes risk objectives, lattice-free methods gain 40% - 70% relative training time speedup with a small degradation in performance.
翻訳日:2023-05-26 23:28:46 公開日:2023-05-25
# マルチモーダルモデルのゼロショット一般化とロバスト性の改善

Improving Zero-shot Generalization and Robustness of Multi-modal Models ( http://arxiv.org/abs/2212.01758v2 )

ライセンス: Link先を確認
Yunhao Ge, Jie Ren, Andrew Gallagher, Yuxiao Wang, Ming-Hsuan Yang, Hartwig Adam, Laurent Itti, Balaji Lakshminarayanan, Jiaping Zhao(参考訳) CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著なパフォーマンスを示しており、そのゼロショットの一般化能力は特にエキサイティングである。 これらのモデルの上位5のゼロショットアキュラティは極めて高いが、上位1アキュラティはずっと低い(場合によっては25%以上のギャップ)。 本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。 まず,複数のプロンプトと画像変換の一貫性を計測することにより,top-1予測が誤りである可能性のある画像を特定するための簡易かつ効率的なゼロショットポストホック手法を開発した。 提案手法は,選択予測タスクにおいてmax logitベースラインよりも高い精度で誤りを予測できることを示す。 次に,wordnet階層を用いて,このような不確実性画像の精度を向上させるための簡易かつ効率的な方法を提案する。具体的には,親子を意味ラベル階層から統合し,テキストプロンプトに付加することで,元のクラスを補完する。 5つの異なるImageNetベースのデータセットを用いて,CLIPモデルとLiTモデルの両方で実験を行った。 CLIPでは、不確実なサブセットでは17.13%、ImageNet検証セットでは3.6%の精度でトップ1の精度が向上する。 また、imagenetシフトデータセット、他の4つのデータセット、およびlitのような他のモデルアーキテクチャをまたいで改善することを示す。 提案手法はハイパーパラメータフリーであり、追加のモデルトレーニングを必要とせず、他の大規模マルチモーダルアーキテクチャに容易に拡張できる。 コードはhttps://github.com/gyhandy/Hierarchy-CLIPで入手できる。

Multi-modal image-text models such as CLIP and LiT have demonstrated impressive performance on image classification benchmarks and their zero-shot generalization ability is particularly exciting. While the top-5 zero-shot accuracies of these models are very high, the top-1 accuracies are much lower (over 25% gap in some cases). We investigate the reasons for this performance gap and find that many of the failure cases are caused by ambiguity in the text prompts. First, we develop a simple and efficient zero-shot post-hoc method to identify images whose top-1 prediction is likely to be incorrect, by measuring consistency of the predictions w.r.t. multiple prompts and image transformations. We show that our procedure better predicts mistakes, outperforming the popular max logit baseline on selective prediction tasks. Next, we propose a simple and efficient way to improve accuracy on such uncertain images by making use of the WordNet hierarchy; specifically we augment the original class by incorporating its parent and children from the semantic label hierarchy, and plug the augmentation into text prompts. We conduct experiments on both CLIP and LiT models with five different ImageNet-based datasets. For CLIP, our method improves the top-1 accuracy by 17.13% on the uncertain subset and 3.6% on the entire ImageNet validation set. We also show that our method improves across ImageNet shifted datasets, four other datasets, and other model architectures such as LiT. The proposed method is hyperparameter-free, requires no additional model training and can be easily scaled to other large multi-modal architectures. Code is available at https://github.com/gyhandy/Hierarchy-CLIP.
翻訳日:2023-05-26 23:28:28 公開日:2023-05-25
# ラベルなしストリームからの自己教師付きオンデバイスフェデレーション学習

Self-supervised On-device Federated Learning from Unlabeled Streams ( http://arxiv.org/abs/2212.01006v2 )

ライセンス: Link先を確認
Jiahe Shi, Yawen Wu, Dewen Zeng, Jun Tao, Jingtong Hu, Yiyu Shi(参考訳) エッジデバイスの普及により、エッジで生成されるラベルなしデータの量が増加している。 エッジデバイスにデプロイされるディープラーニングモデルは、これらのラベルのないデータから学び、精度を継続的に改善する必要がある。 自己教師付き表現学習は、集中型ラベルなしデータを用いて有望なパフォーマンスを達成した。 しかし、プライバシー保護に対する意識の高まりにより、エッジデバイス上の分散ラベルなしイメージデータの集中化が制限される。 プライバシ保護による分散機械学習を可能にするために、フェデレーション学習が広く採用されているが、ストリーミングデータを効率的に選択するためのデータ選択方法がないため、従来のフェデレーション学習フレームワークでは、エッジ上の限られたストレージリソースを備えた、膨大な量の分散非ラベルデータの処理に失敗している。 これらの課題に対処するために,我々はsofedと呼ばれる,デバイス毎のリプレイバッファに最も代表的なサンプルからなるコアセットを自動的に選択する,自己教師付きオンデバイスフェデレーション学習フレームワークを提案する。 各クライアントは生データを共有せず、優れた視覚的表現を学習しているため、データのプライバシは保持される。 視覚表現学習における提案手法の有効性と意義を実証する実験を行った。

The ubiquity of edge devices has led to a growing amount of unlabeled data produced at the edge. Deep learning models deployed on edge devices are required to learn from these unlabeled data to continuously improve accuracy. Self-supervised representation learning has achieved promising performances using centralized unlabeled data. However, the increasing awareness of privacy protection limits centralizing the distributed unlabeled image data on edge devices. While federated learning has been widely adopted to enable distributed machine learning with privacy preservation, without a data selection method to efficiently select streaming data, the traditional federated learning framework fails to handle these huge amounts of decentralized unlabeled data with limited storage resources on edge. To address these challenges, we propose a Self-supervised On-device Federated learning framework with coreset selection, which we call SOFed, to automatically select a coreset that consists of the most representative samples into the replay buffer on each device. It preserves data privacy as each client does not share raw data while learning good visual representations. Experiments demonstrate the effectiveness and significance of the proposed method in visual representation learning.
翻訳日:2023-05-26 23:28:00 公開日:2023-05-25
# トラッピングイオンを用いたロバストな2量子ゲートのBespokeパルス設計

Bespoke Pulse Design for Robust Rapid Two-Qubit Gates with Trapped Ions ( http://arxiv.org/abs/2212.00702v2 )

ライセンス: Link先を確認
Seyed Shakib Vedaie, Eduardo J. P\'aez, Nhung H. Nguyen, Norbert M. Linke, Barry C. Sanders(参考訳) 2量子ビットゲート性能はイオントラップ量子コンピューティングのスケールアップに不可欠である。 ゲートタイムとゲートエラーレートの低減を達成するには、最適化された量子制御が必要である。 量子マスター方程式(QME)により、線形捕捉イオン鎖内にラマンビームを配向した2量子ゲートを記述する。 QMEは、単一イオン2光子有効ラビ周波数、オートラー・タウンズおよび振動型ブロッホ・シーガートエネルギーシフト、オフ共鳴遷移、ラマンとレイリー散乱、レーザーパワー変動、運動加熱、クロスカーフォノン結合、レーザー流出、非対称アドレッシングビームおよび不完全な初期運動基底状態を含む。 最先端の手法はゲート設計におけるこれらの効果を無視する。 数値積分QMEソリューションを最適化することにより、7つのトラップされた$^{171}$Yb$^{+}$イオンに対して、ロバストな2量子ゲートを実現するためにパルス列を大域的に最適化する。 ここでは、ロバストとは運動周波数の遅いドリフトに対する弾力性であり、ラビの有効周波数がイオンの素電子遷移によるレーザーの変形に匹敵するラピッド平均ゲート実行である。 我々の堅牢な量子制御は、長いイオン鎖の高速な高品質な2ビットゲートを提供し、イオンを閉じ込めたスケーラブルな量子コンピューティングを可能にします。

Two-qubit gate performance is vital for scaling up ion-trap quantum computing. Optimized quantum control is needed to achieve reductions in gate-time and gate error-rate. We describe two-qubit gates with addressed Raman beams within a linear trapped-ion chain by a quantum master equation (QME). The QME incorporates the single-ion two-photon effective Rabi frequency, Autler-Townes and vibrational Bloch-Siegert energy shifts, off-resonant transitions, Raman and Rayleigh scattering, laser-power fluctuations, motional heating, cross-Kerr phonon coupling, laser spillover, asymmetric addressing beams and an imperfect initial motional ground state, with no fitting parameters. Whereas state-of-the-art methods are oblivious to these effects in the gate design procedure. We employ global optimization to design pulse sequences for achieving a robust rapid two-qubit gate for seven trapped $^{171}$Yb$^{+}$ ions by optimizing over numerically integrated QME solutions. Here, robust means resilient against slow drift of motional frequencies, and rapid means gate execution where the effective Rabi frequency is comparable to the detuning of the laser from the ion's bare electronic transition. Our robust quantum control delivers rapid high-quality two-qubit gates in long ion chains, enabling scalable quantum computing with trapped ions.
翻訳日:2023-05-26 23:27:42 公開日:2023-05-25
# 合成音声と実音声間の距離の評価と低減

Evaluating and reducing the distance between synthetic and real speech distributions ( http://arxiv.org/abs/2211.16049v2 )

ライセンス: Link先を確認
Christoph Minixhofer, Ond\v{r}ej Klejch, Peter Bell(参考訳) 現代のtts(text-to-speech)システムは自然音声を生成することができるが、自然音声データに見られる完全な多様性を再現することはできない。 我々は,これらの話者が生成できるすべての実音声サンプルの分布と,同じ話者群に対して生成できるすべての合成サンプルの分布を,特定のTSシステムを用いて検討した。 本研究では, 話者特性, 音声韻律, 音響環境に関する発話レベルの統計値を用いて, 実音声と合成音声の距離を定量化する。 これらの統計の分布の違いは、ワッサーシュタイン距離を用いて評価される。 これらの距離を、生成時の接地値を提供することで削減し、自動音声認識システムを用いて近似した分布距離全体の改善を定量化する。 最善のシステムは分布距離を10%削減できる。

While modern Text-to-Speech (TTS) systems can produce natural-sounding speech, they remain unable to reproduce the full diversity found in natural speech data. We consider the distribution of all possible real speech samples that could be generated by these speakers alongside the distribution of all synthetic samples that could be generated for the same set of speakers, using a particular TTS system. We set out to quantify the distance between real and synthetic speech via a range of utterance-level statistics related to properties of the speaker, speech prosody and acoustic environment. Differences in the distribution of these statistics are evaluated using the Wasserstein distance. We reduce these distances by providing ground-truth values at generation time, and quantify the improvements to the overall distribution distance, approximated using an automatic speech recognition system. Our best system achieves a 10\% reduction in distribution distance.
翻訳日:2023-05-26 23:26:46 公開日:2023-05-25
# 人工通貨による最適ルーティングのためのデータ駆動価格体系

A Data-driven Pricing Scheme for Optimal Routing through Artificial Currencies ( http://arxiv.org/abs/2211.14793v2 )

ライセンス: Link先を確認
David van de Sanden, Maarten Schoukens, Mauro Salazar(参考訳) モビリティシステムは、利己的なユーザーの制御不能な行動のために、しばしば高価格の無秩序に苦しむ。 これは、集中型システム最適化コントローラによって達成できるものよりもはるかに高い社会的コストをもたらす可能性がある。 金銭的な料金体系は、利己的なユーザーの行動をシステム最適化と効果的に一致させることができる。 しかし、彼らは必然的に収入の観点から人口を差別する。 人工通貨は、人口間の公正性を確保しつつ、同じパフォーマンスを達成する効果的な代替手段として提示された。 しかし、これらの研究は実践と異なる行動モデルに基づいていた。 本稿では,繰り返しゲーム設定において,人工通貨料金を自動的に適用するためのデータ駆動方式を提案する。 筆者らはまず,利用者が旅行不愉快感に対する他の利用者の選択の影響を考慮しつつ,個人発起点から個人発着点まで毎日通勤し,人為的通貨価格や報酬と引き換えに経路を選択する並列弧設定について検討した。 第2に,提案フレームワークと対話して最適価格政策を自律的に学習するモデルベース強化学習制御を考案し,観測された集約フローの密接性から所望のシステム最適分布への報奨関数として扱う。 提案したデータ駆動型価格体系は, ユーザのフローを最適なシステムに効果的に整合させ, 制御されていないフローに対する社会的コスト(シナリオに応じて約15%から25%)を大幅に低減し, 堅牢かつ効率的に環境変化に対応することができることを示す。

Mobility systems often suffer from a high price of anarchy due to the uncontrolled behavior of selfish users. This may result in societal costs that are significantly higher compared to what could be achieved by a centralized system-optimal controller. Monetary tolling schemes can effectively align the behavior of selfish users with the system-optimum. Yet, they inevitably discriminate the population in terms of income. Artificial currencies were recently presented as an effective alternative that can achieve the same performance, whilst guaranteeing fairness among the population. However, those studies were based on behavioral models that may differ from practical implementations. This paper presents a data-driven approach to automatically adapt artificial-currency tolls within repetitive-game settings. We first consider a parallel-arc setting whereby users commute on a daily basis from an individual origin to an individual destination, choosing a route in exchange of an artificial-currency price or reward, while accounting for the impact of the choices of the other users on travel discomfort. Second, we devise a model-based reinforcement learning controller that autonomously learns the optimal pricing policy by interacting with the proposed framework considering the closeness of the observed aggregate flows to a desired system-optimal distribution as a reward function. Our numerical results show that the proposed data-driven pricing scheme can effectively align the users' flows with the system optimum, significantly reducing the societal costs with respect to the uncontrolled flows (by about 15% and 25% depending on the scenario), and respond to environmental changes in a robust and efficient manner.
翻訳日:2023-05-26 23:26:34 公開日:2023-05-25
# 暗黙的談話関係認識のためのグローバルおよびローカル階層認識コントラストフレームワーク

Global and Local Hierarchy-aware Contrastive Framework for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2211.13873v3 )

ライセンス: Link先を確認
Yuxin Jiang, Linhan Zhang, Wei Wang(参考訳) 明示的な接続性がないため、暗黙の言論関係認識(IDRR)は言論分析において難しい課題である。 IDRRの重要なステップは、2つの引数間の高品質な談話関係表現を学習することである。 近年の手法では,感覚の階層的情報全体を多段階認識のための談話関係表現に統合する傾向にある。 それでも、すべての感覚を含む静的階層構造(グローバル階層として定義される)を不十分に組み入れ、各インスタンス(局所階層として定義される)に対応する階層的感覚ラベルシーケンスを無視する。 そこで我々は,多タスク学習とコントラスト学習の助けを借りて2種類の階層をモデル化する,GlObal and Local Hierarchy-aware Contrastive Framework (GOLF)を提案する。 PDTB 2.0 および PDTB 3.0 データセットによる実験結果から,本手法はすべての階層レベルで,現在の最先端モデルよりも著しく優れていた。 私たちのコードはhttps://github.com/YJiangcm/GOLF_for_IDRRで公開されています。

Due to the absence of explicit connectives, implicit discourse relation recognition (IDRR) remains a challenging task in discourse analysis. The critical step for IDRR is to learn high-quality discourse relation representations between two arguments. Recent methods tend to integrate the whole hierarchical information of senses into discourse relation representations for multi-level sense recognition. Nevertheless, they insufficiently incorporate the static hierarchical structure containing all senses (defined as global hierarchy), and ignore the hierarchical sense label sequence corresponding to each instance (defined as local hierarchy). For the purpose of sufficiently exploiting global and local hierarchies of senses to learn better discourse relation representations, we propose a novel GlObal and Local Hierarchy-aware Contrastive Framework (GOLF), to model two kinds of hierarchies with the aid of multi-task learning and contrastive learning. Experimental results on PDTB 2.0 and PDTB 3.0 datasets demonstrate that our method remarkably outperforms current state-of-the-art models at all hierarchical levels. Our code is publicly available at https://github.com/YJiangcm/GOLF_for_IDRR
翻訳日:2023-05-26 23:26:11 公開日:2023-05-25
# 早期誤情報検出のためのループ内ヒト評価 : COVID-19治療の事例

Human-in-the-loop Evaluation for Early Misinformation Detection: A Case Study of COVID-19 Treatments ( http://arxiv.org/abs/2212.09683v3 )

ライセンス: Link先を確認
Ethan Mendes, Yang Chen, Alan Ritter, Wei Xu(参考訳) 本稿では,新たな誤情報主張を事実チェックし,それをサポートするソーシャルメディアメッセージを特定するための,ループ内人間評価フレームワークを提案する。 当社のアプローチでは,チェック価値の高いクレームを抽出し,レビュー用にランク付けする。 スタンス分類器は、新しい誤った情報クレームをサポートするツイートを識別するために使用され、関連するポリシーに違反しているかどうかを判断するためにさらにレビューされる。 提案手法の有効性を実証するため,HIV治療領域におけるヒト・イン・ザ・ループファクトチェックのための最新のNLP法に基づくベースラインシステムを開発した。 我々は,ユーザ生成コンテンツから直接,新たな誤情報を識別するループシステムの評価を支援するために,データおよび詳細なガイドラインを公開している。

We present a human-in-the-loop evaluation framework for fact-checking novel misinformation claims and identifying social media messages that support them. Our approach extracts check-worthy claims, which are aggregated and ranked for review. Stance classifiers are then used to identify tweets supporting novel misinformation claims, which are further reviewed to determine whether they violate relevant policies. To demonstrate the feasibility of our approach, we develop a baseline system based on modern NLP methods for human-in-the-loop fact-checking in the domain of COVID-19 treatments. We make our data and detailed annotation guidelines available to support the evaluation of human-in-the-loop systems that identify novel misinformation directly from raw user-generated content.
翻訳日:2023-05-26 23:19:17 公開日:2023-05-25
# BLOOM+1:ゼロショットプロンプトのためのBLOOMに言語サポートを追加

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting ( http://arxiv.org/abs/2212.09535v2 )

ライセンス: Link先を確認
Zheng-Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri Aji, David Ifeoluwa Adelani, Khalid Almubarak, M Saiful Bari, Lintang Sutawika, Jungo Kasai, Ahmed Baruwa, Genta Indra Winata, Stella Biderman, Edward Raff, Dragomir Radev and Vassilina Nikoulina(参考訳) BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。 BLOOMの利点を他言語に拡張するためには,事前学習中に見られない新しい言語にBLOOMを適用することが望ましい。 本研究では,既存の言語適応戦略をBLOOMに適用し,リソース制約条件下で8つの新しい言語の性能向上を促すゼロショットをベンチマークする。 新たな言語におけるゼロショット性能の向上には,言語適応が有効である。 驚いたことに、アダプタベースの微調整は、大型モデルの事前訓練よりも効果的である。 また,書記システムなどの言語特化によって,性能の促進が大きな影響を受けないことが判明した。 主に言語適応データの大きさによって決定される。 また,タスク命令をゼロショットで追従するBLOOMのマルチタスク微調整版であるBLOOMZに新たな言語を追加する。 新しい言語をマルチタスクの微調整混合物に含めることで、bloomzに新しい言語を教える最も効果的な方法を見出した。 十分なトレーニングによって、データ言語適応は多様な言語にうまく一般化できると結論づけた。 私たちのコードはhttps://github.com/bigscience-workshop/multilingual-modelingで利用可能です。

The BLOOM model is a large publicly available multilingual language model, but its pretraining was limited to 46 languages. To extend the benefits of BLOOM to other languages without incurring prohibitively large costs, it is desirable to adapt BLOOM to new languages not seen during pretraining. In this work, we apply existing language adaptation strategies to BLOOM and benchmark its zero-shot prompting performance on eight new languages in a resource-constrained setting. We find language adaptation to be effective at improving zero-shot performance in new languages. Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models. In addition, we discover that prompting performance is not significantly affected by language specifics, such as the writing system. It is primarily determined by the size of the language adaptation data. We also add new languages to BLOOMZ, which is a multitask finetuned version of BLOOM capable of following task instructions zero-shot. We find including a new language in the multitask fine-tuning mixture to be the most effective method to teach BLOOMZ a new language. We conclude that with sufficient training data language adaptation can generalize well to diverse languages. Our code is available at https://github.com/bigscience-workshop/multilingual-modeling.
翻訳日:2023-05-26 23:18:52 公開日:2023-05-25
# 非エルミート系における有限温度動的量子相転移

Finite temperature dynamical quantum phase transition in a non-Hermitian system ( http://arxiv.org/abs/2212.05839v2 )

ライセンス: Link先を確認
Debashish Mondal, Tanay Nag(参考訳) 混合状態動的量子相転移(MSDQPT)の文脈における非常温性と有限温度との相互作用について検討する。 p$-wave超伝導体モデルでは,ガッピング位相に加えてギャップのない位相を生じさせる複雑なホッピングと非ハーミティを包含し,位相内クエンチを介してmsdqptと巻線数を調べる。 このMSDQPTは, 基礎相のギャップ構造によらず常に存在するが, フィッシャー零点の分布は上記の相の間で変化する。 このようなMSDQPTの発生は、差分相に対してDQPTが起こらないゼロ温度の場合とは対照的である。 驚くべきことに、ゼロ温度での回転数の半整数ジャンプは、ギャップレス位相の有限温度のために洗い流される。 本研究では,ガッピング相とギャップレス相を区別できる逆温度でmsdqptを経験するために必要な最小時間の進化について検討する。 本研究は, ギャップ付き(ギャップなし)相の単調(非単調)挙動を最小時間で示すことを示す。

We investigate the interplay between the non-Hermiticity and finite temperature in the context of mixed state dynamical quantum phase transition (MSDQPT). We consider a $p$-wave superconductor model, encompassing complex hopping and non-Hermiticity that can lead to gapless phases in addition to gapped phases, to examine the MSDQPT and winding number via the intra-phase quench. We find that the MSDQPT is always present irrespective of the gap structure of the underlying phase, however, the profile of Fisher zeros changes between the above phases. Such occurrences of MSDQPT are in contrast to the zero-temperature case where DQPT does not take place for the gapped phase. Surprisingly, the half-integer jumps in winding number at zero-temperature are washed away for finite temperature in the gapless phase. We study the evolution of the minimum time required by the system to experience MSDQPT with the inverse temperature such that gapped and gapless phases can be differentiated. Our study indicates that the minimum time shows monotonic (non-monotonic) behavior for the gapped (gapless) phase.
翻訳日:2023-05-26 23:18:18 公開日:2023-05-25
# イベントカメラを用いた物体検出用リカレントビジョントランス

Recurrent Vision Transformers for Object Detection with Event Cameras ( http://arxiv.org/abs/2212.05598v3 )

ライセンス: Link先を確認
Mathias Gehrig and Davide Scaramuzza(参考訳) イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。 イベントカメラは、高ダイナミックレンジでミリ秒以下のレイテンシで視覚情報を提供する。 これらのユニークな特性は、時間クリティカルなシナリオにおける低レイテンシオブジェクトの検出と追跡に大きな可能性を提供します。 イベントベースのビジョンでの以前の作業は、優れた検出性能を達成しているが、実質的な推論時間(通常は40ミリ秒以上)のコストで達成されている。 リカレントビジョンバックボーンのハイレベルな設計を再検討することにより、同様のパフォーマンスを維持しつつ推論時間を6倍に短縮する。 これを実現するために,各段階において3つの重要な概念,すなわち条件付き位置埋め込みと見なすことができる畳み込み前処理を用いる多段階設計を探索する。 第2に、局所的および拡張的グローバル自己注意による空間的特徴の相互作用 第3に、時間情報を保持しながらレイテンシを最小限に抑えるために、繰り返し時間的特徴集約。 RVTは、Gen1オートマチックデータセット上で47.2%のmAPを達成するイベントベースのオブジェクト検出において、最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。 同時に、RVTは高速な推論(T4 GPU上では12ミリ秒)と好ましいパラメータ効率(先行技術より5倍少ない)を提供する。 私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的な設計選択に対する新たな洞察をもたらします。

We present Recurrent Vision Transformers (RVTs), a novel backbone for object detection with event cameras. Event cameras provide visual information with sub-millisecond latency at a high-dynamic range and with strong robustness against motion blur. These unique properties offer great potential for low-latency object detection and tracking in time-critical scenarios. Prior work in event-based vision has achieved outstanding detection performance but at the cost of substantial inference time, typically beyond 40 milliseconds. By revisiting the high-level design of recurrent vision backbones, we reduce inference time by a factor of 6 while retaining similar performance. To achieve this, we explore a multi-stage design that utilizes three key concepts in each stage: First, a convolutional prior that can be regarded as a conditional positional embedding. Second, local and dilated global self-attention for spatial feature interaction. Third, recurrent temporal feature aggregation to minimize latency while retaining temporal information. RVTs can be trained from scratch to reach state-of-the-art performance on event-based object detection - achieving an mAP of 47.2% on the Gen1 automotive dataset. At the same time, RVTs offer fast inference (<12 ms on a T4 GPU) and favorable parameter efficiency (5 times fewer than prior art). Our study brings new insights into effective design choices that can be fruitful for research beyond event-based vision.
翻訳日:2023-05-26 23:17:59 公開日:2023-05-25
# CALIME:Causality-Aware Local Interpretable Model-Agnostic Explanations

CALIME: Causality-Aware Local Interpretable Model-Agnostic Explanations ( http://arxiv.org/abs/2212.05256v2 )

ライセンス: Link先を確認
Martina Cinquini, Riccardo Guidotti(参考訳) eXplainable Artificial Intelligence (XAI)アプローチの重大な欠点は、機能独立の仮定である。 本稿では,xai手法に因果知識を統合することで,ユーザによる説明の質評価を支援する。 本稿では,入力インスタンス周辺で生成されたデータの因果関係を明示的にエンコードする,広く使用される局所的およびモデル非依存な説明器への新たな拡張を提案する。 実験結果から,ブラックボックスの再現性と説明の安定性の両面において,初期手法と比較して優れた性能が得られた。

A significant drawback of eXplainable Artificial Intelligence (XAI) approaches is the assumption of feature independence. This paper focuses on integrating causal knowledge in XAI methods to increase trust and help users assess explanations' quality. We propose a novel extension to a widely used local and model-agnostic explainer that explicitly encodes causal relationships in the data generated around the input instance to explain. Extensive experiments show that our method achieves superior performance comparing the initial one for both the fidelity in mimicking the black-box and the stability of the explanations.
翻訳日:2023-05-26 23:17:37 公開日:2023-05-25
# 人間の顔のディープフェイク画像検出能力のテスト

Testing Human Ability To Detect Deepfake Images of Human Faces ( http://arxiv.org/abs/2212.05056v3 )

ライセンス: Link先を確認
Sergi D. Bray (1), Shane D. Johnson (1), Bennett Kleinberg (2) ((1) University College London, (2) Tilburg University)(参考訳) ディープフェイク(deepfakes)は、現実を虚偽的に表現した計算的な実体である。 画像、ビデオ、オーディオのモダリティを捉え、サイバーセキュリティとサイバーセーフティの様々な側面に対する関心のトピックを含む、システムや社会の多くの領域に脅威を与えることができる。 2020年、学術、警察、政府、民間セクター、および州のセキュリティ機関からAIの専門家をコンサルティングするワークショップは、ディープフェイクを最も深刻なAI脅威としてランク付けした。 これらの専門家は、偽の物質は多くの制御されていない経路を伝播できるため、市民の行動の変化が唯一の効果的な防御であると指摘している。 本研究の目的は,非ディープフェイク画像(FFHQ)から人間の顔の深部像(StyleGAN2:FFHQ)を識別し,検出精度の向上を目的とした簡単な介入の有効性を評価することである。 オンライン調査では、280人の参加者がランダムに4つのグループ(コントロールグループと3つの支援介入)の1つに割り当てられた。 被験者は、50のディープフェイクと50の実際の人間の顔画像からランダムに選択された20の画像を表示された。 参加者は、それぞれのイメージがAI生成されているかどうかを尋ねられ、自信を報告し、それぞれの反応の背後にある推論を記述する。 全体の検出精度は偶然を上回っており、どの介入も改善しなかった。 参加者の回答に対する信頼度は高く,正確さとは無関係であった。 画像ごとに結果を評価すると、被験者は画像のラベル付けが難しくなるが、画像に関わらず同様に高い信頼性を報告している。 したがって、参加者の精度は全体の62%であったが、画像間の精度は85%から30%に相当し、5枚の画像で50%以下であった。 我々は、この脅威に対処するために緊急の対応を呼びかける必要があることを示唆していると解釈する。

Deepfakes are computationally-created entities that falsely represent reality. They can take image, video, and audio modalities, and pose a threat to many areas of systems and societies, comprising a topic of interest to various aspects of cybersecurity and cybersafety. In 2020 a workshop consulting AI experts from academia, policing, government, the private sector, and state security agencies ranked deepfakes as the most serious AI threat. These experts noted that since fake material can propagate through many uncontrolled routes, changes in citizen behaviour may be the only effective defence. This study aims to assess human ability to identify image deepfakes of human faces (StyleGAN2:FFHQ) from nondeepfake images (FFHQ), and to assess the effectiveness of simple interventions intended to improve detection accuracy. Using an online survey, 280 participants were randomly allocated to one of four groups: a control group, and 3 assistance interventions. Each participant was shown a sequence of 20 images randomly selected from a pool of 50 deepfake and 50 real images of human faces. Participants were asked if each image was AI-generated or not, to report their confidence, and to describe the reasoning behind each response. Overall detection accuracy was only just above chance and none of the interventions significantly improved this. Participants' confidence in their answers was high and unrelated to accuracy. Assessing the results on a per-image basis reveals participants consistently found certain images harder to label correctly, but reported similarly high confidence regardless of the image. Thus, although participant accuracy was 62% overall, this accuracy across images ranged quite evenly between 85% and 30%, with an accuracy of below 50% for one in every five images. We interpret the findings as suggesting that there is a need for an urgent call to action to address this threat.
翻訳日:2023-05-26 23:17:26 公開日:2023-05-25
# 階層的自己回帰ネットワークによる一階相転移のシミュレーション

Simulating first-order phase transition with hierarchical autoregressive networks ( http://arxiv.org/abs/2212.04955v2 )

ライセンス: Link先を確認
Piotr Bia{\l}as, Paulina Czarnota, Piotr Korcyl, Tomasz Stebel(参考訳) 階層型自己回帰ニューラルネットワーク(han)ネットワークサンプリングアルゴリズムを2次元$q$-state pottsモデルに適用し,相転移に関するシミュレーションを$q=12$で実施する。 我々は,1次相転移近傍におけるアプローチの性能を定量化し,wolffクラスタアルゴリズムと比較する。 統計学的不確実性が同様の数値的努力にかかわる限り、大きな改善が見られる。 大規模ニューラルネットワークを効率的にトレーニングするために,事前学習技術を導入する。 これにより、より小さなシステムサイズを使用してニューラルネットワークをトレーニングし、より大きなシステムサイズのための開始設定として使用することが可能になる。 これは階層的アプローチの再帰的構築によって可能になります。 この結果は,双モード分布を示すシステムに対する階層的手法の性能の実証となる。 さらに, 相転移近傍の自由エネルギーとエントロピーを推定し, 前者が10^{-7}$, 後者が10^6$構成の統計に基づいて10^{-3}$の統計的不確実性を示した。

We apply the Hierarchical Autoregressive Neural (HAN) network sampling algorithm to the two-dimensional $Q$-state Potts model and perform simulations around the phase transition at $Q=12$. We quantify the performance of the approach in the vicinity of the first-order phase transition and compare it with that of the Wolff cluster algorithm. We find a significant improvement as far as the statistical uncertainty is concerned at a similar numerical effort. In order to efficiently train large neural networks we introduce the technique of pre-training. It allows to train some neural networks using smaller system sizes and then employing them as starting configurations for larger system sizes. This is possible due to the recursive construction of our hierarchical approach. Our results serve as a demonstration of the performance of the hierarchical approach for systems exhibiting bimodal distributions. Additionally, we provide estimates of the free energy and entropy in the vicinity of the phase transition with statistical uncertainties of the order of $10^{-7}$ for the former and $10^{-3}$ for the latter based on a statistics of $10^6$ configurations.
翻訳日:2023-05-26 23:16:51 公開日:2023-05-25
# キラルナノフォトニック導波路における量子ドット二励起子カスケードの絡み合い特性

Entanglement properties of a quantum-dot biexciton cascade in a chiral nanophotonic waveguide ( http://arxiv.org/abs/2301.04444v2 )

ライセンス: Link先を確認
Eva M. Gonz\'alez-Ruiz, Freja T. {\O}stfeldt, Ravitej Uppu, Peter Lodahl, and Anders S. S{\o}rensen(参考訳) 我々は,量子ドットバイエクシトンカスケードの放射をキラルナノフォトニック導波管に結合させることによって生じる決定論的経路交絡フォトニック状態の絡み合い特性を, {\O}stfeldtらにより解析した。 [PRX Quantum 3, 020363 (2022)] 実際の実験的不完全性の存在下での2光子絡み合い状態の一致を通じて絡み合いの程度をモデル化する。 このモデルでは、導波路における不完全なキラルエミッタ-光子相互作用と、微細構造分裂によって引き起こされる励起子レベルの非対称結合と、光子の検出における時間ジッタが説明できる。 この分析は、本手法が現実的な実験的不完全性の存在下で、集積ナノフォトニクス系の絡み合いを決定的に生成するための有望なプラットフォームを提供することを示している。

We analyse the entanglement properties of deterministic path-entangled photonic states generated by coupling the emission of a quantum-dot biexciton cascade to a chiral nanophotonic waveguide, as implemented by {\O}stfeldt et al. [PRX Quantum 3, 020363 (2022)]. We model the degree of entanglement through the concurrence of the two-photon entangled state in the presence of realistic experimental imperfections. The model accounts for imperfect chiral emitter-photon interactions in the waveguide and the asymmetric coupling of the exciton levels introduced by fine-structure splitting along with time-jitter in the detection of photons. The analysis shows that the approach offers a promising platform for deterministically generating entanglement in integrated nanophotonic systems in the presence of realistic experimental imperfections.
翻訳日:2023-05-26 23:09:37 公開日:2023-05-25
# 自律走行の動作予測のための故障検出:不確実性の観点から

Failure Detection for Motion Prediction of Autonomous Driving: An Uncertainty Perspective ( http://arxiv.org/abs/2301.04421v2 )

ライセンス: Link先を確認
Wenbo Shao, Yanchao Xu, Liang Peng, Jun Li, Hong Wang(参考訳) 運動予測は安全で効率的な自動運転に不可欠である。 しかし、複雑な人工知能モデルの説明不可能性と不確実性は、モーション予測モジュールの予測不可能な失敗につながる可能性がある。 したがって、故障検出が潜在的方向である信頼性の高い自律運転を保証する方法を開発する必要がある。 不確実性推定は、モデルがその予測における信頼度を定量化し、故障検出に有用である可能性がある。 不確かさとモデル不確実性の両方を考慮して,不確実性の観点からの動作予測のための故障検出の枠組みを提案し,異なる予測段階に応じて様々な不確実性スコアを定式化する。 提案手法は, 異なる動作予測アルゴリズム, 不確実性推定法, 不確実性スコアなどに基づいて評価され, 不確実性は動作予測の故障検出に有望であるが注意を要することが示された。

Motion prediction is essential for safe and efficient autonomous driving. However, the inexplicability and uncertainty of complex artificial intelligence models may lead to unpredictable failures of the motion prediction module, which may mislead the system to make unsafe decisions. Therefore, it is necessary to develop methods to guarantee reliable autonomous driving, where failure detection is a potential direction. Uncertainty estimates can be used to quantify the degree of confidence a model has in its predictions and may be valuable for failure detection. We propose a framework of failure detection for motion prediction from the uncertainty perspective, considering both motion uncertainty and model uncertainty, and formulate various uncertainty scores according to different prediction stages. The proposed approach is evaluated based on different motion prediction algorithms, uncertainty estimation methods, uncertainty scores, etc., and the results show that uncertainty is promising for failure detection for motion prediction but should be used with caution.
翻訳日:2023-05-26 23:09:20 公開日:2023-05-25
# NeuroExplainer: 幼児の皮質発達パターンを明らかにするための微粒な注意デコーディング

NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical Development Patterns of Preterm Infants ( http://arxiv.org/abs/2301.00815v4 )

ライセンス: Link先を確認
Chenyu Xue, Fan Wang, Yuanzhuo Zhu, Hui Li, Deyu Meng, Dinggang Shen, and Chunfeng Lian(参考訳) 学際的なアプリケーションに信頼できるディープラーニング技術をデプロイするには、正確な(さらに重要な)説明可能な予測を出力する学習モデルが必要です。 既存のアプローチは通常、忠実な説明は正確な予測/分類に由来するという暗黙の仮定の下で、ポストホックな方法でネットワーク出力を明示する。 説明が分類を促進する(あるいは決定する)という反対の主張がある。 すなわち、識別的表現抽出を促進する説明因子のエンドツーエンド学習は、例えば、ノイズ、冗長、タスク非関連情報を含む高次元データを用いた神経画像および神経科学研究において、より直感的な方法である。 本稿では,ニューロエクスプランジャー(neuroexplainer)と呼ばれる,説明可能な幾何学的深層ネットワークを提案する。 ネットワーク入力としての基本的な皮質特性を考慮に入れると、神経外者では、細かな注意と各識別表現を学習するための階層的注意分離フレームワークを採用し、終末期乳児の終末期の年齢を正確に認識する。 neuroexplainerは、脳の発達に関するドメイン知識から導かれるターゲットの正規化と、主題レベルの弱い監督の下で階層的な注意喚起モジュールを学習する。 これらの事前誘導制約は、ネットワークトレーニングにおける説明可能性指標(すなわち、忠実度、疎度、安定性)を暗黙的に最大化し、学習したネットワークに詳細な説明と正確な分類を出力させる。 公開dHCPベンチマークの実験結果から、NeuroExplainerは、代表的な神経画像研究と定性的に一致した定量的に信頼性の高い説明結果をもたらすことが示唆された。

Deploying reliable deep learning techniques in interdisciplinary applications needs learned models to output accurate and (even more importantly) explainable predictions. Existing approaches typically explicate network outputs in a post-hoc fashion, under an implicit assumption that faithful explanations come from accurate predictions/classifications. We have an opposite claim that explanations boost (or even determine) classification. That is, end-to-end learning of explanation factors to augment discriminative representation extraction could be a more intuitive strategy to inversely assure fine-grained explainability, e.g., in those neuroimaging and neuroscience studies with high-dimensional data containing noisy, redundant, and task-irrelevant information. In this paper, we propose such an explainable geometric deep network dubbed as NeuroExplainer, with applications to uncover altered infant cortical development patterns associated with preterm birth. Given fundamental cortical attributes as network input, our NeuroExplainer adopts a hierarchical attention-decoding framework to learn fine-grained attentions and respective discriminative representations to accurately recognize preterm infants from term-born infants at term-equivalent age. NeuroExplainer learns the hierarchical attention-decoding modules under subject-level weak supervision coupled with targeted regularizers deduced from domain knowledge regarding brain development. These prior-guided constraints implicitly maximizes the explainability metrics (i.e., fidelity, sparsity, and stability) in network training, driving the learned network to output detailed explanations and accurate classifications. Experimental results on the public dHCP benchmark suggest that NeuroExplainer led to quantitatively reliable explanation results that are qualitatively consistent with representative neuroimaging studies.
翻訳日:2023-05-26 23:09:03 公開日:2023-05-25
# 線形配置を超えた1次元秩序原子鎖における集合状態の光制御

Optical control of collective states in 1D ordered atomic chains beyond the linear regime ( http://arxiv.org/abs/2212.13022v2 )

ライセンス: Link先を確認
Nikos Fayard, Igor Ferrier-Barbut, Antoine Browaeys and Jean-Jacques Greffet(参考訳) 効率的な原子-光子界面を開発する必要性により、近年の取り組みは、サブラジアントまたは超ラジカル集合状態をサポートすることのできる大きな冷原子配列によるキャビティの置換を提案している。 実際には、亜ラジアント状態は放射から分離され、ほとんどの用途にとってハードルとなる。 本研究では,v字型構成でn個の3レベル原子からなる1次元(1次元)鎖を用いて,この限界をバイパスするプロトコルを理論的に検討する。 プロトコル全体を通して、チェーンは時変メタマテリアルとして振る舞う:スペクトル的に空間的に制御されたモードで吸収、貯蔵、オンデマンドの放出を可能にする。 原子の量子的性質を考慮に入れると、リニアレジームと非線形レジームの境界が確立される。

Driven by the need to develop efficient atom-photon interfaces, recent efforts have proposed replacing cavities by large arrays of cold atoms that can support subradiant or superradiant collective states. In practice, subradiant states are decoupled from radiation, which constitutes a hurdle to most applications. In this work, we study theoretically a protocol that bypasses this limit using a one dimensional (1D) chain composed of N three-level atoms in a V-shaped configuration. Throughout the protocol, the chain behaves as a time-varying metamaterial: enabling absorption, storage and on-demand emission in a spectrally and spatially controlled mode. Taking into account the quantum nature of atoms, we establish the boundary between the linear regime and the nonlinear regime where singly and doubly excited subradiant states compete in the instantaneous decay rate during the storage
翻訳日:2023-05-26 23:08:30 公開日:2023-05-25
# 拡散モデルはデータ多様体の次元をひそかに知っている

Your diffusion model secretly knows the dimension of the data manifold ( http://arxiv.org/abs/2212.12611v5 )

ライセンス: Link先を確認
Jan Stanczuk, Georgios Batzolis, Teo Deveney, Carola-Bibiane Sch\"onlieb(参考訳) 本研究では,訓練された拡散モデルを用いてデータ多様体の次元を推定する新しいフレームワークを提案する。 拡散モデルは、スコア関数、すなわち、ノイズ崩壊したターゲット分布のログ密度の勾配を、様々なレベルの破損に対して近似する。 高次元の周囲空間に埋め込まれた多様体の周りにデータが集中すると、崩壊のレベルが低下するにつれて、スコア関数は多様体の方向に向けられ、この方向が最大可能性増加の方向となる。 したがって、小さなレベルの腐敗に対して、拡散モデルはデータ多様体の正規バンドルの近似へのアクセスを提供する。 これにより、接空間の次元を推定できるので、データ多様体の内在次元を推定することができる。 本手法は, 拡散モデルに基づくデータ多様体次元の最初の推定器であり, ユークリッドデータと画像データの両方の制御実験において, 確立された統計推定器よりも優れている。

In this work, we propose a novel framework for estimating the dimension of the data manifold using a trained diffusion model. A diffusion model approximates the score function i.e. the gradient of the log density of a noise-corrupted version of the target distribution for varying levels of corruption. We prove that, if the data concentrates around a manifold embedded in the high-dimensional ambient space, then as the level of corruption decreases, the score function points towards the manifold, as this direction becomes the direction of maximal likelihood increase. Therefore, for small levels of corruption, the diffusion model provides us with access to an approximation of the normal bundle of the data manifold. This allows us to estimate the dimension of the tangent space, thus, the intrinsic dimension of the data manifold. To the best of our knowledge, our method is the first estimator of the data manifold dimension based on diffusion models and it outperforms well established statistical estimators in controlled experiments on both Euclidean and image data.
翻訳日:2023-05-26 23:07:57 公開日:2023-05-25
# SupeRGB-D: クラッタ内環境におけるゼロショットインスタンスセグメンテーション

SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor Environments ( http://arxiv.org/abs/2212.11922v2 )

ライセンス: Link先を確認
Evin P{\i}nar \"Ornek, Aravindhan K Krishnan, Shreekant Gayaka, Cheng-Hao Kuo, Arnie Sen, Nassir Navab, Federico Tombari(参考訳) オブジェクトインスタンスのセグメンテーションは多くの小さなオブジェクトで散らかった環境をナビゲートする屋内ロボットにとって重要な課題である。 3Dセンシング能力の限界はしばしば、可能な全てのオブジェクトを検出するのを難しくする。 ディープラーニングのアプローチはこの問題に有効かもしれないが、教師付き学習のために手動で3Dデータをアノテートするのは時間を要する。 本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。 本稿では,テーブルトップオブジェクトデータセット(tod-z)のゼロショットスプリットを導入し,アノテートされたオブジェクトを用いてピクセルの ‘objectness' を学習し,乱雑な屋内環境において被写体カテゴリに一般化する手法を提案する。 提案手法であるsupergb-dは,画素を幾何学的手がかりに基づいて小さなパッチにグループ化し,そのパッチを深い凝集的クラスタリング方式でマージすることを学ぶ。 SupeRGB-Dは、見えないオブジェクトで既存のベースラインを上回り、見えるオブジェクトで同様のパフォーマンスを達成する。 さらに、実際のデータセットOCID上での競合結果を示す。 軽量な設計(0.4MBのメモリ要件)により,本手法はモバイルおよびロボットアプリケーションに極めて適している。 追加のdino機能により、より高いメモリ要求でパフォーマンスが向上する。 データセットの分割とコードはhttps://github.com/evinpinar/supergb-dで入手できる。

Object instance segmentation is a key challenge for indoor robots navigating cluttered environments with many small objects. Limitations in 3D sensing capabilities often make it difficult to detect every possible object. While deep learning approaches may be effective for this problem, manually annotating 3D data for supervised learning is time-consuming. In this work, we explore zero-shot instance segmentation (ZSIS) from RGB-D data to identify unseen objects in a semantic category-agnostic manner. We introduce a zero-shot split for Tabletop Objects Dataset (TOD-Z) to enable this study and present a method that uses annotated objects to learn the ``objectness'' of pixels and generalize to unseen object categories in cluttered indoor environments. Our method, SupeRGB-D, groups pixels into small patches based on geometric cues and learns to merge the patches in a deep agglomerative clustering fashion. SupeRGB-D outperforms existing baselines on unseen objects while achieving similar performance on seen objects. We further show competitive results on the real dataset OCID. With its lightweight design (0.4 MB memory requirement), our method is extremely suitable for mobile and robotic applications. Additional DINO features can increase performance with a higher memory requirement. The dataset split and code are available at https://github.com/evinpinar/supergb-d.
翻訳日:2023-05-26 23:07:43 公開日:2023-05-25
# グラフ畳み込み型カーネルマシンによる半教師あり分類

Semi-Supervised Classification with Graph Convolutional Kernel Machines ( http://arxiv.org/abs/2301.13764v2 )

ライセンス: Link先を確認
Sonny Achten, Francesco Tonin, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) グラフにおける半教師付きノード分類のためのディープグラフ畳み込みカーネルマシン(GCKM)を提案する。 まず、1ホップ近傍のノード特徴を伝播する教師なしカーネルマシンを導入する。 次に、フェンチェル・ヨンの不等式をレンズを通して半教師付き分類カーネルマシンを指定する。 複数の浅いカーネルマシンを積み重ねることで、ディープグラフ畳み込みカーネルマシンを得る。 教師なし層と半教師付き層がそれぞれ集約ノード特徴上の固有値問題と線形系に対応していることを示すと、2変数間の効率的なエンドツーエンドトレーニングアルゴリズムを導出する。 数値実験により、同好的で異好的なベンチマークデータセットのための最先端グラフニューラルネットワークと競合することを示す。 特に、GCKMはラベルがほとんどない場合に優れたパフォーマンスを達成する。

We present a deep Graph Convolutional Kernel Machine (GCKM) for semi-supervised node classification in graphs. First, we introduce an unsupervised kernel machine propagating the node features in a one-hop neighbourhood. Then, we specify a semi-supervised classification kernel machine through the lens of the Fenchel-Young inequality. The deep graph convolutional kernel machine is obtained by stacking multiple shallow kernel machines. After showing that unsupervised and semi-supervised layer corresponds to an eigenvalue problem and a linear system on the aggregated node features, respectively, we derive an efficient end-to-end training algorithm in the dual variables. Numerical experiments demonstrate that our approach is competitive with state-of-the-art graph neural networks for homophilious and heterophilious benchmark datasets. Notably, GCKM achieves superior performance when very few labels are available.
翻訳日:2023-05-26 23:00:32 公開日:2023-05-25
# archetypal analysis++: 初期化戦略再考

Archetypal Analysis++: Rethinking the Initialization Strategy ( http://arxiv.org/abs/2301.13748v2 )

ライセンス: Link先を確認
Sebastian Mair and Jens Sj\"olund(参考訳) アーチティパル解析は凸性制約を持つ行列分解法である。 局所的極小化のため、良い初期化が不可欠であるが、しばしば使用される初期化法は、最適でない開始点か、悪い局所的極小に詰まる傾向がある。 本稿では,目標に対する影響に基づいてポイントを逐次的にサンプリングする,確率的初期化戦略であるarchetypal analysis++ (aa++)を提案する。 実際、$k$-means++はすでに提案された初期化メソッドを近似している。 さらに,AA++に$k$-means++の効率的なモンテカルロ近似を適用することを提案する。 異なるサイズと次元の13の実世界のデータセットを広範囲に評価し、2つの前処理戦略を考慮すると、AA++は最も頻繁に使用されるものを含め、ほぼ常に全てのベースラインを上回ります。

Archetypal analysis is a matrix factorization method with convexity constraints. Due to local minima, a good initialization is essential, but frequently used initialization methods yield either sub-optimal starting points or are prone to get stuck in poor local minima. In this paper, we propose archetypal analysis++ (AA++), a probabilistic initialization strategy for archetypal analysis that sequentially samples points based on their influence on the objective, similar to $k$-means++. In fact, we argue that $k$-means++ already approximates the proposed initialization method. Furthermore, we suggest to adapt an efficient Monte Carlo approximation of $k$-means++ to AA++. In an extensive empirical evaluation of 13 real-world data sets of varying sizes and dimensionalities and considering two pre-processing strategies, we show that AA++ nearly always outperforms all baselines, including the most frequently used ones.
翻訳日:2023-05-26 23:00:21 公開日:2023-05-25
# 連続生成フローネットワークの理論

A theory of continuous generative flow networks ( http://arxiv.org/abs/2301.12594v2 )

ライセンス: Link先を確認
Salem Lahlou, Tristan Deleu, Pablo Lemos, Dinghuai Zhang, Alexandra Volokhova, Alex Hern\'andez-Garc\'ia, L\'ena N\'ehale Ezzine, Yoshua Bengio, Nikolay Malkin(参考訳) ジェネレーティブフローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の非正規化対象分布からサンプリングするように訓練されたアモータイズされた変分推論アルゴリズムである。 GFlowNets の重要な制限は、それらが離散空間に制限されていることである。 本稿では,既存の離散GFlowNetと連続的あるいはハイブリッドな状態空間を持つGFlowNetを包含する一般化GFlowNetの理論を提案し,二つの目標を念頭に実験を行う。 まず,理論の批判点と様々な仮定の重要性について述べる。 第二に, 離散型gflownets の観測結果が連続的な場合へどのように移行するかを実証し, 従来研究したタスクにおける非 gflownet ベースラインと比較して, 強い結果を示す。 この作業は、確率的推論と様々なモデリング設定におけるGFlowNetsの適用の視点を大幅に広げる。

Generative flow networks (GFlowNets) are amortized variational inference algorithms that are trained to sample from unnormalized target distributions over compositional objects. A key limitation of GFlowNets until this time has been that they are restricted to discrete spaces. We present a theory for generalized GFlowNets, which encompasses both existing discrete GFlowNets and ones with continuous or hybrid state spaces, and perform experiments with two goals in mind. First, we illustrate critical points of the theory and the importance of various assumptions. Second, we empirically demonstrate how observations about discrete GFlowNets transfer to the continuous case and show strong results compared to non-GFlowNet baselines on several previously studied tasks. This work greatly widens the perspectives for the application of GFlowNets in probabilistic inference and various modeling settings.
翻訳日:2023-05-26 23:00:05 公開日:2023-05-25
# ODEに基づく生成モデルの軌道曲率最小化

Minimizing Trajectory Curvature of ODE-based Generative Models ( http://arxiv.org/abs/2301.12003v3 )

ライセンス: Link先を確認
Sangyun Lee, Beomsu Kim, Jong Chul Ye(参考訳) 最近のODE/SDEベースの生成モデル、例えば拡散モデル、整流流、フローマッチングは、生成過程を固定前進過程の時間反転として定義する。 これらのモデルは大規模なデータセットで顕著な性能を示すが、数値シミュレーションにはニューラルネットワークの評価が複数必要であり、サンプリング速度が遅くなる。 その理由は, 数値解法器の停止誤差と直接関係しているため, 学習した生成軌跡の曲率が高いことに帰着する。 本稿では,前処理と曲率の関係に基づき,ODE/SDEシミュレーションを使わずに生成軌道の曲率を最小化するために,前処理を効率的に訓練する方法を提案する。 実験の結果,本手法は従来のモデルよりも低い曲率を達成し,競争性能を維持しつつサンプリングコストを低減できることがわかった。 コードはhttps://github.com/sangyun884/fast-odeで入手できる。

Recent ODE/SDE-based generative models, such as diffusion models, rectified flows, and flow matching, define a generative process as a time reversal of a fixed forward process. Even though these models show impressive performance on large-scale datasets, numerical simulation requires multiple evaluations of a neural network, leading to a slow sampling speed. We attribute the reason to the high curvature of the learned generative trajectories, as it is directly related to the truncation error of a numerical solver. Based on the relationship between the forward process and the curvature, here we present an efficient method of training the forward process to minimize the curvature of generative trajectories without any ODE/SDE simulation. Experiments show that our method achieves a lower curvature than previous models and, therefore, decreased sampling costs while maintaining competitive performance. Code is available at https://github.com/sangyun884/fast-ode.
翻訳日:2023-05-26 22:59:50 公開日:2023-05-25
# 量子ドット系における容量結合の自動抽出

Automated extraction of capacitive coupling for quantum dot systems ( http://arxiv.org/abs/2301.08654v2 )

ライセンス: Link先を確認
Joshua Ziegler, Florian Luthi, Mick Ramsey, Felix Borjans, Guoji Zheng, Justyna P. Zwolak(参考訳) ゲート定義量子ドット(QD)は量子コンピューティングプラットフォームとして魅力的である。 しかし、短期的なデバイスは、QDデバイスのチューニングと操作の間、考慮すべき不完全性の範囲を持っている。 そのような問題の1つは、QD量子ビットを定義し制御する金属ゲート間の容量的クロストークである。 コンデンサのクロストークを補償し、結合に依存しない特定のQDのターゲット制御を可能にするには、仮想ゲートを使用する。 本稿では,機械学習と従来の適合性を組み合わせた信頼性の高い自動容量結合同定手法を提案する。 また,実験装置のチューニング時に発生する突発性QDの同定に,クロスキャパシタンス測定がどのように用いられるかを示す。 当社のシステムは、運用体制の近傍にスプリアスドットを持つデバイスを自律的にフラグ付けすることが可能であり、これはqubit操作に適したシステムへの信頼性の高いチューニングに重要な情報である。

Gate-defined quantum dots (QDs) have appealing attributes as a quantum computing platform. However, near-term devices possess a range of possible imperfections that need to be accounted for during the tuning and operation of QD devices. One such problem is the capacitive cross-talk between the metallic gates that define and control QD qubits. A way to compensate for the capacitive cross-talk and enable targeted control of specific QDs independent of coupling is by the use of virtual gates. Here, we demonstrate a reliable automated capacitive coupling identification method that combines machine learning with traditional fitting to take advantage of the desirable properties of each. We also show how the cross-capacitance measurement may be used for the identification of spurious QDs sometimes formed during tuning experimental devices. Our systems can autonomously flag devices with spurious dots near the operating regime, which is crucial information for reliable tuning to a regime suitable for qubit operations.
翻訳日:2023-05-26 22:58:39 公開日:2023-05-25
# FemtoDet: エネルギーバーサス性能トレードオフのためのオブジェクト検出ベースライン

FemtoDet: An Object Detection Baseline for Energy Versus Performance Tradeoffs ( http://arxiv.org/abs/2301.06719v2 )

ライセンス: Link先を確認
Peng Tu, Xu Xie, Guo AI, Yuexiang Li, Yawen Huang, Yefeng Zheng(参考訳) エッジデバイスの効率的な検出器は、しばしばパラメータや速度カウントなどの指標に最適化され、検出器のエネルギーとの相関が弱いままである。 しかし、畳み込みニューラルネットワーク(CNN)の視覚的応用では、常時オンの監視カメラなど一部のものはエネルギー制約に欠かせない。 本稿では,2つの視点からエネルギーと性能のトレードオフに到達するための検出器を設計し,ベースラインとして機能することを目的とする。 1) 活性化関数の選択, 畳み込み演算子, ネック上の特徴融合構造などの低エネルギーアーキテクチャを同定するために, 様々なCNNを広範囲に分析する。 これらの未承認の詳細は、検出器のエネルギー消費に深刻な影響を及ぼす。 2) 二段式エネルギー性能問題を打破するために,低エネルギー成分であるtextit{FemtoDet} を用いた平衡検出器を提案する。 新たな構成に加えて,畳み込みとトレーニング戦略最適化を考慮し,FemtoDetをさらに改良する。 具体的には,様々な空間表現におけるcnnの限られた容量と検出タスクの矛盾を克服する畳み込み最適化のための新しいインスタンス境界拡張(ibe)モジュールを開発し,一般の増補で生成されたデータシフトを考慮した軽量検出器のサブ最適化から逃れるトレーニング戦略を最適化する再帰的ウォームリスタート(recwr)を提案する。 その結果、68.77kのパラメータしか持たないFemtoDetは、PASCAL VOCで46.3 AP50、RTX 3090で7.83Wの競争スコアを達成した。 COCOとTJU-DHDデータセットの大規模な実験は、提案手法が多様な場面で競合する結果をもたらすことを示している。

Efficient detectors for edge devices are often optimized for metrics like parameters or speed counts, which remain weak correlation with the energy of detectors. However, among vision applications of convolutional neural networks (CNNs), some, such as always-on surveillance cameras, are critical for energy constraints. This paper aims to serve as a baseline by designing detectors to reach tradeoffs between energy and performance from two perspectives: 1) We extensively analyze various CNNs to identify low-energy architectures, including the selection of activation functions, convolutions operators, and feature fusion structures on necks. These underappreciated details in past works seriously affect the energy consumption of detectors; 2) To break through the dilemmatic energy-performance problem, we propose a balanced detector driven by energy using discovered low-energy components named \textit{FemtoDet}. In addition to the novel construction, we further improve FemtoDet by considering convolutions and training strategy optimizations. Specifically, we develop a new instance boundary enhancement (IBE) module for convolution optimization to overcome the contradiction between the limited capacity of CNNs and detection tasks in diverse spatial representations, and propose a recursive warm-restart (RecWR) for optimizing training strategy to escape the sub-optimization of light-weight detectors, considering the data shift produced in popular augmentations. As a result, FemtoDet with only 68.77k parameters achieves a competitive score of 46.3 AP50 on PASCAL VOC and power of 7.83W on RTX 3090. Extensive experiments on COCO and TJU-DHD datasets indicate that the proposed method achieves competitive results in diverse scenes.
翻訳日:2023-05-26 22:58:24 公開日:2023-05-25
# 量子時間差学習の解析

An Analysis of Quantile Temporal-Difference Learning ( http://arxiv.org/abs/2301.04462v2 )

ライセンス: Link先を確認
Mark Rowland, R\'emi Munos, Mohammad Gheshlaghi Azar, Yunhao Tang, Georg Ostrovski, Anna Harutyunyan, Karl Tuyls, Marc G. Bellemare, Will Dabney(参考訳) 大規模強化学習の大規模応用において重要な要素であることが証明された分散強化学習アルゴリズムである量子時間差分学習(QTD)を解析する。 これらの経験的な成功にもかかわらず、QTDに関する理論的理解はこれまでにも発覚している。 標準的な確率近似ツールで解析できる古典的TD学習とは異なり、QTD更新は縮約写像を近似せず、非常に非線形であり、複数の固定点を持つ。 本論文の中核的な結果は、確率 1 で関連する動的プログラミング手順のファミリーの固定点への収束の証明であり、QTD をしっかりとした理論的な足場に配置する。 この証明は確率近似理論と非滑らか解析を通じてQTDと非線形微分包含物の間の関係を確立する。

We analyse quantile temporal-difference learning (QTD), a distributional reinforcement learning algorithm that has proven to be a key component in several successful large-scale applications of reinforcement learning. Despite these empirical successes, a theoretical understanding of QTD has proven elusive until now. Unlike classical TD learning, which can be analysed with standard stochastic approximation tools, QTD updates do not approximate contraction mappings, are highly non-linear, and may have multiple fixed points. The core result of this paper is a proof of convergence to the fixed points of a related family of dynamic programming procedures with probability 1, putting QTD on firm theoretical footing. The proof establishes connections between QTD and non-linear differential inclusions through stochastic approximation theory and non-smooth analysis.
翻訳日:2023-05-26 22:57:36 公開日:2023-05-25
# Performative Recommendation: ストラテジックインセンティブによるコンテンツの多様化

Performative Recommendation: Diversifying Content via Strategic Incentives ( http://arxiv.org/abs/2302.04336v2 )

ライセンス: Link先を確認
Itay Eilat, Nir Rosenfeld(参考訳) 推奨の主なゴールは、ユーザーに関連コンテンツを提案することだが、精度を最適化することは、しばしば多様性を欠くレコメンデーションをもたらす。 これを改善するため、従来のアプローチでは、より多様な項目を提示することで多様性を向上する。 ここでは,本質的かつ長期的多様性を促進するためには,システムがその創造を促進する必要があると論じる。 これに向けて、我々はレコメンデーションの演奏性を活用し、学習が戦略的コンテンツクリエーターに多様なコンテンツを創造するインセンティブを与える方法を示す。 我々のアプローチは、コンテンツに対する戦略的変化を予測し、コンテンツ均質性を罰する新しい形式に依存している。 我々は,多様性をいつ,どのようにインセンティブ化できるかを示す分析的および実証的な結果を提供し,合成および半合成データに対するアプローチの有用性を実験的に実証した。

The primary goal in recommendation is to suggest relevant content to users, but optimizing for accuracy often results in recommendations that lack diversity. To remedy this, conventional approaches such as re-ranking improve diversity by presenting more diverse items. Here we argue that to promote inherent and prolonged diversity, the system must encourage its creation. Towards this, we harness the performative nature of recommendation, and show how learning can incentivize strategic content creators to create diverse content. Our approach relies on a novel form of regularization that anticipates strategic changes to content, and penalizes for content homogeneity. We provide analytic and empirical results that demonstrate when and how diversity can be incentivized, and experimentally demonstrate the utility of our approach on synthetic and semi-synthetic data.
翻訳日:2023-05-26 22:51:00 公開日:2023-05-25
# 非定常分布におけるメモリベースメタラーニング

Memory-Based Meta-Learning on Non-Stationary Distributions ( http://arxiv.org/abs/2302.03067v2 )

ライセンス: Link先を確認
Tim Genewein, Gr\'egoire Del\'etang, Anian Ruoss, Li Kevin Wenliang, Elliot Catt, Vincent Dutordoir, Jordi Grau-Moya, Laurent Orseau, Marcus Hutter, Joel Veness(参考訳) メモリベースのメタ学習はベイズ最適予測器を近似する手法である。 比較的一般的な条件下では、ログ損失によって測定された逐次予測誤差を最小化することは暗黙のメタ学習につながる。 本研究の目的は,現在のシーケンス予測モデルとトレーニングレジームを用いて,この解釈がどこまで実現できるかを検討することである。 その焦点は、観測不能なスイッチングポイントを持つ断片的な定常源であり、部分的に観測可能な環境における自然言語と行動観測シーケンスの重要な特徴を確実に捉えている。 本稿では,Transformer,LSTM,RNNなどのメモリベースニューラルモデルを用いて,既知のベイズ最適アルゴリズムを正確に近似し,潜時切換点に対するベイズ推定や各セグメント内のデータ分布を管理する潜時パラメータの動作を学習できることを示す。

Memory-based meta-learning is a technique for approximating Bayes-optimal predictors. Under fairly general conditions, minimizing sequential prediction error, measured by the log loss, leads to implicit meta-learning. The goal of this work is to investigate how far this interpretation can be realized by current sequence prediction models and training regimes. The focus is on piecewise stationary sources with unobserved switching-points, which arguably capture an important characteristic of natural language and action-observation sequences in partially observable environments. We show that various types of memory-based neural models, including Transformers, LSTMs, and RNNs can learn to accurately approximate known Bayes-optimal algorithms and behave as if performing Bayesian inference over the latent switching-points and the latent parameters governing the data distribution within each segment.
翻訳日:2023-05-26 22:49:57 公開日:2023-05-25
# フェデレーション学習のためのディープラーニングモデルの適応パラメータ化

Adaptive Parameterization of Deep Learning Models for Federated Learning ( http://arxiv.org/abs/2302.02949v2 )

ライセンス: Link先を確認
Morten From Elvebakken, Alexandros Iosifidis, Lukas Esterle(参考訳) Federated Learningは、分散形式でディープニューラルネットワークをトレーニングする方法を提供する。 これは分散データに関する制限に対処するが、トレーニング中にモデルパラメータや勾配を定期的に交換する必要があるため、通信オーバーヘッドが発生する。 これは、学習タスクの大規模分散の問題であり、各リソース分布の利点を否定する可能性がある。 本稿では,並列アダプタを用いたフェデレーション学習を提案する。 各種データセットを用いて、Adapterを異なるフェデレート学習手法に組み込むことができることを示す。 提案手法は,通信オーバヘッドを約90%削減しつつ,フルモデルのトレーニングに比べ,同様の推論性能を実現することができる。 さらに、クロスサイロおよびクロスデバイス設定におけるAdapterの適用性、および異なる非IIDデータ分散について検討する。

Federated Learning offers a way to train deep neural networks in a distributed fashion. While this addresses limitations related to distributed data, it incurs a communication overhead as the model parameters or gradients need to be exchanged regularly during training. This can be an issue with large scale distribution of learning tasks and negate the benefit of the respective resource distribution. In this paper, we we propose to utilise parallel Adapters for Federated Learning. Using various datasets, we show that Adapters can be incorporated to different Federated Learning techniques. We highlight that our approach can achieve similar inference performance compared to training the full model while reducing the communication overhead by roughly 90%. We further explore the applicability of Adapters in cross-silo and cross-device settings, as well as different non-IID data distributions.
翻訳日:2023-05-26 22:49:19 公開日:2023-05-25
# GAT: Pareto-optimal Auxiliary Tasks を用いた指導的対人訓練

GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks ( http://arxiv.org/abs/2302.02907v2 )

ライセンス: Link先を確認
Salah Ghamizi, Jingfeng Zhang, Maxime Cordy, Mike Papadakis, Masashi Sugiyama, and Yves Le Traon(参考訳) 追加のトレーニングデータを活用することは、敵の堅牢性を改善するために十分に確立されているが、データ収集の避けられないコストと、モデルをトレーニングするための重い計算を引き起こす。 このコストを軽減するために,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練技術であるガイド・ディバイサリー・トレーニング(GAT)を提案する。 提案手法は,1タスクモデルからマルチタスクモデルへ拡張し,複数のタスクにまたがる勾配曲率を正規化し,損失最適化を駆動する。 gatは、ラベルを自動的に生成するセルフ教師タスクと、人間の専門家が追加のラベルを提供するドメイン知識タスクの2つの補助タスクを活用する。 実験的に、GATはCheXpertの医用画像データセットのロバストAUCを50%から83%に増加させ、CIFAR-10では8つの最先端の対人訓練を上回り、Resnet-50で56.21%の堅牢な精度を達成した。 全体として、ガイド付きマルチタスク学習は、モデルロバスト性の境界をさらに推し進めるための実践的で有望な方法であることを示す。

While leveraging additional training data is well established to improve adversarial robustness, it incurs the unavoidable cost of data collection and the heavy computation to train models. To mitigate the costs, we propose Guided Adversarial Training (GAT), a novel adversarial training technique that exploits auxiliary tasks under a limited set of training data. Our approach extends single-task models into multi-task models during the min-max optimization of adversarial training, and drives the loss optimization with a regularization of the gradient curvature across multiple tasks. GAT leverages two types of auxiliary tasks: self-supervised tasks, where the labels are generated automatically, and domain-knowledge tasks, where human experts provide additional labels. Experimentally, GAT increases the robust AUC of CheXpert medical imaging dataset from 50% to 83% and On CIFAR-10, GAT outperforms eight state-of-the-art adversarial training and achieves 56.21% robust accuracy with Resnet-50. Overall, we demonstrate that guided multi-task learning is an actionable and promising avenue to push further the boundaries of model robustness.
翻訳日:2023-05-26 22:49:08 公開日:2023-05-25
# 予算・ROI制約下におけるオンライン学習と非実効入札への活用

Online Learning under Budget and ROI Constraints and Applications to Bidding in Non-Truthful Auctions ( http://arxiv.org/abs/2302.01203v2 )

ライセンス: Link先を確認
Matteo Castiglioni, Andrea Celli, Christian Kroer(参考訳) 我々は、予算と投資リターン(roi)の制約に固執しながら、期待する報酬を最大化することを目的として、意思決定者が一連のコストのかかる意思決定をしなければならないオンライン学習問題を研究する。 以前の作業では、オフライン問題の厳密な実現可能性の度合いに関連する特定のパラメータを事前に知る必要がある。 さらに、入力が逆ならば、各ラウンドにおけるオフライン最適化問題の厳密な解決方法が存在する必要がある。 どちらの要件も、オンライン広告オークションの入札のような実用的な応用には非現実的である。 本稿では,相互後悔の概念を生かして両者の仮定を回避し,確率的入力と逆入力の両方で保証する最善の両世界の原始双対的枠組みを提案する。 提案手法は,両入力モデルに最小限の修正で適用可能であり,この2つの問題に対する統一的な視点を提供する。 最後に、第1および第2価格オークションのような実用的妥当性の様々なメカニズムを最適に入札するためのフレームワークのインスタンス化方法を示す。

We study online learning problems in which a decision maker has to make a sequence of costly decisions, with the goal of maximizing their expected reward while adhering to budget and return-on-investment (ROI) constraints. Previous work requires the decision maker to know beforehand some specific parameters related to the degree of strict feasibility of the offline problem. Moreover, when inputs are adversarial, it requires the existence of a strictly feasible solution to the offline optimization problem at each round. Both requirements are unrealistic for practical applications such as bidding in online ad auctions. We propose a best-of-both-worlds primal-dual framework which circumvents both assumptions by exploiting the notion of interval regret, providing guarantees under both stochastic and adversarial inputs. Our proof techniques can be applied to both input models with minimal modifications, thereby providing a unified perspective on the two problems. Finally, we show how to instantiate the framework to optimally bid in various mechanisms of practical relevance, such as first- and second-price auctions.
翻訳日:2023-05-26 22:48:23 公開日:2023-05-25
# QCM-SGM+:スコアベース生成モデルによる量子圧縮センシングの改良

QCM-SGM+: Improved Quantized Compressed Sensing With Score-Based Generative Models ( http://arxiv.org/abs/2302.00919v2 )

ライセンス: Link先を確認
Xiangming Meng and Yoshiyuki Kabashima(参考訳) 実際に圧縮センシング(CS)において、得られた測定値は通常、伝送または記憶の前に限られたビット数に量子化を必要とする。 この非線形量子化プロセスは、特に1ビットのような極端に粗い量子化において、大きな回復の課題をもたらす。 近年、スコアベース生成モデル(SGM)を暗黙の先行として利用する量子CS(QCS)に対して、QCS-SGMと呼ばれる効率的なアルゴリズムが提案されている。 自然信号の複雑な構造を捉える際にSGMが有効であることから、QCS-SGMは従来のQCS法よりも大幅に優れていた。 しかし、QCS-SGMは、確率スコアの計算が難解になるにつれて(ほぼ)行直交の知覚行列に制約される。 この制限に対処するために、一般行列を効果的に処理できるQCS-SGM+と呼ばれる先進的なQCS-SGMを導入した。 鍵となる考え方は、確率スコア計算におけるベイズ推定の観点であり、予測伝搬アルゴリズムがその近似計算に使用される。 本研究は,QCS-SGMよりもQCS-SGM+の方が行直交性以上の一般感覚行列に優れていることを示す。

In practical compressed sensing (CS), the obtained measurements typically necessitate quantization to a limited number of bits prior to transmission or storage. This nonlinear quantization process poses significant recovery challenges, particularly with extreme coarse quantization such as 1-bit. Recently, an efficient algorithm called QCS-SGM was proposed for quantized CS (QCS) which utilizes score-based generative models (SGM) as an implicit prior. Due to the adeptness of SGM in capturing the intricate structures of natural signals, QCS-SGM substantially outperforms previous QCS methods. However, QCS-SGM is constrained to (approximately) row-orthogonal sensing matrices as the computation of the likelihood score becomes intractable otherwise. To address this limitation, we introduce an advanced variant of QCS-SGM, termed QCS-SGM+, capable of handling general matrices effectively. The key idea is a Bayesian inference perspective on the likelihood score computation, wherein an expectation propagation algorithm is employed for its approximate computation. We conduct extensive experiments on various settings, demonstrating the substantial superiority of QCS-SGM+ over QCS-SGM for general sensing matrices beyond mere row-orthogonality.
翻訳日:2023-05-26 22:47:54 公開日:2023-05-25
# ハイパーパラメータ最適化のための電力法則

Power Laws for Hyperparameter Optimization ( http://arxiv.org/abs/2302.00441v2 )

ライセンス: Link先を確認
Arlind Kadra, Maciej Janowski, Martin Wistuba, Josif Grabocka(参考訳) ハイパーパラメータ最適化は、ピーク性能を達成するために選択されたアルゴリズムのハイパーパラメータをチューニングすることに焦点を当てた機械学習の重要なサブフィールドである。 近年,ハイパーパラメータ最適化の問題に対処する手法が多数存在するが,ほとんどの手法は学習曲線のスケーリング法則を利用していない。 本研究では,ニューラルネットワークモデルの集合体であるDeep Power Laws (DPL)を提案する。 提案手法は,グレーボックス評価を用いて,どの設定を停止し,段階的に訓練するかを動的に決定する。 本手法は,59のタスクをカバーする表,画像,nlpデータセットに関連する3つのベンチマークにおいて,最先端の7つの競合相手と比較した。 提案手法は,すべてのベンチマークにおいて,すべての競合相手と比較して,最高のリアルタイム結果を得ることによって,最良の結果を得る。

Hyperparameter optimization is an important subfield of machine learning that focuses on tuning the hyperparameters of a chosen algorithm to achieve peak performance. Recently, there has been a stream of methods that tackle the issue of hyperparameter optimization, however, most of the methods do not exploit the scaling law property of learning curves. In this work, we propose Deep Power Laws (DPL), an ensemble of neural network models conditioned to yield predictions that follow a power-law scaling pattern. Our method dynamically decides which configurations to pause and train incrementally by making use of gray-box evaluations. We compare our method against 7 state-of-the-art competitors on 3 benchmarks related to tabular, image, and NLP datasets covering 59 diverse tasks. Our method achieves the best results across all benchmarks by obtaining the best any-time results compared to all competitors.
翻訳日:2023-05-26 22:47:29 公開日:2023-05-25
# InstructABSA:Aspect Based Sentiment Analysisのための指導学習

InstructABSA: Instruction Learning for Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2302.08624v5 )

ライセンス: Link先を確認
Kevin Scaria and Himanshu Gupta and Siddharth Goyal and Saurabh Arjun Sawant and Swaroop Mishra and Chitta Baral(参考訳) 本稿では、ABSAサブタスクの命令学習パラダイム(Aspect Term extract (ATE)、Aspect Term Sentiment Classification (ATSC)、ジョイントタスクモデリング)を用いて、ABSA、Aspect Based Sentiment Analysis (ABSA)を提案する。 提案手法は,各トレーニングサンプルに対して正,負,中立の例を導入し,ABSAサブタスクのモデル(Tk-インストラクト)をチューニングし,大幅な性能改善を実現する。 Sem Eval 2014 15 16データセットの実験結果によると、InstructABSAは以前の最先端(SOTA)アプローチよりも、ABSAサブタスク(ATE、ATSC、ジョイントタスク)の3つのサブタスク(ATE、ATSC、ジョイントタスク)の方が、大きなマージンで、7倍のモデルより優れていた。 特に、InstructABSAは、Rest14 ATEサブタスクのSOTAを5.69%、Rest15 ATSCサブタスクの9.59%、Lapt14 Joint Taskの3.37%を上回っている。 また、3つのサブタスクにまたがる新しいドメインに対する強力な一般化能力も示唆した。

In this paper, we present InstructABSA, Aspect Based Sentiment Analysis (ABSA) using the instruction learning paradigm for the ABSA subtasks: Aspect Term Extraction (ATE), Aspect Term Sentiment Classification (ATSC), and Joint Task modeling. Our method introduces positive, negative, and neutral examples to each training sample, and instruction tunes the model (Tk-Instruct) the ABSA subtasks, yielding significant performance improvements. Experimental results on the Sem Eval 2014, 15, and 16 datasets demonstrate that InstructABSA outperforms the previous state-of-the-art (SOTA) approaches on the three ABSA subtasks (ATE, ATSC, and Joint Task) by a significant margin, outperforming 7x larger models. In particular, InstructABSA surpasses the SOTA on the Rest14 ATE subtask by 5.69% points, Rest15 ATSC subtask by 9.59% points, and on the Lapt14 Joint Task by 3.37% points. Our results also suggest a strong generalization ability to new domains across all three subtasks
翻訳日:2023-05-26 20:58:11 公開日:2023-05-25
# 記憶のある線形バンド:回転から上昇まで

Linear Bandits with Memory: from Rotting to Rising ( http://arxiv.org/abs/2302.08345v2 )

ライセンス: Link先を確認
Giulia Clerici, Pierre Laforgue, Nicol\`o Cesa-Bianchi(参考訳) 推奨の風刺効果のような非定常現象は、主に有限個の腕を持つバンディットを用いてモデル化されている。 しかし、線形バンディットによって提供されるよりリッチなアクション空間は、実際は好まれる。 本研究では,固定サイズウィンドウにおける学習者の過去の行動の影響を受けない,新しい非定常線形バンディットモデルを提案する。 定常線形帯域を特別な場合として回復するモデルでは、ウィンドウサイズ$m \ge 0$ と、その現象の回転($\gamma < 0)$ または上昇($\gamma > 0$)の性質を捉える指数 $\gamma$ という2つのパラメータを利用する。 m$と$\gamma$の両方が知られているとき、サイクルポリシーに対する後悔を最小限に抑えるOFULの変種を提案し、分析する。 近似と推定誤差をトレードオフするためにサイクル長を選択することで、最適のアクション列に対する後悔に対して、次数 $\sqrt{d}\,(m+1)^{\frac{1}{2}+\max\{\gamma,0\}}\,T^{3/4}$(ログ要素を無視して)の有界を証明し、そこで$T$は地平線であり、$d$は線形アクション空間の次元である。 banditモデル選択アプローチによって、結果は$m$と$\gamma$が不明な場合に拡張されます。 最後に, 自然ベースラインに対する実験により, 理論結果を補完する。

Nonstationary phenomena, such as satiation effects in recommendations, have mostly been modeled using bandits with finitely many arms. However, the richer action space provided by linear bandits is often preferred in practice. In this work, we introduce a novel nonstationary linear bandit model, where current rewards are influenced by the learner's past actions in a fixed-size window. Our model, which recovers stationary linear bandits as a special case, leverages two parameters: the window size $m \ge 0$, and an exponent $\gamma$ that captures the rotting ($\gamma < 0)$ or rising ($\gamma > 0$) nature of the phenomenon. When both $m$ and $\gamma$ are known, we propose and analyze a variant of OFUL which minimizes regret against cycling policies. By choosing the cycle length so as to trade-off approximation and estimation errors, we then prove a bound of order $\sqrt{d}\,(m+1)^{\frac{1}{2}+\max\{\gamma,0\}}\,T^{3/4}$ (ignoring log factors) on the regret against the optimal sequence of actions, where $T$ is the horizon and $d$ is the dimension of the linear action space. Through a bandit model selection approach, our results are extended to the case where $m$ and $\gamma$ are unknown. Finally, we complement our theoretical results with experiments against natural baselines.
翻訳日:2023-05-26 20:57:46 公開日:2023-05-25
# 平均場学習による需要サイドマネジメントの再考

Reimagining Demand-Side Management with Mean Field Learning ( http://arxiv.org/abs/2302.08190v2 )

ライセンス: Link先を確認
Bianca Marin Moreno (EDF R&D, Thoth), Margaux Br\'eg\`ere (SU, LPSM (UMR\_8001), EDF R&D), Pierre Gaillard (Thoth), Nadia Oudjane (EDF R&D)(参考訳) 供給と需要のバランスを保ちながら電力網に再生可能エネルギーを統合することは、断続的な性質を考えると複雑な問題である。 需要側管理(DSM)はこの課題に対する解決策を提供する。 本稿では,DSMの新しい手法,特に所望の消費信号に従うために大量の電気機器を制御する問題を提案する。 有限地平線マルコフ平均場制御問題としてモデル化する。 我々は,凸関数とリプシッツ関数の理論的保証を提供する新しいアルゴリズムMD-MFCを開発した。 MD-MFCと既存の負荷制御文献との違いは、主問題における正規化技術に頼ることなく、目標追従問題を直接解決する効果である。 ミラー降下スキーム上の非標準ブレグマン発散は、単純な閉形式解を得るために動的プログラミングを使うことができる。 さらに,本問題に対して汎用平均場ゲームアルゴリズムを適用できることを示し,負荷制御問題に対処する可能性を広げる。 私たちは現実のデータセットで実験を行い、クレームを説明します。

Integrating renewable energy into the power grid while balancing supply and demand is a complex issue, given its intermittent nature. Demand side management (DSM) offers solutions to this challenge. We propose a new method for DSM, in particular the problem of controlling a large population of electrical devices to follow a desired consumption signal. We model it as a finite horizon Markovian mean field control problem. We develop a new algorithm, MD-MFC, which provides theoretical guarantees for convex and Lipschitz objective functions. What distinguishes MD-MFC from the existing load control literature is its effectiveness in directly solving the target tracking problem without resorting to regularization techniques on the main problem. A non-standard Bregman divergence on a mirror descent scheme allows dynamic programming to be used to obtain simple closed-form solutions. In addition, we show that general mean-field game algorithms can be applied to this problem, which expands the possibilities for addressing load control problems. We illustrate our claims with experiments on a realistic data set.
翻訳日:2023-05-26 20:57:16 公開日:2023-05-25
# 何が新しいの? 物語における新しい出来事の展開を特定する

Whats New? Identifying the Unfolding of New Events in Narratives ( http://arxiv.org/abs/2302.07748v3 )

ライセンス: Link先を確認
Seyed Mahed Mousavi, Shohei Tanaka, Gabriel Roccabruna, Koichiro Yoshino, Satoshi Nakamura, Giuseppe Riccardi(参考訳) ナラティブには、時間とコンテキストにまたがる豊富なイベントソースが含まれている。 これらの出来事の自動理解は、さらなる計算(推論など)のために物語を要約した理解を提供する。 本稿では,イベントの情報状況(IS)を調査し,物語中の「textit{new}」イベントの自動識別という,新たな課題を提案する。 イベントは主題、述語、オブジェクトの三重項として定義します。 イベントは、談話の文脈と、コモンセンス推論によって推測できるかどうかに関して、新しく分類される。 我々は,人間の注釈を用いて,新しい出来事を文レベルで表現した物語の公開コーパスを注釈した。 本稿ではアノテーションプロトコルを提案し,アノテーションの品質とタスクの難易度について検討する。 ナラティブ理解のための新しいイベント抽出タスクのために,アノテーション付きデータセット,アノテーション資料,機械学習ベースラインモデルを公開する。

Narratives include a rich source of events unfolding over time and context. Automatic understanding of these events provides a summarised comprehension of the narrative for further computation (such as reasoning). In this paper, we study the Information Status (IS) of the events and propose a novel challenging task: the automatic identification of \textit{new} events in a narrative. We define an event as a triplet of subject, predicate, and object. The event is categorized as new with respect to the discourse context and whether it can be inferred through commonsense reasoning. We annotated a publicly available corpus of narratives with the new events at sentence level using human annotators. We present the annotation protocol and study the quality of the annotation and the difficulty of the task. We publish the annotated dataset, annotation materials, and machine learning baseline models for the task of new event extraction for narrative understanding.
翻訳日:2023-05-26 20:57:00 公開日:2023-05-25
# トランスフォーマーモデル:導入とカタログ

Transformer models: an introduction and catalog ( http://arxiv.org/abs/2302.07730v3 )

ライセンス: Link先を確認
Xavier Amatriain(参考訳) 過去数年間、我々は何十ものトランスフォーマーファミリーの基礎モデルが登場してきたが、それらはすべて記憶に残る、時には面白い、しかし自己説明的な名前ではない。 本稿の目的は,最もポピュラーなトランスフォーマーモデルの包括的かつ単純なカタログと分類を提供することである。 論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。 私たちのカタログには、自己教師付き学習(BERTやGPT3)でトレーニングされたモデルと、さらに人間のループ(ChatGPTで使用されるインストラクトGPTモデルなど)でトレーニングされたモデルが含まれます。

In the past few years we have seen the meteoric appearance of dozens of foundation models of the Transformer family, all of which have memorable and sometimes funny, but not self-explanatory, names. The goal of this paper is to offer a somewhat comprehensive but simple catalog and classification of the most popular Transformer models. The paper also includes an introduction to the most important aspects and innovations in Transformer models. Our catalog will include models that are trained using self-supervised learning (e.g., BERT or GPT3) as well as those that are further trained using a human-in-the-loop (e.g. the InstructGPT model used by ChatGPT).
翻訳日:2023-05-26 20:56:48 公開日:2023-05-25
# カーネル2サンプルテストの可変選択

Variable Selection for Kernel Two-Sample Tests ( http://arxiv.org/abs/2302.07415v2 )

ライセンス: Link先を確認
Jie Wang and Santanu S. Dey and Yao Xie(参考訳) 2つのグループから標本を区別する最も有益な変数を選択することを目的として, 2つのサンプルテストにおける変数選択問題を考える。 この問題を解決するために,カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。 提案手法は,分散正規化MDD統計量の最大化を図った,所定のサイズの変数群を求める。 この定式化はまた、文献で研究されているように、タイプIエラーを制御しながら、漸近型IIエラーの最小化に対応する。 本稿では,混合整数型プログラミングの定式化と,線形型および二次型カーネル関数の性能保証を備えた完全近似アルゴリズムを提案する。 実験結果は,我々のフレームワークの優れた性能を示す。

We consider the variable selection problem for two-sample tests, aiming to select the most informative variables to distinguish samples from two groups. To solve this problem, we propose a framework based on the kernel maximum mean discrepancy (MMD). Our approach seeks a group of variables with a pre-specified size that maximizes the variance-regularized MMD statistics. This formulation also corresponds to the minimization of asymptotic type-II error while controlling type-I error, as studied in the literature. We present mixed-integer programming formulations and offer exact and approximation algorithms with performance guarantees for linear and quadratic types of kernel functions. Experimental results demonstrate the superior performance of our framework.
翻訳日:2023-05-26 20:56:36 公開日:2023-05-25
# readin: リアルで多様な入力ノイズを持つ中国のマルチタスクベンチマーク

READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises ( http://arxiv.org/abs/2302.07324v2 )

ライセンス: Link先を確認
Chenglei Si, Zhengyan Zhang, Yingfa Chen, Xiaozhi Wang, Zhiyuan Liu, Maosong Sun(参考訳) 多くの実世界のアプリケーションでは、利用者が生成する入力は、通常、言語的変異1またはタイポグラフィー的誤り(typos)によって引き起こされる音声認識エラーによる様々なノイズを含む。 したがって、堅牢性と公平性を確保するために、現実的な入力ノイズを持つデータでモデル性能をテストすることが不可欠である。 しかし、言語固有の入力ノイズが現実世界で発生する中国語のベンチマークを構築するための研究はほとんど行われていない。 この重要なギャップを埋めるために、Realistic And Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。 READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力する。 例えば、キーボードノイズに多様な入力方法エディタ(IME)を使用するようにアノテータに指示し、音声ノイズに様々な方言グループから話者を募集することで、多様性を最大化するアノテーションパイプラインを設計した。 強固な事前学習された言語モデルとロバストなトレーニング手法を実験した結果、データ拡張のような堅牢性のある方法であっても、これらのモデルはしばしばリードインの大幅なパフォーマンス低下に苦しむことが分かりました。 ユーザ生成入力を指向したノイズのあるベンチマークを作成するための最初の大規模な試みとして、READINが既存の中国のNLPベンチマークの重要な補完となると信じている。 ソースコードとデータセットはhttps://github.com/thunlp/READINから取得できる。

For many real-world applications, the user-generated inputs usually contain various noises due to speech recognition errors caused by linguistic variations1 or typographical errors (typos). Thus, it is crucial to test model performance on data with realistic input noises to ensure robustness and fairness. However, little study has been done to construct such benchmarks for Chinese, where various language-specific input noises happen in the real world. In order to fill this important gap, we construct READIN: a Chinese multi-task benchmark with REalistic And Diverse Input Noises. READIN contains four diverse tasks and requests annotators to re-enter the original test data with two commonly used Chinese input methods: Pinyin input and speech input. We designed our annotation pipeline to maximize diversity, for example by instructing the annotators to use diverse input method editors (IMEs) for keyboard noises and recruiting speakers from diverse dialectical groups for speech noises. We experiment with a series of strong pretrained language models as well as robust training methods, we find that these models often suffer significant performance drops on READIN even with robustness methods like data augmentation. As the first large-scale attempt in creating a benchmark with noises geared towards user-generated inputs, we believe that READIN serves as an important complement to existing Chinese NLP benchmarks. The source code and dataset can be obtained from https://github.com/thunlp/READIN.
翻訳日:2023-05-26 20:56:25 公開日:2023-05-25
# 原因推定のための系列不特定機器選択

Sequential Underspecified Instrument Selection for Cause-Effect Estimation ( http://arxiv.org/abs/2302.05684v2 )

ライセンス: Link先を確認
Elisabeth Ailer, Jason Hartford, Niki Kilbertus(参考訳) インストゥルメンタル変数(iv)メソッドは、観察されていないコンファウンディングのある設定で因果効果を推定するために使用され、そこでは治療変数を直接実験することはできない。 機器は、処理変数(s)を介して間接的に結果にのみ影響を及ぼす変数である。 IV のほとんどの応用は低次元の治療に焦点をあてており、治療に最低でも多くの器具を必要とする。 この仮定は制限的であり、自然科学では、高次元治療(例えば、遺伝子発現や微生物が健康や病気に与える影響)の因果効果を推し進めるが、限られた数の機器(例えば、薬物や抗生物質)でのみ実験を行うことができる。 このような不特定な問題では、線形の場合でさえ単一の実験では完全な治療効果は特定できない。 測定器のサブスペースへの処理効果の投射を確実に再現できることを示し、異なる機器集合からのそのような部分的推定を一貫して組み合わせる手法を開発した。 次に,各実験でもっとも有意義な手段を反復的に提案するアルゴリズムを用いて,総合的な因果効果に関する情報を最大化する。

Instrumental variable (IV) methods are used to estimate causal effects in settings with unobserved confounding, where we cannot directly experiment on the treatment variable. Instruments are variables which only affect the outcome indirectly via the treatment variable(s). Most IV applications focus on low-dimensional treatments and crucially require at least as many instruments as treatments. This assumption is restrictive: in the natural sciences we often seek to infer causal effects of high-dimensional treatments (e.g., the effect of gene expressions or microbiota on health and disease), but can only run few experiments with a limited number of instruments (e.g., drugs or antibiotics). In such underspecified problems, the full treatment effect is not identifiable in a single experiment even in the linear case. We show that one can still reliably recover the projection of the treatment effect onto the instrumented subspace and develop techniques to consistently combine such partial estimates from different sets of instruments. We then leverage our combined estimators in an algorithm that iteratively proposes the most informative instruments at each round of experimentation to maximize the overall information about the full causal effect.
翻訳日:2023-05-26 20:56:02 公開日:2023-05-25
# 整数計画による2値最適化のための量子アルゴリズムの拡張

Enhancing Quantum Algorithms for Quadratic Unconstrained Binary Optimization via Integer Programming ( http://arxiv.org/abs/2302.05493v2 )

ライセンス: Link先を確認
Friedrich Wagner, Jonas N\"u{\ss}lein, Frauke Liers(参考訳) 今日まで、量子計算の研究は、組合せ最適化において古典的ヒューリスティックを上回る可能性を約束している。 しかし、証明可能な最適性を目指す場合、整数プログラミングのような古典的な正確な方法に頼る必要がある。 最先端の整数プログラミングアルゴリズムは、ハードインスタンスでも強い緩和境界を計算することができるが、最適な解を決定するために多くのサブプロームを列挙する必要がある。 量子コンピューティングのポテンシャルが実現すれば、特に難しい問題に対する高品質な解を見つけることは迅速にできると期待できる。 それでも、近い将来の量子ハードウェアは、処理可能な問題のサイズをかなり制限する。 本研究では、組合せ最適化のための量子および古典的手法のポテンシャルを統合するための一歩を踏み出す。 本研究では,重み付き最大カット問題に対するハイブリッドヒューリスティック,あるいは二次非拘束二元最適化について提案する。 ヒューリスティックは線形プログラミングの緩和を採用しており、正確な分岐・カットアルゴリズムへの統合に適している。 大規模な例では、縮小した問題を限られたサイズの量子マシンで処理できるように、線形緩和に従って問題のサイズを小さくする。 さらに,任意のインスタンスに対するパラメータ推定を動機付ける特殊インスタンスの最適パラメータを導出することにより,パラメータ化量子アルゴリズムであるqaoaの適用性を向上させる。 実量子ハードウェアの計算結果を多数提示する。

To date, research in quantum computation promises potential for outperforming classical heuristics in combinatorial optimization. However, when aiming at provable optimality, one has to rely on classical exact methods like integer programming. State-of-the-art integer programming algorithms can compute strong relaxation bounds even for hard instances, but may have to enumerate a large number of subproblems for determining an optimum solution. If the potential of quantum computing realizes, it can be expected that in particular finding high-quality solutions for hard problems can be done fast. Still, near-future quantum hardware considerably limits the size of treatable problems. In this work, we go one step into integrating the potentials of quantum and classical techniques for combinatorial optimization. We propose a hybrid heuristic for the weighted maximum-cut problem or, equivalently, for quadratic unconstrained binary optimization. The heuristic employs a linear programming relaxation, rendering it well-suited for integration into exact branch-and-cut algorithms. For large instances, we reduce the problem size according to a linear relaxation such that the reduced problem can be handled by quantum machines of limited size. Moreover, we improve the applicability of QAOA, a parameterized quantum algorithm, by deriving optimal parameters for special instances which motivates a parameter estimate for arbitrary instances. We present numerous computational results from real quantum hardware.
翻訳日:2023-05-26 20:55:43 公開日:2023-05-25
# Project and Probe: 直交的特徴補間によるサンプル効率の良いドメイン適応

Project and Probe: Sample-Efficient Domain Adaptation by Interpolating Orthogonal Features ( http://arxiv.org/abs/2302.05441v2 )

ライセンス: Link先を確認
Annie S. Chen, Yoonho Lee, Amrith Setlur, Sergey Levine, Chelsea Finn(参考訳) 少量のターゲットデータを用いた転送学習は、事前学習されたモデルを分散シフトに適応させるための効果的で一般的なアプローチである。 いくつかの状況では、ターゲットデータラベルは入手するのに高価であるため、限られた数のターゲットデータポイントにしかアクセスできない。 非常に小さなターゲットデータセットを最大限に活用するために,多様な特徴集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよいアプローチを提案する。 当社のアプローチであるProject and Probe(Pro$^2$)は、まず、ソースデータセット内のラベルを予測しながら、トレーニング済みの埋め込みを直交方向へマッピングする線形射影を学習する。 このステップの目標は、さまざまな予測機能を学ぶことにある。 Pro$^2$は、小さなターゲットデータセットを使用して、これらの投影された機能の上に線形分類器を学ぶ。 理論的には、pro$^2$は有利なバイアス分散トレードオフを誘導することでよりサンプル効率の良い一般化をもたらす。 分散シフトを複数設定した4つのデータセットを実験した結果、pro$^2$は、標準線形プローブのような従来の方法と比較して、ターゲットデータに制限のある場合に5~15%性能が向上することが示された。

Transfer learning with a small amount of target data is an effective and common approach to adapting a pre-trained model to distribution shifts. In some situations, target data labels may be expensive to obtain, so we may only have access to a limited number of target data points. To make the most of a very small target dataset, we propose a lightweight, sample-efficient approach that learns a diverse set of features and adapts to a target distribution by interpolating these features. Our approach, Project and Probe (Pro$^2$), first learns a linear projection that maps a pre-trained embedding onto orthogonal directions while being predictive of labels in the source dataset. The goal of this step is to learn a variety of predictive features, so that at least some of them remain useful after distribution shift. Pro$^2$ then learns a linear classifier on top of these projected features using a small target dataset. Theoretically, we find that Pro$^2$ results in more sample-efficient generalization by inducing a favorable bias-variance tradeoff. Our experiments on four datasets, with multiple distribution shift settings for each, show that Pro$^2$ improves performance by 5-15% when given limited target data compared to prior methods such as standard linear probing.
翻訳日:2023-05-26 20:55:22 公開日:2023-05-25
# 電波による物体検出とセグメンテーション--ディープラーニング手法のベンチマーク

Radio astronomical images object detection and segmentation: A benchmark on deep learning methods ( http://arxiv.org/abs/2303.04506v2 )

ライセンス: Link先を確認
Renato Sortino, Daniel Magro, Giuseppe Fiameni, Eva Sciacca, Simone Riggi, Andrea DeMarco, Concetto Spampinato, Andrew M. Hopkins, Filomena Bufano, Francesco Schillir\`o, Cristobal Bordiu, Carmelo Pino(参考訳) 近年、深層学習は様々な科学分野に応用されている。 これらの有望な成果と性能に続いて、最近は電波天文学の分野でも評価が始まっている。 特に、電波天文学は、世界最大の望遠鏡であるスクエア・キロメア・アレー(SKA)の出現とともに、ビッグデータ時代に入ってきており、自動物体検出とインスタンス分割のタスクは、情報源の発見と分析に不可欠である。 本研究では,電波干渉計による天体画像に適用した,最も肯定的な深層学習手法の性能について検討し,自動音源検出の課題を解決する。 これは、オブジェクト検出とセマンティックセグメンテーションという2つの異なるタスクを達成するために設計されたモデルを適用することで実現される。 目標は、予測性能と計算効率の観点から既存の技術の概要を、彼らの研究に機械学習を使いたいと考える天体物理学コミュニティの科学者に提供することである。

In recent years, deep learning has been successfully applied in various scientific domains. Following these promising results and performances, it has recently also started being evaluated in the domain of radio astronomy. In particular, since radio astronomy is entering the Big Data era, with the advent of the largest telescope in the world - the Square Kilometre Array (SKA), the task of automatic object detection and instance segmentation is crucial for source finding and analysis. In this work, we explore the performance of the most affirmed deep learning approaches, applied to astronomical images obtained by radio interferometric instrumentation, to solve the task of automatic source detection. This is carried out by applying models designed to accomplish two different kinds of tasks: object detection and semantic segmentation. The goal is to provide an overview of existing techniques, in terms of prediction performance and computational efficiency, to scientists in the astrophysics community who would like to employ machine learning in their research.
翻訳日:2023-05-26 20:47:17 公開日:2023-05-25
# 対称性とランダム化による誤りの簡易化

Simplifying errors by symmetry and randomisation ( http://arxiv.org/abs/2303.02712v2 )

ライセンス: Link先を確認
James Mills, Debasis Sadhukhan and Elham Kashefi(参考訳) 量子回路並列化によりより複雑なエラーチャネルを生成する手法のセットを提案する。 結果として生じる誤差は、対称性とランダム化の結果、単純化される。 最初は1つのエラーチャネルのケースを分析し、その結果を複数のエラーチャネルに一般化する。 各手法の誤差単純化は、システムサイズの観点から定数、線形、指数関数のいずれかであることが示されている。 最後に、超伝導量子ハードウェアおよび数値シミュレーション上で動作する実験とともに、サンプルアプリケーションを提供する。 これらの応用は,(1)誤差対称性による行列反転測定誤差低減のサンプル複雑性の低減,(2)誤差ランダム化による雑音推定回路誤差低減の有効性の改善,(3)誤差ランダム化によるノイズ回路性能の予測可能性の向上である。

We present a set of methods to generate less complex error channels by quantum circuit parallelisation. The resulting errors are simplified as a consequence of their symmetrisation and randomisation. Initially, the case of a single error channel is analysed; these results are then generalised to multiple error channels. Error simplification for each method is shown to be either constant, linear, or exponential in terms of system size. Finally, example applications are provided, along with experiments run on superconducting quantum hardware and numerical simulation. These applications are: (1) reducing the sample complexity of matrix-inversion measurement error mitigation by error symmetrisation, (2) improving the effectiveness of noise-estimation circuit error mitigation by error randomisation, and (3) improving the predictability of noisy circuit performance by error randomisation.
翻訳日:2023-05-26 20:46:58 公開日:2023-05-25
# 量子アニーラを用いた実世界のビンパッキング問題に対するハイブリッドアプローチ

Hybrid Approach for Solving Real-World Bin Packing Problem Instances Using Quantum Annealers ( http://arxiv.org/abs/2303.01977v3 )

ライセンス: Link先を確認
Sebasti\'an V. Romero, Eneko Osaba, Esther Villar-Rodriguez, Izaskun Oregi and Yue Ban(参考訳) アイテムを箱に効率よく詰め込むのが日常的な作業である。 Bin Packing Problemとして知られ、産業や物流から幅広い関心が寄せられているため、人工知能の分野で集中的に研究されている。 数十年前から多くの変種が提案され、実世界のユースケースに最も近い3次元のBin Packing Problemが提案されている。 本稿では,実世界の3次元ビンパッキング問題(q4realbpp)を解決するためのハイブリッド量子古典フレームワークを提案する。 一 パッケージ及びビン寸法 二 太りすぎの制限、 三 商品のカテゴリー間の親和性及び 四 商品の発注の選好 Q4RealBPPは、3dBPPの現実指向のインスタンスの解決を許可し、産業や物流部門でよく評価されている制限を検討する。

Efficient packing of items into bins is a common daily task. Known as Bin Packing Problem, it has been intensively studied in the field of artificial intelligence, thanks to the wide interest from industry and logistics. Since decades, many variants have been proposed, with the three-dimensional Bin Packing Problem as the closest one to real-world use cases. We introduce a hybrid quantum-classical framework for solving real-world three-dimensional Bin Packing Problems (Q4RealBPP), considering different realistic characteristics, such as: i) package and bin dimensions, ii) overweight restrictions, iii) affinities among item categories and iv) preferences for item ordering. Q4RealBPP permits the solving of real-world oriented instances of 3dBPP, contemplating restrictions well appreciated by industrial and logistics sectors.
翻訳日:2023-05-26 20:46:45 公開日:2023-05-25
# モデルに基づく強化学習によるエネルギー市場浄化と入札の近似

Approximating Energy Market Clearing and Bidding With Model-Based Reinforcement Learning ( http://arxiv.org/abs/2303.01772v2 )

ライセンス: Link先を確認
Thomas Wolgast and Astrid Nie{\ss}e(参考訳) エネルギー市場は、市場参加者の望ましくない行動にインセンティブを与えることができる。 マルチエージェント強化学習(MARL)は,エネルギー市場参加者の期待行動を予測するための,有望な新しいアプローチである。 しかし、強化学習はシステムとの多くの相互作用を収束させる必要があり、電力系統環境はしばしば市場清算のための最適電力フロー(opf)計算のような広範な計算からなる。 この複雑さに対処するために、学習されたOPF近似と明示的な市場ルールという形で、基本的MARLアルゴリズムにエネルギー市場モデルを提供する。 学習されたOPFサロゲートモデルはOPFの明確な解決を完全に不要にする。 実験により, このモデルではトレーニング時間を約1桁削減できるが, ナッシュ平衡の近似はわずかに悪化することがわかった。 本手法の潜在的な応用は, 市場設計, 市場参加者のより現実的なモデリング, マニピュレーション行動の分析である。

Energy markets can provide incentives for undesired behavior of market participants. Multi-agent Reinforcement learning (MARL) is a promising new approach to predicting the expected behavior of energy market participants. However, reinforcement learning requires many interactions with the system to converge, and the power system environment often consists of extensive computations, e.g., optimal power flow (OPF) calculation for market clearing. To tackle this complexity, we provide a model of the energy market to a basic MARL algorithm in the form of a learned OPF approximation and explicit market rules. The learned OPF surrogate model makes an explicit solving of the OPF completely unnecessary. Our experiments demonstrate that the model additionally reduces training time by about one order of magnitude but at the cost of a slightly worse approximation of the Nash equilibrium. Potential applications of our method are market design, more realistic modeling of market participants, and analysis of manipulative behavior.
翻訳日:2023-05-26 20:46:24 公開日:2023-05-25
# 画像復元のための画像階層の効率的かつ明示的なモデリング

Efficient and Explicit Modelling of Image Hierarchies for Image Restoration ( http://arxiv.org/abs/2303.00748v2 )

ライセンス: Link先を確認
Yawei Li, Yuchen Fan, Xiaoyu Xiang, Denis Demandolx, Rakesh Ranjan, Radu Timofte, Luc Van Gool(参考訳) 本研究の目的は,画像復元のためのグローバル,地域,地域範囲の画像階層を効率的かつ明示的にモデル化するメカニズムを提案することである。 そこで本研究では,自然画像の2つの重要な特性であるクロススケール類似性と異方性画像の特徴を解析した。 そこで本研究では,自己着脱の時間的複雑さと地域範囲を超えたモデリング能力のバランスを両立させるアンカー付きストライプ自己着脱を提案する。 そこで我々は,Global, Regional, Local Rangeにおける画像階層を,アンカー付きストライプ自己アテンション,ウインドウ自己アテンション,チャネルアテンション強化畳み込みにより明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。 最後に,提案ネットワークを7種類の画像復元型に適用し,実環境と合成環境の両方をカバーする。 提案手法は, それらの新しい現状を定めている。 コードはhttps://github.com/ofsoundof/GRL-Image-Restoration.gitで入手できる。

The aim of this paper is to propose a mechanism to efficiently and explicitly model image hierarchies in the global, regional, and local range for image restoration. To achieve that, we start by analyzing two important properties of natural images including cross-scale similarity and anisotropic image features. Inspired by that, we propose the anchored stripe self-attention which achieves a good balance between the space and time complexity of self-attention and the modelling capacity beyond the regional range. Then we propose a new network architecture dubbed GRL to explicitly model image hierarchies in the Global, Regional, and Local range via anchored stripe self-attention, window self-attention, and channel attention enhanced convolution. Finally, the proposed network is applied to 7 image restoration types, covering both real and synthetic settings. The proposed method sets the new state-of-the-art for several of those. Code will be available at https://github.com/ofsoundof/GRL-Image-Restoration.git.
翻訳日:2023-05-26 20:46:08 公開日:2023-05-25
# 逐次相反リスク最小化

Sequential Counterfactual Risk Minimization ( http://arxiv.org/abs/2302.12120v2 )

ライセンス: Link先を確認
Houssam Zenati, Eustache Diemert, Matthieu Martin, Julien Mairal, Pierre Gaillard(参考訳) CRM(Counterfactual Risk Minimization)は、オフラインデータを使用したロギングポリシーの改善を目標とする、ログ化された盗聴フィードバック問題を扱うためのフレームワークである。 本稿では,学習したポリシーを複数回展開し,新たなデータを取得することができるかを検討する。 我々はcrmの原理とその理論をこのシナリオに拡張し、「sequential counterfactual risk minimization (scrm) 」と呼ぶ。 高速化最適化手法における再起動戦略に類似した分析を用いて,CRMの性能を過大なリスクと後悔率の観点から向上させる新しい事実推定手法を提案する。 また、離散的かつ連続的なアクション設定において、我々の手法を実証的に評価し、CRMの複数デプロイの利点を実証する。

Counterfactual Risk Minimization (CRM) is a framework for dealing with the logged bandit feedback problem, where the goal is to improve a logging policy using offline data. In this paper, we explore the case where it is possible to deploy learned policies multiple times and acquire new data. We extend the CRM principle and its theory to this scenario, which we call "Sequential Counterfactual Risk Minimization (SCRM)." We introduce a novel counterfactual estimator and identify conditions that can improve the performance of CRM in terms of excess risk and regret rates, by using an analysis similar to restart strategies in accelerated optimization methods. We also provide an empirical evaluation of our method in both discrete and continuous action settings, and demonstrate the benefits of multiple deployments of CRM.
翻訳日:2023-05-26 20:45:49 公開日:2023-05-25
# 予混合拡散モデルを用いたクロスドメイン合成

Cross-domain Compositing with Pretrained Diffusion Models ( http://arxiv.org/abs/2302.10167v2 )

ライセンス: Link先を確認
Roy Hachnochi, Mingrui Zhao, Nadav Orzech, Rinon Gal, Ali Mahdavi-Amiri, Daniel Cohen-Or, Amit Haim Bermano(参考訳) 拡散モデルは高品質で条件付き画像編集機能を実現している。 そこで本論文では,両機を拡張し,既製の拡散モデルが多種多様なクロスドメイン合成タスクに利用できることを示す。 画像のブレンド、オブジェクトの没入、テクスチャの再構成、cg2現実の翻訳やスタイリゼーションなどだ。 我々は,局所的で反復的なリファインメント・スキームを採用し,インジェクションされたオブジェクトに背景シーンから派生したコンテキスト情報を与え,オブジェクトが行う可能性のある変更の程度や種類を制御できる。 我々は,事前の作業と定性的かつ定量的な比較を行い,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られることを示した。 最後に,本手法が下流タスクのデータ拡張にどのように利用されるかを示す。

Diffusion models have enabled high-quality, conditional image editing capabilities. We propose to expand their arsenal, and demonstrate that off-the-shelf diffusion models can be used for a wide range of cross-domain compositing tasks. Among numerous others, these include image blending, object immersion, texture-replacement and even CG2Real translation or stylization. We employ a localized, iterative refinement scheme which infuses the injected objects with contextual information derived from the background scene, and enables control over the degree and types of changes the object may undergo. We conduct a range of qualitative and quantitative comparisons to prior work, and exhibit that our method produces higher quality and realistic results without requiring any annotations or training. Finally, we demonstrate how our method may be used for data augmentation of downstream tasks.
翻訳日:2023-05-26 20:45:13 公開日:2023-05-25
# byzsecagg: 符号化計算とベクトルコミットメントに基づく連合学習のためのビザンチン耐性セキュアアグリゲーションスキーム

ByzSecAgg: A Byzantine-Resistant Secure Aggregation Scheme for Federated Learning Based on Coded Computing and Vector Commitment ( http://arxiv.org/abs/2302.09913v2 )

ライセンス: Link先を確認
Tayyebeh Jahani-Nezhad and Mohammad Ali Maddah-Ali and Giuseppe Caire(参考訳) 本稿では,ビザンチン攻撃やプライバシ漏洩から保護されるフェデレート学習のための効率的なセキュアアグリゲーション手法を提案する。 個々の更新を処理して敵の行動を管理するには、データのプライバシをノードの結束に対して保ちながら、ある種のセキュアなシークレット共有が必要となる。 しかし、更新の長いベクトルの秘密共有のための通信負荷は非常に高い。 この問題を解決するため,提案手法では,ローカル更新を小さなサブベクタに分割し,ランプ秘密共有を用いて共有する。 しかし、この共有法では、対距離計算など、外乱検出アルゴリズムが必要とする二線形計算は認めない。 この問題を解決するために、各ユーザは別のラウンドのランプ共有を実行し、共有多項式に異なるデータの埋め込みを行う。 この技術は、符号化コンピューティングのアイデアに動機付けられ、ペア距離の安全な計算を可能にする。 さらに、ローカル更新の完全性とプライバシを維持するため、提案手法では、コミットサイズが一定であり(すなわち、ローカル更新の長さで増加しない)、同時に秘密共有プロセスの検証を可能にするベクトルコミットメント手法も採用している。

In this paper, we propose an efficient secure aggregation scheme for federated learning that is protected against Byzantine attacks and privacy leakages. Processing individual updates to manage adversarial behavior, while preserving privacy of data against colluding nodes, requires some sort of secure secret sharing. However, communication load for secret sharing of long vectors of updates can be very high. To resolve this issue, in the proposed scheme, local updates are partitioned into smaller sub-vectors and shared using ramp secret sharing. However, this sharing method does not admit bi-linear computations, such as pairwise distance calculations, needed by outlier-detection algorithms. To overcome this issue, each user runs another round of ramp sharing, with different embedding of data in the sharing polynomial. This technique, motivated by ideas from coded computing, enables secure computation of pairwise distance. In addition, to maintain the integrity and privacy of the local update, the proposed scheme also uses a vector commitment method, in which the commitment size remains constant (i.e. does not increase with the length of the local update), while simultaneously allowing verification of the secret sharing process.
翻訳日:2023-05-26 20:44:57 公開日:2023-05-25
# LLMMaps - 大規模言語モデルの階層評価のためのビジュアルメタファー

LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language Models ( http://arxiv.org/abs/2304.00457v2 )

ライセンス: Link先を確認
Patrik Puchert, Poonam Poonam, Christian van Onzenoodt, Timo Ropinski(参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。 残念なことに、彼らは幻覚を起こす傾向があり、そこではモデルがその応答で誤った情報や偽の情報を公開する。 特定の知識分野におけるllmのパフォーマンスは、q&a(q&a)データセットに基づいて評価されることが多いが、そのような評価は通常、フィールド全体に対する単一の精度番号のみを報告し、透明性とモデル改善に関して問題となる手順である。 階層化された評価は、幻覚がより起こりやすいサブフィールドを明らかにし、LSMのリスクをよりよく評価し、さらなる発展を導くのに役立つ。 このような階層化評価を支援するため,ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法としてLLMMapsを提案する。 LLMMapsは、Q&AデータセットとLLM応答を内部知識構造に変換することで、異なるサブフィールドにおけるLLMの知識能力に関する詳細な洞察を提供する。 さらに、比較視覚化の拡張により、複数のLLMの詳細な比較が可能になる。 LLMマップの評価にはBLOOM, GPT-2, GPT-3, ChatGPT, LLaMa-13B, および2つの定性的ユーザ評価など, 最先端のLLMの比較分析を行う。 LLMMapsを生成するために必要なソースコードとデータは、科学出版などで使用される。

Large Language Models (LLMs) have revolutionized natural language processing and demonstrated impressive capabilities in various tasks. Unfortunately, they are prone to hallucinations, where the model exposes incorrect or false information in its responses, which renders diligent evaluation approaches mandatory. While LLM performance in specific knowledge fields is often evaluated based on question and answer (Q&A) datasets, such evaluations usually report only a single accuracy number for the entire field, a procedure which is problematic with respect to transparency and model improvement. A stratified evaluation could instead reveal subfields, where hallucinations are more likely to occur and thus help to better assess LLMs' risks and guide their further development. To support such stratified evaluations, we propose LLMMaps as a novel visualization technique that enables users to evaluate LLMs' performance with respect to Q&A datasets. LLMMaps provide detailed insights into LLMs' knowledge capabilities in different subfields, by transforming Q&A datasets as well as LLM responses into our internal knowledge structure. An extension for comparative visualization furthermore, allows for the detailed comparison of multiple LLMs. To assess LLMMaps we use them to conduct a comparative analysis of several state-of-the-art LLMs, such as BLOOM, GPT-2, GPT-3, ChatGPT and LLaMa-13B, as well as two qualitative user evaluations. All necessary source code and data for generating LLMMaps to be used in scientific publications and elsewhere will be available on GitHub.
翻訳日:2023-05-26 20:40:01 公開日:2023-05-25
# HuggingGPT: ChatGPTとその友人たちによるAIタスクの解決

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face ( http://arxiv.org/abs/2303.17580v3 )

ライセンス: Link先を確認
Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang(参考訳) 異なるドメインとモダリティで複雑なAIタスクを解決することは、人工知能にとって重要なステップだ。 さまざまなドメインやモダリティに対して利用可能な豊富なAIモデルがあるが、複雑なAIタスクは処理できない。 大規模言語モデル(llm)は言語理解、生成、相互作用、推論において例外的な能力を有しており、llmは既存のaiモデルを管理して複雑なaiタスクを解決するためのコントローラとして機能し、言語はこれを力づける汎用的なインターフェースとなることを提唱する。 この哲学に基づいたHuggingGPTは、LLM(例えばChatGPT)を利用して機械学習コミュニティ(例えばHugging Face)のさまざまなAIモデルを接続し、AIタスクを解決するフレームワークである。 具体的には、ChatGPTを使用して、ユーザリクエストの受信時にタスク計画を実行し、Hugging Faceで利用可能な機能記述に従ってモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じて応答を要約する。 Hugging FaceにおけるChatGPTの強力な言語能力と豊富なAIモデルを活用することで、HuggingGPTはさまざまなモダリティやドメインにおける多数の高度なAIタスクをカバーし、言語、ビジョン、スピーチ、その他の困難なタスクにおける印象的な結果を達成することができる。

Solving complicated AI tasks with different domains and modalities is a key step toward artificial general intelligence. While there are abundant AI models available for different domains and modalities, they cannot handle complicated AI tasks. Considering large language models (LLMs) have exhibited exceptional ability in language understanding, generation, interaction, and reasoning, we advocate that LLMs could act as a controller to manage existing AI models to solve complicated AI tasks and language could be a generic interface to empower this. Based on this philosophy, we present HuggingGPT, a framework that leverages LLMs (e.g., ChatGPT) to connect various AI models in machine learning communities (e.g., Hugging Face) to solve AI tasks. Specifically, we use ChatGPT to conduct task planning when receiving a user request, select models according to their function descriptions available in Hugging Face, execute each subtask with the selected AI model, and summarize the response according to the execution results. By leveraging the strong language capability of ChatGPT and abundant AI models in Hugging Face, HuggingGPT is able to cover numerous sophisticated AI tasks in different modalities and domains and achieve impressive results in language, vision, speech, and other challenging tasks, which paves a new way towards artificial general intelligence.
翻訳日:2023-05-26 20:39:34 公開日:2023-05-25
# Open Temporal Graph Neural Networksに向けて

Towards Open Temporal Graph Neural Networks ( http://arxiv.org/abs/2303.15015v2 )

ライセンス: Link先を確認
Kaituo Feng, Changsheng Li, Xiaolu Zhang, Jun Zhou(参考訳) 時間グラフのためのグラフニューラルネットワーク(GNN)は近年注目を集めており、ノードのクラスセットが閉じているという仮定が一般的である。 しかし、実世界のシナリオでは、時間経過とともに動的に増加するクラスセットで開集合問題に直面することが多い。 これは、既存の動的GNNメソッドに2つの大きな課題をもたらす。 i) 新しいクラスノードが古いクラスノードにリンクされることの多いオープン時間グラフにおいて、適切な情報を動的に伝播する方法。 この事件は激しい矛盾につながるだろう。 これは、通常のGNNが接続ノードの埋め込みを類似させる傾向があるためであり、これらの2つの対話ノードの埋め込みは異なるクラスに属するため、区別可能であることを期待する。 (II)時間グラフで新しいクラスを学習する際に古いクラスを忘れる破滅的な知識を避ける方法。 本稿では,この2つの課題に対処する目的で,OTGNetと呼ばれるオープン時間グラフに対する汎用的,原則的学習手法を提案する。 ノードの知識をクラス関連とクラス非依存に分割できると仮定し、情報ボトルネックの原理を拡張して、異なるクラスのノード間でクラス非依存の知識を伝播させ、矛盾する情報を集約しないようにすることで、新しいメッセージパッシングメカニズムを探求する。 さらに,効果的なクラスインクリメンタル学習のために,重要かつ多様な3adサブグラフ構造を選択する戦略を考案する。 異なる領域の3つの実世界のデータセットを広範囲に実験した結果,本手法がベースラインよりも優れていることが示された。

Graph neural networks (GNNs) for temporal graphs have recently attracted increasing attentions, where a common assumption is that the class set for nodes is closed. However, in real-world scenarios, it often faces the open set problem with the dynamically increased class set as the time passes by. This will bring two big challenges to the existing dynamic GNN methods: (i) How to dynamically propagate appropriate information in an open temporal graph, where new class nodes are often linked to old class nodes. This case will lead to a sharp contradiction. This is because typical GNNs are prone to make the embeddings of connected nodes become similar, while we expect the embeddings of these two interactive nodes to be distinguishable since they belong to different classes. (ii) How to avoid catastrophic knowledge forgetting over old classes when learning new classes occurred in temporal graphs. In this paper, we propose a general and principled learning approach for open temporal graphs, called OTGNet, with the goal of addressing the above two challenges. We assume the knowledge of a node can be disentangled into class-relevant and class-agnostic one, and thus explore a new message passing mechanism by extending the information bottleneck principle to only propagate class-agnostic knowledge between nodes of different classes, avoiding aggregating conflictive information. Moreover, we devise a strategy to select both important and diverse triad sub-graph structures for effective class-incremental learning. Extensive experiments on three real-world datasets of different domains demonstrate the superiority of our method, compared to the baselines.
翻訳日:2023-05-26 20:38:18 公開日:2023-05-25
# フェルミオン系およびボソニックガウス系におけるエントロピー生成に対する量子的および古典的貢献

Quantum and classical contributions to entropy production in fermionic and bosonic Gaussian systems ( http://arxiv.org/abs/2303.12749v3 )

ライセンス: Link先を確認
Krzysztof Ptaszynski, Massimiliano Esposito(参考訳) 前述のように、熱力学過程の不可逆性を特徴づける重要な量であるエントロピー生成は、系の自由度と熱環境の間の相関関係の生成に関連している。 このことは、そのような相関関係が古典的あるいは量子的な性質であるかどうか、すなわち、相関自由度に関する局所的な測定によってそれらがアクセス可能であるかどうかという問題を提起する。 フェルミオン系とボソニックガウス系を考えることでこの問題に対処する。 フェルミオンの場合、エントロピー生成は、物理的に許容される測定のセットをフォック状態の射影に制限し、古典的にアクセス可能な相関の量を大幅に制限するパリティ超選択規則により、ほとんど量子的であることを示す。 対照的に、ボソニック系では、ガウス測度によってはるかに多くの相関がアクセス可能である。 具体的には、量子寄与は低温では重要であるが、高温ではエントロピー生成は純粋に古典的な位置-運動量相関に対応する。 本研究は, エントロピー生成の微視的定式化における量子-古典遷移の存在に関して, フェルミオン系とボソニック系の重要な違いを示した。 また、エントロピー生成は、弱いカップリング限界においても主に量子相関によって引き起こされる可能性があり、これは状態人口の古典的な速度方程式や、ボソンとフェルミオンの輸送特性が古典的な粒子のそれと収束する低粒子密度限界において記述される。

As previously demonstrated, the entropy production -- a key quantity characterizing the irreversibility of thermodynamic processes -- is related to generation of correlations between degrees of freedom of the system and its thermal environment. This raises the question of whether such correlations are of a classical or quantum nature, namely, whether they are accessible through local measurements on the correlated degrees of freedom. We address this problem by considering fermionic and bosonic Gaussian systems. We show that for fermions the entropy production is mostly quantum due to the parity superselection rule which restricts the set of physically allowed measurements to projections on the Fock states, thus significantly limiting the amount of classically accessible correlations. In contrast, in bosonic systems a much larger amount of correlations can be accessed through Gaussian measurements. Specifically, while the quantum contribution may be important at low temperatures, in the high temperature limit the entropy production corresponds to purely classical position-momentum correlations. Our results demonstrate an important difference between fermionic and bosonic systems regarding the existence of a quantum-to-classical transition in the microscopic formulation of the entropy production. They also show that entropy production can be mainly caused by quantum correlations even in the weak coupling limit, which admits a description in terms of classical rate equations for state populations, as well as in the low particle density limit, where the transport properties of both bosons and fermions converge to those of classical particles.
翻訳日:2023-05-26 20:37:52 公開日:2023-05-25
# 新しいベンチマーク: 平均教師付き学習と下流ドメイン適応のためのブレンダー付き合成データの有用性について

A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation ( http://arxiv.org/abs/2303.09165v4 )

ライセンス: Link先を確認
Hui Tang and Kui Jia(参考訳) コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。 しかしながら、高い労働コストとあいまいなラベリング精度のため、すべての関心領域のタスクごとに徹底したデータアノテーションは実行不可能である。 さらに、制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。 これらすべての疑問は、典型的な理論の検証と新しい発見への露出を妨げる可能性がある。 これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。 この研究は、素人による教師なし学習と下流ドメイン適応に関する深い研究をすることで、この線に沿って前進させます。 具体的には、3Dレンダリングによって実現されたよく制御されたIDデータ設定の下で、例えば、ショートカット学習のような典型的な重要な学習の洞察を体系的に検証し、一般化における様々なデータ体制とネットワークアーキテクチャの新しい法則を発見する。 さらに,3dシーンにおける物体スケール,素材テクスチャ,照明,カメラ視点,背景などの一般化に対する画像形成因子の影響についても検討した。 さらに, 合成データと実データとの伝達性を比較するため, シミュレーションから現実への適応を下流タスクとして用いることにより, 合成データの事前学習が実テスト結果の向上にも寄与することを示す。 最後に,今後の研究を促進するために,s2rdaと呼ばれる画像分類のための新しい大規模合成-実数ベンチマークを開発し,シミュレーションから現実への移動に関するより重要な課題を提供する。 コードとデータセットはhttps://github.com/huitangtang/on_the_utility_of_synthetic_dataで入手できる。

Deep learning in computer vision has achieved great success with the price of large-scale labeled training data. However, exhaustive data annotation is impracticable for each task of all domains of interest, due to high labor costs and unguaranteed labeling accuracy. Besides, the uncontrollable data collection process produces non-IID training and test data, where undesired duplication may exist. All these nuisances may hinder the verification of typical theories and exposure to new findings. To circumvent them, an alternative is to generate synthetic data via 3D rendering with domain randomization. We in this work push forward along this line by doing profound and extensive research on bare supervised learning and downstream domain adaptation. Specifically, under the well-controlled, IID data setting enabled by 3D rendering, we systematically verify the typical, important learning insights, e.g., shortcut learning, and discover the new laws of various data regimes and network architectures in generalization. We further investigate the effect of image formation factors on generalization, e.g., object scale, material texture, illumination, camera viewpoint, and background in a 3D scene. Moreover, we use the simulation-to-reality adaptation as a downstream task for comparing the transferability between synthetic and real data when used for pre-training, which demonstrates that synthetic data pre-training is also promising to improve real test results. Lastly, to promote future research, we develop a new large-scale synthetic-to-real benchmark for image classification, termed S2RDA, which provides more significant challenges for transfer from simulation to reality. The code and datasets are available at https://github.com/huitangtang/On_the_Utility_of_Synthetic_Data.
翻訳日:2023-05-26 20:37:25 公開日:2023-05-25
# ISimDL: 深層学習のロバスト性評価のための断層注入シミュレーションの重要サンプリング駆動高速化

ISimDL: Importance Sampling-Driven Acceleration of Fault Injection Simulations for Evaluating the Robustness of Deep Learning ( http://arxiv.org/abs/2303.08035v2 )

ライセンス: Link先を確認
Alessio Colucci, Andreas Steininger, Muhammad Shafique(参考訳) ディープラーニング(DL)システムは多くのアプリケーションで普及しており、特別なハードウェアアクセラレータとチップを必要とする。 ナノ時代には、デバイスは永久的および一時的な障害の影響を受けやすくなってきた。 したがって,このような障害に対して高度なDLシステムのレジリエンスを解析し,その欠陥がDLアプリケーションレベルでエラーとして現れるかを理解するための効率的な手法が必要である。 故障注入を用いて, ソフトウェアレベルでのニューロンの重みや出力を, 過渡的故障の影響を受けていたかのように変更することにより, DLシステムのレジリエンス調査を行うことができる。 既存のフォールトモデルでは探索空間を縮小し、より高速な解析が可能だが、モデルに関する予備知識が必要であり、フィルタリングされた探索空間のさらなる解析はできない。 そこで本研究では,ニューロンの感度を利用した新しい手法であるisimdlを提案する。 モデルアンダーテストに関するアプリオリ知識がなければ、ISimDLは既存の作業と同等の検索スペースを削減し、長いシミュレーションで可能なすべての障害をカバーし、既存のモデル要求を改善することができる。 実験の結果, ランダムな一様サンプリングよりも臨界断層を選択する場合, 重要サンプリングは最大15倍の精度で, 100個未満の故障でその精度に達することがわかった。 さらに,信頼性の高いDNN設計,すなわちフォールト・アウェア・トレーニング(FAT)において,重要なサンプリングを行うための実用的ユースケースを紹介した。 ISimDLを使用してエラーにつながる障害を選択することで、DNNトレーニングプロセス中に障害を挿入して、そのような障害に対してDNNを強化できます。 FATにおける重要サンプリングを使用することで、所定の精度の低下につながる障害を見つけるのに必要なオーバーヘッドを12倍以上削減できる。

Deep Learning (DL) systems have proliferated in many applications, requiring specialized hardware accelerators and chips. In the nano-era, devices have become increasingly more susceptible to permanent and transient faults. Therefore, we need an efficient methodology for analyzing the resilience of advanced DL systems against such faults, and understand how the faults in neural accelerator chips manifest as errors at the DL application level, where faults can lead to undetectable and unrecoverable errors. Using fault injection, we can perform resilience investigations of the DL system by modifying neuron weights and outputs at the software-level, as if the hardware had been affected by a transient fault. Existing fault models reduce the search space, allowing faster analysis, but requiring a-priori knowledge on the model, and not allowing further analysis of the filtered-out search space. Therefore, we propose ISimDL, a novel methodology that employs neuron sensitivity to generate importance sampling-based fault-scenarios. Without any a-priori knowledge of the model-under-test, ISimDL provides an equivalent reduction of the search space as existing works, while allowing long simulations to cover all the possible faults, improving on existing model requirements. Our experiments show that the importance sampling provides up to 15x higher precision in selecting critical faults than the random uniform sampling, reaching such precision in less than 100 faults. Additionally, we showcase another practical use-case for importance sampling for reliable DNN design, namely Fault Aware Training (FAT). By using ISimDL to select the faults leading to errors, we can insert the faults during the DNN training process to harden the DNN against such faults. Using importance sampling in FAT reduces the overhead required for finding faults that lead to a predetermined drop in accuracy by more than 12x.
翻訳日:2023-05-26 20:36:56 公開日:2023-05-25
# Heterogenely Integrated Memresonator を用いた高速・高効率非揮発性シリコンフォトニックメモリ

High-Speed and Energy-Efficient Non-Volatile Silicon Photonic Memory Based on Heterogeneously Integrated Memresonator ( http://arxiv.org/abs/2303.05644v2 )

ライセンス: Link先を確認
Bassem Tossoun, Di Liang, Stanley Cheung, Zhuoran Fang, Xia Sheng, John Paul Strachan and Raymond G. Beausoleil(参考訳) 近年、深層ニューラルネットワーク、量子コンピューティング、フィールドプログラマブルアレイ(fpga)の潜在的なハードウェアフレームワークとしてプログラマブルフォトニクス集積回路への関心が高まっている。 しかし、これらの回路は、使用した位相シフト器の調整速度と消費電力の制限により制約される。 本稿では,不揮発性メモリを用いた位相シフト器として,シリコンフォトニックマイクロリング共振器と不均一に統合されたメムレータを初めて導入する。 これらのデバイスは12時間の保持が可能で、電圧が5v未満でスイッチングサイクルが1,000回持続する。 また、これらのメムレンソネータは電圧パルスを300psまで短くし、記録的な低いスイッチングエネルギーは0.15pJである。 さらに、これらのメムレータは、レーザーや検出器などのリッチなアクティブ、パッシブ、非線形の光電子デバイスをオンチップで直接統合し、インメモリフォトニックコンピューティングを可能にし、さらに集積フォトニックプロセッサ回路のスケーラビリティを向上させることができる不均一なIII-V/Siプラットフォーム上に製造されている。

Recently, interest in programmable photonics integrated circuits has grown as a potential hardware framework for deep neural networks, quantum computing, and field programmable arrays (FPGAs). However, these circuits are constrained by the limited tuning speed and large power consumption of the phase shifters used. In this paper, introduced for the first time are memresonators, or memristors heterogeneously integrated with silicon photonic microring resonators, as phase shifters with non-volatile memory. These devices are capable of retention times of 12 hours, switching voltages lower than 5 V, an endurance of 1,000 switching cycles. Also, these memresonators have been switched using voltage pulses as short as 300 ps with a record low switching energy of 0.15 pJ. Furthermore, these memresonators are fabricated on a heterogeneous III-V/Si platform capable of integrating a rich family of active, passive, and non-linear optoelectronic devices, such as lasers and detectors, directly on-chip to enable in-memory photonic computing and further advance the scalability of integrated photonic processor circuits.
翻訳日:2023-05-26 20:36:22 公開日:2023-05-25
# 共鳴励起と光子相関を用いたhBNにおける量子エミッタの高速スペクトル拡散の研究

Investigating the fast spectral diffusion of a quantum emitter in hBN using resonant excitation and photon correlations ( http://arxiv.org/abs/2303.05315v3 )

ライセンス: Link先を確認
Clarisse Fournier, Kenji Watanabe, Takashi Taniguchi, St\'ephanie Buil, Julien Barjon, Jean-Pierre Hermier, Aymeric Delteil(参考訳) 均一で不均質なデファスメント過程を識別し特徴付ける能力は、固体量子光学において不可欠である。 特に、線幅拡大につながるスペクトル拡散は、光子検出率の逆数よりも、関連する時間スケールが短い場合の証明が困難である。 ここでは、共鳴レーザー励起と2次光子相関の組み合わせにより、そのような高速なダイナミクスにアクセスできることを示す。 共振レーザ駆動は、スペクトル拡散を強度変動に変換し、2階コヒーレンス関数 $g^{(2)}(\tau)$ の散乱光の符号を残す。 本研究では,電子線が生成する色中心の高速スペクトル拡散を,六方晶窒化ホウ素の2次元材料で実験的に検討する。 様々なレーザーパワーで10桁以上の遅延時間を測定する量子エミッタの$g^{(2)}(\tau)$関数は、スペクトルジャンプの間にフーリエ制限された単一光子(t_2/2t_1 \sim 1$)を放出しながら、色中心が数十マイクロ秒の特徴的な時間スケールでスペクトル拡散を経験することを示す。

The ability to identify and characterize homogeneous and inhomogeneous dephasing processes is crucial in solid-state quantum optics. In particular, spectral diffusion leading to line broadening is difficult to evidence when the associated timescale is shorter than the inverse of the photon detection rate. Here, we show that a combination of resonant laser excitation and second-order photon correlations allows to access such fast dynamics. The resonant laser drive converts spectral diffusion into intensity fluctuations, leaving a signature in the second-order coherence function $g^{(2)}(\tau)$ of the scattered light that can be characterized using two-photon coincidences -- which simultaneously provides the homogeneous dephasing time. We experimentally implement this method to investigate the fast spectral diffusion of a color center generated by an electron beam in the two-dimensional material hexagonal boron nitride. The $g^{(2)}(\tau)$ function of the quantum emitter measured over more than ten orders of magnitude of delay times, at various laser powers, establishes that the color center experiences spectral diffusion at a characteristic timescale of a few tens of microseconds, while emitting Fourier-limited single photons ($T_2/2T_1 \sim 1$) between spectral jumps.
翻訳日:2023-05-26 20:35:59 公開日:2023-05-25
# 西スラヴ語モデルにおけるジェンダーバイアスの測定

Measuring Gender Bias in West Slavic Language Models ( http://arxiv.org/abs/2304.05783v3 )

ライセンス: Link先を確認
Sandra Martinkov\'a, Karolina Sta\'nczak, Isabelle Augenstein(参考訳) トレーニング済みの言語モデルは、基礎となるデータセットからダウンストリームタスクへのバイアスを持続することが知られている。 しかし、これらの発見は主に英語の単言語モデルに基づいているが、英語以外の言語モデルでコード化されたバイアスに関する調査研究は少ない。 本稿では,西スラヴ語モデルにおけるジェンダーバイアスの分析により,このギャップを埋める。 チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリ対象に対する性別バイアスを測定した。 単言語と多言語の両方の言語モデルを用いて文を完成させ,マスキング言語モデリングの目的に適合性を評価する。 次に、西スラヴ語モデルで符号化されたジェンダーバイアスを、生成した単語の毒性とジェンダーネスを定量化する。 これらの言語モデルは、被験者の性別に依存する有害な完了を生成する。 チェコ語、スロバキア語、ポーランド語のモデルは、被検者として男性に対してより傷つきやすい完成をもたらしており、検査の結果、暴力、死、病気に関連する完成が原因であることが判明しました。

Pre-trained language models have been known to perpetuate biases from the underlying datasets to downstream tasks. However, these findings are predominantly based on monolingual language models for English, whereas there are few investigative studies of biases encoded in language models for languages beyond English. In this paper, we fill this gap by analysing gender bias in West Slavic language models. We introduce the first template-based dataset in Czech, Polish, and Slovak for measuring gender bias towards male, female and non-binary subjects. We complete the sentences using both mono- and multilingual language models and assess their suitability for the masked language modelling objective. Next, we measure gender bias encoded in West Slavic language models by quantifying the toxicity and genderness of the generated words. We find that these language models produce hurtful completions that depend on the subject's gender. Perhaps surprisingly, Czech, Slovak, and Polish language models produce more hurtful completions with men as subjects, which, upon inspection, we find is due to completions being related to violence, death, and sickness.
翻訳日:2023-05-26 20:27:53 公開日:2023-05-25
# 量子力学におけるベル作用素の表現について

On the representations of Bell's operators in Quantum Mechanics ( http://arxiv.org/abs/2304.05696v3 )

ライセンス: Link先を確認
Silvio Paolo Sorella(参考訳) ヒルベルト空間の次元が 2 より大きいとき、ベル-CHSH不等式に入るベル作用素は単位的に同値な表現を示す。 ベル-CHSHの不等式は違反されていることが判明したが、違反の大きさは異なる表現に対して異なり、最大の違反はツィレルソンの境界によって与えられる。 この特徴は系のヒルベルト空間のモード間のペアリング機構に依存している。

We point out that, when the dimension of the Hilbert space is greater than two, Bell's operators entering the Bell-CHSH inequality exhibit unitarily inequivalent representations. Although the Bell-CHSH inequality turns out to be violated, the size of the violation is different for different representations, the maximum violation being given by Tsirelson's bound. The feature relies on a pairing mechanism between the modes of the Hilbert space of the system.
翻訳日:2023-05-26 20:27:36 公開日:2023-05-25
# 直接量子波動関数再構成によるデジタルホログラフィー

Digital Holographic Imaging via Direct Quantum Wavefunction Reconstruction ( http://arxiv.org/abs/2304.04936v2 )

ライセンス: Link先を確認
Meng-Jun Hu and Yong-Sheng ZHang(参考訳) 波動関数は量子論の基本概念である。 近年の研究では、弱い値の測定によって波動関数を直接再構成できることが示されている。 弱値に基づく直接波動関数再構成は波動関数の操作的意味を与えるだけでなく、全く新しい量子アプローチでホログラフィックイメージングを実現する可能性をもたらす。 本稿では,弱値に基づく直接波動関数再構成の背景知識と最近の実験結果について概説する。 本研究の主な目的は、直接波動関数再構成によるホログラフィーイメージングの考え方である。 このトピックに関する研究はまだ初期段階にあるので、この研究が従来のホログラフィックイメージングの分野に関心を惹きつけることを期待している。 さらに、波動関数ホログラフィックイメージングは量子情報科学において重要な応用を見出しうる。

Wavefunction is a fundamental concept of quantum theory. Recent studies have shown surprisingly that wavefunction can be directly reconstructed via the measurement of weak value. The weak value based direct wavefunction reconstruction not only gives the operational meaning of wavefunction, but also provides the possibility of realizing holographic imaging with a totally new quantum approach. Here, we review the basic background knowledge of weak value based direct wavefunction reconstruction combined with recent experimental demonstrations. The main purpose of this work focuses on the idea of holographic imaging via direct wavefunction reconstruction. Since research on this topic is still in its early stage, we hope that this work can attract interest in the field of traditional holographic imaging. In addition, the wavefunction holographic imaging may find important applications in quantum information science.
翻訳日:2023-05-26 20:27:27 公開日:2023-05-25
# SELFormer:SELFIES言語モデルによる分子表現学習

SELFormer: Molecular Representation Learning via SELFIES Language Models ( http://arxiv.org/abs/2304.04662v2 )

ライセンス: Link先を確認
Atakan Y\"uksel, Erva Ulusoy, Atabey \"Unl\"u, Tunca Do\u{g}an(参考訳) 広大な化学空間の自動計算解析は、創薬や物質科学などの多くの研究分野において重要である。 近年,複雑なデータのコンパクトかつ情報的な数値表現を生成するために,表現学習技術が採用されている。 分子表現を効率的に学習する一つのアプローチは、自然言語処理(nlp)アルゴリズムによる文字列に基づく化学物質の表記法である。 この目的のために提案した手法の多くはSMILES表記を用いるが、SMILESは妥当性とロバスト性に関連する多くの問題と関連付けられており、モデルがデータに隠された知識を効果的に発見するのを防ぐことができる。 本研究では,100%有効でコンパクトで表現力に富んだセルフィーを入力として使用し,柔軟で高品質な分子表現を学習する,トランスフォーマアーキテクチャに基づく化学言語モデルであるselformerを提案する。 SELFormerは200万の薬物類似化合物で事前訓練され、様々な分子特性予測タスクのために微調整されている。 SELFormerは, グラフ学習に基づくアプローチやSMILESに基づく化学言語モデル, 分子の水溶性, 薬物反応の予測など, 競合するすべての手法より優れていた。 また,SELFormerで学習した分子表現を次元還元により可視化し,事前学習モデルでも異なる構造特性を持つ分子を識別できることを示した。 私たちはSELFormerを、そのデータセットと事前トレーニングされたモデルとともに、プログラムツールとして共有しました。 全体としては,化学言語モデリングの文脈でセルフィー表記を使うことの利点を実証し,望ましい機能を持つ新規薬物候補の設計と発見の新たな可能性を開く。

Automated computational analysis of the vast chemical space is critical for numerous fields of research such as drug discovery and material science. Representation learning techniques have recently been employed with the primary objective of generating compact and informative numerical expressions of complex data. One approach to efficiently learn molecular representations is processing string-based notations of chemicals via natural language processing (NLP) algorithms. Majority of the methods proposed so far utilize SMILES notations for this purpose; however, SMILES is associated with numerous problems related to validity and robustness, which may prevent the model from effectively uncovering the knowledge hidden in the data. In this study, we propose SELFormer, a transformer architecture-based chemical language model that utilizes a 100% valid, compact and expressive notation, SELFIES, as input, in order to learn flexible and high-quality molecular representations. SELFormer is pre-trained on two million drug-like compounds and fine-tuned for diverse molecular property prediction tasks. Our performance evaluation has revealed that, SELFormer outperforms all competing methods, including graph learning-based approaches and SMILES-based chemical language models, on predicting aqueous solubility of molecules and adverse drug reactions. We also visualized molecular representations learned by SELFormer via dimensionality reduction, which indicated that even the pre-trained model can discriminate molecules with differing structural properties. We shared SELFormer as a programmatic tool, together with its datasets and pre-trained models. Overall, our research demonstrates the benefit of using the SELFIES notations in the context of chemical language modeling and opens up new possibilities for the design and discovery of novel drug candidates with desired features.
翻訳日:2023-05-26 20:27:15 公開日:2023-05-25
# ローレンツ古典化ホログラフィックテンソルネットワークのオンシェル方程式

On-shell equation of the Lorentzian classicalized holographic tensor network ( http://arxiv.org/abs/2304.03402v2 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) ローレンツ古典化ホログラフィックテンソルネットワーク (cHTN) において、その相対論的オンシェル方程式は、バルク時空における相対論的質量粒子の存在下でのローレンツ作用から導かれる: $-\sigma \hbar \theta=Mc^2$。 ここで、$\sigma$ は、ナット内のサイト毎 cHTN のフォン・ノイマンエントロピーであり、$\theta$ は粒子の世界線に沿って定義される cHTN の実時間展開であり、$M$ は粒子のゼロではない質量である。 この方程式の物理的性質、解釈、および結果を説明する。 具体的には、この方程式から、元の質量粒子によって引き起こされる重力加速度と同様に、バルク時空における別の質量粒子の殻上固有加速度の性質を導出する。

In the Lorentzian classicalized holographic tensor network (cHTN), we derive its relativistic on-shell equation from its Lorentzian action in the presence of a relativistic massive particle in the bulk spacetime: $-\sigma \hbar \theta=Mc^2$. Here, $\sigma$ is the von Neumann entropy of the cHTN per site in nats, $\theta$ is the real-proper-time expansion of the cHTN defined along the world line of the particle, and $M$ is the non-zero mass of the particle. We explain the physical properties, interpretation, and consequences of this equation. Specifically, from this equation we derive the properties of the on-shell proper acceleration of another massive particle in the bulk spacetime as those of the gravitational acceleration induced by the original massive particle.
翻訳日:2023-05-26 20:26:29 公開日:2023-05-25
# マルチラベルランキングの学習性について

On the Learnability of Multilabel Ranking ( http://arxiv.org/abs/2304.03337v2 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) マルチラベルランキングは機械学習における中心的なタスクである。 しかし、関連スコアフィードバックによる複数ラベルランキング設定における学習可能性に関する最も根本的な疑問は未解決のままである。 本研究では,大規模ランキングの損失に対して,バッチおよびオンライン設定の両方において,複数ラベルランキング問題の学習可能性を示す。 その過程で私たちは、学習能力に基づいたランキングロスの2つの同値クラスを与えます。

Multilabel ranking is a central task in machine learning. However, the most fundamental question of learnability in a multilabel ranking setting with relevance-score feedback remains unanswered. In this work, we characterize the learnability of multilabel ranking problems in both batch and online settings for a large family of ranking losses. Along the way, we give two equivalence classes of ranking losses based on learnability that capture most, if not all, losses used in practice.
翻訳日:2023-05-26 20:26:15 公開日:2023-05-25
# 量子テレポーテーションによる有限温度における量子臨界点の検出

Detecting quantum critical points at finite temperature via quantum teleportation ( http://arxiv.org/abs/2304.02448v2 )

ライセンス: Link先を確認
G. A. P. Ribeiro and Gustavo Rigolin(参考訳) 量子テレポーテーションプロトコルは,量子相転移(QPT)を有限温度で研究するための強力なツールであることを示す。 温度Tにおける貯水池との平衡における無限スピン-1/2鎖(XXZモデル)からのスピンの対を、アリスとボブがテレポーテーションプロトコルを実装するために使う資源と考える。 量子臨界点(qcp)を越えた後でも量子ビットをテレポートするスピンの効率は、tの高値であっても大きく影響することを示すとともに、qcpをスポットライトする量子ディスコド(qd)と同じくらい鋭いツールであることが示され、qdは既知の最も有限なt qcp検出器である。 しかし, qdとは対照的に, 本ツールは理論的に計算が容易であり, 直接的に実験的かつ操作的な意味を持つことを示す。

We show that the quantum teleportation protocol is a powerful tool to study quantum phase transitions (QPTs) at finite temperatures. We consider a pair of spins from an infinite spin-1/2 chain (XXZ model) in equilibrium with a reservoir at temperature T as the resource used by Alice and Bob to implement the teleportation protocol. We show that the efficiency of this pair of spins to teleport a qubit is drastically affected after we cross a quantum critical point (QCP), even for high values of T. Also, we show that the present tool is as sharp as quantum discord (QD) to spotlight a QCP, where QD is the best finite T QCP detector known to date. Contrary to QD, however, we show that the present tool is easier to compute theoretically and has a direct experimental and operational meaning.
翻訳日:2023-05-26 20:26:09 公開日:2023-05-25
# HypLiLoc: ハイパーボリック核融合によるLiDARの効率的な回帰を目指して

HypLiLoc: Towards Effective LiDAR Pose Regression with Hyperbolic Fusion ( http://arxiv.org/abs/2304.00932v2 )

ライセンス: Link先を確認
Sijie Wang, Qiyu Kang, Rui She, Wei Wang, Kai Zhao, Yang Song, Wee Peng Tay(参考訳) LiDARの再ローカライゼーションは、ロボット工学、自律運転、コンピュータビジョンなど、多くの分野で重要な役割を果たしている。 データベースからのLiDARベースの検索は、通常、高い計算ストレージコストを発生させ、データベースがスパースすぎる場合、世界中の不正確なポーズ推定につながる可能性がある。 一方、ポーズ回帰手法では、画像や雲を入力として捉え、エンドツーエンドでグローバルポーズを直接レグレッションする。 データベースマッチングは行わず、検索技術よりも計算効率が高い。 我々は、LiDARポーズ回帰の新しいモデルであるHypLiLocを提案する。 2つの分岐したバックボーンを用いてそれぞれ3次元特徴と2次元投影特徴を抽出する。 より効率的な特徴表現を得るために,ユークリッド空間と双曲空間のマルチモーダル特徴融合を考える。 実験結果から,HypLiLocは屋外および屋内の両方のデータセットで最先端の性能を達成することが示された。 また,マルチモーダル特徴抽出とマルチスペース埋め込みの有効性を示すフレームワーク設計に関する広範なアブレーション研究を行う。 私たちのコードは、https://github.com/sijieaaa/HypLiLocでリリースされています。

LiDAR relocalization plays a crucial role in many fields, including robotics, autonomous driving, and computer vision. LiDAR-based retrieval from a database typically incurs high computation storage costs and can lead to globally inaccurate pose estimations if the database is too sparse. On the other hand, pose regression methods take images or point clouds as inputs and directly regress global poses in an end-to-end manner. They do not perform database matching and are more computationally efficient than retrieval techniques. We propose HypLiLoc, a new model for LiDAR pose regression. We use two branched backbones to extract 3D features and 2D projection features, respectively. We consider multi-modal feature fusion in both Euclidean and hyperbolic spaces to obtain more effective feature representations. Experimental results indicate that HypLiLoc achieves state-of-the-art performance in both outdoor and indoor datasets. We also conduct extensive ablation studies on the framework design, which demonstrate the effectiveness of multi-modal feature extraction and multi-space embedding. Our code is released at: https://github.com/sijieaaa/HypLiLoc
翻訳日:2023-05-26 20:25:25 公開日:2023-05-25
# 保存された高モーメントを持つフラクタル超流動体による自発的対称性の破れの探索

Exploring spontaneous symmetry breaking through fractonic superfluids with conserved higher moments ( http://arxiv.org/abs/2305.00941v2 )

ライセンス: Link先を確認
Shuai A. Chen and Peng Ye(参考訳) フラクトン超流動体は、ボゾンが移動性制約を受ける物質のエキゾチックな相であり、その結果、従来の超流動体を超える特徴をもたらす。 これらのエキゾチックな位相は、双極子、四極子、角モーメントのような高モーメント保存を持つ多体系における高次対称性(hrs)の自発的な破れから生じる。 本稿では,このような系における自発的対称性の破れの理論について,'many-fracton systems'と呼ばれるエキサイティングな展開を紹介することを目的とする。 More specifically, we introduce exciting progress on general aspects of HRS, minimal model construction, realization of symmetry-breaking ground states, order parameter, off-diagonal long-range order (ODLRO), Noether currents with continuity equations, Gross-Pitaevskii equations, quantum fluctuations, Goldstone modes, specific heat, generalized Mermin-Wagner theorem, critical current, Landau criterion, symmetry defects, and Kosterlitz-Thouless (KT)-like physics, hydrodynamics, and lattice model realization. 本論文はいくつかの今後の方向性でまとめられる。

Fractonic superfluids are exotic phases of matter in which bosons are subject to mobility constraints, resulting in features beyond those of conventional superfluids. These exotic phases arise from the spontaneous breaking of higher-rank symmetry (HRS) in many-body systems with higher-moment conservation, such as dipoles, quadrupoles, and angular moments. The aim of this paper is to introduce exciting developments on the theory of spontaneous symmetry breaking in such systems, which we refer to as ``many-fracton systems''. More specifically, we introduce exciting progress on general aspects of HRS, minimal model construction, realization of symmetry-breaking ground states, order parameter, off-diagonal long-range order (ODLRO), Noether currents with continuity equations, Gross-Pitaevskii equations, quantum fluctuations, Goldstone modes, specific heat, generalized Mermin-Wagner theorem, critical current, Landau criterion, symmetry defects, and Kosterlitz-Thouless (KT)-like physics, hydrodynamics, and lattice model realization. This paper is concluded with several future directions.
翻訳日:2023-05-26 20:19:17 公開日:2023-05-25
# 人工知能研究のためのゲームベースプラットフォーム

Game-based Platforms for Artificial Intelligence Research ( http://arxiv.org/abs/2304.13269v2 )

ライセンス: Link先を確認
Chengpeng Hu, Yunlong Zhao, Ziqi Wang, Haocheng Du, Jialin Liu(参考訳) ゲームは、現実世界のシナリオに広く存在する特徴に対して、人工知能研究のための完璧なテストベッドでした。 学習と最適化、動的かつ不確定な環境における意思決定、ゲーム理論、計画とスケジューリング、設計と教育は、ゲームと現実世界の問題の間で共有される共通の研究領域である。 多くのオープンソースゲームやゲームベースの環境が人工知能の研究のために実装されている。 シングルまたはマルチプレイヤー、コラボレーティブまたは対戦型ゲームに加えて、近年はクリエイティブデザインのためのプラットフォームの実装にも関心が高まっている。 これらのプラットフォームは、人工知能のアイデアとテクニックを探索し比較するための理想的なベンチマークを提供する。 本稿では,人工知能研究のゲームベースプラットフォームを概観し,これらのプラットフォームの発展に伴う研究動向を考察し,展望を述べる。

Games have been the perfect test-beds for artificial intelligence research for the characteristics that widely exist in real-world scenarios. Learning and optimisation, decision making in dynamic and uncertain environments, game theory, planning and scheduling, design and education are common research areas shared between games and real-world problems. Numerous open-source games or game-based environments have been implemented for studying artificial intelligence. In addition to single- or multi-player, collaborative or adversarial games, there has also been growing interest in implementing platforms for creative design in recent years. Those platforms provide ideal benchmarks for exploring and comparing artificial intelligence ideas and techniques. This paper reviews the game-based platforms for artificial intelligence research, discusses the research trend induced by the evolution of those platforms, and gives an outlook.
翻訳日:2023-05-26 20:18:41 公開日:2023-05-25
# chameleon: 連合学習における耐久性のあるバックドアの植え付けのためのピアイメージへの適応

Chameleon: Adapting to Peer Images for Planting Durable Backdoors in Federated Learning ( http://arxiv.org/abs/2304.12961v2 )

ライセンス: Link先を確認
Yanbo Dai, Songze Li(参考訳) フェデレーション学習(fl)システムでは、分散クライアントはローカルモデルを中央サーバにアップロードしてグローバルモデルに集約する。 悪意のあるクライアントは、毒入りのローカルモデルをアップロードすることで、グローバルモデルにバックドアを植え込み、特定のパターンを持つ画像を一部のターゲットラベルに誤分類する。 現在の攻撃によって植えられたバックドアは耐久性がなく、攻撃者がモデル中毒をやめるとすぐに消滅する。 本稿では,flバックドアの耐久性と良性画像と有毒画像との関係について検討する。 具体的には、原画像と被毒画像の標的ラベルとの良性画像は、バックドア耐久性に重要な影響を及ぼす。 そこで我々は,より耐久性の高いバックドアに向けて,その効果をさらに増幅するためにコントラスト学習を利用する新たな攻撃であるChameleonを提案する。 広範な実験により、chameleonは、幅広い画像データセット、バックドアタイプ、およびモデルアーキテクチャに対して、ベースラインよりもバックドアの寿命を12\times \sim 4\times$で大幅に伸ばすことが示されている。

In a federated learning (FL) system, distributed clients upload their local models to a central server to aggregate into a global model. Malicious clients may plant backdoors into the global model through uploading poisoned local models, causing images with specific patterns to be misclassified into some target labels. Backdoors planted by current attacks are not durable, and vanish quickly once the attackers stop model poisoning. In this paper, we investigate the connection between the durability of FL backdoors and the relationships between benign images and poisoned images (i.e., the images whose labels are flipped to the target label during local training). Specifically, benign images with the original and the target labels of the poisoned images are found to have key effects on backdoor durability. Consequently, we propose a novel attack, Chameleon, which utilizes contrastive learning to further amplify such effects towards a more durable backdoor. Extensive experiments demonstrate that Chameleon significantly extends the backdoor lifespan over baselines by $1.2\times \sim 4\times$, for a wide range of image datasets, backdoor types, and model architectures.
翻訳日:2023-05-26 20:18:30 公開日:2023-05-25
# 古典的ランダムウォークと量子ウォークによるバンドアルゴリズム

Bandit Algorithm Driven by a Classical Random Walk and a Quantum Walk ( http://arxiv.org/abs/2304.10118v2 )

ライセンス: Link先を確認
Tomoki Yamagami, Etsuo Segawa, Takatomo Mihana, Andr\'e R\"ohm, Ryoichi Horisaki, and Makoto Naruse(参考訳) 量子ウォーク(QW)は、古典的ランダムウォーク(RW)が、線形拡散と局所化の共存を伴わない性質を持ち、この性質は様々な種類のアプリケーションを実装するために利用される。 本稿では,マルチアームバンド問題に対するRWおよびQWに基づくアルゴリズムを提案する。 いくつかの条件下では、これらの2つのQWの挙動とMAB問題を難しくする2つの操作(探索と利用)を関連付けることにより、QWベースのモデルが対応するRWベースのモデルよりも高い性能を実現することを示す。

Quantum walks (QWs) have a property that classical random walks (RWs) do not possess -- the coexistence of linear spreading and localization -- and this property is utilized to implement various kinds of applications. This paper proposes RW- and QW-based algorithms for multi-armed-bandit (MAB) problems. We show that, under some settings, the QW-based model realizes higher performance than the corresponding RW-based one by associating the two operations that make MAB problems difficult -- exploration and exploitation -- with these two behaviors of QWs.
翻訳日:2023-05-26 20:18:08 公開日:2023-05-25
# 連結グラフ符号に対するZX-Calculusアプローチ

A ZX-Calculus Approach to Concatenated Graph Codes ( http://arxiv.org/abs/2304.08363v2 )

ライセンス: Link先を確認
Zipeng Wu, Song Cheng, Bei Zeng(参考訳) 量子誤り訂正符号(QECC)は、量子コンピューティングと量子通信システムの信頼性を確保するために不可欠である。 QECCの中では、スタビライザー符号、特にグラフ符号は、その固有の性質と潜在的な応用のためにかなりの注目を集めている。 複数の量子コードの層を組み合わせた結合符号は、比較的低いリソースオーバーヘッドで高いレベルのエラー補正を実現するための強力な技術を提供する。 本稿では,ZX-calculusの強力なグラフィカル言語を用いて,グラフコードの連結について検討する。 本稿では,この符号化マップとzx-diagramsの対応関係を確立し,[j. math. phys. 52, 022201] で示されるように,pauli x ベースの符号化マップと図形演算 "generalized local complementation" (glc) との等価性の簡単な証明を提供する。 解析の結果,同一内部コードのエンコーディングキュービットが直接接続されていない場合のみ,帰結したコードをグラフコードとして残すことが判明した。 直接接続された場合、連結されたコードをグラフコードに変換するためにクリフォード演算を追加し、[J. Math. Phys. 52, 022201] で結果を一般化する。 さらに,連結グラフ符号を連結グラフ符号とするホログラフィック符号の検討を含む,異なるベースで連結グラフ符号を探索する。 量子誤差補正の分野を前進させるZX計算の可能性を示す。

Quantum Error-Correcting Codes (QECCs) are vital for ensuring the reliability of quantum computing and quantum communication systems. Among QECCs, stabilizer codes, particularly graph codes, have attracted considerable attention due to their unique properties and potential applications. Concatenated codes, which combine multiple layers of quantum codes, offer a powerful technique for achieving high levels of error correction with a relatively low resource overhead. In this paper, we examine the concatenation of graph codes using the powerful and versatile graphical language of ZX-calculus. We establish a correspondence between the encoding map and ZX-diagrams, and provide a simple proof of the equivalence between encoding maps in the Pauli X basis and the graphic operation "generalized local complementation" (GLC) as previously demonstrated in [J. Math. Phys. 52, 022201]. Our analysis reveals that the resulting concatenated code remains a graph code only when the encoding qubits of the same inner code are not directly connected. When they are directly connected, additional Clifford operations are necessary to transform the concatenated code into a graphcode, thus generalizing the results in [J. Math. Phys. 52, 022201]. We further explore concatenated graph codesin different bases, including the examination of holographic codes as concatenated graph codes. Our findings showcase the potential of ZX-calculus in advancing the field of quantum error correction.
翻訳日:2023-05-26 20:17:57 公開日:2023-05-25
# raft: 生成的ファンデーションモデルアライメントに対する報酬ランクの微調整

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment ( http://arxiv.org/abs/2304.06767v2 )

ライセンス: Link先を確認
Hanze Dong, Wei Xiong, Deepanshu Goyal, Rui Pan, Shizhe Diao, Jipeng Zhang, Kashun Shum, Tong Zhang(参考訳) 生成基盤モデルは、広範な教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。 このようなバイアスは、最適でないサンプル、歪んだ結果、不公平を生じさせ、潜在的に重大な影響をもたらす可能性がある。 したがって、これらのモデルを人間の倫理や嗜好と整合させることは、現実世界のアプリケーションに責任と効果的なデプロイを確実にするための重要なステップである。 従来の研究では、人間フィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)がこの問題に対処する方法として用いられており、生成モデルは人間フィードバックインフォームド報酬モデルによって導かれるRLアルゴリズムを用いて微調整される。 しかしながら、RLアルゴリズムに関連する非効率性と不安定性は、しばしば生成モデルのアライメントの成功に重大な障害をもたらし、より堅牢で合理化されたアプローチの開発を必要とする。 この目的のために、生成モデルをより効率的に整合させるように設計された新しいフレームワーク、Reward rAnked FineTuning (RAFT)を導入する。 報奨モデルと十分な数のサンプルを利用することで、高品質なサンプルを選択し、望ましくない振る舞いを示すサンプルを破棄し、ストリーミングデータセットを組み立てる。 このデータセットは生成モデルを調整する基盤となり、オフラインでもオンラインでも利用できる。 特にRAFT内のサンプル生成プロセスは勾配なしであり、ブラックボックスジェネレータと互換性がある。 本研究では,大規模言語モデルと拡散モデルの両方の文脈において,提案アルゴリズムが強い性能を示すことを示す。

Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially significant repercussions. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) as a means of addressing this problem, wherein generative models are fine-tuned using RL algorithms guided by a human-feedback-informed reward model. However, the inefficiencies and instabilities associated with RL algorithms frequently present substantial obstacles to the successful alignment of generative models, necessitating the development of a more robust and streamlined approach. To this end, we introduce a new framework, Reward rAnked FineTuning (RAFT), designed to align generative models more effectively. Utilizing a reward model and a sufficient number of samples, our approach selects the high-quality samples, discarding those that exhibit undesired behavior, and subsequently assembles a streaming dataset. This dataset serves as the basis for aligning the generative model and can be employed under both offline and online settings. Notably, the sample generation process within RAFT is gradient-free, rendering it compatible with black-box generators. Through extensive experiments, we demonstrate that our proposed algorithm exhibits strong performance in the context of both large language models and diffusion models.
翻訳日:2023-05-26 20:16:48 公開日:2023-05-25
# 確率射とカーネル平均埋め込みによる教師付き学習

Supervised learning with probabilistic morphisms and kernel mean embeddings ( http://arxiv.org/abs/2305.06348v2 )

ライセンス: Link先を確認
H\^ong V\^an L\^e(参考訳) 本稿では,実測可能な空間である入力空間 $\mathcal{X}$ とラベル空間 $\mathcal{Y}$ に対する教師付き学習の生成モデルにおける正しい損失関数の概念を提案する。 教師付き学習の生成モデルにおける正しい損失関数は、可能な予測子の仮説空間 $\mathcal{h}$ と、$\mathcal{h}$ に属するかもしれないスーパーバイザ演算子の要素間の不一致を正しく測定しなければならない。 正しい損失関数を定義するために、確率測度 $\mu$ on $\mathcal{x} \times \mathcal{y}$ に対する正規条件付き確率測度 $\mu_{\mathcal{y}|\mathcal{x}}$ を、線型作用素方程式の解として、$\pi_{\mathcal{x}}: \mathcal{x}\times\mathcal{y}\to \mathcal{x}$ に対して特徴づける。 もし$\mathcal{y}$ が分離可能な距離化可能な位相空間で、ボレル $\sigma$-algebra $ \mathcal{b} (\mathcal{y})$ が成り立つなら、正規条件付き確率測度 $\mu_{\mathcal{y}|\mathcal{x}}$ を、マルコフ核の空間上の平均二乗誤差の最小値として、$\mathcal{x}$ から$\mathcal{y}$ に、カーネル平均埋め込みを用いた別の特徴付けを提案する。 これらの結果を用いて、学習アルゴリズムの一般化可能性の定量化に内部測度を用いて、回帰モデルの学習可能性に関するCucker-Smaleによる結果の一般化を条件付き確率推定問題の設定に与える。 また,確率的不適切な問題を解くためのvapnikの正規化手法の変種を与え,その応用について述べる。

In this paper I propose a concept of a correct loss function in a generative model of supervised learning for an input space $\mathcal{X}$ and a label space $\mathcal{Y}$, which are measurable spaces. A correct loss function in a generative model of supervised learning must correctly measure the discrepancy between elements of a hypothesis space $\mathcal{H}$ of possible predictors and the supervisor operator, which may not belong to $\mathcal{H}$. To define correct loss functions, I propose a characterization of a regular conditional probability measure $\mu_{\mathcal{Y}|\mathcal{X}}$ for a probability measure $\mu$ on $\mathcal{X} \times \mathcal{Y}$ relative to the projection $\Pi_{\mathcal{X}}: \mathcal{X}\times\mathcal{Y}\to \mathcal{X}$ as a solution of a linear operator equation. If $\mathcal{Y}$ is a separable metrizable topological space with the Borel $\sigma$-algebra $ \mathcal{B} (\mathcal{Y})$, I propose another characterization of a regular conditional probability measure $\mu_{\mathcal{Y}|\mathcal{X}}$ as a minimizer of a mean square error on the space of Markov kernels, called probabilistic morphisms, from $\mathcal{X}$ to $\mathcal{Y}$, using kernel mean embeddings. Using these results and using inner measure to quantify generalizability of a learning algorithm, I give a generalization of a result due to Cucker-Smale, which concerns the learnability of a regression model, to a setting of a conditional probability estimation problem. I also give a variant of Vapnik's regularization method for solving stochastic ill-posed problems, using inner measure, and present its applications.
翻訳日:2023-05-26 20:10:16 公開日:2023-05-25
# 奥行き分割型クロスモーダル学習によるマルチプロンプト

Multi-Prompt with Depth Partitioned Cross-Modal Learning ( http://arxiv.org/abs/2305.06221v2 )

ライセンス: Link先を確認
Yiqi Wang, Xianda Guo, Zheng Zhu, Yingjie Tian(参考訳) 近年,様々な下流タスクのための大規模視覚言語事前学習モデルにソフトプロンプト学習法が提案されている。 これらのメソッドは通常、学習可能なテキストトークンと、凍ったパラメータを持つモデルの入力としてクラストークンを組み合わせる。 しかし、それらはしばしばクラスコンテキストを記述するために単一のプロンプトを使い、カテゴリの多様な属性を適切に捉えられなかった。 本研究は,学習可能な1つのプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術であるパーティショルド・マルチモーダル・プロンプト(PMPO)を紹介する。 本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,視覚表現の階層的な文脈深度を捉えることができる。 さらに,マルチプロンプト学習の利点を最大化するために,手作業で設計したテンプレートと学習可能なマルチプロンプトからの事前情報を取り込んで,その一般化能力を向上させる。 我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。 例えば,本手法は,11種類の画像認識データセット(+7.62ドル)を平均して79.28ドルという高調波平均を達成し,最先端のプロンプト手法と比較して大きな競争力を示した。

In recent years, soft prompt learning methods have been proposed to fine-tune large-scale vision-language pre-trained models for various downstream tasks. These methods typically combine learnable textual tokens with class tokens as input for models with frozen parameters. However, they often employ a single prompt to describe class contexts, failing to capture categories' diverse attributes adequately. This study introduces the Partitioned Multi-modal Prompt (PMPO), a multi-modal prompting technique that extends the soft prompt from a single learnable prompt to multiple prompts. Our method divides the visual encoder depths and connects learnable prompts to the separated visual depths, enabling different prompts to capture the hierarchical contextual depths of visual representations. Furthermore, to maximize the advantages of multi-prompt learning, we incorporate prior information from manually designed templates and learnable multi-prompts, thus improving the generalization capabilities of our approach. We evaluate the effectiveness of our approach on three challenging tasks: new class generalization, cross-dataset evaluation, and domain generalization. For instance, our method achieves a $79.28$ harmonic mean, averaged over 11 diverse image recognition datasets ($+7.62$ compared to CoOp), demonstrating significant competitiveness compared to state-of-the-art prompting methods.
翻訳日:2023-05-26 20:09:20 公開日:2023-05-25
# TASTY: 空間と時間の複雑さに対するトランスフォーマーベースのアプローチ

TASTY: A Transformer based Approach to Space and Time complexity ( http://arxiv.org/abs/2305.05379v3 )

ライセンス: Link先を確認
Kaushik Moudgalya, Ankit Ramakrishnan, Vamsikrishna Chemudupati, and Xing Han Lu(参考訳) コードベース言語モデル(LM)は、コード洗練、コード補完、生成といったアプリケーションによるソフトウェア工学の分野で非常に有望な結果を示している。 しかし、コードからの時間と空間の複雑さの分類は、データセットの欠如のために広範囲に検討されておらず、以前の取り組みはjavaに限定されている。 このプロジェクトでは、複数の言語にまたがるコードスニペットのラベル付きデータセット(PythonとC++のデータセットは現在、C、C#、JavaScriptのデータセットが間もなくリリースされる)を作成することで、これらのギャップに対処することを目指している。 既存の時間複雑性計算ライブラリやツールは、限られた数のユースケースにしか適用できません。 明確に定義されたルールベースのシステムがないことが、最近提案されたコードベースのlmsの適用動機となっている。 デッドコード除去の有効性を実証し,LMの最大シーケンス長を増大させる。 時間の複雑さに加えて、コードから空間の複雑さを見つけるためにLMを使うことを提案しています。 さらに,一方の言語でLMを微調整し,他方の言語で推論を行うクロスランゲージトランスファーと呼ばれる新しいコード理解タスクを導入する。 最後に,Non- negative Matrix Factorization (NMF) を用いて,LMのアテンションフィード分類ヘッドの活性化を可視化し,その結果を解釈する。

Code based Language Models (LMs) have shown very promising results in the field of software engineering with applications such as code refinement, code completion and generation. However, the task of time and space complexity classification from code has not been extensively explored due to a lack of datasets, with prior endeavors being limited to Java. In this project, we aim to address these gaps by creating a labelled dataset of code snippets spanning multiple languages (Python and C++ datasets currently, with C, C#, and JavaScript datasets being released shortly). We find that existing time complexity calculation libraries and tools only apply to a limited number of use-cases. The lack of a well-defined rule based system motivates the application of several recently proposed code-based LMs. We demonstrate the effectiveness of dead code elimination and increasing the maximum sequence length of LMs. In addition to time complexity, we propose to use LMs to find space complexities from code, and to the best of our knowledge, this is the first attempt to do so. Furthermore, we introduce a novel code comprehension task, called cross-language transfer, where we fine-tune the LM on one language and run inference on another. Finally, we visualize the activation of the attention fed classification head of our LMs using Non-negative Matrix Factorization (NMF) to interpret our results.
翻訳日:2023-05-26 20:08:54 公開日:2023-05-25
# インコンテキストの例は構成の一般化にどのように影響するか?

How Do In-Context Examples Affect Compositional Generalization? ( http://arxiv.org/abs/2305.04835v2 )

ライセンス: Link先を確認
Shengnan An, Zeqi Lin, Qiang Fu, Bei Chen, Nanning Zheng, Jian-Guang Lou and Dongmei Zhang(参考訳) 構成的一般化 - 目に見えないプリミティブの組み合わせを理解することは、人間の知性に不可欠な推論能力である。 AIコミュニティは、主に、多くのトレーニングサンプルでニューラルネットワークを微調整することによって、この能力を研究する。 本稿では,コンテクスト内構成一般化のためのテストスイートCoFeを提案する。 その結果, 合成汎化性能は, 文脈内サンプルの選択によって容易に影響を受けることが判明し, 構成的一般化のための良質な文脈内サンプルを作成する上で, 重要な要因は何かという研究課題が提起された。 類似性,多様性,複雑性の3つの要因について検討した。 我々の系統実験は、文脈内サンプルは、テストケースと構造的に似ており、互いに異なっており、個別に単純であることを示す。 さらに、2つの強い制限が観察される: 架空の単語に対する文脈内合成一般化は、一般的に使われるものよりもはるかに弱い; バックボーンモデルが大きなコーパス上で事前訓練されているにもかかわらず、文脈内例が要求される言語構造をカバーすることが依然として重要である。 我々の分析が文脈内学習パラダイムの理解と活用を促進することを願っている。

Compositional generalization--understanding unseen combinations of seen primitives--is an essential reasoning capability in human intelligence. The AI community mainly studies this capability by fine-tuning neural networks on lots of training samples, while it is still unclear whether and how in-context learning--the prevailing few-shot paradigm based on large language models--exhibits compositional generalization. In this paper, we present CoFe, a test suite to investigate in-context compositional generalization. We find that the compositional generalization performance can be easily affected by the selection of in-context examples, thus raising the research question what the key factors are to make good in-context examples for compositional generalization. We study three potential factors: similarity, diversity and complexity. Our systematic experiments indicate that in-context examples should be structurally similar to the test case, diverse from each other, and individually simple. Furthermore, two strong limitations are observed: in-context compositional generalization on fictional words is much weaker than that on commonly used ones; it is still critical that the in-context examples should cover required linguistic structures, even though the backbone model has been pre-trained on large corpus. We hope our analysis would facilitate the understanding and utilization of in-context learning paradigm.
翻訳日:2023-05-26 20:08:35 公開日:2023-05-25
# インクの一滴が100万の思考を生み出す - 大規模言語モデルにおける偽情報の拡散

A Drop of Ink Makes a Million Think: The Spread of False Information in Large Language Models ( http://arxiv.org/abs/2305.04812v2 )

ライセンス: Link先を確認
Ning Bian, Peilin Liu, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben He, Le Sun(参考訳) 大規模言語モデル(llm)は、人工知能において注目を集め、社会やビジネスや科学といった様々な産業に大きな影響を与えている。 しかし、インターネットやテキストコーパスにおける偽情報の存在は、LLMの信頼性と安全性に重大なリスクをもたらし、偽情報がLLMの行動にどのように影響するかのメカニズムを緊急に理解する必要があることを強調している。 本稿では,この問題を掘り下げ,LLMにおける偽情報の拡散が関連する応答に与える影響を考察する。 具体的には,3つの情報関連度(間接的,間接的,周辺的),4つの情報ソーススタイル(twitter,webブログ,ニュースレポート,研究論文),および2つの共通知識注入パラダイム(インコンテキストインジェクションと学習ベースのインジェクション)を比較し,llmにおける情報の拡散に影響を与える要因について検討した。 実験の結果,(1)false情報は,意味拡散過程を通じてllm内の関連記憶を拡散・汚染し,その直接的な影響を超えた世界的な有害な影響を有することがわかった。 2)現在のLLMは、権限バイアスの影響を受けやすいため、ニュースや研究論文などの信頼できるスタイルで提示された偽情報に従う傾向が強く、情報のより深い汚染を引き起こすことが多い。 (3)現在のLLMは,学習ベースインジェクションよりもコンテキスト内インジェクションによる偽情報に敏感であり,すべてのトレーニングデータが信頼性と正確である場合でも,LLMの信頼性と安全性を著しく損なう。 以上の知見は、偽情報のグローバルな影響に対処するための新しい偽情報防御アルゴリズムの必要性を提起し、LLMが表面的なパターンではなく、本質的な人間の価値に従うことを不偏に導く新しいアライメントアルゴリズムの必要性を提起する。

Large language models (LLMs) have gained increasing prominence in artificial intelligence, making a profound impact on society and various industries like business and science. However, the presence of false information on the internet and in text corpus poses a significant risk to the reliability and safety of LLMs, underscoring the urgent need to understand the mechanisms of how false information influences the behaviors of LLMs. In this paper, we dive into this problem and investigate how false information spreads in LLMs and affects related responses. Specifically, in our series of experiments, we investigate different factors that can influence the spread of information in LLMs by comparing three degrees of information relevance (direct, indirect, and peripheral), four information source styles (Twitter, web blogs, news reports, and research papers) and two common knowledge injection paradigms (in-context injection and learning-based injection). The experimental results show that (1)False information will spread and contaminate related memories in LLMs via a semantic diffusion process, i.e., false information has global detrimental effects beyond its direct impact. (2)Current LLMs are susceptible to authority bias, i.e., LLMs are more likely to follow false information presented in trustworthy styles such as news reports and research papers, which usually cause deeper and wider pollution of information. (3)Current LLMs are more sensitive to false information through in-context injection than through learning-based injection, which severely challenges the reliability and safety of LLMs even when all training data are trusty and correct. The above findings raise the need for new false information defense algorithms to address the global impact of false information, and new alignment algorithms to unbiasedly lead LLMs to follow essential human values rather than superficial patterns.
翻訳日:2023-05-26 20:08:12 公開日:2023-05-25
# Density: 密度推定を用いたオープンドメイン対話評価指標

DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation ( http://arxiv.org/abs/2305.04720v2 )

ライセンス: Link先を確認
ChaeHun Park, Seungil Chad Lee, Daniel Rim, and Jaegul Choo(参考訳) 近年のオープンドメイン対話システムの発展にもかかわらず、信頼性の高い評価基準の構築は依然として困難な問題である。 近年の研究では、正しい応答を識別するために訓練された分類モデルに基づく学習可能なメトリクスが提案されている。 しかし、神経分類器は、見当たらない分布から例を過度に自信を持って予測することが知られている。 本稿では,神経分類器から導出される特徴空間の密度推定を利用して応答を評価する密度を提案する。 我々の測定基準は、人間の会話の分布にどれだけ反応が現れるかを測定する。 さらに、Dernityの性能を向上させるために、コントラスト学習を利用して特徴空間をさらに圧縮する。 複数の応答評価データセットの実験により、Dnsityは既存の指標よりも人間の評価と相関していることが示された。 私たちのコードはhttps://github.com/ddehun/densityで利用可能です。

Despite the recent advances in open-domain dialogue systems, building a reliable evaluation metric is still a challenging problem. Recent studies proposed learnable metrics based on classification models trained to distinguish the correct response. However, neural classifiers are known to make overly confident predictions for examples from unseen distributions. We propose DEnsity, which evaluates a response by utilizing density estimation on the feature space derived from a neural classifier. Our metric measures how likely a response would appear in the distribution of human conversations. Moreover, to improve the performance of DEnsity, we utilize contrastive learning to further compress the feature space. Experiments on multiple response evaluation datasets show that DEnsity correlates better with human evaluations than the existing metrics. Our code is available at https://github.com/ddehun/DEnsity.
翻訳日:2023-05-26 20:07:37 公開日:2023-05-25
# $^{171}$Yb原子における核スピン量子ビットの繰り返し読み出しとリアルタイム制御

Repetitive readout and real-time control of nuclear spin qubits in $^{171}$Yb atoms ( http://arxiv.org/abs/2305.02926v3 )

ライセンス: Link先を確認
William Huie, Lintao Li, Neville Chen, Xiye Hu, Zhubing Jia, Won Kyu Calvin Sun, Jacob P. Covey(参考訳) 我々は、中性イッテルビウム-171(^{171}$Yb)原子配列における核スピン量子ビットの高忠実度反復射影測定を実証する。 その結果, 1つのトワイザーに対して0.993(6)の確率で測定結果に対応する状態と配列上で平均される0.981(4)の条件下で, 量子ビット状態は0.995(4)の忠実度で測定できることがわかった。 これは、光励起状態の核スピン量子状態のうちの1つがb=58$gの磁場下でほぼ完全な周期性を持つことで達成され、蛍光読み出し時に明るく暗いコントラストが約10^5$となる。 パフォーマンスは$\sim1/b^2$でさらに向上する。 平均値0.98(1)の読み出しサバイバルは、暗黒状態への非共鳴散乱によって制限され、回路の端の原子番号を計測したり、両キュービット状態の測定を行うことで、選択後の処理によって対処することができる。 投影的測定と交流磁場による核スピン量子ビットの高忠実な回転を組み合わせることで、直交基底における測定の非可換性や「フリーズ」コヒーレント進化の量子ゼノン機構など、いくつかのパラダイムシナリオを探求する。 最後に、実時間フィードフォワードを用いて、直交的に初期化し、$z$-basisで射影測定を行った後、$+z$または$-z$方向のキュービットを繰り返し決定的に準備する。 これらの能力は、測定に基づく量子計算、高速多体状態形成、ホログラフィックダイナミクスシミュレーション、量子誤差補正など、原子配列を持つ適応量子回路への重要なステップを構成する。

We demonstrate high fidelity repetitive projective measurements of nuclear spin qubits in an array of neutral ytterbium-171 ($^{171}$Yb) atoms. We show that the qubit state can be measured with a fidelity of 0.995(4) under a condition that leaves it in the state corresponding to the measurement outcome with a probability of 0.993(6) for a single tweezer and 0.981(4) averaged over the array. This is accomplished by near-perfect cyclicity of one of the nuclear spin qubit states with an optically excited state under a magnetic field of $B=58$ G, resulting in a bright/dark contrast of $\approx10^5$ during fluorescence readout. The performance improves further as $\sim1/B^2$. The state-averaged readout survival of 0.98(1) is limited by off-resonant scattering to dark states and can be addressed via post-selection by measuring the atom number at the end of the circuit, or during the circuit by performing a measurement of both qubit states. We combine projective measurements with high-fidelity rotations of the nuclear spin qubit via an AC magnetic field to explore several paradigmatic scenarios, including the non-commutivity of measurements in orthogonal bases, and the quantum Zeno mechanism in which measurements "freeze" coherent evolution. Finally, we employ real-time feedforward to repetitively deterministically prepare the qubit in the $+z$ or $-z$ direction after initializing it in an orthogonal basis and performing a projective measurement in the $z$-basis. These capabilities constitute an important step towards adaptive quantum circuits with atom arrays, such as in measurement-based quantum computation, fast many-body state preparation, holographic dynamics simulations, and quantum error correction.
翻訳日:2023-05-26 20:07:25 公開日:2023-05-25
# 知識ベース質問応答のための関係探索にもっと注意を払う

Pay More Attention to Relation Exploration for Knowledge Base Question Answering ( http://arxiv.org/abs/2305.02118v2 )

ライセンス: Link先を確認
Yong Cao, Xianzhi Li, Huiwen Liu, Wen Dai, Shuai Chen, Bin Wang, Min Chen and Daniel Hershcovich(参考訳) 知識ベース質問応答(KBQA)は,大規模知識ベースから正しい回答を取得することを目的とした課題である。 既存の試みは、主にエンティティ表現と最終回答推論にフォーカスしており、このタスクの監督は限られている。 また、近年の進歩において、推論経路の選択を実証的に決定する関係は十分に考慮されていない。 本研究では,知識ベースにおける関係を利用してエンティティ表現を強化し,追加の監督を行う新しいフレームワークRE-KBQAを提案する。 本研究は,(1)変動グラフオートエンコーダを用いて関係の重要性を学習すること,(2)ソフトラベルとしての関係分布をマルチタスク方式で予測することによる余分な監督,(3)事後処理のための関係誘導再ランキングアルゴリズムを設計すること,の3つの側面から,関係からの指導について検討する。 2つのベンチマークデータセットにおける実験結果から,f1スコアをcwqでは40.5から46.3に5.7%改善し,webqspでは62.8から68.5に5.8%改善した。

Knowledge base question answering (KBQA) is a challenging task that aims to retrieve correct answers from large-scale knowledge bases. Existing attempts primarily focus on entity representation and final answer reasoning, which results in limited supervision for this task. Moreover, the relations, which empirically determine the reasoning path selection, are not fully considered in recent advancements. In this study, we propose a novel framework, RE-KBQA, that utilizes relations in the knowledge base to enhance entity representation and introduce additional supervision. We explore guidance from relations in three aspects, including (1) distinguishing similar entities by employing a variational graph auto-encoder to learn relation importance; (2) exploring extra supervision by predicting relation distributions as soft labels with a multi-task scheme; (3) designing a relation-guided re-ranking algorithm for post-processing. Experimental results on two benchmark datasets demonstrate the effectiveness and superiority of our framework, improving the F1 score by 5.7% from 40.5 to 46.3 on CWQ and 5.8% from 62.8 to 68.5 on WebQSP, better or on par with state-of-the-art methods.
翻訳日:2023-05-26 20:06:53 公開日:2023-05-25
# 数発のイベント検出:実証的研究と統一ビュー

Few-shot Event Detection: An Empirical Study and a Unified View ( http://arxiv.org/abs/2305.01901v2 )

ライセンス: Link先を確認
Yubo Ma, Zehao Wang, Yixin Cao and Aixin Sun(参考訳) 少人数のイベント検出(ed)は広く研究されているが,モチベーションやタスク,実験的な設定など,今後の進展に対するモデルの理解を妨げる明らかな不一致をもたらしている。この記事では,徹底的な実証研究,edモデルの統一的視点,より統一されたベースラインについて述べる。 公平な評価のために、3つのデータセットに対する12の代表的な手法を比較し、大まかにグループ化され、プロンプトベースのモデルとプロトタイプベースのモデルで詳細な分析を行う。 実験では、ChatGPTを含むプロンプトベースのメソッドは、全体的なパフォーマンスの観点からも、まだプロトタイプベースのメソッドをかなり後押ししている。 彼らの優れた性能を調べるために、いくつかの次元に沿って設計要素を分解し、プロトタイプベースのメソッドで統一されたフレームワークを構築する。 このような統一的な視点の下で、各プロトタイプメソッドは、これらの設計要素から異なるモジュールの組み合わせを見ることができる。 我々はさらに,すべての有利なモジュールを結合し,既存のメソッドを大きなマージンで上回る,単純かつ効果的なベースラインを提案する(例えば,低リソース環境下での2.7%のf1利得)。

Few-shot event detection (ED) has been widely studied, while this brings noticeable discrepancies, e.g., various motivations, tasks, and experimental settings, that hinder the understanding of models for future progress.This paper presents a thorough empirical study, a unified view of ED models, and a better unified baseline. For fair evaluation, we compare 12 representative methods on three datasets, which are roughly grouped into prompt-based and prototype-based models for detailed analysis. Experiments consistently demonstrate that prompt-based methods, including ChatGPT, still significantly trail prototype-based methods in terms of overall performance. To investigate their superior performance, we break down their design elements along several dimensions and build a unified framework on prototype-based methods. Under such unified view, each prototype-method can be viewed a combination of different modules from these design elements. We further combine all advantageous modules and propose a simple yet effective baseline, which outperforms existing methods by a large margin (e.g., 2.7% F1 gains under low-resource setting).
翻訳日:2023-05-26 20:06:31 公開日:2023-05-25
# インテリジェントなユーザエージェントペアリングによるコールセンターのユーザエクスペリエンス向上

Improving Customer Experience in Call Centers with Intelligent Customer-Agent Pairing ( http://arxiv.org/abs/2305.08594v2 )

ライセンス: Link先を確認
S. Filippou, A. Tsiartas, P. Hadjineophytou, S. Christofides, K. Malialis, C. G. Panayiotou(参考訳) 顧客エクスペリエンスは、利益を上げる組織や企業にとって重要な役割を担います。 企業の満足度の高い顧客は、高い顧客保持率と市場におけるより良い表現に対応する。 顧客エクスペリエンスを改善するひとつの方法は、コールセンターの機能を最適化することだ。 本研究では,国内最大の通信・インターネットアクセスプロバイダと協力し,機械学習問題として顧客とエージェントのペアリング問題を定式化している。 提案手法は,ルールベースの手法と比較して,約215 %の大幅な性能向上をもたらす。

Customer experience plays a critical role for a profitable organisation or company. A satisfied customer for a company corresponds to higher rates of customer retention, and better representation in the market. One way to improve customer experience is to optimize the functionality of its call center. In this work, we have collaborated with the largest provider of telecommunications and Internet access in the country, and we formulate the customer-agent pairing problem as a machine learning problem. The proposed learning-based method causes a significant improvement in performance of about $215\%$ compared to a rule-based method.
翻訳日:2023-05-26 20:01:05 公開日:2023-05-25
# 深部熱化の非局在性

Nonlocality of Deep Thermalization ( http://arxiv.org/abs/2305.08437v2 )

ライセンス: Link先を確認
Harshank Shrotriya, Wen Wei Ho(参考訳) 本研究では, 深部熱処理におけるトポロジーの役割, 最大エントロピー, 均一な測定状態分布への局所サブシステムの緩和, および局所的に相補的なサブシステムの観察について検討した。 具体的には,「最大カオス」ダイナミクスを示す (1+1)d 系のクラスに着目し,そのような普遍波動関数分布の形成速度が系の境界条件にどのように依存するかを検討する。 深部熱化は周期的・開境界条件のいずれかの存在下で指数関数的に高速に達成されるが, 前者の方が後者に比べて2倍の速さで進行する。 これらの結果は、ユニタリ群上の積分計算を用いて解析的に達成され、広範な数値シミュレーションによって支援される。 この発見は深部熱化の非局所的な性質を強調し、この現象の基礎となる物理が標準量子化のそれを超えることを明らかに示しており、これはサブシステムと補体の絡み合いの純的蓄積に依存している。

We study the role of topology in governing deep thermalization, the relaxation of a local subsystem towards a maximally-entropic, uniform distribution of post-measurement states, upon observing the complementary subsystem in a local basis. Concretely, we focus on a class of (1+1)d systems exhibiting `maximally-chaotic' dynamics, and consider how the rate of the formation of such a universal wavefunction distribution depends on boundary conditions of the system. We find that deep thermalization is achieved exponentially quickly in the presence of either periodic or open boundary conditions; however, the rate at which this occurs is twice as fast for the former than for the latter. These results are attained analytically using the calculus of integration over unitary groups, and supported by extensive numerical simulations. Our findings highlight the nonlocal nature of deep thermalization, and clearly illustrates that the physics underlying this phenomenon goes beyond that of standard quantum thermalization, which only depends on the net build-up of entanglement between a subsystem and its complement.
翻訳日:2023-05-26 20:00:57 公開日:2023-05-25
# MaxViT-UNet:医療画像セグメンテーションのためのマルチ軸注意

MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation ( http://arxiv.org/abs/2305.08396v2 )

ライセンス: Link先を確認
Abdul Rehman Khan, Asifullah Khan(参考訳) 近年,畳み込みニューラルネットワークは医用画像解析において大きな進歩を遂げている。 しかし、畳み込み演算子の局所的な性質は、CNNがグローバルと長距離の相互作用を捉えることを妨げている。 近年,コンピュータビジョンコミュニティや医療画像セグメンテーションにおいてトランスフォーマーが普及している。 しかし、自己注意機構のスケーラビリティの問題とCNNのような帰納バイアスの欠如は採用を制限している。 本研究では,Encoder-Decoderを用いた医用画像分割用ハイブリッドビジョントランスフォーマであるMaxViT-UNetを提案する。 MaxViTブロックをベースとしたハイブリッドデコーダは,各デコード段階での畳み込みと自己保持機構のパワーを最小限の計算負担で利用するように設計されている。 各デコーダステージにおける多軸自己アテンションは、オブジェクトとバックグラウンド領域をより効率的に区別するのに役立つ。 ハイブリッドデコーダブロックは,まずトランスポーション・コンボリューション(transpose convolution)によってアップサンプリングされた下位機能とハイブリッド・エンコーダからのスキップ接続機能とを融合し,多軸アテンション機構を用いて融合機能を改良する。 提案したデコーダブロックを複数回繰り返し、核領域を正確に分割する。 MoNuSegデータセットの実験結果から,提案手法の有効性が確認された。 我々のMaxViT-UNetは以前のCNNのみ(UNet)とTransformerのみ(Swin-UNet)の技法をそれぞれ2.36%と5.31%で上回りました。

Convolutional neural networks have made significant strides in medical image analysis in recent years. However, the local nature of the convolution operator inhibits the CNNs from capturing global and long-range interactions. Recently, Transformers have gained popularity in the computer vision community and also medical image segmentation. But scalability issues of self-attention mechanism and lack of the CNN like inductive bias have limited their adoption. In this work, we present MaxViT-UNet, an Encoder-Decoder based hybrid vision transformer for medical image segmentation. The proposed hybrid decoder, also based on MaxViT-block, is designed to harness the power of convolution and self-attention mechanism at each decoding stage with minimal computational burden. The multi-axis self-attention in each decoder stage helps in differentiating between the object and background regions much more efficiently. The hybrid decoder block initially fuses the lower level features upsampled via transpose convolution, with skip-connection features coming from hybrid encoder, then fused features are refined using multi-axis attention mechanism. The proposed decoder block is repeated multiple times to accurately segment the nuclei regions. Experimental results on MoNuSeg dataset proves the effectiveness of the proposed technique. Our MaxViT-UNet outperformed the previous CNN only (UNet) and Transformer only (Swin-UNet) techniques by a large margin of 2.36% and 5.31% on Dice metric respectively.
翻訳日:2023-05-26 20:00:36 公開日:2023-05-25
# コーパス言語学におけるLLM補助アノテーションの使用:局所文法解析を事例として

Using LLM-assisted Annotation for Corpus Linguistics: A Case Study of Local Grammar Analysis ( http://arxiv.org/abs/2305.08339v2 )

ライセンス: Link先を確認
Danni Yu, Luyang Li, Hang Su, Matteo Fuoli(参考訳) 大規模言語モデル(LLM)に基づくチャットボットは、言語理解において強力な能力を示している。 本研究では,特定のカテゴリの言語情報を含むテキストの自動アノテーションにより,コーパスに基づく言語研究を支援するllmの可能性を検討する。 具体的には,局所文法の観点から,LLMが言語行動を構成する機能的要素をどの程度理解しているかを,ChatGPT(GPT-3.5),Bingチャットボット(GPT-4),およびアノテーションタスクにおける人間コーダのパフォーマンスを比較して検討した。 その結果, Bing チャットボットはタスクにおいて ChatGPT を著しく上回った。 人間のアノテータと比較すると、Bingチャットボットの全体的なパフォーマンスはわずかに満足できなかった。 APOLOGISINGのタグは99.95%、REASONは91.91%、APOLOGISERは95.35%、APOLOGISEEは89.74%、INTENSIFIERは96.47%だった。 このことは,機械によって認識されにくいタグに対する人間の介入とともに,局所文法解析にllm支援アノテーションを使用することが可能であることを示唆する。 我々は,他の言語現象に注釈をつける上で,LLMの性能を評価するための今後の研究を強く提唱する。 これらの研究は、コーパス言語学で発達した理論の進歩やLLMの言語能力に関する貴重な洞察を提供する可能性がある。 .

Chatbots based on Large Language Models (LLMs) have shown strong capabilities in language understanding. In this study, we explore the potential of LLMs in assisting corpus-based linguistic studies through automatic annotation of texts with specific categories of linguistic information. Specifically, we examined to what extent LLMs understand the functional elements constituting the speech act of apology from a local grammar perspective, by comparing the performance of ChatGPT (powered by GPT-3.5), the Bing chatbot (powered by GPT-4), and a human coder in the annotation task. The results demonstrate that the Bing chatbot significantly outperformed ChatGPT in the task. Compared to human annotator, the overall performance of the Bing chatbot was slightly less satisfactory. However, it already achieved high F1 scores: 99.95% for the tag of APOLOGISING, 91.91% for REASON, 95.35% for APOLOGISER, 89.74% for APOLOGISEE, and 96.47% for INTENSIFIER. This suggests that it is feasible to use LLM-assisted annotation for local grammar analysis, together with human intervention on tags that are less accurately recognized by machine. We strongly advocate conducting future studies to evaluate the performance of LLMs in annotating other linguistic phenomena. These studies have the potential to offer valuable insights into the advancement of theories developed in corpus linguistics, as well into the linguistic capabilities of LLMs..
翻訳日:2023-05-26 20:00:07 公開日:2023-05-25
# アルゴリズム的多元主義 : 平等への構造的アプローチ

Algorithmic Pluralism: A Structural Approach Towards Equal Opportunity ( http://arxiv.org/abs/2305.08157v2 )

ライセンス: Link先を確認
Shomik Jain, Vinith Suriyakumar, Ashia Wilson(参考訳) 平等な機会という考え方は幅広いコンセンサスを享受する一方で、機会が平等であることの意味については多くの意見が一致しない。 アルゴリズム的公平性コミュニティは、機会が等しく割り当てられているかどうかを定量的に判断するための形式的なアプローチにしばしば依存している。 Joseph Fishkin氏によるより構造的なアプローチは、誰がどの機会を割り当てるかを決定する、より広範な決定のネットワークに焦点を当てている。 このいわゆる機会構造では、意思決定ポイントは、ある決定の出力が次の決定への入力となるように、しばしば連鎖されるボトルネックを表す。 これらのボトルネックの深刻さと正当性を評価することで、フィッシュキンは平等な機会が構造的に侵害されているかどうかを評価する質的な枠組みを提供する。 我々はこの構造的視点を採用し、アルゴリズムによる意思決定システムにおける平等な機会に関する多くの学際的な議論を再考する。 教育、医療、刑事司法の事例をもとに、重大ボトルネックを軽減し、機会へのアクセスを多元的に拡大するための規制およびデザインに基づく介入を優先することを推奨する。

While the idea of equal opportunity enjoys a broad consensus, many disagree about what it means for opportunities to be equal. The algorithmic fairness community often relies on formal approaches to quantitatively determine if opportunities are allocated equally. A more structural approach put forth by Joseph Fishkin focuses on the wider network of decisions that determine which opportunities are allocated to whom. In this so-called opportunity structure, decision points represent bottlenecks that are often chained together so that the output of one decision is an input to the next. By evaluating the severity and legitimacy of these bottlenecks, Fishkin offers a qualitative framework to assess whether equal opportunity is infringed upon in a structural way. We adopt this structural viewpoint and use it to reframe many interdisciplinary discussions about equal opportunity in systems of algorithmic decision-making. Drawing on examples from education, healthcare, and criminal justice, we recommend prioritizing regulatory and design-based interventions that alleviate severe bottlenecks in order to help expand access to opportunities in a pluralistic way.
翻訳日:2023-05-26 19:59:41 公開日:2023-05-25
# 飽和非単調活性化関数

Saturated Non-Monotonic Activation Functions ( http://arxiv.org/abs/2305.07537v2 )

ライセンス: Link先を確認
Junjia Chen and Zhibin Pan(参考訳) アクティベーション機能はディープラーニングネットワークに不可欠である。 一般的な多用途アクティベーション関数はほとんど単調関数であり、いくつかの非単調アクティベーション関数は探索され、有望な性能を示す。 しかし、非単調性を導入することで正の入力も変化し、これはReLUとその変種の成功によって不要であることが証明される。 本稿では,非単調活性化関数の展開を2倍にし,reluと非単調活性化関数の特性を組み合わせることにより,飽和ガウス誤差線形単位を提案する。 提案手法では,ゲル,シル,ミッシュの負の部分からなるsgelu,ssilu,smishの3つの新しい活性化関数とreluの陽性部分を提案する。 CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い効率で,最先端のベースラインよりも優れていた。

Activation functions are essential to deep learning networks. Popular and versatile activation functions are mostly monotonic functions, some non-monotonic activation functions are being explored and show promising performance. But by introducing non-monotonicity, they also alter the positive input, which is proved to be unnecessary by the success of ReLU and its variants. In this paper, we double down on the non-monotonic activation functions' development and propose the Saturated Gaussian Error Linear Units by combining the characteristics of ReLU and non-monotonic activation functions. We present three new activation functions built with our proposed method: SGELU, SSiLU, and SMish, which are composed of the negative portion of GELU, SiLU, and Mish, respectively, and ReLU's positive portion. The results of image classification experiments on CIFAR-100 indicate that our proposed activation functions are highly effective and outperform state-of-the-art baselines across multiple deep learning architectures.
翻訳日:2023-05-26 19:58:28 公開日:2023-05-25
# 量子力学の別の基礎

An alternative foundation of quantum mechanics ( http://arxiv.org/abs/2305.06727v2 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 本稿では,量子論への新たなアプローチを提案する。 基本は概念変数であり、アクセス可能あるいはアクセス不能な物理変数、すなわちアクターがそれらに数値値を割り当てることは可能か不可能かである。 認識論的プロセスでは、アクセス可能な変数は、アクターまたは一部の通信アクターと接続された理想的な観察である。 群作用はこれらの変数上で定義され、群表現論はヒルベルト空間形式論の発展の基礎となる。 アクセス可能な概念変数に対応する演算子が導出され、離散の場合、可能な物理値はそれらの演算子の固有値であると主張する。 このアプローチによって示唆される量子状態(あるいは固有ベクトル空間)の解釈は、自然に焦点を絞った質問であり、これらの質問に対する鋭い答えである。 質問はボーアが定義した意味で補完的かもしれない。 論文の焦点は、量子論の基礎として提案されたものである。 ここで、このアプローチで必要とされる群と変換は、アクセス可能な変数が有限次元である場合に明示的に構成できることを示す。 これは理論をかなり単純化する。 量子力学の解釈に関する議論は、基礎問題の徹底的な処理の後に行われるべきだと私は考えています。 ここで提案される解釈は、量子論の一般的なエピステミック解釈と呼ばれる。 これはQB主義に類似しており、ローヴェルリのリレーショナル量子力学の側面の具体的な実装と見なすことができ、他のいくつかの解釈と関係がある。 量子状態ベクトルは、ある物理的に有意な作用素の固有ベクトルであるベクトルに制限される可能性がある。 この結果が、いわゆる量子パラドックスのためにスケッチされる。

A new approach towards quantum theory is proposed in this paper. The basis is taken to be conceptual variables, physical variables that may be accessible or inaccessible, i.e., it may be possible or impossible for an actor to assign numerical values to them. In an epistemic process, the accessible variables are just ideal observations connected to an actor or to some communicating actors. Group actions are defined on these variables, and group representation theory is the basis for developing the Hilbert space formalism. Operators corresponding to accessible conceptual variables are derived, and in the discrete case it is argued that the possible physical values are the eigenvalues of these operators. The interpretation of quantum states (or eigenvector spaces) implied by this approach is as focused questions to nature together with sharp answers to those questions. The questions may be complementary in the sense defined by Bohr. The focus of the paper is the proposed foundation of quantum theory. It is shown here that the groups and transformation needed in this approach can be constructed explicitly in the case where the accessible variables are finite-dimensional. This simplifies the theory considerably. It is my view that the discussion on the interpretation of quantum mechanics should come after a thorough treatment of the foundation issue. The interpretation proposed here may be called a general epistemic interpretation of quantum theory. It is similar in some respects to QBism, can also be seen as a concrete implementation of aspects of Rovelli's Relational Quantum Mechanics, and has a relationship to several other interpretations. It is proposed that quantum state vectors may be limited to vectors that are eigenvectors of some physically meaningful operator. Consequences of this are sketched for some so-called quantum paradoxes.
翻訳日:2023-05-26 19:58:11 公開日:2023-05-25
# semeval-2023 タスク2:きめ細かな多言語名エンティティ認識(multiconer 2)

SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2) ( http://arxiv.org/abs/2305.06586v2 )

ライセンス: Link先を確認
Besnik Fetahu, Sudipta Kar, Zhiyu Chen, Oleg Rokhlenko, Shervin Malmasi(参考訳) 本稿では,SemEval-2023 Task 2の粒度多言語固有認識(MultiCoNER 2)について述べる。 13のトラックに分割されたこのタスクは、モノリンガルとマルチリンガルのシナリオとノイズの多い設定の両方において、12言語にわたる複雑な粒度のエンティティ(WRITTENWORK、VEHICLE、MUSICALGRPなど)を特定する方法に焦点を当てた。 このタスクは、バングラ、中国語、英語、ファージ、フランス語、ドイツ語、ヒンディー語、イタリア語の2200万件からなるMultiCoNER V2データセットを使用した。 ポルトガル語、スペイン語、スウェーデン語、ウクライナ語。 MultiCoNER 2はSemEval-2023で最も人気のあるタスクの1つである。 47チームから842名が参加し、34チームがシステム論文を提出した。 その結果,メディアタイトルや製品名などの複雑なエンティティタイプが最も難しかった。 トランスフォーマーモデルに外部知識を融合する手法は最高の性能を達成し、最大の成果は創造的作業とグループクラスであり、外部知識においてもなお挑戦的であった。 いくつかのきめ細かいクラスは、SCIENTIST、ARTWORK、PRIVATECORPなど、他のクラスよりも難しいことが判明した。 また,ノイズのあるデータはモデル性能に大きな影響を与え,ノイズの多い部分集合では平均10%の低下が見られた。 このタスクは、複雑なエンティティを含むノイズデータに対するnerのロバスト性を改善するための将来の研究の必要性を強調している。

We present the findings of SemEval-2023 Task 2 on Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2). Divided into 13 tracks, the task focused on methods to identify complex fine-grained named entities (like WRITTENWORK, VEHICLE, MUSICALGRP) across 12 languages, in both monolingual and multilingual scenarios, as well as noisy settings. The task used the MultiCoNER V2 dataset, composed of 2.2 million instances in Bangla, Chinese, English, Farsi, French, German, Hindi, Italian., Portuguese, Spanish, Swedish, and Ukrainian. MultiCoNER 2 was one of the most popular tasks of SemEval-2023. It attracted 842 submissions from 47 teams, and 34 teams submitted system papers. Results showed that complex entity types such as media titles and product names were the most challenging. Methods fusing external knowledge into transformer models achieved the best performance, and the largest gains were on the Creative Work and Group classes, which are still challenging even with external knowledge. Some fine-grained classes proved to be more challenging than others, such as SCIENTIST, ARTWORK, and PRIVATECORP. We also observed that noisy data has a significant impact on model performance, with an average drop of 10% on the noisy subset. The task highlights the need for future research on improving NER robustness on noisy data containing complex entities.
翻訳日:2023-05-26 19:57:48 公開日:2023-05-25
# 光プラズマ発光のベイズ最適化による組成制御による窒化薄膜の自律スパッタ合成

Autonomous sputter synthesis of thin film nitrides with composition controlled by Bayesian optimization of optical plasma emission ( http://arxiv.org/abs/2305.11122v2 )

ライセンス: Link先を確認
Davi M. Febba, Kevin R. Talley, Kendal Johnson, Stephen Schaefer, Sage R. Bauers, John S. Mangum, Rebecca W. Smaha, Andriy Zakutayev(参考訳) 自律実験は、材料発見のペースを加速するための効率的なアプローチとして登場した。 分子・高分子科学において自律合成の道具が普及し, ハイブリッド材料やナノ粒子の溶液処理が盛んに行われているが, 半導体産業においては, 物理的蒸気蒸着のための自律的ツールの例が少なからず重要である。 本稿では,Pythonでカスタム制御された高自動スパッタリングリアクター,光発光分光法(OES),ベイズ最適化アルゴリズムを応用した,制御組成の制御された薄膜スパッタ堆積用自律装置の設計と実装について報告する。 N$2$大気中におけるZnおよびTiターゲットの共スパッタ中に観測される発光線の線形関数として, 蛍光X線で測定した薄膜組成をモデル化した。 OESに通知されたベイズ制御アルゴリズムは、所望の放出信号と測定された放出信号の絶対誤差を最小化することにより、スパッタリングパワーの空間をユーザ定義の組成で製造する。 我々は, Zn$_x$Ti$_{1-x}$N$_y$薄膜を, 15nmの薄膜であっても相対3.5%の範囲内でターゲットカチオン組成から逸脱して自動で作製し, 提案手法が特定の組成で確実に薄膜を合成し, 人間の干渉を最小限に抑えることを示した。 さらに, プラズマ強度が非直線的に圧力に依存する, あるいは素子付着係数が基板温度に強く依存する, より難しい合成実験まで拡張することができる。

Autonomous experimentation has emerged as an efficient approach to accelerate the pace of materials discovery. Although instruments for autonomous synthesis have become popular in molecular and polymer science, solution processing of hybrid materials and nanoparticles, examples of autonomous tools for physical vapour deposition are scarce yet important for the semiconductor industry. Here, we report the design and implementation of an autonomous instrument for sputter deposition of thin films with controlled composition, leveraging a highly automated sputtering reactor custom-controlled by Python, optical emission spectroscopy (OES), and Bayesian optimization algorithm. We modeled film composition, measured by x-ray fluorescence, as a linear function of emission lines monitored during the co-sputtering from elemental Zn and Ti targets in N$_2$ atmosphere. A Bayesian control algorithm, informed by OES, navigates the space of sputtering power to fabricate films with user-defined composition, by minimizing the absolute error between desired and measured emission signals. We validated our approach by autonomously fabricating Zn$_x$Ti$_{1-x}$N$_y$ films with deviations from the targeted cation composition within relative 3.5 %, even for 15 nm thin films, demonstrating that the proposed approach can reliably synthesize thin films with specific composition and minimal human interference. Moreover, the proposed method can be extended to more difficult synthesis experiments where plasma intensity depends non-linearly on pressure, or the elemental sticking coefficients strongly depend on the substrate temperature.
翻訳日:2023-05-26 19:50:47 公開日:2023-05-25
# MonoTDP: 逆シーンにおける単眼3次元物体検出のための双発深度知覚

MonoTDP: Twin Depth Perception for Monocular 3D Object Detection in Adverse Scenes ( http://arxiv.org/abs/2305.10974v2 )

ライセンス: Link先を確認
Xingyuan Li and Jinyuan Liu and Yixin Lei and Long Ma and Xin Fan and Risheng Liu(参考訳) 3次元物体検出は、多数の知的視覚システムにおいて重要な役割を果たす。 開けた世界での検知は、濃霧、豪雨、低照度といった様々な有害な場面に必然的に遭遇する。 既存の取り組みは主にネットワークアーキテクチャやトレーニングスキームの多様化に重点を置いており、3Dオブジェクト検出の大幅な進歩をもたらしたが、これらの学習可能なモジュールのほとんどは、悪い場面で失敗し、検出性能を損なう。 この問題に対処するため, 各環境における検出性能の劣化を効果的に軽減するモノTDP(MonoTDP)と呼ばれる, 二重深度を知覚するモノクル3次元検出モデルを提案する。 具体的には, 種々の劣化要因による劣化に著しく抵抗し, 制御不能な気象条件の対処を支援する適応学習戦略を提案する。 そこで本研究では,シーンとオブジェクトの深さを同時に推定し,シーンレベルの特徴とオブジェクトレベルの特徴の統合を可能にする,新しいツイン深度知覚モジュールを提案する。 さらに, 降雨, 霧, 低照度条件など, 幅広い難易度場面を包含する新たな有害な3次元物体検出データセットを, 7,481画像を含む各場面で構築した。 実験結果から,提案手法は様々な環境における自動車カテゴリーのAP_R40を平均3.12%向上させることがわかった。

3D object detection plays a crucial role in numerous intelligent vision systems. Detection in the open world inevitably encounters various adverse scenes, such as dense fog, heavy rain, and low light conditions. Although existing efforts primarily focus on diversifying network architecture or training schemes, resulting in significant progress in 3D object detection, most of these learnable modules fail in adverse scenes, thereby hindering detection performance. To address this issue, this paper proposes a monocular 3D detection model designed to perceive twin depth in adverse scenes, termed MonoTDP, which effectively mitigates the degradation of detection performance in various harsh environments. Specifically, we first introduce an adaptive learning strategy to aid the model in handling uncontrollable weather conditions, significantly resisting degradation caused by various degrading factors. Then, to address the depth/content loss in adverse regions, we propose a novel twin depth perception module that simultaneously estimates scene and object depth, enabling the integration of scene-level features and object-level features. Additionally, we assemble a new adverse 3D object detection dataset encompassing a wide range of challenging scenes, including rainy, foggy, and low light weather conditions, with each type of scene containing 7,481 images. Experimental results demonstrate that our proposed method outperforms current state-of-the-art approaches by an average of 3.12% in terms of AP_R40 for car category across various adverse environments.
翻訳日:2023-05-26 19:50:15 公開日:2023-05-25
# シーケンスレコメンダシステムのトレーニング損失における項目関連性の統合

Integrating Item Relevance in Training Loss for Sequential Recommender Systems ( http://arxiv.org/abs/2305.10824v2 )

ライセンス: Link先を確認
Andrea Bacciu, Federico Siciliano, Nicola Tonellotto, Fabrizio Silvestri(参考訳) 逐次レコメンダシステム(sequential recommender systems, srss)は、ユーザの履歴から学び、対話する可能性のある次の項目を予測する、一般的なレコメンダシステムである。 しかし、ユーザインタラクションは、アカウント共有、一貫性のない好み、偶然クリックに起因するノイズに影響される可能性がある。 この問題に対処するために (i)複数の将来の項目を考慮した新しい評価プロトコルの提案と提案 (II)複数項目のSRSを訓練し,騒音に対する耐性を高めるための新しい関連認識損失関数を導入する。 我々の関連性認識モデルは従来の評価プロトコルでは1.2%、従来の評価プロトコルでは0.88%、新しい評価プロトコルでは1.63%、hr w.r.tでは1.5%の改善を得た。

Sequential Recommender Systems (SRSs) are a popular type of recommender system that learns from a user's history to predict the next item they are likely to interact with. However, user interactions can be affected by noise stemming from account sharing, inconsistent preferences, or accidental clicks. To address this issue, we (i) propose a new evaluation protocol that takes multiple future items into account and (ii) introduce a novel relevance-aware loss function to train a SRS with multiple future items to make it more robust to noise. Our relevance-aware models obtain an improvement of ~1.2% of NDCG@10 and 0.88% in the traditional evaluation protocol, while in the new evaluation protocol, the improvement is ~1.63% of NDCG@10 and ~1.5% of HR w.r.t the best performing models.
翻訳日:2023-05-26 19:49:51 公開日:2023-05-25
# 非自己回帰型エンドツーエンド音声認識システムによる信頼度推定

Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System ( http://arxiv.org/abs/2305.10680v2 )

ライセンス: Link先を確認
Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan(参考訳) 認識結果の信頼度を推定することは、ASR分野における古典的な課題であり、下流のタスクやトレーニング戦略にとって重要な課題である。 前回のエンドツーエンド~(e2e)ベースの信頼度推定モデル(cem)は、入力された書き起こしと等しい長さのスコアシーケンスを予測する。 本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するためのCIF-Aligned confidence Estimation Model (CA-CEM) を提案する。 CA-CEMは、CIF(Continuous Integration-and-fire)メカニズムのモデリング特性を利用してトークン同期音響埋め込みを生成し、上記の推定失敗問題を解く。 本稿では,トークンレベルにおけるAUCとRMSEによる推定精度と,発話レベルにおけるECE-Uの指標を提案する。 CA-CEMはECE-UとAUCとRMSEの2つのテストセットで24%と19%の相対的な減少率を得た。 さらに、我々は、異なるASR関連用途におけるCEMの可能性を探るために分析を行う。

Estimating confidence scores for recognition results is a classic task in ASR field and of vital importance for kinds of downstream tasks and training strategies. Previous end-to-end~(E2E) based confidence estimation models (CEM) predict score sequences of equal length with input transcriptions, leading to unreliable estimation when deletion and insertion errors occur. In this paper we proposed CIF-Aligned confidence estimation model (CA-CEM) to achieve accurate and reliable confidence estimation based on novel non-autoregressive E2E ASR model - Paraformer. CA-CEM utilizes the modeling character of continuous integrate-and-fire (CIF) mechanism to generate token-synchronous acoustic embedding, which solves the estimation failure issue above. We measure the quality of estimation with AUC and RMSE in token level and ECE-U - a proposed metrics in utterance level. CA-CEM gains 24% and 19% relative reduction on ECE-U and also better AUC and RMSE on two test sets. Furthermore, we conduct analysis to explore the potential of CEM for different ASR related usage.
翻訳日:2023-05-26 19:49:34 公開日:2023-05-25
# llmの隠れたリスク評価--ロバスト性、一貫性、信頼性に関する実証的研究

Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility ( http://arxiv.org/abs/2305.10235v3 )

ライセンス: Link先を確認
Wentao Ye, Mingfeng Ou, Tianyi Li, Yipeng chen, Xuetao Ma, Yifan Yanggong, Sai Wu, Jie Fu, Gang Chen, Haobo Wang, Junbo Zhao(参考訳) 近年の大規模言語モデル(LLM)の人気は、特にAPIやオープンソースモデル、プラグインといったオープンなエコシステムを通じて、バウンダリのないフィールドに大きな影響を与えている。 しかし、広く展開されているため、隠された潜在的なリスクを徹底的に議論し分析する研究の欠如がある。 その際, LLMシステムの堅牢性, 一貫性, 信頼性について, 先駆的かつ先駆的な研究を行う。 LLM時代における関連文献の大半を無チャートで扱うことで,大量のクエリ/レスポンスを扱う自動化ワークフローを提案する。 全体として、ChatGPT、LLaMA、OPTなど、主要なLLMに対して100万以上のクエリを実行する。 我々のワークフローの中核はデータプリミティブから成り、次に異なる対向距離システムの下でこれらのLCMを評価する自動インタプリタが続く。 その結果、このトレンドコミュニティからは、非常に稀な結論がいくつか、おそらく不運な結果をもたらしました。 略して、以下の通りである。 (i)-ユーザが生成したクエリ入力の小さなが避けられないエラーは、偶然にLCMが予期せず応答する可能性がある。 (ii)-LLMはセマンティックに類似したクエリ入力を処理する際に一貫性が低い。 さらに、副次的な発見として、ChatGPTは、入力が極端に汚染された場合でも、正しい回答を得られることを発見した。 この現象はLLMの強力な記憶を実証するが、学術的発展においてLLMが関与する評価にそのようなデータを使用することについて深刻な懸念を提起する。 そこで本研究では,LLM を用いた評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。 上記の主張を支持するために広範な実証研究が行われている。

The recent popularity of large language models (LLMs) has brought a significant impact to boundless fields, particularly through their open-ended ecosystem such as the APIs, open-sourced models, and plugins. However, with their widespread deployment, there is a general lack of research that thoroughly discusses and analyzes the potential risks concealed. In that case, we intend to conduct a preliminary but pioneering study covering the robustness, consistency, and credibility of LLMs systems. With most of the related literature in the era of LLM uncharted, we propose an automated workflow that copes with an upscaled number of queries/responses. Overall, we conduct over a million queries to the mainstream LLMs including ChatGPT, LLaMA, and OPT. Core to our workflow consists of a data primitive, followed by an automated interpreter that evaluates these LLMs under different adversarial metrical systems. As a result, we draw several, and perhaps unfortunate, conclusions that are quite uncommon from this trendy community. Briefly, they are: (i)-the minor but inevitable error occurrence in the user-generated query input may, by chance, cause the LLM to respond unexpectedly; (ii)-LLMs possess poor consistency when processing semantically similar query input. In addition, as a side finding, we find that ChatGPT is still capable to yield the correct answer even when the input is polluted at an extreme level. While this phenomenon demonstrates the powerful memorization of the LLMs, it raises serious concerns about using such data for LLM-involved evaluation in academic development. To deal with it, we propose a novel index associated with a dataset that roughly decides the feasibility of using such data for LLM-involved evaluation. Extensive empirical studies are tagged to support the aforementioned claims.
翻訳日:2023-05-26 19:48:52 公開日:2023-05-25
# margolus-levitin量子速度限界に対する$\boldsymbol{\alpha_{>}(\epsilon) = \alpha_{<}(\epsilon)}$

$\boldsymbol{\alpha_{>}(\epsilon) = \alpha_{<}(\epsilon)}$ For The Margolus-Levitin Quantum Speed Limit Bound ( http://arxiv.org/abs/2305.10101v2 )

ライセンス: Link先を確認
H. F. Chau(参考訳) Margolus-Levitin (ML) バウンダリは、ある量子状態から別の量子状態へ進化するのに必要な時間は少なくとも$\pi \alpha(\epsilon) / (2 \langle E-E_0 \rangle)$であり、$\langle E-E_0 \rangle$はハミルトニアン基底状態に対する系の期待エネルギーであり、$\alpha(\epsilon)$は2つの状態の間の忠実度$\epsilon$の関数であると述べている。 それでも、上界の $\alpha_{>}(\epsilon)$ と下界の $\alpha_{<}(\epsilon)$ のみが最近まで知られているが、それらは少なくとも7つの重要な数字に一致する。 近年、H\"{o}rndeal と S\"{o}nnerborn は $\alpha(\epsilon)$ の分析式を証明し、進化時間がML境界を飽和させる状態を示し、この境界をシンプレクティック幾何学的解釈を与えた。 ここでは、ML境界の基本的な証明を示す。 明示的にML境界を飽和させるすべての状態を見つけることで、$\alpha_{>}(\epsilon)$が実際に$\alpha_{<}(\epsilon)$と等しいことを示す。 また、$\alpha_{>}(\epsilon)$計算における数値安定性の問題も指摘し、効率的に正確に評価するための簡単な方法を報告します。

The Margolus-Levitin (ML) bound says that for any time-independent Hamiltonian, the time needed to evolve from one quantum state to another is at least $\pi \alpha(\epsilon) / (2 \langle E-E_0 \rangle)$, where $\langle E-E_0 \rangle$ is the expected energy of the system relative to the ground state of the Hamiltonian and $\alpha(\epsilon)$ is a function of the fidelity $\epsilon$ between the two state. Nonetheless, only a upper bound $\alpha_{>}(\epsilon)$ and lower bound $\alpha_{<}(\epsilon)$ are known until recently although they agree up to at least seven significant figures. Lately, H\"{o}rndeal and S\"{o}nnerborn proved an analytical expression for $\alpha(\epsilon)$, presented some states whose evolution times saturate the ML bound, and gave this bound a symplectic-geometric interpretation. Here I present an elementary proof of the ML bound. By explicitly finding all the states that saturate the ML bound, I show that $\alpha_{>}(\epsilon)$ is indeed equal to $\alpha_{<}(\epsilon)$. I also point out a numerical stability issue in computing $\alpha_{>}(\epsilon)$ and report a simple way to evaluate it efficiently and accurately.
翻訳日:2023-05-26 19:48:25 公開日:2023-05-25
# 視覚トランスフォーマーとそのcnnトランスフォーマーに基づく変種に関する調査

A survey of the Vision Transformers and its CNN-Transformer based Variants ( http://arxiv.org/abs/2305.09880v2 )

ライセンス: Link先を確認
Asifullah Khan, Zunaira Rauf, Anabia Sohail, Abdul Rehman, Hifsa Asif, Aqsa Asif, and Umair Farooq(参考訳) 視覚トランスフォーマーは最近、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(cnns)の代替として人気を博した。 これらのビジョントランスフォーマーは、画像内のグローバルな関係に焦点を合わせる能力が大きいが、CNNと比較して一般化が不十分になる可能性がある。 近年,視覚変換器における畳み込みと自己認識機構のハイブリッド化が注目されている。 これらのcnn-transformerアーキテクチャはハイブリッドビジョントランスフォーマーとしても知られ、視覚応用において顕著な結果を示している。 近年、これらのハイブリッド視覚トランスフォーマーが急速に増えているため、これらのアーキテクチャの分類と説明が必要である。 本調査では,近年のビジョントランスフォーマーアーキテクチャの分類,特にハイブリッドビジョントランスフォーマーの分類について述べる。 さらに,注意機構,位置埋め込み,マルチスケール処理,畳み込みといった各アーキテクチャの重要な特徴についても述べる。 この調査は、様々なコンピュータビジョンタスクにおいて優れた性能を達成するためのハイブリッドビジョントランスフォーマーの可能性を強調している。 さらに、この急速に発展する分野の今後の方向性も指している。

Vision transformers have recently become popular as a possible alternative to convolutional neural networks (CNNs) for a variety of computer vision applications. These vision transformers due to their ability to focus on global relationships in images have large capacity, but may result in poor generalization as compared to CNNs. Very recently, the hybridization of convolution and self-attention mechanisms in vision transformers is gaining popularity due to their ability of exploiting both local and global image representations. These CNN-Transformer architectures also known as hybrid vision transformers have shown remarkable results for vision applications. Recently, due to the rapidly growing number of these hybrid vision transformers, there is a need for a taxonomy and explanation of these architectures. This survey presents a taxonomy of the recent vision transformer architectures, and more specifically that of the hybrid vision transformers. Additionally, the key features of each architecture such as the attention mechanisms, positional embeddings, multi-scale processing, and convolution are also discussed. This survey highlights the potential of hybrid vision transformers to achieve outstanding performance on a variety of computer vision tasks. Moreover, it also points towards the future directions of this rapidly evolving field.
翻訳日:2023-05-26 19:47:44 公開日:2023-05-25
# aaai 2022 fall symposium: system-1とsystem-2が共通認知モデルで実現

AAAI 2022 Fall Symposium: System-1 and System-2 realized within the Common Model of Cognition ( http://arxiv.org/abs/2305.09091v2 )

ライセンス: Link先を確認
Brendan Conway-Smith and Robert L. West(参考訳) System-1とSystem-2の二重システム記述をAIにインポートしようとする試みは、その区別の明確さの欠如によって妨げられている。 我々は、システム1とシステム2を共通認知モデル内で配置することで、これや他の問題に対処する。 その結果、system-1と2の特徴的な特徴と考えられるものは、代わりに認知特性のスペクトルを形成することが示された。 Common Modelは、System-1とSystem-2に関わる計算ユニット、その基盤となるメカニズム、学習、メタ認知、感情などに関する包括的なビジョンを提供する。

Attempts to import dual-system descriptions of System-1 and System-2 into AI have been hindered by a lack of clarity over their distinction. We address this and other issues by situating System-1 and System-2 within the Common Model of Cognition. Results show that what are thought to be distinctive characteristics of System-1 and 2 instead form a spectrum of cognitive properties. The Common Model provides a comprehensive vision of the computational units involved in System-1 and System-2, their underlying mechanisms, and the implications for learning, metacognition, and emotion.
翻訳日:2023-05-26 19:47:27 公開日:2023-05-25
# sustain.AI:サステナビリティレポートを分析するレコメンダシステム

sustain.AI: a Recommender System to analyze Sustainability Reports ( http://arxiv.org/abs/2305.08711v2 )

ライセンス: Link先を確認
Lars Hillebrand, Maren Pielka, David Leonhard, Tobias Deu{\ss}er, Tim Dilmaghani, Bernd Kliem, R\"udiger Loitz, Milad Morad, Christian Temath, Thiago Bell, Robin Stenzel, Rafet Sifa(参考訳) 我々は、監査人や金融投資家を支援するインテリジェントでコンテキスト対応のレコメンデーションシステムである$\text{sustain.AI}$と、企業のサステナビリティレポートを効率的に分析する一般大衆を紹介する。 このツールは、BERTベースのエンコーディングモジュールとマルチラベル分類ヘッドを結合したエンドツーエンドのトレーニング可能なアーキテクチャを活用し、持続可能性レポートからGRI(Global Reporting Initiative)標準のそれぞれの法則への関連するテキストパスを一致させる。 我々は,ドイツの新しいサステナビリティレポートデータセットを2つ評価し,複数のベースラインと比較して高い推薦性能を実現した。 さらに$\text{sustain.ai}$はhttps://sustain.ki.nrw/で誰でも利用できる。

We present $\text{sustain.AI}$, an intelligent, context-aware recommender system that assists auditors and financial investors as well as the general public to efficiently analyze companies' sustainability reports. The tool leverages an end-to-end trainable architecture that couples a BERT-based encoding module with a multi-label classification head to match relevant text passages from sustainability reports to their respective law regulations from the Global Reporting Initiative (GRI) standards. We evaluate our model on two novel German sustainability reporting data sets and consistently achieve a significantly higher recommendation performance compared to multiple strong baselines. Furthermore, $\text{sustain.AI}$ is publicly available for everyone at https://sustain.ki.nrw/.
翻訳日:2023-05-26 19:47:15 公開日:2023-05-25
# ソフトウェア開発者とChatGPTを比較する - 実証調査

Comparing Software Developers with ChatGPT: An Empirical Investigation ( http://arxiv.org/abs/2305.11837v2 )

ライセンス: Link先を確認
Nathalia Nascimento and Paulo Alencar and Donald Cowan(参考訳) 特にソフトウェアエンジニアリング(SE)タスクにおける自動化の出現は、理論から現実へと移行した。 多くの学術論文が、プロジェクト管理、モデリング、テスト、開発といった分野における問題に対処するために人工知能が成功したことを文書化している。 最近のイノベーションは、プログラミングコードの生成と、開発者とテスタのためのソフトウェアテスト戦略の策定に熟練したリソースとして、mlを組み込んだチャットボットであるchatgptの導入である。 AIベースの計算によって生産性が向上し、ソフトウェア開発でソフトウェアエンジニアの代わりになるのではないかという憶測もあるが、この検証には実証的な証拠が不足している。 さらに、AIシステムの精度向上に重点を置いているにもかかわらず、エネルギー効率、脆弱性、公平性(すなわち人間の偏見)、安全性といった非機能要件は、しばしば不十分な注意を払っている。 本稿では、さまざまな評価基準を考慮して、ソフトウェア技術者とAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションの促進、AIベースの手法の信頼性の向上、人間やAIのタスク適合性理解において重要であることを示唆する。 さらに、協調作業構造と人為的プロセスの効果的な実装を容易にする。 本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。 実証研究には、開発者が生成しLeetcodeにアップロードしたコードに対してChatGPT生成コードを評価するケースが含まれている。

The advent of automation in particular Software Engineering (SE) tasks has transitioned from theory to reality. Numerous scholarly articles have documented the successful application of Artificial Intelligence to address issues in areas such as project management, modeling, testing, and development. A recent innovation is the introduction of ChatGPT, an ML-infused chatbot, touted as a resource proficient in generating programming codes and formulating software testing strategies for developers and testers respectively. Although there is speculation that AI-based computation can increase productivity and even substitute software engineers in software development, there is currently a lack of empirical evidence to verify this. Moreover, despite the primary focus on enhancing the accuracy of AI systems, non-functional requirements including energy efficiency, vulnerability, fairness (i.e., human bias), and safety frequently receive insufficient attention. This paper posits that a comprehensive comparison of software engineers and AI-based solutions, considering various evaluation criteria, is pivotal in fostering human-machine collaboration, enhancing the reliability of AI-based methods, and understanding task suitability for humans or AI. Furthermore, it facilitates the effective implementation of cooperative work structures and human-in-the-loop processes. This paper conducts an empirical investigation, contrasting the performance of software engineers and AI systems, like ChatGPT, across different evaluation metrics. The empirical study includes a case of assessing ChatGPT-generated code versus code produced by developers and uploaded in Leetcode.
翻訳日:2023-05-26 19:42:07 公開日:2023-05-25
# 全体的3次元シーン理解による視覚空間記述の生成

Generating Visual Spatial Description via Holistic 3D Scene Understanding ( http://arxiv.org/abs/2305.11768v2 )

ライセンス: Link先を確認
Yu Zhao, Hao Fei, Wei Ji, Jianguo Wei, Meishan Zhang, Min Zhang, Tat-Seng Chua(参考訳) 視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。 既存のVSDの作業は、単に2次元幾何学的視覚特徴をモデル化するだけで、ターゲット対象の空間的理解の問題に必然的に餌食となる。 本研究では,VSDのための3Dシーン機能の導入について検討する。 外部3dシーン抽出装置を用いて,対象オブジェクト中心の3d空間シーングラフ(go3d-s2g)を構築し,対象オブジェクトの空間意味を全体的3dシーン内でモデル化する。 また,go3d-s2gからトポロジカルな部分グラフをサンプリングし,様々な局所構造特徴をナビゲートし,空間的に変化するテキストを生成するシーン部分グラフ選択機構を提案する。 2つのvsdデータセットの実験的結果は、我々のフレームワークがベースラインを大きく上回り、特に複雑な視覚空間関係の場合に改善していることを示している。 一方,本手法は,より空間的に変化する世代を生成できる。 コードはhttps://github.com/zhaoyucs/vsdで入手できる。

Visual spatial description (VSD) aims to generate texts that describe the spatial relations of the given objects within images. Existing VSD work merely models the 2D geometrical vision features, thus inevitably falling prey to the problem of skewed spatial understanding of target objects. In this work, we investigate the incorporation of 3D scene features for VSD. With an external 3D scene extractor, we obtain the 3D objects and scene features for input images, based on which we construct a target object-centered 3D spatial scene graph (Go3D-S2G), such that we model the spatial semantics of target objects within the holistic 3D scenes. Besides, we propose a scene subgraph selecting mechanism, sampling topologically-diverse subgraphs from Go3D-S2G, where the diverse local structure features are navigated to yield spatially-diversified text generation. Experimental results on two VSD datasets demonstrate that our framework outperforms the baselines significantly, especially improving on the cases with complex visual spatial relations. Meanwhile, our method can produce more spatially-diversified generation. Code is available at https://github.com/zhaoyucs/VSD.
翻訳日:2023-05-26 19:41:42 公開日:2023-05-25
# 爆発中の情報スクリーニング! 特徴Denoisingとマルチモーダルトピックモデリングによるマルチモーダル関係抽出

Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling ( http://arxiv.org/abs/2305.11719v2 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Yixin Cao, Lidong Bing, Tat-Seng Chua(参考訳) 既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。 そこで本研究では,内部情報スクリーニングと外部情報活用を同時に実現する新しい枠組みを提案する。 まず、入力画像とテキストの微細な意味構造を視覚的およびテキスト的シーングラフで表現し、さらに統合されたクロスモーダルグラフ(CMG)に融合する。 cmgに基づき,グラフ情報ボトルネックの原理を導いて構造改善を行い,非表現的特徴を積極的に記述する。 次に、入力画像とテキスト上でトピックモデリングを行い、潜在マルチモーダルトピック機能を組み込んでコンテキストを豊かにする。 ベンチマークMREデータセットでは、我々のシステムは現在の最高のモデルよりも大幅に優れています。 さらに詳細な分析により,本手法のMREタスクに対する大きな可能性を明らかにする。 私たちのコードはhttps://github.com/ChocoWu/MRE-ISE.comで公開されています。

Existing research on multimodal relation extraction (MRE) faces two co-existing challenges, internal-information over-utilization and external-information under-exploitation. To combat that, we propose a novel framework that simultaneously implements the idea of internal-information screening and external-information exploiting. First, we represent the fine-grained semantic structures of the input image and text with the visual and textual scene graphs, which are further fused into a unified cross-modal graph (CMG). Based on CMG, we perform structure refinement with the guidance of the graph information bottleneck principle, actively denoising the less-informative features. Next, we perform topic modeling over the input image and text, incorporating latent multimodal topic features to enrich the contexts. On the benchmark MRE dataset, our system outperforms the current best model significantly. With further in-depth analyses, we reveal the great potential of our method for the MRE task. Our codes are open at https://github.com/ChocoWu/MRE-ISE.
翻訳日:2023-05-26 19:41:22 公開日:2023-05-25
# StereoVAE:組み込みGPUによる軽量ステレオマッチングシステム

StereoVAE: A lightweight stereo matching system through embedded GPUs ( http://arxiv.org/abs/2305.11566v2 )

ライセンス: Link先を確認
Qiong Chang, Xiang Li, Xin Xu, Xin Liu, Yun Li and Miyazaki Jun(参考訳) 組込みGPUによるステレオマッチングのための軽量システムを提案する。 ステレオマッチングにおける精度と処理速度のトレードオフを解消し、リアルタイム処理を確保しつつ、組み込みシステムによるマッチング精度の向上を可能にします。 提案手法の主な考え方は,従来のマッチング手法によって最初に生成される粗い不均一マップの小型化と改善のために,可変オートエンコーダ(VAE)に基づく小さなニューラルネットワークを構築することである。 提案したハイブリッド構造は、計算複雑性の観点から従来の手法の利点をもたらすだけでなく、ニューラルネットワークの影響下でのマッチング精度を確保することもできる。 KITTI 2015ベンチマークの大規模な実験により、我々の小さなシステムは、異なるアルゴリズムによって生成された粗い不均一マップの精度を向上し、組込みGPU上でリアルタイムに動作していることを示す。

We present a lightweight system for stereo matching through embedded GPUs. It breaks the trade-off between accuracy and processing speed in stereo matching, enabling our embedded system to further improve the matching accuracy while ensuring real-time processing. The main idea of our method is to construct a tiny neural network based on variational auto-encoder (VAE) to upsample and refinement a small size of coarse disparity map, which is first generated by a traditional matching method. The proposed hybrid structure cannot only bring the advantage of traditional methods in terms of computational complexity, but also ensure the matching accuracy under the impact of neural network. Extensive experiments on the KITTI 2015 benchmark demonstrate that our tiny system exhibits high robustness in improving the accuracy of the coarse disparity maps generated by different algorithms, while also running in real-time on embedded GPUs.
翻訳日:2023-05-26 19:41:04 公開日:2023-05-25
# 制御可能な画像合成のための遅延制約拡散誘導

Late-Constraint Diffusion Guidance for Controllable Image Synthesis ( http://arxiv.org/abs/2305.11520v2 )

ライセンス: Link先を確認
Chang Liu, Dong Liu(参考訳) 拡散モデルは、テキスト条件の有無にかかわらず、数語または全くの単語を与えられたフォトリアリスティック画像の合成能力を示す。 通常のユーザーやアーティストは、全体的なレイアウト、色、構造、オブジェクトの形状など、特定のガイダンスで合成画像を制御するつもりなので、これらのモデルはユーザーのニーズを十分に満たさないかもしれない。 制御可能な画像合成に拡散モデルを適用するために,拡散復調ネットワークの中間特性を正則化するためのいくつかの手法が提案されている。 本稿では, 早期制約法として知られ, 単一解法で複数の条件を扱うのに困難がある。 彼らは、多くのトレーニングコストと一般化不可能なソリューションを必要とする、特定の条件ごとに別々のモデルをトレーニングすることを意図している。 これらの問題に対処するために,我々は拡散ネットワークをそのまま残しながら,その出力が要求条件に合致するように制約するという,遅延制約という新しいアプローチを提案する。 具体的には,外部条件と拡散モデルの内部表現との相関性を確立するために,軽量条件アダプタを訓練する。 反復分別処理の間、条件付きガイダンスを対応する条件アダプタに送信してサンプリングプロセスを確立された相関で操作する。 さらに,提案手法に準拠した合成画像の品質向上を図るため,時間ステップリサンプリング法と早期停止法を用いて,導入した遅延制約戦略を導入する。 提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。

Diffusion models, either with or without text condition, have demonstrated impressive capability in synthesizing photorealistic images given a few or even no words. These models may not fully satisfy user need, as normal users or artists intend to control the synthesized images with specific guidance, like overall layout, color, structure, object shape, and so on. To adapt diffusion models for controllable image synthesis, several methods have been proposed to incorporate the required conditions as regularization upon the intermediate features of the diffusion denoising network. These methods, known as early-constraint ones in this paper, have difficulties in handling multiple conditions with a single solution. They intend to train separate models for each specific condition, which require much training cost and result in non-generalizable solutions. To address these difficulties, we propose a new approach namely late-constraint: we leave the diffusion networks unchanged, but constrain its output to be aligned with the required conditions. Specifically, we train a lightweight condition adapter to establish the correlation between external conditions and internal representations of diffusion models. During the iterative denoising process, the conditional guidance is sent into corresponding condition adapter to manipulate the sampling process with the established correlation. We further equip the introduced late-constraint strategy with a timestep resampling method and an early stopping technique, which boost the quality of synthesized image meanwhile complying with the guidance. Our method outperforms the existing early-constraint methods and generalizes better to unseen condition.
翻訳日:2023-05-26 19:40:40 公開日:2023-05-25
# 自己監督型チューニングによるゼロショットテキスト分類

Zero-Shot Text Classification via Self-Supervised Tuning ( http://arxiv.org/abs/2305.11442v2 )

ライセンス: Link先を確認
Chaoqun Liu, Wenxuan Zhang, Guizhen Chen, Xiaobao Wu, Anh Tuan Luu, Chip Hong Chang, Lidong Bing(参考訳) 既存のゼロショットテキスト分類のソリューションは、テンプレートの選択に敏感な事前訓練された言語モデルでプロンプトを行うか、あるいはメタチューニングに関連するタスクの大規模アノテートデータに依存する。 本研究では,自己教師付きチューニングと呼ばれるラベルなしデータを用いて言語モデルをチューニングすることにより,ゼロショットテキスト分類タスクを解決するための,自己教師付き学習に基づく新しいパラダイムを提案する。 自由テキストの本質的な構造を探索することにより,未ラベルデータとテキスト分類タスクのギャップを埋める第1文予測という新たな学習目標を提案する。 モデルをチューニングして、残りに基づいて段落で最初の文を予測するように学習した後、モデルはトピック分類や感情分析のような目に見えないタスクに対してゼロショット推論を行うことができる。 実験の結果,本モデルは10タスク中7タスクで最先端のベースラインを上回った。 さらに,分析結果から,モデルがプロンプト設計に対する感度が低いことが判明した。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/DAMO-NLP-SG/SSTuningで公開されています。

Existing solutions to zero-shot text classification either conduct prompting with pre-trained language models, which is sensitive to the choices of templates, or rely on large-scale annotated data of relevant tasks for meta-tuning. In this work, we propose a new paradigm based on self-supervised learning to solve zero-shot text classification tasks by tuning the language models with unlabeled data, called self-supervised tuning. By exploring the inherent structure of free texts, we propose a new learning objective called first sentence prediction to bridge the gap between unlabeled data and text classification tasks. After tuning the model to learn to predict the first sentence in a paragraph based on the rest, the model is able to conduct zero-shot inference on unseen tasks such as topic classification and sentiment analysis. Experimental results show that our model outperforms the state-of-the-art baselines on 7 out of 10 tasks. Moreover, the analysis reveals that our model is less sensitive to the prompt design. Our code and pre-trained models are publicly available at https://github.com/DAMO-NLP-SG/SSTuning .
翻訳日:2023-05-26 19:40:15 公開日:2023-05-25
# Chain-of-Thought Prompting による無作為感の推論

Reasoning Implicit Sentiment with Chain-of-Thought Prompting ( http://arxiv.org/abs/2305.11255v2 )

ライセンス: Link先を確認
Hao Fei, Bobo Li, Qian Liu, Lidong Bing, Fei Li, Tat-Seng Chua(参考訳) 感情分析システムは、入力テキストにおける主要な意見表現に基づいて、与えられた目標の感情極性を決定する一方で、暗黙的な感情分析(ISA)では、意見の手がかりは暗黙的で曖昧な方法で現れる。 したがって、暗黙の感情を検出するには、意見の潜在意図を推測する常識とマルチホップ推論能力が必要である。 最近のチェーン・オブ・思想(CoT)のアイデアにインスパイアされた本研究では、ISAの人間的な推論プロセスを模倣するThree-hop Reasoning(THOR) CoTフレームワークを紹介します。 我々は、THORが暗黙の側面、意見、そして最後に感情の極性を段階的に誘導する3段階の原理を設計する。 我々のTHOR+Flan-T5 (11B)は、監督設定で最先端(SoTA)を6%以上押し上げます。 さらに驚くべきことに、THOR+GPT3 (175B)はゼロショット設定でSoTAを50%以上押し上げる。 私たちのコードはhttps://github.com/scofield7419/THOR-ISAにあります。

While sentiment analysis systems try to determine the sentiment polarities of given targets based on the key opinion expressions in input texts, in implicit sentiment analysis (ISA) the opinion cues come in an implicit and obscure manner. Thus detecting implicit sentiment requires the common-sense and multi-hop reasoning ability to infer the latent intent of opinion. Inspired by the recent chain-of-thought (CoT) idea, in this work we introduce a Three-hop Reasoning (THOR) CoT framework to mimic the human-like reasoning process for ISA. We design a three-step prompting principle for THOR to step-by-step induce the implicit aspect, opinion, and finally the sentiment polarity. Our THOR+Flan-T5 (11B) pushes the state-of-the-art (SoTA) by over 6% F1 on supervised setup. More strikingly, THOR+GPT3 (175B) boosts the SoTA by over 50% F1 on zero-shot setting. Our code is at https://github.com/scofield7419/THOR-ISA.
翻訳日:2023-05-26 19:39:33 公開日:2023-05-25
# VisionLLM: 大規模言語モデルはビジョン中心タスクのためのオープンエンディングデコーダでもある

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks ( http://arxiv.org/abs/2305.11175v2 )

ライセンス: Link先を確認
Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai(参考訳) 大規模言語モデル(LLM)は、人工知能(AGI)への進歩を顕著に加速しており、ユーザに適したタスクに対して印象的なゼロショット能力を備えており、幅広いアプリケーションに対して大きな可能性を秘めている。 しかしながら、コンピュータビジョンの分野では、多数の強力なビジョン基盤モデル(VFM)が利用可能であるにもかかわらず、それらはまだ事前に定義された形式のタスクに限定されており、LLMのオープンなタスク能力に匹敵しない。 本稿では,視覚中心タスクのための llm ベースのフレームワークである visionllm を提案する。 このフレームワークは、画像を外国語として扱い、視覚中心のタスクを柔軟に定義し、言語命令を使って管理できる言語タスクと整合させることにより、視覚と言語タスクの統一的な視点を提供する。 LLMベースのデコーダは、オープンなタスクに対してこれらの命令に基づいて適切な予測を行うことができる。 広範な実験により、提案する visionllm は、細粒度オブジェクトレベルから粗粒度タスクレベルのカスタマイズまで、言語命令を通じて異なるレベルのタスクカスタマイズを達成できることを示した。 注目すべきなのは、一般のLLMベースのフレームワークによって、私たちのモデルは、検出固有のモデルと同等に、COCO上で60倍のmAPを達成することができることです。 このモデルがジェネラリストビジョンと言語モデルの新たなベースラインを設定できることを願っています。 デモはhttps://github.com/OpenGVLab/InternGPTに基づいてリリースされる。 コードはhttps://github.com/OpenGVLab/VisionLLMで公開される。

Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.
翻訳日:2023-05-26 19:39:13 公開日:2023-05-25
# UniControl:野生で制御可能な視覚生成のための統一拡散モデル

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild ( http://arxiv.org/abs/2305.11147v2 )

ライセンス: Link先を確認
Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu(参考訳) 機械の自律性と人間の制御を達成することは、対話型AIシステムの設計において、しばしば異なる目的を表す。 安定拡散のような視覚的生成基盤モデルは、特に任意の言語で刺激された場合、これらの目標をナビゲートすることを約束している。 しかし、しばしば空間的、構造的、幾何学的な制御による画像の生成に不足する。 このようなコントロールの統合は、単一の統一モデルにおいて様々な視覚条件に対応できるが、未対応の課題である。 そこで我々は,単一フレームワーク内で多岐にわたる制御可能な条件と画像(c2i)タスクを統合するとともに,任意の言語プロンプトを許容する,新しい生成基盤モデルであるunicontrolを導入する。 unicontrolはピクセルレベルのpreciseイメージ生成を可能にする。視覚条件は主に生成された構造に影響を与え、言語はスタイルとコンテキストをガイドする。 多様な視覚条件に対応する能力をユニコントロールするために、事前学習されたテキストから画像への拡散モデルを強化し、拡散モデルを変調するタスクアウェアハイパーネットを導入し、異なるc2iタスクに同時に適応できるようにする。 9つのユニークなC2Iタスクで訓練されたUniControlは、目に見えない視覚条件で、印象的なゼロショット生成能力を示す。 実験の結果,ユニコントロールは,モデルサイズに匹敵するシングルタスク制御手法の性能をしばしば上回っていることがわかった。 この制御の汎用性は、UniControlを制御可能な視覚生成の領域における重要な進歩と位置づけている。

Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.
翻訳日:2023-05-26 19:38:46 公開日:2023-05-25
# 知識設計:知識リファインメントによるタンパク質欠損の限界を推し進める

Knowledge-Design: Pushing the Limit of Protein Deign via Knowledge Refinement ( http://arxiv.org/abs/2305.15151v2 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Stan Z. Li(参考訳) 近年の研究では、アミノ酸配列を所望の構造に折りたたむことを目的としたタンパク質設計における競合性が示されている。 しかし、その多くは予測信頼の重要性を無視し、広大なタンパク質空間をカバーできず、共通のタンパク質知識を取り入れていない。 タンパク質関連タスクにおける事前学習モデルの成功と、リカバリが信頼と非常に相関しているという事実を目撃した後、この知識がタンパク質設計の限界をさらに推し進めるかどうか疑問である。 そこで,我々は,低品質残基を洗練する知識認識モジュールを提案する。 また、トレーニング時間の50%以上を節約するメモリ検索機構も導入しました。 提案手法をCATH, TS50, TS500データセット上で広範囲に評価した結果, 知識設計法は従来のPiFold手法よりも約9倍高い性能を示した。 具体的には、知識設計はCATH、TS50、TS500ベンチマークで60%以上のリカバリを達成する最初の方法である。 また,提案手法の有効性を示すための追加分析を行った。 コードは公開される予定だ。

Recent studies have shown competitive performance in protein design that aims to find the amino acid sequence folding into the desired structure. However, most of them disregard the importance of predictive confidence, fail to cover the vast protein space, and do not incorporate common protein knowledge. After witnessing the great success of pretrained models on diverse protein-related tasks and the fact that recovery is highly correlated with confidence, we wonder whether this knowledge can push the limits of protein design further. As a solution, we propose a knowledge-aware module that refines low-quality residues. We also introduce a memory-retrieval mechanism to save more than 50\% of the training time. We extensively evaluate our proposed method on the CATH, TS50, and TS500 datasets and our results show that our Knowledge-Design method outperforms the previous PiFold method by approximately 9\% on the CATH dataset. Specifically, Knowledge-Design is the first method that achieves 60+\% recovery on CATH, TS50 and TS500 benchmarks. We also provide additional analysis to demonstrate the effectiveness of our proposed method. The code will be publicly available.
翻訳日:2023-05-26 19:31:20 公開日:2023-05-25
# cross2stra: クロスリンガルクロスモーダル構造を用いた非ペア型クロスリンガル画像キャプション

Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual Cross-modal Structure-pivoted Alignment ( http://arxiv.org/abs/2305.12260v2 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Wei Ji, Tat-Seng Chua(参考訳) unpaired cross-lingual image キャプションは、意味的シーンの不一致と、転送中の構文属性のため、長い間無関係で不流動な問題に苦しんできた。 本研究では,シーングラフ (SG) 構造と構文構成 (SC) 木を組み込むことにより,上記の問題に対処することを提案する。 我々のキャプタは、意味構造誘導画像-ピボットキャプションと、構文構造誘導ピボット変換を含み、そのうち2つはピボット言語を介して結合される。 次に、SGとSCの構造をピボットとし、モーダルな意味構造アライメントと言語間構文構造アライメント学習を行う。 さらに,キャプションと翻訳の段階を完全に整えるために,言語横断型・言語横断型バックトランスレーショントレーニングも導入する。 英語と中国語のトランスファー実験では,字幕の関連性やフラッテンシーの向上に優れた効果が示された。

Unpaired cross-lingual image captioning has long suffered from irrelevancy and disfluency issues, due to the inconsistencies of the semantic scene and syntax attributes during transfer. In this work, we propose to address the above problems by incorporating the scene graph (SG) structures and the syntactic constituency (SC) trees. Our captioner contains the semantic structure-guided image-to-pivot captioning and the syntactic structure-guided pivot-to-target translation, two of which are joined via pivot language. We then take the SG and SC structures as pivoting, performing cross-modal semantic structure alignment and cross-lingual syntactic structure alignment learning. We further introduce cross-lingual&cross-modal back-translation training to fully align the captioning and translation stages. Experiments on English-Chinese transfers show that our model shows great superiority in improving captioning relevancy and fluency.
翻訳日:2023-05-26 19:29:48 公開日:2023-05-25
# 非曖昧な言語間関係抽出のためのコード混合ユニバーサル依存林の構築

Constructing Code-mixed Universal Dependency Forest for Unbiased Cross-lingual Relation Extraction ( http://arxiv.org/abs/2305.12258v2 )

ライセンス: Link先を確認
Hao Fei, Meishan Zhang, Min Zhang, Tat-Seng Chua(参考訳) 言語間関係抽出(xre)に関する最近の取り組みは、言語間の必然的な言語差のために偏りのある伝達(例えば、ターゲットバイアスまたはソースバイアス)に苦しむ一方で、普遍依存(ud)リソースから言語に一貫性のある構造的特徴を積極的に活用している。 本研究では,コード混合型UDフォレストの構築により,非バイアス型UDベースのXRE転送について検討する。 まず、ソース言語の文を並列ターゲット側言語に翻訳し、それぞれUDツリーを解析する。 次に、ソース/ターゲット側UD構造を統合コード混合UD林として統合する。 このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。 我々はACE XREベンチマークデータセットの実験を行い、提案したコード混合UDフォレストがUDベースXRE転送の偏りをなくし、XREの性能向上を実現していることを示す。

Latest efforts on cross-lingual relation extraction (XRE) aggressively leverage the language-consistent structural features from the universal dependency (UD) resource, while they may largely suffer from biased transfer (e.g., either target-biased or source-biased) due to the inevitable linguistic disparity between languages. In this work, we investigate an unbiased UD-based XRE transfer by constructing a type of code-mixed UD forest. We first translate the sentence of the source language to the parallel target-side language, for both of which we parse the UD tree respectively. Then, we merge the source-/target-side UD structures as a unified code-mixed UD forest. With such forest features, the gaps of UD-based XRE between the training and predicting phases can be effectively closed. We conduct experiments on the ACE XRE benchmark datasets, where the results demonstrate that the proposed code-mixed UD forests help unbiased UD-based XRE transfer, with which we achieve significant XRE performance gains.
翻訳日:2023-05-26 19:29:30 公開日:2023-05-25
# ピボットとしてのシーングラフ:視覚幻覚を用いた推論時間なし非教師なしマルチモーダル機械翻訳

Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination ( http://arxiv.org/abs/2305.12256v2 )

ライセンス: Link先を確認
Hao Fei, Qian Liu, Meishan Zhang, Min Zhang, Tat-Seng Chua(参考訳) 本研究では、より現実的な非教師付きマルチモーダル機械翻訳(UMMT)のセットアップ、推論時画像自由なUMMTについて検討し、そこでは、モデルをソーステキストイメージペアで訓練し、ソーステキスト入力のみを用いてテストする。 まず、視覚・言語シーングラフ(SG)を用いて、入力画像とテキストを表現し、このような微細な視覚言語機能により、セマンティクスの全体的理解が保証される。 推論中の純粋テキスト入力を可能にするために,与えられたテキストSGから擬似視覚SGを動的に生成する視覚シーン幻覚機構を考案した。 教師なし翻訳学習のためのSG-pivotingに基づく学習目標について紹介する。 ベンチマークのマルチ30kデータでは、sgベースの手法は、タスクとセットアップにおいて重要なbleuスコアによって、最もパフォーマンスの高いベースラインを上回っており、ペアイメージに頼ることなく、翻訳の完全性、妥当性、流動性が向上します。 さらに詳細な分析により、タスク設定における我々のモデルがどのように進歩しているかが明らかになる。

In this work, we investigate a more realistic unsupervised multimodal machine translation (UMMT) setup, inference-time image-free UMMT, where the model is trained with source-text image pairs, and tested with only source-text inputs. First, we represent the input images and texts with the visual and language scene graphs (SG), where such fine-grained vision-language features ensure a holistic understanding of the semantics. To enable pure-text input during inference, we devise a visual scene hallucination mechanism that dynamically generates pseudo visual SG from the given textual SG. Several SG-pivoting based learning objectives are introduced for unsupervised translation training. On the benchmark Multi30K data, our SG-based method outperforms the best-performing baseline by significant BLEU scores on the task and setup, helping yield translations with better completeness, relevance and fluency without relying on paired images. Further in-depth analyses reveal how our model advances in the task setting.
翻訳日:2023-05-26 19:29:08 公開日:2023-05-25
# 能動整形装置による誤り検出のための脳波とEMGデータセット

EEG and EMG dataset for the detection of errors introduced by an active orthosis device ( http://arxiv.org/abs/2305.11996v2 )

ライセンス: Link先を確認
Niklas Kueper, Kartik Chari, Judith B\"utef\"ur, Julia Habenicht, Su Kyoung Kim, Tobias Rossol, Marc Tabie, Frank Kirchner, and Elsa Andrea Kirchner(参考訳) 本稿では,脳波(EEG)と筋電図(EMG)の記録を含むデータセットについて,能動整形装置を用いて右腕の移動を補助した8名の被験者から報告する。 支持運動は肘関節運動,すなわち右腕の屈曲と伸展であった。 矯正は被験者の腕を積極的に動かしている間に、いくつかの誤りは意図的に短期間導入された。 この間、矯正は反対方向に移動した。 本稿では,実験的な設定を説明し,全被験者にまたがる行動分析について述べる。 さらに,ある被験者に対して,平均的な事象関連電位分析を行い,エラー導入によるデータ品質と脳波活動について考察する。 ここで説明したデータセットは、公開アクセス可能である。 本研究の目的は研究コミュニティにデータセットを提供することであり,特に脳波から誤った事象を非同期に検出する新しい手法の開発を目的としている。 特に触覚と触覚を媒介とする誤認識に関心があるが,文献ではまだ十分に研究されていない。 我々は, 補綴の詳細な記述と実験により, その再現が可能となり, 大規模コミュニティによる補助システムの誤動作の検出に影響を及ぼす要因の系統的研究が促進されることを期待する。

This paper presents a dataset containing recordings of the electroencephalogram (EEG) and the electromyogram (EMG) from eight subjects who were assisted in moving their right arm by an active orthosis device. The supported movements were elbow joint movements, i.e., flexion and extension of the right arm. While the orthosis was actively moving the subject's arm, some errors were deliberately introduced for a short duration of time. During this time, the orthosis moved in the opposite direction. In this paper, we explain the experimental setup and present some behavioral analyses across all subjects. Additionally, we present an average event-related potential analysis for one subject to offer insights into the data quality and the EEG activity caused by the error introduction. The dataset described herein is openly accessible. The aim of this study was to provide a dataset to the research community, particularly for the development of new methods in the asynchronous detection of erroneous events from the EEG. We are especially interested in the tactile and haptic-mediated recognition of errors, which has not yet been sufficiently investigated in the literature. We hope that the detailed description of the orthosis and the experiment will enable its reproduction and facilitate a systematic investigation of the influencing factors in the detection of erroneous behavior of assistive systems by a large community.
翻訳日:2023-05-26 19:27:47 公開日:2023-05-25
# 大規模病院ネットワークにおける患者のアウトカム予測

Patient Outcome Predictions Improve Operations at a Large Hospital Network ( http://arxiv.org/abs/2305.15629v1 )

ライセンス: Link先を確認
Liangyuan Na, Kimberly Villalobos Carballo, Jean Pauphilet, Ali Haddad-Sisakht, Daniel Kombert, Melissa Boisjoli-Langlois, Andrew Castiglione, Maram Khalifa, Pooja Hebbal, Barry Stein, Dimitris Bertsimas(参考訳) 問題定義: 患者の成果の正確な予測へのアクセスは、医療スタッフの意思決定を増強し、最終的に病院のすべての利害関係者に利益をもたらす。 米国の大手病院ネットワークは、7つの病院にまたがる全ての入院患者の短期的および長期的成果を予測するため、学者やコンサルタントと協力している。 方法: 次の24-hr/48-hrの退院確率,集中治療単位転送,終末期死亡率,退院傾向を予測する機械学習モデルを開発する。 全てのモデルは75.7%-92.5%の高出力AUCを達成し、校正されている。 さらに、48時間放電予測と医師の予測を組み合わせることで、より多くの患者の退院(10%-28.7%)と7日間/30日間の寛解(p$-value $<0.001$)を同時に行うことができる。 我々は,毎朝データ抽出と予測更新を行う自動パイプラインと,ユーザフレンドリーなソフトウェアとカラーコードによる警告システムを実装し,これらの患者レベルの予測を臨床チームに伝える。 管理的意味: 徐々にツールの展開と医療スタッフのトレーニングを行ってきたので、7つの病院で200人以上の医師、看護師、ケースマネージャが毎日の患者のレビュープロセスで使用しています。 導入後の平均滞在期間(患者1人当たり0.67日)の大幅な減少を観察し,医療システムに対する実質的な経済的利益(年間55~72万ドル)を予想した。

Problem definition: Access to accurate predictions of patients' outcomes can enhance medical staff's decision-making, which ultimately benefits all stakeholders in the hospitals. A large hospital network in the US has been collaborating with academics and consultants to predict short-term and long-term outcomes for all inpatients across their seven hospitals. Methodology/results: We develop machine learning models that predict the probabilities of next 24-hr/48-hr discharge and intensive care unit transfers, end-of-stay mortality and discharge dispositions. All models achieve high out-of-sample AUC (75.7%-92.5%) and are well calibrated. In addition, combining 48-hr discharge predictions with doctors' predictions simultaneously enables more patient discharges (10%-28.7%) and fewer 7-day/30-day readmissions ($p$-value $<0.001$). We implement an automated pipeline that extracts data and updates predictions every morning, as well as user-friendly software and a color-coded alert system to communicate these patient-level predictions (alongside explanations) to clinical teams. Managerial implications: Since we have been gradually deploying the tool, and training medical staff, over 200 doctors, nurses, and case managers across seven hospitals use it in their daily patient review process. We observe a significant reduction in the average length of stay (0.67 days per patient) following its adoption and anticipate substantial financial benefits (between \$55 and \$72 million annually) for the healthcare system.
翻訳日:2023-05-26 18:14:10 公開日:2023-05-25
# 自由時間解法のための統一グラフ理論フレームワーク

A Unified Graph-Theoretic Framework for Free-Fermion Solvability ( http://arxiv.org/abs/2305.15625v1 )

ライセンス: Link先を確認
Adrian Chapman, Samuel J. Elman, Ryan L. Mann(参考訳) 量子スピン系は、そのフラストレーショングラフがクローズフリーで単純クリケを含む場合、非相互作用フェルミオンによる正確な記述を持つ。 スピンモデルのフラストレーショングラフは、与えられたベースでハミルトニアンのパウリ項の間の対の反可換関係をキャプチャする。 この結果は、既知の自由フェルミオン解の膨大なファミリーを捉えている。 前回の研究では、フラストレーショングラフが直線グラフか(偶数ホール、爪)フリーである場合、自由フェルミオン解が存在することが示されている。 前者は有名なヨルダン・ウィグナー変換を一般化し、キタエフ・ハニカムモデルに対する正確な解を含む。 後者の場合、Fendley によって与えられる 4-フェルミオンモデルに対する非局所解を一般化する。 一般化されたヨルダン・ウィグナー解を非局所的な設定に拡張し、任意の空間次元のモデルに4フェルミオン解を一般化する。 我々の重要な技術的洞察は、爪なしフラストレーショングラフを持つ全てのモデルに対するサイクル対称性のクラスを特定することである。 我々は、これらの対称性が可換であることを証明し、fendleyの解法を独立に各対称部分空間に適用することができる。 最後に、ハミルトニアンとの繰り返し可換により生成される作用素の観点からフェルミオンモードの物理的記述を与える。 これは、我々のフレームワークを演算子Krylov部分空間の現像体に結びつける。 その結果、多体物理学と無爪グラフの数学的理論との関係が深まる。

We show that a quantum spin system has an exact description by non-interacting fermions if its frustration graph is claw-free and contains a simplicial clique. The frustration graph of a spin model captures the pairwise anticommutation relations between Pauli terms of its Hamiltonian in a given basis. This result captures a vast family of known free-fermion solutions. In previous work, it was shown that a free-fermion solution exists if the frustration graph is either a line graph, or (even-hole, claw)-free. The former case generalizes the celebrated Jordan-Wigner transformation and includes the exact solution to the Kitaev honeycomb model. The latter case generalizes a non-local solution to the four-fermion model given by Fendley. Our characterization unifies these two approaches, extending generalized Jordan-Wigner solutions to the non-local setting and generalizing the four-fermion solution to models of arbitrary spatial dimension. Our key technical insight is the identification of a class of cycle symmetries for all models with claw-free frustration graphs. We prove that these symmetries commute, and this allows us to apply Fendley's solution method to each symmetric subspace independently. Finally, we give a physical description of the fermion modes in terms of operators generated by repeated commutation with the Hamiltonian. This connects our framework to the developing body of work on operator Krylov subspaces. Our results deepen the connection between many-body physics and the mathematical theory of claw-free graphs.
翻訳日:2023-05-26 18:13:42 公開日:2023-05-25
# GFairHint: 公正ヒントによるグラフニューラルネットワークの個々の公正性の改善

GFairHint: Improving Individual Fairness for Graph Neural Networks via Fairness Hint ( http://arxiv.org/abs/2305.15622v1 )

ライセンス: Link先を確認
Paiheng Xu, Yuhang Zhou, Bang An, Wei Ai, Furong Huang(参考訳) 機械学習の公平性に対する懸念の高まりとグラフデータ学習におけるグラフニューラルネットワーク(gnns)の印象的なパフォーマンスを考えると、gnnのアルゴリズム的公平性が注目されている。 多くの既存の研究は集団レベルで公平性を改善するが、類似の個人に類似した結果をもたらす個々人の公平性を促進する作品はわずかである。 個別公平性を促進する望ましい枠組みは、(1)公平性と性能のバランス、(2)共通に使用される2つの個別類似性尺度(外部注釈と入力特徴から計算)、(3)様々なgnnモデルにまたがる一般化、(4)計算効率である。 残念なことに、以前の作業がすべての望ましい結果を達成することはない。 本稿では,gnnにおける個々人の公平性を促進し,先述のすべての望ましい結果を達成する新しい手法であるgfairhintを提案する。 GFairHintは補助リンク予測タスクを通じてフェアネス表現を学習し、学習したノードを元のGNNに埋め込み、「フェアネスヒント」として結合する。 GFairHintは、上記の2つの類似度尺度を網羅した3つのGNNモデルに基づく5つの実世界のグラフデータセットに関する広範な実験的研究を通じて、データセットと様々なバックボーンモデルの組み合わせのほぼ全てにおいて、最も公正な結果を達成すると同時に、同等のユーティリティ結果を生成し、従来のSoTA法に比べて計算コストがはるかに少ない。

Given the growing concerns about fairness in machine learning and the impressive performance of Graph Neural Networks (GNNs) on graph data learning, algorithmic fairness in GNNs has attracted significant attention. While many existing studies improve fairness at the group level, only a few works promote individual fairness, which renders similar outcomes for similar individuals. A desirable framework that promotes individual fairness should (1) balance between fairness and performance, (2) accommodate two commonly-used individual similarity measures (externally annotated and computed from input features), (3) generalize across various GNN models, and (4) be computationally efficient. Unfortunately, none of the prior work achieves all the desirables. In this work, we propose a novel method, GFairHint, which promotes individual fairness in GNNs and achieves all aforementioned desirables. GFairHint learns fairness representations through an auxiliary link prediction task, and then concatenates the representations with the learned node embeddings in original GNNs as a "fairness hint". Through extensive experimental investigations on five real-world graph datasets under three prevalent GNN models covering both individual similarity measures above, GFairHint achieves the best fairness results in almost all combinations of datasets with various backbone models, while generating comparable utility results, with much less computational cost compared to the previous state-of-the-art (SoTA) method.
翻訳日:2023-05-26 18:13:21 公開日:2023-05-25
# 時空間二重密度演算子-空間的および時間的量子過程を解析するための統一的枠組み

The spatiotemporal doubled density operator: a unified framework for analyzing spatial and temporal quantum processes ( http://arxiv.org/abs/2305.15649v1 )

ライセンス: Link先を確認
Zhian Jia, Dagomir Kaszlikowski(参考訳) 空間的および時間的量子過程の測定統計は、異なるメカニズムによって生成される。 空間的に分離された測定は、非信号的挙動を示す。 しかし、時間のような分離された測定は、過去が未来とは無関係であるため、一方通行のノンシグナリングしか生じないが、逆は真実ではない。 この研究は、時空における量子過程を研究するための包括的なフレームワークとして二重密度演算子を提示する。 プロセスのすべての物理的情報を効果的にキャプチャし、測定とボルン規則は空間的および時間的ケースの両方に一様性を示す。 二重密度演算子上で部分的トレース演算を行うことにより、等時密度演算子を導出できることを実証する。 さらに、二重密度演算子の左または右半分に部分的トレース演算を行うことにより、量子過程の時間性を検出することができる。

The measurement statistics for spatial and temporal quantum processes are produced through distinct mechanisms. Measurements that are space-like separated exhibit non-signaling behavior. However, time-like separated measurements can only result in one-way non-signaling, as the past is independent of the future, but the opposite is not true. This work presents the doubled density operator as a comprehensive framework for studying quantum processes in space-time. It effectively captures all the physical information of the process, with the measurement and Born rule showing uniformity for both spatial and temporal cases. We demonstrate that the equal-time density operator can be derived by performing a partial trace operation on the doubled density operator. Furthermore, the temporality of the quantum process can be detected by conducting a partial trace operation on either the left or right half of the doubled density operator.
翻訳日:2023-05-26 18:04:53 公開日:2023-05-25
# 双方向量子トランスダクションのための最適化プロトコル

Optimized protocols for bidirectional quantum transduction ( http://arxiv.org/abs/2305.15648v1 )

ライセンス: Link先を確認
Zhaoyou Wang, Mengzhen Zhang, Yat Wong, Changchun Zhong, Liang Jiang(参考訳) 量子トランスデューサは量子ネットワーク内の物理プラットフォームのハイブリッドインターフェースを介して量子信号を変換する。 量子通信チャネルとしてモデル化された一方向量子トランスデューサの性能は、量子チャネル容量によって測定できる。 しかし、双方向通信チャネルとして使用される量子トランスデューサの性能は未解決のままである。 本稿では,双方向シナリオにおける量子トランスデューサの性能を特徴付けるレート領域を提案する。 このツールを用いて、同時双方向変換に最適化された量子トランスデューサは、時間共有一方向量子変換の標準プロトコルに基づく戦略を上回ることができることを見出した。 周波数領域に統合されたレート領域は、有限帯域幅の量子トランスデューサを特徴付けることもできる。

Quantum transducers convert quantum signals through hybrid interfaces of physical platforms in quantum networks. Modeled as quantum communication channels, performance of unidirectional quantum transducers can be measured by the quantum channel capacity. However, characterizing performance of quantum transducers used as bidirectional communication channels remains an open question. Here, we propose rate regions to characterize the performance of quantum transducers in the bidirectional scenario. Using this tool, we find that quantum transducers optimized for simultaneous bidirectional transduction can outperform strategies based on the standard protocol of time-shared unidirectional quantum transduction. Integrated over the frequency domain, we demonstrate that rate region can also characterize quantum transducers with finite bandwidth.
翻訳日:2023-05-26 18:04:38 公開日:2023-05-25
# ConvGQR: 対話型検索のための生成クエリ再構成

ConvGQR: Generative Query Reformulation for Conversational Search ( http://arxiv.org/abs/2305.15645v1 )

ライセンス: Link先を確認
Fengran Mo, Kelong Mao, Yutao Zhu, Yihong Wu, Kaiyu Huang, Jian-Yun Nie(参考訳) 会話検索では、ユーザの現在のターンに対する真の検索意図は、前の会話履歴に依存する。 会話のコンテキスト全体から適切な検索クエリを決定することは難しい。 クエリエンコーダの高価な再トレーニングを避けるため、既存のほとんどのメソッドは、手動のクエリ書き換えを模倣して現在のクエリを非テキスト化する書き換えモデルを学習しようとする。 しかし、手書きのクエリは必ずしも最高の検索クエリであるとは限らない。 書き換えモデルのトレーニングは、モデルが優れた検索クエリを生成する能力を制限します。 もう1つの有用なヒントは、質問に対する潜在的な答えである。 本稿では,生成事前学習言語モデル(PLM)に基づく会話クエリを再構成する新しいフレームワークであるConvGQRを提案する。 両方を組み合わせることで、ConvGQRはより良い検索クエリを生成することができる。 さらに,クエリ再構成と検索性能を関連付けるために,クエリ再構成と検索の両方を最適化する知識注入機構を提案する。 4つの対話型検索データセットに対する大規模な実験は、ConvGQRの有効性を示す。

In conversational search, the user's real search intent for the current turn is dependent on the previous conversation history. It is challenging to determine a good search query from the whole conversation context. To avoid the expensive re-training of the query encoder, most existing methods try to learn a rewriting model to de-contextualize the current query by mimicking the manual query rewriting. However, manually rewritten queries are not always the best search queries. Training a rewriting model on them would limit the model's ability to produce good search queries. Another useful hint is the potential answer to the question. In this paper, we propose ConvGQR, a new framework to reformulate conversational queries based on generative pre-trained language models (PLMs), one for query rewriting and another for generating potential answers. By combining both, ConvGQR can produce better search queries. In addition, to relate query reformulation to retrieval performance, we propose a knowledge infusion mechanism to optimize both query reformulation and retrieval. Extensive experiments on four conversational search datasets demonstrate the effectiveness of ConvGQR.
翻訳日:2023-05-26 18:04:24 公開日:2023-05-25
# Few-Domain Generalizationのためのメタ適応タスクサンプリング

Meta Adaptive Task Sampling for Few-Domain Generalization ( http://arxiv.org/abs/2305.15644v1 )

ライセンス: Link先を確認
Zheyan Shen, Han Yu, Peng Cui, Jiashuo Liu, Xingxuan Zhang, Linjun Zhou, Furui Liu(参考訳) out-of-distribution (ood) の一般化性能を保証するため、従来のドメイン一般化 (dg) メソッドでは、複数のソースからのデータをトレーニングする。 これらのDG手法の成功は、様々なトレーニング分布が存在するという事実に大きく依存する。 しかし、高い費用、プライバシーの問題、データの不足などにより、不均一なデータを得るには、通常十分な努力が必要となる。 したがって、OOD一般化性能が不均一性に制限された場合にどのように改善するかという、興味深い研究はめったに行われない。 本稿では,従来の学習経験から得られた知識をベースタスクとして,ごく少数の新規タスク領域から一般化可能なモデルを学習することを目的とした,FDGと呼ばれる新しいフレームワークをインスタンス化する。 さらに,新しいタスクと意味的およびドメインシフトの類似性に応じて基本タスクを識別するメタ適応タスクサンプリング(mats)手法を提案する。 実証的に,新たに導入されたfdgフレームワークは,新たなタスクにおけるood一般化性能を大幅に向上し,さらにマットとエピソディックトレーニングを組み合わせることで,pacsやdomainnetといった広く使用されているベンチマークにおいて,最先端のdgベースラインを上回ることができることを示した。

To ensure the out-of-distribution (OOD) generalization performance, traditional domain generalization (DG) methods resort to training on data from multiple sources with different underlying distributions. And the success of those DG methods largely depends on the fact that there are diverse training distributions. However, it usually needs great efforts to obtain enough heterogeneous data due to the high expenses, privacy issues or the scarcity of data. Thus an interesting yet seldom investigated problem arises: how to improve the OOD generalization performance when the perceived heterogeneity is limited. In this paper, we instantiate a new framework called few-domain generalization (FDG), which aims to learn a generalizable model from very few domains of novel tasks with the knowledge acquired from previous learning experiences on base tasks. Moreover, we propose a Meta Adaptive Task Sampling (MATS) procedure to differentiate base tasks according to their semantic and domain-shift similarity to the novel task. Empirically, we show that the newly introduced FDG framework can substantially improve the OOD generalization performance on the novel task and further combining MATS with episodic training could outperform several state-of-the-art DG baselines on widely used benchmarks like PACS and DomainNet.
翻訳日:2023-05-26 18:04:07 公開日:2023-05-25
# 複合サドル点最適化

Federated Composite Saddle Point Optimization ( http://arxiv.org/abs/2305.15643v1 )

ライセンス: Link先を確認
Site Bai and Brian Bullins(参考訳) フェデレートラーニング(FL)によるサドルポイント問題(SPP)に対するアプローチは、機械学習(ML)において重要な役割を担っているため、最近人気を集めている。 既存の作業は主にユークリッド空間の滑らかな非制約対象を対象とするが、ML問題はしばしば制約や非滑らかな正規化を伴い、複合最適化の必要性が生じる。 これらの問題に対処するために,本論文では,flパラダイムの下でサドルポイント最適化と複合目的の両方を包含する,ステップ外原始双対アルゴリズムであるフェデレート双対外挿法(fedualex)を提案する。 収束解析と実証評価の両方が、これらの困難な環境でのFeDualExの有効性を示している。 また,FeDualEx の逐次バージョンにおいても,従来の文献では見つからない確率論的複合サドル点設定の比率が提供される。

Federated learning (FL) approaches for saddle point problems (SPP) have recently gained in popularity due to the critical role they play in machine learning (ML). Existing works mostly target smooth unconstrained objectives in Euclidean space, whereas ML problems often involve constraints or non-smooth regularization, which results in a need for composite optimization. Addressing these issues, we propose Federated Dual Extrapolation (FeDualEx), an extra-step primal-dual algorithm, which is the first of its kind that encompasses both saddle point optimization and composite objectives under the FL paradigm. Both the convergence analysis and the empirical evaluation demonstrate the effectiveness of FeDualEx in these challenging settings. In addition, even for the sequential version of FeDualEx, we provide rates for the stochastic composite saddle point setting which, to our knowledge, are not found in prior literature.
翻訳日:2023-05-26 18:03:41 公開日:2023-05-25
# 学習に基づくソフトウェアコードの自動合成と構成

Learning-Based Automatic Synthesis of Software Code and Configuration ( http://arxiv.org/abs/2305.15642v1 )

ライセンス: Link先を確認
Shantanu Mandal(参考訳) ソフトウェア産業における需要の増加とソフトウェアエンジニアの不足により、研究者や実践者がソフトウェアの生成と構成のプロセスを自動化するモチベーションが高まる。 大規模な自動ソフトウェア生成と構成は非常に複雑で難しい作業です。 本提案では,ソフトウェアの自動生成と構成を2つの異なるタスクに分割することで,この問題を解明する。 まず,入力出力仕様で自動的にソフトウェアを合成することを提案する。 このタスクはさらに2つのサブタスクに分割される。 最初のサブタスクは、プログラムトレースと仕様でトレーニングされたニューラルネットワークベースのフィットネス機能によって駆動される遺伝的アルゴリズムによるプログラムの合成である。 第2のサブタスクでは,プログラム合成を連続最適化問題として定式化し,共分散行列適応進化戦略(最先端連続最適化法)を用いたプログラムを合成する。 最後に,異なる入力ファイル(例えば,ソフトウェアマニュアル,設定ファイル,オンラインブログなど)からシーケンス・ツー・シーケンスの深層学習機構を用いて大規模ソフトウェアの構成を合成することを提案する。

Increasing demands in software industry and scarcity of software engineers motivates researchers and practitioners to automate the process of software generation and configuration. Large scale automatic software generation and configuration is a very complex and challenging task. In this proposal, we set out to investigate this problem by breaking down automatic software generation and configuration into two different tasks. In first task, we propose to synthesize software automatically with input output specifications. This task is further broken down into two sub-tasks. The first sub-task is about synthesizing programs with a genetic algorithm which is driven by a neural network based fitness function trained with program traces and specifications. For the second sub-task, we formulate program synthesis as a continuous optimization problem and synthesize programs with covariance matrix adaption evolutionary strategy (a state-of-the-art continuous optimization method). Finally, for the second task, we propose to synthesize configurations of large scale software from different input files (e.g. software manuals, configurations files, online blogs, etc.) using a sequence-to-sequence deep learning mechanism.
翻訳日:2023-05-26 18:03:26 公開日:2023-05-25
# 欠落非ランダム標本選択バイアス下におけるロバスト分類器

A Robust Classifier Under Missing-Not-At-Random Sample Selection Bias ( http://arxiv.org/abs/2305.15641v1 )

ライセンス: Link先を確認
Huy Mai, Wen Huang, Wei Du, Xintao Wu(参考訳) トレーニングとテスト分布のシフトは、トレーニングセットに含まれるサンプルの非ランダムサンプリングによって引き起こされるバイアスであるサンプル選択バイアスに起因することが多い。 サンプル選択バイアスに基づく分類器の学習には多くのアプローチが提案されているが、選択プロセスの結果、トレーニングセット内のラベルのサブセットが欠落する(MNAR)場合に対処するケースはほとんどない。 統計学において、グリーンの手法は、このタイプのサンプル選択を予測モデルとしてロジスティック回帰を用いて定式化する。 しかし,この手法をロバストな分類フレームワークに統合することは,このバイアス設定には有効ではない。 本稿では,分類器がMNARサンプル選択バイアスの下で学習するために,元のトレーニングセットを変更することでグリーンの手法を改善するアルゴリズムであるBiasCorrを提案する。 グリーン法よりもバイアスの偏りを解析し,BiasCorrの改良を理論的に保証する。 実世界のデータセットにおける実験結果は、biascorrが堅牢な分類器を生成し、サンプル選択バイアスの下でトレーニングするために提案された最先端の分類器を上回るように拡張できることを示しています。

The shift between the training and testing distributions is commonly due to sample selection bias, a type of bias caused by non-random sampling of examples to be included in the training set. Although there are many approaches proposed to learn a classifier under sample selection bias, few address the case where a subset of labels in the training set are missing-not-at-random (MNAR) as a result of the selection process. In statistics, Greene's method formulates this type of sample selection with logistic regression as the prediction model. However, we find that simply integrating this method into a robust classification framework is not effective for this bias setting. In this paper, we propose BiasCorr, an algorithm that improves on Greene's method by modifying the original training set in order for a classifier to learn under MNAR sample selection bias. We provide theoretical guarantee for the improvement of BiasCorr over Greene's method by analyzing its bias. Experimental results on real-world datasets demonstrate that BiasCorr produces robust classifiers and can be extended to outperform state-of-the-art classifiers that have been proposed to train under sample selection bias.
翻訳日:2023-05-26 18:03:08 公開日:2023-05-25
# 最適輸送による分散誤差の特徴付け

Characterizing Out-of-Distribution Error via Optimal Transport ( http://arxiv.org/abs/2305.15640v1 )

ライセンス: Link先を確認
Yuzhe Lu, Yilong Qin, Runtian Zhai, Andrew Shen, Ketong Chen, Zhenlin Wang, Soheil Kolouri, Simon Stepputtis, Joseph Campbell, Katia Sycara(参考訳) アウト・オブ・ディストリビューション(OOD)データは、デプロイされた機械学習モデルにおいて深刻な課題となるため、ラベルなしでOODデータ上でモデルのパフォーマンスを予測する方法は、機械学習の安全性にとって重要である。 先行研究によって多くの方法が提案されているが、しばしば実際のエラーを過小評価し、時には大きなマージンで、実際のタスクへの適用性に大きな影響を与えている。 本研究では,この過小評価の重要な指標として,擬似ラベルシフト,あるいは予測値と真のOODラベル分布の違いを同定する。 そこで本研究では, 最適輸送理論である信頼度最適輸送(cot)を活用し, モデル性能を推定する新しい手法を提案する。 さらに,個々の輸送コストにしきい値を適用するとともに,cotの誤差推定精度をさらに向上させるcotの実証的モチベーションである信頼度最適輸送法(cott)を導入する。 cot と cott は様々な分散シフトを誘導する様々な標準ベンチマーク -- 合成, 新規なサブポピュレーション, 自然 – で評価し, 既存の最先端手法を最大3倍低い予測誤差で大幅に上回ることを示した。

Out-of-distribution (OOD) data poses serious challenges in deployed machine learning models, so methods of predicting a model's performance on OOD data without labels are important for machine learning safety. While a number of methods have been proposed by prior work, they often underestimate the actual error, sometimes by a large margin, which greatly impacts their applicability to real tasks. In this work, we identify pseudo-label shift, or the difference between the predicted and true OOD label distributions, as a key indicator to this underestimation. Based on this observation, we introduce a novel method for estimating model performance by leveraging optimal transport theory, Confidence Optimal Transport (COT), and show that it provably provides more robust error estimates in the presence of pseudo-label shift. Additionally, we introduce an empirically-motivated variant of COT, Confidence Optimal Transport with Thresholding (COTT), which applies thresholding to the individual transport costs and further improves the accuracy of COT's error estimates. We evaluate COT and COTT on a variety of standard benchmarks that induce various types of distribution shift -- synthetic, novel subpopulation, and natural -- and show that our approaches significantly outperform existing state-of-the-art methods with an up to 3x lower prediction error.
翻訳日:2023-05-26 18:02:47 公開日:2023-05-25
# 一般化p-ラプラシアン正則フレームレットgcnsの再検討:収束、エネルギー動的および非線形拡散によるトレーニング

Revisiting Generalized p-Laplacian Regularized Framelet GCNs: Convergence, Energy Dynamic and Training with Non-Linear Diffusion ( http://arxiv.org/abs/2305.15639v1 )

ライセンス: Link先を確認
Dai Shi, Zhiqi Shao, Yi Guo, Qibin Zhao, Junbin Gao(参考訳) 本稿では,グラフp-laplacian based framelet network (pl-ufg) の包括的理論的解析を行い,その特性の理解を深める。 まず,フレームレット畳み込み後に統合されたp-ラプラシアン系暗黙的層の収束解析を行い,pl-ufgの漸近的挙動について考察する。 pL-UFGの一般化されたディリクレエネルギーを探索することにより、ディリクレエネルギーは非ゼロのままであり、pL-UFGの収束に近づくにつれて過度に滑らかな問題を避けることが証明される。 さらに,pL-UFGの暗黙的な層がグラフフレームレットと相乗化することで,同好および異好の両データへのモデルの適応性を高めることによる動的エネルギー視点の解明を行う。 驚くべきことに、暗黙的層は一般化された非線形拡散過程として解釈でき、多様なスキームを用いたトレーニングを可能にする。 これらの多面的分析は、pL-UFGの理解と実装に新たな洞察を与える統一的な結論をもたらし、グラフベースのディープラーニングの分野の進歩に寄与する。

This work presents a comprehensive theoretical analysis of graph p-Laplacian based framelet network (pL-UFG) to establish a solid understanding of its properties. We begin by conducting a convergence analysis of the p-Laplacian based implicit layer integrated after the framelet convolution, providing insights into the asymptotic behavior of pL-UFG. By exploring the generalized Dirichlet energy of pL-UFG, we demonstrate that the Dirichlet energy remains non-zero, ensuring the avoidance of over-smoothing issues in pL-UFG as it approaches convergence. Furthermore, we elucidate the dynamic energy perspective through which the implicit layer in pL-UFG synergizes with graph framelets, enhancing the model's adaptability to both homophilic and heterophilic data. Remarkably, we establish that the implicit layer can be interpreted as a generalized non-linear diffusion process, enabling training using diverse schemes. These multifaceted analyses lead to unified conclusions that provide novel insights for understanding and implementing pL-UFG, contributing to advancements in the field of graph-based deep learning.
翻訳日:2023-05-26 18:02:26 公開日:2023-05-25
# 形態的変曲: 現実のチェック

Morphological Inflection: A Reality Check ( http://arxiv.org/abs/2305.15637v1 )

ライセンス: Link先を確認
Jordan Kodner, Sarah Payne, Salam Khalifa, Zoey Liu(参考訳) 形態的インフレクションは、実用的および認知的応用の両方において、サブワードNLPにおいて一般的なタスクである。 長年にわたり、最先端のシステムでは、データセットや言語間で高い、しかし非常に可変なパフォーマンスを報告してきた。 我々は,この高い性能と高い可変性の原因について検討し,言語間の差異を体系的に緩和するデータセット作成と評価のいくつかの側面を見出した。 結果の一般化可能性と信頼性を向上させるため,新たなデータサンプリング・評価手法を提案する。 これらの新しい戦略を用いて、現在の変曲システムの一般化能力について新たな観察を行う。

Morphological inflection is a popular task in sub-word NLP with both practical and cognitive applications. For years now, state-of-the-art systems have reported high, but also highly variable, performance across data sets and languages. We investigate the causes of this high performance and high variability; we find several aspects of data set creation and evaluation which systematically inflate performance and obfuscate differences between languages. To improve generalizability and reliability of results, we propose new data sampling and evaluation strategies that better reflect likely use-cases. Using these new strategies, we make new observations on the generalization abilities of current inflection systems.
翻訳日:2023-05-26 18:02:02 公開日:2023-05-25
# 説明付き文法的誤り訂正システムの実現

Enhancing Grammatical Error Correction Systems with Explanations ( http://arxiv.org/abs/2305.15676v1 )

ライセンス: Link先を確認
Yuejiao Fei, Leyang Cui, Sen Yang, Wai Lam, Zhenzhong Lan, Shuming Shi(参考訳) 文法的誤り訂正システムは、言語誤りの検出と修正により、書き込み通信を改善する。 言語学習者がgecシステムが特定の修正を行う理由をよりよく理解するために、エラーの原因(明確な単語)と対応するエラータイプは2つの重要な要因である。 GECシステムに説明を伴い,エビデンスワードと文法的誤り型を付加した大規模データセットEXPECTを導入する。 このタスクを理解するために,いくつかのベースラインとアナリシスを提案する。 さらに,人間の評価は,説明可能なgecシステムの説明を検証すれば,修正提案を受け入れるか否かを判断し,関連する文法規則を理解する上で,第二言語学習者を支援することができる。

Grammatical error correction systems improve written communication by detecting and correcting language mistakes. To help language learners better understand why the GEC system makes a certain correction, the causes of errors (evidence words) and the corresponding error types are two key factors. To enhance GEC systems with explanations, we introduce EXPECT, a large dataset annotated with evidence words and grammatical error types. We propose several baselines and anlysis to understand this task. Furthermore, human evaluation verifies our explainable GEC system's explanations can assist second-language learners in determining whether to accept a correction suggestion and in understanding the associated grammar rule.
翻訳日:2023-05-26 17:54:37 公開日:2023-05-25
# bookgpt: 大規模言語モデルによる書籍レコメンデーションのための汎用フレームワーク

BookGPT: A General Framework for Book Recommendation Empowered by Large Language Model ( http://arxiv.org/abs/2305.15673v1 )

ライセンス: Link先を確認
Aakas Zhiyuli, Yanfang Chen, Xuan Zhang, Xun Liang(参考訳) ジェネラティブプリトレーニングトランスフォーマー(gpts)に代表される大規模言語モデル(llm)技術によって示される継続的開発と変化により、さまざまな分野の古典的なシナリオが新たな機会と共に再統合されている。 本稿では、ChatGPTをモデリング対象とし、LLM技術を典型的な書籍リソース理解・レコメンデーションシナリオに組み込んだ上で、それを実践する。 本稿では,ChatGPTをベースとした書籍推薦システム(BookGPT)を構築することにより,書評推薦,ユーザ評価推薦,書籍要約推薦という3つの典型的な課題のモデリングにChatGPTを適用し,書評推薦シナリオにおけるLCM技術の可能性を探究する。 同時に,本レコメンデーション課題の評価手法と従来のレコメンデーションモデルに基づいて,本レコメンデーションシナリオにおけるブックGPTのメリットとデメリットを論じ,これらのシナリオにおけるその後のLCMの機会と改善の方向性を分析する。

With the continuous development and change exhibited by large language model (LLM) technology, represented by generative pretrained transformers (GPTs), many classic scenarios in various fields have re-emerged with new opportunities. This paper takes ChatGPT as the modeling object, incorporates LLM technology into the typical book resource understanding and recommendation scenario for the first time, and puts it into practice. By building a ChatGPT-like book recommendation system (BookGPT) framework based on ChatGPT, this paper attempts to apply ChatGPT to recommendation modeling for three typical tasks, book rating recommendation, user rating recommendation, and book summary recommendation, and explores the feasibility of LLM technology in book recommendation scenarios. At the same time, based on different evaluation schemes for book recommendation tasks and the existing classic recommendation models, this paper discusses the advantages and disadvantages of the BookGPT in book recommendation scenarios and analyzes the opportunities and improvement directions for subsequent LLMs in these scenarios.
翻訳日:2023-05-26 17:54:25 公開日:2023-05-25
# 関数型ANOVAフレームワークに基づく解釈可能な機械学習:アルゴリズムと比較

Interpretable Machine Learning based on Functional ANOVA Framework: Algorithms and Comparisons ( http://arxiv.org/abs/2305.15670v1 )

ライセンス: Link先を確認
Linwei Hu, Vijayan N. Nair, Agus Sudjianto, Aijun Zhang, and Jie Chen(参考訳) 機械学習(ML)の初期は、最高の予測性能を達成するための複雑なアルゴリズムの開発に重点が置かれていた。 モデル結果を理解し説明するには、制限があることが知られているポストホックな説明可能性技術に頼る必要があった。 近年、解釈可能性も同様に重要であると認識されているため、研究者は本質的に解釈可能なアルゴリズムを開発するために、予測性能のわずかな増加を論じている。 その間、MLコミュニティは統計学で知られている低次機能ANOVA(fANOVA)モデルの使用を再発見した。 本稿では、ポストホックな説明可能性による課題の説明から始め、主要な効果と二階相互作用に焦点を当てたfANOVAフレームワークをレビューする。 以下は、最近開発された2つの技術の概要である Explainable Boosting Machines または EBM (Lou et al., 2013) と GAMI-Net (Yang et al., 2021b) の概要である。 この論文は、ebmのような木も利用するgami-lin-tと呼ばれる新しいアルゴリズムを提案している。 他にも、新しいインタラクションフィルタリングアルゴリズムの開発など、多くの違いがある。 最後に、シミュレーションと実データを用いて選択したMLアルゴリズムを比較する。 その結果,GAMI-Lin-T と GAMI-Net は同等の性能を示し,両者とも EBM よりも優れていた。

In the early days of machine learning (ML), the emphasis was on developing complex algorithms to achieve best predictive performance. To understand and explain the model results, one had to rely on post hoc explainability techniques, which are known to have limitations. Recently, with the recognition that interpretability is just as important, researchers are compromising on small increases in predictive performance to develop algorithms that are inherently interpretable. While doing so, the ML community has rediscovered the use of low-order functional ANOVA (fANOVA) models that have been known in the statistical literature for some time. This paper starts with a description of challenges with post hoc explainability and reviews the fANOVA framework with a focus on main effects and second-order interactions. This is followed by an overview of two recently developed techniques: Explainable Boosting Machines or EBM (Lou et al., 2013) and GAMI-Net (Yang et al., 2021b). The paper proposes a new algorithm, called GAMI-Lin-T, that also uses trees like EBM, but it does linear fits instead of piecewise constants within the partitions. There are many other differences, including the development of a new interaction filtering algorithm. Finally, the paper uses simulated and real datasets to compare selected ML algorithms. The results show that GAMI-Lin-T and GAMI-Net have comparable performances, and both are generally better than EBM.
翻訳日:2023-05-26 17:54:01 公開日:2023-05-25
# PROTO: オフライン・オンライン強化学習の反復的政策

PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2305.15669v1 )

ライセンス: Link先を確認
Jianxiong Li, Xiao Hu, Haoran Xu, Jingjing Liu, Xianyuan Zhan, Ya-Qin Zhang(参考訳) オフライン-オンライン強化学習(RL)は、オフライン事前学習とオンライン微調整の利点を組み合わせることで、サンプル効率とポリシー性能の向上を約束する。 しかし, 既存の手法は, 最適以下の性能, 適応性に限界があり, 満足できない計算効率に悩まされている。 本稿では,標準RL目標を反復的に進化する正規化項で拡張することにより,上記の制限を克服する新しいフレームワーク PROTO を提案する。 信頼領域スタイルの更新を行うと、PROTOは安定な初期微調整と最適最終性能を得るが、規則化項を徐々に進化させ、制約強度を緩和する。 ほんの数行のコードだけを調整することで、PROTOはオフラインポリシー事前訓練と標準的なオフラインRLファインタニングをブリッジして、オフラインからオフラインまでの強力なRLパスを形成することができ、多様なメソッドに非常に適応できる。 PROTOは単純だがエレガントであり、最小限の追加計算を課す。 大規模な実験により、ProtoはSOTAベースラインよりも優れたパフォーマンスを実現し、適応的で効率的なオフライン-オンラインRLフレームワークを提供する。

Offline-to-online reinforcement learning (RL), by combining the benefits of offline pretraining and online finetuning, promises enhanced sample efficiency and policy performance. However, existing methods, effective as they are, suffer from suboptimal performance, limited adaptability, and unsatisfactory computational efficiency. We propose a novel framework, PROTO, which overcomes the aforementioned limitations by augmenting the standard RL objective with an iteratively evolving regularization term. Performing a trust-region-style update, PROTO yields stable initial finetuning and optimal final performance by gradually evolving the regularization term to relax the constraint strength. By adjusting only a few lines of code, PROTO can bridge any offline policy pretraining and standard off-policy RL finetuning to form a powerful offline-to-online RL pathway, birthing great adaptability to diverse methods. Simple yet elegant, PROTO imposes minimal additional computation and enables highly efficient online finetuning. Extensive experiments demonstrate that PROTO achieves superior performance over SOTA baselines, offering an adaptable and efficient offline-to-online RL framework.
翻訳日:2023-05-26 17:53:35 公開日:2023-05-25
# マルチリンガルASRストリーミングのためのMixture-of-Expert Conformer

Mixture-of-Expert Conformer for Streaming Multilingual ASR ( http://arxiv.org/abs/2305.15663v1 )

ライセンス: Link先を確認
Ke Hu, Bo Li, Tara N. Sainath, Yu Zhang, Francoise Beaufays(参考訳) 大容量のエンドツーエンドモデルは、多言語自動音声認識を大幅に改善したが、その計算コストはデバイス上のアプリケーションに課題をもたらす。 本稿では,訓練と推論においてパラメータのサブセットのみを活性化することを学習するmixed-of-expert(moe)層を組み込んだ,真のマルチリンガルコンフォーメータを提案する。 moe層はソフトマックスゲートからなり、前方伝播において最も優れた2人の専門家を選ぶ。 提案するmoe層は、専門家の数が増えるにつれて一定数のパラメータを活性化することで、効率的な推論を提供する。 提案したモデルを12言語で評価し,ベースラインよりも平均11.9%の相対的な改善を実現した。 基底真理情報を用いたアダプタモデルと比較して,我々のMoEモデルは類似のWERを実現し,同じ数のパラメータをアクティベートするが,言語情報はない。 また,多言語浅部核融合によるWER改善率は3%程度であった。

End-to-end models with large capacity have significantly improved multilingual automatic speech recognition, but their computation cost poses challenges for on-device applications. We propose a streaming truly multilingual Conformer incorporating mixture-of-expert (MoE) layers that learn to only activate a subset of parameters in training and inference. The MoE layer consists of a softmax gate which chooses the best two experts among many in forward propagation. The proposed MoE layer offers efficient inference by activating a fixed number of parameters as the number of experts increases. We evaluate the proposed model on a set of 12 languages, and achieve an average 11.9% relative improvement in WER over the baseline. Compared to an adapter model using ground truth information, our MoE model achieves similar WER and activates similar number of parameters but without any language information. We further show around 3% relative WER improvement by multilingual shallow fusion.
翻訳日:2023-05-26 17:53:14 公開日:2023-05-25
# 結合超伝導空洞におけるコヒーレンス時間の位相制御による改善

Phase-controlled improvement of coherence time in coupled superconducting cavities ( http://arxiv.org/abs/2305.15662v1 )

ライセンス: Link先を確認
Changqing Wang, Oleksandr S Melnychuk, Crispin Contreras-Martinez, Yuriy M Pischalnikov, Oleg Pronitchev, Bianca Giaccone, Roman Pilipenko, Silvia Zorzetti, Sam Posen, Alexander Romanenko, Anna Grassellino(参考訳) 長いコヒーレンス時間空洞は様々な基礎物理研究や応用に不可欠である。 ここでは、2つのキャビティを直接あるいは位相可変結合チャネルを介して結合することにより、局所体のコヒーレンス時間が素体のキャビティよりも長いことが分かる。 コヒーレンス時間は、初期状態の位相と、空洞間の干渉に影響を与える結合チャネル上の位相蓄積によって変化される。 実験では、位相可変ケーブルを介して超伝導高周波共振器を結合することにより、キャビティコヒーレンス時間の2つの改善要因を実現する。 その結果、量子情報科学、センシング、高エネルギー物理学に豊富な収入をもたらすことができる。

Long-coherence-time cavities are crucial for various fundamental physical studies and applications. Here we find that by coupling two cavities directly or via a phase-tunable coupling channel, the coherence time of the local field can exceed that of the bare cavities. The coherence time is modified by the phases of the initial states and the phase accumulation on the coupling channel which affect the interference between cavities. In experiments, by coupling superconducting radio-frequency cavities via phase-tunable cables, we realize a factor of two improvement in the cavity coherence time. The results can bring rich revenue to quantum information science, sensing, and high-energy physics.
翻訳日:2023-05-26 17:52:56 公開日:2023-05-25
# 手書き漢字認識のための発声拡散確率モデルを用いた訓練データのゼロショット生成

Zero-shot Generation of Training Data with Denoising Diffusion Probabilistic Model for Handwritten Chinese Character Recognition ( http://arxiv.org/abs/2305.15660v1 )

ライセンス: Link先を確認
Dongnan Gui, Kai Chen, Haisong Ding and Qiang Huo(参考訳) 中国語には8万以上の文字カテゴリがあるが、ほとんどは滅多に使われない。 従来の手法で全文字集合をサポートする高性能手書き文字認識(HCCR)システムを構築するためには,時間と費用のかかる各文字カテゴリに対して,多くのトレーニングサンプルを収集する必要がある。 本稿では,フォントライブラリから生成した漢字グリフ画像から,denoising diffusion probabilistic model (ddpm) を用いた手書き画像へ変換する新しい手法を提案する。 小さな文字セットの手書きサンプルからトレーニングすると、ddpmは印刷されたストロークを手書きにマッピングできるため、見えない文字カテゴリのフォトリアリスティックで多様な手書きサンプルを生成することができる。 DDPM合成された未確認カテゴリのサンプルと他のカテゴリの実際のサンプルを組み合わせることで、完全な文字集合をサポートするHCCRシステムを構築することができる。 CASIA-HWDBデータセットの3,755文字カテゴリによる実験結果から,合成サンプルで訓練したHCCRシステムは,認識精度の点で実サンプルで訓練したのと同様の性能を示した。 提案手法はHCCRにより大きな語彙で対応できる可能性がある。

There are more than 80,000 character categories in Chinese while most of them are rarely used. To build a high performance handwritten Chinese character recognition (HCCR) system supporting the full character set with a traditional approach, many training samples need be collected for each character category, which is both time-consuming and expensive. In this paper, we propose a novel approach to transforming Chinese character glyph images generated from font libraries to handwritten ones with a denoising diffusion probabilistic model (DDPM). Training from handwritten samples of a small character set, the DDPM is capable of mapping printed strokes to handwritten ones, which makes it possible to generate photo-realistic and diverse style handwritten samples of unseen character categories. Combining DDPM-synthesized samples of unseen categories with real samples of other categories, we can build an HCCR system to support the full character set. Experimental results on CASIA-HWDB dataset with 3,755 character categories show that the HCCR systems trained with synthetic samples perform similarly with the one trained with real samples in terms of recognition accuracy. The proposed method has the potential to address HCCR with a larger vocabulary.
翻訳日:2023-05-26 17:52:45 公開日:2023-05-25
# 鋭いミニマから逃れる方法

How to escape sharp minima ( http://arxiv.org/abs/2305.15659v1 )

ライセンス: Link先を確認
Kwangjun Ahn, Ali Jadbabaie, Suvrit Sra(参考訳) 現代の機械学習アプリケーションは、フラットなミニマを見つけるために設計された最適化アルゴリズムが驚くべき成功を収めている。 このパラダイムに動機づけられたこの研究は、平らなミニマを見つける方法に関するアルゴリズム的な問題を定式化し研究する。 最初の試みとして、この研究はコスト関数のヘッセンのトレースを平坦性の尺度として採用し、近似平坦極小の概念を正式に定義した。 この概念の下で、近似平坦な最小値を求めるアルゴリズムを効率的に設計する。 一般費用関数に対して, 近似平坦な局所最小値を求める勾配に基づくアルゴリズムを提案する。 アルゴリズムの主な構成要素は、ランダムに摂動した反復から計算された勾配を用いて、より平坦な最小値につながる方向を推定することである。 コスト関数がトレーニングデータよりも経験的リスクであるような設定のために,最近提案されているシャープネス認識最小化(sharpness-aware minimization)と呼ばれる実用的なアルゴリズムに触発された,より高速なアルゴリズムを提案する。

Modern machine learning applications have seen a remarkable success of optimization algorithms that are designed to find flat minima. Motivated by this paradigm, this work formulates and studies the algorithmic question of how to find flat minima. As an initial effort, this work adopts the trace of hessian of the cost function as the measure of flatness, and formally defines the notion of approximate flat minima. Under this notion, we then design algorithms that find approximate flat minima efficiently. For general cost functions, we present a gradient-based algorithm that finds an approximate flat local minimum efficiently. The main component of the algorithm is to use gradients computed from randomly perturbed iterates to estimate a direction that leads to flatter minima. For the setting where the cost function is an empirical risk over training data, we present a faster algorithm that is inspired by a recently proposed practical algorithm called sharpness-aware minimization, supporting its success in practice.
翻訳日:2023-05-26 17:52:28 公開日:2023-05-25
# 非閉路のアハラノフ-ボーム位相シフトは測定可能な量か?

Is the Aharonov-Bohm phase shift for a non-closed path a measurable quantity ? ( http://arxiv.org/abs/2305.15658v1 )

ライセンス: Link先を確認
Masashi Wakamatsu(参考訳) Aharonov-Bohm(AB)効果は、荷電粒子の波動関数の複素位相上でソレノイドによって生じるベクトルポテンシャルの局所作用として広く受け入れられている。 それでも、ベクトルポテンシャルはゲージ依存量であるため、AB効果は電磁界の内側に閉じ込められた磁場の非局所的な作用によって引き起こされると主張する研究者は少ない。 このような非局所的な説明の重大な欠点は、分離電荷と磁場の間の非局所的な相互作用の明確なメカニズムを提供することが難しいことである。 局所性は電磁気学や量子力学を含む現代物理学の基礎であるため、これは驚くべきことではない。 一方,近年,荷電粒子と仮想光子の交換を媒介とするソレノイド電流との相互作用により,ab効果を説明する興味深い試みが試みられている。 このアプローチの重要な仮定は、ab相シフトは荷電粒子とソレノイドの間の相互作用エネルギーの移動電荷の経路に沿った変化に比例するということである。 したがって、経路に沿ったAB相の変化はゲージ選択に依存しないので、非閉経路のAB相シフトが原理的に測定可能であると主張する。 本稿では,この驚くべき結論を,最も注意と注意を払って検証する。 同時に,ab効果の解釈におけるベクトルポテンシャルの役割について,新たな知見を与えようとしている。

It is widely accepted that the Aharonov-Bohm (AB) effect is understood as local action of the vector potential generated by the solenoid on the complex phase of a charged particle's wave functions. Nevertheless, because the vector potential is a gauge-dependent quantity, there still exist not a few researchers who claim that the AB-effect is caused by nonlocal action of the magnetic field confined inside the solenoid. A serious drawback of such non-locality explanation is that it is hard to offer definite mechanism of such nonlocal interaction between separated charge and magnetic field. This is not surprising, since the locality is the foundation of modern physics including electromagnetism and quantum mechanics. On the other hand, there recently appear some interesting attempts to explain the AB-effect through the interaction between the charged particle and the solenoid current mediated by the exchange of a virtual photon. A vital assumption of this approach is that AB-phase shift is proportional to the change of the interaction energy between the charged particle and solenoid along the path of the moving charge. Accordingly, they insist that the AB-phase change along a path does not depend on the gauge choice so that the AB-phase shift for a non-closed path is in principle measurable. In the present paper, we critically examine this astonishing conclusion with the utmost care and attention. At the same time, we try to give refreshed insight into the role of the vector potential in the interpretation of the AB-effect.
翻訳日:2023-05-26 17:52:11 公開日:2023-05-25
# 産業ビジョンにおける全オンライン教師なし異常検出と局所化に向けて

Towards Total Online Unsupervised Anomaly Detection and Localization in Industrial Vision ( http://arxiv.org/abs/2305.15652v1 )

ライセンス: Link先を確認
Han Gao, Huiyuan Luo, Fei Shen, Zhengtao Zhang(参考訳) 既存の画像異常検出手法は印象的な結果をもたらすが、それらは主に、過剰なデータプリコレクションを必要とするオフライン学習パラダイムであり、オンラインストリーミングデータによる産業シナリオでの適応性を制限している。 オンライン学習に基づく画像異常検出手法は、産業用オンラインストリーミングデータとより互換性があるが、ほとんど気付かない。 本稿では,オンライン画像異常検出のための学習メモリであるlemoという,完全オンライン学習画像異常検出手法について述べる。 LeMOは学習可能なメモリを直交ランダムノイズで初期化し、メモリの初期化における過剰なデータの必要性を排除し、オフラインデータ収集の不効率を回避する。 さらに、異常検出のための対照的な学習に基づく損失関数を設計し、メモリと画像ターゲット指向機能のオンライン共同最適化を可能にする。 提案手法は単純かつ効果的である。 広範な実験は、オンライン環境でのlemoの優れた性能を示す。 さらに、オフライン環境では、LeMOは現在の最先端のメソッドと競合し、数ショットのシナリオで優れたパフォーマンスを達成する。

Although existing image anomaly detection methods yield impressive results, they are mostly an offline learning paradigm that requires excessive data pre-collection, limiting their adaptability in industrial scenarios with online streaming data. Online learning-based image anomaly detection methods are more compatible with industrial online streaming data but are rarely noticed. For the first time, this paper presents a fully online learning image anomaly detection method, namely LeMO, learning memory for online image anomaly detection. LeMO leverages learnable memory initialized with orthogonal random noise, eliminating the need for excessive data in memory initialization and circumventing the inefficiencies of offline data collection. Moreover, a contrastive learning-based loss function for anomaly detection is designed to enable online joint optimization of memory and image target-oriented features. The presented method is simple and highly effective. Extensive experiments demonstrate the superior performance of LeMO in the online setting. Additionally, in the offline setting, LeMO is also competitive with the current state-of-the-art methods and achieves excellent performance in few-shot scenarios.
翻訳日:2023-05-26 17:51:43 公開日:2023-05-25
# ビデオ人間行動認識におけるディープニューラルネットワーク : レビュー

Deep Neural Networks in Video Human Action Recognition: A Review ( http://arxiv.org/abs/2305.15692v1 )

ライセンス: Link先を確認
Zihan Wang, Yang Yang, Zhi Liu, Yifan Zheng(参考訳) 現在、ビデオ行動認識はコンピュータビジョンの最も基本的なタスクの1つである。 ディープラーニングの2Dニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどのピクセルレベルの情報を認識するために構築されている。 フレーム依存分析に時間的情報を必要とするタスクが増えている。 研究者たちは、画像ベース(ピクセルベース)ではなく、ビデオベースの認識を広く研究してきた。 本研究は,複数の新しい研究成果を扱っており,機械学習フレームワークではなく,派生したディープラーニングフレームワーク間の利点とデメリットを比較している。 既存のフレームワークとデータセットの比較は、ビデオフォーマットのデータのみである。 人間の行動の特徴と深層ニューラルネットワークの利用の増大により、私たちは2020年から2022年までの3年間にすべての研究成果を収集しました。 本稿では,深層ニューラルネットワークの性能が特徴学習および抽出タスク,特にビデオ行動認識におけるほとんどの技術を上回った。

Currently, video behavior recognition is one of the most foundational tasks of computer vision. The 2D neural networks of deep learning are built for recognizing pixel-level information such as images with RGB, RGB-D, or optical flow formats, with the current increasingly wide usage of surveillance video and more tasks related to human action recognition. There are increasing tasks requiring temporal information for frames dependency analysis. The researchers have widely studied video-based recognition rather than image-based(pixel-based) only to extract more informative elements from geometry tasks. Our current related research addresses multiple novel proposed research works and compares their advantages and disadvantages between the derived deep learning frameworks rather than machine learning frameworks. The comparison happened between existing frameworks and datasets, which are video format data only. Due to the specific properties of human actions and the increasingly wide usage of deep neural networks, we collected all research works within the last three years between 2020 to 2022. In our article, the performance of deep neural networks surpassed most of the techniques in the feature learning and extraction tasks, especially video action recognition.
翻訳日:2023-05-26 17:44:58 公開日:2023-05-25
# プロンプトの摂動感度を克服するゼロショット法

Zero-shot Approach to Overcome Perturbation Sensitivity of Prompts ( http://arxiv.org/abs/2305.15689v1 )

ライセンス: Link先を確認
Mohna Chakraborty, Adithya Kulkarni, Qi Li(参考訳) 近年の研究では、自然言語プロンプトは、前訓練された言語モデルによって学習された知識をバイナリ文単位の感情分類タスクに活用できることが示されている。 具体的には、手動または自動生成プロンプトを用いて感情分類モデルを微調整する。 しかし,これらの手法の性能は,利用したプロンプトの摂動に敏感である。 さらに、これらの手法は、自動プロンプト生成とプロンプトランキングのためのラベル付きインスタンスに依存している。 本研究の目的は、ゼロショット設定で与えられたタスクに対する高品質なプロンプトを見つけることである。 ベースプロンプトが与えられた場合,提案手法は,位置,推論,パラフレージングを用いたベースプロンプトに類似した複数のプロンプトを自動的に生成し,新しいメトリックを用いてプロンプトをランク付けする。 本研究は,二分文レベルの感情分類タスクにおいて,最上位のプロンプトが高品質で,基本プロンプトと少数ショット学習を用いて生成したプロンプトを著しく上回っていることを実証的に示す。

Recent studies have demonstrated that natural-language prompts can help to leverage the knowledge learned by pre-trained language models for the binary sentence-level sentiment classification task. Specifically, these methods utilize few-shot learning settings to fine-tune the sentiment classification model using manual or automatically generated prompts. However, the performance of these methods is sensitive to the perturbations of the utilized prompts. Furthermore, these methods depend on a few labeled instances for automatic prompt generation and prompt ranking. This study aims to find high-quality prompts for the given task in a zero-shot setting. Given a base prompt, our proposed approach automatically generates multiple prompts similar to the base prompt employing positional, reasoning, and paraphrasing techniques and then ranks the prompts using a novel metric. We empirically demonstrate that the top-ranked prompts are high-quality and significantly outperform the base prompt and the prompts generated using few-shot learning for the binary sentence-level sentiment classification task.
翻訳日:2023-05-26 17:44:42 公開日:2023-05-25
# 高フレームレートトラッキングのためのフレームイベントアライメントと融合ネットワーク

Frame-Event Alignment and Fusion Network for High Frame Rate Tracking ( http://arxiv.org/abs/2305.15688v1 )

ライセンス: Link先を確認
Jiqing Zhang, Yuanchen Wang, Wenxi Liu, Meng Li, Jinpeng Bai, Baocai Yin, Xin Yang(参考訳) 既存のRGBベースのトラッカーのほとんどは、毎秒約30フレームの低フレームレートベンチマークをターゲットにしている。 この設定は、特に高速モーションのために、現実世界におけるトラッカーの機能を制限する。 バイオインスパイアされたセンサーとしてのイベントベースのカメラは、時間分解能が高いため、高いフレームレート追跡にかなりの可能性をもたらす。 しかし、イベントベースのカメラは、従来のカメラのようなきめ細かいテクスチャ情報を提供できない。 この特異な相補性は、様々な困難条件下での高フレームレート物体追跡のために、従来のフレームとイベントを組み合わせる動機となる。 本稿では,マルチモダリティアライメントと融合モジュールからなるエンド・ツー・エンドネットワークを提案する。 アライメントモジュールは、イベントによって提供される移動キューのガイダンスの下で、フレームとイベントモダリティ間のクロススタイルおよびクロスフレームレートアライメントを担っている。 融合モジュールは、貴重な特徴を強調し、2つのモダリティ間の相互補完によってノイズ情報を抑制する責任を負う。 大規模な実験により,提案手法は高フレームレートトラッキングにおいて,最先端トラッカーよりも優れた性能を示した。 fe240hzデータセットでは、240hzまでの高フレームレートトラッキングを実現する。

Most existing RGB-based trackers target low frame rate benchmarks of around 30 frames per second. This setting restricts the tracker's functionality in the real world, especially for fast motion. Event-based cameras as bioinspired sensors provide considerable potential for high frame rate tracking due to their high temporal resolution. However, event-based cameras cannot offer fine-grained texture information like conventional cameras. This unique complementarity motivates us to combine conventional frames and events for high frame rate object tracking under various challenging conditions. Inthispaper, we propose an end-to-end network consisting of multi-modality alignment and fusion modules to effectively combine meaningful information from both modalities at different measurement rates. The alignment module is responsible for cross-style and cross-frame-rate alignment between frame and event modalities under the guidance of the moving cues furnished by events. While the fusion module is accountable for emphasizing valuable features and suppressing noise information by the mutual complement between the two modalities. Extensive experiments show that the proposed approach outperforms state-of-the-art trackers by a significant margin in high frame rate tracking. With the FE240hz dataset, our approach achieves high frame rate tracking up to 240Hz.
翻訳日:2023-05-26 17:44:24 公開日:2023-05-25
# RewriteLM: テキスト書き換えのための命令付き大規模言語モデル

RewriteLM: An Instruction-Tuned Large Language Model for Text Rewriting ( http://arxiv.org/abs/2305.15685v1 )

ライセンス: Link先を確認
Lei Shu, Liangchen Luo, Jayakumar Hoskere, Yun Zhu, Canoee Liu, Simon Tong, Jindong Chen, Lei Meng(参考訳) 大言語モデル(LLM)は、自然言語命令によって表現される長文生成タスクにおいて、印象的なゼロショット機能を示している。 しかし、長文テキストの書き直しに対するユーザの期待は高く、モデルが生成した意図しない書き直し('hallucinations'')は全体的なパフォーマンスに悪影響を及ぼす可能性がある。 既存の評価ベンチマークは主に、長い形式のオープンエンドリライトではなく、限定的なリライトスタイルと文レベルのリライトに重点を置いており、我々は、自然言語命令によって表現される多種多様なリライトタイプをカバーする新しいベンチマークであるOpenRewriteEvalを紹介した。 長文のオープン・エンド・リライトの評価を容易にするよう特別に設計されている。 さらに,長文書き起こしのための命令調整型大規模言語モデルであるRewriteLMを提案する。 我々は,人間の介入を最小限に抑えつつ,多様な指示や嗜好データの生成を促進する新しい戦略を開発する。 我々は経験的な実験を行い、このモデルが現在のテキスト書き換えにおける最先端のllmを上回ることを実証する。 具体的には、原文の本質的内容と意味を保存し、「ハロシン化」コンテンツの生成を最小限に抑えつつ、多種多様な語句や構造で書き直しを生成する能力を示す。

Large Language Models (LLMs) have demonstrated impressive zero-shot capabilities in long-form text generation tasks expressed through natural language instructions. However, user expectations for long-form text rewriting is high, and unintended rewrites (''hallucinations'') produced by the model can negatively impact its overall performance. Existing evaluation benchmarks primarily focus on limited rewriting styles and sentence-level rewriting rather than long-form open-ended rewriting.We introduce OpenRewriteEval, a novel benchmark that covers a wide variety of rewriting types expressed through natural language instructions. It is specifically designed to facilitate the evaluation of open-ended rewriting of long-form texts. In addition, we propose a strong baseline model, RewriteLM, an instruction-tuned large language model for long-form text rewriting. We develop new strategies that facilitate the generation of diverse instructions and preference data with minimal human intervention. We conduct empirical experiments and demonstrate that our model outperforms the current state-of-the-art LLMs in text rewriting. Specifically, it excels in preserving the essential content and meaning of the source text, minimizing the generation of ''hallucinated'' content, while showcasing the ability to generate rewrites with diverse wording and structures.
翻訳日:2023-05-26 17:44:09 公開日:2023-05-25
# テキスト分類における注意バイアスに対する摂動に基づく自己監督的注意

Perturbation-based Self-supervised Attention for Attention Bias in Text Classification ( http://arxiv.org/abs/2305.15684v1 )

ライセンス: Link先を確認
Huawen Feng, Zhenxi Lin, Qianli Ma(参考訳) テキスト分類では、従来の注意機構は通常、頻繁な単語に重きを置きすぎ、学習するには広範囲のラベル付きデータが必要である。 本稿では,アノテーションのオーバーヘッドを伴わずに注意学習を指導するための摂動型自己教師付き注意手法を提案する。 具体的には、文中のすべての単語に可能な限り多くのノイズを加え、その意味や予測を変更します。 我々は、より多くのノイズを許容する単語は重要度が低く、この情報を用いて注意分布を洗練できると仮定する。 3つのテキスト分類タスクにおける実験結果は,現在の注意に基づくモデルの性能を著しく向上させ,既存の自己教師あり手法よりも効果的であることを示す。 また,提案手法の有効性を検証するための可視化分析を行う。

In text classification, the traditional attention mechanisms usually focus too much on frequent words, and need extensive labeled data in order to learn. This paper proposes a perturbation-based self-supervised attention approach to guide attention learning without any annotation overhead. Specifically, we add as much noise as possible to all the words in the sentence without changing their semantics and predictions. We hypothesize that words that tolerate more noise are less significant, and we can use this information to refine the attention distribution. Experimental results on three text classification tasks show that our approach can significantly improve the performance of current attention-based models, and is more effective than existing self-supervised methods. We also provide a visualization analysis to verify the effectiveness of our approach.
翻訳日:2023-05-26 17:43:47 公開日:2023-05-25
# 多モードオプティメカルシステムにおける例外点の確率-円周

Proximity-encirclement of exceptional points in a multimode optomechanical system ( http://arxiv.org/abs/2305.15682v1 )

ライセンス: Link先を確認
Zheng Fan, Dan Long, Xuan Mao, Guo-Qing Qin,{Min Wang, Gui-Qin Li, Gui-Lu Long(参考訳) 2階の例外点(EP)を動的に囲むことはキラル状態伝達を示すが、複数の高階のEPを動的に囲む研究はほとんどない。 本稿では,高次非エルミート系の閉路進化を理解するために,多モードオプティメカルシステムにおけるEPの近接包囲について検討する。 光学系はEPに関して3種類の状況を持つ: システムはEPを持たない、二階のEPは1つ、三階のEPは1つである。 ループの初期状態,向き,速度に対するシステムの依存性の動的挙動,ループの開始点における分散,ループが囲むepの数と順序について,状態伝達過程において検討した。 その結果, 2次EPを異なる半径で囲むループでは, キラルあるいは非相互状態移動が実現可能であることがわかった。 2階のEPを囲むときにのみキラル状態転移が起こる。 さらに、キラルおよび非相互状態移動は、3階EPを囲む単一のループで起こる。 多モード光学系におけるEPを囲む現象は、高次非エルミート系の状態移動を操作する別の手段となる。

Dynamic encircling a second-order exception point (EP) exhibit chiral state transfer, while there is few research on dynamic encircling multiple and higher-order EPs. Here, we study proximity-encirclement of the EPs in a multimode optomechanical system to understand the closed path evolution of high-order non-Hermitian systems. The optomechanical system has three types of situations about EPs: the system has no EP, a pair of second-order EPs, and a third-order EP. The dynamical behavior of the system's dependence on the initial state, orientation, and velocity of the loop, the variance in the starting point of the loop, as well as the number and order of EPs encircled by the loop have been investigated in the process of state transfer. The results show that chiral or non-reciprocal state transfer can be realized when the loop encircling a second-order EP with different radius. Only chiral state transfer occurs when encircling two second-order EPs. Moreover, chiral and non-reciprocal state transfer can happen in a single loop encircling a third-order EP. The phenomena about encircling the EPs in a multimode optomechanical system provides another means for manipulating state transfer in higher-order non-Hermitian systems.
翻訳日:2023-05-26 17:43:34 公開日:2023-05-25
# 量子自己アテンション機構の自然なNISQモデル

A natural NISQ model of quantum self-attention mechanism ( http://arxiv.org/abs/2305.15680v1 )

ライセンス: Link先を確認
Shangshang Shi, Zhimin Wang, Jiaxin Li, Yanan Li, Ruimin Shang, Haiyong Zheng, Guoqiang Zhong, Yongjian Gu(参考訳) SAM(Self-attention mechanism)は様々な応用において顕著な成功を収めている。 しかし,従来のコンピュータ上でのSAMのトレーニングは,トレーニング可能なパラメータの数が増加するにつれて,計算的に困難になる。 量子ニューラルネットワーク(QNN)は、NISQ(Noisy Intermediate-Scale Quantum)コンピュータを用いてパターン認識の高速化を提供する新しい学習モデルとして開発された。 本研究では,QNNにSAMを実装する方法として,量子自己保持機構(QSAM)を提案する。 SAMの基本動作、例えば注意スコアの計算や注意特徴の生成は、データエンコーディングとアンザッツアーキテクチャを適切に設計することで実現される。 これらがQNNの基本コンポーネントであるため、我々のQSAMはNISQデバイス上で効率的に実行できる。 我々のQSAMモデルは、テキスト分類タスクにおける精度と回路の複雑さの両方の観点から、より良い性能を達成する。 さらに、様々な種類の量子ノイズに対するQSAMの堅牢性を示し、NISQデバイスに対するモデルの適合性を示す。 現在のQSAMは、量子優位アプリケーションのための量子注意ニューラルネットワークの大規模モデルを開発するための基本的な構成要素として機能する。

The self-attention mechanism (SAM) has demonstrated remarkable success in various applications. However, training SAM on classical computers becomes computationally challenging as the number of trainable parameters grows. Quantum neural networks (QNNs) have been developed as a novel learning model that promises to provide speedup for pattern recognition using near-term Noisy Intermediate-Scale Quantum (NISQ) computers. In this work, we propose a completely natural way of implementing SAM in QNNs, resulting in the quantum self-attention mechanism (QSAM). The fundamental operations of SAM, such as calculating attention scores and producing attention features, are realized by only designing the data encoding and ansatz architecture appropriately. As these are the fundamental components of QNNs, our QSAM can be executed efficiently on near-term NISQ devices. Our QSAM models achieve better performance in terms of both accuracy and circuit complexity on the text categorization task. Moreover, the robustness of QSAM against various typical types of quantum noise is demonstrated, indicating the model's suitability for NISQ devices. The present QSAM will serve as the fundamental building blocks for developing large models of quantum attention neural networks for quantum advantageous applications.
翻訳日:2023-05-26 17:43:11 公開日:2023-05-25
# ビデオコピーセグメントマッチングにおける類似性アライメントモデル

A Similarity Alignment Model for Video Copy Segment Matching ( http://arxiv.org/abs/2305.15679v1 )

ライセンス: Link先を確認
Zhenhua Liu, Feipeng Ma, Tianyi Wang, Fengyun Rao(参考訳) マルチメディア技術の発展に伴い、ソーシャルメディアプラットフォームではビデオコピー検出が重要な問題となっている。 Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。 このレポートでは、Matching Trackで勝者のソリューションを共有します。 ビデオコピーセグメントマッチングのための類似性アライメントモデル(SAM)を提案する。 SAMは,第1フェーズ/第2フェーズにおいて第2フェーズの競合より0.108/0.144の絶対的な改善を施し,他の競合よりも優れた性能を示している。 コードはhttps://github.com/FeipengMa6/VSC22-Submission/tree/main/VSC22-Matching-Track-1stで公開されている。

With the development of multimedia technology, Video Copy Detection has been a crucial problem for social media platforms. Meta AI hold Video Similarity Challenge on CVPR 2023 to push the technology forward. In this report, we share our winner solutions on Matching Track. We propose a Similarity Alignment Model(SAM) for video copy segment matching. Our SAM exhibits superior performance compared to other competitors, with a 0.108 / 0.144 absolute improvement over the second-place competitor in Phase 1 / Phase 2. Code is available at https://github.com/FeipengMa6/VSC22-Submission/tree/main/VSC22-Matching-Track-1st.
翻訳日:2023-05-26 17:42:52 公開日:2023-05-25
# 非英語テキストの単純化を再考する:統一多言語ベンチマーク

Revisiting non-English Text Simplification: A Unified Multilingual Benchmark ( http://arxiv.org/abs/2305.15678v1 )

ライセンス: Link先を確認
Michael J. Ryan, Tarek Naous, Wei Xu(参考訳) 高品質で大規模な英語リソースの進歩は、英語自動テキスト単純化(ATS)研究のフロンティアを押し進めている。 しかし、多くの言語で複雑な文対をカバーする多言語評価ベンチマークが欠如しているため、多言語テキストの単純化に関する作業は少ない。 本稿では,12言語に170万以上の複合文対を含む27のリソースの集合であるMultiSimベンチマークを紹介する。 このベンチマークは、より効果的な多言語テキスト単純化モデルと評価メトリクスを開発する研究を促進する。 事前学習した多言語言語モデルを用いたMultiSimを用いた実験により,非英語環境での多言語学習によるエキサイティングな性能向上が示された。 低リソース言語へのゼロショット言語間転送において、ロシア語から強いパフォーマンスを観察する。 さらに,BLOOM-176b による少数ショットプロンプトは,ほとんどの言語で微調整モデルよりも優れた参照単純化に匹敵する品質が得られることを示す。 これらの知見を人的評価により検証する。

Recent advancements in high-quality, large-scale English resources have pushed the frontier of English Automatic Text Simplification (ATS) research. However, less work has been done on multilingual text simplification due to the lack of a diverse evaluation benchmark that covers complex-simple sentence pairs in many languages. This paper introduces the MultiSim benchmark, a collection of 27 resources in 12 distinct languages containing over 1.7 million complex-simple sentence pairs. This benchmark will encourage research in developing more effective multilingual text simplification models and evaluation metrics. Our experiments using MultiSim with pre-trained multilingual language models reveal exciting performance improvements from multilingual training in non-English settings. We observe strong performance from Russian in zero-shot cross-lingual transfer to low-resource languages. We further show that few-shot prompting with BLOOM-176b achieves comparable quality to reference simplifications outperforming fine-tuned models in most languages. We validate these findings through human evaluation.
翻訳日:2023-05-26 17:42:45 公開日:2023-05-25
# 非線形二部出力制御とチューリングパターンへの応用

Nonlinear Bipartite Output Regulation with Application to Turing Pattern ( http://arxiv.org/abs/2305.15677v1 )

ライセンス: Link先を確認
Dong Liang, Martin Guay, Shimin Wang(参考訳) 本稿では,静的符号付き通信ネットワークを対象とする非線形マルチエージェントシステムに対して,二成分出力制御問題を解く。 非線形分散オブザーバを協調競合相互作用を持つ非線形エクソシステムに対して提案し,この問題に対処する。 十分な条件が与えられ、その存在と安定性が保証される。 観測者の指数安定性が確立される。 実践的な応用として、オブザーバに基づく非線形マルチエージェントシステムのクラスに対して、リーダー追従二部構成のコンセンサス問題を解く。 最後に,複数の振り子システムのネットワークを用いて,提案する設計の実現可能性について検討する。 特定のチューリングパターンを生成するアプローチの応用の可能性についても述べる。

In this paper, a bipartite output regulation problem is solved for a class of nonlinear multi-agent systems subject to static signed communication networks. A nonlinear distributed observer is proposed for a nonlinear exosystem with cooperation-competition interactions to address the problem. Sufficient conditions are provided to guarantee its existence and stability. The exponential stability of the observer is established. As a practical application, a leader-following bipartite consensus problem is solved for a class of nonlinear multi-agent systems based on the observer. Finally, a network of multiple pendulum systems is treated to support the feasibility of the proposed design. The possible application of the approach to generate specific Turing patterns is also presented.
翻訳日:2023-05-26 17:42:32 公開日:2023-05-25
# pfedsim: パーソナライズされた連合学習への類似性認識モデルアグリゲーション

pFedSim: Similarity-Aware Model Aggregation Towards Personalized Federated Learning ( http://arxiv.org/abs/2305.15706v1 )

ライセンス: Link先を確認
Jiahao Tan, Yipeng Zhou, Gang Liu, Jessie Hui Wang, Shui Yu(参考訳) フェデレートラーニング(FL)パラダイムは、オリジナルのデータではなく、クライアントのモデルパラメータのみを公開することによって、モデルトレーニング中のデータのプライバシを保護するために出現する。 FLの最大の課題の1つは、クライアントに分散された非IID(同一で独立に分散されていない)データ(すなわちデータ不均一性)である。 この課題に対処するために、類似性に基づくアグリゲーションやモデルデカップリングなど、様々なパーソナライズされたFL(pFL)手法を提案する。 前者は、同様のデータ分散のクライアントからモデルを集約する。 後に、ニューラルネットワーク(NN)モデルを特徴抽出器と分類器に分離する。 パーソナライゼーションは、ローカルトレーニングによって得られる分類器によって取得される。 そこで本研究では,これら2種類の手法を組み合わせて,pFedSim(モデル類似性に基づくpFL)アルゴリズムを提案する。 具体的には、NNモデルを、類似したクライアントからモデルを集約して得られるパーソナライズされた特徴抽出器と、ローカルトレーニングによって取得され、クライアントの類似性を推定するために使用される分類器とに分離する。 最先端のベースラインと比較して、pFedSimの利点は以下のとおりである。 1) モデル精度が大幅に向上した。 2) 通信の低さ及び計算オーバーヘッド 3) プライバシリークのリスクが低いこと。 4) 外部の公開情報に対する要件はない。 pFedSimの優位性を示すために、実際のデータセット上で広範な実験を行う。 その結果, 様々な異種データ設定下で, ベースラインを著しく上回り得るアルゴリズムの性能を検証した。

The federated learning (FL) paradigm emerges to preserve data privacy during model training by only exposing clients' model parameters rather than original data. One of the biggest challenges in FL lies in the non-IID (not identical and independently distributed) data (a.k.a., data heterogeneity) distributed on clients. To address this challenge, various personalized FL (pFL) methods are proposed such as similarity-based aggregation and model decoupling. The former one aggregates models from clients of a similar data distribution. The later one decouples a neural network (NN) model into a feature extractor and a classifier. Personalization is captured by classifiers which are obtained by local training. To advance pFL, we propose a novel pFedSim (pFL based on model similarity) algorithm in this work by combining these two kinds of methods. More specifically, we decouple a NN model into a personalized feature extractor, obtained by aggregating models from similar clients, and a classifier, which is obtained by local training and used to estimate client similarity. Compared with the state-of-the-art baselines, the advantages of pFedSim include: 1) significantly improved model accuracy; 2) low communication and computation overhead; 3) a low risk of privacy leakage; 4) no requirement for any external public information. To demonstrate the superiority of pFedSim, extensive experiments are conducted on real datasets. The results validate the superb performance of our algorithm which can significantly outperform baselines under various heterogeneous data settings.
翻訳日:2023-05-26 17:35:00 公開日:2023-05-25
# 分布的であることの利点:強化学習のための小損失限度

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning ( http://arxiv.org/abs/2305.15703v1 )

ライセンス: Link先を確認
Kaiwen Wang and Kevin Zhou and Runzhe Wu and Nathan Kallus and Wen Sun(参考訳) 分散強化学習(RL)は経験的成功を示しているが,いつ,なぜ有用かという疑問は未解決のままである。 本研究では,インスタンス依存の最適コストでスケールする小空間境界レンズによる分布RLの利点について説明する。 最適コストが小さい場合、我々の境界は非分配的アプローチのそれよりも強い。 ウォームアップとして、コスト分布の学習は文脈的バンディット(cb)に小さな損失をもたらすことを示し、分布型cbは3つの困難なタスクにおいて経験的に最先端を上回っていることを見出した。 オンラインrlでは,最大確率推定を用いて信頼セットを構成する分布型バージョン空間アルゴリズムを提案し,テーブル型mdpにおいて小損失の後悔を達成し,潜在変数モデルにおける小損失pac境界を享受できることを実証する。 同様の知見に基づいて,ペシミズム原理に基づく分布的オフラインrlアルゴリズムを提案し,新たなロバスト性を示す小損失pac境界を享受することを示す。 オンラインとオフラインの両方のrlに対して、この結果は、意思決定の手段だけが必要な場合であっても、学習分布の最初の理論的利点を提供します。

While distributional reinforcement learning (RL) has demonstrated empirical success, the question of when and why it is beneficial has remained unanswered. In this work, we provide one explanation for the benefits of distributional RL through the lens of small-loss bounds, which scale with the instance-dependent optimal cost. If the optimal cost is small, our bounds are stronger than those from non-distributional approaches. As warmup, we show that learning the cost distribution leads to small-loss regret bounds in contextual bandits (CB), and we find that distributional CB empirically outperforms the state-of-the-art on three challenging tasks. For online RL, we propose a distributional version-space algorithm that constructs confidence sets using maximum likelihood estimation, and we prove that it achieves small-loss regret in the tabular MDPs and enjoys small-loss PAC bounds in latent variable models. Building on similar insights, we propose a distributional offline RL algorithm based on the pessimism principle and prove that it enjoys small-loss PAC bounds, which exhibit a novel robustness property. For both online and offline RL, our results provide the first theoretical benefits of learning distributions even when we only need the mean for making decisions.
翻訳日:2023-05-26 17:34:36 公開日:2023-05-25
# 時間的行動定位のための行動感性学習

Action Sensitivity Learning for Temporal Action Localization ( http://arxiv.org/abs/2305.15701v1 )

ライセンス: Link先を確認
Jiayi Shao and Xiaohan Wang and Ruijie Quan and Junjun Zheng and Jiang Yang and Yi Yang(参考訳) アクションインスタンスの認識と位置決めを含む時間的アクションローカライゼーション(TAL)は、ビデオ理解において難しい課題である。 既存のほとんどのアプローチは、各フレームの相違する重要性を見越しながら、アクションクラスを直接予測し、境界へのオフセットを回帰する。 本稿では,この課題に取り組むためのアクションセンシティブ学習フレームワーク(asl)を提案する。このフレームワークは各フレームの価値を評価し,生成されたアクションセンシティブを活用してトレーニング手順を再調整することを目的としている。 まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。 2つの枝の出力を結合して、2つのサブタスクの勾配を再重み付けする。 さらに, 各フレームの動作感度に基づいて, 動作認識フレームを正のペアとしてサンプリングし, 動作関連フレームの押し出しを行う機能向上のために, 行動感性コントラスト損失を設計する。 様々なアクションローカライゼーションベンチマーク(MultiThumos、Charades、Ego4D-Moment Queries v1.0、Epic-Kitchens 100、Thumos14、ActivityNet1.3)の研究は、ASLが平均mAPの点において、複数のシナリオ(例えばシングルラベル、密ラベル、エゴセントリック)で最先端の状態を超越していることを示している。

Temporal action localization (TAL), which involves recognizing and locating action instances, is a challenging task in video understanding. Most existing approaches directly predict action classes and regress offsets to boundaries, while overlooking the discrepant importance of each frame. In this paper, we propose an Action Sensitivity Learning framework (ASL) to tackle this task, which aims to assess the value of each frame and then leverage the generated action sensitivity to recalibrate the training procedure. We first introduce a lightweight Action Sensitivity Evaluator to learn the action sensitivity at the class level and instance level, respectively. The outputs of the two branches are combined to reweight the gradient of the two sub-tasks. Moreover, based on the action sensitivity of each frame, we design an Action Sensitive Contrastive Loss to enhance features, where the action-aware frames are sampled as positive pairs to push away the action-irrelevant frames. The extensive studies on various action localization benchmarks (i.e., MultiThumos, Charades, Ego4D-Moment Queries v1.0, Epic-Kitchens 100, Thumos14 and ActivityNet1.3) show that ASL surpasses the state-of-the-art in terms of average-mAP under multiple types of scenarios, e.g., single-labeled, densely-labeled and egocentric.
翻訳日:2023-05-26 17:34:13 公開日:2023-05-25
# オープンワールド環境における意味的シーン理解への公平連続学習アプローチ

Fairness Continual Learning Approach to Semantic Scene Understanding in Open-World Environments ( http://arxiv.org/abs/2305.15700v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Hoang-Quan Nguyen, Bhiksha Raj, Khoa Luu(参考訳) 連続的なセマンティックセグメンテーションは、以前のクラスからの情報を維持しながら新しいクラスを学ぶことを目的としている。 先行研究は近年顕著な進歩を見せているが、連続的なセマンティックセグメンテーションにおける公平性の懸念に対処する必要がある。 一方、フェアネスはディープラーニングモデルをデプロイする上で、特に人間や安全に関するアプリケーションにおいて、最も重要な要素の1つです。 本稿では,意味的セグメンテーション問題に対するフェアネス連続学習手法を提案する。 特に、フェアネス目標の下では、クラス分布に基づく新しいフェアネス連続学習フレームワークが提案されている。 次に,連続学習における重要な課題,すなわち破滅的な忘れ方と背景シフトに対処するために,新しい先駆的コントラストクラスタリング損失を提案する。 提案した損失は, 継続学習によく用いられる知識蒸留の新たな一般化学習パラダイムとして証明されている。 さらに,提案した条件構造整合性損失は,予測セグメンテーションの構造制約をさらに規則化した。 提案手法は,ADE20K,Cityscapes,Pascal VOCの3つの標準シーン理解ベンチマーク上での最先端性能を実現し,セグメンテーションモデルの公平性を向上した。

Continual semantic segmentation aims to learn new classes while maintaining the information from the previous classes. Although prior studies have shown impressive progress in recent years, the fairness concern in the continual semantic segmentation needs to be better addressed. Meanwhile, fairness is one of the most vital factors in deploying the deep learning model, especially in human-related or safety applications. In this paper, we present a novel Fairness Continual Learning approach to the semantic segmentation problem. In particular, under the fairness objective, a new fairness continual learning framework is proposed based on class distributions. Then, a novel Prototypical Contrastive Clustering loss is proposed to address the significant challenges in continual learning, i.e., catastrophic forgetting and background shift. Our proposed loss has also been proven as a novel, generalized learning paradigm of knowledge distillation commonly used in continual learning. Moreover, the proposed Conditional Structural Consistency loss further regularized the structural constraint of the predicted segmentation. Our proposed approach has achieved State-of-the-Art performance on three standard scene understanding benchmarks, i.e., ADE20K, Cityscapes, and Pascal VOC, and promoted the fairness of the segmentation model.
翻訳日:2023-05-26 17:33:42 公開日:2023-05-25
# 自我的視点から自我的視点へ向けたクロスビュー行動認識

Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective ( http://arxiv.org/abs/2305.15699v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Khoa Luu(参考訳) エゴセントリックビデオにおける行動認識の理解は、多くの実用的応用を伴う重要な研究課題として浮上している。 エゴセントリックなデータ収集の規模が制限されているため、ディープラーニングベースの行動認識モデルの学習は依然として困難である。 大規模なエキソセントリックデータから学習した知識をエゴセントリックデータに移すことは、ビュー間のビデオの違いにより困難である。 本研究は,エゴセントリックな視点からエゴセントリックな視点へ知識を効果的に伝達する,行動認識のための新しいクロスビュー学習手法を提案する。 まず,2つのビュー間のカメラ位置の分析に基づいて,トランスフォーマーの自己注意機構に幾何学的制約を導入する。 そこで本研究では,非ペア型クロスビューデータから学習した新たなクロスビュー・セルフアテンションロスを提案する。 最後に,クロスビュー学習手法の性能をさらに向上させるために,ビデオとアテンションマップの相関を効果的に計測する指標を提案する。 Charades-Ego, EPIC-Kitchens-55, EPIC-Kitchens-100などの標準自己中心型行動認識ベンチマークの実験結果から, 本手法の有効性と最先端性能が示された。

Understanding action recognition in egocentric videos has emerged as a vital research topic with numerous practical applications. With the limitation in the scale of egocentric data collection, learning robust deep learning-based action recognition models remains difficult. Transferring knowledge learned from the large-scale exocentric data to the egocentric data is challenging due to the difference in videos across views. Our work introduces a novel cross-view learning approach to action recognition (CVAR) that effectively transfers knowledge from the exocentric to the egocentric view. First, we introduce a novel geometric-based constraint into the self-attention mechanism in Transformer based on analyzing the camera positions between two views. Then, we propose a new cross-view self-attention loss learned on unpaired cross-view data to enforce the self-attention mechanism learning to transfer knowledge across views. Finally, to further improve the performance of our cross-view learning approach, we present the metrics to measure the correlations in videos and attention maps effectively. Experimental results on standard egocentric action recognition benchmarks, i.e., Charades-Ego, EPIC-Kitchens-55, and EPIC-Kitchens-100, have shown our approach's effectiveness and state-of-the-art performance.
翻訳日:2023-05-26 17:33:23 公開日:2023-05-25
# ディープラーニングテストの多様性を再考する

Rethink Diversity in Deep Learning Testing ( http://arxiv.org/abs/2305.15698v1 )

ライセンス: Link先を確認
Zi Wang, Jihye Choi, Somesh Jha(参考訳) ディープニューラルネットワーク(DNN)は異常な能力を示し、現代のソフトウェアシステムにおいて不可欠な部分である。 しかし、敵の攻撃や不公平など、さまざまな脆弱性も抱えている。 したがって、深層学習(DL)システムをテストすることは、これらの脆弱性を検出し、軽減するための重要なタスクである。 多様性ヒューリスティックをしばしば採用する従来のソフトウェアテストの成功によって、DNNのバギーな振る舞いを効果的に露呈するために、様々な多様性対策が提案されている。 本研究では,DNNテストタスクの多くを汎用的なテストタスクではなく,指向的なテスト問題として扱うべきであると論じる。 したがって、多様性に基づくアプローチは効果が低い。 DNNのセマンティクスとテスト目標に基づく議論に続いて、DNNのテストに使用できる6ドルのメトリクスを導き、アプリケーションのスコープを慎重に分析します。 最近の多様性に基づく指標と比較して,DNNにおけるバグの暴露効果を実証的に示す。 さらに,ソフトウェア工学(SE)コミュニティの実践とDLコミュニティとの相違点も指摘する。 これらのギャップのいくつかを指摘し、このことがSEの実践とDLの発見を橋渡しに繋がることを期待しています。

Deep neural networks (DNNs) have demonstrated extraordinary capabilities and are an integral part of modern software systems. However, they also suffer from various vulnerabilities such as adversarial attacks and unfairness. Testing deep learning (DL) systems is therefore an important task, to detect and mitigate those vulnerabilities. Motivated by the success of traditional software testing, which often employs diversity heuristics, various diversity measures on DNNs have been proposed to help efficiently expose the buggy behavior of DNNs. In this work, we argue that many DNN testing tasks should be treated as directed testing problems rather than general-purpose testing tasks, because these tasks are specific and well-defined. Hence, the diversity-based approach is less effective. Following our argument based on the semantics of DNNs and the testing goal, we derive $6$ metrics that can be used for DNN testing and carefully analyze their application scopes. We empirically show their efficacy in exposing bugs in DNNs compared to recent diversity-based metrics. Moreover, we also notice discrepancies between the practices of the software engineering (SE) community and the DL community. We point out some of these gaps, and hopefully, this can lead to bridging the SE practice and DL findings.
翻訳日:2023-05-26 17:32:59 公開日:2023-05-25
# プライバシー保護性:情報理論的アプローチ

Privacy Protectability: An Information-theoretical Approach ( http://arxiv.org/abs/2305.15697v1 )

ライセンス: Link先を確認
Siping Shi and Bihai Zhang and Dan Wang(参考訳) 近年,推論プライバシが注目されている。 クラウドがエッジから撮影したビデオを必要とするエッジクラウドビデオ分析システムにおいて、最も注目すべきは推論のプライバシに関する懸念だ。 ビデオデータは、機密情報を含み、推測のためにクラウドに送信された際に攻撃を受けることができる。 多くのプライバシー保護制度が提案されている。 しかし、スキームの性能は実験によって決定するか、特定のケースを分析して推測する必要がある。 本稿では,あるビデオ分析タスクにおいて,ビデオストリームをどの程度保護できるかを特徴付けるための新しい指標である「textit{privacy protectability}」を提案する。 そのような計量は強い操作的意味を持つ。 例えば、低い保護性は、全体的な安全な環境を構築する必要があることを意味する。 プライバシー保護スキームの評価も可能である。例えば、ビデオデータが難読化されると仮定し、このスキームが難解化後に達成した保護レベルを評価する。 プライバシ保護性の定義は情報理論に根ざし,メトリックを推定する効率的なアルゴリズムを開発した。 実データを用いた実験によって、ビデオストリームがビデオ分析タスクに対してどの程度保護できるか、経験的測定値と一致しているかを確認します。

Recently, inference privacy has attracted increasing attention. The inference privacy concern arises most notably in the widely deployed edge-cloud video analytics systems, where the cloud needs the videos captured from the edge. The video data can contain sensitive information and subject to attack when they are transmitted to the cloud for inference. Many privacy protection schemes have been proposed. Yet, the performance of a scheme needs to be determined by experiments or inferred by analyzing the specific case. In this paper, we propose a new metric, \textit{privacy protectability}, to characterize to what degree a video stream can be protected given a certain video analytics task. Such a metric has strong operational meaning. For example, low protectability means that it may be necessary to set up an overall secure environment. We can also evaluate a privacy protection scheme, e.g., assume it obfuscates the video data, what level of protection this scheme has achieved after obfuscation. Our definition of privacy protectability is rooted in information theory and we develop efficient algorithms to estimate the metric. We use experiments on real data to validate that our metric is consistent with empirical measurements on how well a video stream can be protected for a video analytics task.
翻訳日:2023-05-26 17:32:38 公開日:2023-05-25
# k-Nearest Neighborによるデータセットドリフトと非IIDサンプリングの検出

Detecting Dataset Drift and Non-IID Sampling via k-Nearest Neighbors ( http://arxiv.org/abs/2305.15696v1 )

ライセンス: Link先を確認
Jesse Cummings, El\'ias Snorrason, Jonas Mueller(参考訳) 本稿では,データを独立分散(IID)と仮定して,一定の違反を検出するための統計テストを提案する。 特定の違反形態は、実世界のアプリケーションに共通する: サンプルがデータセットで順序づけられているか、ほぼ隣接する例は、より類似した特徴値を持つ傾向がある(例えば、分散ドリフトやデータポイント間の魅力的な相互作用)。 k-Nearest Neighborsの推定値に基づいて、我々の手法は、おそらくモデル埋め込みを用いて数値的に表現できる他のデータ型(画像、テキスト、オーディオなど)と同様に、任意の多変量数値データを監査することができる。 ドリフトや自己相関を検出する既存の手法と比較すると、このアプローチはより多くの種類のデータに適用でき、実際より幅広いiid違反を検出することができる。 コード: https://github.com/cleanlab/cleanlab

We present a straightforward statistical test to detect certain violations of the assumption that the data are Independent and Identically Distributed (IID). The specific form of violation considered is common across real-world applications: whether the examples are ordered in the dataset such that almost adjacent examples tend to have more similar feature values (e.g. due to distributional drift, or attractive interactions between datapoints). Based on a k-Nearest Neighbors estimate, our approach can be used to audit any multivariate numeric data as well as other data types (image, text, audio, etc.) that can be numerically represented, perhaps with model embeddings. Compared with existing methods to detect drift or auto-correlation, our approach is both applicable to more types of data and also able to detect a wider variety of IID violations in practice. Code: https://github.com/cleanlab/cleanlab
翻訳日:2023-05-26 17:32:17 公開日:2023-05-25
# 行動前:言語モデルを用いた身体決定における情報収集

Asking Before Action: Gather Information in Embodied Decision Making with Language Models ( http://arxiv.org/abs/2305.15695v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Shenao Zhang, Pushi Zhang, Li Zhao, Jianyu Chen(参考訳) 推論の強い能力と世界の一般的な理解により、Large Language Models (LLM) は多様なタスクを実行できる多種多様な具体的意思決定エージェントを構築する大きな可能性を示している。 しかし、不慣れな環境に展開すると、LLMエージェントは必要な情報を効率的に収集する上で困難に直面し、最適以下の性能をもたらす。 一方、なじみの無いシナリオでは、人間の個人は行動を起こす前に仲間から追加情報を求め、不必要な試行やエラーを避けるために外部知識を活用する。 この直観に基づいて、エージェントが環境における対話中に自然言語を用いて外部の情報源に積極的に問い合わせることのできる方法である \textit{asking before action} (aba)を提案する。 このようにして、無駄なステップを緩和し、不慣れな環境での探索に伴う困難を回避することにより、効率と性能を向上させることができる。 我々は,提案手法を具体化意思決定ベンチマークであるALFWorld上で実証的に評価し,提案手法がベースラインLLMエージェントを40ドル以上上回ることを示す。 ALFWorldの2つの変種に関するさらなる実験は、模倣学習によってABAがクエリや既知の情報を後続のタスクで効果的に保持し再利用し、反復的な問い合わせの必要性を軽減していることを示している。 定性的かつ定量的な結果は、以前の方法が解決に苦慮したタスクに顕著なパフォーマンスを示す。

With strong capabilities of reasoning and a generic understanding of the world, Large Language Models (LLMs) have shown great potential in building versatile embodied decision making agents capable of performing diverse tasks. However, when deployed to unfamiliar environments, we show that LLM agents face challenges in efficiently gathering necessary information, leading to suboptimal performance. On the other hand, in unfamiliar scenarios, human individuals often seek additional information from their peers before taking action, leveraging external knowledge to avoid unnecessary trial and error. Building upon this intuition, we propose \textit{Asking Before Action} (ABA), a method that empowers the agent to proactively query external sources for pertinent information using natural language during their interactions in the environment. In this way, the agent is able to enhance its efficiency and performance by mitigating wasteful steps and circumventing the difficulties associated with exploration in unfamiliar environments. We empirically evaluate our method on an embodied decision making benchmark, ALFWorld, and demonstrate that despite modest modifications in prompts, our method exceeds baseline LLM agents by more than $40$%. Further experiments on two variants of ALFWorld illustrate that by imitation learning, ABA effectively retains and reuses queried and known information in subsequent tasks, mitigating the need for repetitive inquiries. Both qualitative and quantitative results exhibit remarkable performance on tasks that previous methods struggle to solve.
翻訳日:2023-05-26 17:31:59 公開日:2023-05-25
# モノクロ3次元物体検出のための学習機能

Learning Occupancy for Monocular 3D Object Detection ( http://arxiv.org/abs/2305.15694v1 )

ライセンス: Link先を確認
Liang Peng, Junkai Xu, Haoran Cheng, Zheng Yang, Xiaopei Wu, Wei Qian, Wenxiao Wang, Boxi Wu, Deng Cai(参考訳) モノクロ3D検出は、正確な3D情報がないため難しい課題である。 既存のアプローチは、学習を容易にするために幾何学的制約と深い深さの推定に依存するが、フラスタムと3d空間における3次元特徴抽出の利点を十分に活用できないことが多い。 本稿では,モノクロ3D検出のための占有度学習法であるtextbf{OccupancyM3D}を提案する。 フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。 具体的には、同期された生のLiDAR点雲を用いて、空間状態を定義し、ボクセルベースの占有ラベルを生成する。 簡単な分類問題として占有予測を定式化し,それに伴う占有損失を設計する。 当初のフラストタル/3D特徴を高めるために、結果としての占有推定が使用される。 その結果,kittiとwaymo open datasetsを用いた実験により,提案手法が新たな最先端技術を実現し,他の手法を大幅に超えていることが示された。 コードと事前訓練されたモデルは、 \url{https://github.com/SPengLiang/OccupancyM3D}で利用できる。

Monocular 3D detection is a challenging task due to the lack of accurate 3D information. Existing approaches typically rely on geometry constraints and dense depth estimates to facilitate the learning, but often fail to fully exploit the benefits of three-dimensional feature extraction in frustum and 3D space. In this paper, we propose \textbf{OccupancyM3D}, a method of learning occupancy for monocular 3D detection. It directly learns occupancy in frustum and 3D space, leading to more discriminative and informative 3D features and representations. Specifically, by using synchronized raw sparse LiDAR point clouds, we define the space status and generate voxel-based occupancy labels. We formulate occupancy prediction as a simple classification problem and design associated occupancy losses. Resulting occupancy estimates are employed to enhance original frustum/3D features. As a result, experiments on KITTI and Waymo open datasets demonstrate that the proposed method achieves a new state of the art and surpasses other methods by a significant margin. Codes and pre-trained models will be available at \url{https://github.com/SPengLiang/OccupancyM3D}.
翻訳日:2023-05-26 17:31:33 公開日:2023-05-25
# リンクの学習: エンティティリンクにおけるNIL予測の探索

Learn to Not Link: Exploring NIL Prediction in Entity Linking ( http://arxiv.org/abs/2305.15725v1 )

ライセンス: Link先を確認
Fangwei Zhu, Jifan Yu, Hailong Jin, Juanzi Li, Lei Hou, Zhifang Sui(参考訳) エンティティリンクモデルは、事前訓練された言語モデルを使用してセマンティック機能をキャプチャすることで大きな成功を収めた。 しかし,知識ベースに該当しない言及を識別することを目的としたNIL予測問題は,あまり注目されていない。 我々はNILへのリンクをMissing EntityとNon-Entity Phraseに分類し、NIL予測問題に焦点を当てたエンティティリンクデータセットNELを提案する。 NELは曖昧な実体を種として取り、ウィキペディアのコーパスで関連する言及コンテキストを収集し、人間のアノテーションと実体マスキングによってNILにリンクする言及の存在を保証する。 我々は、広く使われているバイエンコーダとクロスエンコーダのエンティティリンクモデルを用いて一連の実験を行い、トレーニングデータにおけるNILの言及は、NIL予測の精度に大きな影響を及ぼすことを示した。 私たちのコードとデータセットはhttps://github.com/solitaryzero/NIL_ELでアクセスできます。

Entity linking models have achieved significant success via utilizing pretrained language models to capture semantic features. However, the NIL prediction problem, which aims to identify mentions without a corresponding entity in the knowledge base, has received insufficient attention. We categorize mentions linking to NIL into Missing Entity and Non-Entity Phrase, and propose an entity linking dataset NEL that focuses on the NIL prediction problem. NEL takes ambiguous entities as seeds, collects relevant mention context in the Wikipedia corpus, and ensures the presence of mentions linking to NIL by human annotation and entity masking. We conduct a series of experiments with the widely used bi-encoder and cross-encoder entity linking models, results show that both types of NIL mentions in training data have a significant influence on the accuracy of NIL prediction. Our code and dataset can be accessed at https://github.com/solitaryzero/NIL_EL
翻訳日:2023-05-26 17:27:04 公開日:2023-05-25
# 差動プライバシを併用したデータ所有者間の学習

Learning across Data Owners with Joint Differential Privacy ( http://arxiv.org/abs/2305.15723v1 )

ライセンス: Link先を確認
Yangsibo Huang, Haotian Jiang, Daogao Liu, Mohammad Mahdian, Jieming Mao, Vahab Mirrokni(参考訳) 本稿では,データ所有者が協調的差分プライバシー(kearns et al., 2018)と呼ばれるプライバシー概念の下で協調的に機械学習モデルを訓練する環境について検討する。 この設定では、各データ所有者のためにトレーニングされたモデル$j$は、プライバシを考慮せずに$j$のデータを使用する。 この設定は,線形回帰に着目した [Jain et al., 2021] で開始された。 本稿では,確率的凸最適化(SCO)について検討する。 我々はDP-SGDの変種であるアルゴリズム(Song et al., 2013; Abadi et al., 2016)を提案し、その人口減少に関する理論的境界を提供する。 我々はアルゴリズムをいくつかのベースラインと比較し、アルゴリズムがより望ましいパラメータ設定について論じる。 また、2つの公開データセット上の多クラス分類問題において、共同微分プライバシーを実証的に研究する。 我々の経験的発見は、理論的な結果から得られた洞察とよく結びついている。

In this paper, we study the setting in which data owners train machine learning models collaboratively under a privacy notion called joint differential privacy [Kearns et al., 2018]. In this setting, the model trained for each data owner $j$ uses $j$'s data without privacy consideration and other owners' data with differential privacy guarantees. This setting was initiated in [Jain et al., 2021] with a focus on linear regressions. In this paper, we study this setting for stochastic convex optimization (SCO). We present an algorithm that is a variant of DP-SGD [Song et al., 2013; Abadi et al., 2016] and provides theoretical bounds on its population loss. We compare our algorithm to several baselines and discuss for what parameter setups our algorithm is more preferred. We also empirically study joint differential privacy in the multi-class classification problem over two public datasets. Our empirical findings are well-connected to the insights from our theoretical results.
翻訳日:2023-05-26 17:26:38 公開日:2023-05-25
# 符号混合ヒンディー語データに対する事前学習BERTモデルの比較検討

Comparative Study of Pre-Trained BERT Models for Code-Mixed Hindi-English Data ( http://arxiv.org/abs/2305.15722v1 )

ライセンス: Link先を確認
Aryan Patil, Varad Patwardhan, Abhishek Phaltankar, Gauri Takawane, Raviraj Joshi(参考訳) コード混合」という用語は、同じテキストで複数の言語を使用することを指す。 この現象は、主にソーシャルメディアプラットフォームで観察され、時間が経つにつれて順応が増加している。 かなりの数の人が、それらの言語の1つを理解することで理解できないコード混合言語を使用しているため、言語の外部要素を検出し、それらを正しく処理することが重要である。 本研究では,低リソースのヒンズー英語コード混合言語に注目し,感情分析,感情認識,ヘイトスピーチ認識など,異なるコード混合自然言語処理タスクの性能を向上させる。 教師なしアプローチを用いて事前学習したトランスフォーマー言語モデルの比較分析を行う。 我々は、コードミックスされたHingBERT、HingRoBERTa、HingRoBERTa-Mixed、mBERT、コードミックスされたAlBERT、BERT、RoBERTaといった非コードミックスモデルを含む。 我々は,HingBERTベースのモデルを用いて,実コード混合テキストで事前学習した各データセットの最先端結果について報告する。 HingBERTベースのモデルは大幅に改善され、コードミックステキスト上でのバニラBERTモデルの低パフォーマンスが強調されます。

The term "Code Mixed" refers to the use of more than one language in the same text. This phenomenon is predominantly observed on social media platforms, with an increasing amount of adaptation as time goes on. It is critical to detect foreign elements in a language and process them correctly, as a considerable number of individuals are using code-mixed languages that could not be comprehended by understanding one of those languages. In this work, we focus on low-resource Hindi-English code-mixed language and enhancing the performance of different code-mixed natural language processing tasks such as sentiment analysis, emotion recognition, and hate speech identification. We perform a comparative analysis of different Transformer-based language Models pre-trained using unsupervised approaches. We have included the code-mixed models like HingBERT, HingRoBERTa, HingRoBERTa-Mixed, mBERT, and non-code-mixed models like AlBERT, BERT, and RoBERTa for comparative analysis of code-mixed Hindi-English downstream tasks. We report state-of-the-art results on respective datasets using HingBERT-based models which are specifically pre-trained on real code-mixed text. Our HingBERT-based models provide significant improvements thus highlighting the poor performance of vanilla BERT models on code-mixed text.
翻訳日:2023-05-26 17:26:07 公開日:2023-05-25
# 効率的なニューラルミュージック生成

Efficient Neural Music Generation ( http://arxiv.org/abs/2305.15719v1 )

ライセンス: Link先を確認
Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang(参考訳) 近年,3つのLMの階層構造を持つ最先端のMusicLMによって,意味的,粗い音響的,微妙な音響的モデリングにおいて,音楽生成の進歩が著しく進んでいる。 しかし、musiclmによるサンプリングには、細粒度の音響トークンを取得するために、これらのlmsを1つずつ処理する必要がある。 MusicLMと同等品質の効率的な音楽生成は依然として大きな課題である。 本稿では,MusicLMにおける95.7%,99.6%の前方パスを削減しつつ,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D,拡散用D)を提案する。 メロディは、セマンティクスモデリングのためにmusiclmから最高レベルのlmを継承し、新しいデュアルパス拡散(dpd)モデルとオーディオvae-ganを適用し、コンディショニングセマンティクストークンを波形に効率的に復号する。 DPDは, 各聴覚ステップにおいて, 係り受けのセグメントに意味情報を効果的に組み込むことにより, 粗音と微音を同時にモデル化することを提案する。 実験結果から,サンプリング速度と無限連続生成におけるMeLoDyの実用的優位性だけでなく,最先端の音楽性,音質,テキスト相関性にも優位性があることが示唆された。 サンプルはhttps://Efficient-MeLoDy.github.io/で公開しています。

Recent progress in music generation has been remarkably advanced by the state-of-the-art MusicLM, which comprises a hierarchy of three LMs, respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet, sampling with the MusicLM requires processing through these LMs one by one to obtain the fine-grained acoustic tokens, making it computationally expensive and prohibitive for a real-time generation. Efficient music generation with a quality on par with MusicLM remains a significant challenge. In this paper, we present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion model that generates music audios of state-of-the-art quality meanwhile reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling 10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for semantic modeling, and applies a novel dual-path diffusion (DPD) model and an audio VAE-GAN to efficiently decode the conditioning semantic tokens into waveform. DPD is proposed to simultaneously model the coarse and fine acoustics by incorporating the semantic information into segments of latents effectively via cross-attention at each denoising step. Our experimental results suggest the superiority of MeLoDy, not only in its practical advantages on sampling speed and infinitely continuable generation, but also in its state-of-the-art musicality, audio quality, and text correlation. Our samples are available at https://Efficient-MeLoDy.github.io/.
翻訳日:2023-05-26 17:25:20 公開日:2023-05-25
# 多言語機械翻訳における高次パレートフロンティアに向けて

Towards Higher Pareto Frontier in Multilingual Machine Translation ( http://arxiv.org/abs/2305.15718v1 )

ライセンス: Link先を確認
Yichong Huang, Xiaocheng Feng, Xinwei Geng, Baohang Li, Bing Qin(参考訳) 多言語ニューラルマシン翻訳は近年顕著な進歩を遂げている。 しかし、多言語コーパスのロングテール分布はパレート最適化の課題となり、ある言語に対する最適化は、他の言語のパフォーマンスを低下させるコストがかかる可能性がある。 既存のバランストレーニング戦略は、paretoのフロンティアで取引される一連のpareto最適化ソリューションと同等である。 本研究では,パレート・相互蒸留(pareto mutual distillation,pareto-md)という新たな訓練枠組みを提案する。 具体的には、pareto-mdは異なる言語を好む2つのpareto最適解を協調的に訓練し、知識蒸留を通じて互いの強みから学ぶことができる。 さらに,paretoの最適解間のコミュニケーションを強化し,その適用可能性を広げる新たな戦略を提案する。 広範に使用されているWMTおよびTEDデータセットの実験結果から,本手法はパレートフロンティアを著しく押し上げ,ベースラインを+2.46BLEUまで向上させることが示された。

Multilingual neural machine translation has witnessed remarkable progress in recent years. However, the long-tailed distribution of multilingual corpora poses a challenge of Pareto optimization, i.e., optimizing for some languages may come at the cost of degrading the performance of others. Existing balancing training strategies are equivalent to a series of Pareto optimal solutions, which trade off on a Pareto frontier. In this work, we propose a new training framework, Pareto Mutual Distillation (Pareto-MD), towards pushing the Pareto frontier outwards rather than making trade-offs. Specifically, Pareto-MD collaboratively trains two Pareto optimal solutions that favor different languages and allows them to learn from the strengths of each other via knowledge distillation. Furthermore, we introduce a novel strategy to enable stronger communication between Pareto optimal solutions and broaden the applicability of our approach. Experimental results on the widely-used WMT and TED datasets show that our method significantly pushes the Pareto frontier and outperforms baselines by up to +2.46 BLEU.
翻訳日:2023-05-26 17:24:53 公開日:2023-05-25
# プロプライエタリ LLM のイルミネーションに関する虚偽の約束

The False Promise of Imitating Proprietary LLMs ( http://arxiv.org/abs/2305.15717v1 )

ライセンス: Link先を確認
Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, Dawn Song(参考訳) より弱い言語モデルを安価に改善するための新しい方法は、ChatGPTのようなプロプライエタリなシステム(Alpaca、Self-Instructなど)のような、より強力なモデルからの出力を微調整することである。 このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの能力を安価に模倣することを目指している。 本研究では,このアプローチを批判的に分析する。 最初にChatGPTを模倣する一連のLMを、様々なベースモデルサイズ(1.5B-13B)、データソース、模倣データ量(0.3M-150Mトークン)を用いて微調整する。 次に,crowd raterとcanonical nlpベンチマークを用いてモデルを評価する。 当初私たちは、模倣モデルの出力品質に驚きました -- 指示に従うのがはるかに優れているように見え、群衆労働者はChatGPTと競合するようにアウトプットを評価しました。 しかし, より標的となる自動評価を行う場合, 模倣データにあまりサポートされていないタスクにおいて, LMからChatGPTへのギャップがほとんどない。 模倣モデルはチャットgptのスタイルを模倣するが、その事実性を模倣するものではないため、これらの性能格差は人間の利率を超過する可能性がある。 一般に、モデル模倣は偽の約束である: オープンとクローズドのLMの間には実質的な能力ギャップがあり、現行の手法では、無数の模倣データやより有能なベースLMを使用することでのみブリッジできる。 逆に、オープンソースモデルを改善するための最も高いレバレッジアクションは、プロプライエタリなシステムを模倣するショートカットを使わずに、より良いベースlmsを開発するという難しい課題に取り組むことである、と論じている。

An emerging method to cheaply improve a weaker language model is to finetune it on outputs from a stronger model, such as a proprietary system like ChatGPT (e.g., Alpaca, Self-Instruct, and others). This approach looks to cheaply imitate the proprietary model's capabilities using a weaker open-source model. In this work, we critically analyze this approach. We first finetune a series of LMs that imitate ChatGPT using varying base model sizes (1.5B--13B), data sources, and imitation data amounts (0.3M--150M tokens). We then evaluate the models using crowd raters and canonical NLP benchmarks. Initially, we were surprised by the output quality of our imitation models -- they appear far better at following instructions, and crowd workers rate their outputs as competitive with ChatGPT. However, when conducting more targeted automatic evaluations, we find that imitation models close little to none of the gap from the base LM to ChatGPT on tasks that are not heavily supported in the imitation data. We show that these performance discrepancies may slip past human raters because imitation models are adept at mimicking ChatGPT's style but not its factuality. Overall, we conclude that model imitation is a false promise: there exists a substantial capabilities gap between open and closed LMs that, with current methods, can only be bridged using an unwieldy amount of imitation data or by using more capable base LMs. In turn, we argue that the highest leverage action for improving open-source models is to tackle the difficult challenge of developing better base LMs, rather than taking the shortcut of imitating proprietary systems.
翻訳日:2023-05-26 17:24:32 公開日:2023-05-25
# 蒸留における知識拡散

Knowledge Diffusion for Distillation ( http://arxiv.org/abs/2305.15712v1 )

ライセンス: Link先を確認
Tao Huang, Yuan Zhang, Mingkai Zheng, Shan You, Fei Wang, Chen Qian, Chang Xu(参考訳) 教師と学生の表現ギャップは知識蒸留(KD)における新たな話題である。 ギャップを減らし、性能を向上させるため、現在の手法では複雑なトレーニングスキーム、損失関数、タスク固有で特徴特有な機能アライメントを利用することが多い。 本稿では,これらの手法の本質は,ノイズ情報を捨て,その特徴に価値ある情報を蒸留することであり,DiffKDと呼ばれる新しいKD手法を提案し,拡散モデルを用いて特徴を明示的に認識・一致させる。 本研究のアプローチは,学生モデルがより少ないため,学生の特徴が教師の特徴よりも多くのノイズを含んでいるという観察に基づいている。 そこで本研究では,教師の特徴を訓練した拡散モデルを用いて,生徒の特徴を解消する手法を提案する。 これにより、精製されたクリーンな特徴と教師の特徴との間により良い蒸留を行うことができる。 さらに, 線形オートエンコーダを用いた軽量拡散モデルを導入し, 計算コストを低減し, 消音性能を向上させるためのaddicative noise matchingモジュールを提案する。 大規模な実験により、DiffKDは様々な種類の特徴に対して有効であり、画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて一貫して最先端のパフォーマンスを実現する。 コードはhttps://github.com/hunto/diffkdで入手できる。

The representation gap between teacher and student is an emerging topic in knowledge distillation (KD). To reduce the gap and improve the performance, current methods often resort to complicated training schemes, loss functions, and feature alignments, which are task-specific and feature-specific. In this paper, we state that the essence of these methods is to discard the noisy information and distill the valuable information in the feature, and propose a novel KD method dubbed DiffKD, to explicitly denoise and match features using diffusion models. Our approach is based on the observation that student features typically contain more noises than teacher features due to the smaller capacity of student model. To address this, we propose to denoise student features using a diffusion model trained by teacher features. This allows us to perform better distillation between the refined clean feature and teacher feature. Additionally, we introduce a light-weight diffusion model with a linear autoencoder to reduce the computation cost and an adpative noise matching module to improve the denoising performance. Extensive experiments demonstrate that DiffKD is effective across various types of features and achieves state-of-the-art performance consistently on image classification, object detection, and semantic segmentation tasks. Code will be available at https://github.com/hunto/DiffKD.
翻訳日:2023-05-26 17:24:02 公開日:2023-05-25
# cueing:自動運転のための人間の視線をエンコードする先駆的研究

CUEING: A pioneer work of encoding human gaze for autonomous driving ( http://arxiv.org/abs/2305.15710v1 )

ライセンス: Link先を確認
Linfeng Liang, Yiran Wang, Yao Deng, Jianchao Lu, Chen Wang, Xi Zheng(参考訳) 近年の自律運転システム(ADS)による事故の分析では、ADSの意思決定プロセスは人間のドライバーと大きく異なる可能性があることが示されている。 ADSの性能を向上させるために、ヒトの意思決定プロセス、特にヒトの視線による信号を統合することが有用である。 人間の視線データセットを作成し、深層学習モデルを用いて人間の視線を予測するための既存の研究は数多く存在する。 しかし、現在の人間の視線のデータセットは騒々しく、モデルトレーニングを妨げる無関係なオブジェクトを含んでいる。 さらに、人間の視線を予測するための既存のCNNベースのモデルは、異なるデータセットや運転条件間での一般化性に欠けており、多くのモデルは、視線マップの中央で視線が生成される傾向にあるという予測において中心バイアスを持つ。 これらのギャップに対処するために、既存のヒトの視線データセットを浄化する適応的手法と、頑健な畳み込み自己注意視線予測モデルを提案する。 我々の定量的指標は、我々のクリーニング手法がモデルのパフォーマンスを最大7.38%改善し、元のデータセットでトレーニングされたものと比較して最大8.24%向上することを示している。 さらに,本モデルでは,最先端(SOTA)モデルと比較して,最大12.13%の一般化性の向上が示されている。 特に、98.12%の計算資源を保持しながら、これらの利益を達成する。

Recent analysis of incidents involving Autonomous Driving Systems (ADS) has shown that the decision-making process of ADS can be significantly different from that of human drivers. To improve the performance of ADS, it may be helpful to incorporate the human decision-making process, particularly the signals provided by the human gaze. There are many existing works to create human gaze datasets and predict the human gaze using deep learning models. However, current datasets of human gaze are noisy and include irrelevant objects that can hinder model training. Additionally, existing CNN-based models for predicting human gaze lack generalizability across different datasets and driving conditions, and many models have a centre bias in their prediction such that the gaze tends to be generated in the centre of the gaze map. To address these gaps, we propose an adaptive method for cleansing existing human gaze datasets and a robust convolutional self-attention gaze prediction model. Our quantitative metrics show that our cleansing method improves models' performance by up to 7.38% and generalizability by up to 8.24% compared to those trained on the original datasets. Furthermore, our model demonstrates an improvement of up to 12.13% in terms of generalizability compared to the state-of-the-art (SOTA) models. Notably, it achieves these gains while conserving up to 98.12% of computation resources.
翻訳日:2023-05-26 17:23:41 公開日:2023-05-25
# PEARL: セマンティックセグメンテーションのための画像レイニングにおける逆ロバスト学習の事前処理

PEARL: Preprocessing Enhanced Adversarial Robust Learning of Image Deraining for Semantic Segmentation ( http://arxiv.org/abs/2305.15709v1 )

ライセンス: Link先を確認
Xianghao Jiao, Yaohua Liu, Jiaxin Gao, Xinyuan Chu, Risheng Liu, Xin Fan(参考訳) セマンティックセグメンテーションタスクの開発と適用において顕著な進歩があったことを踏まえ、セマンティックセグメンテーションモデルの自然劣化要因(例:雨害)や人工攻撃要因(例:敵攻撃)に対するロバスト性の改善に注目が集まっている。 一方、既存のほとんどのメソッドは単一の分解係数に対処するように設計されており、特定のアプリケーションシナリオに合わせて調整されている。 本稿では,異なる種類の劣化要因を同時に扱うことにより,意味セグメンテーションタスクのロバスト性を改善するための最初の試みを提案する。 具体的には、提案したNaive Adversarial Training(NAT)フレームワークの分析に基づいて、PEARL(Preprocessing Enhanced Adversarial Robust Learning)フレームワークを導入する。 本手法は,画像デラインモデルにセグメンテーションモデルのロバスト性を移すことにより,雨害と逆流の両面を効果的に処理する。 さらに,一般的な否定的敵攻撃(naa)とは対照的に,真珠枠組みの訓練前に肯定的な情報を導入するために補助鏡攻撃(ama)を設計し,防御能力とセグメンテーション性能を向上させる。 異なるデライン法およびセグメンテーションモデルに基づく広範囲な実験およびアブレーション研究により、異なるデータセットにわたる高い一般化性能を維持しつつ、様々な敵攻撃や雨害に対する防御において、PEARLとAMAの顕著な性能向上を実証した。

In light of the significant progress made in the development and application of semantic segmentation tasks, there has been increasing attention towards improving the robustness of segmentation models against natural degradation factors (e.g., rain streaks) or artificially attack factors (e.g., adversarial attack). Whereas, most existing methods are designed to address a single degradation factor and are tailored to specific application scenarios. In this work, we present the first attempt to improve the robustness of semantic segmentation tasks by simultaneously handling different types of degradation factors. Specifically, we introduce the Preprocessing Enhanced Adversarial Robust Learning (PEARL) framework based on the analysis of our proposed Naive Adversarial Training (NAT) framework. Our approach effectively handles both rain streaks and adversarial perturbation by transferring the robustness of the segmentation model to the image derain model. Furthermore, as opposed to the commonly used Negative Adversarial Attack (NAA), we design the Auxiliary Mirror Attack (AMA) to introduce positive information prior to the training of the PEARL framework, which improves defense capability and segmentation performance. Our extensive experiments and ablation studies based on different derain methods and segmentation models have demonstrated the significant performance improvement of PEARL with AMA in defense against various adversarial attacks and rain streaks while maintaining high generalization performance across different datasets.
翻訳日:2023-05-26 17:23:19 公開日:2023-05-25
# スコアベースマルチモーダルオートエンコーダ

Score-Based Multimodal Autoencoders ( http://arxiv.org/abs/2305.15708v1 )

ライセンス: Link先を確認
Daniel Wesego and Amirmohammad Rooshenas(参考訳) マルチモーダル変分オートエンコーダ (VAEs) は、複数のモダリティが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする生成モデルの有望なグループである。 daunhawer et al. (2022) は、モダリティの数が増えるにつれて、各モダリティの生成的品質が低下することを示した。 本研究では, スコアベースモデル(sbms)を用いて, ユニモーダルvaesの潜在空間を共同でモデル化し, マルチモーダルvaesの生成性能を向上させるための代替手法を検討する。 SBMの役割は、潜伏変数間の相関を学習することでマルチモーダルコヒーレンスを強制することである。 その結果,本モデルでは,単調なVAEの優れた生成品質と,異なるモダリティのコヒーレントな統合を組み合わせている。

Multimodal Variational Autoencoders (VAEs) represent a promising group of generative models that facilitate the construction of a tractable posterior within the latent space, given multiple modalities. Daunhawer et al. (2022) demonstrate that as the number of modalities increases, the generative quality of each modality declines. In this study, we explore an alternative approach to enhance the generative performance of multimodal VAEs by jointly modeling the latent space of unimodal VAEs using score-based models (SBMs). The role of the SBM is to enforce multimodal coherence by learning the correlation among the latent variables. Consequently, our model combines the superior generative quality of unimodal VAEs with coherent integration across different modalities.
翻訳日:2023-05-26 17:22:51 公開日:2023-05-25
# クイーンズランド・オーストラリアにおける幼児期と子どもの発達的脆弱性の関連に関する空間構造の評価

Assessing the Spatial Structure of the Association between Attendance at Preschool and Childrens Developmental Vulnerabilities in Queensland Australia ( http://arxiv.org/abs/2305.15746v1 )

ライセンス: Link先を確認
wala Draidi Areed, Aiden Price, Kathryn Arnett, Helen Thompson, Reid Malseed, and Kerrie Mengersen(参考訳) 本研究は,就学前1年間の就学前1年間の就学前1年間の子どもの発達への影響について検討した。 オーストラリア初期開発調査(英語版)によって収集されたデータから、幼児の出席率の高い地域は、少なくとも1つの発達上の脆弱性を持つ子供の比率が低い傾向が示されている。 発達障害には、学校の日(疲れ、空腹、低エネルギー)に対処できないこと、他人や攻撃的な行動、読み書きや数字のトラブルに対処できないことが含まれる。 これらの発見は、もちろん地域によって異なる。 研究チームは、データ分析と機械学習を使ってクイーンズランド州の3つの異なるクラスターを特定しました。 これらの分析は、高い脆弱性のある地域理解と、適切な政策や投資の必要性に寄与する。

The research explores the influence of preschool attendance (one year before full-time school) on the development of children during their first year of school. Using data collected by the Australian Early Development Census, the findings show that areas with high proportions of preschool attendance tended to have lower proportions of children with at least one developmental vulnerability. Developmental vulnerablities include not being able to cope with the school day (tired, hungry, low energy), unable to get along with others or aggressive behaviour, trouble with reading/writing or numbers. These findings, of course, vary by region. Using Data Analysis and Machine Learning, the researchers were able to identify three distinct clusters within Queensland, each characterised by different socio-demographic variables influencing the relationship between preschool attendance and developmental vulnerability. These analyses contribute to understanding regions with high vulnerability and the potential need for tailored policies or investments
翻訳日:2023-05-26 17:15:26 公開日:2023-05-25
# 両レベル最適化を用いたロバストアンテホックグラフ記述器

Robust Ante-hoc Graph Explainer using Bilevel Optimization ( http://arxiv.org/abs/2305.15745v1 )

ライセンス: Link先を確認
Mert Kosan, Arlei Silva, Ambuj Singh(参考訳) 高度なアプリケーションのための機械学習モデルによる決定を説明することは、透明性を高め、これらの決定を導く上で重要である。 これはグラフのモデルにおいて特に当てはまり、決定はしばしばリッチな構造データと属性データを組み合わせた複雑なパターンに依存する。 最近の研究は、いわゆるポストホックな説明器の設計に焦点が当てられているが、何が良い説明になるのかという問題は未解決である。 直感的な特性の1つは、人間がデータに基づいて予測をほぼ再現できるように、説明が十分な情報であるべきであることである。 しかし,モデルパラメータ(学習したGNN重みなど)に大きく依存するため,ポストホックな説明はこの目的を達成することができない。 この課題に対処するために,両レベル最適化を用いたグラフニューラルネットワークの幅広いクラスの説明を見つけるために設計された,新規で柔軟なアンテホック説明器であるRAGE(Robust Ante-hoc Graph Explainer)を提案する。 RAGEは、予測に必要な全情報を含む説明を効率的に識別すると同時に、人間が影響に基づいてこれらの説明をランク付けすることができる。 グラフの分類と回帰に基づく実験では,既存のポストホックやアンテホックなアプローチよりもロバストな説明が得られ,最先端のモデルと同等あるいはそれ以上の精度が得られることが多い。

Explaining the decisions made by machine learning models for high-stakes applications is critical for increasing transparency and guiding improvements to these decisions. This is particularly true in the case of models for graphs, where decisions often depend on complex patterns combining rich structural and attribute data. While recent work has focused on designing so-called post-hoc explainers, the question of what constitutes a good explanation remains open. One intuitive property is that explanations should be sufficiently informative to enable humans to approximately reproduce the predictions given the data. However, we show that post-hoc explanations do not achieve this goal as their explanations are highly dependent on fixed model parameters (e.g., learned GNN weights). To address this challenge, this paper proposes RAGE (Robust Ante-hoc Graph Explainer), a novel and flexible ante-hoc explainer designed to discover explanations for a broad class of graph neural networks using bilevel optimization. RAGE is able to efficiently identify explanations that contain the full information needed for prediction while still enabling humans to rank these explanations based on their influence. Our experiments, based on graph classification and regression, show that RAGE explanations are more robust than existing post-hoc and ante-hoc approaches and often achieve similar or better accuracy than state-of-the-art models.
翻訳日:2023-05-26 17:15:07 公開日:2023-05-25
# TransWorldNG:基礎モデルによる交通シミュレーション

TransWorldNG: Traffic Simulation via Foundation Model ( http://arxiv.org/abs/2305.15743v1 )

ライセンス: Link先を確認
Ding Wang, Xuhong Wang, Liang Chen, Shengyue Yao, Ming Jing, Honghai Li, Li Li, Shiqiang Bao, Fei-Yue Wang, Yilun Lin(参考訳) 交通シミュレーションは交通意思決定と政策開発にとって重要なツールである。 しかし、交通環境の高次元と異質性に直面して現実的なシミュレーションを実現することは長年の課題である。 本稿では,データ駆動型アルゴリズムとグラフコンピューティング技術を用いて,実データからトラフィックダイナミクスを学習する交通シミュレータTransWordNGを提案する。 トランスワールドNGの機能と構造を導入し,交通管理・制御の基礎モデルを構築した。 その結果,TransWorldNGは従来のシミュレータよりも現実的なトラフィックパターンを生成できることがわかった。 さらにtransworldngは、シナリオのスケールが大きくなるにつれて計算時間の線形な増加を示すため、スケーラビリティも向上している。 我々の知る限りでは、実世界のデータから交通パターンを自動的に学習し、正確で現実的な交通環境を効率的に生成できる最初の交通シミュレータである。

Traffic simulation is a crucial tool for transportation decision-making and policy development. However, achieving realistic simulations in the face of the high dimensionality and heterogeneity of traffic environments is a longstanding challenge. In this paper, we present TransWordNG, a traffic simulator that uses Data-driven algorithms and Graph Computing techniques to learn traffic dynamics from real data. The functionality and structure of TransWorldNG are introduced, which utilize a foundation model for transportation management and control. The results demonstrate that TransWorldNG can generate more realistic traffic patterns compared to traditional simulators. Additionally, TransWorldNG exhibits better scalability, as it shows linear growth in computation time as the scenario scale increases. To the best of our knowledge, this is the first traffic simulator that can automatically learn traffic patterns from real-world data and efficiently generate accurate and realistic traffic environments.
翻訳日:2023-05-26 17:14:42 公開日:2023-05-25
# 時変処理のための相反的生成モデル

Counterfactual Generative Models for Time-Varying Treatments ( http://arxiv.org/abs/2305.15742v1 )

ライセンス: Link先を確認
Shenghao Wu, Wenbin Zhou, Minshuo Chen, Shixiang Zhu(参考訳) 平均因果効果の推定は、新しい治療法をテストする一般的なプラクティスである。 しかし, 対物分布における「マスク」の平均的影響は, 安全性, 公正性, 倫理的懸念につながる可能性がある。 この問題は、治療が逐次的かつ時間的に進行する時間的設定において悪化し、偽物分布に複雑に影響を及ぼす。 本稿では, 対実分布の特定の統計量に対する効率的な推論を可能にする, 対実分布全体を捕捉する条件付き生成モデルを提案する。 これにより、提案されたアプローチは特に医療や政策立案に適している。 生成的モデリング手法は,観測データにおける分布ミスマッチと,限界構造モデルによる対象の対物分布に慎重に取り組む。 本手法は合成データと実データの両方において最先端のベースラインを上回る。

Estimating average causal effects is a common practice to test new treatments. However, the average effect ''masks'' important individual characteristics in the counterfactual distribution, which may lead to safety, fairness, and ethical concerns. This issue is exacerbated in the temporal setting, where the treatment is sequential and time-varying, leading to an intricate influence on the counterfactual distribution. In this paper, we propose a novel conditional generative modeling approach to capture the whole counterfactual distribution, allowing efficient inference on certain statistics of the counterfactual distribution. This makes the proposed approach particularly suitable for healthcare and public policy making. Our generative modeling approach carefully tackles the distribution mismatch in the observed data and the targeted counterfactual distribution via a marginal structural model. Our method outperforms state-of-the-art baselines on both synthetic and real data.
翻訳日:2023-05-26 17:14:28 公開日:2023-05-25
# 厳密なコヒーレント操作下におけるコヒーレンス濾過

Coherence Filtration under Strictly Incoherent Operations ( http://arxiv.org/abs/2305.15741v1 )

ライセンス: Link先を確認
C. L. Liu and C. P. Sun(参考訳) 本稿では,厳密な協調動作下でのコヒーレンス濾過の課題について検討する。 このタスクの目的は、与えられた状態 $\rho$ を、確率的厳密な非コヒーレント演算を用いて最大にコヒーレントな状態との忠実性を持つ別の状態 $\rho^\prime$ に変換することである。 我々は、$\rho^\prime$と最大コヒーレント状態の間の最大忠実度が、$\Delta$コヒーレンス$R(\rho\|\Delta\rho):=\min\{\uplambda|\rho\leq\uplambda\Delta\rho\}$の複数で与えられることを発見した。 最後に,コヒーレンス濾過の課題に基づくコヒーレンス尺度を提案する。

We study the task of coherence filtration under strictly incoherent operations in this paper. The aim of this task is to transform a given state $\rho$ into another one $\rho^\prime$ whose fidelity with the maximally coherent state is maximal by using stochastic strictly incoherent operations. We find that the maximal fidelity between $\rho^\prime$ and the maximally coherent state is given by a multiple of the $\Delta$ robustness of coherence $R(\rho\|\Delta\rho):=\min\{\uplambda|\rho\leq\uplambda\Delta\rho\}$, which provides $R(\rho\|\Delta\rho)$ an operational interpretation. Finally, we provide a coherence measure based on the task of coherence filtration.
翻訳日:2023-05-26 17:14:16 公開日:2023-05-25
# mpe4g:共スパイクジェスチャ生成のためのマルチモーダルプリトレーニングエンコーダ

MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation ( http://arxiv.org/abs/2305.15740v1 )

ライセンス: Link先を確認
Gwantae Kim, Seonghyeok Noh, Insung Ham and Hanseok Ko(参考訳) 仮想エージェントが人間と対話するとき、ジェスチャーは言葉で意図を伝えるのに不可欠である。 従来のマルチモーダルな音声合成モデルは、ジェスチャーを生成するためにすべてのモーダルの特徴を符号化する必要がある。 入力モダリティが削除されるかノイズを含む場合、モデルは適切にジェスチャーを生成することができない。 頑健で一般化された符号化を実現するために,マルチモーダルプリトレーニングエンコーダを用いたジェスチャ生成のための新しい枠組みを提案する。 提案手法では,マルチヘッドアテンションに基づくエンコーダを自己教師付き学習で訓練し,各モードに関する情報を含む。 さらに,3次元関節回転からなる全身ジェスチャーを収集し,可視化を改善し,拡張可能な身体モデルにジェスチャーを適用した。 提案手法は, 入力モダリティが与えられたときだけでなく, 入力モダリティが欠落したり, うるさかったりした場合にも, リアルなコペアジェスチャを表現できる。

When virtual agents interact with humans, gestures are crucial to delivering their intentions with speech. Previous multimodal co-speech gesture generation models required encoded features of all modalities to generate gestures. If some input modalities are removed or contain noise, the model may not generate the gestures properly. To acquire robust and generalized encodings, we propose a novel framework with a multimodal pre-trained encoder for co-speech gesture generation. In the proposed method, the multi-head-attention-based encoder is trained with self-supervised learning to contain the information on each modality. Moreover, we collect full-body gestures that consist of 3D joint rotations to improve visualization and apply gestures to the extensible body model. Through the series of experiments and human evaluation, the proposed method renders realistic co-speech gestures not only when all input modalities are given but also when the input modalities are missing or noisy.
翻訳日:2023-05-26 17:13:55 公開日:2023-05-25
# 三次元DMCの解析とチューニング

Analysis and tuning of a three-term DMC ( http://arxiv.org/abs/2305.15735v1 )

ライセンス: Link先を確認
Yun Zhu, Kangkang Zhang, Yuncai Zhu, Jinming Zhou(参考訳) ほとんどのmpc(model prediction control)アルゴリズムは、産業界で使われ、制御学界で研究されているが、第1項は出力エラーの重み付きノルム、第2項は入力インクリメントの2項qp(quadratic programming)を使用している。 本研究では,3項QPを用いたDMC(Dynamic Matrix Control)アルゴリズムについて検討し,第3項が出力インクリメントの重み付きノルムである。 解析では, 3 項 DMC と 2 項 DMC の関係が確立され, 閉ループ応答曲線が導出される。 解析により,3項MDCと閉ループステップ応答と乱れ低減のための2つのコントローラチューニング手順が開発された。 最後に、DMCが2項のDMCよりも高い性能と堅牢性を達成できることが証明される。 シミュレーション研究は、発見とチューニング方法の実証に使用される。

Most MPC (Model Predictive Control) algorithms used in industries and studied in the control academia use a two-term QP (quadratic programming), where the first term is the weighted norm of the output errors, and the second term is that of the input increments. In this work, a DMC (Dynamic Matrix Control) algorithm that uses three-term QP is studied, where the third term is the weighted norm of the output increments. In the analysis, a relationship between the three-term DMC and the two-term DMC is established; based on that, the closed-loop response curves are derived. Based on the analysis, two controller tuning procedures are developed for the three-term DMC, one for closed-loop step response and one for disturbance reduction. Finally, it will be proven that the three-term DMC can achieve a higher performance and robustness than the two-term DMC can. Simulation studies are used to demonstrate the findings and the tuning methods.
翻訳日:2023-05-26 17:13:39 公開日:2023-05-25
# モデル解釈性に対する知識蒸留の影響について

On the Impact of Knowledge Distillation for Model Interpretability ( http://arxiv.org/abs/2305.15734v1 )

ライセンス: Link先を確認
Hyeongrok Han, Siwon Kim, Hyun-Soo Choi, Sungroh Yoon(参考訳) 最近の研究では、知識蒸留(kd)がモデル性能を改善する理由が解明されている。 しかし、モデル性能の改善に加えて、KDの他の利点について研究する者はほとんどいない。 そこで本研究では,KDによる解釈性の向上とモデルの精度向上を試みた。 ネットワーク分割で同定された概念検出器の数を測定し,モデル解釈可能性の定量的比較を行った。 教師から生徒モデルに伝達されるクラス類似性情報に対する解釈性の向上を考察した。 まず,ロジット蒸留による教師から生徒モデルへのクラス類似情報の伝達を確認した。 そこで我々は,クラス類似性情報がモデル解釈可能性に与える影響を,その存在や欠如,類似性情報の程度の観点から分析した。 様々な定量的および定性的な実験を行い、異なるデータセット、異なるKD法、異なる解釈可能性の測定結果について検討した。 我々の研究は、大規模モデルによるkdモデルが様々な分野でより確実に使用できることを示した。

Several recent studies have elucidated why knowledge distillation (KD) improves model performance. However, few have researched the other advantages of KD in addition to its improving model performance. In this study, we have attempted to show that KD enhances the interpretability as well as the accuracy of models. We measured the number of concept detectors identified in network dissection for a quantitative comparison of model interpretability. We attributed the improvement in interpretability to the class-similarity information transferred from the teacher to student models. First, we confirmed the transfer of class-similarity information from the teacher to student model via logit distillation. Then, we analyzed how class-similarity information affects model interpretability in terms of its presence or absence and degree of similarity information. We conducted various quantitative and qualitative experiments and examined the results on different datasets, different KD methods, and according to different measures of interpretability. Our research showed that KD models by large models could be used more reliably in various fields.
翻訳日:2023-05-26 17:13:20 公開日:2023-05-25
# CLIP3Dstyler:言語ガイドによる3次元任意ニューラルスタイル転送

CLIP3Dstyler: Language Guided 3D Arbitrary Neural Style Transfer ( http://arxiv.org/abs/2305.15732v1 )

ライセンス: Link先を確認
Ming Gao, YanWu Xu, Yang Zhao, Tingbo Hou, Tingbo Hou, Chenkai Zhao, Mingming Gong(参考訳) 本稿では,新しい言語誘導3次元任意ニューラルスタイル伝達法(clip3dstyler)を提案する。 テキスト記述から任意のスタイルで任意の3Dシーンをスタイリングし、画像条件のスタイル転送よりも柔軟な新しいスタイル化されたビューを合成することを目的としている。 従来の2D手法CLIPStylerと比較して、3Dシーンをスタイリングし、新しいシーンに一般化することができる。 簡単な解決策は、以前の画像条件付き3Dスタイル転送とテキスト条件付き2Dスタイル転送 \bigskip メソッドを組み合わせることである。 しかしながら、このソリューションは2つの大きな課題のため、私たちの目標を達成できません。 まず、ポイントクラウドと言語を異なる機能スケール(低レベル、高レベル)でマッチングするマルチモーダルモデルはありません。 第2に,テキストプロンプトとスタイル条件の異なるコンテンツをスタイル化する場合のスタイル混合問題を観察した。 最初の課題に対処するため、ローカルおよびグローバルビューのテキスト機能とクラウド機能を一致させる3Dスタイリングフレームワークを提案する。 2つ目の問題として、任意のテキストスタイルをフレームワークの補体としてより区別しやすくするための方向性のばらつき損失の改善を提案する。 テキスト誘導型3次元シーン転送におけるモデルの有効性を示すため,広範囲な実験を行った。

In this paper, we propose a novel language-guided 3D arbitrary neural style transfer method (CLIP3Dstyler). We aim at stylizing any 3D scene with an arbitrary style from a text description, and synthesizing the novel stylized view, which is more flexible than the image-conditioned style transfer. Compared with the previous 2D method CLIPStyler, we are able to stylize a 3D scene and generalize to novel scenes without re-train our model. A straightforward solution is to combine previous image-conditioned 3D style transfer and text-conditioned 2D style transfer \bigskip methods. However, such a solution cannot achieve our goal due to two main challenges. First, there is no multi-modal model matching point clouds and language at different feature scales (\eg low-level, high-level). Second, we observe a style mixing issue when we stylize the content with different style conditions from text prompts. To address the first issue, we propose a 3D stylization framework to match the point cloud features with text features in local and global views. For the second issue, we propose an improved directional divergence loss to make arbitrary text styles more distinguishable as a complement to our framework. We conduct extensive experiments to show the effectiveness of our model on text-guided 3D scene style transfer.
翻訳日:2023-05-26 17:13:06 公開日:2023-05-25
# POPE: 任意のシーンにおけるオブジェクトの6-DoFプロンプタブルなポス推定

POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference ( http://arxiv.org/abs/2305.15727v1 )

ライセンス: Link先を確認
Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Dejia Xu, Hanwen Jiang, Zhangyang Wang(参考訳) 6自由度(6dof)オブジェクトポーズ推定の大幅な進歩にもかかわらず、既存の手法は具体化エージェントと下流の3dビジョンタスクを含む現実世界のシナリオに適用性が限られている。 これらの制限は主に、3Dモデル、クローズドカテゴリ検出、および多数の注釈付きサポートビューの必要性から来ている。 この問題を軽減するため,我々はprompatedable object pose estimation (pope) と呼ばれる,オブジェクトポーズ推定のための一般的なパラダイムを提案する。 提案手法では,任意のシーンのターゲットオブジェクトに対して,ゼロショット6DoFオブジェクトのポーズ推定が可能であり,サポートビューは単一の参照のみである。 これを実現するために、POPEは事前訓練された大規模2次元基礎モデルのパワーを活用し、階層的特徴表現と3次元幾何学の原理を持つフレームワークを使用する。 さらに、新しいビューでオブジェクトプロンプトとターゲットオブジェクトの間の相対カメラポーズを推定し、二視点と多視点の6dofポーズ推定タスクを可能にする。 総合的な実験結果から、POPEはゼロショット設定において、平均的なメディアポースエラーを52.38%、LINEMODとOnePoseのデータセットで50.47%削減することで、非競合なロバストな性能を示すことが示された。 因果的にキャプチャされた画像では、より困難なテストも行っています(図1参照)。 プロジェクトページはhttps://paulpanwang.github.io/POPE/で見ることができる。

Despite the significant progress in six degrees-of-freedom (6DoF) object pose estimation, existing methods have limited applicability in real-world scenarios involving embodied agents and downstream 3D vision tasks. These limitations mainly come from the necessity of 3D models, closed-category detection, and a large number of densely annotated support views. To mitigate this issue, we propose a general paradigm for object pose estimation, called Promptable Object Pose Estimation (POPE). The proposed approach POPE enables zero-shot 6DoF object pose estimation for any target object in any scene, while only a single reference is adopted as the support view. To achieve this, POPE leverages the power of the pre-trained large-scale 2D foundation model, employs a framework with hierarchical feature representation and 3D geometry principles. Moreover, it estimates the relative camera pose between object prompts and the target object in new views, enabling both two-view and multi-view 6DoF pose estimation tasks. Comprehensive experimental results demonstrate that POPE exhibits unrivaled robust performance in zero-shot settings, by achieving a significant reduction in the averaged Median Pose Error by 52.38% and 50.47% on the LINEMOD and OnePose datasets, respectively. We also conduct more challenging testings in causally captured images (see Figure 1), which further demonstrates the robustness of POPE. Project page can be found with https://paulpanwang.github.io/POPE/.
翻訳日:2023-05-26 17:12:44 公開日:2023-05-25
# Svarah:インドのアクセントに基づく英語ASRシステムの評価

Svarah: Evaluating English ASR Systems on Indian Accents ( http://arxiv.org/abs/2305.15760v1 )

ライセンス: Link先を確認
Tahir Javed, Sakshi Joshi, Vignesh Nagarajan, Sai Sundaresan, Janki Nawale, Abhigyan Raman, Kaushal Bhogale, Pratyush Kumar, Mitesh M. Khapra(参考訳) インドは英語圏で世界第2位の国で、話者数は約1億3000万人である。 したがって、インドアクセントに基づいて、英語の自動音声認識(ASR)システムを評価することが不可欠である。 残念なことに、インドの話者は、librispeech、switchboard、 speech accent archiveなどの既存の英語asrベンチマークで非常に貧弱な表現を見出している。 そこで本研究では,インド全土の65箇所に117人の話者から9.6時間分の英語音声が書き起こされ,アクセントが多様になるベンチマークであるsvarahを開発した。 スヴァーラは、話し言葉と自発的な会話データの両方を含み、歴史、文化、観光など様々な領域をカバーし、多様な語彙を保証する。 我々は,Svarah上での6つのオープンソースASRモデルと2つの商用ASRシステムを評価し,インドアクセントを改善するための明確な範囲があることを示した。 Svarahだけでなく、私たちのコードも公開されます。

India is the second largest English-speaking country in the world with a speaker base of roughly 130 million. Thus, it is imperative that automatic speech recognition (ASR) systems for English should be evaluated on Indian accents. Unfortunately, Indian speakers find a very poor representation in existing English ASR benchmarks such as LibriSpeech, Switchboard, Speech Accent Archive, etc. In this work, we address this gap by creating Svarah, a benchmark that contains 9.6 hours of transcribed English audio from 117 speakers across 65 geographic locations throughout India, resulting in a diverse range of accents. Svarah comprises both read speech and spontaneous conversational data, covering various domains, such as history, culture, tourism, etc., ensuring a diverse vocabulary. We evaluate 6 open source ASR models and 2 commercial ASR systems on Svarah and show that there is clear scope for improvement on Indian accents. Svarah as well as all our code will be publicly available.
翻訳日:2023-05-26 17:07:09 公開日:2023-05-25
# 個人差分潜流拡散モデル

Differentially Private Latent Diffusion Models ( http://arxiv.org/abs/2305.15759v1 )

ライセンス: Link先を確認
Saiyue Lyu, Margarita Vinaroz, Michael F. Liu, Mijung Park(参考訳) 拡散モデル(DM)は高品質の画像データセットを生成するために広く利用されている。 しかし、高次元画素空間で直接動作するため、DMの最適化は計算コストが高く、長い訓練時間を要する。 これは、差分プライバシーの構成可能性の性質のため、差分プライベートな学習プロセスに大量のノイズが注入されるのに寄与する。 この課題に対処するため,我々は差分プライバシーを持つ潜在拡散モデル(ldms)のトレーニングを提案する。 LDMは、強力な事前学習オートエンコーダを使用して、高次元のピクセル空間をより低次元の潜在空間に還元し、トレーニングDMをより効率的に高速にする。 公開データでdmを事前トレーニングし、プライベートデータで微調整する[ghalebikesabi et al., 2023]とは異なり、さまざまな層でldmの注意モジュールのみをプライバシに敏感なデータで微調整し、トレーニング可能なパラメータの数をdm全体の微調整と比較して約96%削減する。 公開データとしてimagenet、プライベートデータとしてcifar10、celeba、プライベートデータとしてsvhn、プライベートデータとしてmnistなど、いくつかのプライベートデータペアでアルゴリズムをテストします。 我々のアプローチは、高品質な合成画像を生成することができる、より強力で訓練効率のよい差分DMをトレーニングするための有望な方向を提供する。

Diffusion models (DMs) are widely used for generating high-quality image datasets. However, since they operate directly in the high-dimensional pixel space, optimization of DMs is computationally expensive, requiring long training times. This contributes to large amounts of noise being injected into the differentially private learning process, due to the composability property of differential privacy. To address this challenge, we propose training Latent Diffusion Models (LDMs) with differential privacy. LDMs use powerful pre-trained autoencoders to reduce the high-dimensional pixel space to a much lower-dimensional latent space, making training DMs more efficient and fast. Unlike [Ghalebikesabi et al., 2023] that pre-trains DMs with public data then fine-tunes them with private data, we fine-tune only the attention modules of LDMs at varying layers with privacy-sensitive data, reducing the number of trainable parameters by approximately 96% compared to fine-tuning the entire DM. We test our algorithm on several public-private data pairs, such as ImageNet as public data and CIFAR10 and CelebA as private data, and SVHN as public data and MNIST as private data. Our approach provides a promising direction for training more powerful, yet training-efficient differentially private DMs that can produce high-quality synthetic images.
翻訳日:2023-05-26 17:06:53 公開日:2023-05-25
# 弱い監督信号による安全でない対話応答の治癒

Healing Unsafe Dialogue Responses with Weak Supervision Signals ( http://arxiv.org/abs/2305.15757v1 )

ライセンス: Link先を確認
Zi Liang, Pinghui Wang, Ruofei Zhang, Shuo Zhang, Xiaofan Ye Yi Huang, Junlan Feng(参考訳) 近年、エージェントが現実世界のコーパスから攻撃的または偏見的な行動を学ぶ大規模対話システムの安全でない応答生成に対する懸念が高まっている。 パイプラインスタイルの安全でないトレーニング例を検出して置き換えることで、上記の問題に対処する手法が提案されている。 効果はあるものの、アノテーションのコストが高く、目に見えないシナリオや敵の攻撃にうまく適応できない。 さらに、安全な応答を提供することの無視(例:単にテンプレートに置き換える)は、対話の情報を欠く問題を引き起こす。 これらの問題に対処するために,潜在的安全な応答を自動的に割り当てる,教師なし擬似ラベルサンプリング手法 TEMP を提案する。 具体的には,複数のクラスタに応答をグループ化し,適応的にシャープなサンプリング戦略で複数のラベルをサンプリングする。 chitchatとタスク指向の対話における広範囲な実験は、我々のtemが弱い監督信号を持つ最先端のモデルよりも優れており、教師なしの学習環境下で同等の結果を得ることを示している。

Recent years have seen increasing concerns about the unsafe response generation of large-scale dialogue systems, where agents will learn offensive or biased behaviors from the real-world corpus. Some methods are proposed to address the above issue by detecting and replacing unsafe training examples in a pipeline style. Though effective, they suffer from a high annotation cost and adapt poorly to unseen scenarios as well as adversarial attacks. Besides, the neglect of providing safe responses (e.g. simply replacing with templates) will cause the information-missing problem of dialogues. To address these issues, we propose an unsupervised pseudo-label sampling method, TEMP, that can automatically assign potential safe responses. Specifically, our TEMP method groups responses into several clusters and samples multiple labels with an adaptively sharpened sampling strategy, inspired by the observation that unsafe samples in the clusters are usually few and distribute in the tail. Extensive experiments in chitchat and task-oriented dialogues show that our TEMP outperforms state-of-the-art models with weak supervision signals and obtains comparable results under unsupervised learning settings.
翻訳日:2023-05-26 17:06:26 公開日:2023-05-25
# UniTRec: テキストベースのレコメンデーションのための統一テキスト変換と共同コントラスト学習フレームワーク

UniTRec: A Unified Text-to-Text Transformer and Joint Contrastive Learning Framework for Text-based Recommendation ( http://arxiv.org/abs/2305.15756v1 )

ライセンス: Link先を確認
Zhiming Mao, Huimin Wang, Yiming Du and Kam-fai Wong(参考訳) 事前学習された言語モデル(plm)は、テキストベースのレコメンデーションのパフォーマンスを高めることができる。 PLMをユーザ履歴全体を入力テキストとしてエンコードしたり、複数ターンの履歴表現を融合するためのアグリゲーションネットワークを付加する以前の研究とは対照的に、ユーザ履歴の2レベルコンテキストをより良くモデル化するためのローカルおよびグローバルアテンショントランスフォーマーエンコーダを提案する。 さらに,トランスフォーマーエンコーダによって符号化されたユーザ履歴に基づいて,トランスフォーマーデコーダを用いて候補テキスト項目の言語難易度を推定する。 これに基づいて,本フレームワークであるUniTRecは,識別的マッチングスコアと候補テキストのパープレキシティの対照的な目的を統一し,テキストベースのレコメンデーションを共同で強化する。 UniTRecは3つのテキストベースのレコメンデーションタスクでSOTAパフォーマンスを提供する。 コードはhttps://github.com/Veason-silverbullet/UniTRecで入手できる。

Prior study has shown that pretrained language models (PLM) can boost the performance of text-based recommendation. In contrast to previous works that either use PLM to encode user history as a whole input text, or impose an additional aggregation network to fuse multi-turn history representations, we propose a unified local- and global-attention Transformer encoder to better model two-level contexts of user history. Moreover, conditioned on user history encoded by Transformer encoders, our framework leverages Transformer decoders to estimate the language perplexity of candidate text items, which can serve as a straightforward yet significant contrastive signal for user-item text matching. Based on this, our framework, UniTRec, unifies the contrastive objectives of discriminative matching scores and candidate text perplexity to jointly enhance text-based recommendation. Extensive evaluation shows that UniTRec delivers SOTA performance on three text-based recommendation tasks. Code is available at https://github.com/Veason-silverbullet/UniTRec.
翻訳日:2023-05-26 17:06:05 公開日:2023-05-25
# 疎性のない過パラメータ線形モデルのベイズ解析

Bayesian Analysis for Over-parameterized Linear Model without Sparsity ( http://arxiv.org/abs/2305.15754v1 )

ライセンス: Link先を確認
Tomoya Wakayama, Masaaki Imaizumi(参考訳) 高次元ベイズ統計では、推定パラメータのスパース性につながる多くの事前分布を含むいくつかの方法が開発されている。 しかし、そのような先行はデータのスペクトル固有ベクトル構造を扱うのに限界があり、結果として近年開発された過パラメータモデル(空間を仮定しない高次元線形モデル)を分析するのに不適である。 本稿では,データ共分散行列の固有ベクトルに先行依存するベイズ的手法を提案するが,パラメータの空間性は引き起こさない。 また, 導出した後続分布の縮約速度も提供し, 後続分布のガウス近似の切り詰めた近似法を開発した。 前者は後方推定の効率を示し,後者はbernstein-von mises型アプローチによるパラメータ不確かさの定量化を可能にする。 これらの結果は、データのスペクトルを処理し、非スパース高次元を推定できるベイズ的手法が可能であることを示唆している。

In high-dimensional Bayesian statistics, several methods have been developed, including many prior distributions that lead to the sparsity of estimated parameters. However, such priors have limitations in handling the spectral eigenvector structure of data, and as a result, they are ill-suited for analyzing over-parameterized models (high-dimensional linear models that do not assume sparsity) that have been developed in recent years. This paper introduces a Bayesian approach that uses a prior dependent on the eigenvectors of data covariance matrices, but does not induce the sparsity of parameters. We also provide contraction rates of derived posterior distributions and develop a truncated Gaussian approximation of the posterior distribution. The former demonstrates the efficiency of posterior estimation, while the latter enables quantification of parameter uncertainty using a Bernstein-von Mises-type approach. These results indicate that any Bayesian method that can handle the spectrum of data and estimate non-sparse high dimensions would be possible.
翻訳日:2023-05-26 17:05:42 公開日:2023-05-25
# T2TD:事前知識誘導に基づくテキスト3次元生成モデル

T2TD: Text-3D Generation Model based on Prior Knowledge Guidance ( http://arxiv.org/abs/2305.15753v1 )

ライセンス: Link先を確認
Weizhi Nie, Ruidong Chen, Weijie Wang, Bruno Lepri, Nicu Sebe(参考訳) 近年,auto-driver,3d reconstruction, vr, arなど,多くのアプリケーションで3dモデルが使用されている。 しかし、3dモデルデータの不足はその実用上の要求を満たしていない。 したがって、テキスト記述から高品質な3Dモデルを生成することは、この問題を解決するには有望だが挑戦的な方法である。 本稿では,人間が自身の経験に基づいてあいまいな記述から視覚情報の詳細を補完する能力に着想を得て,関連する形状やテクスト情報を事前知識として導入し,3次元生成モデルの性能を向上させる新しいテクスト3d生成モデル(t2td)を提案する。 本稿では,まず3dモデルとテキスト意味情報の関係を保存するための3d知識グラフについて紹介する。 第2に,これらの関連形状から有用な特徴情報を選択するための効果的な因果推論モデルを統合することで,無関係な形状情報を除去し,テキスト記述に強く関連する特徴情報のみを保持する。 一方,マルチモーダルな事前知識をテキスト情報に効果的に統合するために,関連した形状やテクスチャ情報を段階的に融合する新しい多層トランスフォーマー構造を採用し,テキスト内の構造情報の欠如を効果的に補償し,3次元生成モデルの最終性能を向上させる。 実験結果から,本手法は3次元モデル生成精度を大幅に向上し,テキスト2シェープデータセット上でのSOTA法よりも優れていた。

In recent years, 3D models have been utilized in many applications, such as auto-driver, 3D reconstruction, VR, and AR. However, the scarcity of 3D model data does not meet its practical demands. Thus, generating high-quality 3D models efficiently from textual descriptions is a promising but challenging way to solve this problem. In this paper, inspired by the ability of human beings to complement visual information details from ambiguous descriptions based on their own experience, we propose a novel text-3D generation model (T2TD), which introduces the related shapes or textual information as the prior knowledge to improve the performance of the 3D generation model. In this process, we first introduce the text-3D knowledge graph to save the relationship between 3D models and textual semantic information, which can provide the related shapes to guide the target 3D model generation. Second, we integrate an effective causal inference model to select useful feature information from these related shapes, which removes the unrelated shape information and only maintains feature information that is strongly relevant to the textual description. Meanwhile, to effectively integrate multi-modal prior knowledge into textual information, we adopt a novel multi-layer transformer structure to progressively fuse related shape and textual information, which can effectively compensate for the lack of structural information in the text and enhance the final performance of the 3D generation model. The final experimental results demonstrate that our approach significantly improves 3D model generation quality and outperforms the SOTA methods on the text2shape datasets.
翻訳日:2023-05-26 17:05:26 公開日:2023-05-25
# 低コストセキュリティ検査のための大規模単発ミリ波イメージングに向けて

Towards Large-scale Single-shot Millimeter-wave Imaging for Low-cost Security Inspection ( http://arxiv.org/abs/2305.15750v1 )

ライセンス: Link先を確認
Liheng Bian, Daoyu Li, Shuoguang Wang, Huteng Liu, Chunyang Teng, Hanwen Xu, Rike Jie, Xuyang Chang, Guoqiang Zhao, Houjun Sun, Shiyong Li, Jun Zhang(参考訳) 安全検査のための有望な技術としてミリ波イメージング(MMW)が登場している。 画像分解能、透過性、人間の安全性の微妙なバランスを実現し、低周波マイクロ波に比べて高い分解能、可視光よりも強い透過性、X線より強い安全性を実現している。 近年の進歩にもかかわらず、必要な大規模アンテナアレイの高コストは、実際にMMWイメージングを広く採用することを妨げている。 この課題に取り組むため,sparseアンテナアレーを用いた大規模単発mmwイメージングフレームワークを報告し,解釈可能な学習方式で低コストかつ高精度なセキュリティ検査を実現する。 まず,大規模アレイにおける各要素の統計的ランク付けについて検討するため,全サンプルのMMWエコーを収集した。 これらの要素はランキングに基づいてサンプリングされ、実験的に最適なスパースサンプリング戦略を構築し、アンテナアレイのコストを最大1桁削減する。 さらに,スパースサンプルエコーから頑健で正確な画像再構成を実現する非学習的解釈可能な学習手法を考案した。 最後に,物体の自動検出のためのニューラルネットワークを開発し,10%のスパースアレイを用いた隠れたセンチメートルサイズのターゲットの検出を実験的に実証した。 報告した手法の性能は、精度、リコール、mAP50を含む様々な指標で既存のMMW撮像方式よりも50%以上優れている。 このような強力な検出能力とオーダー・オブ・マグニチュードのコスト削減により、この技術は大規模単発MMWイメージングの実用的な方法となり、さらに実用的な応用が期待できる。

Millimeter-wave (MMW) imaging is emerging as a promising technique for safe security inspection. It achieves a delicate balance between imaging resolution, penetrability and human safety, resulting in higher resolution compared to low-frequency microwave, stronger penetrability compared to visible light, and stronger safety compared to X ray. Despite of recent advance in the last decades, the high cost of requisite large-scale antenna array hinders widespread adoption of MMW imaging in practice. To tackle this challenge, we report a large-scale single-shot MMW imaging framework using sparse antenna array, achieving low-cost but high-fidelity security inspection under an interpretable learning scheme. We first collected extensive full-sampled MMW echoes to study the statistical ranking of each element in the large-scale array. These elements are then sampled based on the ranking, building the experimentally optimal sparse sampling strategy that reduces the cost of antenna array by up to one order of magnitude. Additionally, we derived an untrained interpretable learning scheme, which realizes robust and accurate image reconstruction from sparsely sampled echoes. Last, we developed a neural network for automatic object detection, and experimentally demonstrated successful detection of concealed centimeter-sized targets using 10% sparse array, whereas all the other contemporary approaches failed at the same sample sampling ratio. The performance of the reported technique presents higher than 50% superiority over the existing MMW imaging schemes on various metrics including precision, recall, and mAP50. With such strong detection ability and order-of-magnitude cost reduction, we anticipate that this technique provides a practical way for large-scale single-shot MMW imaging, and could advocate its further practical applications.
翻訳日:2023-05-26 17:04:58 公開日:2023-05-25
# 音訳を用いたトルコ語多言語テキスト音声合成

Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration ( http://arxiv.org/abs/2305.15749v1 )

ライセンス: Link先を確認
Rustem Yeshpanov, Saida Mussakhojayeva, Yerbolat Khassanov(参考訳) この研究は、アゼルバイジャン語、バシュキル語、カザフ語、キルギス語、サハ語、タタール語、トルコ語、トルクメン語、ウイグル語、ウズベク語という10の低資源トルコ語のための多言語音声合成システムを構築することを目的としている。 ゼロショット学習のシナリオを特に対象とし、ある言語のデータを用いて訓練されたTSモデルを他の未知言語のための音声合成に適用する。 Tacotron 2 アーキテクチャに基づくエンドツーエンド TTS システムは、カザフ語で利用可能なデータのみを用いて訓練された。 他のテュルク諸語の音声を生成するため、まずトルコ語アルファベットの文字を国際音声アルファベット(IPA)の記号にマッピングし、その後カザフ語アルファベットに変換した。 提案手法の有効性を示すため,多言語トルコ語TSモデルを主観評価し,有望な結果を得た。 実験の複製を可能にするため、コードとデータセットをGitHubリポジトリで公開しています。

This work aims to build a multilingual text-to-speech (TTS) synthesis system for ten lower-resourced Turkic languages: Azerbaijani, Bashkir, Kazakh, Kyrgyz, Sakha, Tatar, Turkish, Turkmen, Uyghur, and Uzbek. We specifically target the zero-shot learning scenario, where a TTS model trained using the data of one language is applied to synthesise speech for other, unseen languages. An end-to-end TTS system based on the Tacotron 2 architecture was trained using only the available data of the Kazakh language. To generate speech for the other Turkic languages, we first mapped the letters of the Turkic alphabets onto the symbols of the International Phonetic Alphabet (IPA), which were then converted to the Kazakh alphabet letters. To demonstrate the feasibility of the proposed approach, we evaluated the multilingual Turkic TTS model subjectively and obtained promising results. To enable replication of the experiments, we make our code and dataset publicly available in our GitHub repository.
翻訳日:2023-05-26 17:04:31 公開日:2023-05-25
# reactface: dyadic相互作用における複数の適切な顔反応生成

ReactFace: Multiple Appropriate Facial Reaction Generation in Dyadic Interactions ( http://arxiv.org/abs/2305.15748v1 )

ライセンス: Link先を確認
Cheng Luo, Siyang Song, Weicheng Xie, Micol Spitale, Linlin Shen, Hatice Gunes(参考訳) dyadicインタラクションでは、異なる反応が同じ話者の行動に応じて適切である可能性があるため、聞き手の表情反応を予測することは困難である。 本稿では,リスナの実際の顔反応を再現するのではなく,話者の行動から適切な顔反応分布を学習するReactFaceという新しいフレームワークを提案する。 ReactFaceは複数の異なるが適切な人間の顔反応を生成する (i)複数の適切な顔反応を表す適切な顔反応分布を学習すること。 2) 話者の発話行動と非言語行動とを時間スタンプ毎に同期させることにより, 現実的な2次元顔反応シーケンスが得られた。 実験の結果,各話者の行動から多様,同期,適切な顔反応を発生させる手法の有効性が示され,生成反応の質は話者の発話や顔の行動に左右されることがわかった。 私たちのコードは、 \url{https://github.com/lingjivoo/ReactFace}で公開されています。

In dyadic interaction, predicting the listener's facial reactions is challenging as different reactions may be appropriate in response to the same speaker's behaviour. This paper presents a novel framework called ReactFace that learns an appropriate facial reaction distribution from a speaker's behaviour rather than replicating the real facial reaction of the listener. ReactFace generates multiple different but appropriate photo-realistic human facial reactions by (i) learning an appropriate facial reaction distribution representing multiple appropriate facial reactions; and (ii) synchronizing the generated facial reactions with the speaker's verbal and non-verbal behaviours at each time stamp, resulting in realistic 2D facial reaction sequences. Experimental results demonstrate the effectiveness of our approach in generating multiple diverse, synchronized, and appropriate facial reactions from each speaker's behaviour, with the quality of the generated reactions being influenced by the speaker's speech and facial behaviours. Our code is made publicly available at \url{https://github.com/lingjivoo/ReactFace}.
翻訳日:2023-05-26 17:04:08 公開日:2023-05-25
# union subgraphニューラルネットワーク

Union Subgraph Neural Networks ( http://arxiv.org/abs/2305.15747v1 )

ライセンス: Link先を確認
Jiaxing Xu, Aihu Zhang, Qingtian Bian, Vijay Prakash Dwivedi and Yiping Ke(参考訳) グラフニューラルネットワーク(GNN)は多くのアプリケーション領域でグラフ表現学習に広く使われている。 バニラGNNの表現性は、1次元のWeisfeiler-Leman (1-WL) テストによって上界化され、反復的なメッセージパッシングを通じてルート木に作用する。 本稿では,新しいタイプのサブ構造から抽出した近接接続情報を注入することにより,GNNの強化を図る。 まず, 周辺地域に存在する様々な接続性を調査し, エッジの1ホップ近傍の全体像を捉えることができるunion subgraphと呼ばれるサブ構造を同定する。 次に、3つの優れた特性を持ち、結合部分グラフの高次接続性を効果的にエンコードできる最短パスベースの部分構造記述子を設計する。 エンコードされた隣接コネクティビティを注入することにより、非同型グラフの識別において、1-wlよりも厳密に強力であることが証明された、union subgraph neural network (unionsnn) という新しいモデルを提案する。 さらに、ユニオンサブグラフからのローカルエンコーディングは、任意のメッセージパッシングニューラルネットワーク(MPNN)やTransformerベースのモデルにプラグインとして注入することもできる。 グラフレベルとノードレベルの両方のタスクの17のベンチマークに関する広範な実験は、unionsnnが最先端のベースラインモデルよりも優れた計算効率を示している。 既存のモデルにローカルエンコーディングを注入することで、パフォーマンスを最大11.09%向上させることができる。

Graph Neural Networks (GNNs) are widely used for graph representation learning in many application domains. The expressiveness of vanilla GNNs is upper-bounded by 1-dimensional Weisfeiler-Leman (1-WL) test as they operate on rooted subtrees through iterative message passing. In this paper, we empower GNNs by injecting neighbor-connectivity information extracted from a new type of substructure. We first investigate different kinds of connectivities existing in a local neighborhood and identify a substructure called union subgraph, which is able to capture the complete picture of the 1-hop neighborhood of an edge. We then design a shortest-path-based substructure descriptor that possesses three nice properties and can effectively encode the high-order connectivities in union subgraphs. By infusing the encoded neighbor connectivities, we propose a novel model, namely Union Subgraph Neural Network (UnionSNN), which is proven to be strictly more powerful than 1-WL in distinguishing non-isomorphic graphs. Additionally, the local encoding from union subgraphs can also be injected into arbitrary message-passing neural networks (MPNNs) and Transformer-based models as a plugin. Extensive experiments on 17 benchmarks of both graph-level and node-level tasks demonstrate that UnionSNN outperforms state-of-the-art baseline models, with competitive computational efficiency. The injection of our local encoding to existing models is able to boost the performance by up to 11.09%.
翻訳日:2023-05-26 17:03:53 公開日:2023-05-25
# 概念中心トランスフォーマ : 概念中心トランスフォーマによる解釈可能性の学習

Concept-Centric Transformers: Concept Transformers with Object-Centric Concept Learning for Interpretability ( http://arxiv.org/abs/2305.15775v1 )

ライセンス: Link先を確認
Jinyung Hong, Theodore P. Pavlic(参考訳) 注意機構は、視覚、NLP、マルチモーダルタスクにおけるディープラーニングモデルの性能を大幅に改善するとともに、モデルの解釈可能性を支援するツールを提供している。 特に、入力領域や具体的な画像の特徴に対する注意スコアを用いて、参加者の要素がモデル推論にどの程度貢献するかを測定することができる。 最近提案されたConcept Transformer (CT)は、トランスフォーマーの注意機構を低レベルな入力特徴からより抽象的で中レベルな潜在概念へと一般化し、人間の分析者が特定の出力分類に関するモデルの説明をより直接的に評価できるようにする。 しかし、ctが採用する概念学習は、クラス内のすべてのイメージにまたがる各イメージパッチが、そのクラスのメンバーシップを特徴付ける概念に同じ貢献をすることを暗黙的に仮定している。 CTのイメージパッチ中心の概念を使う代わりに、オブジェクト中心の概念はより良い分類性能と説明可能性をもたらす可能性がある。 そこで本研究では,オブジェクト中心学習に基づく新しい概念抽出モジュールを統合することで,より堅牢な説明と性能を提供する概念変換器(CCT)を提案する。 MNIST(odd/even)、CIFAR100(super-classes)、CUB-200-2011(bird species)の分類問題に対するCTと既存のいくつかのアプローチについて検討した。 実験の結果,cctは3つのテスト問題すべてにおいて,すべてのベンチマーク分類器よりも分類精度が著しく向上するだけでなく,ctと比較した場合の分類結果のより一貫した概念に基づく説明が得られた。

Attention mechanisms have greatly improved the performance of deep-learning models on visual, NLP, and multimodal tasks while also providing tools to aid in the model's interpretability. In particular, attention scores over input regions or concrete image features can be used to measure how much the attended elements contribute to the model inference. The recently proposed Concept Transformer (CT) generalizes the Transformer attention mechanism from such low-level input features to more abstract, intermediate-level latent concepts that better allow human analysts to more directly assess an explanation for the reasoning of the model about any particular output classification. However, the concept learning employed by CT implicitly assumes that across every image in a class, each image patch makes the same contribution to concepts that characterize membership in that class. Instead of using the CT's image-patch-centric concepts, object-centric concepts could lead to better classification performance as well as better explainability. Thus, we propose Concept-Centric Transformers (CCT), a new family of concept transformers that provides more robust explanations and performance by integrating a novel concept-extraction module based on object-centric learning. We test our proposed CCT against the CT and several other existing approaches on classification problems for MNIST (odd/even), CIFAR100 (super-classes), and CUB-200-2011 (bird species). Our experiments demonstrate that CCT not only achieves significantly better classification accuracy than all selected benchmark classifiers across all three of our test problems, but it generates more consistent concept-based explanations of classification output when compared to CT.
翻訳日:2023-05-26 16:56:57 公開日:2023-05-25
# 全スライド画像分類のためのマルチスケール能率グラフ変換器

Multi-scale Efficient Graph-Transformer for Whole Slide Image Classification ( http://arxiv.org/abs/2305.15773v1 )

ライセンス: Link先を確認
Saisai Ding, Juncheng Li, Jun Wang, Shihui Ying, Jun Shi(参考訳) スライド画像全体(WSI)のマルチスケール情報は,癌診断に不可欠である。 既存のマルチスケールビジョントランスフォーマーは、マルチスケール画像表現を学習する効果を示したが、非常に大きな画像サイズのため、依然としてギガピクセルのWSIではうまく動作しない。 そこで本研究では,WSI分類のためのマルチスケール能率グラフ変換器(MEGT)フレームワークを提案する。 MEGTのキーとなる考え方は、2つの独立したグラフベースのトランスフォーマー(EGT)ブランチを採用して、WSIの低解像度および高解像度のパッチ埋め込み(すなわちTransformerのトークン)を処理し、その後、これらのトークンをマルチスケールの機能融合モジュール(MFFM)を介して融合させることである。 具体的には,パッチトークンの局所的グローバル情報を効率的に学習するEGTを設計し,グラフ表現をTransformerに統合し,WSIの空間的関連情報をキャプチャする。 一方,機能融合中に異なる解像度パッチ間の意味的ギャップを緩和する新しいmffmを提案し,クロスアテンションによって他のブランチと情報を交換するエージェントとして,各ブランチに対して非パッチトークンを生成する。 さらに,ネットワークトレーニングの迅速化を図るため,EGTで新しいトークン刈りモジュールを開発し,冗長なトークンを減らす。 TCGA-RCCとCAMELYON16データセットの大規模な実験は、提案したMEGTの有効性を実証している。

The multi-scale information among the whole slide images (WSIs) is essential for cancer diagnosis. Although the existing multi-scale vision Transformer has shown its effectiveness for learning multi-scale image representation, it still cannot work well on the gigapixel WSIs due to their extremely large image sizes. To this end, we propose a novel Multi-scale Efficient Graph-Transformer (MEGT) framework for WSI classification. The key idea of MEGT is to adopt two independent Efficient Graph-based Transformer (EGT) branches to process the low-resolution and high-resolution patch embeddings (i.e., tokens in a Transformer) of WSIs, respectively, and then fuse these tokens via a multi-scale feature fusion module (MFFM). Specifically, we design an EGT to efficiently learn the local-global information of patch tokens, which integrates the graph representation into Transformer to capture spatial-related information of WSIs. Meanwhile, we propose a novel MFFM to alleviate the semantic gap among different resolution patches during feature fusion, which creates a non-patch token for each branch as an agent to exchange information with another branch by cross-attention. In addition, to expedite network training, a novel token pruning module is developed in EGT to reduce the redundant tokens. Extensive experiments on TCGA-RCC and CAMELYON16 datasets demonstrate the effectiveness of the proposed MEGT.
翻訳日:2023-05-26 16:56:25 公開日:2023-05-25
# 大規模言語モデルの計画能力について -批判的考察-

On the Planning Abilities of Large Language Models -- A Critical Investigation ( http://arxiv.org/abs/2305.15771v1 )

ライセンス: Link先を確認
Karthik Valmeekam, Matthew Marquez, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 本稿では,一般ウェブコーパスで学習したLCMにおける創発的推論能力の主張に着目し,その計画能力について検討した。 本研究の目的は,(1)コモンセンス計画における自律的計画作成におけるllmの有効性と,(2)他のエージェント(aiプランナー)の計画作業におけるヒューリスティックな指導の源としてのllmの可能性を評価することである。 我々は、国際計画コンペティションで採用されているものと類似したドメインの一連のインスタンスを生成し、自律とヒューリスティックの2つの異なるモードでllmを評価することにより、体系的な研究を行う。 その結果,llmsが自律的に実行可能な計画を生成する能力は限定的であり,最適モデル (gpt-4) の平均成功率は約12%であった。 しかし、ヒューリスティックモードの結果はより有望である。 ヒューリスティックモードでは、llm生成のプランが基礎となるサウンドプランナーの探索プロセスを改善できること、さらに、外部検証者が生成したプランに対するフィードバックを提供し、より優れたプラン生成のためにllmをバックプロンプトできることを実証する。

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) the effectiveness of LLMs in generating plans autonomously in commonsense planning tasks and (2) the potential of LLMs as a source of heuristic guidance for other agents (AI planners) in their planning tasks. We conduct a systematic study by generating a suite of instances on domains similar to the ones employed in the International Planning Competition and evaluate LLMs in two distinct modes: autonomous and heuristic. Our findings reveal that LLMs' ability to generate executable plans autonomously is rather limited, with the best model (GPT-4) having an average success rate of ~12% across the domains. However, the results in the heuristic mode show more promise. In the heuristic mode, we demonstrate that LLM-generated plans can improve the search process for underlying sound planners and additionally show that external verifiers can help provide feedback on the generated plans and back-prompt the LLM for better plan generation.
翻訳日:2023-05-26 16:56:00 公開日:2023-05-25
# TLNets:長距離時系列予測のための変換学習ネットワーク

TLNets: Transformation Learning Networks for long-range time-series prediction ( http://arxiv.org/abs/2305.15770v1 )

ライセンス: Link先を確認
Wei Wang, Yang Liu, Hao Sun(参考訳) 時系列予測は気象学、交通監視、投資、エネルギー生産と消費といった様々な分野において一般的な問題である。 多くの統計的および機械学習戦略がこの問題に対処するために開発されている。 しかし、これらのアプローチは説明性に欠けるか、予測水平線が大きくなると満足度が低下する。 そこで本稿では,ネットワークアーキテクチャを変換に基づいて設計する新たな計画を提案する。 本稿では,Fourier Transform (FT), Singular Value Decomposition (SVD), matrix multiplication, Conv blockなどの学習モデルを構築するために,4つの異なる変換機構をベースとして導入する。 そこで,本研究では,FT-Matrix,FT-SVD,FT-Conv,Conv-SVDの4つの学習モデルを構築した。 FTブロックとSVDブロックはグローバル情報を学ぶことができるが、Convブロックはローカル情報を学ぶことに集中している。 マトリックスブロックは、グローバル情報とローカル情報の両方を同時に学習するように設計されている。 上記のトランスフォーメーション学習ネットワーク(TLNet)は、複数の実世界のデータセットに基づく複数のベースラインモデルと比較され、長距離時系列予測における明確な可能性を示している。

Time series prediction is a prevalent issue across various disciplines, such as meteorology, traffic surveillance, investment, and energy production and consumption. Many statistical and machine-learning strategies have been developed to tackle this problem. However, these approaches either lack explainability or exhibit less satisfactory performance when the prediction horizon increases. To this end, we propose a novel plan for the designing of networks' architecture based on transformations, possessing the potential to achieve an enhanced receptive field in learning which brings benefits to fuse features across scales. In this context, we introduce four different transformation mechanisms as bases to construct the learning model including Fourier Transform (FT), Singular Value Decomposition (SVD), matrix multiplication and Conv block. Hence, we develop four learning models based on the above building blocks, namely, FT-Matrix, FT-SVD, FT-Conv, and Conv-SVD. Note that the FT and SVD blocks are capable of learning global information, while the Conv blocks focus on learning local information. The matrix block is sparsely designed to learn both global and local information simultaneously. The above Transformation Learning Networks (TLNets) have been extensively tested and compared with multiple baseline models based on several real-world datasets and showed clear potential in long-range time-series forecasting.
翻訳日:2023-05-26 16:55:40 公開日:2023-05-25
# MERGE: 高速なプライベートテキスト生成

MERGE: Fast Private Text Generation ( http://arxiv.org/abs/2305.15769v1 )

ライセンス: Link先を確認
Zi Liang, Pinghui Wang, Ruofei Zhang, Nuo Xu, Shuo Zhang(参考訳) 近年、NLPサービスとTransformerモデルのプライベートな推測に対する懸念が高まっている。 しかし、既存の2つのプライバシー保護手法はnluシナリオのみを考慮し、翻訳、対話、コード補完といったテキスト生成のプライベート推論は未解決である。 さらに、nlgモデルに移行する一方で、既存のプライバシ保存手法は推論速度の面ではパフォーマンスが悪く、トレーニング段階で収束問題に苦しんでいる。 そこで本稿では,トランスフォーマティブ言語モデルのための高速プライベートテキスト生成フレームワークmergeを提案する。 具体的には、マージは出力された隠れ状態をワード埋め込みとして再利用し、埋め込み計算をバイパスし、前方手続きを加速するためにトランスフォーマーモジュールの線形演算を再編成する。 これらの2つの最適化に基づいて、MERGEはシーケンス長512の26.5倍のスピードアップを実現し、80\%の通信バイトを削減し、既存の最先端モデルに最大10倍のスピードアップを達成できることを示した。

Recent years have seen increasing concerns about the private inference of NLP services and Transformer models. However, existing two-party privacy-preserving methods solely consider NLU scenarios, while the private inference of text generation such as translation, dialogue, and code completion remains unsolved. Besides, while migrated to NLG models, existing privacy-preserving methods perform poorly in terms of inference speed, and suffer from the convergence problem during the training stage. To address these issues, we propose MERGE, a fast private text generation framework for Transformer-based language models. Specifically, MERGE reuse the output hidden state as the word embedding to bypass the embedding computation, and reorganize the linear operations in the Transformer module to accelerate the forward procedure. Based on these two optimizations, extensive experiments show that MERGE can achieve a 26.5x speedup under the sequence length 512, and reduce 80\% communication bytes, with an up to 10x speedup to existing state-of-art models.
翻訳日:2023-05-26 16:55:19 公開日:2023-05-25
# 単一画像超解像に対する高相似度注意法

High-Similarity-Pass Attention for Single Image Super-Resolution ( http://arxiv.org/abs/2305.15768v1 )

ライセンス: Link先を確認
Jian-Nan Su, Min Gan, Guang-Yong Chen, Wenzhong Guo, C. L. Philip Chen(参考訳) 非局所的注意(NLA)の分野での最近の進歩は、自己相似性に基づく単一画像超解像(SISR)への新たな関心につながっている。 研究者は通常、NLAを用いて、SISRの非局所自己相似性(NSS)を探索し、良好な再建結果を得る。 しかし,標準NLAの再建性能がランダムに選択されたNLAと似ているという驚くべき現象は,NLAの再検討への関心を刺激した。 本稿ではまず,異なる視点から標準NLAのアテンションマップを解析し,結果の確率分布が常にすべての局所的特徴をフルにサポートしていることを発見し,非局所的特徴に値を割り当てる統計的ムダ,特に多数の冗長な非局所的特徴で長距離依存をモデル化する必要があるSISRについて検討した。 そこで本研究では,よりコンパクトで解釈可能な分布を生成する上で有用なhspa(high- similarity-pass attention)を得るための,簡潔かつ効果的なソフトしきい値操作を提案する。 さらに,HSPAをエンド・ツー・エンドでトレーニングできるソフトしきい値演算のいくつかの重要な特性を導出した。 HSPAは、効率的な汎用ビルディングブロックとして既存のディープSISRモデルに統合することができる。 さらに,HSPAの有効性を示すために,いくつかのHSPAを単純なバックボーンに統合することにより,HSPAN(High-Similarity-pass attention network)を構築した。 HSPANは定量評価と定性評価の両方において最先端の手法よりも優れていた。

Recent developments in the field of non-local attention (NLA) have led to a renewed interest in self-similarity-based single image super-resolution (SISR). Researchers usually used the NLA to explore non-local self-similarity (NSS) in SISR and achieve satisfactory reconstruction results. However, a surprising phenomenon that the reconstruction performance of the standard NLA is similar to the NLA with randomly selected regions stimulated our interest to revisit NLA. In this paper, we first analyzed the attention map of the standard NLA from different perspectives and discovered that the resulting probability distribution always has full support for every local feature, which implies a statistical waste of assigning values to irrelevant non-local features, especially for SISR which needs to model long-range dependence with a large number of redundant non-local features. Based on these findings, we introduced a concise yet effective soft thresholding operation to obtain high-similarity-pass attention (HSPA), which is beneficial for generating a more compact and interpretable distribution. Furthermore, we derived some key properties of the soft thresholding operation that enable training our HSPA in an end-to-end manner. The HSPA can be integrated into existing deep SISR models as an efficient general building block. In addition, to demonstrate the effectiveness of the HSPA, we constructed a deep high-similarity-pass attention network (HSPAN) by integrating a few HSPAs in a simple backbone. Extensive experimental results demonstrate that HSPAN outperforms state-of-the-art approaches on both quantitative and qualitative evaluations.
翻訳日:2023-05-26 16:54:59 公開日:2023-05-25
# 表面符号を用いたフォールトトレラント量子計算のためのスケーラブルで高速でプログラム可能なニューラルデコーダ

A Scalable, Fast and Programmable Neural Decoder for Fault-Tolerant Quantum Computation Using Surface Codes ( http://arxiv.org/abs/2305.15767v1 )

ライセンス: Link先を確認
Mengyu Zhang, Xiangyu Ren, Guanglei Xi, Zhenxing Zhang, Qiaonian Yu, Fuming Liu, Hualiang Zhang, Shengyu Zhang and Yi-Cong Zheng(参考訳) 量子誤り訂正符号(Quantum error-correcting codes, QECCs)は、量子アルゴリズムの実行の大きな障害である量子ノイズの負の効果を排除できる。 しかし、実用的な量子誤り訂正(QEC)を実現するには、高性能なリアルタイムデコードシステムを実装するために多くの課題を解決する必要がある。 過去数十年間、多くの復号アルゴリズムが提案され、最適化されてきたが、ニューラルネットワーク(nns)ベースのソリューションは、高い効率のために注目を集めている。 残念ながら、ニューラルデコーダに関する以前の研究はまだ初期段階にあり、比較的単純なアーキテクチャしか持っていないため、実用的なQECには適さない。 本研究では,回転曲面符号(RSC)に対するFTQECの要件を満たす,スケーラブルで高速かつプログラム可能なニューラルデコーディングシステムを提案する。 まず,比較的低複雑性かつ高精度なハードウェア効率のNN復号アルゴリズムを提案する。 次に,アーキテクチャ最適化による遅延低減のためのハードウェアデコーダの開発を行う。 第3に,提案するプログラマブルアーキテクチャは並列性を最大化することでデコーダのスケーラビリティと柔軟性を高める。 第4に,fpgaベースのデコードシステムと統合制御ハードウェアを構築し,評価を行う。 我々の$L=5$(L$はコード距離)デコーダは197 nsの非常に低い復号遅延を実現し、$L=7$設定も1.136$\mu$sで、どちらも2L$のシンドローム測定を行う。 本システムの精度は最小重量完全マッチング(MWPM)に近い。 さらに、プログラム可能なアーキテクチャにより、ハードウェアリソースの消費を最大3.0\times$に削減できます。 物理ハードウェアから収集した実験データを含む,実用的なノイズモデルを用いた概念実証ベンチマークを実施し,実世界のシナリオで検証した。

Quantum error-correcting codes (QECCs) can eliminate the negative effects of quantum noise, the major obstacle to the execution of quantum algorithms. However, realizing practical quantum error correction (QEC) requires resolving many challenges to implement a high-performance real-time decoding system. Many decoding algorithms have been proposed and optimized in the past few decades, of which neural network (NNs) based solutions have drawn an increasing amount of attention due to their high efficiency. Unfortunately, previous works on neural decoders are still at an early stage and have only relatively simple architectures, which makes them unsuitable for practical QEC. In this work, we propose a scalable, fast, and programmable neural decoding system to meet the requirements of FTQEC for rotated surface codes (RSC). Firstly, we propose a hardware-efficient NN decoding algorithm with relatively low complexity and high accuracy. Secondly, we develop a customized hardware decoder with architectural optimizations to reduce latency. Thirdly, our proposed programmable architecture boosts the scalability and flexibility of the decoder by maximizing parallelism. Fourthly, we build an FPGA-based decoding system with integrated control hardware for evaluation. Our $L=5$ ($L$ is the code distance) decoder achieves an extremely low decoding latency of 197 ns, and the $L=7$ configuration also requires only 1.136 $\mu$s, both taking $2L$ rounds of syndrome measurements. The accuracy results of our system are close to minimum weight perfect matching (MWPM). Furthermore, our programmable architecture reduces hardware resource consumption by up to $3.0\times$ with only a small latency loss. We validated our approach in real-world scenarios by conducting a proof-of-concept benchmark with practical noise models, including one derived from experimental data gathered from physical hardware.
翻訳日:2023-05-26 16:54:32 公開日:2023-05-25
# 自律運転のためのポイントクラウドにおける言語誘導型3次元物体検出

Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving ( http://arxiv.org/abs/2305.15765v1 )

ライセンス: Link先を確認
Wenhao Cheng, Junbo Yin, Wei Li, Ruigang Yang and Jianbing Shen(参考訳) 本稿では,LiDAR点雲のターゲット領域に自然言語を基盤として,自律運転シナリオにおける3D参照表現理解(REC)の問題に対処する。 従来のRECのアプローチは、通常2Dまたは3D屋内ドメインにフォーカスするが、これは自律運転シーンにおけるクエリされた3D領域の位置を正確に予測するのに適していない。 さらに、上限の上限と重い計算コストは、より良いソリューションを探求する動機付けとなります。 本研究では,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドリングタスクを提案する。 次に,効果的なトークン融合戦略を用いたマルチモーダル単一ショットグラウンド(MSSG)アプローチを提案する。 言語特徴を持つLiDARベースのオブジェクト検出器を共同で学習し、後処理なしで検出対象領域を直接予測する。 さらに,画像特徴を柔軟に統合することで,テクスチャや色彩情報を充実させることができる。 クロスモーダル学習は、情報的言語表現を考慮し、検出者がポイントクラウドの重要な領域に集中するように強制するので、精度と効率が大幅に向上する。 Talk2Carデータセットの大規模な実験により,提案手法の有効性が示された。 私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。

This paper addresses the problem of 3D referring expression comprehension (REC) in autonomous driving scenario, which aims to ground a natural language to the targeted region in LiDAR point clouds. Previous approaches for REC usually focus on the 2D or 3D-indoor domain, which is not suitable for accurately predicting the location of the queried 3D region in an autonomous driving scene. In addition, the upper-bound limitation and the heavy computation cost motivate us to explore a better solution. In this work, we propose a new multi-modal visual grounding task, termed LiDAR Grounding. Then we devise a Multi-modal Single Shot Grounding (MSSG) approach with an effective token fusion strategy. It jointly learns the LiDAR-based object detector with the language features and predicts the targeted region directly from the detector without any post-processing. Moreover, the image feature can be flexibly integrated into our approach to provide rich texture and color information. The cross-modal learning enforces the detector to concentrate on important regions in the point cloud by considering the informative language expressions, thus leading to much better accuracy and efficiency. Extensive experiments on the Talk2Car dataset demonstrate the effectiveness of the proposed methods. Our work offers a deeper insight into the LiDAR-based grounding task and we expect it presents a promising direction for the autonomous driving community.
翻訳日:2023-05-26 16:54:02 公開日:2023-05-25
# マルチクエリ車両再識別:視点条件付きネットワーク、統一データセット、新しいメトリック

Multi-query Vehicle Re-identification: Viewpoint-conditioned Network, Unified Dataset and New Metric ( http://arxiv.org/abs/2305.15764v1 )

ライセンス: Link先を確認
Aihua Zheng, Chaobin Zhang, Weijun Zhang, Chenglong Li, Jin Tang, Chang Tan, Ruoran Jia(参考訳) 既存の車両再識別手法は主に、車両の表現に制限のある単一のクエリに依存しており、複雑な監視ネットワークにおける車両のRe-IDの性能を著しく損なう。 本稿では,複数の問合せを活用し,単一問合せの視点制限を克服し,より現実的で容易にアクセス可能なタスクであるマルチクエリ車両re-idを提案する。 このタスクに基づいて、私たちは3つの大きな貢献をします。 まず,車両の異なる視点からの補完情報を適応的に結合した,新しい視点条件付きネットワーク(vcnet)を設計した。 さらに, 車両の視点の欠如問題に対処するために, 利用可能な視点と不足視点の特徴の相関関係を学習し, 行方不明視点の特徴を回復するクロスビュー機能回復モジュールを提案する。 第2に,実生活の交通監視システムから6142台のカメラで撮影された総合的なベンチマークデータセットを作成し,各車両の総合的な視点と多数の横断シーンを用いて,マルチクエリ車両のリid評価を行う。 最後に,同じ視点の正のサンプルを同じカメラから抑制することにより,クロスシーン認識能力を測定する,平均クロスシーン精度(mCSP)と呼ばれる新しい評価指標を設計する。 総合的な実験により,提案手法の他の手法に対する優位性を検証し,マルチクエリ車両のRe-ID評価における設計基準の有効性を検証した。

Existing vehicle re-identification methods mainly rely on the single query, which has limited information for vehicle representation and thus significantly hinders the performance of vehicle Re-ID in complicated surveillance networks. In this paper, we propose a more realistic and easily accessible task, called multi-query vehicle Re-ID, which leverages multiple queries to overcome viewpoint limitation of single one. Based on this task, we make three major contributions. First, we design a novel viewpoint-conditioned network (VCNet), which adaptively combines the complementary information from different vehicle viewpoints, for multi-query vehicle Re-ID. Moreover, to deal with the problem of missing vehicle viewpoints, we propose a cross-view feature recovery module which recovers the features of the missing viewpoints by learnt the correlation between the features of available and missing viewpoints. Second, we create a unified benchmark dataset, taken by 6142 cameras from a real-life transportation surveillance system, with comprehensive viewpoints and large number of crossed scenes of each vehicle for multi-query vehicle Re-ID evaluation. Finally, we design a new evaluation metric, called mean cross-scene precision (mCSP), which measures the ability of cross-scene recognition by suppressing the positive samples with similar viewpoints from same camera. Comprehensive experiments validate the superiority of the proposed method against other methods, as well as the effectiveness of the designed metric in the evaluation of multi-query vehicle Re-ID.
翻訳日:2023-05-26 16:53:41 公開日:2023-05-25
# 部分的マルチモーダル人物識別のための動的強化ネットワーク

Dynamic Enhancement Network for Partial Multi-modality Person Re-identification ( http://arxiv.org/abs/2305.15762v1 )

ライセンス: Link先を確認
Aihua Zheng, Ziling He, Zi Wang, Chenglong Li, Jin Tang(参考訳) 多くの既存のマルチモダリティ研究はモダリティ完全性の仮定に基づいている。 しかしながら、任意のモダリティを欠く問題は実生活において非常にありふれた問題であり、この問題はあまり研究されていないが、実際にはマルチモダリティの人物再同定(re-id)のタスクにおいて重要である。 そこで本研究では,複数のモダリティの表現能力を維持しつつ任意のモダリティを欠くことができる新しい動的拡張ネットワーク (denet) を設計した。 具体的には、RGBのマルチモーダル表現、近赤外(NIR)、熱赤外(TIR)画像を3つのブランチで学習し、欠落したモダリティの情報を特徴変換モジュールで検索する。 欠落状態が変更可能である可能性があるため、動的拡張モジュールを設計し、欠落状態に応じて動的にモダリティ特性を適応的に拡張し、マルチモダリティ表現を改善する。 マルチモダリティの人物であるRe-IDデータセットRGBNT201と車両Re-IDデータセットRGBNT100に対する大規模な実験により, 複雑で変更可能な環境における手法の有効性が検証された。

Many existing multi-modality studies are based on the assumption of modality integrity. However, the problem of missing arbitrary modalities is very common in real life, and this problem is less studied, but actually important in the task of multi-modality person re-identification (Re-ID). To this end, we design a novel dynamic enhancement network (DENet), which allows missing arbitrary modalities while maintaining the representation ability of multiple modalities, for partial multi-modality person Re-ID. To be specific, the multi-modal representation of the RGB, near-infrared (NIR) and thermal-infrared (TIR) images is learned by three branches, in which the information of missing modalities is recovered by the feature transformation module. Since the missing state might be changeable, we design a dynamic enhancement module, which dynamically enhances modality features according to the missing state in an adaptive manner, to improve the multi-modality representation. Extensive experiments on multi-modality person Re-ID dataset RGBNT201 and vehicle Re-ID dataset RGBNT100 comparing to the state-of-the-art methods verify the effectiveness of our method in complex and changeable environments.
翻訳日:2023-05-26 16:53:16 公開日:2023-05-25
# テキスト・画像拡散モデルのアーキテクチャ圧縮について

On Architectural Compression of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.15798v1 )

ライセンス: Link先を確認
Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi(参考訳) 安定拡散モデル(SDM)の例外テキスト・トゥ・イメージ(T2I)生成結果には、かなりの計算要求がある。 この問題を解決するため、近年の効率的なSDMの研究はサンプリングステップの削減とネットワーク量子化の利用を優先している。 本研究は,ブロック除去された知識蒸留SDM(BK-SDM)を導入することにより,汎用T2I合成のための古典的アーキテクチャ圧縮の力を強調する。 我々は,SDMのU-Netから残差や注意ブロックを除去し,パラメータ数,サンプリングステップ毎のMAC数,レイテンシを30%以上削減する。 1つのA100 GPU上で0.22MLAIONペア(フルトレーニングペアの0.1%以下)で蒸留ベースの事前トレーニングを行う。 限られた資源で訓練されているにもかかわらず、我々のコンパクトモデルは、転送された知識の恩恵を受け、ゼロショットMS-COCOベンチマーク上のより大きなマルチビリオンパラメータモデルに対して競合する結果を得ることにより、元のSDMを模倣することができる。 さらに,dreambooth finetuningを用いたパーソナライズ生成における軽量事前学習モデルの適用性を示す。

Exceptional text-to-image (T2I) generation results of Stable Diffusion models (SDMs) come with substantial computational demands. To resolve this issue, recent research on efficient SDMs has prioritized reducing the number of sampling steps and utilizing network quantization. Orthogonal to these directions, this study highlights the power of classical architectural compression for general-purpose T2I synthesis by introducing block-removed knowledge-distilled SDMs (BK-SDMs). We eliminate several residual and attention blocks from the U-Net of SDMs, obtaining over a 30% reduction in the number of parameters, MACs per sampling step, and latency. We conduct distillation-based pretraining with only 0.22M LAION pairs (fewer than 0.1% of the full training pairs) on a single A100 GPU. Despite being trained with limited resources, our compact models can imitate the original SDM by benefiting from transferred knowledge and achieve competitive results against larger multi-billion parameter models on the zero-shot MS-COCO benchmark. Moreover, we demonstrate the applicability of our lightweight pretrained models in personalized generation with DreamBooth finetuning.
翻訳日:2023-05-26 16:46:39 公開日:2023-05-25
# 超高次元マルチクラスデータの特徴空間削減法:ランダム森林を用いたマルチラウンドスクリーニング(RFMS)

Feature space reduction method for ultrahigh-dimensional, multiclass data: Random forest-based multiround screening (RFMS) ( http://arxiv.org/abs/2305.15793v1 )

ライセンス: Link先を確認
Gergely Hancz\'ar, Marcell Stippinger, D\'avid Han\'ak, Marcell T. Kurbucz, Oliv\'er M. T\"orteli, \'Agnes Chripk\'o, Zolt\'an Somogyv\'ari(参考訳) 近年、何十万もの特徴を含む超高次元データに対して、多数のスクリーニング手法が公表されているが、これらの機能は数千のクラスでデータを扱うことはできない。 マルチチャネルバイオメトリックデータに基づいてユーザを認証するために構築された予測モデルは,この種の問題を引き起こす。 本研究では,この状況下で効果的に適用可能な,ランダム森林を用いたマルチラウンドスクリーニング(RFMS)と呼ばれる新しい手法を提案する。 提案アルゴリズムは,特徴空間を小さなサブセットに分割し,一連の部分モデル構築を実行する。 これらの部分モデルはトーナメントベースのソートと、その重要性に基づいた特徴の選択を実装するために使用される。 RFMSのベンチマークには、BiometricBlenderとして知られる合成バイオメトリック特徴空間ジェネレータが使用されている。 その結果,RFMSは業界標準の特徴スクリーニング手法と同等であり,同時にこれらの手法に対して多くの利点があることがわかった。

In recent years, numerous screening methods have been published for ultrahigh-dimensional data that contain hundreds of thousands of features; however, most of these features cannot handle data with thousands of classes. Prediction models built to authenticate users based on multichannel biometric data result in this type of problem. In this study, we present a novel method known as random forest-based multiround screening (RFMS) that can be effectively applied under such circumstances. The proposed algorithm divides the feature space into small subsets and executes a series of partial model builds. These partial models are used to implement tournament-based sorting and the selection of features based on their importance. To benchmark RFMS, a synthetic biometric feature space generator known as BiometricBlender is employed. Based on the results, the RFMS is on par with industry-standard feature screening methods while simultaneously possessing many advantages over these methods.
翻訳日:2023-05-26 16:46:21 公開日:2023-05-25
# IDEA: グラフ反転ロバストネスのための不変因果防御

IDEA: Invariant Causal Defense for Graph Adversarial Robustness ( http://arxiv.org/abs/2305.15792v1 )

ライセンス: Link先を確認
Shuchang Tao, Qi Cao, Huawei Shen, Yunfan Wu, Bingbing Xu, Xueqi Cheng(参考訳) グラフニューラルネットワーク(gnns)は様々なタスクで顕著な成功を収めているが、その攻撃に対する脆弱性は現実世界のアプリケーションに対する懸念を生じさせている。 既存の防御方法はいくつかの攻撃に抵抗するが、他の未知の攻撃では性能が低下する。 これは、グラフやモデル構造(グラフの精製やロバストアグリゲーション)を変更するための特定のヒューリスティックを最適化するために、限定された観察された敵の例に依存するためである。 本稿では、敵攻撃(IDEA)に対する不変因果解法を提案し、この問題に対処するための新たな視点を提供する。 本手法は,ラベルの強い予測可能性と攻撃間の不変な予測可能性を有する因果的特徴を学習し,グラフの対角的堅牢性を実現することを目的とする。 グラフ敵攻撃における因果関係のモデル化と分析を通じて,因果的特徴を学習するための2つの非分散目標を設計する。 大規模な実験により、IDEAは5つのベンチマークデータセットに対して、毒性攻撃と回避攻撃の両方の下で、すべてのベースラインを著しく上回り、IDEAの強力で不変な予測可能性を強調します。 IDEAの実装はhttps://anonymous.4open.science/r/IDEA_repo-666Bで公開されている。

Graph neural networks (GNNs) have achieved remarkable success in various tasks, however, their vulnerability to adversarial attacks raises concerns for the real-world applications. Existing defense methods can resist some attacks, but suffer unbearable performance degradation under other unknown attacks. This is due to their reliance on either limited observed adversarial examples to optimize (adversarial training) or specific heuristics to alter graph or model structures (graph purification or robust aggregation). In this paper, we propose an Invariant causal DEfense method against adversarial Attacks (IDEA), providing a new perspective to address this issue. The method aims to learn causal features that possess strong predictability for labels and invariant predictability across attacks, to achieve graph adversarial robustness. Through modeling and analyzing the causal relationships in graph adversarial attacks, we design two invariance objectives to learn the causal features. Extensive experiments demonstrate that our IDEA significantly outperforms all the baselines under both poisoning and evasion attacks on five benchmark datasets, highlighting the strong and invariant predictability of IDEA. The implementation of IDEA is available at https://anonymous.4open.science/r/IDEA_repo-666B.
翻訳日:2023-05-26 16:46:10 公開日:2023-05-25
# ニュース注文における中立性の最大化

Maximizing Neutrality in News Ordering ( http://arxiv.org/abs/2305.15790v1 )

ライセンス: Link先を確認
Rishi Advani (1), Paolo Papotti (2), Abolfazl Asudeh (1) ((1) University of Illinois Chicago, (2) EURECOM)(参考訳) 偽ニュースの検出はここ数年で注目を集めていますが、視聴者を欺く方法はもっと微妙です。 ニュース記事の内容に加えて、彼らのプレゼンテーションは誤解を招くか偏見を与えることもできる。 本研究では,ニュース記事の順序付けがオーディエンス知覚に与える影響について検討する。 本稿では,ニュース注文におけるサクラニュース注文の検出と中立性の最大化の問題を紹介する。 難易度を証明し,これらの問題を近似的に解くアルゴリズムをいくつか提示する。 さらに, 実世界における桜の摘み取りの可能性を示すとともに, 広範な実験結果を提供する。

The detection of fake news has received increasing attention over the past few years, but there are more subtle ways of deceiving one's audience. In addition to the content of news stories, their presentation can also be made misleading or biased. In this work, we study the impact of the ordering of news stories on audience perception. We introduce the problems of detecting cherry-picked news orderings and maximizing neutrality in news orderings. We prove hardness results and present several algorithms for approximately solving these problems. Furthermore, we provide extensive experimental results and present evidence of potential cherry-picking in the real world.
翻訳日:2023-05-26 16:45:47 公開日:2023-05-25
# ChatGPT時代のサービス構成

Service Composition in the ChatGPT Era ( http://arxiv.org/abs/2305.15788v1 )

ライセンス: Link先を確認
Marco Aiello and Ilche Georgievski(参考訳) この論文は、chatgptライクなシステムが自動化サービス構成の分野をどのように支援できるかを推測し、サービス指向構成の分野におけるそのようなツールを活用するために、探究すべき新しい研究領域を特定する。

The paper speculates about how ChatGPT-like systems can support the field of automated service composition and identifies new research areas to explore in order to take advantage of such tools in the field of service-oriented composition.
翻訳日:2023-05-26 16:45:39 公開日:2023-05-25
# 学習感覚戦略の理論的保証と時系列予測への応用

Theoretical Guarantees of Learning Ensembling Strategies with Applications to Time Series Forecasting ( http://arxiv.org/abs/2305.15786v1 )

ライセンス: Link先を確認
Hilaf Hasson, Danielle C. Maddix, Yuyang Wang, Gaurav Gupta, Youngsuk Park(参考訳) 機械学習(ML)では、分散を最小化し、一般化を改善する効果があるため、組み立ては最も一般的なツールである。 ブラックボックスベース学習者のためのほとんどのアンサンブル手法は、ベース学習者からの推論を入力として取り込むMLアルゴリズムを訓練する"スタック一般化"の傘の下に置かれる。 積み重ねは実際には広く適用されているが、理論的性質はよく分かっていない。 本稿では, クロスバリデード性能に基づく(有限あるいは有限次元の)重ね合わせ一般化系から, 最良の積み重ね一般化を選択すると, オラクルの最高値よりも「はるかに悪い」結果が得られないことを示す。 我々の結果は、van der laan et al. (2007) の結果を強化し、大幅に拡張する。 理論解析に着想を得て,確率的予測の文脈において,アンサンブル重みがどの程度異なるか,予測地平線におけるタイムスタンプ,および量子化に対して異なる感度を持つ,積み重ね一般化の特定のファミリーを提案する。 実験結果は,提案手法の性能向上を示す。

Ensembling is among the most popular tools in machine learning (ML) due to its effectiveness in minimizing variance and thus improving generalization. Most ensembling methods for black-box base learners fall under the umbrella of "stacked generalization," namely training an ML algorithm that takes the inferences from the base learners as input. While stacking has been widely applied in practice, its theoretical properties are poorly understood. In this paper, we prove a novel result, showing that choosing the best stacked generalization from a (finite or finite-dimensional) family of stacked generalizations based on cross-validated performance does not perform "much worse" than the oracle best. Our result strengthens and significantly extends the results in Van der Laan et al. (2007). Inspired by the theoretical analysis, we further propose a particular family of stacked generalizations in the context of probabilistic forecasting, each one with a different sensitivity for how much the ensemble weights are allowed to vary across items, timestamps in the forecast horizon, and quantiles. Experimental results demonstrate the performance gain of the proposed method.
翻訳日:2023-05-26 16:45:33 公開日:2023-05-25
# vanillakd: 小規模から大規模へのバニラ知識蒸留の力の再検討

VanillaKD: Revisit the Power of Vanilla Knowledge Distillation from Small Scale to Large Scale ( http://arxiv.org/abs/2305.15781v1 )

ライセンス: Link先を確認
Zhiwei Hao, Jianyuan Guo, Kai Han, Han Hu, Chang Xu, Yunhe Wang(参考訳) 大規模なデータセットでトレーニングされた大規模なモデルの成功は、スケールが優れた結果を達成する上で重要な要素であることを証明している。 そのため,小規模データセットのみをベースとした限定容量アーキテクチャにおける知識蒸留(KD)手法の設計の合理性に関する考察が重要視されている。 本稿では,従来のKD手法で提案したemph{small data pitfall}を同定し,ImageNet-1Kのような大規模データセット上でのバニラKDフレームワークのパワーを過小評価する。 具体的には、より強力なデータ拡張技術とより大きなデータセットを使用することで、バニラkdと他の細心の注意深いkdモデルとのギャップを直接低減できることを示す。 これは、KDアプローチを実践シナリオのコンテキストで設計し評価することの必要性を強調し、小規模データセットの制限を排除している。 より複雑なスキームにおけるバニラKDとその変種の研究は、より強力な訓練戦略と異なるモデル能力を含む、バニラKDがエレガントに単純だが、大規模なシナリオで驚くほど効果的であることを示す。 ベルとホイッスルがなければ、ImageNetの最先端のResNet-50、ViT-S、ConvNeXtV2-Tモデルがそれぞれ83.1\%、84.3\%、85.0\%となる。 PyTorchのコードとチェックポイントはhttps://github.com/Hao840/vanillaKD.comにある。

The tremendous success of large models trained on extensive datasets demonstrates that scale is a key ingredient in achieving superior results. Therefore, the reflection on the rationality of designing knowledge distillation (KD) approaches for limited-capacity architectures solely based on small-scale datasets is now deemed imperative. In this paper, we identify the \emph{small data pitfall} that presents in previous KD methods, which results in the underestimation of the power of vanilla KD framework on large-scale datasets such as ImageNet-1K. Specifically, we show that employing stronger data augmentation techniques and using larger datasets can directly decrease the gap between vanilla KD and other meticulously designed KD variants. This highlights the necessity of designing and evaluating KD approaches in the context of practical scenarios, casting off the limitations of small-scale datasets. Our investigation of the vanilla KD and its variants in more complex schemes, including stronger training strategies and different model capacities, demonstrates that vanilla KD is elegantly simple but astonishingly effective in large-scale scenarios. Without bells and whistles, we obtain state-of-the-art ResNet-50, ViT-S, and ConvNeXtV2-T models for ImageNet, which achieve 83.1\%, 84.3\%, and 85.0\% top-1 accuracy, respectively. PyTorch code and checkpoints can be found at https://github.com/Hao840/vanillaKD.
翻訳日:2023-05-26 16:45:17 公開日:2023-05-25
# カスタム編集: カスタマイズ拡散モデルによるテキストガイド画像編集

Custom-Edit: Text-Guided Image Editing with Customized Diffusion Models ( http://arxiv.org/abs/2305.15779v1 )

ライセンス: Link先を確認
Jooyoung Choi, Yunjey Choi, Yunji Kim, Junho Kim, Sungroh Yoon(参考訳) テキスト間拡散モデルでは、ユーザが提供するテキストプロンプトに基づいて、多様な高忠実度画像を生成することができる。 最近の研究は、これらのモデルをテキスト誘導画像編集をサポートするように拡張している。 テキストガイダンスはユーザのための直感的な編集インターフェースであるが、ユーザーによって伝達される正確な概念を保証するのに失敗することが多い。 この問題に対処するために,我々はカスタム編集を提案する。 (i)いくつかの参照画像で拡散モデルをカスタマイズし、 (ii)テキストガイド編集を行う。 我々の重要な発見は、拡張プロンプトで言語関連パラメータのみをカスタマイズすることで、ソースの類似性を保ちながら参照類似性を著しく改善することです。 さらに,カスタマイズおよび編集プロセス毎にレシピを提供する。 ポピュラーなカスタマイズ手法を比較し,様々なデータセットを用いた2つの編集手法の検証を行った。

Text-to-image diffusion models can generate diverse, high-fidelity images based on user-provided text prompts. Recent research has extended these models to support text-guided image editing. While text guidance is an intuitive editing interface for users, it often fails to ensure the precise concept conveyed by users. To address this issue, we propose Custom-Edit, in which we (i) customize a diffusion model with a few reference images and then (ii) perform text-guided editing. Our key discovery is that customizing only language-relevant parameters with augmented prompts improves reference similarity significantly while maintaining source similarity. Moreover, we provide our recipe for each customization and editing process. We compare popular customization methods and validate our findings on two editing methods using various datasets.
翻訳日:2023-05-26 16:44:47 公開日:2023-05-25
# 前立腺MRIセグメンテーションのためのMCTSによる動的データ拡張

Dynamic Data Augmentation via MCTS for Prostate MRI Segmentation ( http://arxiv.org/abs/2305.15777v1 )

ライセンス: Link先を確認
Xinyue Xu, Yuhan Hsi, Haonan Wang, Xiaomeng Li(参考訳) 医療画像データは、しばしば高価な取得とアノテーションプロセスのために制限される。 したがって、生データだけでディープラーニングモデルをトレーニングすることは、容易に過度な適合につながる。 この問題の解決策の1つは、様々な変換で生データを拡張し、新しいデータに一般化するモデルの能力を改善することである。 しかし、不整合な取得アプローチとデータ分散のため、異なるデータセットに対する汎用的な拡張の組み合わせとパラメータを手動で設定するのは簡単ではない。 そこで,大規模なgpuオーバヘッドを伴いながら,異なるデータセットに対して好適な拡張戦略を学習するために,自動データ拡張を提案する。 そこで我々はDDAug(Dynamic Data Augmentation)と呼ばれる新しい手法を提案する。 ddaugは,様々な拡張を表す階層木構造を開発し,効率的なモンテカルロ木探索アルゴリズムを用いて木を更新,プルーンし,サンプリングする。 その結果、拡張パイプラインはデータセット毎に自動的に最適化される。 複数の前立腺MRIデータセットの実験により、我々の手法は現在の最先端データ拡張戦略より優れていることが示された。

Medical image data are often limited due to the expensive acquisition and annotation process. Hence, training a deep-learning model with only raw data can easily lead to overfitting. One solution to this problem is to augment the raw data with various transformations, improving the model's ability to generalize to new data. However, manually configuring a generic augmentation combination and parameters for different datasets is non-trivial due to inconsistent acquisition approaches and data distributions. Therefore, automatic data augmentation is proposed to learn favorable augmentation strategies for different datasets while incurring large GPU overhead. To this end, we present a novel method, called Dynamic Data Augmentation (DDAug), which is efficient and has negligible computation cost. Our DDAug develops a hierarchical tree structure to represent various augmentations and utilizes an efficient Monte-Carlo tree searching algorithm to update, prune, and sample the tree. As a result, the augmentation pipeline can be optimized for each dataset automatically. Experiments on multiple Prostate MRI datasets show that our method outperforms the current state-of-the-art data augmentation strategies.
翻訳日:2023-05-26 16:44:36 公開日:2023-05-25
# 複数のラベルなしデータセットからのAUC最適化

AUC Optimization from Multiple Unlabeled Datasets ( http://arxiv.org/abs/2305.15776v1 )

ライセンス: Link先を確認
Yu Liu, Zheng Xie, Ming Li(参考訳) 弱い教師付き学習は、完璧な監督が利用できない時に機械学習を強化することを目的としており、研究者から大きな注目を集めている。 様々な弱い監督のうち、最も難しい事例の1つは、クラス事前の知識がほとんどない複数のラベルのない(u)データセットから学ぶか、略してu$^m$学習するかである。 本稿では,複数のラベル付きデータセットから auc (area under roc curve) 最適化モデルを構築する際の問題点について検討する。 U$^m$-AUCは、U$^m$データを多ラベルAUC最適化問題に変換するAUC最適化手法であり、効率的に訓練することができる。 提案したU$^m$-AUCは理論的および実験的に有効であることを示す。

Weakly supervised learning aims to empower machine learning when the perfect supervision is unavailable, which has drawn great attention from researchers. Among various types of weak supervision, one of the most challenging cases is to learn from multiple unlabeled (U) datasets with only a little knowledge of the class priors, or U$^m$ learning for short. In this paper, we study the problem of building an AUC (area under ROC curve) optimization model from multiple unlabeled datasets, which maximizes the pairwise ranking ability of the classifier. We propose U$^m$-AUC, an AUC optimization approach that converts the U$^m$ data into a multi-label AUC optimization problem, and can be trained efficiently. We show that the proposed U$^m$-AUC is effective theoretically and empirically.
翻訳日:2023-05-26 16:44:21 公開日:2023-05-25
# シャープネスを意識した最小化:正規化用語としての重み付きシャープネス

Sharpness-Aware Minimization Revisited: Weighted Sharpness as a Regularization Term ( http://arxiv.org/abs/2305.15817v1 )

ライセンス: Link先を確認
Yun Yue, Jiadi Jiang, Zhiling Ye, Ning Gao, Yongchao Liu, Ke Zhang(参考訳) ディープニューラルネットワーク(DNN)の一般化は、ミニマの平坦性と密接に関連していることが知られており、フラットなミニマとより良い一般化を求めるシャープネス・アウェアの最小化(SAM)の開発につながっている。 本稿では, SAMの喪失を再考し, シャープネスを正規化項として組み込むことにより, WSAMと呼ばれるより一般的な手法を提案する。 PACとBayes-PACの併用による一般化を実証し,様々な公開データセット上での性能を評価する。 その結果、WSAM はバニラオプティマイザ SAM とその変種と比較して、改良された一般化を達成するか、少なくとも競争力が高いことを示した。 コードはhttps://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizersで入手できる。

Deep Neural Networks (DNNs) generalization is known to be closely related to the flatness of minima, leading to the development of Sharpness-Aware Minimization (SAM) for seeking flatter minima and better generalization. In this paper, we revisit the loss of SAM and propose a more general method, called WSAM, by incorporating sharpness as a regularization term. We prove its generalization bound through the combination of PAC and Bayes-PAC techniques, and evaluate its performance on various public datasets. The results demonstrate that WSAM achieves improved generalization, or is at least highly competitive, compared to the vanilla optimizer, SAM and its variants. The code is available at https://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizers.
翻訳日:2023-05-26 16:38:19 公開日:2023-05-25
# DDDM-VC: 検証ロバスト音声変換のためのアンタングル表現と事前混合を用いた分離拡散モデル

DDDM-VC: Decoupled Denoising Diffusion Models with Disentangled Representation and Prior Mixup for Verified Robust Voice Conversion ( http://arxiv.org/abs/2305.15816v1 )

ライセンス: Link先を確認
Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee(参考訳) 拡散に基づく生成モデルは近年,強力な生成性能を示した。 しかし、データ分散には多くの属性があり、生成プロセスの全レベルにわたってモデルパラメータを共有するといういくつかの制限があるため、各属性の特定のスタイルを制御するのは難しい。 上記の問題に対処するため, 生成モデルにおける各属性のスタイルを制御可能な非結合拡散モデル (DDDM) と非共役拡散モデル (DDDM) を提案する。 音声変換(VC)タスクにDDDMを適用し、各音声属性(言語情報、イントネーション、音色など)を分離・制御する課題に対処する。 まず,自己教師付き表現を用いて音声表現をアンタングルする。 その後、DDDMは、各属性を識別するために、アンタングル表現から音声を再合成するために適用される。 さらに,拡散モデルの事前分布として混合スタイルの表現を変換したロバストな音声スタイル転送のための先行ミックスアップを提案する。 実験の結果,本手法は公開VCモデルよりも優れていた。 さらに,本手法はモデルサイズに関係なく頑健な生成性能を提供することを示す。 オーディオサンプルはhttps://hayeong0.github.io/dddm-vc-demo/。

Diffusion-based generative models have exhibited powerful generative performance in recent years. However, as many attributes exist in the data distribution and owing to several limitations of sharing the model parameters across all levels of the generation process, it remains challenging to control specific styles for each attribute. To address the above problem, this paper presents decoupled denoising diffusion models (DDDMs) with disentangled representations, which can control the style for each attribute in generative models. We apply DDDMs to voice conversion (VC) tasks to address the challenges of disentangling and controlling each speech attribute (e.g., linguistic information, intonation, and timbre). First, we use a self-supervised representation to disentangle the speech representation. Subsequently, the DDDMs are applied to resynthesize the speech from the disentangled representations for denoising with respect to each attribute. Moreover, we also propose the prior mixup for robust voice style transfer, which uses the converted representation of the mixed style as a prior distribution for the diffusion models. The experimental results reveal that our method outperforms publicly available VC models. Furthermore, we show that our method provides robust generative performance regardless of the model size. Audio samples are available https://hayeong0.github.io/DDDM-VC-demo/.
翻訳日:2023-05-26 16:38:03 公開日:2023-05-25
# Bhasha-Abhijnaanam:22言語におけるネイティブスクリプトとロマン化言語同定

Bhasha-Abhijnaanam: Native-script and romanized Language Identification for 22 Indic languages ( http://arxiv.org/abs/2305.15814v1 )

ライセンス: Link先を確認
Yash Madhani, Mitesh M. Khapra, Anoop Kunchukuttan(参考訳) 我々は、インド憲法に記載されている22の言語について、言語識別(LID)データセットとモデルを作成する。 まず、ネイティブスクリプト用の言語識別テストセットであるbhasha-abhijnaanamと、22のindic言語にまたがるローマ字テキストを作成します。 IndicLIDは、上記のすべての言語をネイティブおよびローマン化されたスクリプトで識別する言語である。 ネイティブテキストでは、既存のLIDよりも言語カバレッジが良く、他のLIDよりも競争力がある。 IndicLIDは、インド語でロマライズされたテキストのための最初のLIDである。 romanized text LIDの2つの大きな課題は、トレーニングデータの欠如と、言語が似ている場合の低LIDパフォーマンスである。 これらの問題に対する単純で効果的な解決策を提供する。 一般に、いかなる言語においてもローマ字化テキストに関する作業は限られており、この発見はローマ字化言語識別を必要とする他の言語に関連している。 私たちのモデルはオープンソースライセンス下でhttps://github.com/AI4Bharat/IndicLIDで公開されています。 トレーニングとテストセットは、オープンソースライセンスのもと、https://huggingface.co/datasets/ai4bharat/bhasha-abhijnaanamで公開されています。

We create publicly available language identification (LID) datasets and models in all 22 Indian languages listed in the Indian constitution in both native-script and romanized text. First, we create Bhasha-Abhijnaanam, a language identification test set for native-script as well as romanized text which spans all 22 Indic languages. We also train IndicLID, a language identifier for all the above-mentioned languages in both native and romanized script. For native-script text, it has better language coverage than existing LIDs and is competitive or better than other LIDs. IndicLID is the first LID for romanized text in Indian languages. Two major challenges for romanized text LID are the lack of training data and low-LID performance when languages are similar. We provide simple and effective solutions to these problems. In general, there has been limited work on romanized text in any language, and our findings are relevant to other languages that need romanized language identification. Our models are publicly available at https://github.com/AI4Bharat/IndicLID under open-source licenses. Our training and test sets are also publicly available at https://huggingface.co/datasets/ai4bharat/Bhasha-Abhijnaanam under open-source licenses.
翻訳日:2023-05-26 16:37:40 公開日:2023-05-25
# 肺癌の診断にオブジェクト検出を活用する

Leveraging object detection for the identification of lung cancer ( http://arxiv.org/abs/2305.15813v1 )

ライセンス: Link先を確認
Karthick Prasad Gunasekaran(参考訳) 肺癌は公衆衛生上の重要な課題であり、早期発見の重要性を強調している。 近年のディープラーニングアルゴリズムの進歩は、医用画像解析において有望な結果を示している。 本研究の目的は,肺がん診断のための医用画像診断における先進的物体識別システムであるyolov5の応用について検討することである。 アルゴリズムを訓練し評価するために,Kaggleから胸部X線と対応するアノテーションからなるデータセットを得た。 YOLOv5モデルは、がん性肺病変を検出するアルゴリズムの訓練に使用された。 トレーニングプロセスには、ハイパーパラメータの最適化と、モデルの性能向上のための拡張技術の利用が含まれていた。 訓練されたYOLOv5モデルは、肺癌の病変を同定し、高い精度とリコール率を示した。 胸部x線写真における悪性領域の特定に成功し、以前の技術を上回る別の検査セットで検証された。 さらに、YOLOv5モデルは計算効率を示し、リアルタイム検出を可能にし、臨床手順への統合に適している。 このアプローチは、肺癌の早期発見と診断における放射線科医の補助を約束しており、最終的には迅速な治療と患者の予後の改善に繋がる。

Lung cancer poses a significant global public health challenge, emphasizing the importance of early detection for improved patient outcomes. Recent advancements in deep learning algorithms have shown promising results in medical image analysis. This study aims to explore the application of object detection particularly YOLOv5, an advanced object identification system, in medical imaging for lung cancer identification. To train and evaluate the algorithm, a dataset comprising chest X-rays and corresponding annotations was obtained from Kaggle. The YOLOv5 model was employed to train an algorithm capable of detecting cancerous lung lesions. The training process involved optimizing hyperparameters and utilizing augmentation techniques to enhance the model's performance. The trained YOLOv5 model exhibited exceptional proficiency in identifying lung cancer lesions, displaying high accuracy and recall rates. It successfully pinpointed malignant areas in chest radiographs, as validated by a separate test set where it outperformed previous techniques. Additionally, the YOLOv5 model demonstrated computational efficiency, enabling real-time detection and making it suitable for integration into clinical procedures. This proposed approach holds promise in assisting radiologists in the early discovery and diagnosis of lung cancer, ultimately leading to prompt treatment and improved patient outcomes.
翻訳日:2023-05-26 16:37:23 公開日:2023-05-25
# 不均一グラフニューラルネットワークの統一勾配正規化

Unifying gradient regularization for Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2305.15811v1 )

ライセンス: Link先を確認
Xiao Yang and Xuejiao Zhao and Zhiqi Shen(参考訳) Heterogeneous Graph Neural Networks (HGNN) は、異種グラフの表現を学習するために広く使われている強力なディープラーニング手法のクラスである。 HGNNの急速な発展にもかかわらず、過度なスムースメントや非破壊といった課題に直面している。 従来の研究では、勾配正規化法を用いてこれらの問題を低減できることが示されている。 しかし、既存の勾配正規化手法はグラフトポロジーかノードの特徴に焦点を当てている。 これらの特徴を統合するための普遍的なアプローチは存在せず、正規化の効率に大きな影響を及ぼす。 加えて、hgnnに勾配正規化を組み込むことで、不安定なトレーニングプロセス、複雑さの増加、カバレッジ正規化情報の不足など、いくつかの問題を引き起こすことがある。 さらに、勾配正規化がhgnnに与える影響の完全な理論的解析にはまだ不足している。 本稿では,メッセージ伝達プロセス中に伝搬されたメッセージとノード特徴の両方から生成される勾配に対して反復的に正規化を適用する,grogと呼ばれる新しい勾配正規化手法を提案する。 Grugはグラフトポロジとノード特徴を統合した統一的なフレームワークを提供する。 具体的には、グルーグの利点を詳しく分析する。 1) 訓練過程におけるサンプル分散の低減(安定性) 2)モデルの一般化(普遍性)の促進 3) モデルの複雑さを低減する(シンプルさ)。 4)グラフ情報利用(多様性)の完全性と多様性の向上。 その結果、GrugはDropMessage(AAAI-23 Distinguished Papers)によって設定された理論上界を超える可能性がある。 さらに、2つの下流タスクを持つ5つの公開現実世界データセット上でGrugを評価する。

Heterogeneous Graph Neural Networks (HGNNs) are a class of powerful deep learning methods widely used to learn representations of heterogeneous graphs. Despite the fast development of HGNNs, they still face some challenges such as over-smoothing, and non-robustness. Previous studies have shown that these problems can be reduced by using gradient regularization methods. However, the existing gradient regularization methods focus on either graph topology or node features. There is no universal approach to integrate these features, which severely affects the efficiency of regularization. In addition, the inclusion of gradient regularization into HGNNs sometimes leads to some problems, such as an unstable training process, increased complexity and insufficient coverage regularized information. Furthermore, there is still short of a complete theoretical analysis of the effects of gradient regularization on HGNNs. In this paper, we propose a novel gradient regularization method called Grug, which iteratively applies regularization to the gradients generated by both propagated messages and the node features during the message-passing process. Grug provides a unified framework integrating graph topology and node features, based on which we conduct a detailed theoretical analysis of their effectiveness. Specifically, the theoretical analyses elaborate the advantages of Grug: 1) Decreasing sample variance during the training process (Stability); 2) Enhancing the generalization of the model (Universality); 3) Reducing the complexity of the model (Simplicity); 4) Improving the integrity and diversity of graph information utilization (Diversity). As a result, Grug has the potential to surpass the theoretical upper bounds set by DropMessage (AAAI-23 Distinguished Papers). In addition, we evaluate Grug on five public real-world datasets with two downstream tasks.
翻訳日:2023-05-26 16:36:48 公開日:2023-05-25
# PLC/DCS制御論理生成のためのChatGPT

ChatGPT for PLC/DCS Control Logic Generation ( http://arxiv.org/abs/2305.15809v1 )

ライセンス: Link先を確認
Heiko Koziolek, Sten Gruener, Virendra Ashiwal(参考訳) 生成aiを提供する大規模言語モデル(llm)は、ソフトウェアエンジニアがソースコードの作成、要約、最適化、文書化をサポートするために人気がある。 LLMがプログラミングタスクで典型的な制御プログラム言語を使用して制御エンジニアをどのようにサポートできるかは、まだ分かっていない。 ソースコード生成のためにGitHub CoPilotやDeepMind AlphaCodeを探索したが、制御ロジックプログラミングにはまだ取り組んでいない。 本稿では,自然言語からのplcとdcsの制御論理生成を解析するために,代表的な10カテゴリの100 llmプロンプトを作成した。 GPT-4 LLM を用いて ChatGPT の回答を生成することで,プロンプトの検証を行った。 構文的に正しいIEC 61131-3 構造化テキストコードを多く生成し、制御エンジニアの生産性を高める有用な推論スキルを示した。 我々のプロンプトコレクションは、より正式なllmベンチマークの基礎であり、そのようなモデルをテストし比較して制御論理を生成する。

Large language models (LLMs) providing generative AI have become popular to support software engineers in creating, summarizing, optimizing, and documenting source code. It is still unknown how LLMs can support control engineers using typical control programming languages in programming tasks. Researchers have explored GitHub CoPilot or DeepMind AlphaCode for source code generation but did not yet tackle control logic programming. The contribution of this paper is an exploratory study, for which we created 100 LLM prompts in 10 representative categories to analyze control logic generation for of PLCs and DCS from natural language. We tested the prompts by generating answers with ChatGPT using the GPT-4 LLM. It generated syntactically correct IEC 61131-3 Structured Text code in many cases and demonstrated useful reasoning skills that could boost control engineer productivity. Our prompt collection is the basis for a more formal LLM benchmark to test and compare such models for control logic generation.
翻訳日:2023-05-26 16:36:02 公開日:2023-05-25
# 言語誘導型対話型3D生成に向けて:ジェネレーティブフィードバックを用いたレイアウトインタプリタとしてのLCM

Towards Language-guided Interactive 3D Generation: LLMs as Layout Interpreter with Generative Feedback ( http://arxiv.org/abs/2305.15808v1 )

ライセンス: Link先を確認
Yiqi Lin, Hao Wu, Ruichen Wang, Haonan Lu, Xiaodong Lin, Hui Xiong, Lin Wang(参考訳) 自然言語でガイドされた3Dシーンの生成と編集は、主に3D空間内の位置関係と体積変化を特定する複雑さのために課題となる。 大規模言語モデル(llm)の最近の進歩は、様々なドメインにわたる驚くべき推論、会話、ゼロショット生成能力を示している。 驚くべきことに、これらのモデルは3D空間の実現と解釈に大きな可能性を秘めている。 そこで,本研究では,3dレイアウトインタプリタとしてllmsを統合した言語誘導型対話型3d生成システムli3dを提案する。 具体的には,LLMに言語からの空間生成と推論をモデル化するよう促すために,境界ボックスとセマンティクスに基づく多目的レイアウト構造を設計する。 また,大規模言語および視覚アシスタントであるllavaを組み込んで,視覚面からの生成フィードバックを提供し,生成コンテンツの視覚的品質を向上させる。 LI3Dの有効性は,主に3次元生成と多ラウンドインタラクションによる編集において検証され,柔軟に2次元生成と編集に拡張できる。 様々な実験は、メタバースのような応用のための生成AIにLLMを組み込むことの潜在的な利点を実証している。 さらに,ニューラルビジュアルアーティストタスクを用いたllmsのレイアウト推論性能のベンチマークを行い,空間レイアウト領域におけるその創発的能力を明らかにする。

Generating and editing a 3D scene guided by natural language poses a challenge, primarily due to the complexity of specifying the positional relations and volumetric changes within the 3D space. Recent advancements in Large Language Models (LLMs) have demonstrated impressive reasoning, conversational, and zero-shot generation abilities across various domains. Surprisingly, these models also show great potential in realizing and interpreting the 3D space. In light of this, we propose a novel language-guided interactive 3D generation system, dubbed LI3D, that integrates LLMs as a 3D layout interpreter into the off-the-shelf layout-to-3D generative models, allowing users to flexibly and interactively generate visual content. Specifically, we design a versatile layout structure base on the bounding boxes and semantics to prompt the LLMs to model the spatial generation and reasoning from language. Our system also incorporates LLaVA, a large language and vision assistant, to provide generative feedback from the visual aspect for improving the visual quality of generated content. We validate the effectiveness of LI3D, primarily in 3D generation and editing through multi-round interactions, which can be flexibly extended to 2D generation and editing. Various experiments demonstrate the potential benefits of incorporating LLMs in generative AI for applications, e.g., metaverse. Moreover, we benchmark the layout reasoning performance of LLMs with neural visual artist tasks, revealing their emergent ability in the spatial layout domain.
翻訳日:2023-05-26 16:35:40 公開日:2023-05-25
# クナプサックの文脈帯域における小さな総コスト制約と公正性への応用

Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with Application to Fairness ( http://arxiv.org/abs/2305.15807v1 )

ライセンス: Link先を確認
Evgenii Chzhen (LMO, CELESTE), Christophe Giraud (LMO, CELESTE), Zhen Li, Gilles Stoltz (LMO, CELESTE, HEC Paris)(参考訳) 我々は,各ラウンドにおいてスカラー報酬が得られ,ベクトル値のコストがかかる問題であるknapsacks[CBwK]のコンテキスト的帯域幅問題を考える。 学習者は、累積費用が所定のコスト制約よりも低いことを保証しつつ累積報酬を最大化する。 我々は、文脈は連続的な集合から来ており、コストは署名可能であり、期待される報酬とコスト関数は未知であるが、均一に推定されるかもしれないと仮定する。 この設定では、総コスト制約は少なくとも$T^{3/4}$であり、ここでは$T$はラウンドの数であり、通常は$T$に線形に依存すると仮定されていた。 しかしながら、CBwK を用いて、グループ間の平均コストの等化の公正性制約を課す動機がある:対応するコスト制約に関連する予算は、$\sqrt{T}$ の自然偏差にできるだけ近いべきである。 そこで本研究では,予測段階の更新に基づく2つの戦略を導入し,多対数項まで$\sqrt{T}$の総コスト制約を扱えるようにした。 この戦略は文学における既存の戦略よりも直接的で単純である。 ステップサイズの慎重で適応的なチューニングに依存しています。

We consider contextual bandit problems with knapsacks [CBwK], a problem where at each round, a scalar reward is obtained and vector-valued costs are suffered. The learner aims to maximize the cumulative rewards while ensuring that the cumulative costs are lower than some predetermined cost constraints. We assume that contexts come from a continuous set, that costs can be signed, and that the expected reward and cost functions, while unknown, may be uniformly estimated -- a typical assumption in the literature. In this setting, total cost constraints had so far to be at least of order $T^{3/4}$, where $T$ is the number of rounds, and were even typically assumed to depend linearly on $T$. We are however motivated to use CBwK to impose a fairness constraint of equalized average costs between groups: the budget associated with the corresponding cost constraints should be as close as possible to the natural deviations, of order $\sqrt{T}$. To that end, we introduce a dual strategy based on projected-gradient-descent updates, that is able to deal with total-cost constraints of the order of $\sqrt{T}$ up to poly-logarithmic terms. This strategy is more direct and simpler than existing strategies in the literature. It relies on a careful, adaptive, tuning of the step size.
翻訳日:2023-05-26 16:35:14 公開日:2023-05-25
# 効率良く解釈可能な自己回帰変圧器のための動的コンテキストプルーニング

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers ( http://arxiv.org/abs/2305.15805v1 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Dario Pavllo, Luca Biggio, Lorenzo Noci, Aurelien Lucchi, Thomas Hoffmann(参考訳) 大規模言語モデル(llm)で採用されている自己回帰トランスフォーマーは、長いシーケンスにスケールするのは難しい。 計算コストを減らそうとするいくつかの研究にもかかわらず、LLMのほとんどの研究は、シークエンス内の全てのトークン間の注意層を採用しており、2次的なコストが生じる。 本研究では,モデル表現性を維持しながら文脈情報を動的にプルーピングする新しい手法を提案する。 本手法では,生成プロセスの任意の時点において,どの非形式的トークンをドロップするかを決定する学習可能な機構を用いる。 そうすることで、私たちのアプローチはパフォーマンスの懸念に対処するだけでなく、解釈性も向上させ、モデルの意思決定プロセスに対する貴重な洞察を提供します。 本手法は, 簡易な微調整プロセスによって既存の事前学習モデルに適用でき, 刈り込み強度をスパーシティパラメータで指定できる。 特に,経験的な結果から,下流タスクの大幅なパフォーマンス低下を伴わずに,コンテクストの最大80\%を効果的にプルーピングできることが示され,推論コストの軽減に有用なツールを提供することができた。 リファレンス実装では、推論スループットの最大$2\times$向上と、さらにメモリ節約を実現しています。

Autoregressive Transformers adopted in Large Language Models (LLMs) are hard to scale to long sequences. Despite several works trying to reduce their computational cost, most of LLMs still adopt attention layers between all pairs of tokens in the sequence, thus incurring a quadratic cost. In this study, we present a novel approach that dynamically prunes contextual information while preserving the model's expressiveness, resulting in reduced memory and computational requirements during inference. Our method employs a learnable mechanism that determines which uninformative tokens can be dropped from the context at any point across the generation process. By doing so, our approach not only addresses performance concerns but also enhances interpretability, providing valuable insight into the model's decision-making process. Our technique can be applied to existing pre-trained models through a straightforward fine-tuning process, and the pruning strength can be specified by a sparsity parameter. Notably, our empirical findings demonstrate that we can effectively prune up to 80\% of the context without significant performance degradation on downstream tasks, offering a valuable tool for mitigating inference costs. Our reference implementation achieves up to $2\times$ increase in inference throughput and even greater memory savings.
翻訳日:2023-05-26 16:34:51 公開日:2023-05-25
# Lucy-SKG: 深層強化学習を有効活用したロケットリーグの学習

Lucy-SKG: Learning to Play Rocket League Efficiently Using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.15801v1 )

ライセンス: Link先を確認
Vasileios Moschopoulos, Pantelis Kyriakidis, Aristotelis Lazaridis, Ioannis Vlahavas(参考訳) AIを前進させるための科学的なコミュニティに続き成功した戦術は、ゲームに様々なブレークスルーをもたらすことが証明された問題として扱うことである。 この戦略を応用して、Rocket Leagueという物理エンジンと複雑なダイナミクスを備えた、広く普及しているが未開発の3Dマルチプレイヤーゲームの研究を行い、効率的で高性能なゲームプレイングエージェントを開発する上で大きな課題となる。 本稿では,Rucy-SKGについて述べる。このゲームにおける上位2つのボット,すなわちNecto(2022ボットチャンピオン)とその後継者であるNexto(Nexto)よりも優れた成績を収めた,Rocket Leagueのサンプル効率のよいプレイ方法を学習した強化学習ベースモデルである。 私たちの貢献には a)報酬分析及び可視化ライブラリの開発 b) 提案するキネマティクス報酬組合せ(krc)技術により,複合報酬型の有用性を捉えた新しいパラメータ可能な報酬形状関数,及び c) 学習速度及び性能の効率化を目的とした、報酬予測及び状態表現タスクの訓練のための補助的ニューラルネットワークの設計。 Lucy-SKGの各成分について徹底的なアブレーション研究を行うことで, 全体としての独立性を示した。 そこで,本研究では,複雑な力学系を制御するためのサンプル効率のよい強化学習手法をチームベースマルチプレイヤー環境下で活用する可能性と課題を実証する。

A successful tactic that is followed by the scientific community for advancing AI is to treat games as problems, which has been proven to lead to various breakthroughs. We adapt this strategy in order to study Rocket League, a widely popular but rather under-explored 3D multiplayer video game with a distinct physics engine and complex dynamics that pose a significant challenge in developing efficient and high-performance game-playing agents. In this paper, we present Lucy-SKG, a Reinforcement Learning-based model that learned how to play Rocket League in a sample-efficient manner, outperforming by a notable margin the two highest-ranking bots in this game, namely Necto (2022 bot champion) and its successor Nexto, thus becoming a state-of-the-art agent. Our contributions include: a) the development of a reward analysis and visualization library, b) novel parameterizable reward shape functions that capture the utility of complex reward types via our proposed Kinesthetic Reward Combination (KRC) technique, and c) design of auxiliary neural architectures for training on reward prediction and state representation tasks in an on-policy fashion for enhanced efficiency in learning speed and performance. By performing thorough ablation studies for each component of Lucy-SKG, we showed their independent effectiveness in overall performance. In doing so, we demonstrate the prospects and challenges of using sample-efficient Reinforcement Learning techniques for controlling complex dynamical systems under competitive team-based multiplayer conditions.
翻訳日:2023-05-26 16:34:29 公開日:2023-05-25
# 確率的修正方程式とドロップアウトアルゴリズムのダイナミクス

Stochastic Modified Equations and Dynamics of Dropout Algorithm ( http://arxiv.org/abs/2305.15850v1 )

ライセンス: Link先を確認
Zhongwang Zhang, Yuqing Li, Tao Luo, Zhi-Qin John Xu(参考訳) ドロップアウトはニューラルネットワークのトレーニングにおいて広く利用されている正規化手法であるが、その基盤となるメカニズムと優れた一般化能力を達成するための影響は理解されていない。 本研究では,その離散反復過程を確率微分方程式のクラスで近似する,ドロップアウトのダイナミクスを解析するための確率修正方程式を導出する。 平らな最小値の同定を容易にするための基礎メカニズムについて検討するため, 導出確率修正方程式の雑音構造について検討した。 いくつかの直感的な近似を通して、ヘッセンと共分散の構造的類似性から、逆分散-平坦性関係とヘッセン-分散関係の普遍的存在を実証的に示す。 これらの理論的,実証的な知見は,平らなミニマの位置を求める落落傾向の理解に大きく貢献する。

Dropout is a widely utilized regularization technique in the training of neural networks, nevertheless, its underlying mechanism and its impact on achieving good generalization abilities remain poorly understood. In this work, we derive the stochastic modified equations for analyzing the dynamics of dropout, where its discrete iteration process is approximated by a class of stochastic differential equations. In order to investigate the underlying mechanism by which dropout facilitates the identification of flatter minima, we study the noise structure of the derived stochastic modified equation for dropout. By drawing upon the structural resemblance between the Hessian and covariance through several intuitive approximations, we empirically demonstrate the universal presence of the inverse variance-flatness relation and the Hessian-variance relation, throughout the training process of dropout. These theoretical and empirical findings make a substantial contribution to our understanding of the inherent tendency of dropout to locate flatter minima.
翻訳日:2023-05-26 16:28:23 公開日:2023-05-25
# TabGSL: 語彙データ予測のためのグラフ構造学習

TabGSL: Graph Structure Learning for Tabular Data Prediction ( http://arxiv.org/abs/2305.15843v1 )

ライセンス: Link先を確認
Jay Chiehen Liao, Cheng-Te Li(参考訳) 本稿では,グラフ構造学習とグラフニューラルネットワークを用いた表データ予測手法を提案する。 現実世界のアプリケーションで表データの普及にもかかわらず、従来のディープラーニング手法は、データインスタンス間の潜在的に価値のある関連を見落としていることが多い。 このようなアソシエーションは、特徴と対象ラベルの間に類似した相関パターンを示す場合があり、分類タスクに有益な洞察を与えることができる。 この情報は、堅牢なグラフ構造を必要とするグラフニューラルネットワークによって利用することができる。 しかし、既存の研究は主にノイズデータからグラフ構造を改善することに焦点を当てており、グラフ構造を表データから導出する可能性をほとんど無視している。 本稿では,統一フレームワーク内でインスタンス相関と特徴間相互作用を同時に学習することにより,表データ予測を強化する新しい解である表グラフ構造学習(tabgsl)を提案する。 これは、グラフコントラスト学習モジュールと、トランスフォーマティブな特徴抽出器とグラフニューラルネットワークによって実現される。 30のベンチマーク表データセットで実施された総合的な実験は、TabGSLがツリーベースモデルと最近のディープラーニングベースの表モデルの両方を著しく上回っていることを示している。 学習したインスタンスの埋め込みの可視化は、TabGSLの有効性をさらに裏付ける。

This work presents a novel approach to tabular data prediction leveraging graph structure learning and graph neural networks. Despite the prevalence of tabular data in real-world applications, traditional deep learning methods often overlook the potentially valuable associations between data instances. Such associations can offer beneficial insights for classification tasks, as instances may exhibit similar patterns of correlations among features and target labels. This information can be exploited by graph neural networks, necessitating robust graph structures. However, existing studies primarily focus on improving graph structure from noisy data, largely neglecting the possibility of deriving graph structures from tabular data. We present a novel solution, Tabular Graph Structure Learning (TabGSL), to enhance tabular data prediction by simultaneously learning instance correlation and feature interaction within a unified framework. This is achieved through a proposed graph contrastive learning module, along with transformer-based feature extractor and graph neural network. Comprehensive experiments conducted on 30 benchmark tabular datasets demonstrate that TabGSL markedly outperforms both tree-based models and recent deep learning-based tabular models. Visualizations of the learned instance embeddings further substantiate the effectiveness of TabGSL.
翻訳日:2023-05-26 16:28:07 公開日:2023-05-25
# テキストから動きへの検索:人間の動きデータと自然言語の統合理解に向けて

Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language ( http://arxiv.org/abs/2305.15842v1 )

ライセンス: Link先を確認
Nicola Messina, Jan Sedmidubsky, Fabrizio Falchi, Tom\'a\v{s} Rebok(参考訳) 近年のポーズ推定手法の進歩により、人間の動きは一般的なビデオから3Dスケルトン配列の形で抽出できる。 素晴らしい応用機会にもかかわらず、膨大な量の時空間スケルトンデータに対する効果的で効率的なコンテンツベースアクセスは依然として困難な問題である。 本稿では,特定の自然言語によるテキスト記述に基づいて,関連する動きを検索することを目的とした,コンテンツに基づくテキスト間テキスト検索タスクを提案する。 この非チャートタスクのベースラインを定義するために,BERTとCLIP言語表現を用いてテキストモダリティを符号化し,時空間モデルを成功させ,動きモダリティを符号化する。 さらに,運動トランスフォーマー (mot) と呼ばれるトランスフォーマーアプローチも導入し,スケルトン継手を空間的および時間的に効果的に集約するために,時空的注意を分割した。 テキスト対画像/ビデオマッチングの最近の進歩に触発されて,2つのメトリクス学習損失関数を実験した。 最後に、最近導入された2つのKIT Motion-LanguageデータセットとHumanML3Dデータセットを対象として、検索した動きの質を評価するための定性的指標を定義することで、共通評価プロトコルを構築した。 結果はhttps://github.com/mesnico/text-to-motion-retrieval.comで再生できます。

Due to recent advances in pose-estimation methods, human motion can be extracted from a common video in the form of 3D skeleton sequences. Despite wonderful application opportunities, effective and efficient content-based access to large volumes of such spatio-temporal skeleton data still remains a challenging problem. In this paper, we propose a novel content-based text-to-motion retrieval task, which aims at retrieving relevant motions based on a specified natural-language textual description. To define baselines for this uncharted task, we employ the BERT and CLIP language representations to encode the text modality and successful spatio-temporal models to encode the motion modality. We additionally introduce our transformer-based approach, called Motion Transformer (MoT), which employs divided space-time attention to effectively aggregate the different skeleton joints in space and time. Inspired by the recent progress in text-to-image/video matching, we experiment with two widely-adopted metric-learning loss functions. Finally, we set up a common evaluation protocol by defining qualitative metrics for assessing the quality of the retrieved motions, targeting the two recently-introduced KIT Motion-Language and HumanML3D datasets. The code for reproducing our results is available at https://github.com/mesnico/text-to-motion-retrieval.
翻訳日:2023-05-26 16:27:48 公開日:2023-05-25
# 高次活性化関数を持つバロン空間間の埋め込み

Embeddings between Barron spaces with higher order activation functions ( http://arxiv.org/abs/2305.15839v1 )

ライセンス: Link先を確認
Tjeerd Jan Heeringa, Len Spek, Felix Schwenninger and Christoph Brune(参考訳) 無限に広い浅いニューラルネットワークの近似特性は、活性化関数の選択に大きく依存する。 この影響を理解するため、異なる活性化関数を持つバロン空間間の埋め込みについて研究する。 これらの埋め込みは、関数の$f$を表すために使われる$\mu$に関するプッシュフォワードマップを提供することによって証明される。 特定の利害関係の活性化関数は、$\operatorname{RePU}_s(x)=\max(0,x)^s$ によって与えられる整流電力単位 ("\operatorname{RePU}$) である。 多くのよく使われる活性化関数に対して、テイラー剰余定理(taylor remaining theorem)はプッシュフォワード写像(push-forward map)を構築するのに使われ、関連するバロン空間を活性化関数として$\operatorname{repu}$を持つバロン空間に埋め込むことを証明することができる。 さらに、$\operatorname{RePU}_s$ に関連するバロン空間は、ソボレフ空間 $H^m$ と同様の階層構造を持つ。

The approximation properties of infinitely wide shallow neural networks heavily depend on the choice of the activation function. To understand this influence, we study embeddings between Barron spaces with different activation functions. These embeddings are proven by providing push-forward maps on the measures $\mu$ used to represent functions $f$. An activation function of particular interest is the rectified power unit ($\operatorname{RePU}$) given by $\operatorname{RePU}_s(x)=\max(0,x)^s$. For many commonly used activation functions, the well-known Taylor remainder theorem can be used to construct a push-forward map, which allows us to prove the embedding of the associated Barron space into a Barron space with a $\operatorname{RePU}$ as activation function. Moreover, the Barron spaces associated with the $\operatorname{RePU}_s$ have a hierarchical structure similar to the Sobolev spaces $H^m$.
翻訳日:2023-05-26 16:27:26 公開日:2023-05-25
# レーダオブジェクト検出ネットワークのためのポイントクラウドのマルチスケールグリッドレンダリングの改善

Improved Multi-Scale Grid Rendering of Point Clouds for Radar Object Detection Networks ( http://arxiv.org/abs/2305.15836v1 )

ライセンス: Link先を確認
Daniel K\"ohler, Maurice Quach, Michael Ulrich, Frank Meinl, Bastian Bischoff and Holger Blume(参考訳) 最初に点雲をグリッド表現に変換し、畳み込みニューラルネットワークを適用したアーキテクチャは、レーダベースのオブジェクト検出に優れたパフォーマンスを実現する。 しかしながら、不規則な点雲データから密度の高い格子構造への転送は、ポイントの離散化と集約による情報の損失としばしば関連づけられる。 本稿では,グリッドレンダリングの負の効果を軽減することを目的とした,新しいアーキテクチャであるマルチスケールKPPillarsBEVを提案する。 具体的には,新しいグリッドレンダリング手法であるkpbevを提案する。kpbevは,カーネルポイント畳み込みの記述力を利用して,グリッドレンダリング中のローカルポイントクラウドコンテキストのエンコーディングを改善する。 さらに,マルチスケール特徴マップを任意のグリッドレンダリング手法を用いた検出ネットワークの畳み込みバックボーンに組み込むための,汎用的なマルチスケールグリッドレンダリング方式を提案する。 我々はnuScenesデータセットの広範な実験を行い、検出性能と計算複雑性の観点から評価する。 提案されたマルチスケールのKPPillarsBEVアーキテクチャは、nuScenesの検証セット上で、ベースラインを5.37%、先行状態を2.88%上回る。 さらに,提案する単一スケールkpbevグリッドレンダリングにより,同一の推論速度を維持しつつ,車体ap4.0をベースラインより2.90%向上させることができる。

Architectures that first convert point clouds to a grid representation and then apply convolutional neural networks achieve good performance for radar-based object detection. However, the transfer from irregular point cloud data to a dense grid structure is often associated with a loss of information, due to the discretization and aggregation of points. In this paper, we propose a novel architecture, multi-scale KPPillarsBEV, that aims to mitigate the negative effects of grid rendering. Specifically, we propose a novel grid rendering method, KPBEV, which leverages the descriptive power of kernel point convolutions to improve the encoding of local point cloud contexts during grid rendering. In addition, we propose a general multi-scale grid rendering formulation to incorporate multi-scale feature maps into convolutional backbones of detection networks with arbitrary grid rendering methods. We perform extensive experiments on the nuScenes dataset and evaluate the methods in terms of detection performance and computational complexity. The proposed multi-scale KPPillarsBEV architecture outperforms the baseline by 5.37% and the previous state of the art by 2.88% in Car AP4.0 (average precision for a matching threshold of 4 meters) on the nuScenes validation set. Moreover, the proposed single-scale KPBEV grid rendering improves the Car AP4.0 by 2.90% over the baseline while maintaining the same inference speed.
翻訳日:2023-05-26 16:27:13 公開日:2023-05-25
# PDE+: 適応分布拡散を用いたPDEによる一般化の促進

PDE+: Enhancing Generalization via PDE with Adaptive Distributional Diffusion ( http://arxiv.org/abs/2305.15835v1 )

ライセンス: Link先を確認
Yige Yuan, Bingbing Xu, Bo Lin, Liang Hou, Fei Sun, Huawei Shen, Xueqi Cheng(参考訳) ニューラルネットワークの一般化は機械学習における中心的な課題であり、特にトレーニングと異なる分布下でのパフォーマンスについてである。 データ拡張、逆トレーニング、ノイズインジェクションといったデータ駆動パラダイムに基づいた現在の手法は、モデル非スムースネスによる限定的な一般化に遭遇する可能性がある。 本稿では,部分微分方程式(PDE)の観点から一般化を考察し,入力データを調整することではなく,ニューラルネットワークの基盤機能を直接的に拡張することを目的とする。 具体的には、まずニューラルネットワークの一般化と特定のPDE、すなわち「輸送方程式」に対する解の滑らかさの関連性を確立する。 そこで我々は, 輸送方程式に適応分布拡散を導入し, 解の滑らかさを向上し, 一般化を向上する一般フレームワークを提案する。 ニューラルネットワークの文脈では、この理論フレームワークを PDE+ (\textbf{PDE}) と \textbf{A}daptive \textbf{D}istributional \textbf{D}iffusion) で実践し、各サンプルを意味論的に類似した入力をカバーする分布に拡散する。 これにより、トレーニングで観測できない可能性のあるディストリビューションのカバレッジが向上し、単なるデータ駆動型メソッド以上の一般化が改善される。 pde+の有効性は、クリーンサンプルや様々な腐敗を含む広範囲な設定で検証され、soma法よりも優れた性能を示す。

The generalization of neural networks is a central challenge in machine learning, especially concerning the performance under distributions that differ from training ones. Current methods, mainly based on the data-driven paradigm such as data augmentation, adversarial training, and noise injection, may encounter limited generalization due to model non-smoothness. In this paper, we propose to investigate generalization from a Partial Differential Equation (PDE) perspective, aiming to enhance it directly through the underlying function of neural networks, rather than focusing on adjusting input data. Specifically, we first establish the connection between neural network generalization and the smoothness of the solution to a specific PDE, namely ``transport equation''. Building upon this, we propose a general framework that introduces adaptive distributional diffusion into transport equation to enhance the smoothness of its solution, thereby improving generalization. In the context of neural networks, we put this theoretical framework into practice as PDE+ (\textbf{PDE} with \textbf{A}daptive \textbf{D}istributional \textbf{D}iffusion) which diffuses each sample into a distribution covering semantically similar inputs. This enables better coverage of potentially unobserved distributions in training, thus improving generalization beyond merely data-driven methods. The effectiveness of PDE+ is validated in extensive settings, including clean samples and various corruptions, demonstrating its superior performance compared to SOTA methods.
翻訳日:2023-05-26 16:26:50 公開日:2023-05-25
# 弱教師付き3次元セグメンテーションのためのエントロピー正規分布アライメント

All Points Matter: Entropy-Regularized Distribution Alignment for Weakly-supervised 3D Segmentation ( http://arxiv.org/abs/2305.15832v1 )

ライセンス: Link先を確認
Liyao Tang, Zhe Chen, Shanshan Zhao, Chaoyue Wang, Dacheng Tao(参考訳) 疑似ラベルは弱教師付き3dセグメンテーションタスクで広く使われており、そこではスパースな接地ラベルのみが学習に利用できる。 既存の手法では、モデルトレーニングに有用な擬似ラベルを生成するために、信頼しきい値などの経験的ラベル選択戦略に依存することが多い。 しかしこのアプローチは、ラベルなしのデータポイントの包括的な利用を妨げる可能性がある。 この選択的な使用は、ラベルのないデータで生成された擬似ラベルのノイズから生じると仮定する。 擬似ラベルのノイズは、擬似ラベルとモデル予測との間に有意な差異をもたらす可能性があるため、モデルのトレーニングに大きな混乱と影響をもたらす。 そこで本研究では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭める学習手法を提案する。 より具体的には、3次元セグメンテーションタスクにおける弱教師付き学習のためのエントロピー正規化損失と分布アライメント損失を導入し、erda学習戦略を実現する。 興味深いことに、kl距離を用いて分布アライメント損失を定式化することにより、擬似ラベル生成ネットワークと3dセグメンテーションネットワークの両方を同時に最適化する、欺きながら単純なクロスエントロピーベース損失に還元される。 単純さにもかかわらず,本手法は性能を良好に向上させる。 各種ベースラインおよび大規模データセットに対する広範囲な実験により有効性を検証する。 その結果、ERDAは、ラベルのないすべてのデータポイントを学習に効果的に活用し、異なる環境下での最先端のパフォーマンスを実現する。 注目すべきことに,本手法は真のアノテーションの1%しか使用せず,完全教師付きベースラインよりも優れている。 コードとモデルは公開される予定だ。

Pseudo-labels are widely employed in weakly supervised 3D segmentation tasks where only sparse ground-truth labels are available for learning. Existing methods often rely on empirical label selection strategies, such as confidence thresholding, to generate beneficial pseudo-labels for model training. This approach may, however, hinder the comprehensive exploitation of unlabeled data points. We hypothesize that this selective usage arises from the noise in pseudo-labels generated on unlabeled data. The noise in pseudo-labels may result in significant discrepancies between pseudo-labels and model predictions, thus confusing and affecting the model training greatly. To address this issue, we propose a novel learning strategy to regularize the generated pseudo-labels and effectively narrow the gaps between pseudo-labels and model predictions. More specifically, our method introduces an Entropy Regularization loss and a Distribution Alignment loss for weakly supervised learning in 3D segmentation tasks, resulting in an ERDA learning strategy. Interestingly, by using KL distance to formulate the distribution alignment loss, it reduces to a deceptively simple cross-entropy-based loss which optimizes both the pseudo-label generation network and the 3D segmentation network simultaneously. Despite the simplicity, our method promisingly improves the performance. We validate the effectiveness through extensive experiments on various baselines and large-scale datasets. Results show that ERDA effectively enables the effective usage of all unlabeled data points for learning and achieves state-of-the-art performance under different settings. Remarkably, our method can outperform fully-supervised baselines using only 1% of true annotations. Code and model will be made publicly available.
翻訳日:2023-05-26 16:26:23 公開日:2023-05-25
# 動的服装状態の署名

Signatures of dynamically dressed states ( http://arxiv.org/abs/2305.15827v1 )

ライセンス: Link先を確認
Katarina Boos, Sang Kyu Kim, Thomas Bracht, Friedrich Sbresny, Jan Kaspari, Moritz Cygorek, Hubert Riedl, Frederik W. Bopp, William Rauhaus, Carolin Calcagno, Jonathan J. Finley, Doris E. Reiter, Kai Mueller(参考訳) 共鳴光場と量子二レベル系の相互作用は、基本量子光学と共鳴励起を用いた量子技術応用の両方において重要な関心事である。 共鳴連続波励起下での放出はよく研究されているが、共鳴パルス励起によって駆動される量子2レベル系の動的服装状態のより複雑な放出スペクトルは理論的にのみ詳細に研究されている。 本稿では,有限ガウスパルスによって駆動される半導体量子ドットにおける励起子遷移の形で,単一量子2レベル系の完全共鳴蛍光スペクトルを初めて実験的に観察する。 励起パルス強度とスペクトル減衰量の増加とスペクトル形状とパルス長依存性を理論で予測した複数のサイドバンドを観測した。 調整に依存した測定は、放出の特徴に関するさらなる洞察を提供する。 実験結果は, 放射スペクトルの理論計算とよく一致し, 以上の結果と一致した。

The interaction of a resonant light field with a quantum two-level system is of key interest both for fundamental quantum optics and quantum technological applications employing resonant excitation. While emission under resonant continuous-wave excitation has been well-studied, the more complex emission spectrum of dynamically dressed states, a quantum two-level system driven by resonant pulsed excitation, has so far been investigated in detail only theoretically. Here, we present the first experimental observation of the complete resonance fluorescence emission spectrum of a single quantum two-level system, in form of an excitonic transition in a semiconductor quantum dot, driven by finite Gaussian pulses. We observe multiple emerging sidebands as predicted by theory with an increase of their number and spectral detuning with excitation pulse intensity and a dependence of their spectral shape and intensity on the pulse length. Detuning-dependent measurements provide additional insights into the emission features. The experimental results are in excellent agreement with theoretical calculations of the emission spectra, corroborating our findings.
翻訳日:2023-05-26 16:25:56 公開日:2023-05-25
# グラフニューラルネットワークにおけるラベル位置バイアス

Towards Label Position Bias in Graph Neural Networks ( http://arxiv.org/abs/2305.15822v1 )

ライセンス: Link先を確認
Haoyu Han, Xiaorui Liu, Feng Shi, MohamadAli Torkamani, Charu C. Aggarwal, Jiliang Tang(参考訳) グラフニューラルネットワーク(GNN)は、半教師付きノード分類タスクの強力なツールとして登場した。 しかし、最近の研究では、ノードの特徴とグラフトポロジーの両方から生じるGNNの様々なバイアスが明らかになっている。 そこで本研究では,ラベル位置バイアスという新たなバイアスを明らかにし,ラベル付きノードに近いノードがよりよく機能することを示す。 このバイアスを定量化するために,新しい指標であるラベル近接スコアを導入し,パフォーマンス格差と密接な関係があることを見いだした。 ラベル位置バイアスに対処するために,既存のGNNに適用可能なラベル位置非バイアスグラフ構造を学習するための新しい最適化フレームワークを提案する。 実験の結果,提案手法はバックボーン法に勝るだけでなく,ラベル位置バイアスの問題を著しく軽減することがわかった。

Graph Neural Networks (GNNs) have emerged as a powerful tool for semi-supervised node classification tasks. However, recent studies have revealed various biases in GNNs stemming from both node features and graph topology. In this work, we uncover a new bias - label position bias, which indicates that the node closer to the labeled nodes tends to perform better. We introduce a new metric, the Label Proximity Score, to quantify this bias, and find that it is closely related to performance disparities. To address the label position bias, we propose a novel optimization framework for learning a label position unbiased graph structure, which can be applied to existing GNNs. Extensive experiments demonstrate that our proposed method not only outperforms backbone methods but also significantly mitigates the issue of label position bias in GNNs.
翻訳日:2023-05-26 16:25:40 公開日:2023-05-25
# リミットオーダーブックからの深層強化学習によるマーケットメイキング

Market Making with Deep Reinforcement Learning from Limit Order Books ( http://arxiv.org/abs/2305.15821v1 )

ライセンス: Link先を確認
Hong Guo, Jianwu Lin and Fanlin Huang(参考訳) マーケットメイキング(MM)は量的金融において重要な研究課題であり、エージェントは流動性を提供し利益を上げるために、要求と入札の見積もりを継続的に最適化する必要がある。 制限順序書(LOB)には、すべてのアクティブな制限順序に関する情報が含まれている。 高次元・低信号対雑音比LOBデータのモデリングは重要な課題である。 従来のMM戦略は、価格プロセスや注文プロセスといった強い前提に依存していました。 従来の強化学習(RL)は手作りの市場機能であり、市場を表現するには不十分である。 本稿では,LOBデータを用いた市場形成のためのRLエージェントを提案する。 畳み込みフィルタとアテンション機構(Attn-LOB)を用いたニューラルネットワークを用いてLOBの特徴抽出を行う。 我々は、mmタスクのための新しい連続的なアクション空間とハイブリッド報酬関数を設計する。 最後に,待ち時間と解釈可能性に関する包括的な実験を行い,エージェントが良好な適用性を示す。

Market making (MM) is an important research topic in quantitative finance, the agent needs to continuously optimize ask and bid quotes to provide liquidity and make profits. The limit order book (LOB) contains information on all active limit orders, which is an essential basis for decision-making. The modeling of evolving, high-dimensional and low signal-to-noise ratio LOB data is a critical challenge. Traditional MM strategy relied on strong assumptions such as price process, order arrival process, etc. Previous reinforcement learning (RL) works handcrafted market features, which is insufficient to represent the market. This paper proposes a RL agent for market making with LOB data. We leverage a neural network with convolutional filters and attention mechanism (Attn-LOB) for feature extraction from LOB. We design a new continuous action space and a hybrid reward function for the MM task. Finally, we conduct comprehensive experiments on latency and interpretability, showing that our agent has good applicability.
翻訳日:2023-05-26 16:25:28 公開日:2023-05-25
# SE上でのスコアベース拡散による6次元物体姿勢推定における曖昧さの克服(3)

Confronting Ambiguity in 6D Object Pose Estimation via Score-Based Diffusion on SE(3) ( http://arxiv.org/abs/2305.15873v1 )

ライセンス: Link先を確認
Tsu-Ching Hsiao, Hao-Wei Chen, Hsuan-Kung Yang, Chun-Yi Lee(参考訳) 単一のRGB画像からの6次元オブジェクトのポーズ推定における精度の制限とあいまいさへの対処は、特にオブジェクト対称性やオクルージョンのため、大きな課題となる。 そこで本研究では,画像領域内での拡散モデルの最初の適用を,特にポーズ推定タスクに適した$SE(3)$にマークする,新しいスコアベース拡散法を提案する。 広汎な評価は,ポーズのあいまいさ,視点によるあいまいさの軽減,およびSteinスコア定式化の頑健さを$SE(3)$で示すものである。 この定式化はランゲヴィン力学の収束を改善するだけでなく、計算効率を向上させる。 そこで我々は,6次元物体ポーズ推定のための有望な戦略を開拓した。

Addressing accuracy limitations and pose ambiguity in 6D object pose estimation from single RGB images presents a significant challenge, particularly due to object symmetries or occlusions. In response, we introduce a novel score-based diffusion method applied to the $SE(3)$ group, marking the first application of diffusion models to $SE(3)$ within the image domain, specifically tailored for pose estimation tasks. Extensive evaluations demonstrate the method's efficacy in handling pose ambiguity, mitigating perspective-induced ambiguity, and showcasing the robustness of our surrogate Stein score formulation on $SE(3)$. This formulation not only improves the convergence of Langevin dynamics but also enhances computational efficiency. Thus, we pioneer a promising strategy for 6D object pose estimation.
翻訳日:2023-05-26 16:17:52 公開日:2023-05-25
# Jointprop: エンティティのための半教師付き共同学習と不均一グラフによる関係抽出

Jointprop: Joint Semi-supervised Learning for Entity and Relation Extraction with Heterogeneous Graph-based Propagation ( http://arxiv.org/abs/2305.15872v1 )

ライセンス: Link先を確認
Yandan Zheng, Anran Hao, Anh Tuan Luu(参考訳) 半教師付き学習は、限られたデータからエンティティや関係を抽出する際の課題に対処するための重要なアプローチである。 しかし、現在の半教師付き作業は2つのタスク(名前付きエンティティ認識と関係抽出)を別々に処理し、エンティティとリレーショナルインスタンスの相互相関を無視し、ラベルのないデータに類似したインスタンスが存在することを無視する。 そこで本研究では,半教師付きエンティティと関係抽出を組み合わせた不均質なグラフベース伝播フレームワークであるjointpropを提案する。 具体的には、エンティティと関係候補から統一されたスパンベースのヘテロジニアスグラフを構築し、信頼度スコアに基づいてクラスラベルを伝搬する。 次に,ラベル付きサンプルとラベルなしサンプルの親和性を活用した伝播学習方式を提案する。 ベンチマークデータセットの実験により、我々のフレームワークは、NERおよびREタスクにおける最先端の半教師付きアプローチよりも優れていることが示された。 その結果,この2つのタスクの半教師付き学習は,相互依存の利点を生かし,ラベルなしデータ間の共有情報を活用することの重要性を検証した。

Semi-supervised learning has been an important approach to address challenges in extracting entities and relations from limited data. However, current semi-supervised works handle the two tasks (i.e., Named Entity Recognition and Relation Extraction) separately and ignore the cross-correlation of entity and relation instances as well as the existence of similar instances across unlabeled data. To alleviate the issues, we propose Jointprop, a Heterogeneous Graph-based Propagation framework for joint semi-supervised entity and relation extraction, which captures the global structure information between individual tasks and exploits interactions within unlabeled data. Specifically, we construct a unified span-based heterogeneous graph from entity and relation candidates and propagate class labels based on confidence scores. We then employ a propagation learning scheme to leverage the affinities between labelled and unlabeled samples. Experiments on benchmark datasets show that our framework outperforms the state-of-the-art semi-supervised approaches on NER and RE tasks. We show that the joint semi-supervised learning of the two tasks benefits from their codependency and validates the importance of utilizing the shared information between unlabeled data.
翻訳日:2023-05-26 16:17:38 公開日:2023-05-25
# モデルミス種別に基づくシミュレーションに基づく推論のためのロバスト統計の学習

Learning Robust Statistics for Simulation-based Inference under Model Misspecification ( http://arxiv.org/abs/2305.15871v1 )

ライセンス: Link先を確認
Daolang Huang, Ayush Bharti, Amauri Souza, Luigi Acerbi, Samuel Kaski(参考訳) 近似ベイズ計算(abc)、合成可能性、ニューラル後方推定(npe)のようなシミュレーションベース推論(sbi)法は、統計をシミュレートし、難解な確率モデルのパラメータを推定する。 しかし、そのような手法はモデル不特定の下で不確実で誤解を招く推論結果をもたらすことが知られており、その適用性を妨げている。 本稿では,sbiメソッドの異なるクラスにまたがるモデル誤特定を扱うための,最初の一般的なアプローチを提案する。 統計の選択がSBIの誤識別の度合いを決定するという事実を活かして、データとモデル間のミスマッチを増加させる統計を解析する正規化損失関数を導入する。 実例として NPE と ABC を用いて, 人工的に不特定な高次元時系列モデルにおいて, 提案手法の優れた性能を示す。 また,提案手法を,モデルが不特定であることが知られている電波伝搬領域からの実データに適用する。 提案手法は,モデルが適切に特定された場合にも正確でありながら,不特定シナリオにおいて頑健な推論をもたらすことを示す。

Simulation-based inference (SBI) methods such as approximate Bayesian computation (ABC), synthetic likelihood, and neural posterior estimation (NPE) rely on simulating statistics to infer parameters of intractable likelihood models. However, such methods are known to yield untrustworthy and misleading inference outcomes under model misspecification, thus hindering their widespread applicability. In this work, we propose the first general approach to handle model misspecification that works across different classes of SBI methods. Leveraging the fact that the choice of statistics determines the degree of misspecification in SBI, we introduce a regularized loss function that penalises those statistics that increase the mismatch between the data and the model. Taking NPE and ABC as use cases, we demonstrate the superior performance of our method on high-dimensional time-series models that are artificially misspecified. We also apply our method to real data from the field of radio propagation where the model is known to be misspecified. We show empirically that the method yields robust inference in misspecified scenarios, whilst still being accurate when the model is well-specified.
翻訳日:2023-05-26 16:17:14 公開日:2023-05-25
# 専門分野における用語・句のテキスト表現の抽出

Extracting Text Representations for Terms and Phrases in Technical Domains ( http://arxiv.org/abs/2305.15867v1 )

ライセンス: Link先を確認
Francesco Fusco, Diego Antognini(参考訳) 用語やフレーズの密度の高い表現を抽出することは、高度技術分野を対象とした知識発見プラットフォームにとって非常に重要な課題である。 センス表現は下流コンポーネントの機能として使われ、検索結果のランキングから要約まで、複数のアプリケーションがある。 密集表現を作成するための一般的なアプローチには、自己教師付きセットアップによるドメイン固有の埋め込みのトレーニングや、類似性タスクでトレーニングされた文エンコーダモデルの使用がある。 静的埋め込みとは対照的に、文エンコーダは語彙外問題(OOV)に悩まされることはないが、計算コストは相当である。 本稿では,大容量の事前学習組込み行列を再構成することを目的とした,小文字モデルを用いたテキスト符号化手法を提案する。 このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質にマッチするだけでなく、ハイエンドgpuでも5倍小さく、最大10倍高速になる。

Extracting dense representations for terms and phrases is a task of great importance for knowledge discovery platforms targeting highly-technical fields. Dense representations are used as features for downstream components and have multiple applications ranging from ranking results in search to summarization. Common approaches to create dense representations include training domain-specific embeddings with self-supervised setups or using sentence encoder models trained over similarity tasks. In contrast to static embeddings, sentence encoders do not suffer from the out-of-vocabulary (OOV) problem, but impose significant computational costs. In this paper, we propose a fully unsupervised approach to text encoding that consists of training small character-based models with the objective of reconstructing large pre-trained embedding matrices. Models trained with this approach can not only match the quality of sentence encoders in technical domains, but are 5 times smaller and up to 10 times faster, even on high-end GPUs.
翻訳日:2023-05-26 16:16:54 公開日:2023-05-25
# 非対称エンタングルコヒーレント状態による非対称位相センシング

Asymmetry-enhanced phase sensing via asymmetric entangled coherent states ( http://arxiv.org/abs/2305.15865v1 )

ライセンス: Link先を確認
Xiao-Tong Chen, Wang-Jun Lu, Yunlan Zuo, Rui Zhang, Ya-Feng Jiao, Le-Man Kuang(参考訳) 2つの局所振幅が異なる値を持つ非対称な2モード絡み合うコヒーレント状態(ECS)を用いて量子位相センシングを研究する。 我々は、非対称性が位相推定の精度を著しく向上させることができる非対称性エンハンス位相センシング現象を見いだす。 さらに,光子損失によるデコヒーレンスが量子位相センシングに与える影響についても検討した。 非対称ECSは、対称ECSよりもデコヒーレンスに対して強い能力を有することが示されている。 非対称ECSは、量子位相検出における対称ECSに対して明らかな優位性を持つことが示された。 また, インテンシティ・ディファレンス測定を用いた実用的な位相センシング法について検討し, 非対称なecssにおける非対称性は, 実用的位相計測法において位相感度を高めることができることを示した。 我々の研究は、非対称ECSの非対称性が新しい量子センシング資源であることを明らかにし、光子損失の存在下での超感度量子位相検出に新しい方法を開く。

We study quantum phase sensing with an asymmetric two-mode entangled coherent state (ECS) in which the two local amplitudes have different values. We find the phenomenon of the asymmetry-enhanced phase sensing which the asymmetry can significantly increase the precise of the phase estimation. We further study the effect of decoherence induced by the photon loss on quantum phase sensing. It is shown that the asymmetric ECSs have stronger capability against decoherence over the symmetric ECSs. It is indicated that the asymmetric ECSs have obvious advantages over the symmetric ECSs in the quantum phase sensing. We also study the practical phase sensing scheme with the intensity-difference measurement, and show that the asymmetry in the asymmetric ECSs can enhance the phase sensitivity in the practical phase measurement scheme. Our work reveals the asymmetry in the asymmetric ECSs is a new quantum-sensing resource, and opens a new way to the ultra-sensitive quantum phase sensing in the presence of photon losses.
翻訳日:2023-05-26 16:16:37 公開日:2023-05-25
# 画像融合のためのタスク誘導・暗黙探索・メタ初期化ディープモデル

A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion ( http://arxiv.org/abs/2305.15862v1 )

ライセンス: Link先を確認
Risheng Liu, Zhu Liu, Jinyuan Liu, Xin Fan, Zhongxuan Luo(参考訳) 画像融合は、様々なマルチセンサーベースの視覚システムにおいて、特に視覚品質の向上や知覚のための集約された特徴の抽出において重要な役割を果たす。 しかし、既存のほとんどの手法は画像融合を個別のタスクとみなすだけであり、これらの下流の視覚問題と根底にある関係を無視している。 さらに、適切な融合アーキテクチャを設計するには、しばしば大きなエンジニアリングの労力が必要となる。 また、現在の融合アプローチの柔軟性と一般化能力を改善するメカニズムも欠如している。 これらの問題を緩和するために,タスク誘導・インプリシト検索・メタ初期化(TIM)ディープモデルを構築し,課題のある現実シナリオにおける画像融合問題に対処する。 具体的には,画像融合の教師なし学習プロセスを指導するために,下流タスクからの情報を取り込む制約付き戦略を提案する。 このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動的に発見する。 さらに,様々な画像融合タスクの高速適応を支援するために,拡散融合データを活用するプリテキストメタ初期化手法が導入された。 画像融合問題と関連する下流タスク(視覚強調や意味理解など)の異なるカテゴリに関する質的かつ定量的な実験結果は、timの柔軟性と有効性を実証する。 ソースコードはhttps://github.com/LiuZhu-CV/TIMFusionで入手できる。

Image fusion plays a key role in a variety of multi-sensor-based vision systems, especially for enhancing visual quality and/or extracting aggregated features for perception. However, most existing methods just consider image fusion as an individual task, thus ignoring its underlying relationship with these downstream vision problems. Furthermore, designing proper fusion architectures often requires huge engineering labor. It also lacks mechanisms to improve the flexibility and generalization ability of current fusion approaches. To mitigate these issues, we establish a Task-guided, Implicit-searched and Meta-initialized (TIM) deep model to address the image fusion problem in a challenging real-world scenario. Specifically, we first propose a constrained strategy to incorporate information from downstream tasks to guide the unsupervised learning process of image fusion. Within this framework, we then design an implicit search scheme to automatically discover compact architectures for our fusion model with high efficiency. In addition, a pretext meta initialization technique is introduced to leverage divergence fusion data to support fast adaptation for different kinds of image fusion tasks. Qualitative and quantitative experimental results on different categories of image fusion problems and related downstream tasks (e.g., visual enhancement and semantic understanding) substantiate the flexibility and effectiveness of our TIM. The source code will be available at https://github.com/LiuZhu-CV/TIMFusion.
翻訳日:2023-05-26 16:16:18 公開日:2023-05-25
# LLHR:資源拘束型UAV群に対する低レイテンシで信頼性の高いCNN分散推論

LLHR: Low Latency and High Reliability CNN Distributed Inference for Resource-Constrained UAV Swarms ( http://arxiv.org/abs/2305.15858v1 )

ライセンス: Link先を確認
Marwan Dhuheir, Aiman Erbad, Sinan Sabeeh(参考訳) 近年,無人航空機 (UAV) は, 監視, 捜索・救助活動, 環境モニタリングなど多くの重要な応用において, 優れた性能を発揮している。 これらのアプリケーションの多くは、uavが画像やその他の感覚データをキャプチャし、そのデータ処理要求をリモートサーバに送信する。 それでもこのアプローチは、不安定な接続、限られた帯域幅、限られたエネルギー、厳格なエンドツーエンドレイテンシのために、リアルタイムベースのアプリケーションでは必ずしも実用的ではない。 有望な解決策の1つは、利用可能なリソースに基づいてUAV間で分散可能なサブタスクに推論要求を分割することである。 さらに、これらのタスクは、Swarmが領域をカバーするために移動するときに確実に送信する必要がある中間結果を生成する。 システムモデルでは,高い信頼性と低レイテンシを保証する最適な送信電力の探索を目的として,リアルタイム要求を処理している。 低レイテンシと高信頼性(LLHR)分散推論を最適化問題として定式化し、問題の複雑さから3つのサブプロブレムに分割する。 第1サブプロブレムでは、送信信頼性が保証された接続されたUAVの最適な送信電力を求める。 2番目のサブプロブレムはグリッド内のUAVの最適な位置を見つけることを目的としており、最後のサブプロブレムは利用可能なUAV内のCNN層の最適な配置を見つける。 広範なシミュレーションを行い、我々のモデルが競合モデルを上回ることを示す2つのベースラインモデルと比較します。

Recently, Unmanned Aerial Vehicles (UAVs) have shown impressive performance in many critical applications, such as surveillance, search and rescue operations, environmental monitoring, etc. In many of these applications, the UAVs capture images as well as other sensory data and then send the data processing requests to remote servers. Nevertheless, this approach is not always practical in real-time-based applications due to unstable connections, limited bandwidth, limited energy, and strict end-to-end latency. One promising solution is to divide the inference requests into subtasks that can be distributed among UAVs in a swarm based on the available resources. Moreover, these tasks create intermediate results that need to be transmitted reliably as the swarm moves to cover the area. Our system model deals with real-time requests, aiming to find the optimal transmission power that guarantees higher reliability and low latency. We formulate the Low Latency and High-Reliability (LLHR) distributed inference as an optimization problem, and due to the complexity of the problem, we divide it into three subproblems. In the first subproblem, we find the optimal transmit power of the connected UAVs with guaranteed transmission reliability. The second subproblem aims to find the optimal positions of the UAVs in the grid, while the last subproblem finds the optimal placement of the CNN layers in the available UAVs. We conduct extensive simulations and compare our work to two baseline models demonstrating that our model outperforms the competing models.
翻訳日:2023-05-26 16:15:53 公開日:2023-05-25
# 逐次統合グラディエント:言語モデルを説明するシンプルで効果的な方法

Sequential Integrated Gradients: a simple but effective method for explaining language models ( http://arxiv.org/abs/2305.15853v1 )

ライセンス: Link先を確認
Joseph Enguehard(参考訳) 統合グラディエント(IG)のようないくつかの説明手法は、データと非形式的ベースラインの間の直線に依存するため、パスベースの方法として特徴づけられる。 しかし、言語モデルに適用した場合、これらの手法は文の各単語の経路を同時に生成するので、補間された単語から、明確な意味を持たないか、原文とはかなり異なる意味を持つ文を生成することができる。 これらの文の意味を原文と可能な限り近いものにするために,文中の各単語の重要度を計算する逐次統合勾配 (Sequential Integrated Gradients, SIG) を提案する。 さらに,いくつかの言語モデルの学習手順に触発されて,ベースライントークン "pad" をトレーニングトークン "mask" に置き換えることを提案する。 元のIG法よりも単純な改良であるが、SIGが言語モデルを説明するのに非常に効果的な方法であることを証明した様々なモデルやデータセットについて示す。

Several explanation methods such as Integrated Gradients (IG) can be characterised as path-based methods, as they rely on a straight line between the data and an uninformative baseline. However, when applied to language models, these methods produce a path for each word of a sentence simultaneously, which could lead to creating sentences from interpolated words either having no clear meaning, or having a significantly different meaning compared to the original sentence. In order to keep the meaning of these sentences as close as possible to the original one, we propose Sequential Integrated Gradients (SIG), which computes the importance of each word in a sentence by keeping fixed every other words, only creating interpolations between the baseline and the word of interest. Moreover, inspired by the training procedure of several language models, we also propose to replace the baseline token "pad" with the trained token "mask". While being a simple improvement over the original IG method, we show on various models and datasets that SIG proves to be a very effective method for explaining language models.
翻訳日:2023-05-26 16:15:28 公開日:2023-05-25
# 大規模言語モデルの自己矛盾型幻覚:評価・検出・緩和

Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation ( http://arxiv.org/abs/2305.15852v1 )

ライセンス: Link先を確認
Niels M\"undler, Jingxuan He, Slobodan Jenko, Martin Vechev(参考訳) 大きな言語モデル(大きなlms)は幻覚的な内容を持つテキストを生成しやすい。 自己矛盾(self-contradiction)は、lmが同じ文脈で2つの矛盾した文を生成する場合に、幻覚の重要な形態である。 本稿では, 評価, 検出, 緩和を含む, 最先端, 命令調整されたlmmのための自己コントラストに関する包括的解析を行う。 自己矛盾を効果的に引き起こすために,適切な文ペアを生成するためにLMを制約するフレームワークを設計する。 これらの文対について評価した結果,有名・あまり知られていない話題に対して,異なるLM間で自己矛盾が頻繁に発生することがわかった。 次に、lmsに自己矛盾を検出するよう促す。 その結果,chatgpt と gpt-4 は自己矛盾を正確に識別できるが,vicuna-13b ではそれが難しいことがわかった。 例えば、最高のプロンプト手法によって、chatgptは91.0%の精度と80.5%のリコールを達成します。 自己矛盾を自動的に軽減するために, LMが検出した自己矛盾を生成テキストから除去するよう促す反復アルゴリズムを開発した。 提案アルゴリズムは, 自己矛盾が著しく低減されるようにテキストの修正に成功し, 拡散率と情報性を維持した。 重要なことは、我々の自己矛盾を誘発、検出、緩和するパイプライン全体がブラックボックスのLMに適用でき、外部の基盤知識は不要である。

Large language models (large LMs) are susceptible to producing text with hallucinated content. Self-contradiction, where the LM generates two contradictory sentences within the same context, is an important form of hallucination. In this work, we present a comprehensive analysis on self-contradiction for state-of-the-art, instruction-tuned LMs, including evaluation, detection, and mitigation. To effectively trigger self-contradictions, we design a framework that constrains LMs to generate appropriate sentence pairs. Our evaluation on these sentence pairs reveals that self-contradictions occur frequently across different LMs for both famous and lesser-known topics. Next, we prompt the LMs to detect self-contradictions. Our results indicate that ChatGPT and GPT-4 are able to accurately identify self-contradictions, while Vicuna-13B struggles to do so. For example, with our best prompting method, ChatGPT achieves 91.0% precision and 80.5% recall on the sentence pairs generated by itself. To automatically mitigate self-contradictions, we develop an iterative algorithm that prompts the LMs to remove the detected self-contradictions from the generated text. Our algorithm successfully revises the text such that self-contradictions are significantly reduced, while maintaining its fluency and informativeness. Importantly, our entire pipeline of triggering, detecting, and mitigating self-contradictions is applicable to black-box LMs and does not require any external grounded knowledge.
翻訳日:2023-05-26 16:15:10 公開日:2023-05-25
# 量子コンピュータ上の決定点およびファフィアン点過程のサンプリングについて

On sampling determinantal and Pfaffian point processes on a quantum computer ( http://arxiv.org/abs/2305.15851v1 )

ライセンス: Link先を確認
R\'emi Bardenet, Micha\"el Fanuel, Alexandre Feller(参考訳) DPPは1970年代の量子光学のモデルとしてマッキによって導入された。 それ以来、統計学や計算機科学のモデルやサブサンプリングツールとして広く使われている。 ほとんどのアプリケーションはDPPからのサンプリングを必要とし、その量子起源を考えると、量子コンピュータ上のDPPのサンプリングは古典的なものよりも簡単かどうか疑問に思う。 ここでは、有限状態空間上の DPP に焦点を当て、${1,\dots,N\}$ の部分集合上の分布は、$N\times N$ Hermitian 核行列によってパラメタ化される。 バニラサンプリング(バニラサンプリング、英: vanilla sampling)は、古典的コンピュータ上の各コスト$\mathcal{o}(n^3)$ と$\mathcal{o}(nr^2)$ の2ステップからなる。 現在の論文の第一部は、フェルミオン系の量子シミュレーションの最先端がなぜ既に量子DPPサンプリングアルゴリズムを生み出しているのかを説明するものである。 次に、既存の量子回路を修正し、実際のカーネル仕様から始まる完全なDPPサンプリングパイプラインへの挿入について議論する。 結論として、$P$(古典)並列プロセッサでは、プリプロセッシングコストを$P$に分割し、所定のDPPをサンプリングする$\mathcal{O}(Nr)$ゲートを持つ量子回路を構築することができ、深さはターゲットマシン上のqubit-communication制約によって$$\mathcal{O}(N)$から$\mathcal{O}(r\log N)$に変化する。 また、超伝導体のシミュレーションに関する既存の研究を、DPPを一般化し、機械学習者のツールボックスに自然に追加するファフィアン点過程に結びつける。 最後に、回路は古典的なシミュレータと5ビットマシンで実証的に検証される。

DPPs were introduced by Macchi as a model in quantum optics the 1970s. Since then, they have been widely used as models and subsampling tools in statistics and computer science. Most applications require sampling from a DPP, and given their quantum origin, it is natural to wonder whether sampling a DPP on a quantum computer is easier than on a classical one. We focus here on DPPs over a finite state space, which are distributions over the subsets of $\{1,\dots,N\}$ parametrized by an $N\times N$ Hermitian kernel matrix. Vanilla sampling consists in two steps, of respective costs $\mathcal{O}(N^3)$ and $\mathcal{O}(Nr^2)$ operations on a classical computer, where $r$ is the rank of the kernel matrix. A large first part of the current paper consists in explaining why the state-of-the-art in quantum simulation of fermionic systems already yields quantum DPP sampling algorithms. We then modify existing quantum circuits, and discuss their insertion in a full DPP sampling pipeline that starts from practical kernel specifications. The bottom line is that, with $P$ (classical) parallel processors, we can divide the preprocessing cost by $P$ and build a quantum circuit with $\mathcal{O}(Nr)$ gates that sample a given DPP, with depth varying from $\mathcal{O}(N)$ to $\mathcal{O}(r\log N)$ depending on qubit-communication constraints on the target machine. We also connect existing work on the simulation of superconductors to Pfaffian point processes, which generalize DPPs and would be a natural addition to the machine learner's toolbox. Finally, the circuits are empirically validated on a classical simulator and on 5-qubit machines.
翻訳日:2023-05-26 16:14:44 公開日:2023-05-25
# 相互知識蒸留による集合的知識グラフ補完

Collective Knowledge Graph Completion with Mutual Knowledge Distillation ( http://arxiv.org/abs/2305.15895v1 )

ライセンス: Link先を確認
Weihang Zhang, Ovidiu Serban, Jiahao Sun, Yi-ke Guo(参考訳) 知識グラフ補完(KGC)は,知識グラフ内の既存の関係データに基づいて行方不明情報を予測するタスクであり,近年注目されている。 しかしながら、KGC手法の予測力は、異なるソースや言語からの既存の知識グラフの完全性によって制限されることが多い。 単言語および多言語環境では、kgは互いに補完する可能性がある。 本稿では,異なるKGからの集合的知識を最大化し,個々のKGの不完全性を緩和する多KG完備化の問題について検討する。 具体的には、KG間のシードアライメントをメッセージ伝達のエッジと見なすような、個々のKGと大きな融合KG上の関係対応グラフ畳み込みネットワークエンコーダモデルを用いたCKGC-CKDという新しい手法を提案する。 また、「グローバル」融合kgモデルと「ローカル」個別kg間の知識伝達を最大化するために、追加の相互知識蒸留機構も用いられる。 複数言語データセットによる実験結果から,本手法はKGCタスクにおけるすべての最先端モデルより優れていることが示された。

Knowledge graph completion (KGC), the task of predicting missing information based on the existing relational data inside a knowledge graph (KG), has drawn significant attention in recent years. However, the predictive power of KGC methods is often limited by the completeness of the existing knowledge graphs from different sources and languages. In monolingual and multilingual settings, KGs are potentially complementary to each other. In this paper, we study the problem of multi-KG completion, where we focus on maximizing the collective knowledge from different KGs to alleviate the incompleteness of individual KGs. Specifically, we propose a novel method called CKGC-CKD that uses relation-aware graph convolutional network encoder models on both individual KGs and a large fused KG in which seed alignments between KGs are regarded as edges for message propagation. An additional mutual knowledge distillation mechanism is also employed to maximize the knowledge transfer between the models of "global" fused KG and the "local" individual KGs. Experimental results on multilingual datasets have shown that our method outperforms all state-of-the-art models in the KGC task.
翻訳日:2023-05-26 16:08:16 公開日:2023-05-25
# パフォーマンス損失のないプライベートミーティング要約

Private Meeting Summarization Without Performance Loss ( http://arxiv.org/abs/2305.15894v1 )

ライセンス: Link先を確認
Seolhwa Lee, Anders S{\o}gaard(参考訳) ミーティングの要約はビジネス上の大きな可能性があるが、難しい問題であることに加えて、ロールアウトにはプライバシの懸念がある。 差分プライバシー制約下での要約の達成の問題を探り、驚いたことに、差分プライバシはサンプル内データの性能をわずかに低下させるが、差分プライバシは見当たらないミーティングタイプで評価すると性能を改善する。 実際の業務シナリオにおいて, 会議要約システムには, 様々な種類の会議タイプが生じるので, 安全な会議要約が実現可能であると考えられる。 我々は広範囲な誤り分析を行い、信頼度分析を含む差分プライバシー下でのミーティング要約における潜在的なリスクを特定する。

Meeting summarization has an enormous business potential, but in addition to being a hard problem, roll-out is challenged by privacy concerns. We explore the problem of meeting summarization under differential privacy constraints and find, to our surprise, that while differential privacy leads to slightly lower performance on in-sample data, differential privacy improves performance when evaluated on unseen meeting types. Since meeting summarization systems will encounter a great variety of meeting types in practical employment scenarios, this observation makes safe meeting summarization seem much more feasible. We perform extensive error analysis and identify potential risks in meeting summarization under differential privacy, including a faithfulness analysis.
翻訳日:2023-05-26 16:07:56 公開日:2023-05-25
# CSS: 大規模なクロススキーマ中国のテキスト-SQL医療データセット

CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset ( http://arxiv.org/abs/2305.15891v1 )

ライセンス: Link先を確認
Hanchong Zhang, Jieyu Li, Lu Chen, Ruisheng Cao, Yunyan Zhang, Yu Huang, Yefeng Zheng, Kai Yu(参考訳) クロスドメインのテキスト・トゥ・SQLタスクは、完全に見えないデータベース上でユーザ質問をSQLに解析できるシステムを構築することを目的としており、単一ドメインのテキスト・トゥ・SQLタスクは同一データベースのパフォーマンスを評価する。 これら2つのセットアップは、現実のアプリケーションでは避けられない困難に直面します。 この目的のために,評価データのデータベースとトレーニングデータのデータベースは異なるが,同じドメインから来るクロススキーマのテキストからsqlへのタスクを導入する。 さらに,大規模なCrosS-Schema中国語テキスト-SQLデータセットであるCSSについて,対応する研究を行う。 CSSは当初、2つのデータベースにまたがる4,340の質問/SQLペアで構成されていた。 モデルを異なる医療システムに一般化するために、cssを拡張し、対応するデータセット例29,280とともに19の新しいデータベースを作成します。 さらにCSSは、単一ドメインの中国語テキスト-SQL研究のための大きなコーパスでもある。 本稿では,データ収集手法とデータ統計の一連の分析について述べる。 CSSの可能性と有用性を示すため、ベンチマークベースラインが実施され、報告されている。 我々のデータセットは \url{https://huggingface.co/datasets/zhangchong/css} で公開されています。

The cross-domain text-to-SQL task aims to build a system that can parse user questions into SQL on complete unseen databases, and the single-domain text-to-SQL task evaluates the performance on identical databases. Both of these setups confront unavoidable difficulties in real-world applications. To this end, we introduce the cross-schema text-to-SQL task, where the databases of evaluation data are different from that in the training data but come from the same domain. Furthermore, we present CSS, a large-scale CrosS-Schema Chinese text-to-SQL dataset, to carry on corresponding studies. CSS originally consisted of 4,340 question/SQL pairs across 2 databases. In order to generalize models to different medical systems, we extend CSS and create 19 new databases along with 29,280 corresponding dataset examples. Moreover, CSS is also a large corpus for single-domain Chinese text-to-SQL studies. We present the data collection approach and a series of analyses of the data statistics. To show the potential and usefulness of CSS, benchmarking baselines have been conducted and reported. Our dataset is publicly available at \url{https://huggingface.co/datasets/zhanghanchong/css}.
翻訳日:2023-05-26 16:07:41 公開日:2023-05-25
# 領域一般化における不均一性の定量的測定と対比

Quantitatively Measuring and Contrastively Exploring Heterogeneity for Domain Generalization ( http://arxiv.org/abs/2305.15889v1 )

ライセンス: Link先を確認
Yunze Tong, Junkun Yuan, Min Zhang, Didi Zhu, Keli Zhang, Fei Wu, Kun Kuang(参考訳) ドメイン一般化(dg、domain generalization)は、実世界のアプリケーションでよく見られる問題であり、複数のソースドメインを利用することで、対象とするドメインの well-generalized モデルを訓練することを目的としている。 ドメインラベル、すなわち、各データポイントがサンプリングされたドメインが自然に存在するため、ほとんどのdgアルゴリズムは、それらを一般化性能を改善するための監督情報の一種として扱う。 しかし、元のドメインラベルはドメインの不均一性の欠如、すなわちドメイン間の多様性のため、最適な監視信号ではないかもしれない。 例えば、あるドメインのサンプルは別のドメインに近い場合があり、その元のラベルは一般化学習を妨げるノイズとなる可能性がある。 ドメインを再分割し、新たに生成された分割パターンを適用することでそれを解こうとする手法もあるが、不均一性の計量が欠如しているため、それらが選択するパターンは最も異種でないかもしれない。 本稿では、ドメインの不均一性は主に不変学習フレームワークの下での変分特徴にあることを指摘する。 対照的な学習法により,学習の変分的特徴を促進させることにより,ドメインの不均一性を学習可能な指標を提案する。 次に, 分散に基づく不均一性を求めることと, 学習不変性に基づく一般化モデルの違いに着目する。 そこで本研究では,DGタスクのための異種性に基づく二段階コントラスト学習(HTCL)を提案する。 第一段階では、最も異質な分割パターンを対照的な計量で生成する。 第2段階では、ドメインやクラスが示唆する安定した関係とペアを再構築し、生成したドメインラベルを一般化学習に有効活用することで、不変性を考慮したコントラスト学習を行う。 広範囲な実験により、htclは異質性をよりよく掘り出し、大きな一般化性能をもたらすことが示されている。

Domain generalization (DG) is a prevalent problem in real-world applications, which aims to train well-generalized models for unseen target domains by utilizing several source domains. Since domain labels, i.e., which domain each data point is sampled from, naturally exist, most DG algorithms treat them as a kind of supervision information to improve the generalization performance. However, the original domain labels may not be the optimal supervision signal due to the lack of domain heterogeneity, i.e., the diversity among domains. For example, a sample in one domain may be closer to another domain, its original label thus can be the noise to disturb the generalization learning. Although some methods try to solve it by re-dividing domains and applying the newly generated dividing pattern, the pattern they choose may not be the most heterogeneous due to the lack of the metric for heterogeneity. In this paper, we point out that domain heterogeneity mainly lies in variant features under the invariant learning framework. With contrastive learning, we propose a learning potential-guided metric for domain heterogeneity by promoting learning variant features. Then we notice the differences between seeking variance-based heterogeneity and training invariance-based generalizable model. We thus propose a novel method called Heterogeneity-based Two-stage Contrastive Learning (HTCL) for the DG task. In the first stage, we generate the most heterogeneous dividing pattern with our contrastive metric. In the second stage, we employ an invariance-aimed contrastive learning by re-building pairs with the stable relation hinted by domains and classes, which better utilizes generated domain labels for generalization learning. Extensive experiments show HTCL better digs heterogeneity and yields great generalization performance.
翻訳日:2023-05-26 16:07:23 公開日:2023-05-25
# 低線量CT画像の拡散確率前処理

A Diffusion Probabilistic Prior for Low-Dose CT Image Denoising ( http://arxiv.org/abs/2305.15887v1 )

ライセンス: Link先を確認
Xuan Liu, Yaoqin Xie, Songhui Diao, Shan Tan, Xiaokun Liang(参考訳) 低線量ct像は医用画像計算において重要である。 近年,深層学習に基づく手法が顕著に改善されている。 しかし,ディープデノージングニューラルネットワークの訓練には,低線量および正常線量ct画像ペアが必要であり,クリニックの設定では取得が困難である。 そこで本研究では,高出力生成モデルである拡散確率モデルに基づく低線量ct画像デノイジングの完全教師なし法を提案する。 まず,ランダムノイズから高画質の正常線量CT画像を生成する非条件の拡散確率モデルを訓練する。 その後、事前学習した拡散モデルの確率的先行を最大A Posteriori(MAP)推定フレームワークに組み込み、画像復調問題を反復的に解く。 提案手法は,入力された低線量CT画像と画像内容の整合性を保ちながら,高画質の正常線量CT画像を生成する。 本手法は広範に使用される低線量ct画像デノイジングベンチマークを用いて評価し,数種類の教師あり低線量ct画像デノイジング法を定量的および視覚的に評価した。

Low-dose computed tomography (CT) image denoising is crucial in medical image computing. Recent years have been remarkable improvement in deep learning-based methods for this task. However, training deep denoising neural networks requires low-dose and normal-dose CT image pairs, which are difficult to obtain in the clinic settings. To address this challenge, we propose a novel fully unsupervised method for low-dose CT image denoising, which is based on denoising diffusion probabilistic model -- a powerful generative model. First, we train an unconditional denoising diffusion probabilistic model capable of generating high-quality normal-dose CT images from random noise. Subsequently, the probabilistic priors of the pre-trained diffusion model are incorporated into a Maximum A Posteriori (MAP) estimation framework for iteratively solving the image denoising problem. Our method ensures the diffusion model produces high-quality normal-dose CT images while keeping the image content consistent with the input low-dose CT images. We evaluate our method on a widely used low-dose CT image denoising benchmark, and it outperforms several supervised low-dose CT image denoising methods in terms of both quantitative and visual performance.
翻訳日:2023-05-26 16:06:55 公開日:2023-05-25
# rc-bevfusion:レーダーカメラ鳥の目視機能融合用プラグインモジュール

RC-BEVFusion: A Plug-In Module for Radar-Camera Bird's Eye View Feature Fusion ( http://arxiv.org/abs/2305.15883v1 )

ライセンス: Link先を確認
Lukas St\"acker, Shashank Mishra, Philipp Heidenreich, Jason Rambach, Didier Stricker(参考訳) レーダーやカメラは、先進運転支援システムや自動運転研究に最も頻繁に使用されるセンサーである。 しかし、ニューラルネットワークとレーダーカメラの融合に関する研究は驚くほど少ない。 理由のひとつは、nuScenesデータセットを除いて、レーダーと無人カメラデータを備えた大規模な自動車データセットがないことだ。 もう一つの理由は、鳥の視線(BEV)面上のスパースレーダーポイント雲と、視線平面上の密集した画像とを効果的に融合させることの難しさである。 bev機能を用いたカメラベースの3dオブジェクト検出の最近のトレンドは、レーダーに適した新しいタイプの融合を可能にした。 本研究では,BEV平面上のモジュラーレーダカメラ融合ネットワークであるRC-BEVFusionを紹介する。 本稿では,新しいレーダエンコーダブランチであるbevfeaturenetを提案し,最先端のカメラベースのアーキテクチャに組み込むことができることを示す。 我々は,レーダー・カメラ融合研究における重要なステップであるnuScenes検出スコアにおいて,最大28%の性能向上を示す。 nuScenesベンチマークのモデルをチューニングすることなく、レーダカメラ融合カテゴリの全手法で最高の結果が得られる。

Radars and cameras belong to the most frequently used sensors for advanced driver assistance systems and automated driving research. However, there has been surprisingly little research on radar-camera fusion with neural networks. One of the reasons is a lack of large-scale automotive datasets with radar and unmasked camera data, with the exception of the nuScenes dataset. Another reason is the difficulty of effectively fusing the sparse radar point cloud on the bird's eye view (BEV) plane with the dense images on the perspective plane. The recent trend of camera-based 3D object detection using BEV features has enabled a new type of fusion, which is better suited for radars. In this work, we present RC-BEVFusion, a modular radar-camera fusion network on the BEV plane. We propose BEVFeatureNet, a novel radar encoder branch, and show that it can be incorporated into several state-of-the-art camera-based architectures. We show significant performance gains of up to 28% increase in the nuScenes detection score, which is an important step in radar-camera fusion research. Without tuning our model for the nuScenes benchmark, we achieve the best result among all published methods in the radar-camera fusion category.
翻訳日:2023-05-26 16:06:36 公開日:2023-05-25
# 生成的逆還元次数モデリング

Generative Adversarial Reduced Order Modelling ( http://arxiv.org/abs/2305.15881v1 )

ライセンス: Link先を確認
Dario Coscia, Nicola Demo, Gianluigi Rozza(参考訳) そこで本研究では,gans(generative adversarial networks)に基づく低次モデリング(rom)のための新しいアプローチであるgaromを提案する。 GANはデータ分散を学び、よりリアルなデータを生成する可能性がある。 ディープラーニングの多くの分野に広く適用されているが、romへの応用についての研究はほとんど行われていない。 本研究では,パラメトリック微分方程式の解を学習できるデータ駆動生成逆モデルを導入することで,gan と rom のフレームワークを組み合わせる。 後者は、判別器ネットワークをオートエンコーダとしてモデル化し、入力の関連特徴を抽出し、微分方程式パラメータを特定するジェネレータおよび判別器ネットワークに条件付け機構を適用することで達成される。 本稿では,提案手法を推論に適用し,モデル一般化の実験的証拠を提供し,手法の収束研究を行う方法について述べる。

In this work, we present GAROM, a new approach for reduced order modelling (ROM) based on generative adversarial networks (GANs). GANs have the potential to learn data distribution and generate more realistic data. While widely applied in many areas of deep learning, little research is done on their application for ROM, i.e. approximating a high-fidelity model with a simpler one. In this work, we combine the GAN and ROM framework, by introducing a data-driven generative adversarial model able to learn solutions to parametric differential equations. The latter is achieved by modelling the discriminator network as an autoencoder, extracting relevant features of the input, and applying a conditioning mechanism to the generator and discriminator networks specifying the differential equation parameters. We show how to apply our methodology for inference, provide experimental evidence of the model generalisation, and perform a convergence study of the method.
翻訳日:2023-05-26 16:06:19 公開日:2023-05-25
# LFTK:計算言語学における手作りの特徴

LFTK: Handcrafted Features in Computational Linguistics ( http://arxiv.org/abs/2305.15878v1 )

ライセンス: Link先を確認
Bruce W. Lee, Jason Hyung-Jong Lee(参考訳) 過去の研究で、様々なタスクに役立つ豊富な手作りの言語特徴が特定された。 しかし、その膨大な数が既存の手作りの機能を効果的に選択し活用することは困難である。 研究における一貫性のない実装の問題と相まって、分類スキームや一般に受け入れられる特徴名は存在しない。 これは望ましくない混乱を引き起こす。 また、既存の手作りの機能抽出ライブラリのほとんどはオープンソースではない。 結果として、研究者はしばしばそのような抽出システムをゼロから構築しなければならない。 過去の文献に基づく220以上の人気手工芸品を収集・分類した。 次に,複数のタスク固有のデータセットの相関分析を行い,各特徴の潜在的なユースケースを報告する。 最後に,多言語手作り言語特徴抽出システムを体系的に拡張可能な方法で考案する。 我々は,実装済みの豊富な手作り機能にパブリックアクセスするためのシステムをオープンソース化した。 我々のシステムはLFTKと呼ばれており、その種類の中で最大である。 github.com/brucewlee/lftkを参照。

Past research has identified a rich set of handcrafted linguistic features that can potentially assist various tasks. However, their extensive number makes it difficult to effectively select and utilize existing handcrafted features. Coupled with the problem of inconsistent implementation across research works, there has been no categorization scheme or generally-accepted feature names. This creates unwanted confusion. Also, most existing handcrafted feature extraction libraries are not open-source or not actively maintained. As a result, a researcher often has to build such an extraction system from the ground up. We collect and categorize more than 220 popular handcrafted features grounded on past literature. Then, we conduct a correlation analysis study on several task-specific datasets and report the potential use cases of each feature. Lastly, we devise a multilingual handcrafted linguistic feature extraction system in a systematically expandable manner. We open-source our system for public access to a rich set of pre-implemented handcrafted features. Our system is coined LFTK and is the largest of its kind. Find it at github.com/brucewlee/lftk.
翻訳日:2023-05-26 16:06:04 公開日:2023-05-25
# オフポリシー学習のための指数的平滑化

Exponential Smoothing for Off-Policy Learning ( http://arxiv.org/abs/2305.15877v1 )

ライセンス: Link先を確認
Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba(参考訳) off-policy learning (opl) は、リスクを推定するips(inverse propensity scoring)を最小化することで、ログ付きバンディットデータからより良いポリシーを見つけることを目的としている。 本研究では,ips に対する滑らかな正規化について検討し,二面pac-bayes一般化を導出する。 境界は扱いやすく、スケーラブルで、解釈可能で、学習証明書を提供する。 特に、重要度重み付けが有界であると仮定することなく、標準ipsでも有効である。 我々は,学習課題の組を通して,アプローチの妥当性と,その望ましい性能を示す。 標準IPSには限界があるので、IPSの正規化がいつ役に立つか、洞察することができます。 すなわち、正規化が不要な場合を特定する。 これは、実際には、クリップされたIPSはOPLの標準IPSよりも良いパフォーマンスを享受している、という信念に反する。

Off-policy learning (OPL) aims at finding improved policies from logged bandit data, often by minimizing the inverse propensity scoring (IPS) estimator of the risk. In this work, we investigate a smooth regularization for IPS, for which we derive a two-sided PAC-Bayes generalization bound. The bound is tractable, scalable, interpretable and provides learning certificates. In particular, it is also valid for standard IPS without making the assumption that the importance weights are bounded. We demonstrate the relevance of our approach and its favorable performance through a set of learning tasks. Since our bound holds for standard IPS, we are able to provide insight into when regularizing IPS is useful. Namely, we identify cases where regularization might not be needed. This goes against the belief that, in practice, clipped IPS often enjoys favorable performance than standard IPS in OPL.
翻訳日:2023-05-26 16:05:52 公開日:2023-05-25
# 真理応答の言語学的特性

Linguistic Properties of Truthful Response ( http://arxiv.org/abs/2305.15875v1 )

ライセンス: Link先を確認
Bruce W. Lee, Benedict Florance Arockiaraj, Helen Jin(参考訳) 220個の手作り言語的特徴を用いたLLMの非現実的応答の現象について検討した。 我々は GPT-3 モデルに注目し,応答の言語的プロファイルがモデルサイズ全体で類似していることを見出した。 すなわち、与えられたプロンプトに対する様々な大きさのLLMの反応は、言語特性レベルに類似している。 我々は、文の真理を分類するためにモデル応答の様式的成分のみに依存するサポートベクターマシンを訓練することで、この発見を拡大する。 データセットのサイズは現在の発見を制限しますが、コンテンツ自体を評価せずに真理性検出が可能であるという有望な証拠を示します。

We investigate the phenomenon of an LLM's untruthful response using a large set of 220 handcrafted linguistic features. We focus on GPT-3 models and find that the linguistic profiles of responses are similar across model sizes. That is, how varying-sized LLMs respond to given prompts stays similar on the linguistic properties level. We expand upon this finding by training support vector machines that rely only upon the stylistic components of model responses to classify the truthfulness of statements. Though the dataset size limits our current findings, we present promising evidence that truthfulness detection is possible without evaluating the content itself.
翻訳日:2023-05-26 16:05:36 公開日:2023-05-25
# 言語変化における選択機構の信頼性

Reliable identification of selection mechanisms in language change ( http://arxiv.org/abs/2305.15914v1 )

ライセンス: Link先を確認
Juan Guerrero Montero, Andres Karjus, Kenny Smith, Richard A. Blythe(参考訳) 言語変化(英: language change)は、言語変数の変異が突然変異、選択、遺伝的ドリフトに類似した過程を通じて頻度で変化する文化進化過程である。 本研究では,最近導入された手法をコーパスデータに適用し,歴史的言語変化の特定の事例における選択の強さを定量化する。 まず, 英語不規則動詞の文脈において, この手法が, 従来適用されていた同様の方法よりも信頼性が高く, 解釈可能であることを示す。 この研究をさらに拡張して、音韻学的単純さに対する偏見が、それらが矛盾しているときに文法的単純さを好むことを実証する。 最後に,スペイン語の綴り改革を参考に,社会的動機付け言語変化に期待される特徴である,選択の強みが変化する時点の点を検出できることを示す。 これらの結果は, 歴史的コーパスデータを用いて, 言語変化のメカニズムに関する仮説を定量的に検証できることを示す。

Language change is a cultural evolutionary process in which variants of linguistic variables change in frequency through processes analogous to mutation, selection and genetic drift. In this work, we apply a recently-introduced method to corpus data to quantify the strength of selection in specific instances of historical language change. We first demonstrate, in the context of English irregular verbs, that this method is more reliable and interpretable than similar methods that have previously been applied. We further extend this study to demonstrate that a bias towards phonological simplicity overrides that favouring grammatical simplicity when these are in conflict. Finally, with reference to Spanish spelling reforms, we show that the method can also detect points in time at which selection strengths change, a feature that is generically expected for socially-motivated language change. Together, these results indicate how hypotheses for mechanisms of language change can be tested quantitatively using historical corpus data.
翻訳日:2023-05-26 15:58:12 公開日:2023-05-25
# MEMEX:知識豊か化によるミームの説明的証拠の検出

MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched Contextualization ( http://arxiv.org/abs/2305.15913v1 )

ライセンス: Link先を確認
Shivam Sharma, Ramaneswaram S, Udit Arora, Md. Shad Akhtar and Tanmoy Chakraborty(参考訳) ミームはソーシャルメディア上でコミュニケーションするための強力なツールだ。 政治、歴史、社会文化的現象にまたがって進化する彼らの親和性は、理想的なコミュニケーション手段となる。 ミーム内で伝達される微妙なメッセージを理解するには、その全体的同化を容易にする背景を理解する必要がある。 knowyourmeme.comのようないくつかのウェブサイトによるミームとそのメタデータのデジタルアーカイブの他に、現在、ミームのコンテキストを動的に推測する効率的な方法は存在しない。 本研究では,新しい課題であるmemexgiven a memeと関連する文書を提案し,memeの背景を簡潔に説明する文脈をマイニングすることを目的としている。 まず,MEMEXのための新しいデータセットであるMCC(Meme Context Corpus)を開発した。 さらに,mccをベンチマークするために,meme (multimodal meme explaineder) を提案する。memeは,meme表現の共通性を利用したマルチモーダルニューラルネットワークフレームワークであり,memeとコンテキスト間の相互モーダルセマンティクス依存性を捉えるための階層的アプローチである。 MIMEはいくつかの単調なマルチモーダルシステムを超え、最高のベースラインに対して 4% F1スコアの絶対的な改善をもたらす。 最後に,mimeの性能に関する詳細な分析を行い,クロスモーダル文脈関係の最適モデリングにつながる可能性のある側面を強調する。

Memes are a powerful tool for communication over social media. Their affinity for evolving across politics, history, and sociocultural phenomena makes them an ideal communication vehicle. To comprehend the subtle message conveyed within a meme, one must understand the background that facilitates its holistic assimilation. Besides digital archiving of memes and their metadata by a few websites like knowyourmeme.com, currently, there is no efficient way to deduce a meme's context dynamically. In this work, we propose a novel task, MEMEX - given a meme and a related document, the aim is to mine the context that succinctly explains the background of the meme. At first, we develop MCC (Meme Context Corpus), a novel dataset for MEMEX. Further, to benchmark MCC, we propose MIME (MultImodal Meme Explainer), a multimodal neural framework that uses common sense enriched meme representation and a layered approach to capture the cross-modal semantic dependencies between the meme and the context. MIME surpasses several unimodal and multimodal systems and yields an absolute improvement of ~ 4% F1-score over the best baseline. Lastly, we conduct detailed analyses of MIME's performance, highlighting the aspects that could lead to optimal modeling of cross-modal contextual associations.
翻訳日:2023-05-26 15:57:55 公開日:2023-05-25
# 改良されたreluネットワーク特徴学習のための神経特性アクティベーション値解析

Neural Characteristic Activation Value Analysis for Improved ReLU Network Feature Learning ( http://arxiv.org/abs/2305.15912v1 )

ライセンス: Link先を確認
Wenlin Chen, Hong Ge(参考訳) ニューラルネットワークにおける個々のReLUユニットの特性活性化値について検討する。 入力空間におけるそのような特性活性化値に対する対応する集合をReLUユニットの特性活性化集合と呼ぶ。 特徴アクティベーションセットとReLUネットワークにおける学習特徴との間に明確な関係を描いている。 この接続は、現代のディープラーニングアーキテクチャで使用される様々なニューラルネットワーク正規化技術がsgd最適化を規則化し安定化する理由に関する新たな洞察をもたらす。 これらの知見を活かして,reluネットワークのパラメータ化による特徴学習の改善を提案する。 より注意深く選択された初期化スキームとより大きな学習率でその有用性を検証する。 最適化の安定性,収束速度の高速化,一般化性能の向上について報告する。

We examine the characteristic activation values of individual ReLU units in neural networks. We refer to the corresponding set for such characteristic activation values in the input space as the characteristic activation set of a ReLU unit. We draw an explicit connection between the characteristic activation set and learned features in ReLU networks. This connection leads to new insights into why various neural network normalization techniques used in modern deep learning architectures regularize and stabilize SGD optimization. Utilizing these insights, we propose a geometric approach to parameterize ReLU networks for improved feature learning. We empirically verify its usefulness with less carefully chosen initialization schemes and larger learning rates. We report improved optimization stability, faster convergence speed, and better generalization performance.
翻訳日:2023-05-26 15:57:32 公開日:2023-05-25
# NexToU: 医用画像セグメンテーションのための効率的なトポロジ対応U-Net

NexToU: Efficient Topology-Aware U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2305.15911v1 )

ライセンス: Link先を確認
Pengcheng Shi, Xutao Guo, Yanwu Yang, Chenfei Ye and Ting Ma(参考訳) convolutional neural networks (cnn)とtransformer variantsは、主要な医療画像セグメンテーションバックボーンとして登場した。 それにもかかわらず、グローバルな画像のコンテキストを保存するか、視覚的物体の異常な形状を効率的に処理することの制限により、これらのバックボーンは様々な解剖学的領域からの情報を効果的に統合し、特に血管の個体間変動を低減するのに苦労する。 グラフニューラルネットワーク(GNN)の様々な分野におけるトポロジカルな特性と非ユークリッド関係の獲得に成功し,医療画像セグメンテーションのための新しいハイブリッドアーキテクチャであるNexToUを提案する。 NexToUは、Vision GNN(ViG)から改良されたPool GNNとSwin GNNモジュールで構成され、グローバルとローカルの両方のトポロジ表現を学習し、計算コストを最小化している。 解剖学的構造間の包摂的・排除的関係に対処するため,二分木の性質に基づいてトポロジカル相互作用(TI)モジュールを再構成し,トポロジカル制約をNexToUに迅速にエンコードする。 3つのデータセット(画像次元、疾患タイプ、画像モダリティを含む)で実施された大規模な実験は、我々の手法が他の最先端(SOTA)アーキテクチャを一貫して上回ることを示した。 すべてのコードはhttps://github.com/PengchengShi1220/NexToUで公開されている。

Convolutional neural networks (CNN) and Transformer variants have emerged as the leading medical image segmentation backbones. Nonetheless, due to their limitations in either preserving global image context or efficiently processing irregular shapes in visual objects, these backbones struggle to effectively integrate information from diverse anatomical regions and reduce inter-individual variability, particularly for the vasculature. Motivated by the successful breakthroughs of graph neural networks (GNN) in capturing topological properties and non-Euclidean relationships across various fields, we propose NexToU, a novel hybrid architecture for medical image segmentation. NexToU comprises improved Pool GNN and Swin GNN modules from Vision GNN (ViG) for learning both global and local topological representations while minimizing computational costs. To address the containment and exclusion relationships among various anatomical structures, we reformulate the topological interaction (TI) module based on the nature of binary trees, rapidly encoding the topological constraints into NexToU. Extensive experiments conducted on three datasets (including distinct imaging dimensions, disease types, and imaging modalities) demonstrate that our method consistently outperforms other state-of-the-art (SOTA) architectures. All the code is publicly available at https://github.com/PengchengShi1220/NexToU.
翻訳日:2023-05-26 15:57:22 公開日:2023-05-25
# アイデンティティ知識進化を伴うカメラインクリメンタルオブジェクト再同定

Camera-Incremental Object Re-Identification with Identity Knowledge Evolution ( http://arxiv.org/abs/2305.15909v1 )

ライセンス: Link先を確認
Hantao Yao, Lu Yu, Jifei Luo, Changsheng Xu(参考訳) オブジェクト再識別(ReID)は、静止カメラのないデータセットに基づいて推論されたReIDモデルを用いて、多数のギャラリー画像からプローブオブジェクトを検索することを目的としている。 ReIDアルゴリズムを現実のシナリオにデプロイする場合、ストレージ、プライバシー制約、カメラの動的変更といった側面は、その一般化性と適用性を低下させる。 カメラデータセットの受信ストリームからReIDモードを継続的に最適化することにより、カメラインクリメンタルオブジェクト再識別(CIOR)と呼ばれる新しいReIDタスクを導入する。 異なるカメラビュー下でのアイデンティティは、同じ対象を記述している可能性があるため、共通のアイデンティティの知識を関連づけて蒸留することは、破滅的な忘れを緩和することによる差別と利益を促進する。 本稿では,CIORのための新しいアイデンティティ知識進化(IKE)フレームワークを提案し,IKA (Identity Knowledge Association) ,IKD (Identity Knowledge Distillation) ,IKU (Identity Knowledge Update) を提案する。 IKAは、現在のアイデンティティと歴史的なアイデンティティの間の共通アイデンティティを発見するために提案されている。 IKDは、共通のアイデンティティから歴史的アイデンティティの知識を蒸留し、その履歴モデルを現在のカメラビューに迅速に適用するために応用されている。 それぞれのカメラが訓練された後、IKUは歴史的および現在のアイデンティティ記憶を組み合わせることで、アイデンティティ知識を継続的に拡張する。 Market-CLとVeri-CLの評価はCIORの知識進化(IKE)の有効性を示している。 code:https://github.com/htyao89/Camera-Incremental-Object-ReID

Object Re-identification (ReID) aims to retrieve the probe object from many gallery images with the ReID model inferred based on a stationary camera-free dataset by associating and collecting the identities across all camera views. When deploying the ReID algorithm in real-world scenarios, the aspect of storage, privacy constraints, and dynamic changes of cameras would degrade its generalizability and applicability. Treating each camera's data independently, we introduce a novel ReID task named Camera-Incremental Object Re-identification (CIOR) by continually optimizing the ReID mode from the incoming stream of the camera dataset. Since the identities under different camera views might describe the same object, associating and distilling the knowledge of common identities would boost the discrimination and benefit from alleviating the catastrophic forgetting. In this paper, we propose a novel Identity Knowledge Evolution (IKE) framework for CIOR, consisting of the Identity Knowledge Association (IKA), Identity Knowledge Distillation (IKD), and Identity Knowledge Update (IKU). IKA is proposed to discover the common identities between the current identity and historical identities. IKD has applied to distillate historical identity knowledge from common identities and quickly adapt the historical model to the current camera view. After each camera has been trained, IKU is applied to continually expand the identity knowledge by combining the historical and current identity memories. The evaluation of Market-CL and Veri-CL shows the Identity Knowledge Evolution (IKE) effectiveness for CIOR. code:https://github.com/htyao89/Camera-Incremental-Object-ReID
翻訳日:2023-05-26 15:56:56 公開日:2023-05-25
# 縦対話における応答生成:どの知識表現が役に立つか?

Response Generation in Longitudinal Dialogues: Which Knowledge Representation Helps? ( http://arxiv.org/abs/2305.15908v1 )

ライセンス: Link先を確認
Seyed Mahed Mousavi, Simone Caldarella, Giuseppe Riccardi(参考訳) 縦対話(LD)は人間と機械の対話システムにおいて最も困難な対話である。 ldには、イベントの思い出、個人的な考え、会話セッションのスパースなシーケンス内の各個人固有の感情が含まれる。 LD用に設計された対話システムは、複数のセッションと長時間(例えば数週間)にわたってユーザーと一意に対話し、感情や思考、実生活の出来事を詳しく知るために、個人対話に携わるべきである。 本稿では,LDにおける応答生成の課題について考察する。 この目的に汎用事前学習言語モデル(plm)が適切かどうかを評価する。 LDのデータセットを用いて2つのPLM、GePpeTto(GPT-2)とiT5を微調整する。 我々は,LDから抽出した個人的知識の異なる表現を実験し,対象イベントや参加者のグラフ表現を含む応答生成を行う。 本稿では,自動メトリクスによるモデルの性能評価と,統合勾配法による知識の寄与について述べる。 コンテキスト化,適切性,ユーザの関与度に関する人間評価を通じて,自然言語生成エラーを分類する。

Longitudinal Dialogues (LD) are the most challenging type of conversation for human-machine dialogue systems. LDs include the recollections of events, personal thoughts, and emotions specific to each individual in a sparse sequence of dialogue sessions. Dialogue systems designed for LDs should uniquely interact with the users over multiple sessions and long periods of time (e.g. weeks), and engage them in personal dialogues to elaborate on their feelings, thoughts, and real-life events. In this paper, we study the task of response generation in LDs. We evaluate whether general-purpose Pre-trained Language Models (PLM) are appropriate for this purpose. We fine-tune two PLMs, GePpeTto (GPT-2) and iT5, using a dataset of LDs. We experiment with different representations of the personal knowledge extracted from LDs for grounded response generation, including the graph representation of the mentioned events and participants. We evaluate the performance of the models via automatic metrics and the contribution of the knowledge via the Integrated Gradients technique. We categorize the natural language generation errors via human evaluations of contextualization, appropriateness and engagement of the user.
翻訳日:2023-05-26 15:56:27 公開日:2023-05-25
# 不一致の二重降下:タスク・データ・モデル非依存現象

Double Descent of Discrepancy: A Task-, Data-, and Model-Agnostic Phenomenon ( http://arxiv.org/abs/2305.15907v1 )

ライセンス: Link先を確認
Yifan Luo, Bin Dong(参考訳) 本稿では、2つの同一学習ニューラルネットワーク(同じアーキテクチャを持つネットワーク、同じアルゴリズムで同じデータセットでトレーニングされるが、初期化が異なる)について検討し、トレーニングデータセット上の出力の差が「二重降下」現象であることを示した。 我々は、様々なタスク、データセット、ネットワークアーキテクチャにわたる広範な実験を通じて、この現象が一般的であることを実証した。 この現象を利用して,新しい早期停止基準を提案し,新しいデータ品質評価法を開発した。 その結果,現象駆動型アプローチは理論的理解と実践的応用の両方において深層学習研究に有用であることが示唆された。

In this paper, we studied two identically-trained neural networks (i.e. networks with the same architecture, trained on the same dataset using the same algorithm, but with different initialization) and found that their outputs discrepancy on the training dataset exhibits a "double descent" phenomenon. We demonstrated through extensive experiments across various tasks, datasets, and network architectures that this phenomenon is prevalent. Leveraging this phenomenon, we proposed a new early stopping criterion and developed a new method for data quality assessment. Our results show that a phenomenon-driven approach can benefit deep learning research both in theoretical understanding and practical applications.
翻訳日:2023-05-26 15:56:11 公開日:2023-05-25
# MTCue: ニューラルネットワーク翻訳における非構造化コンテキストの活用による外部テキスト属性のゼロショット制御学習

MTCue: Learning Zero-Shot Control of Extra-Textual Attributes by Leveraging Unstructured Context in Neural Machine Translation ( http://arxiv.org/abs/2305.15904v1 )

ライセンス: Link先を確認
Sebastian Vincent and Robert Flynn and Carolina Scarton(参考訳) 機械と人間の翻訳の間の重要なギャップの1つは、テキスト内およびテキスト外コンテキストの効率的な活用である。 既存の研究は主に、周囲のテキストや話者の性別のような離散的な外部変数といった、個々の、明確に定義された文脈の翻訳を提供することに重点を置いている。 これは、すべてのコンテキスト(離散変数を含む)をテキストとして解釈する新しいニューラルネットワーク翻訳(NMT)フレームワークである。 MTCueはコンテキストの抽象的な表現を学び、異なるデータ設定間での転送可能性を可能にし、低リソースのシナリオで同様の属性を活用する。 文書とメタデータのコンテキストにアクセス可能な対話領域に着目して、4つの言語対のMCCueを両翻訳方向で広範囲に評価する。 bleu (+0.88) とcomet (+1.58) で測定したパラメータマッチングされた非コンテキストベースラインに対する翻訳品質の大幅な改善を示す。 さらに、MSCueは英語のテキストの翻訳において「タグ付け」ベースラインを大幅に上回る。 MTCueのコンテキストエンコーダは、形式性などの特定の属性に基づいてコンテキストを整理する表現空間を学習し、効果的なゼロショット制御を可能にする。 コンテキスト埋め込みの事前トレーニングは、"タグ"ベースラインと比較して、mtcueの数少ないパフォーマンスも向上している。 最後に、モデル成分と文脈変数に関するアブレーション研究は、文脈ベースNMTにおけるMCCueの堅牢性をさらに支援している。

Efficient utilisation of both intra- and extra-textual context remains one of the critical gaps between machine and human translation. Existing research has primarily focused on providing individual, well-defined types of context in translation, such as the surrounding text or discrete external variables like the speaker's gender. This work introduces MTCue, a novel neural machine translation (NMT) framework that interprets all context (including discrete variables) as text. MTCue learns an abstract representation of context, enabling transferability across different data settings and leveraging similar attributes in low-resource scenarios. With a focus on a dialogue domain with access to document and metadata context, we extensively evaluate MTCue in four language pairs in both translation directions. Our framework demonstrates significant improvements in translation quality over a parameter-matched non-contextual baseline, as measured by BLEU (+0.88) and Comet (+1.58). Moreover, MTCue significantly outperforms a "tagging" baseline at translating English text. Analysis reveals that the context encoder of MTCue learns a representation space that organises context based on specific attributes, such as formality, enabling effective zero-shot control. Pre-training on context embeddings also improves MTCue's few-shot performance compared to the "tagging" baseline. Finally, an ablation study conducted on model components and contextual variables further supports the robustness of MTCue for context-based NMT.
翻訳日:2023-05-26 15:55:59 公開日:2023-05-25
# 条件分布間の経験的最適輸送

Empirical Optimal Transport between Conditional Distributions ( http://arxiv.org/abs/2305.15901v1 )

ライセンス: Link先を確認
Piyushi Manupriya, Rachit Keerti Das, Sayantan Biswas, Shivam Chandhok, Saketha Nath Jagarlapudi(参考訳) 2つのジョイント分布からのサンプルが与えられたとき、共通変数に条件付けられた対応する分布間の最適輸送(ot)の問題を考える。 この研究の目的は、条件付き値の関数として条件付き物間の輸送計画だけでなく、関連する輸送コスト(wasserstein距離)を推定することである。 条件分布のマッチングは、識別モデルと(単純)条件生成モデルの教師付きトレーニングの中核であるので、条件間のOTは、多様な機械学習アプリケーションに利用される可能性がある。 しかし、OTに関わる条件は、共同サンプルを通して暗黙的に特定されるため、特にこの問題を定式化することは困難である。 (i)条件づけられた変数は連続的で (ii) 2つの分布におけるこの変数の限界は異なる。 これらの課題を克服するために、特定のカーネルMD(Maximum Mean Discrepancy)ベースの正規化器を用いて、条件輸送計画の限界が与えられたジョイントサンプルを介して指定された条件に近いことを保証する。 軽度条件下では、この正規化輸送コストの推定器が統計的に一貫したものであり、推定誤差に有限サンプル境界を導出することを証明する。 条件付き輸送計画のパラメータ化のためのアプリケーション固有の詳細も提示する。 さらに, 癌治療に対する細胞応答予測の文脈において, 分類, 短時間学習, 条件生成などのアプリケーションにおけるベンチマークデータセットに関する方法論を実証的に評価した。

Given samples from two joint distributions, we consider the problem of Optimal Transportation (OT) between the corresponding distributions conditioned on a common variable. The objective of this work is to estimate the associated transport cost (Wasserstein distance) as well as the transport plan between the conditionals as a function of the conditioned value. Since matching conditional distributions is at the core of supervised training of discriminative models and (implicit) conditional-generative models, OT between conditionals has the potential to be employed in diverse machine learning applications. However, since the conditionals involved in OT are implicitly specified via the joint samples, it is challenging to formulate this problem, especially when (i) the variable conditioned on is continuous and (ii) the marginal of this variable in the two distributions is different. We overcome these challenges by employing a specific kernel MMD (Maximum Mean Discrepancy) based regularizer that ensures the marginals of our conditional transport plan are close to the conditionals specified via the given joint samples. Under mild conditions, we prove that our estimator for this regularized transport cost is statistically consistent and derive finite-sample bounds on the estimation error. Application-specific details for parameterizing our conditional transport plan are also presented. Furthermore, we empirically evaluate our methodology on benchmark datasets in applications like classification, prompt learning for few-shot classification, and conditional-generation in the context of predicting cell responses to cancer treatment.
翻訳日:2023-05-26 15:55:34 公開日:2023-05-25
# MixFormerV2: 効率的なフルトランスフォーマートラッキング

MixFormerV2: Efficient Fully Transformer Tracking ( http://arxiv.org/abs/2305.15896v1 )

ライセンス: Link先を確認
Yutao Cui, Tianhui Song, Gangshan Wu and Limin Wang(参考訳) トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を達成した。 しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。 本稿では,この問題を解決するために,高密度畳み込み演算や複雑なスコア予測モジュールを使わずに, 'emph{MixFormerV2} と呼ばれる完全変圧器追跡フレームワークを提案する。 私たちの重要な設計は、4つの特別な予測トークンを導入し、ターゲットテンプレートと検索エリアのトークンに結合することです。 次に、これらの混合トークンシーケンスに統一トランスフォーマーバックボーンを適用する。 これらの予測トークンは、混合注意によってターゲットテンプレートと検索領域の複雑な相関を捉えることができる。 これらに基づいて、追跡ボックスを予測し、単純なMLPヘッドを用いて信頼度を推定する。 mixformerv2の効率をさらに高めるために,希薄蒸留と深遠蒸留を含む新しい蒸留ベースのモデル還元パラダイムを提案する。 前者は、濃厚なヘッドベースのMixViTから完全なトランスフォーマートラッカーに知識を転送することを目的としており、後者はバックボーンのいくつかの層を掘り起こすのに使われる。 我々は、MixFormerV2-BがLaSOTで70.6\%、TNL2kで57.4\%、高速GPUで165 FPS、MixFormerV2-SがFEAR-Lを2.7\%、リアルタイムCPUでLaSOTで2.7\%超える2種類のMixForemrV2をインスタンス化する。

Transformer-based trackers have achieved strong accuracy on the standard benchmarks. However, their efficiency remains an obstacle to practical deployment on both GPU and CPU platforms. In this paper, to overcome this issue, we propose a fully transformer tracking framework, coined as \emph{MixFormerV2}, without any dense convolutional operation and complex score prediction module. Our key design is to introduce four special prediction tokens and concatenate them with the tokens from target template and search areas. Then, we apply the unified transformer backbone on these mixed token sequence. These prediction tokens are able to capture the complex correlation between target template and search area via mixed attentions. Based on them, we can easily predict the tracking box and estimate its confidence score through simple MLP heads. To further improve the efficiency of MixFormerV2, we present a new distillation-based model reduction paradigm, including dense-to-sparse distillation and deep-to-shallow distillation. The former one aims to transfer knowledge from the dense-head based MixViT to our fully transformer tracker, while the latter one is used to prune some layers of the backbone. We instantiate two types of MixForemrV2, where the MixFormerV2-B achieves an AUC of 70.6\% on LaSOT and an AUC of 57.4\% on TNL2k with a high GPU speed of 165 FPS, and the MixFormerV2-S surpasses FEAR-L by 2.7\% AUC on LaSOT with a real-time CPU speed.
翻訳日:2023-05-26 15:55:11 公開日:2023-05-25
# 変圧器ニューラルプロセスを用いたエンドツーエンドメタベイズ最適化

End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes ( http://arxiv.org/abs/2305.15930v1 )

ライセンス: Link先を確認
Alexandre Maraval, Matthieu Zimmer, Antoine Grosnit, Haitham Bou Ammar(参考訳) Meta-Bayesian optimization (Meta-BO)は、関連するタスクからのデータを活用することで、ベイズ最適化のサンプル効率を改善することを目的としている。 従来の手法はサロゲートモデルまたは獲得関数を独立にメタ学習することに成功したが、両コンポーネントの共同トレーニングは依然としてオープンな課題である。 本稿では、トランスフォーマーアーキテクチャを介して獲得関数を学ぶために、神経過程を一般化する最初のエンドツーエンドの微分可能メタボフレームワークを提案する。 強化学習(rl)を用いたこのエンドツーエンドフレームワークにより,ラベル付き取得データの欠如に対処できる。 初期の段階では、特に報酬が不足している場合、RLでスクラッチからトランスフォーマーベースのニューラルプロセスのトレーニングが困難であることに気付きました。 この主張を,報奨信号として広く用いられている後悔の概念が,軌道長の対数間隔パターンを示すことを示す組合せ解析で定式化した。 この問題に対処するため,アーキテクチャの一部を指導し,帰納的バイアスとして有効な確率モデルを学習する補助的なタスクでRLの目的を増強する。 提案手法は, 標準的なハイパーパラメータ最適化タスクの実験において, 様々なベースラインに対して, 最先端の後悔結果を達成するとともに, 混合整数プログラミングチューニング, 抗体設計, 電子設計自動化のための論理合成の現実的問題において, 他よりも優れていることを示す。

Meta-Bayesian optimisation (meta-BO) aims to improve the sample efficiency of Bayesian optimisation by leveraging data from related tasks. While previous methods successfully meta-learn either a surrogate model or an acquisition function independently, joint training of both components remains an open challenge. This paper proposes the first end-to-end differentiable meta-BO framework that generalises neural processes to learn acquisition functions via transformer architectures. We enable this end-to-end framework with reinforcement learning (RL) to tackle the lack of labelled acquisition data. Early on, we notice that training transformer-based neural processes from scratch with RL is challenging due to insufficient supervision, especially when rewards are sparse. We formalise this claim with a combinatorial analysis showing that the widely used notion of regret as a reward signal exhibits a logarithmic sparsity pattern in trajectory lengths. To tackle this problem, we augment the RL objective with an auxiliary task that guides part of the architecture to learn a valid probabilistic model as an inductive bias. We demonstrate that our method achieves state-of-the-art regret results against various baselines in experiments on standard hyperparameter optimisation tasks and also outperforms others in the real-world problems of mixed-integer programming tuning, antibody design, and logic synthesis for electronic design automation.
翻訳日:2023-05-26 15:49:32 公開日:2023-05-25
# ChatGPTにおける音韻的バイアスの発生

Emergence of a phonological bias in ChatGPT ( http://arxiv.org/abs/2305.15929v1 )

ライセンス: Link先を確認
Juan Manuel Toro(参考訳) OpenAIのChatGPTのような現在の大きな言語モデルは、言語の使用においていかに顕著であるかから、一般大衆の注目を集めている。 ここでは,chatgptが人間の言語処理の要点である音韻バイアスを示すことを示す。 より具体的には、ChatGPTは人間と同じように子音バイアスを持っている。 つまり、このチャットボットは母音上の子音を使って単語を識別する傾向にある。 これは、英語やスペイン語のような子音と母音の相対分布が異なる言語間で観察される。 現在の人工知能言語モデルにおける言語刺激の処理方法と幼児の言語習得方法の違いにもかかわらず、このような訓練はChatGPTにおける音韻的バイアスの出現に十分であると思われる。

Current large language models, such as OpenAI's ChatGPT, have captured the public's attention because how remarkable they are in the use of language. Here, I demonstrate that ChatGPT displays phonological biases that are a hallmark of human language processing. More concretely, just like humans, ChatGPT has a consonant bias. That is, the chatbot has a tendency to use consonants over vowels to identify words. This is observed across languages that differ in their relative distribution of consonants and vowels such as English and Spanish. Despite the differences in how current artificial intelligence language models are trained to process linguistic stimuli and how human infants acquire language, such training seems to be enough for the emergence of a phonological bias in ChatGPT
翻訳日:2023-05-26 15:49:05 公開日:2023-05-25
# 最適輸送を用いた直接グラフモデル学習

Learning Directed Graphical Models with Optimal Transport ( http://arxiv.org/abs/2305.15927v1 )

ライセンス: Link先を確認
Vy Vo, Trung Le, Long-Tung Vuong, He Zhao, Edwin Bonilla, Dinh Phung(参考訳) 不完全なデータから確率的有向グラフィカルモデルのパラメータを推定することは長年の課題である。 これは、潜在変数の存在下では、構造依存やモデルクラスについてのさらなる仮定なしに、可能性関数と後方分布の両方が難解であるからである。 既設の学習手法は, 帰結の最大化を基本としているが, 最適移動のレンズを通してパラメータ学習問題の新たな視点を提供する。 この観点は、潜在変数の後方で非現実的な仮定をしたり、ブラックボックスの変分近似に頼ったりすることなく、多くの有向グラフ上で動くフレームワークをライセンスする。 我々は理論的な枠組みを開発し、我々のアプローチの柔軟性と汎用性を示す広範な実証的な証拠でそれを支援する。 実験を通して,本手法は基底パラメータを回復できるだけでなく,下流アプリケーション,特に離散表現学習の非自明なタスクにおいて競合的に動作することを示した。

Estimating the parameters of a probabilistic directed graphical model from incomplete data remains a long-standing challenge. This is because, in the presence of latent variables, both the likelihood function and posterior distribution are intractable without further assumptions about structural dependencies or model classes. While existing learning methods are fundamentally based on likelihood maximization, here we offer a new view of the parameter learning problem through the lens of optimal transport. This perspective licenses a framework that operates on many directed graphs without making unrealistic assumptions on the posterior over the latent variables or resorting to black-box variational approximations. We develop a theoretical framework and support it with extensive empirical evidence demonstrating the flexibility and versatility of our approach. Across experiments, we show that not only can our method recover the ground-truth parameters but it also performs competitively on downstream applications, notably the non-trivial task of discrete representation learning.
翻訳日:2023-05-26 15:48:52 公開日:2023-05-25
# マルコフスイッチングモデルの識別性について

On the Identifiability of Markov Switching Models ( http://arxiv.org/abs/2305.15925v1 )

ライセンス: Link先を確認
Carles Balsells-Rodas, Yixin Wang and Yingzhen Li(参考訳) 潜在変数モデルの識別可能性は最近、その解釈可能性や分布の一般化への応用において関心を集めている。 本研究では,マルコフスイッチングモデルの同定可能性について,最近の結果を逐次潜在変数モデルに拡張するための第一歩として検討する。 我々は,一階マルコフ依存構造内の同定可能性条件を示し,非線形ガウス的遷移分布をパラメトリゼーションする。 実験では,システム依存因果発見と高次元時系列セグメンテーションへのアプローチの適用性を示す。

Identifiability of latent variable models has recently gained interest in terms of its applications to interpretability or out of distribution generalisation. In this work, we study identifiability of Markov Switching Models as a first step towards extending recent results to sequential latent variable models. We present identifiability conditions within first-order Markov dependency structures, and parametrise the transition distribution via non-linear Gaussians. Our experiments showcase the applicability of our approach for regime-dependent causal discovery and high-dimensional time series segmentation.
翻訳日:2023-05-26 15:48:38 公開日:2023-05-25
# 潜伏状態のサンプルと予測: コントラスト推定によるモダリティフリーシーケンスアンタングルメント

Sample and Predict Your Latent: Modality-free Sequential Disentanglement via Contrastive Estimation ( http://arxiv.org/abs/2305.15924v1 )

ライセンス: Link先を確認
Ilan Naiman, Nimrod Berman, Omri Azencot(参考訳) unsupervised disentanglementは、表現学習における長年の課題である。 近年,データに依存したシーケンシャル設定において,自己教師あり手法が印象的な結果を得た。 しかし、後者の方法はモダリティに基づくデータ拡張とランダムサンプリングや補助タスクの解法を用いる。 本研究では,基礎となる変動モデルから経験的分布を生成し,サンプリングし,比較することにより,それを回避することを提案する。 既存の作業と異なり,外部信号のないコントラスト推定に基づく自己教師付き逐次的非絡み合いフレームワークを導入し,バッチサイズや潜時空間自体からのサンプルを用いた。 実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。 我々は,映像,音声,時系列ベンチマークのアプローチを評価した。 本手法は既存の手法と比較し,最新の結果を示す。 コードはhttps://github.com/azencot-group/spylで入手できる。

Unsupervised disentanglement is a long-standing challenge in representation learning. Recently, self-supervised techniques achieved impressive results in the sequential setting, where data is time-dependent. However, the latter methods employ modality-based data augmentations and random sampling or solve auxiliary tasks. In this work, we propose to avoid that by generating, sampling, and comparing empirical distributions from the underlying variational model. Unlike existing work, we introduce a self-supervised sequential disentanglement framework based on contrastive estimation with no external signals, while using common batch sizes and samples from the latent space itself. In practice, we propose a unified, efficient, and easy-to-code sampling strategy for semantically similar and dissimilar views of the data. We evaluate our approach on video, audio, and time series benchmarks. Our method presents state-of-the-art results in comparison to existing techniques. The code is available at https://github.com/azencot-group/SPYL.
翻訳日:2023-05-26 15:48:29 公開日:2023-05-25
# 組織におけるAIの理解と導入のための能力評価モデルに向けて

Towards a Capability Assessment Model for the Comprehension and Adoption of AI in Organisations ( http://arxiv.org/abs/2305.15922v1 )

ライセンス: Link先を確認
Butler, Tom, Espinoza-Lim\'on, Angelina, and Sepp\"al\"a, Selja(参考訳) 人工知能(AI)の理解と採用は、実践的かつ倫理的な問題に満ちている。 本稿では,5段階のAI能力評価モデル(AI-CAM)と関連するAI能力マトリックス(AI-CM)を紹介する。 これらの実践ツールは、ビジネスエグゼクティブ、技術者、その他の組織関係者を念頭に置いて開発された。 それらは、他のAI採用モデルと比較して、AIの包括的な概念に基づいており、オープンソースのアーティファクトでもある。 このように、AI-CAMとAI-CMは、(1)機械学習技術に基づくAIベースのデータ分析ユースケース、(2)セマンティック技術を用いてデータ、情報、知識を設計、表現するための知識表現、(3)人間の推論と意思決定をエミュレートしようとするAIベースのソリューションの能力要件について、組織的な意思決定者に伝えるのに役立つリソースを提供する。 AI-CAMは、組織におけるAIの最適な利用を達成するために、5つの能力成熟度レベルに必要な中核的な能力(ビジネス、データ、技術、組織、AIスキル、リスク、倫理的考慮)をカバーする。

The comprehension and adoption of Artificial Intelligence (AI) are beset with practical and ethical problems. This article presents a 5-level AI Capability Assessment Model (AI-CAM) and a related AI Capabilities Matrix (AI-CM) to assist practitioners in AI comprehension and adoption. These practical tools were developed with business executives, technologists, and other organisational stakeholders in mind. They are founded on a comprehensive conception of AI compared to those in other AI adoption models and are also open-source artefacts. Thus, the AI-CAM and AI-CM present an accessible resource to help inform organisational decision-makers on the capability requirements for (1) AI-based data analytics use cases based on machine learning technologies; (2) Knowledge representation to engineer and represent data, information and knowledge using semantic technologies; and (3) AI-based solutions that seek to emulate human reasoning and decision-making. The AI-CAM covers the core capability dimensions (business, data, technology, organisation, AI skills, risks, and ethical considerations) required at the five capability maturity levels to achieve optimal use of AI in organisations.
翻訳日:2023-05-26 15:48:14 公開日:2023-05-25
# 仮定に基づく議論フレームワークの学習

Learning Assumption-based Argumentation Frameworks ( http://arxiv.org/abs/2305.15921v1 )

ライセンス: Link先を確認
Maurizio Proietti and Francesca Toni(参考訳) 本稿では,仮説に基づく議論(ABA)フレームワークを,与えられた背景知識を用いて,肯定的および否定的な例から生成する,論理に基づく新しい学習手法を提案する。 これらのABAフレームワークは、非階層化されるかもしれない失敗を否定するロジックプログラムにマッピングできる。 従来の議論に基づく手法では,例外を反逆攻撃と解釈することで一般規則の例外を学習するが,本手法ではそれらをアンダーカット攻撃と解釈する。 私たちの学習手法は,論理プログラム変換規則(特に折り畳み型)から適応したものを含む変換規則や,ロート学習や仮定導入といった他の規則にもとづいています。 我々は,階層化フレームワークを学習するために,変換ルールを適切な順序で適用する一般的な戦略を提案し,非階層化ケースを扱う変種を提案する。 このアプローチの利点をいくつかの例で説明し、その一方で、他のロジックベースの学習アプローチを簡単に再構築することができ、一方、既存のテクニックでは難しいと思われる非常に単純で自然な方法で解決できることを示す。

We propose a novel approach to logic-based learning which generates assumption-based argumentation (ABA) frameworks from positive and negative examples, using a given background knowledge. These ABA frameworks can be mapped onto logic programs with negation as failure that may be non-stratified. Whereas existing argumentation-based methods learn exceptions to general rules by interpreting the exceptions as rebuttal attacks, our approach interprets them as undercutting attacks. Our learning technique is based on the use of transformation rules, including some adapted from logic program transformation rules (notably folding) as well as others, such as rote learning and assumption introduction. We present a general strategy that applies the transformation rules in a suitable order to learn stratified frameworks, and we also propose a variant that handles the non-stratified case. We illustrate the benefits of our approach with a number of examples, which show that, on one hand, we are able to easily reconstruct other logic-based learning approaches and, on the other hand, we can work out in a very simple and natural way problems that seem to be hard for existing techniques.
翻訳日:2023-05-26 15:47:51 公開日:2023-05-25
# 多モデル生成逆数ネットワークに基づく確率力学の学習と高精度生成

Learning and accurate generation of stochastic dynamics based on multi-model Generative Adversarial Networks ( http://arxiv.org/abs/2305.15920v1 )

ライセンス: Link先を確認
Daniele Lanzoni, Olivier Pierre-Louis, Francesco Montalenti(参考訳) Generative Adversarial Networks (GANs) は、テキストや画像生成など、物理学から遠く離れた分野において大きな可能性を示している。 ここでは GAN を用いて格子上の原型確率過程を学習する。 元のデータに適切にノイズを加えることで、ジェネレータと判別器の損失関数の両方を理想値に近づけることに成功した。 しかし、敵対的アプローチの典型的なように、振動は持続する。 これにより、モデルの選択と生成する軌道の品質が損なわれる。 本研究では, ランダムにジェネレータを選択すると, 確率軌道が各ステップで進行し, 精度が著しく向上することが実証された。 報告された結果に基づき、GANは複雑な統計力学に取り組むための有望なツールとして現れる。

Generative Adversarial Networks (GANs) have shown immense potential in fields far from physics, such as in text and image generation. Here we use GANs to learn a prototypical stochastic process on a lattice. By suitably adding noise to the original data we succeed in bringing both the Generator and the Discriminator loss functions close to their ideal value. However, as typical for adversarial approaches, oscillations persist. This undermines model selection and the quality of the generated trajectory. We demonstrate that a suitable multi-model procedure where stochastic trajectories are advanced at each step upon randomly selecting a Generator leads to a remarkable increase in accuracy. Based on the reported findings GANs appears as a promising tool to tackle complex statistical dynamics.
翻訳日:2023-05-26 15:47:27 公開日:2023-05-25
# 連続変数量子鍵分布の安全性に及ぼす実験的障害の影響

Effects of experimental impairments on the security of continuous-variable quantum key distribution ( http://arxiv.org/abs/2305.15918v1 )

ライセンス: Link先を確認
Andres Ruiz-Chamorro, Daniel Cano, Aida Garcia-Callejo, Veronica Fernandez(参考訳) 量子鍵分布(quantum key distribution, qkd)は、双方間のセキュアな通信を可能にする最先端の通信方法である。 連続変数QKD(CV-QKD)は、従来の離散変数システムに対していくつかの利点があるQKDに対する有望なアプローチである。 その可能性にもかかわらず、CV-QKDシステムは光学および電子部品の障害に非常に敏感であり、秘密鍵レートを著しく減少させる。 本研究では,個別障害が秘密鍵レートに与える影響をシミュレートするために,CV-QKDシステムをモデル化することで,この問題に対処する。 その結果,ビームスプリッタや平衡検出器などの電気光学デバイスにおけるレーザー周波数のドリフトと小さな欠陥が秘密鍵レートに負の影響を及ぼすことがわかった。 これはCV-QKDシステムの性能を最適化し、コンポーネント障害による制限を克服するための戦略に関する貴重な洞察を提供する。 これらの分析方法を提供することで、cv-qkdシステムにおける品質基準の確立が可能となり、将来、セキュアな通信のための高度な技術開発が進められる。

Quantum Key Distribution (QKD) is a cutting-edge communication method that enables secure communication between two parties. Continuous-variable QKD (CV-QKD) is a promising approach to QKD that has several advantages over traditional discrete-variable systems. Despite its potential, CV-QKD systems are highly sensitive to optical and electronic component impairments, which can significantly reduce the secret key rate. In this research, we address this challenge by modeling a CV-QKD system to simulate the impact of individual impairments on the secret key rate. The results show that laser frequency drifts and small imperfections in electro-optical devices such as the beam splitter and the balanced detector have a negative impact on the secret key rate. This provides valuable insights into strategies for optimizing the performance of CV-QKD systems and overcome limitations caused by component impairments. By offering a method to analyze them, the study enables the establishment of quality standards for the components of CV-QKD systems, driving the development of advanced technologies for secure communication in the future.
翻訳日:2023-05-26 15:47:08 公開日:2023-05-25
# 部分順序付き時間の一貫性チェックのための高速アルゴリズム

A Fast Algorithm for Consistency Checking Partially Ordered Time ( http://arxiv.org/abs/2305.15917v1 )

ライセンス: Link先を確認
Leif Eriksson and Victor Lagerkvist(参考訳) 部分的に順序付けられた時間のモデルは、エージェントやプロセスが互いに完全に通信できないアプリケーションで自然に起こり、ランポートの独創的な仕事まで遡ることができる。 本稿では,イベントのシステムを記述する(おそらく不完全)記述が一貫性があるかどうかを決定する問題,半順序時間(pot)の点代数におけるネットワーク一貫性問題を考える。 この問題の古典的な複雑性は完全に解決されているが、順序分割を列挙することで、$O^*((0.368n)^n)$時間で解けること以外は、POTの微細な複雑さについてほとんど知られていない。 ランタイムを$O^*((0.26n)^n)$でバウンドしたより高速なアルゴリズムを構築する。 これは全順序に類似した構造を高度に列挙することで達成され、解に対して優しく拡張される。 類似したアイデアは、関連する問題に対して以前にも検討されているが、POTの分析は非自明であり、重要な新しいアイデアを必要とすることが判明した。

Partially ordered models of time occur naturally in applications where agents or processes cannot perfectly communicate with each other, and can be traced back to the seminal work of Lamport. In this paper we consider the problem of deciding if a (likely incomplete) description of a system of events is consistent, the network consistency problem for the point algebra of partially ordered time (POT). While the classical complexity of this problem has been fully settled, comparably little is known of the fine-grained complexity of POT except that it can be solved in $O^*((0.368n)^n)$ time by enumerating ordered partitions. We construct a much faster algorithm with a run-time bounded by $O^*((0.26n)^n)$. This is achieved by a sophisticated enumeration of structures similar to total orders, which are then greedily expanded toward a solution. While similar ideas have been explored earlier for related problems it turns out that the analysis for POT is non-trivial and requires significant new ideas.
翻訳日:2023-05-26 15:46:26 公開日:2023-05-25
# 長距離依存のオンライン学習

Online learning of long range dependencies ( http://arxiv.org/abs/2305.15947v1 )

ライセンス: Link先を確認
Nicolas Zucchet, Robert Meier, Simon Schug, Asier Mujika, Jo\~ao Sacramento(参考訳) オンライン学習は、リカレントニューラルネットワークにおける効率的な長期クレジット割り当てを可能にするという約束を持っている。 しかしながら、現在のアルゴリズムは、スケーラブルでないか、長距離依存関係を学習できないかによって、オフラインのバックプロパゲーションに欠けています。 本稿では、1つの推論パスのメモリと計算要求を2倍にするだけでよい高性能オンライン学習アルゴリズムを提案する。 我々は、最近、特に強力なアーキテクチャモチーフであるマルチレイヤネットワークにおいて、独立したリカレントモジュールを活用することで、これを実現する。 合成メモリ問題の実験と、挑戦的な長距離アリーナベンチマークスイートでは、我々のアルゴリズムが競争力を発揮し、オンライン学習によって達成できる新しい標準を確立する。 この長距離依存を学習する能力は、脳内の学習に対する新たな視点を与え、ニューロモルフィックコンピューティングにおける有望な道を開く。

Online learning holds the promise of enabling efficient long-term credit assignment in recurrent neural networks. However, current algorithms fall short of offline backpropagation by either not being scalable or failing to learn long-range dependencies. Here we present a high-performance online learning algorithm that merely doubles the memory and computational requirements of a single inference pass. We achieve this by leveraging independent recurrent modules in multi-layer networks, an architectural motif that has recently been shown to be particularly powerful. Experiments on synthetic memory problems and on the challenging long-range arena benchmark suite reveal that our algorithm performs competitively, establishing a new standard for what can be achieved through online learning. This ability to learn long-range dependencies offers a new perspective on learning in the brain and opens a promising avenue in neuromorphic computing.
翻訳日:2023-05-26 15:38:10 公開日:2023-05-25
# ランダムニューラルネットワークにおける神経多様性の進化を通した学習

Learning to Act through Evolution of Neural Diversity in Random Neural Networks ( http://arxiv.org/abs/2305.15945v1 )

ライセンス: Link先を確認
Joachim Winther Pedersen and Sebastian Risi(参考訳) 生物学的神経系は、異なる階層のニューロンの形で、多様で洗練された情報処理装置のネットワークからなる。 ほとんどの人工知能ニューラルネットワーク(ANN)では、ニューラルネットワークは、通常、レイヤ内のすべてのニューロンまたはネットワーク全体の間で共有されるアクティベーション関数に抽象化される。 本稿では,複雑な計算が可能な多様なニューロン群を実現するために,神経中心パラメータの最適化を提案する。 このアプローチの可能性を実証し、進化する神経パラメータだけで、エージェントはシナプス重みを最適化することなく、様々な強化学習タスクを解くことができることを示す。 正確な生物学的モデルを目指してはいないが、ニューロンを現在の一般的な手法よりも大きくパラメータ化することで、ランダムニューラルネットワークにおける神経多様性によって得られる計算能力について質問することができる。 提案した結果は、進化した神経多様性と活動に依存した可塑性を組み合わせるなど、将来の興味深い研究方向を開く。

Biological nervous systems consist of networks of diverse, sophisticated information processors in the form of neurons of different classes. In most artificial neural networks (ANNs), neural computation is abstracted to an activation function that is usually shared between all neurons within a layer or even the whole network; training of ANNs focuses on synaptic optimization. In this paper, we propose the optimization of neuro-centric parameters to attain a set of diverse neurons that can perform complex computations. Demonstrating the promise of the approach, we show that evolving neural parameters alone allows agents to solve various reinforcement learning tasks without optimizing any synaptic weights. While not aiming to be an accurate biological model, parameterizing neurons to a larger degree than the current common practice, allows us to ask questions about the computational abilities afforded by neural diversity in random neural networks. The presented results open up interesting future research directions, such as combining evolved neural diversity with activity-dependent plasticity.
翻訳日:2023-05-26 15:37:56 公開日:2023-05-25
# 知識グラフの埋め込みを確率回路で生成モデルに変換する方法

How to Turn Your Knowledge Graph Embeddings into Generative Models via Probabilistic Circuits ( http://arxiv.org/abs/2305.15944v1 )

ライセンス: Link先を確認
Lorenzo Loconte, Nicola Di Mauro, Robert Peharz, Antonio Vergari(参考訳) リンク予測のための最も成功した知識グラフ埋め込み(KGE)モデル(CP、RESCAL、TuckER、ComplEx)は、エネルギーベースのモデルとして解釈できる。 この観点からは、mle(maximum-likelihood estimation)やサンプリング、論理的な制約の統合に苦慮している。 この研究は、これらのKGEのスコア関数を回路として再解釈する。 次に,その活性化を非負に制限するか,出力を絞り込むかして,効率的な生成回路モデルを得るための2つのレシピを設計する。 我々の解釈では、リンク予測の性能がほとんどあるいは全く失われていないのに対し、回路フレームワークは、MLEによる正確な学習を解放し、新しいトリプルの効率的なサンプリングを行い、論理的制約が設計によって満たされることを保証する。 さらに、私たちのモデルは、数百万のエンティティを持つグラフ上の元のKGEよりも優雅にスケールします。

Some of the most successful knowledge graph embedding (KGE) models for link prediction -- CP, RESCAL, TuckER, ComplEx -- can be interpreted as energy-based models. Under this perspective they are not amenable for exact maximum-likelihood estimation (MLE), sampling and struggle to integrate logical constraints. This work re-interprets the score functions of these KGEs as circuits -- constrained computational graphs allowing efficient marginalisation. Then, we design two recipes to obtain efficient generative circuit models by either restricting their activations to be non-negative or squaring their outputs. Our interpretation comes with little or no loss of performance for link prediction, while the circuits framework unlocks exact learning by MLE, efficient sampling of new triples, and guarantee that logical constraints are satisfied by design. Furthermore, our models scale more gracefully than the original KGEs on graphs with millions of entities.
翻訳日:2023-05-26 15:37:40 公開日:2023-05-25
# 自律運転における軌跡からの歩行者予測モデルと外観データの比較

Comparison of Pedestrian Prediction Models from Trajectory and Appearance Data for Autonomous Driving ( http://arxiv.org/abs/2305.15942v1 )

ライセンス: Link先を確認
Anthony Knittel, Morris Antonello, John Redford and Subramanian Ramamoorthy(参考訳) 歩行者の動きの変化を予測する能力は、自動運転車にとって重要な能力である。 都市環境では、歩行者が道路エリアに入り、運転のリスクが高く、これらのケースを特定することが重要である。 典型的な予測者は、将来の動きを予測するために軌跡履歴を使用するが、運動開始時には、軌跡内の運動は遅延後にのみはっきりと見えるため、正確な予測を行う前に歩行者が道路エリアに入ることがある。 出現データは、初期の動きの変化の指標である歩行の変化などの有用な情報を含み、軌道予測を知らせる。 本研究は,歩行者予測のための軌跡のみと外観に基づく手法の比較評価を行い,外観予測のための新しいデータセット実験を提案する。 人気のあるnuscenesデータセットから画像と軌跡のシーケンスの組み合わせに基づいて2つの軌跡と画像データセットを作成し、観測された外観を用いて軌跡の予測を行い、未来に影響を与える。 これは軌跡予測のみよりもいくつかの利点を示しているが、データセットの問題により外観に基づくモデルの利点が示されない。 本稿では,データセット改善のための手法と,外観に基づくモデルの利点を捉えるための実験について述べる。

The ability to anticipate pedestrian motion changes is a critical capability for autonomous vehicles. In urban environments, pedestrians may enter the road area and create a high risk for driving, and it is important to identify these cases. Typical predictors use the trajectory history to predict future motion, however in cases of motion initiation, motion in the trajectory may only be clearly visible after a delay, which can result in the pedestrian has entered the road area before an accurate prediction can be made. Appearance data includes useful information such as changes of gait, which are early indicators of motion changes, and can inform trajectory prediction. This work presents a comparative evaluation of trajectory-only and appearance-based methods for pedestrian prediction, and introduces a new dataset experiment for prediction using appearance. We create two trajectory and image datasets based on the combination of image and trajectory sequences from the popular NuScenes dataset, and examine prediction of trajectories using observed appearance to influence futures. This shows some advantages over trajectory prediction alone, although problems with the dataset prevent advantages of appearance-based models from being shown. We describe methods for improving the dataset and experiment to allow benefits of appearance-based models to be captured.
翻訳日:2023-05-26 15:37:24 公開日:2023-05-25
# 血管柄付きモーションロバストrPPG信号を用いたマスク検出

Mask Attack Detection Using Vascular-weighted Motion-robust rPPG Signals ( http://arxiv.org/abs/2305.15940v1 )

ライセンス: Link先を確認
Chenglin Yao, Jianfeng Ren, Ruibin Bai, Heshan Du, Jiang Liu, Xudong Jiang(参考訳) 顔認識システムへの3Dマスク攻撃の検出は困難である。 実際の顔と3Dフェイスマスクは、リモート光胸腺造影(rPPG)信号とは大きく異なるが、rPPGベースの顔反偽造法は、ビデオシーケンスの不安定な顔アライメントとrPPG信号の弱さにより、しばしば性能劣化を生じている。 モーションロバストな方法でrPPG信号を強化するために,SIFTキーポイントと顔ランドマークの両方を用いて,顔の鮮明かつ正確に画素レベルで整列するランドマークアンコール顔縫合法を提案する。 rPPGシグナルをよりよく符号化するために、豊かな血管を持つ顔領域を強調する重み付き時空間表現を提案する。 また、異なる色空間におけるrPPG信号の特性を共同利用した。 一般化能力を向上させるために, Gated Recurrent Unit (GRU) を用いた軽量のEfficientNet を用いて, rPPG の時空間表現から空間的特徴と時間的特徴の両方を抽出する。 提案手法は,5つのベンチマークデータセットの最先端手法と比較し,データ内およびクロスデータセットの評価を行った。 提案手法は, 顔スプーフィング検出のための最先端rppg法に比べて, 有意かつ一貫した性能改善を示す。

Detecting 3D mask attacks to a face recognition system is challenging. Although genuine faces and 3D face masks show significantly different remote photoplethysmography (rPPG) signals, rPPG-based face anti-spoofing methods often suffer from performance degradation due to unstable face alignment in the video sequence and weak rPPG signals. To enhance the rPPG signal in a motion-robust way, a landmark-anchored face stitching method is proposed to align the faces robustly and precisely at the pixel-wise level by using both SIFT keypoints and facial landmarks. To better encode the rPPG signal, a weighted spatial-temporal representation is proposed, which emphasizes the face regions with rich blood vessels. In addition, characteristics of rPPG signals in different color spaces are jointly utilized. To improve the generalization capability, a lightweight EfficientNet with a Gated Recurrent Unit (GRU) is designed to extract both spatial and temporal features from the rPPG spatial-temporal representation for classification. The proposed method is compared with the state-of-the-art methods on five benchmark datasets under both intra-dataset and cross-dataset evaluations. The proposed method shows a significant and consistent improvement in performance over other state-of-the-art rPPG-based methods for face spoofing detection.
翻訳日:2023-05-26 15:37:03 公開日:2023-05-25
# マルコフ雑音を伴う一階法:加速度から変分不等式へ

First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities ( http://arxiv.org/abs/2305.15938v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Sergey Samsonov, Marina Sheshukova, Alexander Gasnikov, Alexey Naumov, Eric Moulines(参考訳) 本稿ではマルコフ雑音を含む確率的最適化問題について述べる。 確率的最適化と変分不等式に対する一階勾配法の理論解析のための統一的なアプローチを提案する。 提案手法は,非凸および強凸の最小化問題のシナリオをカバーする。 基礎となる雑音列の混合時間に対する最適(線形)依存性を達成するために,マルチレベルモンテカルロ法に基づくランダム化バッチ方式を用いる。 さらに,この手法により,有界領域や一様有界確率勾配といったマルコフ雑音に関するこれまでの研究の限界仮定を排除できる。 マルコフ雑音下での変分不等式への拡張はオリジナルである。 さらに,厳密な凸最適化問題の場合,本手法のオラクル複雑性に適合する低境界を提供する。

This paper delves into stochastic optimization problems that involve Markovian noise. We present a unified approach for the theoretical analysis of first-order gradient methods for stochastic optimization and variational inequalities. Our approach covers scenarios for both non-convex and strongly convex minimization problems. To achieve an optimal (linear) dependence on the mixing time of the underlying noise sequence, we use the randomized batching scheme, which is based on the multilevel Monte Carlo method. Moreover, our technique allows us to eliminate the limiting assumptions of previous research on Markov noise, such as the need for a bounded domain and uniformly bounded stochastic gradients. Our extension to variational inequalities under Markovian noise is original. Additionally, we provide lower bounds that match the oracle complexity of our method in the case of strongly convex optimization problems.
翻訳日:2023-05-26 15:36:37 公開日:2023-05-25
# 少ないショットで、視覚的に接地した少数単語獲得

Visually grounded few-shot word acquisition with fewer shots ( http://arxiv.org/abs/2305.15937v1 )

ライセンス: Link先を確認
Leanne Nortje, Benjamin van Niekerk, Herman Kamper(参考訳) 本稿では,新しい単語とその視覚表現を,わずか数個の単語と画像のサンプルペアから獲得する視覚基底音声モデルを提案する。 テスト画像と音声クエリのセットが与えられた場合、どの画像がクエリワードを表現しているかをモデルに尋ねる。 以前の研究では、digit word-imageペアの人工的な設定を使用するか、クラス毎に多数の例を使用することで、この問題を単純化している。 自然な単語イメージ対に作用するが、より少ない例、すなわち少ないショットで機能するアプローチを提案する。 提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。 さらに,単語画像の類似性を決定するために,単語間注意機構を用いる。 この新しいモデルでは、既存のどのアプローチよりも少ないショットでより良いパフォーマンスを実現します。

We propose a visually grounded speech model that acquires new words and their visual depictions from just a few word-image example pairs. Given a set of test images and a spoken query, we ask the model which image depicts the query word. Previous work has simplified this problem by either using an artificial setting with digit word-image pairs or by using a large number of examples per class. We propose an approach that can work on natural word-image pairs but with less examples, i.e. fewer shots. Our approach involves using the given word-image example pairs to mine new unsupervised word-image training pairs from large collections of unlabelled speech and images. Additionally, we use a word-to-image attention mechanism to determine word-image similarity. With this new model, we achieve better performance with fewer shots than any existing approach.
翻訳日:2023-05-26 15:36:25 公開日:2023-05-25
# 根本原因の少ないデータからDAGを学習する

Learning DAGs from Data with Few Root Causes ( http://arxiv.org/abs/2305.15936v1 )

ライセンス: Link先を確認
Panagiotis Misiakos, Chris Wendler, Markus P\"uschel(参考訳) 線形構造方程式モデル(sem)によって生成されたデータから有向非巡回グラフ(dag)を学習するための新しい視点とアルゴリズムを提案する。 まず, 線形SEMを線形変換とみなすことができ, 先行研究では, ノードに関連付けられたランダム値の根起因(いわゆる)の高密度入力ベクトルからデータを計算する。 代わりに、(およそ)根本原因がほとんどない場合を考え、また、データの計測にノイズを導入する。 直感的には、DAGデータは、DAGを通して効果が浸透する少数のデータ生成イベントによって生成されることを意味する。 この新たな設定において同定可能性を証明するとともに、真のDAGが根因のベクトルの$L^0$-normの大域的最小化であることを示す。 根本原因の少ないデータに対して,ノイズの有無に関わらず,従来のdag学習法よりも優れた性能を示す。

We present a novel perspective and algorithm for learning directed acyclic graphs (DAGs) from data generated by a linear structural equation model (SEM). First, we show that a linear SEM can be viewed as a linear transform that, in prior work, computes the data from a dense input vector of random valued root causes (as we will call them) associated with the nodes. Instead, we consider the case of (approximately) few root causes and also introduce noise in the measurement of the data. Intuitively, this means that the DAG data is produced by few data-generating events whose effect percolates through the DAG. We prove identifiability in this new setting and show that the true DAG is the global minimizer of the $L^0$-norm of the vector of root causes. For data with few root causes, with and without noise, we show superior performance compared to prior DAG learning methods.
翻訳日:2023-05-26 15:36:11 公開日:2023-05-25
# 回転インデックスマシンの診断アルゴリズム

A Diagnosis Algorithms for a Rotary Indexing Machine ( http://arxiv.org/abs/2305.15934v1 )

ライセンス: Link先を確認
Maria Krantz and Oliver Niggemann(参考訳) ロータリーインデックスマシン(rim)は、手動で再配置することなく1つの製品で複数の生産工程をこなすことができ、生産時間を短縮し、精度と一貫性を向上させるため、製造において広く使われている。 その利点にもかかわらず、特にこれらの機械で実施される実際の生産工程の観点から、リムの故障の診断に関する研究はほとんど行われていない。 失敗による長時間のダウンタイムは問題であり、特にこれらのマシンを使用する小規模企業では問題となる。 このギャップに対処するために,rimで処理される製品に着目した製品視点に基づく診断アルゴリズムを提案する。 このアルゴリズムは、製品がマシンを経由するステップを追跡し、故障時に起こりうる原因を診断することができる。 また, RIMの特性と, これらのマシンの故障診断にどのように影響するかを解析した。 私たちの貢献は3倍です。 まず、RIMの特性と、それらがこれらの機械の故障の診断に与える影響について分析する。 第2に,そのような機械の故障を診断できる製品視点に基づく診断アルゴリズムを提案する。 最後に,このアルゴリズムを回転インデックスマシンのモデル上でテストし,故障とその根本原因の同定に有効であることを示す。

Rotary Indexing Machines (RIMs) are widely used in manufacturing due to their ability to perform multiple production steps on a single product without manual repositioning, reducing production time and improving accuracy and consistency. Despite their advantages, little research has been done on diagnosing faults in RIMs, especially from the perspective of the actual production steps carried out on these machines. Long downtimes due to failures are problematic, especially for smaller companies employing these machines. To address this gap, we propose a diagnosis algorithm based on the product perspective, which focuses on the product being processed by RIMs. The algorithm traces the steps that a product takes through the machine and is able to diagnose possible causes in case of failure. We also analyze the properties of RIMs and how these influence the diagnosis of faults in these machines. Our contributions are three-fold. Firstly, we provide an analysis of the properties of RIMs and how they influence the diagnosis of faults in these machines. Secondly, we suggest a diagnosis algorithm based on the product perspective capable of diagnosing faults in such a machine. Finally, we test this algorithm on a model of a rotary indexing machine, demonstrating its effectiveness in identifying faults and their root causes.
翻訳日:2023-05-26 15:35:54 公開日:2023-05-25
# BUCA:unsupervised Commonsense Question Answeringへのバイナリ分類アプローチ

BUCA: A Binary Classification Approach to Unsupervised Commonsense Question Answering ( http://arxiv.org/abs/2305.15932v1 )

ライセンス: Link先を確認
Jie He and Simon Chi Lok U and V\'ictor Guti\'errez-Basulto and Jeff Z. Pan(参考訳) unsupervised commonsense reasoning (ucr) は、commonsense reasoningデータセットの構築が高価で、必然的に範囲が限られているため、ますます人気が高まっている。 UCRの一般的なアプローチは、外部知識(例えば知識グラフ)を持つ言語モデルを微調整することであるが、これは通常、多くのトレーニング例を必要とする。 本稿では,下流の複数質問応答タスクを,その合理的性に応じてすべての候補回答をランク付けすることで,より単純な二分分類タスクに変換することを提案する。 この目的のために、モデルをトレーニングするために、知識グラフトリプルを合理的で不合理なテキストに変換する。 総合的な実験結果から,様々な選択質問応答ベンチマークに対するアプローチの有効性が示された。 さらに、既存のKGを使ったUCRアプローチと比較して、データ空腹は少ない。 私たちのコードはhttps://github.com/probe2/bucaで利用可能です。

Unsupervised commonsense reasoning (UCR) is becoming increasingly popular as the construction of commonsense reasoning datasets is expensive, and they are inevitably limited in their scope. A popular approach to UCR is to fine-tune language models with external knowledge (e.g., knowledge graphs), but this usually requires a large number of training examples. In this paper, we propose to transform the downstream multiple choice question answering task into a simpler binary classification task by ranking all candidate answers according to their reasonableness. To this end, for training the model, we convert the knowledge graph triples into reasonable and unreasonable texts. Extensive experimental results show the effectiveness of our approach on various multiple choice question answering benchmarks. Furthermore, compared with existing UCR approaches using KGs, ours is less data hungry. Our code is available at https://github.com/probe2/BUCA.
翻訳日:2023-05-26 15:35:35 公開日:2023-05-25
# 量子離散マップに基づくリカレントニューラルネットワーク

Quantum-Discrete-Map-Based Recurrent Neural Networks ( http://arxiv.org/abs/2305.15976v1 )

ライセンス: Link先を確認
Tai-Ping Sun, Zhao-Yun Chen, Cheng Xue, Shi-Xin Ma, Huan-Yu Liu, Yu-Chun Wu, Guo-Ping Guo(参考訳) 量子機械学習は急速に成長する領域であり、そのポテンシャルは既存の研究における時系列予測と動的シミュレーションのために研究されている。 本研究では,回路の深さが時間軸長とともに大きくなることによる限界を克服するために,量子ディスクレートマップを用いたリカレントニューラルネットワーク(qdm-rnn)を提案する。 離散力学の観点からは、量子回路は離散写像と離散力学系を構築するために利用される。 このアプローチでは、次のステップのエンコーディング層で再利用される履歴情報(メモリ)を取得するために部分量子ビットを測定し、古典情報を出力として取得するために他の量子ビットを測定する。 量子離散写像の非線形特性は、高次元に低次元のダイナミクスを埋め込むことに魅力を与え、これは繰り返し学習のトリックと一致する。 数値シミュレーションにおいて、qdm-rnnは波動の1つの特徴データセットとダイナミクスの2つの特徴データセットで実装され、その能力を示す。 本研究では,量子機械学習の新しいパラダイムを導入し,非線形力学における量子コンピューティングの可能性を強調した。

Quantum machine learning is a rapidly growing domain and its potential has been explored for time series prediction and dynamics simulation in existing works. In this study, we propose a quantum-discrete-map-based recurrent neural network (QDM-RNN) to overcome the limitations posed by the circuit depth growing with the length of time series. From a discrete-dynamical perspective, quantum circuits are leveraged to build the discrete map and hence the discrete dynamical system. This approach involves measuring partial qubits to obtain historical information (memory) that is reused in the encoding layer of next time step, and measuring the other qubits to retrieve classical information as output. The nonlinear properties of the quantum discrete map make it appealing for embedding low-dimensional dynamics into higher dimensions, which is consistent with recurrent learning tricks. In numerical simulations, the QDM-RNN is implemented with one-feature datasets of waves and two-feature datasets of dynamics to demonstrate its capability. Our study introduces a new paradigm for quantum machine learning and highlights the potential of quantum computing in nonlinear dynamics.
翻訳日:2023-05-26 15:29:52 公開日:2023-05-25
# トリプルト知識蒸留

Triplet Knowledge Distillation ( http://arxiv.org/abs/2305.15975v1 )

ライセンス: Link先を確認
Xijun Wang, Dongyang Liu, Meina Kan, Chunrui Han, Zhongqin Wu, Shiguang Shan(参考訳) 知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。 模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。 教師と生徒の他に、TriKDはアンカーモデルと呼ばれる第3の役割を担っている。 蒸留が始まる前に、事前訓練されたアンカーモデルは、対象問題の完全解空間内の部分空間をデリミットする。 サブスペース内のソリューションは、学生がうまく真似できる簡単なターゲットになることが期待されます。 その後、蒸留はオンラインで開始され、教師は上記の部分空間内でのみ解を表現できる。 意外なことに、学生は正確だが簡単に模倣できるヒントの恩恵を受けることができる。 学生が十分に訓練された後、新しい学生のための新しいアンカーとして利用でき、カリキュラム学習戦略を形成する。 様々なモデルを用いた画像分類と顔認識実験により,本手法の有効性が明らかとなった。 さらに,提案したTriKDはオーバーフィッティング問題にも有効である。 さらに, 理論解析は三重項蒸留の合理性を支持する。

In Knowledge Distillation, the teacher is generally much larger than the student, making the solution of the teacher likely to be difficult for the student to learn. To ease the mimicking difficulty, we introduce a triplet knowledge distillation mechanism named TriKD. Besides teacher and student, TriKD employs a third role called anchor model. Before distillation begins, the pre-trained anchor model delimits a subspace within the full solution space of the target problem. Solutions within the subspace are expected to be easy targets that the student could mimic well. Distillation then begins in an online manner, and the teacher is only allowed to express solutions within the aforementioned subspace. Surprisingly, benefiting from accurate but easy-to-mimic hints, the student can finally perform well. After the student is well trained, it can be used as the new anchor for new students, forming a curriculum learning strategy. Our experiments on image classification and face recognition with various models clearly demonstrate the effectiveness of our method. Furthermore, the proposed TriKD is also effective in dealing with the overfitting issue. Moreover, our theoretical analysis supports the rationality of our triplet distillation.
翻訳日:2023-05-26 15:29:34 公開日:2023-05-25
# d波量子アニールにおける励起状態探索の実証

Demonstration of the excited-state search on the D-wave quantum annealer ( http://arxiv.org/abs/2305.15974v1 )

ライセンス: Link先を確認
Takashi Imoto, Yuki Susa, Ryoji Miyazaki, Tadashi Kadowaki, Yuichiro Matsuzaki(参考訳) 量子アニーリング(quantum annealing)は、ハミルトニアン問題の固有状態を作成する方法である。 自明なハミルトニアンの固有状態から始めて、徐々にハミルトニアンをハミルトニアン問題に変更し、この系はいわゆる断熱条件を満たす限りハミルトニアンの固有状態に留まる。 d-wave systems inc. が提供する装置を用いて、ハミルトニアン問題の基底状態を作成する実験が行われた。 しかし、これまでのところ、量子アニーリングによるハミルトニアン問題の励起状態を作成するためのデモンストレーションは行われていない。 本稿では,D波プロセッサを用いて励起状態探索を行う。 鍵となるアイデアは、自明なハミルトニアンの励起状態が初期状態であるホットスタートで逆量子アニーリングを使用することである。 逆量子アニール中は、横磁場だけでなく長手場も制御し、徐々にハミルトニアンを問題ハミルトニアンに変えて所望の励起状態を得る。 終了状態探索の例として, 2量子イジングモデルを問題ハミルトニアンとして採用し, 励起状態の準備に成功する。 また、解がイジングハミルトニアンの最初の励起状態に埋め込まれる最も短いベクトル問題も解く。 我々の結果は、励起状態を使用する量子アニールの新しい応用の道を開いた。

Quantum annealing is a way to prepare an eigenstate of the problem Hamiltonian. Starting from an eigenstate of a trivial Hamiltonian, we slowly change the Hamiltonian to the problem Hamiltonian, and the system remains in the eigenstate of the Hamiltonian as long as the so-called adiabatic condition is satisfied. By using devices provided by D-Wave Systems Inc., there were experimental demonstrations to prepare a ground state of the problem Hamiltonian. However, up to date, there are no demonstrations to prepare the excited state of the problem Hamiltonian with quantum annealing. Here, we demonstrate the excited-state search by using the D-wave processor. The key idea is to use the reverse quantum annealing with a hot start where the initial state is the excited state of the trivial Hamiltonian. During the reverse quantum annealing, we control not only the transverse field but also the longitudinal field and slowly change the Hamiltonian to the problem Hamiltonian so that we can obtain the desired excited state. As an example of the exited state search, we adopt a two-qubit Ising model as the problem Hamiltonian and succeed to prepare the excited state. Also, we solve the shortest vector problem where the solution is embedded into the first excited state of the Ising Hamiltonian. Our results pave the way for new applications of quantum annealers to use the excited states.
翻訳日:2023-05-26 15:29:20 公開日:2023-05-25
# 超伝導量子プロセッサ上のほぼ完全な論理マジック状態生成

Near-Perfect Logical Magic State Preparation on a Superconducting Quantum Processor ( http://arxiv.org/abs/2305.15972v1 )

ライセンス: Link先を確認
Yangsen Ye, Tan He, He-Liang Huang, Zuolin Wei, Yiming Zhang, Youwei Zhao, Dachao Wu, Qingling Zhu, Huijie Guan, Sirui Cao, Fusheng Chen, Tung-Hsun Chung, Hui Deng, Daojin Fan, Ming Gong, Cheng Guo, Shaojun Guo, Lianchen Han, Na Li, Shaowei Li, Yuan Li, Futian Liang, Jin Lin, Haoran Qian, Hao Rong, Hong Su, Shiyu Wang, Yulin Wu, Yu Xu, Chong Ying, Jiale Yu, Chen Zha, Kaili Zhang, Yong-Heng Huo, Chao-Yang Lu, Cheng-Zhi Peng, Xiaobo Zhu, and Jian-Wei Pan(参考訳) 表面コードに基づくフォールトトレラント量子コンピューティングは、堅牢なノイズ耐性を実現するための実用的な大規模量子コンピュータの魅力的な候補として浮上している。 普遍性を達成するために、マジックステートの準備は非クリフォードゲートを導入する一般的なアプローチである。 本稿では,回転した曲面コードに対して任意の論理状態を生成するためのハードウェア効率とスケーラブルなプロトコルを提案し,さらにそれを \textit{zuchongzhi} 2.1超伝導量子プロセッサ上で実験的に実装する。 距離3の異なる論理状態における平均$0.9943 \pm 0.0002$論理忠実度を達成する。 特に、マジック状態${|a^{\pi/4}\rangle}_l$は論理忠実度$0.9997 \pm 0.0009 $であり、これは状態蒸留プロトコル閾値0.859よりもかなり高く、全ての物理ゲート操作の平均忠実度よりもさらに高い。 我々の研究は、表面コードにおける非クリフォード論理ゲートの実現に不可欠である高忠実な生の論理マジック状態を生成するための、実用的で効率的な経路を提供する。

Fault-tolerant quantum computing based on surface code has emerged as an attractive candidate for practical large-scale quantum computers to achieve robust noise resistance. To achieve universality, magic states preparation is a commonly approach for introducing non-Clifford gates. Here, we present a hardware-efficient and scalable protocol for arbitrary logical state preparation for the rotated surface code, and further experimentally implement it on the \textit{Zuchongzhi} 2.1 superconducting quantum processor. An average of $0.9943 \pm 0.0002$ logical fidelity at different logical states with distance-three is achieved. In particular, the magic state ${|A^{\pi/4}\rangle}_L$ is prepared with logical fidelity of $0.9997 \pm 0.0009 $, which is significantly higher than the state distillation protocol threshold, 0.859, and even higher than the average fidelity of all physical gate operations. Our work provides a viable and efficient avenue for generating high-fidelity raw logical magic states, which is essential for realizing non-Clifford logical gates in the surface code.
翻訳日:2023-05-26 15:28:56 公開日:2023-05-25
# ChatCAD+:LLMを用いたユニバーサルで信頼性の高いインタラクティブCADを目指して

ChatCAD+: Towards a Universal and Reliable Interactive CAD using LLMs ( http://arxiv.org/abs/2305.15964v1 )

ライセンス: Link先を確認
Zihao Zhao, Sheng Wang, Jinchen Gu, Yitao Zhu, Lanzhuju Mei, Zixu Zhuang, Zhiming Cui, Qian Wang, Dinggang Shen(参考訳) 臨床応用におけるコンピュータ支援診断(CAD)とLarge Language Models(LLMs)の統合の可能性は,特にデジタルファミリードクターやクリニックアシスタントの役割において有望である。 しかし、既存の作業は、信頼性、有効性、および特定の画像領域に適用性に制限があり、その全体的な処理能力を制限している。 さらに、LSMと放射線技師の筆記スタイルのミスマッチは、その実用性を損なう。 これらの課題に対処するために,多様な領域から医用画像を扱う,普遍的で信頼性の高い対話型CADシステムChatCAD+を提案する。 ChatCAD+は、信頼できる医療ウェブサイトから得た現在の情報を利用して、正確な医療アドバイスを提供する。 さらに、実際の診断レポートをエミュレートし、既存の臨床ワークフローへのシームレスな統合を改善するテンプレート検索システムも組み込んでいる。 ソースコードは \href{https://github.com/zhaozh10/chatcad}{github}で入手できる。 オンラインデモは近く公開される。

The potential of integrating Computer-Assisted Diagnosis (CAD) with Large Language Models (LLMs) in clinical applications, particularly in digital family doctor and clinic assistant roles, shows promise. However, existing works have limitations in terms of reliability, effectiveness, and their narrow applicability to specific image domains, which restricts their overall processing capabilities. Moreover, the mismatch in writing style between LLMs and radiologists undermines their practical utility. To address these challenges, we present ChatCAD+, an interactive CAD system that is universal, reliable, and capable of handling medical images from diverse domains. ChatCAD+ utilizes current information obtained from reputable medical websites to offer precise medical advice. Additionally, it incorporates a template retrieval system that emulates real-world diagnostic reporting, thereby improving its seamless integration into existing clinical workflows. The source code is available at \href{https://github.com/zhaozh10/ChatCAD}{GitHub}. The online demo will be available soon.
翻訳日:2023-05-26 15:28:36 公開日:2023-05-25
# 人工シミュラビリティ研究を用いたグラフニューラルネットワークの属性記述の本質的有用性の定量化

Quantifying the Intrinsic Usefulness of Attributional Explanations for Graph Neural Networks with Artificial Simulatability Studies ( http://arxiv.org/abs/2305.15961v1 )

ライセンス: Link先を確認
Jonas Teufel, Luca Torresi, Pascal Friederich(参考訳) 説明可能なAIの関連性が高まっているにもかかわらず、説明の質を評価することは難しい問題である。 人体実験に伴う高コストのため、説明品質の定量化に様々なプロキシ指標が用いられることが多い。 一般に、説明の質の1つの解釈は、生徒に関連する概念を教えることの本質的な価値である。 本研究では,人工的なシミュラビリティ研究をグラフニューラルネットワークの領域に拡張する。 コストのかかる人間実験の代わりに、説明教師ありグラフニューラルネットワークを用いて、帰属グラフ説明の本質的有用性を定量化する。 提案する解析がもっとも有意義な条件を検討するため,広範なアブレーション研究を行う。 さらに,実世界のグラフ分類と回帰データセットに適用性を検証する。 関連する説明は、グラフニューラルネットワークのサンプル効率を大幅に向上させ、説明のノイズやバイアスに対するロバスト性を分析することができる。 提案したシミュラビリティ分析から得られた有用性の概念は、一般的な忠実さの実践とほぼ直交する説明品質の次元を提供し、特にグラフ説明において、説明品質評価のツールボックスを拡張する大きな可能性を秘めている。

Despite the increasing relevance of explainable AI, assessing the quality of explanations remains a challenging issue. Due to the high costs associated with human-subject experiments, various proxy metrics are often used to approximately quantify explanation quality. Generally, one possible interpretation of the quality of an explanation is its inherent value for teaching a related concept to a student. In this work, we extend artificial simulatability studies to the domain of graph neural networks. Instead of costly human trials, we use explanation-supervisable graph neural networks to perform simulatability studies to quantify the inherent usefulness of attributional graph explanations. We perform an extensive ablation study to investigate the conditions under which the proposed analyses are most meaningful. We additionally validate our methods applicability on real-world graph classification and regression datasets. We find that relevant explanations can significantly boost the sample efficiency of graph neural networks and analyze the robustness towards noise and bias in the explanations. We believe that the notion of usefulness obtained from our proposed simulatability analysis provides a dimension of explanation quality that is largely orthogonal to the common practice of faithfulness and has great potential to expand the toolbox of explanation quality assessments, specifically for graph explanations.
翻訳日:2023-05-26 15:28:19 公開日:2023-05-25
# ユニバーサル量子技術教育プログラム

A Universal Quantum Technology Education Program ( http://arxiv.org/abs/2305.15959v1 )

ライセンス: Link先を確認
Sanjay Vishwakarma, Shalini D, Srinjoy Ganguly, Sai Nandan Morapakula(参考訳) 量子技術は、物理学、数学、その他の科学分野における計算と研究の新しいパラダイムを提供する新しい最先端分野である。 この技術は、世界中の政府にとって戦略的に重要であり、軍事、宇宙、教育の面で競争上の優位性を得るために、多額の投資と予算が認可されている。 このため、この技術を大規模に実装するために必要な教育と研究の必要性を理解することが重要である。 本稿では,量子ハードウェアとソフトウェアスキルのバランスを保ち,専門家の活用性を高めることにより,今日の学術機関や組織が直面するスキル不足を低減できる,新しいユニバーサル量子技術マスターズカリキュラムを提案する。 提案カリキュラムは、スタートアップが直面するPhDの採用圧力を減らし、量子研究におけるバランスのとれた科学思想の成長を促進することにより、量子教育エコシステムに革命をもたらす可能性を秘めている。

Quantum technology is an emerging cutting-edge field which offers a new paradigm for computation and research in the field of physics, mathematics and other scientific disciplines. This technology is of strategic importance to governments globally and heavy investments and budgets are being sanctioned to gain competitive advantage in terms of military, space and education. Due to this, it is important to understand the educational and research needs required to implement this technology at a large scale. Here, we propose a novel universal quantum technology master's curriculum which comprises a balance between quantum hardware and software skills to enhance the employability of professionals thereby reducing the skill shortage faced by the academic institutions and organizations today. The proposed curriculum holds the potential to revolutionize the quantum education ecosystem by reducing the pressure of hiring PhDs faced by startups and promoting the growth of a balanced scientific mindset in quantum research.
翻訳日:2023-05-26 15:27:58 公開日:2023-05-25
# DiffCLIP: 言語基底3次元分類のための安定拡散の活用

DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification ( http://arxiv.org/abs/2305.15957v1 )

ライセンス: Link先を確認
Sitian Shen, Zilin Zhu, Linqian Fan, Harry Zhang, Xinxiao Wu(参考訳) 大規模な事前学習モデルはマルチモーダル学習を可能にし、CLIPモデルは画像分類、オブジェクト検出、セマンティックセグメンテーションにおいて印象的な結果を得た。 しかし、3Dポイントクラウド処理タスクにおけるモデルの性能は、3Dプロジェクションからの深度マップとCLIPのトレーニングイメージとのドメインギャップによって制限されている。 本稿では,ビジュアルブランチの領域ギャップを最小限に抑えるために,安定拡散とコントロールネットを組み込んだ新しい事前学習フレームワークdiffclipを提案する。 さらに、スタイルプロンプト生成モジュールがテキストブランチの少数タスクに導入されている。 ModelNet10、ModelNet40、ScanObjectNNデータセットに関する大規模な実験は、DiffCLIPが3D理解に強力な能力を持っていることを示している。 安定した拡散とスタイルプロンプト生成により、DiffCLIPは、最先端性能であるScanObjectNNのOBJ\_BGにおけるゼロショット分類の精度43.2\%、最先端性能のModelNet10におけるゼロショット分類の精度80.6\%を達成する。

Large pre-trained models have had a significant impact on computer vision by enabling multi-modal learning, where the CLIP model has achieved impressive results in image classification, object detection, and semantic segmentation. However, the model's performance on 3D point cloud processing tasks is limited due to the domain gap between depth maps from 3D projection and training images of CLIP. This paper proposes DiffCLIP, a new pre-training framework that incorporates stable diffusion with ControlNet to minimize the domain gap in the visual branch. Additionally, a style-prompt generation module is introduced for few-shot tasks in the textual branch. Extensive experiments on the ModelNet10, ModelNet40, and ScanObjectNN datasets show that DiffCLIP has strong abilities for 3D understanding. By using stable diffusion and style-prompt generation, DiffCLIP achieves an accuracy of 43.2\% for zero-shot classification on OBJ\_BG of ScanObjectNN, which is state-of-the-art performance, and an accuracy of 80.6\% for zero-shot classification on ModelNet10, which is comparable to state-of-the-art performance.
翻訳日:2023-05-26 15:27:42 公開日:2023-05-25
# 条件付き消音拡散モデルによる異常検出

Anomaly Detection with Conditioned Denoising Diffusion Models ( http://arxiv.org/abs/2305.15956v1 )

ライセンス: Link先を確認
Arian Mousakhan, Thomas Brox, Jawad Tayyub(参考訳) 再構成に基づく手法は異常検出における競合性能を達成するのに苦労している。 本稿では,Denoising Diffusion Anomaly Detection (DDAD)を紹介する。 対象画像に条件付けされた画像再構成のための新しいデノベーション手法を提案する。 これにより、ターゲット画像によく似たコヒーレントな復元が得られる。 その後, 対象画像が入力画像として設定され, 雑音化過程を誘導し, 名目パターンを維持しながら, 欠陥のない再構築を行う, この条件を, 異常検出フレームワークが活用する。 入力画像と再構成画像の画素別および特徴別比較により異常を局在化する。 最後に,特徴比較の有効性を高めるために,条件付き雑音化プロセスから生成された例を用いて特徴抽出器を微調整するドメイン適応法を提案する。 このアプローチの正確性は、MVTecやVisAベンチマークなどの様々なデータセットで示され、それぞれ99.5%と99.3%の画像レベルのAUROCの最先端の結果が得られた。

Reconstruction-based methods have struggled to achieve competitive performance on anomaly detection. In this paper, we introduce Denoising Diffusion Anomaly Detection (DDAD). We propose a novel denoising process for image reconstruction conditioned on a target image. This results in a coherent restoration that closely resembles the target image. Subsequently, our anomaly detection framework leverages this conditioning where the target image is set as the input image to guide the denoising process, leading to defectless reconstruction while maintaining nominal patterns. We localise anomalies via a pixel-wise and feature-wise comparison of the input and reconstructed image. Finally, to enhance the effectiveness of feature comparison, we introduce a domain adaptation method that utilises generated examples from our conditioned denoising process to fine-tune the feature extractor. The veracity of the approach is demonstrated on various datasets including MVTec and VisA benchmarks, achieving state-of-the-art results of 99.5% and 99.3% image-level AUROC respectively.
翻訳日:2023-05-26 15:27:22 公開日:2023-05-25
# 部分線形分割を用いた動的プログラミングによるアレン区間代数のアルゴリズムの改良

Improved Algorithms for Allen's Interval Algebra by Dynamic Programming with Sublinear Partitioning ( http://arxiv.org/abs/2305.15950v1 )

ライセンス: Link先を確認
Leif Eriksson and Victor Lagerkvist(参考訳) アレンの区間代数は質的時間推論で最もよく知られた計算の1つであり、人工知能に多くの応用がある。 最近、npハードな推論タスクのきめ細かい複雑さが大幅に改善され、naive $2^{o(n^2)}$ から $o^*((1.0615n)^{n})$ への実行時間が改善され、単位間隔のより高速なアルゴリズムでも重複区間の有界な数($o^*(\cdot)$表記は多項式因子を抑制する)。 これらの改善にもかかわらず、最もよく知られた下限は(2^{o(n)$(指数時間仮説)であり、どちらの方向でも大きな改善は計算複雑性の根本的な進歩を必要とするように見える。 本稿では,線形分割を用いた動的プログラミングと呼ぶNP-hard質的推論問題を解くための新しい枠組みを提案する。 この手法を用いることで、アレンの区間代数に対して$O^*((\frac{cn}{\log{n}})^{n})$の大きな改善が得られる。 この手法がより多くの領域に適用可能であることを示すために、定性的空間的推論(英語版)における問題、基方向点代数(英語版)に適用し、$O^*((\frac{cn}{\log{n}})^{2n/3})$時間で解く。 したがって、NPハード質的推論問題に対する最先端の問題を著しく前進させるだけでなく、2$2^{O(n)}$タイムアルゴリズムが不可能な多くの問題に適用可能な新しいアルゴリズム技術を得る。

Allen's interval algebra is one of the most well-known calculi in qualitative temporal reasoning with numerous applications in artificial intelligence. Recently, there has been a surge of improvements in the fine-grained complexity of NP-hard reasoning tasks, improving the running time from the naive $2^{O(n^2)}$ to $O^*((1.0615n)^{n})$, with even faster algorithms for unit intervals a bounded number of overlapping intervals (the $O^*(\cdot)$ notation suppresses polynomial factors). Despite these improvements the best known lower bound is still only $2^{o(n)}$ (under the exponential-time hypothesis) and major improvements in either direction seemingly require fundamental advances in computational complexity. In this paper we propose a novel framework for solving NP-hard qualitative reasoning problems which we refer to as dynamic programming with sublinear partitioning. Using this technique we obtain a major improvement of $O^*((\frac{cn}{\log{n}})^{n})$ for Allen's interval algebra. To demonstrate that the technique is applicable to more domains we apply it to a problem in qualitative spatial reasoning, the cardinal direction point algebra, and solve it in $O^*((\frac{cn}{\log{n}})^{2n/3})$ time. Hence, not only do we significantly advance the state-of-the-art for NP-hard qualitative reasoning problems, but obtain a novel algorithmic technique that is likely applicable to many problems where $2^{O(n)}$ time algorithms are unlikely.
翻訳日:2023-05-26 15:27:06 公開日:2023-05-25
# 人々が歌うのを聞いたか? 反復クラスタリングと抽象要約によるキーポイント分析

Do You Hear The People Sing? Key Point Analysis via Iterative Clustering and Abstractive Summarisation ( http://arxiv.org/abs/2305.16000v1 )

ライセンス: Link先を確認
Hao Li, Viktor Schlegel, Riza Batista-Navarro, Goran Nenadic(参考訳) 議論の要約は有望だが、現在未熟な分野である。 最近の研究は、キーポイント分析(KPA)と呼ばれるタスクにおいて、簡潔で健全な短文(キーポイント(KP))の形式でテキスト要約を提供することを目的としている。 kpaの主な課題の1つは、小さなコーパスでも数十の議論から高品質のキーポイント候補を見つけることである。 さらに、自動生成した要約が有用であることを保証するためには、キーポイントの評価が不可欠である。 要約を自動評価する手法は長年にわたってかなり進歩してきたが、主に文レベルの比較に焦点をあてており、要約(kpsの集合)全体の質を測定するのが困難である。 この問題を悪化させるのは、人間の評価が高価で再現不可能であるという事実である。 上記の問題に対処するために,反復クラスタリング手法を用いたニューラルネットワークトピックモデリングに基づく2段階の抽象要約フレームワークを提案し,人間がキーポイントを識別する方法と一致したキーポイントを生成する。 実験の結果,我々のフレームワークは,ROUGEと提案した評価指標の両面で,最大14ポイント(絶対値)の性能向上を実現し,KPAの最先端技術であることがわかった。 さらに,新しいセットベース評価ツールキットを用いて生成した要約を評価する。 提案する評価指標が生成したkpsの品質評価に有効であることを示す。 人間の評価は、我々のアプローチの利点をさらに証明し、提案した評価基準がROUGEスコアよりも人間の判断と一致していることを検証する。

Argument summarisation is a promising but currently under-explored field. Recent work has aimed to provide textual summaries in the form of concise and salient short texts, i.e., key points (KPs), in a task known as Key Point Analysis (KPA). One of the main challenges in KPA is finding high-quality key point candidates from dozens of arguments even in a small corpus. Furthermore, evaluating key points is crucial in ensuring that the automatically generated summaries are useful. Although automatic methods for evaluating summarisation have considerably advanced over the years, they mainly focus on sentence-level comparison, making it difficult to measure the quality of a summary (a set of KPs) as a whole. Aggravating this problem is the fact that human evaluation is costly and unreproducible. To address the above issues, we propose a two-step abstractive summarisation framework based on neural topic modelling with an iterative clustering procedure, to generate key points which are aligned with how humans identify key points. Our experiments show that our framework advances the state of the art in KPA, with performance improvement of up to 14 (absolute) percentage points, in terms of both ROUGE and our own proposed evaluation metrics. Furthermore, we evaluate the generated summaries using a novel set-based evaluation toolkit. Our quantitative analysis demonstrates the effectiveness of our proposed evaluation metrics in assessing the quality of generated KPs. Human evaluation further demonstrates the advantages of our approach and validates that our proposed evaluation metric is more consistent with human judgment than ROUGE scores.
翻訳日:2023-05-26 15:19:21 公開日:2023-05-25
# SING: プラグアンドプレイDNN学習技術

SING: A Plug-and-Play DNN Learning Technique ( http://arxiv.org/abs/2305.15997v1 )

ライセンス: Link先を確認
Adrien Courtois, Damien Scieur, Jean-Michel Morel, Pablo Arias, Thomas Eboli(参考訳) 本稿では,Adam(W)オプティマイザの安定性と一般化を改善するプラグイン・アンド・プレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。 SINGは実装が簡単で計算オーバーヘッドも最小限であり、追加のハイパーパラメータを導入することなくAdam(W)に供給される勾配を階層的に標準化するだけでよい。 提案手法の有効性と実用性は,幅広いアーキテクチャ,問題(画像分類,奥行き推定,自然言語処理など),および他のオプティマイザと組み合わせて,改善した結果を示すことによって支援する。 本手法の収束に関する理論的解析を行い、標準化により、SINGはネットワークの深さに逆比例する閾値よりも狭い局所最小値から逃れることができることを示す。

We propose SING (StabIlized and Normalized Gradient), a plug-and-play technique that improves the stability and generalization of the Adam(W) optimizer. SING is straightforward to implement and has minimal computational overhead, requiring only a layer-wise standardization of the gradients fed to Adam(W) without introducing additional hyper-parameters. We support the effectiveness and practicality of the proposed approach by showing improved results on a wide range of architectures, problems (such as image classification, depth estimation, and natural language processing), and in combination with other optimizers. We provide a theoretical analysis of the convergence of the method, and we show that by virtue of the standardization, SING can escape local minima narrower than a threshold that is inversely proportional to the network's depth.
翻訳日:2023-05-26 15:18:56 公開日:2023-05-25
# pro-f-quiz: クイズ活性化によるフィードバックの生産性向上

Pro-f-quiz: increasing the PROductivity of Feedback through activating QUIZzes ( http://arxiv.org/abs/2305.15996v1 )

ライセンス: Link先を確認
Kris Aerts, Wouter Groeneveld(参考訳) グレードを超えたフィードバックは、学習プロセスの重要な部分です。 しかし、大きな学生集団のため、個々の生徒へのフィードバックを準備し伝達する時間に制限があるなど、高等教育の多くの教師が実践に直面している。 2年間で236人の学生が参加し、オンラインクイズを通じてフィードバックが伝達され、学生が自分のソリューションを反映するように活性化する実験を行った。 システムは、個々のタイムスロットを予約するよりも、非常に限られた時間で設定できる。 その結果,学生の約85%がこのアプローチを高く評価しており,60%は従来のフィードバック伝達よりも仕事に対して集中的に反映していることを示している。 また,プロジェクトに参加した学生の成績は,参加していない生徒よりも有意に高かった。

Feedback beyond the grade is an important part of the learning process. However, because of the large student groups, many teachers in higher education are faced with practicalities such as the limited time to prepare and communicate the feedback to individual students. We have set up an experiment, titled Pro-f-quiz, in which over two years 236 students participated and in which the feedback is communicated through an online quiz that activates the students to reflect upon their solution. The system can be set up in a very limited time compared to booking individual time slots. The results show that approximately 85% of the students appreciate the approach with 60% indicating that they reflect more intensively about their work than when the feedback is transmitted traditionally. Moreover, the grade of the students participating in the project was substantially higher than students not participating.
翻訳日:2023-05-26 15:18:40 公開日:2023-05-25
# ヌル状態を持つ無調和発振器の解法:ハミルトンブートストラップとダイソン・シュウィンガー方程式

Solving anharmonic oscillator with null states: Hamiltonian bootstrap and Dyson-Schwinger equations ( http://arxiv.org/abs/2305.15992v1 )

ライセンス: Link先を確認
Yongwei Guo, Wenliang Li(参考訳) 基本的な量子力学モデルとして、アンハーモニック発振器はブートストラップ法によって最近再訪されている。 効果的なアプローチは、エルミート理論における正則性制約を利用することである。 エルミート理論と非エルミート理論の両方に適用できる、ヌル状態条件に基づく別の道が存在する。 本研究では,小結合展開に基づくクォート発振器の解析ブートストラップ実験を行う。 ハミルトニアン形式論では、ディラックのラダー作用素のアンハーモニック一般化を得る。 さらに、シュロディンガー方程式は、非調和なラグ作用素によって生成されるヌル状態条件と解釈できる。 これは、ダイナミックスがnullnessの原則に組み込まれる明示的な例である。 ラグランジュ形式論において、ヌル状態の存在はダイソン・シュウィンガー方程式の不確定性を効果的に排除し、n$-point green 関数を体系的に決定できることを示した。

As basic quantum mechanical models, anharmonic oscillators are recently revisited by bootstrap methods. An effective approach is to make use of the positivity constraints in Hermitian theories. There exists an alternative avenue based on the null state condition, which applies to both Hermitian and non-Hermitian theories. In this work, we carry out an analytic bootstrap study of the quartic oscillator based on the small coupling expansion. In the Hamiltonian formalism, we obtain the anharmonic generalization of Dirac's ladder operators. Furthermore, the Schrodinger equation can be interpreted as a null state condition generated by an anharmonic ladder operator. This provides an explicit example in which dynamics is incorporated into the principle of nullness. In the Lagrangian formalism, we show that the existence of null states can effectively eliminate the indeterminacy of the Dyson-Schwinger equations and systematically determine $n$-point Green's functions.
翻訳日:2023-05-26 15:18:28 公開日:2023-05-25
# PINNスロープ:物理情報ニューラルネットワークによる地震データ補間と局所斜面推定

PINNslope: seismic data interpolation and local slope estimation with physics informed neural networks ( http://arxiv.org/abs/2305.15990v1 )

ライセンス: Link先を確認
Francesco Brandolin, Matteo Ravasi and Tariq Alkhalifah(参考訳) aliased seismic dataの補間は、地震処理ワークフローにおける重要なステップであり、高品質の速度モデルと地震画像を得る。 局所平面波の重ね合わせとして地震波場を記述するという考え方を生かして,物理インフォームドニューラルネットワーク(pinn)を用いて地震データを補間する方法を提案する。 提案フレームワークでは,2つのフィードフォワードニューラルネットワークを,局所平面波動微分方程式と使用可能なデータを目的関数の2つの項として,共同でトレーニングする。 合成データとフィールドデータを用いて, 粗大なデータと粗大なギャップを持つデータを扱う場合, 提案手法の有効性を検証した。 本手法は,局所平面波方程式によって正規化された古典的最小二乗逆解析手法と,単一ネットワークと事前計算された局所勾配を用いたピンベースアプローチとを好適に比較する。 局所斜面を推定する第2のネットワークを導入し,同時にエイリアスデータを補間することにより,一次ネットワークの全体の再構築能力と収束挙動が向上することがわかった。 ネットワーク層として埋め込まれた付加的な位置符号化は、データ項の精度を向上させるために、ネットワークに迅速に収束する能力を与える。

Interpolation of aliased seismic data constitutes a key step in a seismic processing workflow to obtain high quality velocity models and seismic images. Leveraging on the idea of describing seismic wavefields as a superposition of local plane waves, we propose to interpolate seismic data by utilizing a physics informed neural network (PINN). In the proposed framework, two feed-forward neural networks are jointly trained using the local plane wave differential equation as well as the available data as two terms in the objective function: a primary network assisted by positional encoding is tasked with reconstructing the seismic data, whilst an auxiliary, smaller network estimates the associated local slopes. Results on synthetic and field data validate the effectiveness of the proposed method in handling aliased (sampled coarsely) data and data with large gaps. Our method compares favorably against a classic least-squares inversion approach regularized by the local plane-wave equation as well as a PINN-based approach with a single network and pre-computed local slopes. We find that by introducing a second network to estimate the local slopes whilst at the same time interpolating the aliased data, the overall reconstruction capabilities and convergence behavior of the primary network is enhanced. An additional positional encoding, embedded as a network layer, confers to the network the ability to converge faster improving the accuracy of the data term.
翻訳日:2023-05-26 15:18:13 公開日:2023-05-25
# langevin monte carloアルゴリズムによる非log-concaveおよびnonsmoothサンプリング

Non-Log-Concave and Nonsmooth Sampling via Langevin Monte Carlo Algorithms ( http://arxiv.org/abs/2305.15988v1 )

ライセンス: Link先を確認
Tim Tsz-Kit Lau, Han Liu, Thomas Pock(参考訳) マルチモーダル性により低次元でもしばしば困難となるガウス混合などの非対数圏分布からの近似サンプリング問題について検討する。 我々は、一般にランジュバンモンテカルロアルゴリズムとして知られる過減衰ランジュバン拡散の離散化から導かれたマルコフ連鎖モンテカルロ(mcmc)法を用いてこのタスクを実行することに集中する。 さらに, 近位MCMC法が開発されている2つの非平滑症例にも関心がある。 (i)非スムース事前は、ガウス混合確率で考慮される。 (ii)ラプラシア混合物分布。 このような非滑らかで非ログコンケーブなサンプリングタスクは、ベイズ推論や画像デコンボリューションのような逆問題に対する幅広い応用から生じる。 我々は,最もよく用いられるLangevin Monte Carloアルゴリズムの性能を比較するために数値シミュレーションを行う。

We study the problem of approximate sampling from non-log-concave distributions, e.g., Gaussian mixtures, which is often challenging even in low dimensions due to their multimodality. We focus on performing this task via Markov chain Monte Carlo (MCMC) methods derived from discretizations of the overdamped Langevin diffusions, which are commonly known as Langevin Monte Carlo algorithms. Furthermore, we are also interested in two nonsmooth cases for which a large class of proximal MCMC methods have been developed: (i) a nonsmooth prior is considered with a Gaussian mixture likelihood; (ii) a Laplacian mixture distribution. Such nonsmooth and non-log-concave sampling tasks arise from a wide range of applications to Bayesian inference and imaging inverse problems such as image deconvolution. We perform numerical simulations to compare the performance of most commonly used Langevin Monte Carlo algorithms.
翻訳日:2023-05-26 15:17:52 公開日:2023-05-25
# グラフニューラルネットワークのグラフ-信号解析

A graphon-signal analysis of graph neural networks ( http://arxiv.org/abs/2305.15987v1 )

ライセンス: Link先を確認
Ron Levie(参考訳) 本稿では,グラフトン解析からいわゆるグラフトン信号解析への拡張に基づく,メッセージパッシンググラフニューラルネットワーク(MPNN)の解析手法を提案する。 MPNNはグラフとグラフ上の信号(グラフ信号)を取得し、ある値を返す関数である。 MPNNの入力空間はユークリッドではないため、グラフは任意の大きさとトポロジーを持つことができるため、一般化のような特性はユークリッドニューラルネットワークよりもMPNNではよく理解されていない。 我々は、過去の研究で欠落している重要な要素の一つが、正規構造を持つMPNNへの入力の空間を与えるグラフ信号類似度尺度の有意義な概念であると主張している。 このような類似性測度をgraphon-signal cut distance と呼び、すべてのgraph-signals の空間をコンパクト距離空間 -- graphon-signal space の高密度部分集合とする。 形式的には、2つの決定論的グラフ信号は同じランダムグラフ信号モデルから'look like'がサンプリングされた場合、カット距離に近づいた。 したがって、カット距離はグラフ信号類似性の自然な概念であり、任意の大きさと位相のグラフ信号対を比較することができる。 我々は、MPNNがグラフ-信号距離空間上のリプシッツ連続函数であることを証明した。 次にこの結果の応用を2つ挙げる。 1) mpnn に対する一般化,及び, 2)MPNNのグラフ信号のサブサンプリングに対する安定性 この結果はグラフ信号の任意の分布に対して十分なMPNNを適用でき、解析はより普遍的である。

We present an approach for analyzing message passing graph neural networks (MPNNs) based on an extension of graphon analysis to a so called graphon-signal analysis. A MPNN is a function that takes a graph and a signal on the graph (a graph-signal) and returns some value. Since the input space of MPNNs is non-Euclidean, i.e., graphs can be of any size and topology, properties such as generalization are less well understood for MPNNs than for Euclidean neural networks. We claim that one important missing ingredient in past work is a meaningful notion of graph-signal similarity measure, that endows the space of inputs to MPNNs with a regular structure. We present such a similarity measure, called the graphon-signal cut distance, which makes the space of all graph-signals a dense subset of a compact metric space -- the graphon-signal space. Informally, two deterministic graph-signals are close in cut distance if they ``look like'' they were sampled from the same random graph-signal model. Hence, our cut distance is a natural notion of graph-signal similarity, which allows comparing any pair of graph-signals of any size and topology. We prove that MPNNs are Lipschitz continuous functions over the graphon-signal metric space. We then give two applications of this result: 1) a generalization bound for MPNNs, and, 2) the stability of MPNNs to subsampling of graph-signals. Our results apply to any regular enough MPNN on any distribution of graph-signals, making the analysis rather universal.
翻訳日:2023-05-26 15:17:35 公開日:2023-05-25
# 不均一処理効果推定のための動的処理間情報共有

Dynamic Inter-treatment Information Sharing for Heterogeneous Treatment Effects Estimation ( http://arxiv.org/abs/2305.15984v1 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Jiandong Zhou, Soheila Molaei, Ghadeer Ghosheh and David A. Clifton(参考訳) 既存のヘテロジニアス治療効果学習者(条件付き平均治療効果(cate)学習者)は、エンド・ツー・エンドの処理間情報共有のための一般的なメカニズムが欠如しており、データは潜在的な結果関数に分割されて、限られた観測データセットでバイアス付き推定に繋がる学習者を訓練する必要がある。 そこで本研究では,治療グループ間でのエンド・ツー・エンド情報を動的に共有する学習者を分類する深層学習型フレームワークを提案する。 このフレームワークは、パラメータ効率、高速トレーニング、改善された結果などの利点を提供する。 提案フレームワークは既存のCATE学習者を補完し,新たな不確実性を考慮したCATE学習者のクラスを導入する。 我々は、よく使われるCATE学習者のHyperCATEバージョンを開発し、IHDP、ACIC-2016、Twinsベンチマークで評価する。 実験結果から,提案手法は,より小さなデータセットに対する有効性の向上とともに,逆ファクト推論によるCATE推定誤差の改善を図っている。

Existing heterogeneous treatment effects learners, also known as conditional average treatment effects (CATE) learners, lack a general mechanism for end-to-end inter-treatment information sharing, and data have to be split among potential outcome functions to train CATE learners which can lead to biased estimates with limited observational datasets. To address this issue, we propose a novel deep learning-based framework to train CATE learners that facilitates dynamic end-to-end information sharing among treatment groups. The framework is based on \textit{soft weight sharing} of \textit{hypernetworks}, which offers advantages such as parameter efficiency, faster training, and improved results. The proposed framework complements existing CATE learners and introduces a new class of uncertainty-aware CATE learners that we refer to as \textit{HyperCATE}. We develop HyperCATE versions of commonly used CATE learners and evaluate them on IHDP, ACIC-2016, and Twins benchmarks. Our experimental results show that the proposed framework improves the CATE estimation error via counterfactual inference, with increasing effectiveness for smaller datasets.
翻訳日:2023-05-26 15:17:13 公開日:2023-05-25
# アルゴリズムフェアネスのモニタリング

Monitoring Algorithmic Fairness ( http://arxiv.org/abs/2305.15979v1 )

ライセンス: Link先を確認
Thomas A. Henzinger, Mahyar Karimi, Konstantin Kueffner, Kaushik Mallik(参考訳) 機械学習システムは人間に関する意思決定に広く使われており、それらが公平であること、すなわち、敏感な属性に基づく個人に対する偏見がないことが重要である。 本稿では,モデルが未知であるがマルコフ連鎖構造を有するシステムに対して,アルゴリズム的公平性のランタイム検証を行う。 我々は,人口格差,平等な機会,社会的負担など,多くの一般的なアルゴリズム的公平性をモデル化できる仕様言語を導入する。 我々は,与えられたシステムで発生した事象の長い連続を観測するモニタを構築し,各観測結果から,その時点までのシステムの公正あるいは偏りを定量的に推定する。 推定値は、変数エラー境界と与えられた信頼度を正確に変調することが証明され、そこでは、観測シーケンスが長くなるにつれてエラー境界がより厳密になる。 我々のモニターは2種類のタイプで, 使用頻度とベイズ統計の推論手法について検討した。 頻度主義者は、基礎的真理に関して客観的に正しい推定値をモニターする一方で、ベイジアンは、システムのモデルに関する所定の事前の信念に基づいて正しい推定値をモニターする。 プロトタイプ実装を用いて,異なる社会的背景を持つ受験者に対して,銀行が公正であるか,大学が学生を認め,社会に合理的な財政負担を負うかの監視方法を示す。 理論的な複雑さはある場合において異なるが、我々の実験では、頻繁なモニターとベイズ型のモニターの両方がそれぞれの観測結果を更新するのに1ミリ秒もかからなかった。

Machine-learned systems are in widespread use for making decisions about humans, and it is important that they are fair, i.e., not biased against individuals based on sensitive attributes. We present runtime verification of algorithmic fairness for systems whose models are unknown, but are assumed to have a Markov chain structure. We introduce a specification language that can model many common algorithmic fairness properties, such as demographic parity, equal opportunity, and social burden. We build monitors that observe a long sequence of events as generated by a given system, and output, after each observation, a quantitative estimate of how fair or biased the system was on that run until that point in time. The estimate is proven to be correct modulo a variable error bound and a given confidence level, where the error bound gets tighter as the observed sequence gets longer. Our monitors are of two types, and use, respectively, frequentist and Bayesian statistical inference techniques. While the frequentist monitors compute estimates that are objectively correct with respect to the ground truth, the Bayesian monitors compute estimates that are correct subject to a given prior belief about the system's model. Using a prototype implementation, we show how we can monitor if a bank is fair in giving loans to applicants from different social backgrounds, and if a college is fair in admitting students while maintaining a reasonable financial burden on the society. Although they exhibit different theoretical complexities in certain cases, in our experiments, both frequentist and Bayesian monitors took less than a millisecond to update their verdicts after each observation.
翻訳日:2023-05-26 15:16:53 公開日:2023-05-25
# 量子完全同型暗号に基づく効率的かつセキュアな量子ネットワーク符号化

Efficient and secure quantum network coding based on quantum full homomorphic encryption ( http://arxiv.org/abs/2305.15978v1 )

ライセンス: Link先を確認
Ning Wang, Fei Gao, Song Lin(参考訳) 本稿では,$d$次元の量子完全同型暗号に基づいて,効率的かつセキュアな量子ネットワーク符号化プロトコルを提案する。 まず、$d$-dimensional universal quantum gates を用いて量子完全準同型暗号プロトコルを構築する。 本研究では,効率的な量子ネットワーク符号化プロトコルを提案する。 このプロトコルでは、2つのソースノードがそれぞれの準備された量子状態を量子完全準同型暗号プロトコルで暗号化する。 2つの中間ノードは、受信した量子状態の準同型評価を順次行う。 最後に、2つのシンクノードは、測定結果に応じてバタフライネットワーク内の2つのソースノードが送信する量子状態を回復する。 性能解析により,提案した量子ネットワーク符号化プロトコルは,不正な中間ノードと外部の盗聴者による攻撃に対して正確かつ耐性があることが示された。 関連するプロトコルと比較して,提案プロトコルは$d$次元量子システムにおいて情報転送を可能にするだけでなく,暗号化フェーズでは1つの量子ゲートと長さ2のキーのみを必要とするため,効率が向上する。

Based on $d$-dimensional quantum full homomorphic encryption, an efficient and secure quantum network coding protocol is proposed in this paper. First, a quantum full homomorphic encryption protocol is constructed utilizing $d$-dimensional universal quantum gates. On this basis, an efficient quantum network coding protocol is proposed. In the protocol, two source nodes encrypt their respective prepared quantum states with the quantum full homomorphic encryption protocol. The two intermediate nodes successively perform homomorphic evaluation of the received quantum states. Finally, the two sink nodes recover the quantum states transmitted by the two source nodes in the butterfly network depending on their measurement results. The performance analysis shows that the proposed quantum network coding protocol is correct and resistant to attacks launched by dishonest intermediate nodes and external eavesdroppers. Compared to related protocols, the proposed protocol not only enables to transfer information in $d$-dimensional quantum system, but also requires only 1 quantum gate and a key of length 2 in the encryption phase, which makes the protocol has higher efficiency.
翻訳日:2023-05-26 15:16:25 公開日:2023-05-25
# 予測摂動スコアを用いた複数摂動探索による逆データ検出

Detecting Adversarial Data by Probing Multiple Perturbations Using Expected Perturbation Score ( http://arxiv.org/abs/2305.16035v1 )

ライセンス: Link先を確認
Shuhai Zhang, Feng Liu, Jiahao Yang, Yifan Yang, Changsheng Li, Bo Han, Mingkui Tan(参考訳) adversarial detectionは、自然分布と逆分布の差に基づいて、与えられたサンプルが逆分布であるかどうかを判定することを目的としている。 残念ながら、特に高次元空間において、2つのデータ分布を推定または比較することは極めて困難である。 近年では、サンプルのログ確率密度(スコア)w.r.t.の勾配が計算の代替統計量として用いられる。 しかし,1つのサンプルだけでは情報不足のため,各サンプルの識別に敏感であることが判明した。 本稿では,様々な摂動後のサンプルの期待値であるEPS(pre expected perturbation score)を提案する。 具体的には、1つのサンプルについて適切な情報を得るために、様々なノイズを加えてその多視点観測を捉える。 理論的には、ESSは2つのサンプル間の差を計算するのに適切な統計量である。 実際、各サンプルのEPSを推定するために、事前学習した拡散モデルを用いることができる。 最後に,eps-based adversarial detection (eps-ad) 法を提案し,eps-based maximum mean discrepancy (mmd) を試験試料と自然試料の差を測定する指標として開発した。 また, 自然試料と逆試料とのEPSに基づくMDDは, 自然試料よりも大きいことを示した。 EPS-ADの対向検出性能は良好であった。

Adversarial detection aims to determine whether a given sample is an adversarial one based on the discrepancy between natural and adversarial distributions. Unfortunately, estimating or comparing two data distributions is extremely difficult, especially in high-dimension spaces. Recently, the gradient of log probability density (a.k.a., score) w.r.t. the sample is used as an alternative statistic to compute. However, we find that the score is sensitive in identifying adversarial samples due to insufficient information with one sample only. In this paper, we propose a new statistic called expected perturbation score (EPS), which is essentially the expected score of a sample after various perturbations. Specifically, to obtain adequate information regarding one sample, we perturb it by adding various noises to capture its multi-view observations. We theoretically prove that EPS is a proper statistic to compute the discrepancy between two samples under mild conditions. In practice, we can use a pre-trained diffusion model to estimate EPS for each sample. Last, we propose an EPS-based adversarial detection (EPS-AD) method, in which we develop EPS-based maximum mean discrepancy (MMD) as a metric to measure the discrepancy between the test sample and natural samples. We also prove that the EPS-based MMD between natural and adversarial samples is larger than that among natural samples. Extensive experiments show the superior adversarial detection performance of our EPS-AD.
翻訳日:2023-05-26 15:10:26 公開日:2023-05-25
# 協調ブラインド画像の劣化

Collaborative Blind Image Deblurring ( http://arxiv.org/abs/2305.16034v1 )

ライセンス: Link先を確認
Thomas Eboli, Jean-Michel Morel, Gabriele Facciolo(参考訳) ぼやけた画像は通常、画像領域のさまざまな場所で同様のぼやけを示す。 類似のぼかしのパッチを抽出する場合、共同でパッチのスタックを処理することで、個別に処理するよりも精度が高いことを示す。 私たちのコラボレーティブなスキームは、スタック次元のプーリング層を備えたニューラルネットワークアーキテクチャで実装されます。 画像のシャープニング, カメラシェイク除去, 光収差補正の3つの実用的なパッチ抽出手法を提案し, 提案手法を合成および実世界のベンチマークで検証した。 それぞれの曖昧なインスタンスに対して、提案された協調戦略は、重要な量的および質的な改善をもたらす。

Blurry images usually exhibit similar blur at various locations across the image domain, a property barely captured in nowadays blind deblurring neural networks. We show that when extracting patches of similar underlying blur is possible, jointly processing the stack of patches yields superior accuracy than handling them separately. Our collaborative scheme is implemented in a neural architecture with a pooling layer on the stack dimension. We present three practical patch extraction strategies for image sharpening, camera shake removal and optical aberration correction, and validate the proposed approach on both synthetic and real-world benchmarks. For each blur instance, the proposed collaborative strategy yields significant quantitative and qualitative improvements.
翻訳日:2023-05-26 15:10:01 公開日:2023-05-25
# シリコン非線形干渉計によるghz構成可能な光子対生成

GHz configurable photon pair generation from a silicon nonlinear interferometer ( http://arxiv.org/abs/2305.16033v1 )

ライセンス: Link先を確認
Jonathan Frazer, Takafumi Ono, Jonathan C. F. Matthews(参考訳) 光子の低損失と高速処理は、フォトニック量子情報のアーキテクチャの中心である。 高速スイッチは非決定論的光子源と論理ゲートを決定論的にすることができるが、量子光源をオン・オフできる速度はフォトニックコンピュータのクロックレートと量子通信のデータレートに影響を与える。 ここでは、シリコン導波路非線形干渉計における損失キャリア劣化変調器を用いて、生成した光子を変調器の位相依存寄生損失に曝すことなく、1〜GHzの光子対生成を変調する。 非線形干渉計の超感度は、駆動レーザの変調に比べて消費電力を減少させる。 これは、高速で一般的な非線形導波路ネットワークのためのビルディングブロックコンポーネントとなり得る。

Low loss and high speed processing of photons is central to architectures for photonic quantum information. High speed switching enables non-deterministic photon sources and logic gates to be made deterministic, while the speed with which quantum light sources can be turned on and off impacts the clock rate of photonic computers and the data rate of quantum communication. Here we use lossy carrier depletion modulators in a silicon waveguide nonlinear interferometer to modulate photon pair generation at 1~GHz without exposing the generated photons to the phase dependent parasitic loss of the modulators. The super sensitivity of nonlinear interferometers reduces power consumption compared to modulating the driving laser. This can be a building block component for high speed programmabile, generalised nonlinear waveguide networks.
翻訳日:2023-05-26 15:09:49 公開日:2023-05-25
# 自己Contrastive Bregman Divergence Learningによる効果的な文書埋め込み

Efficient Document Embeddings via Self-Contrastive Bregman Divergence Learning ( http://arxiv.org/abs/2305.16031v1 )

ライセンス: Link先を確認
Daniel Saggau, Mina Rezaei, Bernd Bisch, Ilias Chalkidis(参考訳) 学習品質文書の埋め込みは自然言語処理(NLP)、情報検索(IR)、レコメンデーションシステム、検索エンジンの基本的な問題である。 近年, 自己矛盾学習による文埋め込みを生成するトランスフォーマーモデルの開発が進んでいるが, 長文(単語のK)の符号化は, 効率と品質の両面において依然として困難である。 そこで我々は,最先端の教師なしコントラスト学習法(SimCSE)を用いて,Longfomerベースの文書エンコーダを訓練する。 さらに,出力文書表現の質を高めることを目的とした機能的ブレグマン発散に基づく,新たな凸型ニューラルネットワークをベースラインとして,シアム型ニューラルネットワークを補完する。 提案するニューラルブレグマンネットワークと自己矛盾性シャムネットワークの組み合わせは, 法領域と生物医学領域の3つの長文文書トピック分類タスクにおいて, 2つの線形分類設定においてベースラインを上回った。

Learning quality document embeddings is a fundamental problem in natural language processing (NLP), information retrieval (IR), recommendation systems, and search engines. Despite recent advances in the development of transformer-based models that produce sentence embeddings with self-contrastive learning, the encoding of long documents (Ks of words) is still challenging with respect to both efficiency and quality considerations. Therefore, we train Longfomer-based document encoders using a state-of-the-art unsupervised contrastive learning method (SimCSE). Further on, we complement the baseline method -- siamese neural network -- with additional convex neural networks based on functional Bregman divergence aiming to enhance the quality of the output document representations. We show that overall the combination of a self-contrastive siamese network and our proposed neural Bregman network outperforms the baselines in two linear classification settings on three long document topic classification tasks from the legal and biomedical domains.
翻訳日:2023-05-26 15:09:37 公開日:2023-05-25
# 情報損失・混合・創発型III$_1$因子

Information loss, mixing and emergent type III$_1$ factors ( http://arxiv.org/abs/2305.16028v1 )

ライセンス: Link先を確認
Keiichiro Furuya, Nima Lashkari, Mudassir Moosa, Shoy Ouseph(参考訳) ブラックホール情報損失問題の顕在化は、大規模な反ド・ジッターブラックホールにおけるプローブ作用素の2点関数が時間内に崩壊するのに対して、境界CFTでは、ほぼ周期的な時間関数であることが期待されている。 二点関数(時間的クラスター化)の崩壊は、量子重力における可観測代数、状態、および力学の性質にとって重要な手がかりである。 時間内にクラスタ化する演算子を"混合"と呼び、混合に必要な十分な条件を探索します。 情報損失問題は、I型代数では混合作用素が存在しないという主張の特別な場合である。 熱場二重(kms状態)において、混合作用素が(乗法の下で)代数を形成するならば、結果として得られる代数はフォン・ノイマン型iii$_1$因子でなければならない。 言い換えると、すべての非保存作用素が拡散する物理的に直感的な要件は非常に強く、可観測代数をiii$_1$因子と呼ばれるエキゾチックな代数に固定する。 より一般に、一般量子系の任意の平衡状態 (von Neumann algebra) に対して、モジュラフローの下で混合する作用素の集合が代数を形成するとき、III$_1$ von Neumann factor であることを示す。 一般化自由体の理論(GFF)において、GFFクラスタの時間における2点函数がすべての作用素が混合され、代数がタイプIII$_1$因子であることが示される。 例えば、$\mathscr{N=4}$ SYM において、ホーキング・ページ相転移より上、単一のトレース作用素のクラスタリングは、代数がIII$_1$因子の型であることを示し、最近ルーテウスとリューの予想を定めている。 時間帯域に関連する GFF の C$^*$-algebra と von Neumann の部分代数を明示的に構成し、より一般的には HKLL 再構成写像を用いてバルク時空の開集合を構成する。

A manifestation of the black hole information loss problem is that the two-point function of probe operators in a large Anti-de Sitter black hole decays in time, whereas, on the boundary CFT, it is expected to be an almost periodic function of time. We point out that the decay of the two-point function (clustering in time) holds important clues to the nature of observable algebras, states, and dynamics in quantum gravity. We call operators that cluster in time "mixing" and explore the necessary and sufficient conditions for mixing. The information loss problem is a special case of the statement that in type I algebras, there exists no mixing operators. We prove that, in a thermofield double (KMS state), if mixing operators form an algebra (close under multiplication) the resulting algebra must be a von Neumann type III$_1$ factor. In other words, the physically intuitive requirement that all non-conserved operators should diffuse is so strong that it fixes the observable algebra to be an exotic algebra called a type III$_1$ factor. More generally, for an arbitrary out-of-equilibrium state of a general quantum system (von Neumann algebra), we show that if the set of operators that mix under modular flow forms an algebra it is a type III$_1$ von Neumann factor. In a theory of Generalized Free Fields (GFF), we show that if the two-point function of GFF clusters in time all operators are mixing, and the algebra is a type III$_1$ factor. For instance, in $\mathscr{N=4}$ SYM, above the Hawking-Page phase transition, clustering of the single trace operators implies that the algebra is a type III$_1$ factor, settling a recent conjecture of Leutheusser and Liu. We explicitly construct the C$^*$-algebra and von Neumann subalgebras of GFF associated with time bands and more generally, open sets of the bulk spacetime using the HKLL reconstruction map.
翻訳日:2023-05-26 15:09:18 公開日:2023-05-25
# NVTC:非線形ベクトル変換符号化

NVTC: Nonlinear Vector Transform Coding ( http://arxiv.org/abs/2305.16025v1 )

ライセンス: Link先を確認
Runsen Feng, Zongyu Guo, Weiping Li, Zhibo Chen(参考訳) 理論上、ベクトル量子化(VQ)は常にスカラー量子化(SQ)よりも、レート歪み(R-D)性能の点で優れている。 ニューラル画像圧縮の最近の最先端手法は、その指数関数的に増大する複雑性のためにVQの利点を見越して、一様スカラー量子化を伴う非線形変換符号化(NTC)に基づいている。 本稿では,最近のニューラルネットワークが非線形変換によるSQの圧縮性能を著しく向上させたとしても,SQとVQの間には相変わらずキャズムが存在することを示す。 そこで本研究では,非線形ベクトル変換符号化(NVTC)と呼ばれるニューラル画像圧縮のための新しいフレームワークを提案する。 NVTCは、(1)多段階量子化戦略と(2)非線形ベクトル変換によるVQの臨界複雑性問題を解く。 さらに, エントロピー拘束vqを潜在空間に適用し, 共分散最適化のための量子化境界を適応的に決定し, 理論的および実験的に性能を向上させる。 従来のNTCアプローチと比較して、NVTCはより優れたレート歪み性能、より高速な復号速度、より小さいモデルサイズを示す。 私たちのコードはhttps://github.com/USTC-IMCL/NVTCで利用可能です。

In theory, vector quantization (VQ) is always better than scalar quantization (SQ) in terms of rate-distortion (R-D) performance. Recent state-of-the-art methods for neural image compression are mainly based on nonlinear transform coding (NTC) with uniform scalar quantization, overlooking the benefits of VQ due to its exponentially increased complexity. In this paper, we first investigate on some toy sources, demonstrating that even if modern neural networks considerably enhance the compression performance of SQ with nonlinear transform, there is still an insurmountable chasm between SQ and VQ. Therefore, revolving around VQ, we propose a novel framework for neural image compression named Nonlinear Vector Transform Coding (NVTC). NVTC solves the critical complexity issue of VQ through (1) a multi-stage quantization strategy and (2) nonlinear vector transforms. In addition, we apply entropy-constrained VQ in latent space to adaptively determine the quantization boundaries for joint rate-distortion optimization, which improves the performance both theoretically and experimentally. Compared to previous NTC approaches, NVTC demonstrates superior rate-distortion performance, faster decoding speed, and smaller model size. Our code is available at https://github.com/USTC-IMCL/NVTC
翻訳日:2023-05-26 15:08:39 公開日:2023-05-25
# NaSGEC:ネイティブ話者テキストからの中国語文法的誤り訂正データセット

NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from Native Speaker Texts ( http://arxiv.org/abs/2305.16023v1 )

ライセンス: Link先を確認
Yue Zhang, Bo Zhang, Haochen Jiang, Zhenghua Li, Chen Li, Fei Huang, Min Zhang(参考訳) 複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。 これまでのcgecの研究は主に、1つのドメイン、特に学習者エッセイからのテキストの修正に焦点を当てている。 対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。 最先端のCGECモデルと異なるトレーニングデータを用いてNaSGECのベンチマーク結果を示す。 さらに、実証的・統計的両視点から、ドメイン間の接続とギャップを詳細に分析する。 我々は,本研究が今後,重要かつ未探索の方向性-ドメイン横断GECに刺激を与えることを期待している。

We introduce NaSGEC, a new dataset to facilitate research on Chinese grammatical error correction (CGEC) for native speaker texts from multiple domains. Previous CGEC research primarily focuses on correcting texts from a single domain, especially learner essays. To broaden the target domain, we annotate multiple references for 12,500 sentences from three native domains, i.e., social media, scientific writing, and examination. We provide solid benchmark results for NaSGEC by employing cutting-edge CGEC models and different training data. We further perform detailed analyses of the connections and gaps between our domains from both empirical and statistical views. We hope this work can inspire future studies on an important but under-explored direction--cross-domain GEC.
翻訳日:2023-05-26 15:08:16 公開日:2023-05-25
# 超流動中の渦スピン

Vortex spin in a superfluid ( http://arxiv.org/abs/2305.16016v1 )

ライセンス: Link先を確認
Emil G\'enetay Johansen and Tapio Simula(参考訳) 一般相対性理論は、時空の曲率は平行輸送粒子上でスピン回転を誘導すると予想する。 ウンルーの類似重力像を展開し、2次元超流動ボース-アインシュタイン凝縮体に埋め込まれた量子渦を考える。 このような渦は重力場にスピンを持つ荷電粒子のように動的に振る舞う。 超流体中の渦スピンの存在は、オンサーガーの循環の量子化予測を補完し、回転する超流体の潜在的な量子技術応用を示唆する。

General relativity predicts that the curvature of spacetime induces spin rotations on a parallel transported particle. We deploy Unruh's analogue gravity picture and consider a quantised vortex embedded in a two-dimensional superfluid Bose--Einstein condensate. We show that such a vortex behaves dynamically like a charged particle with a spin in a gravitational field. The existence of a vortex spin in a superfluid complements Onsager's prediction of the quantisation of circulation, and is suggestive of potential quantum technology applications of rotating superfluids.
翻訳日:2023-05-26 15:08:04 公開日:2023-05-25
# 滑らかさを活用できるサンプルはいくつ必要か?

How many samples are needed to leverage smoothness? ( http://arxiv.org/abs/2305.16014v1 )

ライセンス: Link先を確認
Vivien Cabannes, Stefano Vigogna(参考訳) 統計学習における中心となる原理は、対象関数の滑らかさが次元性の呪いを破ることができることである。 しかし、テイラー展開による滑らかな関数の学習には、高階微分の有意義な推定を行うのに十分なサンプルが必要であり、データ数と入力次元の比率が比較的小さい機械学習問題では難しいと思われる。 Taylorの展開推定に基づいて、次元の呪いを破ることを本当に望んでいるだろうか? テイラー展開がフーリエあるいはウェーブレット展開に置き換えられたらどうなるか? 一般化誤差の新たな下限を導出することにより,古典的学習理論のステートメントを超えては描かれない定数や推移的レジームの役割を解明し,実際的な役割を担っている。

A core principle in statistical learning is that smoothness of target functions allows to break the curse of dimensionality. However, learning a smooth function through Taylor expansions requires enough samples close to one another to get meaningful estimate of high-order derivatives, which seems hard in machine learning problems where the ratio between number of data and input dimension is relatively small. Should we really hope to break the curse of dimensionality based on Taylor expansion estimation? What happens if Taylor expansions are replaced by Fourier or wavelet expansions? By deriving a new lower bound on the generalization error, this paper investigates the role of constants and transitory regimes which are usually not depicted beyond classical learning theory statements while that play a dominant role in practice.
翻訳日:2023-05-26 15:07:55 公開日:2023-05-25
# 制約付き$k$-submodular Maximizationのためのオンラインおよびストリーミングアルゴリズム

Online and Streaming Algorithms for Constrained $k$-Submodular Maximization ( http://arxiv.org/abs/2305.16013v1 )

ライセンス: Link先を確認
Fabian Spaeh, Alina Ene, Huy L. Nguyen(参考訳) 制約付き$k$-submodular maximizationは、広告の割り当て、影響の最大化、パーソナライズドレコメンデーションなどの多くの個別最適化問題をキャプチャする一般的なフレームワークである。 これらのアプリケーションの多くは、データセットが大きく、あるいはオンライン的に行う必要があるため、効率的なストリーミングとオンラインアルゴリズムの開発を動機付けている。 本研究では,定性制約とknapsack制約を対象とする単調および一般(おそらく非単調)目的の制約付き$k$サブモジュラー最大化のためのシングルパスストリーミングとオンラインアルゴリズムを開発する。 提案アルゴリズムは、ほぼすべての設定において、技術の状態を改善するための証明可能な定数近似を実現する。 さらに、それらは組合せ的で非常に効率的であり、最適な空間と実行時間を持っている。 広告アロケーションや他のアプリケーションのインスタンスに対して,我々のアルゴリズムを実験的に評価し,我々のアルゴリズムが効率的でスケーラブルであることを確認し,オフラインの欲求アルゴリズムに匹敵する価値の高いソリューションを構築する。

Constrained $k$-submodular maximization is a general framework that captures many discrete optimization problems such as ad allocation, influence maximization, personalized recommendation, and many others. In many of these applications, datasets are large or decisions need to be made in an online manner, which motivates the development of efficient streaming and online algorithms. In this work, we develop single-pass streaming and online algorithms for constrained $k$-submodular maximization with both monotone and general (possibly non-monotone) objectives subject to cardinality and knapsack constraints. Our algorithms achieve provable constant-factor approximation guarantees which improve upon the state of the art in almost all settings. Moreover, they are combinatorial and very efficient, and have optimal space and running time. We experimentally evaluate our algorithms on instances for ad allocation and other applications, where we observe that our algorithms are efficient and scalable, and construct solutions that are comparable in value to offline greedy algorithms.
翻訳日:2023-05-26 15:07:40 公開日:2023-05-25
# 競合間の戦略的データ共有

Strategic Data Sharing between Competitors ( http://arxiv.org/abs/2305.16052v1 )

ライセンス: Link先を確認
Nikita Tsoy and Nikola Konstantinov(参考訳) 協調学習技術は近年大きく進歩し、複数の組織にまたがってプライベートモデルトレーニングを可能にしている。 この機会にもかかわらず、競合他社とのデータ共有を考えると、企業はジレンマに直面する。コラボレーションは企業の機械学習モデルを改善することができるが、競合他社に利益をもたらし、利益を減少させる可能性がある。 本稿では,このデータ共有トレードオフを分析するための汎用フレームワークを提案する。 フレームワークは3つのコンポーネントで構成されており、それぞれ、企業の生産決定、モデル品質に対する追加データの影響、データ共有交渉プロセスである。 次に,従来の経済理論に基づく市場モデルに基づく枠組みのインスタンス化を行い,協調的インセンティブに影響を与える重要な要因を明らかにする。 その結果,市場条件がデータ共有インセンティブに与える影響が示唆された。 特に、企業の製品間の類似性や、難しい学習タスクがコラボレーションを促進するという点で、競争が減少していることが分かりました。

Collaborative learning techniques have significantly advanced in recent years, enabling private model training across multiple organizations. Despite this opportunity, firms face a dilemma when considering data sharing with competitors -- while collaboration can improve a company's machine learning model, it may also benefit competitors and hence reduce profits. In this work, we introduce a general framework for analyzing this data-sharing trade-off. The framework consists of three components, representing the firms' production decisions, the effect of additional data on model quality, and the data-sharing negotiation process, respectively. We then study an instantiation of the framework, based on a conventional market model from economic theory, to identify key factors that affect collaboration incentives. Our findings indicate a profound impact of market conditions on the data-sharing incentives. In particular, we find that reduced competition, in terms of the similarities between the firms' products, and harder learning tasks foster collaboration.
翻訳日:2023-05-26 15:00:12 公開日:2023-05-25
# Emはどうだろう? 商用機械翻訳が(neo-)pronounsを処理できない理由

What about em? How Commercial Machine Translation Fails to Handle (Neo-)Pronouns ( http://arxiv.org/abs/2305.16051v1 )

ライセンス: Link先を確認
Anne Lauscher, Debora Nozza, Archie Crowley, Ehm Miltersen, Dirk Hovy(参考訳) 3人称代名詞の使用が新しい形態、例えば新代名詞にシフトするにつれて、アイデンティティを包含するNLPに関するさらなる研究が必要である。 排除は最も人気のあるNLPアプリケーションの一つである機械翻訳(MT)において特に有害である。 単語代名詞の翻訳は、非バイナリな個人(Dev et al., 2021)など、余分なグループに対して区別することができる。 この「現実チェック」では、3つの商業MTシステムがどのように3人称代名詞を翻訳するかを考察する。 具体的には、英語から他の5つの言語(デンマーク語、ファージ語、フランス語、ドイツ語、イタリア語)への男女中性代名詞と、デンマーク語から英語への翻訳を比較した。 誤り分析の結果,性中立代名詞の存在はしばしば文法的・意味的翻訳誤りをもたらすことがわかった。 同様に、性中立性はしばしば保存されない。 様々な言語から影響を受けた母国語話者の意見を調査することにより,今後のMT研究の課題に対処するためのレコメンデーションを提供する。

As 3rd-person pronoun usage shifts to include novel forms, e.g., neopronouns, we need more research on identity-inclusive NLP. Exclusion is particularly harmful in one of the most popular NLP applications, machine translation (MT). Wrong pronoun translations can discriminate against marginalized groups, e.g., non-binary individuals (Dev et al., 2021). In this ``reality check'', we study how three commercial MT systems translate 3rd-person pronouns. Concretely, we compare the translations of gendered vs. gender-neutral pronouns from English to five other languages (Danish, Farsi, French, German, Italian), and vice versa, from Danish to English. Our error analysis shows that the presence of a gender-neutral pronoun often leads to grammatical and semantic translation errors. Similarly, gender neutrality is often not preserved. By surveying the opinions of affected native speakers from diverse languages, we provide recommendations to address the issue in future MT research.
翻訳日:2023-05-26 14:59:57 公開日:2023-05-25
# CN-Celeb-AV: 人物認識のための多世代オーディオビジュアルデータセット

CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition ( http://arxiv.org/abs/2305.16049v1 )

ライセンス: Link先を確認
Lantian Li and Xiaolou Li and Haoyu Jiang and Chen Chen and Ruihai Hou and Dong Wang(参考訳) audio-visual person recognition (avpr) が注目されている。 しかし、これまでのAVPR研究に用いられるほとんどのデータセットは制約のある環境で収集されているため、実際のシナリオにおけるAVPRシステムの真のパフォーマンスを反映することはできない。 本研究では,非拘束条件下でのAVPR研究の要請に応えるため,CN-Celeb-AVという「野生」で収集された多世代AVPRデータセットを提案する。 このデータセットには、公開メディアの1,136人のビデオセグメントが420k以上含まれている。 特に,(1)複数のジャンルのデータ,(2)部分的な情報を含むセグメントという2つの現実世界の複雑さを強調する。 CN-Celeb-AVを2つのパブリックなAVPRベンチマークデータセットと比較する総合的研究を行い、その結果、CN-Celeb-AVは現実世界のシナリオと一致しており、AVPR研究の新しいベンチマークデータセットとみなすことができることを示した。 データセットには、実際の状況下でのAVPRシステムのパフォーマンス向上に使用できる開発セットも含まれている。 データセットは研究者は無料で、http://cnceleb.org/からダウンロードできる。

Audio-visual person recognition (AVPR) has received extensive attention. However, most datasets used for AVPR research so far are collected in constrained environments, and thus cannot reflect the true performance of AVPR systems in real-world scenarios. To meet the request for research on AVPR in unconstrained conditions, this paper presents a multi-genre AVPR dataset collected `in the wild', named CN-Celeb-AV. This dataset contains more than 420k video segments from 1,136 persons from public media. In particular, we put more emphasis on two real-world complexities: (1) data in multiple genres; (2) segments with partial information. A comprehensive study was conducted to compare CN-Celeb-AV with two popular public AVPR benchmark datasets, and the results demonstrated that CN-Celeb-AV is more in line with real-world scenarios and can be regarded as a new benchmark dataset for AVPR research. The dataset also involves a development set that can be used to boost the performance of AVPR systems in real-life situations. The dataset is free for researchers and can be downloaded from http://cnceleb.org/.
翻訳日:2023-05-26 14:59:39 公開日:2023-05-25
# ufo:コモンセンス質問応答のための統一事実獲得

UFO: Unified Fact Obtaining for Commonsense Question Answering ( http://arxiv.org/abs/2305.16048v1 )

ライセンス: Link先を確認
Zhifeng Li and Yifan Fan and Bowei Zou and Yu Hong(参考訳) 推論能力を高めるために外部知識を活用することは、常識的な質問応答に不可欠である。 しかし、既存の知識基盤は、必然的に世界規模の常識知識をカバーできない手動アノテーションに大きく依存している。 したがって、知識ベースは多様な質問に対する推論をサポートするのに十分な柔軟性を持っていない。 近年,大規模言語モデル (LLM) は,知識の獲得と活用の知能を劇的に向上させ,言語モデルから知識を引き出すという問題に対処する新たな方法を生み出している。 我々は、ufo(unified facts obtained)アプローチを提案する。 UFOはLLMを知識ソースに変換し、与えられた質問に対して関連する事実(知識ステートメント)を生成する。 まず,コモンセンスと異なる質問スタイルの異なる側面を包含するデモからなる統一的なプロンプトを開発する。 そこで我々は,LLMに対して,様々なコモンセンス質問に対する質問関連支援事実をプロンプトを介して生成するように指示した。 事実生成後、最も適合した事実を選択するために、厳密な検索に基づく事実選択戦略を適用する。 この種の事実は、質問とともに、回答推論モデルに反映されます。 特に、統一的なプロンプトの設計により、UFOは一般的なコモンセンス、科学コモンセンス、社会コモンセンスを含む様々なコモンセンスの推論をサポートすることができる。 CommonsenseQA 2.0、OpenBookQA、QASC、Social IQAベンチマークの大規模な実験により、UFOは推論モデルの性能を大幅に改善し、手作業で構築した知識源よりも優れていた。

Leveraging external knowledge to enhance the reasoning ability is crucial for commonsense question answering. However, the existing knowledge bases heavily rely on manual annotation which unavoidably causes deficiency in coverage of world-wide commonsense knowledge. Accordingly, the knowledge bases fail to be flexible enough to support the reasoning over diverse questions. Recently, large-scale language models (LLMs) have dramatically improved the intelligence in capturing and leveraging knowledge, which opens up a new way to address the issue of eliciting knowledge from language models. We propose a Unified Facts Obtaining (UFO) approach. UFO turns LLMs into knowledge sources and produces relevant facts (knowledge statements) for the given question. We first develop a unified prompt consisting of demonstrations that cover different aspects of commonsense and different question styles. On this basis, we instruct the LLMs to generate question-related supporting facts for various commonsense questions via prompting. After facts generation, we apply a dense retrieval-based fact selection strategy to choose the best-matched fact. This kind of facts will be fed into the answer inference model along with the question. Notably, due to the design of unified prompts, UFO can support reasoning in various commonsense aspects (including general commonsense, scientific commonsense, and social commonsense). Extensive experiments on CommonsenseQA 2.0, OpenBookQA, QASC, and Social IQA benchmarks show that UFO significantly improves the performance of the inference model and outperforms manually constructed knowledge sources.
翻訳日:2023-05-26 14:59:21 公開日:2023-05-25
# 2光子干渉法による色分散のプラグアンドプレイ計測

Plug-and-play measurement of chromatic dispersion by means of two-photon interferometry ( http://arxiv.org/abs/2305.16045v1 )

ライセンス: Link先を確認
Romain Dalidet, Anthony Martin, Mattis Riesner, Sidi-Ely Ahmedou, Romain Dauliat, Baptiste Leconte, Guillaume Walter, Gr\'egory Sauder, Jean-Christophe Delagnes, Guy Millot, Philippe Roy, Rapha\"el Jamier, S\'ebastien Tanzilli, Laurent Labont\'e(参考訳) 25年前の最初の実証実験以来、量子力学は基本的な概念から、重力波検出、原子時計、プラズモニックセンシング、磁気計測など、様々な研究分野における汎用的で強力なツールへと成熟してきた。 同時に、2光子干渉計は、前例のない精度と精度で光学材料を探査する絡み合いの可能性を裏付けるものであり、革新的な機能量子センシングシステムの中心に立つことを約束している。 本稿では,透明媒質中の速度の周波数依存性,すなわち色分散(cd)を測定する量子ベースの新しい手法を提案する。 この技術は、エネルギー時間に絡み合った光子を用いて、自由進化系で記録された2光子縁の可視性からCD値に容易にアクセスできる。 さらに、我々の量子アプローチは古典的な計測技術、すなわち、プラグアンドプレイシステムにおける柔軟性と精度の全ての利点を特徴としている。

Since the first proof-of-principle experiments 25 years ago, quantum metrology has matured from fundamental concepts to versatile and powerful tools in a large variety of research branches, such as gravitational-wave detection, atomic clocks, plasmonic sensing, and magnetometry. At the same time, two-photon interferometry, which underpins the possibility of entanglement to probe optical materials with unprecedented levels of precision and accuracy, holds the promise to stand at the heart of innovative functional quantum sensing systems. We report a novel quantum-based method for measuring the frequency dependence of the velocity in a transparent medium, i.e, the chromatic dispersion (CD). This technique, using energy-time entangled photons, allows straightforward access to CD value from the visibility of two-photon fringes recorded in a free evolution regime. In addition, our quantum approach features all advantages of classical measurement techniques, i.e, flexibility and accuracy, all in a plug-and-play system.
翻訳日:2023-05-26 14:58:56 公開日:2023-05-25
# スパイクニューラルネットワークにおける計算と学習のための資源としてのノイズの利用

Exploiting Noise as a Resource for Computation and Learning in Spiking Neural Networks ( http://arxiv.org/abs/2305.16044v1 )

ライセンス: Link先を確認
Gehua Ma, Rui Yan, Huajin Tang(参考訳) スパイクニューロンのネットワークは、脳の異常な情報処理能力の基盤となり、ニューロモルフィックインテリジェンスにおける柱モデルとして登場した。 スパイキングニューラルネットワーク(SNN)に関する広範な研究にもかかわらず、ほとんどが決定論的モデルに基づいている。 SNNにノイズを組み込むことは、生物物理学的により現実的なニューラルダイナミクスをもたらし、モデル性能の恩恵を受ける可能性がある。 本稿では,雑音ニューロンのダイナミクスを組み込んだスパイキングニューロンモデルを導入することにより,ノイズスパイキングニューラルネットワーク(nsnn)とノイズ駆動学習ルール(ndl)を提案する。 提案手法は,雑音が計算と学習の資源としてどのように機能するかを示し,理論的には一般的なsnsの枠組みを提供する。 さらに、NDLはシュロゲート勾配に対する洞察に富んだ理論的根拠を提供する。 様々なSNNアーキテクチャとアルゴリズムを組み込むことにより,本手法は,決定論的SNNよりも競合性能と,困難な摂動に対する堅牢性を向上することを示した。 さらに,ニューラルコーディング研究におけるNSNNモデルの有用性を示す。 NSNNは、機械学習の実践者や計算神経科学研究者のために、強力で柔軟で使いやすいツールを提供している。

Networks of spiking neurons underpin the extraordinary information-processing capabilities of the brain and have emerged as pillar models in neuromorphic intelligence. Despite extensive research on spiking neural networks (SNNs), most are established on deterministic models. Integrating noise into SNNs leads to biophysically more realistic neural dynamics and may benefit model performance. This work presents the noisy spiking neural network (NSNN) and the noise-driven learning rule (NDL) by introducing a spiking neuron model incorporating noisy neuronal dynamics. Our approach shows how noise may act as a resource for computation and learning and theoretically provides a framework for general SNNs. Moreover, NDL provides an insightful rationale for surrogate gradients. By incorporating various SNN architectures and algorithms, we show that our approach exhibits competitive performance and improved robustness against challenging perturbations than deterministic SNNs. Additionally, we demonstrate the utility of the NSNN model for neural coding studies. Overall, NSNN offers a powerful, flexible, and easy-to-use tool for machine learning practitioners and computational neuroscience researchers.
翻訳日:2023-05-26 14:58:39 公開日:2023-05-25
# 順序付きおよびバイナリ話者埋め込み

Ordered and Binary Speaker Embedding ( http://arxiv.org/abs/2305.16043v1 )

ライセンス: Link先を確認
Jiaying Wang and Xianglong Wang and Namin Wang and Lantian Li and Dong Wang(参考訳) 現代の話者認識システムはベクトルの埋め込みによる発話を表す。 従来の埋め込みベクトルは密度が高く非構造である。 本稿では,埋め込みベクトルの次元をネストしたドロップアウトでソートし,ベルヌーイサンプリングによりソートされたベクトルをバイナリコードに変換する順序付きバイナリ埋め込み手法を提案する。 結果として順序付けられたバイナリコードには、階層的クラスタリング、メモリ使用量の削減、高速検索など、いくつかの重要なメリットがある。 これらの利点は、VoxCelebとCN-Celebデータセットを用いた話者識別タスクに関する包括的な実験によって実証的に検証された。

Modern speaker recognition systems represent utterances by embedding vectors. Conventional embedding vectors are dense and non-structural. In this paper, we propose an ordered binary embedding approach that sorts the dimensions of the embedding vector via a nested dropout and converts the sorted vectors to binary codes via Bernoulli sampling. The resultant ordered binary codes offer some important merits such as hierarchical clustering, reduced memory usage, and fast retrieval. These merits were empirically verified by comprehensive experiments on a speaker identification task with the VoxCeleb and CN-Celeb datasets.
翻訳日:2023-05-26 14:58:20 公開日:2023-05-25
# 固定信頼とそれ以上のための$\varepsilon$-best-arm識別アルゴリズム

An $\varepsilon$-Best-Arm Identification Algorithm for Fixed-Confidence and Beyond ( http://arxiv.org/abs/2305.16041v1 )

ライセンス: Link先を確認
Marc Jourdan, R\'emy Degenne, Emilie Kaufmann(参考訳) 確率的バンドイットにおいて, eb-tc$-varepsilon$-best arm identificationのための新しいサンプリング規則であるeb-tc$-varepsilon$を提案する。 これは最良腕識別のために解析された上位2つのアルゴリズムの最初の例である。 EB-TC$\varepsilon$ は *anytime* サンプリングルールであり、固定された信頼度や固定された予算識別(予算の事前の知識なしで)の修正なしに使用できる。 eb-tc$\varepsilon$の3種類の理論保証を提供する。 まず, 一定の信頼度設定において, 推定されたサンプル複雑性の境界を証明し, その漸近的最適性と探索パラメータの適応チューニングを組み合わせる。 これらの結果は,任意の時間における誤差の確率と,任意の誤差パラメータの上限で補うことができ,任意の時間におけるその単純な後悔の上限をさらに高めることができる。 最後に,EB-TC$\varepsilon$が既存のアルゴリズムと比較して,異なる設定で良好に動作することを示す。

We propose EB-TC$\varepsilon$, a novel sampling rule for $\varepsilon$-best arm identification in stochastic bandits. It is the first instance of Top Two algorithm analyzed for approximate best arm identification. EB-TC$\varepsilon$ is an *anytime* sampling rule that can therefore be employed without modification for fixed confidence or fixed budget identification (without prior knowledge of the budget). We provide three types of theoretical guarantees for EB-TC$\varepsilon$. First, we prove bounds on its expected sample complexity in the fixed confidence setting, notably showing its asymptotic optimality in combination with an adaptive tuning of its exploration parameter. We complement these findings with upper bounds on its probability of error at any time and for any error parameter, which further yield upper bounds on its simple regret at any time. Finally, we show through numerical simulations that EB-TC$\varepsilon$ performs favorably compared to existing algorithms, in different settings.
翻訳日:2023-05-26 14:58:11 公開日:2023-05-25
# L_{2}$-regularized linear DNNにおけるSGDの入射バイアス:高位から低位への片方向ジャンプ

Implicit bias of SGD in $L_{2}$-regularized linear DNNs: One-way jumps from high to low rank ( http://arxiv.org/abs/2305.16038v1 )

ライセンス: Link先を確認
Zihan Wang, Arthur Jacot(参考訳) l_{2}$-regularized loss of deep linear networks (dlns) は複数の隠れ層を持つ。 行列補完のようなタスクでは、トレーニングデータに適合する最小限のランクで局所最小値に収束することが目標である。 ランク推定ミニマはデータに合わないため容易に回避できるが、ランク推定ミニマでは勾配降下が止まる可能性がある。 sgdでは, 最下位から下位にジャンプする確率は常に存在するが, ジャンプバックの確率はゼロである。 より正確には、$b_{1}\subset b_{2}\subset\cdots\subset b_{r}$ の列を定義して、$b_{r}$ は、十分に小さなリッジパラメータである $\lambda$ と学習率 $\eta$: sgd が prob を持つランク$r$ 以下の全てのミニマを含む。 0 は$B_{r}$ を残さず、任意の開始点から 0 でない確率が存在する。 SGD が$B_{r}$

The $L_{2}$-regularized loss of Deep Linear Networks (DLNs) with more than one hidden layers has multiple local minima, corresponding to matrices with different ranks. In tasks such as matrix completion, the goal is to converge to the local minimum with the smallest rank that still fits the training data. While rank-underestimating minima can easily be avoided since they do not fit the data, gradient descent might get stuck at rank-overestimating minima. We show that with SGD, there is always a probability to jump from a higher rank minimum to a lower rank one, but the probability of jumping back is zero. More precisely, we define a sequence of sets $B_{1}\subset B_{2}\subset\cdots\subset B_{R}$ so that $B_{r}$ contains all minima of rank $r$ or less (and not more) that are absorbing for small enough ridge parameters $\lambda$ and learning rates $\eta$: SGD has prob. 0 of leaving $B_{r}$, and from any starting point there is a non-zero prob. for SGD to go in $B_{r}$.
翻訳日:2023-05-26 14:57:54 公開日:2023-05-25
# GenerateCT:テキストガイドによる3D胸部CT生成

GenerateCT: Text-Guided 3D Chest CT Generation ( http://arxiv.org/abs/2305.16037v1 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci, Sezgin Er, Enis Simsar, Alperen Tezcan, Ayse Gulnihan Simsek, Furkan Almas, Sevval Nil Esirgun, Hadrien Reynaud, Sarthak Pati, Christian Bluethgen, Bjoern Menze(参考訳) 生成モデリングは近年,特にテキスト・ツー・イメージやテキスト・ツー・ビデオ合成において,大きな進歩を遂げている。 しかし、医療分野はまだ、合成データ生成のための大規模基盤モデルの可能性を完全に活用していない。 本稿では,3次元医用画像研究の限界に対処し,我々のフレームワーク全体をオープンソース化するテキスト条件計算断層撮影(CT)の最初の手法であるGenerateCTを紹介する。 GenerateCTは、トレーニング済みの大規模言語モデル、トランスフォーマーベースのテキストコンディショナリ3D胸部CT生成アーキテクチャ、テキストコンディショナリ空間超解像拡散モデルから構成される。 また,ct-vitを提案する。ctボリュームの圧縮を効率良く行うとともに,自己回帰性を深く保ちながら,軸スライス数の可変な3次元ctボリュームの生成を可能にする。 実験により,GenerateCTは医療用テキストプロンプトと整合した現実的,高解像度,高忠実な3D胸部CTボリュームを生成できることが示された。 胸部CTボリュームの多異常度分類のための生成CTボリュームを用いたモデルを用いて,GenerateCTの可能性について検討した。 私たちの貢献は,テキスト条件3次元医用画像生成における今後の研究のための貴重な基盤を提供し,医用画像研究の進展を加速する可能性を秘めている。 我々のコード、事前訓練されたモデル、および生成されたデータはhttps://github.com/ibrahimethemhamamci/GenerateCTで入手できる。

Generative modeling has experienced substantial progress in recent years, particularly in text-to-image and text-to-video synthesis. However, the medical field has not yet fully exploited the potential of large-scale foundational models for synthetic data generation. In this paper, we introduce GenerateCT, the first method for text-conditional computed tomography (CT) generation, addressing the limitations in 3D medical imaging research and making our entire framework open-source. GenerateCT consists of a pre-trained large language model, a transformer-based text-conditional 3D chest CT generation architecture, and a text-conditional spatial super-resolution diffusion model. We also propose CT-ViT, which efficiently compresses CT volumes while preserving auto-regressiveness in-depth, enabling the generation of 3D CT volumes with variable numbers of axial slices. Our experiments demonstrate that GenerateCT can produce realistic, high-resolution, and high-fidelity 3D chest CT volumes consistent with medical language text prompts. We further investigate the potential of GenerateCT by training a model using generated CT volumes for multi-abnormality classification of chest CT volumes. Our contributions provide a valuable foundation for future research in text-conditional 3D medical image generation and have the potential to accelerate advancements in medical imaging research. Our code, pre-trained models, and generated data are available at https://github.com/ibrahimethemhamamci/GenerateCT.
翻訳日:2023-05-26 14:57:27 公開日:2023-05-25
# FAVAS: ASynchronousクライアントによるフェデレーションアベリング

FAVAS: Federated AVeraging with ASynchronous clients ( http://arxiv.org/abs/2305.16099v1 )

ライセンス: Link先を確認
Louis Leconte, Van Minh Nguyen, Eric Moulines(参考訳) 本稿では,資源制約環境下で深層ニューラルネットワーク(dnn)をトレーニングするための,新しい集中型非同期フェデレーション学習(fl)フレームワークfavasを提案する。 その人気にもかかわらず、`classical'の連合学習は、大規模無線ネットワーク上での同期通信をスケールすることの難しさに直面している。 さらに、クライアントは一般的に異なるコンピューティングリソースを持つため、更新が非同期である場合には、大きなバイアス(‘fast’クライアントに有利)が発生する可能性がある。 したがって、FLの実践的な展開には、通信/リソース制約設定において、強力な計算速度を持つユーザを扱う必要がある。 本研究では,FAVASの非凸環境における収束保証を円滑に提供し,得られた収束保証を既存の境界値と比較する。 実験結果から,FAVASアルゴリズムは標準ベンチマークにおける現在の手法よりも優れていることがわかった。

In this paper, we propose a novel centralized Asynchronous Federated Learning (FL) framework, FAVAS, for training Deep Neural Networks (DNNs) in resource-constrained environments. Despite its popularity, ``classical'' federated learning faces the increasingly difficult task of scaling synchronous communication over large wireless networks. Moreover, clients typically have different computing resources and therefore computing speed, which can lead to a significant bias (in favor of ``fast'' clients) when the updates are asynchronous. Therefore, practical deployment of FL requires to handle users with strongly varying computing speed in communication/resource constrained setting. We provide convergence guarantees for FAVAS in a smooth, non-convex environment and carefully compare the obtained convergence guarantees with existing bounds, when they are available. Experimental results show that the FAVAS algorithm outperforms current methods on standard benchmarks.
翻訳日:2023-05-26 14:50:51 公開日:2023-05-25
# 影響関数, 分類の影響, 相対的影響, 記憶と一般化について

On Influence Functions, Classification Influence, Relative Influence, Memorization and Generalization ( http://arxiv.org/abs/2305.16094v1 )

ライセンス: Link先を確認
Michael Kounavis, Ousmane Dia, Ilqar Ramazanli(参考訳) 大規模レコメンデーションシステムや自然言語処理システムといった機械学習システムは、通常数十億のトレーニングポイントでトレーニングされ、数十億や数十兆のパラメータに関連付けられる。 両方の訓練負荷を低減し、モデルの精度を高い精度で向上させる学習プロセスの改善が望まれる。 本稿では,この問題を解決するための第一歩を踏み出し,影響関数を計算の単純化の観点から研究する。 本稿では,より少ないパラメータで影響計算を行う仮定について議論する。 また,その影響値の記号は,一般化とは対照的に,トレーニングポイントが記憶すべきかどうかを示すことができることを示した。 この目的のために、一般化とは対照的に、トレーニングポイントに対する記憶の意味を正式に定義する。 本研究では,大規模機械学習システムにおいても影響関数を実践可能とし,学習過程の一部として学習点を選択的に除去するアルゴリズムによって影響値を考慮することができることを結論づける。

Machine learning systems such as large scale recommendation systems or natural language processing systems are usually trained on billions of training points and are associated with hundreds of billions or trillions of parameters. Improving the learning process in such a way that both the training load is reduced and the model accuracy improved is highly desired. In this paper we take a first step toward solving this problem, studying influence functions from the perspective of simplifying the computations they involve. We discuss assumptions, under which influence computations can be performed on significantly fewer parameters. We also demonstrate that the sign of the influence value can indicate whether a training point is to memorize, as opposed to generalize upon. For this purpose we formally define what memorization means for a training point, as opposed to generalization. We conclude that influence functions can be made practical, even for large scale machine learning systems, and that influence values can be taken into account by algorithms that selectively remove training points, as part of the learning process.
翻訳日:2023-05-26 14:50:36 公開日:2023-05-25
# 区別可能なセグメンテーションを用いたエンドツーエンド同時音声翻訳

End-to-End Simultaneous Speech Translation with Differentiable Segmentation ( http://arxiv.org/abs/2305.16093v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) エンドツーエンド同時音声翻訳(simulst)は、ストリーミング音声入力を受信しながら翻訳を出力する(すなわち、ストリーミング音声翻訳)ため、音声入力を分割して、現在の受信音声に基づいて翻訳する必要がある。 しかし、不利な瞬間に音声入力を分割すると、音響的完全性が損なわれ、翻訳モデルの性能に悪影響を及ぼす可能性がある。 したがって、翻訳モデルが高品質な翻訳を生み出すのに役立つこれらの瞬間に音声入力を分割する学習は、シマルストの鍵となる。 既存のSimulST法は、固定長セグメンテーションまたは外部セグメンテーションモデルのいずれかを使用しており、常に基礎となる翻訳モデルとセグメンテーションを分離している。 そこで本稿では,SimulST における微分可能セグメンテーション (DiSeg) を提案し,基礎となる翻訳モデルから直接セグメンテーションを学習する。 DiSegは、予測トレーニングによってハードセグメンテーションを微分可能にし、翻訳モデルと共同でトレーニングし、翻訳効果セグメンテーションを学ぶことができる。 実験結果から,DiSegは最先端性能を実現し,セグメンテーション能力に優れることが示された。

End-to-end simultaneous speech translation (SimulST) outputs translation while receiving the streaming speech inputs (a.k.a. streaming speech translation), and hence needs to segment the speech inputs and then translate based on the current received speech. However, segmenting the speech inputs at unfavorable moments can disrupt the acoustic integrity and adversely affect the performance of the translation model. Therefore, learning to segment the speech inputs at those moments that are beneficial for the translation model to produce high-quality translation is the key to SimulST. Existing SimulST methods, either using the fixed-length segmentation or external segmentation model, always separate segmentation from the underlying translation model, where the gap results in segmentation outcomes that are not necessarily beneficial for the translation process. In this paper, we propose Differentiable Segmentation (DiSeg) for SimulST to directly learn segmentation from the underlying translation model. DiSeg turns hard segmentation into differentiable through the proposed expectation training, enabling it to be jointly trained with the translation model and thereby learn translation-beneficial segmentation. Experimental results demonstrate that DiSeg achieves state-of-the-art performance and exhibits superior segmentation capability.
翻訳日:2023-05-26 14:50:20 公開日:2023-05-25
# マイクロサービスライフサイクルにおけるAIテクニック: 調査

AI Techniques in the Microservices Life-Cycle: A Survey ( http://arxiv.org/abs/2305.16092v1 )

ライセンス: Link先を確認
Sergio Moreschini, Shahrzad Pour, Ivan Lanese, Daniel Balouek-Thomert, Justus Bogner, Xiaozhou Li, Fabiano Pecorelli, Jacopo Soldani, Eddy Truyen, Davide Taibi(参考訳) マイクロサービスは、モジュール化、スケーラビリティ、柔軟性を重視した、分散ソフトウェア開発の一般的なアーキテクチャスタイルである。 実際、マイクロサービスシステムでは、機能性は疎結合の小さなサービスによって提供され、それぞれが特定のビジネス機能に重点を置いています。 マイクロサービスアーキテクチャスタイルに従ってシステムを構築することは、さまざまなマイクロサービスのデプロイと調整方法と、それらのインタラクション方法に関する、多くの課題をもたらす。 本稿では,人工知能の分野における技術が,これらの課題にどのように取り組んできたかについての調査を行う。

Microservices is a popular architectural style for the development of distributed software, with an emphasis on modularity, scalability, and flexibility. Indeed, in microservice systems, functionalities are provided by loosely coupled, small services, each focusing on a specific business capability. Building a system according to the microservices architectural style brings a number of challenges, mainly related to how the different microservices are deployed and coordinated and how they interact. In this paper, we provide a survey about how techniques in the area of Artificial Intelligence have been used to tackle these challenges.
翻訳日:2023-05-26 14:49:59 公開日:2023-05-25
# 最大値インデクスフィードバックによる最大値リワード関数の組合せ帯域

Combinatorial Bandits for Maximum Value Reward Function under Max Value-Index Feedback ( http://arxiv.org/abs/2305.16074v1 )

ライセンス: Link先を確認
Yiliu Wang, Wei Chen, and Milan Vojnovi\'c(参考訳) 最大値とインデックスフィードバックの下での最大値報酬関数に対する組合せ多腕バンディット問題を考える。 これは、よく研究されている半帯域と完全帯域のフィードバック構造の間にある新しいフィードバック構造である。 有限サポートを持つ任意の分布に従って確率的アームアウトカムを持つ問題インスタンスに対して,アルゴリズムを提案し,後悔のバウンドを与える。 後悔の分析は、腕の成果の値と確率に関連する拡張されたアームセットを考慮し、滑らかな条件を適用している。 我々のアルゴリズムは、$O(((k/\Delta)\log(T))$ distribution-dependent and a $\tilde{O}(\sqrt{T})$ distribution-independent regret, $k$ is the number of arms in each round, $\Delta$ is a distribution-dependent reward gap, $T$ is the horizon time。 おそらく意外なことに、後悔の限界は、より情報的な半帯域フィードバックの下で、これまで知られていた境界に匹敵する。 実験により,本アルゴリズムの有効性を実証した。

We consider a combinatorial multi-armed bandit problem for maximum value reward function under maximum value and index feedback. This is a new feedback structure that lies in between commonly studied semi-bandit and full-bandit feedback structures. We propose an algorithm and provide a regret bound for problem instances with stochastic arm outcomes according to arbitrary distributions with finite supports. The regret analysis rests on considering an extended set of arms, associated with values and probabilities of arm outcomes, and applying a smoothness condition. Our algorithm achieves a $O((k/\Delta)\log(T))$ distribution-dependent and a $\tilde{O}(\sqrt{T})$ distribution-independent regret where $k$ is the number of arms selected in each round, $\Delta$ is a distribution-dependent reward gap and $T$ is the horizon time. Perhaps surprisingly, the regret bound is comparable to previously-known bound under more informative semi-bandit feedback. We demonstrate the effectiveness of our algorithm through experimental results.
翻訳日:2023-05-26 14:49:49 公開日:2023-05-25
# EGO4D STAの次のアクティブオブジェクトへのガイド

Guided Attention for Next Active Object @ EGO4D STA Challenge ( http://arxiv.org/abs/2305.16066v1 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue(参考訳) 本稿では,EGO4D課題に対する短期予測(STA)課題に対するガイド・アテンション機構に基づくソリューションについて述べる。 オブジェクト検出とビデオクリップから抽出した時空間的特徴を組み合わせて、動きと文脈情報を強化し、さらにオブジェクト中心および動き中心の情報をデコードして、エゴセントリックビデオにおけるSTAの問題に対処する。 この課題に対して、我々は高速ネットワークに注意を向けながら、 stillfast 上にモデルを構築します。 本モデルは,検証セットの性能向上と,ego4d短期オブジェクトインタラクション予測チャレンジの課題テストセットにおける最先端(sota)結果の達成を図っている。

In this technical report, we describe the Guided-Attention mechanism based solution for the short-term anticipation (STA) challenge for the EGO4D challenge. It combines the object detections, and the spatiotemporal features extracted from video clips, enhancing the motion and contextual information, and further decoding the object-centric and motion-centric information to address the problem of STA in egocentric videos. For the challenge, we build our model on top of StillFast with Guided Attention applied on fast network. Our model obtains better performance on the validation set and also achieves state-of-the-art (SOTA) results on the challenge test set for EGO4D Short-Term Object Interaction Anticipation Challenge.
翻訳日:2023-05-26 14:49:30 公開日:2023-05-25
# asrと感情音声 : 音声と感情認識の相互影響に関する単語レベルでの検討

ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition ( http://arxiv.org/abs/2305.16065v1 )

ライセンス: Link先を確認
Yuanchao Li, Zeyu Zhao, Ondrej Klejch, Peter Bell, Catherine Lai(参考訳) 音声感情認識(SER: Speech Emotion Recognition)では、テキストデータは音声信号とともに、その固有の変動に対処するためにしばしば使用される。 しかし、ほとんどの研究における注釈付きテキストへの依存は、実用的なSERシステムの開発を妨げる。 この課題を克服するために、感情コーパス上でのASRパフォーマンスを分析し、ASR文字中の単語誤りと信頼スコアの分布を調べ、感情がASRにどう影響するかを把握し、感情音声認識(ASR)が感情音声にどのように作用するかを検討する。 我々は、Kaldi ASR、wav2vec、Conformer、Whisperの4つのASRシステムと、IEMOCAP、MOSI、MELDの3つのコーパスを用いて、一般化性を確保する。 さらに、テキストベースのSERを単語誤り率を増大させ、ASRがSERに与える影響を調査する。 本研究の目的は,情緒的音声へのASR適応と実世界におけるSERの利用を促進するために,ASRとSERの関係と相互影響を明らかにすることである。

In Speech Emotion Recognition (SER), textual data is often used alongside audio signals to address their inherent variability. However, the reliance on human annotated text in most research hinders the development of practical SER systems. To overcome this challenge, we investigate how Automatic Speech Recognition (ASR) performs on emotional speech by analyzing the ASR performance on emotion corpora and examining the distribution of word errors and confidence scores in ASR transcripts to gain insight into how emotion affects ASR. We utilize four ASR systems, namely Kaldi ASR, wav2vec, Conformer, and Whisper, and three corpora: IEMOCAP, MOSI, and MELD to ensure generalizability. Additionally, we conduct text-based SER on ASR transcripts with increasing word error rates to investigate how ASR affects SER. The objective of this study is to uncover the relationship and mutual impact of ASR and SER, in order to facilitate ASR adaptation to emotional speech and the use of SER in real world.
翻訳日:2023-05-26 14:49:19 公開日:2023-05-25
# 交互量子エミッタ鎖:例外点相転移、エッジ状態、量子ウォーク

Alternating quantum-emitter chains: Exceptional-point phase transition, edge state, and quantum walks ( http://arxiv.org/abs/2305.16059v1 )

ライセンス: Link先を確認
Jimin Li and Zongping Gong(参考訳) 自由空間におけるn$等距離量子エミッタの1次元配列の長距離ホッピング限界について検討し、エミッタ励起のホッピング振幅は距離の逆に比例し、格子次元に等しいことを示した。 交互に配置された2種類のエミッターに対して、単一励起セクターは例外点として知られる非エルミートスペクトル特異点を示す。 我々は,集合体から個々の自発的放出行動への非従来型相転移,いわゆる例外的点相転移を明らかにした。 遷移点において、$N \times N$ Hamiltonian fragments to $N/2-1$ many two-dimensional non-diagonalizable block。 残りの対角化可能なブロックは、代数的局所化プロファイルを持つ散逸誘起エッジ状態を含み、無限アレイ極限におけるその存在の数値的な証拠を提供する。 我々は,バルクトポロジカル不変量の不定義性と整合して,連続的な変形によってエッジ状態を除去できることを実証した。 また,単原子励起の非ユニタリ量子ウォークにおける非コヒーレントな流れと損失を定量化する空間的解決指標を提案する。

We study the long-range hopping limit of a one-dimensional array of $N$ equal-distanced quantum emitters in free space, where the hopping amplitude of emitter excitation is proportional to the inverse of the distance and equals the lattice dimension. For two species of emitters in an alternating arrangement, the single excitation sector exhibits non-Hermitian spectral singularities known as exceptional points. We unveil an unconventional phase transition, dubbed exceptional-point phase transition, from the collective to individual spontaneous emission behaviors. At the transition point, the $N \times N$ Hamiltonian fragments into $N/2-1$ many two-dimensional non-diagonalizable blocks. The remaining diagonalizable block contains a dissipation-induced edge state with algebraically localized profiles, and we provide numerical evidence for its existence in the infinite-array limit. We demonstrate that the edge state can be eliminated via a continuous deformation, consistent with the ill-definedness of bulk topological invariant. We also propose a spatially resolved character to quantify the incoherent flow and loss in the non-unitary quantum walks of single atomic excitations.
翻訳日:2023-05-26 14:48:58 公開日:2023-05-25
# 偽ニュースの検出と行動分析:新型コロナの事例

Fake News Detection and Behavioral Analysis: Case of COVID-19 ( http://arxiv.org/abs/2305.16057v1 )

ライセンス: Link先を確認
Chih-Yuan Li, Navya Martin Kollapally, Soon Ae Chun, James Geller(参考訳) 世界は3年以上にわたり新型コロナウイルスと闘ってきたが、新型コロナウイルスに関する偽ニュースの拡散による「情報デミック」も世界的な問題となっている。 偽ニュースの存在は、政治、公衆衛生、経済活動など、私たちの日常生活のさまざまな側面に影響を与えます。 読者は偽ニュースを本物のニュースと間違えて、本物の情報へのアクセスを少なくすることができる。 この現象は市民の混乱と社会の対立を引き起こす可能性が高い。 現在、偽ニュース研究には大きな課題がある。 ソーシャルメディアの投稿で偽のニュースデータを正確に識別することは難しい。 偽ニュースデータの量が圧倒的に多いため、リアルタイムの人間識別は不可能である。 さらに、フェイクニュースで議論されるトピックは、実際のニュースと類似性のため識別が難しい。 この論文の目的は、ソーシャルメディア上の偽ニュースを特定し、拡散を止めることにある。 本稿では、フェイクニュース検出のためのディープラーニングアプローチとアンサンブルアプローチを提案する。 検出モデルは従来の研究よりも精度が高かった。 アンサンブルアプローチにより検出性能はさらに向上した。 偽ニュースと本物のニュースアイテムの特徴の違いを発見した。 文埋め込みに追加すると、モデルのパフォーマンスに影響を与えていることが分かりました。 投稿からトピックを認識するためのハイブリッド手法と構築モデルを適用した。 特定されたトピックの半数がフェイクニュースとリアルニュースで重複していることがわかり、人口の混乱を増す可能性がある。

While the world has been combating COVID-19 for over three years, an ongoing "Infodemic" due to the spread of fake news regarding the pandemic has also been a global issue. The existence of the fake news impact different aspect of our daily lives, including politics, public health, economic activities, etc. Readers could mistake fake news for real news, and consequently have less access to authentic information. This phenomenon will likely cause confusion of citizens and conflicts in society. Currently, there are major challenges in fake news research. It is challenging to accurately identify fake news data in social media posts. In-time human identification is infeasible as the amount of the fake news data is overwhelming. Besides, topics discussed in fake news are hard to identify due to their similarity to real news. The goal of this paper is to identify fake news on social media to help stop the spread. We present Deep Learning approaches and an ensemble approach for fake news detection. Our detection models achieved higher accuracy than previous studies. The ensemble approach further improved the detection performance. We discovered feature differences between fake news and real news items. When we added them into the sentence embeddings, we found that they affected the model performance. We applied a hybrid method and built models for recognizing topics from posts. We found half of the identified topics were overlapping in fake news and real news, which could increase confusion in the population.
翻訳日:2023-05-26 14:48:38 公開日:2023-05-25
# 外部時間過程を用いたマルコフ決定過程

Markov Decision Process with an External Temporal Process ( http://arxiv.org/abs/2305.16056v1 )

ライセンス: Link先を確認
Ranga Shaarad Ayyagari, Ambedkar Dukkipati(参考訳) ほとんどの強化学習アルゴリズムは、それらが定常的で孤立的で乱れのない環境として機能する文脈を扱う。 しかし、現実世界では、様々な外部の影響により環境が常に変化している。 この問題に対処するために,マルコフ決定過程(MDP)を外的時間的プロセスの影響下で研究する。 我々はこの概念を定式化し、適切な解で問題に対処できる条件について議論する。 本稿では,この問題を解決するためのポリシー反復アルゴリズムを提案し,その性能を理論的に解析する。

Most reinforcement learning algorithms treat the context under which they operate as a stationary, isolated and undisturbed environment. However, in the real world, the environment is constantly changing due to a variety of external influences. To address this problem, we study Markov Decision Processes (MDP) under the influence of an external temporal process. We formalize this notion and discuss conditions under which the problem becomes tractable with suitable solutions. We propose a policy iteration algorithm to solve this problem and theoretically analyze its performance.
翻訳日:2023-05-26 14:48:21 公開日:2023-05-25
# LiDARデータによる逆気象効果のエネルギーベース検出

Energy-based Detection of Adverse Weather Effects in LiDAR Data ( http://arxiv.org/abs/2305.16129v1 )

ライセンス: Link先を確認
Aldi Piroli, Vinzenz Dallabetta, Johannes Kopp, Marc Walessa, Daniel Meissner, Klaus Dietmayer(参考訳) 自動運転車は環境を知覚するためにLiDARセンサーを利用する。 雨、雪、霧などの悪天候はこれらのセンサーに悪影響を及ぼし、測定に望ましくないノイズを導入することで信頼性を低下させる。 本研究では,LiDARデータにおける悪天候の影響を検出する新しい手法を提案する。 我々は,この問題を外れ値検出タスクとして再構成し,エネルギーベースのフレームワークを用いて点群内の外れ値を検出する。 より具体的には、低エネルギースコアと異常点と高エネルギースコアを、悪天候の影響をロバストに検出できる異常値とを関連付けることを学ぶ。 広範な実験において,本手法は従来の手法よりも悪天候検出性能が良好で,気象効果の良さが高まることを示した。 さらに,本手法を用いて,外乱検出とセマンティックセグメンテーションを同時に行う方法を示す。 最後に、悪天候下でのLiDAR知覚の研究分野の拡大を支援するため、高速道路のようなシナリオにラベル付き車両噴霧データを含むセマンティックスパイデータセットをリリースする。

Autonomous vehicles rely on LiDAR sensors to perceive the environment. Adverse weather conditions like rain, snow, and fog negatively affect these sensors, reducing their reliability by introducing unwanted noise in the measurements. In this work, we tackle this problem by proposing a novel approach for detecting adverse weather effects in LiDAR data. We reformulate this problem as an outlier detection task and use an energy-based framework to detect outliers in point clouds. More specifically, our method learns to associate low energy scores with inlier points and high energy scores with outliers allowing for robust detection of adverse weather effects. In extensive experiments, we show that our method performs better in adverse weather detection and has higher robustness to unseen weather effects than previous state-of-the-art methods. Furthermore, we show how our method can be used to perform simultaneous outlier detection and semantic segmentation. Finally, to help expand the research field of LiDAR perception in adverse weather, we release the SemanticSpray dataset, which contains labeled vehicle spray data in highway-like scenarios.
翻訳日:2023-05-26 14:40:25 公開日:2023-05-25
# 詳しく教えてください:潜在検索によるファクトチェックの改善

Give Me More Details: Improving Fact-Checking with Latent Retrieval ( http://arxiv.org/abs/2305.16128v1 )

ライセンス: Link先を確認
Xuming Hu, Zhijiang Guo, Guanyu Wu, Lijie Wen, Philip S. Yu(参考訳) 証拠は、ファクトチェックの自動化において重要な役割を果たす。 実世界のクレームを検証する場合、既存のファクトチェックシステムは証拠文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。 このような手法は証拠収集の課題を無視し、現実世界の主張を検証する十分な情報を提供しない可能性がある。 より優れたファクトチェックシステムの構築を目指して,資料の全文をエビデンスとして組み込むとともに,拡張データセットを2つ導入する。 1つは多言語データセット、もう1つは単言語(英語)である。 さらに,文書から証拠文を共同抽出し,クレーム検証を行う潜在変数モデルを開発した。 実験は、金の証拠文が注釈が付されていない場合でも、ソースドキュメントを含めれば十分な文脈的手がかりが得られることを示している。 提案システムは,異なる設定下での最良の報告モデルに対して,大幅な改善を実現することができる。

Evidence plays a crucial role in automated fact-checking. When verifying real-world claims, existing fact-checking systems either assume the evidence sentences are given or use the search snippets returned by the search engine. Such methods ignore the challenges of collecting evidence and may not provide sufficient information to verify real-world claims. Aiming at building a better fact-checking system, we propose to incorporate full text from source documents as evidence and introduce two enriched datasets. The first one is a multilingual dataset, while the second one is monolingual (English). We further develop a latent variable model to jointly extract evidence sentences from documents and perform claim verification. Experiments indicate that including source documents can provide sufficient contextual clues even when gold evidence sentences are not annotated. The proposed system is able to achieve significant improvements upon best-reported models under different settings.
翻訳日:2023-05-26 14:40:07 公開日:2023-05-25
# 合成データを用いたロバストカテゴリレベル3次元ポーズ推定

Robust Category-Level 3D Pose Estimation from Synthetic Data ( http://arxiv.org/abs/2305.16124v1 )

ライセンス: Link先を確認
Jiahao Yang, Wufei Ma, Angtian Wang, Xiaoding Yuan, Alan Yuille, Adam Kortylewski(参考訳) 正確な3dオブジェクトのポーズを得ることは、3d再構成やシーン理解といった多くのコンピュータビジョンアプリケーションにとって不可欠である。 しかし、現実世界のオブジェクトにアノテートするのは時間がかかり、困難である。 合成学習データは有効な代替手段であるが、実データと合成データのドメインシフトは重要な課題である。 本研究では,合成データでトレーニングされたモデルと,実画像が少ないモデルと,大規模データでトレーニングされた完全教師付きモデルとの性能ギャップを狭めることを目的とする。 我々はこの問題を2つの視点から解決する。 1) CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを導入する。 2) 逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。 特に,メッシュ表面の特徴とコントラスト学習スキーム間の空間的関係を利用して,ドメイン適応過程を導出する。 これら2つのモデルを組み合わせることで、各実トレーニング画像の10%しか使用せず、実際のトレーニングデータの50%しか使用していないpi/18のしきい値でSOTAモデルを10.4%上回る結果が得られる。 我々の訓練されたモデルは、最小限の実データで訓練されているにもかかわらず、配布外シナリオへの堅牢な一般化をさらに示す。

Obtaining accurate 3D object poses is vital for numerous computer vision applications, such as 3D reconstruction and scene understanding. However, annotating real-world objects is time-consuming and challenging. While synthetically generated training data is a viable alternative, the domain shift between real and synthetic data is a significant challenge. In this work, we aim to narrow the performance gap between models trained on synthetic data and few real images and fully supervised models trained on large-scale data. We achieve this by approaching the problem from two perspectives: 1) We introduce SyntheticP3D, a new synthetic dataset for object pose estimation generated from CAD models and enhanced with a novel algorithm. 2) We propose a novel approach (CC3D) for training neural mesh models that perform pose estimation via inverse rendering. In particular, we exploit the spatial relationships between features on the mesh surface and a contrastive learning scheme to guide the domain adaptation process. Combined, these two approaches enable our models to perform competitively with state-of-the-art models using only 10% of the respective real training images, while outperforming the SOTA model by 10.4% with a threshold of pi/18 using only 50% of the real training data. Our trained model further demonstrates robust generalization to out-of-distribution scenarios despite being trained with minimal real data.
翻訳日:2023-05-26 14:39:53 公開日:2023-05-25
# 魅力的な監視信号とそれを見つける場所: スケール学習による深部異常検出

Fascinating Supervisory Signals and Where to Find Them: Deep Anomaly Detection with Scale Learning ( http://arxiv.org/abs/2305.16114v1 )

ライセンス: Link先を確認
Hongzuo Xu and Yijie Wang and Juhui Wei and Songlei Jian and Yizhou Li and Ning Liu(参考訳) 異常検出の教師なしの性質から、深層モデルの燃料となる鍵は監視信号を見つけることである。 現在の再構築誘導型生成モデルや変換に基づくコントラストモデルと異なり、データラベルとして-スケール特性を導入することにより、表データに対する新たなデータ駆動型監視を考案する。 データインスタンスの様々なサブベクターを表現することにより、スケールを元のサブベクターの次元と表現の関係として定義する。 スケールは変換表現に付加されたラベルとして機能するので、ニューラルネットワークトレーニングのための豊富なラベル付きデータを提供する。 本稿ではさらに,スケール学習に基づく異常検出法を提案する。 大規模分散アライメントの学習目標により,各データインスタンスの様々な部分空間から変換された表現のランク付けを学習する。 このプロキシタスクを通じて、我々のアプローチはデータ内の固有の正規性とパターンをモデル化します。 これらの学習パターンに適合するかどうかを測定することで、異常なテストインスタンスが得られる。 広範な実験により,本手法は最先端のジェネレーティブ・コントラスト・アノマリー検出法よりも大幅に改善することが示された。

Due to the unsupervised nature of anomaly detection, the key to fueling deep models is finding supervisory signals. Different from current reconstruction-guided generative models and transformation-based contrastive models, we devise novel data-driven supervision for tabular data by introducing a characteristic -- scale -- as data labels. By representing varied sub-vectors of data instances, we define scale as the relationship between the dimensionality of original sub-vectors and that of representations. Scales serve as labels attached to transformed representations, thus offering ample labeled data for neural network training. This paper further proposes a scale learning-based anomaly detection method. Supervised by the learning objective of scale distribution alignment, our approach learns the ranking of representations converted from varied subspaces of each data instance. Through this proxy task, our approach models inherent regularities and patterns within data, which well describes data "normality". Abnormal degrees of testing instances are obtained by measuring whether they fit these learned patterns. Extensive experiments show that our approach leads to significant improvement over state-of-the-art generative/contrastive anomaly detection methods.
翻訳日:2023-05-26 14:39:31 公開日:2023-05-25
# マイクロキャビティにおける励起子-ポーラリトン輸送機構

Transport regimes for exciton-polaritons in disordered microcavities ( http://arxiv.org/abs/2305.16112v1 )

ライセンス: Link先を確認
A.N. Osipov, I.V. Iorsh, A.V. Yulin and I.A. Shelykh(参考訳) 平面光学キャビティにおける光物質結合は、短距離エキシトニック障害の存在下で系の輸送機構を著しく修飾する。 共振結合励起子-光子系のマスター方程式を基礎とし、ボルン-マルコフ近似における乱れ散乱を扱いながら、それぞれ弱い障害と強い障害の限界における弾道的および拡散的輸送レジームの発生を実証する。 これら2つの状態間の交叉を規定する輸送パラメータは,光物質結合,特にラビエネルギー,励起モードとフォトニックモードの脱調を特徴付けるパラメータに強く依存している。 この理論は、不規則な有機マイクロキャビティにおける輸送に関する最近の実験データと一致している。

Light-matter coupling in a planar optical cavity substantially modifies the transport regimes in the system in presence of a short range excitonic disorder. Basing on Master equation for a resonantly coupled exciton-photon system, and treating disorder scattering in the Born-Markov approximation we demonstrate the onset of ballistic and diffusive transport regimes in the limits of weak and strong disorder respectively. We show that transport parameters governing the crossover between these two regimes strongly depend on the parameters characterizing light-matter coupling, in particular Rabi energy and detuning between excitonic and photonic modes. The presented theory agrees with recent experimental data on transport in disordered organic microcavities.
翻訳日:2023-05-26 14:39:13 公開日:2023-05-25
# VioLA:音声認識・合成・翻訳のための統一コーデック言語モデル

VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation ( http://arxiv.org/abs/2305.16107v1 )

ライセンス: Link先を確認
Tianrui Wang, Long Zhou, Ziqiang Zhang, Yu Wu, Shujie Liu, Yashesh Gaur, Zhuo Chen, Jinyu Li, Furu Wei(参考訳) 近年の研究では、モデルアーキテクチャ、トレーニング目標、様々なタスクにおける様々なモーダルに対する推論手法に大きな収束が示されている。 本稿では,マルチタスク学習フレームワークを用いた条件付きコーデック言語モデルタスクとして,音声テキスト,テキストテキスト,テキスト音声,音声音声タスクなど,音声とテキストを含むさまざまなモーダルタスクを統合する,単一の自動回帰トランスフォーマーデコーダのみのネットワークであるVioLAを提案する。 これを実現するために、オフラインのニューラルコーデックエンコーダを用いて、まず全ての発話を個別のトークン(テキストデータと類似)に変換する。 このように、これらのタスクはすべてトークンベースのシーケンス変換問題に変換され、単一の条件付き言語モデルで自然に処理できる。 さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。 実験結果から,提案したVioLAモデルは単一モーダルタスクとクロスモーダルタスクの両方をうまくサポートでき,デコーダのみのモデルは強力なベースラインよりも同等で,さらに優れた性能が得られることが示された。

Recent research shows a big convergence in model architecture, training objectives, and inference methods across various tasks for different modalities. In this paper, we propose VioLA, a single auto-regressive Transformer decoder-only network that unifies various cross-modal tasks involving speech and text, such as speech-to-text, text-to-text, text-to-speech, and speech-to-speech tasks, as a conditional codec language model task via multi-task learning framework. To accomplish this, we first convert all the speech utterances to discrete tokens (similar to the textual data) using an offline neural codec encoder. In such a way, all these tasks are converted to token-based sequence conversion problems, which can be naturally handled with one conditional language model. We further integrate task IDs (TID) and language IDs (LID) into the proposed model to enhance the modeling capability of handling different languages and tasks. Experimental results demonstrate that the proposed VioLA model can support both single-modal and cross-modal tasks well, and the decoder-only model achieves a comparable and even better performance than the strong baselines.
翻訳日:2023-05-26 14:38:59 公開日:2023-05-25
# 低リソースタスク指向対話システムのためのマルチアジュゲートデュアル学習

Multijugate Dual Learning for Low-Resource Task-Oriented Dialogue System ( http://arxiv.org/abs/2305.16106v1 )

ライセンス: Link先を確認
Shimin Li, Xiaotian Zhang, Yanjun Zheng, Linyang Li, Xipeng Qiu(参考訳) 実際のシナリオでの対話データはわずかに利用でき、データスターベッドなエンドツーエンドの対話システムは不十分に訓練される。 情報の不確実性や決定論的対話状態のマイニングにより,低リソースシナリオにおけるデータ利用効率の向上が期待できる。 そこで,タスク指向対話における二元学習を革新的に実装し,異種データの相関性を利用する。 さらに、1対1の双対性は多元双対性に変換され、一般化のための双対トレーニングにおける突発的相関の影響を低減する。 追加パラメータを導入することなく,任意のネットワークに実装できる。 提案手法は,複数のベンチマークによるタスク指向対話システムの有効性を向上し,低リソースシナリオにおける最先端結果が得られることを示す。

Dialogue data in real scenarios tend to be sparsely available, rendering data-starved end-to-end dialogue systems trained inadequately. We discover that data utilization efficiency in low-resource scenarios can be enhanced by mining alignment information uncertain utterance and deterministic dialogue state. Therefore, we innovatively implement dual learning in task-oriented dialogues to exploit the correlation of heterogeneous data. In addition, the one-to-one duality is converted into a multijugate duality to reduce the influence of spurious correlations in dual training for generalization. Without introducing additional parameters, our method could be implemented in arbitrary networks. Extensive empirical analyses demonstrate that our proposed method improves the effectiveness of end-to-end task-oriented dialogue systems under multiple benchmarks and obtains state-of-the-art results in low-resource scenarios.
翻訳日:2023-05-26 14:38:34 公開日:2023-05-25
# ChatBridge: 言語触媒としての大規模言語モデルによるモダリティのブリッジ

ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst ( http://arxiv.org/abs/2305.16103v1 )

ライセンス: Link先を確認
Zijia Zhao, Longteng Guo, Tongtian Yue, Sihan Chen, Shuai Shao, Xinxin Zhu, Zehuan Yuan, Jing Liu(参考訳) 多様な現実世界のモダリティを知覚し、さまざまなタスクを解決できる汎用モデルを構築することは、人工知能の魅力的なターゲットである。 本稿では,多様なモダリティ間のギャップを橋渡しするための触媒として,言語表現能力を活用した新しいマルチモーダル言語モデルchatbridgeを提案する。 すべてのモダリティを接続するには,言語対応の2モードデータだけで十分であることを示す。 ChatBridgeは最近の大規模言語モデル(LLM)を活用し、そのゼロショット機能を拡張して多様なマルチモーダル入力を組み込む。 ChatBridgeは2段階のトレーニングを行っている。 最初の段階は、それぞれのモダリティを言語に合わせることで、創発的なマルチモーダル相関とコラボレーション能力をもたらす。 第2段階であるChatBridgeは,テキスト,画像,ビデオ,音声の多モードタスクを幅広くカバーするマルチモーダル命令チューニングデータセットであるMultiSとユーザ意図を一致させる。 テキスト,画像,ビデオ,音声のモダリティをカバーするゼロショットマルチモーダルタスクにおいて,定量的・定性的な結果を示す。 ChatBridgeのコード、データ、モデルはすべてオープンソースになる。

Building general-purpose models that can perceive diverse real-world modalities and solve various tasks is an appealing target in artificial intelligence. In this paper, we present ChatBridge, a novel multimodal language model that leverages the expressive capabilities of language as the catalyst to bridge the gap between various modalities. We show that only language-paired two-modality data is sufficient to connect all modalities. ChatBridge leverages recent large language models (LLM) and extends their zero-shot capabilities to incorporate diverse multimodal inputs. ChatBridge undergoes a two-stage training. The first stage aligns each modality with language, which brings emergent multimodal correlation and collaboration abilities. The second stage instruction-finetunes ChatBridge to align it with user intent with our newly proposed multimodal instruction tuning dataset, named MULTIS, which covers a wide range of 16 multimodal tasks of text, image, video, and audio modalities. We show strong quantitative and qualitative results on zero-shot multimodal tasks covering text, image, video, and audio modalities. All codes, data, and models of ChatBridge will be open-sourced.
翻訳日:2023-05-26 14:38:19 公開日:2023-05-25
# 注意に基づくグラフニューラルネットワークにおけるデマイチグオーバースムーシング

Demystifying Oversmoothing in Attention-Based Graph Neural Networks ( http://arxiv.org/abs/2305.16102v1 )

ライセンス: Link先を確認
Xinyi Wu, Amir Ajorlou, Zihui Wu, Ali Jadbabaie(参考訳) グラフニューラルネットワーク(gnns)では、ネットワークの深さの増加が均質なノード表現につながる現象を指す。 グラフ畳み込みネットワーク(gcns)は指数関数的に表現力を失うことがこれまでの研究で証明されているが、グラフの注意機構が過小評価を緩和できるかどうかについては議論が残る。 本研究では,非線形時間変化力学系として注意に基づくGNNを考察し,不均質行列の積の理論と合同放射半径のツールと技法を取り入れることで,厳密な数学的解析を通じてこの問題に対する決定的な回答を提供する。 一般に信じられているように,グラフの注意機構は過剰な動きを防げず,指数関数的に表現力を失うことを立証する。 提案フレームワークは, 対称GCNのオーバースムーシングに関する既存の結果を, GNNモデルのより広範なクラスに拡張する。 特に,本解析では,非対称,状態依存,時間変化のアグリゲーション演算子と,relu, leakyrelu,gelu,siluといった非線形アクティベーション関数の多種にわたる。

Oversmoothing in Graph Neural Networks (GNNs) refers to the phenomenon where increasing network depth leads to homogeneous node representations. While previous work has established that Graph Convolutional Networks (GCNs) exponentially lose expressive power, it remains controversial whether the graph attention mechanism can mitigate oversmoothing. In this work, we provide a definitive answer to this question through a rigorous mathematical analysis, by viewing attention-based GNNs as nonlinear time-varying dynamical systems and incorporating tools and techniques from the theory of products of inhomogeneous matrices and the joint spectral radius. We establish that, contrary to popular belief, the graph attention mechanism cannot prevent oversmoothing and loses expressive power exponentially. The proposed framework extends the existing results on oversmoothing for symmetric GCNs to a significantly broader class of GNN models. In particular, our analysis accounts for asymmetric, state-dependent and time-varying aggregation operators and a wide range of common nonlinear activation functions, such as ReLU, LeakyReLU, GELU and SiLU.
翻訳日:2023-05-26 14:37:58 公開日:2023-05-25
# LEDを用いた量子ランダム数発生装置

Quantum Random Number Generator Based on LED ( http://arxiv.org/abs/2305.16101v1 )

ライセンス: Link先を確認
Mohammadreza Moeini, Mohsen Akbari, Mohammad Mirsadeghi, Hamid Reza Naeij, Nima Haghkish, Ali Hayeri, Mehrdad Malekian(参考訳) 量子乱数生成器は量子力学の固有確率の性質に基づいて乱数を生成し、真の乱数生成器となる。 本稿では,LEDにおける自発放射のゆらぎに基づいて乱数を生成する組込みQRNGの設計と製造を行う。 また、LEDにおける組換え過程のランダム性に関する新たな視点が、実験結果と一致して導入された。 堅牢で信頼性の高いQRNGmを実現するために,通常のポストプロセッシング手法を比較し,リアルタイムデバイスに最適なQRNGを選択する。 この装置はNISTテストに合格し、出力速度はSあたり1Mbitであり、出力データのランダム性は時間と温度によって不変である。

Quantum Random Number Generators Produce random numbers based on the intrinsic probability nature of quantum mechanics, making them true random number generators. In this paper, we design and fabricate an embedded QRNG that produces random numbers based on fluctuations of spontaneous emission in a LED. Additionally, a new perspective on the randomness of the recombination process in a LED is introduced that is consistent with experimental results. To achieve a robust and reliable QRNGm we compare some usual post processing methods and select the best one for a real time device. This device could pass NIST tests, the output speed is 1 Mbit per S and the randomness of the output data is invariant in time and different temperatures.
翻訳日:2023-05-26 14:37:39 公開日:2023-05-25
# 生成粒子モデルとしてのGANとスコアベース拡散の統一

Unifying GANs and Score-Based Diffusion as Generative Particle Models ( http://arxiv.org/abs/2305.16150v1 )

ライセンス: Link先を確認
Jean-Yves Franceschi, Mike Gartrell, Ludovic Dos Santos, Thibaut Issenhuth, Emmanuel de B\'ezenac, Micka\"el Chen, Alain Rakotomamonjy(参考訳) 勾配流やスコアベース拡散モデルなどの粒子に基づく深部生成モデルは,近年,その顕著な性能により,注目を集めている。 微分方程式によって粒子分布を分散させるという彼らの原理は、従来はプッシュフォワード生成ネットワークの訓練を含むgans(generative adversarial network)とは対照的である。 本稿では,この解釈に挑戦し,粒子モデルの一般化としてジェネレータトレーニングをフレーミングすることにより,粒子モデルと逆生成モデルを統合する新しい枠組みを提案する。 これは、ジェネレータが任意の生成モデルに追加されることを示唆している。 その結果、ジェネレータをスコアベース拡散モデルに統合し、ジェネレータを使わずにGANを訓練することが可能になる。 フレームワークの潜在的な応用の概念の証明として、これらのオリジナルのモデルの有効性を実証的に検証する。

Particle-based deep generative models, such as gradient flows and score-based diffusion models, have recently gained traction thanks to their striking performance. Their principle of displacing particle distributions by differential equations is conventionally seen as opposed to the previously widespread generative adversarial networks (GANs), which involve training a pushforward generator network. In this paper, we challenge this interpretation and propose a novel framework that unifies particle and adversarial generative models by framing generator training as a generalization of particle models. This suggests that a generator is an optional addition to any such generative model. Consequently, integrating a generator into a score-based diffusion model and training a GAN without a generator naturally emerge from our framework. We empirically test the viability of these original models as proofs of concepts of potential applications of our framework.
翻訳日:2023-05-26 14:32:44 公開日:2023-05-25
# 未知のリワードによるデモからの安全制約の学習

Learning Safety Constraints from Demonstrations with Unknown Rewards ( http://arxiv.org/abs/2305.16147v1 )

ライセンス: Link先を確認
David Lindner, Xin Chen, Sebastian Tschiatschek, Katja Hofmann, Andreas Krause(参考訳) 本稿では,制約付きマルコフ決定プロセス(CMDP)における共有制約を,異なる報酬関数を持つ一連の安全なデモンストレーションから推定する新しい手法として,強化学習のための凸制約学習(CoCoRL)を提案する。 これまでの作業は、既知の報酬や完全に既知の環境ダイナミクスによるデモンストレーションに限定されているが、cocorlは、環境ダイナミクスを知らずに、未知の報酬を持つデモから制約を学ぶことができる。 cocorlはデモに基づいた凸セーフセットを構築しており、潜在的に最適でない(しかし安全な)デモであっても安全性を保証できる。 ほぼ最適のデモンストレーションでは、CoCoRLはポリシーを後悔せずに真の安全なセットに収束する。 表環境におけるCoCoRLの評価と,複数制約による連続運転シミュレーションを行った。 CoCoRLは安全な運転行動につながる制約を学び、異なるタスクや環境に転送できる。 対照的に、逆強化学習(irl)に基づく代替手法は、しばしば性能が悪く、安全でないポリシーを学ぶ。

We propose Convex Constraint Learning for Reinforcement Learning (CoCoRL), a novel approach for inferring shared constraints in a Constrained Markov Decision Process (CMDP) from a set of safe demonstrations with possibly different reward functions. While previous work is limited to demonstrations with known rewards or fully known environment dynamics, CoCoRL can learn constraints from demonstrations with different unknown rewards without knowledge of the environment dynamics. CoCoRL constructs a convex safe set based on demonstrations, which provably guarantees safety even for potentially sub-optimal (but safe) demonstrations. For near-optimal demonstrations, CoCoRL converges to the true safe set with no policy regret. We evaluate CoCoRL in tabular environments and a continuous driving simulation with multiple constraints. CoCoRL learns constraints that lead to safe driving behavior and that can be transferred to different tasks and environments. In contrast, alternative methods based on Inverse Reinforcement Learning (IRL) often exhibit poor performance and learn unsafe policies.
翻訳日:2023-05-26 14:32:30 公開日:2023-05-25
# 授業インクリメンタル学習のための凝縮プロトタイプリプレイ

Condensed Prototype Replay for Class Incremental Learning ( http://arxiv.org/abs/2305.16143v1 )

ライセンス: Link先を確認
Jiangtao Kong, Zhenyu Zong, Tianyi Zhou, Huajie Shao(参考訳) インクリメンタル学習(il)は、新しいタスクを学ぶときに古いタスクを壊滅的に忘れてしまうことに苦しむ。 これは、メモリに格納された以前のタスクのデータをリプレイすることで対処できるが、通常サイズ制限とプライバシリークが生じる。 近年の研究では、セチロイド類のみをプロトタイプとして保存し、ガウスノイズを付加して再生のための合成データを生成する。 しかし、マージン近くのクラス干渉を効果的に避けることはできず、忘れてしまう。 さらに、インジェクトされたノイズは、実際のデータとプロトタイプの間のリッチな構造を歪め、その結果、ILに有害である。 本稿では,メモリコストのかかる模範的手法を初めて上回りうる,クラス毎に1つの凝縮型プロトタイプをリプレイすることのみを要したYONOを提案する。 そこで本研究では,(1)注目平均シフトアルゴリズムにより高密度領域のより代表的なプロトタイプを探索し,(2)各クラス内のサンプルをプロトタイプに移動させて,他のクラスから離れたコンパクトクラスタを形成する,新しいプロトタイプ学習手法を提案する。 これにより、クラスマージンが最大化され、将来の忘れることを引き起こす干渉を効果的に低減する。 さらに,各プロトタイプ近傍の表現空間において,ランダムサンプリングにより合成再生データを生成するYONOをYONO+に拡張する。 また, 合成データにより, YONOをさらに改善できることを示す。 ILベンチマークに関する大規模な実験は、既存のILメソッドよりも、正確さと忘れやすさの両方において、YONO/YONO+の利点を実証している。

Incremental learning (IL) suffers from catastrophic forgetting of old tasks when learning new tasks. This can be addressed by replaying previous tasks' data stored in a memory, which however is usually prone to size limits and privacy leakage. Recent studies store only class centroids as prototypes and augment them with Gaussian noises to create synthetic data for replay. However, they cannot effectively avoid class interference near their margins that leads to forgetting. Moreover, the injected noises distort the rich structure between real data and prototypes, hence even detrimental to IL. In this paper, we propose YONO that You Only Need to replay One condensed prototype per class, which for the first time can even outperform memory-costly exemplar-replay methods. To this end, we develop a novel prototype learning method that (1) searches for more representative prototypes in high-density regions by an attentional mean-shift algorithm and (2) moves samples in each class to their prototype to form a compact cluster distant from other classes. Thereby, the class margins are maximized, which effectively reduces interference causing future forgetting. In addition, we extend YONO to YONO+, which creates synthetic replay data by random sampling in the neighborhood of each prototype in the representation space. We show that the synthetic data can further improve YONO. Extensive experiments on IL benchmarks demonstrate the advantages of YONO/YONO+ over existing IL methods in terms of both accuracy and forgetting.
翻訳日:2023-05-26 14:32:15 公開日:2023-05-25
# 新規ビュー合成と特徴分散による領域適応フルフェイス・ゲイズ推定

Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement ( http://arxiv.org/abs/2305.16140v1 )

ライセンス: Link先を確認
Jiawei Qin, Takuru Shimoyama, Xucong Zhang, Yusuke Sugano(参考訳) 近年のディープニューラルネットワークの発展に伴い、外見に基づく視線推定は、同じドメイン内でのトレーニングとテストにおいて大きく成功している。 ドメイン内タスクと比較して、異なるドメインのばらつきはドメイン間のパフォーマンスを著しく低下させ、現実世界のアプリケーションにおける視線推定のデプロイを防いでいる。 これらの要因のうち、頭部ポーズと視線の範囲は、視線推定の最終性能において重要な役割を担っていると考えられているが、大量のデータ収集は高価である。 本研究では、教師なし領域適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。 提案するデータ合成は,3次元顔形状データセットを必要とせず,ソース領域からの頭部ポーズ範囲を拡大するために,単像3次元再構成を利用する。 合成画像と実画像の間に必然的なギャップを埋めるために,合成顔データに適した教師なし領域適応法を提案する。 本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。 包括的実験により,単眼再構成合成学習データのみを用いたモデルが,ラベル範囲の広い実データに対して比較可能なことを示す。 提案するドメイン適応アプローチは,複数の対象ドメインのパフォーマンスをさらに向上させる。 コードとデータは \url{https://github.com/ut-vision/AdaptiveGaze} で入手できる。

Along with the recent development of deep neural networks, appearance-based gaze estimation has succeeded considerably when training and testing within the same domain. Compared to the within-domain task, the variance of different domains makes the cross-domain performance drop severely, preventing gaze estimation deployment in real-world applications. Among all the factors, ranges of head pose and gaze are believed to play a significant role in the final performance of gaze estimation, while collecting large ranges of data is expensive. This work proposes an effective model training pipeline consisting of a training data synthesis and a gaze estimation model for unsupervised domain adaptation. The proposed data synthesis leverages the single-image 3D reconstruction to expand the range of the head poses from the source domain without requiring a 3D facial shape dataset. To bridge the inevitable gap between synthetic and real images, we further propose an unsupervised domain adaptation method suitable for synthetic full-face data. We propose a disentangling autoencoder network to separate gaze-related features and introduce background augmentation consistency loss to utilize the characteristics of the synthetic source domain. Through comprehensive experiments, we show that the model only using monocular-reconstructed synthetic training data can perform comparably to real data with a large label range. Our proposed domain adaptation approach further improves the performance on multiple target domains. The code and data will be available at \url{https://github.com/ut-vision/AdaptiveGaze}.
翻訳日:2023-05-26 14:31:52 公開日:2023-05-25
# 顔スワッピングのための明示的なゲイズ制約の導入

Introducing Explicit Gaze Constraints to Face Swapping ( http://arxiv.org/abs/2305.16138v1 )

ライセンス: Link先を確認
Ethan Wilson, Frederick Shic, Eakta Jain(参考訳) 顔交換は、ある顔のアイデンティティと別の顔の非外観特性(表現、ポーズ、照明)を組み合わせて合成顔を生成する。 この技術は急速に改善されているが、いくつかの属性、特に視線を再構築すると平坦になる。 顔全体を考慮した画像に基づく損失測定は、知覚的に重要で空間的に小さい眼領域を効果的に捉えていない。 顔スワップでの視線向上は、自然性やリアリズムの向上、エンターテイメント、人間のコンピュータインタラクションなどの応用に寄与する。 視線の改善はまた、ディープフェイク検出の努力を直接改善し、分類のために視線に依存する分類器の理想的なトレーニングデータとなる。 本研究では,学習中の顔スワップモデルに視線予測を適用し,既存の手法との比較を行う新しい損失関数を提案する。 顔スワップの結果の視線を著しく改善するあらゆる方法を見つけました。

Face swapping combines one face's identity with another face's non-appearance attributes (expression, head pose, lighting) to generate a synthetic face. This technology is rapidly improving, but falls flat when reconstructing some attributes, particularly gaze. Image-based loss metrics that consider the full face do not effectively capture the perceptually important, yet spatially small, eye regions. Improving gaze in face swaps can improve naturalness and realism, benefiting applications in entertainment, human computer interaction, and more. Improved gaze will also directly improve Deepfake detection efforts, serving as ideal training data for classifiers that rely on gaze for classification. We propose a novel loss function that leverages gaze prediction to inform the face swap model during training and compare against existing methods. We find all methods to significantly benefit gaze in resulting face swaps.
翻訳日:2023-05-26 14:31:12 公開日:2023-05-25
# 散逸性開量子力学における非古典的環境の定量化

Quantifying environment non-classicality in dissipative open quantum dynamics ( http://arxiv.org/abs/2305.16136v1 )

ライセンス: Link先を確認
Adri\'an A. Budini(参考訳) オープン量子系は本質的に環境と結合しており、量子力学の規則に従う。 本稿では,散逸ダイナミクスに限定することで,従来の騒音変動の影響からシステムの環境動作がどの程度離れているかを定量化する手法を提案する。 これは初期貯留層状態とシステム環境全体のハミルトニアンの間の可換性の欠如に依存している。 散逸系進化の性質、マルコフ的あるいは非マルコフ的とは独立に、この測度は系作用素の進化を定義する双対プロパゲータの言葉で書くことができる。 提案する定義の物理的意味と性質は詳細に議論され、異なるパラダイム的散逸マルコフと非マルコフ開量子力学によって特徴づけられる。

Open quantum systems are inherently coupled to their environments, which in turn also obey quantum dynamical rules. By restricting to dissipative dynamics, here we propose a measure that quantifies how far the environment action on a system departs from the influence of classical noise fluctuations. It relies on the lack of commutativity between the initial reservoir state and the system-environment total Hamiltonian. Independently of the nature of the dissipative system evolution, Markovian or non-Markovian, the measure can be written in terms of the dual propagator that defines the evolution of system operators. The physical meaning and properties of the proposed definition are discussed in detail and also characterized through different paradigmatic dissipative Markovian and non-Markovian open quantum dynamics.
翻訳日:2023-05-26 14:30:49 公開日:2023-05-25
# OVO: Open-Vocabulary Occupancy

OVO: Open-Vocabulary Occupancy ( http://arxiv.org/abs/2305.16133v1 )

ライセンス: Link先を確認
Zhiyu Tan, Zichao Dong, Cheng Zhang, Weikun Zhang, Hang Ji, Hao Li(参考訳) semantic occupancy predictionは、自律エージェントが3d環境で安全に動作するために、周囲の密度の幾何と意味を推測することを目的としている。 既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。 高品質ではあるが、そのような3Dアノテーションの生成は面倒でコストがかかり、トレーニングデータセット内のいくつかの特定のオブジェクトカテゴリに制限される。 この制限に対処するために,任意のクラスを意味的に占有できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy (OVO)を提案する。 提案手法の鍵は,(1)事前訓練した2次元開語彙セグメンテーションモデルから3次元占有ネットワークへの知識蒸留,(2)高品質トレーニングデータ生成のためのピクセルボクセルフィルタリングである。 結果として得られるフレームワークはシンプルでコンパクトで、ほとんどの最先端のセマンティック占有予測モデルと互換性がある。 NYUv2とSemanticKITTIデータセットでは、OVOは教師付きセマンティック占有予測アプローチと比較して、競争性能が向上する。 さらに,提案フレームワークの設計に関する知見を提供するため,広範な解析およびアブレーション研究を行う。

Semantic occupancy prediction aims to infer dense geometry and semantics of surroundings for an autonomous agent to operate safely in the 3D environment. Existing occupancy prediction methods are almost entirely trained on human-annotated volumetric data. Although of high quality, the generation of such 3D annotations is laborious and costly, restricting them to a few specific object categories in the training dataset. To address this limitation, this paper proposes Open Vocabulary Occupancy (OVO), a novel approach that allows semantic occupancy prediction of arbitrary classes but without the need for 3D annotations during training. Keys to our approach are (1) knowledge distillation from a pre-trained 2D open-vocabulary segmentation model to the 3D occupancy network, and (2) pixel-voxel filtering for high-quality training data generation. The resulting framework is simple, compact, and compatible with most state-of-the-art semantic occupancy prediction models. On NYUv2 and SemanticKITTI datasets, OVO achieves competitive performance compared to supervised semantic occupancy prediction approaches. Furthermore, we conduct extensive analyses and ablation studies to offer insights into the design of the proposed framework.
翻訳日:2023-05-26 14:30:19 公開日:2023-05-25
# 隠れた変数、自由選択、コンテキスト依存など

Hidden variables, free choice, context-independence, and all that ( http://arxiv.org/abs/2305.16132v1 )

ライセンス: Link先を確認
Ehtibar N. Dzhafarov(参考訳) 本稿では,相互排他的文脈を持つ確率変数のシステムを記述するために,隠れ変数モデル(HVM)を体系的に記述する。 そのようなシステムは、自由選択を持つモデルでも、一般に隠れた変数の可観測変数への文脈依存のマッピングでも、文脈非依存のマッピングを持つモデルでも同等に記述できる。 これら2つのHVMは不可能であり、可能なすべてのシステムに適用できる。 これは、選択の自由と文脈に依存しないマッピングは全く仮定がなく、これらの概念が科学や哲学で理解されるため、選択の自由や文脈がもたらす物理的影響については何も教えてくれないことを意味している。 しかし、これら2つの概念の結合は、乱れのないシステムや任意のシステムの構成に適用された場合の非文脈性を記述する偽造可能なhvmを定義する。 この hvm は ``context-irrelevance,''' という用語によって最も適切に捉えられ、これはモデル内の分布がコンテキストとともに変化しないことを意味する。

This paper provides a systematic account of the hidden variable models (HVMs) formulated to describe systems of random variables with mutually exclusive contexts. Any such system can be equivalently described either by a model with free choice but generally context-dependent mapping of the hidden variables into observable ones, or by a model with context-independent mapping but generally compromised free choice. These two HVMs are unfalsifiable, applicable to all possible systems. This implies that freedom of choice and context-independent mapping are no assumptions at all, and they tell us nothing about freedom of choice or physical influences exerted by contexts as these notions would be understood in science and philosophy. The conjunction of these two notions, however, defines a falsifiable HVM that describes noncontextuality when applied to systems with no disturbance or to consistifications of arbitrary systems. This HVM is most adequately captured by the term ``context-irrelevance,'' meaning that no distribution in the model changes with context.
翻訳日:2023-05-26 14:29:39 公開日:2023-05-25
# 量子活性粒子

A Quantum Active Particle ( http://arxiv.org/abs/2305.16131v1 )

ライセンス: Link先を確認
Yuanjian Zheng, Hartmut L\"owen(参考訳) 環境からエネルギーを指向した運動に変換する古典的な自己推進または活性化粒子は、最近、巨視的およびメソスコピックコロイドスケールで激しく研究されている。 ここでは, 運動を微視的挙動に一般化し, 非平衡運動軌道のアンサンブルから引き出された経路に沿ってランダムに変位した外部場によって駆動される量子アクティブ粒子の最小モデルを提案する。 この粒子は純粋量子起源の活性の特性を示す。 特に、平均二乗変位(MSD)は、短時間で$t^4$にスケールし、動的に$t^3$の挙動に交差する状態を示す。 この遷移は、与えられたアクティビティの持続時間によって制御される時間スケールで起こる。 原則として、そのような量子活性粒子の運動は、時間依存の光学トラップを含む超低温原子で観察することができる。

Classical self-propelled or activated particles that convert energy from their environment into directed motion have recently been studied intensely at the macroscopic and mesoscopic colloidal scales. Here we generalize the study of actuated motion to microscopic behavior and propose a minimal model of a quantum-active particle that is driven by randomly displaced external fields along paths drawn from an ensemble of non-equilibrium active trajectories. We show that this particle exhibits characteristics of activity that is of pure quantum origin. In particular, the mean-square displacement (MSD) exhibits a regime that scales as $t^4$ at short times $t$, and dynamically crosses over to a $t^3$ behavior. This transition occurs at time scales controlled by the persistence time of the imposed activity. In principle, the motion of such a quantum-active particle can be observed in ultra-cold atoms involving time-dependent optical traps.
翻訳日:2023-05-26 14:29:22 公開日:2023-05-25
# 単純なWord2Vec型ベクトル算術を実装する言語モデル

Language Models Implement Simple Word2Vec-style Vector Arithmetic ( http://arxiv.org/abs/2305.16130v1 )

ライセンス: Link先を確認
Jack Merullo, Carsten Eickhoff, Ellie Pavlick(参考訳) 言語モデル(LM)に対する主要な批判は、その調査性である。 本稿では,その大きさと複雑さにもかかわらず,従来の単語埋め込みに精通した計算機構,すなわち抽象的関係(ポーランド:ワルシャワ::china:beijing など)をエンコードするために単純なベクトル演算を用いる場合について述べる。 言語モデルのサイズ(124Mパラメータから176Bパラメータまで)を文脈内学習環境で検討し、様々なタスク(大都市, 上キャシング, 過去の拡張を含む)に対して、そのメカニズムの重要な部分は、フィードフォワードネットワークで適用された単純な線形更新に還元されることを示す。 さらに, このメカニズムは, ローカルコンテキストからの検索ではなく, 事前学習メモリからの検索を必要とするタスクに特有であることを示した。 この結果は,LLMの機械的解釈可能性の向上に寄与し,モデルが大規模かつ非線形であるにもかかわらず,最終的に課題を解決するために使用する戦略が,慣れ親しんだアルゴリズムや直感的なアルゴリズムに還元されるという楽観的な理由を与える。

A primary criticism towards language models (LMs) is their inscrutability. This paper presents evidence that, despite their size and complexity, LMs sometimes exploit a computational mechanism familiar from traditional word embeddings: the use of simple vector arithmetic in order to encode abstract relations (e.g., Poland:Warsaw::China:Beijing). We investigate a range of language model sizes (from 124M parameters to 176B parameters) in an in-context learning setting, and find that for a variety of tasks (involving capital cities, upper-casing, and past-tensing), a key part of the mechanism reduces to a simple linear update applied by the feedforward networks. We further show that this mechanism is specific to tasks that require retrieval from pretraining memory, rather than retrieval from local context. Our results contribute to a growing body of work on the mechanistic interpretability of LLMs, and offer reason to be optimistic that, despite the massive and non-linear nature of the models, the strategies they ultimately use to solve tasks can sometimes reduce to familiar and even intuitive algorithms.
翻訳日:2023-05-26 14:29:08 公開日:2023-05-25
# 潜時グラフから潜時位相推定へ:微分可能な細胞複合体モジュール

From Latent Graph to Latent Topology Inference: Differentiable Cell Complex Module ( http://arxiv.org/abs/2305.16174v1 )

ライセンス: Link先を確認
Claudio Battiloro, Indro Spinelli, Lev Telyatnikov, Michael Bronstein, Simone Scardapane, Paolo Di Lorenzo(参考訳) 潜在グラフ推論(LGI)は、グラフトポロジへのグラフニューラルネットワーク(GNN)の依存を動的に学習することで緩和した。 しかし、ほとんどのlgi手法は(ノイズ、不完全、即興、...)入力グラフをリワイヤし、正規グラフトポロジのみを学習できると仮定している。 トポロジカル・ディープ・ラーニング(tdl)の成功を受けて、データポイント間のマルチウェイインタラクションを記述する高次セル複合体(正規トポロジーではなくスパース)を学習するための潜時トポロジー推論(lti)の研究を行った。 この目的のために, 下流課題を改善するために, コンプレックス内の細胞確率を計算する新しい学習可能機能である微分可能セル複合体モジュール(dcm)を導入する。 そこで本稿では,DCMとセル複雑なメッセージパッシングネットワーク層を統合してエンドツーエンドでトレーニングする方法を示す。 提案手法は,複数の同好・異好のグラフデータセットを用いて検証し,入力グラフが提供されない場合,特に顕著な改善が期待できる。

Latent Graph Inference (LGI) relaxed the reliance of Graph Neural Networks (GNNs) on a given graph topology by dynamically learning it. However, most of LGI methods assume to have a (noisy, incomplete, improvable, ...) input graph to rewire and can solely learn regular graph topologies. In the wake of the success of Topological Deep Learning (TDL), we study Latent Topology Inference (LTI) for learning higher-order cell complexes (with sparse and not regular topology) describing multi-way interactions between data points. To this aim, we introduce the Differentiable Cell Complex Module (DCM), a novel learnable function that computes cell probabilities in the complex to improve the downstream task. We show how to integrate DCM with cell complex message passing networks layers and train it in a end-to-end fashion, thanks to a two-step inference procedure that avoids an exhaustive search across all possible cells in the input, thus maintaining scalability. Our model is tested on several homophilic and heterophilic graph datasets and it is shown to outperform other state-of-the-art techniques, offering significant improvements especially in cases where an input graph is not provided.
翻訳日:2023-05-26 14:20:54 公開日:2023-05-25
# グラム反復による畳み込み層に対するリプシッツ定数の効率的な境界

Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram Iteration ( http://arxiv.org/abs/2305.16173v1 )

ライセンス: Link先を確認
Blaise Delattre, Quentin Barth\'elemy, Alexandre Araujo, Alexandre Allauzen(参考訳) リプシッツ定数の制御は、ニューラルネットワークのトレーニングの安定性、一般化、堅牢性に大きな影響を与えるため、この値の推定は現在では真の科学的課題となっている。 本稿では,循環行列理論を用いた畳み込み層のスペクトルノルムの精度,高速,微分可能な上界とパワー反復の新たな代替について述べる。 グラム反復と呼ばれるこのアプローチは超線形収束を示す。 まず,本手法が他の最先端手法よりも精度,計算コスト,スケーラビリティにおいて優れていることを示す実験を総合的に実施する。 そして、畳み込みニューラルネットワークのリプシッツ正則化に対して高い効果が証明され、並行アプローチに対する競合結果が得られた。

Since the control of the Lipschitz constant has a great impact on the training stability, generalization, and robustness of neural networks, the estimation of this value is nowadays a real scientific challenge. In this paper we introduce a precise, fast, and differentiable upper bound for the spectral norm of convolutional layers using circulant matrix theory and a new alternative to the Power iteration. Called the Gram iteration, our approach exhibits a superlinear convergence. First, we show through a comprehensive set of experiments that our approach outperforms other state-of-the-art methods in terms of precision, computational cost, and scalability. Then, it proves highly effective for the Lipschitz regularization of convolutional neural networks, with competitive results against concurrent approaches.
翻訳日:2023-05-26 14:20:32 公開日:2023-05-25
# シーンテキスト認識のためのマスキングおよび置換暗黙的文脈学習

Masked and Permuted Implicit Context Learning for Scene Text Recognition ( http://arxiv.org/abs/2305.16172v1 )

ライセンス: Link先を確認
Xiaomeng Yang, Zhi Qiao, Jin Wei, Yu Zhou, Ye Yuan, Zhilong Ji, Dongbao Yang, Weiping Wang(参考訳) Scene Text Recognition (STR) は、テキストスタイル、形状、背景の変化のために難しいタスクである。 言語情報を組み込むことはSTRモデルの堅牢性を高める効果的な方法である。 既存の手法は、permuted language modeling (PLM) または masked language modeling (MLM) を使用して、permuted autoregressive (AR) LMs training または Iterative non-autoregressive (NAR) decoding procedure のアンサンブルを通じて、文脈情報を暗黙的に学習する。 PLMのARデコーディングは将来の文字に関する情報の不足をもたらすが、MLMはテキスト全体のグローバルな情報を提供するが、予測された文字間の依存関係は無視する。 本稿では,単一の復号化アーキテクチャ内でplmとmlmを統一し,両者の利点を継承する,strのためのマスキングおよび置換型暗黙的コンテキスト学習ネットワークを提案する。 我々は PLM のトレーニング手順を利用し、MLM を統合するために、特定の数のマスクトークンを導入して、単語長情報を復号処理に組み込む。 実験の結果,提案手法はARおよびNAR復号処理の両方を用いて,標準ベンチマーク上での最先端性能を実現することが示された。

Scene Text Recognition (STR) is a challenging task due to variations in text style, shape, and background. Incorporating linguistic information is an effective way to enhance the robustness of STR models. Existing methods rely on permuted language modeling (PLM) or masked language modeling (MLM) to learn contextual information implicitly, either through an ensemble of permuted autoregressive (AR) LMs training or iterative non-autoregressive (NAR) decoding procedure. However, these methods exhibit limitations: PLM's AR decoding results in the lack of information about future characters, while MLM provides global information of the entire text but neglects dependencies among each predicted character. In this paper, we propose a Masked and Permuted Implicit Context Learning Network for STR, which unifies PLM and MLM within a single decoding architecture, inheriting the advantages of both approaches. We utilize the training procedure of PLM, and to integrate MLM, we incorporate word length information into the decoding process by introducing specific numbers of mask tokens. Experimental results demonstrate that our proposed model achieves state-of-the-art performance on standard benchmarks using both AR and NAR decoding procedures.
翻訳日:2023-05-26 14:20:20 公開日:2023-05-25
# 多言語・多文化図形言語理解

Multi-lingual and Multi-cultural Figurative Language Understanding ( http://arxiv.org/abs/2305.16171v1 )

ライセンス: Link先を確認
Anubha Kabra, Emmy Liu, Simran Khanuja, Alham Fikri Aji, Genta Indra Winata, Samuel Cahyawijaya, Anuoluwapo Aremu, Perez Ogayo, Graham Neubig(参考訳) 図形言語は人間のコミュニケーションに浸透するが、同時にNLPでは比較的過小評価されている。 言語モデル(LM)における図形言語処理の測定と改善に向けた進歩を加速するために、データセットが英語で作成されている。 しかし、フィギュラティブ言語の使用は、我々の文化的・社会的な経験の表現であり、これらのフレーズを普遍的に適用することは困難である。 本研究では,ヒンディー語,インドネシア語,ジャワ語,カンナダ語,スンダ語,スワヒリ語,ヨルバ語など,さまざまな文化に関連する7つの言語を対象に,図式的言語推論データセット「datasetname」を構築した。 我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。 ゼロショットおよび少数ショット設定で図形言語を解釈する多言語LMの能力を評価する。 すべての言語は英語に比べて著しく不足しており、事前学習と微調整データの可用性を反映したパフォーマンスのバリエーションがあり、訓練中に幅広い言語的・文化的変化にlmsを露出させる必要性を強調している。

Figurative language permeates human communication, but at the same time is relatively understudied in NLP. Datasets have been created in English to accelerate progress towards measuring and improving figurative language processing in language models (LMs). However, the use of figurative language is an expression of our cultural and societal experiences, making it difficult for these phrases to be universally applicable. In this work, we create a figurative language inference dataset, \datasetname, for seven diverse languages associated with a variety of cultures: Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili and Yoruba. Our dataset reveals that each language relies on cultural and regional concepts for figurative expressions, with the highest overlap between languages originating from the same region. We assess multilingual LMs' abilities to interpret figurative language in zero-shot and few-shot settings. All languages exhibit a significant deficiency compared to English, with variations in performance reflecting the availability of pre-training and fine-tuning data, emphasizing the need for LMs to be exposed to a broader range of linguistic and cultural variation during training.
翻訳日:2023-05-26 14:19:59 公開日:2023-05-25
# クロスモーダル検索と合成によるマルチモーダル関係抽出

Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis ( http://arxiv.org/abs/2305.16166v1 )

ライセンス: Link先を確認
Xuming Hu, Zhijiang Guo, Zhiyang Teng, Irwin King, Philip S. Yu(参考訳) マルチモーダル関係抽出(MRE)は、文イメージペアのコンテキストに基づいて、2つのエンティティ間の意味的関係を識別するタスクである。 既存の検索強化アプローチは主に検索したテキストの知識をモデル化することに焦点を当てているが、複雑な関係を正確に識別することはできない。 この予測を改善するため,本研究は対象物,文,画像全体に基づいて,テキスト的,視覚的な証拠を検索することを提案する。 さらに,オブジェクトレベル,画像レベル,文レベル情報を合成して,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。 大規模な実験と分析により,提案手法はモダリティにまたがるエビデンスを効果的に選択・比較し,最先端のモデルを大幅に上回ることを示す。

Multimodal relation extraction (MRE) is the task of identifying the semantic relationships between two entities based on the context of the sentence image pair. Existing retrieval-augmented approaches mainly focused on modeling the retrieved textual knowledge, but this may not be able to accurately identify complex relations. To improve the prediction, this research proposes to retrieve textual and visual evidence based on the object, sentence, and whole image. We further develop a novel approach to synthesize the object-level, image-level, and sentence-level information for better reasoning between the same and different modalities. Extensive experiments and analyses show that the proposed method is able to effectively select and compare evidence across modalities and significantly outperforms state-of-the-art models.
翻訳日:2023-05-26 14:19:35 公開日:2023-05-25
# 機能崩壊

Feature Collapse ( http://arxiv.org/abs/2305.16162v1 )

ライセンス: Link先を確認
Thomas Laurent, James H. von Brecht, and Xavier Bresson(参考訳) 我々は,学習課題において同様の役割を演じる実体が同様の表現を受けるという直感的な考えを,機能崩壊という現象を定式化し,研究する。 機能崩壊はタスクの概念を必要とするため、単純だがプロトタイプなNLPタスクを活用して研究する。 まず、機能崩壊が一般化と連動することを示す実験から始めます。 次に,このNLPタスクにおいて同一の役割を演じる単語が,ニューラルネットワークにおいて同一の局所的特徴表現を受けることを示す。 この分析は、LayerNormのような正規化メカニズムが機能崩壊や一般化において果たす重要な役割を明らかにしている。

We formalize and study a phenomenon called feature collapse that makes precise the intuitive idea that entities playing a similar role in a learning task receive similar representations. As feature collapse requires a notion of task, we leverage a simple but prototypical NLP task to study it. We start by showing experimentally that feature collapse goes hand in hand with generalization. We then prove that, in the large sample limit, distinct words that play identical roles in this NLP task receive identical local feature representations in a neural network. This analysis reveals the crucial role that normalization mechanisms, such as LayerNorm, play in feature collapse and in generalization.
翻訳日:2023-05-26 14:19:21 公開日:2023-05-25
# 事前学習言語モデルからの学習データ抽出:調査

Training Data Extraction From Pre-trained Language Models: A Survey ( http://arxiv.org/abs/2305.16157v1 )

ライセンス: Link先を確認
Shotaro Ishihara(参考訳) プレトレーニング言語モデル(PLM)の展開が拡大するにつれて、トレーニングデータの悪意ある抽出の可能性に対するセキュリティ上の懸念が高まり、データのプライバシに脅威が生じる。 本研究は, PLMからのトレーニングデータ抽出に関する総合的な調査を初めて行った。 今回のレビューでは、自然言語処理やセキュリティなどの分野で、100以上の重要な論文を取り上げています。 まず、予備知識を再開し、記憶の様々な定義の分類を提示する。 次に攻撃と防御のアプローチが体系化される。 さらに、いくつかの定量的研究の実証的知見を強調する。 最後に,本研究の今後の方向性について述べる。

As the deployment of pre-trained language models (PLMs) expands, pressing security concerns have arisen regarding the potential for malicious extraction of training data, posing a threat to data privacy. This study is the first to provide a comprehensive survey of training data extraction from PLMs. Our review covers more than 100 key papers in fields such as natural language processing and security. First, preliminary knowledge is recapped and a taxonomy of various definitions of memorization is presented. The approaches for attack and defense are then systemized. Furthermore, the empirical findings of several quantitative studies are highlighted. Finally, future research directions based on this review are suggested.
翻訳日:2023-05-26 14:19:11 公開日:2023-05-25
# 大規模における非自己回帰翻訳の再検討

Revisiting Non-Autoregressive Translation at Scale ( http://arxiv.org/abs/2305.16155v1 )

ライセンス: Link先を確認
Zhihao Wang, Longyue Wang, Jinsong Su, Junfeng Yao, Zhaopeng Tu(参考訳) 実世界のシステムでは、自動回帰翻訳(AT)の翻訳品質を向上させるためにスケーリングが重要であるが、非自己回帰翻訳(NAT)では十分に研究されていない。 本研究では,NATの挙動に及ぼすスケーリングの影響を系統的に研究することによって,ギャップを埋める。 2つの先進的なNATモデルに対する6つのWMTベンチマークの大規模な実験により、スケーリングはNATモデルの一般的に望まれる弱点を緩和し、翻訳性能が向上することが示された。 本研究では,デコード速度に対するスケーリングの副作用を軽減するために,NATエンコーダとデコーダが翻訳性能に与える影響を実証的に検討する。 大規模なWMT20 En-Deの実験結果から、非対称アーキテクチャ(例えばエンコーダの大型化やデコーダの小型化など)はスケーリングモデルと同等の性能を発揮しつつ、標準的なNATモデルとのデコード速度の優位性を維持した。 この目的のために、スケールしたNATモデルをスケールしたデータセット上で検証することで、新しいベンチマークを構築し、将来の作業の強力なベースラインとみなすことができる。 コード、モデル、システム出力はhttps://github.com/DeepLearnXMU/Scaling4NATでリリースします。

In real-world systems, scaling has been critical for improving the translation quality in autoregressive translation (AT), which however has not been well studied for non-autoregressive translation (NAT). In this work, we bridge the gap by systematically studying the impact of scaling on NAT behaviors. Extensive experiments on six WMT benchmarks over two advanced NAT models show that scaling can alleviate the commonly-cited weaknesses of NAT models, resulting in better translation performance. To reduce the side-effect of scaling on decoding speed, we empirically investigate the impact of NAT encoder and decoder on the translation performance. Experimental results on the large-scale WMT20 En-De show that the asymmetric architecture (e.g. bigger encoder and smaller decoder) can achieve comparable performance with the scaling model, while maintaining the superiority of decoding speed with standard NAT models. To this end, we establish a new benchmark by validating scaled NAT models on the scaled dataset, which can be regarded as a strong baseline for future works. We release code, models and system outputs at https://github.com/DeepLearnXMU/Scaling4NAT.
翻訳日:2023-05-26 14:19:01 公開日:2023-05-25
# 非エルミート・フロケット・トポロジカル・マター--概観

Non-Hermitian Floquet Topological Matter -- A Review ( http://arxiv.org/abs/2305.16153v1 )

ライセンス: Link先を確認
Longwen Zhou and Da-Jian Zhang(参考訳) 非エルミート・フロッケ位相相は、時間周期非エルミート・ハミルトニアンによって記述された系に現れる。 本稿では,1次元と2次元の空間次元における非エルミートフロッケ位相物の研究の概要について述べる。 文献の概要を概観し、非エルミートフロッケ系の研究と非エルミートフロッケバンドの位相的特徴付けのための理論的枠組みについて紹介する。 この理論に基づき,非エルミート・フロケ・トポロジカル絶縁体,超伝導体,準結晶の典型例を概説し,その位相不変量,バルクエッジ対応,非エルミート皮膚効果,動的性質,局在化遷移に着目した。 本稿では,本研究の主な発見を要約し,今後の方向性について論じる。

Non-Hermitian Floquet topological phases appear in systems described by time-periodic non-Hermitian Hamiltonians. This review presents a sum-up of our studies on non-Hermitian Floquet topological matter in one and two spatial dimensions. After a brief overview of the literature, we introduce our theoretical framework for the study of non-Hermitian Floquet systems and the topological characterization of non-Hermitian Floquet bands. Based on our theories, we describe typical examples of non-Hermitian Floquet topological insulators, superconductors and quasicrystals with a focus on their topological invariants, bulk-edge correspondences, non-Hermitian skin effects, dynamical properties and localization transitions. We conclude this review by summarizing our main discoveries and discussing potential future directions.
翻訳日:2023-05-26 14:18:39 公開日:2023-05-25
# 自動計画のための大規模言語モデルの能力理解

Understanding the Capabilities of Large Language Models for Automated Planning ( http://arxiv.org/abs/2305.16151v1 )

ライセンス: Link先を確認
Vishal Pallagani and Bharath Muppasani and Keerthiram Murugesan and Francesca Rossi and Biplav Srivastava and Lior Horesh and Francesco Fabiano and Andrea Loreggia(参考訳) 自動計画は、特定の環境で特定の目標を達成するための計画や一連の行動を生成する効率的なアルゴリズムを開発することに関心がある。 Emerging Large Language Models (LLMs)は、質問に答え、高品質なプログラミングコードを書き、タンパク質の折り畳みを予測することができ、言語ベースの問題を超えた様々なタスクを解くための汎用性を示している。 本稿では,LLMが自動計画にどのように使用できるかを検討することを目的とする。 そのために4つの重要な質問に答える。 まず、LLMが計画生成にどの程度使えるかを理解したい。 第2に,計画作成に最も有効な事前学習データを特定することを目的とする。 第3に、細調整とプロンプトが計画生成に有効なアプローチであるかどうかを検討する。 最後に, LLM が計画一般化が可能かどうかを考察する。 これらの質問に答えることで、複雑な計画問題の解決におけるLLMの能力を明らかにし、この文脈でLLMを使用する上で最も効果的なアプローチについての洞察を提供する。

Automated planning is concerned with developing efficient algorithms to generate plans or sequences of actions to achieve a specific goal in a given environment. Emerging Large Language Models (LLMs) can answer questions, write high-quality programming code, and predict protein folding, showcasing their versatility in solving various tasks beyond language-based problems. In this paper, we aim to explore how LLMs can also be used for automated planning. To do so, we seek to answer four key questions. Firstly, we want to understand the extent to which LLMs can be used for plan generation. Secondly, we aim to identify which pre-training data is most effective in facilitating plan generation. Thirdly, we investigate whether fine-tuning or prompting is a more effective approach for plan generation. Finally, we explore whether LLMs are capable of plan generalization. By answering these questions, the study seeks to shed light on the capabilities of LLMs in solving complex planning problems and provide insights into the most effective approaches for using LLMs in this context.
翻訳日:2023-05-26 14:18:26 公開日:2023-05-25
# 自動車用小型グラフ構造のためのグラフ注意ネットワークの最適化と解釈可能性

Optimization and Interpretability of Graph Attention Networks for Small Sparse Graph Structures in Automotive Applications ( http://arxiv.org/abs/2305.16196v1 )

ライセンス: Link先を確認
Marion Neumeier, Andreas Tollk\"uhn, Sebastian Dorn, Michael Botsch, Wolfgang Utschick(参考訳) 自動車アプリケーションにとって、グラフ注意ネットワーク(GAT)は、機能埋め込み中にトラフィックシナリオのリレーショナル情報を含む、目立つアーキテクチャである。 しかし、この研究で示されているように、最も一般的なGAT実現法の一つであるGATv2は、最適パラメータ学習を妨げる潜在的な落とし穴がある。 特に小さくスパースなグラフ構造では、適切な最適化が問題となる。 制限を超えるために、この研究はGATv2のアーキテクチャ修正を提案する。 制御実験では,提案するモデル適応により,ノードレベルの回帰タスクにおける予測性能が向上し,パラメータ初期化に頑健であることが示されている。 本研究は注意機構の理解を深め、因果的重要性を識別する解釈可能性を分析することを目的としている。

For automotive applications, the Graph Attention Network (GAT) is a prominently used architecture to include relational information of a traffic scenario during feature embedding. As shown in this work, however, one of the most popular GAT realizations, namely GATv2, has potential pitfalls that hinder an optimal parameter learning. Especially for small and sparse graph structures a proper optimization is problematic. To surpass limitations, this work proposes architectural modifications of GATv2. In controlled experiments, it is shown that the proposed model adaptions improve prediction performance in a node-level regression task and make it more robust to parameter initialization. This work aims for a better understanding of the attention mechanism and analyzes its interpretability of identifying causal importance.
翻訳日:2023-05-26 14:12:50 公開日:2023-05-25
# Urdu言語のための抽象的概要生成

Abstractive Summary Generation for the Urdu Language ( http://arxiv.org/abs/2305.16195v1 )

ライセンス: Link先を確認
Ali Raza, Hadia Sultan Raja, Usman Maratib(参考訳) 抽象的な要約生成は、モデルがソースコードを理解し、重要な情報をキャプチャする簡潔で一貫性のある要約を生成することを必要とする難しいタスクである。 本稿では,ウルドゥー語における抽象的要約生成のためのエンコーダ/デコーダアプローチについて検討する。 我々は、自己認識機構を利用して入力テキストを符号化し、要約を生成するトランスフォーマーモデルを用いる。 実験の結果,我々のモデルは文法的に正確で意味のある要約を生成できることがわかった。 我々は,公開データセット上でモデルを評価し,ルージュスコアを用いて最先端の結果を得る。 また,モデルの出力を定性的に分析し,その有効性と限界を評価する。 以上の結果から,エンコーダ/デコーダアプローチはurduの抽象要約生成に有望な手法であり,適切な修正を加えることで他の言語にも拡張できることが示唆された。

Abstractive summary generation is a challenging task that requires the model to comprehend the source text and generate a concise and coherent summary that captures the essential information. In this paper, we explore the use of an encoder/decoder approach for abstractive summary generation in the Urdu language. We employ a transformer-based model that utilizes self-attention mechanisms to encode the input text and generate a summary. Our experiments show that our model can produce summaries that are grammatically correct and semantically meaningful. We evaluate our model on a publicly available dataset and achieve state-of-the-art results in terms of Rouge scores. We also conduct a qualitative analysis of our model's output to assess its effectiveness and limitations. Our findings suggest that the encoder/decoder approach is a promising method for abstractive summary generation in Urdu and can be extended to other languages with suitable modifications.
翻訳日:2023-05-26 14:12:39 公開日:2023-05-25
# ビーブルのベル概念の進化--ボーアから原始存在論へ

The Evolution of the Bell Notion of Beable: from Bohr to Primitive Ontology ( http://arxiv.org/abs/2305.16194v1 )

ライセンス: Link先を確認
Federico Laudisa(参考訳) ジョン・S・ベルは、量子力学の曖昧な定式化の必要性を強調するために、可観測の標準的な概念とは対照的に可観測の概念を導入した。 論文の中で、ベルは実際には2つの異なるビーブル理論を定式化していることを示している。 第一はボーアの量子力学観を思い起こさせるが、同時にベルによってコペンハーゲン解釈に対する批判的な道具として採用され、第二のより成熟した定式化は、量子力学に対するいわゆる原始存在論(po)アプローチのインスピレーションの1つであり、科学的実在論に触発されたアプローチである。 論文の第1部では、ベルの望みに反して、理論の第1の定式化は量子力学の標準的な定式化の基礎となるあいまいさに対処するための効果的なレシピにはならないが、POアプローチへの道のりをうまく歩けるのは第2の定式化のみである、と論じられている。 第2部では、ベル可算のベル理論の2つの定式化の区別が、可算の理論とPOアプローチの細部の間の複雑な関係をvis-a-visする方法について考察する。

John S. Bell introduced the notion of beable, as opposed to the standard notion of observable, in order to emphasize the need for an unambiguous formulation of quantum mechanics. In the paper I show that Bell formulated in fact two different theories of beables. The first is somehow reminiscent of the Bohr views on quantum mechanics but, at the same time, is curiously adopted by Bell as a critical tool against the Copenhagen interpretation, whereas the second, more mature formulation was among the sources of inspiration of the so-called Primitive Ontology (PO) approach to quantum mechanics, an approach inspired to scientific realism. In the first part of the paper it is argued that, contrary to the Bell wishes, the first formulation of the theory fails to be an effective recipe for addressing the ambiguity underlying the standard formulation of quantum mechanics, whereas it is only the second formulation that successfully paves the way to the PO approach. In the second part, I consider how the distinction between the two formulations of the Bell theory of beables fares vis-a-vis the complex relationship between the theory of beables and the details of the PO approach.
翻訳日:2023-05-26 14:12:24 公開日:2023-05-25
# 化学言語モデルの説明可能性

Explainability Techniques for Chemical Language Models ( http://arxiv.org/abs/2305.16192v1 )

ライセンス: Link先を確認
Stefan H\"odl, William Robinson, Yoram Bachrach, Wilhelm Huck, Tal Kachman(参考訳) 化学言語モデルにはまだ適用されていないディープラーニングモデルの予測の背後にある理由を理解するためには、説明可能性技術が不可欠である。 本稿では,これらのモデルによる予測に対して,個々の原子の重要性を考慮に入れた説明可能なAI手法を提案する。 本手法は化学入力文字列に対する関連情報をバックプロパゲーションし,個々の原子の重要性を可視化する。 我々は,分子ひも表現に作用する自己着脱変圧器に着目し,事前学習エンコーダを微調整に活用する。 本研究では,水および有機溶媒中の溶解度を予測し,可視化する手法を紹介する。 我々は,事前学習モデルを調べるために使用する解釈可能な予測を得ながら,競争モデルの性能を達成する。

Explainability techniques are crucial in gaining insights into the reasons behind the predictions of deep learning models, which have not yet been applied to chemical language models. We propose an explainable AI technique that attributes the importance of individual atoms towards the predictions made by these models. Our method backpropagates the relevance information towards the chemical input string and visualizes the importance of individual atoms. We focus on self-attention Transformers operating on molecular string representations and leverage a pretrained encoder for finetuning. We showcase the method by predicting and visualizing solubility in water and organic solvents. We achieve competitive model performance while obtaining interpretable predictions, which we use to inspect the pretrained model.
翻訳日:2023-05-26 14:11:59 公開日:2023-05-25
# UpMax: MaxSATのユーザパーティショニング

UpMax: User partitioning for MaxSAT ( http://arxiv.org/abs/2305.16191v1 )

ライセンス: Link先を確認
Pedro Orvalho and Vasco Manquinho and Ruben Martins(参考訳) 最大満足度(MaxSAT)問題インスタンスは、ソフト節の集合を複数の非結合集合に分割することで効果的に解決できることが示されている。 分割法は節重み(例えば階層化)に基づいてもよいし、公式のグラフ表現にもとづくこともできる。 その後、最適解が見つかることを保証するためにマージ手順が適用される。 本稿では,分割処理をMaxSATの解法から切り離すUpMaxという新しいフレームワークを提案する。 結果として、新しいパーティショニング手順は、使用するMaxSATアルゴリズムとは独立して定義することができる。 さらに、このデカップリングにより、ユーザーは新しいMaxSAT公式を構築し、解決すべき問題の知識に基づいて分割スキームを提案できる。 このアプローチをいくつかの問題を用いて説明し、分割が不満足なMaxSATアルゴリズムの性能に大きな影響を与えることを示す。

It has been shown that Maximum Satisfiability (MaxSAT) problem instances can be effectively solved by partitioning the set of soft clauses into several disjoint sets. The partitioning methods can be based on clause weights (e.g., stratification) or based on graph representations of the formula. Afterwards, a merge procedure is applied to guarantee that an optimal solution is found. This paper proposes a new framework called UpMax that decouples the partitioning procedure from the MaxSAT solving algorithms. As a result, new partitioning procedures can be defined independently of the MaxSAT algorithm to be used. Moreover, this decoupling also allows users that build new MaxSAT formulas to propose partition schemes based on knowledge of the problem to be solved. We illustrate this approach using several problems and show that partitioning has a large impact on the performance of unsatisfiability-based MaxSAT algorithms.
翻訳日:2023-05-26 14:11:47 公開日:2023-05-25
# 火星の時系列:因子的変動オートエンコーダを用いたマルチスケールネステッドアプローチ

Martian time-series unraveled: A multi-scale nested approach with factorial variational autoencoders ( http://arxiv.org/abs/2305.16189v1 )

ライセンス: Link先を確認
Ali Siahkoohi and Rudy Morel and Randall Balestriero and Erwan Allys and Gr\'egory Sainton and Taichi Kawamura and Maarten V. de Hoop(参考訳) 教師なしのソース分離は、ミキシング演算子を通じて記録された未知のソース信号のセットを解き放ち、ソースに関する事前知識が限られ、信号混合のデータセットのみにアクセスする。 この問題は本質的に不適切であり、時系列データで情報源が示す様々な時間スケールによってさらに問題視されている。 既存のメソッドは通常、選択されたウィンドウサイズに依存し、マルチスケールソースを扱う能力を制限する。 そこで本研究では,非ガウジアン確率過程を区別可能な確率過程の低次元表現を提供するウェーブレット散乱共分散を用いて,非教師なしマルチスケールクラスタリングおよびソース分離フレームワークを提案する。 この表現空間にネストし,(1)異なる時間スケールでの確率的クラスター源,(2)各クラスタに関連する独立なサンプル散乱共分散表現を訓練した因子型ガウス型変分オートエンコーダを開発した。 各クラスタからのサンプルを事前情報として,ウェーブレット散乱共分散表現空間の最適化問題としてソース分離を定式化し,時間領域でソースを分離する。 nasaの火星探査ミッションで記録された地震データに適用すると、我々のマルチスケールのネストドアプローチは、時間的スケールで大きく異なる源(例えば、"glitches"として知られる)と、通常数分間続く大気活動によって生じる大気環境ノイズとを識別するための強力なツールであることが証明されます。 これらの結果は、大気-表面相互作用、熱緩和、その他の複雑な現象に関連する孤立した源についてさらなる調査を行う機会を与える。

Unsupervised source separation involves unraveling an unknown set of source signals recorded through a mixing operator, with limited prior knowledge about the sources, and only access to a dataset of signal mixtures. This problem is inherently ill-posed and is further challenged by the variety of time-scales exhibited by sources in time series data. Existing methods typically rely on a preselected window size that limits their capacity to handle multi-scale sources. To address this issue, instead of operating in the time domain, we propose an unsupervised multi-scale clustering and source separation framework by leveraging wavelet scattering covariances that provide a low-dimensional representation of stochastic processes, capable of distinguishing between different non-Gaussian stochastic processes. Nested within this representation space, we develop a factorial Gaussian-mixture variational autoencoder that is trained to (1) probabilistically cluster sources at different time-scales and (2) independently sample scattering covariance representations associated with each cluster. Using samples from each cluster as prior information, we formulate source separation as an optimization problem in the wavelet scattering covariance representation space, resulting in separated sources in the time domain. When applied to seismic data recorded during the NASA InSight mission on Mars, our multi-scale nested approach proves to be a powerful tool for discriminating between sources varying greatly in time-scale, e.g., minute-long transient one-sided pulses (known as ``glitches'') and structured ambient noises resulting from atmospheric activities that typically last for tens of minutes. These results provide an opportunity to conduct further investigations into the isolated sources related to atmospheric-surface interactions, thermal relaxations, and other complex phenomena.
翻訳日:2023-05-26 14:11:33 公開日:2023-05-25
# 境界幾何学的罰則を保証するリーマン最小最適化の高速化法

Accelerated Methods for Riemannian Min-Max Optimization Ensuring Bounded Geometric Penalties ( http://arxiv.org/abs/2305.16186v1 )

ライセンス: Link先を確認
David Mart\'inez-Rubio, Christophe Roux, Christopher Criscitiello, Sebastian Pokutta(参考訳) 本研究では, 積リーマン多様体上の $f(x, y)$ が定義されるような $\min_x \max_y f(x, y)$ という形式の最適化問題について検討し, $x$ と $\mu_y$-strongly geodesically convex (g-convex) が $y$,$\mu_x, \mu_y \geq 0$ に対して $\mu_x$-strongly g-concave in $y$ について検討する。 我々は、$f$が$(l_x, l_y, l_{xy})$-smoothと$\mathcal{m}$, $\mathcal{n}$がhadaardである場合、高速化メソッドを設計する。 そこで我々は, 計量計画付きリーマン勾配降下に対する大域的線形収束を示すとともに, 幾何学定数を減少させることにより, 既存の高速化手法を改善した。 さらに、リーマン min-max の場合に適用する2つの以前の研究を、あらかじめ特定されたコンパクト集合に留まる反復に関する仮定を除去して解析する。

In this work, we study optimization problems of the form $\min_x \max_y f(x, y)$, where $f(x, y)$ is defined on a product Riemannian manifold $\mathcal{M} \times \mathcal{N}$ and is $\mu_x$-strongly geodesically convex (g-convex) in $x$ and $\mu_y$-strongly g-concave in $y$, for $\mu_x, \mu_y \geq 0$. We design accelerated methods when $f$ is $(L_x, L_y, L_{xy})$-smooth and $\mathcal{M}$, $\mathcal{N}$ are Hadamard. To that aim we introduce new g-convex optimization results, of independent interest: we show global linear convergence for metric-projected Riemannian gradient descent and improve existing accelerated methods by reducing geometric constants. Additionally, we complete the analysis of two previous works applying to the Riemannian min-max case by removing an assumption about iterates staying in a pre-specified compact set.
翻訳日:2023-05-26 14:11:00 公開日:2023-05-25
# エージェントと言語モデルにおける能動的因果戦略の受動的学習

Passive learning of active causal strategies in agents and language models ( http://arxiv.org/abs/2305.16183v1 )

ライセンス: Link先を確認
Andrew Kyle Lampinen and Stephanie C Y Chan and Ishita Dasgupta and Andrew J Nam and Jane X Wang(参考訳) 受動的データから因果関係と実験について何を学ぶことができるか? ツール使用のような対話型ドメインにおける受動的に訓練された言語モデルの成功を考えると、この問題は健全である。 受動的学習は本質的に限定的である。 しかし、純粋受動的学習は、エージェントがテスト時に介入できる限り、エージェントが因果構造を決定・使用するための一般化可能な戦略を学習できることを示す。 我々は、まず実験し、次に目標を求める戦略を学習することで、受動的学習を原則として一般化できることを正式に説明する。 そして、専門家データに対する模倣によって訓練されたエージェントが、訓練データに存在しない因果関係を推論し、使用するために実際にテスト時に一般化できることを実証的に示す。 さらに,自然言語による説明を援用した,より複雑な環境においても,受動的データから因果的介入と搾取の戦略を一般化できることを示した。 説明は、受動的学習者が完全なトレーニングデータから分散を一般化することを可能にする。 最後に,受動的次単語予測のみを訓練した言語モデルは,説明や推論とともに,実験の例を含む数発のプロンプトから因果的介入戦略を一般化できることを示す。 これらの結果は、アクティブ因果戦略の受動的学習の驚くべき力を強調し、言語モデルの振る舞いや能力を理解するのに役立つかもしれない。

What can be learned about causality and experimentation from passive data? This question is salient given recent successes of passively-trained language models in interactive domains such as tool use. Passive learning is inherently limited. However, we show that purely passive learning can in fact allow an agent to learn generalizable strategies for determining and using causal structures, as long as the agent can intervene at test time. We formally illustrate that learning a strategy of first experimenting, then seeking goals, can allow generalization from passive learning in principle. We then show empirically that agents trained via imitation on expert data can indeed generalize at test time to infer and use causal links which are never present in the training data; these agents can also generalize experimentation strategies to novel variable sets never observed in training. We then show that strategies for causal intervention and exploitation can be generalized from passive data even in a more complex environment with high-dimensional observations, with the support of natural language explanations. Explanations can even allow passive learners to generalize out-of-distribution from perfectly-confounded training data. Finally, we show that language models, trained only on passive next-word prediction, can generalize causal intervention strategies from a few-shot prompt containing examples of experimentation, together with explanations and reasoning. These results highlight the surprising power of passive learning of active causal strategies, and may help to understand the behaviors and capabilities of language models.
翻訳日:2023-05-26 14:10:27 公開日:2023-05-25
# Dropoutがダブルダイスをドロップ

Dropout Drops Double Descent ( http://arxiv.org/abs/2305.16179v1 )

ライセンス: Link先を確認
Tian-Le Yang, Joe Suzuki(参考訳) 本稿では,全接続の線形層の前に1つのドロップアウト層を追加するだけで,2重降下が容易にできることを示す。 この驚くべき二日月現象は近年大衆の注目を集めており、サンプルやモデルのサイズが増すにつれて予測誤差が増減している。 本稿では,線形回帰モデルと非線形ランダム特徴回帰モデルにおいて,理論上,経験上,最適ドロップアウトを用いることで,これらの現象を緩和できることを示す。 % ${y}=X{\beta}^0+{\epsilon}$ with $X\in\mathbb{R}^{n\times p}$。 一般化されたリッジ型推定器 $\hat{{\beta}}=(X^TX+\alpha\cdot\mathrm{diag}(X^TX))^{-1}X^T{y}$ で基底真理 ${\beta}^0$ を推定することにより、最適ドロップアウトハイパーパラメータを得る。 さらに,Fashion-MNIST と CIFAR-10 を用いて,非線形ニューラルネットワークにおける単調テスト誤差曲線の最適解法が可能であることを示す。 以上の結果から,ピーク時におけるリスク曲線スケーリングの削減を検討することを提案する。 さらに、従来のディープラーニングモデルが2段階のシナリオに遭遇しない理由もわかっています -- モデルにドロップアウトのような通常の正規化アプローチをすでに適用しています。 我々の知る限り、この論文はドロップアウトとダブル降下の関係を初めて分析したものである。

In this paper, we find and analyze that we can easily drop the double descent by only adding one dropout layer before the fully-connected linear layer. The surprising double-descent phenomenon has drawn public attention in recent years, making the prediction error rise and drop as we increase either sample or model size. The current paper shows that it is possible to alleviate these phenomena by using optimal dropout in the linear regression model and the nonlinear random feature regression, both theoretically and empirically. % ${y}=X{\beta}^0+{\epsilon}$ with $X\in\mathbb{R}^{n\times p}$. We obtain the optimal dropout hyperparameter by estimating the ground truth ${\beta}^0$ with generalized ridge typed estimator $\hat{{\beta}}=(X^TX+\alpha\cdot\mathrm{diag}(X^TX))^{-1}X^T{y}$. Moreover, we empirically show that optimal dropout can achieve a monotonic test error curve in nonlinear neural networks using Fashion-MNIST and CIFAR-10. Our results suggest considering dropout for risk curve scaling when meeting the peak phenomenon. In addition, we figure out why previous deep learning models do not encounter double-descent scenarios -- because we already apply a usual regularization approach like the dropout in our models. To our best knowledge, this paper is the first to analyze the relationship between dropout and double descent.
翻訳日:2023-05-26 14:10:06 公開日:2023-05-25
# 2ビット混合状態の局所ユニタリ不変量に対する有効性

Effective Rationality for Local Unitary Invariants of Mixed States of Two Qubits ( http://arxiv.org/abs/2305.16178v1 )

ライセンス: Link先を確認
Luca Candelori, Vladimir Y. Chernyak, John R. Klein, Nick Rekuski(参考訳) 2つの量子ビットの混合状態に対する有理局所ユニタリ不変量の場を代数幾何学の手法を用いて計算する。 我々は、この体が有理(すなわち純粋超越的)であり、9つの代数的独立多項式不変量によって生成されることを証明する。 我々は、ワイル群が有限アーベル群である不変理論の意味で、相対部分を構成することによってそうする。 この構成から、2つの量子ビットの混合状態のブロッホ行列表現の観点から、生成不変量に対して明示的な表現を与えることができる。 また、2つの量子ビットの対称混合状態の局所ユニタリ不変量に対する類似の合理性ステートメントも証明する。 この結果は複素値不変量と実値不変量の両方に適用できる。

We calculate the field of rational local unitary invariants for mixed states of two qubits, by employing methods from algebraic geometry. We prove that this field is rational (i.e. purely transcendental), and that it is generated by nine algebraically independent polynomial invariants. We do so by constructing a relative section, in the sense of invariant theory, whose Weyl group is a finite abelian group. From this construction, we are able to give explicit expressions for the generating invariants in terms of the Bloch matrix representation of mixed states of two qubits. We also prove similar rationality statements for the local unitary invariants of symmetric mixed states of two qubits. Our results apply to both complex-valued and real-valued invariants.
翻訳日:2023-05-26 14:09:36 公開日:2023-05-25
# 半教師型医用画像分割のためのクロス教師型デュアル分類器

Cross-supervised Dual Classifiers for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2305.16216v1 )

ライセンス: Link先を確認
Zhenxi Zhang, Ran Ran, Chunna Tian, Heng Zhou, Fan Yang, Xin Li, Zhicheng Jiao(参考訳) 半教師付き医用画像セグメンテーションは、アノテーションの負担を大幅に軽減し、同等の性能を実現し、大規模医用画像解析に有望なソリューションを提供する。 本手法を用いることで, セグメンテーション過程を最適化し, 翻訳調査における臨床現場での可能性を高めることができる。 近年,異なる協調学習サブネットワークに基づくクロストラクショナルトレーニングが,このタスクの標準パラダイムとなっている。 それでも、サブネットワークの不一致とラベルノイズ抑制の重大な問題は、クロス教師ドトレーニングのさらなる注意と進歩を必要とする。 本稿では,二重分類器(dc-net)に基づくクロス教師付き学習フレームワークを提案する。 2つの分類器は相補的な特徴を示し、不一致を効果的に処理でき、ラベルのないデータに対してより堅牢で正確な擬似ラベルを生成する。 また,明細分類器からの不確実性評価を相互監督訓練に取り入れ,誤り監視信号の負の効果を軽減する。 LAとPancreas-CTデータセットに関する広範な実験は、DC-Netが半教師付きセグメンテーションの他の最先端手法よりも優れていることを示している。 コードはまもなくリリースされる。

Semi-supervised medical image segmentation offers a promising solution for large-scale medical image analysis by significantly reducing the annotation burden while achieving comparable performance. Employing this method exhibits a high degree of potential for optimizing the segmentation process and increasing its feasibility in clinical settings during translational investigations. Recently, cross-supervised training based on different co-training sub-networks has become a standard paradigm for this task. Still, the critical issues of sub-network disagreement and label-noise suppression require further attention and progress in cross-supervised training. This paper proposes a cross-supervised learning framework based on dual classifiers (DC-Net), including an evidential classifier and a vanilla classifier. The two classifiers exhibit complementary characteristics, enabling them to handle disagreement effectively and generate more robust and accurate pseudo-labels for unlabeled data. We also incorporate the uncertainty estimation from the evidential classifier into cross-supervised training to alleviate the negative effect of the error supervision signal. The extensive experiments on LA and Pancreas-CT dataset illustrate that DC-Net outperforms other state-of-the-art methods for semi-supervised segmentation. The code will be released soon.
翻訳日:2023-05-26 14:02:21 公開日:2023-05-25
# クープマンカーネル回帰

Koopman Kernel Regression ( http://arxiv.org/abs/2305.16215v1 )

ライセンス: Link先を確認
Petar Bevanda, Max Beier, Armin Lederer, Stefan Sosnowski, Eyke H\"ullermeier, Sandra Hirche(参考訳) 強化学習のような意思決定のための多くの機械学習アプローチは、エージェントの状態やポリシーの報酬など、興味のある量の時間進化を予測するためのシミュレータや予測モデルに依存している。 このような複雑な現象の予測は、高度に非線形な力学系によって一般的に説明され、最適化に基づく意思決定を困難にしている。 クープマン作用素理論は、線形力学系を通じて予測を特徴づけることでこの問題に対処するための有益なパラダイムを提供する。 これにより、システム分析と長期予測が簡単になる -- 行列の乗算のみを含む。 しかし、線形システムへの変換は一般に非自明で未知であり、学習に基づくアプローチを必要とする。 様々なアプローチが存在するが、データと次元の増大を伴うモデルの振る舞いがしばしば不明確であるような、重要な学習理論の保証を欠いている。 上記の問題に対して、線形力学系への変換のみにまたがる新しい再生カーネルヒルベルト空間(RKHS)を導出した。 結果として得られたKoopman Kernel Regression (KKR) フレームワークは、新しい収束結果の関数近似や、既存の作業よりも弱い仮定の下での一般化リスク境界から統計学習ツールの使用を可能にする。 数値実験により,クープマン型予測器の最先端統計学習手法に対する利点が示された。

Many machine learning approaches for decision making, such as reinforcement learning, rely on simulators or predictive models to forecast the time-evolution of quantities of interest, e.g., the state of an agent or the reward of a policy. Forecasts of such complex phenomena are commonly described by highly nonlinear dynamical systems, making their use in optimization-based decision-making challenging. Koopman operator theory offers a beneficial paradigm for addressing this problem by characterizing forecasts via linear dynamical systems. This makes system analysis and long-term predictions simple -- involving only matrix multiplications. However, the transformation to a linear system is generally non-trivial and unknown, requiring learning-based approaches. While there exists a variety of approaches, they usually lack crucial learning-theoretic guarantees, such that the behavior of the obtained models with increasing data and dimensionality is often unclear. We address the aforementioned by deriving a novel reproducing kernel Hilbert space (RKHS) that solely spans transformations into linear dynamical systems. The resulting Koopman Kernel Regression (KKR) framework enables the use of statistical learning tools from function approximation for novel convergence results and generalization risk bounds under weaker assumptions than existing work. Our numerical experiments indicate advantages over state-of-the-art statistical learning approaches for Koopman-based predictors.
翻訳日:2023-05-26 14:01:58 公開日:2023-05-25
# 半教師付き医用画像セグメンテーションのための自己認識とクロスサンプル型学習

Self-aware and Cross-sample Prototypical Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2305.16214v1 )

ライセンス: Link先を確認
Zhenxi Zhang, Ran Ran, Chunna Tian, Heng Zhou, Xin Li, Fan Yang, Zhicheng Jiao(参考訳) 一貫性学習は、無記名データの豊富さを生かしながら、限られた注釈付きデータの有効利用を可能にするため、半教師付き医用画像分割において重要な役割を果たす。 一貫性学習の有効性と効率は、既存の研究でしばしば見過ごされる予測多様性とトレーニング安定性によって試される。 一方、トレーニング用ラベル付きデータの限られた量は、クラス内コンパクト性と擬似ラベルのクラス間不一致を定式化するのに不十分であることを示すことが多い。 そこで本研究では,複数入力から得られる幅広い意味情報を用いて,一貫性学習における予測の多様性を高めるための自己認識型・クロスサンプル型学習手法(scp-net)を提案する。 さらに,ラベルのないデータを利用してクラス内の擬似ラベルのコンパクト性を向上させる自己認識型一貫性学習手法を提案する。 さらに,二元損失再重み付け法をクロスサンプル型一貫性学習法に統合し,モデルの信頼性と安定性を向上させる。 ACDCデータセットとPROMISE12データセットの大規模な実験により、SCP-Netは他の最先端の半教師付きセグメンテーション手法よりも優れており、限られた教師付きトレーニングと比較して大きなパフォーマンス向上を実現している。 私たちのコードはもうすぐ来るでしょう。

Consistency learning plays a crucial role in semi-supervised medical image segmentation as it enables the effective utilization of limited annotated data while leveraging the abundance of unannotated data. The effectiveness and efficiency of consistency learning are challenged by prediction diversity and training stability, which are often overlooked by existing studies. Meanwhile, the limited quantity of labeled data for training often proves inadequate for formulating intra-class compactness and inter-class discrepancy of pseudo labels. To address these issues, we propose a self-aware and cross-sample prototypical learning method (SCP-Net) to enhance the diversity of prediction in consistency learning by utilizing a broader range of semantic information derived from multiple inputs. Furthermore, we introduce a self-aware consistency learning method that exploits unlabeled data to improve the compactness of pseudo labels within each class. Moreover, a dual loss re-weighting method is integrated into the cross-sample prototypical consistency learning method to improve the reliability and stability of our model. Extensive experiments on ACDC dataset and PROMISE12 dataset validate that SCP-Net outperforms other state-of-the-art semi-supervised segmentation methods and achieves significant performance gains compared to the limited supervised training. Our code will come soon.
翻訳日:2023-05-26 14:01:38 公開日:2023-05-25
# prolificdreamer: 変動スコア蒸留による高忠実度・多彩なテキスト対3d生成

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation ( http://arxiv.org/abs/2305.16213v1 )

ライセンス: Link先を確認
Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu(参考訳) SDS (Score distillation sample) は, 事前訓練した大規模テキスト・画像拡散モデルを蒸留することにより, テキスト・ツー・3D生成において大きな可能性を秘めている。 本研究では,sdsのように定数ではなく確率変数として3dパラメータをモデル化し,前述のテキストから3d生成の問題を説明・解決するための原理粒子ベースの変分点蒸留(vsd)を提案する。 SDSはVSDの特殊な症例であり,小および大のCFG重量のサンプルが不足していることを示す。 対照的に、VSDは拡散モデルからの祖先サンプリングとして様々なCFG重量とうまく働き、共通のCFG重量(すなわち7.5$)で多様性とサンプル品質を同時に改善する。 さらに, 蒸留時間スケジュールや密度初期化などのテキストから3Dまでの設計空間を改良し, 蒸留アルゴリズムの直交性について検討した。 ProlificDreamerと呼ばれる我々の全体的なアプローチは、高いレンダリング解像度(512\times 512$)と豊富な構造と複雑な効果(煙や滴など)を持つ高忠実度NeRFを生成することができる。 さらに、NeRFから初期化され、VSDによって微細に調整されたメッシュは細部まで詳細で、フォトリアリスティックである。 プロジェクトページ: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., $7.5$). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., $512\times512$) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
翻訳日:2023-05-26 14:01:14 公開日:2023-05-25
# C-MCTS:Monte Carlo Tree Searchによる安全な計画

C-MCTS: Safe Planning with Monte Carlo Tree Search ( http://arxiv.org/abs/2305.16209v1 )

ライセンス: Link先を確認
Dinesh Parthasarathy, Georgios Kontes, Axel Plinge, Christopher Mutschler(参考訳) 安全クリティカルなシナリオのような現実世界の意思決定タスクの多くは、厳密な制約を含むため、Markov Decision Process (MDP)フレームワークを使用した単一目的の設定では完全に説明できない。 代わりに、CMDP(Constrained Markov Decision Process)フレームワーク内で追加のコスト関数でモデル化することができる。 CMDPはReinforcement Learningの文献で広く研究されているが、MCTSのようなサンプリングベースの計画アルゴリズムにはほとんど注目されていない。 以前のアプローチでは、制約違反を避けるためにモンテカルロコスト見積を使用する。 しかし、これらはコストに関して保守的なパフォーマンスをもたらす高い分散に悩まされる。 安全評論家を用いてコストを見積もるアルゴリズムであるConstrained MCTS(C-MCTS)を提案する。 安全批判訓練は、エージェント展開前のオフラインフェーズにおける時間的差異学習に基づいている。 この批評家は探索ツリーの探索を制限し、デプロイ中にmcts内の安全でない軌道を削除する。 C-MCTSはコスト制約を満たすが、制約境界に近づき、以前の作業よりも高い報酬を達成する。 よい副産物として、プランナーはより効率的な計画手順を必要とする。 最も重要なことは、プランナーと現実世界のモデルミスマッチの下では、我々のアプローチは以前の作業よりもコスト違反の影響を受けにくいということです。

Many real-world decision-making tasks, such as safety-critical scenarios, cannot be fully described in a single-objective setting using the Markov Decision Process (MDP) framework, as they include hard constraints. These can instead be modeled with additional cost functions within the Constrained Markov Decision Process (CMDP) framework. Even though CMDPs have been extensively studied in the Reinforcement Learning literature, little attention has been given to sampling-based planning algorithms such as MCTS for solving them. Previous approaches use Monte Carlo cost estimates to avoid constraint violations. However, these suffer from high variance which results in conservative performance with respect to costs. We propose Constrained MCTS (C-MCTS), an algorithm that estimates cost using a safety critic. The safety critic training is based on Temporal Difference learning in an offline phase prior to agent deployment. This critic limits the exploration of the search tree and removes unsafe trajectories within MCTS during deployment. C-MCTS satisfies cost constraints but operates closer to the constraint boundary, achieving higher rewards compared to previous work. As a nice byproduct, the planner is more efficient requiring fewer planning steps. Most importantly, we show that under model mismatch between the planner and the real world, our approach is less susceptible to cost violations than previous work.
翻訳日:2023-05-26 14:00:47 公開日:2023-05-25
# spadアレイとマルチモードファイバを用いた大型再構成型量子回路

Large Reconfigurable Quantum Circuits with SPAD Arrays and Multimode Fibers ( http://arxiv.org/abs/2305.16206v1 )

ライセンス: Link先を確認
Adrian Makowski, Micha{\l} D\k{a}browski, Ivan Michel Antolovic, Claudio Bruschini, Hugo Defienne, Edoardo Charbon, Radek Lapkiewicz, and Sylvain Gigan(参考訳) 再プログラム可能な線形光回路はフォトニック量子技術実装の重要な要素である。 集積光学は、可変フォトニック回路のための自然なプラットフォームを提供するが、高次元と高接続性が絡むと課題に直面する。 本稿では,マルチモードファイバにおけるモード混合と波面整形を用いた光子の空間モード上の高次元線形変換を実装し,時間タグ付き単光子アバランシェダイオード(spad)アレイを用いて光子相関を測定する。 量子技術へのアプローチの適合性を証明するため、我々は22個の出力ポートに対するホン・ウー・マンデル干渉の一般化である可変複素線形ネットワークにおける2光子干渉を実証する。 理想的な光子相関と様々な線形変換実験で得られた相関の類似性を定量化することにより,我々のアプローチのスケーラビリティについて検討する。 本研究では,高次元再構成可能な量子回路実装のためのSPADアレイとともに,複雑な媒体における波面整形の可能性を示す。 具体的には、22個の検出器とランダム回路を用いて識別可能な光子対に対して(80.5 \pm 6.8)\%$ similarity と $(84.9 \pm 7.0)\%$ similarity を達成した。 これらの結果は,我々のアプローチのスケーラビリティと再プログラミング性を強調している。

Reprogrammable linear optical circuits are essential elements of photonic quantum technology implementations. Integrated optics provides a natural platform for tunable photonic circuits, but faces challenges when high dimensions and high connectivity are involved. Here, we implement high-dimensional linear transformations on spatial modes of photons using wavefront shaping together with mode mixing in a multimode fiber, and measure photon correlations using a time-tagging single-photon avalanche diode (SPAD) array. In order to prove the suitability of our approach for quantum technologies we demonstrate two-photon interferences in a tunable complex linear network -- a generalization of a Hong-Ou-Mandel interference to 22 output ports. We study the scalability of our approach by quantifying the similarity between the ideal photon correlations and the correlations obtained experimentally for various linear transformations. Our results demonstrate the potential of wavefront shaping in complex media in conjunction with SPAD arrays for implementing high-dimensional reconfigurable quantum circuits. Specifically, we achieved $(80.5 \pm 6.8)\%$ similarity for indistinguishable photon pairs and $(84.9 \pm 7.0)\%$ similarity for distinguishable photon pairs using 22 detectors and random circuits. These results emphasize the scalability and reprogrammable nature of our approach.
翻訳日:2023-05-26 14:00:28 公開日:2023-05-25
# 公共部門における再現性研究のためのパッケージコード

Packaging code for reproducible research in the public sector ( http://arxiv.org/abs/2305.16205v1 )

ライセンス: Link先を確認
Federico Botta, Robin Lovelace, Laura Gilbert, Arthur Turrell(参考訳) 意思決定を伝えるためのデータの有効性と倫理的利用は、特に透明性があり再現性があり、堅牢なデータ処理ワークフローによって提供される場合、公共セクターに大きな価値をもたらす。 政府がこの価値を解き放つ一つの方法は、データを公開し、より多くの人々や組織が洞察を導き出すことである。 公開されているデータセットは、RやPythonのような一般的なデータサイエンスツールから分析可能な形式でアクセスできなければなりません。 本稿では,複製可能な解析を容易にするパッケージングコードのケーススタディを参考に,オープンデータの影響を最大化する方法について検討する。 我々は、英国運輸省がリリースした複数の地理的レベルで多くのモードと目的のために、旅程を表す大規模で複雑なデータセットをインポート、処理、視覚化するためのRおよびPythonパッケージからなるjtstatsプロジェクトを提示する。 jtstatsは、ドメイン固有のパッケージがパブリックセクタ内の再現可能な研究を可能にし、重複した労力を省き、繰り返し分析によるエラーのリスクを減らす方法を示している。 jtstatsプロジェクトは、他の、特に公共セクターの人たちに、よりアクセスしやすくすることで、データセットに価値を加えるよう促すことを願っています。

The effective and ethical use of data to inform decision-making offers huge value to the public sector, especially when delivered by transparent, reproducible, and robust data processing workflows. One way that governments are unlocking this value is through making their data publicly available, allowing more people and organisations to derive insights. However, open data is not enough in many cases: publicly available datasets need to be accessible in an analysis-ready form from popular data science tools, such as R and Python, for them to realise their full potential. This paper explores ways to maximise the impact of open data with reference to a case study of packaging code to facilitate reproducible analysis. We present the jtstats project, which consists of R and Python packages for importing, processing, and visualising large and complex datasets representing journey times, for many modes and purposes at multiple geographic levels, released by the UK Department of Transport. jtstats shows how domain specific packages can enable reproducible research within the public sector and beyond, saving duplicated effort and reducing the risks of errors from repeated analyses. We hope that the jtstats project inspires others, particularly those in the public sector, to add value to their data sets by making them more accessible.
翻訳日:2023-05-26 14:00:04 公開日:2023-05-25
# 部分観測可能なマルチエージェントパス探索のためのユニバーサルプランの計算について

On Computing Universal Plans for Partially Observable Multi-Agent Path Finding ( http://arxiv.org/abs/2305.16203v1 )

ライセンス: Link先を確認
Fengming Zhu, Fangzhen Lin(参考訳) マルチエージェントルーティング問題は、倉庫ロボット、物流自動化、交通制御などの幅広い産業的応用により、近年大きな注目を集めている。 伝統的に、それらは古典的な計画問題としてモデル化される。 本稿では,これらを共通計画問題として定式化することは有益であると主張する。 そこで我々は,ソリューション概念としてポリシとしても知られるユニバーサルプランを提案し,それらを計算するためのasp-maupf (answer set programming for multi-agent universal plan find) というシステムを実装した。 任意の2次元地図とエージェントの目標プロファイルが与えられた場合、システムは、他のエージェントとの衝突を確実にする、各エージェントの可能な普遍的な計画を見つける。 我々はシステムを用いていくつかの実験を行い、実現可能なポリシーを持つ目標プロファイルと環境の種類と、エージェントのセンサーにどのように依存するかを観察する。 また、ユーザがアクションの好みをカスタマイズして、より効率的なポリシーを(ほぼ)最適に処理する方法も示しています。

Multi-agent routing problems have drawn significant attention nowadays due to their broad industrial applications in, e.g., warehouse robots, logistics automation, and traffic control. Conventionally, they are modelled as classical planning problems. In this paper, we argue that it is beneficial to formulate them as universal planning problems. We therefore propose universal plans, also known as policies, as the solution concepts, and implement a system called ASP-MAUPF (Answer Set Programming for Multi-Agent Universal Plan Finding) for computing them. Given an arbitrary two-dimensional map and a profile of goals for the agents, the system finds a feasible universal plan for each agent that ensures no collision with others. We use the system to conduct some experiments, and make some observations on the types of goal profiles and environments that will have feasible policies, and how they may depend on agents' sensors. We also demonstrate how users can customize action preferences to compute more efficient policies, even (near-)optimal ones.
翻訳日:2023-05-26 13:59:41 公開日:2023-05-25
# クリッピングのないdp-sgd:lipschitzニューラルネットワーク方式

DP-SGD Without Clipping: The Lipschitz Neural Network Way ( http://arxiv.org/abs/2305.16202v1 )

ライセンス: Link先を確認
Louis Bethune, Thomas Massena, Thibaut Boissin, Yannick Prudent, Corentin Friedrich, Franck Mamalet, Aurelien Bellet, Mathieu Serrurier, David Vigouroux(参考訳) 差分プライベート(dp)ディープニューラルネットワーク(dnn)のトレーニングに関する最先端のアプローチでは、ネットワークのレイヤの感度に関する厳密な境界の推定が困難であり、代わりにサンプル毎の勾配クリッピングのプロセスに依存する。 このクリッピングプロセスは勾配の方向をバイアスするだけでなく、メモリ消費と計算の両方でコストがかかることを証明している。 クリッピング過程の欠点を回避し、感度境界を与えるため、リプシッツ制約ネットワークの理論解析により、リプシッツ定数とパラメータとの未探索リンクを明らかにする。 パラメータに関して各層のリプシッツ定数をバウンドすることで、これらのネットワークのDPトレーニングが保証される。 この分析により、上述した感度を大規模に計算できるだけでなく、固定されたプライバシー保証に対する勾配-雑音比の最大化にも繋がる。 リプシッツネットワークの適用を容易にし、プライバシー保証の下で堅牢で証明可能な学習を促進するために、そのようなネットワークの構築とプライベートトレーニングを可能にするビルディングブロックを実装するPythonパッケージを提供する。

State-of-the-art approaches for training Differentially Private (DP) Deep Neural Networks (DNN) faces difficulties to estimate tight bounds on the sensitivity of the network's layers, and instead rely on a process of per-sample gradient clipping. This clipping process not only biases the direction of gradients but also proves costly both in memory consumption and in computation. To provide sensitivity bounds and bypass the drawbacks of the clipping process, our theoretical analysis of Lipschitz constrained networks reveals an unexplored link between the Lipschitz constant with respect to their input and the one with respect to their parameters. By bounding the Lipschitz constant of each layer with respect to its parameters we guarantee DP training of these networks. This analysis not only allows the computation of the aforementioned sensitivities at scale but also provides leads on to how maximize the gradient-to-noise ratio for fixed privacy guarantees. To facilitate the application of Lipschitz networks and foster robust and certifiable learning under privacy guarantees, we provide a Python package that implements building blocks allowing the construction and private training of such networks.
翻訳日:2023-05-26 13:59:22 公開日:2023-05-25
# 多様性を考慮したニューラルトピックモデル改善のためのコヒーレンス損失

Diversity-Aware Coherence Loss for Improving Neural Topic Models ( http://arxiv.org/abs/2305.16199v1 )

ライセンス: Link先を確認
Raymond Li, Felipe Gonz\'alez-Pizarro, Linzi Xing, Gabriel Murray and Giuseppe Carenini(参考訳) ニューラルトピックモデリングの標準的なアプローチは、リコンストラクション損失に加えて、推定後と前とのKLのばらつきを共同で最小化する変分オートエンコーダ(VAE)フレームワークを使用する。 ニューラルトピックモデルは個々の入力文書を再生することによって訓練されるため、コーパスレベルのトピックワード間のコヒーレンスを明示的に捉えない。 本研究では,トピック間の多様性を高く保ちながらコーパスレベルのコヒーレンススコアを学習することを促す,新たな多様性認識コヒーレンス損失を提案する。 複数のデータセットを用いた実験の結果,前訓練や追加パラメータを必要とせず,ニューラルネットワークのトピックモデルの性能が大幅に向上した。

The standard approach for neural topic modeling uses a variational autoencoder (VAE) framework that jointly minimizes the KL divergence between the estimated posterior and prior, in addition to the reconstruction loss. Since neural topic models are trained by recreating individual input documents, they do not explicitly capture the coherence between topic words on the corpus level. In this work, we propose a novel diversity-aware coherence loss that encourages the model to learn corpus-level coherence scores while maintaining a high diversity between topics. Experimental results on multiple datasets show that our method significantly improves the performance of neural topic models without requiring any pretraining or additional parameters.
翻訳日:2023-05-26 13:58:59 公開日:2023-05-25
# 位相ギャッププロトコルに基づくMajoranaハイブリッドワイヤの機械学習最適化

Topological gap protocol based machine learning optimization of Majorana hybrid wires ( http://arxiv.org/abs/2305.16230v1 )

ライセンス: Link先を確認
Matthias Thamm and Bernd Rosenow(参考訳) 超伝導体-ナノワイヤハイブリッド構造のマヨラナゼロモードは、スケーラブルな構造に使用される可能性を持つ位相的に保護された量子ビットの候補である。 現在、マヨラナ線の障害は、トポロジカルフェーズを破壊し、マヨラナデバイスの製造における収率を低下させることができるため、大きな課題となっている。 我々は,マヨラナワイヤに近接するゲートアレイの機械学習最適化について検討し,さらに強い障害を確実に補償することができることを示した。 本稿では,位相ギャッププロトコルにインスパイアされた最適化のためのメトリックを提案し,ワイヤを通した非局所コンダクタンスの測定に基づいて実装する。

Majorana zero modes in superconductor-nanowire hybrid structures are a promising candidate for topologically protected qubits with the potential to be used in scalable structures. Currently, disorder in such Majorana wires is a major challenge, as it can destroy the topological phase and thus reduce the yield in the fabrication of Majorana devices. We study machine learning optimization of a gate array in proximity to a grounded Majorana wire, which allows us to reliably compensate even strong disorder. We propose a metric for optimization that is inspired by the topological gap protocol, and which can be implemented based on measurements of the non-local conductance through the wire.
翻訳日:2023-05-26 13:53:28 公開日:2023-05-25
# 確率制御のための状態依存雑音をもつガウス過程

Gaussian Processes with State-Dependent Noise for Stochastic Control ( http://arxiv.org/abs/2305.16229v1 )

ライセンス: Link先を確認
Marcel Menner, Karl Berntorp(参考訳) 本稿では,ガウス過程(gp)を用いて力学系の残留モデルの不確かさを学習する確率的制御枠組みについて考察する。 提案手法では,残差モデルの不確かさは非線形関数と状態依存ノイズからなる。 提案した定式化では,残差モデルの不確かさを近似するために後部GPと,状態依存雑音を考慮した前部GPを用いる。 2つのGPは相互依存しており、反復アルゴリズムを用いて共同で学習される。 反復アルゴリズムの理論的性質を確立した。 提案する状態依存的定式化の利点には (i) gpがどのデータサンプルがより信頼できるかを知ると、gpの推定値が未知の関数により高速に収束する。 (ii) 状態依存ノイズの正確な推定は、例えば、コントローラ又は意思決定者が、動作の不確実性を決定するのに有用である。 シミュレーション研究はこの2つの利点を強調している。

This paper considers a stochastic control framework, in which the residual model uncertainty of the dynamical system is learned using a Gaussian Process (GP). In the proposed formulation, the residual model uncertainty consists of a nonlinear function and state-dependent noise. The proposed formulation uses a posterior-GP to approximate the residual model uncertainty and a prior-GP to account for state-dependent noise. The two GPs are interdependent and are thus learned jointly using an iterative algorithm. Theoretical properties of the iterative algorithm are established. Advantages of the proposed state-dependent formulation include (i) faster convergence of the GP estimate to the unknown function as the GP learns which data samples are more trustworthy and (ii) an accurate estimate of state-dependent noise, which can, e.g., be useful for a controller or decision-maker to determine the uncertainty of an action. Simulation studies highlight these two advantages.
翻訳日:2023-05-26 13:53:17 公開日:2023-05-25
# 光ツイーザにおける超低温原子の空間断熱通過

Spatial adiabatic passage of ultracold atoms in optical tweezers ( http://arxiv.org/abs/2305.16228v1 )

ライセンス: Link先を確認
Yanay Florshaim, Elad Zohar, David Zeev Koplovich, Ilan Meltzer, Rafi Weill, Jonathan Nemirovsky, Amir Stern, Yoav Sagi(参考訳) 空間断熱通路(spatial adiabatic passage、sap)は、直接結合しない2つの局所化されたモード間の波のパケットの転送を容易にするプロセスである。 逆直観的な断熱パルスシークエンスを用いることで、中間状態における最小人口と高い転送効率を実現する。 本稿では,3つのマイクロ光学トラップ間の粒子移動のためのSAPの実装について報告する。 まず、1つのトラップの低振動固有状態に超低温フェルミオン原子を調製し、3つのトラップ間の距離を操作してSAPプロトコルを実行する。 我々は,2つの外側トラップ間の原子の円滑な移動を観察し,中心トラップの個体数が少なくなった。 その結果を検証し,パルスシーケンスの順序を逆転させることで,逆直観的シーケンスの意義を強調する。 さらに,2つの外部ツイーザの運動間のトンネル速度と時間遅延がプロセスの忠実度に及ぼす影響について検討した。 その結果,光トウェザアレイプラットフォームにおける高度な制御と操作の新たな可能性を開くことができた。

Spatial adiabatic passage (SAP) is a process that facilitates the transfer of a wave packet between two localized modes that are not directly coupled, but rather interact through an intermediate third mode. By employing a counter-intuitive adiabatic pulse sequence, this technique achieves minimal population in the intermediate state and high transfer efficiency. Here, we report the implementation of SAP for transferring massive particles between three micro-optical traps. We begin by preparing ultracold fermionic atoms in low vibrational eigenstates of one trap and then manipulate the distance between the three traps to execute the SAP protocol. We observe a smooth transfer of atoms between the two outer traps, accompanied by a low population in the central trap. We validate our findings and underscore the significance of the counter-intuitive sequence by reversing the order of the pulse sequence. Additionally, we investigate the influence of the tunneling rate and the time delay between the motion of the two external tweezers on the fidelity of the process. Our results open up new possibilities for advanced control and manipulation schemes in optical tweezer array platforms.
翻訳日:2023-05-26 13:53:03 公開日:2023-05-25
# 線形超音速光学相互作用

Linear Ultrastrong Optomechanical Interaction ( http://arxiv.org/abs/2305.16226v1 )

ライセンス: Link先を確認
Kahan Dare, Jannek J. Hansen, Iurie Coroli, Aisling Johnson, Markus Aspelmeyer, Uro\v{s} Deli\'c(参考訳) 超強結合状態における光・物質相互作用は、2モードスクイーズによるエキゾチックな基底状態の生成に利用することができ、量子強化センシングに使用できる。 現在の超強結合の実証は、基本的に非線形システムで行われている。 本稿では,リニアカップリング方式で動作し,最大結合率$g_x/\omega_x=0.55\pm 0.02$のキャビティ光学系について報告する。 このようなシステムは本質的に不安定であり、将来的には強力な機械的スクイーズを可能にする可能性がある。

Light-matter interaction in the ultrastrong coupling regime can be used to generate exotic ground states with two-mode squeezing and may be of use for quantum enhanced sensing. Current demonstrations of ultrastrong coupling have been performed in fundamentally nonlinear systems. We report a cavity optomechanical system that operates in the linear coupling regime, reaching a maximum coupling of $g_x/\Omega_x=0.55\pm 0.02$. Such a system is inherently unstable, which may in the future enable strong mechanical squeezing.
翻訳日:2023-05-26 13:52:46 公開日:2023-05-25
# ProSpect:属性認識画像生成のパーソナライズのための拡張条件

ProSpect: Expanded Conditioning for the Personalization of Attribute-aware Image Generation ( http://arxiv.org/abs/2305.16225v1 )

ライセンス: Link先を確認
Yuxin Zhang, Weiming Dong, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma, Tong-Yee Lee, Oliver Deussen, Changsheng Xu(参考訳) 生成モデルのパーソナライズは、ユーザが提供する参照で画像生成をガイドする方法を提供する。 現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。 しかし、素材、スタイル、レイアウトなどの特定の視覚的属性の表現と編集は依然として課題であり、絡み合いや編集性が欠如している。 そこで本研究では,低周波情報から高周波画像を生成し,画像の表現,生成,編集を行う拡散モデルのステップバイステップ生成プロセスを活用する新しいアプローチを提案する。 本稿では,拡張テキスト条件空間であるPrompt Spectrum Space P*と,ProSpectと呼ばれる新しい画像表現手法を提案する。 ProSpectは、各プロンプトが拡散モデルの特定の生成段階(つまり連続的なステップのグループ)に対応する段階ごとのプロンプトから符号化された逆テキストトークン埋め込みの集合として画像を表す。 実験の結果,P* と ProSpect は既存手法に比べて強い絡み合いと制御性を示した。 画像/テキスト誘導材料/スタイル/レイアウト転送/編集など,パーソナライズされた属性認識型画像生成アプリケーションでは,拡散モデルを微調整することなく,単一の画像入力で従来達成できなかった結果が得られる。

Personalizing generative models offers a way to guide image generation with user-provided references. Current personalization methods can invert an object or concept into the textual conditioning space and compose new natural sentences for text-to-image diffusion models. However, representing and editing specific visual attributes like material, style, layout, etc. remains a challenge, leading to a lack of disentanglement and editability. To address this, we propose a novel approach that leverages the step-by-step generation process of diffusion models, which generate images from low- to high-frequency information, providing a new perspective on representing, generating, and editing images. We develop Prompt Spectrum Space P*, an expanded textual conditioning space, and a new image representation method called ProSpect. ProSpect represents an image as a collection of inverted textual token embeddings encoded from per-stage prompts, where each prompt corresponds to a specific generation stage (i.e., a group of consecutive steps) of the diffusion model. Experimental results demonstrate that P* and ProSpect offer stronger disentanglement and controllability compared to existing methods. We apply ProSpect in various personalized attribute-aware image generation applications, such as image/text-guided material/style/layout transfer/editing, achieving previously unattainable results with a single image input without fine-tuning the diffusion models.
翻訳日:2023-05-26 13:52:37 公開日:2023-05-25
# ランダム共陽性行列は正の確率で完全に正である

A random copositive matrix is completely positive with positive probability ( http://arxiv.org/abs/2305.16224v1 )

ライセンス: Link先を確認
Igor Klep, Tea \v{S}trekelj, Alja\v{z} Zalar(参考訳) n\times n$ 対称行列 $a$ は二次形式 $x^tax$ が非負のorthant に対して非負であれば同値である。 共正行列の錐は、完全に正の行列の錐、すなわち非負の成分を持ついくつかの(おそらく長方形)行列に対して$BB^T$という形のすべての行列を含む。 ブレーカーマンの真の代数幾何学にインスパイアされた凸幾何学の技法と道具を用いて証明された主な結果は、n$が無限大に進むにつれて、2つの円錐の体積半径の比は厳密に正であることを示す。 その結果、正の半定値行列の円錐、非負の成分を持つ行列、それらの交叉およびミンコフスキー和など、それらの間に挟まれた任意の2つの円錐の体積半径の比についても同じことが成り立つ。 さらに、非正の半定行列と非負行列の和でない非正の正の行列という例外的共正行列の構成に着想を得た自由確率が与えられる。

An $n\times n$ symmetric matrix $A$ is copositive if the quadratic form $x^TAx$ is nonnegative on the nonnegative orthant. The cone of copositive matrices strictly contains the cone of completely positive matrices, i.e., all matrices of the form $BB^T$ for some (possibly rectangular) matrix $B$ with nonnegative entries. The main result, proved using Blekherman's real algebraic geometry inspired techniques and tools of convex geometry, shows that asymptotically, as $n$ goes to infinity, the ratio of volume radii of the two cones is strictly positive. Consequently, the same holds true for the ratio of volume radii of any two cones sandwiched between them, e.g., the cones of positive semidefinite matrices, matrices with nonnegative entries, their intersection and their Minkowski sum. Further, a free probability inspired construction of exceptional copositive matrices, i.e., copositive matrices that are not sums of a positive semidefinite matrix and a nonnegative one, is given.
翻訳日:2023-05-26 13:52:12 公開日:2023-05-25
# テキストと画像の拡散モデルから「テキスト」を取り出すプロンプトフリー拡散

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16223v1 )

ライセンス: Link先を確認
Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao Huang, Irfan Essa, Humphrey Shi(参考訳) テキスト・ツー・イメージ(T2I)の研究は、大規模な事前学習による拡散モデルや、新たなパーソナライズと編集アプローチによって、近年爆発的に成長している。 テキストのプロンプトエンジニアリングや、高品質なテキストプロンプトの検索は、科学よりも芸術的だ。 さらに、一般的に議論されているように、「画像は千語に値する」 - 所望の画像をテキストで記述しようとする試みは、しばしば曖昧で、繊細な視覚詳細を包括的にカバーできないため、視覚領域からのさらなる制御が必要となる。 本稿では,事前学習したt2i拡散モデルから"テキスト"を取り出して,ユーザへの迅速なエンジニアリング作業の負担を軽減するという大胆な一歩を踏み出す。 提案するフレームワークであるPrompt-Free Diffusionは、参照イメージを"context"、任意の画像構造条件付け、および初期ノイズとして、まったくテキストプロンプトなしで、新しい画像を生成するための視覚入力のみに依存している。 シーンの背後にあるコアアーキテクチャはセマンティックコンテキストエンコーダ(seecoder)で、一般的なクリップベースまたはllmベースのテキストエンコーダを構成する。 seecoderの再利用性は、t2iモデルでseecoderを事前トレーニングし、別のモデルで再利用することができるため、ドロップインコンポーネントとして便利である。 広範囲な実験により、即席拡散が実験的に検出される。 (i)前例に基づく画像合成手法より優れる。 (ii) ベストプラクティスに従うプロンプトを用いて、最先端のT2Iモデルと同等に実行する。 (iii) アニメフィギュア生成や仮想トライオンといった他の下流アプリケーションにも自然に拡張可能であり、有望な品質を持つ。 私たちのコードとモデルは、https://github.com/shi-labs/prompt-free-diffusionでオープンソースです。

Text-to-image (T2I) research has grown explosively in the past year, owing to the large-scale pre-trained diffusion models and many emerging personalization and editing approaches. Yet, one pain point persists: the text prompt engineering, and searching high-quality text prompts for customized results is more art than science. Moreover, as commonly argued: "an image is worth a thousand words" - the attempt to describe a desired image with texts often ends up being ambiguous and cannot comprehensively cover delicate visual details, hence necessitating more additional controls from the visual domain. In this paper, we take a bold step forward: taking "Text" out of a pre-trained T2I diffusion model, to reduce the burdensome prompt engineering efforts for users. Our proposed framework, Prompt-Free Diffusion, relies on only visual inputs to generate new images: it takes a reference image as "context", an optional image structural conditioning, and an initial noise, with absolutely no text prompt. The core architecture behind the scene is Semantic Context Encoder (SeeCoder), substituting the commonly used CLIP-based or LLM-based text encoder. The reusability of SeeCoder also makes it a convenient drop-in component: one can also pre-train a SeeCoder in one T2I model and reuse it for another. Through extensive experiments, Prompt-Free Diffusion is experimentally found to (i) outperform prior exemplar-based image synthesis approaches; (ii) perform on par with state-of-the-art T2I models using prompts following the best practice; and (iii) be naturally extensible to other downstream applications such as anime figure generation and virtual try-on, with promising quality. Our code and models are open-sourced at https://github.com/SHI-Labs/Prompt-Free-Diffusion.
翻訳日:2023-05-26 13:51:48 公開日:2023-05-25
# 複雑脳疾患予測のための不完全マルチモーダル学習

Incomplete Multimodal Learning for Complex Brain Disorders Prediction ( http://arxiv.org/abs/2305.16222v1 )

ライセンス: Link先を確認
Reza Shirkavand, Liang Zhan, Heng Huang, Li Shen, Paul M. Thompson(参考訳) 様々な脳データソースの獲得の最近の進歩は、複雑な脳疾患の早期発見を支援するためにマルチモーダル脳データを統合する新しい機会を生み出した。 しかし、現在のデータ統合アプローチでは、通常、大規模な研究コホートでのみ利用可能であり、定期的な臨床実践で収集することを禁止しているため、必ずしも実現不可能な、完全なバイオメディカルデータモダリティが必要である。 特に脳疾患の研究において、神経画像データと遺伝子データの両方を含む研究コホートは存在するが、実際的な臨床診断のためには、神経画像のみに基づいて疾患の予測を行う必要がある。 その結果、トレーニング中に利用可能なすべてのデータ(異なるデータが補足情報を提供する)を使用できるが、最も一般的なデータモダリティのみを使用して推論を行う機械学習モデルの設計が望まれる。 本稿では,トランスフォーマーと生成型逆ネットワークを用いて,トレーニング中に利用可能な補助的モダリティを効果的に活用し,推論におけるユニモーダルモデルの性能を向上させるための,新しい不完全なマルチモーダルデータ統合手法を提案する。 アルツハイマー病神経画像イニシアチブ(ADNI)コホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。 実験の結果,本手法は機械学習と深層学習の手法よりも有意差があることが判明した。

Recent advancements in the acquisition of various brain data sources have created new opportunities for integrating multimodal brain data to assist in early detection of complex brain disorders. However, current data integration approaches typically need a complete set of biomedical data modalities, which may not always be feasible, as some modalities are only available in large-scale research cohorts and are prohibitive to collect in routine clinical practice. Especially in studies of brain diseases, research cohorts may include both neuroimaging data and genetic data, but for practical clinical diagnosis, we often need to make disease predictions only based on neuroimages. As a result, it is desired to design machine learning models which can use all available data (different data could provide complementary information) during training but conduct inference using only the most common data modality. We propose a new incomplete multimodal data integration approach that employs transformers and generative adversarial networks to effectively exploit auxiliary modalities available during training in order to improve the performance of a unimodal model at inference. We apply our new method to predict cognitive degeneration and disease outcomes using the multimodal imaging genetic data from Alzheimer's Disease Neuroimaging Initiative (ADNI) cohort. Experimental results demonstrate that our approach outperforms the related machine learning and deep learning methods by a significant margin.
翻訳日:2023-05-26 13:51:15 公開日:2023-05-25
# セグメントのロバスト性について

On the Robustness of Segment Anything ( http://arxiv.org/abs/2305.16220v1 )

ライセンス: Link先を確認
Yihao Huang, Yue Cao, Tianlin Li, Felix Juefei-Xu, Di Lin, Ivor W.Tsang, Yang Liu, Qing Guo(参考訳) Segment Any Model (SAM)は、迅速な学習と新しい収集された大規模データセットによって、印象的なオブジェクト性識別能力を示した。 プロンプト(ポイント、バウンディングボックス、マスクなど)と入力イメージが与えられると、samはプロンプトで示されるすべてのオブジェクトに対して有効なセグメントマスクを生成することができ、さまざまなシナリオで高い一般化を示し、ダウンストリームビジョンタスクへのゼロショット転送の一般的な方法である。 それでも、SAMが特定の脅威シナリオにエラーをもたらすかどうかは不明だ。 これを明確にすることは、自動運転車のような堅牢性を必要とするアプリケーションにとって非常に重要である。 本稿では, SAMの試験時間ロバスト性について, 敵対的シナリオと共通の腐敗下での考察を行う。 この目的のために、私たちはまず、既存の公開データセットを統合することでSAMのテスト時間堅牢性評価ベンチマークを構築しました。 第2に、SAMに対する代表的敵対攻撃を拡張し、異なるプロンプトが堅牢性に与える影響について検討する。 第三に、異なるプロンプトを持つ破損したデータセット上でSAMを評価することにより、多様な腐敗型下でのSAMの堅牢性について検討する。 SA-1B と KITTI のデータセットを用いて実験したところ,SAM はぼやけた汚損以外の様々な汚損に対して顕著な堅牢性を示すことがわかった。 さらにSAMは、特にPGDやBIMの攻撃を受けた場合、敵の攻撃を受けやすいままである。 このような総合的な研究はSAMの堅牢性の重要性を強調し、SAMの一連の新しいタスクと下流の視覚タスクをトリガーするかもしれない。

Segment anything model (SAM) has presented impressive objectness identification capability with the idea of prompt learning and a new collected large-scale dataset. Given a prompt (e.g., points, bounding boxes, or masks) and an input image, SAM is able to generate valid segment masks for all objects indicated by the prompts, presenting high generalization across diverse scenarios and being a general method for zero-shot transfer to downstream vision tasks. Nevertheless, it remains unclear whether SAM may introduce errors in certain threatening scenarios. Clarifying this is of significant importance for applications that require robustness, such as autonomous vehicles. In this paper, we aim to study the testing-time robustness of SAM under adversarial scenarios and common corruptions. To this end, we first build a testing-time robustness evaluation benchmark for SAM by integrating existing public datasets. Second, we extend representative adversarial attacks against SAM and study the influence of different prompts on robustness. Third, we study the robustness of SAM under diverse corruption types by evaluating SAM on corrupted datasets with different prompts. With experiments conducted on SA-1B and KITTI datasets, we find that SAM exhibits remarkable robustness against various corruptions, except for blur-related corruption. Furthermore, SAM remains susceptible to adversarial attacks, particularly when subjected to PGD and BIM attacks. We think such a comprehensive study could highlight the importance of the robustness issues of SAM and trigger a series of new tasks for SAM as well as downstream vision tasks.
翻訳日:2023-05-26 13:50:50 公開日:2023-05-25
# Beyond Reward: オフラインの優先度誘導ポリシー最適化

Beyond Reward: Offline Preference-guided Policy Optimization ( http://arxiv.org/abs/2305.16217v1 )

ライセンス: Link先を確認
Yachen Kang, Diyuan Shi, Jinxin Liu, Li He, Donglin Wang(参考訳) 本研究は,オンラインインタラクションや報酬関数の仕様を必要とせず,従来の強化学習の変種であるオフライン優先型強化学習(PbRL)に焦点を当てた。 その代わりに、エージェントは、既存のオフライン軌跡と、2対の軌跡間の人間の嗜好をそれぞれ備え、ダイナミックスとタスク情報を抽出する。 ダイナミクスとタスク情報は直交するので、素直なアプローチでは、好みに基づく報酬学習と、オフザシェルフのオフラインRLアルゴリズムが使用される。 しかし、これは情報ボトルネックであると考えられるスカラー報酬関数を別々に学習する必要がある。 この問題に対処するために,一段階のプロセスでオフラインの軌道や嗜好をモデル化し,報酬関数を個別に学習する必要がない,オフライン優先誘導政策最適化(OPPO)パラダイムを提案する。 OPPOは、コンテキストポリシーを最適化するオフラインの近視情報マッチング目標と、最適なコンテキストを見つけるための選好モデリング目標を導入することでこれを達成している。 OPPOはさらに、2つの目標を反復的に最適化することで、優れた意思決定ポリシーを統合する。 実験の結果,oppoは,真または偽の報酬関数仕様上で実行されるオフラインrlアルゴリズムを含む,先行するベースラインよりも効果的にオフラインの選好をモデル化し,性能を向上できることがわかった。 私たちのコードはhttps://github.com/bkkgbkjb/OPPO で利用可能です。

This study focuses on the topic of offline preference-based reinforcement learning (PbRL), a variant of conventional reinforcement learning that dispenses with the need for online interaction or specification of reward functions. Instead, the agent is provided with pre-existing offline trajectories and human preferences between pairs of trajectories to extract the dynamics and task information, respectively. Since the dynamics and task information are orthogonal, a naive approach would involve using preference-based reward learning followed by an off-the-shelf offline RL algorithm. However, this requires the separate learning of a scalar reward function, which is assumed to be an information bottleneck. To address this issue, we propose the offline preference-guided policy optimization (OPPO) paradigm, which models offline trajectories and preferences in a one-step process, eliminating the need for separately learning a reward function. OPPO achieves this by introducing an offline hindsight information matching objective for optimizing a contextual policy and a preference modeling objective for finding the optimal context. OPPO further integrates a well-performing decision policy by optimizing the two objectives iteratively. Our empirical results demonstrate that OPPO effectively models offline preferences and outperforms prior competing baselines, including offline RL algorithms performed over either true or pseudo reward function specifications. Our code is available at https://github.com/bkkgbkjb/OPPO .
翻訳日:2023-05-26 13:50:25 公開日:2023-05-25
# Text-to-SQLにおけるソーシャルバイアスの発見と分類

Uncovering and Categorizing Social Biases in Text-to-SQL ( http://arxiv.org/abs/2305.16253v1 )

ライセンス: Link先を確認
Yan Liu, Yan Gao, Zhe Su, Xiaokang Chen, Elliott Ash, Jian-Guang Lou(参考訳) コンテンツ警告: この研究には、特定の社会集団の個人に有害なステレオタイプ、関連、その他の害を暗示する可能性がある例が含まれている。 大規模な事前学習された言語モデルは、異なる人口層に対する社会的偏見を持ち、社会における既存のステレオタイプをさらに増幅し、さらに害を与える可能性がある。 テキスト・トゥ・SQLは重要なタスクであり、そのモデルは主に行政産業で採用されており、不公平な決定が破滅的な結果をもたらす可能性がある。 しかし、既存のText-to-SQLモデルは、SpiderやWikiSQLのようなクリーンで中立的なデータセットでトレーニングされている。 これはある程度、理想的な条件下でのモデルの社会的バイアスをカバーできるが、実際のアプリケーションシナリオで現れる可能性がある。 本研究の目的は,テキストからsqlへのモデルの社会バイアスを解明し,分類することである。 テキストからsqlへのモデルの構造化データに生じる社会バイアスのカテゴリを要約する。 テストベンチマークを構築し、類似したタスク精度を持つモデルが、全く異なる速度で社会的バイアスを含むことを明らかにします。 本手法を活用し,下流のテキストからsqlへのタスクにおける社会的バイアスを解明し,評価する方法を示す。 コードとデータをリリースします。

Content Warning: This work contains examples that potentially implicate stereotypes, associations, and other harms that could be offensive to individuals in certain social groups.} Large pre-trained language models are acknowledged to carry social biases towards different demographics, which can further amplify existing stereotypes in our society and cause even more harm. Text-to-SQL is an important task, models of which are mainly adopted by administrative industries, where unfair decisions may lead to catastrophic consequences. However, existing Text-to-SQL models are trained on clean, neutral datasets, such as Spider and WikiSQL. This, to some extent, cover up social bias in models under ideal conditions, which nevertheless may emerge in real application scenarios. In this work, we aim to uncover and categorize social biases in Text-to-SQL models. We summarize the categories of social biases that may occur in structured data for Text-to-SQL models. We build test benchmarks and reveal that models with similar task accuracy can contain social biases at very different rates. We show how to take advantage of our methodology to uncover and assess social biases in the downstream Text-to-SQL task. We will release our code and data.
翻訳日:2023-05-26 13:43:31 公開日:2023-05-25
# 多言語連続学習におけるカタストロフィック・フォーミングの克服

Overcoming Catastrophic Forgetting in Massively Multilingual Continual Learning ( http://arxiv.org/abs/2305.16252v1 )

ライセンス: Link先を確認
Genta Indra Winata, Lingjue Xie, Karthik Radhakrishnan, Shijie Wu, Xisen Jin, Pengxiang Cheng, Mayank Kulkarni, Daniel Preotiuc-Pietro(参考訳) 実生活の多言語システムは、システムが進化し、時間とともに変化するデータ分散として、新しい言語を効率的に取り入れることができるべきである。 これを行うには,過去に見られる言語やタスクのモデルパフォーマンスが低下する,破滅的な忘れの問題に対処する必要がある。 本稿では,最大51の言語を含む多言語連続学習フレームワークにおいて,破滅的忘れを最小化すると同時に,分類とシーケンスラベリングの両方を網羅する手法について検討する。 本稿では,過去の知識を強引に上書きすることなく,新しい情報を保存するのに有効な学習率スケジューリング手法であるlr adjustを提案する。 さらに,この手法が複数の連続学習手法において有効であることを示す。 最後に、この膨大な多言語設定における破滅的忘れのダイナミクスに関するさらなる洞察を提供する。

Real-life multilingual systems should be able to efficiently incorporate new languages as data distributions fed to the system evolve and shift over time. To do this, systems need to handle the issue of catastrophic forgetting, where the model performance drops for languages or tasks seen further in its past. In this paper, we study catastrophic forgetting, as well as methods to minimize this, in a massively multilingual continual learning framework involving up to 51 languages and covering both classification and sequence labeling tasks. We present LR ADJUST, a learning rate scheduling method that is simple, yet effective in preserving new information without strongly overwriting past knowledge. Furthermore, we show that this method is effective across multiple continual learning approaches. Finally, we provide further insights into the dynamics of catastrophic forgetting in this massively multilingual setup.
翻訳日:2023-05-26 13:43:12 公開日:2023-05-25
# ほとんど通信のない分散TD(0)

Distributed TD(0) with Almost No Communication ( http://arxiv.org/abs/2305.16246v1 )

ライセンス: Link先を確認
Rui Liu, Alex Olshevsky(参考訳) 線形関数近似を用いた分散時間差学習の非漸近的解析を提案する。 このアプローチは、$N$エージェントがTD(0)メソッドの同じローカルコピーを実行し、最後に1回だけ結果を平均する '`one-shot averaging,'' に依存する。 分散過程の収束時間がTD(0)の収束時間よりもN$の係数である線形時間高速化現象のバージョンを実証する。 これは時間差法に対する並列性からの利点を証明する最初の結果である。

We provide a new non-asymptotic analysis of distributed temporal difference learning with linear function approximation. Our approach relies on ``one-shot averaging,'' where $N$ agents run identical local copies of the TD(0) method and average the outcomes only once at the very end. We demonstrate a version of the linear time speedup phenomenon, where the convergence time of the distributed process is a factor of $N$ faster than the convergence time of TD(0). This is the first result proving benefits from parallelism for temporal difference methods.
翻訳日:2023-05-26 13:42:57 公開日:2023-05-25
# 適応ゲートハイブリッド単光子カメラによる高次元量子相関測定

High-dimensional quantum correlation measurements with an adaptively gated hybrid single-photon camera ( http://arxiv.org/abs/2305.16245v1 )

ライセンス: Link先を確認
Sanjukta Kundu, Jerzy Szuniewicz, Grzegorz Firlik, Alexander Krupinski-Ptaszek and Radek Lapkiewicz(参考訳) 高次元の量子相関、特に空間的相関の効率的な測定は、量子技術の本質的な高次元性と基本的な光学素子による操作を考えると必須である。 本研究では,高空間分解能センサと高時間分解能検出器の情報を組み合わせ,各フレーム内で検出された光子の数を正確に制御する適応ゲートハイブリッド強化カメラ(HIC)を提案する。 HICは空間的に解決された単一光子計数測定を容易にする。 本研究では,タイプIの自発パラメトリックダウンコンバージョンで発生する光子対の運動量相関をHICと測定し,登録光子の時間タグ付けの可能性を示す。 約9メガピクセルの空間分解能とナノ秒の時間分解能を持つこのシステムは、以前は実現できなかった量子光学実験の実現を可能にする。

Efficient measurement of high-dimensional quantum correlations, especially spatial ones, is essential for quantum technologies, given their inherent high dimensionality and easy manipulation with basic optical elements. We propose and demonstrate an adaptively-gated hybrid intensified camera (HIC) that combines the information from a high spatial resolution sensor and a high temporal resolution detector, offering precise control over the number of photons detected within each frame. The HIC facilitates spatially resolved single-photon counting measurements. We study the measurement of momentum correlations of photon pairs generated in type-I spontaneous parametric down-conversion with the HIC and demonstrate the possibility of time-tagging the registered photons. With a spatial resolution of nearly 9 megapixels and nanosecond temporal resolution, this system allows for the realization of previously infeasible quantum optics experiments.
翻訳日:2023-05-26 13:42:48 公開日:2023-05-25
# 多モードキャビティにおける光子を介する相互作用のチューニング:超固体から絶縁液滴への音波励起

Tuning photon-mediated interactions in a multimode cavity: from supersolid to insulating droplets hosting phononic excitations ( http://arxiv.org/abs/2305.16244v1 )

ライセンス: Link先を確認
Natalia Masalaeva, Helmut Ritsch, Farokh Mivehvar(参考訳) レーザー生成光格子に閉じ込められた超低温原子は、量子シミュレーションの汎用プラットフォームとして機能する。 しかし、これらの格子は無限に硬いため、フォノン自由度をエミュレートすることはできない。 この制限は、多モードキャビティ内の出現した光学格子で持ち上げることができる。 マルチモードキャビティQEDの最近の実験的進歩により,Boseガスをリングキャビティの長手モードに結合させることにより,フォノン様格子励起による超固体および液滴状態の実装と研究を行う手法を提案する。 接触衝突型と可変範囲のキャビティを媒介する相互作用の相互作用は、超ラジアント相転移の連続的なモーメントに対するロートン型モード軟化を示す絶縁液滴相だけでなく弾性超固体を含むリッチな相図へと導かれる。 局所密度摂動に対する系の非自明な動的応答は、さらにフォノン様モードの存在を証明している。

Ultracold atoms trapped in laser-generated optical lattices serve as a versatile platform for quantum simulations. However, as these lattices are infinitely stiff, they do not allow to emulate phonon degrees of freedom. This restriction can be lifted in emerged optical lattices inside multimode cavities. Motivated by recent experimental progress in multimode cavity QED, we propose a scheme to implement and study supersolid and droplet states with phonon-like lattice excitations by coupling a Bose gas to many longitudinal modes of a ring cavity. The interplay between contact collisional and tunable-range cavity-mediated interactions leads to a rich phase diagram, which includes elastic supersolid as well as insulating droplet phases exhibiting roton-type mode softening for a continuous range of momenta across the superradiant phase transition. The non-trivial dynamic response of the system to local density perturbations further proves the existence of phonon-like modes.
翻訳日:2023-05-26 13:42:33 公開日:2023-05-25
# 面ベース検索による検索言語モデルの難易度低減

Surface-Based Retrieval Reduces Perplexity of Retrieval-Augmented Language Models ( http://arxiv.org/abs/2305.16243v1 )

ライセンス: Link先を確認
Ehsan Doostmohammadi, Tobias Norlund, Marco Kuhlmann, Richard Johansson(参考訳) 検索機構による言語モデルの強化は,パラメータ数を低く保ちながら,性能を著しく向上させることが示されている。 検索型モデルは通常、クエリチャンクの密表現と潜在的な隣人の類似性に基づく意味的検索機構に依存する。 本稿では,現状のRetroモデルについて検討し,トークン重複などの表面レベルの類似性により,その性能向上がよりよく説明できることを示した。 これに触発されて,レトロのセマンティック検索をbm25に基づく表面レベル手法に置き換え,パープレキシティの大幅な低減を図る。 BM25の完全検索は大規模データセットに対して計算コストがかかるため,計算オーバーヘッドを最小に抑えることで,再分類シナリオにも適用することができる。

Augmenting language models with a retrieval mechanism has been shown to significantly improve their performance while keeping the number of parameters low. Retrieval-augmented models commonly rely on a semantic retrieval mechanism based on the similarity between dense representations of the query chunk and potential neighbors. In this paper, we study the state-of-the-art Retro model and observe that its performance gain is better explained by surface-level similarities, such as token overlap. Inspired by this, we replace the semantic retrieval in Retro with a surface-level method based on BM25, obtaining a significant reduction in perplexity. As full BM25 retrieval can be computationally costly for large datasets, we also apply it in a re-ranking scenario, gaining part of the perplexity reduction with minimal computational overhead.
翻訳日:2023-05-26 13:42:16 公開日:2023-05-25
# 局所極小点探索のための2時間外勾配

Two-timescale Extragradient for Finding Local Minimax Points ( http://arxiv.org/abs/2305.16242v1 )

ライセンス: Link先を確認
Jiseok Chae, Kyuwon Kim, Donghwan Kim(参考訳) Minimaxの問題は最適化するのがとても難しい。 しかし,二度スケールの超段階性が有効なソリューションであることを実証する。 力学系理論を用いて,局所ミニマックス点の2次必要条件を満たす点に軽度条件下で収束することを示す。 この研究は、最大化変数に関してヘッセンが非退化であるという決定的な仮定を排除するため、すべての以前の結果を上回る。

Minimax problems are notoriously challenging to optimize. However, we demonstrate that the two-timescale extragradient can be a viable solution. By utilizing dynamical systems theory, we show that it converges to points that satisfy the second-order necessary condition of local minimax points, under a mild condition. This work surpasses all previous results as we eliminate a crucial assumption that the Hessian, with respect to the maximization variable, is nondegenerate.
翻訳日:2023-05-26 13:41:59 公開日:2023-05-25
# ラベル付きデータ分類のための持続的ラプラシアンエンハンスドアルゴリズム

Persistent Laplacian-enhanced Algorithm for Scarcely Labeled Data Classification ( http://arxiv.org/abs/2305.16239v1 )

ライセンス: Link先を確認
Gokul Bhusal, Ekaterina Merkurjev, Guo-Wei Wei(参考訳) 多くの機械学習(ML)手法の成功は、大量のラベル付きデータを持つことに大きく依存する。 しかし、十分なラベル付きデータを得ることは高価で時間がかかり、多くのアプリケーションで倫理的な制約を受ける可能性がある。 この手法はトレーニング中にラベル付きデータとラベル付きデータの両方を使用し、ラベル付きデータよりもラベル付きデータの方が比較的簡単で安価であることが多い。 実際、SSLメソッドは医療分析、自然言語処理(NLP)、音声認識など、ラベル付けのコストが特に高いアプリケーションでは特に有用である。 様々な分野で大きな成功を収めたsslメソッドのサブセットは、グラフベースの技術を統合するアルゴリズムを含んでいる。 これらの手順は、グラフィカルフレームワークが提供する膨大な情報と、それらのアプリケーションの汎用性のために人気がある。 本研究では、永続スペクトルグラフ理論と古典的メリマン・バンス・オッシャー(MBO)スキームを統合することで、永続ラプラシア強調グラフ(PL-MBO)と呼ばれる代数トポロジに基づく半教師付き手法を提案する。 具体的には, 濾過法を用いて, 鎖状錯体の配列とそれに関連する単座錯体の族を生成し, 永続的なラプラシアンの族を構築する。 全体として、多くのML技術と比較して、ラベル付きデータよりもはるかに少ないパフォーマンスを要求される非常に効率的なプロシージャであり、小さなデータセットと大規模なデータセットの両方に適応することができる。 本研究では,提案手法の性能評価を行い,提案手法が既存の半教師付きアルゴリズムよりも優れていることを示す。

The success of many machine learning (ML) methods depends crucially on having large amounts of labeled data. However, obtaining enough labeled data can be expensive, time-consuming, and subject to ethical constraints for many applications. One approach that has shown tremendous value in addressing this challenge is semi-supervised learning (SSL); this technique utilizes both labeled and unlabeled data during training, often with much less labeled data than unlabeled data, which is often relatively easy and inexpensive to obtain. In fact, SSL methods are particularly useful in applications where the cost of labeling data is especially expensive, such as medical analysis, natural language processing (NLP), or speech recognition. A subset of SSL methods that have achieved great success in various domains involves algorithms that integrate graph-based techniques. These procedures are popular due to the vast amount of information provided by the graphical framework and the versatility of their applications. In this work, we propose an algebraic topology-based semi-supervised method called persistent Laplacian-enhanced graph MBO (PL-MBO) by integrating persistent spectral graph theory with the classical Merriman-Bence- Osher (MBO) scheme. Specifically, we use a filtration procedure to generate a sequence of chain complexes and associated families of simplicial complexes, from which we construct a family of persistent Laplacians. Overall, it is a very efficient procedure that requires much less labeled data to perform well compared to many ML techniques, and it can be adapted for both small and large datasets. We evaluate the performance of the proposed method on data classification, and the results indicate that the proposed technique outperforms other existing semi-supervised algorithms.
翻訳日:2023-05-26 13:41:47 公開日:2023-05-25
# 特徴を模倣した対話型セグメンテーションNeRF

Interactive Segment Anything NeRF with Feature Imitation ( http://arxiv.org/abs/2305.16233v1 )

ライセンス: Link先を確認
Xiaokang Chen, Jiaxiang Tang, Diwen Wan, Jingbo Wang, Gang Zeng(参考訳) 本稿では,NeRF(Neural Radiance Fields)のセマンティクスによる拡張の可能性について検討する。 NeRFはVRやデジタル創造のような現実世界のアプリケーションで有用であることが証明されているが、セマンティクスの欠如は複雑な場面におけるオブジェクトとの相互作用を妨げる。 本稿では,nerfを用いたゼロショットセマンティクスセグメンテーションを実現するために,市販知覚モデルのバックボーン特徴を模倣する。 本フレームワークは,意味的特徴を直接描画し,認識モデルからデコーダのみを適用することによってセグメンテーションプロセスを再構築する。 これにより、高価なバックボーンが不要になり、3D一貫性がもたらされる。 さらに,学習したセマンティクスを抽出したメッシュ表面に投影することで,リアルタイムインタラクションを実現する。 sam(state-of-the-art segment anything)モデルによって、当社のフレームワークはセグメンテーションを16倍高速化し、同等のマスク品質を実現しています。 実験の結果,本手法の有効性と計算能力が示された。 プロジェクトページ: \url{https://me.kiui.moe/san/}。

This paper investigates the potential of enhancing Neural Radiance Fields (NeRF) with semantics to expand their applications. Although NeRF has been proven useful in real-world applications like VR and digital creation, the lack of semantics hinders interaction with objects in complex scenes. We propose to imitate the backbone feature of off-the-shelf perception models to achieve zero-shot semantic segmentation with NeRF. Our framework reformulates the segmentation process by directly rendering semantic features and only applying the decoder from perception models. This eliminates the need for expensive backbones and benefits 3D consistency. Furthermore, we can project the learned semantics onto extracted mesh surfaces for real-time interaction. With the state-of-the-art Segment Anything Model (SAM), our framework accelerates segmentation by 16 times with comparable mask quality. The experimental results demonstrate the efficacy and computational advantages of our approach. Project page: \url{https://me.kiui.moe/san/}.
翻訳日:2023-05-26 13:40:47 公開日:2023-05-25
# サイト対称性によるy$_2$o$_3$のエルビウムドープタントの識別:2つのスピン-光子界面の \textit{ ab initio} 理論

Distinguishing erbium dopants in Y$_2$O$_3$ by site symmetry: \textit{ ab initio} theory of two spin-photon interfaces ( http://arxiv.org/abs/2305.16231v1 )

ライセンス: Link先を確認
Churna Bhandari, C\"uneyt \c{S}ahin, Durga Paudyal, Michael E. Flatt\~A\c{opyright}(参考訳) エルビウム(er)ドープイットリア(y$_2$o$_3$)の欠陥形成と電子構造に関する第一原理研究を行った。 これは量子情報科学におけるスピン-光子界面の新たな材料であり、標準的な通信波長でのerドープタントからの狭い線幅の光放射と量子記憶へのポテンシャルがある。 中性、負、正に荷電されたerドーパントの形成エネルギーを計算し、その構成を実験と整合した最も安定な構成と判断する。 y に対する er の置換点である $c_2$ と $c_{3i}$ のうち、前者(低い位置対称性を持つ)は最も低い形成エネルギーを持っていると同定する。 電子的性質は、Perdew-Burke-Ernzerhof (PBE)関数とHubbard $U$パラメータ {\color{black} と spin-orbit coupling (SOC)} を用いて計算され、これは$\sim$ 6 $\mu_B$軌道と$\sim$ 3 $\mu_B$スピン磁気モーメント、Er 4f$シェル内の11個の電子が生成され、電荷ニュートラル Er$^{3+} が形成される。 この標準密度汎関数理論(DFT)アプローチは、ホストのバンドギャップを過小評価し、$U$の第一原理の正当化を欠いている。 これらの問題を克服するために、私たちは4f$オービタルの負のu$を含むスクリーン付きハイブリッド機能計算(hse)を行い、ミキシング(\alpha$)とスクリーニング(w$)パラメータを使った。 これらは、バンドギャップのわずかな変更と、チューニングパラメータの選択に応じて4f$の分割を含むロバストな電子的特徴を生み出した。 また,多粒子電子励起エネルギーを計算し,発光実験値と比較した。

We present a first-principles study of defect formation and electronic structure of erbium (Er)-doped yttria (Y$_2$O$_3$). This is an emerging material for spin-photon interfaces in quantum information science due to the narrow linewidth optical emission from Er dopants at standard telecommunication wavelengths and their potential for quantum memories. We calculate formation energies of neutral, negatively, and positively charged Er dopants and find the configuration to be the most stable, consistent with experiment. Of the two substitutional sites of Er for Y, the $C_2$ and $C_{3i}$, we identify the former (with lower site symmetry) as possessing the lowest formation energy. The electronic properties are calculated using the Perdew-Burke-Ernzerhof (PBE) functional along with the Hubbard $U$ parameter {\color{black} and spin-orbit coupling (SOC)}, which yields a $\sim$ 6 $\mu_B$ orbital and a $\sim$ 3 $\mu_B$ spin magnetic moment, and 11 electrons in the Er $4f$ shell, confirming the formation of charge-neutral Er$^{3+}$. This standard density functional theory (DFT) approach underestimates the band gap of the host and lacks a first-principles justification for $U$. To overcome these issues we performed screened hybrid functional (HSE) calculations, including a negative $U$ for the $4f$ orbitals, with mixing ($\alpha$) and screening ($w$) parameters. These produced robust electronic features with slight modifications in the band gap and the $4f$ splittings depending on the choice of tuning parameters. We also computed the many-particle electronic excitation energies and compared them with experimental values from photoluminescence.
翻訳日:2023-05-26 13:40:22 公開日:2023-05-25
# 符号カーネルスコアを用いたニューラルSDEの非線形学習

Non-adversarial training of Neural SDEs with signature kernel scores ( http://arxiv.org/abs/2305.16274v1 )

ライセンス: Link先を確認
Zacharia Issa and Blanka Horvath and Maud Lemercier and Cristopher Salvi(参考訳) ニューラルSDEはシーケンシャルデータのための連続時間生成モデルである。 不規則な時系列生成のための最先端性能は、これらのモデルをGANとして逆向きに訓練することで既に得られている。 しかし、GANアーキテクチャの典型的なように、トレーニングは不安定で、しばしばモード崩壊に悩まされ、これらの問題を緩和するために重量削減や勾配ペナルティといった専門技術を必要とする。 本稿では,シグネチャカーネルに基づくパス空間のスコアリングルールを新たに導入し,ニューラルSDEを非逆的に訓練するための目的として利用する。 このようなカーネルスコアの厳密な正当性と対応する推定器の整合性を示すことにより、ミニミザーの存在と特異性を保証する。 この定式化により、ジェネレータと差別化器のペアの評価は、メモリ効率の良い随伴型バックプロパゲーションを可能にする線形パス依存PDEのシステムに相当する。 さらに,提案するカーネルスコアは無限次元関数空間内の値を持つ経路に対してよく定義されているので,時空間データを生成するために容易に拡張できる。 提案手法は,多種多様な市場条件下での条件付けを許容し,粗変動モデルのシミュレーション,条件変数が過去の軌跡である実世界のForexペアの条件確率予測,リミットオーダーブックダイナミクスのメッシュフリー生成など,さまざまなタスクにおけるニューラルSDEの訓練方法よりもはるかに優れる。

Neural SDEs are continuous-time generative models for sequential data. State-of-the-art performance for irregular time series generation has been previously obtained by training these models adversarially as GANs. However, as typical for GAN architectures, training is notoriously unstable, often suffers from mode collapse, and requires specialised techniques such as weight clipping and gradient penalty to mitigate these issues. In this paper, we introduce a novel class of scoring rules on pathspace based on signature kernels and use them as objective for training Neural SDEs non-adversarially. By showing strict properness of such kernel scores and consistency of the corresponding estimators, we provide existence and uniqueness guarantees for the minimiser. With this formulation, evaluating the generator-discriminator pair amounts to solving a system of linear path-dependent PDEs which allows for memory-efficient adjoint-based backpropagation. Moreover, because the proposed kernel scores are well-defined for paths with values in infinite dimensional spaces of functions, our framework can be easily extended to generate spatiotemporal data. Our procedure permits conditioning on a rich variety of market conditions and significantly outperforms alternative ways of training Neural SDEs on a variety of tasks including the simulation of rough volatility models, the conditional probabilistic forecasts of real-world forex pairs where the conditioning variable is an observed past trajectory, and the mesh-free generation of limit order book dynamics.
翻訳日:2023-05-26 13:34:11 公開日:2023-05-25
# 協調学習と最適化における競争相手の正直感

Incentivizing Honesty among Competitors in Collaborative Learning and Optimization ( http://arxiv.org/abs/2305.16272v1 )

ライセンス: Link先を確認
Florian E. Dorner, Nikola Konstantinov, Georgi Pashaliev, Martin Vechev(参考訳) 協調学習技術は、単一のエンティティのデータでトレーニングされたモデルよりも優れた機械学習モデルのトレーニングを可能にする可能性がある。 しかし、多くの場合、このような協力的なスキームの潜在的な参加者は、最善のレコメンデーションを提供することで顧客を引き付けようとする企業のような下流のタスクの競合である。 これは他の参加者のモデルを傷つける不名誉なアップデートをインセンティブにし、コラボレーションのメリットを損なう可能性がある。 本研究では,このようなインタラクションをモデル化したゲームを定式化し,このフレームワークにおける2つの学習タスクについて検討する。 プレイヤーアクションの自然なクラスについて、合理的なクライアントは、その更新を強く操作し、学習を妨げていることを示す。 次に、正直なコミュニケーションを動機づけ、完全協調に匹敵する学習品質を確保するメカニズムを提案する。 最後に、標準の非凸フェデレーション学習ベンチマークにおけるインセンティブスキームの有効性を実証的に実証する。 私たちの研究は、不正なクライアントのインセンティブや行動を明確にモデル化し、悪意のあるクライアントと仮定するのではなく、協調学習のための強力な堅牢性を保証することを示しています。

Collaborative learning techniques have the potential to enable training machine learning models that are superior to models trained on a single entity's data. However, in many cases, potential participants in such collaborative schemes are competitors on a downstream task, such as firms that each aim to attract customers by providing the best recommendations. This can incentivize dishonest updates that damage other participants' models, potentially undermining the benefits of collaboration. In this work, we formulate a game that models such interactions and study two learning tasks within this framework: single-round mean estimation and multi-round SGD on strongly-convex objectives. For a natural class of player actions, we show that rational clients are incentivized to strongly manipulate their updates, preventing learning. We then propose mechanisms that incentivize honest communication and ensure learning quality comparable to full cooperation. Lastly, we empirically demonstrate the effectiveness of our incentive scheme on a standard non-convex federated learning benchmark. Our work shows that explicitly modeling the incentives and actions of dishonest clients, rather than assuming them malicious, can enable strong robustness guarantees for collaborative learning.
翻訳日:2023-05-26 13:33:43 公開日:2023-05-25
# UDPM:拡散確率モデルの改善

UDPM: Upsampling Diffusion Probabilistic Models ( http://arxiv.org/abs/2305.16269v1 )

ライセンス: Link先を確認
Shady Abu-Hussein, and Raja Giryes(参考訳) 近年,拡散確率モデル (DDPM) が注目されている。 データドメインから始まり、純粋なホワイトノイズに到達するまで徐々にノイズを付加するマルコフプロセスを構成することで、データ分布の学習において優れたパフォーマンスを実現する。 しかし、これらのモデルは、非効率な審美的なサンプルを生成するために、多くの拡散ステップを必要とする。 加えて、一般的な生成逆ネットワークとは異なり、拡散モデルの潜在空間は解釈できない。 本研究では,従来の雑音レベル付加に加えて潜時変動次元を減少させるため,拡散過程を増幅拡散確率モデル (UDPM) に一般化することを提案する。 その結果、256\times 256$の画像を7つの拡散ステップでサンプリングでき、これは標準のddpmと比べて2桁未満である。 我々はUDPMのマルコフ拡散過程を正式に開発し、その生成能力を一般的なFFHQ、LSUN馬、ImageNet、AFHQv2データセット上で実証する。 UDPMのもう1つの好ましい性質は、その潜在空間を補間することが非常に容易であることであり、標準拡散モデルではそうではない。 コードはurl{https://github.com/shadyabh/udpm}

In recent years, Denoising Diffusion Probabilistic Models (DDPM) have caught significant attention. By composing a Markovian process that starts in the data domain and then gradually adds noise until reaching pure white noise, they achieve superior performance in learning data distributions. Yet, these models require a large number of diffusion steps to produce aesthetically pleasing samples, which is inefficient. In addition, unlike common generative adversarial networks, the latent space of diffusion models is not interpretable. In this work, we propose to generalize the denoising diffusion process into an Upsampling Diffusion Probabilistic Model (UDPM), in which we reduce the latent variable dimension in addition to the traditional noise level addition. As a result, we are able to sample images of size $256\times 256$ with only 7 diffusion steps, which is less than two orders of magnitude compared to standard DDPMs. We formally develop the Markovian diffusion processes of the UDPM, and demonstrate its generation capabilities on the popular FFHQ, LSUN horses, ImageNet, and AFHQv2 datasets. Another favorable property of UDPM is that it is very easy to interpolate its latent space, which is not the case with standard diffusion models. Our code is available online \url{https://github.com/shadyabh/UDPM}
翻訳日:2023-05-26 13:33:21 公開日:2023-05-25
# UNITE: テキストからSQL評価のための統一ベンチマーク

UNITE: A Unified Benchmark for Text-to-SQL Evaluation ( http://arxiv.org/abs/2305.16265v1 )

ライセンス: Link先を確認
Wuwei Lan, Zhiguo Wang, Anuj Chauhan, Henghui Zhu, Alexander Li, Jiang Guo, Sheng Zhang, Chung-Wei Hang, Joseph Lilien, Yiqun Hu, Lin Pan, Mingwen Dong, Jun Wang, Jiarong Jiang, Stephen Ash, Vittorio Castelli, Patrick Ng and Bing Xiang(参考訳) 実用的なテキスト-SQLシステムは、さまざまな自然言語の質問、見えないデータベーススキーマ、新しいSQLクエリ構造をうまく一般化する必要がある。 テキストからSQLまでを総合的に評価するために, textbf{T}ext-to-SQL \textbf{E}valuation (UNITE) のための \textbf{UNI}fied ベンチマークを導入する。 12ドメイン以上の自然言語質問、3.9Kパターン以上のSQLクエリ、29Kデータベースを含む、公開されているテキストからSQLまでのデータセットで構成されている。 広く使われているSpiderベンチマークであるcite{yu-etal-2018-spider}と比較して、$\sim$120Kの追加例と比較やブール問題などのSQLパターンの3倍の増加を紹介します。 我々は、新しいベンチマークで6つの最先端(SOTA)テキスト-SQLパーサの体系的研究を行い、そのことを示す。 1) Codexはドメイン外のデータセットで驚くほどよく機能します。 2) 特別に設計された復号法(例えば制約ビーム探索)は、ドメイン内設定と外部設定の両方のパフォーマンスを向上させることができる。 3) 質問とスキーマの関係を明示的にモデル化することで、Seq2Seqモデルをさらに改善する。 さらに重要なことは、我々のベンチマークは構成の一般化とロバストネスの問題に対する重要な課題を示しており、これらSOTAモデルはうまく対応できない。

A practical text-to-SQL system should generalize well on a wide variety of natural language questions, unseen database schemas, and novel SQL query structures. To comprehensively evaluate text-to-SQL systems, we introduce a \textbf{UNI}fied benchmark for \textbf{T}ext-to-SQL \textbf{E}valuation (UNITE). It is composed of publicly available text-to-SQL datasets, containing natural language questions from more than 12 domains, SQL queries from more than 3.9K patterns, and 29K databases. Compared to the widely used Spider benchmark \cite{yu-etal-2018-spider}, we introduce $\sim$120K additional examples and a threefold increase in SQL patterns, such as comparative and boolean questions. We conduct a systematic study of six state-of-the-art (SOTA) text-to-SQL parsers on our new benchmark and show that: 1) Codex performs surprisingly well on out-of-domain datasets; 2) specially designed decoding methods (e.g. constrained beam search) can improve performance for both in-domain and out-of-domain settings; 3) explicitly modeling the relationship between questions and schemas further improves the Seq2Seq models. More importantly, our benchmark presents key challenges towards compositional generalization and robustness issues -- which these SOTA models cannot address well.
翻訳日:2023-05-26 13:32:58 公開日:2023-05-25
# データ制約付き言語モデルのスケーリング

Scaling Data-Constrained Language Models ( http://arxiv.org/abs/2305.16264v1 )

ライセンス: Link先を確認
Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo, Thomas Wolf, Colin Raffel(参考訳) 言語モデルをスケールする現在のトレンドは、パラメータカウントとトレーニングデータセットサイズの両方の増加である。 この傾向を外挿すると、トレーニングデータセットのサイズは、インターネット上で利用可能なテキストデータの量によってすぐに制限される可能性がある。 この制限により,データ制約型システムにおける言語モデルのスケーリングについて検討する。 具体的には、データの繰り返しと計算予算の範囲を多岐にわたる実験を行い、最大9億のトレーニングトークンと90億のパラメータモデルを設定しました。 固定された計算予算に対する制約付きデータでは、反復するデータの最大4エポックのトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。 しかし、さらに繰り返すと計算量を追加する値は最終的にゼロになる。 反復トークンと余剰パラメータの値減少を考慮した最適性計算のためのスケーリング則を提案し,実証的に検証する。 最後に、トレーニングデータセットをコードデータで強化したり、よく使われるフィルタを削除したりするなど、データの不足を軽減するアプローチを実験する。 400のトレーニング実行のモデルとデータセットはhttps://github.com/huggingface/datablations.comで公開されています。

The current trend of scaling language models involves increasing both parameter count and training dataset size. Extrapolating this trend suggests that training dataset size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training dataset with code data or removing commonly used filters. Models and datasets from our 400 training runs are publicly available at https://github.com/huggingface/datablations.
翻訳日:2023-05-26 13:32:35 公開日:2023-05-25
# サイドカーセパレータを用いたマルチ話者オーバーラップ音声認識とダイアリゼーションの統一モデリング

Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator ( http://arxiv.org/abs/2305.16263v1 )

ライセンス: Link先を確認
Lingwei Meng, Jiawen Kang, Mingyu Cui, Haibin Wu, Xixin Wu, Helen Meng(参考訳) 複数話者重複音声は音声認識とダイアリゼーションにとって大きな課題である。 近年の研究では、これらの2つのタスクは相互依存的かつ相補的であり、重なり合う音声の文脈でそれらに対応する統一モデリング手法を検討する動機となっている。 近年の研究では、Sidecarセパレータを凍結訓練されたASRモデルに挿入することにより、単一話者自動音声認識(ASR)システムを複数話者に変換するコスト効率のよい手法が提案されている。 これを拡張して、Sidecarにダイアリゼーションブランチを組み込むことにより、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを可能にする。 提案手法は,LibriMix と LibriSpeechMix のデータセットのベースラインと比較して,より優れた ASR 結果が得られる。 さらに,ダイアリゼーションタスクの高度なカスタマイズがなければ,少数の適応ステップで,callhomeの2話者部分集合上で許容されるダイアリゼーション結果が得られる。

Multi-talker overlapped speech poses a significant challenge for speech recognition and diarization. Recent research indicated that these two tasks are inter-dependent and complementary, motivating us to explore a unified modeling method to address them in the context of overlapped speech. A recent study proposed a cost-effective method to convert a single-talker automatic speech recognition (ASR) system into a multi-talker one, by inserting a Sidecar separator into the frozen well-trained ASR model. Extending on this, we incorporate a diarization branch into the Sidecar, allowing for unified modeling of both ASR and diarization with a negligible overhead of only 768 parameters. The proposed method yields better ASR results compared to the baseline on LibriMix and LibriSpeechMix datasets. Moreover, without sophisticated customization on the diarization task, our method achieves acceptable diarization results on the two-speaker subset of CALLHOME with only a few adaptation steps.
翻訳日:2023-05-26 13:32:18 公開日:2023-05-25
# ネットワークによる協調談話におけるアイデア創造の理解--AIC(Joint Attention-Interaction-Creation)フレームワーク

Understanding Idea Creation in Collaborative Discourse through Networks: The Joint Attention-Interaction-Creation (AIC) Framework ( http://arxiv.org/abs/2305.16262v1 )

ライセンス: Link先を確認
Xinran Zhu, Bodong Chen(参考訳) コンピュータ支援協調学習では,協調談話によって生み出されたアイデアは,学生の学習とコラボレーションの有益な指標である。 アイデア創造は、創発的で対話的な社会認知的努力の産物である。 したがって、アイデアを解析するには、アイデア自体に加えて文脈情報を取得する必要がある。 本稿では,協調的談話における重要なダイナミクスを,注意と相互作用から創造まで捉えるaic(joint attention-interaction-creation)フレームワークを提案する。 このフレームワークは、自然言語処理技術にヒントを得て、ネットワーク化されたレンズから開発された。 ケーススタディは、教室でのフレームワークの適用を実証し、より広い文脈でその可能性を説明するために含まれた。

In Computer-Supported Collaborative Learning, ideas generated through collaborative discourse are informative indicators of students' learning and collaboration. Idea creation is a product of emergent and interactive socio-cognitive endeavors. Therefore, analyzing ideas requires capturing contextual information in addition to the ideas themselves. In this paper, we propose the Joint Attention-Interaction-Creation (AIC) framework, which captures important dynamics in collaborative discourse, from attention and interaction to creation. The framework was developed from the networked lens, informed by natural language processing techniques, and inspired by socio-semantic network analysis. A case study was included to exemplify the framework's application in classrooms and to illustrate its potential in broader contexts.
翻訳日:2023-05-26 13:32:01 公開日:2023-05-25
# ジャンプ拡散モデルによるトランス次元生成モデル

Trans-Dimensional Generative Modeling via Jump Diffusion Models ( http://arxiv.org/abs/2305.16261v1 )

ライセンス: Link先を確認
Andrew Campbell, William Harvey, Christian Weilbach, Valentin De Bortoli, Tom Rainforth, Arnaud Doucet(参考訳) 本稿では,各データポイントの状態と次元を共同でモデル化することにより,異なる次元のデータを自然に扱う新しい生成モデルを提案する。 生成過程は、異なる次元空間の間をジャンプするジャンプ拡散過程として定式化される。 まず, 時間反転生成過程を生成する次元と, 近似する学習のための新しいエビデンスの下限学習目標を導出する前に, フォワードノジング過程を壊す次元を定義する。 時間反転生成過程に対する学習近似をシミュレーションし、状態値と次元を共同生成することにより、様々な次元のデータをサンプリングする効果的な方法を提供する。 我々は,様々な次元の分子およびビデオデータセットに対する我々のアプローチを実証し,実験時間拡散誘導インプテーションタスクとの適合性の向上と,状態値と次元を別々に生成する固定次元モデルとの補間能力の向上を報告した。

We propose a new class of generative models that naturally handle data of varying dimensionality by jointly modeling the state and dimension of each datapoint. The generative process is formulated as a jump diffusion process that makes jumps between different dimensional spaces. We first define a dimension destroying forward noising process, before deriving the dimension creating time-reversed generative process along with a novel evidence lower bound training objective for learning to approximate it. Simulating our learned approximation to the time-reversed generative process then provides an effective way of sampling data of varying dimensionality by jointly generating state values and dimensions. We demonstrate our approach on molecular and video datasets of varying dimensionality, reporting better compatibility with test-time diffusion guidance imputation tasks and improved interpolation capabilities versus fixed dimensional models that generate state values and dimensions separately.
翻訳日:2023-05-26 13:31:48 公開日:2023-05-25
# 長文のニューラル自然言語処理:最新技術に関する調査

Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art ( http://arxiv.org/abs/2305.16259v1 )

ライセンス: Link先を確認
Dimitrios Tsirmpas, Ioannis Gkionis, Ioannis Mademlis(参考訳) ディープニューラルネットワーク(DNN)の採用は、過去10年間で自然言語処理(NLP)に大きな恩恵を受けている。 しかし、長い文書分析の要求は、短いテキストの要求とは大きく異なり、長い文書にnlpをレンダリングするオンライン文書のサイズがますます増大していることは、重要な研究領域である。 本稿では,そのドメインの現状を調査し,関連するニューラルビルディングブロックを概観するとともに,文書分類,要約,感情分析における言及活用という2つの主要なnlpタスクに注目した。 長文NLPに関する課題,課題,現在のソリューションについて詳述する。 また、現在研究で使われている公開、ラベル付き、長期ドキュメントデータセットもリストアップします。

The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long documents analysis are quite different from those of shorter texts, with the ever increasing size of documents uploaded online rendering NLP on long documents a critical area of research. This paper surveys the current state-of-the-art in the domain, overviewing the relevant neural building blocks and subsequently focusing on two main NLP tasks: Document Classification, Summarization as well as mentioning uses in Sentiment Analysis. We detail the challenges, issues and current solutions related to long-document NLP. We also list publicly available, labelled, long-document datasets used in current research.
翻訳日:2023-05-26 13:31:34 公開日:2023-05-25
# 非常に大きなグラフのための高速オンラインノードラベリング

Fast Online Node Labeling for Very Large Graphs ( http://arxiv.org/abs/2305.16257v1 )

ライセンス: Link先を確認
Baojian Zhou, Yifan Sun, Reza Babanezhad(参考訳) 本稿では,トランスダクティブ学習環境下でのオンラインノード分類問題について検討する。 現在の手法は、$\mathcal{O}(n^3)$ランタイムと$\mathcal{O}(n^2)$空間の複雑さでグラフカーネル行列を反転させるか、ランダムに広がる木を大量にサンプリングする。 本研究では,一連の著作(rakhlin et al., 2012, rakhlin and sridharan, 2015; 2017)によって導入された, \textit{online relax} 技法に基づく改善を提案する。 まず、適切なパラメータ化されたグラフカーネルが選択されたときに、有効後悔$\mathcal{O}(\sqrt{n^{1+\gamma}})$を証明し、この緩和に基づいて、$\mathcal{O}(k\sqrt{n^{1+\gamma}})を満足する近似アルゴリズムFastONLを提案する。 FastONLの鍵は、逆行列列を効果的に近似し、一連の人気のあるカーネルに適用する \textit{ Generalized local push} メソッドである。 さらに、予測コストは$\mathcal{O}(\text{vol}({\mathcal{S}})\log 1/\epsilon)$ である。 実験の結果,我々のスケーラブルな手法は,局所的一貫性とグローバル的一貫性のトレードオフを良好に享受できることがわかった。

This paper studies the online node classification problem under a transductive learning setting. Current methods either invert a graph kernel matrix with $\mathcal{O}(n^3)$ runtime and $\mathcal{O}(n^2)$ space complexity or sample a large volume of random spanning trees, thus are difficult to scale to large graphs. In this work, we propose an improvement based on the \textit{online relaxation} technique introduced by a series of works (Rakhlin et al.,2012; Rakhlin and Sridharan, 2015; 2017). We first prove an effective regret $\mathcal{O}(\sqrt{n^{1+\gamma}})$ when suitable parameterized graph kernels are chosen, then propose an approximate algorithm FastONL enjoying $\mathcal{O}(k\sqrt{n^{1+\gamma}})$ regret based on this relaxation. The key of FastONL is a \textit{generalized local push} method that effectively approximates inverse matrix columns and applies to a series of popular kernels. Furthermore, the per-prediction cost is $\mathcal{O}(\text{vol}({\mathcal{S}})\log 1/\epsilon)$ locally dependent on the graph with linear memory cost. Experiments show that our scalable method enjoys a better tradeoff between local and global consistency.
翻訳日:2023-05-26 13:31:23 公開日:2023-05-25
# Unbiased Compressionは分散最適化におけるコミュニケーションを省く: いつ、どのくらいか?

Unbiased Compression Saves Communication in Distributed Optimization: When and How Much? ( http://arxiv.org/abs/2305.16297v1 )

ライセンス: Link先を確認
Yutong He, Xinmeng Huang, Kun Yuan(参考訳) 通信圧縮は、圧縮勾配とモデルパラメータを伝達することで通信オーバーヘッドを軽減する分散最適化において一般的な手法である。 しかし、圧縮は情報歪みを導入し、収束を遅くし、より多くの通信ラウンドを発生させ、望ましいソリューションを実現する。 ラウンド単位の通信コストの低減と追加の通信ラウンドのトレードオフを考えると,通信圧縮によって通信コストが削減されるかどうかは不明である。 本稿では,広範に使用される圧縮形式である非バイアス圧縮が,通信コストを低減し,その程度を低減できる条件について検討する。 そこで本研究では,通信圧縮を伴う分散最適化における通信コストを特徴付ける最初の理論的定式化を行う。 非バイアス圧縮だけでは通信コストを節約できるわけではないが、全作業員が使用する圧縮機を独立と仮定すれば、この結果が得られる。 我々は,独立な非バイアス圧縮機を用いて,滑らかな凸関数を最小化するために,アルゴリズムが要求する通信ラウンドの下位境界を確立するとともに,これらの下位境界がADIANAの解析を洗練することによってきついことを示す。 我々の結果は、独立な非バイアス圧縮を用いることで、最大$\Theta(\sqrt{\min\{n, \kappa\}})$で、$n$は労働者の数、$\kappa$は最小化される関数の条件数で、通信コストを削減できることを示している。 これらの理論的知見は実験結果によって裏付けられている。

Communication compression is a common technique in distributed optimization that can alleviate communication overhead by transmitting compressed gradients and model parameters. However, compression can introduce information distortion, which slows down convergence and incurs more communication rounds to achieve desired solutions. Given the trade-off between lower per-round communication costs and additional rounds of communication, it is unclear whether communication compression reduces the total communication cost. This paper explores the conditions under which unbiased compression, a widely used form of compression, can reduce the total communication cost, as well as the extent to which it can do so. To this end, we present the first theoretical formulation for characterizing the total communication cost in distributed optimization with communication compression. We demonstrate that unbiased compression alone does not necessarily save the total communication cost, but this outcome can be achieved if the compressors used by all workers are further assumed independent. We establish lower bounds on the communication rounds required by algorithms using independent unbiased compressors to minimize smooth convex functions, and show that these lower bounds are tight by refining the analysis for ADIANA. Our results reveal that using independent unbiased compression can reduce the total communication cost by a factor of up to $\Theta(\sqrt{\min\{n, \kappa\}})$, where $n$ is the number of workers and $\kappa$ is the condition number of the functions being minimized. These theoretical findings are supported by experimental results.
翻訳日:2023-05-26 13:24:11 公開日:2023-05-25
# 偏りのあるsgd動物園のガイド

A Guide Through the Zoo of Biased SGD ( http://arxiv.org/abs/2305.16296v1 )

ライセンス: Link先を確認
Yury Demidovich, Grigory Malinovsky, Igor Sokolov, Peter Richt\'arik(参考訳) Stochastic Gradient Descent (SGD)は、現代の機械学習において最も重要なシングルアルゴリズムである。 偏りのない勾配推定器を備えたsgdは少なくとも半世紀にわたって広く研究されてきたが、偏りのある推定器に依存するsgd変種は稀である。 しかし、近年はこの話題への関心が高まっている。 しかし、バイアス付推定器(BiasedSGD)を用いたSGDに関する既存の文献では、それぞれの新しい論文は、どのように接続されているかを明確に理解することなく、異なる仮定に依存するため、コヒーレンスを欠いている。 我々は,既存の仮定間の接続を確立することで,このギャップに対処し,基礎となる関係の包括的マップを示す。 さらに,全ての仮定よりも確実に弱い仮定を新たに導入し,この仮定を用いて,凸および非凸の双方でBiasedSGDを徹底的に解析し,過去の結果よりも有利であることを示す。 また、偏りのある推定者が偏りのない比較対象を上回ったり、偏りのないバージョンが単に利用できないような例も提供します。 最後に, 理論的知見を検証する実験結果を通して, 枠組みの有効性を実証する。

Stochastic Gradient Descent (SGD) is arguably the most important single algorithm in modern machine learning. Although SGD with unbiased gradient estimators has been studied extensively over at least half a century, SGD variants relying on biased estimators are rare. Nevertheless, there has been an increased interest in this topic in recent years. However, existing literature on SGD with biased estimators (BiasedSGD) lacks coherence since each new paper relies on a different set of assumptions, without any clear understanding of how they are connected, which may lead to confusion. We address this gap by establishing connections among the existing assumptions, and presenting a comprehensive map of the underlying relationships. Additionally, we introduce a new set of assumptions that is provably weaker than all previous assumptions, and use it to present a thorough analysis of BiasedSGD in both convex and non-convex settings, offering advantages over previous results. We also provide examples where biased estimators outperform their unbiased counterparts or where unbiased versions are simply not available. Finally, we demonstrate the effectiveness of our framework through experimental results that validate our theoretical findings.
翻訳日:2023-05-26 13:23:42 公開日:2023-05-25
# HAAV:画像キャプションのための拡張ビューの階層的集約

HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning ( http://arxiv.org/abs/2305.16295v1 )

ライセンス: Link先を確認
Chia-Wen Kuo and Zsolt Kira(参考訳) 事前訓練されたモデルを用いて画像をエンコードする方法の研究によって、画像キャプションが大幅に進歩した。 これには視覚的エンコーディング(画像グリッド機能や検出されたオブジェクトなど)や、より最近のテキストエンコーディング(画像タグや画像領域のテキスト記述など)が含まれる。 より高度なエンコーディングが利用可能で、組み込まれているため、いかに効率良く効果的にエンコーディングのセットを活用するかという質問は自然である。 本稿では,エンコーディングを入力画像の拡張ビューとして捉えることを提案する。 画像キャプションモデルは、共有エンコーダと独立して各ビューを符号化し、その表示品質とモデルのデータ効率を向上する新規な方法で、符号化されたビューにコントラスト損失を組み込む。 提案する階層デコーダは,まずトークンレベルで各ビュー内を集約し,次にビューレベルでのビューを横断することにより,キャプション生成の有効性に応じて,符号化されたビューを適応的に評価する。 ms-cocoで+5.6%、flickr30kで+12.9%、state of the artsで+5.6%、そして厳密な分析を行い、デザインの各部分の重要性を実証した。

A great deal of progress has been made in image captioning, driven by research into how to encode the image using pre-trained models. This includes visual encodings (e.g. image grid features or detected objects) and more recently textual encodings (e.g. image tags or text descriptions of image regions). As more advanced encodings are available and incorporated, it is natural to ask: how to efficiently and effectively leverage the heterogeneous set of encodings? In this paper, we propose to regard the encodings as augmented views of the input image. The image captioning model encodes each view independently with a shared encoder efficiently, and a contrastive loss is incorporated across the encoded views in a novel way to improve their representation quality and the model's data efficiency. Our proposed hierarchical decoder then adaptively weighs the encoded views according to their effectiveness for caption generation by first aggregating within each view at the token level, and then across views at the view level. We demonstrate significant performance improvements of +5.6% CIDEr on MS-COCO and +12.9% CIDEr on Flickr30k compared to state of the arts, and conduct rigorous analyses to demonstrate the importance of each part of our design.
翻訳日:2023-05-26 13:23:20 公開日:2023-05-25
# シャープネスを意識した最小化が低ランク機能に

Sharpness-Aware Minimization Leads to Low-Rank Features ( http://arxiv.org/abs/2305.16292v1 )

ライセンス: Link先を確認
Maksym Andriushchenko, Dara Bahri, Hossein Mobahi, Nicolas Flammarion(参考訳) シャープネス認識最小化(sam)は、ニューラルネットワークのトレーニング損失のシャープネスを最小化する最近提案された手法である。 一般化の改善はよく知られており、主要な動機となっているが、SAMのさらなる興味深い効果は、ニューラルネットワークの異なる層で起こる特徴ランクの減少である。 完全接続ネットワーク,畳み込みネットワーク,視覚トランスフォーマーなどの異なるアーキテクチャと,回帰,分類,言語と画像のコントラストトレーニングといった異なる目的に対して,この低ランク効果が極めて広く起こることが示されている。 この現象をよりよく理解するために、単純な2層ネットワークにおいて低ランクな特徴がどのように生じるのかを機械論的に理解する。 我々は, SAMによってかなりの数のアクティベーションが完全に切断され, ランクの減少に直接寄与することが観察された。 この効果を理論的に確認し,ディープネットワークでも発生可能であることを確かめる。しかし,全体的なランク低減機構はより複雑であり,特に事前活性化スキップ接続と自己接続層を有するディープネットワークの場合である。 コードはhttps://github.com/tml-epfl/sam-low-rank-featuresで利用可能です。

Sharpness-aware minimization (SAM) is a recently proposed method that minimizes the sharpness of the training loss of a neural network. While its generalization improvement is well-known and is the primary motivation, we uncover an additional intriguing effect of SAM: reduction of the feature rank which happens at different layers of a neural network. We show that this low-rank effect occurs very broadly: for different architectures such as fully-connected networks, convolutional networks, vision transformers and for different objectives such as regression, classification, language-image contrastive training. To better understand this phenomenon, we provide a mechanistic understanding of how low-rank features arise in a simple two-layer network. We observe that a significant number of activations gets entirely pruned by SAM which directly contributes to the rank reduction. We confirm this effect theoretically and check that it can also occur in deep networks, although the overall rank reduction mechanism can be more complex, especially for deep networks with pre-activation skip connections and self-attention layers. We make our code available at https://github.com/tml-epfl/sam-low-rank-features.
翻訳日:2023-05-26 13:22:56 公開日:2023-05-25
# Voyager: 大規模言語モデルを備えたオープンエンベッド型エージェント

Voyager: An Open-Ended Embodied Agent with Large Language Models ( http://arxiv.org/abs/2305.16291v1 )

ライセンス: Link先を確認
Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar(参考訳) LLMを用いた最初の生涯学習エージェントであるVoyagerを紹介した。これはMinecraftにおいて、世界を継続的に探索し、多様なスキルを習得し、人間の介入なしに新しい発見を行う。 voyagerは3つの重要なコンポーネントで構成されている。 1)探索を最大化する自動カリキュラム 2)複雑な行動の保存及び検索のための実行可能なコードの継続的な成長スキルライブラリ。 3)環境フィードバック,実行エラー,プログラム改善のための自己検証を含む,新たな反復的プロンプト機構。 Voyagerはブラックボックスクエリを通じてGPT-4と対話し、モデルパラメータの微調整の必要性を回避している。 ボイジャーによって開発されたスキルは時間的に拡張され、解釈され、構成され、エージェントの能力は急速に複合され、破滅的な忘れを和らげる。 実証的に、Voyagerはコンテキスト内での生涯学習能力を示し、Minecraftの演奏に非常に優れた能力を示している。 3.3倍のユニークなアイテムを入手し、2.3倍長い距離を移動し、主要な技術ツリーのマイルストーンを以前のSOTAよりも15.3倍速くアンロックする。 Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを使って、新しいタスクをゼロから解決し、他のテクニックは一般化に苦慮している。 私たちは完全なコードベースをオープンソース化し、https://voyager.minedojo.org/でプロンプトします。

We introduce Voyager, the first LLM-powered embodied lifelong learning agent in Minecraft that continuously explores the world, acquires diverse skills, and makes novel discoveries without human intervention. Voyager consists of three key components: 1) an automatic curriculum that maximizes exploration, 2) an ever-growing skill library of executable code for storing and retrieving complex behaviors, and 3) a new iterative prompting mechanism that incorporates environment feedback, execution errors, and self-verification for program improvement. Voyager interacts with GPT-4 via blackbox queries, which bypasses the need for model parameter fine-tuning. The skills developed by Voyager are temporally extended, interpretable, and compositional, which compounds the agent's abilities rapidly and alleviates catastrophic forgetting. Empirically, Voyager shows strong in-context lifelong learning capability and exhibits exceptional proficiency in playing Minecraft. It obtains 3.3x more unique items, travels 2.3x longer distances, and unlocks key tech tree milestones up to 15.3x faster than prior SOTA. Voyager is able to utilize the learned skill library in a new Minecraft world to solve novel tasks from scratch, while other techniques struggle to generalize. We open-source our full codebase and prompts at https://voyager.minedojo.org/.
翻訳日:2023-05-26 13:22:34 公開日:2023-05-25
# 自動拡散に基づく拡張によるビジョンデータセットの多様化

Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation ( http://arxiv.org/abs/2305.16289v1 )

ライセンス: Link先を確認
Lisa Dunlap, Alyssa Umino, Han Zhang, Jiezhi Yang, Joseph E. Gonzalez, Trevor Darrell(参考訳) 希少な動物識別のような粒度の細かい分類タスクは訓練データに制限があるため、これらのデータセットで訓練された分類器は、天候や位置の変化のような領域のバリエーションに一般化できないことが多い。 そこで本研究では,トレーニングデータに現れるドメインの自然言語記述を,さまざまな事前学習データセットに基づいてトレーニングされた大規模ビジョンモデルを用いて,トレーニングデータの有用なバリエーションを生成する方法について検討する。 ALIA(Automated Language-Guided Image Augmentation)は,大規模ビジョンと言語モデルを用いて,データセットのドメインの自然言語記述を自動的に生成し,言語誘導画像編集によるトレーニングデータの拡張を行う手法である。 データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。 その結果得られたデータセットは、元のトレーニングデータと視覚的に一致し、ダイバーシティが大幅に向上します。 分類と検出のための細粒度で散らばったデータセットでは、ALIAは従来のデータ拡張とテキストから画像までの生成データを最大15倍に超え、多くの場合、実際のデータの同等な付加よりも優れています。 コードはhttps://github.com/lisadunlap/alia。

Many fine-grained classification tasks, like rare animal identification, have limited training data and consequently classifiers trained on these datasets often fail to generalize to variations in the domain like changes in weather or location. As such, we explore how natural language descriptions of the domains seen in training data can be used with large vision models trained on diverse pretraining datasets to generate useful variations of the training data. We introduce ALIA (Automated Language-guided Image Augmentation), a method which utilizes large vision and language models to automatically generate natural language descriptions of a dataset's domains and augment the training data via language-guided image editing. To maintain data integrity, a model trained on the original dataset filters out minimal image edits and those which corrupt class-relevant information. The resulting dataset is visually consistent with the original training data and offers significantly enhanced diversity. On fine-grained and cluttered datasets for classification and detection, ALIA surpasses traditional data augmentation and text-to-image generated data by up to 15\%, often even outperforming equivalent additions of real data. Code is avilable at https://github.com/lisadunlap/ALIA.
翻訳日:2023-05-26 13:22:11 公開日:2023-05-25
# dowg unleashed:効率的なパラメータフリー勾配降下法

DoWG Unleashed: An Efficient Universal Parameter-Free Gradient Descent Method ( http://arxiv.org/abs/2305.16284v1 )

ライセンス: Link先を確認
Ahmed Khaled and Konstantin Mishchenko and Chi Jin(参考訳) 本稿では,パラメータフリー勾配型最適化器DoWG(Distance over Weighted Gradients)を提案する。 凸最適化における最適調整勾配勾配勾配の収束率をパラメータを調整せずに対数係数に一致させ、スムーズな問題と非滑らかな問題の両方に自動的に適応させることを証明した。 AdaGrad、Adam、DoGといった一般的なアルゴリズムは2乗勾配のランニング平均を計算するが、DoWGはランニング平均の新しい距離ベース重み付きバージョンを維持しており、所望の特性を達成するのに不可欠である。 我々の知る限り、DoWGは、バックトラック検索手順を必要としない最初のパラメータフリーで効率的で普遍的なアルゴリズムである。 また、スムーズな最適化に適応する最初のパラメータフリーなAdaGradスタイルのアルゴリズムでもある。 また,本理論を補完するために,DoWGが安定性の限界に到達したことを実証的に示し,実践的な機械学習タスクの有効性を検証した。 本稿では, AdaGrad のアルゴリズム成功の背景となる原理を, NGD がスムーズさに適応することを示す正規化グラディエント Descent (NGD) の新たな解析によって明らかにする。 これはNGDの普遍性を確立し、標準勾配降下よりもはるかに一般的な設定で安定の端で訓練するという経験的観察を部分的に説明する。 後者はコミュニティにとって独立した関心事かもしれない。

This paper proposes a new easy-to-implement parameter-free gradient-based optimizer: DoWG (Distance over Weighted Gradients). We prove that DoWG is efficient -- matching the convergence rate of optimally tuned gradient descent in convex optimization up to a logarithmic factor without tuning any parameters, and universal -- automatically adapting to both smooth and nonsmooth problems. While popular algorithms such as AdaGrad, Adam, or DoG compute a running average of the squared gradients, DoWG maintains a new distance-based weighted version of the running average, which is crucial to achieve the desired properties. To our best knowledge, DoWG is the first parameter-free, efficient, and universal algorithm that does not require backtracking search procedures. It is also the first parameter-free AdaGrad style algorithm that adapts to smooth optimization. To complement our theory, we also show empirically that DoWG trains at the edge of stability, and validate its effectiveness on practical machine learning tasks. This paper further uncovers the underlying principle behind the success of the AdaGrad family of algorithms by presenting a novel analysis of Normalized Gradient Descent (NGD), that shows NGD adapts to smoothness when it exists, with no change to the stepsize. This establishes the universality of NGD and partially explains the empirical observation that it trains at the edge of stability in a much more general setup compared to standard gradient descent. The latter might be of independent interest to the community.
翻訳日:2023-05-26 13:21:48 公開日:2023-05-25
# CommonScenes: シーングラフによるCommonsense 3D屋内シーンの生成

CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graphs ( http://arxiv.org/abs/2305.16283v1 )

ライセンス: Link先を確認
Guangyao Zhai, Evin Pinar \"Ornek, Shun-Cheng Wu, Yan Di, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) 制御可能なシーン合成は,様々な産業用途を対象とした対話型環境の構築を目的としている。 シーングラフは、シーンコンテキストをコンパクトに抽象化することでこれらのアプリケーションを容易にするのに非常に適したインターフェースを提供する。 既存の手法は、広範囲のデータベースや事前学習された形状埋め込みからの検索に依存しており、しばしばシーン-オブジェクトとオブジェクト-オブジェクトの関係を見落としている。 この問題に対処するため,我々は,シーングラフを対応する制御可能な3dシーンに変換する完全生成モデルであるcommonscenesを提案する。 我々のパイプラインは2つの枝から構成されており、1つは変分オートエンコーダで全体のシーンレイアウトを予測し、もう1つは潜時拡散により互換性のある形状を生成する。 生成したシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作できる。 高品質なオブジェクトレベルのメッシュと関係性を提供するシーングラフデータセットが欠如しているため、SG-FRONTを構築することで、既製の屋内データセット3D-FRONTを付加的なシーングラフラベルで強化する。 SG-FRONTでは、生成一貫性、品質、多様性に関する他の手法に対して、CommonScenesが明確な優位性を示す。 コードとデータセットは受け入れ時にリリースされる。

Controllable scene synthesis aims to create interactive environments for various industrial use cases. Scene graphs provide a highly suitable interface to facilitate these applications by abstracting the scene context in a compact manner. Existing methods, reliant on retrieval from extensive databases or pre-trained shape embeddings, often overlook scene-object and object-object relationships, leading to inconsistent results due to their limited generation capacity. To address this issue, we present CommonScenes, a fully generative model that converts scene graphs into corresponding controllable 3D scenes, which are semantically realistic and conform to commonsense. Our pipeline consists of two branches, one predicting the overall scene layout via a variational auto-encoder and the other generating compatible shapes via latent diffusion, capturing global scene-object and local inter-object relationships while preserving shape diversity. The generated scenes can be manipulated by editing the input scene graph and sampling the noise in the diffusion model. Due to lacking a scene graph dataset offering high-quality object-level meshes with relations, we also construct SG-FRONT, enriching the off-the-shelf indoor dataset 3D-FRONT with additional scene graph labels. Extensive experiments are conducted on SG-FRONT where CommonScenes shows clear advantages over other methods regarding generation consistency, quality, and diversity. Codes and the dataset will be released upon acceptance.
翻訳日:2023-05-26 13:21:21 公開日:2023-05-25
# モノリシック3次元ナノブリッジ接合を用いたニオブ量子干渉マイクロ波回路

Niobium Quantum Interference Microwave Circuits with Monolithic Three-Dimensional (3D) Nanobridge Junctions ( http://arxiv.org/abs/2305.16276v1 )

ライセンス: Link先を確認
Kevin Uhl, Daniel Hackenbeck, Janis Peter, Reinhold Kleiner, Dieter Koelle, and Daniel Bothner(参考訳) 非線形マイクロ波回路は、量子計算や量子センシングなど、多くの画期的な研究方向や技術にとって重要な要素である。 ヨシフソン非線形性を持つマイクロ波回路の大部分はアルミニウム薄膜に基づいており、温度や外部磁場に関する動作範囲が厳しく制限されている。 本稿では,3次元ナノブリッジ型超伝導量子干渉デバイスを用いた超伝導ニオブマイクロ波共振器の実現について述べる。 3Dナノブリッジ(収縮弱リンク)は、ネオンイオンビームミリングを用いてプリファブリックマイクロ波LC回路にモノリシックにパターン化され、結果として生じる量子干渉回路は、同等のアルミニウムナノブリッジデバイスと同等の周波数調整性、フラックス応答性、カー非線形性を示す。 この結果は、マグノンやスピンアンサンブルなどのハイブリッドシステムや、フラックスを媒介とする光学系にこれらの回路を適用する大きな可能性を明らかにする。

Nonlinear microwave circuits are key elements for many groundbreaking research directions and technologies, such as quantum computation and quantum sensing. The majority of microwave circuits with Josephson nonlinearities to date is based on aluminum thin films, and therefore they are severely restricted in their operation range regarding temperatures and external magnetic fields. Here, we present the realization of superconducting niobium microwave resonators with integrated, three-dimensional (3D) nanobridge-based superconducting quantum interference devices. The 3D nanobridges (constriction weak links) are monolithically patterned into pre-fabricated microwave LC circuits using neon ion beam milling, and the resulting quantum interference circuits show frequency tunabilities, flux responsivities and Kerr nonlinearities on par with comparable aluminum nanobridge devices, but with the perspective of a much larger operation parameter regime. Our results reveal great potential for application of these circuits in hybrid systems with e.g. magnons and spin ensembles or in flux-mediated optomechanics.
翻訳日:2023-05-26 13:20:53 公開日:2023-05-25
# CENSUS-HWR:オフライン手書き認識のための大規模なトレーニングデータセット

CENSUS-HWR: a large training dataset for offline handwriting recognition ( http://arxiv.org/abs/2305.16275v1 )

ライセンス: Link先を確認
Chetan Joshi and Lawry Sorenson and Ammon Wolfert and Dr. Mark Clement and Dr. Joseph Price and Dr. Kasey Buckles(参考訳) 手書き自動認識の進歩は、大規模なトレーニングデータセットの欠如によって妨げられている。 ほぼすべての研究は、モデルに過度に適合させる小さなデータセットを使用する。 CENSUS-HWRは,1,812,014のグレースケール画像中の全英語手書き文字からなる新しいデータセットである。 このコレクションには英語で10,711語の語彙から1,865,134個の手書きテキストが存在している。 このデータセットは、ディープラーニングアルゴリズムのベンチマークとして手書きモデルを提供することを意図している。 この巨大な英語の筆跡認識データセットは、1930年と1940年の国勢調査から毎年70,000人の列挙者によって抽出されている。 データセットとトレーニングされたモデルの重量は、https://censustree.org/data.htmlで無料でダウンロードできる。

Progress in Automated Handwriting Recognition has been hampered by the lack of large training datasets. Nearly all research uses a set of small datasets that often cause models to overfit. We present CENSUS-HWR, a new dataset consisting of full English handwritten words in 1,812,014 gray scale images. A total of 1,865,134 handwritten texts from a vocabulary of 10,711 words in the English language are present in this collection. This dataset is intended to serve handwriting models as a benchmark for deep learning algorithms. This huge English handwriting recognition dataset has been extracted from the US 1930 and 1940 censuses taken by approximately 70,000 enumerators each year. The dataset and the trained model with their weights are freely available to download at https://censustree.org/data.html.
翻訳日:2023-05-26 13:20:31 公開日:2023-05-25
# Break-A-Scene: 単一画像から複数の概念を抽出する

Break-A-Scene: Extracting Multiple Concepts from a Single Image ( http://arxiv.org/abs/2305.16311v1 )

ライセンス: Link先を確認
Omri Avrahami, Kfir Aberman, Ohad Fried, Daniel Cohen-Or, Dani Lischinski(参考訳) テキストから画像へのパーソナライゼーションは、モデルにユーザが提供する概念を導入することを目的としている。 しかし、現在の手法は主に背景やポーズの異なる複数の画像から単一の概念を学ぶこと、異なるシナリオに適応する場合に苦労することに焦点を当てている。 本研究は,複数の概念を含むシーンの1つの画像が与えられた場合,それぞれの概念に対して個別のテキストトークンを抽出し,生成されたシーンのきめ細かい制御を可能にすることを目的としている。 そこで本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。 これらのマスクは、ユーザーが提供したり、事前訓練されたセグメンテーションモデルで自動生成することができる。 次に,テキスト埋め込み(ハンドル)の集合とモデルウェイトを最適化し,概念を正確に捉えることと過度な適合を避けることの間の微妙なバランスを打つ2段階のカスタマイズプロセスを提案する。 クロス・アテンション・マップの新たな損失により、ハンドルに割り当てられた概念を生成させ、絡み合いを防止するためにマスク付き拡散損失を用いる。 また,生成画像に複数の概念を結合する能力を向上させるためのトレーニング戦略であるunion-samplingについても紹介する。 提案手法を複数のベースラインと定量的に比較するために,複数の自動測定値を用い,ユーザスタディを用いてさらに検証を行った。 最後に,本手法の応用例をいくつか紹介する。 プロジェクトページは: https://omriavrahami.com/break-a-scene/

Text-to-image model personalization aims to introduce a user-provided concept to the model, allowing its synthesis in diverse contexts. However, current methods primarily focus on the case of learning a single concept from multiple images with variations in backgrounds and poses, and struggle when adapted to a different scenario. In this work, we introduce the task of textual scene decomposition: given a single image of a scene that may contain several concepts, we aim to extract a distinct text token for each concept, enabling fine-grained control over the generated scenes. To this end, we propose augmenting the input image with masks that indicate the presence of target concepts. These masks can be provided by the user or generated automatically by a pre-trained segmentation model. We then present a novel two-phase customization process that optimizes a set of dedicated textual embeddings (handles), as well as the model weights, striking a delicate balance between accurately capturing the concepts and avoiding overfitting. We employ a masked diffusion loss to enable handles to generate their assigned concepts, complemented by a novel loss on cross-attention maps to prevent entanglement. We also introduce union-sampling, a training strategy aimed to improve the ability of combining multiple concepts in generated images. We use several automatic metrics to quantitatively compare our method against several baselines, and further affirm the results using a user study. Finally, we showcase several applications of our method. Project page is available at: https://omriavrahami.com/break-a-scene/
翻訳日:2023-05-26 13:15:27 公開日:2023-05-25
# ユニバーサル・ディバイザ・シグナチャによる深部生成モデルの確保

Securing Deep Generative Models with Universal Adversarial Signature ( http://arxiv.org/abs/2305.16310v1 )

ライセンス: Link先を確認
Yu Zeng, Mo Zhou, Yuan Xue, Vishal M. Patel(参考訳) 近年の深層生成モデルの進歩により、高品質でリアルな画像を合成できる手法が開発されている。 これらのモデルは、潜在的な誤用のために社会に脅威をもたらす。 以前の研究は、生成された画像を検出することでこれらの脅威を軽減しようとしたが、異なる生成モデルが残した様々な痕跡は、新しい未知の生成モデルに一般化できる普遍的検出器を作ることを困難にしている。 本稿では,任意の事前学習された生成モデルに普遍的逆数シグネチャを注入して,生成したコンテンツをより検出し,追跡できるようにする。 まず、各画像に対する不可避な最適シグネチャは、敵対的なトレーニングを通じてシグネチャインジェクタによって見つけることができる。 その後、シグネチャインジェクタによって処理された画像で微調整することで、シグネチャを任意のジェネレータに組み込むことができる。 このようにして、署名に対応する検出器は、ジェネレータのアイデンティティを追跡するための微調整されたジェネレータに再利用することができる。 提案手法はffhqおよびimagenetデータセット上で様々な最先端生成モデルを用いて検証され,常に有望な検出率を示す。 コードは \url{https://github.com/zengxianyu/genwm} で公開される。

Recent advances in deep generative models have led to the development of methods capable of synthesizing high-quality, realistic images. These models pose threats to society due to their potential misuse. Prior research attempted to mitigate these threats by detecting generated images, but the varying traces left by different generative models make it challenging to create a universal detector capable of generalizing to new, unseen generative models. In this paper, we propose to inject a universal adversarial signature into an arbitrary pre-trained generative model, in order to make its generated contents more detectable and traceable. First, the imperceptible optimal signature for each image can be found by a signature injector through adversarial training. Subsequently, the signature can be incorporated into an arbitrary generator by fine-tuning it with the images processed by the signature injector. In this way, the detector corresponding to the signature can be reused for any fine-tuned generator for tracking the generator identity. The proposed method is validated on the FFHQ and ImageNet datasets with various state-of-the-art generative models, consistently showing a promising detection rate. Code will be made publicly available at \url{https://github.com/zengxianyu/genwm}.
翻訳日:2023-05-26 13:15:00 公開日:2023-05-25
# 振動子変圧器によるタスクの模倣と動作計画

Imitating Task and Motion Planning with Visuomotor Transformers ( http://arxiv.org/abs/2305.16309v1 )

ライセンス: Link先を確認
Murtaza Dalal, Ajay Mandlekar, Caelan Garrett, Ankur Handa, Ruslan Salakhutdinov, Dieter Fox(参考訳) 模倣学習はロボット操作ポリシーをトレーニングするための強力なツールであり、手動プログラミングや試行錯誤なしに専門家によるデモンストレーションから学ぶことができる。 しかし、人間の監督のような一般的なデータ収集方法は、時間と労力がかかるため、スケールが貧弱である。 対照的に、タスク・アンド・モーション・プランニング(TAMP)は多様なデモンストレーションの大規模なデータセットを自律的に生成できる。 本研究では,tampスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせがロボット操作の強力なパラダイムであることを示す。 そこで本研究では,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する,OPTIMUSと呼ばれる新しい模倣学習システムを提案する。 OPTIMUSは、模倣学習用に特別にキュレートされたTAMPデータを生成するパイプラインを導入し、パフォーマンストランスフォーマーベースのポリシーのトレーニングに使用することができる。 本稿では,TAMP を模倣するために必要な設計上の決定を徹底的に検討し,OPTIMUS が70 以上の物体から70 以上の物体を対象とし,70 から80% の成功率を達成できることを示す。 https://mihdalal.github.io/optimus/

Imitation learning is a powerful tool for training robot manipulation policies, allowing them to learn from expert demonstrations without manual programming or trial-and-error. However, common methods of data collection, such as human supervision, scale poorly, as they are time-consuming and labor-intensive. In contrast, Task and Motion Planning (TAMP) can autonomously generate large-scale datasets of diverse demonstrations. In this work, we show that the combination of large-scale datasets generated by TAMP supervisors and flexible Transformer models to fit them is a powerful paradigm for robot manipulation. To that end, we present a novel imitation learning system called OPTIMUS that trains large-scale visuomotor Transformer policies by imitating a TAMP agent. OPTIMUS introduces a pipeline for generating TAMP data that is specifically curated for imitation learning and can be used to train performant transformer-based policies. In this paper, we present a thorough study of the design decisions required to imitate TAMP and demonstrate that OPTIMUS can solve a wide variety of challenging vision-based manipulation tasks with over 70 different objects, ranging from long-horizon pick-and-place tasks, to shelf and articulated object manipulation, achieving 70 to 80% success rates. Video results at https://mihdalal.github.io/optimus/
翻訳日:2023-05-26 13:14:41 公開日:2023-05-25
# 分布シフトの説明における群不規則性

Rectifying Group Irregularities in Explanations for Distribution Shift ( http://arxiv.org/abs/2305.16308v1 )

ライセンス: Link先を確認
Adam Stein, Yinjun Wu, Eric Wong, Mayur Naik(参考訳) 分布シフトを構成する実世界の変化がモデル性能に悪影響を及ぼすことはよく知られている。 これらの変化を解釈可能な方法で特徴づける方法は理解されていない。 この問題に対処する既存の手法は、これらの2つの分布間の格差を減らし、元の分布からシフトした分布へサンプルをマッピングする方法を解明するシフト説明の形式をとる。 しかし、これらの手法は群の不規則性を導入し、実現不可能で堅牢な説明につながる。 これらの問題に対処するために,グループ認識シフト説明(gse,group-aware shift explanations)を提案する。 本稿では,GSEが人口構造や階層的なサブポピュレーションなどのグループ構造を維持できるだけでなく,表や言語,画像設定の多岐にわたる説明において,実現可能性や堅牢性を高めることを実証する。

It is well-known that real-world changes constituting distribution shift adversely affect model performance. How to characterize those changes in an interpretable manner is poorly understood. Existing techniques to address this problem take the form of shift explanations that elucidate how to map samples from the original distribution toward the shifted one by reducing the disparity between these two distributions. However, these methods can introduce group irregularities, leading to explanations that are less feasible and robust. To address these issues, we propose Group-aware Shift Explanations (GSE), a method that produces interpretable explanations by leveraging worst-group optimization to rectify group irregularities. We demonstrate how GSE not only maintains group structures, such as demographic and hierarchical subpopulations, but also enhances feasibility and robustness in the resulting explanations in a wide range of tabular, language, and image settings.
翻訳日:2023-05-26 13:14:16 公開日:2023-05-25
# IndicTrans2:22言語すべてを対象とした高品質・アクセシブル機械翻訳モデル

IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages ( http://arxiv.org/abs/2305.16307v1 )

ライセンス: Link先を確認
AI4Bharat and Jay Gala and Pranjal A. Chitale and Raghavan AK and Sumanth Doddapaneni and Varun Gumma and Aswanth Kumar and Janki Nawale and Anupama Sujatha and Ratish Puduppully and Vivek Raghavan and Pratyush Kumar and Mitesh M. Khapra and Raj Dabre and Anoop Kunchukuttan(参考訳) インドは10億人を超える人々が話す4つの主要な言語ファミリーの言語を持つ豊かな言語環境を持っている。 これらの言語のうち22言語はインド憲法(予定言語)に記載されており、この研究の焦点となっている。 言語の多様性を考えると、インドのような国では高品質でアクセスしやすい機械翻訳(mt)システムが不可欠である。 この作業の前には、 (i)22言語にまたがる並列トレーニングデータはない。 (ii)これらの言語をすべてカバーし、インドに関連する内容を含む堅牢なベンチマークは存在せず、 (3)インドの22の予定言語すべてをサポートする既存の翻訳モデルはない。 本研究は,22言語すべてを対象とした機械翻訳システムへの,広範かつ容易かつオープンなアクセスを可能にするために必要な欠片に着目して,このギャップに対処することを目的とする。 より大きなトレーニングデータセットのキュレーションと作成、多様で高品質なベンチマークの作成、多言語モデルのトレーニング、オープンアクセスモデルのリリースの4つです。 bharat parallel corpus collection (bpcc) は、indic 言語で利用可能な最大のパラレルコーパスである。 bpccには合計230mのバイテキストペアが含まれており、そのうち644kの手動翻訳文ペアを含む合計116mが新たに追加された。 第2のコントリビューションは、さまざまなドメイン、インドオリジンコンテンツ、ソース元のテストセットを特徴とする、22言語すべてをカバーする最初のn-way並列ベンチマークのリリースです。 次に、22言語すべてをサポートする最初のモデルであるIndicTrans2を紹介します。 最後に、アクセシビリティとコラボレーションを促進するために、我々のモデルと関連するデータをhttps://github.com/ai4bharat/IndicTrans2でパーミッシブライセンスでリリースします。

India has a rich linguistic landscape with languages from 4 major language families spoken by over a billion people. 22 of these languages are listed in the Constitution of India (referred to as scheduled languages) are the focus of this work. Given the linguistic diversity, high-quality and accessible Machine Translation (MT) systems are essential in a country like India. Prior to this work, there was (i) no parallel training data spanning all the 22 languages, (ii) no robust benchmarks covering all these languages and containing content relevant to India, and (iii) no existing translation models which support all the 22 scheduled languages of India. In this work, we aim to address this gap by focusing on the missing pieces required for enabling wide, easy, and open access to good machine translation systems for all 22 scheduled Indian languages. We identify four key areas of improvement: curating and creating larger training datasets, creating diverse and high-quality benchmarks, training multilingual models, and releasing models with open access. Our first contribution is the release of the Bharat Parallel Corpus Collection (BPCC), the largest publicly available parallel corpora for Indic languages. BPCC contains a total of 230M bitext pairs, of which a total of 126M were newly added, including 644K manually translated sentence pairs created as part of this work. Our second contribution is the release of the first n-way parallel benchmark covering all 22 Indian languages, featuring diverse domains, Indian-origin content, and source-original test sets. Next, we present IndicTrans2, the first model to support all 22 languages, surpassing existing models on multiple existing and new benchmarks created as a part of this work. Lastly, to promote accessibility and collaboration, we release our models and associated data with permissive licenses at https://github.com/ai4bharat/IndicTrans2.
翻訳日:2023-05-26 13:13:59 公開日:2023-05-25
# デュアルマルチモーダルエンコーダを用いた合成画像検索のための候補セット再ランク付け

Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder ( http://arxiv.org/abs/2305.16304v1 )

ライセンス: Link先を確認
Zheyuan Liu, Weixuan Sun, Damien Teney, Stephen Gould(参考訳) 合成画像検索は、参照画像とテキストペアからなる所定のマルチモーダルユーザクエリに最もよく一致する画像を見つけることを目的としている。 既存の手法では、コーパス全体に画像埋め込みをプリコンプリートし、これらをテスト時にクエリテキストによって修正された参照画像埋め込みと比較する。 このようなパイプラインはテスト時に非常に効率的であり、高速なベクトル距離を使って候補を評価することができるが、短いテキスト記述のみでガイドされた参照画像の埋め込みを変更することは、特に候補とは無関係に難しい。 別のアプローチとして、クエリと可能なすべての候補、すなわち参照-テキスト-候補トリプレット間のインタラクションを許可し、セット全体からベストを選択する方法がある。 このアプローチはより差別的であるが、大規模データセットでは、候補埋め込みの事前計算がもはや不可能であるため、計算コストは禁じられている。 二段階モデルを用いて,両スキームのメリットを組み合わせることを提案する。 第1段階では, 従来のベクトル分散メトリックを採用し, 候補間の高速刈り取りを行う。 一方,第2段階では,参照テキスト候補の入力三重項に効果的に対応し,候補を再ランク付けするデュアルエンコーダアーキテクチャを採用している。 どちらの段階も視覚と言語による事前学習ネットワークを利用しており、様々な下流タスクに有益であることが証明されている。 我々の手法はタスクの標準ベンチマークにおける最先端のアプローチよりも一貫して優れている。

Composed image retrieval aims to find an image that best matches a given multi-modal user query consisting of a reference image and text pair. Existing methods commonly pre-compute image embeddings over the entire corpus and compare these to a reference image embedding modified by the query text at test time. Such a pipeline is very efficient at test time since fast vector distances can be used to evaluate candidates, but modifying the reference image embedding guided only by a short textual description can be difficult, especially independent of potential candidates. An alternative approach is to allow interactions between the query and every possible candidate, i.e., reference-text-candidate triplets, and pick the best from the entire set. Though this approach is more discriminative, for large-scale datasets the computational cost is prohibitive since pre-computation of candidate embeddings is no longer possible. We propose to combine the merits of both schemes using a two-stage model. Our first stage adopts the conventional vector distancing metric and performs a fast pruning among candidates. Meanwhile, our second stage employs a dual-encoder architecture, which effectively attends to the input triplet of reference-text-candidate and re-ranks the candidates. Both stages utilize a vision-and-language pre-trained network, which has proven beneficial for various downstream tasks. Our method consistently outperforms state-of-the-art approaches on standard benchmarks for the task.
翻訳日:2023-05-26 13:13:28 公開日:2023-05-25
# 2次元格子上のマルチエージェントパスの微細粒度解析

Fine-Grained Complexity Analysis of Multi-Agent Path Finding on 2D Grids ( http://arxiv.org/abs/2305.16303v1 )

ライセンス: Link先を確認
Tzvika Geft(参考訳) MAPF(Multi-Agent Path Finding)は、多エージェントシステムにおける動作調整の基本的な問題である。 問題の難易度は、解決者のスケーラビリティを改善するための広範な研究に繋がった。 最適解法はスケールに苦しむことができるため、MAPFの難しさを理解することが大きな課題となる。 2次元格子上での時間最適MAPFの微細な複雑性解析により、この課題に対処し、2つのギャップを閉じ、新たなトラクタビリティフロンティアを同定する。 まず,2色のMAPF,すなわちエージェントが2つのチームに分けられ,それぞれがそれぞれのターゲットを持つ場合,NPハードのままであることを示す。 第二に、フロータイムの目的(コスト総和とも呼ばれる)について、エージェントが個別に最適なコストを持つソリューションを見つけることはnp困難であり、これを個別に最適なソリューションと呼ぶ。 これらのMAPF変種に対する最も厳密な結果は(非グリッド)平面グラフに対するものである。 私たちは、以前の証明を置き換え、強化し、統一する単一の硬さ構成を使います。 平面ケースの証明も従来のものよりも簡単で、最小限のガジェットを使って1つの図で完全に視覚化できると考えている。 最後に, フロータイムの目的に対して, エージェントの移動可能な方向数に基づく移動性フロンティアを確立する。 すなわち, 2つの方向のみを許せば, 個別に最適な解を求める効率的なアルゴリズムで, 3つの方向を保持する硬さを補完する。 この結果は最適解の構造に新しい光を当て、一般的な問題に対するアルゴリズム設計を導くのに役立つかもしれない。

Multi-Agent Path Finding (MAPF) is a fundamental motion coordination problem arising in multi-agent systems with a wide range of applications. The problem's intractability has led to extensive research on improving the scalability of solvers for it. Since optimal solvers can struggle to scale, a major challenge that arises is understanding what makes MAPF hard. We tackle this challenge through a fine-grained complexity analysis of time-optimal MAPF on 2D grids, thereby closing two gaps and identifying a new tractability frontier. First, we show that 2-colored MAPF, i.e., where the agents are divided into two teams, each with its own set of targets, remains NP-hard. Second, for the flowtime objective (also called sum-of-costs), we show that it remains NP-hard to find a solution in which agents have an individually optimal cost, which we call an individually optimal solution. The previously tightest results for these MAPF variants are for (non-grid) planar graphs. We use a single hardness construction that replaces, strengthens, and unifies previous proofs. We believe that it is also simpler than previous proofs for the planar case as it employs minimal gadgets that enable its full visualization in one figure. Finally, for the flowtime objective, we establish a tractability frontier based on the number of directions agents can move in. Namely, we complement our hardness result, which holds for three directions, with an efficient algorithm for finding an individually optimal solution if only two directions are allowed. This result sheds new light on the structure of optimal solutions, which may help guide algorithm design for the general problem.
翻訳日:2023-05-26 13:13:05 公開日:2023-05-25
# 低リソース言語における回答文選択のための言語間知識蒸留

Cross-Lingual Knowledge Distillation for Answer Sentence Selection in Low-Resource Languages ( http://arxiv.org/abs/2305.16302v1 )

ライセンス: Link先を確認
Shivanshu Gupta, Yoshitomo Matsubara, Ankit Chadha, Alessandro Moschitti(参考訳) 英語のAnswer Sentence Selection(AS2)のタスクでは、印象的なパフォーマンスが達成されているが、大きなラベル付きデータセットが欠けている言語では、同じことが当てはまらない。 本研究では,低リソース言語用AS2モデルを目標言語用ラベル付きデータなしで学習する手法として,強い英語のAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。 この方法を評価するために 1) Xtr-WikiQA - 9つの追加言語のための翻訳ベースのウィキQAデータセット。 2)TyDi-AS2は8つの言語にまたがる70K以上の質問を持つ多言語AS2データセットである。 複数の教師によるXtr-WikiQAとTyDi-AS2の広範な実験を行い、学生として多言語・多言語事前学習言語モデル(PLM)、単言語・多言語両方の訓練を行った。 その結果,CLKDは,同じラベル付きデータと,機械翻訳と教師モデルを組み合わせた微調整を指導している。 一方,TyDi-AS2は研究コミュニティのさらなる研究のための多言語AS2データセットとしては最大である。

While impressive performance has been achieved on the task of Answer Sentence Selection (AS2) for English, the same does not hold for languages that lack large labeled datasets. In this work, we propose Cross-Lingual Knowledge Distillation (CLKD) from a strong English AS2 teacher as a method to train AS2 models for low-resource languages in the tasks without the need of labeled data for the target language. To evaluate our method, we introduce 1) Xtr-WikiQA, a translation-based WikiQA dataset for 9 additional languages, and 2) TyDi-AS2, a multilingual AS2 dataset with over 70K questions spanning 8 typologically diverse languages. We conduct extensive experiments on Xtr-WikiQA and TyDi-AS2 with multiple teachers, diverse monolingual and multilingual pretrained language models (PLMs) as students, and both monolingual and multilingual training. The results demonstrate that CLKD either outperforms or rivals even supervised fine-tuning with the same amount of labeled data and a combination of machine translation and the teacher model. Our method can potentially enable stronger AS2 models for low-resource languages, while TyDi-AS2 can serve as the largest multilingual AS2 dataset for further studies in the research community.
翻訳日:2023-05-26 13:12:41 公開日:2023-05-25
# 手を出さないで! エゴセントリックビデオのエージェント環境因子化

Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos ( http://arxiv.org/abs/2305.16301v1 )

ライセンス: Link先を確認
Matthew Chang, Aditya Prakash, Saurabh Gupta(参考訳) ロボットタスクにおけるエゴセントリックビデオの分析と利用は、手とロボットのエンドエフェクタの視覚ミスマッチによる咬合による課題となっている。 この意味では、人間の手は迷惑を与える。 しかし、しばしば手は貴重な信号を与え、例えば手ポーズはどんな種類の物体が保持されているかを示唆する。 本研究では,エージェント(人間の手)と環境を分離するシーンの因子的表現を抽出することを提案する。 これにより、信号の保存中にオクルージョンとミスマッチの両方を緩和し、下流ロボット作業のためのモデルの設計を緩和する。 この因子化の核心は、従来の実世界の画像(大規模な事前学習拡散モデル)と、ビデオの以前のフレームにおけるオブジェクトの出現(注意)の両方を活用する、Diffusion Model (VIDM) である。 実験では,物体検出,操作対象の3次元再構成,報酬関数の学習,映像のポリシー,手頃さの学習など,自己中心型ビデオの質向上と要素表現の能力について,VIDMの有効性を実証した。

The analysis and use of egocentric videos for robotic tasks is made challenging by occlusion due to the hand and the visual mismatch between the human hand and a robot end-effector. In this sense, the human hand presents a nuisance. However, often hands also provide a valuable signal, e.g. the hand pose may suggest what kind of object is being held. In this work, we propose to extract a factored representation of the scene that separates the agent (human hand) and the environment. This alleviates both occlusion and mismatch while preserving the signal, thereby easing the design of models for downstream robotics tasks. At the heart of this factorization is our proposed Video Inpainting via Diffusion Model (VIDM) that leverages both a prior on real-world images (through a large-scale pre-trained diffusion model) and the appearance of the object in earlier frames of the video (through attention). Our experiments demonstrate the effectiveness of VIDM at improving inpainting quality on egocentric videos and the power of our factored representation for numerous tasks: object detection, 3D reconstruction of manipulated objects, and learning of reward functions, policies, and affordances from videos.
翻訳日:2023-05-26 13:12:20 公開日:2023-05-25
# ランドマーク注意:トランスフォーマーのランダムアクセス無限コンテキスト長

Landmark Attention: Random-Access Infinite Context Length for Transformers ( http://arxiv.org/abs/2305.16300v1 )

ライセンス: Link先を確認
Amirkeivan Mohtashami, Martin Jaggi(参考訳) トランスフォーマーは自然言語処理において顕著な成功を収めているが、その注意力機構の大きなメモリ要件は、長いコンテキストを扱う能力に制限がある。 リカレントメモリや検索ベースの拡張といった以前のアプローチは、注意のランダムアクセスの柔軟性(すなわち、コンテキスト全体において任意のトークンを選択できる能力)を損なうか、モデルの注意と互換性のない、関連するコンテキスト検索のための別のメカニズムに依存するかのどちらかである。 本稿では,ランダムアクセスの柔軟性を維持しつつ,完全なコンテキストへのアクセスを可能にする新しい手法を提案する。 本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注意を訓練し,別の機構に頼るのではなく,注意機構を通じて直接ブロックを検索できるようにする。 提案手法は,特殊なデータ構造とシステムのメモリ階層とシームレスに統合され,任意の長さのコンテキストを処理できる。 提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。 最後に,提案手法を用いたllama 7bの微調整により,最大32kトークンまで拡張でき,gpt-4のコンテキスト長での推論が可能となった。

While transformers have shown remarkable success in natural language processing, their attention mechanism's large memory requirements have limited their ability to handle longer contexts. Prior approaches, such as recurrent memory or retrieval-based augmentation, have either compromised the random-access flexibility of attention (i.e., the capability to select any token in the entire context) or relied on separate mechanisms for relevant context retrieval, which may not be compatible with the model's attention. In this paper, we present a novel approach that allows access to the complete context while retaining random-access flexibility, closely resembling running attention on the entire context. Our method uses a landmark token to represent each block of the input and trains the attention to use it for selecting relevant blocks, enabling retrieval of blocks directly through the attention mechanism instead of by relying on a separate mechanism. Our approach seamlessly integrates with specialized data structures and the system's memory hierarchy, enabling processing of arbitrarily long context lengths. We demonstrate that our method can obtain comparable performance with Transformer-XL while significantly reducing the number of retrieved tokens in each step. Finally, we show that fine-tuning LLaMA 7B with our method successfully extends its context length capacity up to 32k tokens, allowing for inference at the context lengths of GPT-4.
翻訳日:2023-05-26 13:11:56 公開日:2023-05-25
# Uni-ControlNet:テキスト間拡散モデルへのオールインワン制御

Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16322v1 )

ライセンス: Link先を確認
Shihao Zhao and Dongdong Chen and Yen-Chun Chen and Jianmin Bao and Shaozhe Hao and Lu Yuan and Kwan-Yee K. Wong(参考訳) テキスト間拡散モデルは過去2年間に大きく進歩し、オープンドメインのテキスト記述に基づく非常にリアルな画像の生成を可能にした。 しかし、その成功にもかかわらず、テキスト記述は長く複雑なテキストであっても、詳細な制御を適切に伝えるのに苦労することが多い。 さらに、近年の研究では、これらのモデルがこのような複雑なテキストを理解し、対応する画像を生成する上での課題に直面していることも示されている。 そのため、テキスト記述以上の制御モードを有効にする必要性が増している。 本稿では,Uni-ControlNetについて紹介する。これは,各ローカルコントロール(エッジマップ,深度マップ,セグメンテーションマスクなど)とグローバルコントロール(CLIPイメージ埋め込みなど)を,一つのモデル内で柔軟かつ構成可能な方法で同時利用可能にする,新しいアプローチである。 既存の方法とは異なり、Uni-ControlNetでは、凍結訓練済みのテキスト-画像拡散モデルに2つの追加アダプタを微調整するだけで、トレーニングの膨大なコストをゼロから排除できる。 さらに、いくつかの専用のアダプタ設計のおかげで、uni-controlnetは使用するローカルまたはグローバルコントロールの数に関係なく、アダプタの一定数(つまり2つ)しか必要としない。 これにより、微調整コストとモデルサイズが削減され、現実のデプロイメントにより適するだけでなく、異なる条件のコンポーザビリティも向上する。 定量的および質的な比較を通じて、Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存の方法よりも優れていることを示す。 コードは \url{https://github.com/shihaozhaozsh/uni-controlnet} で入手できる。

Text-to-Image diffusion models have made tremendous progress over the past two years, enabling the generation of highly realistic images based on open-domain text descriptions. However, despite their success, text descriptions often struggle to adequately convey detailed controls, even when composed of long and complex texts. Moreover, recent studies have also shown that these models face challenges in understanding such complex texts and generating the corresponding images. Therefore, there is a growing need to enable more control modes beyond text description. In this paper, we introduce Uni-ControlNet, a novel approach that allows for the simultaneous utilization of different local controls (e.g., edge maps, depth map, segmentation masks) and global controls (e.g., CLIP image embeddings) in a flexible and composable manner within one model. Unlike existing methods, Uni-ControlNet only requires the fine-tuning of two additional adapters upon frozen pre-trained text-to-image diffusion models, eliminating the huge cost of training from scratch. Moreover, thanks to some dedicated adapter designs, Uni-ControlNet only necessitates a constant number (i.e., 2) of adapters, regardless of the number of local or global controls used. This not only reduces the fine-tuning costs and model size, making it more suitable for real-world deployment, but also facilitate composability of different conditions. Through both quantitative and qualitative comparisons, Uni-ControlNet demonstrates its superiority over existing methods in terms of controllability, generation quality and composability. Code is available at \url{https://github.com/ShihaoZhaoZSH/Uni-ControlNet}.
翻訳日:2023-05-26 13:04:04 公開日:2023-05-25
# Eclipse: 意図しない影による照明と材料の曖昧さ

Eclipse: Disambiguating Illumination and Materials using Unintended Shadows ( http://arxiv.org/abs/2305.16321v1 )

ライセンス: Link先を確認
Dor Verbin, Ben Mildenhall, Peter Hedman, Jonathan T. Barron, Todd Zickler, Pratul P. Srinivasan(参考訳) 物体の外観を素材の表現や周囲の照明に分解することは、物体の3d形状が事前に分かっている場合でも困難である。 この問題は、拡散材料が入射光をひどくぼやけ、高周波照明下の拡散材料が低周波照明下で光沢材料と区別できないため、不調である。 被写体に投げられた影のような意図しない影を利用して、拡散した物体からでも正確な材料や照明を復元できることを示した。 これらのシャドウは従来の逆レンダリングパイプラインでは迷惑ですが、ここではコンディショニングを改善し、物質を照らすあいまいさを解決するシグナルとして活用します。 本研究では,物体の画像から空間的変化のある物質,周囲の照明環境,および不注意に影を落としている未確認光閉塞者の形状を共同で復元するモンテカルロ線トレーシング法を提案する。

Decomposing an object's appearance into representations of its materials and the surrounding illumination is difficult, even when the object's 3D shape is known beforehand. This problem is ill-conditioned because diffuse materials severely blur incoming light, and is ill-posed because diffuse materials under high-frequency lighting can be indistinguishable from shiny materials under low-frequency lighting. We show that it is possible to recover precise materials and illumination -- even from diffuse objects -- by exploiting unintended shadows, like the ones cast onto an object by the photographer who moves around it. These shadows are a nuisance in most previous inverse rendering pipelines, but here we exploit them as signals that improve conditioning and help resolve material-lighting ambiguities. We present a method based on differentiable Monte Carlo ray tracing that uses images of an object to jointly recover its spatially-varying materials, the surrounding illumination environment, and the shapes of the unseen light occluders who inadvertently cast shadows upon it.
翻訳日:2023-05-26 13:03:34 公開日:2023-05-25
# フェルミオンジュール-トムソン効果の観察

Observation of the Fermionic Joule-Thomson Effect ( http://arxiv.org/abs/2305.16320v1 )

ライセンス: Link先を確認
Yunpeng Ji, Jianyi Chen, Grant L. Schumacher, Gabriel G. T. Assump\c{c}\~ao, Songtao Huang, Franklin J. Vivanco and Nir Navon(参考訳) 理想気体および一元気体中の量子ジュール・トムソン効果(JT)の観測を報告する。 本研究は, 粒子当たりのエネルギー保存過程におけるこれらの系の温度動態について考察する。 状態方程式が $u\propto pv$ の関係を満たすスケール不変系では、このレアフレクションは特定のエンタルピーを保存し、 jt スロットリングプロセスと熱力学的に等価となる。 理想的なフェルミ気体中でのJT加熱は、パウリブロッキングから生じる反動的な量子統計的「力」の結果、高い量子縮退率で強くなる。 ユニタリフェルミ気体において、jt加熱は、強い量子統計効果が魅力的な粒子間相互作用によって減少するので、温度範囲$0.2 \lesssim t/t_{\mathrm{f}} \lesssim 0.8 $ で限界である。

We report the observation of the quantum Joule-Thomson (JT) effect in ideal and unitary Fermi gases. We study the temperature dynamics of these systems while they undergo an energy-per-particle conserving rarefaction. For scale-invariant systems, whose equations of state satisfy the relation $U\propto PV$, this rarefaction conserves the specific enthalpy, which makes it thermodynamically equivalent to a JT throttling process. We observe JT heating in an ideal Fermi gas, stronger at higher quantum degeneracy, a result of the repulsive quantum-statistical `force' arising from Pauli blocking. In a unitary Fermi gas, we observe that the JT heating is marginal in the temperature range $0.2 \lesssim T/T_{\mathrm{F}} \lesssim 0.8 $ as the repulsive quantum-statistical effect is lessened by the attractive interparticle interaction.
翻訳日:2023-05-26 13:03:16 公開日:2023-05-25
# 画像は一階ノルム+線形自己回帰的

Image is First-order Norm+Linear Autoregressive ( http://arxiv.org/abs/2305.16319v1 )

ライセンス: Link先を確認
Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu Yuan and Zicheng Liu and Youzuo Lin(参考訳) 本稿では、すべての画像が一階ノルム+線形自己回帰過程として理解できることを明らかにし、この場合、ノルム+線形は線形モデルよりも先に正規化を使用することを示す。 256$\times$256の画像を16$\times$16のフィーチャーマップに自動回帰を用いて圧縮ベクトルから再構成し、アップサンプリングと畳み込みを行うことを示した。 この発見は潜在特徴空間を支配する偏微分方程式(pdes)に光を当てている。 さらに、簡単なマスク付き予測手法を用いて、FINOLAの自己教師型学習への応用について検討する。 未マスクのクアドラントブロックを1つエンコードすることで、周囲のマスクされた領域を自己回帰的に予測することができる。 この事前訓練された表現は、微調整を必要とせず、軽量ネットワークでも画像分類やオブジェクト検出タスクに有効である。 コードは公開される予定だ。

This paper reveals that every image can be understood as a first-order norm+linear autoregressive process, referred to as FINOLA, where norm+linear denotes the use of normalization before the linear model. We demonstrate that images of size 256$\times$256 can be reconstructed from a compressed vector using autoregression up to a 16$\times$16 feature map, followed by upsampling and convolution. This discovery sheds light on the underlying partial differential equations (PDEs) governing the latent feature space. Additionally, we investigate the application of FINOLA for self-supervised learning through a simple masked prediction technique. By encoding a single unmasked quadrant block, we can autoregressively predict the surrounding masked region. Remarkably, this pre-trained representation proves effective for image classification and object detection tasks, even in lightweight networks, without requiring fine-tuning. The code will be made publicly available.
翻訳日:2023-05-26 13:02:58 公開日:2023-05-25
# マルチモーダルによる参照:ビデオオブジェクトセグメンテーションのための統合時間変換器

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation ( http://arxiv.org/abs/2305.16318v1 )

ライセンス: Link先を確認
Shilin Yan, Renrui Zhang, Ziyu Guo, Wenchao Chen, Wei Zhang, Hongyang Li, Yu Qiao, Zhongjiang He, Peng Gao(参考訳) 近年,言語や音声などのマルチモーダル信号によって参照されるビデオオブジェクトセグメンテーション (VOS) が,産業と学界の両方で注目を集めている。 モダリティ内の意味的アライメントとフレーム間の視覚的対応を探索することは困難である。 しかし、既存の手法では異なるモダリティに対して別々のネットワークアーキテクチャを採用し、参照とのフレーム間の時間的相互作用を無視している。 本稿では,ビデオオブジェクトセグメンテーション参照のためのマルチモーダル統一時間変換器MUTRを提案する。 初めて統一されたフレームワークで、mutrはdetrスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照で指定されたビデオオブジェクトをセグメンテーションすることができる。 具体的には,ビデオとマルチモーダル信号の時間的関係を解明する2つの戦略を提案する。 まず,トランスフォーマー前の低レベルの時間的アグリゲーションでは,マルチモーダル参照が連続するビデオフレームから多次元の視覚的手がかりをキャプチャできる。 これにより、テキストまたは音声信号を時間的知識で効果的に内包し、モダリティ間の意味的アライメントを促進する。 第2に,トランスフォーマの後の高レベルな時間的相互作用に対して,異なる物体埋め込みに対してフレーム間特徴コミュニケーションを行い,映像に沿って追従するためのオブジェクト間対応の改善に寄与する。 Ref-YouTube-VOS と AVSBench の各テキストおよびオーディオ参照のデータセットでは、MUTR は、最先端のメソッドに対する +4.2% と +4.2% の J&F の改善を達成した。 コードはhttps://github.com/OpenGVLab/MUTRで公開されている。

Recently, video object segmentation (VOS) referred by multi-modal signals, e.g., language and audio, has evoked increasing attention in both industry and academia. It is challenging for exploring the semantic alignment within modalities and the visual correspondence across frames. However, existing methods adopt separate network architectures for different modalities, and neglect the inter-frame temporal interaction with references. In this paper, we propose MUTR, a Multi-modal Unified Temporal transformer for Referring video object segmentation. With a unified framework for the first time, MUTR adopts a DETR-style transformer and is capable of segmenting video objects designated by either text or audio reference. Specifically, we introduce two strategies to fully explore the temporal relations between videos and multi-modal signals. Firstly, for low-level temporal aggregation before the transformer, we enable the multi-modal references to capture multi-scale visual cues from consecutive video frames. This effectively endows the text or audio signals with temporal knowledge and boosts the semantic alignment between modalities. Secondly, for high-level temporal interaction after the transformer, we conduct inter-frame feature communication for different object embeddings, contributing to better object-wise correspondence for tracking along the video. On Ref-YouTube-VOS and AVSBench datasets with respective text and audio references, MUTR achieves +4.2% and +4.2% J&F improvements to state-of-the-art methods, demonstrating our significance for unified multi-modal VOS. Code is released at https://github.com/OpenGVLab/MUTR.
翻訳日:2023-05-26 13:02:43 公開日:2023-05-25
# 拡散モデルの並列サンプリング

Parallel Sampling of Diffusion Models ( http://arxiv.org/abs/2305.16317v1 )

ライセンス: Link先を確認
Andy Shih, Suneel Belkhale, Stefano Ermon, Dorsa Sadigh, Nima Anari(参考訳) 拡散モデルは強力な生成モデルであるが、遅いサンプリングに悩まされ、しばしば1つのサンプルに対して1000のシーケンシャルな復調ステップを踏む。 その結果,デノナイジングステップの削減に向けてかなりの努力が払われているが,これらの手法はサンプルの品質を損なう。 この論文では、デノナイジングステップの数を減少させる代わりに、直交的なアプローチとして、デノナイジングステップを並列に実行できるか(速度のトレーディング計算)を探索する。 分別ステップの逐次的性質にもかかわらず,今後の分別ステップの解を推算し,収束まで反復的に精錬することで,ピカード反復によるサンプリングを驚くほど並列化することができることを示した。 そこで本研究では,複数ステップの並列化により,事前学習した拡散モデルのサンプリングを高速化する新しい手法であるパラダイムを提案する。 ParaDiGMSは、高速な取引計算を可能にする最初の拡散サンプリング手法であり、DDIMやDPMSolverといった既存の高速サンプリング技術と互換性がある。 そこでParaDiGMSを用いて,100ステップのDiffusionPolicyでは0.2秒,1000ステップのStableDiffusion-v2では16秒のサンプリング速度を,タスク報酬,FIDスコア,CLIPスコアの計測不能な2~4倍に改善した。

Diffusion models are powerful generative models but suffer from slow sampling, often taking 1000 sequential denoising steps for one sample. As a result, considerable efforts have been directed toward reducing the number of denoising steps, but these methods hurt sample quality. Instead of reducing the number of denoising steps (trading quality for speed), in this paper we explore an orthogonal approach: can we run the denoising steps in parallel (trading compute for speed)? In spite of the sequential nature of the denoising steps, we show that surprisingly it is possible to parallelize sampling via Picard iterations, by guessing the solution of future denoising steps and iteratively refining until convergence. With this insight, we present ParaDiGMS, a novel method to accelerate the sampling of pretrained diffusion models by denoising multiple steps in parallel. ParaDiGMS is the first diffusion sampling method that enables trading compute for speed and is even compatible with existing fast sampling techniques such as DDIM and DPMSolver. Using ParaDiGMS, we improve sampling speed by 2-4x across a range of robotics and image generation models, giving state-of-the-art sampling speeds of 0.2s on 100-step DiffusionPolicy and 16s on 1000-step StableDiffusion-v2 with no measurable degradation of task reward, FID score, or CLIP score.
翻訳日:2023-05-26 13:02:11 公開日:2023-05-25
# ビジョントランスフォーマーを本当に変身させる

Making Vision Transformers Truly Shift-Equivariant ( http://arxiv.org/abs/2305.16316v1 )

ライセンス: Link先を確認
Renan A. Rojas-Gomez, Teck-Yian Lim, Minh N. Do, Raymond A. Yeh(参考訳) コンピュータビジョンタスクでは、ビジョントランスフォーマー (ViT) が網の深いアーキテクチャの1つになっている。 畳み込みニューラルネットワーク(CNN)にインスパイアされたものの、ViTは入力画像の小さなシフトに敏感である。 そこで我々は,vitにおける各モジュールについて,トークン化,自己アテンション,パッチマージ,位置符号化などの新しい設計を導入する。 提案するモジュールでは,理論と実践の両面で,Swin,SwinV2,MViTv2,CvTの4つの確立されたモデル上で,真のシフト等価なViTを実現する。 画像分類とセマンティクスセグメンテーションについて実験を行い,100%シフト一貫性を維持しながら,3つの異なるデータセット間での競合性能を達成した。

For computer vision tasks, Vision Transformers (ViTs) have become one of the go-to deep net architectures. Despite being inspired by Convolutional Neural Networks (CNNs), ViTs remain sensitive to small shifts in the input image. To address this, we introduce novel designs for each of the modules in ViTs, such as tokenization, self-attention, patch merging, and positional encoding. With our proposed modules, we achieve truly shift-equivariant ViTs on four well-established models, namely, Swin, SwinV2, MViTv2, and CvT, both in theory and practice. Empirically, we tested these models on image classification and semantic segmentation, achieving competitive performance across three different datasets while maintaining 100% shift consistency.
翻訳日:2023-05-26 13:01:42 公開日:2023-05-25
# NAP:ニューラルな3Dアーティキュレーション

NAP: Neural 3D Articulation Prior ( http://arxiv.org/abs/2305.16315v1 )

ライセンス: Link先を確認
Jiahui Lei and Congyue Deng and Bokui Shen and Leonidas Guibas and Kostas Daniilidis(参考訳) 本研究では,3次元合成対象モデルを合成する最初の3次元深部生成モデルであるNeural 3D Articulation Prior (NAP)を提案する。 3dオブジェクト、コンポジション、シーンの生成に関する広範な研究にもかかわらず、人間とロボットの相互作用のための共通のオブジェクトカテゴリである関節オブジェクトの分布を捉えることに焦点が当てられていない。 調停対象を生成するために,まず,新しい調停木/グラフパラメータ化を設計,次に拡散密度確率モデルを適用し,無作為完全グラフから調停対象を生成する。 分布が互いに影響を及ぼすような幾何構造と運動構造の両方を捉えるために,逆拡散過程を学習するためのグラフアテンション認知ネットワークを設計する。 本研究では,広範に使用されている3次元生成メトリクスを新しいタスクに適用し,生成品質を評価する新しい距離を提案する。 また、Part2Motion、PartNet-Imagination、Motion2Part、GAPart2Objectといった条件付き生成アプリケーションについても紹介する。

We propose Neural 3D Articulation Prior (NAP), the first 3D deep generative model to synthesize 3D articulated object models. Despite the extensive research on generating 3D objects, compositions, or scenes, there remains a lack of focus on capturing the distribution of articulated objects, a common object category for human and robot interaction. To generate articulated objects, we first design a novel articulation tree/graph parameterization and then apply a diffusion-denoising probabilistic model over this representation where articulated objects can be generated via denoising from random complete graphs. In order to capture both the geometry and the motion structure whose distribution will affect each other, we design a graph-attention denoising network for learning the reverse diffusion process. We propose a novel distance that adapts widely used 3D generation metrics to our novel task to evaluate generation quality, and experiments demonstrate our high performance in articulated object generation. We also demonstrate several conditioned generation applications, including Part2Motion, PartNet-Imagination, Motion2Part, and GAPart2Object.
翻訳日:2023-05-26 13:01:27 公開日:2023-05-25
# Banana: 部分間の等価性を備えたポイントクラウドセグメンテーションのためのBanach固定ポイントネットワーク

Banana: Banach Fixed-Point Network for Pointcloud Segmentation with Inter-Part Equivariance ( http://arxiv.org/abs/2305.16314v1 )

ライセンス: Link先を確認
Congyue Deng, Jiahui Lei, Bokui Shen, Kostas Daniilidis, Leonidas Guibas(参考訳) 等分散は、本質的に堅牢な一般化を保証する望ましいネットワーク特性として強く関心を集めている。 しかし、調音オブジェクトやマルチオブジェクトシーンのような複雑なシステムを扱う場合、部分間の変換を効果的に捉えることは、全体の構造や局所的な変換と絡み合うため、課題となる。 部分割当と各部分群作用の相互依存は、それらの共進化を可能にする新しい同値な定式化を必要とする。 本稿では、構成による部分的等式を持つ同変セグメンテーションのためのバナハ固定点ネットワークについて述べる。 我々の重要な洞察は、ポイント・パート割り当てラベルとパー・パートSE(3)-等分散が同時に共進化する固定点問題を反復的に解くことである。 ステップ当たりの等分散と大域収束の両方を理論的に導出し、同変の最終収束状態を誘導する。 我々の定式化は自然に部分間等式を厳密に定義し、部分間配置に一般化する。 有声物体と多目的走査の両方で行った実験を通じて,点雲幾何とトポロジーの大幅な変化に直面した場合でも,部分間変換下での強汎化を達成するためのアプローチの有効性を実証する。

Equivariance has gained strong interest as a desirable network property that inherently ensures robust generalization. However, when dealing with complex systems such as articulated objects or multi-object scenes, effectively capturing inter-part transformations poses a challenge, as it becomes entangled with the overall structure and local transformations. The interdependence of part assignment and per-part group action necessitates a novel equivariance formulation that allows for their co-evolution. In this paper, we present Banana, a Banach fixed-point network for equivariant segmentation with inter-part equivariance by construction. Our key insight is to iteratively solve a fixed-point problem, where point-part assignment labels and per-part SE(3)-equivariance co-evolve simultaneously. We provide theoretical derivations of both per-step equivariance and global convergence, which induces an equivariant final convergent state. Our formulation naturally provides a strict definition of inter-part equivariance that generalizes to unseen inter-part configurations. Through experiments conducted on both articulated objects and multi-object scans, we demonstrate the efficacy of our approach in achieving strong generalization under inter-part transformations, even when confronted with substantial changes in pointcloud geometry and topology.
翻訳日:2023-05-26 13:01:09 公開日:2023-05-25
# UMAT:不確実な単一画像高解像度素材

UMat: Uncertainty-Aware Single Image High Resolution Material Capture ( http://arxiv.org/abs/2305.16312v1 )

ライセンス: Link先を確認
Carlos Rodriguez-Pardo, Henar Dominguez-Elvira, David Pascual-Hernandez, Elena Garces(参考訳) マイクロジオメトリの出現を第一の手がかりとして,物体の拡散画像から正規性,特異性,粗さを復元する学習に基づく手法を提案する。 単一のイメージで作業する従来の方法は、アーティファクトでスムースなアウトプットを生成したり、限定解像度で動作したり、一般化の余地の少ないクラス毎に1つのモデルをトレーニングしたりする傾向があります。 単一のイメージで作業する従来の方法は、アーティファクトでスムースなアウトプットを生成したり、限定解像度で動作したり、一般化の余地の少ないクラス毎に1つのモデルをトレーニングしたりする傾向があります。 そこで本研究では,注意力のある生成ネットワークを活用した新しいキャプチャ手法と,計算複雑性の低減でグローバル情報を統合した優れた性能を示すu-net判別器を提案する。 デジタル化繊維材料の実データを用いて,本手法の性能を示すとともに,本手法の入力に必要な拡散照明のタイプを商品フラットベッドスキャナが生成できることを示す。 さらに,本論文では, スペクトル反射を曖昧にするためには, 1枚以上の拡散像が必要であるか, あるいはトレーニングデータセットが実際の分布を十分に表していないため, テスト時の予測に対するモデルの信頼性を定量化する新しい枠組みを提案する。 本手法は,物質デジタイズにおける不確実性をモデル化し,プロセスの信頼性を高め,アクティブラーニング実験で示すように,データセット作成のためのよりインテリジェントな戦略を実現する最初の手法である。

We propose a learning-based method to recover normals, specularity, and roughness from a single diffuse image of a material, using microgeometry appearance as our primary cue. Previous methods that work on single images tend to produce over-smooth outputs with artifacts, operate at limited resolution, or train one model per class with little room for generalization. Previous methods that work on single images tend to produce over-smooth outputs with artifacts, operate at limited resolution, or train one model per class with little room for generalization. In contrast, in this work, we propose a novel capture approach that leverages a generative network with attention and a U-Net discriminator, which shows outstanding performance integrating global information at reduced computational complexity. We showcase the performance of our method with a real dataset of digitized textile materials and show that a commodity flatbed scanner can produce the type of diffuse illumination required as input to our method. Additionally, because the problem might be illposed -more than a single diffuse image might be needed to disambiguate the specular reflection- or because the training dataset is not representative enough of the real distribution, we propose a novel framework to quantify the model's confidence about its prediction at test time. Our method is the first one to deal with the problem of modeling uncertainty in material digitization, increasing the trustworthiness of the process and enabling more intelligent strategies for dataset creation, as we demonstrate with an active learning experiment.
翻訳日:2023-05-26 13:00:47 公開日:2023-05-25
# グラフニューラルネットワークによる複雑な物理系シミュレーションに向けて

Towards Complex Dynamic Physics System Simulation with Graph Neural ODEs ( http://arxiv.org/abs/2305.12334v2 )

ライセンス: Link先を確認
Guangsi Shi, Daokun Zhang, Ming Jin and Shirui Pan(参考訳) 深層学習モデルの優れた学習能力により,実世界の理解が容易になり,複雑な粒子系をシミュレートすることが期待できる。 しかし、物理世界の複雑な法則は、相互作用する粒子間の空間依存性の変化や、粒子の相互作用行動や物理系の進化パターンを支配する異なるタイムスタンプにおける粒子系状態間の時間依存性など、学習に基づくシミュレーションに重大な課題をもたらす。 既存の学習に基づくシミュレーション手法では、複雑度を完全に説明できないため、十分なシミュレーションが得られない。 複雑な物理法則をよりよく理解するために,一貫したエンド・ツー・エンド・フレームワークを用いて粒子系の空間的・時間的依存性を特徴付ける新しい学習ベースシミュレーションモデルGNSTODE(Spatial-Temporal Neural Ordinary Equations)を提案する。 GNSTODEは実世界の粒子-粒子相互作用観測のトレーニングを通じて、高い精度で任意の粒子系をシミュレートすることができる。 我々はGNSTODEの2つの実世界の粒子系(重力とクーロン)におけるシミュレーション性能を、空間的および時間的依存の異なるレベルで実験的に評価した。 その結果,提案したGNSTODEは最先端の学習ベースシミュレーション法よりもはるかに優れたシミュレーションが得られ,GNSTODEが実世界の粒子シミュレーションに有効であることを示す。

The great learning ability of deep learning models facilitates us to comprehend the real physical world, making learning to simulate complicated particle systems a promising endeavour. However, the complex laws of the physical world pose significant challenges to the learning based simulations, such as the varying spatial dependencies between interacting particles and varying temporal dependencies between particle system states in different time stamps, which dominate particles' interacting behaviour and the physical systems' evolution patterns. Existing learning based simulation methods fail to fully account for the complexities, making them unable to yield satisfactory simulations. To better comprehend the complex physical laws, this paper proposes a novel learning based simulation model- Graph Networks with Spatial-Temporal neural Ordinary Equations (GNSTODE)- that characterizes the varying spatial and temporal dependencies in particle systems using a united end-to-end framework. Through training with real-world particle-particle interaction observations, GNSTODE is able to simulate any possible particle systems with high precisions. We empirically evaluate GNSTODE's simulation performance on two real-world particle systems, Gravity and Coulomb, with varying levels of spatial and temporal dependencies. The results show that the proposed GNSTODE yields significantly better simulations than state-of-the-art learning based simulation methods, which proves that GNSTODE can serve as an effective solution to particle simulations in real-world application.
翻訳日:2023-05-26 10:55:28 公開日:2023-05-25
# 加速2レベルシングル・エンタングル原子系に対するフリング・デイビス・アンルー効果

Fulling-Davies-Unruh effect for accelerated two-level single and entangled atomic systems ( http://arxiv.org/abs/2305.08867v3 )

ライセンス: Link先を確認
Arnab Mukherjee, Sunandan Gangopadhyay, A. S. Majumdar(参考訳) 空空間およびキャビティ内部における一様加速二段階単一および絡み合った原子系の遷移速度について検討した。 我々は,即時慣性オブザーバと共加速オブザーバの観点から,システムと無質量スカラー場の相互作用を考慮に入れた。 上向きの遷移は原子の加速によってのみ起こる。 二原子系では、システムは初めは一般的な純粋に絡み合った状態で準備されていると考えられる。 キャビティの存在下では、単原子と二原子の場合の両方において、原子系の加速によって上向きと下向きの遷移が起こることが観察される。 遷移速度は、空洞とシステムパラメータ、および初期絡み合いに応じて微妙な特徴を示す。 このことは、加速された2原子系におけるそのような絡み合いが量子情報処理への応用のために保存できることを示唆している。 本解析は, 慣性観察者に対する一様加速度の効果と, 共加速観察者に対する熱浴の効果, 空洞内および空洞内における熱浴の温度が無ルー温度と等しい場合の等価性を包括的に検証する。

We investigate the transition rates of uniformly accelerated two-level single and entangled atomic systems in empty space as well as inside a cavity. We take into account the interaction between the systems and a massless scalar field from the viewpoint of an instantaneously inertial observer and a coaccelerated observer, respectively. The upward transition occurs only due to the acceleration of the atom. For the two-atom system, we consider that the system is initially prepared in a generic pure entangled state. In the presence of a cavity, we observe that for both the single and the two-atom cases, the upward and downward transitions are occurred due to the acceleration of the atomic systems. The transition rate manifests subtle features depending upon the cavity and system parameters, as well as the initial entanglement. It is shown that no transition occurs for a maximally entangled super-radiant initial state, signifying that such entanglement in the accelerated two-atom system can be preserved for quantum information procesing applications. Our analysis comprehensively validates the equivalence between the effect of uniform acceleration for an inertial observer and the effect of a thermal bath for a coaccelerated observer, in free space as well as inside a cavity, if the temperature of the thermal bath is equal to the Unruh temperature.
翻訳日:2023-05-26 10:54:55 公開日:2023-05-25
# 半自動データサイエンスのためのLLM:コンテキスト対応機能エンジニアリングのためのCAAFEの導入

LLMs for Semi-Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering ( http://arxiv.org/abs/2305.03403v3 )

ライセンス: Link先を確認
Noah Hollmann, Samuel M\"uller and Frank Hutter(参考訳) 自動機械学習(AutoML)の分野が進むにつれて、これらのシステムにドメイン知識を統合することがますます重要になる。 本稿では,大規模言語モデル(LLM)のパワーを利用する手法を提案する。 具体的には,表型データセットのための機能エンジニアリング手法であるcaafe(context-aware automated feature engineering)を導入する。llmを利用して,表型データセットに対して,その記述に基づいて意味的に意味のある機能を反復生成する。 このメソッドは、新しい機能を作成するためのPythonコードと、生成された機能のユーティリティの説明の両方を生成する。 方法論的に単純であるにも関わらず、CAAFEは14データセット中11データセットのパフォーマンスを改善し、平均ROC AUCパフォーマンスを全データセットで0.798から0.822に向上させます。 さらに、CAAFEは、生成された各特徴についてテキストによる説明を提供することで解釈できる。 CAAFEは、データサイエンスタスクにおけるより広範な半自動化の道を開き、AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト対応ソリューションの重要性を強調している。 a $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAZ4MaB_alZvyARTMjhl6RZf0a}{demo}$と a $\href{https://pypi.org/project/caafe/}{python\ package}$をリリースした。

As the field of automated machine learning (AutoML) advances, it becomes increasingly important to incorporate domain knowledge into these systems. We present an approach for doing so by harnessing the power of large language models (LLMs). Specifically, we introduce Context-Aware Automated Feature Engineering (CAAFE), a feature engineering method for tabular datasets that utilizes an LLM to iteratively generate additional semantically meaningful features for tabular datasets based on the description of the dataset. The method produces both Python code for creating new features and explanations for the utility of the generated features. Despite being methodologically simple, CAAFE improves performance on 11 out of 14 datasets - boosting mean ROC AUC performance from 0.798 to 0.822 across all dataset - similar to the improvement achieved by using a random forest instead of logistic regression on our datasets. Furthermore, CAAFE is interpretable by providing a textual explanation for each generated feature. CAAFE paves the way for more extensive semi-automation in data science tasks and emphasizes the significance of context-aware solutions that can extend the scope of AutoML systems to semantic AutoML. We release our $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAJZ4MaB_alZvyARTMjhl6RZf0a}{demo}$ and a $\href{https://pypi.org/project/caafe/}{python\ package}$.
翻訳日:2023-05-26 10:54:32 公開日:2023-05-25
# 石炭柱安定度分類のためのニューラルネットワークバックプロパゲーション(ANN-BP)アーキテクチャのアンサンブル学習モデル

Ensemble Learning Model on Artificial Neural Network-Backpropagation (ANN-BP) Architecture for Coal Pillar Stability Classification ( http://arxiv.org/abs/2303.16524v3 )

ライセンス: Link先を確認
G. Aileen Mendrofa, Gatot Fatwanto Hertono, Bevina Desjwiandara Handari(参考訳) 柱は地下ハードロック鉱山の鉱業安全を確保するために使用される重要な構造単位である。 そのため,地下柱の安定性に関する正確な予測が必要である。 柱の安定性を評価するのによく使われる指標は安全因子(SF)である。 残念なことに、SFを用いた柱安定性評価におけるこのような鮮明な境界は信頼できない。 本稿では,ニューラルネットワーク-バックプロパゲーション(ANN-BP)とDeep Ensemble Learningの柱安定性分類への応用について述べる。 ANN-BP ReLU, ANN-BP ELU, ANN-BP GELUの3種類がある。 本研究は、SFに対する適合性を考慮して、柱安定性のための新しいラベリング代替案を提案する。 これにより、柱の安定性は、適切な安全要因で失敗し、適切な安全要素で失敗し、適切な安全要素で失敗し、適切な安全要素なくして、4つのカテゴリに拡張される。 各モデルに使用される入力は、柱幅、鉱業高さ、ボード幅、深さと床、および比率の5つである。 その結果、アンサンブルラーニングを用いたANN-BPモデルでは、平均精度86.48%、F_2スコア96.35%のANN-BP性能が向上し、適切な安全因子が与えられた。

Pillars are important structural units used to ensure mining safety in underground hard rock mines. Therefore, precise predictions regarding the stability of underground pillars are required. One common index that is often used to assess pillar stability is the Safety Factor (SF). Unfortunately, such crisp boundaries in pillar stability assessment using SF are unreliable. This paper presents a novel application of Artificial Neural Network-Backpropagation (ANN-BP) and Deep Ensemble Learning for pillar stability classification. There are three types of ANN-BP used for the classification of pillar stability distinguished by their activation functions: ANN-BP ReLU, ANN-BP ELU, and ANN-BP GELU. This research also presents a new labeling alternative for pillar stability by considering its suitability with the SF. Thus, pillar stability is expanded into four categories: failed with a suitable safety factor, intact with a suitable safety factor, failed without a suitable safety factor, and intact without a suitable safety factor. There are five inputs used for each model: pillar width, mining height, bord width, depth to floor, and ratio. The results showed that the ANN-BP model with Ensemble Learning could improve ANN-BP performance with an average accuracy of 86.48% and an F_2-score of 96.35% for the category of failed with a suitable safety factor.
翻訳日:2023-05-26 10:53:49 公開日:2023-05-25
# 事前訓練されたlmによるパワー一般時系列分析

One Fits All:Power General Time Series Analysis by Pretrained LM ( http://arxiv.org/abs/2302.11939v4 )

ライセンス: Link先を確認
Tian Zhou, PeiSong Niu, Xue Wang, Liang Sun, Rong Jin(参考訳) 自然言語処理 (NLP) やコンピュータビジョン (CV) において, 事前学習モデルに大きな成功をおさめてきたが, 時系列解析の進歩は限られている。 異なるタスクを実行するために統一モデルを使用するNLPやCVとは異なり、特別に設計されたアプローチは、分類、異常検出、予測、少数ショット学習などの時系列分析タスクにおいて依然として支配的である。 時系列分析のための事前訓練されたモデルの開発を妨げる主な課題は、トレーニングのための大量のデータがないことである。 本研究では,数十億のトークンから事前学習した言語やCVモデルを時系列解析に活用することで,この問題に対処する。 具体的には、事前学習言語や画像モデルにおける残余ブロックの自己注意層やフィードフォワード層の変更を控える。 このモデルはFPT(Frozen Pretrained Transformer)と呼ばれ、時系列を含む全ての主要なタスクを微調整することで評価される。 その結果、自然言語や画像で事前学習されたモデルが、図1に示すように、すべての時系列分析タスクで同等あるいは最先端のパフォーマンスをもたらすことが示されています。 また, 原理成分分析(pca)と同様に, 自己着脱モジュールの挙動が理論上, 経験的にも見いだされ, トランスフォーマーがドメインギャップをどのように橋渡しするか, および事前学習したトランスフォーマーの普遍性を理解するための重要なステップを説明するのに役立つ。

Although we have witnessed great success of pre-trained models in natural language processing (NLP) and computer vision (CV), limited progress has been made for general time series analysis. Unlike NLP and CV where a unified model can be used to perform different tasks, specially designed approach still dominates in each time series analysis task such as classification, anomaly detection, forecasting, and few-shot learning. The main challenge that blocks the development of pre-trained model for time series analysis is the lack of a large amount of data for training. In this work, we address this challenge by leveraging language or CV models, pre-trained from billions of tokens, for time series analysis. Specifically, we refrain from altering the self-attention and feedforward layers of the residual blocks in the pre-trained language or image model. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on all major types of tasks involving time series. Our results demonstrate that pre-trained models on natural language or images can lead to a comparable or state-of-the-art performance in all main time series analysis tasks, as illustrated in Figure 1. We also found both theoretically and empirically that the self-attention module behaviors similarly to principle component analysis (PCA), an observation that helps explains how transformer bridges the domain gap and a crucial step towards understanding the universality of a pre-trained transformer.
翻訳日:2023-05-26 10:53:24 公開日:2023-05-25
# グラフレベルの学習の現状と可能性

State of the Art and Potentialities of Graph-level Learning ( http://arxiv.org/abs/2301.05860v3 )

ライセンス: Link先を確認
Zhenyu Yang, Ge Zhang, Jia Wu, Jian Yang, Quan Z. Sheng, Shan Xue, Chuan Zhou, Charu Aggarwal, Hao Peng, Wenbin Hu, Edwin Hancock, and Pietro Li\`o(参考訳) グラフは、化学化合物、タンパク質、ソーシャルネットワークといった関係データを表現する能力に優れています。 したがって、グラフの集合を入力として扱うグラフレベルの学習は、比較、回帰、分類など、多くのタスクに適用されている。 グラフの集合を学習する従来のアプローチは、サブ構造のような手作りの特徴に大きく依存している。 しかし、これらの手法は良い解釈可能性の恩恵を受けるが、グラフ同型問題を回避できないため、しばしば計算上のボトルネックに苦しむ。 逆にディープラーニングは、特徴を自動的に抽出し、グラフを低次元表現にエンコードすることで、グラフレベルの学習がグラフのスケール拡大に適応するのに役立つ。 その結果,これらの深層グラフ学習手法は多くの成功に寄与している。 しかし、従来の学習から始まり、ディープラーニングアプローチに移行するグラフレベルの学習をレビューする包括的な調査はない。 この記事では、このギャップを埋め、従来の学習、グラフレベルのディープニューラルネットワーク、グラフレベルのグラフニューラルネットワーク、グラフプーリングをカバーする体系的な分類に代表アルゴリズムを組み込む。 包括的調査を確実にするために、4つの異なる開発分野からのメソッドの進化、相互作用、およびコミュニケーションについても検討する。 続いて、ベンチマークデータセット、評価メトリクス、一般的なダウンストリームアプリケーションの簡単なレビューが続く。 調査は、このブーム分野における12の現在および将来の方向性を概観して締めくくっている。

Graphs have a superior ability to represent relational data, like chemical compounds, proteins, and social networks. Hence, graph-level learning, which takes a set of graphs as input, has been applied to many tasks including comparison, regression, classification, and more. Traditional approaches to learning a set of graphs heavily rely on hand-crafted features, such as substructures. But while these methods benefit from good interpretability, they often suffer from computational bottlenecks as they cannot skirt the graph isomorphism problem. Conversely, deep learning has helped graph-level learning adapt to the growing scale of graphs by extracting features automatically and encoding graphs into low-dimensional representations. As a result, these deep graph learning methods have been responsible for many successes. Yet, there is no comprehensive survey that reviews graph-level learning starting with traditional learning and moving through to the deep learning approaches. This article fills this gap and frames the representative algorithms into a systematic taxonomy covering traditional learning, graph-level deep neural networks, graph-level graph neural networks, and graph pooling. To ensure a thoroughly comprehensive survey, the evolutions, interactions, and communications between methods from four different branches of development are also examined. This is followed by a brief review of the benchmark data sets, evaluation metrics, and common downstream applications. The survey concludes with a broad overview of 12 current and future directions in this booming field.
翻訳日:2023-05-26 10:52:57 公開日:2023-05-25
# グラフェン系ナノアンテナにおけるエッジ効果とコンダクタンスの理論

Theory of Edge Effects and Conductance for Applications in Graphene-based Nanoantennas ( http://arxiv.org/abs/2301.02441v3 )

ライセンス: Link先を確認
Tomer Berghaus, Touvia Miloh, Oded Gottlieb, and Gregory Slepyan(参考訳) 本稿では,グラフェンにおけるエッジ効果の理論を,テラヘルツ,赤外線,可視周波数領域のナノアンテナへの応用に適用する。 その特性は、通常の表面伝導率ではなく、動的導電率の観点から定式化して到達した自己整合性である。 エッジ効果の物理的モデルは、ディラックフェルミオンの概念に基づいている。 表面コンダクタンスは一般感受性と見なされ、kuboアプローチによって計算される。 以前のモデルとは対照的に、表面コンダクタンスは非均質かつ非局所となる。 表面コンダクタンスの空間的挙動は、シートの長さと電気化学的ポテンシャルに依存する。 数値シミュレーションの結果,2.1-800nmの範囲と0.1-1.0ev範囲の電気化学ポテンシャルについて検討した。 長さが800nmを超えると、我々のモデルは比較的高い精度で古典的なドリュード導電率モデルと一致することが示されている。 比較的短い長さでは、導電性は通常空間振動を示し、導電性に欠け、グラフェン系アンテナの特性に強く影響を及ぼす。 このような空間振動の周期と振幅は、電気化学的ポテンシャルに強く依存する。 新しい理論は、ゲート電圧の電気化学的ポテンシャルを変化させることで、電気制御されたナノアンテナを実現する方法を開く。 得られた結果は、現代の量子技術における炭素系ナノデバイスの設計に適用できる。

In this paper, we develop a theory of edge effects in graphene for its applications to nanoantennas in the terahertz, infrared, and visible frequency ranges. Its characteristic feature is selfconsistence reached due the formulation in terms of dynamical conductance instead of ordinary used surface conductivity. The physical model of edge effects is based on using the concept of Dirac fermions. The surface conductance is considered as a general susceptibility and is calculated via the Kubo approach. In contrast with earlier models, the surface conductance becomes nonhomogeneous and nonlocal. The spatial behavior of the surface conductance depends on the length of the sheet and the electrochemical potential. Results of numerical simulations are presented for lengths in the range of 2.1-800 nm and electrochemical potentials ranging between 0.1-1.0 eV. It is shown that if the length exceeded 800 nm, our model agrees with the classical Drude conductivity model with a relatively high degree of accuracy. For rather short lengths, the conductance usually exhibits spatial oscillations, which absent in conductivity and strongly affect the properties of graphene based antennas. The period and amplitude of such spatial oscillations, strongly depend on the electrochemical potential. The new theory opens the way for realizing electrically controlled nanoantennas by changing the electrochemical potential may of the gate voltage. The obtained results may be applicable for the design of carbon based nanodevices in modern quantum technologies.
翻訳日:2023-05-26 10:52:35 公開日:2023-05-25
# geneva: 数百のイベントタイプと引数ロールによるイベント引数抽出のためのベンチマーク汎用性

GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles ( http://arxiv.org/abs/2205.12505v3 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng(参考訳) イベント引数抽出(EAE)の最近の研究は、新しいイベントやドメインに対応するためのモデル一般化性の改善に焦点を当てている。 しかし、ACEやEREのような標準的なベンチマークデータセットは、40のイベントタイプと25のエンティティ中心の引数ロールをカバーする。 限られた多様性とカバレッジは、これらのデータセットがEAEモデルの一般化可能性を適切に評価することを妨げる。 本稿では,EAEオントロジーを大規模かつ多種多様なものにすることで貢献する。 このオントロジーは、これら2つのタスク間の類似性を利用して、EAEのための包括的なセマンティックロールラベル(SRL)データセットであるFrameNetを変換することによって作成される。 次に、徹底した人間専門家のアノテーションを収集してオントロジーを構築し、115のイベントと220の引数の役割を結論付け、その役割の大部分はエンティティではない。 このオントロジを利用して,4つのテストスイートからなる多種多様な汎用性ベンチマークデータセットであるgenevaをさらに紹介する。 各種のEAEモデルを6種類ベンチマークする。 その結果,非エンタテイメントの議論の役割から,最高の評価モデルであっても39%のF1スコアしか達成できないことが判明した。 全体として、我々の大規模で多様なEAEオントロジーは、より包括的な将来的なリソースを作成するのに役立つ一方、GENEVAは、EAEの一般化性を改善するためのさらなる研究を奨励する、挑戦的なベンチマークデータセットである。 コードとデータはhttps://github.com/PlusLabNLP/GENEVAで確認できる。

Recent works in Event Argument Extraction (EAE) have focused on improving model generalizability to cater to new events and domains. However, standard benchmarking datasets like ACE and ERE cover less than 40 event types and 25 entity-centric argument roles. Limited diversity and coverage hinder these datasets from adequately evaluating the generalizability of EAE models. In this paper, we first contribute by creating a large and diverse EAE ontology. This ontology is created by transforming FrameNet, a comprehensive semantic role labeling (SRL) dataset for EAE, by exploiting the similarity between these two tasks. Then, exhaustive human expert annotations are collected to build the ontology, concluding with 115 events and 220 argument roles, with a significant portion of roles not being entities. We utilize this ontology to further introduce GENEVA, a diverse generalizability benchmarking dataset comprising four test suites, aimed at evaluating models' ability to handle limited data and unseen event type generalization. We benchmark six EAE models from various families. The results show that owing to non-entity argument roles, even the best-performing model can only achieve 39% F1 score, indicating how GENEVA provides new challenges for generalization in EAE. Overall, our large and diverse EAE ontology can aid in creating more comprehensive future resources, while GENEVA is a challenging benchmarking dataset encouraging further research for improving generalizability in EAE. The code and data can be found at https://github.com/PlusLabNLP/GENEVA.
翻訳日:2023-05-26 10:52:16 公開日:2023-05-25
# 同時学習による正規化:ホップ分類の事例研究

Regularization Through Simultaneous Learning: A Case Study for Hop Classification ( http://arxiv.org/abs/2305.13447v3 )

ライセンス: Link先を確認
Pedro Henrique Nascimento Castro, Gabriel C\'assia Fortuna, Rafael Alves Bonfim de Queiroz, Gladston Juliano Prates Moreira and Eduardo Jos\'e da Silva Luz(参考訳) ディープニューラルネットワークにおけるオーバーフィッティングは依然として一般的な課題であり、最適な現実世界のパフォーマンスをもたらす。 正規化手法を採用することは、この課題に対抗し、モデルの一般化を改善する共通の戦略である。 本稿では,移動学習とマルチタスク学習の原則に基づく新たな正規化アプローチである同時学習を,ビール生産の不可欠なコンポーネントであるホップ品種の分類に適用する。 提案手法は,目的のデータセットと相乗効果の補助的データセットのパワーを利用して,関連性の高い特徴の獲得を増幅する。 モデルの最終層の戦略的変更により、異なるタスクとして扱うことなく、両方のデータセットを同時に分類することが可能となる。 これを実現するために,グループ間ペナルティを含む損失関数を定式化する。 InceptionV3 と ResNet50 モデルを用いて実験を行い,UFOP-HVD ホップ葉のデータセットをターゲットとし,ImageNet と PlantNet を補助データセットとした。 提案手法は, 正規化のないモデルとドロップアウト正規化を採用したモデルと比較して, 精度が5~22ポイント向上した。 さらに,ネットワークの畳み込み層におけるクラス特徴間の相関を解析し,特徴の質を評価するために考案された解釈可能性の手法を提案する。

Overfitting remains a prevalent challenge in deep neural networks, leading to suboptimal real-world performance. Employing regularization techniques is a common strategy to counter this challenge, improving model generalization. This paper proposes Simultaneous Learning, a novel regularization approach drawing on Transfer Learning and Multi-task Learning principles, applied specifically to the classification of hop varieties - an integral component of beer production. Our approach harnesses the power of auxiliary datasets in synergy with the target dataset to amplify the acquisition of highly relevant features. Through a strategic modification of the model's final layer, we enable the simultaneous classification of both datasets without the necessity to treat them as disparate tasks. To realize this, we formulate a loss function that includes an inter-group penalty. We conducted experimental evaluations using the InceptionV3 and ResNet50 models, designating the UFOP-HVD hop leaf dataset as the target and ImageNet and PlantNet as auxiliary datasets. Our proposed method exhibited a substantial performance advantage over models without regularization and those adopting dropout regularization, with accuracy improvements ranging from 5 to 22 percentage points. Additionally, we introduce a technique for interpretability devised to assess the quality of features by analyzing correlations among class features in the network's convolutional layers.
翻訳日:2023-05-26 10:44:50 公開日:2023-05-25
# 並列注意とフィードフォワードネット設計を用いたトランスフォーマーにおけるフィードフォワードネットワークの役割の検討

Investigating the Role of Feed-Forward Networks in Transformers Using Parallel Attention and Feed-Forward Net Design ( http://arxiv.org/abs/2305.13297v2 )

ライセンス: Link先を確認
Shashank Sonkar, Richard G. Baraniuk(参考訳) 本稿では,Parallel Attention and Feed-Forward Net Design (PAF) アーキテクチャを用いてトランスフォーマーモデルにおけるFeed-Forward Networks (FFNs) の役割を解析し,それらをシリーズAtention and Feed-Forward Net Design (SAF) アーキテクチャと比較する。 PAFの有効性の中心は、FFNブロックと層内の注意ブロックに関する2つの主要な仮定である。 1)FFNブロックの主要な機能は、トークンの埋め込みにおける等方性を維持し、その変性を防ぐことである。 2)注意ブロックで計算された残余ノルムは、入力トークン埋め込みノルムよりも実質的に小さい。 これらの仮定を実証的に検証するために、我々は2つの大きな言語モデル(RoBERTa-largeとbert-large-uncased)のPAF変種を訓練する。 以上の結果から,両仮定がPAF設計において真であることを示す。 本研究は,トランスアーキテクチャにおけるFFNと自己認識機構の役割と相互作用の理解に寄与する。

This paper investigates the key role of Feed-Forward Networks (FFNs) in transformer models by utilizing the Parallel Attention and Feed-Forward Net Design (PAF) architecture, and comparing it to their Series Attention and Feed-Forward Net Design (SAF) counterparts. Central to the effectiveness of PAF are two main assumptions regarding the FFN block and the attention block within a layer: 1) the primary function of the FFN block is to maintain isotropy among token embeddings and prevent their degeneration, and 2) the residual norm computed in the attention block is substantially smaller than the input token embedding norm. To empirically validate these assumptions, we train PAF variants of two large language models (RoBERTa-large and bert-large-uncased). Our results demonstrate that both assumptions hold true in the PAF design. This study contributes to a deeper understanding of the roles and interactions between FFNs and self-attention mechanisms in transformer architectures.
翻訳日:2023-05-26 10:44:29 公開日:2023-05-25
# EMNS/Imz/ Corpus: ゲーム、テレビ、グラフィックノベルにおけるストーリーテリングのための動機的単一話者データセット

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels ( http://arxiv.org/abs/2305.13137v2 )

ライセンス: Link先を確認
Kari Ali Noriy, Xiaosong Yang, Jian Jun Zhang(参考訳) テキスト音声技術の採用が増加し、会話の文脈や感情のトーンに適応する自然な、感情的な声の需要が高まった。 emotive narrative storytelling (emns) コーパスは対話型物語駆動システムにおける会話の表現力と感情的品質を高めるために作成されたユニークな音声データセットである。 コーパスは、女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。 8つの行動的感情状態を含み、0.68%の分散で均等に分布し、表現力レベルと単語強調ラベル付き自然言語記述を含んでいる。 異なるデータセットからの音声サンプルの評価により、emnsコーパスは感情を正確に伝達し、表現力を示す上で最も高い平均スコアを得た。 共有感情を伝達する他のデータセットを上回り、真正さのレベルを同等に達成した。 分類タスクでは、コーパス内の意図された感情の正確な表現を確認し、参加者は録音を本物で表現豊かだと認識した。 さらに、Apache 2.0ライセンスの下でデータセット収集ツールが利用可能になったことで、研究者のためのリモート音声データ収集が簡単になった。

The increasing adoption of text-to-speech technologies has led to a growing demand for natural and emotive voices that adapt to a conversation's context and emotional tone. The Emotive Narrative Storytelling (EMNS) corpus is a unique speech dataset created to enhance conversations' expressiveness and emotive quality in interactive narrative-driven systems. The corpus consists of a 2.3-hour recording featuring a female speaker delivering labelled utterances. It encompasses eight acted emotional states, evenly distributed with a variance of 0.68%, along with expressiveness levels and natural language descriptions with word emphasis labels. The evaluation of audio samples from different datasets revealed that the EMNS corpus achieved the highest average scores in accurately conveying emotions and demonstrating expressiveness. It outperformed other datasets in conveying shared emotions and achieved comparable levels of genuineness. A classification task confirmed the accurate representation of intended emotions in the corpus, with participants recognising the recordings as genuine and expressive. Additionally, the availability of the dataset collection tool under the Apache 2.0 License simplifies remote speech data collection for researchers.
翻訳日:2023-05-26 10:44:07 公開日:2023-05-25
# EXACT: 分割学習に対する大規模な攻撃

EXACT: Extensive Attack for Split Learning ( http://arxiv.org/abs/2305.12997v2 )

ライセンス: Link先を確認
Xinchi Qiu, Ilias Leontiadis, Luca Melis, Alex Sablayrolles, Pierre Stock(参考訳) プライバシ保護機械学習(PPML)は、プライベート情報を利用したモデルのトレーニングとデプロイを支援する。 特に、オンデバイス機械学習は、推論中にサードパーティサーバとの情報の共有を完全に回避します。 しかし、デバイス上のモデルは通常、サーバのモデルに比べて正確性が低く、(1)デバイス上の小さな機能のみに依存し、(2)エンドユーザデバイス上で効率的に実行するのに十分なサイズでなければならない、という事実がある。 Split Learning(SL)は、これらの制限を克服できる有望なアプローチである。 SLでは、大規模な機械学習モデルが2つの部分に分割され、大きな部分はサーバ側にあり、小さな部分はデバイス上で実行され、プライベート機能を統合することを目的としている。 しかしながら、そのようなモデルのエンドツーエンドのトレーニングでは、プライベート機能やラベルをエンコードするカット層での勾配の交換が必要となる。 本稿では,SLに関連する潜在的なプライバシーリスクに関する知見を提供し,個人情報を再構築するための新たな攻撃手法であるEXACTを導入する。 さらに,様々な緩和戦略の有効性についても検討した。 以上の結果から,3つのデータセットすべてにおいて,攻撃者の有効性が有意に向上し,ほぼ100%の再現精度が得られた。 しかし、少数の差分プライバシー(DP)は、トレーニングの大幅な劣化を引き起こすことなく、このリスクを軽減するのに非常に効果的である。

Privacy-Preserving machine learning (PPML) can help us train and deploy models that utilize private information. In particular, on-device Machine Learning allows us to completely avoid sharing information with a third-party server during inference. However, on-device models are typically less accurate when compared to the server counterparts due to the fact that (1) they typically only rely on a small set of on-device features and (2) they need to be small enough to run efficiently on end-user devices. Split Learning (SL) is a promising approach that can overcome these limitations. In SL, a large machine learning model is divided into two parts, with the bigger part residing on the server-side and a smaller part executing on-device, aiming to incorporate the private features. However, end-to-end training of such models requires exchanging gradients at the cut layer, which might encode private features or labels. In this paper, we provide insights into potential privacy risks associated with SL and introduce a novel attack method, EXACT, to reconstruct private information. Furthermore, we also investigate the effectiveness of various mitigation strategies. Our results indicate that the gradients significantly improve the attacker's effectiveness in all three datasets reaching almost 100% reconstruction accuracy for some features. However, a small amount of differential privacy (DP) is quite effective in mitigating this risk without causing significant training degradation.
翻訳日:2023-05-26 10:43:47 公開日:2023-05-25
# 二元探索による同時機械翻訳のための最適方針の学習

Learning Optimal Policy for Simultaneous Machine Translation via Binary Search ( http://arxiv.org/abs/2305.12774v2 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(simt)は、原文を読みながら翻訳を出力し始め、生成された翻訳をいつ出力するかを決定する正確なポリシーを必要とする。 したがって、ポリシーは、各ターゲットトークンの翻訳中に読み込まれるソーストークンの数を決定する。 しかし, 並列文に対応する黄金律が存在しないため, 高い遅延品質のトレードオフを実現するためには, 正確な翻訳方針を習得することは困難である。 本稿では,バイナリ検索によりオンラインの最適ポリシーを構築する新しい手法を提案する。 本手法では, 明示的な監督手法を用いることで, 推論中の翻訳の完了を誘導する最適ポリシーをSiMTモデルで学習することができる。 4つの翻訳タスクを実験した結果,提案手法はすべてのレイテンシシナリオにおいて強いベースラインを超越できることがわかった。

Simultaneous machine translation (SiMT) starts to output translation while reading the source sentence and needs a precise policy to decide when to output the generated translation. Therefore, the policy determines the number of source tokens read during the translation of each target token. However, it is difficult to learn a precise translation policy to achieve good latency-quality trade-offs, because there is no golden policy corresponding to parallel sentences as explicit supervision. In this paper, we present a new method for constructing the optimal policy online via binary search. By employing explicit supervision, our approach enables the SiMT model to learn the optimal policy, which can guide the model in completing the translation during inference. Experiments on four translation tasks show that our method can exceed strong baselines across all latency scenarios.
翻訳日:2023-05-26 10:43:25 公開日:2023-05-25
# FIT:遠縁インターリーブトランス

FIT: Far-reaching Interleaved Transformers ( http://arxiv.org/abs/2305.12689v2 )

ライセンス: Link先を確認
Ting Chen and Lala Li(参考訳) 我々は,効率的なセルフアテンションと適応計算を備えたトランスフォーマーアーキテクチャを提案する。 データトークンを単一のシーケンスで操作するオリジナルのトランスフォーマーとは異なり、データトークンをグループに分割し、各グループをトークンのより短いシーケンスとする。 ローカルレイヤは各グループ内のデータトークンで動作し、グローバルレイヤは導入済みの潜在トークンのより小さなセットで動作します。 これらの層は、標準トランスフォーマーと同じセルフアテンション層とフィードフォワード層からなるが、インターリーブされ、同じグループ内のデータと潜在トークン間の情報交換を容易にするためにクロスアテンションが使用される。 注意の複雑さは、各サイズのグループ内で局所的に$o(n^2)$であるが、シーケンス長$l$でグローバルに$o(l^{{4}/{3}})$に達する。 より小さな潜在トークンセットを使用して適応計算を行うグローバルレイヤに依存することにより、効率をさらに向上することができる。 FITは汎用アーキテクチャであり、エンコーダ、拡散デコーダ、自動回帰デコーダとして機能する。 我々は,高分解能画像理解と生成タスクにおいてその効果を示す最初の証拠を提供する。 特に、FITは6400$\times$6400イメージや160Kトークン(パッチトークン化後の)などのギガビット規模のデータに対して、16GBのメモリ容量内で、特定の最適化やモデルの並列処理を必要とせずにエンドツーエンドのトレーニングを行う可能性がある。

We present FIT: a transformer-based architecture with efficient self-attention and adaptive computation. Unlike original transformers, which operate on a single sequence of data tokens, we divide the data tokens into groups, with each group being a shorter sequence of tokens. We employ two types of transformer layers: local layers operate on data tokens within each group, while global layers operate on a smaller set of introduced latent tokens. These layers, comprising the same set of self-attention and feed-forward layers as standard transformers, are interleaved, and cross-attention is used to facilitate information exchange between data and latent tokens within the same group. The attention complexity is $O(n^2)$ locally within each group of size $n$, but can reach $O(L^{{4}/{3}})$ globally for sequence length of $L$. The efficiency can be further enhanced by relying more on global layers that perform adaptive computation using a smaller set of latent tokens. FIT is a versatile architecture and can function as an encoder, diffusion decoder, or autoregressive decoder. We provide initial evidence demonstrating its effectiveness in high-resolution image understanding and generation tasks. Notably, FIT exhibits potential in performing end-to-end training on gigabit-scale data, such as 6400$\times$6400 images, or 160K tokens (after patch tokenization), within a memory capacity of 16GB, without requiring specific optimizations or model parallelism.
翻訳日:2023-05-26 10:43:12 公開日:2023-05-25
# マルチモーダルレビュー有益性予測におけるリストワイズコンテキストモデルのための勾配ブースト決定木

Gradient-Boosted Decision Tree for Listwise Context Model in Multimodal Review Helpfulness Prediction ( http://arxiv.org/abs/2305.12678v2 )

ライセンス: Link先を確認
Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Anh Tuan Luu, Cong-Duy Nguyen, Zhen Hai, Lidong Bing(参考訳) MRHP(Multimodal Review Helpfulness Prediction)は、予測された有用度スコアに基づいて製品レビューをランク付けすることを目的としており、顧客に対して有用なレビューを提示することで、電子商取引に広く適用されている。 従来の研究では、最終スコア予測器として完全連結ニューラルネットワーク(FCNN)、トレーニング目的としてペア損失が一般的であった。 しかし、FCNNはレビュー機能に対して非効率な分割を行うことが示されており、このモデルが不便なレビューと明確に区別することは困難である。 さらに、レビューペアで動作するペアワイズ目的は、レビューリスト全体のランキングを作成するためのMRHPの目標を完全には捉えておらず、テスト中に低い一般化をもたらす可能性がある。 これらの問題に対処するために,MRHPランキングのコンテキストを明確に把握するリストワイズアテンションネットワークと,モデル一般化を強化するリストワイズ最適化の目的を提案する。 さらに,製品レビューの表現を効果的に分割するスコア予測器として,勾配ブースト決定木を提案する。 広範な実験により,本手法が最先端の成果を達成し,2つの大規模mrhpベンチマークデータセット上での一般化性能を洗練できることが証明された。

Multimodal Review Helpfulness Prediction (MRHP) aims to rank product reviews based on predicted helpfulness scores and has been widely applied in e-commerce via presenting customers with useful reviews. Previous studies commonly employ fully-connected neural networks (FCNNs) as the final score predictor and pairwise loss as the training objective. However, FCNNs have been shown to perform inefficient splitting for review features, making the model difficult to clearly differentiate helpful from unhelpful reviews. Furthermore, pairwise objective, which works on review pairs, may not completely capture the MRHP goal to produce the ranking for the entire review list, and possibly induces low generalization during testing. To address these issues, we propose a listwise attention network that clearly captures the MRHP ranking context and a listwise optimization objective that enhances model generalization. We further propose gradient-boosted decision tree as the score predictor to efficaciously partition product reviews' representations. Extensive experiments demonstrate that our method achieves state-of-the-art results and polished generalization performance on two large-scale MRHP benchmark datasets.
翻訳日:2023-05-26 10:42:47 公開日:2023-05-25
# VL-Fields:言語学習型ニューラルインプシット空間表現を目指して

VL-Fields: Towards Language-Grounded Neural Implicit Spatial Representations ( http://arxiv.org/abs/2305.12427v2 )

ライセンス: Link先を確認
Nikolaos Tsagkas, Oisin Mac Aodha and Chris Xiaoxuan Lu(参考訳) オープン語彙のセマンティッククエリを可能にする暗黙空間表現であるVisual-Language Fields (VL-Fields)を提案する。 我々のモデルは、言語駆動セグメンテーションモデルから情報を抽出することにより、視覚言語訓練された潜在特徴を持つシーンの幾何学を符号化し、融合する。 VL-Fieldsはシーンオブジェクトクラスに関する事前の知識を必要とせずに訓練されるため、ロボット工学の分野において有望な表現となる。 セマンティクスセグメンテーションのタスクにおいて,我々のモデルは類似したクリップフィールドモデルを約10%上回った。

We present Visual-Language Fields (VL-Fields), a neural implicit spatial representation that enables open-vocabulary semantic queries. Our model encodes and fuses the geometry of a scene with vision-language trained latent features by distilling information from a language-driven segmentation model. VL-Fields is trained without requiring any prior knowledge of the scene object classes, which makes it a promising representation for the field of robotics. Our model outperformed the similar CLIP-Fields model in the task of semantic segmentation by almost 10%.
翻訳日:2023-05-26 10:42:07 公開日:2023-05-25
# 動的占有グリッドマップのためのディープレーダ逆センサモデル

Deep Radar Inverse Sensor Models for Dynamic Occupancy Grid Maps ( http://arxiv.org/abs/2305.12409v2 )

ライセンス: Link先を確認
Zihang Wei, Rujiao Yan, Matthias Schreier(参考訳) 自動運転を実現するためには、センサ入力に基づいて車両環境をモデル化することが不可欠である。 レーダーはよく知られた利点を持ち、車両を取り巻くグリッドセルの占有状態を推測する一般的な選択肢となった。 レーダ検出におけるデータ空間の分散とノイズに対処するために,スパークレーダ検出から極性測定格子へのマッピングを学習するための深層学習に基づく逆センサモデル(ISM)を提案する。 改良されたライダーベースの測定グリッドが参照として使用される。 学習されたレーダ計測グリッドとレーダドップラー速度測定を組み合わせることで、ダイナミックグリッドマップ(dgm)を生成することができる。 実世界の高速道路のシナリオでの実験では、我々のアプローチは手作りの幾何学的ISMよりも優れていた。 最先端の深層学習法と比較して、我々のアプローチは、視野視野(FOV)に制限のあるレーダーから極性スキームの単一フレーム計測格子を学習する最初の方法である。 学習フレームワークは、学習したISMをレーダー搭載から独立させる。 これにより、ネットワークの再トレーニングや360{\deg}センサーのカバレッジの必要なく、1つ以上のレーダーセンサーを柔軟に使用することが可能になります。

To implement autonomous driving, one essential step is to model the vehicle environment based on the sensor inputs. Radars, with their well-known advantages, became a popular option to infer the occupancy state of grid cells surrounding the vehicle. To tackle data sparsity and noise of radar detections, we propose a deep learning-based Inverse Sensor Model (ISM) to learn the mapping from sparse radar detections to polar measurement grids. Improved lidar-based measurement grids are used as reference. The learned radar measurement grids, combined with radar Doppler velocity measurements, are further used to generate a Dynamic Grid Map (DGM). Experiments in real-world highway scenarios show that our approach outperforms the hand-crafted geometric ISMs. In comparison to state-of-the-art deep learning methods, our approach is the first one to learn a single-frame measurement grid in the polar scheme from radars with a limited Field Of View (FOV). The learning framework makes the learned ISM independent of the radar mounting. This enables us to flexibly use one or more radar sensors without network retraining and without requirements on 360{\deg} sensor coverage.
翻訳日:2023-05-26 10:41:56 公開日:2023-05-25
# AdvFunMatch: 一貫性のある教育が逆境のロバストさに出会ったとき

AdvFunMatch: When Consistent Teaching Meets Adversarial Robustness ( http://arxiv.org/abs/2305.14700v2 )

ライセンス: Link先を確認
Zihui Wu, Haichang Gao, Bingqian Zhou, Ping Wang(参考訳) \emph{Consistent teaching}は知識蒸留(KD)を実装するための効果的なパラダイムであり、学生モデルと教師モデルの両方が同一の入力を受け取り、KDは関数マッチングタスク(FunMatch)として扱われる。 しかし、FunMatchの1つの制限は、敵の攻撃に対するモデルの抵抗である敵の堅牢性の伝達を考慮していないことである。 そこで本研究では,学習データの$\ell_p$-norm球内のすべてのデータポイントの分布を一貫した指導に従ってマッチングすることを目的とした,adversarial function matching(advfunmatch)と呼ばれる単純かつ効果的な戦略を提案する。 min-max最適化問題として定式化されたAdvFunMatchは、教師と生徒のモデル出力のKL偏差を最大化する最悪の事例を特定し、これらのミスマッチした例で出力と一致させる。 実験の結果,advfunmatchは高い正確さと頑健さの両立した学生モデルを効果的に生成できることがわかった。 さらに,advfunmatchでは強いデータ拡張(例えば,自動学習)が有益であるのに対し,先行研究では逆行訓練では効果が低いことが判明した。 コードは \url{https://gitee.com/zihui998/adv-fun-match} で利用可能である。

\emph{Consistent teaching} is an effective paradigm for implementing knowledge distillation (KD), where both student and teacher models receive identical inputs, and KD is treated as a function matching task (FunMatch). However, one limitation of FunMatch is that it does not account for the transfer of adversarial robustness, a model's resistance to adversarial attacks. To tackle this problem, we propose a simple but effective strategy called Adversarial Function Matching (AdvFunMatch), which aims to match distributions for all data points within the $\ell_p$-norm ball of the training data, in accordance with consistent teaching. Formulated as a min-max optimization problem, AdvFunMatch identifies the worst-case instances that maximizes the KL-divergence between teacher and student model outputs, which we refer to as "mismatched examples," and then matches the outputs on these mismatched examples. Our experimental results show that AdvFunMatch effectively produces student models with both high clean accuracy and robustness. Furthermore, we reveal that strong data augmentations (\emph{e.g.}, AutoAugment) are beneficial in AdvFunMatch, whereas prior works have found them less effective in adversarial training. Code is available at \url{https://gitee.com/zihui998/adv-fun-match}.
翻訳日:2023-05-26 10:35:55 公開日:2023-05-25
# ORRN:肺4DCT画像を用いた変形性呼吸運動推定のためのODEベースの再帰登録ネットワーク

ORRN: An ODE-based Recursive Registration Network for Deformable Respiratory Motion Estimation with Lung 4DCT Images ( http://arxiv.org/abs/2305.14673v2 )

ライセンス: Link先を確認
Xiao Liang, Shan Lin, Fei Liu, Dimitri Schreiber, and Michael Yip(参考訳) 変形可能な画像登録(DIR)は、医療データにおける変形の定量化に重要な役割を果たす。 近年のDeep Learning法では,医用画像の登録に有望な精度とスピードアップが示されている。 しかし,4D(3D+時間)の医療データでは,呼吸運動や心臓の鼓動などの臓器の動きは,画像ペアに最適化されるため,ペアワイズ法で効果的にモデル化することはできないが,4Dデータを考慮した場合に必要な臓器の動きパターンを考慮しなかった。 本稿では,通常微分方程式(ODE)に基づく再帰的画像登録ネットワークORRNを提案する。 4次元画像データの変形をモデル化するodeの時間変動ボクセル速度を,ネットワークが推定する。 ボクセル速度のODE積分による変形場を段階的に推定するために再帰的登録戦略を採用する。 提案手法は肺4dctデータセットdirlabとcleatisを用いて2つの課題について評価した。 1)3d+t変形追跡のための極端吸入画像への全画像の登録 2)吸入相画像に極端にエクセルを登録する。 本手法は他の学習手法よりも優れており,最小のターゲット登録誤差は1.24mmと1.26mmである。 さらに、非現実的な画像の折り畳みは 0.001\% 未満であり、計算速度はCTボリューム毎に 1 秒未満である。 ORRNは、グループワイドおよびペアワイド登録タスクにおいて、有望な登録精度、変形妥当性、計算効率を示す。 放射線治療における治療計画や胸椎刺入時のロボット動作計画において, 迅速かつ正確な呼吸運動推定を可能にすることに意義がある。

Deformable Image Registration (DIR) plays a significant role in quantifying deformation in medical data. Recent Deep Learning methods have shown promising accuracy and speedup for registering a pair of medical images. However, in 4D (3D + time) medical data, organ motion, such as respiratory motion and heart beating, can not be effectively modeled by pair-wise methods as they were optimized for image pairs but did not consider the organ motion patterns necessary when considering 4D data. This paper presents ORRN, an Ordinary Differential Equations (ODE)-based recursive image registration network. Our network learns to estimate time-varying voxel velocities for an ODE that models deformation in 4D image data. It adopts a recursive registration strategy to progressively estimate a deformation field through ODE integration of voxel velocities. We evaluate the proposed method on two publicly available lung 4DCT datasets, DIRLab and CREATIS, for two tasks: 1) registering all images to the extreme inhale image for 3D+t deformation tracking and 2) registering extreme exhale to inhale phase images. Our method outperforms other learning-based methods in both tasks, producing the smallest Target Registration Error of 1.24mm and 1.26mm, respectively. Additionally, it produces less than 0.001\% unrealistic image folding, and the computation speed is less than 1 second for each CT volume. ORRN demonstrates promising registration accuracy, deformation plausibility, and computation efficiency on group-wise and pair-wise registration tasks. It has significant implications in enabling fast and accurate respiratory motion estimation for treatment planning in radiation therapy or robot motion planning in thoracic needle insertion.
翻訳日:2023-05-26 10:35:24 公開日:2023-05-25
# エンタングル光子により超高速励起ラマン分光法による分子動力学

Entangled Photons Enabled Ultrafast Stimulated Raman Spectroscopy for Molecular Dynamics ( http://arxiv.org/abs/2305.14661v2 )

ライセンス: Link先を確認
Joel Jiahao Fan, Zhe-Yu Jeff Ou, Zhedong Zhang(参考訳) 量子絡み合いは分子と放射線の相互作用の優れた資源として現れてきた。 我々は、エンタングル光子を用いた刺激ラマン散乱の新しいパラダイムを提案する。 量子超高速ラマン分光法は、励起子集団とコヒーレンスを監視するために凝縮相分子のために開発された。 分析結果を求め、古典光では到達できない時間周波数スケールを示す。 ラマン信号は、ホン・ウー・マンデル干渉の結果、前例のない分子相関関数の選択性を示す。 これは典型的な量子の性質であり、明瞭さの分光を推し進める。 我々の研究は、複雑な物質に関する高度な情報を公開する可能性のある、新しい光学信号と分光法を示唆している。

Quantum entanglement has emerged as a great resource for interactions between molecules and radiation. We propose a new paradigm of stimulated Raman scattering with entangled photons. A quantum ultrafast Raman spectroscopy is developed for condensed-phase molecules, to monitor the exciton populations and coherences. Analytic results are obtained, showing a time-frequency scale not attainable by classical light. The Raman signal presents an unprecedented selectivity of molecular correlation functions, as a result of the Hong-Ou-Mandel interference. This is a typical quantum nature, advancing the spectroscopy for clarity. Our work suggests a new scheme of optical signals and spectroscopy, with potential to unveil advanced information about complex materials.
翻訳日:2023-05-26 10:34:58 公開日:2023-05-25
# ビデオマルチモーダル融合のための相互情報最大化による脱ノイズボトルネック

Denoising Bottleneck with Mutual Information Maximization for Video Multimodal Fusion ( http://arxiv.org/abs/2305.14652v2 )

ライセンス: Link先を確認
Shaoxaing Wu, Damai Dai, Ziwei Qin, Tianyu Liu, Binghuai Lin, Yunbo Cao, Zhifang Sui(参考訳) ビデオマルチモーダル融合は、視覚、音声、テキストなどのビデオにマルチモーダル信号を統合することを目的としており、複数のモーダルコンテンツで補完的な予測を行う。 しかし、他の画像テキストのマルチモーダルタスクとは異なり、ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオの両モードで発生する。 ノイズフィルタリングの粒度は,returning gateのような事前のデノイジング手法が粗い。 彼らはしばしば重要な情報を失うリスクを冒して冗長で騒がしい情報を抑圧する。 そこで本研究では,細粒度ビデオマルチモーダル融合のためのDBFモデルを提案する。 一方,騒音や冗長性を抑制された受容野で排除するボトルネック機構を採用している。 一方、相互情報最大化モジュールを用いてフィルタアウトモジュールを制御し、異なるモダリティ内でキー情報を保持する。 我々のDBFモデルは,マルチモーダル感情分析とマルチモーダル要約タスクを含む複数のベンチマークにおいて,最先端のベースラインよりも大幅に改善されている。 このモデルでは、ノイズや冗長なビデオ、音声、テキスト入力から有能な特徴を効果的に捉えることができる。 本論文のコードはhttps://github.com/WSXRHFG/DBF.comで公開されている。

Video multimodal fusion aims to integrate multimodal signals in videos, such as visual, audio and text, to make a complementary prediction with multiple modalities contents. However, unlike other image-text multimodal tasks, video has longer multimodal sequences with more redundancy and noise in both visual and audio modalities. Prior denoising methods like forget gate are coarse in the granularity of noise filtering. They often suppress the redundant and noisy information at the risk of losing critical information. Therefore, we propose a denoising bottleneck fusion (DBF) model for fine-grained video multimodal fusion. On the one hand, we employ a bottleneck mechanism to filter out noise and redundancy with a restrained receptive field. On the other hand, we use a mutual information maximization module to regulate the filter-out module to preserve key information within different modalities. Our DBF model achieves significant improvement over current state-of-the-art baselines on multiple benchmarks covering multimodal sentiment analysis and multimodal summarization tasks. It proves that our model can effectively capture salient features from noisy and redundant video, audio, and text inputs. The code for this paper is publicly available at https://github.com/WSXRHFG/DBF.
翻訳日:2023-05-26 10:34:46 公開日:2023-05-25
# CMOT:音声翻訳のための最適移動によるクロスモーダル混合

CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation ( http://arxiv.org/abs/2305.14635v2 )

ライセンス: Link先を確認
Yan Zhou, Qingkai Fang, Yang Feng(参考訳) end-to-end speech translation (st) は、ソース言語の音声信号を対象言語でテキストに変換するタスクである。 クロスモーダルなタスクとして、限られたデータでエンドツーエンドSTをトレーニングすることは困難である。 既存の手法はしばしば機械翻訳(mt)から知識を転送しようとするが、その性能は音声とテキストのモーダリティギャップによって制限される。 本稿では,モダリティギャップを克服するために,最適輸送CMOTを用いたクロスモーダル混合を提案する。 最適なトランスポートにより音声とテキストの配列のアライメントを見つけ、アライメントを用いて異なるモダリティからのシーケンスをトークンレベルで混合する。 MuST-C STベンチマークの実験では、CMOTは平均30.0のBLEUを8つの翻訳方向で達成し、従来の方法よりも優れていた。 さらに分析した結果、cmotは音声とテキスト間のモーダリティギャップを軽減するために、モーダリティ間のアライメントを適応的に見つけることができる。 コードはhttps://github.com/ictnlp/CMOT.comで公開されている。

End-to-end speech translation (ST) is the task of translating speech signals in the source language into text in the target language. As a cross-modal task, end-to-end ST is difficult to train with limited data. Existing methods often try to transfer knowledge from machine translation (MT), but their performances are restricted by the modality gap between speech and text. In this paper, we propose Cross-modal Mixup via Optimal Transport CMOT to overcome the modality gap. We find the alignment between speech and text sequences via optimal transport and then mix up the sequences from different modalities at a token level using the alignment. Experiments on the MuST-C ST benchmark demonstrate that CMOT achieves an average BLEU of 30.0 in 8 translation directions, outperforming previous methods. Further analysis shows CMOT can adaptively find the alignment between modalities, which helps alleviate the modality gap between speech and text. Code is publicly available at https://github.com/ictnlp/CMOT.
翻訳日:2023-05-26 10:34:30 公開日:2023-05-25
# 多レベル最適化のブロック共役的アプローチと物理インフォーメーションニューラルネットワークへの応用

A Block-Coordinate Approach of Multi-level Optimization with an Application to Physics-Informed Neural Networks ( http://arxiv.org/abs/2305.14477v2 )

ライセンス: Link先を確認
Serge Gratton, Valentin Mercier, Elisa Riccietti, Philippe L. Toint(参考訳) 大規模問題の解法としてマルチレベル法が広く用いられているのは、その計算能力の長所と関連するサブプロブレム間の相補性の利用である。 ブロック座標の観点から多値法を再解釈した後,非線形最適化問題の解のための多値アルゴリズムを提案し,その評価複雑性を解析する。 物理インフォームドニューラルネットワーク(PINN)を用いた偏微分方程式の解に適用し、そのアプローチがより良い解と計算の大幅な削減をもたらすいくつかのテスト問題を示す。

Multi-level methods are widely used for the solution of large-scale problems, because of their computational advantages and exploitation of the complementarity between the involved sub-problems. After a re-interpretation of multi-level methods from a block-coordinate point of view, we propose a multi-level algorithm for the solution of nonlinear optimization problems and analyze its evaluation complexity. We apply it to the solution of partial differential equations using physics-informed neural networks (PINNs) and show on a few test problems that the approach results in better solutions and significant computational savings
翻訳日:2023-05-26 10:34:12 公開日:2023-05-25
# 球面上の連続的スキルの無監督発見

Unsupervised Discovery of Continuous Skills on a Sphere ( http://arxiv.org/abs/2305.14377v2 )

ライセンス: Link先を確認
Takahisa Imagawa, Takuya Hiraoka, Yoshimasa Tsuruoka(参考訳) 近年,非教師なし強化学習の一形態として,外部報酬のない多様な行動を生成する多様なスキルの学習方法が活発に研究されている。 しかし、既存の手法のほとんどは有限個の個別スキルを学習しており、学習スキルで表現できる行動の多様性は限られている。 本稿では,球面上の連続的スキルの発見 (DISCS) と呼ばれる,無限個の異なるスキルを学習するための新しい手法を提案する。 DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。 DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。 我々は, MuJoCo Ant ロボット制御環境における既存の手法と DISCS について検討し,DisCS が他の方法よりもはるかに多様なスキルを習得できることを示す。

Recently, methods for learning diverse skills to generate various behaviors without external rewards have been actively studied as a form of unsupervised reinforcement learning. However, most of the existing methods learn a finite number of discrete skills, and thus the variety of behaviors that can be exhibited with the learned skills is limited. In this paper, we propose a novel method for learning potentially an infinite number of different skills, which is named discovery of continuous skills on a sphere (DISCS). In DISCS, skills are learned by maximizing mutual information between skills and states, and each skill corresponds to a continuous value on a sphere. Because the representations of skills in DISCS are continuous, infinitely diverse skills could be learned. We examine existing methods and DISCS in the MuJoCo Ant robot control environments and show that DISCS can learn much more diverse skills than the other methods.
翻訳日:2023-05-26 10:34:01 公開日:2023-05-25
# 超電導リニア加速器におけるゼロショットによるsacビーム制御

Trend-Based SAC Beam Control Method with Zero-Shot in Superconducting Linear Accelerator ( http://arxiv.org/abs/2305.13869v2 )

ライセンス: Link先を確認
Xiaolong Chen and Xin Qi and Chunguang Su and Yuan He and Zhijun Wang and Kunxiang Sun and Chao Jin and Weilong Chen and Shuhui Liu and Xiaoying Zhao and Duanyang Jia and Man Yi(参考訳) 超伝導線形加速器は近代的な科学的発見のための非常に柔軟な施設であり、毎週の再構成とチューニングを必要とする。 したがって、セットアップ時間の最小化は、十分な実験時間をユーザに提供する上で必須である。 本研究では,強いロバスト性を有するトレンドベースソフトアクタクリティック(tbsac)ビーム制御法を提案し,エージェントをシミュレーション環境で訓練し,ゼロショットで実加速器に直接適用する。 提案手法の有効性を検証するため,中国超重元素加速器施設(CAFe II)と軽粒子注入器(LPI)の2つの典型的なビーム制御タスクを行った。 軌道修正作業はCAFe IIの3つの低温加群で行われ、調整に必要な時間は人間の要求の10分の1に短縮され、修正された軌道のRMS値はいずれも1mm未満であった。 他の伝送効率最適化タスクはlpiで行われ、無線周波数四極子(rfq)の伝送効率を2分で85\%超に最適化した。 これら2つの実験の結果から,提案したTBSACアプローチが,熟練した人的専門家と同じ基準を維持しつつ,ビーム割り当てタスクを効率的に効果的に達成できることが実証された。 そこで,本手法は,他の加速器利用分野における将来の応用の可能性を示す。

The superconducting linear accelerator is a highly flexiable facility for modern scientific discoveries, necessitating weekly reconfiguration and tuning. Accordingly, minimizing setup time proves essential in affording users with ample experimental time. We propose a trend-based soft actor-critic(TBSAC) beam control method with strong robustness, allowing the agents to be trained in a simulated environment and applied to the real accelerator directly with zero-shot. To validate the effectiveness of our method, two different typical beam control tasks were performed on China Accelerator Facility for Superheavy Elements (CAFe II) and a light particle injector(LPI) respectively. The orbit correction tasks were performed in three cryomodules in CAFe II seperately, the time required for tuning has been reduced to one-tenth of that needed by human experts, and the RMS values of the corrected orbit were all less than 1mm. The other transmission efficiency optimization task was conducted in the LPI, our agent successfully optimized the transmission efficiency of radio-frequency quadrupole(RFQ) to over $85\%$ within 2 minutes. The outcomes of these two experiments offer substantiation that our proposed TBSAC approach can efficiently and effectively accomplish beam commissioning tasks while upholding the same standard as skilled human experts. As such, our method exhibits potential for future applications in other accelerator commissioning fields.
翻訳日:2023-05-26 10:33:29 公開日:2023-05-25
# 閉鎖的関連言語の自動可読性評価

Automatic Readability Assessment for Closely Related Languages ( http://arxiv.org/abs/2305.13478v2 )

ライセンス: Link先を確認
Joseph Marvin Imperial, Ekaterina Kochmar(参考訳) 近年,ar(automatic readability assessment, 自動可読性評価)研究の焦点は,モデルの精度向上を主な目標とする,高価なディープラーニング手法にシフトしている。 しかし、既存のNLPツールが無く、より深い言語表現を抽出できないため、手作りの伝統的な特徴がまだ広く使われている低リソース言語では、これはまれである。 本稿では,技術コンポーネントから一歩離れて,相互理解性や言語関連度といった言語面が低リソース環境においてaraをいかに改善できるかに注目する。 フィリピン・タガログ語, ビコル語, セブノ語の3言語で書かれた短編記事を収集し, 様々な言語間設定におけるデータと特徴の相互作用について検討する。 以上の結果から,n-gram 重なりを生かした新たな特徴である crossngo の導入は,市販の大規模多言語モデル単独と比較して,ara モデルの性能を著しく向上させることが示唆された。 その結果,両言語表現が組み合わされた場合,タガログとセブアーノの最先端結果とビコルのARAの基準スコアが得られた。

In recent years, the main focus of research on automatic readability assessment (ARA) has shifted towards using expensive deep learning-based methods with the primary goal of increasing models' accuracy. This, however, is rarely applicable for low-resource languages where traditional handcrafted features are still widely used due to the lack of existing NLP tools to extract deeper linguistic representations. In this work, we take a step back from the technical component and focus on how linguistic aspects such as mutual intelligibility or degree of language relatedness can improve ARA in a low-resource setting. We collect short stories written in three languages in the Philippines-Tagalog, Bikol, and Cebuano-to train readability assessment models and explore the interaction of data and features in various cross-lingual setups. Our results show that the inclusion of CrossNGO, a novel specialized feature exploiting n-gram overlap applied to languages with high mutual intelligibility, significantly improves the performance of ARA models compared to the use of off-the-shelf large multilingual language models alone. Consequently, when both linguistic representations are combined, we achieve state-of-the-art results for Tagalog and Cebuano, and baseline scores for ARA in Bikol.
翻訳日:2023-05-26 10:33:07 公開日:2023-05-25
# tドープ安定化状態の学習

Learning t-doped stabilizer states ( http://arxiv.org/abs/2305.15398v2 )

ライセンス: Link先を確認
Lorenzo Leone, Salvatore F. E. Oliviero and Alioscia Hamma(参考訳) 本稿では,非クリフォードゲートの有限数tをドープしたクリフォード回路により計算基底状態から得られた学習状態を対象とした学習アルゴリズムを提案する。 そこで本研究では, 安定性エントロピーのツールを用いて, t-ドープ安定化状態の代数的枠組みを提案する。 そこで本研究では, 状態のベルサンプリングによって得られるポーリ作用素の期待値と, その共役を計算ベースで求めることで得られる分布からのサンプリングを用いるアルゴリズムを開発した。 このアルゴリズムは複雑さのリソースである$O(\exp(t)poly(n))$を必要とし、指数的に小さな失敗の確率を示す。

In this paper, we present a learning algorithm aimed at learning states obtained from computational basis states by Clifford circuits doped with a finite number t of non-Clifford gates. To tackle this problem, we introduce a novel algebraic framework for t-doped stabilizer states by utilizing tools from stabilizer entropy. Leveraging this new structure, we develop an algorithm that uses sampling from the distribution obtained by squaring expectation values of Pauli operators that can be obtained by Bell sampling on the state and its conjugate in the computational basis. The algorithm requires resources of complexity $O(\exp(t)poly(n))$ and exhibits an exponentially small probability of failure.
翻訳日:2023-05-26 10:25:37 公開日:2023-05-25
# 複数の顔反応生成のための可逆的グラフニューラルネットワークによる反応分布学習

Reversible Graph Neural Network-based Reaction Distribution Learning for Multiple Appropriate Facial Reactions Generation ( http://arxiv.org/abs/2305.15270v2 )

ライセンス: Link先を確認
Tong Xu, Micol Spitale, Hao Tang, Lu Liu, Hatice Gunes, Siyang Song(参考訳) 人間と人間の対話における顔反応の生成は複雑で、複数の顔反応が話者の行動に適しているため、文脈に大きく依存する。 これは既存の機械学習(ML)手法に挑戦し、トレーニング戦略では各入力話者の振る舞いから特定の(複数の)顔反応を再現するモデルを強制する。 本論文では, 顔反応生成問題を1対1マッピング問題として再定式化する, 顔反応生成フレームワークを提案する。 これは,複数の異なる適切な顔反応ではなく,聞き手の適切な顔反応の分布を,訓練中の「1」分布ラベルとして要約することにより,この問題にアプローチすることを意味する。 私たちのモデルは知覚プロセッサ、認知プロセッサ、運動プロセッサで構成されています。 モータプロセッサは、新しい可逆性多次元エッジグラフニューラルネットワーク(regnn)によって実装される。 これにより、トレーニングプロセス中に適切な顔反応の分布を得ることができ、認知プロセッサを訓練して適切な顔反応分布を予測することができる。 推論段階では、REGNNは、この分布を入力として、適切な顔反応を復号する。 実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。 改善された性能は、提案された適切な顔反応分布学習戦略とREGNNの使用に起因する。 コードはhttps://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generationで公開されている。

Generating facial reactions in a human-human dyadic interaction is complex and highly dependent on the context since more than one facial reactions can be appropriate for the speaker's behaviour. This has challenged existing machine learning (ML) methods, whose training strategies enforce models to reproduce a specific (not multiple) facial reaction from each input speaker behaviour. This paper proposes the first multiple appropriate facial reaction generation framework that re-formulates the one-to-many mapping facial reaction generation problem as a one-to-one mapping problem. This means that we approach this problem by considering the generation of a distribution of the listener's appropriate facial reactions instead of multiple different appropriate facial reactions, i.e., 'many' appropriate facial reaction labels are summarised as 'one' distribution label during training. Our model consists of a perceptual processor, a cognitive processor, and a motor processor. The motor processor is implemented with a novel Reversible Multi-dimensional Edge Graph Neural Network (REGNN). This allows us to obtain a distribution of appropriate real facial reactions during the training process, enabling the cognitive processor to be trained to predict the appropriate facial reaction distribution. At the inference stage, the REGNN decodes an appropriate facial reaction by using this distribution as input. Experimental results demonstrate that our approach outperforms existing models in generating more appropriate, realistic, and synchronized facial reactions. The improved performance is largely attributed to the proposed appropriate facial reaction distribution learning strategy and the use of a REGNN. The code is available at https://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generation.
翻訳日:2023-05-26 10:25:27 公開日:2023-05-25
# 協調的世界モデル:オンラインOffline Transfer RLアプローチ

Collaborative World Models: An Online-Offline Transfer RL Approach ( http://arxiv.org/abs/2305.15260v2 )

ライセンス: Link先を確認
Qi Wang, Junming Yang, Yunbo Wang, Xin Jin, Wenjun Zeng, Xiaokang Yang(参考訳) オフラインデータセットにおける視覚強化学習(RL)モデルの訓練は、表現学習における問題と値関数における過大評価の問題により困難である。 本稿では,オフライン環境における視覚rlの性能向上を目的とした,コラボレーティブ・ワールド・モデル(coworld)と呼ばれるトランスファー学習手法を提案する。 ターゲットドメインで学習したオフラインポリシのオンライン"テストベッド"として補助的なrlモデルをトレーニングするために、簡単に操作可能なオフ・ザ・シェルフ・シミュレータを使用することで、バリュー関数に柔軟な制約が与えられます。 具体的には、coworldはドメインコラボレーティブな表現学習を行い、オンラインとオフラインの隠れた状態分散の間のギャップを埋める。 さらに、ソースRLエージェントがターゲット認識値の推定を可能とし、効果的なオフラインポリシー正則化を可能にするドメイン協調行動学習を行う。 実験によると、coworldはdeepmind controlとmeta-worldのオフラインビジュアルコントロールタスクで既存のメソッドを大幅に上回っている。

Training visual reinforcement learning (RL) models in offline datasets is challenging due to overfitting issues in representation learning and overestimation problems in value function. In this paper, we propose a transfer learning method called Collaborative World Models (CoWorld) to improve the performance of visual RL under offline conditions. The core idea is to use an easy-to-interact, off-the-shelf simulator to train an auxiliary RL model as the online "test bed" for the offline policy learned in the target domain, which provides a flexible constraint for the value function -- Intuitively, we want to mitigate the overestimation problem of value functions outside the offline data distribution without impeding the exploration of actions with potential advantages. Specifically, CoWorld performs domain-collaborative representation learning to bridge the gap between online and offline hidden state distributions. Furthermore, it performs domain-collaborative behavior learning that enables the source RL agent to provide target-aware value estimation, allowing for effective offline policy regularization. Experiments show that CoWorld significantly outperforms existing methods in offline visual control tasks in DeepMind Control and Meta-World.
翻訳日:2023-05-26 10:25:04 公開日:2023-05-25
# マイクロ波ドレッシングによるRydberg状態dc偏光率の低減

Reducing Rydberg state dc polarizability by microwave dressing ( http://arxiv.org/abs/2305.15200v2 )

ライセンス: Link先を確認
J.C. Bohorquez, R. Chinnarasu, J. Isaacs, D. Booth, M. Beck, R. McDermott, and M. Saffman(参考訳) 我々はセシウム原子Rydberg状態のdc偏光率の減少をマイクロ波電場ドレッシングを用いた77K環境で実証した。 特に、5,35 GHzから5,1D_{5/2}$の共鳴を持つ5,2P_{3/2}$の偏光性は、低温環境下で超伝導共振器と対向するのに適している。 磁気オプティカルトラップ(MOT)損失分光法を用いてライドバーグ状態の偏光性を測定する。 52P_{3/2}$と51D_{5/2}$を結合した非共振性無線周波数(RF)ドレッシング場を用いて、52P_{3/2}$状態のdc偏光性の80$$以上を実証する。 実験結果はSherley-Floquetフォーマリズムを用いて開発された原子組立場系の数値モデルとよく一致している。 また,dc の偏光性低下は,dc とドレッシング場が整列している場合にはほぼゼロ化可能であるが,直交する場合には2つの偏光性低下の要因しか示さない。 これらの結果は、表面近傍に存在する様々なdc場に対するリドベルク共鳴の安定化に役立ち、ハイブリッドリドベルク原子アップコンダクタンス共振器量子ゲートの開発を進展させる。

We demonstrate reduction of the dc polarizability of Cesium atom Rydberg states in a 77 K environment utilizing microwave field dressing. In particular we reduce the polarizability of $52P_{3/2}$ states which have resonances at 5.35 GHz to $51D_{5/2}$, suitable for interfacing Rydberg atoms to superconducting resonators in a cryogenic environment. We measure the polarizability of the Rydberg states using Magneto-Optical-Trap (MOT) loss spectroscopy. Using an off-resonant radio-frequency (RF) dressing field coupling $52P_{3/2}$ and $51D_{5/2}$ we demonstrate a reduction in dc polarizability of the $ 52P_{3/2}$ states over 80$\%$. Experimental findings are in good agreement with a numerical model of the atom-dressing field system developed using the Shirley-Floquet formalism. We also demonstrate that the dc polarizability reduction is highly anisotropic, with near total nulling possible when the dc and dressing fields are aligned, but only a factor of two reduction in polarizability when the fields are orthogonal. These results may aid in stabilizing Rydberg resonances against varying dc fields present near surfaces, enabling advancement in the development of hybrid Rydberg atom - superconducting resonator quantum gates.
翻訳日:2023-05-26 10:24:38 公開日:2023-05-25
# SyNDock:学習可能なグループ同期によるNリギッドタンパク質ドッキング

SyNDock: N Rigid Protein Docking via Learnable Group Synchronization ( http://arxiv.org/abs/2305.15156v2 )

ライセンス: Link先を確認
Yuanfeng Ji, Yatao Bian, Guoji Fu, Peilin Zhao, Ping Luo(参考訳) 様々な細胞過程の制御は、生体内のタンパク質複合体に大きく依存しており、それらの3次元構造を包括的に理解し、基礎となるメカニズムを明らかにする必要がある。 神経ドッキング技術はバイナリタンパク質ドッキングにおいて有望な結果を示しているが、マルチメリックタンパク質ドッキングへの高度な神経構造の適用はいまだに不確かである。 本研究は、精度の高いマルチメリックコンプレックスを数秒で迅速に組み立てる自動フレームワークであるsyndockを紹介し、最近の先進的アプローチに匹敵する可能性のある性能を示す。 SyNDockには、以前のアプローチにはないいくつかの魅力的な利点がある。 まず、シンドックは多量タンパク質ドッキングをグローバル変換を学習する問題として定式化し、複合体の鎖単位の配置を規則的に描写し、学習中心のソリューションを可能にする。 次に、SyNDockは、初期ペアワイズ変換と信頼度推定を含むトレーニング可能な2段階SE(3)アルゴリズムを提案する。 これにより、コンプレックスをグローバルに一貫した方法で組み立てる効果的な学習が可能になる。 最後に、提案したベンチマークデータセットで実施された広範な実験により、SyNDockは既存のドッキングソフトウェアを精度や実行時間など重要なパフォーマンス指標で上回っていることが示された。 例えば、パフォーマンスが4.5%向上し、100万倍の高速化を達成している。

The regulation of various cellular processes heavily relies on the protein complexes within a living cell, necessitating a comprehensive understanding of their three-dimensional structures to elucidate the underlying mechanisms. While neural docking techniques have exhibited promising outcomes in binary protein docking, the application of advanced neural architectures to multimeric protein docking remains uncertain. This study introduces SyNDock, an automated framework that swiftly assembles precise multimeric complexes within seconds, showcasing performance that can potentially surpass or be on par with recent advanced approaches. SyNDock possesses several appealing advantages not present in previous approaches. Firstly, SyNDock formulates multimeric protein docking as a problem of learning global transformations to holistically depict the placement of chain units of a complex, enabling a learning-centric solution. Secondly, SyNDock proposes a trainable two-step SE(3) algorithm, involving initial pairwise transformation and confidence estimation, followed by global transformation synchronization. This enables effective learning for assembling the complex in a globally consistent manner. Lastly, extensive experiments conducted on our proposed benchmark dataset demonstrate that SyNDock outperforms existing docking software in crucial performance metrics, including accuracy and runtime. For instance, it achieves a 4.5% improvement in performance and a remarkable millionfold acceleration in speed.
翻訳日:2023-05-26 10:24:12 公開日:2023-05-25
# オブジェクト発見のための複素値オートエンコーダのコントラストトレーニング

Contrastive Training of Complex-Valued Autoencoders for Object Discovery ( http://arxiv.org/abs/2305.15001v2 )

ライセンス: Link先を確認
Aleksandar Stani\'c, Anand Gopalakrishnan, Kazuki Irie, J\"urgen Schmidhuber(参考訳) 現在の最先端のオブジェクト中心モデルは、バインディングにスロットと注意に基づくルーティングを使用する。 しかしながら、このモデルのクラスにはいくつかの概念的な制限がある: スロットの数はハードワイヤであり、全てのスロットは同等の容量を持ち、訓練は高い計算コストを持ち、スロット内にオブジェクトレベルの関係因子は存在しない。 同期ベースのモデルは、それらの相成分に結合情報を格納する複雑な値のアクティベーションを使用することで、これらの制限に対処することができる。 しかし、このような同期ベースのモデルの動作例はごく最近まで開発されており、まだおもちゃのグレースケールデータセットと3つ未満のオブジェクトの同時保存に限られている。 ここでは,最新の同期モデルを大幅に改善する,アーキテクチャ修正と新しいコントラスト学習手法を紹介する。 マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見でき、3つ以上のオブジェクトを同時に表現できる同期ベースモデルのクラスを初めて得る。

Current state-of-the-art object-centric models use slots and attention-based routing for binding. However, this class of models has several conceptual limitations: the number of slots is hardwired; all slots have equal capacity; training has high computational cost; there are no object-level relational factors within slots. Synchrony-based models in principle can address these limitations by using complex-valued activations which store binding information in their phase components. However, working examples of such synchrony-based models have been developed only very recently, and are still limited to toy grayscale datasets and simultaneous storage of less than three objects in practice. Here we introduce architectural modifications and a novel contrastive learning method that greatly improve the state-of-the-art synchrony-based model. For the first time, we obtain a class of synchrony-based models capable of discovering objects in an unsupervised manner in multi-object color datasets and simultaneously representing more than three objects
翻訳日:2023-05-26 10:23:45 公開日:2023-05-25
# RefGPT: 参照 -> GPT と GPT による真正かつカスタマイズされた対話生成

RefGPT: Reference -> Truthful & Customized Dialogues Generation by GPTs and for GPTs ( http://arxiv.org/abs/2305.14994v2 )

ライセンス: Link先を確認
Dongjie Yang, Ruifeng Yuan, YuanTao Fan, YiFei Yang, Zili Wang, Shusen Wang, Hai Zhao(参考訳) ChatGPTのような一般的なチャットモデルは、高品質な命令データでLLM(Large Language Models)をチューニングすることで、幅広いNLPタスクを解決するための印象的な能力を得た。 しかし、人間による高品質なデータ収集、特にマルチターン対話は、ほとんどの人にとって高価で持続不可能である。 これまでの研究では、強力なLLMを使って対話を自動的に生成していたが、LLMの幻覚のため、すべて非現実的な対話を発生させる。 そこで本研究では,RefGPTという手法を用いて,モデル幻覚による事実誤りを気にすることなく,膨大な真実とカスタマイズされた対話を生成する手法を提案する。 refgptは、会話生成におけるモデル幻覚を、llmが与えられた参照を利用するように制限することで解決する。 さらに、RefGPTはすべての発話の詳細な制御を追加し、高度なカスタマイズを可能にする。 また、RefGPTに基づいて、GPT-4によって生成された2つの高品質な対話データセット、すなわちRefGPT-FactとRefGPT-Codeを提案する。 RefGPT-Factは事実知識に基づく100kのマルチターン対話データセットであり、RefGPT-Codeは幅広いコーディングシナリオをカバーする76kのマルチターン対話データセットである。 私たちのコードとデータセットはhttps://github.com/ziliwangnlp/RefGPTで公開されています

General chat models, like ChatGPT, have attained impressive capability to resolve a wide range of NLP tasks by tuning Large Language Models (LLMs) with high-quality instruction data. However, collecting human-written high-quality data, especially multi-turn dialogues, is expensive and unattainable for most people. Though previous studies have used powerful LLMs to generate the dialogues automatically, but they all suffer from generating untruthful dialogues because of the LLMs hallucination. Therefore, we propose a method called RefGPT to generate enormous truthful and customized dialogues without worrying about factual errors caused by the model hallucination. RefGPT solves the model hallucination in dialogue generation by restricting the LLMs to leverage the given reference instead of reciting their own knowledge to generate dialogues. Additionally, RefGPT adds detailed controls on every utterances to enable highly customization capability, which previous studies have ignored. On the basis of RefGPT, we also propose two high-quality dialogue datasets generated by GPT-4, namely RefGPT-Fact and RefGPT-Code. RefGPT-Fact is 100k multi-turn dialogue datasets based on factual knowledge and RefGPT-Code is 76k multi-turn dialogue dataset covering a wide range of coding scenarios. Our code and datasets are released in https://github.com/ziliwangnlp/RefGPT
翻訳日:2023-05-26 10:23:29 公開日:2023-05-25
# HARD:ロバスト蒸留のためのハード強化

HARD: Hard Augmentations for Robust Distillation ( http://arxiv.org/abs/2305.14890v2 )

ライセンス: Link先を確認
Arne F. Nix, Max F. Burg, Fabian H. Sinz(参考訳) 知識蒸留 (KD) は、教師から学生モデルに機能的活動のみに基づいて知識を伝達するシンプルで成功した方法である。 しかし、現在のKDにはいくつかの欠点がある: この手法はシフト等分散や領域一般化からの移行に苦慮し、既定の非KDモデルトレーニングよりも最適化時間が長くなるといった単純な帰納バイアスを伝達するのに不適であることが最近示されている。 KDのこれらの側面を改善するために、教師と学生が同意しない合成データポイントを生成する一般的なデータ拡張フレームワークである、ロバスト蒸留のためのハード拡張(HARD)を提案する。 簡単なおもちゃの例で、我々の拡張フレームワークはKDとの単純な等式を伝達する問題を解く。 次に,このフレームワークを実世界のタスクに適用し,簡単な空間変換から,事前学習された変分オートエンコーダによる無拘束画像操作まで,様々な拡張モデルに適用する。 学習の強化により,ドメイン内およびドメイン外評価におけるKD性能が大幅に向上することが判明した。 さらに,本手法は,教師から生徒に受け継がれる特性に関する質的な洞察を提供するため,最先端のデータ拡張でも優れる。 したがって、HARDはKDで訓練されたモデルの一般化と収束速度を改善するために調整された、汎用的で動的に最適化されたデータ拡張技術である。

Knowledge distillation (KD) is a simple and successful method to transfer knowledge from a teacher to a student model solely based on functional activity. However, current KD has a few shortcomings: it has recently been shown that this method is unsuitable to transfer simple inductive biases like shift equivariance, struggles to transfer out of domain generalization, and optimization time is magnitudes longer compared to default non-KD model training. To improve these aspects of KD, we propose Hard Augmentations for Robust Distillation (HARD), a generally applicable data augmentation framework, that generates synthetic data points for which the teacher and the student disagree. We show in a simple toy example that our augmentation framework solves the problem of transferring simple equivariances with KD. We then apply our framework in real-world tasks for a variety of augmentation models, ranging from simple spatial transformations to unconstrained image manipulations with a pretrained variational autoencoder. We find that our learned augmentations significantly improve KD performance on in-domain and out-of-domain evaluation. Moreover, our method outperforms even state-of-the-art data augmentations and since the augmented training inputs can be visualized, they offer a qualitative insight into the properties that are transferred from the teacher to the student. Thus HARD represents a generally applicable, dynamically optimized data augmentation technique tailored to improve the generalization and convergence speed of models trained with KD.
翻訳日:2023-05-26 10:23:01 公開日:2023-05-25
# ニューラルネットワークの実用可能性双対性

Utility-Probability Duality of Neural Networks ( http://arxiv.org/abs/2305.14859v2 )

ライセンス: Link先を確認
Huang Bojun, Fei Yuan(参考訳) 現代のニューラルネットワークのトレーニングは、所望の出力の確率分布に適合するプロセスであると一般的に理解されている。 しかし、多くの言語生成タスクにおける最近のパラドックス観測は、この正準確率に基づく説明がディープラーニングの実証的成功に実際に寄与するかどうか疑問視している。 そこで本研究では,ディープラーニングにおける標準教師あり学習手順に対するユーティリティベースの説明法を提案する。 基本的な考え方は、学習したニューラルネットワークを確率モデルとしてではなく、トレーニングデータに現れる好みをエンコードする順序効用関数として解釈することである。 この観点では、ニューラルネットワークのトレーニングは実用的学習プロセスに対応する。 具体的には、ソフトマックス出力を持つ全てのニューラルネットワークに対して、最大推定値(MLE)のSGD学習ダイナミクスを、ニューラルネットワークを最適なユーティリティ関数に最適化する反復過程と見なすことができる。 このユーティリティに基づく解釈は、訓練されたニューラルネットワークに関するいくつかの他のパラドックス的な観察を説明することができる。 さらに,実効性に基づく理論では,学習した公益価値を,確率互換決定規則が劇的(二桁)性能改善を享受する新しい種類の確率推定に変換できる方程式も含んでいる。 これらの証拠は、現代のニューラルネットワークが(真に)モデリングしていることの観点で、ユーティリティ・プローバビリティの双対性現象を明らかにする。我々は、説明不能な人が現れるまでは、それらは一つのもの(確率)だと考え、考え方を変えて別のもの(有効性値)として扱うことは、元の(確率的)アイデンティティに関する微妙な点が残っているにもかかわらず、理論を概ね調和させる。

It is typically understood that the training of modern neural networks is a process of fitting the probability distribution of desired output. However, recent paradoxical observations in a number of language generation tasks let one wonder if this canonical probability-based explanation can really account for the empirical success of deep learning. To resolve this issue, we propose an alternative utility-based explanation to the standard supervised learning procedure in deep learning. The basic idea is to interpret the learned neural network not as a probability model but as an ordinal utility function that encodes the preference revealed in training data. In this perspective, training of the neural network corresponds to a utility learning process. Specifically, we show that for all neural networks with softmax outputs, the SGD learning dynamic of maximum likelihood estimation (MLE) can be seen as an iteration process that optimizes the neural network toward an optimal utility function. This utility-based interpretation can explain several otherwise-paradoxical observations about the neural networks thus trained. Moreover, our utility-based theory also entails an equation that can transform the learned utility values back to a new kind of probability estimation with which probability-compatible decision rules enjoy dramatic (double-digits) performance improvements. These evidences collectively reveal a phenomenon of utility-probability duality in terms of what modern neural networks are (truly) modeling: We thought they are one thing (probabilities), until the unexplainable showed up; changing mindset and treating them as another thing (utility values) largely reconcile the theory, despite remaining subtleties regarding its original (probabilistic) identity.
翻訳日:2023-05-26 10:22:35 公開日:2023-05-25
# 幾何学的多グラフニューラルネットワークを用いた多状態RNA設計

Multi-State RNA Design with Geometric Multi-Graph Neural Networks ( http://arxiv.org/abs/2305.14749v2 )

ライセンス: Link先を確認
Chaitanya K. Joshi, Arian R. Jamasb, Ramon Vi\~nas, Charles Harris, Simon Mathis, Pietro Li\`o(参考訳) 計算RNAの設計は、合成生物学や治療開発に広く応用されている。 RNAの多様な生物学的機能の基本はコンフォメーションの柔軟性であり、単一の配列が様々な異なる3D状態を採用することができる。 現在、計算的生体分子設計タスクは逆問題として描かれており、配列は1つの望ましい構造的コンフォメーションを採用することに基づいて設計されている。 本研究は,3次元RNAのバックボーン構造からなる形状RNA設計パイプラインであるgRNAdeを提案し,その設計におけるRNAコンフォメーションの多様性を明示的に説明・反映する。 本稿では,新しい大規模3次元RNA設計データセット,特に多状態および構造的に多様なRNAに対して,単一状態アプローチによるネイティブシークエンスリカバリの改善のためのgRNAdeの有用性を示す。 私たちのコードはhttps://github.com/chaitjo/geometric-rna-designで利用可能です。

Computational RNA design has broad applications across synthetic biology and therapeutic development. Fundamental to the diverse biological functions of RNA is its conformational flexibility, enabling single sequences to adopt a variety of distinct 3D states. Currently, computational biomolecule design tasks are often posed as inverse problems, where sequences are designed based on adopting a single desired structural conformation. In this work, we propose gRNAde, a geometric RNA design pipeline that operates on sets of 3D RNA backbone structures to explicitly account for and reflect RNA conformational diversity in its designs. We demonstrate the utility of gRNAde for improving native sequence recovery over single-state approaches on a new large-scale 3D RNA design dataset, especially for multi-state and structurally diverse RNAs. Our code is available at https://github.com/chaitjo/geometric-rna-design
翻訳日:2023-05-26 10:21:46 公開日:2023-05-25