このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230626となっている論文です。

PDF登録状況(公開日: 20230626)

TitleAuthorsAbstract論文公表日・翻訳日
# Melody: リンクしたオープンデータビジュアライゼーションとストーリーテリングのためのプラットフォーム

Melody: A Platform for Linked Open Data Visualisation and Curated Storytelling ( http://arxiv.org/abs/2306.14832v1 )

ライセンス: Link先を確認
Giulia Renda (1), Marilena Daquino (1), Valentina Presutti (1) ((1) University of Bologna)(参考訳) データビジュアライゼーションとストーリーテリング技術は、専門家がデータ間の関係を強調し、広範囲の聴衆と複雑な情報を共有するのに役立つ。 しかしながら、linked open dataの視覚化を目的とした既存のソリューションには、いくつかの制限とナラティブ要素の欠如がある。 本稿では、Linked Open Dataに基づくデータストーリーのオーサリングのためのWebインターフェースであるMELODYを紹介する。 MELODYは、既存のオントロジー設計とユーザエクスペリエンス方法論(eXtreme Design and Design Thinking)を調和させる新しい方法論を使用して設計されており、任意のSPARQLエンドポイントから取得可能なデータに基づいて、Web可読な記事ライクなドキュメントを作成および公開するための再利用可能なユーザインターフェースコンポーネントを提供する。 ソフトウェアを既存のソリューションと比較することで評価し、データの拡散が不可欠であるプロジェクトでその潜在的な影響を示す。

Data visualisation and storytelling techniques help experts highlight relations between data and share complex information with a broad audience. However, existing solutions targeted to Linked Open Data visualisation have several restrictions and lack the narrative element. In this article we present MELODY, a web interface for authoring data stories based on Linked Open Data. MELODY has been designed using a novel methodology that harmonises existing Ontology Design and User Experience methodologies (eXtreme Design and Design Thinking), and provides reusable User Interface components to create and publish web-ready article-alike documents based on data retrievable from any SPARQL endpoint. We evaluate the software by comparing it with existing solutions, and we show its potential impact in projects where data dissemination is crucial.
翻訳日:2023-10-23 18:55:42 公開日:2023-06-26
# 反脆弱なサーバレスアーキテクチャにアクタモデルを採用する

Adopting the Actor Model for Antifragile Serverless Architectures ( http://arxiv.org/abs/2306.14738v1 )

ライセンス: Link先を確認
Marcel Mraz, Hind Bangui, Bruno Rossi, Barbora Buhnova(参考訳) 反脆弱性(antifragility)は、ソフトウェアシステムが障害のような持続的な有害事象に基づいて、時間とともに学び、改善することに焦点を当てた、新しい概念である。 アクターモデルは並列計算を扱うために提案され、最近では複数のサーバレスプラットフォームで採用されている。 本稿では,サーバーレスシステムにおける監視戦略の導入を支援するための新しい考え方を提案する。 本研究では,システム改善のためにアクターやアクターの階層に影響を及ぼし分析できるストレス要因(例えば,障害を注入するなど)の概念に基づく予測戦略を定義する。 提案手法は,複雑性の増大と引き換えにシステムのレジリエンスを向上するが,反フランジシステム構築の方向に進む。

Antifragility is a novel concept focusing on letting software systems learn and improve over time based on sustained adverse events such as failures. The actor model has been proposed to deal with concurrent computation and has recently been adopted in several serverless platforms. In this paper, we propose a new idea for supporting the adoption of supervision strategies in serverless systems to improve the antifragility properties of such systems. We define a predictive strategy based on the concept of stressors (e.g., injecting failures), in which actors or a hierarchy of actors can be impacted and analyzed for systems' improvement. The proposed solution can improve the system's resiliency in exchange for higher complexity but goes in the direction of building antifragile systems.
翻訳日:2023-10-23 18:55:25 公開日:2023-06-26
# 古いファッション特徴抽出と軽量モデルにより脆弱性型識別性能は向上できるか?

Can An Old Fashioned Feature Extraction and A Light-weight Model Improve Vulnerability Type Identification Performance? ( http://arxiv.org/abs/2306.14726v1 )

ライセンス: Link先を確認
Hieu Dinh Vo and Son Nguyen(参考訳) 自動脆弱性検出の最近の進歩は、開発者が脆弱なコンポーネントを決定するのに役立つ可能性がある。 しかし、脆弱性を検出した後、脆弱性のあるコードを修正する調査は簡単ではない。 実際、バッファオーバーフローやメモリ破損のような脆弱性の種類は、開発者は脆弱性の性質を素早く理解し、セキュリティ分析の脆弱性をローカライズするのに役立ちます。 本研究では脆弱性タイプ識別(vti)の問題について検討する。 この問題はマルチラベル分類タスクとしてモデル化され、"事前トレーニング、次に微調整"フレームワークと深い事前学習された埋め込みモデルによって効果的に対処できる。 我々は,vtiのよく知られた高度な事前学習モデルの性能を,多数の脆弱性に対して評価する。 驚いたことに、彼らのパフォーマンスは、昔ながらの単語のバッグであるTF-IDFを使った古典的なベースラインアプローチよりもそれほど良くない。 一方、これらのディープニューラルネットワークアプローチは、より多くのリソースとGPUを必要とする。 また,ベースラインアプローチの予測を洗練するために,軽量な独立コンポーネントを導入する。 私たちの考えでは、脆弱性の種類は、プログラムのいくつかの重要な部分における特定のコードトークン(識別トークン)と強く相関する可能性がある。 各脆弱性タイプの区別トークンは、その型と他の型との有病率に基づいて統計的に識別される。 その結果,本コンポーネントによって強化されたベースラインアプローチは,高い効率を維持しつつ,最先端の深層事前学習アプローチを上回ることができることがわかった。 さらに、提案するコンポーネントは、マクロ平均f1の92.8%までニューラルネットワークアプローチを改善することができる。

Recent advances in automated vulnerability detection have achieved potential results in helping developers determine vulnerable components. However, after detecting vulnerabilities, investigating to fix vulnerable code is a non-trivial task. In fact, the types of vulnerability, such as buffer overflow or memory corruption, could help developers quickly understand the nature of the weaknesses and localize vulnerabilities for security analysis. In this work, we investigate the problem of vulnerability type identification (VTI). The problem is modeled as the multi-label classification task, which could be effectively addressed by "pre-training, then fine-tuning" framework with deep pre-trained embedding models. We evaluate the performance of the well-known and advanced pre-trained models for VTI on a large set of vulnerabilities. Surprisingly, their performance is not much better than that of the classical baseline approach with an old-fashioned bag-of-word, TF-IDF. Meanwhile, these deep neural network approaches cost much more resources and require GPU. We also introduce a lightweight independent component to refine the predictions of the baseline approach. Our idea is that the types of vulnerabilities could strongly correlate to certain code tokens (distinguishing tokens) in several crucial parts of programs. The distinguishing tokens for each vulnerability type are statistically identified based on their prevalence in the type versus the others. Our results show that the baseline approach enhanced by our component can outperform the state-of-the-art deep pre-trained approaches while retaining very high efficiency. Furthermore, the proposed component could also improve the neural network approaches by up to 92.8% in macro-average F1.
翻訳日:2023-10-23 18:55:11 公開日:2023-06-26
# LiResolver: オープンソースソフトウェアのライセンス不互換性解決

LiResolver: License Incompatibility Resolution for Open Source Software ( http://arxiv.org/abs/2306.14675v1 )

ライセンス: Link先を確認
Sihan Xu, Ya Gao, Lingling Fan, Linyu Li, Xiangrui Cai, and Zheli Liu(参考訳) オープンソースソフトウェア(OSS)ライセンスは、OSSを合法的に再利用、配布、修正できる条件を規制する。 しかしながら、ライセンスを伴ってサードパーティOSSを組み込むこと、すなわちライセンスの不互換性は、1つのプロジェクト内に複数のライセンスが存在し、それらの間に矛盾がある場合に発生する。 問題があるにもかかわらず、ライセンスの不互換性の問題を修正するには、ライセンス理解の欠如と複雑なパッケージ依存性のため、かなりの努力が必要である。 本稿では,オープンソースソフトウェアのライセンス非互換性問題を解決するための,きめ細かなスケーラブルで柔軟なツールであるliresolverを提案する。 具体的には、まず、きめ細かいエンティティ抽出と関係抽出を通じてライセンスの意味を理解する。 そして、公式ライセンスを優先して推奨することで、ライセンス不互換性の問題を検出し、解決する。 公式ライセンスが制約を満たすことができない場合、代替ソリューションとしてカスタムライセンスを生成する。 総合的な実験はLiResolverの有効性を示し、LiResolverは4.09%の偽陽性(FP)率と0.02%の偽陰性(FN)レートと230の現実の非互換プロジェクトの62.61%をLiResolverが解決した。 OSS開発者からのフィードバックと、この研究から学んだ教訓について論じる。 すべてのデータセットとLiResolverのレプリケーションパッケージが公開され、フォローアップリサーチが促進された。

Open source software (OSS) licenses regulate the conditions under which OSS can be legally reused, distributed, and modified. However, a common issue arises when incorporating third-party OSS accompanied with licenses, i.e., license incompatibility, which occurs when multiple licenses exist in one project and there are conflicts between them. Despite being problematic, fixing license incompatibility issues requires substantial efforts due to the lack of license understanding and complex package dependency. In this paper, we propose LiResolver, a fine-grained, scalable, and flexible tool to resolve license incompatibility issues for open source software. Specifically, it first understands the semantics of licenses through fine-grained entity extraction and relation extraction. Then, it detects and resolves license incompatibility issues by recommending official licenses in priority. When no official licenses can satisfy the constraints, it generates a custom license as an alternative solution. Comprehensive experiments demonstrate the effectiveness of LiResolver, with 4.09% false positive (FP) rate and 0.02% false negative (FN) rate for incompatibility issue localization, and 62.61% of 230 real-world incompatible projects resolved by LiResolver. We discuss the feedback from OSS developers and the lessons learned from this work. All the datasets and the replication package of LiResolver have been made publicly available to facilitate follow-up research.
翻訳日:2023-10-23 18:54:49 公開日:2023-06-26
# 自動コミットメッセージ生成のための文脈符号化コード変更表現

Context-Encoded Code Change Representation for Automated Commit Message Generation ( http://arxiv.org/abs/2306.14418v1 )

ライセンス: Link先を確認
Thanh Trong Vu, Thanh-Dat Do, and Hieu Dinh Vo(参考訳) ソースコードの変更は避けられないソフトウェア開発の一部です。 それらは、バグの修正や機能の改善など、不可欠なアクティビティの結果です。 コード変更(コミットメッセージ)の説明は、変更をより理解するのに役立ちます。 しかし、モチベーションの欠如と時間的プレッシャーのため、高品質なコミットメッセージの記述はいささか検討されている。 コミットメッセージの自動生成を目的としたいくつかの手法が提案されている。 しかし、既存のメソッドは変更コードか変更コードと周囲のステートメントを組み合わせてのみ利用するため、まだ制限されている。 本稿では,変更したコードと変更したコードにプログラム依存した変更コードを組み合わせることで,コード変更を表現する手法を提案する。 この手法は,5/6の最先端コミットメッセージ生成手法の性能をMETEORで最大15%,ROUGE-Lで14%,BLEU-4で10%向上させながら,現在の表現の限界を克服する。

Changes in source code are an inevitable part of software development. They are the results of indispensable activities such as fixing bugs or improving functionality. Descriptions for code changes (commit messages) help people better understand the changes. However, due to a lack of motivation and time pressure, writing high-quality commit messages remains reluctantly considered. Several methods have been proposed with the aim of automated commit message generation. However, the existing methods are still limited because they only utilise either the changed code or the changed code combined with surrounding statements. This paper proposes a method to represent code changes by combining the changed code and the unchanged code which have program dependence on the changed code. This method overcomes the limitations of current representations while improving the performance of 5/6 of state-of-the-art commit message generation methods by up to 15% in METEOR, 14% in ROUGE-L, and 10% in BLEU-4.
翻訳日:2023-10-23 18:54:26 公開日:2023-06-26
# クラウドネイティブコンピューティング: サービスの観点からの調査

Cloud-Native Computing: A Survey from the Perspective of Services ( http://arxiv.org/abs/2306.14402v1 )

ライセンス: Link先を確認
Shuiguang Deng, Hailiang Zhao, Binbin Huang, Cheng Zhang, Feiyi Chen, Yinuo Deng, Jianwei Yin, Schahram Dustdar, Albert Y. Zomaya(参考訳) クラウドコンピューティング配信モデルの開発は、クラウドネイティブコンピューティングの出現を刺激する。 webアプリケーションの最も影響力のある開発原則であるクラウドネイティブコンピューティングは、すでに業界とアカデミアの両方で注目を集めています。 クラウドネイティブな産業コミュニティの勢いにもかかわらず、このトピックに関する明確な研究ロードマップはまだ欠けている。 この知識への貢献として、サービスの観点から、クラウドネイティブアプリケーションのライフサイクルにおける重要な問題を調査する。 具体的には、クラウドネイティブアプリケーションのライフサイクルを、構築、オーケストレーション、運用、メンテナンスの4つの状態に分離することで、研究領域を詳しく説明します。 また、クラウドネイティブアプリケーションの開発と管理において重要な役割を担っている重要なパフォーマンス指標を要約する。 各状態における既存の作業の重要な意味と制限を強調します。 課題、今後の方向性、研究の機会についても論じる。

The development of cloud computing delivery models inspires the emergence of cloud-native computing. Cloud-native computing, as the most influential development principle for web applications, has already attracted increasingly more attention in both industry and academia. Despite the momentum in the cloud-native industrial community, a clear research roadmap on this topic is still missing. As a contribution to this knowledge, this paper surveys key issues during the life-cycle of cloud-native applications, from the perspective of services. Specifically, we elaborate the research domains by decoupling the life-cycle of cloud-native applications into four states: building, orchestration, operate, and maintenance. We also discuss the fundamental necessities and summarize the key performance metrics that play critical roles during the development and management of cloud-native applications. We highlight the key implications and limitations of existing works in each state. The challenges, future directions, and research opportunities are also discussed.
翻訳日:2023-10-23 18:54:10 公開日:2023-06-26
# 離散スカラー場におけるカシミール力 I:1次元および2次元ケース

Casimir force in discrete scalar fields I: 1D and 2D cases ( http://arxiv.org/abs/2309.00624v1 )

ライセンス: Link先を確認
Eduardo Flores, Christian Ireland, Nabil Jamhour, Victor Lasasso, Nicholas Kurth, and Matthew Leinbach(参考訳) 離散的な質量を持たないスカラー場に対する平行板間のカシミール力を計算する。 スカラー場は連続時空において周期格子を形成する。 正方形と三角形の格子の分散関係は、無限の量に遭遇することなく微妙なカシミール効果を正確に再現することができる。 以上の結果から,カシミール力は周期格子の種類に依存しないことが示された。 低周波では、両格子の高レベルの回転対称性が観測される。 しかし、高周波では両格子は回転対称性を失うが、群速度が0に近づくと高周波波の伝播は著しく制限される。 離散場における物理学の振る舞いは連続の場合と類似するが、例外として自然かつ滑らかなカットオフ機構があり、正規化を必要とする場合に有用であることが証明される。 連続時空の背景に異なる対称性を持つ格子を用いた正規化に対する別のアプローチが見つかったようである。

We calculate the Casimir force between parallel plates for a discrete massless scalar field. The scalar field forms a periodic lattice in continuous spacetime. The dispersion relation for both the square and triangular lattices allows for the accurate reproduction of the subtle Casimir effect without encountering infinite quantities. Our findings demonstrate that the Casimir force is independent of the type of periodic lattice used. At low frequencies, we observe a high level of rotational symmetry in both lattices. However, at high frequencies, both lattices lose their rotational symmetry, although the propagation of high-frequency waves becomes significantly limited as their group velocity approaches zero. We claim that the behavior of physics in discrete fields becomes similar to that in the continuous case, with the exception that we now have a natural and smooth cutoff mechanism that proves useful in cases requiring regularization. It appears that we have found an alternative approach to regularization using lattices with different symmetries in the background of continuous spacetime.
翻訳日:2023-10-23 11:33:09 公開日:2023-06-26
# カオスな流れの中を移動するインテリジェントサーファーのゴールクエスト

Goal quest for an intelligent surfer moving in a chaotic flow ( http://arxiv.org/abs/2307.00019v1 )

ライセンス: Link先を確認
Klaus M. Frahm and Dima L. Shepelyansky(参考訳) カイリコフ標準写像におけるカオス力学によって生成された ulam ネットワーク上を移動するインテリジェントサーファーのモデルについて考察する。 この有向ネットワークは、マルコフ連鎖のノードを形成する固定サイズの細胞において位相空間を分割したumm法により得られる。 このサーファーの目標は、逆遷移確率の和によって与えられる最小の抵抗で、初期ノードAから最終ノードBへのネットワークパスを決定することである。 我々は,ネットワークサイズに対数的にのみ増大する少数の遷移においてクエストを実行できるインテリジェントサーファーのためのアルゴリズムを開発した。 最適経路探索は、前方および反転ネットワークのerd\"os数が少ないノードによって形成されたフラクタル交叉集合上で行われる。 インテリジェントなサーファーは、ターゲットBへの位相空間距離を最小化しようとするナイーブなサーファーを指数関数的に上回り、このようなアルゴリズムはカオスフローにおける動き制御の新しいヒントを提供すると論じる。

We consider a model of an intelligent surfer moving on the Ulam network generated by a chaotic dynamics in the Chirikov standard map. This directed network is obtained by the Ulam method with a division of the phase space in cells of fixed size forming the nodes of a Markov chain. The goal quest for this surfer is to determine the network path from an initial node A to a final node B with minimal resistance given by the sum of inverse transition probabilities. We develop an algorithm for the intelligent surfer that allows to perform the quest in a small number of transitions which grows only logarithmically with the network size. The optimal path search is done on a fractal intersection set formed by nodes with small Erd\"os numbers of the forward and inverted networks. The intelligent surfer exponentially outperforms a naive surfer who tries to minimize its phase space distance to the target B. We argue that such an algorithm provides new hints for motion control in chaotic flows.
翻訳日:2023-07-09 13:48:51 公開日:2023-06-26
# 知識グラフのインダクティブリンク予測に向けて--リレーショナル匿名ウォーク誘導ニューラルプロセスアプローチ

Towards Few-shot Inductive Link Prediction on Knowledge Graphs: A Relational Anonymous Walk-guided Neural Process Approach ( http://arxiv.org/abs/2307.01204v1 )

ライセンス: Link先を確認
Zicheng Zhao, Linhao Luo, Shirui Pan, Quoc Viet Hung Nguyen, Chen Gong(参考訳) 知識グラフ(KGs)上のインダクティブリンク予測は,少数ショットリンクを観測した未確認エンティティの欠落リンクを予測することを目的としている。 従来の方法は、知識グラフにエンティティが存在するトランスダクティブなシナリオに限定されているので、見当たらないエンティティを処理できない。 したがって、近年の帰納的手法は、目に見えない実体を取り巻く部分グラフを用いてセマンティクスを取得し、リンクを誘導的に予測する。 しかし、少ないショット設定では、サブグラフはしばしばスパースであり、意味のあるインダクティブパターンを提供できない。 本稿では,知識グラフ上の数発の帰納的リンク予測をRawNPと表記する,リレーショナルな匿名歩行誘導型ニューラルプロセスを提案する。 具体的には,リンク予測関数上の柔軟な分布をモデル化するニューラルプロセスに基づく手法を提案する。 これにより、モデルが新しいエンティティに迅速に適応し、予測を行う際の不確実性を見積もることができる。 一般的な帰納的パターンを捉えるために,数発の観測から一連の関係モチーフを抽出する関係匿名ウォークを提案する。 これらのモチーフは、帰納的予測をサポートするKGの特異な意味パターンを明らかにする。 典型的なベンチマークデータセットに対する大規模な実験は、我々のモデルが新しい最先端のパフォーマンスを導き出すことを示した。

Few-shot inductive link prediction on knowledge graphs (KGs) aims to predict missing links for unseen entities with few-shot links observed. Previous methods are limited to transductive scenarios, where entities exist in the knowledge graphs, so they are unable to handle unseen entities. Therefore, recent inductive methods utilize the sub-graphs around unseen entities to obtain the semantics and predict links inductively. However, in the few-shot setting, the sub-graphs are often sparse and cannot provide meaningful inductive patterns. In this paper, we propose a novel relational anonymous walk-guided neural process for few-shot inductive link prediction on knowledge graphs, denoted as RawNP. Specifically, we develop a neural process-based method to model a flexible distribution over link prediction functions. This enables the model to quickly adapt to new entities and estimate the uncertainty when making predictions. To capture general inductive patterns, we present a relational anonymous walk to extract a series of relational motifs from few-shot observations. These motifs reveal the distinctive semantic patterns on KGs that support inductive predictions. Extensive experiments on typical benchmark datasets demonstrate that our model derives new state-of-the-art performance.
翻訳日:2023-07-09 13:40:08 公開日:2023-06-26
# クロスドメイン推薦のためのコラボレーティブトランスファー学習フレームワーク

A Collaborative Transfer Learning Framework for Cross-domain Recommendation ( http://arxiv.org/abs/2306.16425v1 )

ライセンス: Link先を確認
Wei Zhang, Pengye Zhang, Bo Zhang, Xingxing Wang, Dong Wang(参考訳) 推薦システムでは、ユーザの多様な関心やニーズを満たす複数のビジネスドメインが存在し、各ドメインのクリックスルーレート(CTR)はかなり異なるため、異なるビジネスドメインに対するCTR予測モデルの必要性が生じる。 業界ソリューションはドメイン固有のモデルや各ドメインの転送学習技術を使用することです。 前者の欠点は、他のドメインからのデータは単一のドメインモデルによって利用されず、後者は異なるドメインからのすべてのデータを利用するが、微調整された転送学習モデルは、ソースドメインの局所的な最適度でモデルをトラップし、ターゲットドメインに適合させることが困難になる。 一方、ドメインシフトとして知られる異なるドメイン間のデータ量と特徴スキーマの大きな違いは、転送プロセスにおける負の転送につながる可能性がある。 これらの課題を克服するため,我々はcctl(collaborative cross-domain transfer learning framework)を提案する。 CCTLは、対称コンパニオンネットワークを用いて、対象ドメイン上のソースドメインの情報ゲインを評価し、情報フローネットワークを用いて、各ソースドメインサンプルの情報転送重量を調整する。 このアプローチは、負のマイグレーションを避けながら、他のドメインデータのフル活用を可能にする。 さらに、表現強化ネットワークは、ドメイン特有の特徴を保存する補助タスクとして使用される。 公共および現実世界の産業データセットに関する総合的な実験において、CCTLはオフラインメトリクスのSOTAスコアを達成した。 同時に、CCTLアルゴリズムはMeituanにデプロイされ、CTRは4.37%、MVリフトは5.43%となった。

In the recommendation systems, there are multiple business domains to meet the diverse interests and needs of users, and the click-through rate(CTR) of each domain can be quite different, which leads to the demand for CTR prediction modeling for different business domains. The industry solution is to use domain-specific models or transfer learning techniques for each domain. The disadvantage of the former is that the data from other domains is not utilized by a single domain model, while the latter leverage all the data from different domains, but the fine-tuned model of transfer learning may trap the model in a local optimum of the source domain, making it difficult to fit the target domain. Meanwhile, significant differences in data quantity and feature schemas between different domains, known as domain shift, may lead to negative transfer in the process of transferring. To overcome these challenges, we propose the Collaborative Cross-Domain Transfer Learning Framework (CCTL). CCTL evaluates the information gain of the source domain on the target domain using a symmetric companion network and adjusts the information transfer weight of each source domain sample using the information flow network. This approach enables full utilization of other domain data while avoiding negative migration. Additionally, a representation enhancement network is used as an auxiliary task to preserve domain-specific features. Comprehensive experiments on both public and real-world industrial datasets, CCTL achieved SOTA score on offline metrics. At the same time, the CCTL algorithm has been deployed in Meituan, bringing 4.37% CTR and 5.43% GMV lift, which is significant to the business.
翻訳日:2023-06-30 16:14:15 公開日:2023-06-26
# 機械学習モデルに基づく学術環境における食品推薦システム

A Food Recommender System in Academic Environments Based on Machine Learning Models ( http://arxiv.org/abs/2306.16528v1 )

ライセンス: Link先を確認
Abolfazl Ajami, Babak Teimourpour(参考訳) 背景:人々の健康は、重要な要因として適切な食事の使用に依存する。 現在、人々の生活の機械化が進み、適切な食事習慣や行動は無視されている。 一方で、健康分野の食品推奨もこの問題に対処しようと試みている。 しかし、西洋の栄養様式の導入と西洋の化学薬品の進歩により、疾病治療や栄養学の分野で多くの問題が浮上している。 近年のテクノロジーの進歩と情報システムにおける人工知能の活用により、人々の健康を改善するためのレコメンデーションシステムの構築が進められている。 方法: 協調フィルタリング, コンテンツベース, 知識ベースモデルを含むハイブリッドレコメンダシステムを用いた。 大学栄養管理システムの2519名の学生を対象に, 食品推薦システムにおいて, 決定木, k-nearest neighbors (knn), adaboost, baggingなどの機械学習モデルを検討した。 基礎代謝率、学生予約記録、選択された食事タイプのプロファイル情報を含む学生情報をオンラインで受信する。 栄養専門家の相談を経て収集された15の特徴のうち、最も効果的な特徴は特徴工学によって選択される。 学生によるエネルギー指標と食品選択履歴に基づく機械学習モデルを用いて,大学メニューからの食品を学生に推奨する。 結果: AdaBoostモデルは73.70%の精度で最高の性能を持つ。 結論: 健康における食事の重要性を考えると, 推薦システムは大量のデータから有用な情報を得るのに有効である。 キーワード:推薦システム、食行動と習慣、機械学習、分類

Background: People's health depends on the use of proper diet as an important factor. Today, with the increasing mechanization of people's lives, proper eating habits and behaviors are neglected. On the other hand, food recommendations in the field of health have also tried to deal with this issue. But with the introduction of the Western nutrition style and the advancement of Western chemical medicine, many issues have emerged in the field of disease treatment and nutrition. Recent advances in technology and the use of artificial intelligence methods in information systems have led to the creation of recommender systems in order to improve people's health. Methods: A hybrid recommender system including, collaborative filtering, content-based, and knowledge-based models was used. Machine learning models such as Decision Tree, k-Nearest Neighbors (kNN), AdaBoost, and Bagging were investigated in the field of food recommender systems on 2519 students in the nutrition management system of a university. Student information including profile information for basal metabolic rate, student reservation records, and selected diet type is received online. Among the 15 features collected and after consulting nutrition experts, the most effective features are selected through feature engineering. Using machine learning models based on energy indicators and food selection history by students, food from the university menu is recommended to students. Results: The AdaBoost model has the highest performance in terms of accuracy with a rate of 73.70 percent. Conclusion: Considering the importance of diet in people's health, recommender systems are effective in obtaining useful information from a huge amount of data. Keywords: Recommender system, Food behavior and habits, Machine learning, Classification
翻訳日:2023-06-30 15:44:12 公開日:2023-06-26
# 時空間熱マップによる模擬:第2位NuPlanチャレンジの解法

Imitation with Spatial-Temporal Heatmap: 2nd Place Solution for NuPlan Challenge ( http://arxiv.org/abs/2306.15700v1 )

ライセンス: Link先を確認
Yihan Hu, Kun Li, Pingyuan Liang, Jingyu Qian, Zhening Yang, Haichao Zhang, Wenxin Shao, Zhuangzhuang Ding, Wei Xu, Qiang Liu(参考訳) 本稿では,nuplan challenge 2023の2位解を提案する。 現実のシナリオにおける自動運転は非常に複雑で不確実である。 複雑なマルチモーダルシナリオで安全な計画を達成することは非常に難しい作業です。 我々のアプローチであるImitation with Space-Temporal Heatmapは、行動クローニングの学習形式を採用し、熱マップ表現による未来のマルチモーダル状態を革新的に予測し、軌道修正技術を用いて最終的な安全性を確保する。 実験は,車両の進行と安全性を効果的にバランスさせ,安全で快適な軌道を生成することを示す。 NuPlanコンペティションでは,エゴの進行度と快適度で最高のスコアを得たが,総合スコアは2位となった。

This paper presents our 2nd place solution for the NuPlan Challenge 2023. Autonomous driving in real-world scenarios is highly complex and uncertain. Achieving safe planning in the complex multimodal scenarios is a highly challenging task. Our approach, Imitation with Spatial-Temporal Heatmap, adopts the learning form of behavior cloning, innovatively predicts the future multimodal states with a heatmap representation, and uses trajectory refinement techniques to ensure final safety. The experiment shows that our method effectively balances the vehicle's progress and safety, generating safe and comfortable trajectories. In the NuPlan competition, we achieved the second highest overall score, while obtained the best scores in the ego progress and comfort metrics.
翻訳日:2023-06-29 17:12:54 公開日:2023-06-26
# 条件付き生成対向ネットワークを用いたパズルゲームの手続き的コンテンツ生成

Procedural content generation of puzzle games using conditional generative adversarial networks ( http://arxiv.org/abs/2306.15696v1 )

ライセンス: Link先を確認
Andreas Hald, Jens Struckmann Hansen, Jeppe Kristensen, Paolo Burelli(参考訳) 本稿では,パズルゲームlily's gardenのレベルを生成するために,パラメータ化生成逆ネットワーク(gans)を用いた実験手法を提案する。 我々は、ganの出力の詳細を制御するために、実レベルから2つの条件ベクトルを抽出する。 GANは第1条件(マップ形状)の近似においてよく機能するが、第2条件(ピース分布)を近似するのに苦労する。 我々は、GANのジェネレータとディスクリミネータの両方の代替アーキテクチャを試すことで、これを改善できるかもしれないと仮定する。

In this article, we present an experimental approach to using parameterized Generative Adversarial Networks (GANs) to produce levels for the puzzle game Lily's Garden. We extract two condition vectors from the real levels in an effort to control the details of the GAN's outputs. While the GANs perform well in approximating the first condition (map shape), they struggle to approximate the second condition (piece distribution). We hypothesize that this might be improved by trying out alternative architectures for both the Generator and Discriminator of the GANs.
翻訳日:2023-06-29 17:12:41 公開日:2023-06-26
# 自己教師付き応答選択によるゼロショット対話の絡み合い

Zero-Shot Dialogue Disentanglement by Self-Supervised Entangled Response Selection ( http://arxiv.org/abs/2110.12646v2 )

ライセンス: Link先を確認
Ta-Chung Chi and Alexander I. Rudnicky(参考訳) 対話の絡み合いは、長く多人数の対話をスレッドにグループ化することを目的としている。 これは対話分析や対話応答選択などの下流アプリケーションに役立ち、クリーンなコンテキスト/レスポンスセットを構築するための第一歩となる。 あいにく、すべての~\emph{reply-to} リンクをラベル付けするには、2次的な作業が必要であり、発話の回数は以下の通りである。 本稿では,まず,a~\textbf{zero-shot}対話のアンタングル解を提案する。 まず,アノテートされていない web から収集した多成分応答選択データセット上でモデルを訓練し,訓練したモデルを用いてゼロショット対話のアンタゴニエーションを行う。 ラベル付きデータがないと、このモデルはクラスタf1スコア25が得られる。 また,様々なラベル付きデータを用いてモデルを微調整する。 実験によると、データのわずか10\%で、完全なdataset\footnote{codeは \url{https://github.com/chijames/zero_shot_dialogue_disentanglement}}でリリースされる。

Dialogue disentanglement aims to group utterances in a long and multi-participant dialogue into threads. This is useful for discourse analysis and downstream applications such as dialogue response selection, where it can be the first step to construct a clean context/response set. Unfortunately, labeling all~\emph{reply-to} links takes quadratic effort w.r.t the number of utterances: an annotator must check all preceding utterances to identify the one to which the current utterance is a reply. In this paper, we are the first to propose a~\textbf{zero-shot} dialogue disentanglement solution. Firstly, we train a model on a multi-participant response selection dataset harvested from the web which is not annotated; we then apply the trained model to perform zero-shot dialogue disentanglement. Without any labeled data, our model can achieve a cluster F1 score of 25. We also fine-tune the model using various amounts of labeled data. Experiments show that with only 10\% of the data, we achieve nearly the same performance of using the full dataset\footnote{Code is released at \url{https://github.com/chijames/zero_shot_dialogue_disentanglement}}.
翻訳日:2023-06-28 18:26:40 公開日:2023-06-26
# 2要素摂動を用いたディープラーニング分類器のロバスト性評価

Benchmarking Robustness of Deep Learning Classifiers Using Two-Factor Perturbation ( http://arxiv.org/abs/2103.03102v5 )

ライセンス: Link先を確認
Wei Dai, Daniel Berleant(参考訳) 本稿では,Deep Learning (DL) 分類器の堅牢性を評価するための基礎的な研究を付け加える。 DL分類器の堅牢性を評価するための新しいベンチマーク手法を考案する。 また,dl分類器のロバスト性ベンチマークを行うために,最小精度,最大精度,平均精度,変動係数を含む,新しい4次元統計可視化ツールを提案する。 頑健なDL分類器を測定するため,クリーンなセット,単一因子摂動のセット,2要素摂動条件のセットを含む総合的な69のベンチマーク画像セットを構築した。 実験結果から, 2要素摂動画像を用いることで, dl分類器のロバスト性と精度が向上することを確認した。 この2要素摂動は、(1)両系列に適用される2つのデジタル摂動(サルト・ペッパーノイズとガウスノイズ)と(2)両系列に適用される1つのデジタル摂動(サルト・ペッパーノイズ)と幾何摂動(回転)とを含む。 ソースコード、関連するイメージセット、予備データはすべてgithubのwebサイトで共有され、将来の学術研究や産業プロジェクトをサポートする。 webリソースはhttps://github.com/caperock/robustaiにある

This paper adds to the fundamental body of work on benchmarking the robustness of deep learning (DL) classifiers. We innovate a new benchmarking methodology to evaluate robustness of DL classifiers. Also, we introduce a new four-quadrant statistical visualization tool, including minimum accuracy, maximum accuracy, mean accuracy, and coefficient of variation, for benchmarking robustness of DL classifiers. To measure robust DL classifiers, we created a comprehensive 69 benchmarking image set, including a clean set, sets with single factor perturbations, and sets with two-factor perturbation conditions. After collecting experimental results, we first report that using two-factor perturbed images improves both robustness and accuracy of DL classifiers. The two-factor perturbation includes (1) two digital perturbations (salt & pepper noise and Gaussian noise) applied in both sequences, and (2) one digital perturbation (salt & pepper noise) and a geometric perturbation (rotation) applied in both sequences. All source codes, related image sets, and preliminary data, figures are shared on a GitHub website to support future academic research and industry projects. The web resources locate at https://github.com/caperock/robustai
翻訳日:2023-06-28 18:25:51 公開日:2023-06-26
# qLEET:パラメータ化された量子回路のためのランドスケープ、表現性、エンタングルパワーおよびトレーニング軌道の可視化

qLEET: Visualizing Loss Landscapes, Expressibility, Entangling Power and Training Trajectories for Parameterized Quantum Circuits ( http://arxiv.org/abs/2205.02095v2 )

ライセンス: Link先を確認
Utkarsh Azad and Animesh Sinha(参考訳) 我々は、様々な変分量子アルゴリズム(VQA)や量子機械学習(QML)アルゴリズムで広く使われているパラメータ化量子回路(PQC)を研究するためのオープンソースのPythonパッケージであるqLEETを提案する。 qLEETは、その絡み合いスペクトルとそれによって生成されるパラメータ化された状態の分布を研究することにより、PQCの表現可能性や絡み合いパワーなどの特性の計算を可能にする。 さらに、PQCのトレーニング軌跡と、異なる目的関数のために生成された高次元の損失景観を可視化することができる。 Qiskit、Cirq、Pyquilといった一般的な量子コンピューティングライブラリを使って構築された量子回路とノイズモデルをサポートする。 本研究では,損失ランドスケープのアンザッツ能力と構造から直感的な洞察を生かして,qLEETがハイブリッド量子古典アルゴリズムの設計と改良の機会を提供することを示す。

We present qLEET, an open-source Python package for studying parameterized quantum circuits (PQCs), which are widely used in various variational quantum algorithms (VQAs) and quantum machine learning (QML) algorithms. qLEET enables the computation of properties such as expressibility and entangling power of a PQC by studying its entanglement spectrum and the distribution of parameterized states produced by it. Furthermore, it allows users to visualize the training trajectories of PQCs along with high-dimensional loss landscapes generated by them for different objective functions. It supports quantum circuits and noise models built using popular quantum computing libraries such as Qiskit, Cirq, and Pyquil. In our work, we demonstrate how qLEET provides opportunities to design and improve hybrid quantum-classical algorithms by utilizing intuitive insights from the ansatz capability and structure of the loss landscape.
翻訳日:2023-06-28 18:17:35 公開日:2023-06-26
# 双線形値ネットワーク

Bilinear value networks ( http://arxiv.org/abs/2204.13695v3 )

ライセンス: Link先を確認
Zhang-Wei Hong, Ge Yang, Pulkit Agrawal(参考訳) オフ・ポリシー・マルチゴール強化学習の主要な枠組みは、目標条件付きq値関数の推定である。 複数の目標を達成するために学習する場合、データ効率は新しい目標へのQ関数の一般化と密接に関連している。 デファクトパラダイムは、モノリシックニューラルネットワークを用いてQ(s, a, g)を近似することである。 Q-関数の一般化を改善するために、2つのベクトル場間のドット積の形で低ランク近似を用いてQ-値を表す双線型分解を提案する。 第1のベクトル場 f(s, a) は状態 s における環境の局所ダイナミクスをキャプチャし、第2の成分 {\phi}(s, g) は現在の状態とゴールの間の大域的な関係をキャプチャする。 両線形分解方式はデータ効率を大幅に向上させ, 従来の方法に比べて分布外目標への移行に優れることを示す。 シミュレーションされたFetchロボットのタスクスーツとシャドウハンドによる巧妙な操作に関する実証的証拠を提供する。

The dominant framework for off-policy multi-goal reinforcement learning involves estimating goal conditioned Q-value function. When learning to achieve multiple goals, data efficiency is intimately connected with the generalization of the Q-function to new goals. The de-facto paradigm is to approximate Q(s, a, g) using monolithic neural networks. To improve the generalization of the Q-function, we propose a bilinear decomposition that represents the Q-value via a low-rank approximation in the form of a dot product between two vector fields. The first vector field, f(s, a), captures the environment's local dynamics at the state s; whereas the second component, {\phi}(s, g), captures the global relationship between the current state and the goal. We show that our bilinear decomposition scheme substantially improves data efficiency, and has superior transfer to out-of-distribution goals compared to prior methods. Empirical evidence is provided on the simulated Fetch robot task-suite and dexterous manipulation with a Shadow hand.
翻訳日:2023-06-28 18:17:19 公開日:2023-06-26
# トポロジカル体験リプレイ

Topological Experience Replay ( http://arxiv.org/abs/2203.15845v3 )

ライセンス: Link先を確認
Zhang-Wei Hong, Tao Chen, Yen-Chen Lin, Joni Pajarinen, Pulkit Agrawal(参考訳) 最先端のディープq-learningメソッドは、experience replayバッファからサンプリングされた状態遷移タプルを使用して、q値を更新する。 この戦略はしばしば、時間差(TD)誤差などの尺度に基づいて、一様かつランダムにデータサンプリングをサンプリングまたは優先順位付けする。 このようなサンプリング戦略は、状態のQ値が後続状態のQ値に依存するため、Q関数の学習において非効率である。 データサンプリング戦略が次の状態のQ値推定の精度を無視している場合、Q値に対する無駄でしばしば誤った更新につながる可能性がある。 この問題を軽減するため、エージェントの経験をグラフに整理し、状態のq値間の依存性を明示的に追跡する。 グラフの各エッジは、単一のアクションを実行することによって、2つの状態間の遷移を表す。 まず,端末状態の集合から始まるグラフの頂点を拡大し,連続的に後方に移動するような,幅優先探索による値バックアップを行う。 本手法は,多種多様な目標達成タスクにおいて,複数のベースラインよりもはるかにデータ効率が高いことを示す。 提案手法は,訓練経験のバッチを多く消費し,画像などの高次元観測データから操作するベースラインよりも優れている。

State-of-the-art deep Q-learning methods update Q-values using state transition tuples sampled from the experience replay buffer. This strategy often uniformly and randomly samples or prioritizes data sampling based on measures such as the temporal difference (TD) error. Such sampling strategies can be inefficient at learning Q-function because a state's Q-value depends on the Q-value of successor states. If the data sampling strategy ignores the precision of the Q-value estimate of the next state, it can lead to useless and often incorrect updates to the Q-values. To mitigate this issue, we organize the agent's experience into a graph that explicitly tracks the dependency between Q-values of states. Each edge in the graph represents a transition between two states by executing a single action. We perform value backups via a breadth-first search starting from that expands vertices in the graph starting from the set of terminal states and successively moving backward. We empirically show that our method is substantially more data-efficient than several baselines on a diverse range of goal-reaching tasks. Notably, the proposed method also outperforms baselines that consume more batches of training experience and operates from high-dimensional observational data such as images.
翻訳日:2023-06-28 18:16:13 公開日:2023-06-26
# 計算コストの高い地質モデルのための代理支援分散Swarm最適化

Surrogate-assisted distributed swarm optimisation for computationally expensive geoscientific models ( http://arxiv.org/abs/2201.06843v3 )

ライセンス: Link先を確認
Rohitash Chandra, Yash Vardhan Sharma(参考訳) 進化的アルゴリズムは、勾配を得るのに困難であるモデル、例えば地質学的景観進化モデルに有利な勾配のない最適化を提供する。 しかし、そのようなモデルは計算コストが高く、並列コンピューティングの困難を伴う分散swarmベースの最適化さえある。 課題に対処するために,サロゲート支援最適化などの効率的な戦略を取り入れることができるが,サロゲートベースモデルトレーニングのためのプロセス間通信の実装は困難である。 本稿では,並列コンピューティングアーキテクチャ上での分散Swarm最適化において,サロゲートに基づく適合度評価を実装した。 筆者らはまず,一連のベンチマーク最適化問題に基づいてフレームワークをテストし,地形進化モデルを備えた地質学的モデルに適用する。 この結果は,ベンチマーク関数とバッドランド景観の進化モデルに対して非常に有望な結果を示す。 並列計算機環境におけるサロゲートを用いて最適化解の精度を維持しつつ計算時間を短縮する。 この論文の主な貢献は、将来古気候や地形の理解を深める上で役立つ地球科学的モデルへの代理に基づく最適化の適用である。

Evolutionary algorithms provide gradient-free optimisation which is beneficial for models that have difficulty in obtaining gradients; for instance, geoscientific landscape evolution models. However, such models are at times computationally expensive and even distributed swarm-based optimisation with parallel computing struggles. We can incorporate efficient strategies such as surrogate-assisted optimisation to address the challenges; however, implementing inter-process communication for surrogate-based model training is difficult. In this paper, we implement surrogate-based estimation of fitness evaluation in distributed swarm optimisation over a parallel computing architecture. We first test the framework on a set of benchmark optimisation problems and then apply it to a geoscientific model that features a landscape evolution model. Our results demonstrate very promising results for benchmark functions and the Badlands landscape evolution model. We obtain a reduction in computational time while retaining optimisation solution accuracy through the use of surrogates in a parallel computing environment. The major contribution of the paper is in the application of surrogate-based optimisation for geoscientific models which can in the future help in a better understanding of paleoclimate and geomorphology.
翻訳日:2023-06-28 18:15:54 公開日:2023-06-26
# ローカルコンピュータとリモートコンピュータを用いた視覚ロボットのリアルタイム強化学習

Real-Time Reinforcement Learning for Vision-Based Robotics Utilizing Local and Remote Computers ( http://arxiv.org/abs/2210.02317v2 )

ライセンス: Link先を確認
Yan Wang, Gautham Vasan, A. Rupam Mahmood(参考訳) リアルタイム学習は、絶え間なく変化する非定常環境に適応するロボットエージェントにとって不可欠である。 ロボットエージェントの一般的なセットアップは、リソース限定のローカルコンピュータと、ワイヤレスで接続された強力なリモートコンピュータの2つの異なるコンピュータを同時に持つことである。 このような設定を考えると、学習システムの性能がリソースの制限によってどの程度影響を受けるか、また、無線接続された強力なコンピュータを効率よく利用してパフォーマンス損失を補う方法が不明確である。 本稿では,2つの深部強化学習(RL)アルゴリズム,Soft Actor-Critic (SAC) と Proximal Policy Optimization (PPO) の計算をローカルコンピュータとリモートコンピュータ間で分散するリアルタイム学習システムであるRemote-Local Distributed (ReLoD) を実装した。 ロボットアームと移動ロボットを用いて開発した2つの視覚制御タスクに対して,システムの性能を評価する。 その結果,SACの性能は資源限定のローカルコンピュータ上で大幅に低下することがわかった。 興味深いことに、学習システムの全ての計算がリモートワークステーションにデプロイされると、SACは性能損失を補うことができなくなり、注意深い考慮なしには、強力なリモートコンピュータを使用することで性能が向上しない可能性がある。 しかし、慎重に選択されたSACの計算分布は、両タスクのパフォーマンスを大幅に改善する。 一方,PPOの性能は計算量分布の影響を受けていない。 さらに、全ての計算が強力なテザリングコンピュータ上でのみ実行される場合、システムの性能は1台のマシンで十分に調整された既存のシステムと同等である。 ReLoDは、視覚ベースのタスクのために複数のロボットに適用される、リアルタイムRLのための唯一の公開システムである。

Real-time learning is crucial for robotic agents adapting to ever-changing, non-stationary environments. A common setup for a robotic agent is to have two different computers simultaneously: a resource-limited local computer tethered to the robot and a powerful remote computer connected wirelessly. Given such a setup, it is unclear to what extent the performance of a learning system can be affected by resource limitations and how to efficiently use the wirelessly connected powerful computer to compensate for any performance loss. In this paper, we implement a real-time learning system called the Remote-Local Distributed (ReLoD) system to distribute computations of two deep reinforcement learning (RL) algorithms, Soft Actor-Critic (SAC) and Proximal Policy Optimization (PPO), between a local and a remote computer. The performance of the system is evaluated on two vision-based control tasks developed using a robotic arm and a mobile robot. Our results show that SAC's performance degrades heavily on a resource-limited local computer. Strikingly, when all computations of the learning system are deployed on a remote workstation, SAC fails to compensate for the performance loss, indicating that, without careful consideration, using a powerful remote computer may not result in performance improvement. However, a carefully chosen distribution of computations of SAC consistently and substantially improves its performance on both tasks. On the other hand, the performance of PPO remains largely unaffected by the distribution of computations. In addition, when all computations happen solely on a powerful tethered computer, the performance of our system remains on par with an existing system that is well-tuned for using a single machine. ReLoD is the only publicly available system for real-time RL that applies to multiple robots for vision-based tasks.
翻訳日:2023-06-28 18:07:28 公開日:2023-06-26
# 想像力は それだけだ! 長期対話計画における抽象シーケンスモデリングのための曲線コントラスト学習

Imagination is All You Need! Curved Contrastive Learning for Abstract Sequence Modeling Utilized on Long Short-Term Dialogue Planning ( http://arxiv.org/abs/2211.07591v2 )

ライセンス: Link先を確認
Justus-Jonas Erker, Stefan Schaffer, Gerasimos Spanakis(参考訳) 時空の曲率(Einstein, 1921)にインスパイアされ,マルチターン対話における発話対間の相対回転距離を学習する新しい表現学習技術であるCCL(Curved Contrastive Learning)を導入する。 得られたバイエンコーダモデルは、目標発話と対応する応答候補を潜在空間に投影することにより、応答ランキングモデルとしてのトランスフォーマーをゼロショット方式で目標に向かって導くことができる。 ここで、コサイン類似度は、対応する目標に向かっての候補発話の距離/到達可能性を示す。 さらに,これらの前処理言語表現を用いて,各部材のコサイン類似性(個別に符号化された)を曲線空間の創発的特性として,エンテーメント強度によってシーケンスの可能性を評価する方法について検討する。 これらの非ローカルな性質は、対話コンテキストが与えられたら、対話における将来のパターンの可能性を想像することができる。 分析の一環として,dailydialog (li et al., 2017) データセットからの会話において,対話を(計画不能)とし,複数のターン(3ターンで61.56%)にわたる計画能力の強い証拠を見つける特徴について検討した。 最後に,最後の発話のみを符号化し,推論中に計算する必要がある相対論的アプローチにより,従来の作業と比較して,シーケンスモデリングタスクの効率が向上することを示す。

Inspired by the curvature of space-time (Einstein, 1921), we introduce Curved Contrastive Learning (CCL), a novel representation learning technique for learning the relative turn distance between utterance pairs in multi-turn dialogues. The resulting bi-encoder models can guide transformers as a response ranking model towards a goal in a zero-shot fashion by projecting the goal utterance and the corresponding reply candidates into a latent space. Here the cosine similarity indicates the distance/reachability of a candidate utterance toward the corresponding goal. Furthermore, we explore how these forward-entailing language representations can be utilized for assessing the likelihood of sequences by the entailment strength i.e. through the cosine similarity of its individual members (encoded separately) as an emergent property in the curved space. These non-local properties allow us to imagine the likelihood of future patterns in dialogues, specifically by ordering/identifying future goal utterances that are multiple turns away, given a dialogue context. As part of our analysis, we investigate characteristics that make conversations (un)plannable and find strong evidence of planning capability over multiple turns (in 61.56% over 3 turns) in conversations from the DailyDialog (Li et al., 2017) dataset. Finally, we show how we achieve higher efficiency in sequence modeling tasks compared to previous work thanks to our relativistic approach, where only the last utterance needs to be encoded and computed during inference.
翻訳日:2023-06-28 17:58:23 公開日:2023-06-26
# クロスタスク一般化のためのマルチヘッドアダプタルーティング

Multi-Head Adapter Routing for Cross-Task Generalization ( http://arxiv.org/abs/2211.03831v2 )

ライセンス: Link先を確認
Lucas Caccia, Edoardo Ponti, Zhan Su, Matheus Pereira, Nicolas Le Roux, Alessandro Sordoni(参考訳) クロスタスク一般化のためのパラメータ効率細調整(PEFT)は、テストタスクに数発の適応をする前に、マルチタスクトレーニングセットの事前トレーニングアダプタで構成される。 Polytropon [Ponti et al., 2023] ($\texttt{Poly}$) は、事前トレーニングと少数ショット適応の両方の間、各タスクの(可変サイズの)アダプタサブセットを選択するルーティング関数とアダプタの在庫を共同で学習する。 本稿では,アダプタルーティングが成功に果たす役割について検討し,その成果に基づいて新しいバリエーションを設計する。 まず、よりきめ細かいルーティングがより表現力を与えるという直感に基づいて構築する。 そこで我々は,アダプタパラメータの$\textit{subsets}$と,パラメータ予算で$\texttt{poly}$を上回る$\texttt{subsets}$を組み合わせた$\texttt{mhr}$ (マルチヘッドルーティング)を提案する。 第二に、$\texttt{Poly}$/$\texttt{MHR}$パフォーマンスは、以前仮説されていたように、アダプタの再結合や局所的な適応を容易にするモジュラー帰納バイアスよりも、より優れたマルチタスク最適化の結果である。 実際、$\texttt{mhr}$は他のどのメソッドよりもタスク間の勾配アライメントが高いことがわかります。 これは、マルチタスク事前トレーニング中にのみルーティングが不可欠であることを意味するため、数ショット適応時に事前トレーニングされたアダプタの平均を微調整してルーティングを破棄する$\texttt{mhr}$-$\mu$を提案する。 これにより、シングルアダプタファインチューニングの有効な方法として$\texttt{MHR}$-$\mu$が確立される。

Parameter-efficient fine-tuning (PEFT) for cross-task generalization consists in pre-training adapters on a multi-task training set before few-shot adaptation to test tasks. Polytropon [Ponti et al., 2023] ($\texttt{Poly}$) jointly learns an inventory of adapters and a routing function that selects a (variable-size) subset of adapters for each task during both pre-training and few-shot adaptation. In this paper, we investigate the role that adapter routing plays in its success and design new variants based on our findings. First, we build on the intuition that finer-grained routing provides more expressivity. Hence, we propose $\texttt{MHR}$ (Multi-Head Routing), which combines $\textit{subsets}$ of adapter parameters and outperforms $\texttt{Poly}$ under a comparable parameter budget; by only fine-tuning the routing function and not the adapters ($\texttt{MHR}$-$z$), we achieve competitive performance with extreme parameter efficiency. Second, we find that $\texttt{Poly}$/$\texttt{MHR}$ performance is a result of better multi-task optimization, rather than modular inductive biases that facilitate adapter recombination and local adaptation, as previously hypothesized. In fact, we find that $\texttt{MHR}$ exhibits higher gradient alignment between tasks than any other method. Since this implies that routing is only crucial during multi-task pre-training, we propose $\texttt{MHR}$-$\mu$, which discards routing and fine-tunes the average of the pre-trained adapters during few-shot adaptation. This establishes $\texttt{MHR}$-$\mu$ as an effective method for single-adapter fine-tuning.
翻訳日:2023-06-28 17:57:35 公開日:2023-06-26
# SizeGAN: 衣服カタログにおけるサイズ表現の改善

SizeGAN: Improving Size Representation in Clothing Catalogs ( http://arxiv.org/abs/2211.02892v2 )

ライセンス: Link先を確認
Kathleen M. Lewis and John Guttag(参考訳) オンライン衣料品カタログには、体型や衣服の大きさの多様性がない。 ブランドは通常、プラスサイズモデルを含む1つか2つのサイズのモデルに衣服を展示する。 そこで本研究では,新しい対象サイズで衣服やモデルの画像を生成する最初の方法を提案する。 我々の主な技術的貢献は、複数の解像度で変形場を学習し、モデルや衣服のサイズを現実的に変化させる条件生成対向ネットワークである。 この2つのユーザ調査の結果から,3次元 – リアリズム,服飾忠実性,サイズ – に沿って,サイズガンが代替手法を上回っていることが分かりました。

Online clothing catalogs lack diversity in body shape and garment size. Brands commonly display their garments on models of one or two sizes, rarely including plus-size models. To our knowledge, our paper presents the first method for generating images of garments and models in a new target size to tackle the size under-representation problem. Our primary technical contribution is a conditional generative adversarial network that learns deformation fields at multiple resolutions to realistically change the size of models and garments. Results from our two user studies show SizeGAN outperforms alternative methods along three dimensions -- realism, garment faithfulness, and size -- which are all important for real world use.
翻訳日:2023-06-28 17:56:55 公開日:2023-06-26
# SSD-LM:テキスト生成とモジュール制御のための半自己回帰型Simplexベース拡散言語モデル

SSD-LM: Semi-autoregressive Simplex-based Diffusion Language Model for Text Generation and Modular Control ( http://arxiv.org/abs/2210.17432v2 )

ライセンス: Link先を確認
Xiaochuang Han, Sachin Kumar, Yulia Tsvetkov(参考訳) 連続値領域(画像など)における拡散モデルの成功にもかかわらず、テキストのような離散領域に対する同様の取り組みは、自己回帰的な言語モデルのパフォーマンスにまだ一致していない。 本稿では,2つの重要な設計選択肢を持つ拡散型言語モデルであるSSD-LMを提案する。 まず、SSD-LMは半自己回帰的で、反復的にテキストのブロックを生成し、復号時にフレキシブルな出力長を実現し、局所的な双方向コンテキスト更新を可能にする。 第二に、学習された潜在空間ではなく自然語彙空間上で拡散し、既成の分類器を用いて分類器のガイダンスとモジュラー制御を組み込むことができる。 我々は、制約のないテキスト生成ベンチマーク上でSSD-LMを評価し、標準品質と多様性の指標で強力な自己回帰型GPT-2モデルに適合または優れ、拡散ベースのベースラインを大幅に上回ることを示す。 制御されたテキスト生成では、SSD-LMは、モジュラリティのさらなる優位性により、競合するベースラインを上回っている。

Despite the growing success of diffusion models in continuous-valued domains (e.g., images), similar efforts for discrete domains such as text have yet to match the performance of autoregressive language models. In this work, we present SSD-LM -- a diffusion-based language model with two key design choices. First, SSD-LM is semi-autoregressive, iteratively generating blocks of text, allowing for flexible output length at decoding time while enabling local bidirectional context updates. Second, it is simplex-based, performing diffusion on the natural vocabulary space rather than a learned latent space, allowing us to incorporate classifier guidance and modular control using off-the-shelf classifiers without any adaptation. We evaluate SSD-LM on unconstrained text generation benchmarks, and show that it matches or outperforms strong autoregressive GPT-2 models across standard quality and diversity metrics, while vastly outperforming diffusion-based baselines. On controlled text generation, SSD-LM also outperforms competitive baselines, with an extra advantage in modularity.
翻訳日:2023-06-28 17:56:30 公開日:2023-06-26
# Q-Exponential Processによるベイズ学習

Bayesian Learning via Q-Exponential Process ( http://arxiv.org/abs/2210.07987v2 )

ライセンス: Link先を確認
Shuyi Li, Michael O'Connor, and Shiwei Lan(参考訳) 正規化は最適化、統計、機械学習における最も基本的なトピックの1つである。 パラメータ $u\in\mbR^d$, $\ell_q$ のペナルティ項 $\Vert u\Vert_q$ を推定する場合、通常は目的関数に追加される。 そのような$\ell_q$のペナルティに対応する確率分布は? モデル関数 $u\in L^q$ のとき、$\Vert u\Vert_q$ に対応する正しい確率過程は何ですか? これは、画像のような大きな次元のオブジェクトを統計的にモデル化する上で重要であり、画像のエッジのような確実性を維持するためのペナルティがある。 本研究では、関数の$l_q$正規化に対応する確率過程 \emph{$q$-exponential (q-ep) process} に対して、(密度比例で)$\exp{(- \half|u|^q)}$ を一般化する。 鍵となるステップは、楕円輪郭分布の大きな族から選ぶことで、一貫した多変量$q$指数分布を定義することである。 この研究は通常拡大級数によって定義されるベソフ過程と密接に関連している。 Q-EPは、明確な確率的定式化と相関長の直接制御によるベソフ過程の定義とみなすことができる。 ベイズの観点からは、Q-EPは一般的に使用されるガウス過程(GP)よりも鋭いペナルティ(q<2$)を持つ関数に対して柔軟な事前を与える。 GP, Besov および Q-EP を機能データのモデリング, 画像再構成, 逆問題解決において比較し, 提案手法の利点を実証する。

Regularization is one of the most fundamental topics in optimization, statistics and machine learning. To get sparsity in estimating a parameter $u\in\mbR^d$, an $\ell_q$ penalty term, $\Vert u\Vert_q$, is usually added to the objective function. What is the probabilistic distribution corresponding to such $\ell_q$ penalty? What is the correct stochastic process corresponding to $\Vert u\Vert_q$ when we model functions $u\in L^q$? This is important for statistically modeling large dimensional objects, e.g. images, with penalty to preserve certainty properties, e.g. edges in the image. In this work, we generalize the $q$-exponential distribution (with density proportional to) $\exp{(- \half|u|^q)}$ to a stochastic process named \emph{$Q$-exponential (Q-EP) process} that corresponds to the $L_q$ regularization of functions. The key step is to specify consistent multivariate $q$-exponential distributions by choosing from a large family of elliptic contour distributions. The work is closely related to Besov process which is usually defined by the expanded series. Q-EP can be regarded as a definition of Besov process with explicit probabilistic formulation and direct control on the correlation length. From the Bayesian perspective, Q-EP provides a flexible prior on functions with sharper penalty ($q<2$) than the commonly used Gaussian process (GP). We compare GP, Besov and Q-EP in modeling functional data, reconstructing images, and solving inverse problems and demonstrate the advantage of our proposed methodology.
翻訳日:2023-06-28 17:55:56 公開日:2023-06-26
# Biomarker Activation Mapによる糖尿病網膜症の診断

Interpretable Diabetic Retinopathy Diagnosis based on Biomarker Activation Map ( http://arxiv.org/abs/2212.06299v3 )

ライセンス: Link先を確認
Pengxiao Zang, Tristan T. Hormel, Jie Wang, Yukun Guo, Steven T. Bailey, Christina J. Flaxel, David Huang, Thomas S. Hwang, and Yali Jia(参考訳) 深層学習分類器は、光学コヒーレンス断層撮影(oct)とその血管造影(octa)に基づいて糖尿病網膜症(dr)を自動的に診断する最も正確な手段を提供する。 これらのモデルのパワーは、部分的には、望ましいタスクを達成するのに必要な複雑さを提供する隠されたレイヤを含めることに起因する。 しかし、隠れた層はアルゴリズムの出力を解釈しにくくする。 本稿では, 臨床医が分類器の意思決定を検証・理解するための, 生成的敵対学習に基づく新しいバイオマーカー活性化マップ(BAM)フレームワークを提案する。 456個の黄斑スキャンを含むデータセットを、現在の臨床基準に基づいて非参照型または参照型DRとして評価した。 BAMを評価するのに使われたDR分類器は、このデータセットに基づいて最初に訓練された。 BAM生成フレームワークは、2つのU字型ジェネレータを組み合わせて設計され、この分類器に意味のある解釈性を提供する。 メインジェネレータは、参照可能なスキャンを入力として取り、分類器によって非参照可能な出力を生成するように訓練された。 次に、bamを主発電機の出力と入力との差分画像として構成する。 BAMが分類器を利用したバイオマーカーのみを強調するようにするために、アシスタントジェネレータは反対に行うように訓練され、参照できないスキャンから分類器によって参照可能なスキャンを生成する。 生成したBAMは非灌流領域や網膜液を含む既知の病態の特徴を強調した。 これらのハイライトに基づいて完全に解釈可能な分類器は、臨床医が自動DR診断をよりよく活用し、検証するのに役立ちます。

Deep learning classifiers provide the most accurate means of automatically diagnosing diabetic retinopathy (DR) based on optical coherence tomography (OCT) and its angiography (OCTA). The power of these models is attributable in part to the inclusion of hidden layers that provide the complexity required to achieve a desired task. However, hidden layers also render algorithm outputs difficult to interpret. Here we introduce a novel biomarker activation map (BAM) framework based on generative adversarial learning that allows clinicians to verify and understand classifiers decision-making. A data set including 456 macular scans were graded as non-referable or referable DR based on current clinical standards. A DR classifier that was used to evaluate our BAM was first trained based on this data set. The BAM generation framework was designed by combing two U-shaped generators to provide meaningful interpretability to this classifier. The main generator was trained to take referable scans as input and produce an output that would be classified by the classifier as non-referable. The BAM is then constructed as the difference image between the output and input of the main generator. To ensure that the BAM only highlights classifier-utilized biomarkers an assistant generator was trained to do the opposite, producing scans that would be classified as referable by the classifier from non-referable scans. The generated BAMs highlighted known pathologic features including nonperfusion area and retinal fluid. A fully interpretable classifier based on these highlights could help clinicians better utilize and verify automated DR diagnosis.
翻訳日:2023-06-28 17:47:07 公開日:2023-06-26
# 一般化計画のための階層的分解と解析

Hierarchical Decomposition and Analysis for Generalized Planning ( http://arxiv.org/abs/2212.02823v2 )

ライセンス: Link先を確認
Siddharth Srivastava(参考訳) 本稿では,関連する計画問題の幅広いクラスを解決できる汎用計画の解析と評価手法を提案する。 一般化計画の合成と学習は、aiの長年の目標であるが、与えられた一般化計画のスコープと有用性を分析する方法の根本的なギャップのため、依然として困難である。 本稿では,汎用計画の終了と目標到達性に関する特性を評価するための証明手法とアルゴリズムプロセスとともに,新たな概念枠組みを開発することで,これらのギャップを解消する。 グラフ理論の古典的な結果に基づいて、一般化された計画をより小さな成分に分解し、階層的終端論を導出する。 これらの方法は、与えられた一般化計画の効用を決定するだけでなく、一般化計画の合成と学習プロセスを導くのに使うことができる。 我々は,この新しいアプローチのスコープを示す実験結果とともに理論的に提示する。 分析の結果,この手法は,自動評価可能な一般化計画のクラスを大幅に拡張し,信頼性の高い一般化計画の合成と学習の障壁を低減できることを示した。

This paper presents new methods for analyzing and evaluating generalized plans that can solve broad classes of related planning problems. Although synthesis and learning of generalized plans has been a longstanding goal in AI, it remains challenging due to fundamental gaps in methods for analyzing the scope and utility of a given generalized plan. This paper addresses these gaps by developing a new conceptual framework along with proof techniques and algorithmic processes for assessing termination and goal-reachability related properties of generalized plans. We build upon classic results from graph theory to decompose generalized plans into smaller components that are then used to derive hierarchical termination arguments. These methods can be used to determine the utility of a given generalized plan, as well as to guide the synthesis and learning processes for generalized plans. We present theoretical as well as empirical results illustrating the scope of this new approach. Our analysis shows that this approach significantly extends the class of generalized plans that can be assessed automatically, thereby reducing barriers in the synthesis and learning of reliable generalized plans.
翻訳日:2023-06-28 17:45:27 公開日:2023-06-26
# コンフォーマル推論は(ほとんど)早期停止で訓練されたニューラルネットワークに対して自由である

Conformal inference is (almost) free for neural networks trained with early stopping ( http://arxiv.org/abs/2301.11556v2 )

ライセンス: Link先を確認
Ziyi Liang, Yanfei Zhou and Matteo Sesia(参考訳) ホールドアウトデータに基づく早期停止は、ニューラルネットワークのオーバーフィットを緩和し、予測精度を高めるために設計された一般的な正規化技術である。 早期停止で訓練されたモデルは、しばしば比較的正確な予測を提供するが、独立したホールトアウトデータを使ってさらに校正されない限り、一般的には正確な統計的保証を欠いている。 本稿では,同じホールドアウトデータを効率的に再利用しながら,早期停止とコンフォメーショナルキャリブレーションを組み合わせた新しい手法を提案する。 これは正確であり、複数のデータ分割や過度に保守的な調整なしに正確な予測推論を提供できるモデルにつながる。 実践的な実装は、外れ値検出、多クラス分類、回帰といった異なる学習タスクのために開発され、その競合性能が実データ上で実証される。

Early stopping based on hold-out data is a popular regularization technique designed to mitigate overfitting and increase the predictive accuracy of neural networks. Models trained with early stopping often provide relatively accurate predictions, but they generally still lack precise statistical guarantees unless they are further calibrated using independent hold-out data. This paper addresses the above limitation with conformalized early stopping: a novel method that combines early stopping with conformal calibration while efficiently recycling the same hold-out data. This leads to models that are both accurate and able to provide exact predictive inferences without multiple data splits nor overly conservative adjustments. Practical implementations are developed for different learning tasks -- outlier detection, multi-class classification, regression -- and their competitive performance is demonstrated on real data.
翻訳日:2023-06-28 17:38:28 公開日:2023-06-26
# ディープニューラルネットワークの入力正規化確率勾配降下訓練

Input Normalized Stochastic Gradient Descent Training of Deep Neural Networks ( http://arxiv.org/abs/2212.09921v2 )

ライセンス: Link先を確認
Salih Atici, Hongyi Pan, Ahmet Enis Cetin(参考訳) 本稿では,適応フィルタリングに使用される正規化最小値正方形 (NLMS) アルゴリズムに着想を得て,入力正規化確率勾配 Descent (INSGD) と呼ばれる機械学習モデルの学習アルゴリズムを提案する。 大規模なデータセット上で複雑なモデルをトレーニングする場合、特に学習率の最適化パラメータの選択は、ばらつきを避けるために不可欠である。 我々のアルゴリズムは,NLMSと同様,学習速度に適用した$\ell_1$および$\ell_2$ベースの正規化を用いて,確率勾配勾配を用いてネットワーク重みを更新する。 しかし、従来の正規化法とは異なり、正規化過程からエラー項を除外し、代わりに入力ベクトルを用いてニューロンに更新項を正規化する。 実験の結果,最適化アルゴリズムは初期化設定の異なる場合に比べて精度が高いことがわかった。 本稿では,ResNet-18,WResNet-20,ResNet-50,玩具ニューラルネットワークを用いて,ベンチマークデータセット上でのトレーニングアルゴリズムの有効性を評価する。 我々のINSGDアルゴリズムは、CIFAR-10のResNet-18を92.42\%から92.71\%に、CIFAR-100のWResNet-20を76.20\%から77.39\%に、ImageNet-1KのResNet-50を75.52\%から75.67\%に改善した。

In this paper, we propose a novel optimization algorithm for training machine learning models called Input Normalized Stochastic Gradient Descent (INSGD), inspired by the Normalized Least Mean Squares (NLMS) algorithm used in adaptive filtering. When training complex models on large datasets, the choice of optimizer parameters, particularly the learning rate, is crucial to avoid divergence. Our algorithm updates the network weights using stochastic gradient descent with $\ell_1$ and $\ell_2$-based normalizations applied to the learning rate, similar to NLMS. However, unlike existing normalization methods, we exclude the error term from the normalization process and instead normalize the update term using the input vector to the neuron. Our experiments demonstrate that our optimization algorithm achieves higher accuracy levels compared to different initialization settings. We evaluate the efficiency of our training algorithm on benchmark datasets using ResNet-18, WResNet-20, ResNet-50, and a toy neural network. Our INSGD algorithm improves the accuracy of ResNet-18 on CIFAR-10 from 92.42\% to 92.71\%, WResNet-20 on CIFAR-100 from 76.20\% to 77.39\%, and ResNet-50 on ImageNet-1K from 75.52\% to 75.67\%.
翻訳日:2023-06-28 17:37:31 公開日:2023-06-26
# 超低モード容量ピエゾ機械式量子トランスデューサの設計

Design of an ultra-low mode volume piezo-optomechanical quantum transducer ( http://arxiv.org/abs/2303.03664v3 )

ライセンス: Link先を確認
Piero Chiappina, Jash Banker, Srujan Meesala, David Lake, Steven Wood, Oskar Painter(参考訳) マイクロ波から光領域への量子状態のコヒーレント変換は、量子ネットワークと分散量子コンピューティングにおいて重要な役割を果たす。 シリコンプラットフォーム上に形成したハイブリッドニオブ酸リチウムで形成した圧電オプトメカニカルデバイスの設計について,マイクロ波-光量子トランスダクションに適した設計法を提案する。 本設計は,超低モード容積ピエゾ音響キャビティと光メカニカル結晶キャビティの音響ハイブリッド化に基づいている。 ニオブ酸リチウムの強い圧電特性は、ニオブ酸リチウムと最小限の相互作用しか持たないアコースティックモードによるトランスダクションを媒介し、電気的および音響的損失が非常に低いシリコン様である。 このトランスデューサは,超伝導トランスモン量子ビットに共振結合し,パルスモードで10kHzの繰り返し速度で動作した場合に,0.5添加ノイズ量子化で35%の固有変換効率を実現することができると推定した。 このようなハイブリッドなニオブ酸リチウム-シリコントランスデューサの性能向上は、光ファイバリンクで接続された超伝導量子プロセッサ間の量子ビットの絡み合いに適している。

Coherent transduction of quantum states from the microwave to the optical domain can play a key role in quantum networking and distributed quantum computing. We present the design of a piezo-optomechanical device formed in a hybrid lithium niobate on silicon platform, that is suitable for microwave-to-optical quantum transduction. Our design is based on acoustic hybridization of an ultra-low mode volume piezoacoustic cavity with an optomechanical crystal cavity. The strong piezoelectric nature of lithium niobate allows us to mediate transduction via an acoustic mode which only minimally interacts with the lithium niobate, and is predominantly silicon-like, with very low electrical and acoustic loss. We estimate that this transducer can realize an intrinsic conversion efficiency of up to 35% with <0.5 added noise quanta when resonantly coupled to a superconducting transmon qubit and operated in pulsed mode at 10 kHz repetition rate. The performance improvement gained in such hybrid lithium niobate-silicon transducers make them suitable for heralded entanglement of qubits between superconducting quantum processors connected by optical fiber links.
翻訳日:2023-06-28 17:28:42 公開日:2023-06-26
# 視覚トランスフォーマーを用いた開語彙物体検出のための領域認識事前学習

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers ( http://arxiv.org/abs/2305.07011v2 )

ライセンス: Link先を確認
Dahun Kim, Anelia Angelova, Weicheng Kuo(参考訳) 本稿では,画像レベルのプリトレーニングとオープンボキャブラリオブジェクト検出のギャップを埋めるために,画像テキストプリトレーニングレシピであるro-vit(region-aware open-vocabulary vision transformers)を提案する。 プレトレーニング段階では,画像全体の位置埋め込みを使わずに,位置埋め込みの領域をランダムに収穫・再サイズすることを提案する。 これは検出微調整フェーズにおける領域レベルでの位置埋め込みの使用に合致する。 さらに,比較学習におけるソフトマックスクロスエントロピー損失を焦点損失に置き換え,情報的かつ難解な例をよりよく学習する。 最後に、新しいオブジェクト提案の最近の進歩を活用して、オープン語彙検出の微調整を改善する。 LVIS と COCO の開語彙検出ベンチマークとゼロショット転送における全モデルの評価を行った。 ro-vit は lvis で最先端の 32.4 $ap_r$ を達成し、競争力のあるゼロショット転送検出に加えて、既存の最良アプローチを+6.1ポイント上回った。 驚いたことに、RO-ViTは画像レベルの表現も改善し、COCOとFlickrの画像テキスト検索ベンチマーク上の12のメトリクスのうち9のテクニックの状態を達成している。

We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a contrastive image-text pretraining recipe to bridge the gap between image-level pretraining and open-vocabulary object detection. At the pretraining phase, we propose to randomly crop and resize regions of positional embeddings instead of using the whole image positional embeddings. This better matches the use of positional embeddings at region-level in the detection finetuning phase. In addition, we replace the common softmax cross entropy loss in contrastive learning with focal loss to better learn the informative yet difficult examples. Finally, we leverage recent advances in novel object proposals to improve open-vocabulary detection finetuning. We evaluate our full model on the LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer. RO-ViT achieves a state-of-the-art 32.4 $AP_r$ on LVIS, surpassing the best existing approach by +6.1 points in addition to competitive zero-shot transfer detection. Surprisingly, RO-ViT improves the image-level representation as well and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr image-text retrieval benchmarks, outperforming competitive approaches with larger models.
翻訳日:2023-06-28 17:09:13 公開日:2023-06-26
# シンクホーン反復とその勾配に対する非漸近収束境界:結合的アプローチ

Non-asymptotic convergence bounds for Sinkhorn iterates and their gradients: a coupling approach ( http://arxiv.org/abs/2304.06549v2 )

ライセンス: Link先を確認
Giacomo Greco, Maxence Noble, Giovanni Conforti, Alain Durmus(参考訳) 計算最適輸送(OT)は、近年、様々な分野で応用される強力なフレームワークとして登場した。 本稿では,従来のOT問題であるエントロピックOT問題の緩和に焦点をあて,高次元設定においても効率的で実用的なアルゴリズム解を実現できる。 この定式化はSchr\"odinger Bridge problemとしても知られ、特にSOC(Stochastic Optimal Control)と接続し、人気のあるシンクホーンアルゴリズムで解くことができる。 離散状態空間の場合、このアルゴリズムは指数収束を持つことが知られているが、より一般的な環境でも同様の収束率を達成することは研究の活発な領域である。 本研究では,$d$次元トーラス$\mathbb{t}_l^d$ 上で定義される確率測度に対するシンクホーンアルゴリズムの収束を解析し,その密度を$\mathbb{t}_l^d$ のハール測度に対して認める。 特に、シンクホーンイテレートとその勾配の点方向の指数収束性を証明する。 我々の証明は、これらの反復と、SOC-プロブレムから得られる値関数のハミルトン・ヤコビ・ベルマン方程式の進化の間の関係に依存する。 我々のアプローチは、純粋に確率的であり、トーラス上の制御拡散に対する反射法による結合に依存している。

Computational optimal transport (OT) has recently emerged as a powerful framework with applications in various fields. In this paper we focus on a relaxation of the original OT problem, the entropic OT problem, which allows to implement efficient and practical algorithmic solutions, even in high dimensional settings. This formulation, also known as the Schr\"odinger Bridge problem, notably connects with Stochastic Optimal Control (SOC) and can be solved with the popular Sinkhorn algorithm. In the case of discrete-state spaces, this algorithm is known to have exponential convergence; however, achieving a similar rate of convergence in a more general setting is still an active area of research. In this work, we analyze the convergence of the Sinkhorn algorithm for probability measures defined on the $d$-dimensional torus $\mathbb{T}_L^d$, that admit densities with respect to the Haar measure of $\mathbb{T}_L^d$. In particular, we prove pointwise exponential convergence of Sinkhorn iterates and their gradient. Our proof relies on the connection between these iterates and the evolution along the Hamilton-Jacobi-Bellman equations of value functions obtained from SOC-problems. Our approach is novel in that it is purely probabilistic and relies on coupling by reflection techniques for controlled diffusions on the torus.
翻訳日:2023-06-28 17:05:42 公開日:2023-06-26
# waymo open sim agentsチャレンジ

The Waymo Open Sim Agents Challenge ( http://arxiv.org/abs/2305.12032v2 )

ライセンス: Link先を確認
Nico Montali, John Lambert, Paul Mougin, Alex Kuefler, Nick Rhinehart, Michelle Li, Cole Gulino, Tristan Emrich, Zoey Yang, Shimon Whiteson, Brandyn White, Dragomir Anguelov(参考訳) 現実的でインタラクティブなエージェントによるシミュレーションは、自動運転車ソフトウェア開発の重要なタスクである。 本稿では,Waymo Open Sim Agents Challenge (WOSAC)を紹介する。 WOSACはこの課題に取り組み、対応するメトリクスを提案する最初の公開課題である。 この課題の目標は、自律運転のための行動モデルの評価と訓練に使用できる現実的なシミュレータの設計を刺激することである。 我々は,2023年3月16日から5月23日にかけて実施された2023年大会における,評価手法の概要,各種のベースラインシミュレーション手法の評価結果について概説する。 wosac評価サーバは引き続き提出を受け付けており、タスクのオープンな問題について議論する。

Simulation with realistic, interactive agents represents a key task for autonomous vehicle software development. In this work, we introduce the Waymo Open Sim Agents Challenge (WOSAC). WOSAC is the first public challenge to tackle this task and propose corresponding metrics. The goal of the challenge is to stimulate the design of realistic simulators that can be used to evaluate and train a behavior model for autonomous driving. We outline our evaluation methodology, present results for a number of different baseline simulation agent methods, and analyze several submissions to the 2023 competition which ran from March 16, 2023 to May 23, 2023. The WOSAC evaluation server remains open for submissions and we discuss open problems for the task.
翻訳日:2023-06-28 16:59:58 公開日:2023-06-26
# 海面の高さと速度場に基づくハイブリッド3次元渦検出技術

A Hybrid 3D Eddy Detection Technique Based on Sea Surface Height and Velocity Field ( http://arxiv.org/abs/2305.08229v2 )

ライセンス: Link先を確認
Weiping Hua, Karen Bemis, Dujuan Kang, Sedat Ozer, Deborah Silver(参考訳) 渦検出は海洋科学者にとって海洋循環を理解し解析する重要な課題である。 本稿では,海面の高さ (ssh) と速度場と渦の挙動を定義する幾何学的基準を組み合わせた渦検出手法を提案する。 海洋学者がエディーズの中心に求めるSSHミニマとマキシマの探索を行った。 幾何的基準は、各渦中心を囲む円形の経路に沿って速度成分を追従することにより、ネット回転や対称性などの期待される速度場特性の検証に使用される。 プログレッシブな探索は、各エディの3D領域に影響を及ぼす。 データセットから各渦構造を分離することで、水平速度、垂直速度、温度、塩分量を用いて内部渦構造の可視化が容易になる。 大久保-ワイス渦性閾値(ow)、標準巻線角、およびこの新しいssh-速度ハイブリッド法による渦検出法を赤海データセットに適用した結果、検出結果は方法、閾値、基準の選定に大きく依存していることが示唆された。 この新しいssh-velocityハイブリッド検出手法は, 回転特性が検証された渦構造を提供すること, 物性の内部構造の3次元可視化, 流線を計算せずに高速に渦足跡を推定できる。 本手法は, 内部構造の可視化と全体移動の追跡を併用し, 栄養分布と海洋循環の相互作用を理解するための輸送機構の研究を支援する。 本手法は3つの異なるデータセットに適用し,その一般性を示す。

Eddy detection is a critical task for ocean scientists to understand and analyze ocean circulation. In this paper, we introduce a hybrid eddy detection approach that combines sea surface height (SSH) and velocity fields with geometric criteria defining eddy behavior. Our approach searches for SSH minima and maxima, which oceanographers expect to find at the center of eddies. Geometric criteria are used to verify expected velocity field properties, such as net rotation and symmetry, by tracing velocity components along a circular path surrounding each eddy center. Progressive searches outward and into deeper layers yield each eddy's 3D region of influence. Isolation of each eddy structure from the dataset, using it's cylindrical footprint, facilitates visualization of internal eddy structures using horizontal velocity, vertical velocity, temperature and salinity. A quantitative comparison of Okubo-Weiss vorticity (OW) thresholding, the standard winding angle, and this new SSH-velocity hybrid methods of eddy detection as applied to the Red Sea dataset suggests that detection results are highly dependent on the choices of method, thresholds, and criteria. Our new SSH-velocity hybrid detection approach has the advantages of providing eddy structures with verified rotation properties, 3D visualization of the internal structure of physical properties, and rapid efficient estimations of eddy footprints without calculating streamlines. Our approach combines visualization of internal structure and tracking overall movement to support the study of the transport mechanisms key to understanding the interaction of nutrient distribution and ocean circulation. Our method is applied to three different datasets to showcase the generality of its application.
翻訳日:2023-06-28 16:57:34 公開日:2023-06-26
# 分離データを用いた2層ニューラルネットワーク学習における高速収束

Fast Convergence in Learning Two-Layer Neural Networks with Separable Data ( http://arxiv.org/abs/2305.13471v2 )

ライセンス: Link先を確認
Hossein Taheri, Christos Thrampoulidis(参考訳) 正規化勾配降下は、分離可能なデータを持つ線形分類器における指数的尾の損失関数(指数的および対数的損失を含む)の収束を加速することに成功した。 本稿では,2層ニューラルネット上での正規化gdの研究により,線形モデルを超えている。 我々は,正規化gdを用いた場合,イテレートが補間モデルを見つければ,トレーニング損失の線形収束率を大域的最適値に導くことを証明する。 これは、一定の勾配自己境界条件と対数リプシッツ性を示すことによって可能となる。 また, アルゴリズム安定性解析による凸対象の正規化GDの一般化についても検討した。 特に、正規化gdは有限時間一般化境界を確立することでトレーニング中に過剰に適合しないことを示す。

Normalized gradient descent has shown substantial success in speeding up the convergence of exponentially-tailed loss functions (which includes exponential and logistic losses) on linear classifiers with separable data. In this paper, we go beyond linear models by studying normalized GD on two-layer neural nets. We prove for exponentially-tailed losses that using normalized GD leads to linear rate of convergence of the training loss to the global optimum if the iterates find an interpolating model. This is made possible by showing certain gradient self-boundedness conditions and a log-Lipschitzness property. We also study generalization of normalized GD for convex objectives via an algorithmic-stability analysis. In particular, we show that normalized GD does not overfit during training by establishing finite-time generalization bounds.
翻訳日:2023-06-28 16:48:08 公開日:2023-06-26
# コピーリカレントニューラルネットワーク構造ネットワーク

Copy Recurrent Neural Network Structure Network ( http://arxiv.org/abs/2305.13250v2 )

ライセンス: Link先を確認
Xiaofan Zhou, Xunzhu Tang(参考訳) EHR(Electronic Health Record)コーディングは、EHRを診断コードに自動的に分類する。 以前のほとんどの研究は、これをマルチラベル分類タスクとして扱い、各コードの確率を生成し、特定のしきい値以上をラベルとして選択するが、これらのアプローチは複雑な疾患を特定するという課題をしばしば見落としている。 本研究では, EHR内の合併症の検出に焦点をあてる。 EHR符号化のためのパスジェネレータ (PG) とパス識別器 (PD) を用いるCRNNet (Copy Recurrent Neural Network Structure Network) と呼ばれる新しい粗いICDパス生成フレームワークを提案する。 RNNを用いて逐次出力を生成し、コピーモジュールを組み込むことで、合併症の特定を効率的に行う。 本手法は, 予測, 最先端, 先行手法において57.30 %の複雑な疾患の比率を達成している。 さらに, アブレーション研究を通じて, 複雑な疾患の検出においてコピー機構が重要な役割を担っていることを示す。

Electronic Health Record (EHR) coding involves automatically classifying EHRs into diagnostic codes. While most previous research treats this as a multi-label classification task, generating probabilities for each code and selecting those above a certain threshold as labels, these approaches often overlook the challenge of identifying complex diseases. In this study, our focus is on detecting complication diseases within EHRs. We propose a novel coarse-to-fine ICD path generation framework called the Copy Recurrent Neural Network Structure Network (CRNNet), which employs a Path Generator (PG) and a Path Discriminator (PD) for EHR coding. By using RNNs to generate sequential outputs and incorporating a copy module, we efficiently identify complication diseases. Our method achieves a 57.30\% ratio of complex diseases in predictions, outperforming state-of-the-art and previous approaches. Additionally, through an ablation study, we demonstrate that the copy mechanism plays a crucial role in detecting complex diseases.
翻訳日:2023-06-28 16:47:56 公開日:2023-06-26
# emo: 少数のメタラーニングのためのエピソディクスメモリ最適化

EMO: Episodic Memory Optimization for Few-Shot Meta-Learning ( http://arxiv.org/abs/2306.05189v3 )

ライセンス: Link先を確認
Yingjun Du, Jiayi Shen, Xiantong Zhen, Cees G.M. Snoek(参考訳) タスク毎のトレーニングサンプル数が限られているため、勾配勾配勾配最適化の課題は少ない。 この問題に対処するために,脳の記憶から過去の学習体験を想起する人間の能力に触発された,メタラーニングのためのエピソードメモリ最適化(EMO)を提案する。 EMOは過去の経験豊富なタスクの勾配履歴を外部メモリに保持し、メモリ拡張された方法で数ショットの学習を可能にする。 過去のトレーニングタスクの学習プロセスの保持とリコールを学習することにより、EMOは、限られた数のサンプルによって提供される勾配が非形式的である場合でも、パラメータを正しい方向に更新する。 理論的には、このアルゴリズムは滑らかで強い凸目的に対して収束する。 EMOは汎用的で柔軟性があり、モデルに依存しないため、既存の最適化ベースの数ショットメタ学習アプローチにシームレスに組み込むことのできる、シンプルなプラグアンドプレイオプティマイザである。 実験の結果,emoは最小ショット分類ベンチマークのほとんどによく適合し,最適化に基づくメタ学習手法の性能が向上し,収束が促進された。

Few-shot meta-learning presents a challenge for gradient descent optimization due to the limited number of training samples per task. To address this issue, we propose an episodic memory optimization for meta-learning, we call EMO, which is inspired by the human ability to recall past learning experiences from the brain's memory. EMO retains the gradient history of past experienced tasks in external memory, enabling few-shot learning in a memory-augmented way. By learning to retain and recall the learning process of past training tasks, EMO nudges parameter updates in the right direction, even when the gradients provided by a limited number of examples are uninformative. We prove theoretically that our algorithm converges for smooth, strongly convex objectives. EMO is generic, flexible, and model-agnostic, making it a simple plug-and-play optimizer that can be seamlessly embedded into existing optimization-based few-shot meta-learning approaches. Empirical results show that EMO scales well with most few-shot classification benchmarks and improves the performance of optimization-based meta-learning methods, resulting in accelerated convergence.
翻訳日:2023-06-28 16:39:42 公開日:2023-06-26
# ランダム射影による高速最適局所的平均推定

Fast Optimal Locally Private Mean Estimation via Random Projections ( http://arxiv.org/abs/2306.04444v2 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Jelani Nelson, Huy L. Nguyen, Kunal Talwar(参考訳) ユークリッド球における高次元ベクトルの局所的プライベート平均推定の問題について検討する。 この問題に対する既存のアルゴリズムは、サブオプティマイズエラーを引き起こすか、通信や実行時の複雑さが高い。 本稿では,計算効率が高く,通信の複雑度が低く,最大1+o(1)$-factorの誤差が生じるアルゴリズムをプライベート平均推定のために提案するアルゴリズムフレームワークであるProjUnitを提案する。 各ランダム化器はその入力をランダムな低次元部分空間に投影し、結果を正規化し、低次元空間においてPrivUnitGのような最適なアルゴリズムを実行する。 また,デバイス間でランダムな投影行列を適切に関連付けることで,高速なサーバ実行を実現することができることを示す。 ランダム射影の性質の観点からアルゴリズムの誤差を数学的に解析し、2つのインスタンス化の研究を行った。 最後に,私的平均推定および私的フェデレート学習実験により,我々のアルゴリズムは,通信コストと計算コストを大幅に低減しつつ,最適値とほぼ同一の効用を実証的に得ることを示した。

We study the problem of locally private mean estimation of high-dimensional vectors in the Euclidean ball. Existing algorithms for this problem either incur sub-optimal error or have high communication and/or run-time complexity. We propose a new algorithmic framework, ProjUnit, for private mean estimation that yields algorithms that are computationally efficient, have low communication complexity, and incur optimal error up to a $1+o(1)$-factor. Our framework is deceptively simple: each randomizer projects its input to a random low-dimensional subspace, normalizes the result, and then runs an optimal algorithm such as PrivUnitG in the lower-dimensional space. In addition, we show that, by appropriately correlating the random projection matrices across devices, we can achieve fast server run-time. We mathematically analyze the error of the algorithm in terms of properties of the random projections, and study two instantiations. Lastly, our experiments for private mean estimation and private federated learning demonstrate that our algorithms empirically obtain nearly the same utility as optimal ones while having significantly lower communication and computational cost.
翻訳日:2023-06-28 16:39:22 公開日:2023-06-26
# LLMZip:大規模言語モデルを用いたロスレステキスト圧縮

LLMZip: Lossless Text Compression using Large Language Models ( http://arxiv.org/abs/2306.04050v2 )

ライセンス: Link先を確認
Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai(参考訳) 過去のトークンの窓を与えられた次のトークンの予測子として,大言語モデルllama-7bを用いて,英語のエントロピーに関する漸近的上限を新たに推定する。 この推定は、現在利用可能な cite{cover 1978convergent}, \cite{lutati2023focus} の見積もりよりもかなり小さい。 自然副産物は、大きな言語モデルからの予測と損失のない圧縮スキームを組み合わせた英語テキストのロスレス圧縮のためのアルゴリズムである。 BSCやZPAQ,paq8hといった最先端のテキスト圧縮方式よりも優れた結果が得られた。

We provide new estimates of an asymptotic upper bound on the entropy of English using the large language model LLaMA-7B as a predictor for the next token given a window of past tokens. This estimate is significantly smaller than currently available estimates in \cite{cover1978convergent}, \cite{lutati2023focus}. A natural byproduct is an algorithm for lossless compression of English text which combines the prediction from the large language model with a lossless compression scheme. Preliminary results from limited experiments suggest that our scheme outperforms state-of-the-art text compression schemes such as BSC, ZPAQ, and paq8h.
翻訳日:2023-06-28 16:38:43 公開日:2023-06-26
# 量子近似最適化アルゴリズムとその変数に関する一検討

A Review on Quantum Approximate Optimization Algorithm and its Variants ( http://arxiv.org/abs/2306.09198v2 )

ライセンス: Link先を確認
Kostas Blekos, Dean Brand, Andrea Ceschini, Chiao-Hui Chou, Rui-Hao Li, Komal Pandya, and Alessandro Summer(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、古典的に難解な組合せ最適化問題を解くことを目的とした、非常に有望な変分量子アルゴリズムである。 この総合的なレビューでは、QAOAの現状の概要、さまざまなシナリオにおけるパフォーマンス分析、さまざまな問題インスタンスに適用性、エラーの感受性やノイズレジリエンスといったハードウェア固有の課題について概説する。 さらに,選択したQAOA拡張と変種の比較研究を行い,今後のアルゴリズムの展望と方向性について検討する。 本研究の目的は,従来のアルゴリズムより優れているか,どのような状況で使用するべきかといった,アルゴリズムに関する重要な質問に対する洞察を提供することである。 この目標に向けて、我々は特定の実践的なポイントを短いガイドとして提供します。 キーワード:量子近似最適化アルゴリズム(QAOA)、変分量子アルゴリズム(VQA)、量子最適化、組合せ最適化問題、NISQアルゴリズム

The Quantum Approximate Optimization Algorithm (QAOA) is a highly promising variational quantum algorithm that aims to solve combinatorial optimization problems that are classically intractable. This comprehensive review offers an overview of the current state of QAOA, encompassing its performance analysis in diverse scenarios, its applicability across various problem instances, and considerations of hardware-specific challenges such as error susceptibility and noise resilience. Additionally, we conduct a comparative study of selected QAOA extensions and variants, while exploring future prospects and directions for the algorithm. We aim to provide insights into key questions about the algorithm, such as whether it can outperform classical algorithms and under what circumstances it should be used. Towards this goal, we offer specific practical points in a form of a short guide. Keywords: Quantum Approximate Optimization Algorithm (QAOA), Variational Quantum Algorithms (VQAs), Quantum Optimization, Combinatorial Optimization Problems, NISQ Algorithms
翻訳日:2023-06-28 16:28:13 公開日:2023-06-26
# ドメインシフト下のセマンティックセグメンテーションのための双曲型アクティブラーニング

Hyperbolic Active Learning for Semantic Segmentation under Domain Shift ( http://arxiv.org/abs/2306.11180v2 )

ライセンス: Link先を確認
Luca Franco, Paolo Mandica, Konstantinos Kallidromitis, Devin Guillory, Yu-Teng Li, Fabio Galasso(参考訳) ドメインシフト下のセマンティックセグメンテーション(SS)のタスクでは、画像領域と擬似ラベルに基づくアクティブラーニング(AL)獲得戦略は最先端(SoA)である。 領域内に多様な擬似ラベルが存在することによって、異なるクラス間でピクセルが識別される。 しかし、設計上、擬似ラベルのバリエーションはクラスの輪郭のみを選択することに限られ、最終的なal性能は制限される。 我々は,Poincar\'e 双曲球モデルにおける SS に対する AL に初めてアプローチし,新しいデータ取得戦略として,領域内の画素埋め込みの半径の変動を利用する。 これは、強制的階層性なしで訓練された双曲空間の新たな幾何学的性質に由来する。 すなわち、クラスは同値なクラス内ラジイ分散を持つコンパクトな双曲型領域にマッピングされる。 ピクセル埋め込みラジイの変異は、クラス輪郭をよく識別するが、クラス内での特異な詳細もいくつか選び、最終的なパフォーマンスが向上する。 提案するHALO(Hyperbolic Active Learning Optimization)は,少数のラベル(1%)のみを用いて,ドメインシフト下でのAL for SSにおいて,教師付き学習性能を初めて上回った。 大規模な実験分析は、GTAV $\rightarrow$ CityscapesとSynTHIA $\rightarrow$ Cityscapesという2つの確立したベンチマークに基づいており、そこで新しいSoAを設定した。 コードはリリースされます。

For the task of semantic segmentation (SS) under domain shift, active learning (AL) acquisition strategies based on image regions and pseudo labels are state-of-the-art (SoA). The presence of diverse pseudo-labels within a region identifies pixels between different classes, which is a labeling efficient active learning data acquisition strategy. However, by design, pseudo-label variations are limited to only select the contours of classes, limiting the final AL performance. We approach AL for SS in the Poincar\'e hyperbolic ball model for the first time and leverage the variations of the radii of pixel embeddings within regions as a novel data acquisition strategy. This stems from a novel geometric property of a hyperbolic space trained without enforced hierarchies, which we experimentally prove. Namely, classes are mapped into compact hyperbolic areas with a comparable intra-class radii variance, as the model places classes of increasing explainable difficulty at denser hyperbolic areas, i.e. closer to the Poincar\'e ball edge. The variation of pixel embedding radii identifies well the class contours, but they also select a few intra-class peculiar details, which boosts the final performance. Our proposed HALO (Hyperbolic Active Learning Optimization) surpasses the supervised learning performance for the first time in AL for SS under domain shift, by only using a small portion of labels (i.e., 1%). The extensive experimental analysis is based on two established benchmarks, i.e. GTAV $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes, where we set a new SoA. The code will be released.
翻訳日:2023-06-28 16:18:53 公開日:2023-06-26
# 結晶特性予測のための完全原子間ポテンシャルの効率的な近似

Efficient Approximations of Complete Interatomic Potentials for Crystal Property Prediction ( http://arxiv.org/abs/2306.10045v4 )

ライセンス: Link先を確認
Yuchao Lin, Keqiang Yan, Youzhi Luo, Yi Liu, Xiaoning Qian, Shuiwang Ji(参考訳) 結晶材料の特性予測について検討する。 結晶構造は、無限に3d空間で繰り返される最小単位セルからなる。 このような繰り返し構造を機械学習モデルで正確に表現する方法はまだ未解決である。 現在の手法では、近傍のノード間でのみエッジを確立し、無限の繰り返しパターンや遠方の原子間相互作用を忠実に捉えることができないグラフを構築する。 本研究では,これらの限界を克服するためのいくつかのイノベーションを提案する。 まず,物理学を基本とした原子間ポテンシャルを直接モデル化することを提案する。 これらのポテンシャルにはクーロンポテンシャル、ロンドン分散ポテンシャル、パウリ反発ポテンシャルが含まれる。 第二に、既存の方法のように近くの原子間だけではなく、すべての原子間の完全なポテンシャルの集合をモデル化する。 これは証明可能な誤差境界を持つ無限ポテンシャル和の近似によって実現される。 近似を計算するための効率的なアルゴリズムを更に開発する。 最後に、完全な原子間ポテンシャルの計算をメッセージパッシングニューラルネットワークに組み込んで表現学習を提案する。 評価のためのJARVISおよびMaterial Projectベンチマーク実験を行った。 その結果、原子間ポテンシャルと完全な原子間ポテンシャルを用いることで、合理的な計算コストで一貫した性能向上が期待できる。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet)の一部として公開されています。

We study property prediction for crystal materials. A crystal structure consists of a minimal unit cell that is repeated infinitely in 3D space. How to accurately represent such repetitive structures in machine learning models remains unresolved. Current methods construct graphs by establishing edges only between nearby nodes, thereby failing to faithfully capture infinite repeating patterns and distant interatomic interactions. In this work, we propose several innovations to overcome these limitations. First, we propose to model physics-principled interatomic potentials directly instead of only using distances as in many existing methods. These potentials include the Coulomb potential, London dispersion potential, and Pauli repulsion potential. Second, we model the complete set of potentials among all atoms, instead of only between nearby atoms as in existing methods. This is enabled by our approximations of infinite potential summations with provable error bounds. We further develop efficient algorithms to compute the approximations. Finally, we propose to incorporate our computations of complete interatomic potentials into message passing neural networks for representation learning. We perform experiments on the JARVIS and Materials Project benchmarks for evaluation. Results show that the use of interatomic potentials and complete interatomic potentials leads to consistent performance improvements with reasonable computational costs. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet).
翻訳日:2023-06-28 16:17:11 公開日:2023-06-26
# DiversiGATE: 信頼性の高い大規模言語モデルのための総合的なフレームワーク

DiversiGATE: A Comprehensive Framework for Reliable Large Language Models ( http://arxiv.org/abs/2306.13230v2 )

ライセンス: Link先を確認
Shima Imani, Ali Beyram, Harsh Shrivastava(参考訳) 本稿では,LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを紹介する。 提案フレームワークは,自己整合性,Math Prompter,WebGPTなど,既存の検証アプローチの全体像を提供する多様化と集約の2つの主要コンポーネントから構成される。 さらに,独自のアウトプットから学習し,時間とともにその性能を洗練し,精度を向上させるために,ダイバーシゲートフレームワークに準拠した新たな ‘selflearner' モデルを提案する。 自己学習の有効性を評価するために,合成データやgsm8kなどの一般的な算術推論ベンチマークなど,厳密な実験を行った。 提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。

In this paper, we introduce DiversiGATE, a unified framework that consolidates diverse methodologies for LLM verification. The proposed framework comprises two main components: Diversification and Aggregation which provide a holistic perspective on existing verification approaches, such as Self-Consistency, Math Prompter and WebGPT. Furthermore, we propose a novel `SelfLearner' model that conforms to the DiversiGATE framework which can learn from its own outputs and refine its performance over time, leading to improved accuracy. To evaluate the effectiveness of SelfLearner, we conducted a rigorous series of experiments, including tests on synthetic data as well as on popular arithmetic reasoning benchmarks such as GSM8K. Our results demonstrate that our approach outperforms traditional LLMs, achieving a considerable 54.8% -> 61.8% improvement on the GSM8K benchmark.
翻訳日:2023-06-28 16:08:21 公開日:2023-06-26
# キャビティサブからスーパーラジアント遷移によるRamsey読解能の増強

Collectively enhanced Ramsey readout by cavity sub- to superradiant transition ( http://arxiv.org/abs/2306.12544v2 )

ライセンス: Link先を確認
Eliot Bohr, Sofus L. Kristensen, Christoph Hotter, Stefan Alaric Sch\"affer, Julian Robinson-Tait, Jan W. Thomsen, Tanya Zelevinsky, Helmut Ritsch, J\"org Helge M\"uller(参考訳) 逆の原子のアンサンブルが放射波長のスケールで密に充填されているときや、原子が単一のキャビティモードに強く結合されているとき、それらのダイポールは超ラジカルバーストを介して急速に整列して崩壊する。 しかし、拡散型双極子相分布理論は、超放射光の発生に必要な原子励起の最小しきい値を予測する。 ここでは、原子を横方向に励起する際に、狭い光遷移における超放射能放出の予測しきい値を実験的に確認し、その結果の準放射能遷移の活用方法を示す。 $\pi/2$-pulse は原子をサブラジアント状態に配置し、それに対応するラムゼーパルス列における自由進化期に利用した集合的空洞崩壊から保護する。 最終的な励起状態の個体数は、2回目の$\pi/2$-pulseの後、反転原子アンサンブルからの超ラジアント放出によって読み出され、最小限の加熱で1つの実験サイクル内で複数のラムジー配列が可能になる。 提案手法は,その速度,単純さ,高感度を特徴とする,原子状態読み出しに対する根本的な新しいアプローチである。 キャビティ結合量子エミッタにおける集団効果を利用したセンサの可能性を示す。

When an inverted ensemble of atoms is tightly packed on the scale of its emission wavelength or when the atoms are collectively strongly coupled to a single cavity mode, their dipoles will align and decay rapidly via a superradiant burst. However, a spread-out dipole phase distribution theory predicts a required minimum threshold of atomic excitation for superradiance to occur. Here we experimentally confirm this predicted threshold for superradiant emission on a narrow optical transition when exciting the atoms transversely and show how to take advantage of the resulting sub- to superradiant transition. A $\pi/2$-pulse places the atoms in a subradiant state, protected from collective cavity decay, which we exploit during the free evolution period in a corresponding Ramsey pulse sequence. The final excited state population is read out via superradiant emission from the inverted atomic ensemble after a second $\pi/2$-pulse, and with minimal heating this allows for multiple Ramsey sequences within one experimental cycle. Our scheme is a fundamentally new approach to atomic state readout characterized by its speed, simplicity, and high sensitivity. It demonstrates the potential of sensors using collective effects in cavity-coupled quantum emitters.
翻訳日:2023-06-28 16:07:38 公開日:2023-06-26
# ランダム正則グラフ上のアンダーソンモデルの再正規化群解析

Renormalization Group Analysis of the Anderson Model on Random Regular Graphs ( http://arxiv.org/abs/2306.14965v1 )

ライセンス: Link先を確認
Carlo Vanoni, Boris L. Altshuler, Vladimir E. Kravtsov, Antonello Scardicchio(参考訳) 我々は、アブラハムス、アンダーソン、リカルデロ、ラマクリシュナンの再正規化群を無限次元グラフに一般化する正規ランダムグラフ上でのアンダーソン局所化問題に関する再正規化群解析を提案する。 再正規化群方程式は、必然的に2つのパラメータ(一つは部分木の連結性の変化)を含むが、固有状態とスペクトルの可観測性の両方において、十分大きなシステムサイズで1パラメータのスケーリング仮説が復元されることを示す。 また,動力学的およびスペクトル量の非単調な挙動を,異なる符号のフラクタル次元のベータ関数と関数依存の2つの項を同定することにより,遷移に近い障害の値に対するシステムサイズ関数として説明する。 本理論はアンダーソン模型の数値データと多体局在の異常なスケーリング挙動に関する最初のコヒーレントな説明を提供する。

We present a renormalization group analysis of the problem of the Anderson localization on a Regular Random Graph which generalizes the renormalization group of Abrahams, Anderson, Licciardello, and Ramakrishnan to infinite-dimensional graphs. The renormalization group equations necessarily involve two parameters (one being the changing connectivity of sub-trees), but we show that the one-parameter scaling hypothesis is recovered for sufficiently large system sizes for both eigenstates and spectrum observables. We also explain the non-monotonic behavior of dynamical and spectral quantities as a function of the system size for values of disorder close to the transition, by identifying two terms in the beta function of the running fractal dimension of different signs and functional dependence. Our theory provides the first coherent explanation for the unusual scaling behaviors observed in numerical data of the Anderson model and of Many-Body Localization.
翻訳日:2023-06-28 16:00:20 公開日:2023-06-26
# パラメータ化量子回路におけるバックプロパゲーションスケーリング

Backpropagation scaling in parameterised quantum circuits ( http://arxiv.org/abs/2306.14962v1 )

ライセンス: Link先を確認
Joseph Bowles, David Wierichs, Chae-Yeun Park(参考訳) バックプロパゲーションアルゴリズムの発見は、機械学習の歴史において最も重要な瞬間の1つであり、モデル評価とほぼ同等の計算コストで勾配を計算する能力を通じて、大規模ニューラルネットワークのトレーニングを可能にした。 その重要性にもかかわらず、パラメータ化量子回路の勾配評価のための同様のバックプロパゲーションのようなスケーリングは、いまだ解明されていない。 現在最もよく知られている方法は、回路パラメータの数に応じてスケールする多数の回路からサンプリングすることであり、大規模な量子回路のトレーニングは事実上高価である。 本稿では,より少ない回路で勾配推定を行う構造回路のクラスを導入することで,この問題に対処する。 最も単純な場合 -- パラメータが可換な量子ゲートに供給される -- では、これらの回路は勾配、高次偏微分、フィッシャー情報行列の高速な推定を可能にし、勾配の消失の問題に悩まされることはない。 さらに、パラメータ化回路のクラスは、勾配推定のスケーリングが古典的なバックプロパゲーションと一致しているため、スケールで訓練することができる。 16量子ビットのトイ分類問題において、そのような回路は他の方法と競合する性能を示し、トレーニングコストを約2桁削減する。

The discovery of the backpropagation algorithm ranks among one of the most important moments in the history of machine learning, and has made possible the training of large-scale neural networks through its ability to compute gradients at roughly the same computational cost as model evaluation. Despite its importance, a similar backpropagation-like scaling for gradient evaluation of parameterised quantum circuits has remained elusive. Currently, the best known method requires sampling from a number of circuits that scales with the number of circuit parameters, making training of large-scale quantum circuits prohibitively expensive in practice. Here we address this problem by introducing a class of structured circuits that admit gradient estimation with significantly fewer circuits. In the simplest case -- for which the parameters feed into commuting quantum gates -- these circuits allow for fast estimation of the gradient, higher order partial derivatives and the Fisher information matrix, and are not expected to suffer from the problem of vanishing gradients. Moreover, classes of parameterised circuits exist for which the scaling of gradient estimation is in line with classical backpropagation, and can thus be trained at scale. In a toy classification problem on 16 qubits, such circuits show competitive performance with other methods, while reducing the training cost by about two orders of magnitude.
翻訳日:2023-06-28 16:00:03 公開日:2023-06-26
# フラクタル場理論における量子クエンチ

Quantum quenches in fractonic field theories ( http://arxiv.org/abs/2306.14951v1 )

ライセンス: Link先を確認
Dmitry S. Ageev and Vasilii V. Pushkarev(参考訳) 量子スカラーフラクトロン場理論における大域量子クエンチによる平衡外ダイナミクスについて検討する。 数種類のクエンチ、特に離散的回転対称性(z4およびz8)の異なる理論における質量クエンチ、およびそれらの間の遷移による瞬時クエンチを考える。 また, ユークリッド時間に有限幅スラブ上に初期状態が作成されるフラクタル境界クエンチについても検討した。 有限体積のフラクトロン系の摂動は、特に特定のZ4対称空間構造の形成とその後の進化を通じて、制限されたモビリティを強調する。 Zn対称場理論への一般化について議論し、適切な正則化を導入し、フラクトロン場理論に固有の発散を明示的に扱うことができる。

We study out-of-equilibrium dynamics caused by global quantum quenches in quantum scalar fractonic field theories. We consider several types of quenches, in particular, the mass quench in theories with different types of discrete rotational symmetries (Z4 and Z8), as well as an instantaneous quench via the transition between them. We also investigate fractonic boundary quenches, where the initial state is prepared on a finite-width slab in Euclidean time. We find that perturbing a fractonic system in a finite volume especially highlights the restricted mobility via the formation and subsequent evolution of specific Z4-symmetric spatial structures. We discuss a generalization to Zn-symmetric field theories, and introduce a proper regularization, which allows us to explicitly deal with divergences inherent to fractonic field theories.
翻訳日:2023-06-28 15:59:41 公開日:2023-06-26
# 量子宇宙論における観察

Observations in Quantum Cosmology ( http://arxiv.org/abs/2306.14948v1 )

ライセンス: Link先を確認
Leonardo Chataignier, Claus Kiefer, Paulo Moniz(参考訳) 本稿では、一般相対性理論の標準量子化が宇宙論の検証可能な予測を生み出すかどうかに着目する。 特に,本手法を用いて,原始摂動の進化をモデル化する方法について検討する。 ジョン・ウィーラーとブライス・デウィットによって最初に提唱されたこの量子測地力学のプログラムは、単純な古典的極限を持ち、全ての場の量子力学、重力、物質を記述する。 古典的な背景計量が存在しないこの文脈では、観察を構成するものについて議論する必要がある。 我々はまず古典理論でこの問題に取り組み、その後量子論に目を向ける。 我々は、予測は物理的な時計や棒と関係があり、それらは結合パラメータとして働くニュートン定数に関して摂動的アプローチで容易に得られると主張する。 この弱結合拡大は、量子宇宙論の摂動ヒルベルト空間と、古典的で固定された背景計量上の量子場の力学への補正をもたらす。 これらの補正は、宇宙マイクロ波背景放射(CMB)の異方性スペクトルのシグネチャにつながる可能性のある原始パワースペクトルの修正を示唆し、具体的な結果について議論する。 量子測地力学(quantum geometrodynamics)の主題は、正準量子重力に対する最も古く最も保守的なアプローチであり、量子重力の概念的な問題を照らし出すだけでなく、宇宙論やその他の分野での観測的展望をもたらす可能性がある。

In this review, we focus on whether a canonical quantization of general relativity can produce testable predictions for cosmology. In particular, we examine how this approach can be used to model the evolution of primordial perturbations. This program of quantum geometrodynamics, first advocated by John Wheeler and Bryce DeWitt, has a straightforward classical limit, and it describes the quantum dynamics of all fields, gravitational and matter. In this context, in which a classical background metric is absent, it is necessary to discuss what constitutes an observation. We first address this issue in the classical theory and then turn to the quantum theory. We argue that predictions are relational, that is, relative to physical clocks and rods, and that they can be straightforwardly obtained in a perturbative approach with respect to Newton's constant, which serves as a coupling parameter. This weak-coupling expansion leads to a perturbative Hilbert space for quantum cosmology, and to corrections to the dynamics of quantum fields on a classical, fixed background metric. These corrections imply modifications of primordial power spectra, which may lead to signatures in the anisotropy spectrum of the Cosmic Microwave Background (CMB) radiation, for which we discuss concrete results. We conclude that the subject of quantum geometrodynamics, the oldest and most conservative approach to canonical quantum gravity, not only illuminates conceptual issues in quantum gravitation, but may also lead to observational prospects in cosmology and elsewhere.
翻訳日:2023-06-28 15:59:27 公開日:2023-06-26
# SIMF: 自律運転のためのセマンティックス対応インタラクティブモーション予測

SIMF: Semantics-aware Interactive Motion Forecasting for Autonomous Driving ( http://arxiv.org/abs/2306.14941v1 )

ライセンス: Link先を確認
Vidyaa Krishnan Nivash, Ahmed H. Qureshi(参考訳) 自動運転車は、周囲の複数のエージェント(歩行者と車両)の動きを予測し、ナビゲーションに最適な決定を下す必要がある。 既存の手法では,これらのエージェントの位置と速度を活用し,シーンから意味情報を取り込む手法に着目している。 さらに,シーン内のエージェント数に伴う計算複雑性の増大を緩和するため,遠方エージェントを遠方から遠ざけるためにユークリッド距離を利用する作品もある。 しかし、距離に基づく計量だけでは、関連するエージェントを選択し、正確に予測を行うには不十分である。 これらの問題を解決するために,空間情報とともに意味を捉え,関連するエージェントを最適に選択するsimf(semantics-aware interactive motion forecasting)手法を提案する。 具体的には、シーンから関連するエージェントを意味認識的に選択し、注意機構を通してグローバルエンコーディングを抽出することにより、これを実現する。 これらのエンコーディングはエージェントのローカル情報と共にエンコーダを通過し、将来の軌跡を予測する動作ポリシーのための時間依存潜在変数を得る。 その結果,提案手法は最先端のベースラインよりも優れており,より正確に予測できることがわかった。

Autonomous vehicles require motion forecasting of their surrounding multi-agents (pedestrians and vehicles) to make optimal decisions for navigation. The existing methods focus on techniques to utilize the positions and velocities of these agents and fail to capture semantic information from the scene. Moreover, to mitigate the increase in computational complexity associated with the number of agents in the scene, some works leverage Euclidean distance to prune far-away agents. However, distance-based metric alone is insufficient to select relevant agents and accurately perform their predictions. To resolve these issues, we propose Semantics-aware Interactive Motion Forecasting (SIMF) method to capture semantics along with spatial information, and optimally select relevant agents for motion prediction. Specifically, we achieve this by implementing a semantic-aware selection of relevant agents from the scene and passing them through an attention mechanism to extract global encodings. These encodings along with agents' local information are passed through an encoder to obtain time-dependent latent variables for a motion policy predicting the future trajectories. Our results show that the proposed approach outperforms state-of-the-art baselines and provides more accurate predictions in a scene-consistent manner.
翻訳日:2023-06-28 15:59:00 公開日:2023-06-26
# 埋め込み融合技術:ヘイトスピーチ検出の最適化

The Art of Embedding Fusion: Optimizing Hate Speech Detection ( http://arxiv.org/abs/2306.14939v1 )

ライセンス: Link先を確認
Mohammad Aflah Khan, Neemesh Yadav, Mohit Jain and Sanyam Goyal(参考訳) ヘイトスピーチ検出は、言語的および文脈的ニュアンスをキャプチャする必要がある、難しい自然言語処理タスクである。 事前訓練された言語モデル(PLM)は、このタスクを改善するためのリッチな意味表現を提供する。 しかし、PLM間の表現を効果的に組み合わせ、それらの相補的な強みを活用する方法についてはまだ知識が限られている。 本研究は,複数のPLMの様々な組み合わせ技術に光を当て,その効果を総合的に分析するものである。 以上の結果から,組込みを組み合わせるとわずかに改善するが,計算コストが高く,組み合わせの選択が最終結果に限界的な影響を与えることが示された。 また、コードベースをhttps://github.com/aflah02/The-Art-of-Embedding-Fusion-Optimizing-Hate-Speech-Detectionで公開しています。

Hate speech detection is a challenging natural language processing task that requires capturing linguistic and contextual nuances. Pre-trained language models (PLMs) offer rich semantic representations of text that can improve this task. However there is still limited knowledge about ways to effectively combine representations across PLMs and leverage their complementary strengths. In this work, we shed light on various combination techniques for several PLMs and comprehensively analyze their effectiveness. Our findings show that combining embeddings leads to slight improvements but at a high computational cost and the choice of combination has marginal effect on the final outcome. We also make our codebase public at https://github.com/aflah02/The-Art-of-Embedding-Fusion-Optimizing-Hate-Speech-Detection .
翻訳日:2023-06-28 15:58:39 公開日:2023-06-26
# 画像の複雑さを計測する最小記述長クラスタリング

Minimum Description Length Clustering to Measure Meaningful Image Complexity ( http://arxiv.org/abs/2306.14937v1 )

ライセンス: Link先を確認
Louis Mahon, Thomas Lukasiewicz(参考訳) 既存の画像複雑性指標は、有意義なコンテンツとノイズを区別できない。 これは、意味のある情報を含まないホワイトノイズ画像は、非常に複雑であると判断されることを意味する。 本稿では,パッチの階層的クラスタリングによる画像複雑性指標を提案する。 最小記述長の原理を用いて、クラスタ数を決定し、特定の点を外れ値として指定し、ホワイトノイズを低いスコアに正しく割り当てる。 提案手法は有意義な複雑性を測定するための理論的アイデアと類似性を有する。 我々は,7種類の異なる画像に対して実験を行い,最も正確なスコアを考慮されたすべての画像に割り当てることを示す。 さらに、クラスタ階層の異なるレベルを比較することで、ローカルディテールからグローバル構造まで、さまざまなスケールで複雑さがどのように現れるかが分かる。 次に,本手法の成分の寄与を示すアブレーション研究を行い,ガウス雑音の付加や分解能の低下など,入力が特定の方法で修正された場合でも妥当なスコアを付与し続けていることを示す。

Existing image complexity metrics cannot distinguish meaningful content from noise. This means that white noise images, which contain no meaningful information, are judged as highly complex. We present a new image complexity metric through hierarchical clustering of patches. We use the minimum description length principle to determine the number of clusters and designate certain points as outliers and, hence, correctly assign white noise a low score. The presented method has similarities to theoretical ideas for measuring meaningful complexity. We conduct experiments on seven different sets of images, which show that our method assigns the most accurate scores to all images considered. Additionally, comparing the different levels of the hierarchy of clusters can reveal how complexity manifests at different scales, from local detail to global structure. We then present ablation studies showing the contribution of the components of our method, and that it continues to assign reasonable scores when the inputs are modified in certain ways, including the addition of Gaussian noise and the lowering of the resolution.
翻訳日:2023-06-28 15:58:26 公開日:2023-06-26
# ランダム宇宙における生命論 : オレンジからリンゴを除去する

Sciama's argument on life in a random universe: Distinguishing apples from oranges ( http://arxiv.org/abs/2306.14934v1 )

ライセンス: Link先を確認
Zhi-Wei Wang and Samuel L. Braunstein(参考訳) デニス・サイマは、生命の存在は多くの量、基本定数に依存しており、無作為宇宙では生命の存在は極めてあり得ないと主張した。 しかし、これらの定数の完全な知識がなければ、彼の主張は「知的な設計」のように見える宇宙を意味する。 '

Dennis Sciama argued that the existence of life depended on many quantities, the fundamental constants, so in a random universe life should be highly unlikely. However, without full knowledge of these constants, his argument implies a universe that would appear to be `intelligently designed.'
翻訳日:2023-06-28 15:58:11 公開日:2023-06-26
# 著者帰属のための単語埋め込みによる双方向長期記憶の統合

Integrating Bidirectional Long Short-Term Memory with Subword Embedding for Authorship Attribution ( http://arxiv.org/abs/2306.14933v1 )

ライセンス: Link先を確認
Abiodun Modupe, Turgay Celik, Vukosi Marivate and Oludayo O. Olugbara(参考訳) 複数の候補著者から与えられたテキスト文書の著者を公表する問題は著者帰属と呼ばれる。 マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。 残念ながら、単語ベースの著者帰属システムの性能は、トレーニングコーパスの語彙によって制限されている。 文学は、隠れた単語問題を克服する代替手段として、文字ベースのスタイルマーカーを推奨している。 しかし、文字ベースの手法は、さらなる改善のためのシャームであるテキスト中の単語の逐次的関係を捉えるのに失敗することが多い。 本稿では,テキスト文書中の隠れた単語のあいまいさを,逐次的文脈を保ちながら解決できるかどうかを問う。 そこで,2次元畳み込みニューラルネットワーク(CNN)を用いた双方向長短期記憶(BLSTM)に基づく手法を提案し,著者帰属のための逐次書き起こしスタイルを抽出した。 BLSTMはサブワード情報を用いて特徴間の逐次的関係を得る。 2次元CNNを用いて,未ラベル入力テキストからスタイルの局所的構文的位置を理解する。 提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。 実験結果は、CCAT50とTwitterでそれぞれ1.07\%と0.96\%の精度向上を示し、残りのデータセットで同等の結果を生成する。

The problem of unveiling the author of a given text document from multiple candidate authors is called authorship attribution. Manifold word-based stylistic markers have been successfully used in deep learning methods to deal with the intrinsic problem of authorship attribution. Unfortunately, the performance of word-based authorship attribution systems is limited by the vocabulary of the training corpus. Literature has recommended character-based stylistic markers as an alternative to overcome the hidden word problem. However, character-based methods often fail to capture the sequential relationship of words in texts which is a chasm for further improvement. The question addressed in this paper is whether it is possible to address the ambiguity of hidden words in text documents while preserving the sequential context of words. Consequently, a method based on bidirectional long short-term memory (BLSTM) with a 2-dimensional convolutional neural network (CNN) is proposed to capture sequential writing styles for authorship attribution. The BLSTM was used to obtain the sequential relationship among characteristics using subword information. The 2-dimensional CNN was applied to understand the local syntactical position of the style from unlabeled input text. The proposed method was experimentally evaluated against numerous state-of-the-art methods across the public corporal of CCAT50, IMDb62, Blog50, and Twitter50. Experimental results indicate accuracy improvement of 1.07\%, and 0.96\% on CCAT50 and Twitter, respectively, and produce comparable results on the remaining datasets.
翻訳日:2023-06-28 15:58:05 公開日:2023-06-26
# GloptiNets: Certificatesによるスケーラブルな非凸最適化

GloptiNets: Scalable Non-Convex Optimization with Certificates ( http://arxiv.org/abs/2306.14932v1 )

ライセンス: Link先を確認
Gaspard Beugnot (PSL, DI-ENS), Julien Mairal, Alessandro Rudi (PSL, DI-ENS)(参考訳) 本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非凸最適化手法を提案する。 従来の代数的性質に依存する手法とは異なり、このアルゴリズムはフーリエスペクトルの減衰に内在する対象関数の正則性を利用する。 抽出可能なモデルのファミリを定義することにより、正確な認証を取得し、ニューラルネットワークを最適化するために開発された高度な強力な計算技術を活用することができる。 このように、我々のアプローチのスケーラビリティはGPUによる並列コンピューティングによって自然に向上します。 我々のアプローチは、中等次元の多項式に適用されるが、数千の係数を持つ場合、ラッサールの階層に基づく証明による最先端の最適化手法よりも優れ、競合相手にとって難解な問題に対処する。

We present a novel approach to non-convex optimization with certificates, which handles smooth functions on the hypercube or on the torus. Unlike traditional methods that rely on algebraic properties, our algorithm exploits the regularity of the target function intrinsic in the decay of its Fourier spectrum. By defining a tractable family of models, we allow at the same time to obtain precise certificates and to leverage the advanced and powerful computational techniques developed to optimize neural networks. In this way the scalability of our approach is naturally enhanced by parallel computing with GPUs. Our approach, when applied to the case of polynomials of moderate dimensions but with thousands of coefficients, outperforms the state-of-the-art optimization methods with certificates, as the ones based on Lasserre's hierarchy, addressing problems intractable for the competitors.
翻訳日:2023-06-28 15:57:42 公開日:2023-06-26
# DNABERT-2:多種ゲノムの効率的な基盤モデルとベンチマーク

DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome ( http://arxiv.org/abs/2306.15006v1 )

ライセンス: Link先を確認
Zhihan Zhou, Yanrong Ji, Weijian Li, Pratik Dutta, Ramana Davuluri, Han Liu(参考訳) ゲノムの言語的複雑さの解読は生物学において重要な問題であり、dnabertやヌクレオチドトランスフォーマーのような事前訓練された基礎モデルがこの領域で大きな進歩を遂げている。 既存の研究は、A、T、C、Gのk-mer、固定長の置換に、その単純さからゲノム言語のトークンとして大きく依存している。 しかし、k-merのトークン化によって引き起こされる計算とサンプルの非効率性は、大規模なゲノム基盤モデルの開発における主要な障害である。 そこで我々は,k-merのトークン化をByte Pair Encoding (BPE) に置き換えることを提案する。これは統計に基づくデータ圧縮アルゴリズムで,コーパス内の最も頻繁な共起ゲノムセグメントを反復的にマージすることでトークンを構築する。 我々は,bpeがk-merトークン化の限界を克服するだけでなく,非重複トークン化の計算効率の利点を実証する。 これらの知見に基づき,DNABERT-2を導入した。DNABERT-2は効率的なプロテタイザに適応し,入力長制約を克服し,時間とメモリ消費を低減し,モデル機能を向上させる。 さらに、ゲノム理解のための包括的かつ標準化されたベンチマークが欠如していることは、公平な比較分析の別の重要な障害であると考えられる。 そこで我々は,7ドルのタスクにまたがる28ドルの異なるデータセットを融合し,70ドルから1000ドルの入力長を持つ包括的多種多様なゲノム分類データセットであるゲノム理解評価(gue)を提案する。 gueベンチマークの包括的な実験を通じて、dnabert-2は21 \times$のパラメータと約56 \times$のプリトレーニング時のgpu時間と同等の性能を達成できることを実証した。

Decoding the linguistic intricacies of the genome is a crucial problem in biology, and pre-trained foundational models such as DNABERT and Nucleotide Transformer have made significant strides in this area. Existing works have largely hinged on k-mer, fixed-length permutations of A, T, C, and G, as the token of the genome language due to its simplicity. However, we argue that the computation and sample inefficiencies introduced by k-mer tokenization are primary obstacles in developing large genome foundational models. We provide conceptual and empirical insights into genome tokenization, building on which we propose to replace k-mer tokenization with Byte Pair Encoding (BPE), a statistics-based data compression algorithm that constructs tokens by iteratively merging the most frequent co-occurring genome segment in the corpus. We demonstrate that BPE not only overcomes the limitations of k-mer tokenization but also benefits from the computational efficiency of non-overlapping tokenization. Based on these insights, we introduce DNABERT-2, a refined genome foundation model that adapts an efficient tokenizer and employs multiple strategies to overcome input length constraints, reduce time and memory expenditure, and enhance model capability. Furthermore, we identify the absence of a comprehensive and standardized benchmark for genome understanding as another significant impediment to fair comparative analysis. In response, we propose the Genome Understanding Evaluation (GUE), a comprehensive multi-species genome classification dataset that amalgamates $28$ distinct datasets across $7$ tasks, with input lengths ranging from $70$ to $1000$. Through comprehensive experiments on the GUE benchmark, we demonstrate that DNABERT-2 achieves comparable performance to the state-of-the-art model with $21 \times$ fewer parameters and approximately $56 \times$ less GPU time in pre-training.
翻訳日:2023-06-28 15:50:00 公開日:2023-06-26
# テンソルネットワークの言語における一段階レプリカ対称性の破れ

One-step replica symmetry breaking in the language of tensor networks ( http://arxiv.org/abs/2306.15004v1 )

ライセンス: Link先を確認
Nicola Pancotti and Johnnie Gray(参考訳) 我々は1段階のレプリカ対称性破断空洞法とテンソルネットワークの正確なマッピングを開発する。 この2つのスキームは補足的な数学的および数値的なツールボックスを備えており、芸術のそれぞれの状態を改善するために利用することができる。 例えば、最良の決定論的k-SAT解法の一つであるサーベイプロパゲーションのテンソルネットワーク表現を構築する。 結果として得られるアルゴリズムは、既存のテンソルネットワークソルバを数桁上回る。 我々は、これらのアイデアの一般性についてコメントし、それらを量子テンソルネットワークの文脈に拡張する方法を示す。

We develop an exact mapping between the one-step replica symmetry breaking cavity method and tensor networks. The two schemes come with complementary mathematical and numerical toolboxes that could be leveraged to improve the respective states of the art. As an example, we construct a tensor-network representation of Survey Propagation, one of the best deterministic k-SAT solvers. The resulting algorithm outperforms any existent tensor-network solver by several orders of magnitude. We comment on the generality of these ideas, and we show how to extend them to the context of quantum tensor networks.
翻訳日:2023-06-28 15:49:26 公開日:2023-06-26
# 安定化コードのトライバイバルエリア演算子

Stabilizer Codes Have Trivial Area Operators ( http://arxiv.org/abs/2306.14996v1 )

ライセンス: Link先を確認
ChunJun Cao(参考訳) 任意の局所次元上の安定化符号は、ある符号部分代数が非自明な中心を含む場合でも、物理的自由度を二分する非自明な領域演算子をサポートできないことを示す。 この結論は、論理演算子が特定の分解特性を満たすより一般的な量子符号にも及ぶ。 結果は、非局所的な「魔法」が重力逆反応と量子極値曲面の再現に重要な役割を果たすことを示唆している。 我々は、no-go結果を回避するために必要な条件についてコメントし、非自明な領域演算子を持つ非安定化コードを構築するための単純な処方を提供する。 そして、簡単なおもちゃの例を作ります。

We show that no stabilizer codes over any local dimension can support a non-trivial area operator for any bipartition of the physical degrees of freedom even if certain code subalgebras contain non-trivial centers. This conclusion also extends to more general quantum codes whose logical operators satisfy certain factorization properties. The results suggest that non-local "magic" would play an important role in reproducing features of gravitational back-reaction and the quantum extremal surface formula. We comment on conditions needed to circumvent the no-go result and provide a simple prescription for building non-stabilizer codes that do have non-trivial area operators. We then construct a simple toy example.
翻訳日:2023-06-28 15:49:15 公開日:2023-06-26
# 量子化による地中準備

Ground State Preparation via Qubitization ( http://arxiv.org/abs/2306.14993v1 )

ライセンス: Link先を確認
Charles Marteau(参考訳) 量子コンピュータ上でハミルトンの$H$の基底状態を作成するためのプロトコルについて述べる。 これは虚時発展演算子を実装した量子アルゴリズムである $e^{-\tau h}$ を設計することによって行われる。 この方法は、ロー・アンド・チュアンのいわゆる '‘qubitization'' の手順に依存しており、ハミルトニアン$H = \langle G| U_H |G\rangle$ のユニタリ符号化が存在すると仮定すると、そのモーメントが$|G\rangle$ に射影されたときの $H のチェビシェフ多項式である新しい作用素 $W_H$ を生成する。 この結果とチェビシェフ多項式の項による$e^{-\tau h}$の拡張を用いて、虚時発展作用素の近似を実装した回路を構築する。 本稿では, 横フィールドイジングモデルと単一キュービット玩具モデルという2つのモデルについて述べる。

We describe a protocol for preparing the ground state of a Hamiltonian $H$ on a quantum computer. This is done by designing a quantum algorithm that implements the imaginary time evolution operator: $e^{-\tau H}$. The method relies on the so-called ``qubitization'' procedure of Low and Chuang which, assuming the existence of a unitary encoding of the Hamiltonian $H = \langle G| U_H |G\rangle$, produces a new operator $W_H$ whose moments are the Chebyshev polynomials of $H$ when projected on $|G\rangle$. Using this result and the expansion of $e^{-\tau H}$ in terms of Chebyshev polynomials we construct a circuit that implements an approximation of the imaginary time evolution operator which, at large time, projects any state on the ground state, provided a non-trivial initial overlap between the two. We illustrate our method on two models: the transverse field Ising model and a single qubit toy model.
翻訳日:2023-06-28 15:49:03 公開日:2023-06-26
# 複素非対称ホッピングをもつ非エルミート準結晶の位相的三相転移

Topological triple phase transition in non-Hermitian quasicrystals with complex asymmetric hopping ( http://arxiv.org/abs/2306.14987v1 )

ライセンス: Link先を確認
Shaina Gandhi and Jayendra N. Bandyopadhyay(参考訳) 3つの異なる相の3つの相転移、すなわち位相的、パリティ時(pt)対称性の破断、金属-絶縁体遷移は、pt対称非エルミート型オーブリー-アンドレ-ハーパー模型の拡張で観察される。 このモデルでは、非エルミート複素準周期的オンサイトポテンシャルに加えて、非ハーミティー性も最近傍ホッピング項に含まれる。 また、近隣のホッピング用語も準周期的である。 オンサイト電位からの2つの非エルミートパラメータとホッピング部分からのもう1つのパラメータの存在は、系のpt対称性遷移を保証する。 さらに、これら2つの非エルミートパラメータをチューニングし、三重相転移を観測するパラメータレジームを同定する。 いくつかの最近の研究に続いて、このモデルの電気回路に基づく実験的実現についても論じている。

The triple phase transitions or simultaneous transitions of three different phases, namely topological, parity-time (PT) symmetry breaking, and metal-insulator transitions, are observed in an extension of PT symmetric non-Hermitian Aubry-Andr\'e-Harper model. In this model, besides non-Hermitian complex quasi-periodic onsite potential, non-Hermiticity is also included in the nearest-neighbor hopping terms. Moreover, the nearest-neighbor hopping terms is also quasi-periodic. The presence of two non-Hermitian parameters, one from the onsite potential and another one from the hopping part, ensures PT symmetry transition in the system. In addition, tuning these two non-Hermitian parameters, we identify a parameters regime, where we observe the triple phase transition. Following some recent studies, an electrical circuit based experimental realization of this model is also discussed.
翻訳日:2023-06-28 15:48:38 公開日:2023-06-26
# ジョセフソンパラメトリック増幅器におけるパリティ時間対称性の破れの観測

Observing Parity Time Symmetry Breaking in a Josephson Parametric Amplifier ( http://arxiv.org/abs/2306.14980v1 )

ライセンス: Link先を確認
Chandrashekhar Gaikwad, Daria Kowsari, Weijian Chen, Kater W. Murch(参考訳) バランスのとれた利得と損失を持つ結合二モード系は、非エルミート・ハミルトニアンによって記述されたにもかかわらず、実スペクトルを示すことができる開放量子系のパラダイム的例である。 3波混合モードで動作する縮退パラメトリック増幅器を用いて、増幅器の2つの二次モード間の平衡利得と損失のシステムを実現する。 増幅器の時間領域応答を調べることにより、パリティ-時間-対称性-破壊遷移に関連する実エネルギー固有値から実エネルギーへの特性遷移を観察する。

A coupled two-mode system with balanced gain and loss is a paradigmatic example of an open quantum system that can exhibit real spectra despite being described by a non-Hermitian Hamiltonian. We utilize a degenerate parametric amplifier operating in three-wave mixing mode to realize such a system of balanced gain and loss between the two quadrature modes of the amplifier. By examining the time-domain response of the amplifier, we observe a characteristic transition from real-to-imaginary energy eigenvalues associated with the Parity-Time-symmetry-breaking transition.
翻訳日:2023-06-28 15:48:21 公開日:2023-06-26
# LM4HPC:高性能コンピューティングにおける効果的な言語モデル応用を目指して

LM4HPC: Towards Effective Language Model Application in High-Performance Computing ( http://arxiv.org/abs/2306.14979v1 )

ライセンス: Link先を確認
Le Chen and Pei-Hung Lin and Tristan Vanderbruggen and Chunhua Liao and Murali Emani and Bronis de Supinski(参考訳) 近年,GPT-4などの言語モデル(LM)は,自然言語処理や可視化など,複数の領域で広く利用されている。 しかし,HPC固有のサポートがないため,ハイパフォーマンスコンピューティング (HPC) ソフトウェアの解析と最適化に応用することは依然として困難である。 本稿では,LMを用いたHPCソフトウェア解析・最適化の研究開発を容易にするために,LM4HPCフレームワークを設計する。 HPCデータセット、AIモデル、パイプラインをサポートするために設計された私たちのフレームワークは、Hugging Face互換APIを使用して、機械学習ソフトウェアスタックのさまざまなレベルのコンポーネントの上に構築されています。 3つの代表的なタスクを用いて,フレームワークのプロトタイプを評価した。 その結果,LM4HPCは,最先端モデルの集合を素早く評価し,洞察に富んだリーダボードを生成するのに役立つことがわかった。

In recent years, language models (LMs), such as GPT-4, have been widely used in multiple domains, including natural language processing, visualization, and so on. However, applying them for analyzing and optimizing high-performance computing (HPC) software is still challenging due to the lack of HPC-specific support. In this paper, we design the LM4HPC framework to facilitate the research and development of HPC software analyses and optimizations using LMs. Tailored for supporting HPC datasets, AI models, and pipelines, our framework is built on top of a range of components from different levels of the machine learning software stack, with Hugging Face-compatible APIs. Using three representative tasks, we evaluated the prototype of our framework. The results show that LM4HPC can help users quickly evaluate a set of state-of-the-art models and generate insightful leaderboards.
翻訳日:2023-06-28 15:48:10 公開日:2023-06-26
# サブグループの公正な対策

Fairness Aware Counterfactuals for Subgroups ( http://arxiv.org/abs/2306.14978v1 )

ライセンス: Link先を確認
Loukas Kavouras, Konstantinos Tsopelas, Giorgos Giannopoulos, Dimitris Sacharidis, Eleni Psaroudaki, Nikolaos Theologitis, Dimitrios Rontogiannis, Dimitris Fotakis, Ioannis Emiris(参考訳) 本稿では,サブグループの公平性を検査するためのフレームワークであるサブグループ(facts)に対して,反事実的説明を通した公正を意識した反事実を提示する。 まず、既存の概念を再検討(そして一般化)し、より洗練された部分群フェアネスの概念を導入する。 私たちは (a)特定のサブグループの個人が会話をすることの難しさの異なる側面を定式化し、すなわち、マイクロレベルで、サブグループのメンバを個別に、またはマクロレベルで、そのサブグループ全体を考慮して、望ましい結果を得る。 (b) 言説を達成するためのコストに対して、完全でなくても頑健な部分群フェアネスの概念を導入する。 我々はこれらの概念を, モデルに依存しない, パラメータ化可能な, 説明可能なフレームワークで, サブグループフェアネスを評価する。 我々は、異なるベンチマークデータセットの徹底的な実験評価を通じて、利点、広範囲な適用性、アプローチの効率性を実証する。

In this work, we present Fairness Aware Counterfactuals for Subgroups (FACTS), a framework for auditing subgroup fairness through counterfactual explanations. We start with revisiting (and generalizing) existing notions and introducing new, more refined notions of subgroup fairness. We aim to (a) formulate different aspects of the difficulty of individuals in certain subgroups to achieve recourse, i.e. receive the desired outcome, either at the micro level, considering members of the subgroup individually, or at the macro level, considering the subgroup as a whole, and (b) introduce notions of subgroup fairness that are robust, if not totally oblivious, to the cost of achieving recourse. We accompany these notions with an efficient, model-agnostic, highly parameterizable, and explainable framework for evaluating subgroup fairness. We demonstrate the advantages, the wide applicability, and the efficiency of our approach through a thorough experimental evaluation of different benchmark datasets.
翻訳日:2023-06-28 15:47:56 公開日:2023-06-26
# 複雑なデータセットのスケールの法則と普遍的統計構造

The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets ( http://arxiv.org/abs/2306.14975v1 )

ライセンス: Link先を確認
Noam Levi and Yaron Oz(参考訳) 実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。 我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて基礎構造を明らかにすることである。 局所的および大域的固有値統計を解析し,特徴的共分散行列に着目した。 私たちの主な観察は 一 実世界のデータと比較して、非相関乱数データに対して、その固有値の大部分が示すパワーロースケーリングは著しく異なる。 (ii)このスケーリング挙動は、合成データに対して単純な方法で長距離相関を導入することで完全に回復することができる。 (iii)生成データと実世界のデータセットは、統合可能なシステムではなくカオスとして、rmtの観点から同じ普遍性クラスにある。 (4) RMTの予測統計行動は, 従来の実世界のトレーニングに使用されていたデータよりも, データセットサイズにおける経験的共分散行列に対して, すでに顕著に小さく, 集団パワー則スケーリング行動の近似に要するサンプル数に関連付けられる。 (v)シャノンエントロピーは、局所rmt構造および固有値スケーリングと相関し、非相関合成データと比較して強相関データセットでは大幅に小さく、分布エントロピーに達するにはサンプルが少ない。 これらの発見は、自然データから生成された合成データの識別、ノイズの定量化、より良いデータ抽出法の開発、これらのスケーリング法則を利用した効果的な学習モデルの分類など、データセットの複雑さの特徴づけに多くの意味を持つ。

We study universal traits which emerge both in real-world complex datasets, as well as in artificially generated ones. Our approach is to analogize data to a physical system and employ tools from statistical physics and Random Matrix Theory (RMT) to reveal their underlying structure. We focus on the feature-feature covariance matrix, analyzing both its local and global eigenvalue statistics. Our main observations are: (i) The power-law scalings that the bulk of its eigenvalues exhibit are vastly different for uncorrelated random data compared to real-world data, (ii) this scaling behavior can be completely recovered by introducing long range correlations in a simple way to the synthetic data, (iii) both generated and real-world datasets lie in the same universality class from the RMT perspective, as chaotic rather than integrable systems, (iv) the expected RMT statistical behavior already manifests for empirical covariance matrices at dataset sizes significantly smaller than those conventionally used for real-world training, and can be related to the number of samples required to approximate the population power-law scaling behavior, (v) the Shannon entropy is correlated with local RMT structure and eigenvalues scaling, and substantially smaller in strongly correlated datasets compared to uncorrelated synthetic data, and requires fewer samples to reach the distribution entropy. These findings can have numerous implications to the characterization of the complexity of data sets, including differentiating synthetically generated from natural data, quantifying noise, developing better data pruning methods and classifying effective learning models utilizing these scaling laws.
翻訳日:2023-06-28 15:47:40 公開日:2023-06-26
# 量子ボルツマン機械学習のサンプル複雑性について

On the Sample Complexity of Quantum Boltzmann Machine Learning ( http://arxiv.org/abs/2306.14969v1 )

ライセンス: Link先を確認
Luuk Coopmans and Marcello Benedetti(参考訳) 量子ボルツマンマシン(quantum boltzmann machines、qbms)は、古典データと量子データの両方の機械学習モデルである。 我々は,データセットの多項式サイズを考慮したQBM学習の運用的定義を,モデルと対象との期待値の差の観点から提示する。 相対エントロピーを損失関数として用いることで、不毛の台地に遭遇することなくこの問題を解決できる。 また,gibbs状態の多項式数を最大にすることで,確率的勾配降下で解が得られることを証明した。 また,QBMパラメータのサブセットに対する事前学習によって,サンプルの複雑性境界を低くすることができることも証明した。 特に,平均場,ガウスフェルミオンおよび幾何学的に局所的なハミルトニアンに基づく事前学習戦略を与える。 これらのモデルと理論的知見を量子および古典データセット上で数値的に検証する。 我々の結果は、QBMが将来の量子デバイスでトレーニング可能な機械学習モデルであることを示す。

Quantum Boltzmann machines (QBMs) are machine-learning models for both classical and quantum data. We give an operational definition of QBM learning in terms of the difference in expectation values between the model and target, taking into account the polynomial size of the data set. By using the relative entropy as a loss function this problem can be solved without encountering barren plateaus. We prove that a solution can be obtained with stochastic gradient descent using at most a polynomial number of Gibbs states. We also prove that pre-training on a subset of the QBM parameters can only lower the sample complexity bounds. In particular, we give pre-training strategies based on mean-field, Gaussian Fermionic, and geometrically local Hamiltonians. We verify these models and our theoretical findings numerically on a quantum and a classical data set. Our results establish that QBMs are promising machine learning models trainable on future quantum devices.
翻訳日:2023-06-28 15:46:51 公開日:2023-06-26
# 量子セキュア光チャネルに必要なセキュア鍵レートについて

On the Required Secure Key Rate for Quantum-Secured Optical Channels ( http://arxiv.org/abs/2306.15031v1 )

ライセンス: Link先を確認
Farzam Toudeh-Fallah, Robert Keys, Dave Atkinson(参考訳) 量子鍵分布(QKD)技術に基づく量子セキュアな光データチャネルの現在の成熟度は、メトロ環境における展開レベルにあり、R&Dは長距離展開にも向けられている。 量子チャネルに対する到達可能なセキュア鍵レート(skr)に関する多くの研究が行われている。 しかし、ネットワークオペレーターにとって大きな疑問の1つは、量子セキュアチャネルの展開に必要なSKRである。 本稿では、量子セキュア光チャネルに必要なSKRを定義し、このパラメータを最適化するためのガイドラインを提供する。 \copyright 2023 The Author(s)

The current maturity of the quantum-secured optical data channels based on the Quantum Key Distribution (QKD) technology is at the deployment level in metro environments, while R&D efforts are also being conducted towards long-distance deployments. A great deal of research has been conducted on the achievable Secure Key Rate (SKR) for quantum channels. However, one of the major questions for network operators is the required SKR for the deployment of quantum-secured channels. This article addresses this question by defining the required SKR for quantum-secured optical channels and provides guidelines towards optimizing this parameter. \copyright 2023 The Author(s)
翻訳日:2023-06-28 15:40:28 公開日:2023-06-26
# 等変フローマッチング

Equivariant flow matching ( http://arxiv.org/abs/2306.15030v1 )

ライセンス: Link先を確認
Leon Klein, Andreas Kr\"amer, Frank No\'e(参考訳) 正規化フロー(英: normalizing flow)は、物理学における確率分布のモデル化において特に興味深い深層生成モデルの一種であり、流れの正確な可能性によって既知の対象エネルギー関数への重み付けと偏りのない観測可能性の計算が可能になる。 例えば、ボルツマン発生器は、小さな分子やタンパク質のような多体系の平衡サンプルを生成するためのトレーニングフローによって、統計物理学における長期間にわたるサンプリング問題に取り組む。 このようなシステムに対して効果的なモデルを構築するためには、同変連続正規化フロー(CNF)によって達成される対象エネルギーの対称性をモデルに組み込むことが重要である。 しかし、cnfはトレーニングやサンプル生成に計算コストがかかるため、スケーラビリティや実用的応用を妨げている。 本稿では,最近提案された最適輸送流マッチングに基づく同変CNFの新しいトレーニング目標である同変フローマッチングを提案する。 等変流マッチングは、標的エネルギーの物理対称性を利用して、同変CNFの効率的でシミュレーションなしな訓練を行う。 我々は多粒子系と小さな分子であるアラニンジペプチドに対するアプローチの有効性を実証し、内部座標の調整に頼らずにかなりのサンプリング効率のボルツマン生成体を初めて得る。 この結果から,同変フローマッチングの対象は,従来の手法に比べて,より短い積分経路,サンプリング効率の向上,スケーラビリティの向上を図っている。

Normalizing flows are a class of deep generative models that are especially interesting for modeling probability distributions in physics, where the exact likelihood of flows allows reweighting to known target energy functions and computing unbiased observables. For instance, Boltzmann generators tackle the long-standing sampling problem in statistical physics by training flows to produce equilibrium samples of many-body systems such as small molecules and proteins. To build effective models for such systems, it is crucial to incorporate the symmetries of the target energy into the model, which can be achieved by equivariant continuous normalizing flows (CNFs). However, CNFs can be computationally expensive to train and generate samples from, which has hampered their scalability and practical application. In this paper, we introduce equivariant flow matching, a new training objective for equivariant CNFs that is based on the recently proposed optimal transport flow matching. Equivariant flow matching exploits the physical symmetries of the target energy for efficient, simulation-free training of equivariant CNFs. We demonstrate the effectiveness of our approach on many-particle systems and a small molecule, alanine dipeptide, where for the first time we obtain a Boltzmann generator with significant sampling efficiency without relying on tailored internal coordinate featurization. Our results show that the equivariant flow matching objective yields flows with shorter integration paths, improved sampling efficiency, and higher scalability compared to existing methods.
翻訳日:2023-06-28 15:40:18 公開日:2023-06-26
# 動的プログラミングを超えて

Beyond dynamic programming ( http://arxiv.org/abs/2306.15029v1 )

ライセンス: Link先を確認
Abhinav Muraleedharan(参考訳) 本稿では,強化学習問題を解決するための新しい理論手法であるスコアライフプログラミングを提案する。 古典的動的計画法とは対照的に,本手法は非定常ポリシー関数を探索し,与えられた状態から最適無限水平作用列を直接計算することができる。 本手法の中心的な考え方は,無限ホライズン作用列と有界区間の実数の間の写像の構成である。 この構成により、ポリシー関数を必要とせず、最適無限水平行動列を直接計算する最適化問題を定式化することができる。 非線形最適制御問題に適用することで,本手法の有効性を示す。 全体として、我々の貢献は強化学習問題の定式化と解決のための新しい理論的枠組みを提供する。

In this paper, we present Score-life programming, a novel theoretical approach for solving reinforcement learning problems. In contrast with classical dynamic programming-based methods, our method can search over non-stationary policy functions, and can directly compute optimal infinite horizon action sequences from a given state. The central idea in our method is the construction of a mapping between infinite horizon action sequences and real numbers in a bounded interval. This construction enables us to formulate an optimization problem for directly computing optimal infinite horizon action sequences, without requiring a policy function. We demonstrate the effectiveness of our approach by applying it to nonlinear optimal control problems. Overall, our contributions provide a novel theoretical framework for formulating and solving reinforcement learning problems.
翻訳日:2023-06-28 15:39:50 公開日:2023-06-26
# クリフォードによる量子伝送のための最適パス選択

Clifford Assisted Optimal Pass Selection for Quantum Transpilation ( http://arxiv.org/abs/2306.15020v1 )

ライセンス: Link先を確認
Siddharth Dangwal, Gokul Subramanian Ravi, Lennart Maximilian Seifert, and Frederic T. Chong(参考訳) NISQ時代の量子プログラムの忠実度は、高レベルのデバイスノイズによって制限される。 NISQデバイス上で実行される量子プログラムの忠実性を高めるため、様々な最適化が提案されている。 これには、マッピングパス、ルーティングパス、スケジューリングメソッド、および通常パスとしてトランスパイラに組み込まれるスタンドアロン最適化が含まれる。 Qiskit、Cirq、Cambridge Quantum Computingなどの一般的なトランスパイラは、これらを広く利用している。 しかしながら、トランスパイラパスの正しいセットと各パスの正しい構成を選択することは難しい問題である。 トランスパイラは、対象のアプリケーション結果を知ることなく、理想的な選択を識別できないため、ヒューリスティックスを使って重要な決定をすることが多い。 さらに、トランスパイラは、実世界ではしばしば保持されないデバイスノイズに関する仮定を単純化する。 その結果、最先端の最適化を使用しても、ターゲットアプリケーションの忠実度が低下する影響がしばしば見られる。 この課題を克服するために,量子トランスパイルのための最適なパスセットを選択するためのフレームワークである optran を提案する。 optranは、従来のシミュレート可能な量子回路を、ターゲットアプリケーションに似たクリフォードゲートで構成し、異なるパスがターゲットアプリケーションのコンテキストで相互にどう相互作用するかを推定する。 OPTRANはこの情報を使用して、実際のデバイス上で実行する際のターゲットアプリケーションの忠実度を最大化するパスの最適な組み合わせを選択する。 OPTRAN は IBM Qiskit が使用するベースラインの最大限界の87.66% 向上することを示す。 また,OPTRANよりも78.33%,76.66%の許容限界を58.33%,69.44%のコスト削減で改善するOPTRAN-E-3およびOPTRAN-E-1の低コスト版を提案する。

The fidelity of quantum programs in the NISQ era is limited by high levels of device noise. To increase the fidelity of quantum programs running on NISQ devices, a variety of optimizations have been proposed. These include mapping passes, routing passes, scheduling methods and standalone optimisations which are usually incorporated into a transpiler as passes. Popular transpilers such as those proposed by Qiskit, Cirq and Cambridge Quantum Computing make use of these extensively. However, choosing the right set of transpiler passes and the right configuration for each pass is a challenging problem. Transpilers often make critical decisions using heuristics since the ideal choices are impossible to identify without knowing the target application outcome. Further, the transpiler also makes simplifying assumptions about device noise that often do not hold in the real world. As a result, we often see effects where the fidelity of a target application decreases despite using state-of-the-art optimisations. To overcome this challenge, we propose OPTRAN, a framework for Choosing an Optimal Pass Set for Quantum Transpilation. OPTRAN uses classically simulable quantum circuits composed entirely of Clifford gates, that resemble the target application, to estimate how different passes interact with each other in the context of the target application. OPTRAN then uses this information to choose the optimal combination of passes that maximizes the target application's fidelity when run on the actual device. Our experiments on IBM machines show that OPTRAN improves fidelity by 87.66% of the maximum possible limit over the baseline used by IBM Qiskit. We also propose low-cost variants of OPTRAN, called OPTRAN-E-3 and OPTRAN-E-1 that improve fidelity by 78.33% and 76.66% of the maximum permissible limit over the baseline at a 58.33% and 69.44% reduction in cost compared to OPTRAN respectively.
翻訳日:2023-06-28 15:39:40 公開日:2023-06-26
# フィードフォワードネットワークのスケーリングと再サイズ対称性

Scaling and Resizing Symmetry in Feedforward Networks ( http://arxiv.org/abs/2306.15015v1 )

ライセンス: Link先を確認
Carlos Cardona(参考訳) ディープニューラルネットワークにおける重み付き初期化は、学習マップの収束速度に大きな影響を与える。 近年の研究では、ランダム初期化の場合、ランダム重みとバイアスの分散の空間においてカオス/秩序相転移が起こることが示されている。 実験では、ニューラルネットワークがそのような相転移の臨界線に沿って値に初期化される場合、トレーニング速度の観点から大きな改善ができることを示した。 この結果から,臨界時の物理系によって示されるスケーリング特性は,臨界直線にランダム重みの初期化を伴う無訓練フィードフォワードネットワークにも存在していることを示す。 さらに、臨界度におけるスケーリング対称性から直接受け継がれる追加のデータ縮小対称性を提案する。

Weights initialization in deep neural networks have a strong impact on the speed of converge of the learning map. Recent studies have shown that in the case of random initializations, a chaos/order phase transition occur in the space of variances of random weights and biases. Experiments then had shown that large improvements can be made, in terms of the training speed, if a neural network is initialized on values along the critical line of such phase transition. In this contribution, we show evidence that the scaling property exhibited by physical systems at criticality, is also present in untrained feedforward networks with random weights initialization at the critical line. Additionally, we suggest an additional data-resizing symmetry, which is directly inherited from the scaling symmetry at criticality.
翻訳日:2023-06-28 15:39:04 公開日:2023-06-26
# 減衰量子調和振動子の再検討

Revisiting the damped quantum harmonic oscillator ( http://arxiv.org/abs/2306.15013v1 )

ライセンス: Link先を確認
Stephen M. Barnett, James D. Cresser and Sarah Croke(参考訳) 量子減衰型高調波発振器を再検討し,3つの特徴を導入する。 これらは (i)離散発振器のアンサンブルではなく、貯水池の連続体モデルを使用すること。 (二)ファノの先駆的な技術を適用してハミルトン家の正確な対角化、及び (iii)有限温度貯留層を記述するための熱電場法の使用。 私たちはこの方法で、よく知られたいくつかの、おそらくあまり知られていない結果を取り戻します。 後者の例は、振動子が平均力ギブス状態に緩和するという ab initio 証明である。 前者は2つの異なる固有周波数を持ち、1つは短い時間発展と関連し、もう1つは長い時間を持つため、減衰発振器とアンパンプされた発振器を比較する際に特別な注意が必要である。

We reanalyse the quantum damped harmonic oscillator, introducing three less than common features. These are (i) the use of a continuum model of the reservoir rather than an ensemble of discrete oscillators, (ii) an exact diagonalisation of the Hamiltonian by adapting a technique pioneered by Fano, and (iii) the use of the thermofield technique for describing a finite temperature reservoir. We recover in this way a number of well-known and some, perhaps, less familiar results. An example of the latter is an ab initio proof that the oscillator relaxes to the mean-force Gibbs state. We find that special care is necessary when comparing the damped oscillator with its undamped counterpart as the former has two distinct natural frequencies, one associated with short time evolution and the other with longer times.
翻訳日:2023-06-28 15:38:51 公開日:2023-06-26
# 雑音混入の信号回復のための統計的成分分離

Statistical Component Separation for Targeted Signal Recovery in Noisy Mixtures ( http://arxiv.org/abs/2306.15012v1 )

ライセンス: Link先を確認
Bruno R\'egaldo-Saint Blancard, Michael Eickenberg(参考訳) 添加剤混合物からの信号の分離は、与えられた信号の特定の性質のみに関心がある場合、必然的に難しい問題となる。 本研究では,目標信号の統計的記述子集合を雑音混合から復元することに焦点を当てた,より単純な「統計成分分離」問題に取り組む。 ノイズプロセスのサンプルへのアクセスを仮定し,ノイズサンプルによる解候補の統計値と観測混合物の統計値とを一致させる手法を検討した。 まず, この手法の挙動を, 解析的に計算可能な簡単な例を用いて解析する。 そして、それを画像認知コンテキストに適用する。 1)ウェーブレットベースの記述子 2)convnetによる天体物理学とイメージネットデータの記述子。 1)の場合,本手法は,ほとんどの状況において標準的なデノナイジング法よりも,対象データのディスクリプタをよりよく回収することを示す。 また、この目的のために構築されていないにもかかわらず、全信号再構成におけるピーク信号対雑音比の点で驚くほどよく機能する。 比較すると 表現は 2) 画像復調にはあまり適さない。 最後に,この手法を拡散ステップワイズアルゴリズムを導入することで拡張し,初期手法に対する新たな視点を与え,特定の状況下で画像の雑音化に有望な結果をもたらす。

Separating signals from an additive mixture may be an unnecessarily hard problem when one is only interested in specific properties of a given signal. In this work, we tackle simpler "statistical component separation" problems that focus on recovering a predefined set of statistical descriptors of a target signal from a noisy mixture. Assuming access to samples of the noise process, we investigate a method devised to match the statistics of the solution candidate corrupted by noise samples with those of the observed mixture. We first analyze the behavior of this method using simple examples with analytically tractable calculations. Then, we apply it in an image denoising context employing 1) wavelet-based descriptors, 2) ConvNet-based descriptors on astrophysics and ImageNet data. In the case of 1), we show that our method better recovers the descriptors of the target data than a standard denoising method in most situations. Additionally, despite not constructed for this purpose, it performs surprisingly well in terms of peak signal-to-noise ratio on full signal reconstruction. In comparison, representation 2) appears less suitable for image denoising. Finally, we extend this method by introducing a diffusive stepwise algorithm which gives a new perspective to the initial method and leads to promising results for image denoising under specific circumstances.
翻訳日:2023-06-28 15:38:38 公開日:2023-06-26
# ベクトル量子化近接場と高速高分解能テンプレートマッチング

Efficient High-Resolution Template Matching with Vector Quantized Nearest Neighbour Fields ( http://arxiv.org/abs/2306.15010v1 )

ライセンス: Link先を確認
Ankit Gupta and Ida-Maria Sintorn(参考訳) テンプレートマッチングはコンピュータビジョンにおける基本的な問題であり、オブジェクト検出、画像登録、オブジェクト追跡など様々な分野で応用されている。 現在の最先端の手法は、クエリ特徴空間をNN空間に変換し、各クエリピクセルをテンプレートピクセル内のNNで表現する、最寄りのNNマッチングに依存している。 nnに基づく手法は, 咬合, 外観の変化, 照明変化, 非剛性変換において良好な性能を示すことが示されている。 しかし、NNマッチングは高分解能データと高機能次元では不十分である。 そこで本研究では,NN計算を効率よく削減するテンプレートマッチング手法を提案し,変形を考慮するためにNNフィールドにフィルタリングを導入する。 ベクトル量子化ステップは、まず$k$機能でテンプレートを表し、次にフィルタは$k$機能よりもテンプレートとクエリ分布を比較します。 提案手法は,低分解能データにおいて最先端の性能を達成し,従来の手法よりも高分解能で性能が向上することを示す。

Template matching is a fundamental problem in computer vision and has applications in various fields, such as object detection, image registration, and object tracking. The current state-of-the-art methods rely on nearest-neighbour (NN) matching in which the query feature space is converted to NN space by representing each query pixel with its NN in the template pixels. The NN-based methods have been shown to perform better in occlusions, changes in appearance, illumination variations, and non-rigid transformations. However, NN matching scales poorly with high-resolution data and high feature dimensions. In this work, we present an NN-based template-matching method which efficiently reduces the NN computations and introduces filtering in the NN fields to consider deformations. A vector quantization step first represents the template with $k$ features, then filtering compares the template and query distributions over the $k$ features. We show that state-of-the-art performance was achieved in low-resolution data, and our method outperforms previous methods at higher resolution showing the robustness and scalability of the approach.
翻訳日:2023-06-28 15:38:17 公開日:2023-06-26
# 教師なし分類を用いたセンチネル-2/msiシミュレーション画像における海洋ゴミのスペクトル解析

Spectral Analysis of Marine Debris in Simulated and Observed Sentinel-2/MSI Images using Unsupervised Classification ( http://arxiv.org/abs/2306.15008v1 )

ライセンス: Link先を確認
Bianca Matos de Barros, Douglas Galimberti Barbosa and Cristiano Lima Hackmann(参考訳) 海洋性ごみは海洋環境や沿岸環境に大きな脅威をもたらし、その影響は増え続けている。 リモートセンシングは、広範囲のカバレッジと頻繁な観察が可能なため、局所的な清掃作業やトロール網調査のような従来の緩和技術に有利な補助を提供する。 本研究では,Sentinel-2ミッションのMultispectral Instrument(MSI)のデータとデータを,機械学習アルゴリズムと組み合わせてRTM(Radiative Transfer Model)を用いた。 本研究の目的は, 海洋プラスチック汚染のスペクトル挙動を調査し, RTMの適用性を評価することである。 kmeansアルゴリズムを用いた探索分析と教師なし分類の結果, 汚染物質のスペクトル挙動は, ポリマーの種類や画素被覆率などの要因の影響を受けていることがわかった。 また,元素間の相関と分化のスペクトル特性と傾向も明らかにした。 適用された方法論はデータに大きく依存しており、新しい、より多様で詳細なデータセットに再適用すれば、よりよい結果を生み出す可能性がある。 これらの知見は、海洋プラスチック汚染検出のためのリモートセンシング応用における将来の研究を導くことができる。

Marine litter poses significant threats to marine and coastal environments, with its impacts ever-growing. Remote sensing provides an advantageous supplement to traditional mitigation techniques, such as local cleaning operations and trawl net surveys, due to its capabilities for extensive coverage and frequent observation. In this study, we used Radiative Transfer Model (RTM) simulated data and data from the Multispectral Instrument (MSI) of the Sentinel-2 mission in combination with machine learning algorithms. Our aim was to study the spectral behavior of marine plastic pollution and evaluate the applicability of RTMs within this research area. The results from the exploratory analysis and unsupervised classification using the KMeans algorithm indicate that the spectral behavior of pollutants is influenced by factors such as the type of polymer and pixel coverage percentage. The findings also reveal spectral characteristics and trends of association and differentiation among elements. The applied methodology is strongly dependent on the data, and if reapplied in new, more diverse, and detailed datasets, it can potentially generate even better results. These insights can guide future research in remote sensing applications for detecting marine plastic pollution.
翻訳日:2023-06-28 15:37:57 公開日:2023-06-26
# 機械学習ソフトウェアシステムにおける品質問題

Quality Issues in Machine Learning Software Systems ( http://arxiv.org/abs/2306.15007v1 )

ライセンス: Link先を確認
Pierre-Olivier C\^ot\'e, Amin Nikanjam, Rached Bouchoucha, Ilan Basta, Mouna Abidi, Foutse Khomh(参考訳) コンテキスト: 複雑な問題を解決するために機械学習(ML)を採用するために、さまざまな領域で需要が高まっている。 MLモデルはソフトウェアコンポーネントとして実装され、機械学習ソフトウェアシステム(MLSS)にデプロイされる。 問題:MLSSのサービス品質を保証するためには,強いニーズがある。 このようなシステムの不正または劣悪な決定は、他のシステムの誤動作、重大な財政的損失、さらには人間の生命への脅威につながる可能性がある。 MLSSの品質保証は難しい課題と考えられており、現在ホットな研究トピックとなっている。 目的:本稿は実践者の視点から,MLSSにおける実際の品質問題の特徴を考察することを目的とする。 本研究の目的は,MLSSにおける品質問題カタログの同定である。 方法: 品質問題に対処する際の経験や実践に関する洞察を得るために,実践者や専門家との一連のインタビューを実施します。 ml実践者による調査を通じて、特定した品質問題を検証する。 結果: インタビュー37件の内容から, 繰り返し発生する品質問題18件と対策24件を特定した。 それぞれの課題について,実践者の経験に基づいて原因と結果を説明する。 結論:本研究で開発された課題のカタログは,コミュニティがMLモデルやMLSSの効率的な品質保証ツールを開発できると考えている。 私たちの研究のレプリケーションパッケージは、githubリポジトリから入手できます。

Context: An increasing demand is observed in various domains to employ Machine Learning (ML) for solving complex problems. ML models are implemented as software components and deployed in Machine Learning Software Systems (MLSSs). Problem: There is a strong need for ensuring the serving quality of MLSSs. False or poor decisions of such systems can lead to malfunction of other systems, significant financial losses, or even threats to human life. The quality assurance of MLSSs is considered a challenging task and currently is a hot research topic. Objective: This paper aims to investigate the characteristics of real quality issues in MLSSs from the viewpoint of practitioners. This empirical study aims to identify a catalog of quality issues in MLSSs. Method: We conduct a set of interviews with practitioners/experts, to gather insights about their experience and practices when dealing with quality issues. We validate the identified quality issues via a survey with ML practitioners. Results: Based on the content of 37 interviews, we identified 18 recurring quality issues and 24 strategies to mitigate them. For each identified issue, we describe the causes and consequences according to the practitioners' experience. Conclusion: We believe the catalog of issues developed in this study will allow the community to develop efficient quality assurance tools for ML models and MLSSs. A replication package of our study is available on our public GitHub repository.
翻訳日:2023-06-28 15:37:38 公開日:2023-06-26
# 非開示プロキシによる平衡フィルタ

Balanced Filtering via Non-Disclosive Proxies ( http://arxiv.org/abs/2306.15083v1 )

ライセンス: Link先を確認
Siqi Deng, Emily Diana, Michael Kearns, Aaron Roth(参考訳) グループメンバーシップが利用できない場合や、収集時に使用できない場合、センシティブなグループに対してバランスの取れたデータのサンプルを非開示的に収集する問題について検討する。 特に,収集機構は,ベースレートのみから確認できるよりも,個々のサンプルのグループメンバシップについて明らかにしていない。 これを実現するために、学習者が小さなラベル付きデータセットを使用して、後にこのフィルタリングタスクに使用できるプロキシ関数をトレーニングできる、公正なパイプラインパースペクティブを採用しています。 次に、プロキシ関数の範囲をサンプリング確率に関連付け、新しい候補が与えられたら、プロキシ関数を使用してそれを分類し、そのプロキシ分類に対応するサンプリング確率に比例した確率でサンプルに対して選択する。 重要なことに、プロキシの分類自体が個々のサンプルの敏感なグループメンバーシップに関する重要な情報を明かさない必要がある(つまり、十分に非開示である)。 アルゴリズム的な仮定では、そのようなプロキシはサンプルとオラクルの効率のよい方法で見つかる。 最後に,本アルゴリズムを実験的に評価し,一般化特性を解析する。

We study the problem of non-disclosively collecting a sample of data that is balanced with respect to sensitive groups when group membership is unavailable or prohibited from use at collection time. Specifically, our collection mechanism does not reveal significantly more about group membership of any individual sample than can be ascertained from base rates alone. To do this, we adopt a fairness pipeline perspective, in which a learner can use a small set of labeled data to train a proxy function that can later be used for this filtering task. We then associate the range of the proxy function with sampling probabilities; given a new candidate, we classify it using our proxy function, and then select it for our sample with probability proportional to the sampling probability corresponding to its proxy classification. Importantly, we require that the proxy classification itself not reveal significant information about the sensitive group membership of any individual sample (i.e., it should be sufficiently non-disclosive). We show that under modest algorithmic assumptions, we find such a proxy in a sample- and oracle-efficient manner. Finally, we experimentally evaluate our algorithm and analyze generalization properties.
翻訳日:2023-06-28 15:29:55 公開日:2023-06-26
# 擬似プログラミングにおける$O(\sqrt n)$から$O(\log n)$へ

From $O(\sqrt n)$ to $O(\log n)$ in Quadratic Programming ( http://arxiv.org/abs/2306.15079v1 )

ライセンス: Link先を確認
Liang Wu(参考訳) 暗雲」は数十年間、数値最適化理論、すなわち、最適化アルゴリズム $o(\log(n))$ の反復複雑性が存在するかどうかにかかっている。 この論文は,新たな最適化アルゴリズムと厳密な理論証明を用いて答える。 ボックス制約付き二次プログラミング(Box-QP)から始まり、多くの実用的な最適化問題はBox-QPに該当する。 smooth quadratic programming (qp) と nonsmooth lasso は双対性理論によってbox-qp に再構成できる。 特に "direct" メソッドのように振る舞う$o(\log(n))$ 反復複雑性 qp アルゴリズムを提示するのは初めてである: 必要なイテレーション数は、正確な値 $\left\lceil\log\left(\frac{3.125n}{\epsilon}\right)/\log(1.5625)\right\rceil$ で決定論的である。 この大きなブレークスルーによって、$o(\sqrt{n})$から$o(\log(n))$の最適化アルゴリズムへの移行が可能になります。

A "dark cloud" hangs over numerical optimization theory for decades, namely, whether an optimization algorithm $O(\log(n))$ iteration complexity exists. "Yes", this paper answers, with a new optimization algorithm and strict theory proof. It starts with box-constrained quadratic programming (Box-QP), and many practical optimization problems fall into Box-QP. Smooth quadratic programming (QP) and nonsmooth Lasso can be reformulated as Box-QP via duality theory. It is the first time to present an $O(\log(n))$ iteration complexity QP algorithm, in particular, which behaves like a "direct" method: the required number of iterations is deterministic with exact value $\left\lceil\log\left(\frac{3.125n}{\epsilon}\right)/\log(1.5625)\right\rceil$. This significant breakthrough enables us to transition from the $O(\sqrt{n})$ to the $O(\log(n))$ optimization algorithm, whose amazing scalability is particularly relevant in today's era of big data and artificial intelligence.
翻訳日:2023-06-28 15:29:38 公開日:2023-06-26
# CLERA:野生における共同認知負荷と眼領域解析のための統一モデル

CLERA: A Unified Model for Joint Cognitive Load and Eye Region Analysis in the Wild ( http://arxiv.org/abs/2306.15073v1 )

ライセンス: Link先を確認
Li Ding, Jack Terwilliger, Aishni Parab, Meng Wang, Lex Fridman, Bruce Mehler, Bryan Reimer(参考訳) 視線領域のダイナミックスを非インタラクティブでリアルタイムに分析することで、人間の視覚注意の割り当てをモニターし、現実世界のタスクの実行中にその精神状態を推定することが可能となり、幅広い人間とコンピュータの相互作用(hci)アプリケーションに役立つ可能性がある。 商用の視線追跡装置は頻繁に採用されているが、これらの装置のカスタマイズの難しさは、より効率的でエンドツーエンドな視線力学モデルの探索に不必要な制約を課している。 本研究では,協調学習におけるキーポイント検出と時空間追跡を実現する認知負荷・眼領域分析のための統一モデルcleraを提案する。 本手法は,認知的負荷推定,視線ランドマーク検出,瞬き推定などのタスクにおいて,事前の作業よりも効率が優れることを示す。 また,共同瞳孔,眼開放性,ランドマークアノテーションを用いた3k顔の大規模データセットも導入し,人的要因と視線関連分析に関する将来のhci研究を支援することを目的とした。

Non-intrusive, real-time analysis of the dynamics of the eye region allows us to monitor humans' visual attention allocation and estimate their mental state during the performance of real-world tasks, which can potentially benefit a wide range of human-computer interaction (HCI) applications. While commercial eye-tracking devices have been frequently employed, the difficulty of customizing these devices places unnecessary constraints on the exploration of more efficient, end-to-end models of eye dynamics. In this work, we propose CLERA, a unified model for Cognitive Load and Eye Region Analysis, which achieves precise keypoint detection and spatiotemporal tracking in a joint-learning framework. Our method demonstrates significant efficiency and outperforms prior work on tasks including cognitive load estimation, eye landmark detection, and blink estimation. We also introduce a large-scale dataset of 30k human faces with joint pupil, eye-openness, and landmark annotation, which aims to support future HCI research on human factors and eye-related analysis.
翻訳日:2023-06-28 15:29:14 公開日:2023-06-26
# 回帰のための事前学習課題の多様性と非ベイズ的文脈学習の出現

Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression ( http://arxiv.org/abs/2306.15063v1 )

ライセンス: Link先を確認
Allan Ravent\'os, Mansheej Paul, Feng Chen, Surya Ganguli(参考訳) 事前訓練されたトランスフォーマーは、インコンテキスト学習(ICL: In-context Learning)の顕著な能力を示す。 ICLは基本的に$\textit{new}$タスクを解決できますか? そこで本研究では,プリトレーニングデータセットにおけるタスクの多様性を変えつつ,線形回帰におけるiclの性能について検討する。 ICLの出現に対する$\textit{task diversity threshold}$を実証的に示す。 このしきい値以下では、プリトレーニングされたトランスフォーマーは、前回のように$\textit{non-diverse pretraining task distribution}$を持つベイズ推定器のように振る舞うため、目に見えない回帰タスクを解決できない。 このしきい値を超えて、トランスフォーマーは、この推定器を大きく上回る;その振舞いはリッジ回帰のそれと一致し、プリトレーニング中に見えないものを含む$\textit{all tasks}$以前のガウス式に対応する。 これらの結果は、タスクの多様性がしきい値よりも大きいデータを事前トレーニングすると、transformers $\textit{can}$がコンテキスト内の基本的な新しいタスクを解決することを強調する。 重要なのは、この機能がベイズ最適推定器から逸脱し、事前訓練分布を前とすることである。 本研究は、iclの出現において、データやモデルスケールとともに、タスクの多様性が重要な役割を担っている。 コードはhttps://github.com/mansheej/icl-task-diversityで入手できる。

Pretrained transformers exhibit the remarkable ability of in-context learning (ICL): they can learn tasks from just a few examples provided in the prompt without updating any weights. This raises a foundational question: can ICL solve fundamentally $\textit{new}$ tasks that are very different from those seen during pretraining? To probe this question, we examine ICL's performance on linear regression while varying the diversity of tasks in the pretraining dataset. We empirically demonstrate a $\textit{task diversity threshold}$ for the emergence of ICL. Below this threshold, the pretrained transformer cannot solve unseen regression tasks as it behaves like a Bayesian estimator with the $\textit{non-diverse pretraining task distribution}$ as the prior. Beyond this threshold, the transformer significantly outperforms this estimator; its behavior aligns with that of ridge regression, corresponding to a Gaussian prior over $\textit{all tasks}$, including those not seen during pretraining. These results highlight that, when pretrained on data with task diversity greater than the threshold, transformers $\textit{can}$ solve fundamentally new tasks in-context. Importantly, this capability hinges on it deviating from the Bayes optimal estimator with the pretraining distribution as the prior. This study underscores, in a concrete example, the critical role of task diversity, alongside data and model scale, in the emergence of ICL. Code is available at https://github.com/mansheej/icl-task-diversity.
翻訳日:2023-06-28 15:28:55 公開日:2023-06-26
# BatchGFN: バッチアクティブ学習のための生成フローネットワーク

BatchGFN: Generative Flow Networks for Batch Active Learning ( http://arxiv.org/abs/2306.15058v1 )

ライセンス: Link先を確認
Shreshth A. Malik, Salem Lahlou, Andrew Jesson, Moksh Jain, Nikolay Malkin, Tristan Deleu, Yoshua Bengio, Yarin Gal(参考訳) batchgfn - 生成フローネットワークを使用してバッチ報酬に比例するデータポイントのセットをサンプリングする、プールベースのアクティブラーニングの新しいアプローチを紹介します。 BatchGFNは、バッチとモデルパラメータの協調的な相互情報などのバッチ取得の有用性を定量化する適切な報奨関数により、アクティブラーニングのための高度に情報的なバッチを原則的に構築することができる。 提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で,ほぼ最適のユーティリティバッチを推定時にサンプリングすることができることを示す。 これにより、バッチ対応アルゴリズムの計算複雑性が軽減され、バッチ報酬の最大値を見つけるための欲求近似が不要になる。 また,実世界のタスクへのスケーリングを可能にするために,取得ステップ間のトレーニングをモーティフィズする早期結果も提示する。

We introduce BatchGFN -- a novel approach for pool-based active learning that uses generative flow networks to sample sets of data points proportional to a batch reward. With an appropriate reward function to quantify the utility of acquiring a batch, such as the joint mutual information between the batch and the model parameters, BatchGFN is able to construct highly informative batches for active learning in a principled way. We show our approach enables sampling near-optimal utility batches at inference time with a single forward pass per point in the batch in toy regression problems. This alleviates the computational complexity of batch-aware algorithms and removes the need for greedy approximations to find maximizers for the batch reward. We also present early results for amortizing training across acquisition steps, which will enable scaling to real-world tasks.
翻訳日:2023-06-28 15:28:25 公開日:2023-06-26
# 公開データを用いた微分プライベート学習の最適化

Optimal Differentially Private Learning with Public Data ( http://arxiv.org/abs/2306.15056v1 )

ライセンス: Link先を確認
Andrew Lowy, Zeman Li, Tianjian Huang, Meisam Razaviyayn(参考訳) 差分プライバシー(DP)は、機械学習モデルのトレーニングがプライベートデータをリークしないことを保証する。 しかし,DPのコストはモデル精度が低く,サンプルの複雑さも高い。 実際には、プライバシーの懸念のない補助的な公開データにアクセスできるかもしれません。 このことは、DPモデルの精度向上に公共データがどのような役割を果たすかという最近の研究を動機付けている。 この作業では、所定の量の公開データにアクセスし、以下の基本的なオープンな質問を解決します。 1. 外部公開データにアクセスしながらプライベートデータセット上でトレーニングされたDPモデルの最適(Worst-case)エラーは何か。 どんなアルゴリズムが最適か? 2. DPモデルトレーニングの実践に公共データをどのように活用するか。 DPの局所モデルと中心モデルの両方においてこれらの疑問を考察する。 最初の質問に答えるために、平均推定、経験的リスク最小化、確率的凸最適化という3つの基本的な問題の最適誤差率を特徴付ける(定数まで)下限と上限を厳密に証明する。 公開データがdpモデルトレーニングのサンプル複雑性を低減できることを実証する。 おそらく驚くべきことに、プライベートデータを破棄してパブリックモデルをトレーニングするか、あるいはプライベートデータのように公開データを扱い、最適なDPアルゴリズムを使用して、最適なエラー率(定数まで)を達成することができる。 2つ目の問題に対処するために、上述した漸近的最適アプローチよりも「より最適な」新しいアルゴリズム(例えば、より良い定数)を開発する。 公共データを用いたローカルDP平均推定では,定数を含むアルゴリズムが最適である。 提案アルゴリズムは,DPモデルトレーニングの既存手法に対して,公開データへのサイドアクセスによるメリットを示す。

Differential Privacy (DP) ensures that training a machine learning model does not leak private data. However, the cost of DP is lower model accuracy or higher sample complexity. In practice, we may have access to auxiliary public data that is free of privacy concerns. This has motivated the recent study of what role public data might play in improving the accuracy of DP models. In this work, we assume access to a given amount of public data and settle the following fundamental open questions: 1. What is the optimal (worst-case) error of a DP model trained over a private data set while having access to side public data? What algorithms are optimal? 2. How can we harness public data to improve DP model training in practice? We consider these questions in both the local and central models of DP. To answer the first question, we prove tight (up to constant factors) lower and upper bounds that characterize the optimal error rates of three fundamental problems: mean estimation, empirical risk minimization, and stochastic convex optimization. We prove that public data reduces the sample complexity of DP model training. Perhaps surprisingly, we show that the optimal error rates can be attained (up to constants) by either discarding private data and training a public model, or treating public data like it's private data and using an optimal DP algorithm. To address the second question, we develop novel algorithms which are "even more optimal" (i.e. better constants) than the asymptotically optimal approaches described above. For local DP mean estimation with public data, our algorithm is optimal including constants. Empirically, our algorithms show benefits over existing approaches for DP model training with side access to public data.
翻訳日:2023-06-28 15:28:11 公開日:2023-06-26
# ゴール整合性による行動予測

Action Anticipation with Goal Consistency ( http://arxiv.org/abs/2306.15045v1 )

ライセンス: Link先を確認
Olga Zatsarynna and Juergen Gall(参考訳) 本稿では,短期的な行動予測の問題,すなわち,発生の1秒前に次の行動を予測することを提案する。 我々は,将来起こるであろう行動を予測するために,高レベルの意図情報を活用することを提案する。 この目的を達成するために,本モデルに新たな目標予測ブランチを組み込むとともに,期待するアクションをビデオで追求した高レベル目標に適合させる一貫性損失関数を提案する。 本実験では,提案手法の有効性を示し,大規模データセットであるassembly101とcoinを用いて,最先端の結果が得られることを示す。

In this paper, we address the problem of short-term action anticipation, i.e., we want to predict an upcoming action one second before it happens. We propose to harness high-level intent information to anticipate actions that will take place in the future. To this end, we incorporate an additional goal prediction branch into our model and propose a consistency loss function that encourages the anticipated actions to conform to the high-level goal pursued in the video. In our experiments, we show the effectiveness of the proposed approach and demonstrate that our method achieves state-of-the-art results on two large-scale datasets: Assembly101 and COIN.
翻訳日:2023-06-28 15:27:46 公開日:2023-06-26
# 分散学習におけるシビルレジリエンスを目指して

Towards Sybil Resilience in Decentralized Learning ( http://arxiv.org/abs/2306.15044v1 )

ライセンス: Link先を確認
Thomas Werthenbach, Johan Pouwelse(参考訳) フェデレーション学習は、プライバシ強化機械学習技術であるが、スケーラビリティの制限に悩まされている。 この制限は、主に中央パラメータサーバのインターネット接続とメモリ容量、およびモデル集約機能の複雑さに起因している。 分散学習は最近、連合学習の有望な代替手段として登場してきた。 この新技術は,全ノード間のモデルアグリゲーションを分散することにより,中央パラメータサーバの必要性をなくす。 多くの研究が毒殺やシビル攻撃に対する連合学習のレジリエンスを改善するために行われているが、分散学習のレジリエンスはほとんど研究されていない。 この研究のギャップは,分散学習のシビル中毒性を改善することを目的とした,本研究の主な動機となっている。 ターゲットとなるシビル中毒攻撃に対する分散学習のレジリエンスを高めることに焦点を当てた,革新的なアルゴリズムであるsybilwallを提案する。 そこで我々は,Sybils と新しい確率的ゴシップ機構の類似性に基づくSybil-Resilient decentralized Learning のための新しいベンチマークを構築した。 包括的実証評価により、SybilWallは、フェデレーション学習シナリオ用に設計された既存の最先端ソリューションよりも優れており、様々な敵攻撃シナリオに対して一貫した精度を得る唯一のアルゴリズムであることが示された。 我々はまた、SybilWallが多くのSybilsを作成する実用性を減らすことにも気付きました。 最後に、SybilWallの改善点をいくつか提案し、将来的な研究の方向性を強調します。

Federated learning is a privacy-enforcing machine learning technology but suffers from limited scalability. This limitation mostly originates from the internet connection and memory capacity of the central parameter server, and the complexity of the model aggregation function. Decentralized learning has recently been emerging as a promising alternative to federated learning. This novel technology eliminates the need for a central parameter server by decentralizing the model aggregation across all participating nodes. Numerous studies have been conducted on improving the resilience of federated learning against poisoning and Sybil attacks, whereas the resilience of decentralized learning remains largely unstudied. This research gap serves as the main motivator for this study, in which our objective is to improve the Sybil poisoning resilience of decentralized learning. We present SybilWall, an innovative algorithm focused on increasing the resilience of decentralized learning against targeted Sybil poisoning attacks. By combining a Sybil-resistant aggregation function based on similarity between Sybils with a novel probabilistic gossiping mechanism, we establish a new benchmark for scalable, Sybil-resilient decentralized learning. A comprehensive empirical evaluation demonstrated that SybilWall outperforms existing state-of-the-art solutions designed for federated learning scenarios and is the only algorithm to obtain consistent accuracy over a range of adversarial attack scenarios. We also found SybilWall to diminish the utility of creating many Sybils, as our evaluations demonstrate a higher success rate among adversaries employing fewer Sybils. Finally, we suggest a number of possible improvements to SybilWall and highlight promising future research directions.
翻訳日:2023-06-28 15:27:35 公開日:2023-06-26
# ロバストかつ空間効率の良い2元逆量子クエリアルゴリズム

Robust and Space-Efficient Dual Adversary Quantum Query Algorithms ( http://arxiv.org/abs/2306.15040v1 )

ライセンス: Link先を確認
Michael Czekanski, Shelby Kimmel, and R. Teal Witter(参考訳) 一般逆双対は、ブール関数を決定するためのクエリ最適化境界付きエラー量子アルゴリズムを提供するため、量子コンピューティングにおいて強力なツールである。 残念なことに、アルゴリズムは最悪の場合、線形量子ビットを使用し、一般逆双対の制約が完全に満たされている場合にのみ機能する。 アルゴリズムの改善の課題は、ベクトルの幅の反射に依存するため、任意に小さなエラーを発生させることが難しいことである。 我々は、この課題を克服し、ほぼ満足できる制約を処理できる頑健な双対逆アルゴリズムを構築する。 頑健なアルゴリズムの1つの応用として、多項式的に多くの1値入力を持つブール関数に対して、対数量子ビットを用いたクエリ最適化アルゴリズムが存在することを証明する。 別の応用として、一般逆双対に対する数値的近似解が特定の条件下で有界誤り量子アルゴリズムを与えることを示す。 さらに,これらの条件は,小領域のブール関数に対して合理的な反復を経験的に有することを示す。 我々はまた、ジョンソン・リンデンシュトラウスの補題を用いた一般逆双対解を圧縮するロバストな近似スペクトルギャップ補題、一般逆双対の解を見つけるためのオープンソースコードなど、独立した関心を持つツールも開発している。

The general adversary dual is a powerful tool in quantum computing because it gives a query-optimal bounded-error quantum algorithm for deciding any Boolean function. Unfortunately, the algorithm uses linear qubits in the worst case, and only works if the constraints of the general adversary dual are exactly satisfied. The challenge of improving the algorithm is that it is brittle to arbitrarily small errors since it relies on a reflection over a span of vectors. We overcome this challenge and build a robust dual adversary algorithm that can handle approximately satisfied constraints. As one application of our robust algorithm, we prove that for any Boolean function with polynomially many 1-valued inputs (or in fact a slightly weaker condition) there is a query-optimal algorithm that uses logarithmic qubits. As another application, we prove that numerically derived, approximate solutions to the general adversary dual give a bounded-error quantum algorithm under certain conditions. Further, we show that these conditions empirically hold with reasonable iterations for Boolean functions with small domains. We also develop several tools that may be of independent interest, including a robust approximate spectral gap lemma, a method to compress a general adversary dual solution using the Johnson-Lindenstrauss lemma, and open-source code to find solutions to the general adversary dual.
翻訳日:2023-06-28 15:27:09 公開日:2023-06-26
# スワップによる構造物の最適化ベクタライズ:高効率畳み込みチャネル・スワップハイブリダイゼーション戦略

Optimized Vectorizing of Building Structures with Swap: High-Efficiency Convolutional Channel-Swap Hybridization Strategy ( http://arxiv.org/abs/2306.15035v1 )

ライセンス: Link先を確認
Moule Lin, Weipeng Jing, Chao Li and Andr\'as Jung(参考訳) コンピュータビジョンとジオインフォマティクスの領域にある建物平面グラフの再構築、すなわち足跡の再構築は、従来の畳み込みモデルにおける冗長なパラメータの課題に長い間悩まされてきた。 そこで本稿では,高次元畳み込み演算子に似た局所特徴空間情報を統合するために,類似機能を保ちながら非指数成長パラメータを組み込んだ,高度かつ適応的なシフトアーキテクチャ,すなわちSwap演算を提案する。 スワップ、クロスチャネル操作、アーキテクチャはxor操作を実装し、隣接または対角的な特徴を交互に交換し、1x1畳み込み操作で交互にチャンネルをブレンドし、異なるチャネルからの情報を統合する。 一方、SwapNNアーキテクチャでは、畳み込みニューラルネットワークプロセスにインスパイアされたグループベースのパラメータ共有機構を導入し、パラメータの数を著しく削減している。 提案したアプローチは、ロサンゼルス、ラスベガス、パリの各都市に2,001の建物がある公開データセットであるSpaceNet corpusでの実験を通じて検証しました。 本研究では,2次元建築画像から平面グラフを再構成する手法の有効性を示す。

The building planar graph reconstruction, a.k.a. footprint reconstruction, which lies in the domain of computer vision and geoinformatics, has been long afflicted with the challenge of redundant parameters in conventional convolutional models. Therefore, in this paper, we proposed an advanced and adaptive shift architecture, namely the Swap operation, which incorporates non-exponential growth parameters while retaining analogous functionalities to integrate local feature spatial information, resembling a high-dimensional convolution operator. The Swap, cross-channel operation, architecture implements the XOR operation to alternately exchange adjacent or diagonal features, and then blends alternating channels through a 1x1 convolution operation to consolidate information from different channels. The SwapNN architecture, on the other hand, incorporates a group-based parameter-sharing mechanism inspired by the convolutional neural network process and thereby significantly reducing the number of parameters. We validated our proposed approach through experiments on the SpaceNet corpus, a publicly available dataset annotated with 2,001 buildings across the cities of Los Angeles, Las Vegas, and Paris. Our results demonstrate the effectiveness of this innovative architecture in building planar graph reconstruction from 2D building images.
翻訳日:2023-06-28 15:26:43 公開日:2023-06-26
# トランスファー:逆ネットワークを用いたクロスモダリティ知識伝達 -ジェスチャ認識に関する研究-

Transfer: Cross Modality Knowledge Transfer using Adversarial Networks -- A Study on Gesture Recognition ( http://arxiv.org/abs/2306.15114v1 )

ライセンス: Link先を確認
Payal Kamboj, Ayan Banerjee and Sandeep K.S. Gupta(参考訳) センシング技術間の知識伝達は、ジェスチャーベースのヒューマンコンピュータインタラクションを含む多くのアプリケーション領域で最近研究されている新しい概念である。 主な目的は、ソース技術からセマンティクスまたはデータ駆動の情報を集めて、ターゲット技術における未認識のクラスのインスタンスを分類/認識することである。 主な課題は、ソースとターゲット技術の間の特徴セットの次元性と分布の顕著な違いである。 本稿では,ソースとターゲット技術間の知識伝達のための汎用フレームワークであるTransferを提案する。 トランスファーは、手の動きの言語に基づく表現を用いて、単語の意味に意味的に関係する手形、位置、動きといった概念の時間的組み合わせをキャプチャする。 予め規定された構文構造とトークン化子を利用することで、ハンドジェスチャをトークンに分割し、トークン認識器を使用して個々のコンポーネントを識別する。 この言語ベースの認識システムのトークン化器は、低レベルの技術固有の特性を機械インタフェースに抽象化し、ソース技術とターゲット技術の両方におけるジェスチャー認識に不可欠な技術不変の特徴を学習する識別器の設計を可能にする。 3つの異なるシナリオで転送の使用例を示します。 a) 映像からジェスチャモデルを学習し,wifiを用いてジェスチャを認識する技術間で知識を伝達すること。 b)ビデオから加速度計への知識の転送,及びd)加速度計からwifi信号への知識の転送

Knowledge transfer across sensing technology is a novel concept that has been recently explored in many application domains, including gesture-based human computer interaction. The main aim is to gather semantic or data driven information from a source technology to classify / recognize instances of unseen classes in the target technology. The primary challenge is the significant difference in dimensionality and distribution of feature sets between the source and the target technologies. In this paper, we propose TRANSFER, a generic framework for knowledge transfer between a source and a target technology. TRANSFER uses a language-based representation of a hand gesture, which captures a temporal combination of concepts such as handshape, location, and movement that are semantically related to the meaning of a word. By utilizing a pre-specified syntactic structure and tokenizer, TRANSFER segments a hand gesture into tokens and identifies individual components using a token recognizer. The tokenizer in this language-based recognition system abstracts the low-level technology-specific characteristics to the machine interface, enabling the design of a discriminator that learns technology-invariant features essential for recognition of gestures in both source and target technologies. We demonstrate the usage of TRANSFER for three different scenarios: a) transferring knowledge across technology by learning gesture models from video and recognizing gestures using WiFi, b) transferring knowledge from video to accelerometer, and d) transferring knowledge from accelerometer to WiFi signals.
翻訳日:2023-06-28 15:21:14 公開日:2023-06-26
# feedbackmap: オープンな調査回答を理解するためのツール

FeedbackMap: a tool for making sense of open-ended survey responses ( http://arxiv.org/abs/2306.15112v1 )

ライセンス: Link先を確認
Doug Beeferman, Nabeel Gillani(参考訳) 社会科学者、非営利団体、教育機関は、リッチデータ取得とテキスト応答の読み書きの負担のトレードオフに直面しているため、オープンエンドの調査回答の分析は極めて難しい課題である。 このデモでは、自然言語処理技術を使用したWebベースのツールであるFeedbackMapを紹介し、オープンな調査回答の分析を容易にする。 FeedbackMapは、研究者が複数のレベルで要約を作成し、興味深い応答例を特定し、埋め込みを通じて応答空間を視覚化する。 本稿では,複数の視点から調査結果を調べることの重要性と,要約法による潜在的なバイアスについて検討し,応答音声の表現と省略の批判的評価の必要性を強調した。

Analyzing open-ended survey responses is a crucial yet challenging task for social scientists, non-profit organizations, and educational institutions, as they often face the trade-off between obtaining rich data and the burden of reading and coding textual responses. This demo introduces FeedbackMap, a web-based tool that uses natural language processing techniques to facilitate the analysis of open-ended survey responses. FeedbackMap lets researchers generate summaries at multiple levels, identify interesting response examples, and visualize the response space through embeddings. We discuss the importance of examining survey results from multiple perspectives and the potential biases introduced by summarization methods, emphasizing the need for critical evaluation of the representation and omission of respondent voices.
翻訳日:2023-06-28 15:20:49 公開日:2023-06-26
# CLIPによる半スーパービジョン画像キャプション

Semi-Supervised Image Captioning with CLIP ( http://arxiv.org/abs/2306.15111v1 )

ライセンス: Link先を確認
Chuanyang Jin(参考訳) 視覚言語理解の基本課題である画像キャプションは、提供された画像に対して正確な自然言語記述を生成する。 CLIPモデルは、画像とテキストのペアの大きなコーパスから学んだリッチなセマンティック機能を備えており、このタスクに適しています。 本稿では,CLIPエンコーディングの可能性を利用した2段階半教師付き画像キャプション手法を提案する。 我々のモデルは、CLIPビジュアルエンコーダ、マッピングネットワーク、およびテキスト生成のための言語モデルからなる。 最初の段階では、生成されたキャプションと基底真理キャプションを対比して、小さなラベル付きデータセットを使ってモデルをトレーニングします。 続く段階では,クリップ埋め込みに基づく画像キャプチャの類似性を最大化するために,ラベルなし画像を用いたトレーニングを継続する。 注目すべきは、COCOカプセルの2%未満の利用にもかかわらず、私たちのアプローチは、完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。 さらに,提案手法が生成するキャプションは,より特徴的で,情報的であり,人間の好みと一致している。

Image captioning, a fundamental task in vision-language understanding, seeks to generate accurate natural language descriptions for provided images. The CLIP model, with its rich semantic features learned from a large corpus of image-text pairs, is well-suited for this task. In this paper, we present a two-stage semi-supervised image captioning approach that exploits the potential of CLIP encoding. Our model comprises a CLIP visual encoder, a mapping network, and a language model for text generation. In the initial stage, we train the model using a small labeled dataset by contrasting the generated captions with the ground truth captions. In the subsequent stage, we continue the training using unlabeled images, aiming to maximize the image-caption similarity based on CLIP embeddings. Remarkably, despite utilizing less than 2% of the COCO-captions, our approach delivers a performance comparable to state-of-the-art models trained on the complete dataset. Furthermore, the captions generated by our approach are more distinctive, informative, and in line with human preference.
翻訳日:2023-06-28 15:20:29 公開日:2023-06-26
# インテリジェントな車両認識のための深層移動学習 : サーベイ

Deep Transfer Learning for Intelligent Vehicle Perception: a Survey ( http://arxiv.org/abs/2306.15110v1 )

ライセンス: Link先を確認
Xinyu Liu, Jinlong Li, Jin Ma, Huiming Sun, Zhigang Xu, Tianyun Zhang, Hongkai Yu(参考訳) ディープラーニングに基づくインテリジェントな車両認識は、自動運転における動き計画と意思決定の信頼できる情報源を提供するために、近年大きく進歩している。 多くの強力なディープラーニングベースの手法は、自律運転の様々な認識問題を解く上で優れた性能を達成することができる。 しかし、これらのディープラーニング手法には、実験室訓練(ソースドメイン)と実検体(ターゲットドメイン)データが同じ特徴分布に従うという仮定のようないくつかの制限がある。 多くの実世界のケースでは、それらの間に劇的なドメインギャップがしばしばあります。 この課題の解決策として、ディープトランスファー学習は、ある領域から別の領域に知識を移すことで、優れた状況に対処することができる。 Deep Transfer Learningは、以前別のドメインで学んだ同様のタスクの知識を活用することで、新しいドメインでのタスクパフォーマンスを改善することを目的としている。 それでも、インテリジェントな車両認識のためのディープトランスファー学習に関する調査論文はない。 本論文は、私たちの知る限り、インテリジェントな車両認識のためのディープトランスファー学習に関する最初の総合的な調査である。 本稿では,知的車両知覚におけるセンサ,データ,モデルの違いに関する領域間ギャップについて述べる。 インテリジェントな車両認識における最近の応用、課題、今後の研究も検討されている。

Deep learning-based intelligent vehicle perception has been developing prominently in recent years to provide a reliable source for motion planning and decision making in autonomous driving. A large number of powerful deep learning-based methods can achieve excellent performance in solving various perception problems of autonomous driving. However, these deep learning methods still have several limitations, for example, the assumption that lab-training (source domain) and real-testing (target domain) data follow the same feature distribution may not be practical in the real world. There is often a dramatic domain gap between them in many real-world cases. As a solution to this challenge, deep transfer learning can handle situations excellently by transferring the knowledge from one domain to another. Deep transfer learning aims to improve task performance in a new domain by leveraging the knowledge of similar tasks learned in another domain before. Nevertheless, there are currently no survey papers on the topic of deep transfer learning for intelligent vehicle perception. To the best of our knowledge, this paper represents the first comprehensive survey on the topic of the deep transfer learning for intelligent vehicle perception. This paper discusses the domain gaps related to the differences of sensor, data, and model for the intelligent vehicle perception. The recent applications, challenges, future researches in intelligent vehicle perception are also explored.
翻訳日:2023-06-28 15:20:11 公開日:2023-06-26
# 構造化対話談話解析

Structured Dialogue Discourse Parsing ( http://arxiv.org/abs/2306.15103v1 )

ライセンス: Link先を確認
Ta-Chung Chi and Alexander I. Rudnicky(参考訳) 対話談話解析は、すべての談話~\emph{links} と対応する~\emph{relations} を見つけることによって、多人数会話の内部構造を明らかにすることを目的としている。 それまでの作業では、このタスクを一連の独立した多重選択問題として扱い、リンクの存在と関係を別々にデコードしたり、エンコーディングは局所的な相互作用に限られる。 対照的に,符号化と復号という2つの視点から,従来の作業を改善する原理的手法を提案する。 符号化側では、隣接行列上で構造化符号化を行い、続いて行列-木学習アルゴリズムにより、対話中の全ての談話リンクと関係を潜在木レベル分布に基づいて協調的に最適化する。 復号化側では,修正したchiu-liu-edmondsアルゴリズムを用いて構造的推論を行い,ラベル付きマルチルート非射影的スパンディングツリーを明示的に生成する。 さらに、これまでの作業とは異なり、手作りの機能に依存していません。 実験の結果,本手法は,STACでは2.3,Molweniでは1.5,先行モデルでは2.3を上回った。 https://github.com/chijames/structured_dialogue_discourse_parsing} でリリースされた。 }

Dialogue discourse parsing aims to uncover the internal structure of a multi-participant conversation by finding all the discourse~\emph{links} and corresponding~\emph{relations}. Previous work either treats this task as a series of independent multiple-choice problems, in which the link existence and relations are decoded separately, or the encoding is restricted to only local interaction, ignoring the holistic structural information. In contrast, we propose a principled method that improves upon previous work from two perspectives: encoding and decoding. From the encoding side, we perform structured encoding on the adjacency matrix followed by the matrix-tree learning algorithm, where all discourse links and relations in the dialogue are jointly optimized based on latent tree-level distribution. From the decoding side, we perform structured inference using the modified Chiu-Liu-Edmonds algorithm, which explicitly generates the labeled multi-root non-projective spanning tree that best captures the discourse structure. In addition, unlike in previous work, we do not rely on hand-crafted features; this improves the model's robustness. Experiments show that our method achieves new state-of-the-art, surpassing the previous model by 2.3 on STAC and 1.5 on Molweni (F1 scores). \footnote{Code released at~\url{https://github.com/chijames/structured_dialogue_discourse_parsing}.}
翻訳日:2023-06-28 15:19:53 公開日:2023-06-26
# 異種ユーザ行動下におけるランク付け政策の評価

Off-Policy Evaluation of Ranking Policies under Diverse User Behavior ( http://arxiv.org/abs/2306.15098v1 )

ライセンス: Link先を確認
Haruka Kiyohara, Masatoshi Uehara, Yusuke Narita, Nobuyuki Shimizu, Yasuo Yamamoto, Yuta Saito(参考訳) ランキングインターフェースは、オンラインプラットフォームの至る所にある。 そのため、ログデータを使用したランキングポリシーの正確なパフォーマンス評価を目指して、Off-Policy Evaluation (OPE) への関心が高まっている。 OPEのデファクトアプローチは、不偏で一貫した値推定を提供する逆不等式スコアリング(IPS)である。 しかし、大きな行動空間下での分散度が高いため、ランキング設定では極めて不正確になる。 この問題に対処するため、以前の研究では、独立系かカスケード系のユーザー行動を想定しており、IPSのランキングバージョンがいくつか存在する。 これらの推定子は分散を減らすのに幾分効果的であるが、既存の推定者は全てのユーザーに単一の普遍的な仮定を適用し、過度のバイアスと分散を引き起こす。 そこで本研究では,ユーザの行動がより多様で,ユーザコンテキストによって異なる,より一般的な定式化について検討する。 結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。 さらに、AIPSは、IPSに基づく全ての非バイアス推定器の最小分散を達成する。 さらに,データ駆動方式でAIPSの平均二乗誤差(MSE)を最小化するために,適切なユーザ行動モデルを特定する手順を開発する。 広範囲な実験により、経験的精度の向上が重要となり、多様なユーザの振る舞いの下でも、ランキングシステムの効果的なOPEが可能となった。

Ranking interfaces are everywhere in online platforms. There is thus an ever growing interest in their Off-Policy Evaluation (OPE), aiming towards an accurate performance evaluation of ranking policies using logged data. A de-facto approach for OPE is Inverse Propensity Scoring (IPS), which provides an unbiased and consistent value estimate. However, it becomes extremely inaccurate in the ranking setup due to its high variance under large action spaces. To deal with this problem, previous studies assume either independent or cascade user behavior, resulting in some ranking versions of IPS. While these estimators are somewhat effective in reducing the variance, all existing estimators apply a single universal assumption to every user, causing excessive bias and variance. Therefore, this work explores a far more general formulation where user behavior is diverse and can vary depending on the user context. We show that the resulting estimator, which we call Adaptive IPS (AIPS), can be unbiased under any complex user behavior. Moreover, AIPS achieves the minimum variance among all unbiased estimators based on IPS. We further develop a procedure to identify the appropriate user behavior model to minimize the mean squared error (MSE) of AIPS in a data-driven fashion. Extensive experiments demonstrate that the empirical accuracy improvement can be significant, enabling effective OPE of ranking systems even under diverse user behavior.
翻訳日:2023-06-28 15:19:13 公開日:2023-06-26
# C3Sマイクロアーキテクチャ拡張:Spike Encoder BlockとRelaxing Gamma Clock(非同期)

C3S Micro-architectural Enhancement: Spike Encoder Block and Relaxing Gamma Clock (Asynchronous) ( http://arxiv.org/abs/2306.15093v1 )

ライセンス: Link先を確認
Alok Anand, Ivan Khokhlov, Abhishek Anand(参考訳) ニューロモルフィックコンピューティングの分野は急速に進化している。 生物学的精度と実用性の両方を探求する中で、既存のアーキテクチャは両方の目的のために変更および改善されている。 テンポラルニューラルネットワーク(TNN)スタイルのアーキテクチャは、時間パルスを用いてデータと電圧閾値のようなシステムを符号化するため、生物学的ニューロンを近似するための良い基礎である。 テンポラルニューラルネットワークのコラムC3Sアーキテクチャ設計を基礎として、このプロジェクトはネットワークの設計を強化することを目指している。 このプロジェクトは2つのアイデアに注目し、既存の皮質列アーキテクチャを改善することを目的として設計を提示する。 この分野で必要なのは、生物学的に正確なネットワークが本質的に時間的であるため、一般的なデジタルフォーマットと時間的ニューロンスパイクを変換できるエンコーダである。 この目的のために、このプロジェクトでは、バイナリエンコードされた値とニューラルネットワークによって処理される時間スパイクを変換するエンコーダを提案する。 もう1つの要求は、長いガンマサイクルの処理バーストによる無駄な処理時間をアイドル化することである。 この目的のために、本プロジェクトは、ネットワークが出力応答を決定すると任意に終了するようにガンマサイクルの緩和を示す。 ニューロモルフィック・コンピュータ・アーキテクチャの分野の改善に寄与することを目的として、バイナリ・ツー・スパイク・エンコーダとガンマサイクル・コントローラの両方の設計を、システム全体のゲインと性能とともに最適な設計パラメータとして提示し、評価する。

The field of neuromorphic computing is rapidly evolving. As both biological accuracy and practical implementations are explored, existing architectures are modified and improved for both purposes. The Temporal Neural Network(TNN) style of architecture is a good basis for approximating biological neurons due to its use of timed pulses to encode data and a voltage-threshold-like system. Using the Temporal Neural Network cortical column C3S architecture design as a basis, this project seeks to augment the network's design. This project takes note of two ideas and presents their designs with the goal of improving existing cortical column architecture. One need in this field is for an encoder that could convert between common digital formats and timed neuronal spikes, as biologically accurate networks are temporal in nature. To this end, this project presents an encoder to translate between binary encoded values and timed spikes to be processed by the neural network. Another need is for the reduction of wasted processing time to idleness, caused by lengthy Gamma cycle processing bursts. To this end, this project presents a relaxation of Gamma cycles to allow for them to end arbitrarily early once the network has determined an output response. With the goal of contributing to the betterment of the field of neuromorphic computer architecture, designs for both a binary-to-spike encoder, as well as a Gamma cycle controller, are presented and evaluated for optimal design parameters, with overall system gain and performance.
翻訳日:2023-06-28 15:18:49 公開日:2023-06-26
# 支援的事前学習データによる文脈内学習の理解

Understanding In-Context Learning via Supportive Pretraining Data ( http://arxiv.org/abs/2306.15091v1 )

ライセンス: Link先を確認
Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang(参考訳) In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。 ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。 iclの背後にある暗黙のメカニズムを探求する先行研究とは異なり、プリトレーニングデータを調べることでiclを研究する。 具体的には、まず、ICLをサポートする事前学習データの小さなサブセットを見つけるために、反復的な勾配に基づくアプローチを適用する。 この小部分集合に対する継続的な事前訓練は、モデルのicl能力を大幅に向上させ、最大で18%向上させる。 1) iclに対する支援的事前訓練データは、下流タスクにより高いドメイン的関連性を持っていない。 2)サポート型事前訓練データは、稀に発生するロングテールトークンの質量が高い。 3) 支援的事前学習データは, 長期的文脈からの情報獲得が平均以下である難解な例であり, 難易度の高い長期的文脈を取り込む学習がiclを促進することを示す。 我々の研究は、インスタンスレベルの事前学習データを分析してICLを理解するための第一歩を踏み出した。 我々の洞察は、将来、事前学習データの構築を積極的に導くことで、言語モデルのICL能力を高める可能性がある。

In-context learning (ICL) improves language models' performance on a variety of NLP tasks by simply demonstrating a handful of examples at inference time. It is not well understood why ICL ability emerges, as the model has never been specifically trained on such demonstrations. Unlike prior work that explores implicit mechanisms behind ICL, we study ICL via investigating the pretraining data. Specifically, we first adapt an iterative, gradient-based approach to find a small subset of pretraining data that supports ICL. We observe that a continued pretraining on this small subset significantly improves the model's ICL ability, by up to 18%. We then compare the supportive subset constrastively with random subsets of pretraining data and discover: (1) The supportive pretraining data to ICL do not have a higher domain relevance to downstream tasks. (2) The supportive pretraining data have a higher mass of rarely occurring, long-tail tokens. (3) The supportive pretraining data are challenging examples where the information gain from long-range context is below average, indicating learning to incorporate difficult long-range context encourages ICL. Our work takes a first step towards understanding ICL via analyzing instance-level pretraining data. Our insights have a potential to enhance the ICL ability of language models by actively guiding the construction of pretraining data in the future.
翻訳日:2023-06-28 15:18:23 公開日:2023-06-26
# 高次動的モード分解法による地下農業のエネルギーモデリングと予測

Energy Modelling and Forecasting for an Underground Agricultural Farm using a Higher Order Dynamic Mode Decomposition Approach ( http://arxiv.org/abs/2306.15089v1 )

ライセンス: Link先を確認
Zack Xuereb Conti, Rebecca Ward, Ruchi Choudhary(参考訳) 本稿では,ロンドン地下トンネルを改修した都市農業におけるエネルギー挙動のモデル化,解析,予測のための高次動的モード分解(hodmd)に基づく手法を提案する。 HODMDは、流体力学における高ノイズで複雑な流れや力学系からの複雑なデータの分析と予測に一般的に使用される、データ駆動の還元順序モデリング手法である。 HODMDは、従来の動的モード分解法(DMD)の拡張であり、測定データに基づくスペクトル複雑性が、農場の環境挙動のような空間的複雑さよりも高いシナリオを扱うようにカスタマイズされている。 HODMDは、時間遅延埋め込みアプローチを用いて、時間データを半自動的アプローチで物理的に意味のあるDMDモードの線形展開として分解する。 地下農場の断面積中心に位置するセンサを用いて実測データを用いて,HODMDを3つの季節シナリオに適用した。 本研究により,農業中心の環境行動を支配する3つの物理的解釈可能なモードペアを,一貫して環境シナリオを通して明らかにした。 その後、これらのモードのみを用いて観測時系列の基本構造を再構築し、3日間の予測を1つのコンパクトかつ解釈可能な縮小順序モデルとして示す。 我々はHODMDがDigital Twinsにおける予測モデルのための堅牢で半自動的なモデリング代替品として機能すると考えている。

This paper presents an approach based on higher order dynamic mode decomposition (HODMD) to model, analyse, and forecast energy behaviour in an urban agriculture farm situated in a retrofitted London underground tunnel, where observed measurements are influenced by noisy and occasionally transient conditions. HODMD is a data-driven reduced order modelling method typically used to analyse and predict highly noisy and complex flows in fluid dynamics or any type of complex data from dynamical systems. HODMD is a recent extension of the classical dynamic mode decomposition method (DMD), customised to handle scenarios where the spectral complexity underlying the measurement data is higher than its spatial complexity, such as is the environmental behaviour of the farm. HODMD decomposes temporal data as a linear expansion of physically-meaningful DMD-modes in a semi-automatic approach, using a time-delay embedded approach. We apply HODMD to three seasonal scenarios using real data measured by sensors located at at the cross-sectional centre of the the underground farm. Through the study we revealed three physically-interpretable mode pairs that govern the environmental behaviour at the centre of the farm, consistently across environmental scenarios. Subsequently, we demonstrate how we can reconstruct the fundamental structure of the observed time-series using only these modes, and forecast for three days ahead, as one, compact and interpretable reduced-order model. We find HODMD to serve as a robust, semi-automatic modelling alternative for predictive modelling in Digital Twins.
翻訳日:2023-06-28 15:18:02 公開日:2023-06-26
# WinoQueer: 大規模言語モデルにおけるLGBTQ+アンチバイアスのコミュニティ間ベンチマーク

WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models ( http://arxiv.org/abs/2306.15087v1 )

ライセンス: Link先を確認
Virginia K. Felkner, Ho-Chun Herbert Chang, Eugene Jang, Jonathan May(参考訳) winoqueer: 大きな言語モデル(llm)がlgbtq+コミュニティに有害なバイアスを符号化するかどうかを測定するために特別に設計されたベンチマークです。 ベンチマークはコミュニティソースであり、コミュニティ調査からバイアスベンチマークを生成する新しい手法を適用している。 我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般にかなりのアンチキーバイアスを示すことを発見した。 最後に,コミュニティのメンバに関するデータや,コミュニティのメンバによるデータの微調整によって,コミュニティに対するllmバイアスを緩和できることを示すとともに,コミュニティのメンバによるソーシャルメディアテキストは,非メンバによるコミュニティに関するニューステキストよりも効果的であることを示す。 コミュニティ・イン・ザ・ループのベンチマーク開発手法は、将来の研究者がコミュニティ主導で有害なllmベンチマークを開発するための青写真を提供する。

We present WinoQueer: a benchmark specifically designed to measure whether large language models (LLMs) encode biases that are harmful to the LGBTQ+ community. The benchmark is community-sourced, via application of a novel method that generates a bias benchmark from a community survey. We apply our benchmark to several popular LLMs and find that off-the-shelf models generally do exhibit considerable anti-queer bias. Finally, we show that LLM bias against a marginalized community can be somewhat mitigated by finetuning on data written about or by members of that community, and that social media text written by community members is more effective than news text written about the community by non-members. Our method for community-in-the-loop benchmark development provides a blueprint for future researchers to develop community-driven, harms-grounded LLM benchmarks for other marginalized communities.
翻訳日:2023-06-28 15:17:39 公開日:2023-06-26
# 分布外ペデストリアン検出のための連続学習

Continual Learning for Out-of-Distribution Pedestrian Detection ( http://arxiv.org/abs/2306.15117v1 )

ライセンス: Link先を確認
Mahdiyar Molahasani, Ali Etemad, Michael Greenspan(参考訳) 歩行者検出のための分布汎化問題に対処するために,連続学習法を提案する。 最近の歩行者検出モデルは様々なデータセットで顕著な性能を達成しているが、推論データの分布の変化に敏感である。 本手法は,初期学習課題における重み付けの重要度に基づいて,モデル重み付けの変化をペナルティ化するために,弾性重み付けをバックボーンオブジェクト検出ネットワークに導入・修正する。 あるデータセットでトレーニングされ、別のデータセットに微調整された場合、私たちのソリューションは、新しいディストリビューションを学習し、前のデータセットでパフォーマンスを維持し、壊滅的な忘れ去らないようにする。 クロスデータセットの実験にはCrowdHumanとCityPersonsという2つの一般的なデータセットを使用し、標準的な微調整よりも大幅に改善され、CrowdHumanとCityPersonsのデータセットでは9%と18%のミス率で改善されている。

A continual learning solution is proposed to address the out-of-distribution generalization problem for pedestrian detection. While recent pedestrian detection models have achieved impressive performance on various datasets, they remain sensitive to shifts in the distribution of the inference data. Our method adopts and modifies Elastic Weight Consolidation to a backbone object detection network, in order to penalize the changes in the model weights based on their importance towards the initially learned task. We show that when trained with one dataset and fine-tuned on another, our solution learns the new distribution and maintains its performance on the previous one, avoiding catastrophic forgetting. We use two popular datasets, CrowdHuman and CityPersons for our cross-dataset experiments, and show considerable improvements over standard fine-tuning, with a 9% and 18% miss rate percent reduction improvement in the CrowdHuman and CityPersons datasets, respectively.
翻訳日:2023-06-28 15:07:12 公開日:2023-06-26
# 拡張カルマンフィルタを用いたストリーミング量子ゲートトモグラフィ

Streaming quantum gate set tomography using the extended Kalman filter ( http://arxiv.org/abs/2306.15116v1 )

ライセンス: Link先を確認
J. P. Marceaux and Kevin Young(参考訳) 量子プロセッサのリアルタイム校正のためのクローズドループ制御アルゴリズムは、測定された量子回路結果のストリームに基づいて物理誤差パラメータを推定できる効率的なフィルタを必要とする。 このようなフィルタの開発は、観測された回路結果と初歩誤差の大きさとの非線形関係が複雑である。 本研究では,量子ゲート集合トモグラフィのデータに対して拡張カルマンフィルタを適用し,システム誤差モデルとその不確かさをストリーミング推定する。 我々の数値例では、拡張カルマンフィルタは最大推定値と似ているが、計算コストは劇的に低い。 提案手法により, 標準ラップトップは1ビットと2ビットの回路結果を処理することができ, ゲートセットエラーモデルを現在の実験実行に匹敵する速度で更新することができる。

Closed-loop control algorithms for real-time calibration of quantum processors require efficient filters that can estimate physical error parameters based on streams of measured quantum circuit outcomes. Development of such filters is complicated by the highly nonlinear relationship relationship between observed circuit outcomes and the magnitudes of elementary errors. In this work, we apply the extended Kalman filter to data from quantum gate set tomography to provide a streaming estimator of the both the system error model and its uncertainties. Our numerical examples indicate extended Kalman filtering can achieve similar to maximum likelihood estimation, but with dramatically lower computational cost. With our methods, a standard laptop can process one- and two-qubit circuit outcomes and update gate set error model at rates comparable with current experimental execution.
翻訳日:2023-06-28 15:06:54 公開日:2023-06-26
# 整列ニューラルネットワークは逆向きに整列しているか?

Are aligned neural networks adversarially aligned? ( http://arxiv.org/abs/2306.15447v1 )

ライセンス: Link先を確認
Nicholas Carlini, Milad Nasr, Christopher A. Choquette-Choo, Matthew Jagielski, Irena Gao, Anas Awadalla, Pang Wei Koh, Daphne Ippolito, Katherine Lee, Florian Tramer, Ludwig Schmidt(参考訳) 大規模な言語モデルは、クリエイターの目標、すなわち「有害で無害」に合わせるように調整されている。 これらのモデルは、ユーザーの質問に役に立ちますが、危害をもたらす可能性のある要求に答えることを拒否します。 しかし、敵対的なユーザーはアライメントの試みを回避する入力を構築できる。 本研究は, 最悪事例(逆例)を構築した相手ユーザと対話する場合においても, モデルがどの程度整合性を保つかを検討する。 これらの入力は、モデルが禁止される有害なコンテンツを出力するように設計されている。 既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。 結果として、現在の攻撃の失敗は、アライメントされたテキストモデルが敵の入力の下で整列していることを示す証拠にはならない。 しかし、近年の大規模MLモデルの動向は、ユーザが生成したテキストに影響を与える画像を提供するマルチモーダルモデルである。 これらのモデルは、入力画像の逆摂動を通じて任意の非整合動作を行うことで、容易に攻撃することができる。 我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。

Large language models are now tuned to align with the goals of their creators, namely to be "helpful and harmless." These models should respond helpfully to user questions, but refuse to answer requests that could cause harm. However, adversarial users can construct inputs which circumvent attempts at alignment. In this work, we study to what extent these models remain aligned, even when interacting with an adversarial user who constructs worst-case inputs (adversarial examples). These inputs are designed to cause the model to emit harmful content that would otherwise be prohibited. We show that existing NLP-based optimization attacks are insufficiently powerful to reliably attack aligned text models: even when current NLP-based attacks fail, we can find adversarial inputs with brute force. As a result, the failure of current attacks should not be seen as proof that aligned text models remain aligned under adversarial inputs. However the recent trend in large-scale ML models is multimodal models that allow users to provide images that influence the text that is generated. We show these models can be easily attacked, i.e., induced to perform arbitrary un-aligned behavior through adversarial perturbation of the input image. We conjecture that improved NLP attacks may demonstrate this same level of adversarial control over text-only models.
翻訳日:2023-06-28 13:21:38 公開日:2023-06-26
# 付加ガウス雑音に対する効率良く連結されたボソニック符号

An efficient, concatenated, bosonic code for additive Gaussian noise ( http://arxiv.org/abs/2102.01374v2 )

ライセンス: Link先を確認
Kosuke Fukui and Takaya Matsuura and Nicolas C. Menicucci(参考訳) ボソニック符号は量子情報処理にノイズレジリエンスを提供する。 優れたパフォーマンスは、しばしば複雑なデコードスキームの価格で得られ、実用性を制限する。 本稿では,ゴッテマン・キタエフ・プレスキル(GKP)符号を用いて,残差を処理するために量子パリティ符号と結合した誤り発生量子ビットを検出し,破棄する。 本手法は単純な線形時間デコーダを用いるが,標準デコーダに比べて性能が大幅に向上する。 我々の研究は、幅広い量子計算と通信シナリオに応用できるかもしれない。

Bosonic codes offer noise resilience for quantum information processing. Good performance often comes at a price of complex decoding schemes, limiting their practicality. Here, we propose using a Gottesman-Kitaev-Preskill (GKP) code to detect and discard error-prone qubits, concatenated with a quantum parity code to handle the residual errors. Our method employs a simple, linear-time decoder that nevertheless offers significant performance improvements over the standard decoder. Our work may have applications in a wide range of quantum computation and communication scenarios.
翻訳日:2023-06-28 01:52:47 公開日:2023-06-26
# 物理を知らない:産業用制御システムにおけるプロセスベースモデルフリー異常検出のレジリエンス

No Need to Know Physics: Resilience of Process-based Model-free Anomaly Detection for Industrial Control Systems ( http://arxiv.org/abs/2012.03586v2 )

ライセンス: Link先を確認
Alessandro Erba, Nils Ole Tippenhauer(参考訳) 近年,産業用制御システムのプロセスに基づく異常検出手法が多数提案されている。 本研究では,このようなスキームを初めて体系的に解析し,それらの検出システムによって検証された特性の分類を導入する。 次に,システムの物理的特性に反する逆スプーフ信号を生成するための新しい一般的なフレームワークを提案し,このフレームワークを用いて,トップセキュリティカンファレンスで公開された4つの異常検出を解析する。 これらの検出器のうち3つは、私たちが合成センサースプーフィングと呼ぶ多くの敵の操作(例えば、事前計算されたパターンによるスプーフィング)に影響を受けやすく、1つは攻撃に対して弾力性がある。 レジリエンスの根源を調査し,それが導入した特性に由来することを実証する。 我々の攻撃は攻撃されたスキームのリコール(True Positive Rate)を減らし、異常を正しく検出することができない。 したがって、異常検知器で発見された脆弱性は(元の優れた検出性能にもかかわらず)システムの物理的特性を確実に学習できないことを示している。 以前の作業が(認証されたプロパティに基づく)レジリエントであることが期待される攻撃でさえも成功した。 我々の研究結果は、データセットにおけるより完全な攻撃の必要性と、プロセスベースの異常検知器のより批判的な分析の両方を示している。 フレームワークが生成した一連のSynthetic Sensor Spoofing攻撃による2つの公開データセットの拡張とともに、オープンソースとして実装をリリースする予定です。

In recent years, a number of process-based anomaly detection schemes for Industrial Control Systems were proposed. In this work, we provide the first systematic analysis of such schemes, and introduce a taxonomy of properties that are verified by those detection systems. We then present a novel general framework to generate adversarial spoofing signals that violate physical properties of the system, and use the framework to analyze four anomaly detectors published at top security conferences. We find that three of those detectors are susceptible to a number of adversarial manipulations (e.g., spoofing with precomputed patterns), which we call Synthetic Sensor Spoofing and one is resilient against our attacks. We investigate the root of its resilience and demonstrate that it comes from the properties that we introduced. Our attacks reduce the Recall (True Positive Rate) of the attacked schemes making them not able to correctly detect anomalies. Thus, the vulnerabilities we discovered in the anomaly detectors show that (despite an original good detection performance), those detectors are not able to reliably learn physical properties of the system. Even attacks that prior work was expected to be resilient against (based on verified properties) were found to be successful. We argue that our findings demonstrate the need for both more complete attacks in datasets, and more critical analysis of process-based anomaly detectors. We plan to release our implementation as open-source, together with an extension of two public datasets with a set of Synthetic Sensor Spoofing attacks as generated by our framework.
翻訳日:2023-06-28 01:52:26 公開日:2023-06-26
# オペレータサイズによる絡み合い分類

Entanglement Classification via Operator Size ( http://arxiv.org/abs/2111.07636v7 )

ライセンス: Link先を確認
Qi-Feng Wu(参考訳) この研究において、多部交絡は多項式によって分類される。 演算子のサイズは、絡み合い構造と密接に関連していることを示す。 一般的な量子状態が与えられたとき、異なる大きさの演算子によって生成される一連の部分空間を定義します。 絡み合いに関する情報はこれらの部分空間にエンコードされる。 これらの部分空間の次元を係数として、私がエンタングルメント多項式と呼ぶ多項式を定義する。 絡み合い多項式は、量子状態から多項式への準同型を誘導する。 これは多項式分解によって絡み合いの構成要素を特徴づけて見つけられることを意味する。 2つの状態は、確率的局所演算と古典的通信の下で等価であれば、同じ絡み合い多項式を共有する。 交絡多項式を現実的に計算するために、交絡多項式の係数にランクが関係する再正規化状態と呼ばれる一連の状態を構築する。

In this work, multipartite entanglement is classified by polynomials. I show that the operator size is closely related to the entanglement structure. Given a generic quantum state, I define a series of subspaces generated by operators of different sizes acting on it. The information about the entanglement is encoded into these subspaces. With the dimension of these subspaces as coefficients, I define a polynomial which I call the entanglement polynomial. The entanglement polynomial induces a homomorphism from quantum states to polynomials. It implies that we can characterize and find the building blocks of entanglement by polynomial factorization. Two states share the same entanglement polynomial if they are equivalent under the stochastic local operations and classical communication. To calculate the entanglement polynomial practically, I construct a series of states, called renormalized states, whose ranks are related to the coefficients of the entanglement polynomial.
翻訳日:2023-06-28 01:48:23 公開日:2023-06-26
# アスペクトベース感情分析のための統一インスタンスと知識アライメント事前学習

Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2110.13398v3 )

ライセンス: Link先を確認
Juhua Liu, Qihuang Zhong, Liang Ding, Hua Jin, Bo Du, Dacheng Tao(参考訳) Aspect-based Sentiment Analysis (ABSA)は、ある側面に対する感情の極性を決定することを目的としている。 ラベル付きデータが高価で制限されているため、プレトレーニング戦略はABSAのデファクトスタンダードになっている。 しかしながら、プレトレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在し、下流タスクを直接微調整し、下流タスクを準最適にする際の効果的な知識伝達を妨げる。 このようなドメインシフトを軽減するために,インスタンスレベルのアライメントと知識レベルのアライメントを併用した,バニラプレトレイン・ファインチューンパイプラインにアライメント事前トレーニングフレームワークを導入する。 具体的には,まず,大規模事前学習データセットから対象ドメイン関連インスタンスを抽出し,事前学習と対象ドメイン(第1ステージ)のインスタンスを整列させる,新しい粗大な検索手法を提案する。 次に、知識レベルでのドメインギャップをさらに橋渡しするための知識ガイダンスに基づく戦略を導入する。 実際に,サンプルインスタンス上で事前学習したモデルを,知識指導モデルと学習者モデルにそれぞれ定式化する。 目標データセットに基づいて,知識指導モデルから学習者モデル(第2段階)に段階的に知識を伝達する,オンザフライの教師-学生共同微調整アプローチを設計する。 これにより、学習者モデルは、対象データセットから新たな知識を学習する際に、より多くのドメイン不変知識を維持できる。 第3段階では、学習者モデルは、学習した知識をターゲットデータセットに適応させるために微調整される。 複数のabsaベンチマークにおける広範囲な実験と解析は、提案する事前学習フレームワークの有効性と普遍性を示している。 ソースコードとモデルはhttps://github.com/WHU-ZQH/UIKAで公開されています。

Aspect-based Sentiment Analysis (ABSA) aims to determine the sentiment polarity towards an aspect. Because of the expensive and limited labelled data, the pretraining strategy has become the de-facto standard for ABSA. However, there always exists severe domain shift between the pretraining and downstream ABSA datasets, hindering the effective knowledge transfer when directly finetuning and making the downstream task performs sub-optimal. To mitigate such domain shift, we introduce a unified alignment pretraining framework into the vanilla pretrain-finetune pipeline with both instance- and knowledge-level alignments. Specifically, we first devise a novel coarse-to-fine retrieval sampling approach to select target domain-related instances from the large-scale pretraining dataset, thus aligning the instances between pretraining and target domains (First Stage). Then, we introduce a knowledge guidance-based strategy to further bridge the domain gap at the knowledge level. In practice, we formulate the model pretrained on the sampled instances into a knowledge guidance model and a learner model, respectively. On the target dataset, we design an on-the-fly teacher-student joint fine-tuning approach to progressively transfer the knowledge from the knowledge guidance model to the learner model (Second Stage). Thereby, the learner model can maintain more domain-invariant knowledge when learning new knowledge from the target dataset. In the Third Stage, the learner model is finetuned to better adapt its learned knowledge to the target dataset. Extensive experiments and analyses on several ABSA benchmarks demonstrate the effectiveness and universality of our proposed pretraining framework. Our source code and models are publicly available at https://github.com/WHU-ZQH/UIKA.
翻訳日:2023-06-28 01:47:48 公開日:2023-06-26
# 漸近的に最適な量子鍵分配プロトコル

Asymptotically Optimal prepare-measure Quantum Key Distribution Protocol ( http://arxiv.org/abs/2110.01973v5 )

ライセンス: Link先を確認
Hao Shu(参考訳) 量子鍵分布(QKD)は、量子情報理論の最も重要な応用である。 約40年の間、実質的なQKDプロトコルが開発されたが、BB84プロトコルとその変種は依然として最も研究されているプロトコルである。 bb84 プロトコルの qubit error rate (qber) のセキュアバウンドが 11$\%$ であるのに対して、6 状態プロトコルによって 12.6$\%$ に拡張できることはよく知られている。 より多くの基礎を雇うことで限界が高まることは驚くにあたらない。 しかし、最適なプロトコルとは何か、どのように分析するか? 本稿では,漸近的に最適なQKDプロトコルを提案する。 そこで本研究では,QKDプロトコルを抽象化し,同一の状態でコーディングされるすべてのプロトコルで最適である2つの特別なケースについて検討する。 直交量子ビットによる漸近的最適qber境界符号は、メモリのc-not攻撃とメモリレスc-not攻撃の両方で約20.78$\%$であり、一方、2つの非バイアスベースで非orthogonal状態によって符号化される境界はメモリに対して約21.23$\%$であり、メモリレスc-not攻撃では23.14$\%$である。 プロトコルは理想化されているが、その最適性はQKDプロトコルの究極のポテンシャルを示している一方で、漸近的に実現されるかもしれない。 分析には特別な種類の攻撃のみが含まれるが、そのようなプロトコルを調査するためのフレームワークを提供する。

Quantum key distribution (QKD) could be the most significant application of quantum information theory. In nearly four decades, although substantial QKD protocols are developed, the BB84 protocol and its variants are still the most researched ones. It is well-known that the secure bound of qubit error rate (QBER) of BB84 protocol is about 11$\%$ while it can be increased to 12.6$\%$ by six-state protocol. It would not be surprising that employing more basis could increase the bound. However, what is the optimal protocol, and how to analyze it? In this paper, investigations of asymptotically optimal QKD protocols are proposed. Precisely, We present an abstraction of prepare-measure QKD protocols and investigate two special cases which are optimal among all protocols coding by the same states. Our analysis demonstrates that the asymptotically optimal QBER bounds coding by orthogonal qubits are about 20.78$\%$ for both memory C-NOT attacks and memoryless C-NOT attacks while the bounds coding by non-orthogonal states in two mutually unbiased bases are about 21.23$\%$ for memory and 23.14$\%$ for memoryless C-NOT attacks. The protocols are idealized but might be asymptotically realized while their optimality indicates the ultimate potential of QKD protocols. Although the analysis only contains a special kind of attack, it provides a framework for investigating such protocols.
翻訳日:2023-06-28 01:47:22 公開日:2023-06-26
# DRAN: 条件付き画像合成のための領域適応正規化

DRAN: Detailed Region-Adaptive Normalization for Conditional Image Synthesis ( http://arxiv.org/abs/2109.14525v4 )

ライセンス: Link先を確認
Yueming Lyu, Peibin Chen, Jingna Sun, Bo Peng, Xu Wang, Jing Dong(参考訳) 近年,画像生成過程における制御性から,条件付き画像合成が注目されている。 近年の作品は現実的な成果を上げているが、そのほとんどが微妙な詳細で細かなスタイルを扱うのが困難である。 この問題に対処するために、Detailed Region-Adaptive Normalization~(DRAN)と名付けられた新しい正規化モジュールを提案する。 きめ細かい表現と粗い表現の両方を適応的に学習する。 具体的には,まず,マルチレベル構造である空間性対応ピラミッドプーリングを導入し,粗面から細かな特徴を学習するモデルを導出する。 次に,異なるスタイルレベルを適応的に融合させるために,異なる空間領域に応じて異なるスタイルレベルを適応的に融合させる動的ゲーティングを提案する。 最後に、さまざまなポーズと表現を備えた多様な複雑なメイクアップスタイルを含む新しいメイクアップデータセット(Makeup-Complexデータセット)を収集する。 本手法の有効性を評価し, 汎用性を示すため, 化粧品の転写と意味画像合成に関する一連の実験を行った。 量的、質的実験により、単純なベースラインモデルが複雑なスタイル転送と詳細なテクスチャ合成において有望な改善を達成できることが示されている。 コードと提案されたデータセットは、https://github.com/Yueming6568/DRAN-makeup.gitで入手できる。

In recent years, conditional image synthesis has attracted growing attention due to its controllability in the image generation process. Although recent works have achieved realistic results, most of them have difficulty handling fine-grained styles with subtle details. To address this problem, a novel normalization module, named Detailed Region-Adaptive Normalization~(DRAN), is proposed. It adaptively learns both fine-grained and coarse-grained style representations. Specifically, we first introduce a multi-level structure, Spatiality-aware Pyramid Pooling, to guide the model to learn coarse-to-fine features. Then, to adaptively fuse different levels of styles, we propose Dynamic Gating, making it possible to adaptively fuse different levels of styles according to different spatial regions. Finally, we collect a new makeup dataset (Makeup-Complex dataset) that contains a wide range of complex makeup styles with diverse poses and expressions. To evaluate the effectiveness and show the general use of our method, we conduct a set of experiments on makeup transfer and semantic image synthesis. Quantitative and qualitative experiments show that equipped with DRAN, simple baseline models are able to achieve promising improvements in complex style transfer and detailed texture synthesis. Both the code and the proposed dataset will be available at https://github.com/Yueming6568/DRAN-makeup.git.
翻訳日:2023-06-28 01:46:20 公開日:2023-06-26
# 安全スクリーニングによる非負・有界可変線形回帰アルゴリズムの高速化

Accelerating Non-Negative and Bounded-Variable Linear Regression Algorithms with Safe Screening ( http://arxiv.org/abs/2202.07258v2 )

ライセンス: Link先を確認
Cassio F. Dantas (UMR TETIS, INRAE), Emmanuel Soubies (IRIT-SC, CNRS), C\'edric F\'evotte (IRIT-SC, CNRS)(参考訳) 非負で有界な線形回帰問題は、機械学習や信号処理における様々な応用に現れる。 本稿では,これらの問題に対する既存の解法を,反復過程における飽和座標を同定することで高速化する手法を提案する。 これは、スパーシティ・レギュラライズド・レグレッション問題のために以前に提案された安全なスクリーニング技術に似ている。 提案した戦略は、最適解において同定された座標が実際に飽和していることの理論的保証を提供するため、確実に安全である。 合成データと実データによる実験結果は、非負および有界変数問題の両方に対する説得力のある加速度を示す。

Non-negative and bounded-variable linear regression problems arise in a variety of applications in machine learning and signal processing. In this paper, we propose a technique to accelerate existing solvers for these problems by identifying saturated coordinates in the course of iterations. This is akin to safe screening techniques previously proposed for sparsity-regularized regression problems. The proposed strategy is provably safe as it provides theoretical guarantees that the identified coordinates are indeed saturated in the optimal solution. Experimental results on synthetic and real data show compelling accelerations for both non-negative and bounded-variable problems.
翻訳日:2023-06-28 01:37:01 公開日:2023-06-26
# 複雑力学におけるペアワイズ相互作用の統一

Unifying Pairwise Interactions in Complex Dynamics ( http://arxiv.org/abs/2201.11941v2 )

ライセンス: Link先を確認
Oliver M. Cliff, Annie G. Bryant, Joseph T. Lizier, Naotsugu Tsuchiya, Ben D. Fulcher(参考訳) 科学者は複雑なシステムにおけるプロセスのペア間の相互作用を測定するために何百もの技術を開発した。 しかし、これらの計算方法は、相関係数から因果推論まで、大きく切り離された異なる定量的理論に依存している。 ここでは,ペアワイズ相互作用の統計237のライブラリを導入し,実世界およびモデル生成システムから1053の多変量時系列の挙動を評価する。 本分析では, 異なる数学的定式化間の新たな共通性に注目し, 豊かな学際的文献の統一像を提供する。 そこで,実世界の3つのケーススタディを用いて,各科学の多様な手法を同時に活用することで,与えられた問題に最も適した問題を明らかにすることができることを示す。 我々のフレームワークは拡張可能なオープンソフトウェアで提供されており、数十年の方法論的進歩を統合することで包括的なデータ駆動分析を可能にする。

Scientists have developed hundreds of techniques to measure the interactions between pairs of processes in complex systems. But these computational methods, from correlation coefficients to causal inference, rely on distinct quantitative theories that remain largely disconnected. Here we introduce a library of 237 statistics of pairwise interactions and assess their behavior on 1053 multivariate time series from a wide range of real-world and model-generated systems. Our analysis highlights new commonalities between different mathematical formulations, providing a unified picture of a rich interdisciplinary literature. Using three real-world case studies, we then show that simultaneously leveraging diverse methods from across science can uncover those most suitable for addressing a given problem, yielding interpretable understanding of the conceptual formulations of pairwise dependence that drive successful performance. Our framework is provided in extendable open software, enabling comprehensive data-driven analysis by integrating decades of methodological advances.
翻訳日:2023-06-28 01:36:09 公開日:2023-06-26
# 混合状態自由QFTにおける量子情報のチャネル誘起ダイナミクス

Channel induced dynamics of quantum information in mixed state free QFTs ( http://arxiv.org/abs/2201.02723v4 )

ライセンス: Link先を確認
Michal Baczyk(参考訳) 本稿では,場の励起を量子チャネルとして表現できる量子場理論(QFT)の研究フレームワークを提案する。 1次元QFT系の正規化真空状態と2つの同一自由QFT系の格子制御熱場二重状態の2つの普遍状態に対する提案方式の内部動作を実証する。 単体および非単体ボソニックガウスチャネル(ペッツ回収マップを含む)の動作について検討する。 チャネル静的動作とチャネル誘起力学の特性を評価し定量化するために,量子エントロピーと忠実度を計算する。

We propose a framework for Quantum Field Theory (QFT) studies that allows us to represent field excitations as quantum channels. We demonstrate inner-workings of the proposed scheme for two universal states: the regularized vacuum state of a one dimensional QFT system and the lattice-regulated Thermofield Double State of two identical free QFTs. We investigate actions of unitary and non-unitary Bosonic Gaussian channels (including Petz Recovery maps). To evaluate and quantify the character of the channel static action and channel induced dynamics we calculate quantum entropies and fidelities.
翻訳日:2023-06-28 01:35:52 公開日:2023-06-26
# DegreEmbed:知識グラフ推論のためのロジックルール学習にエンティティ埋め込みを組み込む

DegreEmbed: incorporating entity embedding into logic rule learning for knowledge graph reasoning ( http://arxiv.org/abs/2112.09933v2 )

ライセンス: Link先を確認
Haotian Li, Hongri Liu, Yao Wang, Guodong Xin, Yuliang Wei(参考訳) 知識グラフ (KG) は、人間の知識を組み込んだインテリジェントデータベースであり、機械が人間の問題解決のやり方を模倣するのに役立つ。 しかしながら、KGsは通常巨大であり、KGsには必然的に欠落する事実があるため、知識グラフ推論に基づく質問応答や推薦システムのような応用を損なう。 知識グラフのリンク予測は、既存の知識に基づいて推論することで、行方不明の事実を完遂することを目的としたタスクである。 2つの主要な研究ストリームは広く研究されている: 1つは潜伏パターンを探索できる実体と関係の低次元埋め込みを学習し、もう1つは論理規則をマイニングすることで良好な解釈性を得る。 残念なことに、様々な種類の実体や関係を含む現代のkgの多様性は、以前の研究ではよく考慮されていない。 本稿では,組込み学習と論理ルールマイニングを組み合わせたKGの推論モデルであるDegreEmbedを提案する。 具体的には,ノード数の観点から異種kgにおける欠落リンクの予測問題について検討する。 実験により,本モデルが実世界のデータセットにおける最先端の手法を上回っており,そのモデルによって掘り起こされるルールは高品質かつ解釈性が高いことを実証した。

Knowledge graphs (KGs), as structured representations of real world facts, are intelligent databases incorporating human knowledge that can help machine imitate the way of human problem solving. However, KGs are usually huge and there are inevitably missing facts in KGs, thus undermining applications such as question answering and recommender systems that are based on knowledge graph reasoning. Link prediction for knowledge graphs is the task aiming to complete missing facts by reasoning based on the existing knowledge. Two main streams of research are widely studied: one learns low-dimensional embeddings for entities and relations that can explore latent patterns, and the other gains good interpretability by mining logical rules. Unfortunately, the heterogeneity of modern KGs that involve entities and relations of various types is not well considered in the previous studies. In this paper, we propose DegreEmbed, a model that combines embedding-based learning and logic rule mining for inferring on KGs. Specifically, we study the problem of predicting missing links in heterogeneous KGs from the perspective of the degree of nodes. Experimentally, we demonstrate that our DegreEmbed model outperforms the state-of-the-art methods on real world datasets and the rules mined by our model are of high quality and interpretability.
翻訳日:2023-06-28 01:35:26 公開日:2023-06-26
# 最適学習

Optimal Learning ( http://arxiv.org/abs/2203.15994v2 )

ライセンス: Link先を確認
Peter Binev, Andrea Bonito, Ronald DeVore, and Guergana Petrova(参考訳) 本稿では、与えられたデータから未知の関数を$f$で学習する問題を考察する。 学習問題は、データから$f$の値を予測する$\hat f$から$f$の近似を与えることである。 この学習問題には、多くの設定がある。 (i)$f$に関する追加情報(モデルクラスの仮定として知られる) (ii)$\hat f$が$f$をいかに正確に予測するかを測定する方法 (iii)データ及びデータサイトについて知られているもの (iv)データ観測がノイズによって汚染されるかどうか。 最適性能の数学的記述(回復の最小限の誤差)はモデルクラス仮定の存在下で知られている。 標準モデルクラス仮定の下では、ペナルティ項によってある離散的超パラメータ最適化問題を解いて、ほぼ最適の$\hat f$を求めることができる。 ここで、最適に近いことは、誤差が最適誤差の一定倍の定数で区切られることを意味する。 これは、現代の機械学習で一般的に使用される過剰パラメータ化の利点を説明する。 本論文の主な結果は、適切な損失関数を持つ過小パラメータ学習が、データ収集を行う関数 $f$ のほぼ最適近似 $\hat f$ を与えることを示している。 量的境界は、オーバーパラメータ化がどの程度必要か、ペナリゼーションがいかにスケールされ、ほぼ最適の回復値が$f$であるかを保証するために与えられる。 これらの結果を、加法的決定論的ノイズによってデータが汚染される場合にも拡張する。

This paper studies the problem of learning an unknown function $f$ from given data about $f$. The learning problem is to give an approximation $\hat f$ to $f$ that predicts the values of $f$ away from the data. There are numerous settings for this learning problem depending on (i) what additional information we have about $f$ (known as a model class assumption), (ii) how we measure the accuracy of how well $\hat f$ predicts $f$, (iii) what is known about the data and data sites, (iv) whether the data observations are polluted by noise. A mathematical description of the optimal performance possible (the smallest possible error of recovery) is known in the presence of a model class assumption. Under standard model class assumptions, it is shown in this paper that a near optimal $\hat f$ can be found by solving a certain discrete over-parameterized optimization problem with a penalty term. Here, near optimal means that the error is bounded by a fixed constant times the optimal error. This explains the advantage of over-parameterization which is commonly used in modern machine learning. The main results of this paper prove that over-parameterized learning with an appropriate loss function gives a near optimal approximation $\hat f$ of the function $f$ from which the data is collected. Quantitative bounds are given for how much over-parameterization needs to be employed and how the penalization needs to be scaled in order to guarantee a near optimal recovery of $f$. An extension of these results to the case where the data is polluted by additive deterministic noise is also given.
翻訳日:2023-06-28 01:28:30 公開日:2023-06-26
# Qubitreadout, shuttling, and noise mitigationの改善のための一般化された高速準アディバティック人口移動

Generalized fast quasi-adiabatic population transfer for improved qubit readout, shuttling, and noise mitigation ( http://arxiv.org/abs/2203.07517v2 )

ライセンス: Link先を確認
F. Fehse, M. David, M. Pioro-Ladri\`ere, W. A. Coish(参考訳) 人口移動スキームは一般に、ある量子系に格納された情報を操作や記憶のために堅牢に保存し、よりマクロな測定自由度に変換するために用いられる。 これらのスキームには、量子ドット内のスピンのスピン対電荷変換、ノイズに敏感な操作点と測定点の間の電荷量子ビットのデチューニング、スピンまたはイオンにエンコードされた量子ビットの空間的シャットリング、マヨラナゼロモードに基づく量子ビットのパリティ対電荷変換スキームが含まれる。 一般的な戦略は、遅い(断熱的な)変換を使用することである。 しかし、断熱的なスキームでは、一方の断熱条件や、一方のデフォーカス、漏れ、エネルギー緩和プロセスによる誤差の蓄積は、達成できる忠実さを制限する。 ここでは、最適状態変換を可能にする断熱近似を超えた明示的な高速半断熱変換戦略(パルス形状)を示す。 他の多くのアプローチとは対照的に、ここではパルスシェーピングと組み合わせたノイズが考慮される。 我々は古典的なゆらぎパラメータでモデル化できるノイズ源に制限されるが、概して異方性のない非ガウス雑音に対して、小さな誤差をもたらすのに十分弱いことを許容する。 動的デカップリング理論のために開発された解析手法に着想を得て,システムや環境に合わせた独自のノイズ緩和戦略の一般的な枠組みを提供する。

Population-transfer schemes are commonly used to convert information robustly stored in some quantum system for manipulation and memory into more macroscopic degrees of freedom for measurement. These schemes may include, e.g., spin-to-charge conversion for spins in quantum dots, detuning of charge qubits between a noise-insensitive operating point and a measurement point, spatial shuttling of qubits encoded in spins or ions, and parity-to-charge conversion schemes for qubits based on Majorana zero modes. A common strategy is to use a slow (adiabatic) conversion. However, in an adiabatic scheme, the adiabaticity conditions, on the one hand, and accumulation of errors through dephasing, leakage, and energy relaxation processes on the other hand, limit the fidelity that can be achieved. Here, we give explicit fast quasiadiabatic (fast-QUAD) conversion strategies (pulse shapes) beyond the adiabatic approximation that allow for optimal state conversion. In contrast with many other approaches, here we account for noise in combination with pulse shaping. Although we restrict to noise sources that can be modeled by a classical fluctuating parameter, we allow generally for anisotropic nonGaussian noise that is nevertheless sufficiently weak to lead to a small error. Inspired by analytic methods that have been developed for dynamical decoupling theory, we provide a general framework for unique noise mitigation strategies that can be tailored to the system and environment of interest.
翻訳日:2023-06-28 01:27:33 公開日:2023-06-26
# Hyperbox Searchによる解釈型オフポリティ学習

Interpretable Off-Policy Learning via Hyperbox Search ( http://arxiv.org/abs/2203.02473v2 )

ライセンス: Link先を確認
Daniel Tschernutter, Tobias Hatt, Stefan Feuerriegel(参考訳) パーソナライズされた治療決定は現代医学の不可欠な部分となっている。 これにより、個々の患者特性に基づいて治療決定を行うことが目的である。 特定の政策クラスで最高の結果を得るための観測データからこのような政策を学ぶための多くの方法が開発されている。 しかし、これらの方法はほとんど解釈できない。 しかし、解釈可能性はしばしば臨床における政策学習の前提条件である。 本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。 特に、我々のポリシーは可分な正規形式(すなわち、OR-of-ANDs)で表され、したがって理解可能である。 我々は、ポリシークラスが任意の可測関数を任意に近似できるほど柔軟であることを示す普遍近似定理を証明する。 最適化のために,ブランチ・アンド・バウンド・フレームワーク内で列生成を行う。 シミュレーション研究により,本アルゴリズムは,後悔の観点から解釈可能なオフ・ポリシー学習から最先端の手法を上回ることを実証する。 実語臨床データを用いて実際の臨床専門家とユーザスタディを行い,政策を極めて解釈可能なものと評価した。

Personalized treatment decisions have become an integral part of modern medicine. Thereby, the aim is to make treatment decisions based on individual patient characteristics. Numerous methods have been developed for learning such policies from observational data that achieve the best outcome across a certain policy class. Yet these methods are rarely interpretable. However, interpretability is often a prerequisite for policy learning in clinical practice. In this paper, we propose an algorithm for interpretable off-policy learning via hyperbox search. In particular, our policies can be represented in disjunctive normal form (i.e., OR-of-ANDs) and are thus intelligible. We prove a universal approximation theorem that shows that our policy class is flexible enough to approximate any measurable function arbitrarily well. For optimization, we develop a tailored column generation procedure within a branch-and-bound framework. Using a simulation study, we demonstrate that our algorithm outperforms state-of-the-art methods from interpretable off-policy learning in terms of regret. Using real-word clinical data, we perform a user study with actual clinical experts, who rate our policies as highly interpretable.
翻訳日:2023-06-28 01:26:34 公開日:2023-06-26
# ハイパーパラメータ最適化手法の選択動機

Practitioner Motives to Select Hyperparameter Optimization Methods ( http://arxiv.org/abs/2203.01717v2 )

ライセンス: Link先を確認
Niklas Hasebrook, Felix Morsbach, Niclas Kannengie{\ss}er, Marc Z\"oller, J\"org Franke, Marius Lindauer, Frank Hutter, Ali Sunyaev(参考訳) ベイジアン最適化のようなプログラム型ハイパーパラメータ最適化(HPO)手法は、機械学習(ML)モデルの最適ハイパーパラメータ値を再現的に求める際に高いサンプル効率を有する。 しかし、ML実践者は、グリッドサーチのようなサンプル効率の低いHPO手法をしばしば適用し、しばしば過度に最適化されたMLモデルをもたらす。 この行動の理由として、実践者は文脈的要因と個々の目標からなる個別の動機に基づくHPO手法を選択する。 しかし、実践者の動機を明らかにする必要があるため、特定の目標を達成するためのHPOメソッドの評価や、HPOツールのユーザ中心の開発を妨げている。 実践者が特定のHPO法を使用する動機を理解するために,20件の半構造化面接と71名のML専門家によるアンケート調査を行い,インタビュー結果の外的妥当性の証拠を収集した。 6つの主要な目標(例えば、モデル理解の改善)と、実践者のHPOメソッド選択に影響を与える14のコンテキスト要因(例えば、利用可能なコンピュータリソース)を提示することにより、実践者が最初に不適切と思われるHPOメソッドを使用する理由を説明する。 本研究は,ユーザ中心型およびコンテキスト適応型HPOツールの設計基盤を構築し,HPOの社会的および技術的研究をリンクする。

Advanced programmatic hyperparameter optimization (HPO) methods, such as Bayesian optimization, have high sample efficiency in reproducibly finding optimal hyperparameter values of machine learning (ML) models. Yet, ML practitioners often apply less sample-efficient HPO methods, such as grid search, which often results in under-optimized ML models. As a reason for this behavior, we suspect practitioners choose HPO methods based on individual motives, consisting of contextual factors and individual goals. However, practitioners' motives still need to be clarified, hindering the evaluation of HPO methods for achieving specific goals and the user-centered development of HPO tools. To understand practitioners' motives for using specific HPO methods, we used a mixed-methods approach involving 20 semi-structured interviews and a survey study with 71 ML experts to gather evidence of the external validity of the interview results. By presenting six main goals (e.g., improving model understanding) and 14 contextual factors affecting practitioners' selection of HPO methods (e.g., available computer resources), our study explains why practitioners use HPO methods that seem inappropriate at first glance. This study lays a foundation for designing user-centered and context-adaptive HPO tools and, thus, linking social and technical research on HPO.
翻訳日:2023-06-28 01:26:18 公開日:2023-06-26
# 効率的な推論のための多段視覚変換器

Multi-Tailed Vision Transformer for Efficient Inference ( http://arxiv.org/abs/2203.01587v2 )

ライセンス: Link先を確認
Yunke Wang, Bo Du, Wenyuan Wang, Chang Xu(参考訳) 近年、視覚トランスフォーマー(vit)は画像認識において有望な性能を達成し、様々な視覚タスクにおいて徐々に強力なバックボーンとして機能している。 Transformerのシーケンシャル入力を満たすために、ViTのテールはまず各画像を一定長さの視覚トークンのシーケンスに分割する。 次に、以下の自己注意層がトークン間のグローバルな関係を構築し、下流タスクに有用な表現を生成する。 実証的には、より多くのトークンで画像を表現することでパフォーマンスが向上するが、トークンの数に対する自己認識層の2次計算の複雑さは、ViTの推論の効率に深刻な影響を及ぼす可能性がある。 計算量削減のために、トランスフォーマーエンコーダで不定形トークンを段階的にプルーニングする手法がいくつかあるが、トランスフォーマーが触れない前にトークンの数を残している。 実際、トランスコーダの入力によるトークンの削減は、以下の計算コストを直接削減することができる。 本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。 MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。 テール予測器を導入し、画像の正確な予測を行うのに最も効率的なテールを決定する。 どちらのモジュールも、Gumbel-Softmaxのトリックでエンドツーエンドで最適化されている。 ImageNet-1Kの実験では、MT-ViTは精度を低下させることなくFLOPを著しく低減し、他の比較手法を精度とFLOPの両方で上回った。

Recently, Vision Transformer (ViT) has achieved promising performance in image recognition and gradually serves as a powerful backbone in various vision tasks. To satisfy the sequential input of Transformer, the tail of ViT first splits each image into a sequence of visual tokens with a fixed length. Then the following self-attention layers constructs the global relationship between tokens to produce useful representation for the downstream tasks. Empirically, representing the image with more tokens leads to better performance, yet the quadratic computational complexity of self-attention layer to the number of tokens could seriously influence the efficiency of ViT's inference. For computational reduction, a few pruning methods progressively prune uninformative tokens in the Transformer encoder, while leaving the number of tokens before the Transformer untouched. In fact, fewer tokens as the input for the Transformer encoder can directly reduce the following computational cost. In this spirit, we propose a Multi-Tailed Vision Transformer (MT-ViT) in the paper. MT-ViT adopts multiple tails to produce visual sequences of different lengths for the following Transformer encoder. A tail predictor is introduced to decide which tail is the most efficient for the image to produce accurate prediction. Both modules are optimized in an end-to-end fashion, with the Gumbel-Softmax trick. Experiments on ImageNet-1K demonstrate that MT-ViT can achieve a significant reduction on FLOPs with no degradation of the accuracy and outperform other compared methods in both accuracy and FLOPs.
翻訳日:2023-06-28 01:25:55 公開日:2023-06-26
# 振幅波高予測のための回帰による超越確率予測

Exceedance Probability Forecasting via Regression for Significant Wave Height Prediction ( http://arxiv.org/abs/2206.09821v2 )

ライセンス: Link先を確認
Vitor Cerqueira, Luis Torgo(参考訳) 波高予測は、海洋データ分析において重要な問題である。 有意な波高の予測は、波からのエネルギー生産を推定するために不可欠である。 さらに,大波のタイムリーな予測は,船舶の通過などの海洋活動の安全を確保するために重要である。 本研究では,波高の極端値を予測するタスクを,超越確率予測問題として検討する。 そこで,本研究では,有意な波高が予め定義されたしきい値を超える確率を推定する。 この課題は通常確率的二項分類モデルを用いて解決される。 そこで本研究では,予測モデルに基づく新しい手法を提案する。 本手法は,今後の観測結果の予測を利用して,累積分布関数に従って超過確率を推定する。 カナダハリファックスの海岸に設置したブイからのデータを用いて実験を行った。 その結果,提案手法は超越確率予測の最先端手法よりも優れていることが示唆された。

Significant wave height forecasting is a key problem in ocean data analytics. Predicting the significant wave height is crucial for estimating the energy production from waves. Moreover, the timely prediction of large waves is important to ensure the safety of maritime operations, e.g. passage of vessels. We frame the task of predicting extreme values of significant wave height as an exceedance probability forecasting problem. Accordingly, we aim at estimating the probability that the significant wave height will exceed a predefined threshold. This task is usually solved using a probabilistic binary classification model. Instead, we propose a novel approach based on a forecasting model. The method leverages the forecasts for the upcoming observations to estimate the exceedance probability according to the cumulative distribution function. We carried out experiments using data from a buoy placed in the coast of Halifax, Canada. The results suggest that the proposed methodology is better than state-of-the-art approaches for exceedance probability forecasting.
翻訳日:2023-06-28 01:17:48 公開日:2023-06-26
# VectorMapNet: エンドツーエンドのベクトル化HDマップ学習

VectorMapNet: End-to-end Vectorized HD Map Learning ( http://arxiv.org/abs/2206.08920v6 )

ライセンス: Link先を確認
Yicheng Liu, Tianyuan Yuan, Yue Wang, Yilun Wang, Hang Zhao(参考訳) 自動運転システムは、高精細度(hd)セマンティックマップを必要とする。 既存のソリューションは、オフラインの手動アノテーションによるセマンティックマッピングの問題にアプローチしている。 近年の学習に基づく手法は,地図構築のために密集したラスタ化セグメンテーション予測を生成する。 しかし、これらの予測は個々のマップ要素のインスタンス情報を含んでおらず、ベクトル化されたマップを得るためにヒューリスティックな後処理を必要とする。 これらの課題に対処するために、VectorMapNetと呼ばれるエンドツーエンドのベクトル化HDマップ学習パイプラインを導入する。 vectormapnet はオンボードセンサーによる観測を行い、鳥の目に見えるポリラインのばらばらな集合を予測する。 このパイプラインは、マップ要素間の空間関係を明示的にモデル化し、下流の自動運転タスクに適合するベクトル化されたマップを生成することができる。 大規模な実験により、VectorMapNetはnuScenesとArgoverse2データセットの両方で強力なマップ学習性能を達成し、14.2mAPと14.6mAPの最先端手法を上回った。 定性的には、VectorMapNetは包括的な地図を作成し、道路形状の詳細な詳細をキャプチャすることができる。 私たちの知る限りでは、VectorMapNetは、オンボード観測からエンドツーエンドのベクトル化マップ学習を目的とした最初の研究です。 私たちのプロジェクトwebサイトは、 \url{https://tsinghua-mars-lab.github.io/vectormapnet/}で利用可能です。

Autonomous driving systems require High-Definition (HD) semantic maps to navigate around urban roads. Existing solutions approach the semantic mapping problem by offline manual annotation, which suffers from serious scalability issues. Recent learning-based methods produce dense rasterized segmentation predictions to construct maps. However, these predictions do not include instance information of individual map elements and require heuristic post-processing to obtain vectorized maps. To tackle these challenges, we introduce an end-to-end vectorized HD map learning pipeline, termed VectorMapNet. VectorMapNet takes onboard sensor observations and predicts a sparse set of polylines in the bird's-eye view. This pipeline can explicitly model the spatial relation between map elements and generate vectorized maps that are friendly to downstream autonomous driving tasks. Extensive experiments show that VectorMapNet achieve strong map learning performance on both nuScenes and Argoverse2 dataset, surpassing previous state-of-the-art methods by 14.2 mAP and 14.6mAP. Qualitatively, VectorMapNet is capable of generating comprehensive maps and capturing fine-grained details of road geometry. To the best of our knowledge, VectorMapNet is the first work designed towards end-to-end vectorized map learning from onboard observations. Our project website is available at \url{https://tsinghua-mars-lab.github.io/vectormapnet/}.
翻訳日:2023-06-28 01:17:34 公開日:2023-06-26
# $\mathcal{R}$-norm誘導バイアスの固有次元性と一般化特性

Intrinsic dimensionality and generalization properties of the $\mathcal{R}$-norm inductive bias ( http://arxiv.org/abs/2206.05317v2 )

ライセンス: Link先を確認
Navid Ardeshir, Daniel Hsu, Clayton Sanford(参考訳) 特定の対象関数でラベル付けされたデータセットの補間を最小化する$\mathcal{r}$-normの構造および統計特性について検討する。 この$\mathcal{r}$-norm は、2層ニューラルネットワークの帰納バイアスの基礎であり、ネットワーク幅とは無関係に、ネットワーク重みのサイズを制御する機能的効果を捉えるために最近導入された。 これらの補間関数は,データに適合するリッジ関数が存在する場合でも,本質的に多変量関数であると同時に,特定の学習問題に対して統計的に最適な一般化を達成するには,$\mathcal{r}$-normインダクティブバイアスが不十分であることがわかった。 さらに、これらの結果は、実用的なニューラルネットワークトレーニングに結びついている誘導バイアスに新たな光を当てた。

We study the structural and statistical properties of $\mathcal{R}$-norm minimizing interpolants of datasets labeled by specific target functions. The $\mathcal{R}$-norm is the basis of an inductive bias for two-layer neural networks, recently introduced to capture the functional effect of controlling the size of network weights, independently of the network width. We find that these interpolants are intrinsically multivariate functions, even when there are ridge functions that fit the data, and also that the $\mathcal{R}$-norm inductive bias is not sufficient for achieving statistically optimal generalization for certain learning problems. Altogether, these results shed new light on an inductive bias that is connected to practical neural network training.
翻訳日:2023-06-28 01:16:49 公開日:2023-06-26
# 純熱陰影によるギブズ状態期待値の予測

Predicting Gibbs-State Expectation Values with Pure Thermal Shadows ( http://arxiv.org/abs/2206.05302v4 )

ライセンス: Link先を確認
Luuk Coopmans, Yuta Kikuchi, and Marcello Benedetti(参考訳) 量子ギブス状態の多くの性質の準備と計算は、量子半無限計画法や量子ボルツマンマシンのようなアルゴリズムに不可欠である。 任意のgibbs状態の$m$線形関数を$\mathcal{o}(\log{m})$実験値で予測できる量子アルゴリズムを提案する。 十分大きなシステムでは、n$-qubitの混合ギブズ状態は明示的に準備する必要はありませんが、その代わりに、想像上の時間でランダムな$n$-qubitの純粋な状態を進化させます。 その結果は、これらのランダムな純粋状態の古典的な影を構築することによって従う。 本稿では,このアルゴリズムを仮想時間進化のための量子信号処理を用いて実装する量子回路を提案する。 10スピン1/2xxz-ハイゼンベルクモデルの回路をシミュレートしてアルゴリズムの効率を数値的に検証する。 さらに,本アルゴリズムは,8量子ビット完全連結量子ボルツマンマシンをトレーニングするためのサブルーチンとしてうまく利用できることを示す。

The preparation and computation of many properties of quantum Gibbs states is essential for algorithms such as quantum semidefinite programming and quantum Boltzmann machines. We propose a quantum algorithm that can predict $M$ linear functions of an arbitrary Gibbs state with only $\mathcal{O}(\log{M})$ experimental measurements. Our main insight is that for sufficiently large systems we do not need to prepare the $n$-qubit mixed Gibbs state explicitly but, instead, we can evolve a random $n$-qubit pure state in imaginary time. The result then follows by constructing classical shadows of these random pure states. We propose a quantum circuit that implements this algorithm by using quantum signal processing for the imaginary time evolution. We numerically verify the efficiency of the algorithm by simulating the circuit for a ten-spin-1/2 XXZ-Heisenberg model. In addition, we show that the algorithm can be successfully employed as a subroutine for training an eight-qubit fully connected quantum Boltzmann machine.
翻訳日:2023-06-28 01:16:35 公開日:2023-06-26
# コントラスト学習と非コントラスト学習の双対性について

On the duality between contrastive and non-contrastive self-supervised learning ( http://arxiv.org/abs/2206.02574v3 )

ライセンス: Link先を確認
Quentin Garrido (FAIR, LIGM), Yubei Chen (FAIR), Adrien Bardes (FAIR, WILLOW), Laurent Najman (LIGM), Yann Lecun (FAIR, CIMS)(参考訳) 画像表現の自己教師付き学習における最近のアプローチは、異なる種類の手法に分類することができ、特に、対比的および非矛盾的アプローチに分類できる。 両者の相違は, 新たなアプローチを動機付けるために徹底的に議論されてきたが, 両者の理論的類似性に焦点が当てられている。 代数的に関連し、限定的な仮定の下で等価であることを示す、対照的で共分散に基づく非矛盾的な基準を設計することにより、それらの族がどれほど近いかを示す。 我々はさらに,一般的な手法を研究・導入し,この理論結果と現在の手法との関連性を示し,下流性能に対する設計選択の影響(あるいは欠如)を示す。 そこで本研究では,SimCLRの低性能について検討し,VICRegの高パラメータチューニングを慎重に行う方法を示し,既知のベースラインよりも大幅に改善した。 また、非競合的手法は大きな出力次元を必要とするという一般的な仮定にも挑戦する。 理論的および定量的な結果は,ネットワーク設計選択やハイパーパラメータチューニングにより,コントラスト法と非コントラスト法との差を解消できることを示唆している。 これらの証拠は,SOTA手法を統一することが,自己指導型学習の理解を深めるための重要な方向であることを示している。

Recent approaches in self-supervised learning of image representations can be categorized into different families of methods and, in particular, can be divided into contrastive and non-contrastive approaches. While differences between the two families have been thoroughly discussed to motivate new approaches, we focus more on the theoretical similarities between them. By designing contrastive and covariance based non-contrastive criteria that can be related algebraically and shown to be equivalent under limited assumptions, we show how close those families can be. We further study popular methods and introduce variations of them, allowing us to relate this theoretical result to current practices and show the influence (or lack thereof) of design choices on downstream performance. Motivated by our equivalence result, we investigate the low performance of SimCLR and show how it can match VICReg's with careful hyperparameter tuning, improving significantly over known baselines. We also challenge the popular assumption that non-contrastive methods need large output dimensions. Our theoretical and quantitative results suggest that the numerical gaps between contrastive and non-contrastive methods in certain regimes can be closed given better network design choices and hyperparameter tuning. The evidence shows that unifying different SOTA methods is an important direction to build a better understanding of self-supervised learning.
翻訳日:2023-06-28 01:16:18 公開日:2023-06-26
# Multiface: ニューラルフェイスレンダリングのためのデータセット

Multiface: A Dataset for Neural Face Rendering ( http://arxiv.org/abs/2207.11243v2 )

ライセンス: Link先を確認
Cheng-hsin Wuu, Ningyuan Zheng, Scott Ardisson, Rohan Bali, Danielle Belko, Eric Brockmeyer, Lucas Evans, Timothy Godisart, Hyowon Ha, Xuhua Huang, Alexander Hypes, Taylor Koska, Steven Krenn, Stephen Lombardi, Xiaomin Luo, Kevyn McPhail, Laura Millerschoen, Michal Perdoch, Mark Pitts, Alexander Richard, Jason Saragih, Junko Saragih, Takaaki Shiratori, Tomas Simon, Matt Stewart, Autumn Trimble, Xinshuo Weng, David Whitewolf, Chenglei Wu, Shoou-I Yu, Yaser Sheikh(参考訳) 近年、人間の顔の写実的なアバターは長い道のりを歩んでいるが、この分野の研究は、一般公開された高品質なデータセットの欠如、密集したマルチビューカメラの撮影、被写体のリッチな表情によって制限されている。 本研究では,多視点・高精細な顔データセットであるmultifaceを,realial labs research for neural face renderingで13名から収集した。 顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。 Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。 データセットのリリースとともに、異なるモデルアーキテクチャが新しい視点と表現のモデルの補間能力に与える影響についてアブレーション研究を行う。 条件付きVAEモデルをベースラインとして,空間バイアス,テクスチャワープフィールド,残差接続を加えることで,新規なビュー合成の性能が向上することがわかった。 私たちのコードとデータは、https://github.com/facebookresearch/multifaceで利用可能です。

Photorealistic avatars of human faces have come a long way in recent years, yet research along this area is limited by a lack of publicly available, high-quality datasets covering both, dense multi-view camera captures, and rich facial expressions of the captured subjects. In this work, we present Multiface, a new multi-view, high-resolution human face dataset collected from 13 identities at Reality Labs Research for neural face rendering. We introduce Mugsy, a large scale multi-camera apparatus to capture high-resolution synchronized videos of a facial performance. The goal of Multiface is to close the gap in accessibility to high quality data in the academic community and to enable research in VR telepresence. Along with the release of the dataset, we conduct ablation studies on the influence of different model architectures toward the model's interpolation capacity of novel viewpoint and expressions. With a conditional VAE model serving as our baseline, we found that adding spatial bias, texture warp field, and residual connections improves performance on novel view synthesis. Our code and data is available at: https://github.com/facebookresearch/multiface
翻訳日:2023-06-28 01:08:47 公開日:2023-06-26
# CLAMP: 言語と動物をつなぐためのプロンプトベースのコントラスト学習

CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal Pose ( http://arxiv.org/abs/2206.11752v3 )

ライセンス: Link先を確認
Xu Zhang, Wen Wang, Zhe Chen, Yufei Xu, Jing Zhang, Dacheng Tao(参考訳) 既存の画像ベース手法では、トレーニングデータや種内および種間に大きなばらつきがあるため、動物のポーズ推定は困難である。 視覚言語研究の進展により,事前学習した言語モデル(例えばCLIP)は,テキストで動物のキーポイントを記述するための豊富な事前知識を提供することで,動物のポーズ推定を容易にすることが示唆された。 しかし, 事前学習した言語モデルと視覚動物キーポイントの効果的な接続を構築することは, テキストベース記述とキーポイントに基づく動物ポーズの視覚的特徴とのギャップが大きいため, 容易ではないことがわかった。 本稿では,言語とAniMal Pose(CLAMP)を効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。 CLAMPは、ネットワークトレーニング中に動物のキーポイントにテキストプロンプトを適用することでギャップを埋めようとしている。 適応は空間認識および特徴認識のプロセスに分解され、2つの新しい対照的な損失が対応するように考案される。 実際には、CLAMPは最初のクロスモーダル動物ポーズ推定パラダイムを可能にする。 実験の結果, 教師付き, 少数ショット, ゼロショットの設定では, 画像ベースの手法を高いマージンで上回り, 最先端の性能が得られることがわかった。

Animal pose estimation is challenging for existing image-based methods because of limited training data and large intra- and inter-species variances. Motivated by the progress of visual-language research, we propose that pre-trained language models (e.g., CLIP) can facilitate animal pose estimation by providing rich prior knowledge for describing animal keypoints in text. However, we found that building effective connections between pre-trained language models and visual animal keypoints is non-trivial since the gap between text-based descriptions and keypoint-based visual features about animal pose can be significant. To address this issue, we introduce a novel prompt-based Contrastive learning scheme for connecting Language and AniMal Pose (CLAMP) effectively. The CLAMP attempts to bridge the gap by adapting the text prompts to the animal keypoints during network training. The adaptation is decomposed into spatial-aware and feature-aware processes, and two novel contrastive losses are devised correspondingly. In practice, the CLAMP enables the first cross-modal animal pose estimation paradigm. Experimental results show that our method achieves state-of-the-art performance under the supervised, few-shot, and zero-shot settings, outperforming image-based methods by a large margin.
翻訳日:2023-06-28 01:06:13 公開日:2023-06-26
# 時間分解共鳴非弾性x線散乱を用いた光駆動エンタングルメント

Witnessing Light-Driven Entanglement using Time-Resolved Resonant Inelastic X-Ray Scattering ( http://arxiv.org/abs/2209.02283v4 )

ライセンス: Link先を確認
Jordyn Hales, Utkarsh Bajpai, Tongtong Liu, Denitsa R. Baykusheva, Mingda Li, Matteo Mitrano, Yao Wang(参考訳) 量子材料における絡み合いの特性化と制御は次世代量子技術の発展に不可欠である。 しかし、マクロな固体における絡み合いの定量値の定義は理論上、実験的に難しい。 平衡では、スペクトル可観測物から絡み合いの証人を抽出することで絡み合いの存在を診断することができ、この方法の非平衡拡張は、新しい力学現象の発見につながる可能性がある。 本稿では,時間依存性の量子フィッシャー情報と時間分解非弾性X線散乱による量子材料の過渡状態の絡み合い深さの定量化手法を提案する。 例えば、四分法拡張Hubbardモデルを用いて、このアプローチの効率をベンチマークし、位相境界に近接して光を増幅する多体絡みを予測した。 我々の研究は、超高速分光測定による光駆動量子材料の絡み合いを実験的に観察し制御する段階を定めている。

Characterizing and controlling entanglement in quantum materials is crucial for the development of next-generation quantum technologies. However, defining a quantifiable figure of merit for entanglement in macroscopic solids is theoretically and experimentally challenging. At equilibrium the presence of entanglement can be diagnosed by extracting entanglement witnesses from spectroscopic observables and a nonequilibrium extension of this method could lead to the discovery of novel dynamical phenomena. Here, we propose a systematic approach to quantify the time-dependent quantum Fisher information and entanglement depth of transient states of quantum materials with time-resolved resonant inelastic x-ray scattering. Using a quarter-filled extended Hubbard model as an example, we benchmark the efficiency of this approach and predict a light-enhanced many-body entanglement due to the proximity to a phase boundary. Our work sets the stage for experimentally witnessing and controlling entanglement in light-driven quantum materials via ultrafast spectroscopic measurements.
翻訳日:2023-06-28 00:58:31 公開日:2023-06-26
# REQA:範囲効果を緩和するための画像品質の粗大な評価

REQA: Coarse-to-fine Assessment of Image Quality to Alleviate the Range Effect ( http://arxiv.org/abs/2209.01760v4 )

ライセンス: Link先を確認
Bingheng Li and Fushuo Huo(参考訳) ユーザ生成コンテンツ(UGC)のブラインド画像品質評価(BIQA)は、全体品質範囲において平均意見スコア(MOS)と予測MOS(pMOS)がよく相関していることを示す範囲効果に苦しむ。 範囲効果の理由は、予測された偏差が広い範囲と狭い範囲の両方で、MOSとpMOSの均一性を破壊するためである。 この問題に取り組むため,粗粒度から微粒度予測まで,新しい手法を提案する。 まず、粗粒度メトリクスのランクとグレードの損失をデザインする。 この損失はpMOSとMOSの順序と階調の整合性を保ち、予測偏差を広範囲に減少させる。 次に,細粒度予測を行うために,マルチレベル耐性損失を提案する。 損失は、予測された偏差を狭く狭くする閾値の低下によって制限される。 最後に,細部まで粗い評価を行うためのフィードバックネットワークを設計する。 一方,ネットワークは,マルチスケールの歪み特徴を反復的に処理するためのフィードバックブロックを採用し,その一方で,各イテレーションの出力に非局所的コンテキスト特徴を融合させて,より品質の高い特徴表現を取得する。 実験結果から,提案手法は最先端手法と比較して有効に範囲効果を緩和できることが示された。

Blind image quality assessment (BIQA) of user generated content (UGC) suffers from the range effect which indicates that on the overall quality range, mean opinion score (MOS) and predicted MOS (pMOS) are well correlated; focusing on a particular range, the correlation is lower. The reason for the range effect is that the predicted deviations both in a wide range and in a narrow range destroy the uniformity between MOS and pMOS. To tackle this problem, a novel method is proposed from coarse-grained metric to fine-grained prediction. Firstly, we design a rank-and-gradient loss for coarse-grained metric. The loss keeps the order and grad consistency between pMOS and MOS, thereby reducing the predicted deviation in a wide range. Secondly, we propose multi-level tolerance loss to make fine-grained prediction. The loss is constrained by a decreasing threshold to limite the predicted deviation in narrower and narrower ranges. Finally, we design a feedback network to conduct the coarse-to-fine assessment. On the one hand, the network adopts feedback blocks to process multi-scale distortion features iteratively and on the other hand, it fuses non-local context feature to the output of each iteration to acquire more quality-aware feature representation. Experimental results demonstrate that the proposed method can alleviate the range effect compared to the state-of-the-art methods effectively.
翻訳日:2023-06-28 00:58:13 公開日:2023-06-26
# イベントカメラを用いた高速軽量物体検出の動作ロバスト化

Motion Robust High-Speed Light-Weighted Object Detection With Event Camera ( http://arxiv.org/abs/2208.11602v2 )

ライセンス: Link先を確認
Bingde Liu, Chang Xu, Wen Yang, Huai Yu, Lei Yu(参考訳) 本研究では,イベントデータをよりよく活用する動き頑健かつ高速な検出パイプラインを提案する。 まず,空間-時間非同期イベントストリームを効率的に活用し,オブジェクトの動きに頑健なイベントテンソルを構築する,temporal active focus(taf)と呼ばれるイベントストリーム表現を設計する。 次に,2層折り畳みモジュール (BFM) と呼ばれるモジュールを提案し,このモジュールは検出器の入力層におけるTAFテンソルの豊富な時間情報を符号化する。 これに続いて,agile event detector (aed) と呼ばれる高速軽量検出器と,簡易かつ効果的なデータ拡張手法を設計し,検出精度を高め,モデルのパラメータを低減した。 2つの典型的な実景イベントカメラオブジェクト検出データセットの実験により,本手法は精度,効率,パラメータ数において競合することを示した。 光流密度測定に基づいて物体を複数の運動レベルに分類することにより,カメラに対して速度の異なる物体に対してロバスト性を示す。 コードとトレーニングされたモデルはhttps://github.com/harmonialeo/frlw-evdで入手できる。

In this work, we propose a motion robust and high-speed detection pipeline which better leverages the event data. First, we design an event stream representation called temporal active focus (TAF), which efficiently utilizes the spatial-temporal asynchronous event stream, constructing event tensors robust to object motions. Then, we propose a module called the bifurcated folding module (BFM), which encodes the rich temporal information in the TAF tensor at the input layer of the detector. Following this, we design a high-speed lightweight detector called agile event detector (AED) plus a simple but effective data augmentation method, to enhance the detection accuracy and reduce the model's parameter. Experiments on two typical real-scene event camera object detection datasets show that our method is competitive in terms of accuracy, efficiency, and the number of parameters. By classifying objects into multiple motion levels based on the optical flow density metric, we further illustrated the robustness of our method for objects with different velocities relative to the camera. The codes and trained models are available at https://github.com/HarmoniaLeo/FRLW-EvD .
翻訳日:2023-06-28 00:57:37 公開日:2023-06-26
# 2つの結合したフィボナッチ鎖のスペクトル特性

Spectral Properties of Two Coupled Fibonacci Chains ( http://arxiv.org/abs/2208.05178v2 )

ライセンス: Link先を確認
Anouar Moustaj, Malte R\"ontgen, Christian V. Morfonios, Peter Schmelcher and Cristiane Morais Smith(参考訳) フィボナッチ連鎖(fibonacci chain)、すなわち結合および/またはオンサイトポテンシャルがフィボナッチ語に従って分布する2つの異なる値のみを取ることのできる強結合モデルは、一次元準結晶の古典的な例である。 フラクタル固有値スペクトルのような多くの興味深い性質を持つフィボナッチ鎖は、3次元準結晶で起こる多くの効果を調べるための豊富なプラットフォームを提供する。 本研究では、2つの同一のフィボナッチ鎖の固有値と固有状態について異なる方法で結合した。 この設定によって、さまざまな効果が得られます。 使用する結合方式, 結果系に依存して i) 単一のフィボナッチ連鎖のスペクトルと比較してよりリッチな階層構造を特徴とする固有値スペクトルを有する。 (二)ブロッホ及び臨界固有状態の共存を示す、又は (iii) は多数の退化固有状態を持ち、それぞれがシステムの4箇所のみに完全に局在している。 さらに、系が無限に拡張されると、完全局所化された固有状態のマクロ数は完全平坦な準バンドを誘導する。 特に第2のケースはアプリケーションの観点から興味深い。なぜなら、Blochの固有状態や重要な特性を持つ固有状態は、ほとんど異なる輸送特性を持つからである。 同時に、提案されたセットアップは、例えば、エバネッセント的に結合した導波路、電気回路、または金属基板上にアトムで反格子をパターン化することによって、実験的実現を可能にする。

The Fibonacci chain, i.e., a tight-binding model where couplings and/or on-site potentials can take only two different values distributed according to the Fibonacci word, is a classical example of a one-dimensional quasicrystal. With its many intriguing properties, such as a fractal eigenvalue spectrum, the Fibonacci chain offers a rich platform to investigate many of the effects that occur in three-dimensional quasicrystals. In this work, we study the eigenvalues and eigenstates of two identical Fibonacci chains coupled to each other in different ways. We find that this setup allows for a rich variety of effects. Depending on the coupling scheme used, the resulting system (i) possesses an eigenvalue spectrum featuring a richer hierarchical structure compared to the spectrum of a single Fibonacci chain, (ii) shows a coexistence of Bloch and critical eigenstates, or (iii) possesses a large number of degenerate eigenstates, each of which is perfectly localized on only four sites of the system. If additionally, the system is infinitely extended, the macroscopic number of perfectly localized eigenstates induces a perfectly flat quasi band. Especially the second case is interesting from an application perspective, since eigenstates that are of Bloch or of critical character feature largely different transport properties. At the same time, the proposed setup allows for an experimental realization, e.g., with evanescently coupled waveguides, electric circuits, or by patterning an anti-lattice with adatoms on a metallic substrate.
翻訳日:2023-06-28 00:57:20 公開日:2023-06-26
# 模擬金融市場における自動取引のための非定常連続強制帯域戦略

Nonstationary Continuum-Armed Bandit Strategies for Automated Trading in a Simulated Financial Market ( http://arxiv.org/abs/2208.02901v3 )

ライセンス: Link先を確認
Bingde Liu, John Cartlidge(参考訳) 我々は、市場状況の変化に適応して一貫して利益を得ることのできる自動取引戦略を設計する問題にアプローチする。 この課題は、Nonstationary Continuum-Armed Bandit (NCAB) 問題とみなすことができる。 NCAB問題を解決するために,ベイズ最適化と 'bandit-over-bandit' フレームワークを用いた新しい取引アルゴリズムであるPRBOを提案し,市場条件に応じて戦略パラメータを動的に調整する。 我々は、ブリストル証券取引所(BSE)を用いて、自動取引業者の不均一な人口を含む金融市場をシミュレートし、PRBOとPRSHを比較した。 その結果, PRBOは調整するハイパーパラメータが少ないにもかかわらず, PRSHよりも著しく利益が高いことがわかった。 PRBOと実験のコードはオンラインで公開されている(https://github.com/HarmoniaLeo/PRZI-Bayesian-Optimisation)。

We approach the problem of designing an automated trading strategy that can consistently profit by adapting to changing market conditions. This challenge can be framed as a Nonstationary Continuum-Armed Bandit (NCAB) problem. To solve the NCAB problem, we propose PRBO, a novel trading algorithm that uses Bayesian optimization and a ``bandit-over-bandit'' framework to dynamically adjust strategy parameters in response to market conditions. We use Bristol Stock Exchange (BSE) to simulate financial markets containing heterogeneous populations of automated trading agents and compare PRBO with PRSH, a reference trading strategy that adapts strategy parameters through stochastic hill-climbing. Results show that PRBO generates significantly more profit than PRSH, despite having fewer hyperparameters to tune. The code for PRBO and performing experiments is available online open-source (https://github.com/HarmoniaLeo/PRZI-Bayesian-Optimisation).
翻訳日:2023-06-28 00:56:55 公開日:2023-06-26
# 方向性整合性ネットワークと高品質ベンチマークによるマルチスペクトル車両再同定

Multi-spectral Vehicle Re-identification with Cross-directional Consistency Network and a High-quality Benchmark ( http://arxiv.org/abs/2208.00632v2 )

ライセンス: Link先を確認
Aihua Zheng, Xianpeng Zhu, Zhiqi Ma, Chenglong Li, Jin Tang, Jixin Ma(参考訳) 複雑な照明環境や多様なシーンにおける車両再識別(Re-ID)の課題に対処するため、可視・赤外情報などのマルチスペクトル源を相補的優位性から考慮する。 しかし、多スペクトル車両Re-IDは、異なるモジュラリティの異質性によって引き起こされる異質性差に悩まされ、また、それぞれのアイデンティティに異なる視点を持つ多様な外観の大きな課題である。 一方、多様な環境干渉は、各モードにおける重いサンプル分布の相違をもたらす。 本研究では,モダリティとサンプルの差異を同時に克服する,新たな双方向一貫性ネットワークを提案する。 特に、各アイデンティティのモダリティ中心をクロスモダリティの不一致を緩和するために、新しい方向中心の損失をデザインする一方で、各アイデンティティのサンプル中心はサンプルの不一致を緩和する。 このような戦略は、車両用Re-IDの識別多スペクトル特徴表現を生成することができる。 さらに,適応層正規化ユニットを設計し,個々の特徴分布を動的に調整し,ロバスト学習のためのモダリティ内特徴の分布差を扱う。 総合的な評価プラットフォームを提供するため、幅広い視点、時間、環境の複雑さから310台の異なる車両を含む高品質なrgb-nir-tirマルチスペクトル車両re-idベンチマーク(msvr310)を作成する。 作成したデータセットと公開データセットの総合的な実験により、提案手法の有効性を最先端の手法と比較した。

To tackle the challenge of vehicle re-identification (Re-ID) in complex lighting environments and diverse scenes, multi-spectral sources like visible and infrared information are taken into consideration due to their excellent complementary advantages. However, multi-spectral vehicle Re-ID suffers cross-modality discrepancy caused by heterogeneous properties of different modalities as well as a big challenge of the diverse appearance with different views in each identity. Meanwhile, diverse environmental interference leads to heavy sample distributional discrepancy in each modality. In this work, we propose a novel cross-directional consistency network to simultaneously overcome the discrepancies from both modality and sample aspects. In particular, we design a new cross-directional center loss to pull the modality centers of each identity close to mitigate cross-modality discrepancy, while the sample centers of each identity close to alleviate the sample discrepancy. Such strategy can generate discriminative multi-spectral feature representations for vehicle Re-ID. In addition, we design an adaptive layer normalization unit to dynamically adjust individual feature distribution to handle distributional discrepancy of intra-modality features for robust learning. To provide a comprehensive evaluation platform, we create a high-quality RGB-NIR-TIR multi-spectral vehicle Re-ID benchmark (MSVR310), including 310 different vehicles from a broad range of viewpoints, time spans and environmental complexities. Comprehensive experiments on both created and public datasets demonstrate the effectiveness of the proposed approach comparing to the state-of-the-art methods.
翻訳日:2023-06-28 00:56:41 公開日:2023-06-26
# 確率最適化のためのコーシーランダム摂動を用いた勾配平滑化関数アルゴリズム

A Gradient Smoothed Functional Algorithm with Truncated Cauchy Random Perturbations for Stochastic Optimization ( http://arxiv.org/abs/2208.00290v3 )

ライセンス: Link先を確認
Akash Mondal, Prashanth L. A., Shalabh Bhatnagar(参考訳) 本稿では,ノイズのあるコストサンプルに対する期待値である滑らかな目的関数を最小化するための確率的勾配アルゴリズムを提案する。 提案アルゴリズムでは, デルタ球面から発生する散乱コーシー分布を用いて, ランダム摂動を用いた勾配推定手法を用いる。 提案した勾配推定器のバイアスとばらつきを解析する。 本アルゴリズムは, 目的関数が凸でない場合, パラメータ次元が高い場合に特に有用であることがわかった。 漸近収束解析により、我々のアルゴリズムは目的関数の定常点の集合にほぼ確実に収束し、漸近収束率を得る。 また,本アルゴリズムは不安定な平衡を回避し,局所最小値への収束を示唆することを示す。 さらに,本アルゴリズムの非漸近収束解析を行う。 特に、ここでは非凸目的関数のエプシロン定常点を見つけるための非漸近境界を確立する。 最後に,GSF,SPSA,RDSAの性能が,いくつかの非凸設定よりもかなり優れており,その性能が凸(ノイズ)目標よりも優れていることをシミュレーションにより数値的に示す。

In this paper, we present a stochastic gradient algorithm for minimizing a smooth objective function that is an expectation over noisy cost samples, and only the latter are observed for any given parameter. Our algorithm employs a gradient estimation scheme with random perturbations, which are formed using the truncated Cauchy distribution from the delta sphere. We analyze the bias and variance of the proposed gradient estimator. Our algorithm is found to be particularly useful in the case when the objective function is non-convex, and the parameter dimension is high. From an asymptotic convergence analysis, we establish that our algorithm converges almost surely to the set of stationary points of the objective function and obtains the asymptotic convergence rate. We also show that our algorithm avoids unstable equilibria, implying convergence to local minima. Further, we perform a non-asymptotic convergence analysis of our algorithm. In particular, we establish here a non-asymptotic bound for finding an epsilon-stationary point of the non-convex objective function. Finally, we demonstrate numerically through simulations that the performance of our algorithm outperforms GSF, SPSA, and RDSA by a significant margin over a few non-convex settings and further validate its performance over convex (noisy) objectives.
翻訳日:2023-06-28 00:56:16 公開日:2023-06-26
# Live in the Moment: 政策の進化に適応した学習ダイナミクスモデル

Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy ( http://arxiv.org/abs/2207.12141v4 )

ライセンス: Link先を確認
Xiyao Wang, Wichayaporn Wongkamjan, Furong Huang(参考訳) モデルベース強化学習(RL)は、動的モデルを学び、政策学習のためのサンプルを生成することにより、モデルフリーRLよりも実際に高いサンプル効率を達成する。 以前の研究は、すべての歴史的政策、すなわちサンプル再生バッファの実証的な状態-行動ビジション分布に適合するダイナミックスモデルを学習した。 しかし,本稿では,使用中のポリシが経時的に変化しているため,その分布下でのダイナミックスモデルの適用が必ずしも,<emph{all>履歴ポリシーのモデル予測に有効であるとは限らないことを観察する。 トレーニング中のポリシーの進化は、状態行動の訪問分布の変化を引き起こす。 我々は、この分布がモデル学習とモデルロールアウトに与える影響を理論的に分析する。 次に,新しい動力学モデル学習法である \textit{policy-adapted dynamics model learning (pdml)" を提案する。 PDMLは歴史的政策混合分布を動的に調整し、学習したモデルが進化する政策の状態-行動訪問分布に継続的に適応できるようにする。 MuJoCoにおける一連の連続制御環境の実験により、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率を大幅に向上し、漸近性能を向上することが示された。

Model-based reinforcement learning (RL) often achieves higher sample efficiency in practice than model-free RL by learning a dynamics model to generate samples for policy learning. Previous works learn a dynamics model that fits under the empirical state-action visitation distribution for all historical policies, i.e., the sample replay buffer. However, in this paper, we observe that fitting the dynamics model under the distribution for \emph{all historical policies} does not necessarily benefit model prediction for the \emph{current policy} since the policy in use is constantly evolving over time. The evolving policy during training will cause state-action visitation distribution shifts. We theoretically analyze how this distribution shift over historical policies affects the model learning and model rollouts. We then propose a novel dynamics model learning method, named \textit{Policy-adapted Dynamics Model Learning (PDML)}. PDML dynamically adjusts the historical policy mixture distribution to ensure the learned model can continually adapt to the state-action visitation distribution of the evolving policy. Experiments on a range of continuous control environments in MuJoCo show that PDML achieves significant improvement in sample efficiency and higher asymptotic performance combined with the state-of-the-art model-based RL methods.
翻訳日:2023-06-28 00:55:56 公開日:2023-06-26
# 分子特性予測のための表現学習からの反響

Taking a Respite from Representation Learning for Molecular Property Prediction ( http://arxiv.org/abs/2209.13492v3 )

ライセンス: Link先を確認
Jianyuan Deng, Zhibo Yang, Hehe Wang, Iwao Ojima, Dimitris Samaras, Fusheng Wang(参考訳) 人工知能(AI)は、分子特性予測として主要なタスクを持つ薬物発見に広く応用されている。 分子表現学習の進歩にもかかわらず、分子特性予測の基礎はまだ慎重に検討されていない。 本研究では,種々の分子表現を用いた代表モデルの集合を体系的に評価した。 一般的なcreativenetベンチマークデータセットに加えて、chemblのオピオイド関連データセットと、文献からの2つの追加アクティビティデータセットも組み立てました。 基本的な予測力を問うため、モデルの性能を評価するために、様々なサイズの記述子データセットを組み立てた。 合計で62,820モデル、固定表現50,220モデル、SMILES配列4,200モデル、分子グラフ8,400モデルを含む。 最初にデータセットのプロファイリングを行い、オピオイド関連データセットのアクティビティ・クリフ問題を強調した。 次に,厳密なモデル評価を行い,そこでの課題に対処した。 さらに, 化学空間の一般化について検討し, 活動崖が予測性能に有意な影響を及ぼすことを見出した。 広範な実験と厳密な比較に基づいて、表現学習モデルはいまだ多くのデータセットで分子特性予測において限られた性能を示している。 最後に、表現学習モデルが失敗する潜在的な原因を調査し、データセットサイズの重要性を強調した。 この繰り返しを取り入れることで、分子特性予測の基礎となる基礎を考察し、その認識がこの分野により良いai技術をもたらすことを願っている。

Artificial intelligence (AI) has been widely applied in drug discovery with a major task as molecular property prediction. Despite booming techniques in molecular representation learning, fundamentals underlying molecular property prediction haven't been carefully examined yet. In this study, we conducted a systematic evaluation on a collection of representative models using various molecular representations. In addition to the commonly used MoleculeNet benchmark datasets, we also assembled a suite of opioids-related datasets from ChEMBL and two additional activity datasets from literature. To interrogate the basic predictive power, we also assembled a series of descriptors datasets with varying sizes to evaluate the models' performance. In total, we trained 62,820 models, including 50,220 models on fixed representations, 4,200 models on SMILES sequences and 8,400 models on molecular graphs. We first conducted dataset profiling and highlighted the activity-cliffs issue in the opioids-related datasets. We then conducted rigorous model evaluation and addressed key questions therein. Furthermore, we examined inter-/intra-scaffold chemical space generalization and found that activity cliffs significantly can impact prediction performance. Based on extensive experimentation and rigorous comparison, representation learning models still show limited performance in molecular property prediction in most datasets. Finally, we explored into potential causes why representation learning models fail and highlighted the importance of dataset size. By taking this respite, we reflected on the fundamentals underlying molecular property prediction, the awareness of which can, hopefully, bring better AI techniques in this field.
翻訳日:2023-06-28 00:48:59 公開日:2023-06-26
# 多機能イメージングメタレンを用いた任意構造量子放出

Arbitrary structured quantum emission with a multifunctional imaging metalens ( http://arxiv.org/abs/2209.04571v2 )

ライセンス: Link先を確認
Chi Li, Jaehyuck Jang, Trevon Badloe, Tieshan Yang, Joohoon Kim, Jaekyung Kim, Minh Nguyen, Stefan A. Maier, Junsuk Rho, Haoran Ren, Igor Aharonovich(参考訳) 複数の自由度で単一光子エミッタからの発光を構造化することは、高次元への量子情報処理において非常に重要である。 しかし、従来の量子光源からの放射の制御は、多次元調整の可能性を制限するために、機能に制限のある複数のバルク光学素子やナノ構造共振器の使用に依存している。 ここでは,室温での量子放出の任意の構造化に極薄偏光ビームスプリット金属を用いた方法を紹介する。 単一メタ原子レベルでの完全かつ独立した偏光と位相制御により、設計されたメタレンは、六方晶窒化ホウ素の超明るい欠陥からの量子放出を同時に撮像し、任意の波面を光源の直交偏光状態に印加することができる。 ハイブリッド量子メタレンは、方向性、偏光、軌道角運動量を含む量子光源の複数の自由度を同時に操作することができる。 多重自由度での量子放出の任意の波面形成は、高度な量子フォトニック応用のための高次元量子源として使用するために固体speの全ポテンシャルを解き放つことができる。

Structuring light emission from single-photon emitters in multiple degrees of freedom is of a great importance for quantum information processing towards higher dimensions. However, traditional control of emission from quantum light sources relies on the use of multiple bulky optical elements or nanostructured resonators with limited functionalities, constraining the potential of multi-dimensional tailoring. Here we introduce the use of an ultrathin polarisation-beam-splitting metalens for the arbitrary structuring of quantum emission at room temperature. Owing to the complete and independent polarisation and phase control at a single meta-atom level, the designed metalens enables simultaneous imaging of quantum emission from ultra-bright defects in hexagonal boron nitride and imprinting of an arbitrary wavefront onto orthogonal polarisation states of the sources. The hybrid quantum metalens enables simultaneous manipulation of multiple degrees of freedom of a quantum light source, including directionality, polarisation, and orbital angular momentum. The demonstrated arbitrary wavefront shaping of quantum emission in multiple degrees of freedom could unleash the full potential of solid-state SPEs for their use as high-dimensional quantum sources for advanced quantum photonic applications.
翻訳日:2023-06-28 00:47:07 公開日:2023-06-26
# CarbonTag: オンライン広告のエネルギー消費を近似するブラウザベースの方法

CarbonTag: A Browser-Based Method for Approximating Energy Consumption of Online Ads ( http://arxiv.org/abs/2211.00071v3 )

ライセンス: Link先を確認
Jos\'e Gonz\'alez Caba\~nas, Patricia Callejo, Rub\'en Cuevas, Steffen Svatberg, Tommy Torjesen, \'Angel Cuevas, Antonio Pastor, Mikko Kotila(参考訳) エネルギーは、今日最も重要な環境問題である。 気候変動に寄与する炭素排出量は、エネルギーの生産と消費の両方に影響されている。 サービスのエネルギー消費の測定と削減は、二酸化炭素による環境影響の低減に向けた重要なステップである。 何百万ものウェブサイトがオンライン広告に頼って収益を上げており、ほとんどのウェブサイトは広告収入のほとんどまたは全部を稼いでいる。 その結果、毎日数十億ものオンライン広告がインターネットユーザーに配信され、ブラウザでレンダリングされる。 各広告の配信とレンダリングの両方がエネルギーを消費する。 本研究は、オンライン広告がレンダリングプロセスでどれだけのエネルギーを消費しているかを調査し、それを広告のレンダリングの一部として予測する方法を提供する。 著者の知識を最大限に活用するために、レンダリングプロセスにおける単一の広告のエネルギー使用量を計算する最初の研究である。 さらに、エネルギー効率に基づいてオンライン広告を分類できる様々な消費レベルについても紹介する。 この分類により、広告主はエネルギー効率の指標を追加し、消費を抑えるためのキャンペーンを最適化できる。

Energy is today the most critical environmental challenge. The amount of carbon emissions contributing to climate change is significantly influenced by both the production and consumption of energy. Measuring and reducing the energy consumption of services is a crucial step toward reducing adverse environmental effects caused by carbon emissions. Millions of websites rely on online advertisements to generate revenue, with most websites earning most or all of their revenues from ads. As a result, hundreds of billions of online ads are delivered daily to internet users to be rendered in their browsers. Both the delivery and rendering of each ad consume energy. This study investigates how much energy online ads use in the rendering process and offers a way for predicting it as part of rendering the ad. To the best of the authors' knowledge, this is the first study to calculate the energy usage of single advertisements in the rendering process. Our research further introduces different levels of consumption by which online ads can be classified based on energy efficiency. This classification will allow advertisers to add energy efficiency metrics and optimize campaigns towards consuming less possible.
翻訳日:2023-06-28 00:39:31 公開日:2023-06-26
# 位相秩序による因果発見のための拡散モデル

Diffusion Models for Causal Discovery via Topological Ordering ( http://arxiv.org/abs/2210.06201v2 )

ライセンス: Link先を確認
Pedro Sanchez, Xiao Liu, Alison Q O'Neil, Sotirios A. Tsaftaris(参考訳) 観測データから因果関係の発見は、付加雑音(anm)を伴う非線形として制約される機能関係を考えるといった追加の仮定によって可能となる。 強い仮定にもかかわらず、因果探索は有向非巡回グラフ(DAG)の空間上の高価な探索問題を伴う。 \emph{Topological ordering} アプローチは、グラフ空間ではなく置換を探索することによって因果発見の最適化空間を減少させる。 anms の場合、データログ類似性の \emph{hessian} は因果グラフ内の葉ノードを見つけるのに使われ、その位相順序付けを可能にする。 しかし、Hessianを得るための既存の計算手法は、変数の数やサンプルの数が増えるにつれてスケールしない。 したがって、拡散確率モデル(DPM)の最近の革新に触発されて、我々は \emph{DiffAN}\footnote{Implementation is available at \url{https://github.com/vios-s/DiffAN} を提案する。 これは、DPMを利用してヘッセン関数を学習するトポロジ的順序付けアルゴリズムである。 ニューラルネットワークを再トレーニングすることなく学習したヘッシアンを更新する理論を導入し、サンプルのサブセットによる計算が順序の正確な近似を与え、より多くのサンプルと変数を持つデータセットへのスケーリングを可能にすることを示す。 我々は,提案手法が500ドルのノードと最大10^5ドルのサンプルを持つデータセットに対して,なおも最先端の因果探索手法を持つ小さなデータセットと同等に動作していることを実証的に示す。 実装はhttps://github.com/vios-s/DiffANで公開されている。

Discovering causal relations from observational data becomes possible with additional assumptions such as considering the functional relations to be constrained as nonlinear with additive noise (ANM). Even with strong assumptions, causal discovery involves an expensive search problem over the space of directed acyclic graphs (DAGs). \emph{Topological ordering} approaches reduce the optimisation space of causal discovery by searching over a permutation rather than graph space. For ANMs, the \emph{Hessian} of the data log-likelihood can be used for finding leaf nodes in a causal graph, allowing its topological ordering. However, existing computational methods for obtaining the Hessian still do not scale as the number of variables and the number of samples increase. Therefore, inspired by recent innovations in diffusion probabilistic models (DPMs), we propose \emph{DiffAN}\footnote{Implementation is available at \url{https://github.com/vios-s/DiffAN} .}, a topological ordering algorithm that leverages DPMs for learning a Hessian function. We introduce theory for updating the learned Hessian without re-training the neural network, and we show that computing with a subset of samples gives an accurate approximation of the ordering, which allows scaling to datasets with more samples and variables. We show empirically that our method scales exceptionally well to datasets with up to $500$ nodes and up to $10^5$ samples while still performing on par over small datasets with state-of-the-art causal discovery methods. Implementation is available at https://github.com/vios-s/DiffAN .
翻訳日:2023-06-28 00:38:11 公開日:2023-06-26
# 対照的な重みpruningを用いたdebiased subnetworksの訓練

Training Debiased Subnetworks with Contrastive Weight Pruning ( http://arxiv.org/abs/2210.05247v3 )

ライセンス: Link先を確認
Geon Yeong Park, Sangmin Lee, Sang Wan Lee, Jong Chul Ye(参考訳) ニューラルネットワークはしばしば、一般化しない誤解を招く統計的証拠を提供する刺激的に相関した特徴に偏っている。 最適な偏りのない機能的サブネットワークは、厳しい偏りのあるネットワークの中に存在するのだろうか? もしそうなら、どのようにサブネットワークを抽出するのか? このような偏りのないサブネットワークの存在に関する実証的な証拠は蓄積されているが、これらの観測は主に地底偏りのないサンプルの指導に基づいている。 したがって、実際にバイアスのあるトレーニングデータセットを持つ最適なサブネットワークを見つける方法が未検討である。 これに対処するために、我々はまず、強いスプリアス相関の存在下で、偏りのないサブネットワークを探索する既存のアルゴリズムの潜在的な制限を警告する理論的な洞察を示す。 さらに,構造学習におけるバイアス強調サンプルの重要性を解明する。 これらの観測により、高価なグループアノテーションなしで非バイアスのサブネットを探索するDCWP(Debiased Contrastive Weight Pruning)アルゴリズムを提案する。 実験の結果,パラメータ数が大幅に減少しているにもかかわらず,本手法は最先端のデバイアス法よりも優れていた。

Neural networks are often biased to spuriously correlated features that provide misleading statistical evidence that does not generalize. This raises an interesting question: ``Does an optimal unbiased functional subnetwork exist in a severely biased network? If so, how to extract such subnetwork?" While empirical evidence has been accumulated about the existence of such unbiased subnetworks, these observations are mainly based on the guidance of ground-truth unbiased samples. Thus, it is unexplored how to discover the optimal subnetworks with biased training datasets in practice. To address this, here we first present our theoretical insight that alerts potential limitations of existing algorithms in exploring unbiased subnetworks in the presence of strong spurious correlations. We then further elucidate the importance of bias-conflicting samples on structure learning. Motivated by these observations, we propose a Debiased Contrastive Weight Pruning (DCWP) algorithm, which probes unbiased subnetworks without expensive group annotations. Experimental results demonstrate that our approach significantly outperforms state-of-the-art debiasing methods despite its considerable reduction in the number of parameters.
翻訳日:2023-06-28 00:37:40 公開日:2023-06-26
# アウト・オブ・ディストリビューション対応ロバストネスに向けて

Towards Out-of-Distribution Adversarial Robustness ( http://arxiv.org/abs/2210.03150v4 )

ライセンス: Link先を確認
Adam Ibrahim, Charles Guille-Escuret, Ioannis Mitliagkas, Irina Rish, David Krueger, Pouya Bashivan(参考訳) 敵対的堅牢性は、深層学習の大きな課題であり続けている。 核となる問題は、あるタイプの攻撃に対する堅牢性は、しばしば他の攻撃への転送に失敗することである。 先行研究は、異なる$L_p$ノルムに対するロバスト性の理論的なトレードオフを確立する一方で、ドメイン一般化アプローチを採用することで、多くの一般的な攻撃に対する改善の可能性を示す。 具体的には、各攻撃をドメインとして扱い、全ての訓練攻撃に対して同様のロバスト性を促進するリスク外挿法(REx)を適用する。 既存の手法と比較して,訓練中に見られた攻撃に対して,同様の,あるいは優れた対向性が得られる。 さらに,家族の優れたパフォーマンスや,テスト時にのみ遭遇する攻撃のチューニングを実現する。 攻撃のアンサンブルでは,既存のベースラインで最高の3.4%からMNISTで25.9%,CIFAR10で16.9%から23.5%に改善した。

Adversarial robustness continues to be a major challenge for deep learning. A core issue is that robustness to one type of attack often fails to transfer to other attacks. While prior work establishes a theoretical trade-off in robustness against different $L_p$ norms, we show that there is potential for improvement against many commonly used attacks by adopting a domain generalisation approach. Concretely, we treat each type of attack as a domain, and apply the Risk Extrapolation method (REx), which promotes similar levels of robustness against all training attacks. Compared to existing methods, we obtain similar or superior worst-case adversarial robustness on attacks seen during training. Moreover, we achieve superior performance on families or tunings of attacks only encountered at test time. On ensembles of attacks, our approach improves the accuracy from 3.4% with the best existing baseline to 25.9% on MNIST, and from 16.9% to 23.5% on CIFAR10.
翻訳日:2023-06-28 00:36:57 公開日:2023-06-26
# PathProx: 重み付き正規化ディープニューラルネットワークのための近似勾配アルゴリズム

PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized Deep Neural Networks ( http://arxiv.org/abs/2210.03069v3 )

ライセンス: Link先を確認
Liu Yang, Jifan Zhang, Joseph Shenouda, Dimitris Papailiopoulos, Kangwook Lee, Robert D. Nowak(参考訳) 重みの減衰はディープラーニングにおいて最も広く使われる正規化の1つであり、一般化と堅牢性を改善することが示されている。 重量減衰の最適化対象は損失の和であり、二乗重みの和に比例する項である。 本稿では,確率勾配降下 (SGD) はこの目的に対して非効率なアルゴリズムであると主張している。 ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象の解は異なる目的の解と等価であり、正規化項は、それぞれのReLUニューロンに関連する入力および出力重みのノルム$\ell_2$(正方でない)の積の和である。 この代替的(かつ効果的に等価な)正則化は、ネットワークトレーニングのための新しい近位勾配アルゴリズムを示唆する。 理論と実験は新しいトレーニング手法を支持し、標準の重量減衰トレーニングと共有するスパース解にはるかに早く収束できることを示した。

Weight decay is one of the most widely used forms of regularization in deep learning, and has been shown to improve generalization and robustness. The optimization objective driving weight decay is a sum of losses plus a term proportional to the sum of squared weights. This paper argues that stochastic gradient descent (SGD) may be an inefficient algorithm for this objective. For neural networks with ReLU activations, solutions to the weight decay objective are equivalent to those of a different objective in which the regularization term is instead a sum of products of $\ell_2$ (not squared) norms of the input and output weights associated with each ReLU neuron. This alternative (and effectively equivalent) regularization suggests a novel proximal gradient algorithm for network training. Theory and experiments support the new training approach, showing that it can converge much faster to the sparse solutions it shares with standard weight decay training.
翻訳日:2023-06-28 00:36:38 公開日:2023-06-26
# rankme: 事前訓練された自己監督表現のランクによる下流性能の評価

RankMe: Assessing the downstream performance of pretrained self-supervised representations by their rank ( http://arxiv.org/abs/2210.02885v3 )

ライセンス: Link先を確認
Quentin Garrido (LIGM), Randall Balestriero, Laurent Najman (LIGM), Yann Lecun (CIMS)(参考訳) JE-SSL(Joint-Embedding Self Supervised Learning)は、多くのメソッドバリエーションが出現するなど、急速に発展してきたが、実践者がそれをうまくデプロイする上で有効なガイドラインはごくわずかである。 この落とし穴の主な理由は、JE-SSLの中核的な原則である入力再構成を一切使わなかったことによる。 非情報損失値を追加することで、学習した表現の質を判断するのにラベルが役に立たない新しいデータセットにSSLをデプロイすることは難しくなる。 本研究では,学習したJE-SSL表現の質を示す,単純な教師なしの基準である,その有効ランクについて述べる。 単純で計算に親しみやすい方法であるRangeMeは、ラベルを必要とせずに、異なる下流データセットでもJE-SSL表現のパフォーマンスを評価することができる。 RankMeのさらなる利点は、チューニングするトレーニングやハイパーパラメータがないことである。 数百のトレーニングエピソードを含む徹底的な実験を通じて、rankmeはデータセットのラベルを含む現在の選択方法と比較して、最終的なパフォーマンスをほとんど低下させることなく、ハイパーパラメータ選択にどのように使用できるのかを実証する。 RankMeは、表現の質評価のためにラベルに頼る機会のないドメインへのJE-SSLのデプロイを容易にすることを願っている。

Joint-Embedding Self Supervised Learning (JE-SSL) has seen a rapid development, with the emergence of many method variations but only few principled guidelines that would help practitioners to successfully deploy them. The main reason for that pitfall comes from JE-SSL's core principle of not employing any input reconstruction therefore lacking visual cues of unsuccessful training. Adding non informative loss values to that, it becomes difficult to deploy SSL on a new dataset for which no labels can help to judge the quality of the learned representation. In this study, we develop a simple unsupervised criterion that is indicative of the quality of the learned JE-SSL representations: their effective rank. Albeit simple and computationally friendly, this method -- coined RankMe -- allows one to assess the performance of JE-SSL representations, even on different downstream datasets, without requiring any labels. A further benefit of RankMe is that it does not have any training or hyper-parameters to tune. Through thorough empirical experiments involving hundreds of training episodes, we demonstrate how RankMe can be used for hyperparameter selection with nearly no reduction in final performance compared to the current selection method that involve a dataset's labels. We hope that RankMe will facilitate the deployment of JE-SSL towards domains that do not have the opportunity to rely on labels for representations' quality assessment.
翻訳日:2023-06-28 00:36:22 公開日:2023-06-26
# カスケード量子系における超ラジカルバーストの観測

Observation of superradiant bursts in a cascaded quantum system ( http://arxiv.org/abs/2211.08940v2 )

ライセンス: Link先を確認
Christian Liedl, Felix Tebbenjohanns, Constanze Bach, Sebastian Pucher, Arno Rauschenbeutel, and Philipp Schneeweiss(参考訳) Dicke superradiance は、2レベル原子の完全に反転したアンサンブルの集合放射崩壊を記述する。 キラル,すなわち方向依存光-物質結合に対するこの効果を実験的に検討した。 標準ディックの場合と比較して対称性が低いハミルトン的相互作用は根本的に異なるが、超ラジカルバースト放出を観測する。 バーストは原子のしきい値数以上で発生し、そのピーク電力は自由空間のディッケ超放射よりも原子数とともに高速にスケールする。 バースト放出の1次コヒーレンスを計測し、励起過程中に誘起されるコヒーレンスと真空揺らぎによって支配される2つのレジームを実験的に区別する。 その結果、カスケード量子多体系、すなわち、各量子エミッタがカスケードの上流にあるエミッタによって放射される光によってのみ駆動される系の集合的放射ダイナミクスが明らかになった。 量子技術の資源として多光子フォック状態の生成に有用である可能性が示唆された。

Dicke superradiance describes the collective radiative decay of a fully inverted ensemble of two-level atoms. We experimentally investigate this effect for a chiral, i.e.,~direction-dependent light--matter coupling. Despite a fundamentally different interaction Hamiltonian which has a reduced symmetry compared to the standard Dicke case, we do observe a superradiant burst emission. The burst occurs above a threshold number of atoms, and its peak power scales faster with the number of atoms than in the case of free-space Dicke superradiance. We measure the first-order coherence of the burst emission and experimentally distinguish two regimes, one dominated by the coherence induced during the excitation process and the other governed by vacuum fluctuations. Our results shed light on the collective radiative dynamics of cascaded quantum many-body systems, i.e., a system in which each quantum emitter is only driven by light radiated by emitters that are further upstream in the cascade. Our findings may turn out useful for generating multi-photon Fock states as a resource for quantum technologies.
翻訳日:2023-06-28 00:30:01 公開日:2023-06-26
# ガウス過程における混合カテゴリー相関核

A mixed-categorical correlation kernel for Gaussian process ( http://arxiv.org/abs/2211.08262v3 )

ライセンス: Link先を確認
P. Saves and Y. Diouane and N. Bartoli and T. Lefebvre and J. Morlier(参考訳) 近年,ガウス過程(gp)サロゲートに基づく混合分類メタモデルへの関心が高まっている。 この設定では、いくつかの既存のアプローチは、連続カーネル(例えば、連続緩和とガウワー距離に基づくGP)または相関行列の直接推定によって異なる戦略を使用する。 本稿では,連続指数型カーネルを拡張し,混合カテゴリ変数を扱うカーネルベースアプローチを提案する。 提案したカーネルは、連続緩和とゴーワー距離に基づくGPモデルの両方を一般化する新しいGPサロゲートを導く。 解析的および工学的問題の両方において、提案したGPモデルは、他のカーネルベースの最先端モデルよりも高い確率と残差誤差を与えることを示した。 本手法はオープンソースソフトウェアsmtで利用可能である。

Recently, there has been a growing interest for mixed-categorical meta-models based on Gaussian process (GP) surrogates. In this setting, several existing approaches use different strategies either by using continuous kernels (e.g., continuous relaxation and Gower distance based GP) or by using a direct estimation of the correlation matrix. In this paper, we present a kernel-based approach that extends continuous exponential kernels to handle mixed-categorical variables. The proposed kernel leads to a new GP surrogate that generalizes both the continuous relaxation and the Gower distance based GP models. We demonstrate, on both analytical and engineering problems, that our proposed GP model gives a higher likelihood and a smaller residual error than the other kernel-based state-of-the-art models. Our method is available in the open-source software SMT.
翻訳日:2023-06-28 00:29:37 公開日:2023-06-26
# スカラー湯川カップリングのディジタル量子シミュレーション

Digital quantum simulation of scalar Yukawa coupling ( http://arxiv.org/abs/2211.02684v2 )

ライセンス: Link先を確認
Thierry N. Kaldenbach, Matthias Heller, Gernot Alber, and Vladimir M. Stojanovic(参考訳) 我々は、中高エネルギー物理学からの結合フェルミオンボソンモデルのデジタル量子シミュレーションへの再活性化に関心を抱き、IBM Q上の湯川相互作用クエンチに続く非平衡ダイナミクスを考察した。 特に,高度な回路最適化手法を用いて,1ボソンの場合,シミュレーション時間によらず,2つのcnotゲートのみを含む定深さ回路の設計を行う。 3ボソンの場合(そのような圧縮が不可能な場合)、1つのトロッターステップが8ドルCNOTを持つ回路を設計し、この数は一般的な3ビットゲートの最大CNOTコストよりはるかに低い。 また,巡回セールスマン問題との類似性を用いて,より高いボソン数切断のシステムダイナミクスをエミュレートする量子回路のcnotコスト推定も提供する。 設計した回路に基づいて, 湯川相互作用クエンチ後の任意の時間に期待されるボソン数と初期状態の生存確率を評価し, 初期真空状態のシステムダイナミクスを定量化する(ロスシュミットエコー)。 最後に, 設計した回路を用いて断熱遷移を駆動し, 模型の基底および第1励起状態のエネルギーを計算する。 我々は,ゼロノイズ外挿の形式で誤差緩和を行い,古典的ベンチマークにより得られた結果と精度の良い一致を求めることにより,結果の検証を行った。

Motivated by the revitalized interest in the digital quantum simulation of coupled fermion-boson models from medium- and high-energy physics, we investigate the nonequilibrium dynamics following a Yukawa-interaction quench on IBM Q. Adopting -- due to current quantum-hardware limitations -- a single-site (zero-dimensional) version of the scalar Yukawa-coupling model as our point of departure, we design low-depth quantum circuits that emulate its dynamics with up to three bosons. In particular, using advanced circuit-optimization techniques, in the one-boson case we demonstrate circuit compression, i.e.~design a constant-depth circuit containing only two CNOT gates, regardless of the total simulation time. In the three-boson case -- where such a compression is not possible -- we design a circuit in which one Trotter step entails $8$ CNOTs, this number being far below the maximal CNOT-cost of a generic three-qubit gate. Using an analogy with the travelling salesman problem, we also provide a CNOT-cost estimate for quantum circuits emulating the system dynamics for higher boson-number truncations. Based on the designed circuits, we quantify the system dynamics for the initial vacuum state by evaluating the expected boson number at an arbitrary time after a Yukawa-interaction quench, as well as the survival probability of the initial state (the Loschmidt echo). Finally, we make use of the designed circuits to drive adiabatic transitions and compute the energies of the ground- and first excited state of the model under consideration. We validate our results by performing error mitigation in the form of zero-noise extrapolation, finding an excellent agreement of our obtained results with the exact ones obtained through classical benchmarking.
翻訳日:2023-06-28 00:28:30 公開日:2023-06-26
# リスクとシーングラフ学習による異種軌道予測

Heterogeneous Trajectory Forecasting via Risk and Scene Graph Learning ( http://arxiv.org/abs/2211.00848v2 )

ライセンス: Link先を確認
Jianwu Fang, Chen Zhu, Pu Zhang, Hongkai Yu, and Jianru Xue(参考訳) 不均一軌道予測はインテリジェント交通システムにおいて重要であるが、異種道路エージェント間の複雑な相互作用関係のモデル化やエージェント環境制約のモデル化が難しいため困難である。 本研究では,ヘテロジニアス・リスク・グラフ (hrg) と階層的シーン・グラフ (hsg) からなる異種道路エージェントの軌道予測のためのリスク・シーン・グラフ学習手法を提案する。 HRGは各種類の道路エージェントをグループ化し、効果的な衝突リスク指標に基づいてそれらの相互作用隣接行列を算出する。 走行シーンのHSGは道路エージェントと道路シーン文法に整合した道路意味レイアウトの関係を推定することによってモデル化される。 この定式化により、運転時の効果的な軌道予測が可能となり、nuScenes、ApolloScape、Argoverseデータセットの徹底的な実験により、他の最先端手法よりも優れた性能を示すことができる。

Heterogeneous trajectory forecasting is critical for intelligent transportation systems, but it is challenging because of the difficulty of modeling the complex interaction relations among the heterogeneous road agents as well as their agent-environment constraints. In this work, we propose a risk and scene graph learning method for trajectory forecasting of heterogeneous road agents, which consists of a Heterogeneous Risk Graph (HRG) and a Hierarchical Scene Graph (HSG) from the aspects of agent category and their movable semantic regions. HRG groups each kind of road agent and calculates their interaction adjacency matrix based on an effective collision risk metric. HSG of the driving scene is modeled by inferring the relationship between road agents and road semantic layout aligned by the road scene grammar. Based on this formulation, we can obtain effective trajectory forecasting in driving situations, and superior performance to other state-of-the-art approaches is demonstrated by exhaustive experiments on the nuScenes, ApolloScape, and Argoverse datasets.
翻訳日:2023-06-28 00:28:02 公開日:2023-06-26
# 表面信号パラメータを用いたニューラルインプシティ表現の学習

Learning Neural Implicit Representations with Surface Signal Parameterizations ( http://arxiv.org/abs/2211.00519v2 )

ライセンス: Link先を確認
Yanran Guan, Andrei Chubarau, Ruby Rao, Derek Nowrouzezahrai(参考訳) ニューラルな暗黙の表面表現は、最近、多角形メッシュ、集計点、ボクセルなどの明示的な3Dオブジェクトエンコーディングの代替として人気がある。 重要な研究によってこれらの表現の幾何学的忠実性は向上したが、最終的な外観にはあまり注目されなかった。 従来の明示的なオブジェクト表現は、3次元形状データと、拡散色テクスチャや、通常3次元表面の平面へのマッピングを必要とする通常の地図における微妙な幾何学的詳細といった補助的な表面マッピングされた画像データとを結合するが、一方、暗黙的な表現は、構成可能な表面パラメータ化の欠如により、容易にテクスチャ化できない。 このデジタルコンテンツオーサリング手法に触発されて,外観データに適した表面パラメータ化を暗黙的に符号化するニューラルネットワークアーキテクチャを設計した。 そのため、既存のメッシュベースのデジタルコンテンツと外観データとの互換性が保たれている。 個々の3Dオブジェクトにコンパクトなネットワークを過度に適合させる最近の研究により、ニュートラル暗示面の能力を拡張し、テクスチャマッピングの様々な共通かつ重要な応用を可能にする、新しい重み付きニューラル暗示表現を提案する。 我々の手法は、合理的なベースラインと最先端の代替品より優れている。

Neural implicit surface representations have recently emerged as popular alternative to explicit 3D object encodings, such as polygonal meshes, tabulated points, or voxels. While significant work has improved the geometric fidelity of these representations, much less attention is given to their final appearance. Traditional explicit object representations commonly couple the 3D shape data with auxiliary surface-mapped image data, such as diffuse color textures and fine-scale geometric details in normal maps that typically require a mapping of the 3D surface onto a plane, i.e., a surface parameterization; implicit representations, on the other hand, cannot be easily textured due to lack of configurable surface parameterization. Inspired by this digital content authoring methodology, we design a neural network architecture that implicitly encodes the underlying surface parameterization suitable for appearance data. As such, our model remains compatible with existing mesh-based digital content with appearance data. Motivated by recent work that overfits compact networks to individual 3D objects, we present a new weight-encoded neural implicit representation that extends the capability of neural implicit surfaces to enable various common and important applications of texture mapping. Our method outperforms reasonable baselines and state-of-the-art alternatives.
翻訳日:2023-06-28 00:27:20 公開日:2023-06-26
# ニューラルネットワークとインデックスによるクラスタリング

Clustering with Neural Network and Index ( http://arxiv.org/abs/2212.03853v3 )

ライセンス: Link先を確認
Gangli Liu(参考訳) ニューラルネットワークとインデックス(cnni)を用いたクラスタリングと呼ばれる新しいモデルを導入した。 CNNIはニューラルネットワークを使ってデータポイントをクラスタ化する。 ニューラルネットワークのトレーニングは教師付き学習を模倣し、内部クラスタリング評価指標が損失関数として機能する。 新しいモデルの実現可能性をテストする実験を行い、K平均やガウス混合モデル(GMM)のような他のクラスタリングモデルと比較した。 cnniはmmj-scを備えており、非凸形状(非平坦形状)データを扱うことができる最初のパラメトリック(誘導的)クラスタリングモデルを実現している。

A new model called Clustering with Neural Network and Index (CNNI) is introduced. CNNI uses a Neural Network to cluster data points. Training of the Neural Network mimics supervised learning, with an internal clustering evaluation index acting as the loss function. An experiment is conducted to test the feasibility of the new model, and compared with results of other clustering models like K-means and Gaussian Mixture Model (GMM). The result shows CNNI can work properly for clustering data; CNNI equipped with MMJ-SC, achieves the first parametric (inductive) clustering model that can deal with non-convex shaped (non-flat geometry) data.
翻訳日:2023-06-28 00:18:05 公開日:2023-06-26
# ユニタリ世界における計測

Measurement in a Unitary World ( http://arxiv.org/abs/2212.03829v2 )

ライセンス: Link先を確認
Vishal Johnson (1 and 2), Reimar Leike, Philipp Frank (1), Torsten En{\ss}lin (1 and 2) ((1) Max Planck Institute for Astrophysics Garching, (2) Ludwig-Maximilians-Universit\"at M\"unchen)(参考訳) この記事では、ユニタリ(可逆)量子力学に基づいて進化する宇宙の文脈で測定がどのように理解できるかを考察する。 測定されたシステムとオブザーバが相関する量子力学の非測定公理と整合した一元的測定手順を開発する。 この方法が機能するためには、相関関係を他の場所から転送する必要があると論じられている。 したがって相関は、測定が行われるときに消費される資源である。 このような測定のネットワークは、特に実験の再現性という文脈において、安定した客観的な古典的現実を確立しているとも主張されている。

This article explores how measurement can be understood in the context of a universe evolving according to unitary (reversible) quantum dynamics. A unitary measurement procedure is developed consistent with the non-measurement axioms of quantum mechanics wherein the system being measured and the observer become correlated. It is argued that for this to work the correlation necessarily has to be transferred from somewhere else. Thus, correlation is a resource that is consumed when measurements take place. It is also argued that a network of such measurements establishes a stable objective classical reality, especially in the context of repeatability of experiments.
翻訳日:2023-06-28 00:17:55 公開日:2023-06-26
# ランダムイジングモデルのためのディープラーニング最適量子アニールスケジュール

Deep learning optimal quantum annealing schedules for random Ising models ( http://arxiv.org/abs/2211.15209v3 )

ライセンス: Link先を確認
Pratibha Raghupati Hegde, Gianluca Passarelli, Giovanni Cantele, and Procolo Lucignano(参考訳) 量子アドバンテージへの競争における重要なステップは、アドホックアニーリングスケジュールを用いた量子アニーリングの最適化である。 この分野の最近の進歩に動機づけられ,正規グラフ上のランダムイジングモデルの最適アニーリングスケジュールの探索を自動化すべく,lstm(long-short term memory)ニューラルネットワークを用いた。 局所断熱アニーリングパスを用いてネットワークをトレーニングすることで、未発見のインスタンスやより大きなグラフに対して、トレーニングに使用するものよりも最適なアニーリングスケジュールを予測できる。

A crucial step in the race towards quantum advantage is optimizing quantum annealing using ad-hoc annealing schedules. Motivated by recent progress in the field, we propose to employ long-short term memory (LSTM) neural networks to automate the search for optimal annealing schedules for random Ising models on regular graphs. By training our network using locally-adiabatic annealing paths, we are able to predict optimal annealing schedules for unseen instances and even larger graphs than those used for training.
翻訳日:2023-06-28 00:17:19 公開日:2023-06-26
# BAD-NeRF: 結合調整デブレアニューラル放射場

BAD-NeRF: Bundle Adjusted Deblur Neural Radiance Fields ( http://arxiv.org/abs/2211.12853v2 )

ライセンス: Link先を確認
Peng Wang, Lingzhe Zhao, Ruijie Ma, Peidong Liu(参考訳) ニューラル・レージアンス・フィールズ(NeRF)は、カメラ画像のセットから、フォトリアリスティックな3D再構成と新しいビュー合成の優れた能力により、近年大きな注目を集めている。 初期の作業は通常、入力画像が良質であると仮定する。 しかし、画像の劣化(例えば低照度での動画像のぼやけ)は現実世界のシナリオで容易に起こり、nerfのレンダリング品質にさらに影響を及ぼす。 本稿では,重度動きのぼやけた画像や不正確なカメラポーズに対して頑丈な,新しいバンドル調整型デブルーニューラルレージアンス場(BAD-NeRF)を提案する。 提案手法は、動きのぼやけた画像の物理的画像形成過程をモデル化し、nerfのパラメータを共同学習し、露光時間中にカメラの動き軌跡を復元する。 実験では,実際の画像形成過程を直接モデル化することにより,bad-nerfが合成データと実データの両方の先行処理よりも優れた性能を実現することを示す。 コードとデータはhttps://github.com/WU-CVGL/BAD-NeRFで公開されている。

Neural Radiance Fields (NeRF) have received considerable attention recently, due to its impressive capability in photo-realistic 3D reconstruction and novel view synthesis, given a set of posed camera images. Earlier work usually assumes the input images are of good quality. However, image degradation (e.g. image motion blur in low-light conditions) can easily happen in real-world scenarios, which would further affect the rendering quality of NeRF. In this paper, we present a novel bundle adjusted deblur Neural Radiance Fields (BAD-NeRF), which can be robust to severe motion blurred images and inaccurate camera poses. Our approach models the physical image formation process of a motion blurred image, and jointly learns the parameters of NeRF and recovers the camera motion trajectories during exposure time. In experiments, we show that by directly modeling the real physical image formation process, BAD-NeRF achieves superior performance over prior works on both synthetic and real datasets. Code and data are available at https://github.com/WU-CVGL/BAD-NeRF.
翻訳日:2023-06-28 00:17:01 公開日:2023-06-26
# 測地および球面射影による双曲スライスワッサーシュタイン

Hyperbolic Sliced-Wasserstein via Geodesic and Horospherical Projections ( http://arxiv.org/abs/2211.10066v2 )

ライセンス: Link先を確認
Cl\'ement Bonet, Laetitia Chapel, Lucas Drumetz, Nicolas Courty(参考訳) これは、双曲空間に埋め込まれる基盤となる階層構造を示す多くの種類のデータにとって有益であることが示されている。 その結果、機械学習の多くのツールがそのような空間に拡張されたが、それらの空間上で定義された確率分布を比較するための相違は少ない。 考えられる候補のうち、最適輸送距離はそのようなリーマン多様体上でよく定義され、強い理論的性質を享受するが、計算コストが高い。 ユークリッド空間では、1次元のワッサーシュタイン距離の閉形式を利用するスライスされたワッサーシュタイン距離はより計算的に効率的であるが、双曲空間では容易に利用できない。 本研究では,新しい双曲型スライスワッサーシュタインの相違点の導出を提案する。 これらの構造は、ホロスフィアや測地線に沿って下層の測地線を投影する。 サンプリングや画像分類など,双曲表現が関係するタスクについて検討し,比較する。

It has been shown beneficial for many types of data which present an underlying hierarchical structure to be embedded in hyperbolic spaces. Consequently, many tools of machine learning were extended to such spaces, but only few discrepancies to compare probability distributions defined over those spaces exist. Among the possible candidates, optimal transport distances are well defined on such Riemannian manifolds and enjoy strong theoretical properties, but suffer from high computational cost. On Euclidean spaces, sliced-Wasserstein distances, which leverage a closed-form of the Wasserstein distance in one dimension, are more computationally efficient, but are not readily available on hyperbolic spaces. In this work, we propose to derive novel hyperbolic sliced-Wasserstein discrepancies. These constructions use projections on the underlying geodesics either along horospheres or geodesics. We study and compare them on different tasks where hyperbolic representations are relevant, such as sampling or image classification.
翻訳日:2023-06-28 00:16:26 公開日:2023-06-26
# 12誘導心電図から左束分枝ブロックを診断するための深部コンフアテンションモデル

Deep conv-attention model for diagnosing left bundle branch block from 12-lead electrocardiograms ( http://arxiv.org/abs/2212.04936v2 )

ライセンス: Link先を確認
Alireza Sadeghi, Alireza Rezaee, Farshid Hajati(参考訳) 心臓再同期療法(英: Cardiac resynchronization therapy, CRT)は、心拍の異常を補う治療である。 この治療法は左束枝ブロック(LBBB)不整脈患者に有効であることが研究で示されている。 したがって、この不整脈を同定することは、CRTを使用するか否かを決定するための重要な初期ステップである。 一方、心電図(ECG)における従来のLBBB検出法は誤りと関連していることが多い。 したがって、この不整脈を心電図データから正確に診断する方法が必要となる。 機械学習は新しい研究分野として、人間のシステムの性能向上に寄与している。 ディープラーニングは、機械学習の新たなサブフィールドとして、データの解析とシステムの精度向上により多くの力を持つ。 本研究では12誘導心電図データからlbbb不整脈を検出するためのディープラーニングモデルを提案する。 このモデルは1次元拡張畳み込み層からなる。 注意機構は重要な入力データの特徴を特定し、入力をより正確に分類するためにも使われてきた。 提案手法は10倍のクロスバリデーション法を用いて10344個のECGサンプルを含むデータベース上で訓練および検証を行う。 12個の心電図データから得られた最終結果は以下の通りである。 精度:98.80+-0.08%、特異性:99.33+-0.11%、F1スコア:73.97+-1.8%、受信機動作特性曲線(AUC):0.875+-0.0192。 以上の結果から,本研究で提案したモデルは,LBBBを効率よく効果的に診断でき,医療センターで使用すれば,この不整脈と早期治療の診断に大いに役立つことが示唆された。

Cardiac resynchronization therapy (CRT) is a treatment that is used to compensate for irregularities in the heartbeat. Studies have shown that this treatment is more effective in heart patients with left bundle branch block (LBBB) arrhythmia. Therefore, identifying this arrhythmia is an important initial step in determining whether or not to use CRT. On the other hand, traditional methods for detecting LBBB on electrocardiograms (ECG) are often associated with errors. Thus, there is a need for an accurate method to diagnose this arrhythmia from ECG data. Machine learning, as a new field of study, has helped to increase human systems' performance. Deep learning, as a newer subfield of machine learning, has more power to analyze data and increase systems accuracy. This study presents a deep learning model for the detection of LBBB arrhythmia from 12-lead ECG data. This model consists of 1D dilated convolutional layers. Attention mechanism has also been used to identify important input data features and classify inputs more accurately. The proposed model is trained and validated on a database containing 10344 12-lead ECG samples using the 10-fold cross-validation method. The final results obtained by the model on the 12-lead ECG data are as follows. Accuracy: 98.80+-0.08%, specificity: 99.33+-0.11 %, F1 score: 73.97+-1.8%, and area under the receiver operating characteristics curve (AUC): 0.875+-0.0192. These results indicate that the proposed model in this study can effectively diagnose LBBB with good efficiency and, if used in medical centers, will greatly help diagnose this arrhythmia and early treatment.
翻訳日:2023-06-28 00:08:00 公開日:2023-06-26
# 機械学習のための顔アノテーションにおけるラベルバイアスの調査

Investigating Labeler Bias in Face Annotation for Machine Learning ( http://arxiv.org/abs/2301.09902v2 )

ライセンス: Link先を確認
Luke Haliburton and Sinksar Ghebremedhin and Robin Welsch and Albrecht Schmidt and Sven Mayer(参考訳) 人工知能にますます依存する世界では、人工知能の人間性に対する倫理的影響を考えることは、これまで以上に重要である。 これは本質的にバイアスのあるデータセットを作成し、その後、医療、雇用、教育、法執行における不正確または不公平な決定につながる。 そこで我々は,異なる民族や性別のイメージをラベル付けタスクに用いて,ラベル付けバイアスの存在を調査・測定する研究を行った。 その結果、参加者は意思決定プロセスに影響を及ぼすステレオタイプを持ち、ラベラーの人口動態はラベルに影響を与えていることがわかった。 また,ラベラーバイアスがデータセットに与える影響についても論じた。 全体としては、データのバイアスを可能な限り早く識別し、修正するために、人工知能トレーニングプロセス全体を通して高い透明性を維持する必要があります。

In a world increasingly reliant on artificial intelligence, it is more important than ever to consider the ethical implications of artificial intelligence on humanity. One key under-explored challenge is labeler bias, which can create inherently biased datasets for training and subsequently lead to inaccurate or unfair decisions in healthcare, employment, education, and law enforcement. Hence, we conducted a study to investigate and measure the existence of labeler bias using images of people from different ethnicities and sexes in a labeling task. Our results show that participants possess stereotypes that influence their decision-making process and that labeler demographics impact assigned labels. We also discuss how labeler bias influences datasets and, subsequently, the models trained on them. Overall, a high degree of transparency must be maintained throughout the entire artificial intelligence training process to identify and correct biases in the data as early as possible.
翻訳日:2023-06-28 00:00:06 公開日:2023-06-26
# ランダム化および量子計算のための累積メモリ下限

Cumulative Memory Lower Bounds for Randomized and Quantum Computation ( http://arxiv.org/abs/2301.05680v2 )

ライセンス: Link先を確認
Paul Beame, Niels Kornerup(参考訳) 累積メモリ(英: Cumulative memory)とは、パスワードハッシュのような暗号アプリケーションを分析するために導入された、時間空間の複雑さの詳細な測定値である。 メモリ使用量が少なく、実行中にリソースの動的アロケーションと非アロケーションを可能にするクラウドコンピューティングや、アルゴリズムの複数のインスタンスが並列にインターリーブされた場合などの環境で実行されるアルゴリズムのより正確なコスト測定である。 逐次的古典計算と量子回路の累積メモリ複雑性の最初の下限を証明した。 さらに,実行時の最大バウンダリを低減できる時間-空間のトレードオフを証明するための標準パラダイムに触発された,バウンダリング累積メモリ複雑性のための汎用パラダイムを開発する。 その結果得られる累積メモリ上の下限は、最善の時空間トレードオフ下限と同じ強さであり、これは密接であることが非常によく知られている。 ペブリングモデルとランダムオラクルモデルのこれまでの結果は、累積メモリの複雑さよりも大きな時空間的トレードオフを生じさせたが、一般的な計算モデルではそのような分離は既知の下限法に従わず、多くの関数に当てはまらないことが示されている。 我々の一般的な方法の多くの応用の中で、古典的ソートアルゴリズムは、成功確率が少なくとも1/\text{poly}(n)$は累積メモリ$\tilde \Omega(n^2)$は、任意の古典的行列乗算アルゴリズムは累積メモリ$\Omega(n^6/T)$は、任意の量子ソート回路は累積メモリ$\Omega(n^3/T)$は、任意の量子回路は、ランダム関数の非結合衝突を$k$とする量子回路は累積メモリ$\Omega(k^3n/T^2)$であることを示す。

Cumulative memory -- the sum of space used per step over the duration of a computation -- is a fine-grained measure of time-space complexity that was introduced to analyze cryptographic applications like password hashing. It is a more accurate cost measure for algorithms that have infrequent spikes in memory usage and are run in environments such as cloud computing that allow dynamic allocation and de-allocation of resources during execution, or when many multiple instances of an algorithm are interleaved in parallel. We prove the first lower bounds on cumulative memory complexity for both sequential classical computation and quantum circuits. Moreover, we develop general paradigms for bounding cumulative memory complexity inspired by the standard paradigms for proving time-space tradeoff lower bounds that can only lower bound the maximum space used during an execution. The resulting lower bounds on cumulative memory that we obtain are just as strong as the best time-space tradeoff lower bounds, which are very often known to be tight. Although previous results for pebbling and random oracle models have yielded time-space tradeoff lower bounds larger than the cumulative memory complexity, our results show that in general computational models such separations cannot follow from known lower bound techniques and are not true for many functions. Among many possible applications of our general methods, we show that any classical sorting algorithm with success probability at least $1/\text{poly}(n)$ requires cumulative memory $\tilde \Omega(n^2)$, any classical matrix multiplication algorithm requires cumulative memory $\Omega(n^6/T)$, any quantum sorting circuit requires cumulative memory $\Omega(n^3/T)$, and any quantum circuit that finds $k$ disjoint collisions in a random function requires cumulative memory $\Omega(k^3n/T^2)$.
翻訳日:2023-06-27 23:59:17 公開日:2023-06-26
# 多体局在の雪崩不安定性における多体共鳴

Many-body resonances in the avalanche instability of many-body localization ( http://arxiv.org/abs/2301.04658v2 )

ライセンス: Link先を確認
Hyunsoo Ha, Alan Morningstar, David A. Huse(参考訳) 多体局在(MBL)系は相互作用し、非可積分であり、広範囲な励起状態であっても、自身の力学の下で熱平衡に達することができない。 mblシステムの熱化に対する1つの不安定性はいわゆる'avalanche'であり、局所的な熱化レア領域は全システムを通して熱化を拡散することができる。 アバランシェの拡散は、無限温度浴を系の一方の端に弱結合させることにより、有限1次元MBL系でモデル化し、数値的に研究することができる。 雪崩は主に閉鎖系の稀な近接共鳴固有状態間の強い多体共鳴によって拡散する。 したがって、MBL系における多体共鳴と雪崩の詳細な関係を探索する。

Many-body localized (MBL) systems fail to reach thermal equilibrium under their own dynamics, even though they are interacting, nonintegrable, and in an extensively excited state. One instability towards thermalization of MBL systems is the so-called ``avalanche'', where a locally thermalizing rare region is able to spread thermalization through the full system. The spreading of the avalanche may be modeled and numerically studied in finite one-dimensional MBL systems by weakly coupling an infinite-temperature bath to one end of the system. We find that the avalanche spreads primarily via strong many-body resonances between rare near-resonant eigenstates of the closed system. Thus we find and explore a detailed connection between many-body resonances and avalanches in MBL systems.
翻訳日:2023-06-27 23:58:34 公開日:2023-06-26
# 音声強調のための自己教師型音声表現に基づく損失関数の知覚と予測

Perceive and predict: self-supervised speech representation based loss functions for speech enhancement ( http://arxiv.org/abs/2301.04388v3 )

ライセンス: Link先を確認
George Close, William Ravenscroft, Thomas Hain and Stefan Goetze(参考訳) 音声強調領域における最近の研究は、自己教師付き音声表現を用いて、ニューラル音声強調モデルの訓練を支援している。 しかし、この研究の多くは、以前の特徴符号化よりも、自己教師付き音声表現モデルの最も深い出力や最終的な出力の使用に焦点を当てている。 このような自己監督表現の使用は、しばしば完全に動機づけられていない。 本研究は,クリーン音声とノイズ音声の特徴エンコーディングの距離が,人間の平均オピニオンスコア(MOS)評価とともに,心理音響学的に動機付けられた音声品質と聞きやすさの尺度と強く相関していることを示す。 この距離を損失関数として用いた実験を行い、音声品質知覚評価(pesq)や短時間客観知性(stoi)などの客観的尺度を用いて、音声強調文献から、stftスペクトログラム距離に基づく損失およびその他の共通損失関数を用いた場合の性能向上を実証した。

Recent work in the domain of speech enhancement has explored the use of self-supervised speech representations to aid in the training of neural speech enhancement models. However, much of this work focuses on using the deepest or final outputs of self supervised speech representation models, rather than the earlier feature encodings. The use of self supervised representations in such a way is often not fully motivated. In this work it is shown that the distance between the feature encodings of clean and noisy speech correlate strongly with psychoacoustically motivated measures of speech quality and intelligibility, as well as with human Mean Opinion Score (MOS) ratings. Experiments using this distance as a loss function are performed and improved performance over the use of STFT spectrogram distance based loss as well as other common loss functions from speech enhancement literature is demonstrated using objective measures such as perceptual evaluation of speech quality (PESQ) and short-time objective intelligibility (STOI).
翻訳日:2023-06-27 23:58:22 公開日:2023-06-26
# 配電系統状態推定のための深部統計解法

Deep Statistical Solver for Distribution System State Estimation ( http://arxiv.org/abs/2301.01835v3 )

ライセンス: Link先を確認
Benjamin Habib, Elvin Isufi, Ward van Breda, Arjen Jongepier, Jochen L. Cremer(参考訳) 正確な配電系統状態推定(DSSE)の実装には,可観測性の欠如や配電系統の高密度化など,いくつかの課題がある。 機械学習モデルに基づくデータ駆動の代替案が選択できるかもしれないが、ラベル付きデータがないためDSSEに苦しむ。 実際、分布系における測定は、しばしばうるさい、腐敗し、利用できない。 これらの問題に対処するために,配電系統のネットワーク構造と物理支配電力フロー方程式を考慮に入れたグラフニューラルネットワーク(GNN)に基づくディープラーニングモデルである分散系統状態推定のためのDeep Statistical Solver(DSS$^2$)を提案する。 dss$^2$はハイパーグラフを利用して分散システムの異種コンポーネントを表現し、ノード中心のメッセージパッシングスキームを介して潜在表現を更新する。 DSS$^2$を学習と最適化の手法で訓練する弱い教師付き学習手法が提案されている。 GNN出力を電力流方程式に、後者を損失関数に強制することにより、DSS$^2$を分配系の物理を尊重させる。 この戦略はノイズの測定から学び、暗黙のデノイザーとして振る舞うことを可能にし、理想的なラベル付きデータの必要性を緩和する。 IEEE 14-bus、70-bus、および179-busネットワークのケーススタディによる大規模な実験では、DSS$^2$が従来の重み付き最小二乗法アルゴリズムの精度、収束性、計算時間の差で上回った。 DSS$^2$は、真のラベルを持つという非現実的な仮定に依存する教師付きモデルと比較して、競合するが低い性能を達成する。

Implementing accurate Distribution System State Estimation (DSSE) faces several challenges, among which the lack of observability and the high density of the distribution system. While data-driven alternatives based on Machine Learning models could be a choice, they suffer in DSSE because of the lack of labeled data. In fact, measurements in the distribution system are often noisy, corrupted, and unavailable. To address these issues, we propose the Deep Statistical Solver for Distribution System State Estimation (DSS$^2$), a deep learning model based on graph neural networks (GNNs) that accounts for the network structure of the distribution system and for the physical governing power flow equations. DSS$^2$ leverages hypergraphs to represent the heterogeneous components of the distribution systems and updates their latent representations via a node-centric message-passing scheme. A weakly supervised learning approach is put forth to train the DSS$^2$ in a learning-to-optimize fashion w.r.t. the Weighted Least Squares loss with noisy measurements and pseudomeasurements. By enforcing the GNN output into the power flow equations and the latter into the loss function, we force the DSS$^2$ to respect the physics of the distribution system. This strategy enables learning from noisy measurements, acting as an implicit denoiser, and alleviating the need for ideal labeled data. Extensive experiments with case studies on the IEEE 14-bus, 70-bus, and 179-bus networks showed the DSS$^2$ outperforms by a margin the conventional Weighted Least Squares algorithm in accuracy, convergence, and computational time, while being more robust to noisy, erroneous, and missing measurements. The DSS$^2$ achieves a competing, yet lower, performance compared with the supervised models that rely on the unrealistic assumption of having all the true labels.
翻訳日:2023-06-27 23:57:44 公開日:2023-06-26
# DMOps: データ管理の運用と準備

DMOps: Data Management Operation and Recipes ( http://arxiv.org/abs/2301.01228v3 )

ライセンス: Link先を確認
Eujeong Choi, Chanjun Park(参考訳) データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。 その重要性を認識し、学術、産業、政府部門は様々なNLPデータ研究イニシアチブを提案している。 既存のデータを利用する能力は不可欠だが、特に業界では、データセットを構築する能力がこれまで以上に重要になっている。 この傾向を踏まえて,NLP製品のためのデータセット構築を最適化する上で,業界を導く「データ管理運用とレシピ」を提案する。 本稿では,NLPデータ管理における実体験から生まれたDMOpsの概念について述べる。

Data-centric AI has shed light on the significance of data within the machine learning (ML) pipeline. Recognizing its significance, academia, industry, and government departments have suggested various NLP data research initiatives. While the ability to utilize existing data is essential, the ability to build a dataset has become more critical than ever, especially in the industry. In consideration of this trend, we propose a "Data Management Operations and Recipes" to guide the industry in optimizing the building of datasets for NLP products. This paper presents the concept of DMOps which is derived from real-world experiences with NLP data management and aims to streamline data operations by offering a baseline.
翻訳日:2023-06-27 23:57:08 公開日:2023-06-26
# QR-CLIP: 位置と時間推論のための明示的なオープンワールド知識の導入

QR-CLIP: Introducing Explicit Open-World Knowledge for Location and Time Reasoning ( http://arxiv.org/abs/2302.00952v2 )

ライセンス: Link先を確認
Weimin Shi, Mingchen Zhuge, Zhong Zhou, Dehong Gao, Deng-Ping Fan(参考訳) 日々のイメージは、私たちが記憶し、それらから深い情報を推測する必要がある抽象的な意味を伝える。 このような人間的な推論を促進するために、我々は機械に従来のセグメンテーションや分類といった基本的なタスクではなく、いつ、どこで、いつ取られたかを予測するように教える。 Horn氏のQR理論に触発されて、2つのコンポーネントからなる新しいQR-CLIPモデルを設計した。 1)Quantityモジュールは,まず,候補言語の入力として,よりオープンワールドな知識を振り返る。 2) 関連モジュールは,視覚と言語手がかりを慎重に推定し,位置と時刻を推定する。 実験によりQR-CLIPの有効性が示され、各タスクにおける以前のSOTAを、位置と時間的推論の観点から平均約10%と130%の相対的なリフトで上回ります。 本研究は,位置情報と時間的推論の技術的基礎を築いており,オープンワールド知識の効果的な導入が課題のパナセの1つであることを示唆する。

Daily images may convey abstract meanings that require us to memorize and infer profound information from them. To encourage such human-like reasoning, in this work, we teach machines to predict where and when it was taken rather than performing basic tasks like traditional segmentation or classification. Inspired by Horn's QR theory, we designed a novel QR-CLIP model consisting of two components: 1) the Quantity module first retrospects more open-world knowledge as the candidate language inputs; 2) the Relevance module carefully estimates vision and language cues and infers the location and time. Experiments show our QR-CLIP's effectiveness, and it outperforms the previous SOTA on each task by an average of about 10% and 130% relative lift in terms of location and time reasoning. This study lays a technical foundation for location and time reasoning and suggests that effectively introducing open-world knowledge is one of the panaceas for the tasks.
翻訳日:2023-06-27 23:50:07 公開日:2023-06-26
# 長期音声認識のための学習プロトタイプ分類器

Learning Prototype Classifiers for Long-Tailed Recognition ( http://arxiv.org/abs/2302.00491v3 )

ライセンス: Link先を確認
Saurabh Sharma, Yongqin Xian, Ning Yu, Ambuj Singh(参考訳) ロングテール認識(ltr、long-tailed recognition)の問題は、現実の世界における物体の基本的なパワーロー分布のために近年注目を集めている。 LTRの最近の研究は、あるクラスに対するトレーニングデータの量と分類器ノルムを関連付けることに偏ったソフトマックス分類器を使用している。 本研究では,学習プロトタイプの分類器がltrのバイアスドソフトマックス問題に対処していることを示す。 プロトタイプ分類器は、プロトタイプが経験的なセントロイドである特別なケースであるNearest-Class-Mean (NCM)を使って、期待できる結果を提供できる。 さらに,分類のためのロジットスコアとして,表現空間におけるプロトタイプとの距離を用いてプロトタイプを共同学習することを提案する。 さらに, ユークリッド距離に基づくプロトタイプ分類器の特性を理論的に解析し, 安定な勾配に基づく最適化を実現する。 各チャネルに沿って独立した距離スケールを実現するために,チャネル依存温度パラメータを学習することで,プロトタイプ分類器を強化する。 本分析は,プロトタイプ分類器で学習したプロトタイプが経験的セントロイドよりも分離されていることを示す。 4つのLTRベンチマークの結果、プロトタイプ分類器は最先端の手法に匹敵する性能を示した。 私たちのコードはhttps://github.com/saurabhsharma1993/prototype-classifier-ltrで利用可能です。

The problem of long-tailed recognition (LTR) has received attention in recent years due to the fundamental power-law distribution of objects in the real-world. Most recent works in LTR use softmax classifiers that are biased in that they correlate classifier norm with the amount of training data for a given class. In this work, we show that learning prototype classifiers addresses the biased softmax problem in LTR. Prototype classifiers can deliver promising results simply using Nearest-Class- Mean (NCM), a special case where prototypes are empirical centroids. We go one step further and propose to jointly learn prototypes by using distances to prototypes in representation space as the logit scores for classification. Further, we theoretically analyze the properties of Euclidean distance based prototype classifiers that lead to stable gradient-based optimization which is robust to outliers. To enable independent distance scales along each channel, we enhance Prototype classifiers by learning channel-dependent temperature parameters. Our analysis shows that prototypes learned by Prototype classifiers are better separated than empirical centroids. Results on four LTR benchmarks show that Prototype classifier outperforms or is comparable to state-of-the-art methods. Our code is made available at https://github.com/saurabhsharma1993/prototype-classifier-ltr.
翻訳日:2023-06-27 23:49:49 公開日:2023-06-26
# normflows: フローの正規化のためのPyTorchパッケージ

normflows: A PyTorch Package for Normalizing Flows ( http://arxiv.org/abs/2302.12014v2 )

ライセンス: Link先を確認
Vincent Stimper, David Liu, Andrew Campbell, Vincent Berenz, Lukas Ryll, Bernhard Sch\"olkopf, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 正規化流動モデル確率分布は表現力のある移動密度を通る。 それらは、ガウス函数のような単純な基底分布を、層と呼ばれる可逆関数の列を通して変換する。 これらの層は通常、ニューラルネットワークを使って非常に表現力がある。 フローは機械学習においてユビキタスであり、画像生成、テキストモデリング、変分推論、ボルツマン分布の近似など多くの問題に適用されている。 ここでは、フローを正規化するPythonパッケージである normflows を紹介する。 ベースディストリビューション、フロー層、ニューラルネットワークのスイートから正規化フローモデルを構築することができる。 このパッケージは、一般的なディープラーニングフレームワークであるpytorchで実装されている。 Real NVP、Glow、Masked Autoregressive Flows、Neural Spline Flows、Residual Flowsなど、一般的な正規化フローアーキテクチャの大部分をサポートする。 パッケージはpip経由で簡単にインストールでき、コードはgithubで公開されている。

Normalizing flows model probability distributions through an expressive tractable density. They transform a simple base distribution, such as a Gaussian, through a sequence of invertible functions, which are referred to as layers. These layers typically use neural networks to become very expressive. Flows are ubiquitous in machine learning and have been applied to image generation, text modeling, variational inference, approximating Boltzmann distributions, and many other problems. Here, we present normflows, a Python package for normalizing flows. It allows to build normalizing flow models from a suite of base distributions, flow layers, and neural networks. The package is implemented in the popular deep learning framework PyTorch, which simplifies the integration of flows in larger machine learning models or pipelines. It supports most of the common normalizing flow architectures, such as Real NVP, Glow, Masked Autoregressive Flows, Neural Spline Flows, Residual Flows, and many more. The package can be easily installed via pip and the code is publicly available on GitHub.
翻訳日:2023-06-27 23:40:41 公開日:2023-06-26
# K-SHAP:Anonymous Multi-Agent State-Action Pairsのためのポリシークラスタリングアルゴリズム

K-SHAP: Policy Clustering Algorithm for Anonymous Multi-Agent State-Action Pairs ( http://arxiv.org/abs/2302.11996v5 )

ライセンス: Link先を確認
Andrea Coletta, Svitlana Vyetrenko, Tucker Balch(参考訳) 観察データからエージェントの行動を学ぶことで、意思決定プロセスの理解が向上し、環境や他のエージェントとの相互作用を説明する能力が向上した。 複数の学習手法が文献で提案されているが、まだ研究されていない特定の設定が一つある: エージェントのアイデンティティが匿名のままであるマルチエージェントシステム。 例えば、市場参加者戦略を特定するラベル付きデータは通常、プロプライエタリであり、複数の市場参加者のインタラクションから生じる匿名のステートアクションペアのみが公開されています。 その結果、エージェントアクションのシーケンスは観測不能となり、既存の作業の適用性が制限される。 本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するK-SHAPと呼ばれるポリシークラスタリングアルゴリズムを提案する。 我々は、問題を模倣学習(il)タスクとして捉え、異なる環境状態における全てのエージェントの振る舞いを模倣できる世界政治を学ぶ。 我々は,shap(shapley additive descriptions)と呼ばれる付加的特徴帰属法を用いて,各匿名観察を説明するために,世界政治を利用する。 最後に,これらの説明をクラスタリングすることで,異なるエージェントポリシーやグループ観察を識別できることを示す。 シミュレーションされた市場データと実世界の金融データセットに対するアプローチを評価した。 我々は,提案手法が既存の手法を著しくかつ一貫して上回り,異なるエージェント戦略を特定していることを示す。

Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies.
翻訳日:2023-06-27 23:40:25 公開日:2023-06-26
# オンラインインストゥルメンタル変数回帰:後悔分析とバンディットフィードバック

Online Instrumental Variable Regression: Regret Analysis and Bandit Feedback ( http://arxiv.org/abs/2302.09357v2 )

ライセンス: Link先を確認
Riccardo Della Vecchia, Debabrota Basu(参考訳) 内在性、すなわちノイズと共変量の間の依存性は、変数の省略、戦略的な振る舞い、測定誤差などによる実データで一般的な現象である。 対照的に、非有界雑音と線形帯域を持つ確率的オンライン線形回帰の既存の分析は、異種性、すなわちノイズと共変量の独立性に大きく依存している。 このギャップに動機づけられ、確率的オンライン学習のための過剰かつ正当なインストゥルメンタル変数(iv)回帰を研究した。 IV回帰と2段階のLast Squaresアプローチは、内因性データセットから基礎モデルを特定するために、経済学や因果推論において広く展開されている。 そこで本稿では,確率的オンライン学習における内在性に対処するために,オンラインの2段階Last SquaresアプローチであるO2SLSを提案する。 解析の結果、o2sls は $\mathcal{o}\left(d_x d_z \log ^2 t\right)$ id と $\tilde{\mathcal{o}}\left(\gamma \sqrt{d_x t}\right)$ oracle regret after $t$ 相互作用(ここで $d_x$ と $d_z$ は共変量と ivs の次元であり、$\gamma$ は内在性によるバイアスである。 o2slsは$\mathcal{o}\left(d_x^2 \log ^2 t\right)$ oracle regret(確率的オンラインリッジと同じ順序)を達成する。 次に、O2SLSをオラクルとして利用して、内在性に対処し、$\widetilde{\mathcal{O}}\left(\sqrt{d_x d_z T}\right)を後悔する確率線形バンドリットアルゴリズム OFUL-IVを設計する。 内在性のある異なるデータセットに対して,O2SLSとOFUL-IVの効率を後悔の観点から実験的に示す。

Endogeneity, i.e. the dependence between noise and covariates, is a common phenomenon in real data due to omitted variables, strategic behaviours, measurement errors etc. In contrast, the existing analyses of stochastic online linear regression with unbounded noise and linear bandits depend heavily on exogeneity, i.e. the independence between noise and covariates. Motivated by this gap, we study the over-and just-identified Instrumental Variable (IV) regression for stochastic online learning. IV regression and the Two-Stage Least Squares approach to it are widely deployed in economics and causal inference to identify the underlying model from an endogenous dataset. Thus, we propose to use an online variant of Two-Stage Least Squares approach, namely O2SLS, to tackle endogeneity in stochastic online learning. Our analysis shows that O2SLS achieves $\mathcal{O}\left(d_x d_z \log ^2 T\right)$ identification and $\tilde{\mathcal{O}}\left(\gamma \sqrt{d_x T}\right)$ oracle regret after $T$ interactions, where $d_x$ and $d_z$ are the dimensions of covariates and IVs, and $\gamma$ is the bias due to endogeneity. For $\gamma=0$, i.e. under exogeneity, O2SLS achieves $\mathcal{O}\left(d_x^2 \log ^2 T\right)$ oracle regret, which is of the same order as that of the stochastic online ridge. Then, we leverage O2SLS as an oracle to design OFUL-IV, a stochastic linear bandit algorithm that can tackle endogeneity and achieves $\widetilde{\mathcal{O}}\left(\sqrt{d_x d_z T}\right)$ regret. For different datasets with endogeneity, we experimentally show efficiencies of O2SLS and OFUL-IV in terms of regrets.
翻訳日:2023-06-27 23:39:43 公開日:2023-06-26
# 概略ベイズ最適擬似ラベル選択

Approximately Bayes-Optimal Pseudo Label Selection ( http://arxiv.org/abs/2302.08883v5 )

ライセンス: Link先を確認
Julian Rodemann, Jann Goschenhofer, Emilio Dorigatti, Thomas Nagler, Thomas Augustin(参考訳) 自己学習による半教師付き学習は擬似ラベル選択(pls)に大きく依存する。 選択はしばしばラベル付きデータに適合する初期モデルに依存する。 したがって、初期オーバーフィッティングは、しばしば確認バイアスと呼ばれる過信だが誤った予測を持つインスタンスを選択することで最終モデルに伝播する可能性がある。 本稿では,この問題の緩和を目的としたBPLSについて述べる。 その核となるのは、ラベルのインスタンスを選択するための基準である:擬似サンプルの後方予測の解析的近似である。 この選択基準を疑似サンプルの後方予測のベイズ最適性を証明することによって導出する。 さらに、評価基準を解析的に近似することで計算ハードルを克服する。 その限界確率との関係により、ラプラスの方法とガウス積分に基づく近似を導き出すことができる。 シミュレーションおよび実世界のデータに基づいて,パラメトリック一般化線形および非パラメトリック一般化加法モデルに対してBPLSを実験的に評価する。 高次元データに直面すると、BPLSは従来のPLS法よりも優れている。

Semi-supervised learning by self-training heavily relies on pseudo-label selection (PLS). The selection often depends on the initial model fit on labeled data. Early overfitting might thus be propagated to the final model by selecting instances with overconfident but erroneous predictions, often referred to as confirmation bias. This paper introduces BPLS, a Bayesian framework for PLS that aims to mitigate this issue. At its core lies a criterion for selecting instances to label: an analytical approximation of the posterior predictive of pseudo-samples. We derive this selection criterion by proving Bayes optimality of the posterior predictive of pseudo-samples. We further overcome computational hurdles by approximating the criterion analytically. Its relation to the marginal likelihood allows us to come up with an approximation based on Laplace's method and the Gaussian integral. We empirically assess BPLS for parametric generalized linear and non-parametric generalized additive models on simulated and real-world data. When faced with high-dimensional data prone to overfitting, BPLS outperforms traditional PLS methods.
翻訳日:2023-06-27 23:39:00 公開日:2023-06-26
# 人間中心的、倫理的、責任あるaiに関する体系的文献レビュー

A Systematic Literature Review of Human-Centered, Ethical, and Responsible AI ( http://arxiv.org/abs/2302.05284v3 )

ライセンス: Link先を確認
Mohammad Tahaei, Marios Constantinides, Daniele Quercia, Michael Muller(参考訳) 人工知能(AI)は急速に進歩し続けており、AIの倫理的・社会的意味を考えることがますます重要になっている。 本稿では,AIの倫理的,社会的,人的要因に関する主要な会議であるAIES,CHI,CSCW,FAccTから164の論文を理論的にレビューし,分析することにより,人間中心AI,倫理的,責任AI(HCER-AI)の交差点における研究状況のボトムアップマッピングを提案する。 HCER-AIにおける継続的な研究は、ガバナンス、公正、説明可能性に重点を置いている。 しかしながら、これらのカンファレンスは、すべての側面を包含するのではなく、特定のテーマに焦点を当てている。 AIESはHCER-AIに関する論文が少ないが、ガバナンスを強調し、プライバシやセキュリティ、人間の繁栄に関する論文をほとんど公開していない。 FAccTはガバナンスの詳細を公開し、プライバシ、セキュリティ、人間の繁栄に関する論文を欠いている。 CHIとCSCWは、より確立されたカンファレンスとして、より広範な研究ポートフォリオを持っている。 私たちは、AI研究におけるガバナンスと公正性に現在重点を置いていることは、AIの予期せぬ、未知の意味に適切に対処しないかもしれないことに気付きました。 したがって、将来の研究は、これらの潜在的な影響に備えるために、その範囲を拡大し、資源を多様化することを推奨する。 これには、プライバシー、セキュリティ、人間の繁栄、説明可能性など、さらなる分野の探索が含まれる。

As Artificial Intelligence (AI) continues to advance rapidly, it becomes increasingly important to consider AI's ethical and societal implications. In this paper, we present a bottom-up mapping of the current state of research at the intersection of Human-Centered AI, Ethical, and Responsible AI (HCER-AI) by thematically reviewing and analyzing 164 research papers from leading conferences in ethical, social, and human factors of AI: AIES, CHI, CSCW, and FAccT. The ongoing research in HCER-AI places emphasis on governance, fairness, and explainability. These conferences, however, concentrate on specific themes rather than encompassing all aspects. While AIES has fewer papers on HCER-AI, it emphasizes governance and rarely publishes papers about privacy, security, and human flourishing. FAccT publishes more on governance and lacks papers on privacy, security, and human flourishing. CHI and CSCW, as more established conferences, have a broader research portfolio. We find that the current emphasis on governance and fairness in AI research may not adequately address the potential unforeseen and unknown implications of AI. Therefore, we recommend that future research should expand its scope and diversify resources to prepare for these potential consequences. This could involve exploring additional areas such as privacy, security, human flourishing, and explainability.
翻訳日:2023-06-27 23:38:19 公開日:2023-06-26
# 選択整合性損失に基づく画像ステッチングの深部シーム予測

Deep Seam Prediction for Image Stitching Based on Selection Consistency Loss ( http://arxiv.org/abs/2302.05027v2 )

ライセンス: Link先を確認
Senmao Cheng, Fan Yang, Zhi Chen, Nanjun Yuan, Wenbing Tao(参考訳) 画像縫合は、視界の広いパノラマ画像(FOV)を、異なる視点から撮影した画像から構築することである。 縫合画像における融合ゴーストの問題を解決するため、シーム駆動方式では、最高のシームを予測して画像の融合を誤認する領域を避ける。 現在、opencvライブラリの標準ツールとして、動的プログラミング(dp)とグラフカット(gc)が20年前に提案されたにもかかわらず、seamの予測手法として広く使われている。 しかし, DP法は効率が良く, シーム品質は低いが, GCは優れたシーム品質が得られるが, リアルタイム性能は劣る。 本稿では,高効率のシーム品質を実現するために,深層学習に基づくシーム予測手法(DSeam)を提案する。 ネットワークにおけるシーム記述の難しさを克服するため,ネットワーク学習を監督するために,シーム形状制約とシーム品質制約を組み合わせた選択的な一貫性損失を設計する。 一貫性損失の選択の制約により,マスク境界をシームとして暗黙的に定義し,seam予測をマスク予測に変換する。 提案するdseamは,画像縫合における最初の深層学習に基づくシーム予測手法である。 提案手法は, 従来のGCシーム予測法よりも15倍高速で, 類似のシーム品質を有するOpenCV 2.4.9よりも優れた性能を示した。

Image stitching is to construct panoramic images with wider field of vision (FOV) from some images captured from different viewing positions. To solve the problem of fusion ghosting in the stitched image, seam-driven methods avoid the misalignment area to fuse images by predicting the best seam. Currently, as standard tools of the OpenCV library, dynamic programming (DP) and GraphCut (GC) are still the only commonly used seam prediction methods despite the fact that they were both proposed two decades ago. However, GC can get excellent seam quality but poor real-time performance while DP method has good efficiency but poor seam quality. In this paper, we propose a deep learning based seam prediction method (DSeam) for the sake of high seam quality with high efficiency. To overcome the difficulty of the seam description in network and no GroundTruth for training we design a selective consistency loss combining the seam shape constraint and seam quality constraint to supervise the network learning. By the constraint of the selection of consistency loss, we implicitly defined the mask boundaries as seams and transform seam prediction into mask prediction. To our knowledge, the proposed DSeam is the first deep learning based seam prediction method for image stitching. Extensive experimental results well demonstrate the superior performance of our proposed Dseam method which is 15 times faster than the classic GC seam prediction method in OpenCV 2.4.9 with similar seam quality.
翻訳日:2023-06-27 23:37:54 公開日:2023-06-26
# 量子ポテンシャルゲーム、リプリケータダイナミクス、および分離性問題

Quantum Potential Games, Replicator Dynamics, and the Separability Problem ( http://arxiv.org/abs/2302.04789v2 )

ライセンス: Link先を確認
Wayne Lin, Georgios Piliouras, Ryann Sim, Antonios Varvitsiotis(参考訳) ゲーミフィケーション(Gamification)は、ゲームのようなシナリオに変換することで最適化問題を解決する新しいアプローチを提供する機械学習分野における新たなトレンドである。 このパラダイムシフトにより、ハード最適化問題に対する堅牢で実装が容易で並列化可能なアルゴリズムの開発が可能になる。 本研究では,分割可能な量子状態の集合に対する線形最適化を含む量子情報理論の基本問題であるBest Separable State (BSS)問題に,ゲーミフィケーションを用いて取り組む。 これを実現するため、我々は共通興味ゲーム(cig)と、プレイヤーが戦略として密度行列を持ち、その興味が完全に一致した潜在的なゲームの量子アナログを導入し、研究する。 BSSインスタンスのKKT(一階定常点)と対応する量子CIGのナッシュ平衡の等価性を確立することにより、最適化とゲーム理論のギャップを埋める。 ゲームにおける学習の視点から,連続時間レプリケータダイナミクスの非可換拡張と,bss問題の分散アルゴリズムとしても機能する量子サイグスにおける学習のための離散時間baum-eagon/linear multiplicative weights updateを導入する。 bssインスタンスの共通のユーティリティ/目的値が、我々のアルゴリズムの軌跡に沿って厳密に増加しており、最終的に広範な実験を通じて理論的な結果と一致していることを示す。

Gamification is an emerging trend in the field of machine learning that presents a novel approach to solving optimization problems by transforming them into game-like scenarios. This paradigm shift allows for the development of robust, easily implementable, and parallelizable algorithms for hard optimization problems. In our work, we use gamification to tackle the Best Separable State (BSS) problem, a fundamental problem in quantum information theory that involves linear optimization over the set of separable quantum states. To achieve this we introduce and study quantum analogues of common-interest games (CIGs) and potential games where players have density matrices as strategies and their interests are perfectly aligned. We bridge the gap between optimization and game theory by establishing the equivalence between KKT (first-order stationary) points of a BSS instance and the Nash equilibria of its corresponding quantum CIG. Taking the perspective of learning in games, we introduce non-commutative extensions of the continuous-time replicator dynamics and the discrete-time Baum-Eagon/linear multiplicative weights update for learning in quantum CIGs, which also serve as decentralized algorithms for the BSS problem. We show that the common utility/objective value of a BSS instance is strictly increasing along trajectories of our algorithms, and finally corroborate our theoretical findings through extensive experiments.
翻訳日:2023-06-27 23:37:30 公開日:2023-06-26
# 強弱障害XXZモデルにおける最も遅い、かつ高速な情報スクランブル

Slowest and Fastest Information Scrambling in the Strongly Disordered XXZ Model ( http://arxiv.org/abs/2303.08801v3 )

ライセンス: Link先を確認
Myeonghyeon Kim, Dong-Hee Kim(参考訳) 深部多体局在状態における強弱乱れハイゼンベルクXXZモデルにおいて、時間外順序相関を計算するための摂動法を提案する。 固有状態全体にわたる情報伝達の離散構造を特徴とし,本システムで利用可能な最も遅くて速いスクランブルを表わす厳密な対数上界と下界に閉じ込められた高度に構造化された光円錐を明らかにした。 これらの境界を,最も遅いスクランブルに対して効果的な相互作用の閉形式表現を導出し,最も速いスクランブルに対して半長さの有効モデルを構築することにより説明する。 我々は、低次摂動式を高次元に拡張し、対数上層と下層光円錐は、強い乱れと弱いホッピングの限界において有限の2次元系で持続する可能性を示唆する。

We present a perturbation method to compute the out-of-time-ordered correlator in the strongly disordered Heisenberg XXZ model in the deep many-body localized regime. We characterize the discrete structure of the information propagation across the eigenstates, revealing a highly structured light cone confined by the strictly logarithmic upper and lower bounds representing the slowest and fastest scrambling available in this system. We explain these bounds by deriving the closed-form expression of the effective interaction for the slowest scrambling and by constructing the effective model of a half length for the fastest scrambling. We extend our lowest-order perturbation formulations to the higher dimensions, proposing that the logarithmic upper and lower light cones may persist in a finite two-dimensional system in the limit of strong disorder and weak hopping.
翻訳日:2023-06-27 23:31:34 公開日:2023-06-26
# コントラスト学習による教師なしHDR画像とビデオトーンマッピング

Unsupervised HDR Image and Video Tone Mapping via Contrastive Learning ( http://arxiv.org/abs/2303.07327v2 )

ライセンス: Link先を確認
Cong Cao, Huanjing Yue, Xin Liu, Jingyu Yang(参考訳) 高ダイナミックレンジ(hdr)画像(ビデオ)の撮影は、暗い領域と明るい領域の両方で詳細を明らかにすることができるため、魅力的である。 主流画面は低ダイナミックレンジ(LDR)コンテンツしかサポートしていないため、HDR画像(ビデオ)のダイナミックレンジを圧縮するためにトーンマッピングアルゴリズムが必要である。 画像トーンマッピングは広く研究されているが、HDR-LDRビデオペアが不足しているため、特にディープラーニングベースの手法ではビデオトーンマッピングが遅れている。 本研究では,教師なし画像とビデオトーンマッピングのための統合フレームワーク(IVTMNet)を提案する。 教師なし学習を改善するために,ドメインとインスタンスに基づくコントラスト学習損失を提案する。 類似度測定のための特徴を抽出するためにvggのような普遍的特徴抽出器を使う代わりに、抽出された特徴の輝度とコントラストの集約である新しい潜在コードを提案し、異なる対の類似度を測定する。 2つの負のペアと3つの正のペアを完全に構築し、トーンマップ結果の潜在コードを制限する。 ネットワーク構造に対して,非局所領域の情報交換と変換を可能にする空間特徴拡張(SFE)モジュールを提案する。 ビデオトーンマッピングでは,時間的相関を効率的に活用し,映像トーンマップ結果の時間的一貫性を向上させるtfrモジュールを提案する。 我々は、ビデオトーンマッピングのための教師なしトレーニングプロセスを容易にするために、大規模な未ペアHDR-LDRビデオデータセットを構築した。 実験の結果,本手法は最先端画像と映像トーンマッピング法を上回った。 私たちのコードとデータセットはhttps://github.com/cao-cong/uncltmoで利用可能です。

Capturing high dynamic range (HDR) images (videos) is attractive because it can reveal the details in both dark and bright regions. Since the mainstream screens only support low dynamic range (LDR) content, tone mapping algorithm is required to compress the dynamic range of HDR images (videos). Although image tone mapping has been widely explored, video tone mapping is lagging behind, especially for the deep-learning-based methods, due to the lack of HDR-LDR video pairs. In this work, we propose a unified framework (IVTMNet) for unsupervised image and video tone mapping. To improve unsupervised training, we propose domain and instance based contrastive learning loss. Instead of using a universal feature extractor, such as VGG to extract the features for similarity measurement, we propose a novel latent code, which is an aggregation of the brightness and contrast of extracted features, to measure the similarity of different pairs. We totally construct two negative pairs and three positive pairs to constrain the latent codes of tone mapped results. For the network structure, we propose a spatial-feature-enhanced (SFE) module to enable information exchange and transformation of nonlocal regions. For video tone mapping, we propose a temporal-feature-replaced (TFR) module to efficiently utilize the temporal correlation and improve the temporal consistency of video tone-mapped results. We construct a large-scale unpaired HDR-LDR video dataset to facilitate the unsupervised training process for video tone mapping. Experimental results demonstrate that our method outperforms state-of-the-art image and video tone mapping methods. Our code and dataset are available at https://github.com/cao-cong/UnCLTMO.
翻訳日:2023-06-27 23:31:17 公開日:2023-06-26
# 学習用高次元単一reluニューロンの有限サンプル解析

Finite-Sample Analysis of Learning High-Dimensional Single ReLU Neuron ( http://arxiv.org/abs/2303.02255v2 )

ライセンス: Link先を確認
Jingfeng Wu and Difan Zou and Zixiang Chen and Vladimir Braverman and Quanquan Gu and Sham M. Kakade(参考訳) 本稿では、入力次元がサンプル数を超える過パラメータ化された状態において、1つのReLUニューロンを2乗損失(すなわちReLU回帰)で学習する問題を考察する。 我々は,glm-tron (kakade et al., 2011) と呼ばれるパーセプトロン型アルゴリズムを解析し,その次元フリーリスク上限を高次元relu回帰に与えた。 我々のリスク・バウンドは、いくつかの既存の結果を特別のケースとして回収する。 さらに、よく特定された設定では、glam-tron のインスタンス間マッチングリスクローバウンドを提供する。 我々の上下のリスク境界は、GLM-tronを通して学習できる高次元ReLU回帰問題の鋭い特徴を与える。 一方,対称なベルヌーイデータを持つrelu回帰に対する確率的勾配降下 (sgd) については,いくつかの否定的な結果が得られた: モデルが十分に特定されているならば,sgdの過剰なリスクは,各問題例において一定の因子を無視するglm-tronのリスクよりも証明可能であり,無音の場合,sgdが期待値の一定のリスクを負う一方で,glm-tronは小さいリスクを達成できる。 これらの結果から,glm-tronはsgdよりも高次元relu回帰に適していることが示唆された。

This paper considers the problem of learning a single ReLU neuron with squared loss (a.k.a., ReLU regression) in the overparameterized regime, where the input dimension can exceed the number of samples. We analyze a Perceptron-type algorithm called GLM-tron (Kakade et al., 2011) and provide its dimension-free risk upper bounds for high-dimensional ReLU regression in both well-specified and misspecified settings. Our risk bounds recover several existing results as special cases. Moreover, in the well-specified setting, we provide an instance-wise matching risk lower bound for GLM-tron. Our upper and lower risk bounds provide a sharp characterization of the high-dimensional ReLU regression problems that can be learned via GLM-tron. On the other hand, we provide some negative results for stochastic gradient descent (SGD) for ReLU regression with symmetric Bernoulli data: if the model is well-specified, the excess risk of SGD is provably no better than that of GLM-tron ignoring constant factors, for each problem instance; and in the noiseless case, GLM-tron can achieve a small risk while SGD unavoidably suffers from a constant risk in expectation. These results together suggest that GLM-tron might be preferable to SGD for high-dimensional ReLU regression.
翻訳日:2023-06-27 23:30:32 公開日:2023-06-26
# 多パラメータ量子状態推定問題に対するBayesian Nagaoka-Hayashi境界

Bayesian Nagaoka-Hayashi Bound for Multiparameter Quantum-State Estimation Problem ( http://arxiv.org/abs/2302.14223v2 )

ライセンス: Link先を確認
Jun Suzuki(参考訳) 本研究では,量子状態のパラメトリック族を推定する際に,永岡はやし境界のベイズ版を提案する。 この下界は、最近提案されたベイズ推定への点推定に対する境界の一般化である。 次に,提案する下限を半定値計画問題として効率的に計算できることを示す。 また, 下限として, ベイジアン長岡-林境界からホレヴォ型ベイジアン版を導出した。 最後に、新しい下界がベイズ量子クレーマー・ラオ境界よりも厳密であることを証明する。

In this work we propose a Bayesian version of the Nagaoka-Hayashi bound when estimating a parametric family of quantum states. This lower bound is a generalization of a recently proposed bound for point estimation to Bayesian estimation. We then show that the proposed lower bound can be efficiently computed as a semidefinite programming problem. As a lower bound, we also derive a Bayesian version of the Holevo-type bound from the Bayesian Nagaoka-Hayashi bound. Lastly, we prove that the new lower bound is tighter than the Bayesian quantum Cramer-Rao bounds.
翻訳日:2023-06-27 23:29:38 公開日:2023-06-26
# SpikeGPT:スパイクニューラルネットワークを用いた生成事前学習言語モデル

SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks ( http://arxiv.org/abs/2302.13939v3 )

ライセンス: Link先を確認
Rui-Jie Zhu, Qihang Zhao, Guoqi Li, Jason K. Eshraghian(参考訳) 大きな言語モデルのサイズが拡大し続けるにつれて、それを実行するのに必要な計算リソースも増えます。 spiking neural networks(snns)は、モデル推論に関連する計算オーバーヘッドを削減するためにスパースとイベント駆動のアクティベーションを活用する、ディープラーニングのエネルギー効率の高いアプローチとして登場した。 多くのコンピュータビジョンタスクにおける非スパイキングモデルと競合する一方で、SNNはトレーニングをより困難にしている。 その結果,それらの性能は現代のディープラーニングよりも遅れており,言語生成におけるSNNの有効性はまだ分かっていない。 本稿では,Receptance Weighted Key Value (RWKV)言語モデルにヒントを得て,イベント駆動型スパイクアクティベーションユニットを持つ生成言語モデルである 'SpikeGPT' の実装に成功した。 提案モデルを45mパラメータと216mパラメータの2つのモデルでトレーニングした。 我々の知る限り、SpikeGPTは今までで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。 変換器ブロックを改良して,2次計算複雑性O(N^2)を2次計算複雑性O(N)に減らし,シーケンス長を増大させる。 入力トークンは、通常のSNNのように)注意機構に順次ストリームされます。 予備実験では、SpikeGPTはテストベンチマークの非スパイキングモデルと競合する一方で、スパースでイベント駆動のアクティベーションを活用できるニューロモルフィックハードウェアで処理した場合の操作数を20倍に抑えることができた。

As the size of large language models continue to scale, so does the computational resources required to run it. Spiking Neural Networks (SNNs) have emerged as an energy-efficient approach to deep learning that leverage sparse and event-driven activations to reduce the computational overhead associated with model inference. While they have become competitive with non-spiking models on many computer vision tasks, SNNs have also proven to be more challenging to train. As a result, their performance lags behind modern deep learning, and we are yet to see the effectiveness of SNNs in language generation. In this paper, inspired by the Receptance Weighted Key Value (RWKV) language model, we successfully implement `SpikeGPT', a generative language model with binary, event-driven spiking activation units. We train the proposed model on two model variants: 45M and 216M parameters. To the best of our knowledge, SpikeGPT is the largest backpropagation-trained SNN model to date, rendering it suitable for both the generation and comprehension of natural language. We achieve this by modifying the transformer block to replace multi-head self attention to reduce quadratic computational complexity O(N^2) to linear complexity O(N) with increasing sequence length. Input tokens are instead streamed in sequentially to our attention mechanism (as with typical SNNs). Our preliminary experiments show that SpikeGPT remains competitive with non-spiking models on tested benchmarks, while maintaining 20x fewer operations when processed on neuromorphic hardware that can leverage sparse, event-driven activations.
翻訳日:2023-06-27 23:29:28 公開日:2023-06-26
# kNN-Res: ポイントクラウド登録のためのkNN-Graphコヒーレンスを用いた残留ニューラルネットワーク

kNN-Res: Residual Neural Network with kNN-Graph coherence for point cloud registration ( http://arxiv.org/abs/2304.00050v2 )

ライセンス: Link先を確認
Muhammad S. Battikh, Dillon Hammill, Matthew Cook, Artem Lensky(参考訳) 本稿では,目標点集合の位相構造を保存した残差ニューラルネットワークを用いた点集合登録法を提案する。 コヒーレント点ドリフト(cpd)と同様に、登録(調整)問題は、正規化された変位ベクトル場に沿ってターゲット分布からサンプリングされたデータ点の移動と見なされる。 cpdのコヒーレンス制約は局所運動コヒーレンスの観点から述べられているが、提案された正規化項は局所位相を保存するためのプロキシとしてグローバルスムースネス制約に依存する。 これにより、CPDは、変形が局所的に剛性であるが、複数のオブジェクトの場合のようにグローバルに非剛性であるときに柔軟性が低下し、ポーズ登録を行う。 これらの問題を緩和するために,ヤコビアンに基づくコスト関数と幾何学的統計距離を提案する。 後者は、ターゲットと参照の間の不一致を測定することができる。 ジャコビアンコストを使用する場合、ターゲットデータのk-Nearest Neighbour(kNN)グラフ保存の正当性も提供する。 さらに、高次元点集合の登録に取り組むために、ヤコビコストの一定時間確率近似を導入する。 提案手法は, 2 次元玩具の例を示し, 変換データの生体信号を保存するために knn-graph を保存しながら, 2 つの細胞分布を整合させることを課題とする高次元フローサイトメトリーデータセット上で検証した。 提案されたアプローチの実装は、MITライセンス下でhttps://github.com/MuhammadSaeedBatikh/kNN-Res_Demo/で利用可能である。

In this paper, we present a residual neural network-based method for point set registration that preserves the topological structure of the target point set. Similar to coherent point drift (CPD), the registration (alignment) problem is viewed as the movement of data points sampled from a target distribution along a regularized displacement vector field. While the coherence constraint in CPD is stated in terms of local motion coherence, the proposed regularization term relies on a global smoothness constraint as a proxy for preserving local topology. This makes CPD less flexible when the deformation is locally rigid but globally non-rigid as in the case of multiple objects and articulate pose registration. A Jacobian-based cost function and geometric-aware statistical distances are proposed to mitigate these issues. The latter allows for measuring misalignment between the target and the reference. The justification for the k-Nearest Neighbour(kNN) graph preservation of target data, when the Jacobian cost is used, is also provided. Further, to tackle the registration of high-dimensional point sets, a constant time stochastic approximation of the Jacobian cost is introduced. The proposed method is illustrated on several 2-dimensional toy examples and tested on high-dimensional flow Cytometry datasets where the task is to align two distributions of cells whilst preserving the kNN-graph in order to preserve the biological signal of the transformed data. The implementation of the proposed approach is available at https://github.com/MuhammadSaeedBatikh/kNN-Res_Demo/ under the MIT license.
翻訳日:2023-06-27 23:20:59 公開日:2023-06-26
# 幅広から深部まで:パラメータ効率の知識グラフ埋め込みのための次元リフティングネットワーク

From Wide to Deep: Dimension Lifting Network for Parameter-efficient Knowledge Graph Embedding ( http://arxiv.org/abs/2303.12816v2 )

ライセンス: Link先を確認
Borui Cai, Yong Xiang, Longxiang Gao, Di Wu, He Zhang, Jiong Jin, Tom Luan(参考訳) エンティティと関係をベクトル表現にマッピングする知識グラフ埋め込み(KGE)は下流タスクに不可欠である。 従来のKGE法は知識グラフの構造情報を保存するために比較的高次元の実体表現を必要とするが、大きすぎるモデルパラメータをもたらす。 近年の手法では、低次元の実体表現を採用することでモデルパラメータを減らすとともに、縮小次元を補う技術(例えば、知識蒸留)を開発する。 しかし、そのような操作はモデルの精度を低下させ、モデルのパラメータを限定的に削減する。 具体的には、すべての実体表現の連結を埋め込み層とみなし、次に、埋め込み層の幅を拡大して表現性を得るのに等しい高次元実体表現を採用する従来のKGE手法を考察する。 精度を犠牲にすることなくパラメータ効率を実現するため,より深度を高くし,細い埋め込み層と多層リフトネットワーク(LiftNet)というエンティティ表現のためのより深い埋め込みネットワークを提案する。 3つの公開データセットを用いた実験により, 4次元実体表現を用いた提案手法(TransEとDistMultをベースとした実装)は, 512次元実体表現を持つTransEやDistMultを含む,対応するパラメータ効率の高いKGE法や強力なKGEベースラインよりも正確なリンク予測結果が得られることが示された。

Knowledge graph embedding (KGE) that maps entities and relations into vector representations is essential for downstream tasks. Conventional KGE methods require relatively high-dimensional entity representations to preserve the structural information of knowledge graph, but lead to oversized model parameters. Recent methods reduce model parameters by adopting low-dimensional entity representations, while developing techniques (e.g., knowledge distillation) to compensate for the reduced dimension. However, such operations produce degraded model accuracy and limited reduction of model parameters. Specifically, we view the concatenation of all entity representations as an embedding layer, and then conventional KGE methods that adopt high-dimensional entity representations equal to enlarging the width of the embedding layer to gain expressiveness. To achieve parameter efficiency without sacrificing accuracy, we instead increase the depth and propose a deeper embedding network for entity representations, i.e., a narrow embedding layer and a multi-layer dimension lifting network (LiftNet). Experiments on three public datasets show that the proposed method (implemented based on TransE and DistMult) with 4-dimensional entity representations achieves more accurate link prediction results than counterpart parameter-efficient KGE methods and strong KGE baselines, including TransE and DistMult with 512-dimensional entity representations.
翻訳日:2023-06-27 23:20:09 公開日:2023-06-26
# ゼロショット検出のための高効率特徴蒸留

Efficient Feature Distillation for Zero-shot Detection ( http://arxiv.org/abs/2303.12145v3 )

ライセンス: Link先を確認
Zhuoming Liu, Xuefeng Hu, Ram Nevatia(参考訳) 大規模な視覚言語モデル(例えばCLIP)は、見えないオブジェクトを検出するために様々な方法によって活用される。 しかし、これらの作品の多くは訓練のために追加のキャプションや画像を必要とするが、ゼロショット検出の文脈では実現不可能である。 対照的に、蒸留ベースの方法は余分なデータのない方法であるが、その限界がある。 具体的には, 新たなカテゴリ情報の蒸留を制限し, 蒸留効率を損なう, 基本カテゴリに偏った蒸留領域を創出する。 さらに、蒸留のためにCLIPの生のフィーチャを直接使用すると、CLIPのトレーニングデータと検出データセットのドメインギャップが無視されるため、画像領域から視覚言語の特徴空間へのマッピングを学習することが困難になる。 その結果、既存の蒸留法は過度に長い訓練スケジュールを必要とする。 これらの問題を解決するため,ゼロショット検出(EZSD)のための効率的な特徴蒸留法を提案する。 第一に、EZSDはCLIPの機能空間をターゲット検出領域に適応させ、ドメインギャップを埋めるためにCLIPを再正規化する。 最後に、EZSDは、回帰のための意味論的意味を利用して、モデル性能をさらに改善する。 結果として、EZSDはCOCOゼロショットベンチマークにおいて、より短いトレーニングスケジュールで最先端のパフォーマンスを達成し、1/10のトレーニング時間でLVIS全体の4%向上した。

The large-scale vision-language models (e.g., CLIP) are leveraged by different methods to detect unseen objects. However, most of these works require additional captions or images for training, which is not feasible in the context of zero-shot detection. In contrast, the distillation-based method is an extra-data-free method, but it has its limitations. Specifically, existing work creates distillation regions that are biased to the base categories, which limits the distillation of novel category information and harms the distillation efficiency. Furthermore, directly using the raw feature from CLIP for distillation neglects the domain gap between the training data of CLIP and the detection datasets, which makes it difficult to learn the mapping from the image region to the vision-language feature space - an essential component for detecting unseen objects. As a result, existing distillation-based methods require an excessively long training schedule. To solve these problems, we propose Efficient feature distillation for Zero-Shot Detection (EZSD). Firstly, EZSD adapts the CLIP's feature space to the target detection domain by re-normalizing CLIP to bridge the domain gap; Secondly, EZSD uses CLIP to generate distillation proposals with potential novel instances, to avoid the distillation being overly biased to the base categories. Finally, EZSD takes advantage of semantic meaning for regression to further improve the model performance. As a result, EZSD achieves state-of-the-art performance in the COCO zero-shot benchmark with a much shorter training schedule and outperforms previous work by 4% in LVIS overall setting with 1/10 training time.
翻訳日:2023-06-27 23:19:21 公開日:2023-06-26
# 動的深部強化学習を用いた大規模地域交通信号制御

Large-Scale Regional Traffic Signal Control Using Dynamic Deep Reinforcement Learning ( http://arxiv.org/abs/2303.11899v4 )

ライセンス: Link先を確認
Hankang Gu, Shangbo Wang(参考訳) 近年,マルチエージェント強化学習(MARL)に基づく交通信号制御が注目されている。 既存のMARLアプローチの多くは、隣接する交差点間の通信を考慮して、最適な制御戦略を分散的に学習する傾向にある。 しかし、MARLの非定常性は、特に交叉数が大きくなると、非常に遅く、あるいは収束の失敗に繋がる可能性がある。 既存の手法の1つは、ネットワーク全体を複数のリージョンに分割することであり、それぞれが集中的なRLフレームワークを使用して収束速度を高速化する。 しかし、この戦略には2つの課題がある: 1つはフレキシブルな分割を得る方法、2つ目は交差点の領域に対して最適な共同動作を探す方法である。 本稿では,交差点間の隣接性に基づく領域分割規則を提案するとともに,最適な共同動作を効率的に探索し,地域報酬を最大化するための動的分岐処理Q-Network(DBDQ)を提案する。 実際のデータセットと合成データセットの両方による実験結果は、我々のフレームワークが既存のフレームワークよりも優れていることを示している。

Multi-agent Reinforcement Learning (MARL) based traffic signal control becomes a popular research topic in recent years. Most existing MARL approaches tend to learn the optimum control strategies in a decentralised manner by considering communication among neighbouring intersections. However, the non-stationary property in MARL may lead to extremely slow or even failure of convergence, especially when the number of intersections becomes large. One of the existing methods is to partition the whole network into several regions, each of which utilizes a centralized RL framework to speed up the convergence rate. However, there are two challenges for this strategy: the first one is how to get a flexible partition and the second one is how to search for the optimal joint actions for a region of intersections. In this paper, we propose a novel training framework where our region partitioning rule is based on the adjacency between the intersections and propose Dynamic Branching Dueling Q-Network (DBDQ) to search for optimal joint action efficiently and to maximize the regional reward. The experimental results with both real datasets and synthetic datasets demonstrate the superiority of our framework over other existing frameworks.
翻訳日:2023-06-27 23:18:56 公開日:2023-06-26
# 異なる個人的フェデレーション学習における景観のフラッター

Make Landscape Flatter in Differentially Private Federated Learning ( http://arxiv.org/abs/2303.11242v2 )

ライセンス: Link先を確認
Yifan Shi, Yingqi Liu, Kang Wei, Li Shen, Xueqian Wang, Dacheng Tao(参考訳) 推論攻撃を防御し、フェデレーション学習(fl)における機密情報漏洩を軽減するため、クライアントレベルの差分プライベートfl(dpfl)は、ローカル更新をクリップしてランダムノイズを追加することにより、プライバシ保護のデファクトスタンダードである。 しかし, 既存のdpfl法では, より鋭い損失景観を呈し, 重量摂動の堅牢性が低下し, 性能が著しく低下する傾向がみられた。 これらの問題を緩和するために,dp-fedsamと呼ばれる新しいdpflアルゴリズムを提案し,dpの負の影響を軽減するために勾配摂動を利用する。 具体的には、dp-fedsamはシャープネス認識最小化(sam)オプティマイザを統合して、安定性と重み摂動の堅牢性が向上した局所平坦性モデルを生成する。 理論的な観点から,DP-FedSAMがDPによって引き起こされる性能劣化を緩和する方法を詳細に分析する。 一方,r\'enyi dpでは厳密なプライバシー保証を行い,ローカル更新の感度分析を行う。 最後に,本アルゴリズムがdpflの既存のsataベースラインと比較して,最先端(sota)性能を達成することを実証的に確認した。 コードはhttps://github.com/YMJS-Irfan/DP-FedSAMで入手できる。

To defend the inference attacks and mitigate the sensitive information leakages in Federated Learning (FL), client-level Differentially Private FL (DPFL) is the de-facto standard for privacy protection by clipping local updates and adding random noise. However, existing DPFL methods tend to make a sharper loss landscape and have poorer weight perturbation robustness, resulting in severe performance degradation. To alleviate these issues, we propose a novel DPFL algorithm named DP-FedSAM, which leverages gradient perturbation to mitigate the negative impact of DP. Specifically, DP-FedSAM integrates Sharpness Aware Minimization (SAM) optimizer to generate local flatness models with better stability and weight perturbation robustness, which results in the small norm of local updates and robustness to DP noise, thereby improving the performance. From the theoretical perspective, we analyze in detail how DP-FedSAM mitigates the performance degradation induced by DP. Meanwhile, we give rigorous privacy guarantees with R\'enyi DP and present the sensitivity analysis of local updates. At last, we empirically confirm that our algorithm achieves state-of-the-art (SOTA) performance compared with existing SOTA baselines in DPFL. Code is available at https://github.com/YMJS-Irfan/DP-FedSAM
翻訳日:2023-06-27 23:18:38 公開日:2023-06-26
# occupation kernel 主成分分析による故障検出

Fault Detection via Occupation Kernel Principal Component Analysis ( http://arxiv.org/abs/2303.11138v2 )

ライセンス: Link先を確認
Zachary Morrison, Benjamin P. Russo, Yingzhao Lian, and Rushikesh Kamalapurkar(参考訳) 自動システムの信頼性の高い動作は、基盤となる動的システムの障害を検出する能力に大きく依存する。 従来のモデルベースの手法はフォールト検出に広く使われているが、データ駆動のアプローチは、デプロイの容易さと専門家の知識の必要が最小限であることから、注目を集めている。 本稿では,作業カーネルを用いた主成分分析(pca)手法を提案する。 作業カーネルは, 測定データに合わせた特徴マップを作成し, 積分により固有のノイズロス性を有し, 可変長系の不規則なサンプリングシステムトラジェクトリを利用することができる。 occupation kernel pca法を用いて障害検出のための再構成誤差法を開発し,数値シミュレーションを用いてその妥当性を検証する。

The reliable operation of automatic systems is heavily dependent on the ability to detect faults in the underlying dynamical system. While traditional model-based methods have been widely used for fault detection, data-driven approaches have garnered increasing attention due to their ease of deployment and minimal need for expert knowledge. In this paper, we present a novel principal component analysis (PCA) method that uses occupation kernels. Occupation kernels result in feature maps that are tailored to the measured data, have inherent noise-robustness due to the use of integration, and can utilize irregularly sampled system trajectories of variable lengths for PCA. The occupation kernel PCA method is used to develop a reconstruction error approach to fault detection and its efficacy is validated using numerical simulations.
翻訳日:2023-06-27 23:18:12 公開日:2023-06-26
# benchmd:医療画像とセンサの統一学習のためのベンチマーク

BenchMD: A Benchmark for Unified Learning on Medical Images and Sensors ( http://arxiv.org/abs/2304.08486v2 )

ライセンス: Link先を確認
Kathryn Wantlin, Chenwei Wu, Shih-Cheng Huang, Oishi Banerjee, Farah Dadabhoy, Veeral Vipin Mehta, Ryan Wonhee Han, Fang Cao, Raja R. Narayan, Errol Colak, Adewole Adamson, Laura Heacock, Geoffrey H. Tison, Alex Tamkin, Pranav Rajpurkar(参考訳) 医療データは、aiアルゴリズムにとって厄介な課題である:それは多くの異なるモダリティに存在し、頻繁な分散シフトを経験し、サンプルやラベルの不足に苦しむ。 トランスフォーマーや自己教師付き学習を含む最近の進歩は、これらの多様な条件に柔軟に適用可能な、より普遍的なアプローチを約束している。 この方向の進捗を計測し、推進するベンチマークであるBenchMDは、アーキテクチャやトレーニング技術(例えば、自己教師付き学習、ImageNet事前学習)が、様々な臨床関連医療タスクにどの程度うまく適合しているかをテストするベンチマークである。 BenchMDは、1Dセンサーデータ、2Dイメージ、3Dボリュームスキャンを含む7つの医療モードのための19の公開データセットを組み合わせている。 このベンチマークは、プリトレーニングの使用をインセンティブとする少数の設定を含む、さまざまなデータセットサイズにわたるメソッドを評価することによって、実世界のデータ制約を反映しています。 最後に,医療用aiモデルの性能を頻繁に低下させる自然に発生する分布変化を表現し,各病院で収集した分散データの性能をトレーニングデータより評価する。 その結果,統一的な学習手法がすべてのモダリティに対して高い性能を達成できないことが示され,ベンチマークに十分な改善の余地が残されている。 コードはhttps://github.com/rajpurkarlab/benchmdでリリースされる。

Medical data poses a daunting challenge for AI algorithms: it exists in many different modalities, experiences frequent distribution shifts, and suffers from a scarcity of examples and labels. Recent advances, including transformers and self-supervised learning, promise a more universal approach that can be applied flexibly across these diverse conditions. To measure and drive progress in this direction, we present BenchMD: a benchmark that tests how well unified, modality-agnostic methods, including architectures and training techniques (e.g. self-supervised learning, ImageNet pretraining),perform on a diverse array of clinically-relevant medical tasks. BenchMD combines 19 publicly available datasets for 7 medical modalities, including 1D sensor data, 2D images, and 3D volumetric scans. Our benchmark reflects real-world data constraints by evaluating methods across a range of dataset sizes, including challenging few-shot settings that incentivize the use of pretraining. Finally, we evaluate performance on out-of-distribution data collected at different hospitals than the training data, representing naturally-occurring distribution shifts that frequently degrade the performance of medical AI models. Our baseline results demonstrate that no unified learning technique achieves strong performance across all modalities, leaving ample room for improvement on the benchmark. Code is released at https://github.com/rajpurkarlab/BenchMD.
翻訳日:2023-06-27 23:12:33 公開日:2023-06-26
# β-rank:不均衡医用画像解析のためのロバスト畳み込みフィルタプルーニング法

Beta-Rank: A Robust Convolutional Filter Pruning Method For Imbalanced Medical Image Analysis ( http://arxiv.org/abs/2304.07461v2 )

ライセンス: Link先を確認
Morteza Homayounfar, Mohamad Koohi-Moghadam, Reza Rawassizadeh, Varut Vardhanabhuti(参考訳) ディープニューラルネットワークは多数のパラメータや演算を含むため、計算資源が限られているデバイス上でこれらのモデルを実装することは困難である。 資源効率のよいモデルに向けた新しい刈り取り手法の開発にもかかわらず、これらのモデルは「不均衡」と「限られた数のデータポイント」を扱うことができないことが判明した。 本研究では,フィルタの入力と出力を,不均衡なデータセットを扱うフィルタの値とともに考慮し,新しいフィルタプルーニング手法を提案する。 本手法は,フィルタの重要性に関するすべての情報がフィルタの値に反映されないことを考慮したものである。 代わりに、フィルタが適用された後にデータに行われた変更に反映される。 本研究では,各手法のランク付け値以外の3つの方法と同一の訓練条件を比較し,他の論文と14の方法を比較した。 本モデルは,不均衡な医療データセットに対して,他の手法よりも有意に優れた性能を示した。 例えば、IDRIDデータセットのFLOPの最大58%、ISICデータセットの最大45%を削除したとき、私たちのモデルはベースラインモデルに同等(あるいはさらに優れている)結果をもたらすことができました。 実際の環境でのモデルを用いたフロップとパラメータ低減を評価するために、スマートフォンアプリを構築し、最大79%のメモリ使用量と72%の予測時間を削減できることを実証した。 異なるモデルをトレーニングするためのすべてのコードとパラメータはhttps://github.com/mohofar/Beta-Rankで公開されている。

As deep neural networks include a high number of parameters and operations, it can be a challenge to implement these models on devices with limited computational resources. Despite the development of novel pruning methods toward resource-efficient models, it has become evident that these models are not capable of handling "imbalanced" and "limited number of data points". We proposed a novel filter pruning method by considering the input and output of filters along with the values of the filters that deal with imbalanced datasets better than others. Our pruning method considers the fact that all information about the importance of a filter may not be reflected in the value of the filter. Instead, it is reflected in the changes made to the data after the filter is applied to it. In this work, three methods are compared with the same training conditions except for the ranking values of each method, and 14 methods are compared from other papers. We demonstrated that our model performed significantly better than other methods for imbalanced medical datasets. For example, when we removed up to 58% of FLOPs for the IDRID dataset and up to 45% for the ISIC dataset, our model was able to yield an equivalent (or even superior) result to the baseline model. To evaluate FLOP and parameter reduction using our model in real-world settings, we built a smartphone app, where we demonstrated a reduction of up to 79% in memory usage and 72% in prediction time. All codes and parameters for training different models are available at https://github.com/mohofar/Beta-Rank
翻訳日:2023-06-27 23:11:14 公開日:2023-06-26
# 単段拡散NeRF : 3次元生成と再構成への統一的アプローチ

Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction ( http://arxiv.org/abs/2304.06714v3 )

ライセンス: Link先を確認
Hansheng Chen, Jiatao Gu, Anpei Chen, Wei Tian, Zhuowen Tu, Lingjie Liu, Hao Su(参考訳) 3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。 多くのタスク固有の手法にもかかわらず、包括的なモデルの開発は依然として困難である。 本稿では,様々な物体の多視点画像からニューラルレイディアンス場(NeRF)の一般化を学習するために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。 これまでの研究では、事前訓練されたNeRFを実データとして利用して拡散モデルを訓練してきた。 そこで本研究では,nrfオートデコーダと潜在拡散モデルを同時に最適化し,可視性の低いビューからでも同時3次元再構成と事前学習を実現する,エンドツーエンドの目標を持つ新しい単段階学習パラダイムを提案する。 実験時には, 未条件発生前の拡散を直接サンプリングしたり, 未確認物体の任意の観測と組み合わせてNeRF再構成を行うことができる。 SSDNeRFは、非条件生成および単一/スパースビュー3D再構成において、主要なタスク固有手法に匹敵するロバストな結果を示す。

3D-aware image synthesis encompasses a variety of tasks, such as scene generation and novel view synthesis from images. Despite numerous task-specific methods, developing a comprehensive model remains challenging. In this paper, we present SSDNeRF, a unified approach that employs an expressive diffusion model to learn a generalizable prior of neural radiance fields (NeRF) from multi-view images of diverse objects. Previous studies have used two-stage approaches that rely on pretrained NeRFs as real data to train diffusion models. In contrast, we propose a new single-stage training paradigm with an end-to-end objective that jointly optimizes a NeRF auto-decoder and a latent diffusion model, enabling simultaneous 3D reconstruction and prior learning, even from sparsely available views. At test time, we can directly sample the diffusion prior for unconditional generation, or combine it with arbitrary observations of unseen objects for NeRF reconstruction. SSDNeRF demonstrates robust results comparable to or better than leading task-specific methods in unconditional generation and single/sparse-view 3D reconstruction.
翻訳日:2023-06-27 23:10:51 公開日:2023-06-26
# Search-in-the-Chain:知識集約型タスクのための精度、信頼性、トレース可能な大規模言語モデルを目指して

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks ( http://arxiv.org/abs/2304.14732v5 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-Seng Chua(参考訳) chatgptのような大規模言語モデル(llm)によって生成されたコンテンツの正確性、信頼性、トレーサブル性は、特に複数ステップの推論を必要とする複雑な知識集約型タスクにおいて重要である。 外部知識を LLM に提供するための情報検索 (IR) の導入は,この問題の解決に有効である。 しかし、LLMにIRを導入する方法と場所は大きな課題です。 これまでの研究では、IRが取得した誤った知識がLLMを誤解させたり、LLMの推論連鎖を壊したりするという欠点があった。 本稿では LLM と IR の相互作用を解消するための新しいフレームワークである Search-in-the-Chain (SearChain) を提案する。 まず、LLMはChain-of-Query(CoQ)と呼ばれるグローバルな推論チェーンを生成し、各ノードはIR指向のクエリとクエリへの応答で構成される。 第2に、IRは、CoQの各ノードの回答を検証し、IRが高い信頼を与えるときに取得した情報と一致しない回答を補正し、信頼性を向上させる。 第3に、LLMはCoQにおける不足した知識をマークすることができ、IRはLLMにこの知識を提供することができる。 これら3つの操作は、推論能力と知識の観点から、複雑な知識集約タスクに対するllmの精度を向上させる。 最後に、searchainは推論プロセスを生成し、各推論ステップでサポートドキュメントへの参照をマークする。 searchainは推論のトポロジーをチェーンからツリーに変換し、推論の方向を変更することができる。 実験の結果,マルチホップ質問応答,スロット充填,ファクトチェック,ロングフォーム質問応答など,複雑な知識集約タスクのベースラインを検索ainが上回っていることがわかった。

Making the contents generated by Large Language Model (LLM) such as ChatGPT, accurate, credible and traceable is crucial, especially in complex knowledge-intensive tasks that require multi-step reasoning and each of which needs knowledge to solve. Introducing Information Retrieval (IR) to provide LLM with external knowledge is good potential to solve this problem. However, where and how to introduce IR into LLM is a big challenge. Previous work has the disadvantage that the wrong knowledge retrieved by IR misleads the LLM or breaks the reasoning chain of LLM. In this paper, we propose a novel framework called Search-in-the-Chain (SearChain) for the interaction between LLM and IR to solve the challenges. First, LLM generates the global reasoning chain called Chain-of-Query (CoQ) where each node consists of an IR-oriented query and the answer to the query. Second, IR verifies the answer of each node of CoQ, it corrects the answer that is not consistent with the retrieved information when IR gives high confidence, which improves the credibility. Third, LLM can mark its missing knowledge in CoQ and IR can provide this knowledge to LLM. These three operations improve the accuracy of LLM for complex knowledge-intensive tasks in terms of reasoning ability and knowledge. Finally, SearChain generates the reasoning process and marks references to supporting documents for each reasoning step, which improves traceability. SearChain transforms the topology of reasoning from chain to tree, which can modify the reasoning direction. Experiment shows that SearChain outperforms baselines on complex knowledge-intensive tasks including multi-hop question-answering, slot filling, fact checking, and long-form question-answering.
翻訳日:2023-06-27 23:01:02 公開日:2023-06-26
# 多光子高次元GHZ状態の合成

Preparation of multiphoton high-dimensional GHZ state ( http://arxiv.org/abs/2304.12813v3 )

ライセンス: Link先を確認
Wen-Bo Xing, Xiao-Min Hu, Yu Guo, Bi-Heng Liu, Chuan-Feng Li and Guang-Can Guo(参考訳) 多部類高次元絡み合わせは多部類2次元絡み合わせとは異なる物理を呈する。 しかし、多次元高次元絡み合わせの作り方はまだ線形光学の課題である。 本稿では,光学系において任意の次元の準備プロトコルを持つ多光子GHZ状態を提案する。 本プロトコルでは,高次元エンタングルメントゲートを実現するために補助エンタングルメントを用い,高次元エンタングルペアを多成分の高次元ghz状態に接続する。 具体的には、光子の経路自由度を用いて4粒子の3次元ghz状態を作成する例を示す。 本手法は他の自由度まで拡張でき、任意の次元で任意のghz絡み合いを生成することができる。

Multipartite high-dimensional entanglement presents different physics from multipartite two-dimensional entanglement. However, how to prepare multipartite high-dimensional entanglement is still a challenge with linear optics. In this paper, a multiphoton GHZ state with arbitrary dimensions preparation protocol is proposed in optical systems. In this protocol, we use auxiliary entanglements to realize a high-dimensional entanglement gate, so that high-dimensional entangled pairs can be connected into a multipartite high-dimensional GHZ state. Specifically, we give an example of using photons' path degree of freedom to prepare a 4-particle 3-dimensional GHZ state. Our method can be extended to other degrees of freedom and can generate arbitrary GHZ entanglement in any dimension.
翻訳日:2023-06-27 22:59:22 公開日:2023-06-26
# hint-aug: ファウンデーションビジョントランスフォーマーからのヒントをブーストされたマイナショットパラメーター効率のチューニングへ

Hint-Aug: Drawing Hints from Foundation Vision Transformers Towards Boosted Few-Shot Parameter-Efficient Tuning ( http://arxiv.org/abs/2304.12520v3 )

ライセンス: Link先を確認
Zhongzhi Yu, Shang Wu, Yonggan Fu, Shunyao Zhang, Yingyan Lin(参考訳) 下流タスクにおけるファンデーション・ビジョン・トランスフォーマー(FViT)のチューニング需要が増大しているにもかかわらず、データ制限シナリオ(例:数ショットチューニング)下でのFViTのポテンシャルを完全に解放することは、FViTsのデータハングリーの性質のため、依然として課題である。 一般的なデータ拡張技術はこの文脈では、わずかなチューニングデータに含まれる機能に制限があるため、不足している。 事前学習されたFViT自身は、広く使われているパラメータ効率のチューニングで完全に保存されている大規模事前学習データから、非常に代表的な特徴をすでに習得している。 そこで我々は、これらの学習機能を活用してチューニングデータを増強することで、FViTチューニングの有効性を高めることができると仮定した。 そこで,本研究では,事前学習したfvitsの学習機能を用いて,サンプルの過剰に適合した部分の強化を行い,少数音調律におけるfvitの強化を目的とした,ヒントベースデータ拡張(hint-aug)というフレームワークを提案する。 特に、Hint-Augは、2つの重要なイネーブルを統合している: 1) ファンデーションViTの過信パッチを検出するための注意深い過剰適合検知器(AOD)、(2) コンフュージョンベースの特徴注入(CFI)モジュールは、事前訓練されたFViTから上記AODが検出した過信パッチを注入し、チューニング中の特徴の多様性を高める。 5つのデータセットと3つのパラメータ効率のチューニング技術に関する大規模な実験とアブレーション研究は、Hint-Augの有効性を一貫して検証している。 例えば、Petデータセットでは、Hint-AugはSOTAデータ拡張メソッドよりも50%少ないトレーニングデータで2.22%高い精度を達成する。

Despite the growing demand for tuning foundation vision transformers (FViTs) on downstream tasks, fully unleashing FViTs' potential under data-limited scenarios (e.g., few-shot tuning) remains a challenge due to FViTs' data-hungry nature. Common data augmentation techniques fall short in this context due to the limited features contained in the few-shot tuning data. To tackle this challenge, we first identify an opportunity for FViTs in few-shot tuning: pretrained FViTs themselves have already learned highly representative features from large-scale pretraining data, which are fully preserved during widely used parameter-efficient tuning. We thus hypothesize that leveraging those learned features to augment the tuning data can boost the effectiveness of few-shot FViT tuning. To this end, we propose a framework called Hint-based Data Augmentation (Hint-Aug), which aims to boost FViT in few-shot tuning by augmenting the over-fitted parts of tuning samples with the learned features of pretrained FViTs. Specifically, Hint-Aug integrates two key enablers: (1) an Attentive Over-fitting Detector (AOD) to detect over-confident patches of foundation ViTs for potentially alleviating their over-fitting on the few-shot tuning data and (2) a Confusion-based Feature Infusion (CFI) module to infuse easy-to-confuse features from the pretrained FViTs with the over-confident patches detected by the above AOD in order to enhance the feature diversity during tuning. Extensive experiments and ablation studies on five datasets and three parameter-efficient tuning techniques consistently validate Hint-Aug's effectiveness: 0.04% ~ 32.91% higher accuracy over the state-of-the-art (SOTA) data augmentation method under various low-shot settings. For example, on the Pet dataset, Hint-Aug achieves a 2.22% higher accuracy with 50% less training data over SOTA data augmentation methods.
翻訳日:2023-06-27 22:59:11 公開日:2023-06-26
# 局所エネルギー分布に基づく確率的アニーリングのハイパーパラメータ決定

Local Energy Distribution Based Hyperparameter Determination for Stochastic Simulated Annealing ( http://arxiv.org/abs/2304.11839v3 )

ライセンス: Link先を確認
Naoya Onizawa, Kyo Kuroki, Duckgyu Shin, Takahiro Hanyu(参考訳) 本稿では,局所エネルギー分布に基づく確率的模擬焼鈍(SSA)のためのハイパーパラメータ決定法を提案する。 SSAは、一般的な模擬焼鈍(SA)よりも高速に組合せ最適化問題を解くことができるが、時間を要するハイパーパラメーター探索が必要である。 提案手法はスピン(確率ビット)の局所エネルギー分布に基づいてハイパーパラメータを決定する。 スピンはSSAの基本計算要素であり、その重みで他のスピンとグラフィカルに接続されている。 局所エネルギーの分布は中心極限定理(CLT)に基づいて推定できる。 CLTに基づく正規分布は、従来の手法のO(n^3)からO(1)へのハイパーパラメータ探索の時間的複雑さを低減するために用いられる。 最大カット問題に対するGsetおよびK2000ベンチマークにおいて,決定されたハイパーパラメータを用いたSSAの性能を評価する。 その結果,提案手法は最もよく知られたカット値の約98%の平均カット値が得られることがわかった。

This paper presents a local energy distribution based hyperparameter determination for stochastic simulated annealing (SSA). SSA is capable of solving combinatorial optimization problems faster than typical simulated annealing (SA), but requires a time-consuming hyperparameter search. The proposed method determines hyperparameters based on the local energy distributions of spins (probabilistic bits). The spin is a basic computing element of SSA and is graphically connected to other spins with its weights. The distribution of the local energy can be estimated based on the central limit theorem (CLT). The CLT-based normal distribution is used to determine the hyperparameters, which reduces the time complexity for hyperparameter search from O(n^3) of the conventional method to O(1). The performance of SSA with the determined hyperparameters is evaluated on the Gset and K2000 benchmarks for maximum-cut problems. The results show that the proposed method achieves mean cut values of approximately 98% of the best-known cut values.
翻訳日:2023-06-27 22:58:31 公開日:2023-06-26
# 時系列予測のための新しい特徴表現を用いた説明可能な並列RCNN

Explainable Parallel RCNN with Novel Feature Representation for Time Series Forecasting ( http://arxiv.org/abs/2305.04876v2 )

ライセンス: Link先を確認
Jimeng Shi, Rukmangadh Myana, Vitalii Stebliankin, Azam Shirali and Giri Narasimhan(参考訳) データサイエンスにおける正確な時系列予測は根本的な課題である。 天気や人間の介入といった外部の共変量に影響されることが多く、多くの応用において合理的な精度で予測できる。 我々はそれらを予測された未来の共変量と呼ぶ。 しかし、自己回帰モデルを用いて時系列を反復的に予測しようとする既存の手法は、指数関数的なエラー蓄積をもたらす。 他の戦略では、エンコーダとデコーダの過去と未来は、それぞれ、履歴と将来のデータを別々に扱うことで制限される。 これらの制限に対処するために、過去のデータと将来の共変数を融合させ、それらの相互作用を考慮できるように、新しい特徴表現戦略 -- シフト -- が提案されている。 時系列の複雑なダイナミクスを抽出するために,RNNとCNNを組み合わせた並列ディープラーニングフレームワークを開発した。 また、スキップ接続技術を用いてモデルの性能を向上させる。 3つのデータセットに関する広範な実験により,本手法の有効性が明らかになった。 最後に,grad-camアルゴリズムを用いてモデル解釈可能性を示す。

Accurate time series forecasting is a fundamental challenge in data science. It is often affected by external covariates such as weather or human intervention, which in many applications, may be predicted with reasonable accuracy. We refer to them as predicted future covariates. However, existing methods that attempt to predict time series in an iterative manner with autoregressive models end up with exponential error accumulations. Other strategies hat consider the past and future in the encoder and decoder respectively limit themselves by dealing with the historical and future data separately. To address these limitations, a novel feature representation strategy -- shifting -- is proposed to fuse the past data and future covariates such that their interactions can be considered. To extract complex dynamics in time series, we develop a parallel deep learning framework composed of RNN and CNN, both of which are used hierarchically. We also utilize the skip connection technique to improve the model's performance. Extensive experiments on three datasets reveal the effectiveness of our method. Finally, we demonstrate the model interpretability using the Grad-CAM algorithm.
翻訳日:2023-06-27 22:51:06 公開日:2023-06-26
# 有効量子電磁力学:相対論的水素様原子の1次元モデル

Effective quantum electrodynamics: One-dimensional model of the relativistic hydrogen-like atom ( http://arxiv.org/abs/2305.13787v2 )

ライセンス: Link先を確認
Timoth\'ee Audinet (LCT), Julien Toulouse (LCT, IUF)(参考訳) デルタポテンシャル相互作用を用いた相対論的水素様原子の1次元有効量子電磁力学(QED)モデルを考える。 一般の正確な理論とハートリー・フォック近似について議論する。 核電荷は真空状態(電子-陽電子対の生成)を分極し、これは有界エネルギーのQEDラム型シフトをもたらす。 しかし、この1次元有効qedモデルは、再正規化から生じる3次元理論の最も深刻な技術的困難を取り除いている。 2粒子相互作用における0次真空偏極密度と2粒子相互作用における1次境界状態エネルギーのQEDラム型シフトの計算方法を示す。 本研究は、原子と分子の量子化学的有効qed理論の開発に向けた一歩と考えることができる。

We consider a one-dimensional effective quantum electrodynamics (QED) model of the relativistic hydrogen-like atom using delta-potential interactions. We discuss the general exact theory and the Hartree-Fock approximation. The present one-dimensional effective QED model shares the essential physical feature of the three-dimensional theory: the nuclear charge polarizes the vacuum state (creation of electron-positron pairs) which results in a QED Lamb-type shift of the bound-state energy. Yet, this 1D effective QED model eliminates some of the most serious technical difficulties of the three-dimensional theory coming from renormalization. We show how to calculate the vacuum-polarization density at zeroth order in the two-particle interaction and the QED Lamb-type shift of the bound-state energy at first order in the two-particle interaction. The present work may be considered as a step toward the development of a quantum-chemistry effective QED theory of atoms and molecules.
翻訳日:2023-06-27 22:40:56 公開日:2023-06-26
# 文脈的フレーズ予測ネットワークを用いた文脈的エンドツーエンド音声認識

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network ( http://arxiv.org/abs/2305.12493v3 )

ライセンス: Link先を確認
Kaixun Huang, Ao Zhang, Zhanheng Yang, Pengcheng Guo, Bingshen Mu, Tianyi Xu, Lei Xie(参考訳) 近年,音声認識技術において文脈情報が重要な役割を担い,エンドツーエンド音声認識モデルに組み込むことが注目されている。 しかし、従来のディープバイアス法はバイアスタスクの明示的な監督を欠いていた。 本研究では,注意に基づくディープバイアス手法のための文脈句予測ネットワークを提案する。 このネットワークは文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算して文脈モデルのトレーニングを支援する。 提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。 librispeechコーパスの実験では,提案モデルがベースラインモデルよりも12.1%向上し,文脈句のwerは相対的に40.5%減少することが示された。 さらに,コンテキスト句フィルタリング戦略を適用することで,バイアスリストが大きい場合に,war劣化を効果的に排除する。

Contextual information plays a crucial role in speech recognition technologies and incorporating it into the end-to-end speech recognition models has drawn immense interest recently. However, previous deep bias methods lacked explicit supervision for bias tasks. In this study, we introduce a contextual phrase prediction network for an attention-based deep bias method. This network predicts context phrases in utterances using contextual embeddings and calculates bias loss to assist in the training of the contextualized model. Our method achieved a significant word error rate (WER) reduction across various end-to-end speech recognition models. Experiments on the LibriSpeech corpus show that our proposed model obtains a 12.1% relative WER improvement over the baseline model, and the WER of the context phrases decreases relatively by 40.5%. Moreover, by applying a context phrase filtering strategy, we also effectively eliminate the WER degradation when using a larger biasing list.
翻訳日:2023-06-27 22:40:08 公開日:2023-06-26
# 大規模ランガウジモデルにおけるシンボリック・プロンプト・エリシット計画

Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models ( http://arxiv.org/abs/2305.10276v5 )

ライセンス: Link先を確認
Hanxu Hu, Hongyuan Lu, Huajian Zhang, Wai Lam, Yue Zhang(参考訳) 本稿では,LLMが自然言語でシミュレートされた仮想空間環境を理解し,テキストで行動するために必要な複雑な計画課題におけるLLMの性能について検討する。 我々は、Brick World、NLVRベースのManipulations、Natural Language Navigationという一連の新しいタスクからなるNatural Language Planning and Action(Natala)というベンチマークを提案する。 現在の一般的なLLMであるChatGPTは、複雑な計画にはまだ能力がないことがわかった。 LLMは自然言語で記述された環境をよく理解しているのか、それとも記号表現のような他の代替手段はよりきれいで、LLMで理解しやすいのか? そこで本研究では,シンボリック空間表現が凝縮した複雑な環境を表現する新しい手法であるcos(chain-of-symbol prompting)を提案する。 CoSは使いやすく、LLMに関する追加のトレーニングは必要ありません。 大規模な実験の結果,CoT は ChatGPT と InstructGPT の CoT と比較して,入力に使用するトークンがさらに少ない3つの計画タスクにおいて,CoT プロンプトの性能を明らかに上回っていることがわかった。 Brick World for ChatGPTでは60.8%(31.8%から92.6%)の精度でパフォーマンスが向上した。 CoSはまた、ブリック・ワールドでのデモから中間段階のトークン(407から139まで)の65.8%まで、プロンプト内のトークンの数を明らかに削減している。 https://github.com/hanxuhu/chain-of-symbol-planning

In this paper, we take the initiative to investigate the performance of LLMs on complex planning tasks that require LLMs to understand a virtual spatial environment simulated via natural language and act correspondingly in text. We propose a benchmark named Natural Language Planning and Action (Natala) composed of a set of novel tasks: Brick World, NLVR-based Manipulations, and Natural Language Navigation. We found that current popular LLMs such as ChatGPT still lack abilities in complex planning. This arises a question -- do the LLMs have a good understanding of the environments described in natural language, or maybe other alternatives such as symbolic representations are neater and hence better to be understood by LLMs? To this end, we propose a novel method called CoS (Chain-of-Symbol Prompting) that represents the complex environments with condensed symbolic spatial representations during the chained intermediate thinking steps. CoS is easy to use and does not need additional training on LLMs. Extensive experiments indicate that CoS clearly surpasses the performance of the Chain-of-Thought (CoT) Prompting in all three planning tasks with even fewer tokens used in the inputs compared with CoT on ChatGPT and InstructGPT. The performance gain is strong, by up to 60.8% accuracy (from 31.8% to 92.6%) on Brick World for ChatGPT. CoS also reduces the number of tokens in the prompt obviously, by up to 65.8% of the tokens (from 407 to 139) for the intermediate steps from demonstrations on Brick World. Code and data available at: https://github.com/hanxuhu/chain-of-symbol-planning
翻訳日:2023-06-27 22:39:28 公開日:2023-06-26
# Creative Data Generation: テキストと詩を中心にしたレビュー

Creative Data Generation: A Review Focusing on Text and Poetry ( http://arxiv.org/abs/2305.08493v2 )

ライセンス: Link先を確認
Mohamad Elzohbi, Richard Zhao(参考訳) 機械学習の急速な進歩は、自動データ生成の急増につながり、自然データと人間データと機械データとの区別がますます困難になっている。 こうした進歩にもかかわらず、創造的なデータの生成は依然として課題である。 本稿では,自然言語生成の文脈において,創造性の本質を概観し,理解することを目的とする。 創造的な筆記装置やタスクに対する様々なアプローチを,詩の生成に特化しながら検討する。 創造的なデータ生成の分野での課題と機会に光を当てることを目指しています。

The rapid advancement in machine learning has led to a surge in automatic data generation, making it increasingly challenging to differentiate between naturally or human-generated data and machine-generated data. Despite these advancements, the generation of creative data remains a challenge. This paper aims to investigate and comprehend the essence of creativity, both in general and within the context of natural language generation. We review various approaches to creative writing devices and tasks, with a specific focus on the generation of poetry. We aim to shed light on the challenges and opportunities in the field of creative data generation.
翻訳日:2023-06-27 22:39:01 公開日:2023-06-26
# 位置対応グラフ強化変分オートエンコーダによるネットワーク時系列計算

Networked Time Series Imputation via Position-aware Graph Enhanced Variational Autoencoders ( http://arxiv.org/abs/2305.18612v2 )

ライセンス: Link先を確認
Dingsu Wang, Yuchen Yan, Ruizhong Qiu, Yada Zhu, Kaiyu Guan, Andrew J Margenot, Hanghang Tong(参考訳) 多変量時系列計算(MTS)は近年広く研究されている問題である。 既存の手法は,(1)時系列の特徴に主眼を置く深部再帰モデル,あるいは生成モデル,(2)MTS固有のグラフ構造からのトポロジ情報を利用したグラフニューラルネットワーク(GNN)に基づくモデル,の2つの主要なグループに分けられる。 しかしながら、これらの手法は位相情報を無視するか、グラフ構造が固定され、正確に知られていると仮定する。 したがって、基盤となるグラフが絶えず変化し、エッジが不足しているようなネットワーク時系列(nts)のようなより困難なmtsデータにおいて、正確なインプテーションのためにグラフダイナミクスを十分に活用できない。 本稿では,これらの制約を克服するための新しいアプローチを提案する。 まず、ノード時系列の特徴とグラフ構造の両方に欠落した値を含むNTS上の計算問題を定義する。 そこで我々は,変分オートエンコーダ(VAE)を利用して,ノード時系列の特徴とグラフ構造の両方の欠落値を予測するPoGeVonという新しいモデルの設計を行った。 特に,メッセージパッシング型グラフニューラルネットワーク (gnns) と比較して高い表現力を有するエンコーダにおいて,ランダムウォークに基づく新しいノード位置埋め込み(rwr)を提案する。 さらに,マルチタスク学習の観点からの3段階予測を用いたデコーダの設計を行い,時系列構造とグラフ構造の両方における欠落値を相互に反映する。 実験結果は,ベースライン上でのモデルの有効性を示す。

Multivariate time series (MTS) imputation is a widely studied problem in recent years. Existing methods can be divided into two main groups, including (1) deep recurrent or generative models that primarily focus on time series features, and (2) graph neural networks (GNNs) based models that utilize the topological information from the inherent graph structure of MTS as relational inductive bias for imputation. Nevertheless, these methods either neglect topological information or assume the graph structure is fixed and accurately known. Thus, they fail to fully utilize the graph dynamics for precise imputation in more challenging MTS data such as networked time series (NTS), where the underlying graph is constantly changing and might have missing edges. In this paper, we propose a novel approach to overcome these limitations. First, we define the problem of imputation over NTS which contains missing values in both node time series features and graph structures. Then, we design a new model named PoGeVon which leverages variational autoencoder (VAE) to predict missing values over both node time series features and graph structures. In particular, we propose a new node position embedding based on random walk with restart (RWR) in the encoder with provable higher expressive power compared with message-passing based graph neural networks (GNNs). We further design a decoder with 3-stage predictions from the perspective of multi-task learning to impute missing values in both time series and graph structures reciprocally. Experiment results demonstrate the effectiveness of our model over baselines.
翻訳日:2023-06-27 22:33:06 公開日:2023-06-26
# MemeGraphs: ミームを知識グラフにリンクする

MemeGraphs: Linking Memes to Knowledge Graphs ( http://arxiv.org/abs/2305.18391v2 )

ライセンス: Link先を確認
Vasiliki Kougia, Simon Fetzel, Thomas Kirchmair, Erion \c{C}ano, Sina Moayed Baharlou, Sahand Sharifzadeh, Benjamin Roth(参考訳) ミームは、ソーシャルメディアやインターネット全般において、画像とテキストのモダリティを組み合わせることで、トレンドやアイデアを伝える一般的な形態である。 ユーモアや皮肉を表現できるが、不快な内容を持つこともある。 ミームの自動分析と分類は、その解釈が視覚要素、言語、背景知識の理解に依存しているため、難しい。 したがって、ミーム全体を分類するために、これらのソースとそれらの相互作用を有意義に表現することが重要である。 本研究では,映像をオブジェクトとその視覚的関係で表現するシーングラフと,トランスフォーマーアーキテクチャを用いたミーム分類のための構造化表現として知識グラフを提案する。 提案手法を,ミームの学習(構造化)表現のみを用いるマルチモーダルモデルImgBERTと比較し,一貫した改善を観察する。 さらに、自動生成されたグラフとエンティティリンクを比較した、人間のグラフアノテーションによるデータセットも提供します。 分析により、人間のアノテーションよりも多くのエンティティをリンクする自動手法が示され、自動的に生成されたグラフはミームのヘイトフルネス分類に適していることが示された。

Memes are a popular form of communicating trends and ideas in social media and on the internet in general, combining the modalities of images and text. They can express humor and sarcasm but can also have offensive content. Analyzing and classifying memes automatically is challenging since their interpretation relies on the understanding of visual elements, language, and background knowledge. Thus, it is important to meaningfully represent these sources and the interaction between them in order to classify a meme as a whole. In this work, we propose to use scene graphs, that express images in terms of objects and their visual relations, and knowledge graphs as structured representations for meme classification with a Transformer-based architecture. We compare our approach with ImgBERT, a multimodal model that uses only learned (instead of structured) representations of the meme, and observe consistent improvements. We further provide a dataset with human graph annotations that we compare to automatically generated graphs and entity linking. Analysis shows that automatic methods link more entities than human annotators and that automatically generated graphs are better suited for hatefulness classification in memes.
翻訳日:2023-06-27 22:32:41 公開日:2023-06-26
# 言語モデルは有界な実用的話者である

Language Models are Bounded Pragmatic Speakers ( http://arxiv.org/abs/2305.17760v2 )

ライセンス: Link先を確認
Khanh Nguyen(参考訳) 言語モデルはどのように考えるのか? 本稿では,言語モデルの異なるバリエーションの操作を特徴付ける有界プラガマ話者と呼ばれる確率論的認知モデルを定式化する。 具体的には、人間のフィードバックから強化学習を施した大規模言語モデル(Ouyang et al., 2022)が、心理学者が人間に帰属する高速・低速モデル(Kahneman, 2011)と概念的に類似した思考モデルであることを示す。 本稿では,人間フィードバックからの強化学習の限界を思考の素早いモデルとして議論し,この枠組みを拡張するための道筋を提案する。 本研究は,言語モデルの理解,評価,発展に関する洞察を得るために,認知的確率的モデリングアプローチを採用することの価値を強調する。

How do language models "think"? This paper formulates a probabilistic cognitive model called the bounded pragmatic speaker, which can characterize the operation of different variations of language models. Specifically, we demonstrate that large language models fine-tuned with reinforcement learning from human feedback (Ouyang et al., 2022) embody a model of thought that conceptually resembles a fast-and-slow model (Kahneman, 2011), which psychologists have attributed to humans. We discuss the limitations of reinforcement learning from human feedback as a fast-and-slow model of thought and propose avenues for expanding this framework. In essence, our research highlights the value of adopting a cognitive probabilistic modeling approach to gain insights into the comprehension, evaluation, and advancement of language models.
翻訳日:2023-06-27 22:31:35 公開日:2023-06-26
# l^2$空間におけるポテンシャル散乱:(2)波束の厳密な散乱確率

Potential scattering in $L^2$ space: (2) Rigorous scattering probability of wave packets ( http://arxiv.org/abs/2305.16970v2 )

ライセンス: Link先を確認
Kenzo Ishikawa(参考訳) 本稿では,波動パケットを用いた実験系におけるポテンシャル散乱を確率原理に則って定式化する。 ウェーブパケットは、特定のポテンシャルにおいてハミルトニアンと一貫して進化する。 非正規化散乱状態の困難さは、これらの系における完全なウェーブパケットによって克服され、一貫した振幅が示される。 標準断面からなる厳密な確率、独特な性質の新しい用語、極度の前方方向における干渉パターンを見いだす。 遷移確率の新しい変分法を提案する。

This paper formulates potential scatterings in experimental setups with wave packets in accord with probability principle. Wave packets evolve consistently with a Hamiltonian in certain potentials. Difficulties of non-normalized scattering states are overcome by a complete set of wave packets in these systems, and a consistent amplitude that preserves manifest unitarity is given. A rigorous probability composed of a standard cross section, new term of unique properties, and an interference pattern at an extreme forward direction, is found. A new variational method for the transition probability is proposed.
翻訳日:2023-06-27 22:31:00 公開日:2023-06-26
# l^2$空間におけるポテンシャル散乱:(1)定常状態の非直交性

Potential scatterings in $L^2$ space: (1) non-orthogonality of stationary states ( http://arxiv.org/abs/2305.16939v2 )

ライセンス: Link先を確認
Kenzo Ishikawa(参考訳) 異なるエネルギーの固有状態の直交性とポテンシャル散乱におけるその影響はラベル付けされていない。 異なるエネルギーの散乱状態のスカラー積は有限幅のポテンシャルにおいて有限の非直交項を持つ。 それらの重ね合わせは時間依存のノルムを持ち、分離状態には適さない。 これらのシステムでは、現象を完全に記述した厳密な遷移確率を見つけるための摂動法と変分法が実現可能である。 様々な例外的ポテンシャルにおいて、直交性が満たされる。

Orthogonality of eigenstates of different energies and its implications in potential scattering are unlabeled. Scalar products of scattering states of different energies are found to have finite non-orthogonal terms in potentials of finite widths. Their superpositions have time-dependent norms, and are not suitable for isolate states. In these systems, a perturbative method and a variational method are viable methods for finding a rigorous transition probability that describes phenomena completely. In various exceptional potentials, an orthogonality is satisfied.
翻訳日:2023-06-27 22:30:52 公開日:2023-06-26
# ゴール指向タスクで普遍的に現れる逆正方形レヴィウォーク

Inverse square Levy walk emerging universally in goal-oriented tasks ( http://arxiv.org/abs/2305.15559v3 )

ライセンス: Link先を確認
Shuji Shinohara, Daiki Morita, Nobuhito Manome, Ryota Hayashi, Toru Moriyama, Hiroshi Okamoto, Pegio-Yukio Gunji, and Ung-il Chung(参考訳) ステップ長の発生頻度がパワーロー分布に従うレヴィウォークは,様々なレベルの生物の移動行動で観察できる。 電力指数が2に近いレヴィウォークが観察されており、その理由は不明である。 本研究では,逆正方形歩行(コーシー歩行)を普遍的に生成し,コーシー歩行が現れる条件を同定するモデルを提案する。 コーシーウォーキングがゴール指向のタスクで普遍的に現れることを実証する。 ゴールが明確である場合、「ゴール指向」という用語を使うが、これは異なる方法で達成でき、一意的に決定できない。 エージェントが2次元空間における確率分布から生成されたデータを観測し,その確率分布の中央座標を逐次推定するシミュレーションを行った。 エージェントは、データ生成分布の仮説として確率分布のモデルを有し、データポイントが観測される度にモデルを変更することにより、観測されたデータの発生確率を増大させることができる。 これを実現するためには、モデルの中心座標を観測されたデータに近づけなければならない。 しかし、二次元空間の場合、中心の補正方向に任意性が生じ、このタスクはゴール指向である。 x方向とy方向の修正量をランダムに割り当てる戦略と、移動を最小限に抑えるように割り当てを決定する戦略の2つの事例を分析した。 その結果、ランダムな戦略が使われると、コーシーウォークが現れることがわかった。 最小限の戦略を使用すると、ブラウンウォークが現れる。 運動量を最小限に抑える制約の存在や欠如は、ブラウンとレヴィの歩行の違いを引き起こす要因であるかもしれない。

The Levy walk in which the frequency of occurrence of step lengths follows a power-law distribution, can be observed in the migratory behavior of organisms at various levels. Levy walks with power exponents close to 2 are observed, and the reasons are unclear. This study aims to propose a model that universally generates inverse square Levy walks (called Cauchy walks) and to identify the conditions under which Cauchy walks appear. We demonstrate that Cauchy walks emerge universally in goal-oriented tasks. We use the term "goal-oriented" when the goal is clear, but this can be achieved in different ways, which cannot be uniquely determined. We performed a simulation in which an agent observed the data generated from a probability distribution in a two-dimensional space and successively estimated the central coordinates of that probability distribution. The agent has a model of probability distribution as a hypothesis for data-generating distribution and can modify the model such that each time a data point is observed, thereby increasing the estimated probability of occurrence of the observed data. To achieve this, the center coordinates of the model must be moved closer to those of the observed data. However, in the case of a two-dimensional space, arbitrariness arises in the direction of correction of the center; this task is goal oriented. We analyze two cases: a strategy that allocates the amount of modification randomly in the x- and y-directions, and a strategy that determines allocation such that movement is minimized. The results reveal that when a random strategy is used, the Cauchy walk appears. When the minimum strategy is used, the Brownian walk appears. The presence or absence of the constraint of minimizing the amount of movement may be a factor that causes the difference between Brownian and Levy walks.
翻訳日:2023-06-27 22:30:26 公開日:2023-06-26
# リピータ付き1次元ネットワークにおける絡み合いとテレポーテーション

Entanglement and Teleportation in a 1-D Network with Repeaters ( http://arxiv.org/abs/2306.01406v2 )

ライセンス: Link先を確認
Ganesh Mylavarapu, Indranil Chakrabarty, Kaushiki Mukherjee, Minyi Huang, Junde Wu(参考訳) 最も単純な量子ネットワークは1次元の量子ネットワークであり、各ノードに1人のプレイヤーが存在する。 リモートの絡み合い分布では、各プレイヤーが中間ノードで測定を行い、遠隔で分離された初期ノードと最終ノードの間の絡み合い状態を生成する。 情報源と対象ノード間のネットワークにおける情報の流れと絡み合いのパーコレーションが重要な研究領域であることを示すことが不可欠である。 これにより、リソース状態の限界と、リモートの絡み合い分布のプロセスで実施される測定を理解するのに役立ちます。 本稿では, 最終絡み合い状態のコンカレンスが, 1-D鎖に存在する初期絡み合い状態のコンカレンスとどのように関連しているかを検討する。 我々は、ヴェルナー状態、ベル対角状態、一般混合状態のような混合絡み合った状態に対して純粋な絡み合った状態に対してなされた作業を拡張する。 測定が完璧に行われている状況に限定されませんでした。 また,不完全交換を考慮した場合,これらの関係がどう変化するかを検討する。 本研究では,スワップ数と成功確率の測定値の限界を求め,スワップ後の状態が絡み合うことを保証する。 これらに加えて、測定が完全で同じ例の集合で不完全である場合、初期ノードから最終ノード(テレポーテーションの忠実度を計算して)への量子情報の送信量についても検討する。 また、得られた最終状態が情報を転送可能であることを保証するため、スワップ数と測定成功確率の制限も取得する。 これらの結果は、2つの量子プロセッサ間でリモートの絡み合った分布で量子情報を送信するという、非常に将来的な応用をもたらす。

The most simplest form of quantum network is an one dimensional quantum network with a single player in each node. In remote entanglement distribution each of the players carry out measurement at the intermediate nodes to produce an entangled state between initial and final node which are remotely separated. It is imperative to say that the flow of information as well as the percolation of entanglement in a network between the source and target node is an important area of study. This will help us to understand the limits of the resource states as well as the measurements that are carried out in the process of remote entanglement distribution. In this article we investigate how the concurrence of the final entangled state obtained is connected with the concurrences of the initial entangled states present in a 1-D chain. We extend the works done for the pure entangled states for mixed entangled states like Werner states, Bell diagonal states and for general mixed states. We did not limit ourselves to a situation where the measurements are happening perfectly. We also investigate how these relations change when we consider imperfect swapping. We obtain the limits on the number of swappings as well as the success probability measurements to ensure the final state to be entangled state after swapping. In addition to these we also investigate on how much quantum information can be sent from the initial node to the final node (by computing the teleportation fidelity) when the measurement is perfect and imperfect with the same set of examples. Here also we obtain the limits on the number of swapping and the success probability of measurement to ensure that the final state obtained is capable of transferring the information . These results have tremendous future applications in sending quantum information between two quantum processors in remote entangled distribution.
翻訳日:2023-06-27 22:23:03 公開日:2023-06-26
# アダプティブフローサンプリングを用いたエネルギーベースモデルのバランストレーニング

Balanced Training of Energy-Based Models with Adaptive Flow Sampling ( http://arxiv.org/abs/2306.00684v3 )

ライセンス: Link先を確認
Louis Grenioux, \'Eric Moulines, Marylou Gabri\'e(参考訳) エネルギーベースモデル(EBMs)は、非正規化ログ密度を直接パラメータ化する汎用密度推定モデルである。 非常に柔軟であるが、ebmsはモデルの特定の正規化定数を欠いているため、モデルの可能性は計算的に難解である。 いくつかの近似サンプルと変分推論手法が提案され、トレーニングの確率勾配を推定している。 これらの手法はサンプル生成に有望な結果を示しているが、データセット内の異なるクラスの相対的重要性を決定するなど、推定密度の統計的精度にはほとんど注意が払われていない。 そこで本研究では, サンプリングを容易にするために最近提案されているNF(正規化フロー)という, 異なる種類の生成モデルを用いたESMの新しい最大格トレーニングアルゴリズムを提案する。 本手法はトレーニング中にNFをEMMに適合させることで,NFを用いたサンプリング方式によりESMの正確な勾配が常に得られ,最終的には新しいデータを生成するための高速サンプリング装置となる。

Energy-based models (EBMs) are versatile density estimation models that directly parameterize an unnormalized log density. Although very flexible, EBMs lack a specified normalization constant of the model, making the likelihood of the model computationally intractable. Several approximate samplers and variational inference techniques have been proposed to estimate the likelihood gradients for training. These techniques have shown promising results in generating samples, but little attention has been paid to the statistical accuracy of the estimated density, such as determining the relative importance of different classes in a dataset. In this work, we propose a new maximum likelihood training algorithm for EBMs that uses a different type of generative model, normalizing flows (NF), which have recently been proposed to facilitate sampling. Our method fits an NF to an EBM during training so that an NF-assisted sampling scheme provides an accurate gradient for the EBMs at all times, ultimately leading to a fast sampler for generating new data.
翻訳日:2023-06-27 22:21:50 公開日:2023-06-26
# mri脳腫瘍セグメンテーションのための新しい信頼感誘発クラス活性化マッピング

A Novel Confidence Induced Class Activation Mapping for MRI Brain Tumor Segmentation ( http://arxiv.org/abs/2306.05476v2 )

ライセンス: Link先を確認
Yu-Jen Chen, Yiyu Shi, Tsung-Yi Ho(参考訳) 磁気共鳴イメージング(MRI)は、脳腫瘍のセグメンテーションにおいて一般的に用いられる技術であり、患者の評価や治療計画に重要である。 ラベル付けプロセスが専門知識に頼りにくくするために,クラスアクティベーションマッピング(CAM)を用いた弱教師付きセマンティックセマンティックセグメンテーション(WSSS)法が提案されている。 しかし、現在のCAMベースのWSSSメソッドは、勾配やトレーニング可能なパラメータなどの内部ニューラルネットワーク情報を使用してオブジェクトのローカライゼーションマップを生成し、それによってサブ最適解が得られる。 これらの問題に対処するために,各特徴マップの重み付けを目標クラスの信頼度を用いて算出する信頼誘導型CAM(Cfd-CAM)を提案する。 2つの脳腫瘍データセットに対する実験により、Cfd-CAMは、同じレベルの監督下で既存の最先端の手法よりも優れていることが示された。 総じて,提案するcfd-camアプローチは脳腫瘍の分画精度を向上し,他の医用画像診断のためのwsss法の開発に有用な知見を与える。

Magnetic resonance imaging (MRI) is a commonly used technique for brain tumor segmentation, which is critical for evaluating patients and planning treatment. To make the labeling process less laborious and dependent on expertise, weakly-supervised semantic segmentation (WSSS) methods using class activation mapping (CAM) have been proposed. However, current CAM-based WSSS methods generate the object localization map using internal neural network information, such as gradient or trainable parameters, which can lead to suboptimal solutions. To address these issues, we propose the confidence-induced CAM (Cfd-CAM), which calculates the weight of each feature map by using the confidence of the target class. Our experiments on two brain tumor datasets show that Cfd-CAM outperforms existing state-of-the-art methods under the same level of supervision. Overall, our proposed Cfd-CAM approach improves the accuracy of brain tumor segmentation and may provide valuable insights for developing better WSSS methods for other medical imaging tasks.
翻訳日:2023-06-27 22:13:27 公開日:2023-06-26
# fhefl: 完全な均質な暗号化フレンドリーなプライバシー保護型連合学習とビザンチンユーザ

FheFL: Fully Homomorphic Encryption Friendly Privacy-Preserving Federated Learning with Byzantine Users ( http://arxiv.org/abs/2306.05112v2 )

ライセンス: Link先を確認
Yogachandran Rahulamathavan, Charuka Herath, Xiaolan Liu, Sangarapillai Lambotharan and Carsten Maple(参考訳) 従来の機械学習パラダイムにおけるデータプライバシの問題を軽減するために、フェデレートラーニング(FL)技術が開発された。 FLはユーザのデータが常にユーザの手元にあることを保証しますが、グラデーションはグローバルモデルを構築するために集中型サーバと共有されます。 これにより、サーバが共有勾配からプライベート情報を推測できるプライバシーリークが発生する。 この欠陥を軽減するため、次世代flアーキテクチャは、モデル更新をサーバから保護するための暗号化と匿名化技術を提案した。 しかし、このアプローチは、悪意のあるユーザが偽の勾配を共有するなど、他の課題を生み出します。 勾配は暗号化されているため、サーバは不正なユーザを特定することができない。 両攻撃を緩和するために,完全準同型暗号(fhe)スキームに基づく新しいflアルゴリズムを提案する。 FLにおけるモデルアグリゲーションをサポートする分散マルチキー加算準同型暗号方式を開発した。 また,ユーザの非毒殺率を利用して,暗号化ドメイン内での新たなアグリゲーション方式を開発し,プライバシの確保を図りながら,データ中毒攻撃を効果的に対処する。 厳密なセキュリティ、プライバシ、収束、実験的分析は、FheFLが新規で、セキュアで、プライベートであり、合理的な計算コストで同等の精度を達成することを示すために提供されている。

The federated learning (FL) technique was developed to mitigate data privacy issues in the traditional machine learning paradigm. While FL ensures that a user's data always remain with the user, the gradients are shared with the centralized server to build the global model. This results in privacy leakage, where the server can infer private information from the shared gradients. To mitigate this flaw, the next-generation FL architectures proposed encryption and anonymization techniques to protect the model updates from the server. However, this approach creates other challenges, such as malicious users sharing false gradients. Since the gradients are encrypted, the server is unable to identify rogue users. To mitigate both attacks, this paper proposes a novel FL algorithm based on a fully homomorphic encryption (FHE) scheme. We develop a distributed multi-key additive homomorphic encryption scheme that supports model aggregation in FL. We also develop a novel aggregation scheme within the encrypted domain, utilizing users' non-poisoning rates, to effectively address data poisoning attacks while ensuring privacy is preserved by the proposed encryption scheme. Rigorous security, privacy, convergence, and experimental analyses have been provided to show that FheFL is novel, secure, and private, and achieves comparable accuracy at reasonable computational cost.
翻訳日:2023-06-27 22:12:37 公開日:2023-06-26
# 居所としての場面

Scene as Occupancy ( http://arxiv.org/abs/2306.02851v3 )

ライセンス: Link先を確認
Chonghao Sima, Wenwen Tong, Tai Wang, Li Chen, Silei Wu, Hanming Deng, Yi Gu, Lewei Lu, Ping Luo, Dahua Lin, Hongyang Li(参考訳) 人間ドライバーは、視覚システムによって複雑な交通シーンを簡単に記述できる。 このような正確な認識能力はドライバーの計画に不可欠である。 これを実現するには、物理的3dシーンを3d占有と呼ばれるセルごとの意味ラベルを持つ構造化グリッドマップに定量化する幾何認識表現が望ましい。 拘束箱の形式と比較すると、占領の背景にある重要な洞察は、シーン内の重要な障害物のきめ細かい詳細を捉え、その後の作業を容易にすることである。 先行的あるいは同時的な文献は、主に単一のシーン完了タスクに集中しており、この占有率表現の可能性は、より広範な影響を過小評価するかもしれない。 本稿では,3次元空間を再現するためのカスケードとテンポラリボクセルデコーダを備えた多視点視覚中心パイプラインであるoccnetを提案する。 OccNetの中核には3D物理世界を表す汎用の占有層がある。 このような記述子は、検出、セグメンテーション、計画を含む幅広い運転タスクに適用できる。 この表現の有効性と提案アルゴリズムの有効性を検証するため,我々はnuScenes上に構築された初の高品位3D占有率ベンチマークOpenOccを提案する。 実験の結果,複数のタスクにまたがる性能向上が確認できた。例えば,動作計画では衝突速度が15%~58%低下し,提案手法の優位性が示された。

Human driver can easily describe the complex traffic scene by visual system. Such an ability of precise perception is essential for driver's planning. To achieve this, a geometry-aware representation that quantizes the physical 3D scene into structured grid map with semantic labels per cell, termed as 3D Occupancy, would be desirable. Compared to the form of bounding box, a key insight behind occupancy is that it could capture the fine-grained details of critical obstacles in the scene, and thereby facilitate subsequent tasks. Prior or concurrent literature mainly concentrate on a single scene completion task, where we might argue that the potential of this occupancy representation might obsess broader impact. In this paper, we propose OccNet, a multi-view vision-centric pipeline with a cascade and temporal voxel decoder to reconstruct 3D occupancy. At the core of OccNet is a general occupancy embedding to represent 3D physical world. Such a descriptor could be applied towards a wide span of driving tasks, including detection, segmentation and planning. To validate the effectiveness of this new representation and our proposed algorithm, we propose OpenOcc, the first dense high-quality 3D occupancy benchmark built on top of nuScenes. Empirical experiments show that there are evident performance gain across multiple tasks, e.g., motion planning could witness a collision rate reduction by 15%-58%, demonstrating the superiority of our method.
翻訳日:2023-06-27 22:11:02 公開日:2023-06-26
# 非均一サンプリングによるネットワークデータの等角予測の有効性について

On the Validity of Conformal Prediction for Network Data Under Non-Uniform Sampling ( http://arxiv.org/abs/2306.07252v2 )

ライセンス: Link先を確認
Robert Lunde(参考訳) 実例ではよく見られるが,ノードの非表現的なサンプルとなる様々なサンプリングメカニズムの下で,ネットワークデータの共形予測の特性について検討する。 これらのサンプリング機構を,過集団に適用する選択規則として解釈し,適切な選択イベントにおける共形予測条件の有効性について検討する。 選択規則が置換不変性を満たす場合、サンプルされたサブアレイは選択イベント上で交換可能条件であり、その超集団に対して共有交換可能条件が成立することを示す。 以上の結果から,エゴネットワークや雪玉サンプリングに関連する特定の選択事象に対する共形予測の有限サンプルの有効性が示唆された。 また,グラフ上のランダムなウォークでデータをサンプリングすると,重み付き共形予測の変種が個体群から選択したノードに対して漸近的に妥当な予測集合を生成することを示した。

We study the properties of conformal prediction for network data under various sampling mechanisms that commonly arise in practice but often result in a non-representative sample of nodes. We interpret these sampling mechanisms as selection rules applied to a superpopulation and study the validity of conformal prediction conditional on an appropriate selection event. We show that the sampled subarray is exchangeable conditional on the selection event if the selection rule satisfies a permutation invariance property and a joint exchangeability condition holds for the superpopulation. Our result implies the finite-sample validity of conformal prediction for certain selection events related to ego networks and snowball sampling. We also show that when data are sampled via a random walk on a graph, a variant of weighted conformal prediction yields asymptotically valid prediction sets for an independently selected node from the population.
翻訳日:2023-06-27 22:01:07 公開日:2023-06-26
# 量子ビット準備・測定シナリオにおける半対称情報完全測定の自己テスト

Self-testing of semisymmetric informationally complete measurements in a qubit prepare-and-measure scenario ( http://arxiv.org/abs/2306.07248v3 )

ライセンス: Link先を確認
G\'abor Dr\'otos, K\'aroly F. P\'al, Tam\'as V\'ertesi(参考訳) 自己テストは量子システムを検証する強力な方法である。 当初はデバイス非依存(DI)設定で提案されていたが、その後半デバイス非依存(セミDI)設定に緩和された。 本研究では,セミディ準備・測定 (pm) のシナリオを用いて, 1 パラメータ族に属する特定の非射影量子ビット測定の自己テストに焦点をあてる。 興味深いことに,これまでに発見された最も単純なPMシナリオは,4つの準備と4つの測定のみを含む。 この測定は 4-アウトカムな非射影作用素値測度(POVM)であり、Gengらによって導入された半対称情報完備(半SIC)POVMのクラスに該当する。 [Phys. Rev. Lett. 126, 100401 (2021)] そこで我々は,PMシナリオにおけるセミDI自己検査の分析手法を開発した。 我々の結果は、潜在的に最小限の PM シナリオ内で超極小の qubit POVM を自己テストする方法を開拓する。

Self-testing is a powerful method for certifying quantum systems. Initially proposed in the device-independent (DI) setting, self-testing has since been relaxed to the semi-device-independent (semi-DI) setting. In this study, we focus on the self-testing of a specific type of non-projective qubit measurements belonging to a one-parameter family, using the semi-DI prepare-and-measure (PM) scenario. Remarkably, we identify the simplest PM scenario discovered so far, involving only four preparations and four measurements, for self-testing the fourth measurement. This particular measurement is a four-outcome non-projective positive operator-valued measure (POVM) and falls in the class of semisymmetric informationally complete (semi-SIC) POVMs introduced by Geng et al. [Phys. Rev. Lett. 126, 100401 (2021)]. To achieve this, we develop analytical techniques for semi-DI self-testing in the PM scenario. Our results shall pave the way towards self-testing any extremal qubit POVM within a potentially minimal PM scenario.
翻訳日:2023-06-27 22:00:51 公開日:2023-06-26
# MaxcutのためのQAOAにおけるより効率的なパラメータ初期化戦略

More efficient parameter initialization strategy in QAOA for Maxcut ( http://arxiv.org/abs/2306.06986v2 )

ライセンス: Link先を確認
Xiao-Hui Ni, Bin-Bin Cai, Hai-Ling Liu, Su-Juan Qin, Fei Gao and Qiao-Yan Wen(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、組合せ最適化問題の解法として広く用いられているハイブリッド量子古典アルゴリズムである。 QAOAの大きな課題のひとつは、パラメータ化量子回路の最適パラメータを見つけることである。 この課題を満たすために、一部の学者はヒューリスティックパラメータの初期化戦略を提唱した。 補間型戦略 (INTERP) はMaxcutのQAOAにおけるヒューリスティックパラメータ初期化戦略である。 ランダム初期化と比較すると、InterPは準最適解を見つける時間を大幅に削減する。 本稿ではまず,ランニングコストの削減を目的としたInterP+を提案する。 InterP と比較すると、InterP+ は多重補間を利用して最適化のラウンドの少なくとも半分を削減している。 シミュレーションの結果, InterP+ は InterP と同じ準最適解が得られる場合, 走行時間の約2/3 を節約できることがわかった。 さらに、マルチスタートとセレクションを導入することで、Multi-INTERP+を提案する。 シミュレーションの結果, Multi-INTERP+ は InterP と同じ準最適解が得られるだけでなく, InterP や InterP+ よりも高い平均性能が得られることがわかった。

The Quantum Approximate Optimization Algorithm (QAOA) is a prospective hybrid quantum-classical algorithm, which is widely used to solve combinatorial optimization problems. One major challenge of QAOA lies in finding optimal parameters of the parameterized quantum circuit. To meet this challenge, some scholars put forward heuristic parameter initialization strategies. Interpolation-based strategy (INTERP) is a heuristic parameter initialization strategy in QAOA for Maxcut. Compared with random initialization, INTERP greatly reduces the time to find quasi-optimal solutions. In this paper, we first propose INTERP+ to save the running costs. Compared with INTERP, INTERP+ takes advantage of multi-interpolation and cuts down at least half the number of rounds of optimization. The simulation results demonstrate that INTERP+ saves about 2/3 of running time when it can obtain the same quasi-optimal solutions as INTERP. In addition, we present Multi-INTERP+ by introducing multi-start and selection. The simulation results show that Multi-INTERP+ can not only get the same quasi-optimal solutions as INTERP but also get higher average performance than INTERP and INTERP+.
翻訳日:2023-06-27 22:00:32 公開日:2023-06-26
# 画像認識モデルロバスト性評価のための差分テストフレームワーク

A Differential Testing Framework to Evaluate Image Recognition Model Robustness ( http://arxiv.org/abs/2306.06208v2 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) 画像認識タスクは一般的にディープラーニングを使用し、膨大な処理能力を必要とするため、高速でタイムリーな処理にはGPUやTPUなどのハードウェアアクセラレータに依存する。 リアルタイム画像認識タスクの失敗は、モデル展開中にハードウェアアクセラレーターのサブ最適マッピングによって起こり、タイミングの不確実性と誤動作を引き起こす可能性がある。 ハードウェアアクセラレータのマッピングは、ディープラーニングフレームワークやコンパイラ、デバイスライブラリといった、計算環境と呼ばれる複数のソフトウェアコンポーネントを通じて行われます。 自律運転や医用画像などの安全クリティカルなアプリケーションにおける画像認識タスクの利用の増加により、ディープラーニングフレームワークやコンパイラ最適化、ハードウェアデバイスなどのパラメータがモデル性能や正確性に与える影響がよく理解されていないため、計算環境の変化に対する彼らの堅牢性を評価することが不可欠である。 本稿では,多くの計算環境パラメータに対して,ディープラーニングモデルの生成,実行,差分解析,テストを可能にする差分テストフレームワークを提案する。 本研究では,imagenetデータセットを用いた3つの人気のある画像認識モデルのロバスト性解析を行い,ディープラーニングフレームワークの変更,コンパイラ最適化,ハードウェアデバイスへの影響を評価する。 異なる設定における誤分類や推論時間の違いによる影響を報告する。 合計で、ディープラーニングフレームワーク全体で最大72%のアウトプットラベルの差異を観測し、コンパイラの最適化を適用する場合、推論時間に関して予想外のパフォーマンス低下を最大82%観察した。 また,本フレームワークにおける解析ツールを用いて,観測された相違の原因を理解するために,故障解析を行う。

Image recognition tasks typically use deep learning and require enormous processing power, thus relying on hardware accelerators like GPUs and TPUs for fast, timely processing. Failure in real-time image recognition tasks can occur due to sub-optimal mapping on hardware accelerators during model deployment, which may lead to timing uncertainty and erroneous behavior. Mapping on hardware accelerators is done through multiple software components like deep learning frameworks, compilers, device libraries, that we refer to as the computational environment. Owing to the increased use of image recognition tasks in safety-critical applications like autonomous driving and medical imaging, it is imperative to assess their robustness to changes in the computational environment, as the impact of parameters like deep learning frameworks, compiler optimizations, and hardware devices on model performance and correctness is not well understood. In this paper we present a differential testing framework, which allows deep learning model variant generation, execution, differential analysis and testing for a number of computational environment parameters. Using our framework, we conduct an empirical study of robustness analysis of three popular image recognition models using the ImageNet dataset, assessing the impact of changing deep learning frameworks, compiler optimizations, and hardware devices. We report the impact in terms of misclassifications and inference time differences across different settings. In total, we observed up to 72% output label differences across deep learning frameworks, and up to 82% unexpected performance degradation in terms of inference time, when applying compiler optimizations. Using the analysis tools in our framework, we also perform fault analysis to understand the reasons for the observed differences.
翻訳日:2023-06-27 22:00:14 公開日:2023-06-26
# 計測に基づく量子計算モデルを用いた表面コードエンコーダ回路

Encoder Circuit For Surface Code using Measurement-Based Quantum Computing Model ( http://arxiv.org/abs/2306.10267v2 )

ライセンス: Link先を確認
Priyam Srivastava, Vaibhav Katyal and Ankur Raina(参考訳) 表面符号は量子誤差補正理論において最も重要な位相安定化符号の一つである。 本稿では,資源状態としてクラスタ状態を用いる計測ベースの量子計算(MBQC)により,表面コードを得る効率的な方法を提案する。 簡易な二次元表面符号をスタビライザ形式を用いて研究し,解析する。 また,曲面符号の安定化器を計算により取得するアルゴリズムを提案する。 我々はfowlerらによって得られた表層符号の安定化器の違いに注目し、cz絡み込み操作で形成されるクラスタ状態とは対照的に、cnot絡み込み操作を用いてリソース状態を生成する。 この違いを理解するための理論的計算を提供する。 得られた曲面符号は、1つの論理量子ビットを符号化するエンコーダ回路として実用的に使用できる。

Surface codes are one of the most important topological stabilizer codes in the theory of quantum error correction. In this paper, we provide an efficient way to obtain surface codes through Measurement-based quantum computation (MBQC) using cluster state as the resource state. Simple twodimensional surface codes are studied and analyzed using stabilizer formalism. We also present an algorithm to computationally obtain the stabilizer of the surface codes, through which we later determine the distance of the codes. We note the difference in the stabilizers of the surface codes obtained by Fowler et al. wherein they used CNOT entangling operation to create the resource state as opposed to the cluster state which is formed using CZ entangling operation. We provide a theoretical calculation to understand this difference. The obtained surface codes can be used practically as an encoder circuit to encode one logical qubit.
翻訳日:2023-06-27 21:53:50 公開日:2023-06-26
# テキスト・画像拡散モデルにおけるベイズ文脈更新のためのエネルギーに基づく交差注意

Energy-Based Cross Attention for Bayesian Context Update in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.09869v2 )

ライセンス: Link先を確認
Geon Yeong Park, Jeongsol Kim, Beomsu Kim, Sang Wan Lee, Jong Chul Ye(参考訳) 画像生成タスクにおけるテキスト間拡散モデルの顕著な性能にもかかわらず、近年の研究では、生成した画像がテキストプロンプトの意図した意味的内容をキャプチャできないという問題を提起している。 そこで本研究では,新しいエネルギーモデル(EBM)フレームワークを提案する。 具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。 次に, コンテキストベクトルの対数後方勾配を更新し, その後のクロスアテンション層に転送することにより, エネルギー関数のネスト階層を暗黙的に最小化する。 我々の潜在ebmsは、異なる文脈からのクロス・アテンション出力の線形結合としてゼロショット合成生成を可能にする。 広範にわたる実験により,本手法は,マルチコンセプト生成,テキスト誘導画像のインペイント,リアルおよび合成画像編集など,様々な画像生成タスクの処理に有効であることが実証された。

Despite the remarkable performance of text-to-image diffusion models in image generation tasks, recent studies have raised the issue that generated images sometimes cannot capture the intended semantic contents of the text prompts, which phenomenon is often called semantic misalignment. To address this, here we present a novel energy-based model (EBM) framework. Specifically, we first formulate EBMs of latent image representations and text embeddings in each cross-attention layer of the denoising autoencoder. Then, we obtain the gradient of the log posterior of context vectors, which can be updated and transferred to the subsequent cross-attention layer, thereby implicitly minimizing a nested hierarchy of energy functions. Our latent EBMs further allow zero-shot compositional generation as a linear combination of cross-attention outputs from different contexts. Using extensive experiments, we demonstrate that the proposed method is highly effective in handling various image generation tasks, including multi-concept generation, text-guided image inpainting, and real and synthetic image editing.
翻訳日:2023-06-27 21:53:18 公開日:2023-06-26
# 実用的シャープネス認識最小化はオプティマへの道のりで収束しない

Practical Sharpness-Aware Minimization Cannot Converge All the Way to Optima ( http://arxiv.org/abs/2306.09850v2 )

ライセンス: Link先を確認
Dongkuk Si, Chulhee Yun(参考訳) Sharpness-Aware Minimization (SAM) は、現在の点$x_t$の摂動の勾配に基づいて降下ステップを取る最適化器である。 既存の研究は、滑らかな函数に対するSAMの収束を証明しているが、それらは減衰する摂動サイズを$\rho$と仮定し、実践から切り離された$y_t$の勾配正規化をしない。 このギャップに対処するために、SAMの決定論的・確率的バージョンを実践的な構成(例えば、定数$\rho$ と $y_t$ の勾配正規化)で研究し、(非)凸性仮定を持つ滑らかな函数上のそれらの収束性を探る。 おそらく、多くのシナリオにおいて、SAM が大域ミニマ点や定常点に収束する能力に制限があることが分かる。 滑らかな強凸函数に対して、決定論的SAMは$\tilde \Theta(\frac{1}{T^2})$の厳密な大域収束率を享受する一方で、確率的SAMの収束境界は必然的な加法的項$O(\rho^2)$を被り、オプティマの近傍のみの収束を示す。 実際、そのような$O(\rho^2)$の因子は、私たちが考慮しているすべての設定において確率的SAMに対して、また非凸の場合において決定論的SAMに対して生じる。 その結果,摂動サイズや勾配正規化を損なうことなく,対数でsamの特性が大きく異なることが明らかとなり,一方のバージョンから得られる直観は他方に当てはまらない可能性が示唆された。

Sharpness-Aware Minimization (SAM) is an optimizer that takes a descent step based on the gradient at a perturbation $y_t = x_t + \rho \frac{\nabla f(x_t)}{\lVert \nabla f(x_t) \rVert}$ of the current point $x_t$. Existing studies prove convergence of SAM for smooth functions, but they do so by assuming decaying perturbation size $\rho$ and/or no gradient normalization in $y_t$, which is detached from practice. To address this gap, we study deterministic/stochastic versions of SAM with practical configurations (i.e., constant $\rho$ and gradient normalization in $y_t$) and explore their convergence properties on smooth functions with (non)convexity assumptions. Perhaps surprisingly, in many scenarios, we find out that SAM has limited capability to converge to global minima or stationary points. For smooth strongly convex functions, we show that while deterministic SAM enjoys tight global convergence rates of $\tilde \Theta(\frac{1}{T^2})$, the convergence bound of stochastic SAM suffers an inevitable additive term $O(\rho^2)$, indicating convergence only up to neighborhoods of optima. In fact, such $O(\rho^2)$ factors arise for stochastic SAM in all the settings we consider, and also for deterministic SAM in nonconvex cases; importantly, we prove by examples that such terms are unavoidable. Our results highlight vastly different characteristics of SAM with vs. without decaying perturbation size or gradient normalization, and suggest that the intuitions gained from one version may not apply to the other.
翻訳日:2023-06-27 21:53:02 公開日:2023-06-26
# サウンドデミックスチャレンジ2023 music demixing track technical report: tfc-tdf-unet v3

Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3 ( http://arxiv.org/abs/2306.09382v2 )

ライセンス: Link先を確認
Minseok Kim, Jun Hyung Lee, Soonyoung Jung(参考訳) 本報告では,2023年の音楽デミキシング・チャレンジの音楽デミキシング・トラックの受賞ソリューションについて述べる。 まずtfc-tdf-unet v3を提案する。musedbベンチマークで最新の結果を得るための,時間効率の高い音楽ソース分離モデルである。 次に、ノイズロバストトレーニングの損失マスキングアプローチを含む、各リーダボードに対するソリューションに関する詳細を述べます。 モデルトレーニングと最終提案を再現するコードはgithub.com/kuielab/sdx23で入手できる。

In this report, we present our award-winning solutions for the Music Demixing Track of Sound Demixing Challenge 2023. First, we propose TFC-TDF-UNet v3, a time-efficient music source separation model that achieves state-of-the-art results on the MUSDB benchmark. We then give full details regarding our solutions for each Leaderboard, including a loss masking approach for noise-robust training. Code for reproducing model training and final submissions is available at github.com/kuielab/sdx23.
翻訳日:2023-06-27 21:52:26 公開日:2023-06-26
# TSMixer:多変量時系列予測のための軽量MLPミクサモデル

TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2306.09364v2 )

ライセンス: Link先を確認
Vijay Ekambaram, Arindam Jati, Nam Nguyen, Phanwadee Sinthong, Jayant Kalagnanam(参考訳) トランスフォーマーは時系列予測において、長い列の相互作用を捉える能力で人気を集めている。 しかし、その高いメモリとコンピューティング要件は長期的な予測に重大なボトルネックをもたらす。 そこで本研究では,多層パーセプトロン(MLP)モジュールのみからなる軽量ニューラルネットワークTSMixerを提案する。 tsmixerはパッチ付き時系列の多変量予測と表現学習のために設計されており、トランスフォーマーの効率的な代替手段を提供する。 我々のモデルはコンピュータビジョンにおけるMLP-Mixerモデルの成功からインスピレーションを得ている。 時系列にVision MLP-Mixerを適用する際の課題を示し、精度を高めるために経験的検証されたコンポーネントを導入する。 これは、階層構造やチャネル相関などの時系列特性を明示的にモデル化するための、MLP-Mixerバックボーンにオンライン和解ヘッドを付加する新しい設計パラダイムを含む。 また,既存のパッチチャネル混合方式では一般的な課題である,多種多様なデータセット間のノイズチャネルインタラクションと一般化を効果的に処理するためのハイブリッドチャネルモデリング手法を提案する。 さらに、重要な特徴を優先するために、バックボーンに単純なゲートアテンション機構が導入される。 これらの軽量なコンポーネントを組み込むことで、単純なmlp構造の学習能力を大幅に向上させ、最小の計算使用量で複雑なトランスフォーマーモデルを上回る。 さらに、TSMixerのモジュール設計により、教師付きとマスク付きの両方の自己教師付き学習手法との互換性が実現され、時系列基礎モデルのための有望なビルディングブロックとなる。 TSMixer は最先端の MLP と Transformer のモデルよりも 8-60% の差で予測できる。 また、Patch-Transformerモデルの最新の強力なベンチマーク(1~2%)を上回り、メモリとランタイム(2~3倍)を大幅に削減した。

Transformers have gained popularity in time series forecasting for their ability to capture long-sequence interactions. However, their high memory and computing requirements pose a critical bottleneck for long-term forecasting. To address this, we propose TSMixer, a lightweight neural architecture exclusively composed of multi-layer perceptron (MLP) modules. TSMixer is designed for multivariate forecasting and representation learning on patched time series, providing an efficient alternative to Transformers. Our model draws inspiration from the success of MLP-Mixer models in computer vision. We demonstrate the challenges involved in adapting Vision MLP-Mixer for time series and introduce empirically validated components to enhance accuracy. This includes a novel design paradigm of attaching online reconciliation heads to the MLP-Mixer backbone, for explicitly modeling the time-series properties such as hierarchy and channel-correlations. We also propose a Hybrid channel modeling approach to effectively handle noisy channel interactions and generalization across diverse datasets, a common challenge in existing patch channel-mixing methods. Additionally, a simple gated attention mechanism is introduced in the backbone to prioritize important features. By incorporating these lightweight components, we significantly enhance the learning capability of simple MLP structures, outperforming complex Transformer models with minimal computing usage. Moreover, TSMixer's modular design enables compatibility with both supervised and masked self-supervised learning methods, making it a promising building block for time-series Foundation Models. TSMixer outperforms state-of-the-art MLP and Transformer models in forecasting by a considerable margin of 8-60%. It also outperforms the latest strong benchmarks of Patch-Transformer models (by 1-2%) with a significant reduction in memory and runtime (2-3X).
翻訳日:2023-06-27 21:52:17 公開日:2023-06-26
# DreamSim: 合成データを用いた人間の視覚的類似性の新たな次元学習

DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data ( http://arxiv.org/abs/2306.09344v2 )

ライセンス: Link先を確認
Stephanie Fu, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard Zhang, Tali Dekel, Phillip Isola(参考訳) 現在の知覚的類似度メトリクスは、ピクセルとパッチのレベルで動作する。 これらのメトリクスは、低レベルの色とテクスチャの観点から画像を比較するが、画像レイアウト、オブジェクトポーズ、セマンティックコンテンツの中間レベルの類似性と相違を捉えられていない。 本稿では,画像の全体的評価を行う知覚指標を開発する。 最初のステップは、さまざまな方法で画像ペアよりも人間の類似性判断の新しいデータセットを収集することです。 このデータセットにとって重要なのは、判断はほぼ自動であり、すべてのオブザーバーによって共有されることだ。 これを実現するために、最近のテキスト・ツー・イメージモデルを用いて、様々な次元に沿って摂動する合成ペアを作成する。 私たちは、一般的な知覚指標が新しいデータを説明することの欠如を観察し、人間の知覚に合致するように調整された新しいメトリクスdreamsimを紹介します。 我々は、我々のメトリクスが異なる視覚的属性によってどのように影響を受けるかを分析し、色やレイアウトに敏感でありながら、前景オブジェクトやセマンティックコンテンツに重点を置いていることを発見した。 特に,合成データに基づいて訓練されているにもかかわらず,実画像に一般化し,検索および復元作業において強い結果を与える。 さらに,これらの課題において,従来の学習指標と最近の大規模ビジョンモデルの両方よりも優れていた。

Current perceptual similarity metrics operate at the level of pixels and patches. These metrics compare images in terms of their low-level colors and textures, but fail to capture mid-level similarities and differences in image layout, object pose, and semantic content. In this paper, we develop a perceptual metric that assesses images holistically. Our first step is to collect a new dataset of human similarity judgments over image pairs that are alike in diverse ways. Critical to this dataset is that judgments are nearly automatic and shared by all observers. To achieve this we use recent text-to-image models to create synthetic pairs that are perturbed along various dimensions. We observe that popular perceptual metrics fall short of explaining our new data, and we introduce a new metric, DreamSim, tuned to better align with human perception. We analyze how our metric is affected by different visual attributes, and find that it focuses heavily on foreground objects and semantic content while also being sensitive to color and layout. Notably, despite being trained on synthetic data, our metric generalizes to real images, giving strong results on retrieval and reconstruction tasks. Furthermore, our metric outperforms both prior learned metrics and recent large vision models on these tasks.
翻訳日:2023-06-27 21:51:47 公開日:2023-06-26
# 手続き生成を用いた無限フォトリアリスティック世界

Infinite Photorealistic Worlds using Procedural Generation ( http://arxiv.org/abs/2306.09310v2 )

ライセンス: Link先を確認
Alexander Raistrick, Lahav Lipson, Zeyu Ma, Lingjie Mei, Mingzhe Wang, Yiming Zuo, Karhan Kayan, Hongyu Wen, Beining Han, Yihan Wang, Alejandro Newell, Hei Law, Ankit Goyal, Kaiyu Yang, Jia Deng(参考訳) 自然界の光リアルな3Dシーンをプロシージャ生成するInfinigenを紹介する。 形状からテクスチャに至るまで、すべての資産はランダムな数学的規則によってスクラッチから生成され、外部のソースを使用しず、無限のバリエーションと構成が可能である。 infinigenは、植物、動物、地形、および火災、雲、雨、雪などの自然現象を含む、自然界の物や場面を広くカバーする。 Infinigenは、オブジェクト検出、セマンティックセグメンテーション、光学フロー、および3D再構成を含む幅広いコンピュータビジョンタスクのための無制限で多様なトレーニングデータを生成するために使用できる。 infinigenはコンピュータビジョン研究などにとって有用なリソースだと考えています。 ビデオ、コード、プリ生成データについてはhttps://infinigen.orgをご覧ください。

We introduce Infinigen, a procedural generator of photorealistic 3D scenes of the natural world. Infinigen is entirely procedural: every asset, from shape to texture, is generated from scratch via randomized mathematical rules, using no external source and allowing infinite variation and composition. Infinigen offers broad coverage of objects and scenes in the natural world including plants, animals, terrains, and natural phenomena such as fire, cloud, rain, and snow. Infinigen can be used to generate unlimited, diverse training data for a wide range of computer vision tasks including object detection, semantic segmentation, optical flow, and 3D reconstruction. We expect Infinigen to be a useful resource for computer vision research and beyond. Please visit https://infinigen.org for videos, code and pre-generated data.
翻訳日:2023-06-27 21:51:26 公開日:2023-06-26
# コンテンツに基づく画像検索のための注釈コスト効率の良い能動学習

Annotation Cost Efficient Active Learning for Content Based Image Retrieval ( http://arxiv.org/abs/2306.11605v2 )

ライセンス: Link先を確認
Julia Henkel, Genc Hoxha, Gencer Sumbul, Lars M\"ollenbrok, Beg\"um Demir(参考訳) ディープメトリックラーニング(DML)に基づく手法は,リモートセンシング(RS)におけるコンテントベース画像検索(CBIR)に極めて有効であることがわかった。 ディープニューラルネットワークのモデルパラメータを正確に学習するためには、ほとんどのDML手法は、大量の注釈付きトレーニングイメージを必要とする。 この問題に対処するため,本論文では,アノテーションコストの高効率能動学習法(ANNEAL)を提案する。 提案手法は, 深い距離空間を正確にモデル化しながら, 最も有益な画像対を類似あるいは異質に注釈することで, 反復的にトレーニング集合を充実させることを目的としている。 これは2段階連続で達成される。 最初のステップでは、ペアワイズイメージの類似性は、利用可能なトレーニングセットに基づいてモデル化される。 そして、第2ステップでは、最も不確実で多様な(情報的)画像対をアノテーションとして選択する。 CBIRの既存のALメソッドとは異なり、ANNEALの各ALイテレーションでは、人間の専門家が、最も情報に富んだイメージペアを類似/異種として注釈付けするよう求められる。 これは、ランドユース/ランドカバークラスラベルで注釈を付けるのに比べ、アノテーションコストを大幅に削減する。 実験の結果,本手法の有効性が示された。 ANNEALのコードはhttps://git.tu-berlin.de/rsim/ANNEALで公開されている。

Deep metric learning (DML) based methods have been found very effective for content-based image retrieval (CBIR) in remote sensing (RS). For accurately learning the model parameters of deep neural networks, most of the DML methods require a high number of annotated training images, which can be costly to gather. To address this problem, in this paper we present an annotation cost efficient active learning (AL) method (denoted as ANNEAL). The proposed method aims to iteratively enrich the training set by annotating the most informative image pairs as similar or dissimilar, while accurately modelling a deep metric space. This is achieved by two consecutive steps. In the first step the pairwise image similarity is modelled based on the available training set. Then, in the second step the most uncertain and diverse (i.e., informative) image pairs are selected to be annotated. Unlike the existing AL methods for CBIR, at each AL iteration of ANNEAL a human expert is asked to annotate the most informative image pairs as similar/dissimilar. This significantly reduces the annotation cost compared to annotating images with land-use/land cover class labels. Experimental results show the effectiveness of our method. The code of ANNEAL is publicly available at https://git.tu-berlin.de/rsim/ANNEAL.
翻訳日:2023-06-27 20:07:56 公開日:2023-06-26
# LoSparse:低ランクおよびスパース近似に基づく大規模言語モデルの構造化圧縮

LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation ( http://arxiv.org/abs/2306.11222v2 )

ライセンス: Link先を確認
Yixiao Li, Yifan Yu, Qingru Zhang, Chen Liang, Pengcheng He, Weizhu Chen, Tuo Zhao(参考訳) トランスフォーマーモデルは、様々な自然言語タスクで顕著な結果を得たが、しばしば非常に大きく、膨大な記憶と計算資源を必要とする。 これらのモデルのサイズと複雑さを小さくするために、低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるロスパース(低ランクおよびスパース近似)を提案する。 本手法は,低位近似とプルーニングの利点を併せ持つとともに,その限界を回避できる。 低位近似はニューロンのコヒーレントと発現の部分を圧縮し、プルーニングはニューロンの非コヒーレントと非発現の部分を除去する。 プルーニングは低位近似の多様性を高め、低位近似はプルーニングが過剰な発現ニューロンを失うことを防ぐ。 本手法は,自然言語理解,質問応答,自然言語生成タスクについて評価する。 既存の圧縮方法を大幅に上回っていることを示す。

Transformer models have achieved remarkable results in various natural language tasks, but they are often prohibitively large, requiring massive memories and computational resources. To reduce the size and complexity of these models, we propose LoSparse (Low-Rank and Sparse approximation), a novel model compression technique that approximates a weight matrix by the sum of a low-rank matrix and a sparse matrix. Our method combines the advantages of both low-rank approximations and pruning, while avoiding their limitations. Low-rank approximation compresses the coherent and expressive parts in neurons, while pruning removes the incoherent and non-expressive parts in neurons. Pruning enhances the diversity of low-rank approximations, and low-rank approximation prevents pruning from losing too many expressive neurons. We evaluate our method on natural language understanding, question answering, and natural language generation tasks. We show that it significantly outperforms existing compression methods.
翻訳日:2023-06-27 20:06:53 公開日:2023-06-26
# OVLA:潜時透かしを用いたニューラルネットワークのオーナシップ検証

OVLA: Neural Network Ownership Verification using Latent Watermarks ( http://arxiv.org/abs/2306.13215v2 )

ライセンス: Link先を確認
Feisi Fu, Wenchao Li(参考訳) ニューラルネットワークのオーナシップ検証は、これらのモデルを違法コピー、フリーライディング、再配布、その他の知的財産の誤用から保護するために重要である。 本稿では,潜時透かしの概念に基づくニューラルネットワークのオーナシップ検証手法を提案する。 既存のオーナシップ検証方法は、ホワイトボックス攻撃で攻撃者がアクセスしやすく、ネットワークの通常の操作に有害なニューラルネットワークパラメータに制約を変更したり導入したり、あるいはバックドア除去テクニックの影響を受けるデータ中毒ベースのバックドア攻撃に似た入力で特定の透かしに応答するようにネットワークを訓練する。 本稿では,ネットワークの正常な動作を,オーナシップ検証中の透かし入力に対する応答から切り離して,これらの問題に対処する。 鍵となる考え方は、所有者の秘密鍵が適用されない限り、透かしが休眠状態のままであるようにネットワークを訓練することである。 秘密鍵は、ネットワークのパラメータの所有者のみが知っている特定の摂動として実現される。 提案手法は,バックドア検出,バックドア除去,サロゲートモデル攻撃に対する強力な防御を提供すると同時に,攻撃者が秘密の重み付けキーを推測しようとする場合や,異なるキーを持つ自己の透かしを事前学習したニューラルネットワークに埋め込む場合の曖昧性攻撃に対する保護を提供する。 実験結果は,提案手法の利点と有効性を示す。

Ownership verification for neural networks is important for protecting these models from illegal copying, free-riding, re-distribution and other intellectual property misuse. We present a novel methodology for neural network ownership verification based on the notion of latent watermarks. Existing ownership verification methods either modify or introduce constraints to the neural network parameters, which are accessible to an attacker in a white-box attack and can be harmful to the network's normal operation, or train the network to respond to specific watermarks in the inputs similar to data poisoning-based backdoor attacks, which are susceptible to backdoor removal techniques. In this paper, we address these problems by decoupling a network's normal operation from its responses to watermarked inputs during ownership verification. The key idea is to train the network such that the watermarks remain dormant unless the owner's secret key is applied to activate it. The secret key is realized as a specific perturbation only known to the owner to the network's parameters. We show that our approach offers strong defense against backdoor detection, backdoor removal and surrogate model attacks.In addition, our method provides protection against ambiguity attacks where the attacker either tries to guess the secret weight key or uses fine-tuning to embed their own watermarks with a different key into a pre-trained neural network. Experimental results demonstrate the advantages and effectiveness of our proposed approach.
翻訳日:2023-06-27 19:59:32 公開日:2023-06-26
# 破滅的なAIリスクの概観

An Overview of Catastrophic AI Risks ( http://arxiv.org/abs/2306.12001v2 )

ライセンス: Link先を確認
Dan Hendrycks, Mantas Mazeika, Thomas Woodside(参考訳) 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、ますます高度なAIシステムが破滅的なリスクをもたらす可能性を懸念する声が高まっている。 多数のリスクが別々に詳述されているが、組織的な議論と、それらを軽減する努力をより良い情報化するための潜在的な危険の例示の必要性が差し迫っている。 This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. リスクのカテゴリごとに,特定のハザードを記述し,図解的なストーリーを提示し,理想的なシナリオを想定し,これらのハザードを緩和するための実践的提案を提案する。 私たちの目標は、これらのリスクを包括的に理解し、AIが安全な方法で開発され、デプロイされることを保証するために、集団的かつ積極的な取り組みを促すことです。 最終的には、破滅的な結果の可能性を最小化しながら、この強力な技術のメリットを実現することができることを願っています。

Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks. Although numerous risks have been detailed separately, there is a pressing need for a systematic discussion and illustration of the potential dangers to better inform efforts to mitigate them. This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. For each category of risk, we describe specific hazards, present illustrative stories, envision ideal scenarios, and propose practical suggestions for mitigating these dangers. Our goal is to foster a comprehensive understanding of these risks and inspire collective and proactive efforts to ensure that AIs are developed and deployed in a safe manner. Ultimately, we hope this will allow us to realize the benefits of this powerful technology while minimizing the potential for catastrophic outcomes.
翻訳日:2023-06-27 19:58:02 公開日:2023-06-26
# 止まるべきか、行くべきか:不均一な人口で早期に止まる

Should I Stop or Should I Go: Early Stopping with Heterogeneous Populations ( http://arxiv.org/abs/2306.11839v2 )

ライセンス: Link先を確認
Hammaad Adam, Fan Yin, Mary Hu, Neil Tenenholtz, Lorin Crawford, Lester Mackey, Allison Koenecke(参考訳) ランダム化された実験は、意図しない有害な効果を持つ治療のため、しばしば早期に停止する必要がある。 実験の早期停止を決定する既存の方法は通常、集計データに適用され、治療効果の不均一性を考慮しない。 本稿では,不均質個体群に対する害実験の早期停止について検討する。 まず,治療が参加者の少数派グループを傷つける場合,現在の方法が実験を停止しないことが多いことを確かめる。 次に、因果機械学習を用いて、異種早期停止のための初めて広く適用可能な方法であるCLASHを開発する。 シミュレーションおよび実データ上でのCLASHの性能を実証し,臨床治験およびA/B試験の早期停止に有効であることを示す。

Randomized experiments often need to be stopped prematurely due to the treatment having an unintended harmful effect. Existing methods that determine when to stop an experiment early are typically applied to the data in aggregate and do not account for treatment effect heterogeneity. In this paper, we study the early stopping of experiments for harm on heterogeneous populations. We first establish that current methods often fail to stop experiments when the treatment harms a minority group of participants. We then use causal machine learning to develop CLASH, the first broadly-applicable method for heterogeneous early stopping. We demonstrate CLASH's performance on simulated and real data and show that it yields effective early stopping for both clinical trials and A/B tests.
翻訳日:2023-06-27 19:57:27 公開日:2023-06-26
# 構造MRIによる認知障害の進展予測のための脳解剖モデル

Brain Anatomy Prior Modeling to Forecast Clinical Progression of Cognitive Impairment with Structural MRI ( http://arxiv.org/abs/2306.11837v2 )

ライセンス: Link先を確認
Lintao Zhang, Jinjian Wu, Lihong Wang, Li Wang, David C. Steffens, Shijun Qiu, Guy G. Potter and Mingxia Liu(参考訳) 脳構造MRIは認知障害(CI)の今後の進展を評価するために広く用いられている。 従来の学習に基づく研究は通常、小さなラベル付きトレーニングデータの問題に悩まされるが、大規模な公開データベースには大量の構造的MRIが存在する。 直感的には、これらの公開MRIから派生した脳解剖学的構造(タスク固有のラベル情報なしでも)は、CI進行軌道予測を促進するために使用できる。 しかし、このような脳解剖学に先立つことはほとんどない。 そこで本研究では,脳の解剖学的構造を探索し,小型のMRIによる認知障害の臨床経過を予測するための脳解剖前モデル(BAPM)フレームワークを提案する。 具体的には、BAPMはプリテキストモデルと下流モデルで構成され、脳解剖学を明示的にモデル化するための共有脳解剖誘導エンコーダを備えている。 エンコーダの他に、プリテキストモデルは2つの補助的なタスク(MRI再構成と脳組織セグメンテーション)のための2つのデコーダを含み、下流モデルは分類のための予測器に依存している。 脳解剖誘導エンコーダは、解剖前モデリングのための診断ラベルなしで、9,344個の補助MRIのプリテキストモデルで事前訓練される。 このエンコーダを凍結すると、下流モデルは予測のために限られたターゲットMRI上で微調整される。 BAPMは448例のT1強調MRIを用いた2つのCI関連研究で検証した。 実験の結果,(1)4つのci進行予測課題,(2)mr画像再構成,(3)脳組織分割におけるbapmの有効性が,いくつかの最先端手法と比較して示唆された。

Brain structural MRI has been widely used to assess the future progression of cognitive impairment (CI). Previous learning-based studies usually suffer from the issue of small-sized labeled training data, while there exist a huge amount of structural MRIs in large-scale public databases. Intuitively, brain anatomical structures derived from these public MRIs (even without task-specific label information) can be used to boost CI progression trajectory prediction. However, previous studies seldom take advantage of such brain anatomy prior. To this end, this paper proposes a brain anatomy prior modeling (BAPM) framework to forecast the clinical progression of cognitive impairment with small-sized target MRIs by exploring anatomical brain structures. Specifically, the BAPM consists of a pretext model and a downstream model, with a shared brain anatomy-guided encoder to model brain anatomy prior explicitly. Besides the encoder, the pretext model also contains two decoders for two auxiliary tasks (i.e., MRI reconstruction and brain tissue segmentation), while the downstream model relies on a predictor for classification. The brain anatomy-guided encoder is pre-trained with the pretext model on 9,344 auxiliary MRIs without diagnostic labels for anatomy prior modeling. With this encoder frozen, the downstream model is then fine-tuned on limited target MRIs for prediction. We validate the BAPM on two CI-related studies with T1-weighted MRIs from 448 subjects. Experimental results suggest the effectiveness of BAPM in (1) four CI progression prediction tasks, (2) MR image reconstruction, and (3) brain tissue segmentation, compared with several state-of-the-art methods.
翻訳日:2023-06-27 19:57:14 公開日:2023-06-26
# 分離データに対するロジスティック回帰のための勾配降下収束

Gradient Descent Converges Linearly for Logistic Regression on Separable Data ( http://arxiv.org/abs/2306.14381v1 )

ライセンス: Link先を確認
Kyriakos Axiotis and Maxim Sviridenko(参考訳) 変動学習率による勾配降下は、ロジスティック回帰目標に対して損失$f(x) \leq 1.1 \cdot f(x^*) + \epsilon$を保証し、誤差$\epsilon$は反復数で指数関数的に減衰し、任意の固定解$x^*$のエントリの大きさで多項式的に崩壊することを示す。 これは、強い凸性の欠如が一階法の線形収束を妨げるという共通の直観とは対照的であり、勾配降下における可変学習率の重要性を強調している。 また、当社のアイデアをロジスティック回帰のスパースに適用することで、スパーシティ-エラートレードオフを指数関数的に改善します。

We show that running gradient descent with variable learning rate guarantees loss $f(x) \leq 1.1 \cdot f(x^*) + \epsilon$ for the logistic regression objective, where the error $\epsilon$ decays exponentially with the number of iterations and polynomially with the magnitude of the entries of an arbitrary fixed solution $x^*$. This is in contrast to the common intuition that the absence of strong convexity precludes linear convergence of first-order methods, and highlights the importance of variable learning rates for gradient descent. We also apply our ideas to sparse logistic regression, where they lead to an exponential improvement of the sparsity-error tradeoff.
翻訳日:2023-06-27 15:15:07 公開日:2023-06-26
# 合成単独:文法的誤り訂正のための合成データの暗面を探索する

Synthetic Alone: Exploring the Dark Side of Synthetic Data for Grammatical Error Correction ( http://arxiv.org/abs/2306.14377v1 )

ライセンス: Link先を確認
Chanjun Park, Seonmin Koo, Seolhwa Lee, Jaehyung Seo, Sugyeong Eo, Hyeonseok Moon, Heuiseok Lim(参考訳) データ中心のAIアプローチは、モデルを変更することなくモデルパフォーマンスを向上させることを目的としており、モデルパフォーマンスに肯定的な影響を与えることが示されている。 合成データに基づくデータ中心AIは近年注目されているが、パフォーマンス改善の可能性を秘めているため、データ中心AIは、実世界のデータと公開可能なベンチマークデータセットを使用して、排他的に検証されてきた。 これに関して、データ中心のaiはまだ現実世界のデータに大きく依存しており、合成データを用いたモデルの検証はまだ完全には行われていない。 データ中心のAI方法論であるデータ品質制御(ノイズ注入とバランスデータ)は、肯定的な影響があると評価され、合成データのみでトレーニングされたモデルにも同じ肯定的な影響を示すか? そこで本研究では,文法的誤り訂正(GEC)に基づく合成データと実世界のデータを用いたモデルの比較分析を行った。 実験の結果,従来研究で報告されていたように,データ品質制御手法が実世界データでトレーニングされたモデルに正の影響を与え,一方,合成データのみをトレーニングしたモデルでは負のインパクトが観察されることがわかった。

Data-centric AI approach aims to enhance the model performance without modifying the model and has been shown to impact model performance positively. While recent attention has been given to data-centric AI based on synthetic data, due to its potential for performance improvement, data-centric AI has long been exclusively validated using real-world data and publicly available benchmark datasets. In respect of this, data-centric AI still highly depends on real-world data, and the verification of models using synthetic data has not yet been thoroughly carried out. Given the challenges above, we ask the question: Does data quality control (noise injection and balanced data), a data-centric AI methodology acclaimed to have a positive impact, exhibit the same positive impact in models trained solely with synthetic data? To address this question, we conducted comparative analyses between models trained on synthetic and real-world data based on grammatical error correction (GEC) task. Our experimental results reveal that the data quality control method has a positive impact on models trained with real-world data, as previously reported in existing studies, while a negative impact is observed in models trained solely on synthetic data.
翻訳日:2023-06-27 15:14:50 公開日:2023-06-26
# 脳グラフの解釈可能なスパーシフィケーション:グラフニューラルネットワークのより良い実践と効果的な設計

Interpretable Sparsification of Brain Graphs: Better Practices and Effective Designs for Graph Neural Networks ( http://arxiv.org/abs/2306.14375v1 )

ライセンス: Link先を確認
Gaotang Li, Marlena Duda, Xiang Zhang, Danai Koutra, Yujun Yan(参考訳) 脳領域間の構造的および機能的関係をモデル化する脳グラフは、グラフ分類を含む神経科学および臨床応用において重要である。 しかし、高次脳グラフは、高い実行時間とメモリ使用量、限定的な解釈可能性を含む計算上の問題を引き起こす。 本稿では,ノイズの多いエッジを排除し,脳グラフを分散化するためのグラフニューラルネットワーク(GNN)の有効設計について検討する。 事前の作業は説明可能性やタスクに関係しない特性に基づいてノイズの多いエッジを取り除くが、スパーシファイドグラフによるパフォーマンス向上の効果は保証されていない。 さらに、既存のアプローチは、複数のグラフにまたがる集合的なエッジ削除をしばしば見落としている。 これらの問題に対処するために,様々なスパーシフィケーションモデルを分析するための反復フレームワークを提案する。 私たちの発見は以下の通りである。 i) グラフ分類タスクにおけるGNNの性能を劣化させるため,解釈可能性の優先順位付け手法はグラフスカラー化には適さないかもしれない。 (二)GNNトレーニングによるエッジ選択の同時学習は、ポストトレーニングよりも有益である。 (iii)グラフ間の共有エッジ選択は、各グラフの別選択よりも優れており、 (iv)エッジ選択におけるタスク関連勾配情報支援 これらの知見に基づいて, グラフ分類性能を最大5.1%向上し, エッジを55.0%削減する新しいモデル, Interpretable Graph Sparsification (IGS) を提案する。 IGSによって同定された保持エッジは神経科学的解釈を提供し、確立された文献によって支持される。

Brain graphs, which model the structural and functional relationships between brain regions, are crucial in neuroscientific and clinical applications involving graph classification. However, dense brain graphs pose computational challenges including high runtime and memory usage and limited interpretability. In this paper, we investigate effective designs in Graph Neural Networks (GNNs) to sparsify brain graphs by eliminating noisy edges. While prior works remove noisy edges based on explainability or task-irrelevant properties, their effectiveness in enhancing performance with sparsified graphs is not guaranteed. Moreover, existing approaches often overlook collective edge removal across multiple graphs. To address these issues, we introduce an iterative framework to analyze different sparsification models. Our findings are as follows: (i) methods prioritizing interpretability may not be suitable for graph sparsification as they can degrade GNNs' performance in graph classification tasks; (ii) simultaneously learning edge selection with GNN training is more beneficial than post-training; (iii) a shared edge selection across graphs outperforms separate selection for each graph; and (iv) task-relevant gradient information aids in edge selection. Based on these insights, we propose a new model, Interpretable Graph Sparsification (IGS), which enhances graph classification performance by up to 5.1% with 55.0% fewer edges. The retained edges identified by IGS provide neuroscientific interpretations and are supported by well-established literature.
翻訳日:2023-06-27 15:14:29 公開日:2023-06-26
# 従来の境界を越える:データ管理オペレーション(DMOps)を強化するためのIAA(Inter-Annotator Agreement)の活用

Transcending Traditional Boundaries: Leveraging Inter-Annotator Agreement (IAA) for Enhancing Data Management Operations (DMOps) ( http://arxiv.org/abs/2306.14374v1 )

ライセンス: Link先を確認
Damrin Kim, NamHyeok Kim, Chanjun Park, Harksoo Kim(参考訳) 本稿では,従来のラベリング一貫性評価に使用されるアノテーション間合意(iaa)を利用して,データ管理操作(dmops)を最適化する新しい手法を提案する。 我々は、個々のアノテータのラベル付け品質を予測するのにIAAを使うことを提唱し、データ生産におけるコストと時間効率をもたらす。 さらに,本研究は,資料の難易度予測におけるIAAの可能性を強調し,データ構築プロセス全体の効率化を図る。 この研究は、データ駆動型研究最適化におけるIAAの幅広い応用可能性を強調し、効率性、コスト削減、高品質なデータを優先する大規模データプロジェクトに重要な意味を持つ。

This paper presents a novel approach of leveraging Inter-Annotator Agreement (IAA), traditionally used for assessing labeling consistency, to optimize Data Management Operations (DMOps). We advocate for the use of IAA in predicting the labeling quality of individual annotators, leading to cost and time efficiency in data production. Additionally, our work highlights the potential of IAA in forecasting document difficulty, thereby boosting the data construction process's overall efficiency. This research underscores IAA's broader application potential in data-driven research optimization and holds significant implications for large-scale data projects prioritizing efficiency, cost reduction, and high-quality data.
翻訳日:2023-06-27 15:14:08 公開日:2023-06-26
# 野生におけるアノテーション間の合意--実世界のシナリオにおける新たな役割と考察

Inter-Annotator Agreement in the Wild: Uncovering Its Emerging Roles and Considerations in Real-World Scenarios ( http://arxiv.org/abs/2306.14373v1 )

ライセンス: Link先を確認
NamHyeok Kim, Chanjun Park(参考訳) IAA(Inter-Annotator Agreement)は、自然言語処理タスクにおけるラベル一貫性の尺度として一般的に用いられる。 しかし、実世界のシナリオでは、IAAは伝統的な用途を超えて様々な役割と意味を持っている。 本稿では、IAAを一貫性の尺度としてだけでなく、実用的な応用に有効に活用できる汎用ツールとして捉える。 さらに、IAAを適用する際の様々な考察や潜在的懸念について考察し、これらの課題を効果的にナビゲートするための戦略を提案する。

Inter-Annotator Agreement (IAA) is commonly used as a measure of label consistency in natural language processing tasks. However, in real-world scenarios, IAA has various roles and implications beyond its traditional usage. In this paper, we not only consider IAA as a measure of consistency but also as a versatile tool that can be effectively utilized in practical applications. Moreover, we discuss various considerations and potential concerns when applying IAA and suggest strategies for effectively navigating these challenges.
翻訳日:2023-06-27 15:13:53 公開日:2023-06-26
# ドメイン適応的トラバーサビリティ予測のための擬似三元交叉訓練

Pseudo-Trilateral Adversarial Training for Domain Adaptive Traversability Prediction ( http://arxiv.org/abs/2306.14370v1 )

ライセンス: Link先を確認
Zheng Chen, Durgakant Pushp, Jason M. Gregory, Lantao Liu(参考訳) トラバーサビリティ予測は自律ナビゲーションの基本的な認識能力である。 ディープニューラルネットワーク(DNN)は、過去10年間、トラバーサビリティを予測するために広く使われてきた。 DNNのパフォーマンスは、大量のデータを活用することで大幅に向上する。 しかし、異なる領域におけるデータの多様性は予測性能に大きなギャップを生じさせる。 本研究では,非教師付きドメイン適応(UDA)を実現するために,粗大なアライメント(CALI)を採用した新しい擬三元対角モデルを提案する。 本研究の目的は,高効率で認識モデルを転送し,高額なデータラベリングを排除し,アクセスが容易なソースドメインから様々な挑戦対象ドメインへの適応時の一般化能力を向上させることである。 既存のUDAメソッドは通常、両側のゼロサムゲーム構造を採用する。 擬似三角形ゲーム構造であるCALIモデルは、既存の二角形ゲーム構造よりも有利であることを示す。 この提案は理論的解析とアルゴリズム設計を橋渡しし、容易で安定したトレーニングを持つ効率的なudaモデルへと繋がる。 さらに,CALIの変種であるInformed CALI (ICALI) を開発し,CALIの結果に基づいて情報領域を混合するデータ拡張手法の最近の成功にインスパイアされた。 この混合ステップは、2つのドメイン間の明示的なブリッジを提供し、トレーニング中にパフォーマンスの低いクラスを公開する。 複数のドメイン適応セットアップにおいて,提案モデルが複数のベースラインに対して優れていることを示す。 提案モデルの有効性をさらに検証するために,視覚プランナーと知覚モデルを組み合わせることでナビゲーションシステムを構築し,複雑な自然環境におけるモデルの信頼性を示す。

Traversability prediction is a fundamental perception capability for autonomous navigation. Deep neural networks (DNNs) have been widely used to predict traversability during the last decade. The performance of DNNs is significantly boosted by exploiting a large amount of data. However, the diversity of data in different domains imposes significant gaps in the prediction performance. In this work, we make efforts to reduce the gaps by proposing a novel pseudo-trilateral adversarial model that adopts a coarse-to-fine alignment (CALI) to perform unsupervised domain adaptation (UDA). Our aim is to transfer the perception model with high data efficiency, eliminate the prohibitively expensive data labeling, and improve the generalization capability during the adaptation from easy-to-access source domains to various challenging target domains. Existing UDA methods usually adopt a bilateral zero-sum game structure. We prove that our CALI model -- a pseudo-trilateral game structure is advantageous over existing bilateral game structures. This proposed work bridges theoretical analyses and algorithm designs, leading to an efficient UDA model with easy and stable training. We further develop a variant of CALI -- Informed CALI (ICALI), which is inspired by the recent success of mixup data augmentation techniques and mixes informative regions based on the results of CALI. This mixture step provides an explicit bridging between the two domains and exposes underperforming classes more during training. We show the superiorities of our proposed models over multiple baselines in several challenging domain adaptation setups. To further validate the effectiveness of our proposed models, we then combine our perception model with a visual planner to build a navigation system and show the high reliability of our model in complex natural environments.
翻訳日:2023-06-27 15:13:45 公開日:2023-06-26
# フラット・ツー・ワイドアプローチによる単発連続学習

Few-Shot Continual Learning via Flat-to-Wide Approaches ( http://arxiv.org/abs/2306.14369v1 )

ライセンス: Link先を確認
Muhammad Anwar Ma'sum, Mahardhika Pratama, Lin Liu, Edwin Lughofer, Habibullah, Ryszard Kowalczyk(参考訳) 継続学習における既存のアプローチは、トレーニングプロセスで多くのサンプルを要求する。 このようなアプローチは、オーバーフィッティング問題のためにサンプルが限られている多くの実世界の問題では実用的ではない。 本稿では,フラット・ツー・ワイド・アプローチ(flower:flat-to-wide approach)と呼ばれる,数発連続学習手法を提案し,フラット・ワイド・ミニマ(flat-wide minima)を探索するフラット・ツー・ワイド・ラーニングプロセスを提案する。 データ不足の問題は、最小の囲い球へのサンプリング空間を制限するために、ボールジェネレータの概念を用いてデータ拡張アプローチによって克服される。 本研究は,小規模のベースタスクにおいて,先行技術よりも著しく性能が向上したフラワーの利点を実証する。 さらなる研究のために、FLOWERのソースコード、競合アルゴリズム、実験ログは \url{https://github.com/anwarmaxsum/FLOWER} で公開されている。

Existing approaches on continual learning call for a lot of samples in their training processes. Such approaches are impractical for many real-world problems having limited samples because of the overfitting problem. This paper proposes a few-shot continual learning approach, termed FLat-tO-WidE AppRoach (FLOWER), where a flat-to-wide learning process finding the flat-wide minima is proposed to address the catastrophic forgetting problem. The issue of data scarcity is overcome with a data augmentation approach making use of a ball generator concept to restrict the sampling space into the smallest enclosing ball. Our numerical studies demonstrate the advantage of FLOWER achieving significantly improved performances over prior arts notably in the small base tasks. For further study, source codes of FLOWER, competitor algorithms and experimental logs are shared publicly in \url{https://github.com/anwarmaxsum/FLOWER}.
翻訳日:2023-06-27 15:13:20 公開日:2023-06-26
# スコアベース音源分離とディジタル通信信号への応用

Score-based Source Separation with Applications to Digital Communication Signals ( http://arxiv.org/abs/2306.14411v1 )

ライセンス: Link先を確認
Tejas Jayashankar, Gary C.F. Lee, Alejandro Lancho, Amir Weiss, Yury Polyanskiy, Gregory W. Wornell(参考訳) 拡散型生成モデルを用いた重畳音源の分離手法を提案する。 本手法は,複数のガウス平滑化レベルにまたがって,後続推定の最大化によって導かれる新しい目的関数を確立するために,独立した情報源の個別に訓練された統計前置値のみに依存する。 無線周波数(RF)システムへの応用により、我々は、ビット誤り率(BER)によって測定された、興味のある信号からの離散特性と符号化ビットの回復の基盤となる情報源に興味を持っている。 RF混合実験の結果,従来の学習法と既存学習法を比べ,BERの95%削減効果が示された。 解析の結果,提案手法は離散分布のモードに漸近的にアプローチする解を導出することが示された。 さらに,本手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張として,条件付きサンプリング以外の用途に光を流し込むことができる。

We propose a new method for separating superimposed sources using diffusion-based generative models. Our method relies only on separately trained statistical priors of independent sources to establish a new objective function guided by maximum a posteriori estimation with an $\alpha$-posterior, across multiple levels of Gaussian smoothing. Motivated by applications in radio-frequency (RF) systems, we are interested in sources with underlying discrete nature and the recovery of encoded bits from a signal of interest, as measured by the bit error rate (BER). Experimental results with RF mixtures demonstrate that our method results in a BER reduction of 95% over classical and existing learning-based methods. Our analysis demonstrates that our proposed method yields solutions that asymptotically approach the modes of an underlying discrete distribution. Furthermore, our method can be viewed as a multi-source extension to the recently proposed score distillation sampling scheme, shedding additional light on its use beyond conditional sampling.
翻訳日:2023-06-27 15:07:58 公開日:2023-06-26
# テキストから画像への拡散モデルにおける条件不一致の解消と実現

Decompose and Realign: Tackling Condition Misalignment in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.14408v1 )

ライセンス: Link先を確認
Luozhou Wang, Guibao Shen, Yijun Li, Ying-cong Chen(参考訳) テキスト間の拡散モデルは、テキスト以外の様々な画像条件(例えば深度マップ)をサポートすることによって、より制御可能な生成に向かって進んでいる。 しかし、これらのモデルは、テキストと画像条件の完全なアライメントの前提に基づいて学習される。 このアライメントが満たされない場合、最終的なアウトプットは1つの条件で支配されるか、曖昧さがユーザの期待を満たさない可能性がある。 To address this issue, we present a training-free approach called "Decompose and Realign'' to further improve the controllability of existing models when provided with partially aligned conditions. The ``Decompose'' phase separates conditions based on pair relationships, computing scores individually for each pair. This ensures that each pair no longer has conflicting conditions. The "Realign'' phase aligns these independently calculated scores via a cross-attention mechanism to avoid new conflicts when combing them back. 定性的かつ定量的な結果は、最近の手法に対して有利に機能し、制御可能な画像生成プロセスに柔軟性を付加する不整合条件に対する我々のアプローチの有効性を示すものである。

Text-to-image diffusion models have advanced towards more controllable generation via supporting various image conditions (e.g., depth map) beyond text. However, these models are learned based on the premise of perfect alignment between the text and image conditions. If this alignment is not satisfied, the final output could be either dominated by one condition, or ambiguity may arise, failing to meet user expectations. To address this issue, we present a training-free approach called "Decompose and Realign'' to further improve the controllability of existing models when provided with partially aligned conditions. The ``Decompose'' phase separates conditions based on pair relationships, computing scores individually for each pair. This ensures that each pair no longer has conflicting conditions. The "Realign'' phase aligns these independently calculated scores via a cross-attention mechanism to avoid new conflicts when combing them back. Both qualitative and quantitative results demonstrate the effectiveness of our approach in handling unaligned conditions, which performs favorably against recent methods and more importantly adds flexibility to the controllable image generation process.
翻訳日:2023-06-27 15:07:29 公開日:2023-06-26
# TCEIP:インプラント位置予測のためのテキスト条件埋め込み回帰ネットワーク

TCEIP: Text Condition Embedded Regression Network for Dental Implant Position Prediction ( http://arxiv.org/abs/2306.14406v1 )

ライセンス: Link先を確認
Xinquan Yang and Jinheng Xie and Xuguang Li and Xuechen Li and Xin Li and Linlin Shen and Yongqiang Deng(参考訳) 歯科インプラントの位置設計を支援するディープニューラルネットワークが提案されているとき, ほとんどが欠損歯が1本しかない単純な症例を対象としている。 その結果、複数の欠落歯がある場合には文学作品がうまく機能せず、歯がまばらに分布している場合には誤予測が容易に発生する。 本稿では,上記課題に対処すべく,インプラント位置回帰ネットワークに,弱い監督テキストである目標領域を統合しようとしている。 そこで本研究では,テキスト条件をエンコーダ・デコーダフレームワークに組み込むためのtceip(text condition embedded implant position regression network)を提案する。 画像とテキストの特徴間の相互作用を容易にするために, クロスモーダルアテンション(CMA)とナレッジアライメントモジュール(KAM)で構成されるクロスモーダルインタラクションを提案する。 CMAモジュールは、画像特徴とテキスト条件との交差注意を行い、KAMは、画像特徴とCLIPの画像エンコーダとの知識ギャップを緩和する。 5倍のクロスバリデーションによるインプラントデータセットの広範な実験により,既存の方法よりも優れたtceipが得られた。

When deep neural network has been proposed to assist the dentist in designing the location of dental implant, most of them are targeting simple cases where only one missing tooth is available. As a result, literature works do not work well when there are multiple missing teeth and easily generate false predictions when the teeth are sparsely distributed. In this paper, we are trying to integrate a weak supervision text, the target region, to the implant position regression network, to address above issues. We propose a text condition embedded implant position regression network (TCEIP), to embed the text condition into the encoder-decoder framework for improvement of the regression performance. A cross-modal interaction that consists of cross-modal attention (CMA) and knowledge alignment module (KAM) is proposed to facilitate the interaction between features of images and texts. The CMA module performs a cross-attention between the image feature and the text condition, and the KAM mitigates the knowledge gap between the image feature and the image encoder of the CLIP. Extensive experiments on a dental implant dataset through five-fold cross-validation demonstrated that the proposed TCEIP achieves superior performance than existing methods.
翻訳日:2023-06-27 15:06:56 公開日:2023-06-26
# 二重型量子ビットを持つクロストーク回避量子ネットワークノードの同一イオン種による実現

Realization of a crosstalk-avoided quantum network node with dual-type qubits by the same ion species ( http://arxiv.org/abs/2306.14405v1 )

ライセンス: Link先を確認
L. Feng, Y.-Y Huang, Y.-K. Wu, W.-X. Guo, J.-Y. Ma, H.-X. Yang, L. Zhang, Y. Wang, C.-X. Huang, C. Zhang, L. Yao, B.-X. Qi, Y.-F. Pu, Z.-C. Zhou and L.-M. Duan(参考訳) イオン光子エンタングルメントの生成は、スケーラブルなトラップイオン量子ネットワークにとって重要なステップである。 量子情報を持つメモリ量子ビット上のクロストークを避けるため、イオン光子絡みの発生には異なるイオン種を用いるのが一般的であり、散乱した光子がメモリ量子ビットに対してはるかに共鳴しない。 しかし、このような二重種スキームは、異なるイオン種の部位と位置を精巧に制御する必要があるため、非効率な交感神経冷却を受けることができる。 ここでは、2種類の量子ビットが$s$と$f$の超微細構造レベル${}^{171}\mathrm{yb}^+$ ionsで符号化される双対型量子ビットスキームにおいて、閉じ込められたイオン量子ネットワークノードを示す。 私たちは、数百ミリ秒の典型的な時間スケールで、$s$-qubitのイオン光子絡み合いを生成し、その小さなクロストークを近くの$f$-qubitのコヒーレンスタイムで検証します。 本研究は、スケーラブル量子ネットワークのためのデュアル型量子ビットスキームの実現機能を示す。

Generating ion-photon entanglement is a crucial step for scalable trapped-ion quantum networks. To avoid the crosstalk on memory qubits carrying quantum information, it is common to use a different ion species for ion-photon entanglement generation such that the scattered photons are far off-resonant for the memory qubits. However, such a dual-species scheme requires elaborate control of the portion and the location of different ion species, and can be subject to inefficient sympathetic cooling. Here we demonstrate a trapped-ion quantum network node in the dual-type qubit scheme where two types of qubits are encoded in the $S$ and $F$ hyperfine structure levels of ${}^{171}\mathrm{Yb}^+$ ions. We generate ion photon entanglement for the $S$-qubit in a typical timescale of hundreds of milliseconds, and verify its small crosstalk on a nearby $F$-qubit with coherence time above seconds. Our work demonstrates an enabling function of the dual-type qubit scheme for scalable quantum networks.
翻訳日:2023-06-27 15:06:06 公開日:2023-06-26
# スコア分布判別による異常検出

Anomaly Detection with Score Distribution Discrimination ( http://arxiv.org/abs/2306.14403v1 )

ライセンス: Link先を確認
Minqi Jiang, Songqiao Han, Hailiang Huang(参考訳) 近年の研究では、ラベル付けされた少数の異常と豊富なラベル付きデータを活用することのできる異常検出(AD)手法が注目されている。 これらの既存の異常のないad手法は、例えば事前定数やマージンハイパーパラメータなど、手動で予め定義されたスコアターゲットに依存し、正常データと異常データの間の異常スコアの識別を実現する。 しかし、そのような手法はラベルなしデータにおける異常な汚染の存在に脆弱であり、異なるデータシナリオへの適応が欠如している。 本稿では, スコア分布の観点から異常スコア関数を最適化し, より実用的なADシナリオにおいて, ラベルなしデータが異常ノイズを含む場合に, 入力データの多様性とよりきめ細かい情報を維持することを提案する。 本研究では,従来の異常スコア目標に依存しない正常サンプルと異常サンプルのスコア分布の重複領域を最小化し,様々なデータセットへの適応性を得るオーバーラップ損失という新たな損失関数を設計する。 オーバーラップ損失は、任意のスコア分布を推定する際の課題を克服し、トレーニング損失のバウンダリを確保するために導入されたスコア分布推定器とオーバーラップ領域計算からなる。 一般的な損失要素として、オーバーラップ損失はADモデルを構築するために複数のネットワークアーキテクチャに効果的に統合できる。 以上の結果から, オーバーラップ損失に基づくADモデルは, 最先端のADモデルよりも有意に優れ, 異種異常に対する性能が向上することが示唆された。

Recent studies give more attention to the anomaly detection (AD) methods that can leverage a handful of labeled anomalies along with abundant unlabeled data. These existing anomaly-informed AD methods rely on manually predefined score target(s), e.g., prior constant or margin hyperparameter(s), to realize discrimination in anomaly scores between normal and abnormal data. However, such methods would be vulnerable to the existence of anomaly contamination in the unlabeled data, and also lack adaptation to different data scenarios. In this paper, we propose to optimize the anomaly scoring function from the view of score distribution, thus better retaining the diversity and more fine-grained information of input data, especially when the unlabeled data contains anomaly noises in more practical AD scenarios. We design a novel loss function called Overlap loss that minimizes the overlap area between the score distributions of normal and abnormal samples, which no longer depends on prior anomaly score targets and thus acquires adaptability to various datasets. Overlap loss consists of Score Distribution Estimator and Overlap Area Calculation, which are introduced to overcome challenges when estimating arbitrary score distributions, and to ensure the boundness of training loss. As a general loss component, Overlap loss can be effectively integrated into multiple network architectures for constructing AD models. Extensive experimental results indicate that Overlap loss based AD models significantly outperform their state-of-the-art counterparts, and achieve better performance on different types of anomalies.
翻訳日:2023-06-27 15:05:34 公開日:2023-06-26
# 顧客生涯価値予測のためのコントラスト多視点フレームワーク

Contrastive Multi-view Framework for Customer Lifetime Value Prediction ( http://arxiv.org/abs/2306.14400v1 )

ライセンス: Link先を確認
Chuhan Wu, Jingjie Li, Qinglin Jia, Hong Zhu, Yuan Fang and Ruiming Tang(参考訳) 正確な顧客生涯価値(LTV)予測は、サービス提供者が顧客中心のアプリケーションでマーケティングポリシーを最適化するのに役立ちます。 しかし、消費イベントの多さとデータのばらつきの干渉、ノイズがltv推定を妨げている。 多くの既存のltv予測手法は、消費サンプル上で直接単視点ltv予測器を訓練し、不正確で偏りのある知識抽出をもたらす。 本稿では,様々なバックボーンモデルと互換性のあるプラグアンドプレイソリューションであるltv予測のためのコントラスト型マルチビューフレームワークを提案する。 複数の異種LTV回帰器を相補的な知識で合成し、モデルロバスト性を改善し、対照的な学習を通じてサンプル関連性を捉え、データ量への依存を軽減する。 具体的には,ltv予測問題を,消費確率の推定と支払金額の組み合わせに変換する分解スキームを用いる。 モデル学習におけるノイズの多いデータの影響を軽減するため,多種多様な特徴を持つ回帰器を協調的に最適化し,包括的知識を符号化・融合する多視点フレームワークを提案する。 限られたトレーニングサンプルの可能性を完全に活用するために,分類と回帰のタスクにおいてサンプル間の関連性を捉えるためのハイブリッドコントラスト学習手法を提案する。 実世界のLTV予測データセットについて広範な実験を行い,本手法の有効性を検証した。 私たちはHuaweiのモバイルゲームセンターにソリューションをオンラインで展開し、支払い額の32.26%を達成しました。

Accurate customer lifetime value (LTV) prediction can help service providers optimize their marketing policies in customer-centric applications. However, the heavy sparsity of consumption events and the interference of data variance and noise obstruct LTV estimation. Many existing LTV prediction methods directly train a single-view LTV predictor on consumption samples, which may yield inaccurate and even biased knowledge extraction. In this paper, we propose a contrastive multi-view framework for LTV prediction, which is a plug-and-play solution compatible with various backbone models. It synthesizes multiple heterogeneous LTV regressors with complementary knowledge to improve model robustness and captures sample relatedness via contrastive learning to mitigate the dependency on data abundance. Concretely, we use a decomposed scheme that converts the LTV prediction problem into a combination of estimating consumption probability and payment amount. To alleviate the impact of noisy data on model learning, we propose a multi-view framework that jointly optimizes multiple types of regressors with diverse characteristics and advantages to encode and fuse comprehensive knowledge. To fully exploit the potential of limited training samples, we propose a hybrid contrastive learning method to help capture the relatedness between samples in both classification and regression tasks. We conduct extensive experiments on a real-world game LTV prediction dataset and the results validate the effectiveness of our method. We have deployed our solution online in Huawei's mobile game center and achieved 32.26% of total payment amount gains.
翻訳日:2023-06-27 15:05:09 公開日:2023-06-26
# マルチモーダル製品画像分割のための相互クエリネットワーク

Mutual Query Network for Multi-Modal Product Image Segmentation ( http://arxiv.org/abs/2306.14399v1 )

ライセンス: Link先を確認
Yun Guo, Wei Feng, Zheng Zhang, Xiancong Ren, Yaoyu Li, Jingjing Lv, Xin Zhu, Zhangang Lin, Jingping Shao(参考訳) 製品イメージのセグメンテーションはeコマースにおいて不可欠である。 既存の方法のほとんどは、視覚的モダリティのみに基づいて製品イメージの前景を抽出するため、無関係な製品を見分けるのが困難である。 製品タイトルは外観情報を豊富に含み,製品イメージセグメンテーションの補完的手段を提供するため,視覚的・言語的両面から商品をセグメンテーションする相互クエリネットワークを提案する。 まず、画像領域における言語記述の応答を得るための言語クエリ視覚モジュールを設計し、モダリティ間の視覚的および言語的表現を整合させる。 そして、視覚クエリ言語モジュールは、視覚的モダリティと言語的モダリティの相関を利用して製品タイトルをフィルタリングし、タイトルのビジョンに関係のないコンテンツを効果的に抑制する。 この分野での研究を促進するために,3万枚の画像と対応するタイトルを含むMMPS(Multi-Modal Product Segmentation dataset)を構築した。 提案手法は,MMPSの最先端手法よりも優れていた。

Product image segmentation is vital in e-commerce. Most existing methods extract the product image foreground only based on the visual modality, making it difficult to distinguish irrelevant products. As product titles contain abundant appearance information and provide complementary cues for product image segmentation, we propose a mutual query network to segment products based on both visual and linguistic modalities. First, we design a language query vision module to obtain the response of language description in image areas, thus aligning the visual and linguistic representations across modalities. Then, a vision query language module utilizes the correlation between visual and linguistic modalities to filter the product title and effectively suppress the content irrelevant to the vision in the title. To promote the research in this field, we also construct a Multi-Modal Product Segmentation dataset (MMPS), which contains 30,000 images and corresponding titles. The proposed method significantly outperforms the state-of-the-art methods on MMPS.
翻訳日:2023-06-27 15:04:41 公開日:2023-06-26
# コードの解読:識別的特徴分析とデータセット最適化によるChatGPT生成コードからの識別

Deciphering the Code: Distinguishing ChatGPT-Generated Code from Human-authored Code through Discriminative Feature Analysis and Dataset Optimization ( http://arxiv.org/abs/2306.14397v1 )

ライセンス: Link先を確認
Li Ke, Hong Sheng, Fu Cai, Zhang Yunhe and LiuMing(参考訳) プログラミングにおける大規模言語生成モデル(llm)のユビキタスな採用は、人間の書いたコードとインテリジェントなモデルによって生成されたコードの区別の重要性を強調している。 本稿では,ChatGPTが生成するコードと,人間が作成したコードとを区別することを目的とする。 この2つのソース間のプログラミングスタイル,技術レベル,可読性の違いを明らかにする。 その結果,分化のための識別的特徴セットを開発し,その効果をアブレーション実験により評価する。 さらに,時間的および空間的セグメンテーションを用いたデータセットクリーニング手法を考案し,データセットの重大さを軽減し,高度かつ汚染されていないデータセットを確保する。 データリソースをさらに充実させるためには、"コードトランスフォーメーション"、"機能トランスフォーメーション"、"機能カスタマイズ"技術を採用し、10,000行のchatgpt生成コードからなる広範なデータセットを生成します。 本研究の有意義な貢献は、二分分類タスクにおいて、人間が許可したコードとチャットgpt生成コードを区別する精度の高い識別機能セットの提案、広範なチャットgpt生成コードを生成する方法の考案、オープンソースリポジトリから未完成で高品質なコードデータセットを抽出するためのデータセットクリーン化戦略の導入、コードオーサシップアトリビューションタスクにおける例外的な精度の向上などである。

The ubiquitous adoption of Large Language Generation Models (LLMs) in programming has underscored the importance of differentiating between human-written code and code generated by intelligent models. This paper specifically aims to distinguish code generated by ChatGPT from that authored by humans. Our investigation reveals disparities in programming style, technical level, and readability between these two sources. Consequently, we develop a discriminative feature set for differentiation and evaluate its efficacy through ablation experiments. Additionally, we devise a dataset cleansing technique, which employs temporal and spatial segmentation, to mitigate the dearth of datasets and to secure high-caliber, uncontaminated datasets. To further enrich data resources, we employ "code transformation," "feature transformation," and "feature customization" techniques, generating an extensive dataset comprising 10,000 lines of ChatGPT-generated code. The salient contributions of our research include: proposing a discriminative feature set yielding high accuracy in differentiating ChatGPT-generated code from human-authored code in binary classification tasks; devising methods for generating extensive ChatGPT-generated codes; and introducing a dataset cleansing strategy that extracts immaculate, high-grade code datasets from open-source repositories, thus achieving exceptional accuracy in code authorship attribution tasks.
翻訳日:2023-06-27 15:04:24 公開日:2023-06-26
# 効率的な変圧器推論のための制約アウェアとランキング蒸留トークンプルーニング

Constraint-aware and Ranking-distilled Token Pruning for Efficient Transformer Inference ( http://arxiv.org/abs/2306.14393v1 )

ライセンス: Link先を確認
Junyan Li, Li Lyna Zhang, Jiahang Xu, Yujing Wang, Shaoguang Yan, Yunqing Xia, Yuqing Yang, Ting Cao, Hao Sun, Weiwei Deng, Qi Zhang, Mao Yang(参考訳) BERTのような事前訓練されたトランスフォーマーモデルを、リソース制約のあるシナリオで下流タスクにデプロイすることは、入力シーケンスの長さによって急速に増加する高い推論コストのために困難である。 本研究では,入力シーケンスが層を通過するときに不要なトークンを選択的に除去し,精度を保ちながらオンライン推論速度を向上する,制約対応型およびランク付け型トークンプルーニング手法ToPを提案する。 ToPは、未熟モデルの最終層から初期熟成モデルの早期層まで有効なトークンランキングを蒸留するランキング蒸留法により、従来の自己保持機構における不正確なトークン重要度ランキングの限界を克服する。 そこでToPは,変換器層の最適部分集合を自動的に選択し,それらの層内でのトークンのプルーニング決定を,改良された$L_0$正規化によって最適化する,粗いプルーニングアプローチを導入した。 GLUEベンチマークとSQuADタスクの大規模な実験により、ToPは最先端のトークンプルーニングおよびモデルの圧縮方法より優れ、精度とスピードアップが向上した。 ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。

Deploying pre-trained transformer models like BERT on downstream tasks in resource-constrained scenarios is challenging due to their high inference cost, which grows rapidly with input sequence length. In this work, we propose a constraint-aware and ranking-distilled token pruning method ToP, which selectively removes unnecessary tokens as input sequence passes through layers, allowing the model to improve online inference speed while preserving accuracy. ToP overcomes the limitation of inaccurate token importance ranking in the conventional self-attention mechanism through a ranking-distilled token distillation technique, which distills effective token rankings from the final layer of unpruned models to early layers of pruned models. Then, ToP introduces a coarse-to-fine pruning approach that automatically selects the optimal subset of transformer layers and optimizes token pruning decisions within these layers through improved $L_0$ regularization. Extensive experiments on GLUE benchmark and SQuAD tasks demonstrate that ToP outperforms state-of-the-art token pruning and model compression methods with improved accuracy and speedups. ToP reduces the average FLOPs of BERT by 8.1x while achieving competitive accuracy on GLUE, and provides a real latency speedup of up to 7.4x on an Intel CPU.
翻訳日:2023-06-27 15:03:53 公開日:2023-06-26
# ContentCTR:マルチモーダルトランスを用いたフレームレベルのライブストリーミングクリックスルーレート予測

ContentCTR: Frame-level Live Streaming Click-Through Rate Prediction with Multimodal Transformer ( http://arxiv.org/abs/2306.14392v1 )

ライセンス: Link先を確認
Jiaxin Deng, Dong Shen, Shiyao Wang, Xiangyu Wu, Fan Yang, Guorui Zhou, Gaofeng Meng(参考訳) 近年、ライブストリーミングプラットフォームは、ユーザーがビデオをブロードキャストしたり、ホストや仲間とリアルタイムでやりとりできるようになり、大きな人気を集めている。 ライブコンテンツの動的変化により、ユーザエクスペリエンスの向上には正確なレコメンデーションモデルが不可欠である。 しかし、これまでのほとんどの研究は、ライブ全体をアイテムとして扱い、Click-through-Rate(CTR)予測フレームワークをアイテムレベルで探求し、同じリビングルーム内でも発生する動的な変化を無視した。 本稿では,フレームレベルのCTR予測にマルチモーダルトランスを用いたContentCTRモデルを提案する。 まず,視覚的フレームや音声,コメントなどのマルチモーダル情報をフル活用して,最も魅力的なライブフレームを識別するためのエンドツーエンドフレームワークを提案する。 第二に、モデルが中間解に崩壊することを防ぐため、ハイライトフレームと非ハイライトフレームに存在するコントラスト情報を利用するために、一階差分制約を持つ新しいペアワイズ損失関数を提案する。 さらに,映像・テキスト情報の曖昧性と非系列的アライメントに起因するノイズを除去するために,動的時間ゆがみに基づく時間的テキスト・ビデオアライメントモジュールを設計した。 実世界のシナリオと公開データセットの両方で広範な実験を行い、ContentCTRモデルは、リアルタイムのコンテンツ変更をキャプチャする従来のレコメンデーションモデルよりも優れています。 さらに,提案手法を企業プラットフォームに展開し,オンラインa/bテストの結果から,その実用的意義をさらに検証した。

In recent years, live streaming platforms have gained immense popularity as they allow users to broadcast their videos and interact in real-time with hosts and peers. Due to the dynamic changes of live content, accurate recommendation models are crucial for enhancing user experience. However, most previous works treat the live as a whole item and explore the Click-through-Rate (CTR) prediction framework on item-level, neglecting that the dynamic changes that occur even within the same live room. In this paper, we proposed a ContentCTR model that leverages multimodal transformer for frame-level CTR prediction. First, we present an end-to-end framework that can make full use of multimodal information, including visual frames, audio, and comments, to identify the most attractive live frames. Second, to prevent the model from collapsing into a mediocre solution, a novel pairwise loss function with first-order difference constraints is proposed to utilize the contrastive information existing in the highlight and non-highlight frames. Additionally, we design a temporal text-video alignment module based on Dynamic Time Warping to eliminate noise caused by the ambiguity and non-sequential alignment of visual and textual information. We conduct extensive experiments on both real-world scenarios and public datasets, and our ContentCTR model outperforms traditional recommendation models in capturing real-time content changes. Moreover, we deploy the proposed method on our company platform, and the results of online A/B testing further validate its practical significance.
翻訳日:2023-06-27 15:03:29 公開日:2023-06-26
# マルチドメイン画像から画像への変換のための進歩的エネルギーベース協調学習

Progressive Energy-Based Cooperative Learning for Multi-Domain Image-to-Image Translation ( http://arxiv.org/abs/2306.14448v1 )

ライセンス: Link先を確認
Weinan Song, Yaxuan Zhu, Lei He, Yingnian Wu, and Jianwen Xie(参考訳) 本稿では,マルチドメイン画像・画像翻訳のための新しいエネルギーベース協調学習フレームワークについて検討する。 フレームワークは、ディスクリプタ、トランスレータ、スタイルエンコーダ、スタイルジェネレータの4つのコンポーネントで構成されている。 ディスクリプタはマルチヘッドエネルギーベースのモデルであり、マルチドメイン画像分布を表す。 トランスレータ、スタイルエンコーダ、スタイルジェネレータのコンポーネントは、多様化したイメージジェネレータを構成する。 具体的には、ソースドメインからの入力画像が与えられた場合、トランスレータは、基準画像からスタイルエンコーダにより推測されるか、ランダムノイズからスタイルジェネレータによって生成されるスタイルコードに従って、ターゲットドメインのスタイル化された出力画像に変換する。 スタイルジェネレータは、スタイルコードのドメイン固有の分布として表現されるため、トランスレータはソースドメインとターゲットドメインの間の1対多変換(つまり、多様化生成)を提供できる。 To train our framework, we propose a likelihood-based multi-domain cooperative learning algorithm to jointly train the multi-domain descriptor and the diversified image generator (including translator, style encoder, and style generator modules) via multi-domain MCMC teaching, in which the descriptor guides the diversified image generator to shift its probability density toward the data distribution, while the diversified image generator uses its randomly translated images to initialize the descriptor's Langevin dynamics process for efficient sampling.

This paper studies a novel energy-based cooperative learning framework for multi-domain image-to-image translation. The framework consists of four components: descriptor, translator, style encoder, and style generator. The descriptor is a multi-head energy-based model that represents a multi-domain image distribution. The components of translator, style encoder, and style generator constitute a diversified image generator. Specifically, given an input image from a source domain, the translator turns it into a stylised output image of the target domain according to a style code, which can be inferred by the style encoder from a reference image or produced by the style generator from a random noise. Since the style generator is represented as an domain-specific distribution of style codes, the translator can provide a one-to-many transformation (i.e., diversified generation) between source domain and target domain. To train our framework, we propose a likelihood-based multi-domain cooperative learning algorithm to jointly train the multi-domain descriptor and the diversified image generator (including translator, style encoder, and style generator modules) via multi-domain MCMC teaching, in which the descriptor guides the diversified image generator to shift its probability density toward the data distribution, while the diversified image generator uses its randomly translated images to initialize the descriptor's Langevin dynamics process for efficient sampling.
翻訳日:2023-06-27 14:55:15 公開日:2023-06-26
# ローカルおよびグローバル蒸留による非イドデータのフェデレーション学習

Federated Learning on Non-iid Data via Local and Global Distillation ( http://arxiv.org/abs/2306.14443v1 )

ライセンス: Link先を確認
Xiaolin Zheng, Senci Ying, Fei Zheng, Jianwei Yin, Longfei Zheng, Chaochao Chen, Fengqin Dong(参考訳) 既存のフェデレーション学習アルゴリズムのほとんどは、vanilla FedAvgスキームに基づいている。 しかし,データ複雑度の増加とモデルパラメータの数の増加,通信トラフィックの増大,そのようなアルゴリズムを訓練するための反復ラウンドの回数は,特に非独立的かつ均一に分散したシナリオでは,良好な性能を得られない。 本稿では,FedND:Federated Learning with noise distillationを提案する。 主なアイデアは、モデルトレーニングプロセスを最適化するために知識蒸留を使用することである。 クライアントでは,局所モデルを学習するための自己蒸留法を提案する。 サーバでは、各クライアントに対してノイズの多いサンプルを生成し、それを他のクライアントを蒸留するために使用します。 最後に、グローバルモデルは局所モデルの集約によって得られる。 実験の結果,このアルゴリズムは最先端の手法よりも通信効率が良いことがわかった。

Most existing federated learning algorithms are based on the vanilla FedAvg scheme. However, with the increase of data complexity and the number of model parameters, the amount of communication traffic and the number of iteration rounds for training such algorithms increases significantly, especially in non-independently and homogeneously distributed scenarios, where they do not achieve satisfactory performance. In this work, we propose FedND: federated learning with noise distillation. The main idea is to use knowledge distillation to optimize the model training process. In the client, we propose a self-distillation method to train the local model. In the server, we generate noisy samples for each client and use them to distill other clients. Finally, the global model is obtained by the aggregation of local models. Experimental results show that the algorithm achieves the best performance and is more communication-efficient than state-of-the-art methods.
翻訳日:2023-06-27 14:54:56 公開日:2023-06-26
# ダウンスケーリングと畳み込みニューラルネットワークを用いたシミュレーション4次元画像データのトポロジー推定

Topology Estimation of Simulated 4D Image Data by Combining Downscaling and Convolutional Neural Networks ( http://arxiv.org/abs/2306.14442v1 )

ライセンス: Link先を確認
Khalil Mathieu Hannouch and Stephan Chalup(参考訳) 4次元画像型データは、急速に大きくなり、永続的ホモロジーや畳み込みニューラルネットワークなどの手法を直接適用して、複雑さの問題に直面する可能性があるため、これらのデータのトポロジカル特性を決定することは不可能かもしれない。 本研究では,4次元画像型データのベッチ数を決定することを目的とした。 この実験は、合成データを用いて、畳み込みニューラルネットワークをトレーニングする前のデータにダウンスケーリング法を適用することでこれらの問題を回避できることを示し、永続的ホモロジーソフトウェアは、ダウンスケーリングがトレーニングデータのホモロジーを著しく変更できることを示している。 ダウンスケールのテストデータを提供すると、ニューラルネットワークは元のサンプルのベッチ数を妥当な精度で推定することができる。

Four-dimensional image-type data can quickly become prohibitively large, and it may not be feasible to directly apply methods, such as persistent homology or convolutional neural networks, to determine the topological characteristics of these data because they can encounter complexity issues. This study aims to determine the Betti numbers of large four-dimensional image-type data. The experiments use synthetic data, and demonstrate that it is possible to circumvent these issues by applying downscaling methods to the data prior to training a convolutional neural network, even when persistent homology software indicates that downscaling can significantly alter the homology of the training data. When provided with downscaled test data, the neural network can estimate the Betti numbers of the original samples with reasonable accuracy.
翻訳日:2023-06-27 14:54:44 公開日:2023-06-26
# グラフ出力予測のための自己教師付きコントラスト学習法

A Self-supervised Contrastive Learning Method for Grasp Outcomes Prediction ( http://arxiv.org/abs/2306.14437v1 )

ライセンス: Link先を確認
Chengliang Liu, Binhua Huang, Yiwen Liu, Yuanzhe Su, Ke Mai, Yupo Zhang, Zhengkun Yi, Xinyu Wu(参考訳) 本稿では,教師なし手法による学習結果の予測におけるコントラスト学習の有効性について検討する。 公開されているデータセットを利用することで、コントラスト学習手法が結果予測の把握に有効であることを示す。 特に、運動量更新技術を用いた動的ディクショナリーベース手法は、1つの触覚センサのデータを用いて81.83%の精度を実現し、他の教師なし手法よりも優れている。 本研究は,ロボット把持分野におけるコントラスト学習の応用の可能性を明らかにし,安定した把持を実現するための正確な把持予測の重要性を強調した。

In this paper, we investigate the effectiveness of contrastive learning methods for predicting grasp outcomes in an unsupervised manner. By utilizing a publicly available dataset, we demonstrate that contrastive learning methods perform well on the task of grasp outcomes prediction. Specifically, the dynamic-dictionary-based method with the momentum updating technique achieves a satisfactory accuracy of 81.83% using data from one single tactile sensor, outperforming other unsupervised methods. Our results reveal the potential of contrastive learning methods for applications in the field of robot grasping and highlight the importance of accurate grasp prediction for achieving stable grasps.
翻訳日:2023-06-27 14:54:31 公開日:2023-06-26
# DragDiffusion:インタラクティブなポイントベース画像編集のための拡散モデル

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing ( http://arxiv.org/abs/2306.14435v1 )

ライセンス: Link先を確認
Yujun Shi, Chuhui Xue, Jiachun Pan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai(参考訳) 正確かつ制御可能な画像編集は、大きな注目を集めている課題である。 近年、DragGANはインタラクティブな点ベース画像編集フレームワークを提供し、画素レベルの精度で印象的な編集結果を実現する。 しかし, この手法はGAN(Generative Adversarial Network)に基づくため, 事前学習したGANモデルの容量により, 一般性は上界となる。 本研究では,このようなフレームワークを拡散モデルに拡張し,DragDiffusionを提案する。 大規模事前学習された拡散モデルを利用することにより,実世界シナリオにおける対話型ポイントベース編集の適用性が大幅に向上する。 既存の拡散ベースの画像編集手法はテキスト埋め込みで動作するが、dragdiffusionは拡散潜時を最適化して正確な空間制御を実現する。 拡散モデルは反復的に画像を生成するが、一つのステップで拡散遅延を最適化すればコヒーレントな結果が得られ、DragDiffusionが効率よく高品質な編集を完了できることを実証的に示す。 幅広い挑戦的なケース(マルチオブジェクト、多様なオブジェクトカテゴリ、様々なスタイルなど)にわたる広範な実験は、dragdiffusionの汎用性と汎用性を示している。

Precise and controllable image editing is a challenging task that has attracted significant attention. Recently, DragGAN enables an interactive point-based image editing framework and achieves impressive editing results with pixel-level precision. However, since this method is based on generative adversarial networks (GAN), its generality is upper-bounded by the capacity of the pre-trained GAN models. In this work, we extend such an editing framework to diffusion models and propose DragDiffusion. By leveraging large-scale pretrained diffusion models, we greatly improve the applicability of interactive point-based editing in real world scenarios. While most existing diffusion-based image editing methods work on text embeddings, DragDiffusion optimizes the diffusion latent to achieve precise spatial control. Although diffusion models generate images in an iterative manner, we empirically show that optimizing diffusion latent at one single step suffices to generate coherent results, enabling DragDiffusion to complete high-quality editing efficiently. Extensive experiments across a wide range of challenging cases (e.g., multi-objects, diverse object categories, various styles, etc.) demonstrate the versatility and generality of DragDiffusion.
翻訳日:2023-06-27 14:54:19 公開日:2023-06-26
# ディジタルツインと不確実性定量化のための強化多重忠実モデリング

Enhanced multi-fidelity modelling for digital twin and uncertainty quantification ( http://arxiv.org/abs/2306.14430v1 )

ライセンス: Link先を確認
AS Desai and Navaneeth N and S Adhikari and S Chakraborty(参考訳) 航空宇宙、インフラ、自動車といった工学や工業分野におけるデジタルツイン技術の重要性の高まりは否定できない。 しかし、アプリケーション固有の詳細な情報がないことは、実用システムにおけるシームレスな実装に課題をもたらす。 データ駆動モデルはデジタル双生児において重要な役割を担っており、データと計算モデルを利用してリアルタイムの更新と予測を可能にする。 それでも、利用可能なデータの忠実性と正確なセンサーデータの不足は、物理システムとデジタルツインモデルの間の接続として機能するサーロゲートモデルの効率的な学習を妨げることが多い。 この課題に対処するために,我々は,ロバストなマルチ忠実性サロゲートモデルを開発し,デジタル双生児の追跡に応用する新しい枠組みを提案する。 我々のフレームワークは多項式相関関数展開(PCFE)とガウス過程(GP)を統合し、H-PCFEと呼ばれる効果的な代理モデルを作成する。 さらに, 非線形自己回帰スキームを用いて, 異なるフィダリティを持つモデルのカスケード配置であるdeep-hpcfeを導入する。 これらの自己回帰スキームは、空間依存的相互相関をモデルに組み込むことにより、低忠実度モデルからの誤予測の問題に効果的に対処する。 マルチ忠実度フレームワークの有効性を検証するため,まず,ベンチマーク数値を用いた不確実性定量化の性能評価を行った。 その後,デジタルツインシステムにおける適用可能性を示す。

The increasing significance of digital twin technology across engineering and industrial domains, such as aerospace, infrastructure, and automotive, is undeniable. However, the lack of detailed application-specific information poses challenges to its seamless implementation in practical systems. Data-driven models play a crucial role in digital twins, enabling real-time updates and predictions by leveraging data and computational models. Nonetheless, the fidelity of available data and the scarcity of accurate sensor data often hinder the efficient learning of surrogate models, which serve as the connection between physical systems and digital twin models. To address this challenge, we propose a novel framework that begins by developing a robust multi-fidelity surrogate model, subsequently applied for tracking digital twin systems. Our framework integrates polynomial correlated function expansion (PCFE) with the Gaussian process (GP) to create an effective surrogate model called H-PCFE. Going a step further, we introduce deep-HPCFE, a cascading arrangement of models with different fidelities, utilizing nonlinear auto-regression schemes. These auto-regressive schemes effectively address the issue of erroneous predictions from low-fidelity models by incorporating space-dependent cross-correlations among the models. To validate the efficacy of the multi-fidelity framework, we first assess its performance in uncertainty quantification using benchmark numerical examples. Subsequently, we demonstrate its applicability in the context of digital twin systems.
翻訳日:2023-06-27 14:54:00 公開日:2023-06-26
# 古典光パルスを用いた量子絡み合い二光子分光

Performing quantum entangled biphoton spectroscopy using classical light pulses ( http://arxiv.org/abs/2306.14424v1 )

ライセンス: Link先を確認
Liwen Ko, Robert L. Cook, K. Birgitta Whaley(参考訳) n = 0,1,2,$\cdots$古典的な光パルスと、1つの光子が物質サンプルと相互作用することなく参照として作用する2光子対(双光子状態)を用いた量子光分光(QLS)実験のクラスについて、双光子を古典的な光のコヒーレントな光の状態に置き換えることによって同一の信号が得られることを示す。 量子非線形分光法の入出力式はこの等価性を証明するために用いられる。 古典的ポンプ-量子プローブ実験と対応する古典的ポンプ-古典的プローブ実験を比較して等価性を数値的に示す。 この分析により、絡み合った二光子プローブと注意深く設計された古典的コヒーレント状態プローブの等価性を理解することは、量子インスパイアされた古典実験につながり、真の量子優位性をもたらすqls実験の将来設計への洞察を提供することが示された。

We show that for a class of quantum light spectroscopy (QLS) experiments using n = 0,1,2,$\cdots$ classical light pulses and an entangled photon pair (a biphoton state) where one photon acts as a reference without interacting with the matter sample, identical signals can be obtained by replacing the biphotons with classical-like coherent states of light, where these are defined explicitly in terms of the parameters of the biphoton states. An input-output formulation of quantum nonlinear spectroscopy is used to prove this equivalence. We demonstrate the equivalence numerically by comparing a classical pump - quantum probe experiment with the corresponding classical pump - classical probe experiment. This analysis shows that understanding the equivalence between entangled biphoton probes and carefully designed classical-like coherent state probes leads to quantum-inspired classical experiments and provides insights for future design of QLS experiments that could provide a true quantum advantage.
翻訳日:2023-06-27 14:53:37 公開日:2023-06-26
# 歌声変換チャレンジ2023

The Singing Voice Conversion Challenge 2023 ( http://arxiv.org/abs/2306.14422v1 )

ライセンス: Link先を確認
Wen-Chin Huang, Lester Phillip Violeta, Songxiang Liu, Jiatong Shi, Yusuke Yasuda, Tomoki Toda(参考訳) 本稿では,共通データセットに基づく異なる音声変換(VC)システムの比較と理解を目的とした,二年制の科学イベントであるVCCシリーズの最新版を紹介する。 今年はsvc(singing voice conversion challenge)に焦点を移し、the challenge the singing voice conversion challenge(svcc)と命名しました。 新しいデータベースはドメイン内およびドメイン間SVCという2つのタスクのために構築された。 チャレンジは2ヶ月間実施され、合計26の応募があり、2つのベースラインがありました。 クラウドソースによる大規模なリスニングテストを通じて,人間レベルの自然性はトップシステムによって達成されたが,目標とする話者ほど高い類似度スコアを得ることはできなかった。 また、予想通り、ドメイン間SVCは、特に類似性の観点から、ドメイン内SVCよりも難しい。 また,既存の客観的測定値が知覚的パフォーマンスを予測できたかを調査し,有意な相関が得られたのはごくわずかであった。

We present the latest iteration of the voice conversion challenge (VCC) series, a bi-annual scientific event aiming to compare and understand different voice conversion (VC) systems based on a common dataset. This year we shifted our focus to singing voice conversion (SVC), thus named the challenge the Singing Voice Conversion Challenge (SVCC). A new database was constructed for two tasks, namely in-domain and cross-domain SVC. The challenge was run for two months, and in total we received 26 submissions, including 2 baselines. Through a large-scale crowd-sourced listening test, we observed that for both tasks, although human-level naturalness was achieved by the top system, no team was able to obtain a similarity score as high as the target speakers. Also, as expected, cross-domain SVC is harder than in-domain SVC, especially in the similarity aspect. We also investigated whether existing objective measurements were able to predict perceptual performance, and found that only few of them could reach a significant correlation.
翻訳日:2023-06-27 14:53:15 公開日:2023-06-26
# パーソナライズされた車両エネルギー消費推定のための選好認識メタ最適化フレームワーク

A Preference-aware Meta-optimization Framework for Personalized Vehicle Energy Consumption Estimation ( http://arxiv.org/abs/2306.14421v1 )

ライセンス: Link先を確認
Siqi Lai (1), Weijia Zhang (1), Hao Liu (1, 2) ((1) The Hong Kong University of Science and Technology (Guangzhou), (2) The Hong Kong University of Science and Technology)(参考訳) 自動車エネルギー消費推定(VEC)は、旅行計画と輸送の持続可能性において非常に重要である、所定の旅行に必要な総エネルギーを予測することを目的としている。 既存のアプローチは主に、VEC推定を改善するために典型的な旅行から統計的に重要な要素を抽出することに焦点を当てている。 しかし、走行状況によってパーソナライズされた運転行動のため、各車両のエネルギー消費量は広範囲に分散する可能性がある。 そこで本稿では,車両のエネルギー消費量をパーソナライズするメタ最適化フレームワークであるmeta-pecを提案する。 具体的には,まず,過去の旅行に隠された潜在運転者の嗜好を捉える時空間行動学習モジュールを提案する。 さらに,ドライバ選好の記憶に基づいて,選択に基づく運転行動予測モジュールを考案し,与えられた経路上でのドライバ固有の運転パターンを推定し,vec推定のための追加のベースと監督信号を提供する。 さらに,ドライバ固有のメタ最適化手法を提案し,伝達可能な知識の学習と共有によって高速なモデル適応を実現する。 2つの実世界のデータセットに対する大規模な実験は、10の数値およびデータ駆動機械学習ベースラインに対して提案したフレームワークの優位性を示している。 ソースコードはhttps://github.com/usail-hkust/Meta-Pecで入手できる。

Vehicle Energy Consumption (VEC) estimation aims to predict the total energy required for a given trip before it starts, which is of great importance to trip planning and transportation sustainability. Existing approaches mainly focus on extracting statistically significant factors from typical trips to improve the VEC estimation. However, the energy consumption of each vehicle may diverge widely due to the personalized driving behavior under varying travel contexts. To this end, this paper proposes a preference-aware meta-optimization framework Meta-Pec for personalized vehicle energy consumption estimation. Specifically, we first propose a spatiotemporal behavior learning module to capture the latent driver preference hidden in historical trips. Moreover, based on the memorization of driver preference, we devise a selection-based driving behavior prediction module to infer driver-specific driving patterns on a given route, which provides additional basis and supervision signals for VEC estimation. Besides, a driver-specific meta-optimization scheme is proposed to enable fast model adaption by learning and sharing transferable knowledge globally. Extensive experiments on two real-world datasets show the superiority of our proposed framework against ten numerical and data-driven machine learning baselines. The source code is available at https://github.com/usail-hkust/Meta-Pec.
翻訳日:2023-06-27 14:52:58 公開日:2023-06-26
# CVPR'2023 AQTCチャレンジの解決策:マルチステップ推論のためのビデオアライメント

A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step Inference ( http://arxiv.org/abs/2306.14412v1 )

ライセンス: Link先を確認
Chao Zhang, Shiwei Wu, Sirui Zhao, Tong Xu, Enhong Chen(参考訳) Egocentric AssistantのためのAQTC(Affordance-centric Question-driven Task Completion)は、画期的なシナリオを導入している。 このシナリオでは、インストラクショナルビデオの学習を通じて、AIアシスタントがユーザに対して、オペレーティングシステムのステップバイステップガイダンスを提供する。 本稿では,マルチステップ推論を改善するために,映像アライメントを向上するためのソリューションを提案する。 具体的には,まずvideoclipを使用してビデオスクリプトアライメント機能を生成する。 その後,質問関連コンテンツの授業ビデオ化を行う。 そして、特徴を強調するために、マルチモーダルコンテキストを再重み付けします。 最後に、GRUを多段階推論に採用する。 CVPR'2023 AQTCにおける第2位を獲得し,本手法の有効性と優位性を実証した。 私たちのコードはhttps://github.com/zcfinal/LOVEU-CVPR23-AQTCで公開されています。

Affordance-centric Question-driven Task Completion (AQTC) for Egocentric Assistant introduces a groundbreaking scenario. In this scenario, through learning instructional videos, AI assistants provide users with step-by-step guidance on operating devices. In this paper, we present a solution for enhancing video alignment to improve multi-step inference. Specifically, we first utilize VideoCLIP to generate video-script alignment features. Afterwards, we ground the question-relevant content in instructional videos. Then, we reweight the multimodal context to emphasize prominent features. Finally, we adopt GRU to conduct multi-step inference. Through comprehensive experiments, we demonstrate the effectiveness and superiority of our method, which secured the 2nd place in CVPR'2023 AQTC challenge. Our code is available at https://github.com/zcfinal/LOVEU-CVPR23-AQTC.
翻訳日:2023-06-27 14:52:38 公開日:2023-06-26
# 知識グラフによる韓国生成常識推論

Knowledge Graph-Augmented Korean Generative Commonsense Reasoning ( http://arxiv.org/abs/2306.14470v1 )

ライセンス: Link先を確認
Dahyun Jung, Jaehyung Seo, Jaewook Lee, Chanjun Park, Heuiseok Lim(参考訳) ジェネレーティブ・コモンセンス推論(generative commonsense reasoning)とは、日常の状況について、コモンセンスの理解に基づいて受け入れられる論理的な仮定を生成するタスクである。 Korea CommonGenのような既存のデータセットを利用することで、言語生成モデルは韓国語固有の常識推論を学ぶことができる。 しかし、言語モデルは概念と概念に固有の深い知識との関係を考慮しないことが多い。 これらの制約に対処するため,韓国の知識グラフデータを用いたテキスト生成手法を提案する。 実験の結果,提案手法は韓国のコモンセンス推論の効率を向上し,補足データの利用の重要性を浮き彫りにした。

Generative commonsense reasoning refers to the task of generating acceptable and logical assumptions about everyday situations based on commonsense understanding. By utilizing an existing dataset such as Korean CommonGen, language generation models can learn commonsense reasoning specific to the Korean language. However, language models often fail to consider the relationships between concepts and the deep knowledge inherent to concepts. To address these limitations, we propose a method to utilize the Korean knowledge graph data for text generation. Our experimental result shows that the proposed method can enhance the efficiency of Korean commonsense inference, thereby underlining the significance of employing supplementary data.
翻訳日:2023-06-27 14:47:06 公開日:2023-06-26
# 適応性制約下における逐次意思決定の一般的な枠組み

A General Framework for Sequential Decision-Making under Adaptivity Constraints ( http://arxiv.org/abs/2306.14468v1 )

ライセンス: Link先を確認
Nuoya Xiong, Zhuoran Yang, Zhaoran Wang(参考訳) 適応性制約(まれなポリシースイッチ)とバッチ学習(バッチ学習)という2つの制約の下で、一般的なシーケンシャルな意思決定を研究するための第一歩を踏み出します。 まず,多種多様な強化学習クラスを含むeluder条件クラスと呼ばれる一般クラスを提供する。 そして、まれなポリシースイッチの制約に対して、EC クラスで $\widetilde{\mathcal{O}}(\log K) $ switch cost を $\widetilde{\mathcal{O}}(\sqrt{K})$ regret で達成するための一般的なアルゴリズムを提供する。 バッチ学習制約に対しては、バッチ数$bで$\widetilde{\mathcal{o}}(\sqrt{k}+k/b)$ regretを提供するアルゴリズムを提供する。 $ This paper is the first work considering rare policy switch and batch learning under general function classes, which covers nearly all the models studied in the previous works such as tabular MDP (Bai et al. 2019; Zhang et al. 2020), linear MDP (Wang et al. 2021; Gao et al. 2021), low eluder dimension MDP (Kong et al. 2021; Gao et al. 2021), generalized linear function approximation (Qiao et al. 2023), and also some new classes such as the low $D_\Delta$-type Bellman eluder dimension problem, linear mixture MDP, kernelized nonlinear regulator and undercomplete partially observed Markov decision process (POMDP).

We take the first step in studying general sequential decision-making under two adaptivity constraints: rare policy switch and batch learning. First, we provide a general class called the Eluder Condition class, which includes a wide range of reinforcement learning classes. Then, for the rare policy switch constraint, we provide a generic algorithm to achieve a $\widetilde{\mathcal{O}}(\log K) $ switching cost with a $\widetilde{\mathcal{O}}(\sqrt{K})$ regret on the EC class. For the batch learning constraint, we provide an algorithm that provides a $\widetilde{\mathcal{O}}(\sqrt{K}+K/B)$ regret with the number of batches $B.$ This paper is the first work considering rare policy switch and batch learning under general function classes, which covers nearly all the models studied in the previous works such as tabular MDP (Bai et al. 2019; Zhang et al. 2020), linear MDP (Wang et al. 2021; Gao et al. 2021), low eluder dimension MDP (Kong et al. 2021; Gao et al. 2021), generalized linear function approximation (Qiao et al. 2023), and also some new classes such as the low $D_\Delta$-type Bellman eluder dimension problem, linear mixture MDP, kernelized nonlinear regulator and undercomplete partially observed Markov decision process (POMDP).
翻訳日:2023-06-27 14:46:54 公開日:2023-06-26
# 厳密なコールドスタート項目推薦のためのマルチタスクアイテム属性グラフ事前学習

Multi-task Item-attribute Graph Pre-training for Strict Cold-start Item Recommendation ( http://arxiv.org/abs/2306.14462v1 )

ライセンス: Link先を確認
Yuwei Cao, Liangwei Yang, Chen Wang, Zhiwei Liu, Hao Peng, Chenyu You, Philip S. Yu(参考訳) レコメンデーションシステムは厳格なコールドスタート(SCS)シナリオに苦しむ。 IDベースのアプローチは完全に機能しない。 一方、コールドスタート推奨者はアイテムの内容を活用して、新しいアイテムを既存のアイテムにマップする。 しかし、既存のSCSレコメンデータは、ノイズや情報損失をもたらす粗粒度な方法でアイテムの内容を調べる。 また、ユーザの購入シーケンスやレビューテキストなどの項目内容以外の情報的データソースも無視する。 本研究では,既存項目とSCS項目のギャップを埋める上でのきめ細かい項目属性の役割と,SCS項目推薦のための知識のある項目属性グラフの事前学習について検討する。 提案するフレームワークであるColdGPTは,項目内容から細粒度属性を抽出し,アイテム属性の相関関係をアイテム属性グラフにモデル化する。 coldgptは知識をさまざまな利用可能なデータソース、すなわちアイテムの内容、履歴購入シーケンス、既存のアイテムのレビューテキストから、マルチタスク学習を通じてアイテム属性グラフに転送する。 正の転送を容易にするため、coldgptはデータソースの自然な形式に従ってサブモジュールを設計し、統一されたアライメントと一様損失によって複数の事前トレーニングタスクを協調させる。 事前学習した項目属性グラフは暗黙的かつ拡張可能な項目埋め込み行列として機能し,これらの項目を挿入し,属性の埋め込みを伝播することにより,SCS項目埋め込みを容易に取得できる。 評価のためのSCS設定を保証するために、Yelp、Amazonホーム、Amazonスポーツの3つのパブリックデータセットを慎重に処理します。 大規模な実験では、ColdGPTは既存のSCSレコメンデータを大きなマージンで一貫して上回り、さらに4つのデータセットのうち2つについて、75~224倍のクロスドメインデータで事前トレーニングされたモデルを上回ります。

Recommendation systems suffer in the strict cold-start (SCS) scenario, where the user-item interactions are entirely unavailable. The ID-based approaches completely fail to work. Cold-start recommenders, on the other hand, leverage item contents to map the new items to the existing ones. However, the existing SCS recommenders explore item contents in coarse-grained manners that introduce noise or information loss. Moreover, informative data sources other than item contents, such as users' purchase sequences and review texts, are ignored. We explore the role of the fine-grained item attributes in bridging the gaps between the existing and the SCS items and pre-train a knowledgeable item-attribute graph for SCS item recommendation. Our proposed framework, ColdGPT, models item-attribute correlations into an item-attribute graph by extracting fine-grained attributes from item contents. ColdGPT then transfers knowledge into the item-attribute graph from various available data sources, i.e., item contents, historical purchase sequences, and review texts of the existing items, via multi-task learning. To facilitate the positive transfer, ColdGPT designs submodules according to the natural forms of the data sources and coordinates the multiple pre-training tasks via unified alignment-and-uniformity losses. Our pre-trained item-attribute graph acts as an implicit, extendable item embedding matrix, which enables the SCS item embeddings to be easily acquired by inserting these items and propagating their attributes' embeddings. We carefully process three public datasets, i.e., Yelp, Amazon-home, and Amazon-sports, to guarantee the SCS setting for evaluation. Extensive experiments show that ColdGPT consistently outperforms the existing SCS recommenders by large margins and even surpasses models that are pre-trained on 75-224 times more, cross-domain data on two out of four datasets.
翻訳日:2023-06-27 14:46:27 公開日:2023-06-26
# マルチクエリ画像検索のための階層マッチングと推論

Hierarchical Matching and Reasoning for Multi-Query Image Retrieval ( http://arxiv.org/abs/2306.14460v1 )

ライセンス: Link先を確認
Zhong Ji, Zhihao Li, Yan Zhang, Haoran Wang, Yanwei Pang, Xuelong Li(参考訳) 有望なフィールドとして、Multi-Query Image Retrieval (MQIR) は、複数の領域固有のテキストクエリが与えられた意味的に関連のあるイメージを探すことを目的としている。 既存の作品は、画像領域とテキストクエリの単一レベルの類似性を重視しており、マルチレベル類似性の階層的ガイダンスを無視し、不完全なアライメントを実現している。 さらに、本質的に異なる領域-クエリペアを接続する高レベルなセマンティックな相関はめったに考慮されない。 上記の制約に対処するため,MQIRのための階層マッチング・推論ネットワーク(HMRN)を提案する。 MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関を捉える。 HMRNは2つのモジュールからなる: Scalar-based Matching (SM)モジュールとVector-based Reasoning (VR)モジュール。 具体的には、SMモジュールは、微粒な局所レベル類似性とコンテキスト対応のグローバルレベル類似性からなるマルチレベルアライメント類似性を特徴付ける。 その後、複数の領域クエリペア間の潜在的な意味相関を掘り下げるために、vrモジュールが開発され、ハイレベルな推論の類似性をさらに探求する。 最後に、これらの3レベル類似性は、究極の類似性を形成するために結合類似性空間に集約される。 ベンチマークデータセットの大規模な実験は、HMRNが現在の最先端の手法を大幅に上回っていることを示している。 例えば、既存の最良のドリルダウンと比較すると、前ラウンドのメートル法r@1は23.4%改善されている。 ソースコードはhttps://github.com/LZH-053/HMRNで公開されます。

As a promising field, Multi-Query Image Retrieval (MQIR) aims at searching for the semantically relevant image given multiple region-specific text queries. Existing works mainly focus on a single-level similarity between image regions and text queries, which neglects the hierarchical guidance of multi-level similarities and results in incomplete alignments. Besides, the high-level semantic correlations that intrinsically connect different region-query pairs are rarely considered. To address above limitations, we propose a novel Hierarchical Matching and Reasoning Network (HMRN) for MQIR. It disentangles MQIR into three hierarchical semantic representations, which is responsible to capture fine-grained local details, contextual global scopes, and high-level inherent correlations. HMRN comprises two modules: Scalar-based Matching (SM) module and Vector-based Reasoning (VR) module. Specifically, the SM module characterizes the multi-level alignment similarity, which consists of a fine-grained local-level similarity and a context-aware global-level similarity. Afterwards, the VR module is developed to excavate the potential semantic correlations among multiple region-query pairs, which further explores the high-level reasoning similarity. Finally, these three-level similarities are aggregated into a joint similarity space to form the ultimate similarity. Extensive experiments on the benchmark dataset demonstrate that our HMRN substantially surpasses the current state-of-the-art methods. For instance, compared with the existing best method Drill-down, the metric R@1 in the last round is improved by 23.4%. Our source codes will be released at https://github.com/LZH-053/HMRN.
翻訳日:2023-06-27 14:45:52 公開日:2023-06-26
# Deep Manifold Contrastive Learningを用いた病理組織像分類

Histopathology Image Classification using Deep Manifold Contrastive Learning ( http://arxiv.org/abs/2306.14459v1 )

ライセンス: Link先を確認
Jing Wei Tan, Won-Ki Jeong(参考訳) 対照的な学習は、優れた特徴表現性能を持つ頑健さによって人気を博している。 しかし、対照的な学習においてよく使われる類似度計量であるコサイン距離は、特に非線形特徴多様体において、2つのデータポイント間の距離を表すのに適していない。 本稿では,特徴間の測地的距離を,病理組織学全体のスライド画像分類の類似度指標として活用する,新しいコントラスト学習の拡張を提案する。 多様体学習における計算オーバーヘッドを削減するため,我々は,時間消費する対数的特徴類似性比較を必要とせず,プロトタイプを用いた効率的なコントラスト損失評価のための測地距離に基づく特徴クラスタリングを提案する。 提案手法の有効性を実世界の2つの病理画像データセットで評価した。 その結果,提案手法は最先端のコサイン距離に基づくコントラスト学習法よりも優れていた。

Contrastive learning has gained popularity due to its robustness with good feature representation performance. However, cosine distance, the commonly used similarity metric in contrastive learning, is not well suited to represent the distance between two data points, especially on a nonlinear feature manifold. Inspired by manifold learning, we propose a novel extension of contrastive learning that leverages geodesic distance between features as a similarity metric for histopathology whole slide image classification. To reduce the computational overhead in manifold learning, we propose geodesic-distance-based feature clustering for efficient contrastive loss evaluation using prototypes without time-consuming pairwise feature similarity comparison. The efficacy of the proposed method is evaluated on two real-world histopathology image datasets. Results demonstrate that our method outperforms state-of-the-art cosine-distance-based contrastive learning methods.
翻訳日:2023-06-27 14:45:24 公開日:2023-06-26
# ピアソン相関係数による量子系の全相関の定量化

Quantifying total correlations in quantum systems through the Pearson correlation coefficient ( http://arxiv.org/abs/2306.14458v1 )

ライセンス: Link先を確認
Spyros Tserkis, Syed M. Assad, Ping Koy Lam, Prineha Narang(参考訳) 量子状態は古典的あるいは量子的な方法で相関することができる。 従来、量子系内の全相関は、相対エントロピーや正方形ノルムのような距離に基づく表現を通じて幾何学的に定量化される。 本研究では, ピアソン相関係数の統計的尺度を用いて, 全相関を定量化する方法を提案する。 2つの手法は、異なる視点から相関の概念にアプローチするため、相互に相互に考慮することができる。 また、少なくとも2量子ビットシステムの場合、観測可能なペア間の相関分布は、システムが古典的または量子的相関を含むかどうかについての洞察を与える。 最後に、量子系における相関が一般エントロピーの不確かさ原理とどのように結びついているかを示す。

A quantum state can be correlated in either a classical or a quantum way. Conventionally, the total correlations within the quantum system are quantified in a geometrical way through distance-based expressions such as the relative entropy or the square-norm. In this work, we provide an alternative method to quantify total correlations through the statistical measure of Pearson correlation coefficient. The two methods can be considered reciprocal to each other, given that they approach the notion of correlations from a different perspective. We also illustrate that, at least for the case of two-qubit systems, the distribution of the correlations among pairs of observables provides insight in regards to whether a system contains classical or quantum correlations. Finally, we show how correlations in quantum systems are connected to the general entropic uncertainty principle.
翻訳日:2023-06-27 14:45:10 公開日:2023-06-26
# fauno: イタリアの大型言語モデルは、あなたをsenza paroleに残します!

Fauno: The Italian Large Language Model that will leave you senza parole! ( http://arxiv.org/abs/2306.14457v1 )

ライセンス: Link先を確認
Andrea Bacciu, Giovanni Trappolini, Andrea Santilli, Emanuele Rodol\`a, Fabrizio Silvestri(参考訳) 本稿では,イタリア初のオープンソースの対話型大規模言語モデル(llm)であるfaunoについて述べる。 Faunoの目標は、イタリアのLLMの研究を民主化し、単一のGPUで微調整された会話ボットを得ることが可能であることを示すことです。 さらに、イタリア語で会話型AIのためのデータセットのコレクションもリリースしています。 faunoを微調整したデータセットには、一般的な質問応答、コンピュータサイエンス、医療質問など様々なトピックが含まれています。 コードとデータセットは \url{https://github.com/RSTLess-research/Fauno-Italian-LLM} で公開しています。

This paper presents Fauno, the first and largest open-source Italian conversational Large Language Model (LLM). Our goal with Fauno is to democratize the study of LLMs in Italian, demonstrating that obtaining a fine-tuned conversational bot with a single GPU is possible. In addition, we release a collection of datasets for conversational AI in Italian. The datasets on which we fine-tuned Fauno include various topics such as general question answering, computer science, and medical questions. We release our code and datasets on \url{https://github.com/RSTLess-research/Fauno-Italian-LLM}
翻訳日:2023-06-27 14:44:57 公開日:2023-06-26
# 超伝導島における多重マヨラナ結合状態による電子テレポーテーション

Electron Teleportation via Multiple Majorana Bound States in a Superconductor Island ( http://arxiv.org/abs/2306.14455v1 )

ライセンス: Link先を確認
Zhen-Tao Zhang, Bao-Long Liang, and Zhen-Shan Yang(参考訳) 2つのマヨラナ境界状態(MBS)による電子テレポーテーションは、MBSの非局所性を示すものである。 超伝導体は複数の分離または部分的な重なり合うMBSをホストし、それらを区別することは困難である。 ここでは,超伝導島の複数のMBSを経由した2つの量子ドット間の電子テレポーテーションについて検討した。 マヨラナ結合がない場合、弾性電子移動と非弾性電子移動の両方が特定のシステム設定で許容され、テレポーテーション後に島の状態が変化する程度はMBSの初期状態に依存する。 マヨラナカップリングの存在下では、弾性と非弾性のテレポーテーションは、どの一対のMBSが結合するかに応じて選択的である。 一方、コチューナリングプロセスは異なるMBS結合タイプに対して異なる。 さらに,トンネルの非対称性が量子ドットに与える影響についても検討した。 本研究は, トポロジカルMBSによる輸送シグネチャの解明に有用であり, 非トポロジカル準粒子に由来する。

Electron teleportation via two separate Majorana bound states(MBSs) is a manifestation of the non-locality of MBSs. A superconductor may host multiple separate or partial overlapping MBSs, and it is difficult to distinguish them. Here, we have studied the electron teleportation between two quantum dots via multiple MBSs in a superconductor island, two of which couple with the quantum dots. We find that in the absence of Majorana coupling, both elastic and inelastic electron transfers are allowed for specific system settings, and the extent to which the island state is changed after the teleportation relies on the initial state of the MBSs. In the presence of Majorana couplings, the elastic and inelastic teleportations are selective according to which pair of MBSs are coupled. Meanwhile, the cotuneling processes are distinct for different MBSs coupling types. In addition, we have investigated the effect of the asymmetry of the tunnelings to quantum dots on the transport. Our findings are meaningful for resolving transport signatures induced by topological MBSs and that stems from nontopological quasiparticle.
翻訳日:2023-06-27 14:44:47 公開日:2023-06-26
# 横電場を有する2本鎖ヘリックスにおける多重リエントラント局在現象

Phenomenon of multiple reentrant localization in a double-stranded helix with transverse electric field ( http://arxiv.org/abs/2306.14452v1 )

ライセンス: Link先を確認
Sudin Ganguly, Suparna Sarkar, Kallol Mondal, and Santanu K. Maiti(参考訳) 本研究は, 従来の近接ホッピング相互作用を超越した, 二重鎖ヘリカル (DSH) 系における複数再帰的局所化挙動の観測の可能性を探るものである。 DSH系は各ストランドでホッピング二量体化され、また、横電場にも適用されると考えられている。 電場を含むことは、準周期性障害とストランドワイドサイトエネルギーを誘導する二重目的に役立つ。 熱力学的限界における真の拡張挙動を示す領域と、ヘリックス内部に部分的な広がりを伴う準拡張特性を示す領域である。 DSH系では3つの異なる単一粒子移動エッジが系内に存在する局在化遷移と関連している。 本研究では, 単粒子エネルギースペクトル, 逆参加率, 局所確率振幅など, 様々なパラメータを検討した。 本提案は, 達成可能なホッピング二量体化と相関性障害を併せ持つことで, 再帰的局所化現象を研究するユニークな機会を与え, 重要な研究関心を生んでいる。

The present work explores the potential for observing multiple reentrant localization behavior in a double-stranded helical (DSH) system, extending beyond the conventional nearest-neighbor hopping interaction. The DSH system is considered to have hopping dimerization in each strand, while also being subjected to a transverse electric field. The inclusion of an electric field serves the dual purpose of inducing quasiperiodic disorder and strand-wise staggered site energies. Two reentrant localization regions are identified: one exhibiting true extended behavior in the thermodynamic limit, while the second region shows quasi-extended characteristics with partial spreading within the helix. The DSH system exhibits three distinct single-particle mobility edges linked to localization transitions present in the system. The analysis in this study involves examining various parameters such as the single-particle energy spectrum, inverse participation ratio, local probability amplitude, and more. Our proposal, combining achievable hopping dimerization and induced correlated disorder, presents a unique opportunity to study phenomenon of reentrant localization, generating significant research interest.
翻訳日:2023-06-27 14:44:27 公開日:2023-06-26
# 弱教師付きビデオ異常検出のためのプロンプト強化コンテキスト特徴の学習

Learning Prompt-Enhanced Context Features for Weakly-Supervised Video Anomaly Detection ( http://arxiv.org/abs/2306.14451v1 )

ライセンス: Link先を確認
Yujiang Pu, Xiaoyu Wu, Shengjin Wang(参考訳) 訓練段階でフレームレベルのアノテーションがないため,弱い監督下での映像異常検出は困難である。 これまでの研究では、時間的関係をモデル化するためのグラフ畳み込みネットワークや自己認識機構や、複数のインスタンス学習(MIL)に基づく分類損失を用いて、識別的特徴を学習してきた。 しかし、それらのほとんどがマルチブランチを使用してローカルとグローバルの依存関係を別々に捉えており、パラメータと計算コストが増加する。 さらに、MILに基づく損失の双項化制約は、粒度の粗いクラス間分離性のみを保証し、異常クラス内の粒度の識別性を無視する。 本稿では,効率的な文脈モデリングと意味的識別性の向上を強調する,弱教師付き異常検出フレームワークを提案する。 この目的のために、我々はまず、類似度行列と適応融合を再利用して完全なコンテキスト情報をキャプチャする時間的コンテキストアグリゲーション(TCA)モジュールを構築した。 さらに,文脈特徴の識別能力を向上し,異常なサブクラス間の分離性を確保することを目的として,知識に基づくプロンプトを活用することによって,セマンティック先行をモデルに組み込んだPELモジュールを提案する。 さらに,得点平滑化(ss)モジュールをテストフェーズに導入し,個々のバイアスを抑制し,誤報を低減する。 提案手法の各種コンポーネントの有効性を実証する実験を行い,utf-crime,xd-violence,上海テックデータセットの3つの難解なベンチマークにおいて,パラメータの少ない競合性能と計算労力を実現した。 いくつかの異常サブクラスの検出精度も大きなマージンで改善されている。

Video anomaly detection under weak supervision is challenging due to the absence of frame-level annotations during the training phase. Previous work has employed graph convolution networks or self-attention mechanisms to model temporal relations, along with multiple instance learning (MIL)-based classification loss to learn discriminative features. However, most of them utilize multi-branches to capture local and global dependencies separately, leading to increased parameters and computational cost. Furthermore, the binarized constraint of the MIL-based loss only ensures coarse-grained interclass separability, ignoring fine-grained discriminability within anomalous classes. In this paper, we propose a weakly supervised anomaly detection framework that emphasizes efficient context modeling and enhanced semantic discriminability. To this end, we first construct a temporal context aggregation (TCA) module that captures complete contextual information by reusing similarity matrix and adaptive fusion. Additionally, we propose a prompt-enhanced learning (PEL) module that incorporates semantic priors into the model by utilizing knowledge-based prompts, aiming at enhancing the discriminative capacity of context features while ensuring separability between anomaly sub-classes. Furthermore, we introduce a score smoothing (SS) module in the testing phase to suppress individual bias and reduce false alarms. Extensive experiments demonstrate the effectiveness of various components of our method, which achieves competitive performance with fewer parameters and computational effort on three challenging benchmarks: the UCF-crime, XD-violence, and ShanghaiTech datasets. The detection accuracy of some anomaly sub-classes is also improved with a great margin.
翻訳日:2023-06-27 14:44:07 公開日:2023-06-26
# 秘密共有によるプライバシ保存型ガウスプロセス回帰

Practical Privacy-Preserving Gaussian Process Regression via Secret Sharing ( http://arxiv.org/abs/2306.14498v1 )

ライセンス: Link先を確認
Jinglong Luo, Yehong Zhang, Jiaqi Zhang, Shuang Qin, Hui Wang, Yue Yu, Zenglin Xu(参考訳) ガウス過程回帰(Gaussian process regression、GPR)は、複数のデータ所有者の機密データ(医療、財務など)を含む多くの現実世界のアプリケーションで使われている非パラメトリックモデルである。 本稿では,異なるデータソースの価値を完全かつ確実に活用するために,セキュアなマルチパーティ計算(smpc)手法であるシークレット共有(ss)に基づくプライバシー保護型gpr手法を提案する。 gprのデータプライバシを準同型暗号化、差分プライバシ、あるいはフェデレーション学習を通じて保護する既存の研究とは対照的に、提案手法はより実用的であり、様々なデータ共有シナリオ(例えば水平/垂直分割データ)のモデル入力と出力の両方のデータプライバシを保存するのに使用できる。 しかし、現在のSMPCプロトコルでは精度や効率が良くない操作を含むため、従来のGPRアルゴリズムにSSを直接適用するのは簡単ではない。 この問題に対処するため、我々は「融合補正」というアイデアを通じて新しいSSベースの指数演算を導出し、Cholesky分解に基づくSSベースの行列逆変換アルゴリズムを構築する。 さらに,提案するssベースオペレーションの通信コストとセキュリティを理論的に解析した。 実験結果から,提案手法はデータプライバシの保護を前提として,妥当な精度と効率を実現できることが示された。

Gaussian process regression (GPR) is a non-parametric model that has been used in many real-world applications that involve sensitive personal data (e.g., healthcare, finance, etc.) from multiple data owners. To fully and securely exploit the value of different data sources, this paper proposes a privacy-preserving GPR method based on secret sharing (SS), a secure multi-party computation (SMPC) technique. In contrast to existing studies that protect the data privacy of GPR via homomorphic encryption, differential privacy, or federated learning, our proposed method is more practical and can be used to preserve the data privacy of both the model inputs and outputs for various data-sharing scenarios (e.g., horizontally/vertically-partitioned data). However, it is non-trivial to directly apply SS on the conventional GPR algorithm, as it includes some operations whose accuracy and/or efficiency have not been well-enhanced in the current SMPC protocol. To address this issue, we derive a new SS-based exponentiation operation through the idea of 'confusion-correction' and construct an SS-based matrix inversion algorithm based on Cholesky decomposition. More importantly, we theoretically analyze the communication cost and the security of the proposed SS-based operations. Empirical results show that our proposed method can achieve reasonable accuracy and efficiency under the premise of preserving data privacy.
翻訳日:2023-06-27 14:36:57 公開日:2023-06-26
# コンテキスト多機能融合に基づくバドミントン認識・追跡システム

A Badminton Recognition and Tracking System Based on Context Multi-feature Fusion ( http://arxiv.org/abs/2306.14492v1 )

ライセンス: Link先を確認
Xinyu Wang and Jianwei Li(参考訳) ボールの認識と追跡は、伝統的にコンピュータビジョン研究者の主要な焦点であり、スポーツビデオ分析の重要な要素である。 小さいボールサイズ、ぼやけた外観、速い動きなどの困難は、ボールの検出やトラッキングにおいて多くの古典的な方法がうまく機能することを妨げている。 本稿では,バドミントン球の検出と追跡を行う手法を提案する。 異なるボール速度の特性により、2つのトラッククリップトラッカーが異なるルールに基づいて設計され、ボールの正しい軌道を捉える。 一方,文脈情報を組み合わせることで,バドミントン検出における課題を解決するために,粗粒度から細粒度までの2ラウンドの検出が用いられる。 その結果, 咬合のないデータでは100%, 72.6%, 84.1%の精度, 再現率, およびf1測定値が得られた。

Ball recognition and tracking have traditionally been the main focus of computer vision researchers as a crucial component of sports video analysis. The difficulties, such as the small ball size, blurry appearance, quick movements, and so on, prevent many classic methods from performing well on ball detection and tracking. In this paper, we present a method for detecting and tracking badminton balls. According to the characteristics of different ball speeds, two trajectory clip trackers are designed based on different rules to capture the correct trajectory of the ball. Meanwhile, combining contextual information, two rounds of detection from coarse-grained to fine-grained are used to solve the challenges encountered in badminton detection. The experimental results show that the precision, recall, and F1-measure of our method, reach 100%, 72.6% and 84.1% with the data without occlusion, respectively.
翻訳日:2023-06-27 14:36:31 公開日:2023-06-26
# マルチビューRGBカメラを用いたTaiChi アクションキャプチャと性能解析

TaiChi Action Capture and Performance Analysis with Multi-view RGB Cameras ( http://arxiv.org/abs/2306.14490v1 )

ライセンス: Link先を確認
Jianwei Li, Siyu Mo, Yanfei Shen(参考訳) 近年のコンピュータビジョンと深層学習がスポーツパフォーマンス分析の分野に影響を与えており、研究者はマーカーの添付なしに自由に動く人間の追跡と再構築を行っている。 しかし、プロの太知運動のための視覚ベースのモーションキャプチャーとインテリジェント分析のための作品はほとんどない。 本論文では,多視点幾何と人工知能技術を用いたTaiChiパフォーマンスキャプチャと解析のためのフレームワークを提案する。 主な革新的仕事は次のとおりである。 1)TaiChiモーションキャプチャに適したマルチカメラシステムを構築し、マルチビューTaiChiデータを収集処理する。 2) 従来の視覚法と暗黙的神経放射場の組み合わせにより, スパース3次元骨格融合と高密度3次元表面再構成を実現する。 3) 移動系列の正規化モデル化は, 移動移動に基づいて行われ, 異なる群に対する太一性能解析を実現する。 評価実験を行い,実験結果から本手法の有効性が示された。

Recent advances in computer vision and deep learning have influenced the field of sports performance analysis for researchers to track and reconstruct freely moving humans without any marker attachment. However, there are few works for vision-based motion capture and intelligent analysis for professional TaiChi movement. In this paper, we propose a framework for TaiChi performance capture and analysis with multi-view geometry and artificial intelligence technology. The main innovative work is as follows: 1) A multi-camera system suitable for TaiChi motion capture is built and the multi-view TaiChi data is collected and processed; 2) A combination of traditional visual method and implicit neural radiance field is proposed to achieve sparse 3D skeleton fusion and dense 3D surface reconstruction. 3) The normalization modeling of movement sequences is carried out based on motion transfer, so as to realize TaiChi performance analysis for different groups. We have carried out evaluation experiments, and the experimental results have shown the efficiency of our method.
翻訳日:2023-06-27 14:36:16 公開日:2023-06-26
# 強化学習を用いた分散マルチロボット形成制御

Decentralized Multi-Robot Formation Control Using Reinforcement Learning ( http://arxiv.org/abs/2306.14489v1 )

ライセンス: Link先を確認
Juraj Obradovic, Marko Krizmancic, Stjepan Bogdan(参考訳) 本稿では,小規模教育用スフェロロボット群に適用した強化学習(rl)アルゴリズムに基づく分散化リーダ従者多ロボット形成制御を提案する。 基礎的なQ-ラーニング法はQ-tableのメモリ資源が大きいことが知られているため、本研究はDouble Deep Q-Network (DDQN)アルゴリズムを実装しており、多くのロボット問題において優れた結果を得た。 システム動作を向上させるため,我々は2つの異なるDDQNモデルを訓練した。 モデルは、連続非線形系をRLの離散的な性質に適応させるために、離散的なロボット運動(アクション)を使用する。 提案手法は,複雑な数学的モデルや非線形制御法則を必要とせずに,安定な形成を実現することができることを示すシミュレーションや実実験で検証されている。

This paper presents a decentralized leader-follower multi-robot formation control based on a reinforcement learning (RL) algorithm applied to a swarm of small educational Sphero robots. Since the basic Q-learning method is known to require large memory resources for Q-tables, this work implements the Double Deep Q-Network (DDQN) algorithm, which has achieved excellent results in many robotic problems. To enhance the system behavior, we trained two different DDQN models, one for reaching the formation and the other for maintaining it. The models use a discrete set of robot motions (actions) to adapt the continuous nonlinear system to the discrete nature of RL. The presented approach has been tested in simulation and real experiments which show that the multi-robot system can achieve and maintain a stable formation without the need for complex mathematical models and nonlinear control laws.
翻訳日:2023-06-27 14:35:59 公開日:2023-06-26
# 実画像を用いたイテレーティブ・イン・イテレーティブ超解像バイオメディカルイメージング

Iterative-in-Iterative Super-Resolution Biomedical Imaging Using One Real Image ( http://arxiv.org/abs/2306.14487v1 )

ライセンス: Link先を確認
Yuanzheng Ma, Xinyue Wang, Benqi Zhao, Ying Xiao, Shijie Deng, Jian Song, and Xun Guan(参考訳) 深層学習に基づく超解像モデルでは、早期発見、パーソナライズド医療、臨床自動化に関連する様々な課題を効果的に解決することで、バイオメディカルイメージングと診断に革命をもたらす可能性がある。 しかし,高解像度画像の広範な収集の必要性から,臨床応用の限界が指摘されている。 本実験では,自己生成高解像度画像を利用した1つの実画像のみを用いて,ディープラーニングに基づく超解像モデルを効果的に学習する手法を提案する。 我々は,地平線に類似した分布を持つ画像を自動的に選択するために,画像スクリーニングの混合指標を用い,時間とともに改良された画像を生成するためのトレーニングデータセットを漸進的に作成した。 5回のトレーニングの後,提案した深層学習に基づく超解像モデルでは,構造的類似度とピーク信号-雑音比が7.5 %,5.49 %向上した。 重要なことは、このモデルが一貫して視覚的に強化されたトレーニング結果を生成し、元の生体画像の特徴を保ちながら、その性能を向上させることである。 これらの結果は、現実世界の人間データに依存しない自己進化的な方法でディープニューラルネットワークを訓練する可能性を示している。

Deep learning-based super-resolution models have the potential to revolutionize biomedical imaging and diagnoses by effectively tackling various challenges associated with early detection, personalized medicine, and clinical automation. However, the requirement of an extensive collection of high-resolution images presents limitations for widespread adoption in clinical practice. In our experiment, we proposed an approach to effectively train the deep learning-based super-resolution models using only one real image by leveraging self-generated high-resolution images. We employed a mixed metric of image screening to automatically select images with a distribution similar to ground truth, creating an incrementally curated training data set that encourages the model to generate improved images over time. After five training iterations, the proposed deep learning-based super-resolution model experienced a 7.5\% and 5.49\% improvement in structural similarity and peak-signal-to-noise ratio, respectively. Significantly, the model consistently produces visually enhanced results for training, improving its performance while preserving the characteristics of original biomedical images. These findings indicate a potential way to train a deep neural network in a self-revolution manner independent of real-world human data.
翻訳日:2023-06-27 14:35:43 公開日:2023-06-26
# ソーシャル拡張現実環境におけるアバターとエージェントの移動

Moving Avatars and Agents in Social Extended Reality Environments ( http://arxiv.org/abs/2306.14484v1 )

ライセンス: Link先を確認
Jann Philipp Freiwald, Susanne Schmidt, Bernhard E. Riecke, Frank Steinicke(参考訳) 共有仮想環境(VE)内の複数のユーザ間の自然なインタラクションは、インタラクションパートナーの現在の位置に対する相互の認識に依存している。 しかし、これは、傍観者の間で混乱を引き起こす可能性があるテレポーテーションのような、不連続な移動技術を使用する場合に保証できない。 本稿では,動きを観察するユーザと傍観者の両方に対して,快適な体験を実現するための2つのアプローチを追求する。 まず、共有バーチャルリアリティ(vr)空間における非連続ロコモーションのための、連続的な全身人間表現を提供するスマートアバターシステムを導入する。 スマートアバターは、ユーザ間の距離が一定のしきい値を超えたときに、近接して自律的にユーザをナビゲートする際に、割り当てられたユーザの現実世界の動きを模倣する。 スマートアバターシステムの一環として,4つのアバター遷移手法を実装し,従来のアバター移動との比較を行った。 次に,任意の連続的ロコモーション法に適用可能なスタッタードロコモーションの概念を紹介する。 連続移動を短いインターバルテレポートステップに変換することで,移動ユーザに対して非連続移動のメリットを提供するとともに,観察者が容易に経路を追跡することができる。 このように、観察者の体験は連続的な動きと同様に肯定的であるが、ユーザの調査では、Stuttered Locomotionは移動者に対するサイバーシック症状の発生を著しく減少させ、共有VEにとって魅力的な選択であることを確認した。 個別にも組み合わせでも、vr体験を共有するために、スマートアバターとめちゃめちゃなロコモーションの可能性について話し合う。

Natural interaction between multiple users within a shared virtual environment (VE) relies on each other's awareness of the current position of the interaction partners. This, however, cannot be warranted when users employ noncontinuous locomotion techniques, such as teleportation, which may cause confusion among bystanders. In this paper, we pursue two approaches to create a pleasant experience for both the moving user and the bystanders observing that movement. First, we will introduce a Smart Avatar system that delivers continuous full-body human representations for noncontinuous locomotion in shared virtual reality (VR) spaces. Smart Avatars imitate their assigned user's real-world movements when close-by and autonomously navigate to their user when the distance between them exceeds a certain threshold, i.e., after the user teleports. As part of the Smart Avatar system, we implemented four avatar transition techniques and compared them to conventional avatar locomotion in a user study, revealing significant positive effects on the observer's spatial awareness, as well as pragmatic and hedonic quality scores. Second, we introduce the concept of Stuttered Locomotion, which can be applied to any continuous locomotion method. By converting a continuous movement into short-interval teleport steps, we provide the merits of non-continuous locomotion for the moving user while observers can easily keep track of their path. Thus, while the experience for observers is similarly positive as with continuous motion, a user study confirmed that Stuttered Locomotion can significantly reduce the occurrence of cybersickness symptoms for the moving user, making it an attractive choice for shared VEs. We will discuss the potential of Smart Avatars and Stuttered Locomotion for shared VR experiences, both when applied individually and in combination.
翻訳日:2023-06-27 14:35:23 公開日:2023-06-26
# パーソナライズ成分と共有成分を混合した医療連帯モデル

Medical Federated Model with Mixture of Personalized and Sharing Components ( http://arxiv.org/abs/2306.14483v1 )

ライセンス: Link先を確認
Yawei Zhao, Qinghe Liu, Xinwang Liu, Kunlun He(参考訳) データ駆動方式は通常、疾患の診断や治療に顕著な性能を持つが、モデルトレーニングのためのデータ収集によるプライバシーの漏洩が疑われる。 近年、連合学習は、複数の機関間で医療データを交換することなく、協調的にトレーニングするモデルのセキュアで信頼性の高い代替手段を提供する。 そのため、プライバシー保護の自然なメリットから、多くの注目を集めている。 しかし、異なる病院間で異種医療データが存在する場合、連合学習は通常、パフォーマンスの低下に直面しなければならない。 本稿では,その問題に対処するための新しい個人化学習フレームワークを提案する。 ローカルデータ間の類似性の認識に基づくパーソナライズモデルの実現に成功し、従来の方法よりも一般化とパーソナライズとのトレードオフが向上した。 その後,モデルの学習過程におけるコミュニケーション効率を向上させるために,偏差正規化器を更に設計する。 さらに,計算コストを低減し,計算効率を大幅に向上させる効果的な手法を提案する。 さらに、2つの公開医療画像データセットと3つのプライベート多施設臨床診断データセットを含む5つの実際の医療データセットを収集し、結節分類、腫瘍セグメンテーション、臨床リスク予測タスクによってその性能を評価する。 既存の13の手法と比較して,提案手法は最高のモデル性能を実現し,通信効率は最大60%向上した。 ソースコードは公開されており、https://github.com/ApplicationTechnologyOfMedicalBigData/pFedNet-codeでアクセスできる。

Although data-driven methods usually have noticeable performance on disease diagnosis and treatment, they are suspected of leakage of privacy due to collecting data for model training. Recently, federated learning provides a secure and trustable alternative to collaboratively train model without any exchange of medical data among multiple institutes. Therefore, it has draw much attention due to its natural merit on privacy protection. However, when heterogenous medical data exists between different hospitals, federated learning usually has to face with degradation of performance. In the paper, we propose a new personalized framework of federated learning to handle the problem. It successfully yields personalized models based on awareness of similarity between local data, and achieves better tradeoff between generalization and personalization than existing methods. After that, we further design a differentially sparse regularizer to improve communication efficiency during procedure of model training. Additionally, we propose an effective method to reduce the computational cost, which improves computation efficiency significantly. Furthermore, we collect 5 real medical datasets, including 2 public medical image datasets and 3 private multi-center clinical diagnosis datasets, and evaluate its performance by conducting nodule classification, tumor segmentation, and clinical risk prediction tasks. Comparing with 13 existing related methods, the proposed method successfully achieves the best model performance, and meanwhile up to 60% improvement of communication efficiency. Source code is public, and can be accessed at: https://github.com/ApplicationTechnologyOfMedicalBigData/pFedNet-code.
翻訳日:2023-06-27 14:34:53 公開日:2023-06-26
# 強光Schr\"odinger"cat"状態を用いた非線形光学

Nonlinear optics using intense optical Schr\"odinger "cat" states ( http://arxiv.org/abs/2306.14480v1 )

ライセンス: Link先を確認
Theocharis Lamprou, Javier Rivera-Dean, Philipp Stammer, Maciej Lewenstein, Paraskevas Tzallas(参考訳) 光schr\"odinger "cat"状態は、コヒーレントな光状態の重ね合わせによって生成され、schr\"odinger's catの光学的類似物に対応している。 これらの非古典的光状態は量子状態工学の手法によって生成され、量子論の基本的なテストと新しい量子技術の発展の主要な資源の1つと考えられている。 しかし、既存の光「キャット」状態源のパワーは、非線形光学において使用できないような低い平均光子数によって制限されている。 ここでは、赤外スペクトル範囲におけるフェムト秒間光学的「キャット」状態の生成について、現在利用可能な光源よりも平均光子数オーダーが桁違いに高いことを示す。 これらの状態は、物質の非線形過程を誘導するのに十分な強度を示す。 これは光結晶における第2高調波発生の過程を用いて示され、光学「キャット」状態の赤外線光子が青色周波数光子にアップコンバートされる。 我々は、原子との非線形相互作用後の赤外線フェムト秒レーザー場の量子状態に適用した条件付け演算を用いて、第2高調波発生過程を駆動する光状態を生成する。 光学的「キャット」状態を構成するコヒーレント状態間の量子干渉の存在により、状態の量子特性は測定された2階干渉法自己相関トレースに印加される。 この発見は、非線形量子光学の領域に光キャット状態を導入し、量子情報科学におけるエキサイティングな新しい経路を開く。

Optical Schr\"odinger "cat" states created by superpositions of coherent light states, correspond to an optical analog of the Schr\"odinger's cat in his $\textit{Gedankenexperiment}$. These non-classical light states are generated by means of quantum state engineering methods, and they are considered as one of the main resources for fundamental tests of quantum theory and the development of new quantum technologies. However, the power of existing optical "cat" state sources is limited by their low average photon number, which prevents their use in nonlinear optics. Here, we demonstrate the generation of a femtosecond duration optical "cat" state in the infrared spectral range, with mean photon number orders of magnitude higher than those delivered by current available sources. These states exhibit intensities sufficient to induce nonlinear processes in matter. This is shown using the process of second harmonic generation in an optical crystal, in which the infrared-frequency photons of an optical "cat" state are up-converted into blue-frequency photons. We create the light states driving the second harmonic generation process, by means of conditioning operations applied on the quantum state of an intense infrared femtosecond laser field after its nonlinear interaction with atoms. Due to the presence of quantum interference between the coherent states composing the optical "cat" state, the quantum properties of the state are imprinted in the measured second-order interferometric autocorrelation traces. The findings introduce the optical "cat" states into the realm of nonlinear quantum optics, opening up exciting new paths in quantum information science.
翻訳日:2023-06-27 14:34:31 公開日:2023-06-26
# 政策設計:オフライン政策最適化のための保守的テスト時間適応

Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization ( http://arxiv.org/abs/2306.14479v1 )

ライセンス: Link先を確認
Jinxin Liu, Hongyin Zhang, Zifeng Zhuang, Yachen Kang, Donglin Wang, Bin Wang(参考訳) 本研究では,反復型biレベルオフラインrlをオフライントレーニングフェーズから分離し,非イテレーティブなbiレベルパラダイムを形成し,反復型エラー伝搬を回避した。 具体的には、この非イテレーティブパラダイムによって、トレーニングにおける内部レベルの最適化(ood問題)と、テストにおける外部レベルの最適化(報酬の最大化)が可能になります。 当然、このようなパラダイムは、3つの中核的な疑問を提起する。それは、前回の非観念的オフラインRL(例えば報酬条件付きポリシー)によって完全に答えられる、というものである: Q1) 内部レベルから外部レベルへ移行すべき情報は何か? q2) 外部レベルの最適化において、転送情報を利用する際に注意すべきことは何だろうか? q3) テスト中に外部レベルの最適化を同時実行するメリットは何か? モデルに基づく最適化~{(MBO)}によって動機付けられたDROP(\textbf{D}esign f\textbf{RO}m \textbf{P}olicies)を提案する。 具体的には、内部レベルでは、DROPはオフラインデータを複数のサブセットに分解し、{MBO}スコアモデル~(A1)を学ぶ。 スコアモデルを外部レベルで安全に活用するために,動作埋め込みを明示的に学習し,保守的な正規化(A2)を導入する。 テスト中、DROPはテスト時間適応を許容し、状態~(A3)間の適応推論を可能にする。 実験により,従来のオフラインRLと比較して,DROPは80%以上の平均改善確率が得られ,従来の反復ベースラインと比較して同等あるいは優れた性能が得られることがわかった。

In this work, we decouple the iterative bi-level offline RL from the offline training phase, forming a non-iterative bi-level paradigm and avoiding the iterative error propagation over two levels. Specifically, this non-iterative paradigm allows us to conduct inner-level optimization in training (for OOD issues), while performing outer-level optimization in testing (for reward maximizing). Naturally, such a paradigm raises three core questions that are \textit{not} fully answered by prior non-iterative offline RL counterparts like reward-conditioned policy: Q1) What information should we transfer from the inner-level to the outer-level? Q2) What should we pay attention to when exploiting the transferred information in the outer-level optimization? Q3) What are the~benefits of concurrently conducting outer-level optimization during testing? Motivated by model-based optimization~{(MBO)}, we propose DROP (\textbf{D}esign f\textbf{RO}m \textbf{P}olicies), which fully answers the above questions. Specifically, in the inner-level, DROP decomposes offline data into multiple subsets and learns an {MBO} score model~(A1). To keep safe exploitation to the score model in the outer-level, we explicitly learn a behavior embedding and introduce a conservative regularization (A2). During testing, we show that DROP permits test-time adaptation, enabling an adaptive inference across states~(A3). Empirically, we find that DROP, compared to prior non-iterative offline RL counterparts, gains an average improvement probability of more than 80\%, and achieves comparable or better performance compared to prior iterative baselines.
翻訳日:2023-06-27 14:34:02 公開日:2023-06-26
# STEF-DHNet:長期タクシー需要予測のための時空間係数に基づくディープハイブリッドネットワーク

STEF-DHNet: Spatiotemporal External Factors Based Deep Hybrid Network for Enhanced Long-Term Taxi Demand Prediction ( http://arxiv.org/abs/2306.14476v1 )

ライセンス: Link先を確認
Sheraz Hassan, Muhammad Tahir, Momin Uppal, Zubair Khalid, Ivan Gorban, Selim Turki(参考訳) 配車サービスの需要を正確に予測することは、より効果的なサージ価格戦略、ドライバーの配置の改善、顧客サービスの強化といった大きなメリットをもたらす可能性がある。 需要変動を理解することで、企業は消費者の要求を予測し、より効率的に対応し、効率と収益を高めることができる。 しかし、特定の地域における需要予測は、日時、気象条件、場所など、いくつかの外部要因の影響を受けているため、難しい場合がある。 したがって,これらの要因の理解と評価は,消費者行動の予測とニーズへの適応に不可欠である。 グリッドベースのディープラーニングアプローチは,地域タクシー需要の予測に有効であることが証明されている。 しかしながら、これらのモデルは、時空間の複雑さに外部要因を統合することの限界があり、継続的な再訓練なしに延長された時間軸よりも高い精度を維持するため、実用的および商業的用途には適さない。 そこで本稿では,畳み込みニューラルネットワーク(cnn)とlong short-term memory(lstm)を組み合わせた需要予測モデルであるsef-dhnetを提案する。 提案手法は, 転がり誤差と呼ばれる長期的性能測定値を用いて評価し, 再トレーニングなしに長期間にわたって高い精度を維持する能力を評価する。 その結果,STEF-DHNetは3つの多様なデータセット上で既存の最先端の手法よりも優れており,実世界のシナリオで実用化される可能性を示している。

Accurately predicting the demand for ride-hailing services can result in significant benefits such as more effective surge pricing strategies, improved driver positioning, and enhanced customer service. By understanding the demand fluctuations, companies can anticipate and respond to consumer requirements more efficiently, leading to increased efficiency and revenue. However, forecasting demand in a particular region can be challenging, as it is influenced by several external factors, such as time of day, weather conditions, and location. Thus, understanding and evaluating these factors is essential for predicting consumer behavior and adapting to their needs effectively. Grid-based deep learning approaches have proven effective in predicting regional taxi demand. However, these models have limitations in integrating external factors in their spatiotemporal complexity and maintaining high accuracy over extended time horizons without continuous retraining, which makes them less suitable for practical and commercial applications. To address these limitations, this paper introduces STEF-DHNet, a demand prediction model that combines Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) to integrate external features as spatiotemporal information and capture their influence on ride-hailing demand. The proposed model is evaluated using a long-term performance metric called the rolling error, which assesses its ability to maintain high accuracy over long periods without retraining. The results show that STEF-DHNet outperforms existing state-of-the-art methods on three diverse datasets, demonstrating its potential for practical use in real-world scenarios.
翻訳日:2023-06-27 14:33:33 公開日:2023-06-26
# 位相二乗発振器(pbos)の性能とイジング計算のための量子近似最適化アルゴリズム(qaoa)との比較(最大カット問題)

Superior Performance of Phase Binarized Oscillators (PBOs) Compared to Quantum Approximation Optimization Algorithm (QAOA) for Ising Computing (Max-Cut Problem) ( http://arxiv.org/abs/2306.14528v1 )

ライセンス: Link先を確認
Sanyam Singhal, Debanjan Bhowmik(参考訳) ほとんどの結合発振器は、自己振動やカップリングの正確な物理によらず、室温で同期と位相二項化を行うことが理論的および実験的に示されている。 これらの位相二値発振器(PBO)は、NP-Hard組合せ最適化問題を非常に高速にヒューリスティックに解くIsingコンピューティングに使用できる。 量子近似最適化アルゴリズム(QAOA)は、Isingコンピューティングの代替ノイズのある中間スケール量子(NISQ)時代アルゴリズムとして登場し、ゲートベースであり実装に低回路深度を必要とするため、現在非常に人気がある。 本稿では,NP-Hard Max-Cut問題に限定しつつ,様々な難易度のグラフインスタンスに対して,PBOとQAOAの性能を比較した。 難解グラフインスタンス(非重み付きランダム立方体、非重み付き Erd{\"o}s R{\'e}nyi、および比較的多くのノードを持つ重み付き完全グラフ:18-20)に対して、PBOsの成功確率(正解を求める確率)はQAOAよりも4-5桁高い。 PBOは室温で動作し、QAOAの量子回路は動作しない(ミリケルビンで動作している)ので、成功確率の数値から、PBOはQAOAのような量子アプローチに比べて、Isingコンピューティングの魅力的なハードウェアプラットフォームとなる。 ここではPBOをシミュレーションするために非常に一般的な物理に依存しない倉本モデルを用いており、従来のトランジスタとナノスケールデバイスの両方に基づく幅広い振動子に適用できる。 そこで本研究では,これらの異なるデバイス技術に基づき,pboの時間とソリューションを比較した。

It has been shown both theoretically and experimentally that most coupled oscillators undergo synchronization and phase binarization at room temperature under sub-harmonic injection locking (SHIL), irrespective of the exact physics of their auto-oscillation or coupling. These phase-binarized oscillators (PBOs) can be used for Ising computing, which is about heuristically solving NP-Hard combinatorial optimization problems very fast. The quantum approximate optimization algorithm (QAOA) has emerged as an alternative noisy intermediate scale quantum (NISQ) era algorithm for Ising computing and is very popular currently since it is gate based and needs low circuit depth for implementation. In this paper, we compare the performance of PBOs with that of QAOA over a wide range of graph instances of different levels of difficulty, while restricting ourselves to the NP-Hard Max-Cut problem. We show that for the difficult graph instances (unweighted random cubic, unweighted Erd{\"o}s R{\'e}nyi, and weighted complete graphs with relatively high number of nodes: 18-20), the success probability (probability to find the correct Max-Cut solution) of PBOs is 4-5 orders of magnitude higher than that of QAOA. Since PBOs operate at room temperature while the quantum circuit in QAOA doesn't (it operates in milli Kelvins), our finding here on their success probability numbers makes PBOs a more attractive hardware platform for Ising computing compared to quantum approaches like QAOA. Since we use the very general and physics-agnostic Kuramoto model to simulate PBOs here, our result is applicable to a wide range of oscillators both based on conventional transistors and emerging nanoscale devices. Hence, we also compare the time to solution for PBOs based on these different device technologies in this paper.
翻訳日:2023-06-27 14:27:09 公開日:2023-06-26
# パラメータネット:モバイルネットワークの大規模ビジュアル事前学習に必要なパラメータ

ParameterNet: Parameters Are All You Need for Large-scale Visual Pretraining of Mobile Networks ( http://arxiv.org/abs/2306.14525v1 )

ライセンス: Link先を確認
Kai Han, Yunhe Wang, Jianyuan Guo, Enhua Wu(参考訳) 大規模視覚前訓練は、大規模視覚モデルの性能を大幅に向上させる。 しかし、既存の低FLOPsモデルでは大規模な事前学習の恩恵を受けられないという「emph{low FLOPs pitfall」を観察する。 本稿では,パラメータネットと呼ばれる大規模視覚前訓練のための低フロップを維持しつつ,より多くのパラメータを追加する一般的な設計原理を提案する。 動的畳み込みは、ネットワークにより多くのパラメータを割り当て、FLOPをわずかに増やすのに使われる。 提案手法により,低FLOPネットワークを大規模視覚前訓練の恩恵を受けることができる。 大規模imagenet-22k実験では,パラメータネットスキームの優位性が示された。 たとえばパラメータNet-600Mは広く使われているSwin Transformer(81.6\% \emph{vs)よりも精度が高い。 80.9\%) であり、より低いフロップ(0.6g \emph{vs)を持つ。 4.5g)である。 コードはすぐにリリースされる(MindSpore: https://gitee.com/mindspore/models, PyTorch: https://github.com/huawei-noah/Efficient-AI-Backbones)。

The large-scale visual pretraining has significantly improve the performance of large vision models. However, we observe the \emph{low FLOPs pitfall} that the existing low-FLOPs models cannot benefit from large-scale pretraining. In this paper, we propose a general design principle of adding more parameters while maintaining low FLOPs for large-scale visual pretraining, named as ParameterNet. Dynamic convolutions are used for instance to equip the networks with more parameters and only slightly increase the FLOPs. The proposed ParameterNet scheme enables low-FLOPs networks to benefit from large-scale visual pretraining. Experiments on the large-scale ImageNet-22K have shown the superiority of our ParameterNet scheme. For example, ParameterNet-600M can achieve higher accuracy than the widely-used Swin Transformer (81.6\% \emph{vs.} 80.9\%) and has much lower FLOPs (0.6G \emph{vs.} 4.5G). The code will be released as soon (MindSpore: https://gitee.com/mindspore/models, PyTorch: https://github.com/huawei-noah/Efficient-AI-Backbones).
翻訳日:2023-06-27 14:26:29 公開日:2023-06-26
# nonconvex stochastic bregman proximal gradient methodとディープラーニングへの応用

Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning ( http://arxiv.org/abs/2306.14522v1 )

ライセンス: Link先を確認
Kuangyu Ding, Jingyang Li and Kim-Chuan Toh(参考訳) 非凸合成目的関数を最小化するために広く用いられる確率勾配法は微分可能部のリプシッツ滑らかさを必要とする。 しかし、この要件は二次的逆問題やニューラルネットワークのトレーニングを含む問題クラスには当てはまらない。 本研究では, 微分可能な部分の滑らかな適応性のみを必要とする確率的ブラッグマン近位勾配 (sbpg) 法について検討する。 SBPGは、SGDで用いられる上二次近似をブレグマン近接測度に置き換え、非凸目的の非リプシッツ勾配を捕捉するより良い近似モデルをもたらす。 バニラ SBPG を定式化し、有限サム構造を持たない非凸条件下で収束特性を確立する。 SBPGのロバスト性を証明する二次逆問題の実験結果。 さらに, SBPG (MSBPG) の運動量に基づくバージョンを提案し, 収束性の向上を証明した。 我々は、損失関数のスムーズな適応性を保証する多項式カーネル関数を持つディープニューラルネットワークのトレーニングにMSBPGを適用した。 代表ベンチマーク実験の結果, ニューラルネットワークにおけるmsbpgの有効性とロバスト性が示された。 SGDと比較してMSBPGのさらなる計算コストは大規模最適化では無視できないため、将来的にはユニバーサルなオープンソースオプティマイザが採用される可能性がある。

The widely used stochastic gradient methods for minimizing nonconvex composite objective functions require the Lipschitz smoothness of the differentiable part. But the requirement does not hold true for problem classes including quadratic inverse problems and training neural networks. To address this issue, we investigate a family of stochastic Bregman proximal gradient (SBPG) methods, which only require smooth adaptivity of the differentiable part. SBPG replaces the upper quadratic approximation used in SGD with the Bregman proximity measure, resulting in a better approximation model that captures the non-Lipschitz gradients of the nonconvex objective. We formulate the vanilla SBPG and establish its convergence properties under nonconvex setting without finite-sum structure. Experimental results on quadratic inverse problems testify the robustness of SBPG. Moreover, we propose a momentum-based version of SBPG (MSBPG) and prove it has improved convergence properties. We apply MSBPG to the training of deep neural networks with a polynomial kernel function, which ensures the smooth adaptivity of the loss function. Experimental results on representative benchmarks demonstrate the effectiveness and robustness of MSBPG in training neural networks. Since the additional computation cost of MSBPG compared with SGD is negligible in large-scale optimization, MSBPG can potentially be employed an universal open-source optimizer in the future.
翻訳日:2023-06-27 14:26:11 公開日:2023-06-26
# 皮膚疾患診断のための公平なマルチエクイット枠組みによる公平性を目指して

Toward Fairness Through Fair Multi-Exit Framework for Dermatological Disease Diagnosis ( http://arxiv.org/abs/2306.14518v1 )

ライセンス: Link先を確認
Ching-Hao Chiu, Hao-Wei Chung, Yu-Jen Chen, Yiyu Shi, Tsung-Yi Ho(参考訳) 医療画像認識においてフェアネスはますます重要になっている。 しかし、偏見を和らげることなく、不公平な医療AIシステムを展開することは、未成年者の利益を損なう可能性がある。 本稿では,ニューラルネットワークの深い層から抽出した特徴が一般に高い精度を提供する一方で,より深い層から特徴を引き出す際に,公平性条件が劣化することを観察する。 この現象は、マルチエグジットフレームワークの概念を拡張する動機となります。 内部分類器はより正確で公平で、既存のほとんどのフェアネス対応フレームワークに適用可能な拡張性が高いように訓練されています。 推論中、内部分類器からの信頼性の高い任意のインスタンスは、早期に終了する。 実験の結果, 2つの皮膚科疾患データセットにおいて, 当科における公平性条件の改善が期待できることがわかった。

Fairness has become increasingly pivotal in medical image recognition. However, without mitigating bias, deploying unfair medical AI systems could harm the interests of underprivileged populations. In this paper, we observe that while features extracted from the deeper layers of neural networks generally offer higher accuracy, fairness conditions deteriorate as we extract features from deeper layers. This phenomenon motivates us to extend the concept of multi-exit frameworks. Unlike existing works mainly focusing on accuracy, our multi-exit framework is fairness-oriented; the internal classifiers are trained to be more accurate and fairer, with high extensibility to apply to most existing fairness-aware frameworks. During inference, any instance with high confidence from an internal classifier is allowed to exit early. Experimental results show that the proposed framework can improve the fairness condition over the state-of-the-art in two dermatological disease datasets.
翻訳日:2023-06-27 14:25:46 公開日:2023-06-26
# 低リソース高齢者感情認識のための言語間クロスエイジグループ適応

Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition ( http://arxiv.org/abs/2306.14517v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Willy Chung, Rita Frieske, Zihan Liu, Pascale Fung(参考訳) 音声の感情認識は人間とコンピュータの相互作用において重要な役割を果たす。 しかし、ほとんどの音声感情認識研究は英語圏の成人に偏りがあり、異なる言語や年齢集団の他の人口集団にも適用できなくなる。 本研究では,3つの言語(英語,中国語,カント語)における感情認識の伝達可能性と,高齢者と高齢者の2つの異なる年齢層について分析した。 この実験を行うために、成人および高齢者のための英語-マンダリン音声感情ベンチマーク、BiMotion、およびCantonese音声感情データセットYueMotionを開発した。 本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論づける。 しかし、言語間距離が言語間移動性に大きな影響を及ぼすため、群間データ拡張はモデルの正規化に有用である。 私たちはコードをhttps://github.com/hltchkust/elderly_serで公開しています。

Speech emotion recognition plays a crucial role in human-computer interactions. However, most speech emotion recognition research is biased toward English-speaking adults, which hinders its applicability to other demographic groups in different languages and age groups. In this work, we analyze the transferability of emotion recognition across three different languages--English, Mandarin Chinese, and Cantonese; and 2 different age groups--adults and the elderly. To conduct the experiment, we develop an English-Mandarin speech emotion benchmark for adults and the elderly, BiMotion, and a Cantonese speech emotion dataset, YueMotion. This study concludes that different language and age groups require specific speech features, thus making cross-lingual inference an unsuitable method. However, cross-group data augmentation is still beneficial to regularize the model, with linguistic distance being a significant influence on cross-lingual transferability. We release publicly release our code at https://github.com/HLTCHKUST/elderly_ser.
翻訳日:2023-06-27 14:25:32 公開日:2023-06-26
# マルチスペクトル衛星画像における雲検出のためのカーネルターゲットアライメントの最適化

Optimizing Kernel-Target Alignment for cloud detection in multispectral satellite images ( http://arxiv.org/abs/2306.14515v1 )

ライセンス: Link先を確認
Artur Miroszewski, Jakub Mielczarek, Filip Szczepanek, Grzegorz Czelusta, Bartosz Grabowski, Bertrand Le Saux, and Jakub Nalepa(参考訳) Kernel-Target Alignment (TA) の最適化は近年,量子分類器におけるハードウェアリソースの削減手法として提案されている。 高い表現力とコストのかかる回路を中規模でタスク指向の回路に交換することができる。 本研究では,Kernel-Targetアライメントの最適化景観を研究するための簡単な玩具モデルを提案する。 低パラメータ回路の場合、最適化の風景は多くの局所的極小を持つか、狭い大域的極小で平坦になる。 モデルに導入されたデータ量にグローバルな極端ピークの幅が依存していることが判明した。 実験はマルチスペクトル衛星データを用いて行われ,リモートセンシングにおける最も重要な画像解析タスクの一つであるクラウド検出タスクを目標とした。

The optimization of Kernel-Target Alignment (TA) has been recently proposed as a way to reduce the number of hardware resources in quantum classifiers. It allows to exchange highly expressive and costly circuits to moderate size, task oriented ones. In this work we propose a simple toy model to study the optimization landscape of the Kernel-Target Alignment. We find that for underparameterized circuits the optimization landscape possess either many local extrema or becomes flat with narrow global extremum. We find the dependence of the width of the global extremum peak on the amount of data introduced to the model. The experimental study was performed using multispectral satellite data, and we targeted the cloud detection task, being one of the most fundamental and important image analysis tasks in remote sensing.
翻訳日:2023-06-27 14:25:14 公開日:2023-06-26
# 形式的感性機械翻訳のためのデータ駆動型アプローチ:言語特化処理と合成データ生成

Data-Driven Approach for Formality-Sensitive Machine Translation: Language-Specific Handling and Synthetic Data Generation ( http://arxiv.org/abs/2306.14514v1 )

ライセンス: Link先を確認
Seugnjun Lee, Hyeonseok Moon, Chanjun Park, Heuiseok Lim(参考訳) 本稿では,4つの対象言語の固有言語特性に対応する形式性感応機械翻訳(fsmt)のためのデータ駆動手法を提案する。 私たちの方法論は2つの戦略に集中しています 1)言語固有のデータ処理、および 2)大規模言語モデルと経験的プロンプト工学を用いた合成データ生成 このアプローチはベースラインを大きく改善し、データ中心の技術の有効性を強調している。 提案手法は, 優れた合成翻訳例を作成することにより, 性能をさらに向上させる。

In this paper, we introduce a data-driven approach for Formality-Sensitive Machine Translation (FSMT) that caters to the unique linguistic properties of four target languages. Our methodology centers on two core strategies: 1) language-specific data handling, and 2) synthetic data generation using large-scale language models and empirical prompt engineering. This approach demonstrates a considerable improvement over the baseline, highlighting the effectiveness of data-centric techniques. Our prompt engineering strategy further improves performance by producing superior synthetic translation examples.
翻訳日:2023-06-27 14:25:01 公開日:2023-06-26
# TaylorPDENet:非グリッドデータからPDEを学ぶ

TaylorPDENet: Learning PDEs from non-grid Data ( http://arxiv.org/abs/2306.14511v1 )

ライセンス: Link先を確認
Paul Heinisch, Andrzej Dulny, Anna Krause, Andreas Hotho(参考訳) 近年,動的システムから得られるデータモデリングが,機械学習モデルの課題として注目されている。 以前のアプローチでは、測定値がグリッド上に分散することを想定していた。 しかし、天気予報のような現実世界のアプリケーションでは、観測は空間領域内の任意の場所から取られる。 本稿では,この課題を克服するための新しい機械学習手法であるTaylorPDENetを提案する。 本アルゴリズムは,各観測点における動的系の多次元テイラー展開を用いて空間微分を推定し,予測を行う。 taylorpdenetは2つの目的を同時に達成することができる: 複雑な力学系の進化を正確に予測し、システムを記述する基礎となる微分方程式を明示的に再構築する。 パラメータの異なる様々なadvection-diffusion方程式のモデルを評価し,非構造化データを処理しながら,グリッド構造データに対する等価なアプローチと同等の性能を示す。

Modeling data obtained from dynamical systems has gained attention in recent years as a challenging task for machine learning models. Previous approaches assume the measurements to be distributed on a grid. However, for real-world applications like weather prediction, the observations are taken from arbitrary locations within the spatial domain. In this paper, we propose TaylorPDENet - a novel machine learning method that is designed to overcome this challenge. Our algorithm uses the multidimensional Taylor expansion of a dynamical system at each observation point to estimate the spatial derivatives to perform predictions. TaylorPDENet is able to accomplish two objectives simultaneously: accurately forecast the evolution of a complex dynamical system and explicitly reconstruct the underlying differential equation describing the system. We evaluate our model on a variety of advection-diffusion equations with different parameters and show that it performs similarly to equivalent approaches on grid-structured data while being able to process unstructured data as well.
翻訳日:2023-06-27 14:24:53 公開日:2023-06-26
# 量子多体系のディープベイズ実験設計

Deep Bayesian Experimental Design for Quantum Many-Body Systems ( http://arxiv.org/abs/2306.14510v1 )

ライセンス: Link先を確認
Leopoldo Sarra, Florian Marquardt(参考訳) ベイズ実験設計(英: bayesian experimental design)は、期待される情報ゲインを最大化することにより、物理的システムを特徴付ける計測を効率的に選択できる手法である。 ディープニューラルネットワークと正規化フローの最近の進展により、後方のより効率的な近似が可能となり、この技術は複雑な高次元の状況に拡張される。 本稿では,このアプローチが,現在の量子技術プラットフォームを特徴付ける適応的計測戦略をどのように持つかを示す。 特に、結合キャビティとキュービット配列の配列に焦点を当てる。 どちらも、量子シミュレーションやコンピューティングのような現代の応用に高い関連性を持つモデルシステムであり、測定と制御を利用して避けられない障害を特徴付け、対処できるプラットフォームで実現されている。 したがって、それらはベイズ実験設計の応用に理想的な対象である。

Bayesian experimental design is a technique that allows to efficiently select measurements to characterize a physical system by maximizing the expected information gain. Recent developments in deep neural networks and normalizing flows allow for a more efficient approximation of the posterior and thus the extension of this technique to complex high-dimensional situations. In this paper, we show how this approach holds promise for adaptive measurement strategies to characterize present-day quantum technology platforms. In particular, we focus on arrays of coupled cavities and qubit arrays. Both represent model systems of high relevance for modern applications, like quantum simulations and computing, and both have been realized in platforms where measurement and control can be exploited to characterize and counteract unavoidable disorder. Thus, they represent ideal targets for applications of Bayesian experimental design.
翻訳日:2023-06-27 14:24:40 公開日:2023-06-26
# AME-CAM:MRI脳腫瘍における弱視差分節に対するattentive Multiple-Exit CAM

AME-CAM: Attentive Multiple-Exit CAM for Weakly Supervised Segmentation on MRI Brain Tumor ( http://arxiv.org/abs/2306.14505v1 )

ライセンス: Link先を確認
Yu-Jen Chen, Xinrong Hu, Yiyu Shi, Tsung-Yi Ho(参考訳) 磁気共鳴画像(MRI)は、一般的に脳腫瘍のセグメンテーションに使われ、患者の評価と治療計画に欠かせない。 ラベル付けに必要な労力と専門知識を減らすために,クラスアクティベーションマッピング(cam)を用いたwsss(weakly supervised semantic segmentation)メソッドが提案されている。 しかし、既存のCAM法は、強い畳み込みとプール層によって低分解能に悩まされ、不正確な予測をもたらす。 本研究では,複数の解像度からアクティベーションマップを抽出し,階層的に集約し,予測精度を向上させる新しいCAM手法であるAME-CAMを提案する。 提案手法をBraTS 2021データセット上で評価し,最先端の手法よりも優れていることを示す。

Magnetic resonance imaging (MRI) is commonly used for brain tumor segmentation, which is critical for patient evaluation and treatment planning. To reduce the labor and expertise required for labeling, weakly-supervised semantic segmentation (WSSS) methods with class activation mapping (CAM) have been proposed. However, existing CAM methods suffer from low resolution due to strided convolution and pooling layers, resulting in inaccurate predictions. In this study, we propose a novel CAM method, Attentive Multiple-Exit CAM (AME-CAM), that extracts activation maps from multiple resolutions to hierarchically aggregate and improve prediction accuracy. We evaluate our method on the BraTS 2021 dataset and show that it outperforms state-of-the-art methods.
翻訳日:2023-06-27 14:24:26 公開日:2023-06-26
# ノイズ量子デバイスにおける分子エネルギーの精度評価のためのゼロノイズ外挿投影型量子アルゴリズムの開発

Development of Zero-Noise Extrapolated Projection Based Quantum Algorithm for Accurate Evaluation of Molecular Energetics in Noisy Quantum Devices ( http://arxiv.org/abs/2306.14560v1 )

ライセンス: Link先を確認
Chinmay Shrikhande, Sonaldeep Halder, Rahul Maitra(参考訳) 最近開発されたProjective Quantum Eigensolver (PQE)は、量子コンピュータ上の分子系の基底状態エネルギーを評価するエレガントな手順を提供する。 しかし、利用可能な量子ハードウェアのノイズは計算結果に大きな誤差をもたらし、量子優位性の実現を制限する。 PQEにはある程度固有のノイズレジリエンスが備わっているが、精度の高い実用的な実装ではエラーをさらに抑制するために追加のルーチンが必要になる。 本研究では, 非線形反復法においてゼロノイズ補間(ZNE)を導入するための最適フレームワークを開発することにより, PQEの効率を向上させる手法を提案し, ZNE-PQEの定式化に繋がる。 本研究では, 各種成分が相反するエネルギー収束軌道の精度と効率にどのように影響するかを詳細に解析する。 さらに,従来のPQEに比べてZNE-PQEが改善している理由を,その残留ノルム景観の比較分析により検討した。 このアプローチは、分子エネルギーを正確に決定することが不可欠である分子科学関連の分野における量子コンピューティングの実践的応用を促進することが期待されている。

The recently developed Projective Quantum Eigensolver (PQE) offers an elegant procedure to evaluate the ground state energies of molecular systems on quantum computers. However, the noise in available quantum hardware can result in significant errors in computed outcomes, limiting the realization of quantum advantage. Although PQE comes equipped with some degree of inherent noise resilience, any practical implementation with apposite accuracy would require additional routines to suppress the errors further. In this work, we propose a way to enhance the efficiency of PQE by developing an optimal framework for introducing Zero Noise Extrapolation (ZNE) in the nonlinear iterative procedure that outlines the PQE; leading to the formulation of ZNE-PQE. For this method, we perform a detailed analysis of how various components involved in it affect the accuracy and efficiency of the reciprocated energy convergence trajectory. Moreover, we investigate the reasons behind the improvements observed in ZNE-PQE over conventional PQE by performing a comparative analysis of their residue norm landscape. This approach is expected to facilitate practical applications of quantum computing in fields related to molecular sciences, where it is essential to determine molecular energies accurately.
翻訳日:2023-06-27 14:18:21 公開日:2023-06-26
# 半自動部分空間クラスタリングによる質的データからのペルソナ開発のためのユーザステレオタイプの作成

Creating user stereotypes for persona development from qualitative data through semi-automatic subspace clustering ( http://arxiv.org/abs/2306.14551v1 )

ライセンス: Link先を確認
Dannie Korsgaard, Thomas Bjorner, Pernille Krog Sorensen, Paolo Burelli(参考訳) これらのモデルはユーザ中心のデザインに採用され、より良いユーザエクスペリエンスの設計を支援し、最近はパーソナライズされたユーザエクスペリエンスを調整するために適応システムで採用されている。 ペルソナを使ったデザインには架空のユーザの記述が伴うが、それはしばしば実際のユーザからのデータに基づいている。 今日行われているデータ駆動型ペルソナ開発の大部分は、限られた数のインタビュアーによる質的データに基づいており、労働集約的な手作業技術を用いてペルソナに変換されている。 本研究では,ユーザのステレオタイプをモデル化してペルソナ作成プロセスの一部を自動化し,既存の半自動的なペルソナ開発手法の欠点を解決する手法を提案する。 この方法の説明には、手動技術と半自動的な代替法(多重対応分析)との実証的な比較が伴う。 比較の結果,人格設計者によって手作業の技法が異なり,結果が異なっていた。 提案するアルゴリズムはパラメータ入力に基づいて同様の結果を提供するが、より厳密で最適なクラスタを見つけ、データセット内のクラスタの発見に伴う労力を下げる。 また、この方法の出力は、多重対応解析によって識別されるデータセットにおける最大のばらつきを表す。

Personas are models of users that incorporate motivations, wishes, and objectives; These models are employed in user-centred design to help design better user experiences and have recently been employed in adaptive systems to help tailor the personalized user experience. Designing with personas involves the production of descriptions of fictitious users, which are often based on data from real users. The majority of data-driven persona development performed today is based on qualitative data from a limited set of interviewees and transformed into personas using labour-intensive manual techniques. In this study, we propose a method that employs the modelling of user stereotypes to automate part of the persona creation process and addresses the drawbacks of the existing semi-automated methods for persona development. The description of the method is accompanied by an empirical comparison with a manual technique and a semi-automated alternative (multiple correspondence analysis). The results of the comparison show that manual techniques differ between human persona designers leading to different results. The proposed algorithm provides similar results based on parameter input, but was more rigorous and will find optimal clusters, while lowering the labour associated with finding the clusters in the dataset. The output of the method also represents the largest variances in the dataset identified by the multiple correspondence analysis.
翻訳日:2023-06-27 14:17:59 公開日:2023-06-26
# logltn:対数空間における微分可能ファジィ論理

logLTN: Differentiable Fuzzy Logic in the Logarithm Space ( http://arxiv.org/abs/2306.14546v1 )

ライセンス: Link先を確認
Samy Badreddine, Luciano Serafini, Michael Spranger(参考訳) AIコミュニティは、論理とディープラーニングを組み合わせることで、Neuro-Symbolic(NeSy)パラダイムを作成し、象徴的な知識でニューラルネットワークを支援することに注力している。 文学における重要なトレンドは、論理記号をニューラルネットワークやファジィ意味論を持つ演算子と接地することで、損失関数の公理と事実を統合することである。 論理テンソルネットワーク(英: Logic Tensor Networks、LTN)は、その単純さ、効率性、汎用性で知られている、このカテゴリの主要な代表者の一人である。 しかし、これまですべてのファジィ作用素が微分可能条件で等しく作用するわけではないことが示されている。 研究者は演算子のいくつかの構成を提案し、有効性、数値安定性、および異なる公式への一般化をトレードオフした。 本稿では,対数空間の終端を基底とするファジィ演算子の構成について述べる。 我々のゴールは、以前の提案よりも効果的で、どんな公式も扱え、数値的に安定な構成を開発することです。 そこで本研究では,対数空間に適したセマンティクスを提案し,勾配差による最適化に不可欠な新しい単純化と改善を提案する。 LTNを実験のフレームワークとして使用していますが、作業の結論はどんなNeSyフレームワークにも当てはまります。 形式的かつ実証的な結果から,提案する構成が最先端を上回っており,それぞれの修正がこれらの結果を達成する上で不可欠であることが示された。

The AI community is increasingly focused on merging logic with deep learning to create Neuro-Symbolic (NeSy) paradigms and assist neural approaches with symbolic knowledge. A significant trend in the literature involves integrating axioms and facts in loss functions by grounding logical symbols with neural networks and operators with fuzzy semantics. Logic Tensor Networks (LTN) is one of the main representatives in this category, known for its simplicity, efficiency, and versatility. However, it has been previously shown that not all fuzzy operators perform equally when applied in a differentiable setting. Researchers have proposed several configurations of operators, trading off between effectiveness, numerical stability, and generalization to different formulas. This paper presents a configuration of fuzzy operators for grounding formulas end-to-end in the logarithm space. Our goal is to develop a configuration that is more effective than previous proposals, able to handle any formula, and numerically stable. To achieve this, we propose semantics that are best suited for the logarithm space and introduce novel simplifications and improvements that are crucial for optimization via gradient-descent. We use LTN as the framework for our experiments, but the conclusions of our work apply to any similar NeSy framework. Our findings, both formal and empirical, show that the proposed configuration outperforms the state-of-the-art and that each of our modifications is essential in achieving these results.
翻訳日:2023-06-27 14:17:36 公開日:2023-06-26
# ニューラル状態依存遅延微分方程式

Neural State-Dependent Delay Differential Equations ( http://arxiv.org/abs/2306.14545v1 )

ライセンス: Link先を確認
Thibault Monsel (DATAFLOT, TAU), Onofrio Semeraro (DATAFLOT), Lionel Mathelin (DATAFLOT), Guillaume Charpiat (TAU)(参考訳) 不連続性や遅延項は、物理学、工学、医学、経済学など幅広い問題の制御方程式に遭遇する。 これらのシステムは、標準常微分方程式(ODE)やニューラル常微分方程式(NODE)を含むデータ駆動近似を用いて適切にモデル化およびシミュレーションすることは不可能である。 この問題を回避するために、潜伏変数は一般に高次元空間における系の力学を解き、元の空間への射影として解を得るために導入される。 しかし、この解は物理的解釈可能性に欠ける。 対照的に、DDE(Delay Differential Equations)とそのデータ駆動の近似方程式は、このような複雑なシステムを特徴づける良い候補として自然に現れる。 本稿では、複数および状態依存遅延を特徴とする汎用かつ柔軟なフレームワークであるNeural State-Dependent DDE(SDDDE)を導入することで、最近提案されたNeural DDEを再考する。 開発されたフレームワークは自動微分可能で、複数のバックエンド上で効率的に動作する。 提案手法は,様々な遅延力学系において,他の連続クラスモデルよりも優れていることを示す。

Discontinuities and delayed terms are encountered in the governing equations of a large class of problems ranging from physics, engineering, medicine to economics. These systems are impossible to be properly modelled and simulated with standard Ordinary Differential Equations (ODE), or any data-driven approximation including Neural Ordinary Differential Equations (NODE). To circumvent this issue, latent variables are typically introduced to solve the dynamics of the system in a higher dimensional space and obtain the solution as a projection to the original space. However, this solution lacks physical interpretability. In contrast, Delay Differential Equations (DDEs) and their data-driven, approximated counterparts naturally appear as good candidates to characterize such complicated systems. In this work we revisit the recently proposed Neural DDE by introducing Neural State-Dependent DDE (SDDDE), a general and flexible framework featuring multiple and state-dependent delays. The developed framework is auto-differentiable and runs efficiently on multiple backends. We show that our method is competitive and outperforms other continuous-class models on a wide variety of delayed dynamical systems.
翻訳日:2023-06-27 14:16:51 公開日:2023-06-26
# A-STAR:テキスト・画像合成のためのテスト時間注意分離と保持

A-STAR: Test-time Attention Segregation and Retention for Text-to-image Synthesis ( http://arxiv.org/abs/2306.14544v1 )

ライセンス: Link先を確認
Aishwarya Agarwal and Srikrishna Karanam and K J Joseph and Apoorv Saxena and Koustava Goswami and Balaji Vasan Srinivasan(参考訳) 最近のテキストから画像への生成モデルの発展は、フリーフォームテキストからクリエイティブな画像を生成することができる一連の高パフォーマンスな手法を生み出してきたが、いくつかの制限がある。 これらのモデルの相互注意表現を解析することにより、2つの重要な問題に気づく。 第一に、複数の概念を含むテキストプロンプトには、異なる概念のペアの間にかなりの量のピクセル空間オーバーラップ(つまり同じ空間領域)が存在する。 この結果、モデルが2つの概念を区別することができなくなり、そのうちの1つは最終世代で無視されることになる。 次に、これらのモデルは、交叉写像によって証明される、投射の開始(例えば、最初の数ステップ)の間、そのような概念をすべて捉えようとするが、この知識は、投射の終わり(例えば、最後の数ステップ)には保持されない。 このような知識の喪失は、最終的には不正確な生成出力につながる。 これらの課題に対処するために、我々の重要なイノベーションは、事前訓練されたベースラインテキスト-画像拡散モデルの性能を大幅に改善する2つのテスト時間注意に基づく損失関数を含む。 まず、注意分離損失は、テキストプロンプト内の異なる概念の注意マップ間の相互注意重なりを低減し、様々な概念間の混同/衝突を低減し、生成した出力中のすべての概念を最終的にキャプチャする。 次に、注意保持損失は、テキストと画像の拡散モデルに対して、すべての認知時間ステップにおけるすべての概念の相互注意情報を明示的に保持するように強制する。

While recent developments in text-to-image generative models have led to a suite of high-performing methods capable of producing creative imagery from free-form text, there are several limitations. By analyzing the cross-attention representations of these models, we notice two key issues. First, for text prompts that contain multiple concepts, there is a significant amount of pixel-space overlap (i.e., same spatial regions) among pairs of different concepts. This eventually leads to the model being unable to distinguish between the two concepts and one of them being ignored in the final generation. Next, while these models attempt to capture all such concepts during the beginning of denoising (e.g., first few steps) as evidenced by cross-attention maps, this knowledge is not retained by the end of denoising (e.g., last few steps). Such loss of knowledge eventually leads to inaccurate generation outputs. To address these issues, our key innovations include two test-time attention-based loss functions that substantially improve the performance of pretrained baseline text-to-image diffusion models. First, our attention segregation loss reduces the cross-attention overlap between attention maps of different concepts in the text prompt, thereby reducing the confusion/conflict among various concepts and the eventual capture of all concepts in the generated output. Next, our attention retention loss explicitly forces text-to-image diffusion models to retain cross-attention information for all concepts across all denoising time steps, thereby leading to reduced information loss and the preservation of all concepts in the generated output.
翻訳日:2023-06-27 14:16:22 公開日:2023-06-26
# 雑音との戦い - 確率的投影型量子固有解法

Fighting noise with noise: a stochastic projective quantum eigensolver ( http://arxiv.org/abs/2306.14540v1 )

ライセンス: Link先を確認
Maria-Andreea Filip(参考訳) 量子モンテカルロ(QMC)アルゴリズムは、古典的な環境での電子構造計算の計算オーバーヘッドを下げるのに極めて効果的であることが証明されている。 量子計算の現在のノイズの多い中間スケール量子(NISQ)時代には、量子ビット数、デコヒーレンス時間、ゲートノイズなどの利用可能なハードウェア資源にいくつかの制限があり、これは現在の多くのハイブリッド量子古典アルゴリズムの非自明な量子化学問題への適用を妨げる。 本稿では,従来のQMCアルゴリズムの基本要素である波動関数とハミルトニアンの両方の確率的サンプリングと,仮想時間伝搬に基づく射影量子固有解法を組み合わせることを提案する。 古典的モンテカルロ推定法において容易に平均化できる雑音の増加コストにおいて, 一般に低く, 高い可変性を有する量子計算要件を持つ手法を求める。

Quantum Monte Carlo (QMC) algorithms have proven extremely effective at lowering the computational overhead of electronic structure calculations in a classical setting. In the current noisy intermediate scale quantum (NISQ) era of quantum computation, there are several limitations on the available hardware resources, such as low qubit count, decoherence times and gate noise, which preclude the application of many current hybrid quantum-classical algorithms to non-trivial quantum chemistry problems. Here, we propose combining some of the fundamental elements of conventional QMC algorithms -- stochastic sampling of both the wavefunction and the Hamiltonian of interest -- with an imaginary-time propagation based projective quantum eigensolver. At the cost of increased noise, which can be easily averaged over in a classical Monte Carlo estimation, we obtain a method with quantum computational requirements that are both generally low and highly tunable.
翻訳日:2023-06-27 14:15:32 公開日:2023-06-26
# 夜間深度知覚のための学習可能ディファレンスセンター

Learnable Differencing Center for Nighttime Depth Perception ( http://arxiv.org/abs/2306.14538v1 )

ライセンス: Link先を確認
Zhiqiang Yan and Yupeng Zheng and Kun Wang and Xiang Li and Zhenyu Zhang and Shuo Chen and Jun Li and Jian Yang(参考訳) 深度完了は、通常カラー画像の助けを借りて、スパースマップから深度マップを復元する作業である。 既存の画像誘導方式は、昼間の深度知覚自動運転ベンチマークではよく機能するが、夜間のシナリオでは視界が悪く、複雑な照明が難しい。 これらの課題に対処するために, LDCNet というシンプルなフレームワークを提案する。 我々のキーとなる考え方は、リカレント・インターコンボリューション・ディフレクション(RICD)とイルミネーション・アフィニティブ・イントラコンボリューション・ディフレクション(IAICD)を使用して、夜間のカラー画像を強化し、様々な照明の負の効果を低減することである。 RICDは、異なるカーネルと異なる2つのコンボリューションを区別して、大カーネルコンボリューション機能の中心として扱うことで、グローバル照明を明示的に推定する。 IAICDは、隣接する画素とRICDの推定照明マップに基づいて、中心を動的に集約する単一の畳み込みを区別することにより、局所的な相対光強度をソフトに緩和する。 夜間の深度推定と深度推定の両課題において, LDCNetの有効性を実証し, 最先端技術に到達した。

Depth completion is the task of recovering dense depth maps from sparse ones, usually with the help of color images. Existing image-guided methods perform well on daytime depth perception self-driving benchmarks, but struggle in nighttime scenarios with poor visibility and complex illumination. To address these challenges, we propose a simple yet effective framework called LDCNet. Our key idea is to use Recurrent Inter-Convolution Differencing (RICD) and Illumination-Affinitive Intra-Convolution Differencing (IAICD) to enhance the nighttime color images and reduce the negative effects of the varying illumination, respectively. RICD explicitly estimates global illumination by differencing two convolutions with different kernels, treating the small-kernel-convolution feature as the center of the large-kernel-convolution feature in a new perspective. IAICD softly alleviates local relative light intensity by differencing a single convolution, where the center is dynamically aggregated based on neighboring pixels and the estimated illumination map in RICD. On both nighttime depth completion and depth estimation tasks, extensive experiments demonstrate the effectiveness of our LDCNet, reaching the state of the art.
翻訳日:2023-06-27 14:15:15 公開日:2023-06-26
# Qutritの量子電池:異なる充電プロトコルの比較

Qutrit quantum battery: comparing different charging protocols ( http://arxiv.org/abs/2306.14537v1 )

ライセンス: Link先を確認
G. Gemme, M. Grossi, S. Vallecorsa, M. Sassetti, D. Ferraro(参考訳) 超伝導トランスモン回路における最近の実験により、時間依存性の古典パルスに基づく3レベル量子電池の充電プロトコルを2つ比較した。 第1のケースでは、2つのシーケンシャルパルスを印加し、第2のケースでは2つのパルスを同時に印加するユニークなステップで充電が行われる。 どちらのプロトコルも解析的に解くことができ、量子システムのダイナミクスを完全に制御できる。 これにより、後者のアプローチがより短い充電時間によって特徴づけられ、その結果、より多くの充電パワーによって特徴づけられると判断することができる。 その後、トランスモン状態の超伝導回路に基づいて、IBM量子デバイス上でこれらのプロトコルをテストした。 最小の充電時間は、固体量子電池で報告されている最も速い安定な充電時間である。

Motivated by recent experimental observations carried out in superconducting transmon circuits, we compare two different charging protocols for three-level quantum batteries based on time dependent classical pulses. In the first case the complete charging is achieved through the application of two sequential pulses, while in the second the charging occurs in a unique step applying the two pulses simultaneously. Both protocols are analytically solvable leading to a complete control on the dynamics of the quantum system. According to this it is possible to determine that the latter approach is characterized by a shorter charging time, and consequently by a greater charging power. We have then tested these protocols on IBM quantum devices based on superconducting circuits in the transmon regime. The minimum achieved charging time represents the fastest stable charging reported so far in solid state quantum batteries.
翻訳日:2023-06-27 14:14:50 公開日:2023-06-26
# 密度推定におけるグローバルプライバシのコストについて

About the Cost of Global Privacy in Density Estimation ( http://arxiv.org/abs/2306.14535v1 )

ライセンス: Link先を確認
Cl\'ement Lalanne (ENS de Lyon, OCKHAM), Aur\'elien Garivier (UMPA-ENSL, MC2), R\'emi Gribonval (OCKHAM)(参考訳) リプシッツ空間とソボレフ空間における密度の非パラメトリック密度推定について,グローバルプライバシの下で検討した。 特に,プライバシ予算が一定でないことを想定した体制について検討する。 我々は、グローバルディファレンシャルプライバシの古典的な定義だけでなく、より最近のグローバルディファレンシャルプライバシの概念も検討している。 我々は barber \& duchi (2014) の結果を復元し、ヒストグラム推定器は l2 のリスクに対してリプシッツ分布に対して最適であり、通常の微分プライバシー下では、それを他の規範やプライバシー概念に拡張する。 まず, 一定のプライバシー予算(wasserman \& zhou, 2010) に対して, プライバシを強制することで, ソボレフ密度に対する推定の極小化リスクを低下させるような制度が存在する。 第2に、いわゆるプロジェクション推定器は、純粋な差分プライバシーを備えたこの新しい設定において、同じ密度のクラスに対してほぼ最適だが、一定のプライバシー予算のケースとは対照的に、緩和のコストがかかる。 偏微分プライバシーはゼロであり、緩和する必要はなく、推定が最適であることが証明される。

We study non-parametric density estimation for densities in Lipschitz and Sobolev spaces, and under global privacy. In particular, we investigate regimes where the privacy budget is not supposed to be constant. We consider the classical definition of global differential privacy, but also the more recent notion of global concentrated differential privacy. We recover the result of Barber \& Duchi (2014) stating that histogram estimators are optimal against Lipschitz distributions for the L2 risk, and under regular differential privacy, and we extend it to other norms and notions of privacy. Then, we investigate higher degrees of smoothness, drawing two conclusions: First, and contrary to what happens with constant privacy budget (Wasserman \& Zhou, 2010), there are regimes where imposing privacy degrades the regular minimax risk of estimation on Sobolev densities. Second, so-called projection estimators are near-optimal against the same classes of densities in this new setup with pure differential privacy, but contrary to the constant privacy budget case, it comes at the cost of relaxation. With zero concentrated differential privacy, there is no need for relaxation, and we prove that the estimation is optimal.
翻訳日:2023-06-27 14:14:39 公開日:2023-06-26
# CEIL: 一般化文脈模倣学習

CEIL: Generalized Contextual Imitation Learning ( http://arxiv.org/abs/2306.14534v1 )

ライセンス: Link先を確認
Jinxin Liu, Li He, Yachen Kang, Zifeng Zhuang, Donglin Wang, Huazhe Xu(参考訳) 本稿では、模倣学習(IL)のための汎用かつ広く適用可能なアルゴリズムである「textbf{C}ont\textbf{E}xtual \textbf{I}mitation \textbf{L}earning~(CEIL)を提案する。 後視情報マッチングの定式化に触発されて,後視埋め込み関数を,後視埋め込みを用いたコンテキストポリシーとともに明示的に学習することでCEILを導出する。 ILの専門的マッチング目的を達成するため,専門家の行動を模倣する文脈的ポリシーに偏りが生じるような文脈的変数の最適化を提唱する。 デモ(LfD)設定からの一般的な学習以外にも、CEILは、1) ~ 観測(LfO)から学ぶこと、2) ~ オフラインIL、3) クロスドメインIL(ミスマッチした専門家)、および4) ワンショットIL設定など、複数の設定に効果的に適用できるジェネリストである。 実験により,一般的な MuJoCo タスク (オンライン) および D4RL データセット (オフライン) 上でCEIL を評価した。 従来の最先端のベースラインと比較すると、CEILはオンラインのほとんどのILタスクではサンプリング効率が良く、オフラインタスクではより良いパフォーマンスや競争性能が得られる。

In this paper, we present \textbf{C}ont\textbf{E}xtual \textbf{I}mitation \textbf{L}earning~(CEIL), a general and broadly applicable algorithm for imitation learning (IL). Inspired by the formulation of hindsight information matching, we derive CEIL by explicitly learning a hindsight embedding function together with a contextual policy using the hindsight embeddings. To achieve the expert matching objective for IL, we advocate for optimizing a contextual variable such that it biases the contextual policy towards mimicking expert behaviors. Beyond the typical learning from demonstrations (LfD) setting, CEIL is a generalist that can be effectively applied to multiple settings including: 1)~learning from observations (LfO), 2)~offline IL, 3)~cross-domain IL (mismatched experts), and 4) one-shot IL settings. Empirically, we evaluate CEIL on the popular MuJoCo tasks (online) and the D4RL dataset (offline). Compared to prior state-of-the-art baselines, we show that CEIL is more sample-efficient in most online IL tasks and achieves better or competitive performances in offline tasks.
翻訳日:2023-06-27 14:14:16 公開日:2023-06-26
# CST-YOLO:改良型YOLOv7とCNN-Swinトランスを用いた新しい血液細胞検出法

CST-YOLO: A Novel Method for Blood Cell Detection Based on Improved YOLOv7 and CNN-Swin Transformer ( http://arxiv.org/abs/2306.14590v1 )

ライセンス: Link先を確認
Ming Kang, Chee-Ming Ting, Fung Fung Ting, Rapha\"el Phan(参考訳) 血液細胞検出はコンピュータビジョンにおける典型的な小型物体検出問題である。 本稿では, YOLOv7 アーキテクチャに基づく血液細胞検出のための CST-YOLO モデルを提案し, CNN-Swin Transformer (CST) で拡張する。 また,CST-YOLOでは,重み付き高効率層アグリゲーションネットワーク(W-ELAN),マルチスケールチャネルスプリット(MCS),コンカニケート畳み込み層(CatConv)の3つの有用なモジュールを導入し,小型オブジェクト検出精度を向上させる。 実験の結果, 提案したCST-YOLOは3つの血球データセットでそれぞれ92.7, 95.6, 91.1 mAP@0.5を達成することが明らかとなった。 私たちのコードはhttps://github.com/mkang315/CST-YOLOで公開されています。

Blood cell detection is a typical small-scale object detection problem in computer vision. In this paper, we propose a CST-YOLO model for blood cell detection based on YOLOv7 architecture and enhance it with the CNN-Swin Transformer (CST), which is a new attempt at CNN-Transformer fusion. We also introduce three other useful modules: Weighted Efficient Layer Aggregation Networks (W-ELAN), Multiscale Channel Split (MCS), and Concatenate Convolutional Layers (CatConv) in our CST-YOLO to improve small-scale object detection precision. Experimental results show that the proposed CST-YOLO achieves 92.7, 95.6, and 91.1 mAP@0.5 respectively on three blood cell datasets, outperforming state-of-the-art object detectors, e.g., YOLOv5 and YOLOv7. Our code is available at https://github.com/mkang315/CST-YOLO.
翻訳日:2023-06-27 14:08:32 公開日:2023-06-26
# ビジュアルコンテナ検査のための合成ラベル付きデータセット生成手法

Methodology for generating synthetic labeled datasets for visual container inspection ( http://arxiv.org/abs/2306.14584v1 )

ライセンス: Link先を確認
Guillem Delgado, Andoni Cort\'es, Sara Garc\'ia, Est\'ibaliz Loyo, Maialen Berasategi, Nerea Aranjuelo(参考訳) 現在、コンテナ化された貨物輸送は、Deep Learningの成功により自動化プロセスが進められている最も重要な輸送システムの一つである。 しかし、最先端のニューラルネットワークモデルをシステムに組み込むために、注釈付きデータの欠如に悩まされている。 本稿では,ドック環境におけるコンテナの視覚的検査タスクのための,現実的,多様性のある,バランスの取れた,ラベル付きデータセットを生成するための革新的な方法論を提案する。 さらに,この手法を,最先端の複数のビジュアルタスクで繰り返し実施することで検証する。 生成された合成ラベル付きデータセットは、実際のシナリオで使用できるディープニューラルネットワークをトレーニングできることを証明します。 一方、この方法論を使用すると、seafrontと呼ばれる最初のオープン合成ラベル付きデータセットが利用可能になる。

Nowadays, containerized freight transport is one of the most important transportation systems that is undergoing an automation process due to the Deep Learning success. However, it suffers from a lack of annotated data in order to incorporate state-of-the-art neural network models to its systems. In this paper we present an innovative methodology to generate a realistic, varied, balanced, and labelled dataset for visual inspection task of containers in a dock environment. In addition, we validate this methodology with multiple visual tasks recurrently found in the state of the art. We prove that the generated synthetic labelled dataset allows to train a deep neural network that can be used in a real world scenario. On the other side, using this methodology we provide the first open synthetic labelled dataset called SeaFront available in: https://datasets.vicomtech.org/di21-seafront/readme.txt.
翻訳日:2023-06-27 14:08:08 公開日:2023-06-26
# プログラミング問題を解決するための大規模言語モデルのロバスト性の検討

Exploring the Robustness of Large Language Models for Solving Programming Problems ( http://arxiv.org/abs/2306.14583v1 )

ライセンス: Link先を確認
Atsushi Shirafuji, Yutaka Watanobe, Takumi Ito, Makoto Morishita, Yuki Nakamura, Yusuke Oda, Jun Suzuki(参考訳) ソースコードに大規模言語モデル(LLM)を使用することが最近注目を集めている。 CodexやChatGPTのようなTransformerベースのモデルのようなLLMは、幅広いプログラミング問題を解く能力が高いことが示されている。 しかし、LLMが問題記述を理解し、それに応じてプログラムを生成する範囲や、表面的な手がかりに基づくトレーニングデータにおける最も関連する問題からソースコードを検索する範囲は、まだ発見されていない。 そこで本研究では,いくつかのLLM, CodeGen および GPT-3.5 シリーズモデルのロバスト性を検証し,導入プログラミング問題におけるコード生成タスクに対処する実験を行った。 実験の結果,CodeGenとCodexは問題記述の表層的な修正に敏感であり,コード生成性能に大きな影響を及ぼすことがわかった。 さらに、乱数化変数が解数を大幅に減少させるため、Codexは変数名に依存する。 しかし、InstructGPTやChatGPTのような最先端のSOTAモデルでは、表面的な修正に対する堅牢性が向上し、プログラミング問題を解決する能力に優れていた。 このことは、LLMに与えられたプロンプトのわずかな変更がコード生成性能に大きな影響を与え、高品質なコード生成にはプロンプトの慎重にフォーマットすることが不可欠であるという事実を強調している。

Using large language models (LLMs) for source code has recently gained attention. LLMs, such as Transformer-based models like Codex and ChatGPT, have been shown to be highly capable of solving a wide range of programming problems. However, the extent to which LLMs understand problem descriptions and generate programs accordingly or just retrieve source code from the most relevant problem in training data based on superficial cues has not been discovered yet. To explore this research question, we conduct experiments to understand the robustness of several popular LLMs, CodeGen and GPT-3.5 series models, capable of tackling code generation tasks in introductory programming problems. Our experimental results show that CodeGen and Codex are sensitive to the superficial modifications of problem descriptions and significantly impact code generation performance. Furthermore, we observe that Codex relies on variable names, as randomized variables decrease the solved rate significantly. However, the state-of-the-art (SOTA) models, such as InstructGPT and ChatGPT, show higher robustness to superficial modifications and have an outstanding capability for solving programming problems. This highlights the fact that slight modifications to the prompts given to the LLMs can greatly affect code generation performance, and careful formatting of prompts is essential for high-quality code generation, while the SOTA models are becoming more robust to perturbations.
翻訳日:2023-06-27 14:07:55 公開日:2023-06-26
# TransERR:効率的な関係回転による翻訳に基づく知識グラフ補完

TransERR: Translation-based Knowledge Graph Completion via Efficient Relation Rotation ( http://arxiv.org/abs/2306.14580v1 )

ライセンス: Link先を確認
Jiang Li and Xiangdong Su(参考訳) 本稿では,従来の翻訳に基づく知識グラフ補完モデルに対して,効率的な関係回転(TransERR)による翻訳に基づく知識グラフ補完手法を提案する。 従来の翻訳ベースモデルとは異なり、TransERRは超複素数値空間の知識グラフを符号化し、頭と尾のエンティティ間の潜伏情報をマイニングする際の翻訳の自由度を高める。 さらに翻訳距離を最小化するため、TransERRは、モデルのトレーニングで学習可能な、対応する単位四元数でヘッドエンティティとテールエンティティを適応的に回転させる。 7つのベンチマークデータセットの実験は、TransERRの有効性と一般化を検証する。 結果は、TransERRが以前の翻訳ベースモデルよりも少ないパラメータで大規模データセットをエンコードできることを示している。 私たちのコードは、 \url{https://github.com/dellixx/transerr} で利用可能です。

This paper presents translation-based knowledge graph completion method via efficient relation rotation (TransERR), a straightforward yet effective alternative to traditional translation-based knowledge graph completion models. Different from the previous translation-based models, TransERR encodes knowledge graphs in the hypercomplex-valued space, thus enabling it to possess a higher degree of translation freedom in mining latent information between the head and tail entities. To further minimize the translation distance, TransERR adaptively rotates the head entity and the tail entity with their corresponding unit quaternions, which are learnable in model training. The experiments on 7 benchmark datasets validate the effectiveness and the generalization of TransERR. The results also indicate that TransERR can better encode large-scale datasets with fewer parameters than the previous translation-based models. Our code is available at: \url{https://github.com/dellixx/TransERR}.
翻訳日:2023-06-27 14:07:30 公開日:2023-06-26
# 不均質な低消費電力チップ上での機械学習のためのオンデバイス評価ツールキット

On-Device Evaluation Toolkit for Machine Learning on Heterogeneous Low-Power System-on-Chip ( http://arxiv.org/abs/2306.14574v1 )

ライセンス: Link先を確認
Zhaolan Huang, Koen Zandberg, Kaspar Schleiser and Emmanuel Baccelli(参考訳) ネットワーク遅延、スループットのボトルネック、プライバシの問題により、AI of Things(AIoT)デザイナは、端末に可能な限り近いモデルトレーニングと実行(推論)の実現可能性を評価する。 一方、TinyMLコミュニティの結果は、小さなマイクロコントローラベースのデバイスであっても、モデル推論を端末自身で直接実行することが可能であることを実証している。 しかし、これまでは、任意のモデルの実行を任意の低消費電力IoTハードウェアに移行する可能性を評価するための便利なオールインワンツールキットが欠如していた。 そこで本稿では,aiot設計者や研究者の作業を容易にするために設計した汎用ツールキットであるu-toeを,低消費電力組込みos,汎用モデルトランスパイラとコンパイラ,統合パフォーマンス計測モジュール,オープンアクセス型リモートiotテストベッドの機能を組み合わせることで紹介する。 マイクロコントローラアーキテクチャ(ARM Cortex-M, RISC-V)をベースとした多種多様な低消費電力ボード上で, 様々なモデルの性能を実験的に評価するために, オープンソース実装のU-TOEを提案する。 したがって、U-TOEは、この領域で、さまざまなIoTハードウェアのオールアット・オンスで、容易に再現可能でカスタマイズ可能な比較評価実験を可能にする。 U-TOEのようなツールキットの可用性は、エッジコンピューティングの可能性を完全に活用するために、AIoTの分野を加速することが望ましい。

Network delays, throughput bottlenecks and privacy issues push Artificial Intelligence of Things (AIoT) designers towards evaluating the feasibility of moving model training and execution (inference) as near as possible to the terminals. Meanwhile, results from the TinyML community demonstrate that, in some cases, it is possible to execute model inference directly on the terminals themselves, even if these are small microcontroller-based devices. However, to date, researchers and practitioners in the domain lack convenient all-in-one toolkits to help them evaluate the feasibility of moving execution of arbitrary models to arbitrary low-power IoT hardware. To this effect, we present in this paper U-TOE, a universal toolkit we designed to facilitate the task of AIoT designers and researchers, by combining functionalities from a low-power embedded OS, a generic model transpiler and compiler, an integrated performance measurement module, and an open-access remote IoT testbed. We provide an open source implementation of U-TOE and we demonstrate its use to experimentally evaluate the performance of a wide variety of models, on a wide variety of low-power boards, based on popular microcontroller architectures (ARM Cortex-M and RISC-V). U-TOE thus allows easily reproducible and customisable comparative evaluation experiments in this domain, on a wide variety of IoT hardware all-at-once. The availability of a toolkit such as U-TOE is desirable to accelerate the field of AIoT, towards fully exploiting the potential of edge computing.
翻訳日:2023-06-27 14:07:15 公開日:2023-06-26
# バイオメディカル画像処理タスクにおけるDeep Learningのパフォーマンス、信頼性、スピードを高める機能イミテーションネットワーク

Feature Imitating Networks Enhance The Performance, Reliability And Speed Of Deep Learning On Biomedical Image Processing Tasks ( http://arxiv.org/abs/2306.14572v1 )

ライセンス: Link先を確認
Shangyang Min, Mohammad Mahdi Ghassemi, Tuka Alhanai(参考訳) FIN(Feature-Imitating-Networks)は、閉形式統計特徴を近似するために初期化される重みを持つニューラルネットワークである。 本研究では,バイオメディカル画像処理タスクにおけるFINの初回評価を行う。 まず,6つの共通放射能特徴を模倣するフィンのセットを訓練し,そのネットワークの性能を3つの実験タスクでフィンと比較した。すなわち,ctスキャンからのcovid-19検出,mriスキャンからの脳腫瘍分類,mriスキャンからの脳腫瘍分割である。 実験の結果、FINが様々なバイオメディカル画像処理タスクに最先端のパフォーマンスを提供する可能性が示唆された。

Feature-Imitating-Networks (FINs) are neural networks with weights that are initialized to approximate closed-form statistical features. In this work, we perform the first-ever evaluation of FINs for biomedical image processing tasks. We begin by training a set of FINs to imitate six common radiomics features, and then compare the performance of networks with and without the FINs for three experimental tasks: COVID-19 detection from CT scans, brain tumor classification from MRI scans, and brain-tumor segmentation from MRI scans; we find that FINs provide best-in-class performance for all three tasks, while converging faster and more consistently when compared to networks with similar or greater representational power. The results of our experiments provide evidence that FINs may provide state-of-the-art performance for a variety of other biomedical image processing tasks.
翻訳日:2023-06-27 14:06:48 公開日:2023-06-26
# 分子動力学シミュレーションとマルコフ状態モデリングによるTi-Al系の界面ダイナミクスの解明

Elucidating Interfacial Dynamics of Ti-Al Systems Using Molecular Dynamics Simulation and Markov State Modeling ( http://arxiv.org/abs/2306.14568v1 )

ライセンス: Link先を確認
Tianjiao Li, Chenxi Tian, Atieh Moridi, Jingjie Yeo(参考訳) 特筆すべき機械的および化学的性質のため、Ti-Al系材料は自動車、航空宇宙、防衛など多くの工学分野に多大な関心を集めている。 低密度、高強度、耐食性、耐酸化性により、これらの金属間合金と複合金属-金属複合材料は様々な用途に応用されている。 本研究は,これらのTi-Al系の界面力学,特に実験熱処理条件下でのTiAl$_3$粒界の存在下でのTiおよびAl原子の挙動に着目したものである。 分子動力学とマルコフ状態モデル解析の組み合わせを用いて,TiAl$_3$の生成に関わる運動過程を精査する。 分子動力学シミュレーションは、熱処理の初期段階において、前駆プロセスはTiAl$_3$粒界を通ってTi表面へのAl原子の拡散であることを示している。 マルコフ状態モデリング(Markov State Modeling)は、Ti/Al混合物中のAl原子の3つの異なる動的状態を特定し、それぞれ独自の空間分布を示す。 遷移時間スケールを力学の速さの定性的尺度として用いると,Al表面よりもTi表面付近ではAlのダイナミクスが著しく速くなることが観察された。 その結果, 界面力学の包括的理解が得られ, 3段階拡散機構が明らかになった。 このプロセスはAlの予融によって開始され、Al原子がTi表面に向かって拡散し、最終的に混合物中のTi濃度が徐々に増加するにつれて停止する。 この研究から得られた知見は、これらの高性能Ti-Al基材料の製造プロセスの制御と最適化に大きく貢献する可能性がある。

Due to their remarkable mechanical and chemical properties, Ti-Al based materials are attracting considerable interest in numerous fields of engineering, such as automotive, aerospace, and defense. With their low density, high strength, and resistance to corrosion and oxidation, these intermetallic alloys and compound metal-metallic composites have found diverse applications. The present study delves into the interfacial dynamics of these Ti-Al systems, particularly focusing on the behavior of Ti and Al atoms in the presence of TiAl$_3$ grain boundaries under experimental heat treatment conditions. Using a combination of Molecular Dynamics and Markov State Model analyses, we scrutinize the kinetic processes involved in the formation of TiAl$_3$. The Molecular Dynamics simulation indicates that at the early stage of heat treatment, the predominating process is the diffusion of Al atoms towards the Ti surface through the TiAl$_3$ grain boundaries. The Markov State Modeling identifies three distinct dynamic states of Al atoms within the Ti/Al mixture that forms during the process, each exhibiting a unique spatial distribution. Using transition timescales as a qualitative measure of the rapidness of the dynamics, it is observed that the Al dynamics is significantly less rapid near the Ti surface compared to the Al surface. Put together, the results offer a comprehensive understanding of the interfacial dynamics and reveals a three-stage diffusion mechanism. The process initiates with the premelting of Al, proceeds with the prevalent diffusion of Al atoms towards the Ti surface, and eventually ceases as the Ti concentration within the mixture progressively increases. The insights gained from this study could contribute significantly to the control and optimization of manufacturing processes for these high-performing Ti-Al based materials.
翻訳日:2023-06-27 14:06:32 公開日:2023-06-26
# 量子ニューラルネットワークによる量子相互情報の推定

Estimating Quantum Mutual Information Through a Quantum Neural Network ( http://arxiv.org/abs/2306.14566v1 )

ライセンス: Link先を確認
Myeongjin Shin, Junseo Lee, Kabgyun Jeong(参考訳) 本稿では,量子情報理論の基本特性であるフォン・ノイマンエントロピーと量子相互情報の推定のための量子相互情報ニューラル推定(qmine)と呼ばれる量子機械学習手法を提案する。 ここで提案されたqmineは、基本的には量子ニューラルネットワーク(qnns)の技術を使用して、フォン・ノイマンのエントロピーを決定する損失関数を最小化し、量子重ね合わせと絡み合いによって従来のニューラルネットワークよりも強力な量子相互情報を処理する。 正確な損失関数を生成するために、古典的なドンスカー・バラダン表現の量子アナログである量子ドンスカー・バラダン表現(QDVR)を提案する。 パラメータ化量子回路上でのパラメータシフト則を利用して、QNNを効率的に実装し最適化し、QMINE技術を用いて量子エントロピーを推定することができる。 さらに,qdvrの予測を支援する数値観測を行い,qmineの性能を示す。

We propose a method of quantum machine learning called quantum mutual information neural estimation (QMINE) for estimating von Neumann entropy and quantum mutual information, which are fundamental properties in quantum information theory. The QMINE proposed here basically utilizes a technique of quantum neural networks (QNNs), to minimize a loss function that determines the von Neumann entropy, and thus quantum mutual information, which is believed more powerful to process quantum datasets than conventional neural networks due to quantum superposition and entanglement. To create a precise loss function, we propose a quantum Donsker-Varadhan representation (QDVR), which is a quantum analog of the classical Donsker-Varadhan representation. By exploiting a parameter shift rule on parameterized quantum circuits, we can efficiently implement and optimize the QNN and estimate the quantum entropies using the QMINE technique. Furthermore, numerical observations support our predictions of QDVR and demonstrate the good performance of QMINE.
翻訳日:2023-06-27 14:06:04 公開日:2023-06-26
# ロバスト命令チューニングによる大規模マルチモーダルモデルの調整

Aligning Large Multi-Modal Model with Robust Instruction Tuning ( http://arxiv.org/abs/2306.14565v1 )

ライセンス: Link先を確認
Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang(参考訳) マルチモーダルタスクの有望な進歩にもかかわらず、現在の大規模マルチモーダルモデル(LMM)は、関連する画像と人間の指示に関して一貫性のない記述を幻覚させる傾向にある。 本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的命令チューニングデータセットを導入することでこの問題に対処する。 我々のデータセットは、GPT4が生成した120kの視覚命令で構成されており、16の視覚・言語タスクをオープンエンド命令と回答でカバーしている。 主に正の命令サンプルに焦点を当てた既存の研究とは異なり、我々は、より堅牢な視覚的命令チューニングのための正と負の両方の命令を含むLRV-インストラクションを設計する。 私たちの否定的な指示は2つの意味レベルで設計されます。 一 存在しない要素の操作及び操作 (II)既存の要素操作 LMMが生み出す幻覚を効果的に測定するために,人間の注釈を付さずに視覚指導のチューニングを評価する新しい手法であるGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。 われわれはLMMの幻覚を調査するための総合的な実験を行った。 以上の結果から,既存のLMMは負の指示,特に既存要素操作命令で有意な幻覚を示すことが明らかとなった。 さらに, LRV-InstructionでMiniGPT4を微調整することにより, 従来の手法に比べてトレーニングデータが少なく, 公開データセットの性能を向上しながら幻覚を緩和することに成功した。 さらに,トレーニングデータにおける正のインスタンスと負のインスタンスのバランスの取れた比率が,より堅牢なモデルにつながることを観測した。 プロジェクトリンクはhttps://fuxiaoliu.github.io/lrv/で閲覧できます。

Despite the promising progress in multi-modal tasks, current large multi-modal models (LMM) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset consists of 120k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent Element Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel approach to evaluate visual instruction tuning without the need for human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate that existing LMMs exhibit significant hallucination when presented with our negative instructions, particularly with Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on LRV-Instruction, we successfully mitigate hallucination while improving performance on public datasets using less training data compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model. Our project link is available at https://fuxiaoliu.github.io/LRV/.
翻訳日:2023-06-27 14:05:46 公開日:2023-06-26
# マルチステップ予測のためのマルチアウトプットアンサンブル

Multi-output Ensembles for Multi-step Forecasting ( http://arxiv.org/abs/2306.14563v1 )

ライセンス: Link先を確認
Vitor Cerqueira, Luis Torgo(参考訳) 本稿では,多段階事前予測問題に対する多出力モデルからなるアンサンブルの適用について検討する。 動的アンサンブルは予測に一般的に用いられてきた。 しかし、これらは通常ワンステップ・アヘッドタスク用に設計されている。 一方,マルチステップ先進予測における動的アンサンブルの適用に関する文献は少ない。 また、組み合わせ則が予測地平線にどのように適用されるかは明らかではない。 マルチステップ予測における動的アンサンブルの適用を解析するための広範な実験を行った。 3568の時系列と30のマルチ出力モデルのアンサンブルを用いたケーススタディを行った。 その結果、調停とウィンドウ化に基づく動的アンサンブルが平均階数に応じて最高の性能を示すことがわかった。 さらに、地平線が大きくなるにつれて、ほとんどのアプローチは全てのモデルに等しい重みを割り当てる静的アンサンブルよりも優れている。 実験はリポジトリで公開されています。

This paper studies the application of ensembles composed of multi-output models for multi-step ahead forecasting problems. Dynamic ensembles have been commonly used for forecasting. However, these are typically designed for one-step-ahead tasks. On the other hand, the literature regarding the application of dynamic ensembles for multi-step ahead forecasting is scarce. Moreover, it is not clear how the combination rule is applied across the forecasting horizon. We carried out extensive experiments to analyze the application of dynamic ensembles for multi-step forecasting. We resorted to a case study with 3568 time series and an ensemble of 30 multi-output models. We discovered that dynamic ensembles based on arbitrating and windowing present the best performance according to average rank. Moreover, as the horizon increases, most approaches struggle to outperform a static ensemble that assigns equal weights to all models. The experiments are publicly available in a repository.
翻訳日:2023-06-27 14:05:14 公開日:2023-06-26
# 記号型ゾノトープとポリノトープを用いたニューラルネットワーク制御系の検証

Verification of Neural Network Control Systems using Symbolic Zonotopes and Polynotopes ( http://arxiv.org/abs/2306.14619v1 )

ライセンス: Link先を確認
Carlos Trapiello, Christophe Combastel, Ali Zolghadri(参考訳) ニューラルネットワーク制御システム(NNCS)の検証と安全性評価は、新たな課題である。 保証を提供するには、検証ツールは、制御ループ内のニューラルネットワークと物理システムとの間の相互作用を効率的に捉える必要がある。 本稿では,NNCSの分析において,長期的シンボリック依存モデルを保存する包摂性に着目した構成的アプローチを提案する。 まず、シンボリックゾノトペの行列構造を利用してループ要素の入出力マッピングを(包括的に)アフィン記号表現を通して効率的に抽象化し、相互作用ブロック間の線形依存関係を維持する。 その後、さらに2つの拡張が研究される。 まず、シンボリックポリノロープは多項式の記号表現と依存関係によってループ要素の振る舞いを抽象化するために用いられる。 第二に、元の入力分割アルゴリズムはシンボル保存を利用して、計算された近似の入力方向に対する感度を評価する。 このアプローチは、異なる数値例とベンチマークを用いて評価される。 低保守性と計算効率の良好なトレードオフが得られる。

Verification and safety assessment of neural network controlled systems (NNCSs) is an emerging challenge. To provide guarantees, verification tools must efficiently capture the interplay between the neural network and the physical system within the control loop. In this paper, a compositional approach focused on inclusion preserving long term symbolic dependency modeling is proposed for the analysis of NNCSs. First of all, the matrix structure of symbolic zonotopes is exploited to efficiently abstract the input/output mapping of the loop elements through (inclusion preserving) affine symbolic expressions, thus maintaining linear dependencies between interacting blocks. Then, two further extensions are studied. Firstly, symbolic polynotopes are used to abstract the loop elements behaviour by means of polynomial symbolic expressions and dependencies. Secondly, an original input partitioning algorithm takes advantage of symbol preservation to assess the sensitivity of the computed approximation to some input directions. The approach is evaluated via different numerical examples and benchmarks. A good trade-off between low conservatism and computational efficiency is obtained.
翻訳日:2023-06-27 13:57:40 公開日:2023-06-26
# sugarcrepe: 視覚言語構成性のためのハック可能なベンチマークの修正

SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality ( http://arxiv.org/abs/2306.14610v1 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Jieyu Zhang, Zixian Ma, Aniruddha Kembhavi, Ranjay Krishna(参考訳) 昨年だけで、視覚言語モデルの構成的理解を測定するための新しいベンチマークが、機械学習エコシステムに浸透した。 画像が与えられた場合、これらのベンチマークはモデルが関連するキャプションを合成障害の集合の中で識別する能力を探索する。 意外なことに、これらのベンチマークには大きなバイアスがある。 このハッキング性は非常にひどいため、視覚障害者モデルは最先端の視覚言語モデルに勝る画像にアクセスできない。 この脆弱性に対処するために,視覚言語合成性評価のための新しいベンチマークであるsugarcrepeを紹介する。 従来のベンチマークで使用されるルールベースのテンプレートではなく,大規模な言語モデルを採用して,フルーエントでセンテカルなハードネガティブを生成し,バイアスを最大に低減するための逆リファインメント機構を活用しています。 我々は最先端のモデルと最近提案された構成性誘導戦略を再評価し、その改善が過大評価されていることを見出し、この重要な方向へのさらなるイノベーションが必要であることを示唆する。 SugarCrepe と https://github.com/RAIVNLab/sugar-crepe.com で評価のためのコードをリリースします。

In the last year alone, a surge of new benchmarks to measure compositional understanding of vision-language models have permeated the machine learning ecosystem. Given an image, these benchmarks probe a model's ability to identify its associated caption amongst a set of compositional distractors. Surprisingly, we find significant biases in all these benchmarks rendering them hackable. This hackability is so dire that blind models with no access to the image outperform state-of-the-art vision-language models. To remedy this rampant vulnerability, we introduce SugarCrepe, a new benchmark for vision-language compositionality evaluation. We employ large language models, instead of rule-based templates used in previous benchmarks, to generate fluent and sensical hard negatives, and utilize an adversarial refinement mechanism to maximally reduce biases. We re-evaluate state-of-the-art models and recently proposed compositionality inducing strategies, and find that their improvements were hugely overestimated, suggesting that more innovation is needed in this important direction. We release SugarCrepe and the code for evaluation at: https://github.com/RAIVNLab/sugar-crepe.
翻訳日:2023-06-27 13:57:25 公開日:2023-06-26
# 堅牢性への競争: 都市カモフラージュにおける脆弱なモデルの利用と機械学習のセキュリティへの規範

The race to robustness: exploiting fragile models for urban camouflage and the imperative for machine learning security ( http://arxiv.org/abs/2306.14609v1 )

ライセンス: Link先を確認
Harriet Farlow, Matthew Garratt, Gavin Mount and Tim Lynar(参考訳) Adversarial Machine Learning (AML)は、ディープラーニング最適化のアーキテクチャを広く活用するさまざまな手法を通じて、機械学習(ML)アルゴリズムをディスラプトする能力を表す。 本稿では,コンピュータビジョンに基づくAML攻撃手法の分散インスタンス化を実現する新しい手法であるDistributed Adversarial Regions (DAR)を提案する。 都市環境におけるオブジェクト検出モデルのコンテキストを考察し,画像Netデータセットからの関連画像のサブセットに対してMobileNetV2,NasNetMobile,DenseNet169モデルをベンチマークする。 最適なパラメータ(サイズ,数,摂動法)を評価し,画像全体を摂動する最先端のAML手法と比較した。 DARは平均で40.4%の信頼性を低下させる可能性があるが、画像全体や焦点対象の摂動を必要としないという利点がある。 darメソッドは意図的にシンプルなアプローチで、スキルの少ない敵が、すでに生産されているかもしれないモデルをどのように攻撃できるかを強調し、基礎となるオブジェクト検出モデルの脆弱さを強調する。 我々は、AMLと同様に、MLセキュリティの分野への貢献としてこれを提示する。 本稿では,dars と他の aml 手法との独自比較法である新しい敵対的手法を提案し,都市カモフラージュと ml のセキュリティとモデルロバスト性の必要性という新しい文脈で構成する。

Adversarial Machine Learning (AML) represents the ability to disrupt Machine Learning (ML) algorithms through a range of methods that broadly exploit the architecture of deep learning optimisation. This paper presents Distributed Adversarial Regions (DAR), a novel method that implements distributed instantiations of computer vision-based AML attack methods that may be used to disguise objects from image recognition in both white and black box settings. We consider the context of object detection models used in urban environments, and benchmark the MobileNetV2, NasNetMobile and DenseNet169 models against a subset of relevant images from the ImageNet dataset. We evaluate optimal parameters (size, number and perturbation method), and compare to state-of-the-art AML techniques that perturb the entire image. We find that DARs can cause a reduction in confidence of 40.4% on average, but with the benefit of not requiring the entire image, or the focal object, to be perturbed. The DAR method is a deliberately simple approach where the intention is to highlight how an adversary with very little skill could attack models that may already be productionised, and to emphasise the fragility of foundational object detection models. We present this as a contribution to the field of ML security as well as AML. This paper contributes a novel adversarial method, an original comparison between DARs and other AML methods, and frames it in a new context - that of urban camouflage and the necessity for ML security and model robustness.
翻訳日:2023-06-27 13:57:07 公開日:2023-06-26
# 適合型音声認識システムの因子化話者環境適応学習

Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems ( http://arxiv.org/abs/2306.14608v1 )

ライセンス: Link先を確認
Jiajun Deng, Guinan Li, Xurong Xie, Zengrui Jin, Mingyu Cui, Tianzi Wang, Shujie Hu, Mengzhe Geng, Xunying Liu(参考訳) 自然言語の多様性の豊富な情報源は、現在のデータ集約音声認識技術に重大な課題をもたらす。 話者レベルの多様性と環境レベルの多様性の両方をモデル化するために,コンフォーマーASRモデルの話者環境適応トレーニングとテスト時間適応アプローチを提案する。 話者レベル特性と環境レベル特性は、コンパクトな隠れ出力変換を用いて別々にモデル化され、任意の話者環境の組み合わせを表現するために線形または階層的に結合される。 ベイズ学習はさらに適応パラメータの不確かさのモデル化に利用されている。 300-hrのWHAMノイズ劣化データの実験では、分解された適応はベースラインよりも一貫して優れており、話者ラベルはコンフォーマーを最大3.1%の絶対(10.4%)の単語誤り率で適合させる。 さらに, 提案手法は, 未知の話者環境に迅速に適応する可能性を示す。

Rich sources of variability in natural speech present significant challenges to current data intensive speech recognition technologies. To model both speaker and environment level diversity, this paper proposes a novel Bayesian factorised speaker-environment adaptive training and test time adaptation approach for Conformer ASR models. Speaker and environment level characteristics are separately modeled using compact hidden output transforms, which are then linearly or hierarchically combined to represent any speaker-environment combination. Bayesian learning is further utilized to model the adaptation parameter uncertainty. Experiments on the 300-hr WHAM noise corrupted Switchboard data suggest that factorised adaptation consistently outperforms the baseline and speaker label only adapted Conformers by up to 3.1% absolute (10.4% relative) word error rate reductions. Further analysis shows the proposed method offers potential for rapid adaption to unseen speaker-environment conditions.
翻訳日:2023-06-27 13:56:42 公開日:2023-06-26
# 多変量時系列早期分類 : チャネル横断と時間次元

Multivariate Time Series Early Classification Across Channel and Time Dimensions ( http://arxiv.org/abs/2306.14606v1 )

ライセンス: Link先を確認
Leonardos Pantiskas, Kees Verstoep, Mark Hoogendoorn, Henri Bal(参考訳) 近年,実世界の分類問題に対処するためのエッジデバイスへのディープラーニングモデルの展開が普及している。 また、エッジインテリジェンス環境において重要なパラメータである通信や計算要件の削減を目的とした、初期のデータのみを観測した後の入力データを分類する手法であるアーリー分類のアプローチでは、人気が高まっている。 時系列解析の分野における早期分類は広く研究されているが、既存の多変量時系列問題の解法は主に時間次元に沿った早期分類に焦点を当て、複数の入力チャネルを集合的に扱う。 本研究では,入力チャネルをより詳細に考慮し,初期分類パラダイムをチャネル次元にまで拡張した,より柔軟な早期分類パイプラインを提案する。 本手法を実装するために,強化学習手法を活用し,目標の実現可能性と実用性を確保するための制約を導入する。 その効果を検証するために,合成データを用いた実験を行い,実データセット上での性能評価を行った。 実験の総合的な結果は,複数のデータセットに対して,等価な入力利用のための精度向上を実現することにより,初期分類パラダイムを向上できることを実証する。

Nowadays, the deployment of deep learning models on edge devices for addressing real-world classification problems is becoming more prevalent. Moreover, there is a growing popularity in the approach of early classification, a technique that involves classifying the input data after observing only an early portion of it, aiming to achieve reduced communication and computation requirements, which are crucial parameters in edge intelligence environments. While early classification in the field of time series analysis has been broadly researched, existing solutions for multivariate time series problems primarily focus on early classification along the temporal dimension, treating the multiple input channels in a collective manner. In this study, we propose a more flexible early classification pipeline that offers a more granular consideration of input channels and extends the early classification paradigm to the channel dimension. To implement this method, we utilize reinforcement learning techniques and introduce constraints to ensure the feasibility and practicality of our objective. To validate its effectiveness, we conduct experiments using synthetic data and we also evaluate its performance on real datasets. The comprehensive results from our experiments demonstrate that, for multiple datasets, our method can enhance the early classification paradigm by achieving improved accuracy for equal input utilization.
翻訳日:2023-06-27 13:56:26 公開日:2023-06-26
# 視覚的自己教師付き表現のための差分注意による学習

Learning with Difference Attention for Visually Grounded Self-supervised Representations ( http://arxiv.org/abs/2306.14603v1 )

ライセンス: Link先を確認
Aishwarya Agarwal and Srikrishna Karanam and Balaji Vasan Srinivasan(参考訳) 自己教師付き学習における最近の研究は、単一対象画像において印象的な結果を示しているが、視覚の粗末さから証明された複雑な多目的画像ではうまく機能しない。 そこで本研究では,視覚差注意法(vda)を提案し,視覚差注意法(visual difference attention, vda)を用いて視覚注意マップを教師なしで計算する手法を提案する。 我々は,vda を用いて最先端ssl 法に対する注意マップを導出し,画像中のすべてのサルエント領域を正確に強調していないことを示し,セグメンテーションなどの下流タスクに対して強い表現を学習できないことを示唆する。 これらの制限に動機づけられて,vdaを微分可能な操作として,新たな学習目標であるdida( differentiable difference attention)損失を提案する。

Recent works in self-supervised learning have shown impressive results on single-object images, but they struggle to perform well on complex multi-object images as evidenced by their poor visual grounding. To demonstrate this concretely, we propose visual difference attention (VDA) to compute visual attention maps in an unsupervised fashion by comparing an image with its salient-regions-masked-out version. We use VDA to derive attention maps for state-of-the art SSL methods and show they do not highlight all salient regions in an image accurately, suggesting their inability to learn strong representations for downstream tasks like segmentation. Motivated by these limitations, we cast VDA as a differentiable operation and propose a new learning objective, Differentiable Difference Attention (DiDA) loss, which leads to substantial improvements in an SSL model's visually grounding to an image's salient regions.
翻訳日:2023-06-27 13:56:06 公開日:2023-06-26
# 制御・知覚の不確実性の最小化による非構造環境の安全ナビゲーション

Safe Navigation in Unstructured Environments by Minimizing Uncertainty in Control and Perception ( http://arxiv.org/abs/2306.14601v1 )

ライセンス: Link先を確認
Junwon Seo, Jungwi Mun, and Taekyung Kim(参考訳) 制御と知覚の不確実性は、非構造環境における自動運転車のナビゲーションに困難をもたらし、ナビゲーション障害と潜在的な車両の損傷を引き起こす。 本稿では,安全かつ信頼性の高いナビゲーションを実現するために,制御と認識の不確実性を最小化するフレームワークを提案する。 このフレームワークは、学習に基づく車両動力学モデルと自己教師付きトラバーサビリティ推定モデルという2つの不確実性認識モデルで構成されている。 我々は,モデルの認識的不確かさを定量化し,アクティブな探索を行う車両動力学モデルを訓練し,効率的な訓練データの収集と不確定な状態動作空間の効果的な回避を実現する。 さらに,トラバーサビリティコスト予測ネットワークのトレーニングにメタラーニングを用いる。 このモデルは、さまざまな種類の地形からデータを駆動することで訓練することができ、相互作用経験に基づいてオンライン適応することで、アレラトリックな不確実性を低減することができる。 ダイナミクスモデルとトラバーサビリティコスト予測モデルをサンプリングベースのモデル予測コントローラに統合することで、不確定な地形や状態動作空間を避ける軌道を最適化することができる。 実験の結果,提案手法は予測の不確実性を低減し,非構造環境における自律走行の安定性を向上させる。

Uncertainty in control and perception poses challenges for autonomous vehicle navigation in unstructured environments, leading to navigation failures and potential vehicle damage. This paper introduces a framework that minimizes control and perception uncertainty to ensure safe and reliable navigation. The framework consists of two uncertainty-aware models: a learning-based vehicle dynamics model and a self-supervised traversability estimation model. We train a vehicle dynamics model that can quantify the epistemic uncertainty of the model to perform active exploration, resulting in the efficient collection of training data and effective avoidance of uncertain state-action spaces. In addition, we employ meta-learning to train a traversability cost prediction network. The model can be trained with driving data from a variety of types of terrain, and it can online-adapt based on interaction experiences to reduce the aleatoric uncertainty. Integrating the dynamics model and traversability cost prediction model with a sampling-based model predictive controller allows for optimizing trajectories that avoid uncertain terrains and state-action spaces. Experimental results demonstrate that the proposed method reduces uncertainty in prediction and improves stability in autonomous vehicle navigation in unstructured environments.
翻訳日:2023-06-27 13:55:48 公開日:2023-06-26
# stylegan 埋め込み画像を用いた癌予後予測のための深層学習

Deep Learning for Cancer Prognosis Prediction Using Portrait Photos by StyleGAN Embedding ( http://arxiv.org/abs/2306.14596v1 )

ライセンス: Link先を確認
Amr Hagag, Ahmed Gomaa, Dominik Kornek, Andreas Maier, Rainer Fietkau, Christoph Bert, Florian Putz and Yixing Huang(参考訳) がん患者の生存予測は最適な治療選択と患者管理に重要である。 現在の患者生存予測法は、典型的には患者の臨床記録データまたは生物学的および画像データから生存情報を抽出する。 実際に、経験豊富な臨床医は、主に顔の特徴である観察可能な身体的外観に基づいて、患者の健康状態の予備評価を行うことができる。 しかし、この評価は非常に主観的である。 本研究は,従来のポートレート写真に含まれる予測情報を,深層学習を用いて客観的に捉え,活用する効果について初めて検討した。 事前トレーニングされたStyleGAN2モデルは、がん患者の写真のカスタムデータセットに基づいて微調整され、患者の写真に合った生成能力で生成する。 StyleGAN2は、写真を非常に表現力のある潜伏空間に埋め込むために使用される。 最先端のサバイバル分析モデルと、styleganの潜在空間写真埋め込みに基づいて、このアプローチは0.677のc-インデックスを達成し、これは単純な2d顔画像に埋め込まれた予測値よりも顕著に高い。 さらに、StyleGANの解釈可能な潜伏空間のおかげで、我々の生存予測モデルは、重要な顔の特徴に依存し、衣服や背景などの外部情報からのバイアスを排除できる。 さらに、患者のケアに重要な電位値を有する回帰係数から健康属性を求める。

urvival prediction for cancer patients is critical for optimal treatment selection and patient management. Current patient survival prediction methods typically extract survival information from patients' clinical record data or biological and imaging data. In practice, experienced clinicians can have a preliminary assessment of patients' health status based on patients' observable physical appearances, which are mainly facial features. However, such assessment is highly subjective. In this work, the efficacy of objectively capturing and using prognostic information contained in conventional portrait photographs using deep learning for survival predication purposes is investigated for the first time. A pre-trained StyleGAN2 model is fine-tuned on a custom dataset of our cancer patients' photos to empower its generator with generative ability suitable for patients' photos. The StyleGAN2 is then used to embed the photographs to its highly expressive latent space. Utilizing the state-of-the-art survival analysis models and based on StyleGAN's latent space photo embeddings, this approach achieved a C-index of 0.677, which is notably higher than chance and evidencing the prognostic value embedded in simple 2D facial images. In addition, thanks to StyleGAN's interpretable latent space, our survival prediction model can be validated for relying on essential facial features, eliminating any biases from extraneous information like clothing or background. Moreover, a health attribute is obtained from regression coefficients, which has important potential value for patient care.
翻訳日:2023-06-27 13:55:27 公開日:2023-06-26
# チューニング可能な相互作用を持つ三角形イジング系における多部量子相関、空間異方性結合、および有限温度効果

Multipartite quantum correlation, spatially anisotropic coupling, and finite temperature effects in a triangular Ising system with tunable interactions ( http://arxiv.org/abs/2306.14594v1 )

ライセンス: Link先を確認
Jun Ren, Fang-Man Liu, Yan-Chao Li, Li-Hang Ren, Z. D. Wang, Yan-Kui Bai(参考訳) 本研究では,完全対角化法を用いた波長可変相互作用を持つ三角イジングシステムにおいて,多成分量子相関(mqc),空間的異方性結合,有限温度効果について検討する。 空間異方性結合は、現在の実験技術で実現可能な反強磁性基底状態におけるMQCの変調に有効な手段であることを示す。 さらに, ising システムにおける mqc と空間的異方性結合の相互作用を有限温度で検討する。 強磁性の場合のmqcは温度変化の影響を受けやすいが,反強磁性相互作用を伴う三角イジング系では,高mqc,ロバストな熱安定性,異方性強度の3方向トレードオフがみられた。 これらの知見は、量子多体系における基底状態特性とMQC変調の理解に寄与する。

We investigate multipartite quantum correlation (MQC), spatially anisotropic coupling, and finite temperature effects in a triangular Ising system with tunable interactions using the exact diagonalization method. We demonstrate that spatially anisotropic coupling serves as an effective means to modulate MQC in the antiferromagnetic ground state, which is achievable with current experimental technologies. Moreover, we explore the interplay between MQC and spatially anisotropic coupling in the Ising system at finite temperatures. Our findings reveal a three-way trade-off relationship among high MQC, robust thermal stability, and anisotropic strength in the triangular Ising system with antiferromagnetic interactions, though the MQC in the ferromagnetic case is quite susceptible to temperature changes. These insights contribute to our understanding of ground state properties and MQC modulation in quantum many-body systems.
翻訳日:2023-06-27 13:55:03 公開日:2023-06-26
# 複数のセンチュリーをまたがる移動学習: 機械と史的統合手法による王立書記日記の解読

Transfer Learning across Several Centuries: Machine and Historian Integrated Method to Decipher Royal Secretary's Diary ( http://arxiv.org/abs/2306.14592v1 )

ライセンス: Link先を確認
Sojung Lucia Kim and Taehong Jang and Joonmo Ahn and Hyungil Lee and Jaehyuk Lee(参考訳) 名前付きエンティティ認識と分類は、データのセマンティクスをキャプチャし、翻訳をアンカーする、そして歴史の下流研究において、最初の最も重要な役割を担っている。 しかし、歴史テキストのnerは、注釈付きコーパスの不足、多言語多様性、様々なノイズ、現代の言語モデルとは大きく異なる慣習といった課題に直面している。 本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)について紹介し,近年,歴史学者が注意深い注釈を付けたフレーズマーカーとともに名付けられた実体情報を加えている。 歴史コーパスで言語モデルを微調整し,言語モデルと事前学習した変異言語モデルを用いて比較実験を行った。 時間とアノテーション情報の組み合わせの仮説を定式化し,統計的tテストに基づいて検証した。 その結果, フレーズマーカーは, 非常に異なる期間に書かれた文書において, 未知の実体を予測することにより, NERモデルの性能を著しく向上させることがわかった。 また、フレーズマーカーとコーパス固有の訓練モデルがそれぞれ性能を向上しないことを示す。 歴史文書を解読するための今後の研究方針と実践戦略について論じる。

A named entity recognition and classification plays the first and foremost important role in capturing semantics in data and anchoring in translation as well as downstream study for history. However, NER in historical text has faced challenges such as scarcity of annotated corpus, multilanguage variety, various noise, and different convention far different from the contemporary language model. This paper introduces Korean historical corpus (Diary of Royal secretary which is named SeungJeongWon) recorded over several centuries and recently added with named entity information as well as phrase markers which historians carefully annotated. We fined-tuned the language model on history corpus, conducted extensive comparative experiments using our language model and pretrained muti-language models. We set up the hypothesis of combination of time and annotation information and tested it based on statistical t test. Our finding shows that phrase markers clearly improve the performance of NER model in predicting unseen entity in documents written far different time period. It also shows that each of phrase marker and corpus-specific trained model does not improve the performance. We discuss the future research directions and practical strategies to decipher the history document.
翻訳日:2023-06-27 13:54:46 公開日:2023-06-26
# 時間依存な空間的均質電磁界における電荷の時間依存摂動振動子に対する正準同値

Canonical equivalence of a charge in a time dependent, spatially-homogeneous electromagnetic field to a time-dependent perturbed oscillator ( http://arxiv.org/abs/2306.14641v1 )

ライセンス: Link先を確認
Henryk Gzyl(参考訳) ここでは、静電場を移動する粒子からなる古典的(相対的に)量子系が、空間的に均質な力場によって摂動される調和振動子と(一意的に)正準であることを示す。 このシステムは標準発振器と一元的に等価である。 したがって、2つの変換を構成することで、初期問題を統合することができる。 実際、初期問題の固有状態は調和振動子の絡み合い状態であることが判明した。 磁場が空間的に均質だが時間依存の場合、等価調和振動子は時変周波数を持つ。 このシステムは、磁場の時間依存性のある特定の場合のみ、正確に統合することができる。 量子系間のユニタリ変換は、対応するヒルベルト空間のユニタリ変換による正準変換の表現である。

Here we prove that the classical (respectively, quantum) system, consisting of a particle moving in a static electromagnetic field, is canonically (respectively, unitarily) equivalent to a harmonic oscillator perturbed by a spatially homogeneous force field. This system is canonically and unitarily equivalent to a standard oscillator. Therefore, by composing the two transformations we can integrate the initial problem. Actually, the eigenstates of the initial problem turn out to be entangled states of the harmonic oscillator. When the magnetic field is spatially homogeneous but time-dependent, the equivalent harmonic oscillator has a time-varying frequency. This system can be exactly integrated only for some particular cases of the time dependence of the magnetic field. The unitary transformations between the quantum systems are a representation of the canonical transformations by unitary transformations of the corresponding Hilbert spaces.
翻訳日:2023-06-27 13:48:51 公開日:2023-06-26
# 顔のプライバシー保護のための3D-Aware Adversarial Makeup Generation

3D-Aware Adversarial Makeup Generation for Facial Privacy Protection ( http://arxiv.org/abs/2306.14640v1 )

ライセンス: Link先を確認
Yueming Lyu and Yue Jiang and Ziwen He and Bo Peng and Yunfan Liu and Jing Dong(参考訳) ソーシャルメディア上の顔データのプライバシーとセキュリティは、不正アクセスと識別に脆弱であるため、前例のない課題に直面している。 この問題を解決する一般的な方法は、悪意のある顔認識(fr)システムによって認識されることを防げるように元のデータを変更することである。 しかし、既存の手法で得られる「逆例」は通常、転送性が低く画質が悪く、現実のシナリオではこれらの手法の適用が著しく制限される。 本稿では,3D-Aware Adversarial Makeup Generation GAN (3DAM-GAN)を提案する。 身元情報を隠蔽するための合成化粧品の品質と転写性を向上させることを目的としている。 具体的には、新しいメイクアップ調整モジュール(MAM)とメイクアップ転送モジュール(MTM)からなるUVベースのジェネレータは、人間の顔の対称的な特性を生かして、現実的で堅牢なメイクをレンダリングするように設計されている。 さらに,ブラックボックスモデルの伝達性を高めるため,アンサンブルトレーニング戦略を用いた化粧攻撃機構を提案する。 複数のベンチマークデータセットに対する大規模な実験結果によると、3DAM-GANは、公開可能な最先端モデルと、Face++、Baidu、Aliyunといった商用の顔認証APIを含む、さまざまなFRモデルに対して、効果的に顔を保護することができる。

The privacy and security of face data on social media are facing unprecedented challenges as it is vulnerable to unauthorized access and identification. A common practice for solving this problem is to modify the original data so that it could be protected from being recognized by malicious face recognition (FR) systems. However, such ``adversarial examples'' obtained by existing methods usually suffer from low transferability and poor image quality, which severely limits the application of these methods in real-world scenarios. In this paper, we propose a 3D-Aware Adversarial Makeup Generation GAN (3DAM-GAN). which aims to improve the quality and transferability of synthetic makeup for identity information concealing. Specifically, a UV-based generator consisting of a novel Makeup Adjustment Module (MAM) and Makeup Transfer Module (MTM) is designed to render realistic and robust makeup with the aid of symmetric characteristics of human faces. Moreover, a makeup attack mechanism with an ensemble training strategy is proposed to boost the transferability of black-box models. Extensive experiment results on several benchmark datasets demonstrate that 3DAM-GAN could effectively protect faces against various FR models, including both publicly available state-of-the-art models and commercial face verification APIs, such as Face++, Baidu and Aliyun.
翻訳日:2023-06-27 13:48:36 公開日:2023-06-26
# FeSViBS:ブロックサンプリングを用いた視覚変換器のフェデレーション分割学習

FeSViBS: Federated Split Learning of Vision Transformer with Block Sampling ( http://arxiv.org/abs/2306.14638v1 )

ライセンス: Link先を確認
Faris Almalik, Naif Alkhunaizi, Ibrahim Almakky, and Karthik Nandakumar(参考訳) データ不足は、重要な医療アプリケーションにおける強力な機械学習モデルの学習を妨げる重要な障害である。 複数のエンティティ(例えば病院)間のデータ共有メカニズムは、モデルのトレーニングを加速し、より正確な予測をもたらす。 近年,federated learning(fl)やslit learning(sl)といったアプローチが,プライベートデータの交換を必要とせずにコラボレーションを促進するようになっている。 本研究では,Federated Split Learning of Vision transformer with Block Smpling (FeSViBS) と呼ばれる医用画像分類タスクのためのフレームワークを提案する。 FeSViBSフレームワークは、既存のフェデレートされた分割視覚変換器の上に構築され、サーバでViT(Vision Transformer)によって抽出された中間機能を活用するブロックサンプリングモジュールが導入された。 これは中間トランスブロックから特徴(パッチトークン)をサンプリングし、それらの情報内容を擬似クラストークンに蒸留してクライアントに渡すことで実現される。 これらの擬似クラストークンは効果的な機能拡張戦略となり、学習モデルの一般化性を高める。 IIDおよび非IID設定下で,HAM1000,BloodMNIST,Fed-ISIC2019の3つの医用画像データセットを用いた他のSLおよびFLアプローチと比較して,提案手法の有用性を実証した。 コード:https://github.com/faresmalik/FeSViBS

Data scarcity is a significant obstacle hindering the learning of powerful machine learning models in critical healthcare applications. Data-sharing mechanisms among multiple entities (e.g., hospitals) can accelerate model training and yield more accurate predictions. Recently, approaches such as Federated Learning (FL) and Split Learning (SL) have facilitated collaboration without the need to exchange private data. In this work, we propose a framework for medical imaging classification tasks called Federated Split learning of Vision transformer with Block Sampling (FeSViBS). The FeSViBS framework builds upon the existing federated split vision transformer and introduces a block sampling module, which leverages intermediate features extracted by the Vision Transformer (ViT) at the server. This is achieved by sampling features (patch tokens) from an intermediate transformer block and distilling their information content into a pseudo class token before passing them back to the client. These pseudo class tokens serve as an effective feature augmentation strategy and enhances the generalizability of the learned model. We demonstrate the utility of our proposed method compared to other SL and FL approaches on three publicly available medical imaging datasets: HAM1000, BloodMNIST, and Fed-ISIC2019, under both IID and non-IID settings. Code: https://github.com/faresmalik/FeSViBS
翻訳日:2023-06-27 13:48:12 公開日:2023-06-26
# クロスアテンション制御による自由な局所テキスト・画像生成

Localized Text-to-Image Generation for Free via Cross Attention Control ( http://arxiv.org/abs/2306.14636v1 )

ライセンス: Link先を確認
Yutong He, Ruslan Salakhutdinov, J. Zico Kolter(参考訳) テキストから画像への生成モデルが驚くほど成功したにもかかわらず、ローカライズされたテキストから画像への生成(つまり、画像内の特定の位置でオブジェクトや特徴を生成しながら、一貫した全体生成を維持している)は、明示的なトレーニングまたはかなりの追加の推論時間を必要とする。 本研究では,推論中にクロスアテンションマップを単純に制御することで,局所化生成を実現できることを示す。 追加のトレーニングやモデルアーキテクチャの変更,あるいは推論時間なしで,提案したクロスアテンション制御(CAC)は,標準のテキスト・ツー・イメージモデルに新たなオープン語彙のローカライズ機能を提供する。 CACはまた、推論時にデプロイされた場合、すでにローカライズされた生成のためにトレーニングされているモデルを強化する。 さらに,局所的なテキスト・画像生成性能を自動評価するために,大規模な事前学習認識モデルを用いて,標準化された評価スイートを開発する。 実験により,cacは境界ボックスからセマンティクスセグメンテーションマップまで多種多様な位置情報を用いて局所的生成性能を改善し,最先端テキストから画像への生成モデルの合成能力を向上した。

Despite the tremendous success in text-to-image generative models, localized text-to-image generation (that is, generating objects or features at specific locations in an image while maintaining a consistent overall generation) still requires either explicit training or substantial additional inference time. In this work, we show that localized generation can be achieved by simply controlling cross attention maps during inference. With no additional training, model architecture modification or inference time, our proposed cross attention control (CAC) provides new open-vocabulary localization abilities to standard text-to-image models. CAC also enhances models that are already trained for localized generation when deployed at inference time. Furthermore, to assess localized text-to-image generation performance automatically, we develop a standardized suite of evaluations using large pretrained recognition models. Our experiments show that CAC improves localized generation performance with various types of location information ranging from bounding boxes to semantic segmentation maps, and enhances the compositional capability of state-of-the-art text-to-image generative models.
翻訳日:2023-06-27 13:47:49 公開日:2023-06-26
# JSEEGraph: グラフ解析としての統合構造化イベント抽出

JSEEGraph: Joint Structured Event Extraction as Graph Parsing ( http://arxiv.org/abs/2306.14633v1 )

ライセンス: Link先を確認
Huiling You, Samia Touileb and Lilja {\O}vrelid(参考訳) 本稿では,意味表現構文解析の伝統において,一般的なグラフ解析としてイベント抽出のタスクにアプローチする,グラフベースのイベント抽出フレームワークjseegraphを提案する。 エンティティとイベントを単一のセマンティックグラフに明示的にエンコードし、さらに幅広い追加のie関係をエンコードし、個別のタスクを共同で推測する柔軟性を持つ。 JSEEGraph performs in an end-to-end manner via general graph parsing: (1) instead of flat sequence labelling, nested structures between entities/triggers are efficiently encoded as separate nodes in the graph, allowing for nested and overlapping entities and triggers; (2) both entities, relations, and events can be encoded in the same graph, where entities and event triggers are represented as nodes and entity relations and event arguments are constructed via edges; (3) joint inference avoids error propagation and enhances the interpolation of different IE tasks. ACE05とRich EREの2つのベンチマークデータセットを実験し、英語、中国語、スペイン語の3言語をカバーする。 実験の結果、JSEEGraphはネストしたイベント構造を処理でき、異なるIEタスクを共同で解決することは有益であり、イベント引数抽出はエンティティ抽出から特に恩恵を受けることが示された。 私たちのコードとモデルはオープンソースとしてリリースされています。

We propose a graph-based event extraction framework JSEEGraph that approaches the task of event extraction as general graph parsing in the tradition of Meaning Representation Parsing. It explicitly encodes entities and events in a single semantic graph, and further has the flexibility to encode a wider range of additional IE relations and jointly infer individual tasks. JSEEGraph performs in an end-to-end manner via general graph parsing: (1) instead of flat sequence labelling, nested structures between entities/triggers are efficiently encoded as separate nodes in the graph, allowing for nested and overlapping entities and triggers; (2) both entities, relations, and events can be encoded in the same graph, where entities and event triggers are represented as nodes and entity relations and event arguments are constructed via edges; (3) joint inference avoids error propagation and enhances the interpolation of different IE tasks. We experiment on two benchmark datasets of varying structural complexities; ACE05 and Rich ERE, covering three languages: English, Chinese, and Spanish. Experimental results show that JSEEGraph can handle nested event structures, that it is beneficial to solve different IE tasks jointly, and that event argument extraction in particular benefits from entity extraction. Our code and models are released as open-source.
翻訳日:2023-06-27 13:47:24 公開日:2023-06-26
# ゼロショット学習のための積分投影型セマンティックオートエンコーダ

An Integral Projection-based Semantic Autoencoder for Zero-Shot Learning ( http://arxiv.org/abs/2306.14628v1 )

ライセンス: Link先を確認
William Heyden, Habib Ullah, M. Salman Siddiqui, Fadi Al Machot(参考訳) ゼロショット学習(ZSL)分類は、トレーニングセット(見えないクラス)に含まれていないクラス(ラベル)を分類または予測する。 最近の研究では、異なるセマンティックオートエンコーダ(sae)モデルを提案しており、エンコーダは視覚特徴ベクトル空間を意味空間に埋め込み、デコーダは元の視覚特徴空間を再構築する。 目的は、異なるが関連するターゲットデータ分布に効果的に適用可能な、ソースデータ分布を活用することで埋め込みを学習することである。 このような埋め込みベースのメソッドはドメインシフト問題を起こしやすく、バイアスに弱い。 本稿では,意味空間と連結した視覚的特徴空間を潜在表現空間に投影する統合投影型セマンティックオートエンコーダ(IP-SAE)を提案する。 我々はデコーダに視覚意味データ空間の再構築を強制する。 この制約により、視覚意味投影関数は、元の視覚特徴空間に含まれる識別データを保存する。 リッチ射影は、領域多様体に不変な視覚的特徴空間をより正確に再構成する。 その結果、学習された射影関数はドメイン固有性が低く、ドメインシフト問題を緩和する。 提案するIP-SAEモデルは,埋め込みおよび投影のための対称変換関数を統合し,ZSLにおける生成的応用を透過的に解釈する。 したがって,4つのベンチマークデータセットを考慮した最先端手法を上回ることに加えて,ゼロショット推論のユニークな文脈で生成型法の特徴を解析的に検討できる。

Zero-shot Learning (ZSL) classification categorizes or predicts classes (labels) that are not included in the training set (unseen classes). Recent works proposed different semantic autoencoder (SAE) models where the encoder embeds a visual feature vector space into the semantic space and the decoder reconstructs the original visual feature space. The objective is to learn the embedding by leveraging a source data distribution, which can be applied effectively to a different but related target data distribution. Such embedding-based methods are prone to domain shift problems and are vulnerable to biases. We propose an integral projection-based semantic autoencoder (IP-SAE) where an encoder projects a visual feature space concatenated with the semantic space into a latent representation space. We force the decoder to reconstruct the visual-semantic data space. Due to this constraint, the visual-semantic projection function preserves the discriminatory data included inside the original visual feature space. The enriched projection forces a more precise reconstitution of the visual feature space invariant to the domain manifold. Consequently, the learned projection function is less domain-specific and alleviates the domain shift problem. Our proposed IP-SAE model consolidates a symmetric transformation function for embedding and projection, and thus, it provides transparency for interpreting generative applications in ZSL. Therefore, in addition to outperforming state-of-the-art methods considering four benchmark datasets, our analytical approach allows us to investigate distinct characteristics of generative-based methods in the unique context of zero-shot inference.
翻訳日:2023-06-27 13:47:03 公開日:2023-06-26
# 強化学習を用いたモバイルパズルゲームにおけるプレイヤー完了率の推定

Estimating player completion rate in mobile puzzle games using reinforcement learning ( http://arxiv.org/abs/2306.14626v1 )

ライセンス: Link先を確認
Jeppe Theiss Kristensen, Arturo Valdivia, Paolo Burelli(参考訳) 本研究は,モバイルパズルゲームlily's gardenにおいて,異なるレベルのプレイヤー完了率として測定される難易度を推定するために,強化学習(rl)エージェントの性能を利用することができるかを検討することを目的として,rlエージェントを訓練し,レベル完了に必要な動き数を測定する。 これは、実演者の大規模なサンプルのレベル完了率と比較され、あるレベルにおけるプレイヤー完成率の最も強い予測者は、与えられたレベルにおけるエージェントの5%のベストランのレベルを完了するために取られる動きの数である。 非常に興味深い観察は、絶対的な観点では、エージェントは全てのレベルにわたって人間のレベルのパフォーマンスに到達できないが、レベル間の行動の相違は人間の行動の違いと非常に相関しているということである。 したがって、サブパーを実行するにもかかわらず、エージェントのパフォーマンスを使ってプレイヤーのメトリクスを推定し、さらにモデル化することができる。

In this work we investigate whether it is plausible to use the performance of a reinforcement learning (RL) agent to estimate the difficulty measured as the player completion rate of different levels in the mobile puzzle game Lily's Garden.For this purpose we train an RL agent and measure the number of moves required to complete a level. This is then compared to the level completion rate of a large sample of real players.We find that the strongest predictor of player completion rate for a level is the number of moves taken to complete a level of the ~5% best runs of the agent on a given level. A very interesting observation is that, while in absolute terms, the agent is unable to reach human-level performance across all levels, the differences in terms of behaviour between levels are highly correlated to the differences in human behaviour. Thus, despite performing sub-par, it is still possible to use the performance of the agent to estimate, and perhaps further model, player metrics.
翻訳日:2023-06-27 13:46:38 公開日:2023-06-26
# 量子ウォークと絶対ゼータ関数の関係について

On the relation between quantum walks and absolute zeta functions ( http://arxiv.org/abs/2306.14625v1 )

ライセンス: Link先を確認
Norio Konno(参考訳) 量子ウォーク(quantum walk)は、古典的ランダムウォークの量子ウォークである。 一方、絶対ゼータ函数は F_1 上のゼータ函数とみなすことができる。 本稿では,量子ウォークと絶対ゼータ関数の接続について述べる。 まず,グラフ上のグローバーウォークの時間発展行列によって決定されるゼータ関数を扱う。 グロバーウォークは量子ウォークの典型的なモデルである。 次に、量子ウォークによって与えられるゼータ函数が、グラフの辺の数に依存する絶対保型形式であることを示す。 さらに,量子ウォークに基づくゼータ関数に対する絶対ゼータ関数を考える。 例えば、サイクルグラフの絶対ゼータ関数を計算し、次数2の多重ガンマ関数として表されることを示す。

The quantum walk is a quantum counterpart of the classical random walk. On the other hand, the absolute zeta function can be considered as a zeta function over F_1. This paper presents a connection between the quantum walk and the absolute zeta function. First we deal with a zeta function determined by a time evolution matrix of the Grover walk on a graph. The Grover walk is a typical model of the quantum walk. Then we prove that the zeta function given by the quantum walk is an absolute automorphic form of weight depending on the number of edges of the graph. Furthermore we consider an absolute zeta function for the zeta function based on a quantum walk. As an example, we compute an absolute zeta function for the cycle graph and show that it is expressed as the multiple gamma function of order 2.
翻訳日:2023-06-27 13:46:21 公開日:2023-06-26
# 公正な機械学習のための保険からの洞察:責任、パフォーマンス、集約

Insights From Insurance for Fair Machine Learning: Responsibility, Performativity and Aggregates ( http://arxiv.org/abs/2306.14624v1 )

ライセンス: Link先を確認
Christian Fr\"ohlich and Robert C. Williamson(参考訳) 我々は、保険が機械学習システムの社会的位置のアナロジーとして機能し、機械学習の学者がリッチで学際的な保険文学から洞察を得られることを論じる。 保険における不確実性、公正性、責任の相互作用の追跡は、機械学習における公正性に対する新たな視点を提供する。 我々は、保険の公正の概念を機械学習の親類と結びつけ、この橋を使って公平性を校正として問題化する。 このプロセスでは、機械学習の文献でほとんど見過ごされていた3つのテーマ、すなわち責任、パフォーマンス、集約と個人間の緊張を前面に持ってきます。

We argue that insurance can act as an analogon for the social situatedness of machine learning systems, hence allowing machine learning scholars to take insights from the rich and interdisciplinary insurance literature. Tracing the interaction of uncertainty, fairness and responsibility in insurance provides a fresh perspective on fairness in machine learning. We link insurance fairness conceptions to their machine learning relatives, and use this bridge to problematize fairness as calibration. In this process, we bring to the forefront three themes that have been largely overlooked in the machine learning literature: responsibility, performativity and tensions between aggregate and individual.
翻訳日:2023-06-27 13:46:11 公開日:2023-06-26
# 集中治療におけるプライバシ保護患者監視のためのビデオオブジェクト検出

Video object detection for privacy-preserving patient monitoring in intensive care ( http://arxiv.org/abs/2306.14620v1 )

ライセンス: Link先を確認
Raphael Emberger (1), Jens Michael Boss (2), Daniel Baumann (2), Marko Seric (2), Shufan Huo (2 and 3), Lukas Tuggener (1), Emanuela Keller (2), Thilo Stadelmann (1 and 4) ((1) Centre for Artificial Intelligence, ZHAW School of Engineering, Winterthur, Switzerland, (2) Neurocritical Care Unit, Department of Neurosurgery and Institute of Intensive Care Medicine, Clinical Neuroscience Center, University Hospital Zurich and University of Zurich, Switzerland, (3) Neurology, Charit\'e - University Medicine Berlin, Berlin, Germany, (4) European Centre for Living Technology (ECLT), Ca' Bottacin, Venice, Italy)(参考訳) 集中治療室における患者モニタリングは、バイオセンサーによって支援されているが、スタッフの継続的な監視が必要である。 スタッフの負担を軽減するため、監視データを記録し、臨床意思決定支援システムを開発するITインフラを構築している。 しかし、これらのシステムはアーチファクト(例えば、治療中の筋肉の動きなど)に弱いため、現実や潜在的に危険な信号と区別できないことが多い。 ビデオ記録は、望ましくない人工物の源を見つけるためにオブジェクト検出(OD)法を用いて、生体信号の信頼性の高い分類を容易にする。 プライバシーの制限により、ぼやけたビデオしか保存できないため、標準的なOD法による介入や患者の状態の変化などの臨床的に関連のある事象を検出できない。 したがって、ぼやけた映像の情報内容が減り、また正常な病院のitインフラ内で容易に実装できるため、利用可能なあらゆる情報を活用するための新しい手法が必要となる。 本稿では,ビデオフレームの時間的継承における情報を活用する新しい手法を提案する。 所定のハードウェア制約を満たした既製オブジェクト検出器を用いて効率的に実装できるようにするため、画像カラーチャネルを時間的一貫性を考慮した再利用することで、オブジェクトクラスの検出率を向上させる。 我々のメソッドは標準のYOLOv5ベースラインモデルを+1.7%mAP@.5で上回り、プロプライエタリなデータセットで10倍以上高速にトレーニングします。 このアプローチは予備実験において有効性を示しており、将来より一般的なビデオodの可能性を秘めていると結論づける。

Patient monitoring in intensive care units, although assisted by biosensors, needs continuous supervision of staff. To reduce the burden on staff members, IT infrastructures are built to record monitoring data and develop clinical decision support systems. These systems, however, are vulnerable to artifacts (e.g. muscle movement due to ongoing treatment), which are often indistinguishable from real and potentially dangerous signals. Video recordings could facilitate the reliable classification of biosignals using object detection (OD) methods to find sources of unwanted artifacts. Due to privacy restrictions, only blurred videos can be stored, which severely impairs the possibility to detect clinically relevant events such as interventions or changes in patient status with standard OD methods. Hence, new kinds of approaches are necessary that exploit every kind of available information due to the reduced information content of blurred footage and that are at the same time easily implementable within the IT infrastructure of a normal hospital. In this paper, we propose a new method for exploiting information in the temporal succession of video frames. To be efficiently implementable using off-the-shelf object detectors that comply with given hardware constraints, we repurpose the image color channels to account for temporal consistency, leading to an improved detection rate of the object classes. Our method outperforms a standard YOLOv5 baseline model by +1.7% mAP@.5 while also training over ten times faster on our proprietary dataset. We conclude that this approach has shown effectiveness in the preliminary experiments and holds potential for more general video OD in the future.
翻訳日:2023-06-27 13:45:59 公開日:2023-06-26
# PWSHAP: 対象変数のパスウェイズ説明モデル

PWSHAP: A Path-Wise Explanation Model for Targeted Variables ( http://arxiv.org/abs/2306.14672v1 )

ライセンス: Link先を確認
Lucile Ter-Minassian, Oscar Clivio, Karla Diaz-Ordaz, Robin J. Evans, Chris Holmes(参考訳) 予測型ブラックボックスモデルは高い精度を示すが、その不透明な性質は安全クリティカルなデプロイメント環境への取り込みを妨げる。 説明方法(XAI)は透明性の向上を通じて意思決定に自信を与える。 しかし、既存のXAI法は、臨床モデルにおける治療効果や政策モデルにおける民族性など、1つの予測者が特別な関心を持つセンシティブな領域のモデルには適していない。 PWSHAP(Path-Wise Shapley Effect)は、複雑な結果モデルから、バイナリ(例えば、処理)変数のターゲット効果を評価するためのフレームワークである。 提案手法は,ユーザ定義の非巡回グラフ(DAG)を用いて予測モデルを拡張する。 この手法は、逆攻撃に対する堅牢性を保ちながら、シャプリーのオンマンフォールド値と共にグラフを用いて因果経路に沿った効果を識別する。 同定されたパスワイズシャプリー効果とシャプリー値の誤差境界を定式化する。 PWSHAPはモデルに忠実に局所バイアスと媒介分析を行うことができることを示す。 さらに、対象変数がランダム化されると、局所効果の修正を定量化できる。 実例と実世界の実験において,我々のアプローチの解法,解釈可能性,真の局所性を示す。

Predictive black-box models can exhibit high accuracy but their opaque nature hinders their uptake in safety-critical deployment environments. Explanation methods (XAI) can provide confidence for decision-making through increased transparency. However, existing XAI methods are not tailored towards models in sensitive domains where one predictor is of special interest, such as a treatment effect in a clinical model, or ethnicity in policy models. We introduce Path-Wise Shapley effects (PWSHAP), a framework for assessing the targeted effect of a binary (e.g.~treatment) variable from a complex outcome model. Our approach augments the predictive model with a user-defined directed acyclic graph (DAG). The method then uses the graph alongside on-manifold Shapley values to identify effects along causal pathways whilst maintaining robustness to adversarial attacks. We establish error bounds for the identified path-wise Shapley effects and for Shapley values. We show PWSHAP can perform local bias and mediation analyses with faithfulness to the model. Further, if the targeted variable is randomised we can quantify local effect modification. We demonstrate the resolution, interpretability, and true locality of our approach on examples and a real-world experiment.
翻訳日:2023-06-27 13:37:41 公開日:2023-06-26
# ベイズリスクの改善は競争で社会福祉を減らし得る

Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition ( http://arxiv.org/abs/2306.14670v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Michael I. Jordan, Jacob Steinhardt, Nika Haghtalab(参考訳) 機械学習モデルの規模が増加するにつれて、スケーリング法則のようなトレンドが予測精度の一貫した下流改善を予測している。 しかし、これらのトレンドは独立した単一のモデル提供者の視点をとっており、現実のプロバイダーはユーザーと競い合うことが多い。 本研究は,ユーザ間での全体的な予測精度が,非モノトニック性やスケールの縮小など,これらのスケーリングトレンドの振る舞いを根本的に変えることができることを示す。 分類タスクの競合モデルを定義し、スケールの増大の影響を研究するためのレンズとしてデータ表現を使用する。 ベイズリスクによって測定された)データ表現品質の改善が、競合するモデルプロデューサの市場において、ユーザ間での全体的な予測精度(社会福祉など)を低下させる多くの設定を見出した。 我々の例は、単純な設定のクローズドフォーム公式から、CIFAR-10の事前訓練された表現を伴うシミュレーションまで様々である。 概念レベルでは、各モデルプロジェクタのスケーリング傾向が、複数のモデルプロバイダを持つマーケットプレースにおける社会福祉の下流改善に寄与する必要はないことを示唆する。

As the scale of machine learning models increases, trends such as scaling laws anticipate consistent downstream improvements in predictive accuracy. However, these trends take the perspective of a single model-provider in isolation, while in reality providers often compete with each other for users. In this work, we demonstrate that competition can fundamentally alter the behavior of these scaling trends, even causing overall predictive accuracy across users to be non-monotonic or decreasing with scale. We define a model of competition for classification tasks, and use data representations as a lens for studying the impact of increases in scale. We find many settings where improving data representation quality (as measured by Bayes risk) decreases the overall predictive accuracy across users (i.e., social welfare) for a marketplace of competing model-providers. Our examples range from closed-form formulas in simple settings to simulations with pretrained representations on CIFAR-10. At a conceptual level, our work suggests that favorable scaling trends for individual model-providers need not translate to downstream improvements in social welfare in marketplaces with multiple model providers.
翻訳日:2023-06-27 13:37:24 公開日:2023-06-26
# 量子スクイージングは標準量子限界を破ることができない

Quantum squeezing cannot beat the standard quantum limit ( http://arxiv.org/abs/2306.14666v1 )

ライセンス: Link先を確認
Liam P. McGuinness(参考訳) 粒子間の量子絡み合いは、そうでなければ不可能なタスクを実行できると期待されている。 量子センシングと気象学において、絡み合いはしばしば、同じ数の粒子と時間で達成できない精度で絡み合いを抑えることができると主張される。 2つの異なるアプローチが存在する: どちらか一方が絡み合った状態を作る 一 信号に迅速に応答すること、又は 二 騒音の低減及び不確実性に関連すること。 ここでは、成功の定義 -- 絡み合わずに達成できない精度 -- がなければ、2つ目のアプローチは成功できないことを示す。

Quantum entanglement between particles is expected to allow one to perform tasks that would otherwise be impossible. In quantum sensing and metrology, entanglement is often claimed to enable a precision that cannot be attained with the same number of particles and time, forgoing entanglement. Two distinct approaches exist: creation of entangled states that either i) respond quicker to the signal, or ii) are associated with lower noise and uncertainty. Here we show that if our definition of success is -- a precision that is impossible to achieve without entanglement -- then the second approach cannot succeed.
翻訳日:2023-06-27 13:37:06 公開日:2023-06-26
# 顔認識のためのクロスアーキテクチャ蒸留

Cross Architecture Distillation for Face Recognition ( http://arxiv.org/abs/2306.14662v1 )

ライセンス: Link先を確認
Weisong Zhao, Xiangyu Zhu, Zhixiang He, Xiao-Yu Zhang, Zhen Lei(参考訳) トランスフォーマーは顔認識タスクに優れた選択肢として登場したが、その不十分なプラットフォームアクセラレーションは、モバイルデバイスへの応用を妨げている。 対照的に、畳み込みニューラルネットワーク(CNN)はハードウェア互換のアクセラレーションライブラリを活用している。 その結果, トランスフォーマティブ型教員モデルからcnnベースの学生モデルであるクロスアーキテクチャ知識蒸留(cakd)へ知識を移す際に, 蒸留効果を維持することが不可欠となった。 その可能性にもかかわらず、顔認識におけるCAKDの展開には2つの課題がある。 1)教師と学生は,各画素ごとに異なる空間情報を共有し,特徴空間のアライメントを阻害し, 2) 教員ネットワークは, 蒸留専門知識を扱う能力に欠ける教師の役割を訓練していない。 この2つの制約を克服するために 1) まず,教師と生徒の画素特徴を統一された受容場を持つ局所特徴にマッピングする統一受容場マッピングモジュール(URFM)を導入し,教師と生徒の画素単位の空間情報を同期させる。 その後 2) 教師にプロンプトを組み込むことで, モデルの識別能力を維持しながら, 蒸留特有の知識を管理できる適応型プロンプト教師ネットワーク(APT)を開発した。 一般的な顔のベンチマークと2つの大規模な検証セットに関する大規模な実験は,本手法の優位性を示している。

Transformers have emerged as the superior choice for face recognition tasks, but their insufficient platform acceleration hinders their application on mobile devices. In contrast, Convolutional Neural Networks (CNNs) capitalize on hardware-compatible acceleration libraries. Consequently, it has become indispensable to preserve the distillation efficacy when transferring knowledge from a Transformer-based teacher model to a CNN-based student model, known as Cross-Architecture Knowledge Distillation (CAKD). Despite its potential, the deployment of CAKD in face recognition encounters two challenges: 1) the teacher and student share disparate spatial information for each pixel, obstructing the alignment of feature space, and 2) the teacher network is not trained in the role of a teacher, lacking proficiency in handling distillation-specific knowledge. To surmount these two constraints, 1) we first introduce a Unified Receptive Fields Mapping module (URFM) that maps pixel features of the teacher and student into local features with unified receptive fields, thereby synchronizing the pixel-wise spatial information of teacher and student. Subsequently, 2) we develop an Adaptable Prompting Teacher network (APT) that integrates prompts into the teacher, enabling it to manage distillation-specific knowledge while preserving the model's discriminative capacity. Extensive experiments on popular face benchmarks and two large-scale verification sets demonstrate the superiority of our method.
翻訳日:2023-06-27 13:36:56 公開日:2023-06-26
# アウトオブディストリビューション検出性能評価のためのauroc & co.

Beyond AUROC & co. for evaluating out-of-distribution detection performance ( http://arxiv.org/abs/2306.14658v1 )

ライセンス: Link先を確認
Galadrielle Humblot-Renaux, Sergio Escalera, Thomas B. Moeslund(参考訳) out-of-distribution (ood) 検出法の開発には研究の関心が高まっているが、これらの手法をどのように評価すべきかについては議論が分かれている。 安全(r)AIとの関連性を考えると,OOD検出法の比較の基礎が実用的ニーズと整合しているかどうかを検討することが重要である。 本研究は,OOD検出評価のためのgo-toメトリクスを詳しく検討し,検出閾値を考慮せずに,OOD検出を二項分類タスクに限定的に還元するアプローチを疑問視する。 我々は,現在の測定値(AUROCとその友人)の限界を解説し,IDとOODの分離が不十分なことを明示した新しい測定値Area Under the Threshold Curve(AUTC)を提案する。 スクリプトとデータはhttps://github.com/glhr/beyond-aurocで入手できる。

While there has been a growing research interest in developing out-of-distribution (OOD) detection methods, there has been comparably little discussion around how these methods should be evaluated. Given their relevance for safe(r) AI, it is important to examine whether the basis for comparing OOD detection methods is consistent with practical needs. In this work, we take a closer look at the go-to metrics for evaluating OOD detection, and question the approach of exclusively reducing OOD detection to a binary classification task with little consideration for the detection threshold. We illustrate the limitations of current metrics (AUROC & its friends) and propose a new metric - Area Under the Threshold Curve (AUTC), which explicitly penalizes poor separation between ID and OOD samples. Scripts and data are available at https://github.com/glhr/beyond-auroc
翻訳日:2023-06-27 13:36:33 公開日:2023-06-26
# phd論文:認知とコンピュータビジョンのアーキテクチャにおける(自己)アテンションの役割を探求する

PhD Thesis: Exploring the role of (self-)attention in cognitive and computer vision architecture ( http://arxiv.org/abs/2306.14650v1 )

ライセンス: Link先を確認
Mohit Vaishnav(参考訳) 複雑な推論タスクにおける注意と記憶の役割について検討する。 トランスフォーマーに基づく自己認識をモデルとして分析し,メモリで拡張する。 合成視覚的推論テストの研究により、推論タスクの分類を洗練する。 resnet50にセルフ・アテンションを組み込んだ機能マップを機能ベースおよび空間的注意力を用いて拡張し,視覚的推論課題を効率的に解決する。 本研究は,SVRTタスクの注意的ニーズの理解に寄与する。 さらに,アクティブビジョン理論に触発された注意と記憶を組み合わせた認知アーキテクチャGAMRを提案する。 GAMRはサンプル効率、堅牢性、構成性において他のアーキテクチャよりも優れており、新しい推論タスクにおいてゼロショットの一般化を示す。

We investigate the role of attention and memory in complex reasoning tasks. We analyze Transformer-based self-attention as a model and extend it with memory. By studying a synthetic visual reasoning test, we refine the taxonomy of reasoning tasks. Incorporating self-attention with ResNet50, we enhance feature maps using feature-based and spatial attention, achieving efficient solving of challenging visual reasoning tasks. Our findings contribute to understanding the attentional needs of SVRT tasks. Additionally, we propose GAMR, a cognitive architecture combining attention and memory, inspired by active vision theory. GAMR outperforms other architectures in sample efficiency, robustness, and compositionality, and shows zero-shot generalization on new reasoning tasks.
翻訳日:2023-06-27 13:36:16 公開日:2023-06-26
# CIMulator:低ビット幅・実メモリ材料を用いたメモリ内回路マクロの総合シミュレーションプラットフォーム

CIMulator: A Comprehensive Simulation Platform for Computing-In-Memory Circuit Macros with Low Bit-Width and Real Memory Materials ( http://arxiv.org/abs/2306.14649v1 )

ライセンス: Link先を確認
Hoang-Hiep Le, Md. Aftab Baig, Wei-Chen Hong, Cheng-Hsien Tsai, Cheng-Jui Yeh, Fu-Xiang Liang, I-Ting Huang, Wei-Tzu Tsai, Ting-Yin Cheng, Sourav De, Nan-Yow Chen, Wen-Jay Lee, Ing-Chao Lin, Da-Wei Chang, Darsen D. Lu(参考訳) 本稿では,ニューラルネットワークアーキテクチャの異なるニューロモルフィック加速器における各種シナプスデバイスの有効性を定量化するシミュレーションプラットフォーム,CIMulatorを提案する。 抵抗ランダムアクセスメモリ、強誘電体効果トランジスタ、揮発性静的ランダムアクセスメモリ装置などの不揮発性メモリ装置をシナプスデバイスとして選択することができる。 LeNet-5、VGG-16、C4W-1と呼ばれるカスタムCNNなどの多層パーセプトロンと畳み込みニューラルネットワークをシミュレートし、これらのシナプスデバイスがトレーニングおよび推論結果に与える影響を評価する。 シミュレーションで使用されるデータセットはmnist、cifar-10、白血球データセットである。 訓練段階でバッチ正規化と適切なオプティマイザを適用することで、非常に低ビット幅またはバイナリ重みを持つニューロモルフィックシステムは、ソフトウェアベースのcnn精度にアプローチする高いパターン認識率を達成することができる。 また、MNIST手書き文字の認識のために、RRAMベースのシナプスデバイスを用いたスパイクニューラルネットワークを導入する。

This paper presents a simulation platform, namely CIMulator, for quantifying the efficacy of various synaptic devices in neuromorphic accelerators for different neural network architectures. Nonvolatile memory devices, such as resistive random-access memory, ferroelectric field-effect transistor, and volatile static random-access memory devices, can be selected as synaptic devices. A multilayer perceptron and convolutional neural networks (CNNs), such as LeNet-5, VGG-16, and a custom CNN named C4W-1, are simulated to evaluate the effects of these synaptic devices on the training and inference outcomes. The dataset used in the simulations are MNIST, CIFAR-10, and a white blood cell dataset. By applying batch normalization and appropriate optimizers in the training phase, neuromorphic systems with very low-bit-width or binary weights could achieve high pattern recognition rates that approach software-based CNN accuracy. We also introduce spiking neural networks with RRAM-based synaptic devices for the recognition of MNIST handwritten digits.
翻訳日:2023-06-27 13:36:04 公開日:2023-06-26
# パラメトリックステレオ生成によるモノ・ステレオ

Mono-to-stereo through parametric stereo generation ( http://arxiv.org/abs/2306.14647v1 )

ライセンス: Link先を確認
Joan Serr\`a, Davide Scaini, Santiago Pascual, Daniel Arteaga, Jordi Pons, Jeroen Breebaart, Giulio Cengarle(参考訳) 単音の音声信号からステレオ音声の提示を生成することは、特に音響要素の特定のパニングによる現実的な空間画像を得ることが目的であれば、難しい課題である。 本研究では,近接型と深層ネットワークを用いたパラメトリックステレオ(ps)パラメータの予測により,モノをステレオに変換する手法を提案する。 また,PSと組み合わせて生成的アプローチでタスクをモデル化し,同じモノ信号から複数かつ等値なステレオリフレクションを合成する手法を提案する。 これを実現するために、自動回帰とマスク付きトークンモデリングの両方のアプローチを検討する。 提案したPSモデルが競合する古典的デコレーションベースラインより優れており、PS予測フレームワークにおいて、現代の生成モデルは同等の非生成モデルよりも優れていることを示す。 本研究はPSと生成モデルの両方をモノ・ステレオ・アップミックスの強靭で魅力的な手法として位置づけた。 これらのアプローチの限界に関する議論も提供されている。

Generating a stereophonic presentation from a monophonic audio signal is a challenging open task, especially if the goal is to obtain a realistic spatial imaging with a specific panning of sound elements. In this work, we propose to convert mono to stereo by means of predicting parametric stereo (PS) parameters using both nearest neighbor and deep network approaches. In combination with PS, we also propose to model the task with generative approaches, allowing to synthesize multiple and equally-plausible stereo renditions from the same mono signal. To achieve this, we consider both autoregressive and masked token modelling approaches. We provide evidence that the proposed PS-based models outperform a competitive classical decorrelation baseline and that, within a PS prediction framework, modern generative models outshine equivalent non-generative counterparts. Overall, our work positions both PS and generative modelling as strong and appealing methodologies for mono-to-stereo upmixing. A discussion of the limitations of these approaches is also provided.
翻訳日:2023-06-27 13:35:43 公開日:2023-06-26
# 卵巣癌残存疾患予測のための多視点注意学習

Multi-View Attention Learning for Residual Disease Prediction of Ovarian Cancer ( http://arxiv.org/abs/2306.14646v1 )

ライセンス: Link先を確認
Xiangneng Gao, Shulan Ruan, Jun Shi, Guoqing Hu, and Wei Wei(参考訳) 卵巣癌治療においては, 臨床および外科的意思決定において, 正確な残存病変予測が重要である。 しかし、伝統的な方法は侵襲的(例えば腹腔鏡)か時間的消費(例えば手動分析)である。 近年,深層学習は医療画像の自動解析に多くの努力を払っている。 顕著な進歩にもかかわらず、そのほとんどが疾患の3d画像情報の重要性を過小評価しており、特に小規模データセットにおいて、残留疾患予測のパフォーマンスが限られている可能性がある。 そこで本研究では,3次元CT画像の総合的学習を多視点的に行うことを目的とした,残像予測のための新しいマルチビュー注意学習法を提案する。 具体的には, 横方向, 冠状動脈, 矢状面からの3次元CT画像の多視点画像を得る。 マルチビューで画像の特徴をよりよく表現するために、各ビューのより関連性の高いスライスを見つけるための注意機構をさらに活用する。 111人の患者のデータセットに関する広範囲な実験により,本手法が既存のディープラーニング手法よりも優れていることが示された。

In the treatment of ovarian cancer, precise residual disease prediction is significant for clinical and surgical decision-making. However, traditional methods are either invasive (e.g., laparoscopy) or time-consuming (e.g., manual analysis). Recently, deep learning methods make many efforts in automatic analysis of medical images. Despite the remarkable progress, most of them underestimated the importance of 3D image information of disease, which might brings a limited performance for residual disease prediction, especially in small-scale datasets. To this end, in this paper, we propose a novel Multi-View Attention Learning (MuVAL) method for residual disease prediction, which focuses on the comprehensive learning of 3D Computed Tomography (CT) images in a multi-view manner. Specifically, we first obtain multi-view of 3D CT images from transverse, coronal and sagittal views. To better represent the image features in a multi-view manner, we further leverage attention mechanism to help find the more relevant slices in each view. Extensive experiments on a dataset of 111 patients show that our method outperforms existing deep-learning methods.
翻訳日:2023-06-27 13:35:28 公開日:2023-06-26
# PTVD:テレビドラマに基づく大規模Plot-Oriented Multimodal Dataset

PTVD: A Large-Scale Plot-Oriented Multimodal Dataset Based on Television Dramas ( http://arxiv.org/abs/2306.14644v1 )

ライセンス: Link先を確認
Chen Li, Xutan Peng, Teng Wang, Yixiao Ge, Mengyang Liu, Xuyuan Xu, Yexin Wang, Ying Shan(参考訳) 映画やテレビ(テレビ)ドラマなどの芸術形式は現実世界を反映したもので、近年はマルチモーダル・ラーニング・コミュニティから注目を集めている。 しかし、このドメインの既存のコーパスには、3つの制限がある:(1)シーン指向の方法で注釈を付け、プロット内の一貫性を無視する、(2)テキストは共感を欠く、状況的文脈をほとんど言及しない、(3)ビデオクリップは短い期間のために長い形態の関係をカバーできない、の3つがある。 テレビドラマ1,106話とプロが書いた24,875文を用いて449人のアノテータの助けを借りて,テレビ領域におけるプロット指向のマルチモーダルデータセットであるPTVDを構築した。 また、この種の非英語データセットとしては初めてである。 さらに、PTVDには2600万以上の弾頭画面コメント(BSC)が含まれており、大規模な事前トレーニングの電源となっている。 次に, 追従作業のための強固なベースラインをオープンソースとして公開することを目指して, 異なるシネマ/テレビモデリング問題を統一アーキテクチャで攻撃するマルチモーダルアルゴリズムを開発した。 認知に触発された3つのタスクに関する大規模な実験は、多くの新しい観察をもたらし(そのうちのいくつかは全く逆の直感である)、マルチモーダル研究を促進する上でのPTVDの価値をさらに検証した。 データセットとコードは \url{https://ptvd.github.io/} でリリースされる。

Art forms such as movies and television (TV) dramas are reflections of the real world, which have attracted much attention from the multimodal learning community recently. However, existing corpora in this domain share three limitations: (1) annotated in a scene-oriented fashion, they ignore the coherence within plots; (2) their text lacks empathy and seldom mentions situational context; (3) their video clips fail to cover long-form relationship due to short duration. To address these fundamental issues, using 1,106 TV drama episodes and 24,875 informative plot-focused sentences written by professionals, with the help of 449 human annotators, we constructed PTVD, the first plot-oriented multimodal dataset in the TV domain. It is also the first non-English dataset of its kind. Additionally, PTVD contains more than 26 million bullet screen comments (BSCs), powering large-scale pre-training. Next, aiming to open-source a strong baseline for follow-up works, we developed the multimodal algorithm that attacks different cinema/TV modelling problems with a unified architecture. Extensive experiments on three cognitive-inspired tasks yielded a number of novel observations (some of them being quite counter-intuition), further validating the value of PTVD in promoting multimodal research. The dataset and codes are released at \url{https://ptvd.github.io/}.
翻訳日:2023-06-27 13:35:13 公開日:2023-06-26
# エンド・ツー・エンドニューラルモデルを用いたヘッジ生成の種類について

How About Kind of Generating Hedges using End-to-End Neural Models? ( http://arxiv.org/abs/2306.14696v1 )

ライセンス: Link先を確認
Alafate Abulimiti, Chlo\'e Clavel, Justine Cassell(参考訳) ヘッジは会話における文の影響を和らげるための戦略である。 表現の強度を下げるには、聞き手に対する恥ずかしさ(技術的には ``face threat'' )を避けるのに役立つかもしれない。 このため、家庭教師などの教科の文脈でよく見られる。 そこで本研究では, ヘッジ生成モデルを構築した。 一 人間の教養データに基づいて訓練された最先端言語モデル 二 ヘッジ分類器を用いて、候補プール内で予想されるヘッジ戦略に最も適合する候補を選択すること。 本手法は,膨大な数の流用,反復,修復を含む自然なピアツーリングコーパスに適用する。 その結果, この騒音環境における生成は, 再ランキングによって実現可能であることがわかった。 両手法の誤り解析を行うことにより,会話における社会的目標とタスク指向目標の両方を達成しようとするシステムが直面する課題を明らかにする。

Hedging is a strategy for softening the impact of a statement in conversation. In reducing the strength of an expression, it may help to avoid embarrassment (more technically, ``face threat'') to one's listener. For this reason, it is often found in contexts of instruction, such as tutoring. In this work, we develop a model of hedge generation based on i) fine-tuning state-of-the-art language models trained on human-human tutoring data, followed by ii) reranking to select the candidate that best matches the expected hedging strategy within a candidate pool using a hedge classifier. We apply this method to a natural peer-tutoring corpus containing a significant number of disfluencies, repetitions, and repairs. The results show that generation in this noisy environment is feasible with reranking. By conducting an error analysis for both approaches, we reveal the challenges faced by systems attempting to accomplish both social and task-oriented goals in conversation.
翻訳日:2023-06-27 13:29:55 公開日:2023-06-26
# DR-HAI:人間とAIの相互作用における調停に基づく弁証的和解

DR-HAI: Argumentation-based Dialectical Reconciliation in Human-AI Interactions ( http://arxiv.org/abs/2306.14694v1 )

ライセンス: Link先を確認
Stylianos Loukas Vasileiou, Ashwin Kumar, William Yeoh, Tran Cao Son, Francesca Toni(参考訳) DR-HAIは、人間とAIの相互作用を強化するために、説明可能なAI計画に一般的に使用されるモデル和解アプローチを拡張するために設計された、新しい議論ベースのフレームワークである。 DR-HAIは、マルチショット和解パラダイムを採用し、人間のモデルのプリオリ知識を仮定しないことにより、対話型和解を可能にし、説明者と説明者の知識の相違に対処する。 DR-HAIの動作意味論を正式に記述し、終了と成功に関する理論的保証を提供し、その有効性を実証的に評価する。 本研究は,DR-HAIが効果的な人間とAIの相互作用を促進する上で有望な方向性を示すことを示唆している。

We introduce DR-HAI -- a novel argumentation-based framework designed to extend model reconciliation approaches, commonly used in explainable AI planning, for enhanced human-AI interaction. By adopting a multi-shot reconciliation paradigm and not assuming a-priori knowledge of the human user's model, DR-HAI enables interactive reconciliation to address knowledge discrepancies between an explainer and an explainee. We formally describe the operational semantics of DR-HAI, provide theoretical guarantees related to termination and success, and empirically evaluate its efficacy. Our findings suggest that DR-HAI offers a promising direction for fostering effective human-AI interactions.
翻訳日:2023-06-27 13:29:43 公開日:2023-06-26
# 誤り率制御のための共形リンク予測

Conformal link prediction to control the error rate ( http://arxiv.org/abs/2306.14693v1 )

ライセンス: Link先を確認
Ariane Marandon(参考訳) ほとんどのリンク予測手法は、グラフの欠落したエッジの接続確率を推定する。 そのような出力は、欠落した辺のランク付けに使うことができるが、真の辺である可能性が最も低いが、真かつ非存在の分類を直接は提供しない。 本研究では,偽発見率(FDR)を制御した真のエッジの集合を同定する問題を考察する。 共形推論に基づく文献からの高レベルなアイデアに基づく新しい手法を提案する。 グラフ構造はデータの複雑な依存を誘導するが、これは慎重に考慮する。これは、交換可能性が仮定される共形推論の通常の設定と設定が異なるためである。 FDR制御はシミュレーションデータと実データの両方に対して実証的に実証される。

Most link prediction methods return estimates of the connection probability of missing edges in a graph. Such output can be used to rank the missing edges, from most to least likely to be a true edge, but it does not directly provide a classification into true and non-existent. In this work, we consider the problem of identifying a set of true edges with a control of the false discovery rate (FDR). We propose a novel method based on high-level ideas from the literature on conformal inference. The graph structure induces intricate dependence in the data, which we carefully take into account, as this makes the setup different from the usual setup in conformal inference, where exchangeability is assumed. The FDR control is empirically demonstrated for both simulated and real data.
翻訳日:2023-06-27 13:29:29 公開日:2023-06-26
# データ駆動型確率制約型マルチチョース・ナップサック問題:モデル、アルゴリズム、および応用

Data-Driven Chance-Constrained Multiple-Choice Knapsack Problem: Model, Algorithms, and Applications ( http://arxiv.org/abs/2306.14690v1 )

ライセンス: Link先を確認
Xuanfeng Li, Shengcai Liu, Jin Wang, Xiao Chen, Yew-Soon Ong, Ke Tang(参考訳) multi-choice knapsack problem (mckp) は古典的なnp-hard combinatorial optimization問題である。 本研究は,いくつかの重要な実用的応用に動機づけられ,データ駆動型確率制約型マルチチョース・ナップサック問題(ddccmckp)と呼ばれる,未知確率分布を持つ確率変数であるmckpの新しい変種を調査した。 まず、DDCCMCKPの問題を定式化し、2つのベンチマークセットを確立する。 第1セットは合成インスタンスを含み、第2セットは特定の通信会社の実世界のアプリケーションシナリオをシミュレートするために考案された。 DDCCMCKPを解決するために,データ駆動型適応局所探索(DDALS)アルゴリズムを提案する。 DDALSの主な利点は、未知の分布の条件下で、データ駆動方式で確率制約のあるソリューションを評価することである。 実験結果は,提案アルゴリズムの有効性を示し,他のベースラインよりも優れていることを示す。 さらに、アブレーション実験はアルゴリズムにおける各コンポーネントの必要性を確認する。 提案アルゴリズムは今後の研究のベースラインとして機能し,コードとベンチマークセットをオープンソース化して,この問題のさらなる研究を促進する。

The multiple-choice knapsack problem (MCKP) is a classic NP-hard combinatorial optimization problem. Motivated by several significant practical applications, this work investigates a novel variant of MCKP called data-driven chance-constrained multiple-choice knapsack problem (DDCCMCKP), where the item weight is a random variable with unknown probability distribution. We first present the problem formulation of DDCCMCKP, and then establish two benchmark sets. The first set contains synthetic instances, and the second set is devised to simulate a real-world application scenario of a certain telecommunication company. To solve DDCCMCKP, we propose a data-driven adaptive local search (DDALS) algorithm. The main merit of DDALS lies in evaluating solutions with chance constraints by data-driven methods, under the condition of unknown distributions and only historical sample data being available. The experimental results demonstrate the effectiveness of the proposed algorithm and show that it is superior to other baselines. Additionally, ablation experiments confirm the necessity of each component in the algorithm. Our proposed algorithm can serve as the baseline for future research, and the code and benchmark sets will be open-sourced to further promote research on this challenging problem.
翻訳日:2023-06-27 13:29:17 公開日:2023-06-26
# 熱拡散ダイナミクスによるグラフ分類のための進化カーネル法

An Evolution Kernel Method for Graph Classification through Heat Diffusion Dynamics ( http://arxiv.org/abs/2306.14688v1 )

ライセンス: Link先を確認
Xue Liu, Dan Sun, Wei Wei, Zhiming Zheng(参考訳) 自律的な個人は対関係と相互作用を通じて構造的な複雑なシステムを確立する。 特に、進化は、過去、現在から未来への一連の時間的変化を再コードするため、それぞれの複雑なシステムの動的な性質を反映している。 異なる系は異なる進化の軌跡を辿り、系分類の異なる特性として機能する。 しかしながら、複雑なシステムの進化をモデル化することは、グラフが一般にシステムの静的な状態のスナップショットであるため、システム全体の長期的進化特性を示すのが難しくなるため、グラフモデルにとって困難である。 この課題に対処するために、時間グラフ増分を生成する熱駆動方式を提案する。 このアプローチには物理ベースの熱カーネルとDropNode技術が組み込まれ、各静的グラフを一時的なグラフ列に変換する。 このアプローチは、各ノードの分散熱に基づいて各時点における要素の保持や消失を含む、システムの進化的振る舞いを効果的に記述する。 さらに,時間ラッピング距離GDTWを提案し,最適マッチングによりペア進化系間の距離を定量的に測定する。 結果として得られたアプローチはEvolution Kernel法と呼ばれ、実世界の構造グラフデータセットの分類問題にうまく適用されている。 その結果,一連のベースライン法よりも教師付き分類精度が大幅に向上した。

Autonomous individuals establish a structural complex system through pairwise connections and interactions. Notably, the evolution reflects the dynamic nature of each complex system since it recodes a series of temporal changes from the past, the present into the future. Different systems follow distinct evolutionary trajectories, which can serve as distinguishing traits for system classification. However, modeling a complex system's evolution is challenging for the graph model because the graph is typically a snapshot of the static status of a system, and thereby hard to manifest the long-term evolutionary traits of a system entirely. To address this challenge, we suggest utilizing a heat-driven method to generate temporal graph augmentation. This approach incorporates the physics-based heat kernel and DropNode technique to transform each static graph into a sequence of temporal ones. This approach effectively describes the evolutional behaviours of the system, including the retention or disappearance of elements at each time point based on the distributed heat on each node. Additionally, we propose a dynamic time-wrapping distance GDTW to quantitatively measure the distance between pairwise evolutionary systems through optimal matching. The resulting approach, called the Evolution Kernel method, has been successfully applied to classification problems in real-world structural graph datasets. The results yield significant improvements in supervised classification accuracy over a series of baseline methods.
翻訳日:2023-06-27 13:28:56 公開日:2023-06-26
# GSMorph: cine-MRI心筋変形性レジストレーションのためのグラディエント手術

GSMorph: Gradient Surgery for cine-MRI Cardiac Deformable Registration ( http://arxiv.org/abs/2306.14687v1 )

ライセンス: Link先を確認
Haoran Dou, Ning Bi, Luyi Han, Yuhao Huang, Ritse Mann, Xin Yang, Dong Ni, Nishant Ravikumar, Alejandro F. Frangi, Yunzhi Huang(参考訳) 深層学習に基づく変形可能な登録法は様々な医学的応用において広く研究されている。 学習に基づく変形可能な登録は、変形場の登録精度と滑らかさをトレードオフする重み付き目的関数に依存する。 したがって、最適な登録性能を得るためには、必然的にハイパーパラメータをチューニングする必要がある。 ハイパーパラメータのチューニングは非常に計算コストが高く、ドメイン知識に望ましくない依存性をもたらします。 本研究では,GSMorph と呼ばれる勾配手術機構に基づく登録モデルを構築し,複数の損失に対するハイパーパラメータフリーバランスを実現する。 GSMorphでは、この2つの競合する項のバランスをとるためにハイパーパラメータを導入するのではなく、滑らか性制約に付随する平面に直交する類似性損失の勾配を投影することで最適化手順を再構築する。 さらに,本手法はモデルに依存しないため,パラメータの追加や推論の遅延を伴わずに,任意のディープ登録ネットワークにマージすることができる。 本研究では,2つの心臓MRIデータセットに対するSOTA (State-of-the-art) 変形性登録手法との比較を行った。 GSMorphは5つのSOTA学習ベース登録モデルと2つの従来の登録手法であるSyNとDemonsよりも、登録精度と滑らかさの両方で優れていることを証明している。

Deep learning-based deformable registration methods have been widely investigated in diverse medical applications. Learning-based deformable registration relies on weighted objective functions trading off registration accuracy and smoothness of the deformation field. Therefore, they inevitably require tuning the hyperparameter for optimal registration performance. Tuning the hyperparameters is highly computationally expensive and introduces undesired dependencies on domain knowledge. In this study, we construct a registration model based on the gradient surgery mechanism, named GSMorph, to achieve a hyperparameter-free balance on multiple losses. In GSMorph, we reformulate the optimization procedure by projecting the gradient of similarity loss orthogonally to the plane associated with the smoothness constraint, rather than additionally introducing a hyperparameter to balance these two competing terms. Furthermore, our method is model-agnostic and can be merged into any deep registration network without introducing extra parameters or slowing down inference. In this study, We compared our method with state-of-the-art (SOTA) deformable registration approaches over two publicly available cardiac MRI datasets. GSMorph proves superior to five SOTA learning-based registration models and two conventional registration techniques, SyN and Demons, on both registration accuracy and smoothness.
翻訳日:2023-06-27 13:28:39 公開日:2023-06-26
# DiffSketcher:潜在拡散モデルによるテキストガイドベクトルスケッチ合成

DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models ( http://arxiv.org/abs/2306.14685v1 )

ライセンス: Link先を確認
Ximing Xing, Chuang Wang, Haitao Zhou, Jing Zhang, Qian Yu, Dong Xu(参考訳) 画像を中心に訓練したものの,事前学習された拡散モデルがスケッチ合成の指導において印象的な効果を示すことが判明した。 本稿では,自然言語入力を用いたベクトル化自由ハンドスケッチを作成する革新的なアルゴリズムdiffsketcherを提案する。 diffsketcherは、事前学習されたテキストから画像への拡散モデルに基づいている。 スコア蒸留サンプリング(sds)損失の延長バージョンでベジエ曲線のセットを直接最適化することにより、パラメトリックベクトル化スケッチ生成器の最適化に先立ってラスターレベルの拡散モデルを用いることができる。 さらに, 実効的ストローク初期化のための拡散モデルに埋め込まれた注意マップを探索し, 生成プロセスを高速化する。 生成されたスケッチは、認識可能性、基盤構造、描画対象の視覚的詳細を維持しながら、複数の抽象化レベルを示す。 私たちの実験では、diffsketcherは以前の作業よりも高い品質を達成しています。

Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates vectorized free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of Bezier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work.
翻訳日:2023-06-27 13:28:20 公開日:2023-06-26
# 軌道予測を伴うAIoT対応車体メタバースにおける動的アバターマイグレーションのためのマルチエージェント深部強化学習

Multi-Agent Deep Reinforcement Learning for Dynamic Avatar Migration in AIoT-enabled Vehicular Metaverses with Trajectory Prediction ( http://arxiv.org/abs/2306.14683v1 )

ライセンス: Link先を確認
Junlong Chen, Jiawen Kang, Minrui Xu, Zehui Xiong, Dusit Niyato, Chuan Chen, Abbas Jamalipour, and Shengli Xie(参考訳) Avatarsは、Vehicular Metaversesの有望なデジタルアシスタントとして、ドライバーや乗客が3D仮想空間に没入できるようにする。 没入的な体験は、例えばarナビゲーションのような、シームレスな人間とアバターの相互作用によって達成される。 幸いなことに、リモート実行のためにアバタータスクをRoadSide Units(RSU)やクラウドサーバにオフロードすることで、リソース消費量を効果的に削減できる。 しかしながら、車両の高モビリティ、RSUの動的ワークロード、およびRSUの不均一性は、アバターのマイグレーション決定に新たな課題をもたらす。 本稿では,リアルタイム軌道予測とマルチエージェント深層強化学習(madrl)に基づくアバタータスクの動的移行フレームワークを提案する。 具体的には、RSUの将来のワークロードを示す歴史データに基づいて、知的車両の将来の軌跡を予測するモデルを提案し、RSUの期待するワークロードに基づいて、アバタータスクマイグレーション問題を長期混合整数プログラミング問題として定式化する。 この問題を効率的に解決するために、問題は部分可観測マルコフ決定プロセス(pomdp)に変換され、分散した複数の連続的および離散的動作を持つ複数のdrlエージェントによって解決される。 その結果,提案手法はアバタータスクの実行遅延を予測せずに約25%低減し,予測を30%削減し,aevem (aiot-enabled vehicular metaverse) におけるユーザ没入体験を向上できることがわかった。

Avatars, as promising digital assistants in Vehicular Metaverses, can enable drivers and passengers to immerse in 3D virtual spaces, serving as a practical emerging example of Artificial Intelligence of Things (AIoT) in intelligent vehicular environments. The immersive experience is achieved through seamless human-avatar interaction, e.g., augmented reality navigation, which requires intensive resources that are inefficient and impractical to process on intelligent vehicles locally. Fortunately, offloading avatar tasks to RoadSide Units (RSUs) or cloud servers for remote execution can effectively reduce resource consumption. However, the high mobility of vehicles, the dynamic workload of RSUs, and the heterogeneity of RSUs pose novel challenges to making avatar migration decisions. To address these challenges, in this paper, we propose a dynamic migration framework for avatar tasks based on real-time trajectory prediction and Multi-Agent Deep Reinforcement Learning (MADRL). Specifically, we propose a model to predict the future trajectories of intelligent vehicles based on their historical data, indicating the future workloads of RSUs.Based on the expected workloads of RSUs, we formulate the avatar task migration problem as a long-term mixed integer programming problem. To tackle this problem efficiently, the problem is transformed into a Partially Observable Markov Decision Process (POMDP) and solved by multiple DRL agents with hybrid continuous and discrete actions in decentralized. Numerical results demonstrate that our proposed algorithm can effectively reduce the latency of executing avatar tasks by around 25% without prediction and 30% with prediction and enhance user immersive experiences in the AIoT-enabled Vehicular Metaverse (AeVeM).
翻訳日:2023-06-27 13:28:04 公開日:2023-06-26
# 仮想解剖集団の制御可能な合成のための条件付きフロー変動オートエンコーダ

A Conditional Flow Variational Autoencoder for Controllable Synthesis of Virtual Populations of Anatomy ( http://arxiv.org/abs/2306.14680v1 )

ライセンス: Link先を確認
Haoran Dou, Nishant Ravikumar and Alejandro F. Frangi(参考訳) 解剖学の仮想集団(VP)の生成は、医療機器のシリコン内試験実施に不可欠である。 通常、生成したVPは十分な変動を観測し、実際の個体群で観察される特定の特徴や患者人口を反映すべきである。 いくつかの応用において、特定の患者集団/特性に適合する仮想集団を条件付きで合成するために、関連する共変量を用いるようにVPを合成することが望ましい。 そこで本研究では,条件付き変分オートエンコーダ(cvae, conditional variational autoencoder)に流れを正規化し,後進学習の柔軟性と複雑さを高め,解剖学的構造vpの制御可能な合成の柔軟性を高めることを提案する。 2360名から得られた心左室のデータセットを用いて,心室容積と臨床指標(共変量/コンディショニング情報として用いる)を用いて,心室容積vaeの有用性を実証した。 以上の結果から,心室の仮想集団をcvaeと比較して条件付き合成法が優れていることが示唆された。 条件付き合成性能は, 一般化と特異性誤差, 合成vpsにおける臨床関連バイオマーカー, 左室血流量, 心筋容積を実数と比較して保持する能力について検討した。

Generating virtual populations (VPs) of anatomy is essential for conducting in-silico trials of medical devices. Typically, the generated VP should capture sufficient variability while remaining plausible, and should reflect specific characteristics and patient demographics observed in real populations. It is desirable in several applications to synthesize VPs in a \textit{controlled} manner, where relevant covariates are used to conditionally synthesise virtual populations that fit specific target patient populations/characteristics. We propose to equip a conditional variational autoencoder (cVAE) with normalizing flows to boost the flexibility and complexity of the approximate posterior learned, leading to enhanced flexibility for controllable synthesis of VPs of anatomical structures. We demonstrate the performance of our conditional-flow VAE using a dataset of cardiac left ventricles acquired from 2360 patients, with associated demographic information and clinical measurements (used as covariates/conditioning information). The obtained results indicate the superiority of the proposed method for conditional synthesis of virtual populations of cardiac left ventricles relative to a cVAE. Conditional synthesis performance was assessed in terms of generalisation and specificity errors, and in terms of the ability to preserve clinical relevant biomarkers in the synthesised VPs, I.e. left ventricular blood pool and myocardial volume, relative to the observed real population.
翻訳日:2023-06-27 13:27:24 公開日:2023-06-26
# 雑音保存型GANを用いた低用量造影MRIスキャンの忠実合成

Faithful Synthesis of Low-dose Contrast-enhanced Brain MRI Scans using Noise-preserving Conditional GANs ( http://arxiv.org/abs/2306.14678v1 )

ライセンス: Link先を確認
Thomas Pinetz, Erich Kobler, Robert Haase, Katerina Deike-Hofmann, Alexander Radbruch, Alexander Effland(参考訳) 現在、ガドリニウムをベースとした造影剤(GBCA)は様々な疾患の診断にMRIにおいて不可欠である。 しかし、GBCAは高価であり、副作用のある患者に蓄積する可能性があるため、投与量削減が推奨される。 しかし、診断値を維持しながらGBCAの投与量をどの程度削減できるかは、特に病理領域では明らかではない。 この問題に対処するため,多くの非標準GBCA量で脳MRIスキャンを収集し,対応する画像を分量レベルで合成するための条件付きGANモデルを開発した。 本稿では,雑音の忠実な保存を目的とした局所的ペアパッチ統計のワッサーシュタイン距離に基づく新しいコンテンツ損失関数を提案する。 数値実験により,条件付きganは異なるgbca線量レベルで画像を生成するのに適しており,仮想コントラストモデルのデータセットを拡張できることを示した。 さらに、我々のモデルは、標準GBCA量画像が存在しないBraTSなどの公開データセットに転送することができる。

Today Gadolinium-based contrast agents (GBCA) are indispensable in Magnetic Resonance Imaging (MRI) for diagnosing various diseases. However, GBCAs are expensive and may accumulate in patients with potential side effects, thus dose-reduction is recommended. Still, it is unclear to which extent the GBCA dose can be reduced while preserving the diagnostic value -- especially in pathological regions. To address this issue, we collected brain MRI scans at numerous non-standard GBCA dosages and developed a conditional GAN model for synthesizing corresponding images at fractional dose levels. Along with the adversarial loss, we advocate a novel content loss function based on the Wasserstein distance of locally paired patch statistics for the faithful preservation of noise. Our numerical experiments show that conditional GANs are suitable for generating images at different GBCA dose levels and can be used to augment datasets for virtual contrast models. Moreover, our model can be transferred to openly available datasets such as BraTS, where non-standard GBCA dosage images do not exist.
翻訳日:2023-06-27 13:26:14 公開日:2023-06-26
# 局所性とロバスト性を活用した大規模スケーラブルガウス過程回帰

Leveraging Locality and Robustness to Achieve Massively Scalable Gaussian Process Regression ( http://arxiv.org/abs/2306.14731v1 )

ライセンス: Link先を確認
Robert Allison, Anthony Stephenson, Samuel F, Edward Pyzer-Knapp(参考訳) gp回帰による正確な予測と原理不確実性の測定はo(n^3)コストを伴い、現代の大規模アプリケーションでは禁止されている。 これは計算効率の良い近似に関する広範な研究の動機となった。 GPN(Nest-Nighbour)予測の強靭性特性と制限挙動を探索することによって,新しい視点を導入する。 我々は,データサイズnが大きくなるにつれて,推定パラメータの精度とGPモデル仮定がGPnn予測精度とますます無関係になることを示す。 したがって、粗悪な具体化が存在する場合でも高いmse精度を達成するために、パラメータ推定に少量の労力を費やすだけで十分である。 対照的に、n は無限大になりがちであるため、不確実性校正と nll は1つのパラメータに対して感度が保たれていることが示されるが、この不正確性の原因は補正可能であることが示され、十分な不確実性対策と極めて低い計算コストで正確な予測が可能となる。 大規模UCIデータセットで測定した他の最先端GP近似と比較して,スタンドアウト性能の非常に単純なGPnn回帰アルゴリズムを示す。 例えば、基本的なラップトップでは、n = 1.6 x 10^6のデータセットでトレーニングするのに約30秒かかる。

The accurate predictions and principled uncertainty measures provided by GP regression incur O(n^3) cost which is prohibitive for modern-day large-scale applications. This has motivated extensive work on computationally efficient approximations. We introduce a new perspective by exploring robustness properties and limiting behaviour of GP nearest-neighbour (GPnn) prediction. We demonstrate through theory and simulation that as the data-size n increases, accuracy of estimated parameters and GP model assumptions become increasingly irrelevant to GPnn predictive accuracy. Consequently, it is sufficient to spend small amounts of work on parameter estimation in order to achieve high MSE accuracy, even in the presence of gross misspecification. In contrast, as n tends to infinity, uncertainty calibration and NLL are shown to remain sensitive to just one parameter, the additive noise-variance; but we show that this source of inaccuracy can be corrected for, thereby achieving both well-calibrated uncertainty measures and accurate predictions at remarkably low computational cost. We exhibit a very simple GPnn regression algorithm with stand-out performance compared to other state-of-the-art GP approximations as measured on large UCI datasets. It operates at a small fraction of those other methods' training costs, for example on a basic laptop taking about 30 seconds to train on a dataset of size n = 1.6 x 10^6.
翻訳日:2023-06-27 13:18:36 公開日:2023-06-26
# 過去と未来を学ぶ:フェイクニュース検出のための時間トレンド予測

Learn over Past, Evolve for Future: Forecasting Temporal Trends for Fake News Detection ( http://arxiv.org/abs/2306.14728v1 )

ライセンス: Link先を確認
Beizhe Hu, Qiang Sheng, Juan Cao, Yongchun Zhu, Danding Wang, Zhengjia Wang, Zhiwei Jin(参考訳) 偽ニュース検出は、オンラインニュースエコシステムの健全性を維持する上で重要な課題である。 しかし、ニュースデータの急速な進化によって生じる時間的シフトの問題を考える研究はほとんどなく、過去のデータに対するトレーニングや将来のデータに対するテストでは、大幅な性能低下が生じる。 本稿では,同一トピックにおけるニュースイベントの出現が,時間とともに識別可能なパターンを示す可能性があることを観察し,そのパターンが,モデルが将来のデータに適合するトレーニングインスタンスを選択するのに役立つことを実証する。 具体的には,ニュースデータの時間分布パターンを予測可能な効果的なフレームワークftt (forecasting temporal trends) を設計し,検出器の今後の分布への迅速な適応を誘導する。 実世界の時間分割データセットの実験は、提案フレームワークの優位性を実証している。 コードはhttps://github.com/ictmcg/ftt-acl23で入手できる。

Fake news detection has been a critical task for maintaining the health of the online news ecosystem. However, very few existing works consider the temporal shift issue caused by the rapidly-evolving nature of news data in practice, resulting in significant performance degradation when training on past data and testing on future data. In this paper, we observe that the appearances of news events on the same topic may display discernible patterns over time, and posit that such patterns can assist in selecting training instances that could make the model adapt better to future data. Specifically, we design an effective framework FTT (Forecasting Temporal Trends), which could forecast the temporal distribution patterns of news data and then guide the detector to fast adapt to future distribution. Experiments on the real-world temporally split dataset demonstrate the superiority of our proposed framework. The code is available at https://github.com/ICTMCG/FTT-ACL23.
翻訳日:2023-06-27 13:18:11 公開日:2023-06-26
# 遅発性ガドリニウム増強心筋磁気共鳴画像における2D-3Dカスケードネットワークの誤差補正

Error correcting 2D-3D cascaded network for myocardial infarct scar segmentation on late gadolinium enhancement cardiac magnetic resonance images ( http://arxiv.org/abs/2306.14725v1 )

ライセンス: Link先を確認
Matthias Schwab, Mathias Pamminger, Christian Kremser, Daniel Obmann, Markus Haltmeier, Agnes Mayr(参考訳) 心筋梗塞(STEMI)患者の脳梗塞サイズ(IS)と微小血管閉塞(MVO)を評価するための生体基準として,後期ガドリニウム増強(LGE)心筋MRI(CMR)が有用であると考えられる。 しかし、これらの心筋梗塞重症度マーカーの正確な定量化は困難であり、非常に時間がかかる。 LGEの分布パターンは非常に複雑で、血液プールや心外膜脂肪からの脱線が難しいため、LGE CMR画像の自動分割は困難である。 本研究では,2次元および3次元畳み込みニューラルネットワーク(CNN)のカスケードフレームワークを提案する。 カスケードフレームワークのトレーニング中に2次元cnnに特徴的なセグメンテーションエラーを人工的に生成することにより、2次元セグメンテーションエラーの検出と修正を行い、その結果、方法全体のセグメンテーション精度を向上させる。 EMIDECチャレンジのトレーニングデータセットを用いて,提案手法を5倍のクロスバリデーションで評価し,評価した。 我々は,EMIDECチャレンジの最先端手法と2Dおよび3D nnU-Netを比較検討した。 さらに, 広範なアブレーション研究において, 提案する誤差補正カスケード法で得られる利点を示す。

Late gadolinium enhancement (LGE) cardiac magnetic resonance (CMR) imaging is considered the in vivo reference standard for assessing infarct size (IS) and microvascular obstruction (MVO) in ST-elevation myocardial infarction (STEMI) patients. However, the exact quantification of those markers of myocardial infarct severity remains challenging and very time-consuming. As LGE distribution patterns can be quite complex and hard to delineate from the blood pool or epicardial fat, automatic segmentation of LGE CMR images is challenging. In this work, we propose a cascaded framework of two-dimensional and three-dimensional convolutional neural networks (CNNs) which enables to calculate the extent of myocardial infarction in a fully automated way. By artificially generating segmentation errors which are characteristic for 2D CNNs during training of the cascaded framework we are enforcing the detection and correction of 2D segmentation errors and hence improve the segmentation accuracy of the entire method. The proposed method was trained and evaluated in a five-fold cross validation using the training dataset from the EMIDEC challenge. We perform comparative experiments where our framework outperforms state-of-the-art methods of the EMIDEC challenge, as well as 2D and 3D nnU-Net. Furthermore, in extensive ablation studies we show the advantages that come with the proposed error correcting cascaded method.
翻訳日:2023-06-27 13:17:56 公開日:2023-06-26
# FC-KBQA:知識ベース質問応答のためのきめ細かい合成フレームワーク

FC-KBQA: A Fine-to-Coarse Composition Framework for Knowledge Base Question Answering ( http://arxiv.org/abs/2306.14722v1 )

ライセンス: Link先を確認
Lingxi Zhang, Jing Zhang, Yanling Wang, Shulin Cao, Xinmei Huang, Cuiping Li, Hong Chen, Juanzi Li(参考訳) KBQAの一般化問題は注目されている。 既存の研究は、論理表現の粗粒度モデリングの絡み合いや、分離されたクラスと実際のkbsの関係のきめ細かいモデリングによる実行可能性の問題によって引き起こされた一般化の問題に苦しめられている。 論理式の一般化能力と実行性を確保するため,KBQA (FC-KBQA) のためのファイン・ツー・コア構成フレームワークを提案する。 FC-KBQAの主な考え方は、KBから関連する細粒度知識成分を抽出し、それらを最終論理式を生成するための中粒度知識ペアに再構成することである。 FC-KBQA は GrailQA と WebQSP で新たな最先端のパフォーマンスを導き、ベースラインの 4 倍の速度で動作する。

The generalization problem on KBQA has drawn considerable attention. Existing research suffers from the generalization issue brought by the entanglement in the coarse-grained modeling of the logical expression, or inexecutability issues due to the fine-grained modeling of disconnected classes and relations in real KBs. We propose a Fine-to-Coarse Composition framework for KBQA (FC-KBQA) to both ensure the generalization ability and executability of the logical expression. The main idea of FC-KBQA is to extract relevant fine-grained knowledge components from KB and reformulate them into middle-grained knowledge pairs for generating the final logical expressions. FC-KBQA derives new state-of-the-art performance on GrailQA and WebQSP, and runs 4 times faster than the baseline.
翻訳日:2023-06-27 13:17:31 公開日:2023-06-26
# 効率的なマルチスケールボクセル彫刻による大規模シーンの自己監督型2次元映像合成

Self-supervised novel 2D view synthesis of large-scale scenes with efficient multi-scale voxel carving ( http://arxiv.org/abs/2306.14709v1 )

ライセンス: Link先を確認
Alexandra Budisteanu, Dragos Costea, Alina Marcu and Marius Leordeanu(参考訳) AIモデルが現実的な新しい世界を創造できるようになると、現実のシーンの新しいビューを生成するタスクはますます重要になっている。 多くの実践的応用において、新しい視点合成法は、これまで見えなかった視点から想像できるだけでなく、できるだけ物理的世界に根ざしたままにしておくことが重要である。 現在のほとんどの手法は仮想環境において小さなシーンで開発・テストされており、ポーズや深度情報に誤差はないが、UAVの新たなコンテキストにおいて大規模な領域に境界を押し付ける。 アルゴリズムによる貢献は2つある。 まず, ポーズ, 奥行き, 照明のバリエーションに大きなノイズを収容でき, かつ, テスト時に大きく異なるポーズから世界の景色を再現できる, 効率的な多スケールボクセル彫刻手法を導入することで, 実3次元の世界に定着することに成功した。 第2に,voxel型彫りモジュールが自動生成したデータに対して,最終的な高分解能出力を効率的に自己学習し,任意のシーンに効率的に適応する柔軟性を得る。 実環境における複雑で大規模なシーンにおける本手法の有効性を実証した。 コードはhttps://github.com/onorabil/msvc.com/。

The task of generating novel views of real scenes is increasingly important nowadays when AI models become able to create realistic new worlds. In many practical applications, it is important for novel view synthesis methods to stay grounded in the physical world as much as possible, while also being able to imagine it from previously unseen views. While most current methods are developed and tested in virtual environments with small scenes and no errors in pose and depth information, we push the boundaries to the real-world domain of large scales in the new context of UAVs. Our algorithmic contributions are two folds. First, we manage to stay anchored in the real 3D world, by introducing an efficient multi-scale voxel carving method, which is able to accommodate significant noises in pose, depth, and illumination variations, while being able to reconstruct the view of the world from drastically different poses at test time. Second, our final high-resolution output is efficiently self-trained on data automatically generated by the voxel carving module, which gives it the flexibility to adapt efficiently to any scene. We demonstrated the effectiveness of our method on highly complex and large-scale scenes in real environments while outperforming the current state-of-the-art. Our code is publicly available: https://github.com/onorabil/MSVC.
翻訳日:2023-06-27 13:17:14 公開日:2023-06-26
# 注意型生成型adversarial networkのための単純かつ効果的なベースライン

A Simple and Effective Baseline for Attentional Generative Adversarial Networks ( http://arxiv.org/abs/2306.14708v1 )

ライセンス: Link先を確認
Mingyu Jin, Chong Zhang, Qinkai Yu, Haochen Xue, Xiaobo Jin, Xi Yang }(参考訳) テキスト記述を通じて生成モデルを導くことで高品質画像のテキスト対画像モデルを合成することは、革新的で挑戦的なタスクである。 近年,GANトレーニングをガイドするアテンション機構に基づくAttnGAN,ジェネレータの性能と画像生成の質を向上させる自己蒸留技術を採用したSD-GAN,複数のジェネレータと識別器を積み重ねることで画像の細部と品質を徐々に改善するStack-GAN++などが提案されている。 しかし、この一連のGANの改善は、いずれもある程度の冗長性を持ち、世代性能と複雑性にある程度影響を及ぼす。 我々は,AttnGANの冗長構造を除去し,バックボーンネットワークを改善するために,一般的なシンプルで効果的なアイデア(1)を用いる。 2) DAMSMの複数損失の統合と再構築。 我々の改善は、モデルのサイズとトレーニング効率を大幅に改善し、モデルの性能が変化しないことを保証し、最終的に我々の \textbf{SEAttnGAN} を提案した。 コードはhttps://github.com/jmyissb/SEAttnGANで検証可能である。

Synthesising a text-to-image model of high-quality images by guiding the generative model through the Text description is an innovative and challenging task. In recent years, AttnGAN based on the Attention mechanism to guide GAN training has been proposed, SD-GAN, which adopts a self-distillation technique to improve the performance of the generator and the quality of image generation, and Stack-GAN++, which gradually improves the details and quality of the image by stacking multiple generators and discriminators. However, this series of improvements to GAN all have redundancy to a certain extent, which affects the generation performance and complexity to a certain extent. We use the popular simple and effective idea (1) to remove redundancy structure and improve the backbone network of AttnGAN. (2) to integrate and reconstruct multiple losses of DAMSM. Our improvements have significantly improved the model size and training efficiency while ensuring that the model's performance is unchanged and finally proposed our \textbf{SEAttnGAN}. Code is avalilable at https://github.com/jmyissb/SEAttnGAN.
翻訳日:2023-06-27 13:16:52 公開日:2023-06-26
# 身体世界における意識の因果性

Causal potency of consciousness in the physical world ( http://arxiv.org/abs/2306.14707v1 )

ライセンス: Link先を確認
Danko D. Georgiev(参考訳) 自然選択による人間の心の進化は、我々の意識的な体験が、周囲の物理的世界への具体的な影響を残すために、因果的に強力なものであることを規定している。 しかし、古典物理学の枠組みの中で意識の関数的理論を構築しようとする試みは、必然的に進化論と直接矛盾する因果的に無力な意識経験をもたらす。 ここでは、脳による心の機能的生産と組み合わせて用いられる常微分方程式の数学的性質に後者の起源を特定するいくつかの厳密な定理を導出する。 次に, 因果的に強い意識経験と一致する心-脳理論を, 観察不能な意識を脳の量子状態と還元的に同定し, 観測可能な脳を量子脳観測器の物理的測定によって構築する, 現代の量子物理学によって証明する。 脳の逐次量子測定から得られた量子確率力学は、将来の行動経路の逐次的選択を通じて真の自由意志を行使する確率微分方程式によって制御される。 したがって、量子リダミズムは、意識、自由意志、文化的伝達の因果的有効性に対する確かな理論的基盤を提供する。

The evolution of the human mind through natural selection mandates that our conscious experiences are causally potent in order to leave a tangible impact upon the surrounding physical world. Any attempt to construct a functional theory of the conscious mind within the framework of classical physics, however, inevitably leads to causally impotent conscious experiences in direct contradiction to evolution theory. Here, we derive several rigorous theorems that identify the origin of the latter impasse in the mathematical properties of ordinary differential equations employed in combination with the alleged functional production of the mind by the brain. Then, we demonstrate that a mind--brain theory consistent with causally potent conscious experiences is provided by modern quantum physics, in which the unobservable conscious mind is reductively identified with the quantum state of the brain and the observable brain is constructed by the physical measurement of quantum brain observables. The resulting quantum stochastic dynamics obtained from sequential quantum measurements of the brain is governed by stochastic differential equations, which permit genuine free will exercised through sequential conscious choices of future courses of action. Thus, quantum reductionism provides a solid theoretical foundation for the causal potency of consciousness, free will and cultural transmission.
翻訳日:2023-06-27 13:16:30 公開日:2023-06-26
# 分子動力学シミュレータにおける探索空間の制御強化 : 生成的制御政策によるド・ノボ解析の合理化

Augmenting Control over Exploration Space in Molecular Dynamics Simulators to Streamline De Novo Analysis through Generative Control Policies ( http://arxiv.org/abs/2306.14705v1 )

ライセンス: Link先を確認
Paloma Gonzalez-Rojas, Andrew Emmel, Luis Martinez, Neil Malur, Gregory Rutledge(参考訳) 本研究では,分子動力学シミュレーション(md)における制御,有効性,拡張性を高めるために強化学習(rl)を用いた基礎的手法であるp5モデルを紹介する。 我々の革新的な戦略は、標的となるポリマー鎖の配列のサンプリングを最適化し、37.1%以上の効率改善を示す。 RLによって引き起こされる制御ポリシーは誘導バイアスとして機能し、ブラウン力を変化させてシステムを望ましい状態へと誘導し、従来のMDが許す以上の構成空間の探索を拡大する。 この拡張された探索は、より多様なコンフォメーションと特定の特性を目標とし、ポリマーの開発、薬物発見、材料設計の進展に欠かせない特徴である。 本手法は, 先行知識が限られている新しいシステムにおいて, 複雑なシミュレーション問題を生成技術で解くための新しい手法を開拓する上で, 重要な利点を提供する。

This study introduces the P5 model - a foundational method that utilizes reinforcement learning (RL) to augment control, effectiveness, and scalability in molecular dynamics simulations (MD). Our innovative strategy optimizes the sampling of target polymer chain conformations, marking an efficiency improvement of over 37.1%. The RL-induced control policies function as an inductive bias, modulating Brownian forces to steer the system towards the preferred state, thereby expanding the exploration of the configuration space beyond what traditional MD allows. This broadened exploration generates a more varied set of conformations and targets specific properties, a feature pivotal for progress in polymer development, drug discovery, and material design. Our technique offers significant advantages when investigating new systems with limited prior knowledge, opening up new methodologies for tackling complex simulation problems with generative techniques.
翻訳日:2023-06-27 13:16:12 公開日:2023-06-26
# テキストからのオントロジエンリッチメント:概念発見と配置のための生物医学データセット

Ontology Enrichment from Texts: A Biomedical Dataset for Concept Discovery and Placement ( http://arxiv.org/abs/2306.14704v1 )

ライセンス: Link先を確認
Hang Dong, Jiaoyan Chen, Yuan He, Ian Horrocks(参考訳) 新しい概念の言及は、テキストに定期的に現れ、それらを知識ベース(例えばオントロジーや分類法)に収穫し配置する自動化アプローチを必要とする。 既存のデータセットには3つの問題がある。 (i)新しい概念が事前に発見され、KB外言及発見をサポートできないと仮定すること。 (ii)概念ラベルを入力として、kbと共にのみ使用し、概念ラベルの文脈を欠いていること。 (iii) 概ね概念配置 w.r.t は、複雑な概念、すなわち論理演算子ではなく、原子概念の分類である。 これらの課題に対処するため,2014年と2017年にSNOMED CT版を応用したMedMentionsデータセット(PubMedAbstracts)を病原体サブカテゴリおよびより広範な臨床発見・処置・医薬品・生物製品に応用した新しいベンチマークを提案する。 本稿では,最近のLarge Language Model に基づく手法を用いて,アウト・オブ・KB参照の発見と概念配置のためのデータセットを用いて評価を行う。

Mentions of new concepts appear regularly in texts and require automated approaches to harvest and place them into Knowledge Bases (KB), e.g., ontologies and taxonomies. Existing datasets suffer from three issues, (i) mostly assuming that a new concept is pre-discovered and cannot support out-of-KB mention discovery; (ii) only using the concept label as the input along with the KB and thus lacking the contexts of a concept label; and (iii) mostly focusing on concept placement w.r.t a taxonomy of atomic concepts, instead of complex concepts, i.e., with logical operators. To address these issues, we propose a new benchmark, adapting MedMentions dataset (PubMed abstracts) with SNOMED CT versions in 2014 and 2017 under the Diseases sub-category and the broader categories of Clinical finding, Procedure, and Pharmaceutical / biologic product. We provide usage on the evaluation with the dataset for out-of-KB mention discovery and concept placement, adapting recent Large Language Model based methods.
翻訳日:2023-06-27 13:15:57 公開日:2023-06-26
# 風車ピッチシステム異常診断のためのハードサンプルマイニングによる対比特徴学習

Hard Sample Mining Enabled Contrastive Feature Learning for Wind Turbine Pitch System Fault Diagnosis ( http://arxiv.org/abs/2306.14701v1 )

ライセンス: Link先を確認
Zixuan Wang, Bo Qin, Mengxuan Li, Mark D. Butala, Haibo Wang, Peng Peng, Hongwei Wang(参考訳) 風力タービンによる風力の効率的な利用は、風速の変化に応じてブレードピッチ角を調整するためのピッチシステムの能力に依存する。 しかし、ピッチシステムには複数の断層タイプが存在するため、これらの断層を正確に分類することは困難である。 本稿では,この問題を解決するために,ハードサンプルマイニング対応コントラスト特徴学習(HSMCFL)に基づく新しい手法を提案する。 提案手法は,コサイン類似性を用いてハードサンプルを同定し,コントラスト特徴学習を活用し,ハードサンプルペアの構築による表現学習を強化する。 さらに、学習された判別表現を用いて多層パーセプトロンを訓練し、効率的な分類器とする。 提案手法の有効性を評価するために,風力タービンピッチシステムcogベルト破壊データを含む2つの実データを用いた。 提案手法の故障診断性能を既存手法と比較し,その優れた性能を示した。 提案手法は, 故障診断精度が大幅に向上し, 風力タービンピッチシステム故障診断の信頼性向上と効率向上が期待できる。

The efficient utilization of wind power by wind turbines relies on the ability of their pitch systems to adjust blade pitch angles in response to varying wind speeds. However, the presence of multiple fault types in the pitch system poses challenges in accurately classifying these faults. This paper proposes a novel method based on hard sample mining-enabled contrastive feature learning (HSMCFL) to address this problem. The proposed method employs cosine similarity to identify hard samples and subsequently leverages contrastive feature learning to enhance representation learning through the construction of hard sample pairs. Furthermore, a multilayer perceptron is trained using the learned discriminative representations to serve as an efficient classifier. To evaluate the effectiveness of the proposed method, two real datasets comprising wind turbine pitch system cog belt fracture data are utilized. The fault diagnosis performance of the proposed method is compared against existing methods, and the results demonstrate its superior performance. The proposed approach exhibits significant improvements in fault diagnosis accuracy, providing promising prospects for enhancing the reliability and efficiency of wind turbine pitch system fault diagnosis.
翻訳日:2023-06-27 13:15:35 公開日:2023-06-26
# PMaF: 主要なマトリックス機能のための深い宣言層

PMaF: Deep Declarative Layers for Principal Matrix Features ( http://arxiv.org/abs/2306.14759v1 )

ライセンス: Link先を確認
Zhiwei Xu, Hao Wang, Yanbin Liu, Stephen Gould(参考訳) 主行列特徴(PMaF)を学習するために、球面上の最小二乗(LESS)と暗示固有分解(IED)の2つの微分可能な深い宣言層を探索する。 これは、高次元行列から支配的な情報を含む低次元ベクトルでデータ特徴を表現するのに用いられる。 まず、前方通過における反復最適化の問題を解き、二段階最適化フレームワークの下で暗黙の勾配を求める解をバックプロパゲートする。 特に,LESSの前方通過効率を向上させるために,バックトラックライン探索法とタンジェント空間における降下崩壊を用いた適応降下ステップについて検討した。 一方、悪用されたデータ構造は、LESSとIEDの後方通過における計算複雑性を大幅に低減するために使用される。 実験では, 解の最適性と計算要件を比較することにより, 既定ベースラインよりも上層部が優れていることを示す。

We explore two differentiable deep declarative layers, namely least squares on sphere (LESS) and implicit eigen decomposition (IED), for learning the principal matrix features (PMaF). This can be used to represent data features with a low-dimension vector containing dominant information from a high-dimension matrix. We first solve the problems with iterative optimization in the forward pass and then backpropagate the solution for implicit gradients under a bi-level optimization framework. Particularly, adaptive descent steps with the backtracking line search method and descent decay in the tangent space are studied to improve the forward pass efficiency of LESS. Meanwhile, exploited data structures are used to greatly reduce the computational complexity in the backward pass of LESS and IED. Empirically, we demonstrate the superiority of our layers over the off-the-shelf baselines by comparing the solution optimality and computational requirements.
翻訳日:2023-06-27 13:11:05 公開日:2023-06-26
# Rydberg原子アンサンブルにおける制御可能な励起のファシリテーション

Facilitation of controllable excitation in Rydberg atomic ensembles ( http://arxiv.org/abs/2306.14756v1 )

ライセンス: Link先を確認
Wang Han and Qian Jing(参考訳) 強い相互作用を持つrydberg原子アンサンブルは、複数の原子が共有する単一のrydberg励起を含むことにより、激しい集団励起効果を示した。 本稿では,近傍の制御原子の役割によって実現される強いプローブ場状態における強い相互作用を持つ原子アンサンブルを用いた,直観的なリドバーグ励起促進について検討する。 単一アンサンブルの場合とは異なり、制御原子の励起は二重励起されたリドバーグ状態への第二の2光子遷移をもたらし、アンサンブル原子の励起促進を引き起こす。 量子モンテカルロ波動関数の手法による数値実験により, この励起促進効果の実際の実験条件下での観測制約が示された。 その結果、rydberg原子アンサンブルの励起を柔軟に制御でき、マルチ量子ビット量子計算のためのメゾスコピックrydbergゲートの開発にさらなる利用が期待できる。

Strongly-interacting Rydberg atomic ensembles have shown intense collective excitation effects due to the inclusion of single Rydberg excitation shared by multiple atoms in the ensemble. In this paper we investigate a counter-intuitive Rydberg excitation facilitation with a strongly-interacting atomic ensemble in the strong probe-field regime, which is enabled by the role of a control atom nearby. Differing from the case of a single ensemble, we show that, the control atom's excitation adds to a second two-photon transition onto the doubly-excited Rydberg state, arising an excitation facilitation for the ensemble atoms. Our numerical studies depending on the method of quantum Monte Carlo wavefunction, exhibit the observation constraints of this excitation facilitation effect under practical experimental conditions. The results obtained can provide a flexible control for the excitation of Rydberg atomic ensembles and participate further uses in developing mesoscopic Rydberg gates for multiqubit quantum computation.
翻訳日:2023-06-27 13:10:49 公開日:2023-06-26
# fran\c{c}aise et \'edition logicielleに就て

Repr\'esentation graphique de la langue des signes fran\c{c}aise et \'edition logicielle ( http://arxiv.org/abs/2306.14754v1 )

ライセンス: Link先を確認
Michael Filhol, Thomas von Ascheberg(参考訳) Cet article propose une m\'ethode pour d\'efinir une forme graphique \'editable standardis\'ee pour les langues des signes, ainsi qu'une proposition "AZVD" et un \'editeur logiciel associ\'e。 Inspir\'ee d'une part par les r'egularit\'es observ\'ees dans les pratiques spontan\'ees delocuteurs pratiquant la sch'ematisation, la d'emarche tente garantir un syst\eme qualifi\'e d'adoptable Li\'ee d'autre part au mod\`ele formel de repr\'esentation AZee, elle vise \'egalement \`a sp\'ecifier un syst\`eme dont toutes les productions ont une lecture d\'etermin\'ee au point o\`u elles sont autoiquement synth\'etisables par un avatar。 そこで本稿では,手話表現の編集可能な標準グラフィカル形式の定義法を提案する。 また、暫定的なシステム「AZVD」を推進し、関連するソフトウェアエディタを提示する。 このシステムは,一部の言語ユーザが生成した自発的な図で見られる規則性にインスパイアされ,可能な限り適用可能となる。 さらに、形式的表現モデルAZeeに基づいて構築され、システムによって生成されたグラフィカルなインスタンスが、アバターによって自動的に合成できる点において、独自の読み出し形式を決定する。

Cet article propose une m\'ethode pour d\'efinir une forme graphique \'editable standardis\'ee pour les langues des signes, ainsi qu'une proposition "AZVD" et un \'editeur logiciel associ\'e. Inspir\'ee d'une part par les r\'egularit\'es observ\'ees dans les pratiques spontan\'ees de locuteurs pratiquant la sch\'ematisation, la d\'emarche tente garantir un syst\`eme qualifi\'e d'adoptable. Li\'ee d'autre part au mod\`ele formel de repr\'esentation AZee, elle vise \'egalement \`a sp\'ecifier un syst\`eme dont toutes les productions ont une lecture d\'etermin\'ee au point o\`u elles sont automatiquement synth\'etisables par un avatar. -- This paper proposes a definition method for an editable standard graphical form of Sign Language discourse representation. It also puts forward a tentative system "AZVD", and presents an associated software editor. The system is inspired by the regularities observed in spontaneous diagrams produced by some language users, in order to make it as adoptable as possible. Moreover, it is built upon the formal representation model AZee, so that any graphical instance produced by the system determines its own read-out form, to the point that they can be automatically synthesised by an avatar.
翻訳日:2023-06-27 13:10:31 公開日:2023-06-26
# 深層任意多項式カオスニューラルネットワーク、あるいは深層ニューラルネットワークがいかにデータ駆動型均質カオス理論の恩恵を受けるか

The Deep Arbitrary Polynomial Chaos Neural Network or how Deep Artificial Neural Networks could benefit from Data-Driven Homogeneous Chaos Theory ( http://arxiv.org/abs/2306.14753v1 )

ライセンス: Link先を確認
Sergey Oladyshkin, Timothy Praditia, Ilja Kr\"oker, Farid Mohammadi, Wolfgang Nowak, Sebastian Otte(参考訳) 人工知能と機械学習は、数学計算、物理モデリング、計算科学、通信科学、確率解析の様々な分野で広く使われている。 深層ニューラルネットワーク(dann)に基づくアプローチは、現代において非常に人気があります。 学習タスクに応じて、DANNの正確な形は、多層アーキテクチャ、アクティベーション関数、いわゆるロス関数によって決定される。 しかし、ダンに基づくほとんどのディープラーニングアプローチでは、ノード応答を神経活動の線形重ね合わせとして符号化する一方、非線形性は活性化関数によって引き起こされる神経信号処理の核構造は同じである。 本稿では, DANNにおけるニューラル信号処理を, 多項式カオス展開(PCE)から知られている同質カオス理論の観点から解析することを提案する。 PCEの観点からは、DANNの各ノード上の(線形)応答は、前の層からの単一ニューロンの1^{st}$次多変量多項式、すなわち単項の線形重み付き和として見ることができる。 この観点からすると、従来のDANN構造は暗黙的に(しかし誤って)神経信号のガウス分布に依存している。 さらに、この見解は、DANNの設計によって、ほとんどのデータ駆動アプリケーションの直交条件や直交条件を必ずしも満たさないことを示している。 したがって、DANNにおける神経信号の処理は、他の神経信号からの一部の情報を含むことができるため、冗長な表現につながる可能性がある。 この課題に取り組むために,任意多項式カオス(apc)として知られるpce理論のデータ駆動一般化を用いて,ダンの各ノードに対応する多変量正規直交表現を構築し,深い任意多項式カオスニューラルネットワークを得る。

Artificial Intelligence and Machine learning have been widely used in various fields of mathematical computing, physical modeling, computational science, communication science, and stochastic analysis. Approaches based on Deep Artificial Neural Networks (DANN) are very popular in our days. Depending on the learning task, the exact form of DANNs is determined via their multi-layer architecture, activation functions and the so-called loss function. However, for a majority of deep learning approaches based on DANNs, the kernel structure of neural signal processing remains the same, where the node response is encoded as a linear superposition of neural activity, while the non-linearity is triggered by the activation functions. In the current paper, we suggest to analyze the neural signal processing in DANNs from the point of view of homogeneous chaos theory as known from polynomial chaos expansion (PCE). From the PCE perspective, the (linear) response on each node of a DANN could be seen as a $1^{st}$ degree multi-variate polynomial of single neurons from the previous layer, i.e. linear weighted sum of monomials. From this point of view, the conventional DANN structure relies implicitly (but erroneously) on a Gaussian distribution of neural signals. Additionally, this view revels that by design DANNs do not necessarily fulfill any orthogonality or orthonormality condition for a majority of data-driven applications. Therefore, the prevailing handling of neural signals in DANNs could lead to redundant representation as any neural signal could contain some partial information from other neural signals. To tackle that challenge, we suggest to employ the data-driven generalization of PCE theory known as arbitrary polynomial chaos (aPC) to construct a corresponding multi-variate orthonormal representations on each node of a DANN to obtain Deep arbitrary polynomial chaos neural networks.
翻訳日:2023-06-27 13:09:13 公開日:2023-06-26
# MedLSAM:3D画像の局所化とセグメンテーションモデル

MedLSAM: Localize and Segment Anything Model for 3D Medical Images ( http://arxiv.org/abs/2306.14752v1 )

ライセンス: Link先を確認
Wenhui Lei, Xu Wei, Xiaofan Zhang, Kang Li, Shaoting Zhang(参考訳) Segment Anything Model (SAM)は画像セグメンテーションの分野で画期的なモデルとして最近登場した。 それでも、オリジナルのSAMとその医療適応はスライス・バイ・スライス・アノテーションを必要としており、データセットのサイズに応じてアノテーションのワークロードを直接増加させる。 この問題に対処するため,データセットのサイズに関わらず一定のアノテーション処理を確実にし,アノテーション処理を簡素化するMedLSAMを提案する。 本モデルでは,身体内の任意の解剖学的部位をローカライズ可能な,数発の局所化フレームワークを提案する。 そこで我々は, 相対距離回帰(RDR)とマルチスケール類似性(MSS)の2つの自己超越的タスクを, 14,012個のCTスキャンの包括的データセット全体にわたって利用した3次元医用画像の局所的任意のモデル(MedLAM)を開発した。 次に,MedLAMとSAMを統合することによって,正確なセグメンテーションの方法論を確立する。 テンプレートで3方向に6つの極端な点をアノテートすることで、アノテーションのためにスケジュールされた全てのデータに基づいて、ターゲットの解剖学的領域を自律的に特定できる。 これにより、画像のスライス毎に2Dバウンディングボックスを生成し、SAMによってセグメンテーションを実行することができます。 我々は,38臓器をカバーする2つの3Dデータセットを用いて実験を行い,MedLSAMがSAMとその医療適応のパフォーマンスと一致し,データセット全体の極端点アノテーションを必要としないことがわかった。 さらに、MedLAMは将来の3D SAMモデルとシームレスに統合され、性能向上への道を開く可能性がある。 私たちのコードは \href{https://github.com/openmedlab/MedLSAM}{https://github.com/openmedlab/MedLSAM} で公開されています。

The Segment Anything Model (SAM) has recently emerged as a groundbreaking model in the field of image segmentation. Nevertheless, both the original SAM and its medical adaptations necessitate slice-by-slice annotations, which directly increase the annotation workload with the size of the dataset. We propose MedLSAM to address this issue, ensuring a constant annotation workload irrespective of dataset size and thereby simplifying the annotation process. Our model introduces a few-shot localization framework capable of localizing any target anatomical part within the body. To achieve this, we develop a Localize Anything Model for 3D Medical Images (MedLAM), utilizing two self-supervision tasks: relative distance regression (RDR) and multi-scale similarity (MSS) across a comprehensive dataset of 14,012 CT scans. We then establish a methodology for accurate segmentation by integrating MedLAM with SAM. By annotating only six extreme points across three directions on a few templates, our model can autonomously identify the target anatomical region on all data scheduled for annotation. This allows our framework to generate a 2D bounding box for every slice of the image, which are then leveraged by SAM to carry out segmentations. We conducted experiments on two 3D datasets covering 38 organs and found that MedLSAM matches the performance of SAM and its medical adaptations while requiring only minimal extreme point annotations for the entire dataset. Furthermore, MedLAM has the potential to be seamlessly integrated with future 3D SAM models, paving the way for enhanced performance. Our code is public at \href{https://github.com/openmedlab/MedLSAM}{https://github.com/openmedlab/MedLSAM}.
翻訳日:2023-06-27 13:08:41 公開日:2023-06-26
# ドメイン適応点雲登録のための分別平均教師

A denoised Mean Teacher for domain adaptive point cloud registration ( http://arxiv.org/abs/2306.14749v1 )

ライセンス: Link先を確認
Alexander Bigalke, Mattias P. Heinrich(参考訳) ポイントクラウドベースの医療登録は、計算効率の向上、強度シフトへの堅牢性、匿名性保存を約束するが、類似度メトリクスによる教師なし学習の非効率性によって制限される。 合成変形に関する教師付きトレーニングは代替となるが、ドメインギャップと実際のドメインとの差に悩まされる。 本研究はドメイン適応によるこのギャップに取り組むことを目的としている。 平均教師との自己学習は、この問題に対する確立されたアプローチであるが、教師からの疑似ラベルの固有ノイズによって障害を受ける。 本稿では,2つの相補的デノベーション戦略を含む,ポイントクラウド登録のための教師・学生の認知パラダイムを提案する。 まず,教員登録と学生登録のチャンファー距離に基づいて疑似ラベルをフィルタリングし,教師による有害な監督を防止することを提案する。 第2に、教師は、予測変形で移動入力を歪ませることで、ノイズフリーラベルで新しいトレーニングペアを動的に合成する。 2つのドメインシフトの下で,公共PVTデータセット上の肺血管木の吸入吸入登録を行う。 我々の手法は平均教師を13.5/62.8%上回り、様々な競争相手を一貫して上回り、新しい最先端精度(TRE=2.31mm)を設定する。 コードはhttps://github.com/multimodallearning/denoized_mt_pcd_regで入手できる。

Point cloud-based medical registration promises increased computational efficiency, robustness to intensity shifts, and anonymity preservation but is limited by the inefficacy of unsupervised learning with similarity metrics. Supervised training on synthetic deformations is an alternative but, in turn, suffers from the domain gap to the real domain. In this work, we aim to tackle this gap through domain adaptation. Self-training with the Mean Teacher is an established approach to this problem but is impaired by the inherent noise of the pseudo labels from the teacher. As a remedy, we present a denoised teacher-student paradigm for point cloud registration, comprising two complementary denoising strategies. First, we propose to filter pseudo labels based on the Chamfer distances of teacher and student registrations, thus preventing detrimental supervision by the teacher. Second, we make the teacher dynamically synthesize novel training pairs with noise-free labels by warping its moving inputs with the predicted deformations. Evaluation is performed for inhale-to-exhale registration of lung vessel trees on the public PVT dataset under two domain shifts. Our method surpasses the baseline Mean Teacher by 13.5/62.8%, consistently outperforms diverse competitors, and sets a new state-of-the-art accuracy (TRE=2.31mm). Code is available at https://github.com/multimodallearning/denoised_mt_pcd_reg.
翻訳日:2023-06-27 13:08:10 公開日:2023-06-26
# 観測者の資源に対する量子ダーウィン依存の検証

Testing quantum Darwinism dependence on observers' resources ( http://arxiv.org/abs/2306.14745v1 )

ライセンス: Link先を確認
Alexandre Feller, Benjamin Roussel, Adrien Pontlevy, Pascal Degiovanni(参考訳) 客観的な古典図像の出現は、量子ダーウィン主義の中核的な問題である。 この再構築された古典図は、観測者が利用できる資源にどのように依存するか? 本報告では,伝送線路に分散的に結合した量子ビットの実験的モデルを開発し,信号処理技術を用いて,フラグメント分解と系を探索するために送信される放射線の種類を自由に選択できる場合に,創発的古典画像がどのように変化するかを理解する。 再建手順における相関の重要さと,対象とする古典的データにアクセスするために行うべき測定の種類を研究することの重要性を指摘する。

The emergence of an objective classical picture is the core question of quantum Darwinism. How does this reconstructed classical picture depends on the resources available to observers? In this Letter, we develop an experimentally relevant model of a qubit coupled dispersively to a transmission line and use time-frequency signal processing techniques to understand if and how the emergent classical picture is changed when we have the freedom to choose the fragment decomposition and the type of radiation sent to probe the system. We show the crucial role of correlations in the reconstruction procedure and point to the importance of studying the type of measurements that must be done to access an objective classical data.
翻訳日:2023-06-27 13:07:47 公開日:2023-06-26
# chipformer: オフライン決定変換による転送可能なチップ配置

ChiPFormer: Transferable Chip Placement via Offline Decision Transformer ( http://arxiv.org/abs/2306.14744v1 )

ライセンス: Link先を確認
Yao Lai, Jinxin Liu, Zhentao Tang, Bin Wang, Jianye Hao, Ping Luo(参考訳) 配置は現代のチップ設計において重要なステップであり、チップキャンバス上の回路モジュールの位置を決定することを目的としている。 近年の研究では、強化学習(RL)がチップ配置における人的性能を向上させることが示されている。 しかし、そのようなrlベースのアプローチは、半導体回路の長いトレーニング時間と低転送能力に苦しむ。 これらの課題を解決するため,チップ配置をオフラインRL定式化として,固定オフラインデータから転送可能な配置ポリシーを学習可能なChiPFormerを提案する。 ChiPFormerには、先行技術にはないいくつかの利点がある。 まず、ChiPFormerはオフライン配置設計を利用して、マルチタスク設定で転送可能なポリシーをより効率的に学習する。 第二に、ChiPFormerは目に見えないチップ回路の効率的な微調整を促進し、配置ランタイムを数時間から数分に短縮することができる。 第3に、32個のチップ回路に対する広範な実験により、ChiPFormerはランタイムを10倍に削減しながら配置品質を著しく向上することを示した。 deliverablesはhttps://sites.google.com/view/chipformer/homeでリリースされている。

Placement is a critical step in modern chip design, aiming to determine the positions of circuit modules on the chip canvas. Recent works have shown that reinforcement learning (RL) can improve human performance in chip placement. However, such an RL-based approach suffers from long training time and low transfer ability in unseen chip circuits. To resolve these challenges, we cast the chip placement as an offline RL formulation and present ChiPFormer that enables learning a transferable placement policy from fixed offline data. ChiPFormer has several advantages that prior arts do not have. First, ChiPFormer can exploit offline placement designs to learn transferable policies more efficiently in a multi-task setting. Second, ChiPFormer can promote effective finetuning for unseen chip circuits, reducing the placement runtime from hours to minutes. Third, extensive experiments on 32 chip circuits demonstrate that ChiPFormer achieves significantly better placement quality while reducing the runtime by 10x compared to recent state-of-the-art approaches in both public benchmarks and realistic industrial tasks. The deliverables are released at https://sites.google.com/view/chipformer/home.
翻訳日:2023-06-27 13:07:35 公開日:2023-06-26
# エンゲージメントの高いイベントにおけるオンラインソーシャルメディアインタラクションにおけるパターンの再帰

Recurring patterns in online social media interactions during highly engaging events ( http://arxiv.org/abs/2306.14735v1 )

ライセンス: Link先を確認
Antonio Desiderio, Anna Mancini, Giulio Cimini, Riccardo Di Clemente(参考訳) 現在、人々は、投稿、共有、議論など、さまざまな形式のインタラクションを使用して、オンライン空間で意見を表現している。 これらのデジタルトレースは、世界中の無数の出来事に対して人々が動的に反応する方法をキャプチャする。 Redditの会話の構造を広げることで、社会で起きているイベントが、未熟な議論パターンに対するユーザインタラクションや行動にどのように影響するかを説明する。 記事と下のコメントとして定義される会話は、その時間的および意味的な次元に沿って分析される。 会話で使われるペースや言語の変化は、様々な出来事において顕著な類似点を示す。 会話はより限定的な語彙で反復的になり、異なる意味構造を示し、特徴が高揚される。 イベントが近づくにつれて、会話で発生する変化はユーザのダイナミクスに反映される。 ユーザはよりアクティブになり、よりリッチな語彙と反復的なメッセージを使用しても、増え続けるオーディエンスと情報を交換します。 各ユーザの仲間は、よりセマンティックな空間を埋め、対話をシフトさせ、情報の交換を広げる。 私たちが発見したパターンは、複数のコンテキストにまたがって永続的であり、それによって人間の行動の指紋が表現され、オンラインソーシャルネットワークの相互作用のモデリングに影響を及ぼす可能性がある。

People nowadays express their opinions in online spaces, using different forms of interactions such as posting, sharing and discussing with one another. These digital traces allow to capture how people dynamically react to the myriad of events occurring in the world. By unfolding the structure of Reddit conversations, we describe how highly engaging events happening in the society affect user interactions and behaviour with respect to unperturbed discussion patterns. Conversations, defined as a post and the comments underneath, are analysed along their temporal and semantic dimensions. We disclose that changes in the pace and language used in conversations exhibit notable similarities across diverse events. Conversations tend to become repetitive with a more limited vocabulary, display different semantic structures and feature heightened emotions. As the event approaches, the shifts occurring in conversations are reflected in the users' dynamics. Users become more active and they exchange information with a growing audience, despite using a less rich vocabulary and repetitive messages. The peers of each user fill up more semantic space, shifting the dialogue and widening the exchange of information. The recurring patterns we discovered are persistent across several contexts, thus represent a fingerprint of human behavior, which could impact the modeling of online social networks interactions.
翻訳日:2023-06-27 13:07:17 公開日:2023-06-26
# モジュラーハミルトン進化のクリロフ複雑性

Krylov complexity of modular Hamiltonian evolution ( http://arxiv.org/abs/2306.14732v1 )

ライセンス: Link先を確認
Pawel Caputa, Javier M. Magan, Dimitrios Patramanis, Erik Tonni(参考訳) モジュラーハミルトニアンで進化した状態と作用素の複雑性をクリロフ基底を用いて検討する。 第一部では、状態に関する問題を定式化し、量子力学、二次元共形場理論、ランダムモジュラーハミルトニアンなど様々な例を分析し、絡み合いスペクトルとの関係に焦点を当てる。 モジュラーランツォススペクトルは量子エンタングルメントに対して異なるアプローチを提供し、多体系やホログラフィーにおいて新たな道を開く。 第2部では、2次元共形場理論における局所作用素によって励起される作用素と状態のモジュラー進化に焦点を当てる。 モジュラー時間の遅い段階では、拡散複雑性はモジュラー lyapunov exponent $\lambda^{mod}_l=2\pi$ によって普遍的に制御され、モジュラーハミルトニアンの局所温度に比例する。 我々の分析は、絡み合いのエントロピーが十分でないという明確な例を提供するが、絡み合いのスペクトルは複雑度と同じ情報をエンコードする。

We investigate the complexity of states and operators evolved with the modular Hamiltonian by using the Krylov basis. In the first part, we formulate the problem for states and analyse different examples, including quantum mechanics, two-dimensional conformal field theories and random modular Hamiltonians, focusing on relations with the entanglement spectrum. We find that the modular Lanczos spectrum provides a different approach to quantum entanglement, opening new avenues in many-body systems and holography. In the second part, we focus on the modular evolution of operators and states excited by local operators in two-dimensional conformal field theories. We find that, at late modular time, the spread complexity is universally governed by the modular Lyapunov exponent $\lambda^{mod}_L=2\pi$ and is proportional to the local temperature of the modular Hamiltonian. Our analysis provides explicit examples where entanglement entropy is indeed not enough, however the entanglement spectrum is, and encodes the same information as complexity.
翻訳日:2023-06-27 13:06:57 公開日:2023-06-26
# 円偏波マイクロ波場形成のための平面クローバーリーフアンテナ

A planar cloverleaf antenna for the creation of circularly polarized microwave fields ( http://arxiv.org/abs/2306.14791v1 )

ライセンス: Link先を確認
Weijun Yuan, Siwei Zhang, Niccol\`o Bigagli, Claire Warner, Ian Stevenson, Sebastian Will(参考訳) 原子・分子物理実験のための小型マイクロ波アンテナの設計と特性について報告する。 アンテナは、4つのループアンテナをクローバリーフ状に配置し、ループの相対位相を調整して偏光の正確な調整を可能にする。 我々は、アンテナを3.5ghzの偏光マイクロ波に最適化し、超低温nacs分子を精密量子センサとして用いた。 異常に高いRabi周波数の46$MHzを観測し、アンテナから22mmの距離で33(2)V/cmの電界振幅を抽出する。 偏光楕円性は2.3(4)度であり、24dBの直交偏光抑制に対応する。 クローバーリーフアンテナは平面的であり、大きな光アクセスを提供し、原子や分子の量子制御やマイクロ波領域で動く他の量子システムに適している。

We report on the design and characterization of a compact microwave antenna for atomic and molecular physics experiments. The antenna is comprised of four loop antennas arranged in cloverleaf shape, allowing for precise adjustment of polarization by tuning the relative phase of the loops. We optimize the antenna for left-circularly polarized microwaves at 3.5 GHz and characterize its performance using ultracold NaCs molecules as a precise quantum sensor. Observing an unusually high Rabi frequency of $2\pi \times 46$ MHz, we extract an electric field amplitude of 33(2) V/cm at 22 mm distance from the antenna. The polarization ellipticity is 2.3(4) degrees, corresponding to a 24 dB suppression of right-circular polarization. The cloverleaf antenna is planar and provides large optical access, making it highly suitable for quantum control of atoms and molecules, and potentially other quantum systems that operate in the microwave regime.
翻訳日:2023-06-27 12:58:55 公開日:2023-06-26
# TransDisを用いた中国語の多様性思考の自動評価:トランスフォーマーに基づく言語モデルアプローチ

Automatic Assessment of Divergent Thinking in Chinese Language with TransDis: A Transformer-Based Language Model Approach ( http://arxiv.org/abs/2306.14790v1 )

ライセンス: Link先を確認
Tianchen Yang, Qifan Zhang, Zhaoyang Sun, and Yubo Hou(参考訳) 言語モデルは、創造的思考の質を客観的に測定するために意味的距離を生成する自動創造性評価にますます人気がある。 しかし、現在中国語における創造的アイデアを評価するための自動評価システムが欠落している。 このギャップに対処するためにtransdisを開発した。transdisはトランスフォーマーベースの言語モデルを使用したスコアリングシステムで、中国語の代替用途タスク(aut)応答に対して、正当な独自性(品質)と柔軟性(多様性)を提供する。 研究1では、3つのトランスフォーマーモデルからなる潜在モデル評価原性因子が、人間の原性評価を強く予測し、モデル評価原性因子が人間の柔軟性評価と強く相関することを示した。 基準妥当性分析の結果、モデル評価の独創性と柔軟性は他の創造性指標と正の相関を示し、人間の評価に類似した妥当性を示した。 研究2と3では、トランスディスは創造的対共通利用(study 2)を効果的に指示し、参加者は柔軟な対永続的な方法でアイデアを生み出すように指示した(study 3)。 以上の結果から,transdisは中国語におけるアイデアの独創性と柔軟性を測定するための信頼性と低コストのツールであり,他の言語における自動創造性評価への道を開く可能性を示唆する。 私たちは、中国語や他の50以上の言語(https://osf.io/59jv2/)でAUTレスポンスの独創性と柔軟性を計算するオープンプラットフォームを提供しています。

Language models have been increasingly popular for automatic creativity assessment, generating semantic distances to objectively measure the quality of creative ideas. However, there is currently a lack of an automatic assessment system for evaluating creative ideas in the Chinese language. To address this gap, we developed TransDis, a scoring system using transformer-based language models, capable of providing valid originality (quality) and flexibility (variety) scores for Alternative Uses Task (AUT) responses in Chinese. Study 1 demonstrated that the latent model-rated originality factor, comprised of three transformer-based models, strongly predicted human originality ratings, and the model-rated flexibility strongly correlated with human flexibility ratings as well. Criterion validity analyses indicated that model-rated originality and flexibility positively correlated to other creativity measures, demonstrating similar validity to human ratings. Study 2 & 3 showed that TransDis effectively distinguished participants instructed to provide creative vs. common uses (Study 2) and participants instructed to generate ideas in a flexible vs. persistent way (Study 3). Our findings suggest that TransDis can be a reliable and low-cost tool for measuring idea originality and flexibility in Chinese language, potentially paving the way for automatic creativity assessment in other languages. We offer an open platform to compute originality and flexibility for AUT responses in Chinese and over 50 other languages (https://osf.io/59jv2/).
翻訳日:2023-06-27 12:58:28 公開日:2023-06-26
# 産業用バーナー火炎のセグメンテーション:伝統的な画像処理から機械学習とディープラーニングとの比較研究

Segmentation of Industrial Burner Flames: A Comparative Study from Traditional Image Processing to Machine and Deep Learning ( http://arxiv.org/abs/2306.14789v1 )

ライセンス: Link先を確認
Steven Landgraf, Markus Hillemann, Moritz Aberle, Valentin Jung, Markus Ulrich(参考訳) 発電、化学製造、廃棄物管理といった多くの産業プロセスにおいて、安全かつ効率的な運転には工業用バーナー火炎特性を正確にモニタリングすることが不可欠である。 重要なステップは、二分セグメンテーションを通じて火炎を背景から分離することである。 マシンビジョン研究の数十年は、従来の画像処理から従来の機械学習や現代のディープラーニング手法まで、幅広い可能なソリューションを生み出してきた。 本研究では,複数のセグメンテーション手法(グローバルしきい値,領域成長,サポートベクターマシン,ランダムフォレスト,多層パーセプトロン,u-net,deeplabv3+)の比較研究を行い,産業用バーナ火炎に関するベンチマークデータセットを用いて評価した。 我々は,産業用バーナ火炎を二分する適切な方法を選択することを目的とした研究者や実践者に有用な洞察とガイダンスを提供する。 高い精度では、ディープラーニングが主要なアプローチであるが、高速でシンプルなソリューションでは、従来の画像処理技術が引き続き有効な選択肢である。

In many industrial processes, such as power generation, chemical production, and waste management, accurately monitoring industrial burner flame characteristics is crucial for safe and efficient operation. A key step involves separating the flames from the background through binary segmentation. Decades of machine vision research have produced a wide range of possible solutions, from traditional image processing to traditional machine learning and modern deep learning methods. In this work, we present a comparative study of multiple segmentation approaches, namely Global Thresholding, Region Growing, Support Vector Machines, Random Forest, Multilayer Perceptron, U-Net, and DeepLabV3+, that are evaluated on a public benchmark dataset of industrial burner flames. We provide helpful insights and guidance for researchers and practitioners aiming to select an appropriate approach for the binary segmentation of industrial burner flames and beyond. For the highest accuracy, deep learning is the leading approach, while for fast and simple solutions, traditional image processing techniques remain a viable option.
翻訳日:2023-06-27 12:58:02 公開日:2023-06-26
# 行列生成状態を用いた生成モデルの分散事前学習

Distributive Pre-Training of Generative Modeling Using Matrix-Product States ( http://arxiv.org/abs/2306.14787v1 )

ライセンス: Link先を確認
Sheng-Hsuan Lin, Olivier Kuijpers, Sebastian Peterhansl, and Frank Pollmann(参考訳) テンソルネットワークは、教師なし学習と教師なし学習の両方に機械学習の応用を見出した。 これらのモデルを訓練する最も一般的なアプローチは勾配降下法である。 本研究では,基本的なテンソルネットワーク操作,例えば和と圧縮を利用した代替トレーニング手法を検討する。 トレーニングアルゴリズムは、製品状態表現におけるすべてのトレーニングデータから構築された重ね合わせ状態を圧縮する。 アルゴリズムは簡単に並列化でき、データセットを一度だけ反復できる。 したがって、事前学習アルゴリズムとして機能する。 MNISTデータセット上でアルゴリズムをベンチマークし、新しい画像と分類タスクを生成するための妥当な結果を示す。 さらに,このアルゴリズムを,入力データの確率振幅に対する圧縮量子カーネル密度推定として解釈する。

Tensor networks have recently found applications in machine learning for both supervised learning and unsupervised learning. The most common approaches for training these models are gradient descent methods. In this work, we consider an alternative training scheme utilizing basic tensor network operations, e.g., summation and compression. The training algorithm is based on compressing the superposition state constructed from all the training data in product state representation. The algorithm could be parallelized easily and only iterates through the dataset once. Hence, it serves as a pre-training algorithm. We benchmark the algorithm on the MNIST dataset and show reasonable results for generating new images and classification tasks. Furthermore, we provide an interpretation of the algorithm as a compressed quantum kernel density estimation for the probability amplitude of input data.
翻訳日:2023-06-27 12:57:42 公開日:2023-06-26
# INDEXITY:医療ビデオアノテーションのためのウェブベースの協調ツール

INDEXITY: a web-based collaborative tool for medical video annotation ( http://arxiv.org/abs/2306.14780v1 )

ライセンス: Link先を確認
Jean-Paul Mazellier, M\'eline Bour-Lang, Sabrina Bourouis, Johan Moreau, Aimable Muzuri, Olivier Schweitzer, Aslan Vatsaev, Julien Waechter, Emilie Wernert, Frederic Woelffel, Alexandre Hostettler, Nicolas Padoy, Flavien Bridault(参考訳) indexity 1.4.0は外科データサイエンスプロジェクトでの医用ビデオアノテーション用に設計されたwebベースのツールである。 我々は,ビデオ,アノテーション,オントロジ,ユーザ,およびグローバルソフトウェアアーキテクチャの管理に利用可能な主な機能について説明する。

This technical report presents Indexity 1.4.0, a web-based tool designed for medical video annotation in surgical data science projects. We describe the main features available for the management of videos, annotations, ontology and users, as well as the global software architecture.
翻訳日:2023-06-27 12:57:16 公開日:2023-06-26
# 連続学習のためのパラメータレベルソフトマスキング

Parameter-Level Soft-Masking for Continual Learning ( http://arxiv.org/abs/2306.14775v1 )

ライセンス: Link先を確認
Tatsuya Konishi, Mori Kurokawa, Chihiro Ono, Zixuan Ke, Gyuhak Kim, Bing Liu(参考訳) 継続学習におけるタスクインクリメンタルラーニングの研究は、主に破滅的忘れ(CF)を防ぐことに焦点を当てている。 CFを使わずに学習できる技術はいくつかあるが、各タスクが共有ネットワーク内のサブネットワークを独占させることで、知識伝達(KT)を著しく制限し、ネットワーク容量の過剰消費、すなわちより多くのタスクが学習されると性能が低下する。 本論文の目的は,1)CFを克服し,(2)KTを奨励し,(3)キャパシティ問題に取り組むことである。 従来のタスクに対する各パラメータの重要性に基づいて,ソフトマスク(一部ブロック)パラメータをトレーニング中に更新する手法が提案されている。 各タスクは依然として全ネットワーク、すなわち任意のタスクによるネットワークの任意の部分の独占は使用せず、最大KTと容量使用量の削減を可能にする。 私たちの知る限り、これは連続学習のパラメータレベルでモデルをソフトマスクする最初の仕事です。 大規模な実験は、SPGが3つの目的を全て達成する効果を実証している。 より注目すべきは、cfを緩和しながら、類似のタスク(共有の知識を含む)だけでなく、類似のタスク(共有の知識を持つ)の間でも、相当な知識の移動を実現していることです。

Existing research on task incremental learning in continual learning has primarily focused on preventing catastrophic forgetting (CF). Although several techniques have achieved learning with no CF, they attain it by letting each task monopolize a sub-network in a shared network, which seriously limits knowledge transfer (KT) and causes over-consumption of the network capacity, i.e., as more tasks are learned, the performance deteriorates. The goal of this paper is threefold: (1) overcoming CF, (2) encouraging KT, and (3) tackling the capacity problem. A novel technique (called SPG) is proposed that soft-masks (partially blocks) parameter updating in training based on the importance of each parameter to old tasks. Each task still uses the full network, i.e., no monopoly of any part of the network by any task, which enables maximum KT and reduction in capacity usage. To our knowledge, this is the first work that soft-masks a model at the parameter-level for continual learning. Extensive experiments demonstrate the effectiveness of SPG in achieving all three objectives. More notably, it attains significant transfer of knowledge not only among similar tasks (with shared knowledge) but also among dissimilar tasks (with little shared knowledge) while mitigating CF.
翻訳日:2023-06-27 12:57:12 公開日:2023-06-26
# ProtoDiff: タスクガイド拡散によるプロトタイプネットワークの学習

ProtoDiff: Learning to Learn Prototypical Networks by Task-Guided Diffusion ( http://arxiv.org/abs/2306.14770v1 )

ライセンス: Link先を確認
Yingjun Du, Zehao Xiao, Shengcai Liao, Cees Snoek(参考訳) プロトタイプベースのメタラーニングは、数少ない学習課題に対処する強力なテクニックとして登場した。 しかし、限られた例から単純な平均関数を用いて決定論的プロトタイプを推定することは脆弱なプロセスである。 この制限を克服するために,メタトレーニングフェーズ中にタスク誘導拡散モデルを活用する新しいフレームワークであるProtoDiffを導入し,プロトタイプを段階的に生成し,効率的なクラス表現を提供する。 具体的には、タスク毎のプロトタイプのオーバーフィットを達成するために一連のプロトタイプが最適化され、個々のタスクにオーバーフィットしたプロトタイプを正確に得ることができる。 さらに,プロトタイプ空間内にタスク誘導拡散プロセスを導入することで,バニラプロトタイプから過剰に適合したプロトタイプへ遷移する生成過程のメタラーニングを可能にする。 ProtoDiffは、メタテスト段階でランダムノイズからタスク固有のプロトタイプを徐々に生成し、新しいタスクで利用可能な限られたサンプルに条件付けする。 さらに,訓練の迅速化とProtoDiffの性能向上を図るため,残余プロトタイプの空間性を活用した残余プロトタイプ学習を提案する。 我々は,基礎となるプロトタイプ分布を正確に把握し,一般化を促進する能力を示すため,徹底的なアブレーション研究を行う。 ドメイン内、クロスドメイン、および少数タスクの少数ショット分類における新しい最先端のパフォーマンスは、ProtoDiffのメリットをさらに裏付けるものだ。

Prototype-based meta-learning has emerged as a powerful technique for addressing few-shot learning challenges. However, estimating a deterministic prototype using a simple average function from a limited number of examples remains a fragile process. To overcome this limitation, we introduce ProtoDiff, a novel framework that leverages a task-guided diffusion model during the meta-training phase to gradually generate prototypes, thereby providing efficient class representations. Specifically, a set of prototypes is optimized to achieve per-task prototype overfitting, enabling accurately obtaining the overfitted prototypes for individual tasks. Furthermore, we introduce a task-guided diffusion process within the prototype space, enabling the meta-learning of a generative process that transitions from a vanilla prototype to an overfitted prototype. ProtoDiff gradually generates task-specific prototypes from random noise during the meta-test stage, conditioned on the limited samples available for the new task. Furthermore, to expedite training and enhance ProtoDiff's performance, we propose the utilization of residual prototype learning, which leverages the sparsity of the residual prototype. We conduct thorough ablation studies to demonstrate its ability to accurately capture the underlying prototype distribution and enhance generalization. The new state-of-the-art performance on within-domain, cross-domain, and few-task few-shot classification further substantiates the benefit of ProtoDiff.
翻訳日:2023-06-27 12:56:49 公開日:2023-06-26
# 相互作用系における非エルミートキラル異常

Non-Hermitian chiral anomalies in interacting systems ( http://arxiv.org/abs/2306.14766v1 )

ライセンス: Link先を確認
Sharareh Sayyad(参考訳) カイラル異常の出現は、(非)エルミート物理学の異なる分野における異常量子ホール効果やカイラル磁気効果など、様々な興味深い現象を伴っている。 単一粒子図では、異常電流は質量のない粒子と背景場とのカップリングによってのみ現れるが、多体相互作用は相互作用系の異常輸送にも寄与する。 この手紙では、複素フェルミ速度と相互作用する質量を持たないフェルミオンを複素ゲージ場に結合する系の異常なカイラル電流について研究する。 以上の結果から,非エルミーティ性と多体相互作用を組み込むことで,エルミート系以外の異常な関係に新たな用語が現れることが明らかとなった。 さらに、その後の非エルミートカイラル磁場や異常ホール効果における多体補正は、非平衡系や不均一系では不要であることを示す。 その結果,非エルミート系における異常輸送の理解への取り組みが進展した。

The emergence of chiral anomaly entails various fascinating phenomena such as anomalous quantum Hall effect and chiral magnetic effect in different branches of (non-)Hermitian physics. While in the single-particle picture, anomalous currents merely appear due to the coupling of massless particles with background fields, many-body interactions can also be responsible for anomalous transport in interacting systems. In this Letter, we study anomalous chiral currents in systems where interacting massless fermions with complex Fermi velocities are coupled to complex gauge fields. Our results reveal that incorporating non-Hermiticity and many-body interactions gives rise to additional terms in anomalous relations beyond their Hermitian counterparts. We further present that many-body corrections in the subsequent non-Hermitian chiral magnetic field or anomalous Hall effect are nonvanishing in nonequilibrium or inhomogeneous systems. Our results advance efforts in understanding the anomalous transport in interacting non-Hermitian systems.
翻訳日:2023-06-27 12:56:26 公開日:2023-06-26
# インド大統領選挙中の政治的ヘイトスピーチ: 新たな低リソースデータセットとベースライン

Uncovering Political Hate Speech During Indian Election Campaign: A New Low-Resource Dataset and Baselines ( http://arxiv.org/abs/2306.14764v1 )

ライセンス: Link先を確認
Farhan Ahmad Jafri, Mohammad Aman Siddiqui, Surendrabikram Thapa, Kritesh Rauniyar, Usman Naseem, Imran Razzak(参考訳) 政治的談話におけるヘイトスピーチの検出は重要な問題であり、低リソース言語ではさらに困難になる。 この問題に対処するために,2021年11月1日から2022年3月9日までのインド議会選挙キャンペーンに関連するヒンディー語ツイート11,457件を含むiehateという新しいデータセットを紹介する。 本研究では,政治コミュニケーションにおけるヘイトスピーチの頻度と,使用するヘイトフル言語の種類に着目し,データセットの詳細な分析を行った。 さらに,機械学習,ディープラーニング,トランスフォーマーベースのアルゴリズムを用いて,データセットのベンチマークを行う。 実験の結果,これらのモデルの性能はさらに向上し,低リソース言語におけるヘイトスピーチ検出のためのより高度な技術の必要性を浮き彫りにした。 特に、アルゴリズムに対する人間評価の相対的に高いスコアは、効果的なヘイトスピーチモデレーションのために人間と自動化の両方のアプローチを活用することの重要性を強調している。 私たちのiehateデータセットは、低リソース言語におけるヘイトスピーチ検出技術の開発と評価に取り組んでいる研究者や実践者にとって貴重なリソースとなり得る。 我々の研究は、政治談話におけるヘイトスピーチの特定と緩和の課題、特に低リソース言語における課題に対処することの重要性を強調している。 この作業のデータセットとリソースはhttps://github.com/Farhan-jafri/Indian-Election.comで公開されている。

The detection of hate speech in political discourse is a critical issue, and this becomes even more challenging in low-resource languages. To address this issue, we introduce a new dataset named IEHate, which contains 11,457 manually annotated Hindi tweets related to the Indian Assembly Election Campaign from November 1, 2021, to March 9, 2022. We performed a detailed analysis of the dataset, focusing on the prevalence of hate speech in political communication and the different forms of hateful language used. Additionally, we benchmark the dataset using a range of machine learning, deep learning, and transformer-based algorithms. Our experiments reveal that the performance of these models can be further improved, highlighting the need for more advanced techniques for hate speech detection in low-resource languages. In particular, the relatively higher score of human evaluation over algorithms emphasizes the importance of utilizing both human and automated approaches for effective hate speech moderation. Our IEHate dataset can serve as a valuable resource for researchers and practitioners working on developing and evaluating hate speech detection techniques in low-resource languages. Overall, our work underscores the importance of addressing the challenges of identifying and mitigating hate speech in political discourse, particularly in the context of low-resource languages. The dataset and resources for this work are made available at https://github.com/Farhan-jafri/Indian-Election.
翻訳日:2023-06-27 12:56:10 公開日:2023-06-26
# ニオブ酸リチウムソー共振器の表面改質とコヒーレンス

Surface Modification and Coherence in Lithium Niobate SAW Resonators ( http://arxiv.org/abs/2306.14813v1 )

ライセンス: Link先を確認
Rachel G. Gruenke, Oliver A. Hitchcock, E. Alex Wollack, Christopher J. Sarabalis, Marc Jankowski, Timothy P. McKenna, Nathan R. Lee, Amir H. Safavi-Naeini(参考訳) ニオブ酸リチウムは、強い圧電効果と高品質の結晶性薄膜の形で利用できるため、量子音響技術を開発する上で有望な材料である。 しかし、電波周波数と低温では、これらの共振器は2レベルシステムによるデコヒーレンスやデフォーカスの存在によって制限される。 これらの損失を軽減し、デバイス性能を向上させるためには、これらの損失チャネルの顕微鏡的性質をより詳細に示す必要がある。 本研究では,数個のニオブ酸リチウム音響共振器を作製し,その表面を改質するための異なる処理工程を適用する。 これらの処理にはアルゴンイオンスパッタリング、アニール、酸浄化が含まれる。 低温マイクロ波分光法を用いて, メカニクス, X線光電子分光法, 原子間力顕微鏡によるTLSの密度と結合の測定を行った。 これらの研究から、驚くべきことにTLS密度の増加は、後者の2つのアプローチによって調査された表面品質の明らかな改善を伴う可能性があることが分かる。 本研究は, 表面および加工技術が音響共振器コヒーレンスの変化に果たす重要性を概説し, 理解のギャップとそれに対処するためのアプローチを提案する。

Lithium niobate is a promising material for developing quantum acoustic technologies due to its strong piezoelectric effect and availability in the form of crystalline thin films of high quality. However, at radio frequencies and cryogenic temperatures, these resonators are limited by the presence of decoherence and dephasing due to two-level systems. To mitigate these losses and increase device performance, a more detailed picture of the microscopic nature of these loss channels is needed. In this study, we fabricate several lithium niobate acoustic wave resonators and apply different processing steps that modify their surfaces. These treatments include argon ion sputtering, annealing, and acid cleans. We characterize the effects of these treatments using three surface-sensitive measurements: cryogenic microwave spectroscopy measuring density and coupling of TLS to mechanics, x-ray photoelectron spectroscopy and atomic force microscopy. We learn from these studies that, surprisingly, increases of TLS density may accompany apparent improvements in the surface quality as probed by the latter two approaches. Our work outlines the importance that surfaces and fabrication techniques play in altering acoustic resonator coherence, and suggests gaps in our understanding as well as approaches to address them.
翻訳日:2023-06-27 12:50:01 公開日:2023-06-26
# movee:seg-labelフリー設定でナビゲーションを改善した移動型lidarシーンセグメンテーション

MOVESe: MOVablE and Moving LiDAR Scene Segmentation with Improved Navigation in Seg-label free settings ( http://arxiv.org/abs/2306.14812v1 )

ライセンス: Link先を確認
Prashant Kumar, Onkar Susladkar, Dhruv Makwana, Anurag Mittal, Prem Kumar Kalra(参考訳) LiDARにおける移動物体の正確な検出はナビゲーションにとって極めて重要である。 既存の作品のほとんどは、ナビゲーション中に動くオブジェクトの抽出と削除に焦点を当てている。 歩行者、駐車中の車両などの移動可能な物体は、将来的には移動することができる。 これは誤った航法や事故につながる。 このような場合、潜在的に可動な物体を検出する必要がある。 そこで,本研究では,動画像の静的部分を生成することにより,動画像と動画像のセグメント化を行う学習ベースの手法を提案する。 本モデルは3つのデータセットを用いた静的LiDAR再構成における既存のベースラインよりも優れている。 このようなラベルは、産業環境のようなあまり人気がなく重要な設定では必ずしも利用できないため、セグメンテーションラベルの助けなしに実現しています。 本モデルで生成したシーンの非移動可能な静的部分は,slamの下流ナビゲーションにおいて極めて重要である。 このモデルによって検出された移動物体は下流の3d検出器に供給され、ナビゲーションを支援する。 セグメンテーションは使用していないが、SLAMの動的オブジェクトを除去するために使用するナビゲーションベースラインに対して評価を行う。 いくつかのデータセットに関する広範囲な実験を通じて、我々のモデルがナビゲーションのベースラインを超えることを示した。

Accurate detection of movable and moving objects in LiDAR is of vital importance for navigation. Most existing works focus on extracting and removing moving objects during navigation. Movable objects like pedestrians, parked vehicles, etc. although static may move in the future. This leads to erroneous navigation and accidents. In such cases, it becomes necessary to detect potentially movable objects. To this end, we present a learning-based approach that segments movable and moving objects by generating static parts of scenes that are otherwise occluded. Our model performs superior to existing baselines on static LiDAR reconstructions using 3 datasets including a challenging sparse industrial dataset. We achieve this without the assistance of any segmentation labels because such labels might not always be available for less popular yet important settings like industrial environments. The non-movable static parts of the scene generated by our model are of vital importance for downstream navigation for SLAM. The movable objects detected by our model can be fed to a downstream 3D detector for aiding navigation. Though we do not use segmentation, we evaluate our method against navigation baselines that use it to remove dynamic objects for SLAM. Through extensive experiments on several datasets, we showcase that our model surpasses these baselines on navigation.
翻訳日:2023-06-27 12:49:43 公開日:2023-06-26
# 野生におけるRGB画像からのロバスト風車ブレード分割

Robust Wind Turbine Blade Segmentation from RGB Images in the Wild ( http://arxiv.org/abs/2306.14810v1 )

ライセンス: Link先を確認
Ra\"ul P\'erez-Gonzalo, Andreas Espersen, Antonio Agudo(参考訳) 風力産業の絶え間ない成長により、風力タービンのメンテナンスのための自動データ駆動ソリューションを設計する必要がある。 構造的健康モニタリングは主に視覚検査に依存しているため、任意の自動解法の最初の段階は、画像上のブレード領域を特定することである。 そこで我々は, 連続正規化項で焦点損失をプールする, 調整された損失によりU-Net結果を強化する新しいセグメンテーションアルゴリズムを提案する。 最上位結果を得るために,信頼性,汎用性,堅牢性,効率的なアルゴリズムを実現するための追加ステップが提案されている。 まず、一時分類されたブレードピクセルと画像境界で囲まれた穴を埋めることにより、画像に関するこれまでの知識を活用する。 その後、オンザフライランダムフォレストを訓練することにより、ミスリード分類画素の修正に成功した。 このアルゴリズムは、その効果を97.39%の精度で示している。

With the relentless growth of the wind industry, there is an imperious need to design automatic data-driven solutions for wind turbine maintenance. As structural health monitoring mainly relies on visual inspections, the first stage in any automatic solution is to identify the blade region on the image. Thus, we propose a novel segmentation algorithm that strengthens the U-Net results by a tailored loss, which pools the focal loss with a contiguity regularization term. To attain top performing results, a set of additional steps are proposed to ensure a reliable, generic, robust and efficient algorithm. First, we leverage our prior knowledge on the images by filling the holes enclosed by temporarily-classified blade pixels and by the image boundaries. Subsequently, the mislead classified pixels are successfully amended by training an on-the-fly random forest. Our algorithm demonstrates its effectiveness reaching a non-trivial 97.39% of accuracy.
翻訳日:2023-06-27 12:49:27 公開日:2023-06-26
# スケーラブルな分子機械学習のためのTanimoto Random機能

Tanimoto Random Features for Scalable Molecular Machine Learning ( http://arxiv.org/abs/2306.14809v1 )

ライセンス: Link先を確認
Austin Tripp, Sergio Bacallado, Sukriti Singh, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 谷本係数は、離散指紋として表される分子間の類似度を距離メートル法または正定核として測定するために一般的に用いられる。 多くのカーネル法はランダムな特徴近似を用いて加速できるが、現在、谷本核にはそのような近似が欠如している。 本稿では,このカーネルを大規模データセットにスケール可能な2種類の新しいランダムな特徴を提案し,その過程で実ベクトルへのカーネルの新たな拡張を発見する。 我々はこれらのランダムな特徴を理論的に特徴づけ、グラム行列のスペクトルノルムに誤差境界を与える。 本研究で提案するランダムな特徴は実世界のデータセットにおける谷本係数の近似に有効であり,本研究で探索されたカーネルは分子特性予測や最適化タスクに有用であることを示す。

The Tanimoto coefficient is commonly used to measure the similarity between molecules represented as discrete fingerprints, either as a distance metric or a positive definite kernel. While many kernel methods can be accelerated using random feature approximations, at present there is a lack of such approximations for the Tanimoto kernel. In this paper we propose two kinds of novel random features to allow this kernel to scale to large datasets, and in the process discover a novel extension of the kernel to real vectors. We theoretically characterize these random features, and provide error bounds on the spectral norm of the Gram matrix. Experimentally, we show that the random features proposed in this work are effective at approximating the Tanimoto coefficient in real-world datasets and that the kernels explored in this work are useful for molecular property prediction and optimization tasks.
翻訳日:2023-06-27 12:49:13 公開日:2023-06-26
# 前者表現と後続表現を用いた最大状態エントロピー探索

Maximum State Entropy Exploration using Predecessor and Successor Representations ( http://arxiv.org/abs/2306.14808v1 )

ライセンス: Link先を確認
Arnav Kumar Jain, Lucas Lehnert, Irina Rish, Glen Berseth(参考訳) 動物の探索能力は発達しており、食料の配置、避難所の探索、場所のずれなどの重要な作業に役立っている。 これらの探索スキルは必ずしも彼らがどこにいたか追跡するので、相対的に効率の良いアイテムを見つける計画を立てられる。 現代の探索アルゴリズムは、現在の状態のみを条件とするか、単にランダムな開ループ探索操作に依存するため、効率の悪い探索戦略を学ぶことが多い。 そこで本研究では,過去の叙述的経験を条件づけて効率的な探索政策を学習し,次の探索行動を行う手法である$\eta\psi$-Learningを提案する。 具体的には、$\eta\psi$-Learningは、単一の軌跡の状態訪問分布のエントロピーを最大化する探索ポリシーを学ぶ。 さらに、前者表現と後継表現の変形を組み合わせることで、状態の訪問エントロピーを予測する方法を示す。 実験では,環境を戦略的に探索し,限られたサンプルで状態カバレッジを最大化するために,$\eta\psi$-learningの有効性を実証した。

Animals have a developed ability to explore that aids them in important tasks such as locating food, exploring for shelter, and finding misplaced items. These exploration skills necessarily track where they have been so that they can plan for finding items with relative efficiency. Contemporary exploration algorithms often learn a less efficient exploration strategy because they either condition only on the current state or simply rely on making random open-loop exploratory moves. In this work, we propose $\eta\psi$-Learning, a method to learn efficient exploratory policies by conditioning on past episodic experience to make the next exploratory move. Specifically, $\eta\psi$-Learning learns an exploration policy that maximizes the entropy of the state visitation distribution of a single trajectory. Furthermore, we demonstrate how variants of the predecessor representation and successor representations can be combined to predict the state visitation entropy. Our experiments demonstrate the efficacy of $\eta\psi$-Learning to strategically explore the environment and maximize the state coverage with limited samples.
翻訳日:2023-06-27 12:48:59 公開日:2023-06-26
# 不完全ラベリングを用いた文書レベル関係抽出のための正非ラベル付きメトリクス学習フレームワーク

A Positive-Unlabeled Metric Learning Framework for Document-Level Relation Extraction with Incomplete Labeling ( http://arxiv.org/abs/2306.14806v1 )

ライセンス: Link先を確認
Ye Wang, Huazheng Pan, Tao Zhang, Wen Wu, Wenxin Hu(参考訳) 文書レベルの関係抽出(RE)の目的は、複数の文にまたがるエンティティ間の関係を特定することである。 近年,文書レベルのreにおける不完全ラベリングが注目され,この問題に対してポジティブラベル学習などの手法が用いられている研究もあるが,改善の余地は多い。 そこで我々は,P3M(Pyse-augmentation and positive-mixup positive-unlabeled metric learning framework)を提案する。 具体的には,文書レベルのREを計量学習問題として定式化する。 我々は,エンティティペアの埋め込みとそれに対応する関係の埋め込みとの距離を近づけると同時に,非クラス関係の埋め込みとの距離を遠ざけることを目的としている。 さらに、この損失目標に正の未ラベル学習を適用する。 モデルの一般化性を改善するため,正のサンプルを増強するためにドロップアウトを用い,正のnoneクラス混合法を提案する。 実験の結果,P3Mは文書レベルREのF1スコアを4~10ポイント改善し,完全ラベル付きシナリオで最先端の結果が得られることがわかった。 さらに、P3Mは不完全ラベル付きシナリオにおける事前推定バイアスに対して堅牢性を示した。

The goal of document-level relation extraction (RE) is to identify relations between entities that span multiple sentences. Recently, incomplete labeling in document-level RE has received increasing attention, and some studies have used methods such as positive-unlabeled learning to tackle this issue, but there is still a lot of room for improvement. Motivated by this, we propose a positive-augmentation and positive-mixup positive-unlabeled metric learning framework (P3M). Specifically, we formulate document-level RE as a metric learning problem. We aim to pull the distance closer between entity pair embedding and their corresponding relation embedding, while pushing it farther away from the none-class relation embedding. Additionally, we adapt the positive-unlabeled learning to this loss objective. In order to improve the generalizability of the model, we use dropout to augment positive samples and propose a positive-none-class mixup method. Extensive experiments show that P3M improves the F1 score by approximately 4-10 points in document-level RE with incomplete labeling, and achieves state-of-the-art results in fully labeled scenarios. Furthermore, P3M has also demonstrated robustness to prior estimation bias in incomplete labeled scenarios.
翻訳日:2023-06-27 12:48:39 公開日:2023-06-26
# スカラースピンキラリティ測定のための量子回路

Quantum circuits to measure scalar spin chirality ( http://arxiv.org/abs/2306.14804v1 )

ライセンス: Link先を確認
L. I. Reascos, Bruno Murta, E. F. Galv\~ao and J. Fern\'andez-Rossier(参考訳) スカラースピンキラリティー(スカラースピンキラリティー、英: scalar spin chirality)は、古典的磁気学、非コプラナースピンテクスチャ、および量子磁気学において、カイラルスピン液体の秩序パラメータとして優れた役割を果たす3体物理観測器である。 量子情報学において、スカラースピンキラリティは真の三部体絡みの証である。 本稿では,一般量子状態のスカラースピンキラリティーを推定するために,ハダマール検定に基づく間接計測手法を提案する。 本手法は2種類の量子状態におけるキラリティーの研究に応用する: 強磁性体の一般的な1マグノン状態と、競合する対称および反対称交換を持つモデルの基底状態である。 我々は, 1つの補助クォートを用いた量子位相推定により, キラリティ固有状態に対するスカラーキラリティの単ショット決定が可能となることを示す。 我々のアプローチは古典的および量子磁気学におけるキラリティの統一理論を提供する。

The scalar spin chirality is a three-body physical observable that plays an outstanding role both in classical magnetism, characterizing non-coplanar spin textures, and in quantum magnetism, as an order parameter for chiral spin liquids. In quantum information, the scalar spin chirality is a witness of genuine tripartite entanglement. Here we propose an indirect measurement scheme, based on the Hadamard test, to estimate the scalar spin chirality for general quantum states. We apply our method to study chirality in two types of quantum states: generic one-magnon states of a ferromagnet, and the ground state of a model with competing symmetric and antisymmetric exchange. We show a single-shot determination of the scalar chirality is possible for chirality eigenstates, via quantum phase estimation with a single auxiliary qutrit. Our approach provides a unified theory of chirality in classical and quantum magnetism.
翻訳日:2023-06-27 12:48:19 公開日:2023-06-26
# 弾性散乱と非弾性散乱の絡み合い

The Entanglement of Elastic and Inelastic Scattering ( http://arxiv.org/abs/2306.14800v1 )

ライセンス: Link先を確認
Gerald A. Miller(参考訳) 射出-標的相互作用において弾性および非弾性反応が起こる系の絡み合い特性について検討した。 s-$matrix (probability conservation) のユニタリティーに基づく散乱エントロピー(英語版)という新しい絡み合いの尺度が提案されている。 低エネルギー相互作用と高エネルギー相互作用の両方の単純なモデルを用いて、絡み合いの量は非弾性相互作用の強さによって追跡される。 古典的な「黒い円盤」の見慣れた例では、全吸収モデルが最大エンタングルメントに対応することが分かる。 高エネルギー$pp$散乱データの解析により,実験室のエネルギーが約1GeV以上の場合,絡み合いは最大に近いことが示され,総吸収モデルがデータを理解するための合理的な出発点であることが示されている。

The entanglement properties of systems in which elastic and inelastic reactions occur in projectile-target interactions is studied. A new measure of entanglement, the scattering entropy, based on the unitarity of the $S-$matrix (probability conservation), is suggested. Using simple models for both low- and high-energy interactions, the amount of entanglement is found to track with the strength of the inelastic interaction. The familiar example of the classical ``black disk", total absorption, model is found to correspond to maximum entanglement. An analysis of high-energy $pp$ scattering data shows that entanglement is near maximum for lab energies greater than about 1 GeV, showing that the total absorption model is a reasonable starting point for understanding the data.
翻訳日:2023-06-27 12:47:44 公開日:2023-06-26
# 平均場ゲームにおける模倣について

On Imitation in Mean-field Games ( http://arxiv.org/abs/2306.14799v1 )

ライセンス: Link先を確認
Giorgia Ramponi, Pavel Kolev, Olivier Pietquin, Niao He, Mathieu Lauri\`ere, Matthieu Geist(参考訳) 我々は,nash均衡政策に従うエージェント集団の行動を,未知の給与関数に従って模倣することを目的として,平均場ゲーム(mfgs)の文脈で模倣学習(il)の問題を検討する。 MFGのILは、特に報酬関数と遷移カーネルが人口分布に依存する場合、シングルエージェントILと比較して新しい課題を示す。 本稿では,MFG に対する IL に関する既存の文献から脱却し,Nash 模倣ギャップと呼ばれる新しい解法の概念を導入する。 次に、報酬が人口分布に依存する場合にのみ、MFGのILを同様の保証付き単エージェントILに還元できることを示す。 しかし、動力学が人口依存である場合、この設定ではilがより難しいことを示唆する新しい上界を提供する。 この問題に対処するために,強化学習問題を平均場制御(MFC)問題に置き換え,MFG内のILの進展をMFC上に構築する必要があることを示唆する新たな逆数式を提案する。

We explore the problem of imitation learning (IL) in the context of mean-field games (MFGs), where the goal is to imitate the behavior of a population of agents following a Nash equilibrium policy according to some unknown payoff function. IL in MFGs presents new challenges compared to single-agent IL, particularly when both the reward function and the transition kernel depend on the population distribution. In this paper, departing from the existing literature on IL for MFGs, we introduce a new solution concept called the Nash imitation gap. Then we show that when only the reward depends on the population distribution, IL in MFGs can be reduced to single-agent IL with similar guarantees. However, when the dynamics is population-dependent, we provide a novel upper-bound that suggests IL is harder in this setting. To address this issue, we propose a new adversarial formulation where the reinforcement learning problem is replaced by a mean-field control (MFC) problem, suggesting progress in IL within MFGs may have to build upon MFC.
翻訳日:2023-06-27 12:47:29 公開日:2023-06-26
# MotionGPT: 外国語としての人間の動き

MotionGPT: Human Motion as a Foreign Language ( http://arxiv.org/abs/2306.14795v1 )

ライセンス: Link先を確認
Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen(参考訳) 事前学習された大規模言語モデルの進歩は展開するが、言語とモーションのような他のマルチモーダルデータのための統一モデルの構築は、これまでも挑戦的で未修正である。 幸運なことに、人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。 大規模動作モデルで言語データを融合することにより、動作関連タスクのパフォーマンスを向上させる動き言語事前学習が実現可能となる。 この知見を活かし,複数の動作関連タスクを処理するための統合型,汎用性,ユーザフレンドリなモーション言語モデルであるmotiongptを提案する。 具体的には,人間の動きに対する離散ベクトル量子化を用いて,単語トークンの生成過程と類似した3次元動きを動きトークンに転送する。 この「動き語彙」に基づいて、動きとテキストの両方の言語モデリングを統一的に行い、人間の動きを特定の言語として扱う。 さらに、素早い学習にインスパイアされたMotionGPTを、動き言語データの混合で事前訓練し、素早い質問・回答タスクで微調整する。 広範囲な実験により、MotionGPTはテキスト駆動のモーション生成、モーションキャプション、モーション予測、動作中の動作を含む複数の動作タスクにおいて最先端のパフォーマンスを達成することが示された。

Though the advancement of pre-trained large language models unfolds, the exploration of building a unified model for language and other multi-modal data, such as motion, remains challenging and untouched so far. Fortunately, human motion displays a semantic coupling akin to human language, often perceived as a form of body language. By fusing language data with large-scale motion models, motion-language pre-training that can enhance the performance of motion-related tasks becomes feasible. Driven by this insight, we propose MotionGPT, a unified, versatile, and user-friendly motion-language model to handle multiple motion-relevant tasks. Specifically, we employ the discrete vector quantization for human motion and transfer 3D motion into motion tokens, similar to the generation process of word tokens. Building upon this "motion vocabulary", we perform language modeling on both motion and text in a unified manner, treating human motion as a specific language. Moreover, inspired by prompt learning, we pre-train MotionGPT with a mixture of motion-language data and fine-tune it on prompt-based question-and-answer tasks. Extensive experiments demonstrate that MotionGPT achieves state-of-the-art performances on multiple motion tasks including text-driven motion generation, motion captioning, motion prediction, and motion in-between.
翻訳日:2023-06-27 12:47:10 公開日:2023-06-26
# リコメンダシステムのためのスケーラブルなニューラルコンテキスト帯域

Scalable Neural Contextual Bandit for Recommender Systems ( http://arxiv.org/abs/2306.14834v1 )

ライセンス: Link先を確認
Zheqing Zhu, Benjamin Van Roy(参考訳) 高品質なレコメンダシステムは、ユーザと効果的かつ探索的なインタラクションを通じて、革新的かつ関連性の高いコンテンツを提供するべきである。 しかし、既存のレコメンデーションシステムのバックボーンを形成する教師付き学習ベースのニューラルネットワークは、認識されたユーザの関心を生かし、未知のユーザの選好を効率的に見つけ出すには不十分である。 ニューラルネットワークによるオンライン探索を可能にするために、ニューラルネットワークのコンテキストバンディットアルゴリズムでは、いくつかの進歩があったが、その厄介な計算要求は、現実世界のレコメンデーションシステムで広く採用されることを妨げる。 本研究では,リコメンデータシステムのためのスケーラブルなサンプル効率ニューラルコンテキスト帯域幅アルゴリズムを提案する。 そこで我々は,トンプソンの大規模サンプリングを可能にするてんかん性ニューラルネットワークアーキテクチャENR( Epistemic Neural Recommendation)を設計した。 実世界のタスクを用いた2つの異なる大規模な実験において、ENRは、最先端のニューラルネットワークの帯域幅アルゴリズムと比較して、クリックスルー率とユーザレーティングを少なくとも9%と6%向上させる。 さらに、最高の性能のベースラインアルゴリズムと比較して、少なくとも29%のユーザインタラクションで同等のパフォーマンスを実現する。 注目すべきは、これらの改善を達成している間に、ENRはニューラルネットワークのコンテキスト帯域ベースラインアルゴリズムよりも、桁違いに少ない計算リソースを要求することである。

High-quality recommender systems ought to deliver both innovative and relevant content through effective and exploratory interactions with users. Yet, supervised learning-based neural networks, which form the backbone of many existing recommender systems, only leverage recognized user interests, falling short when it comes to efficiently uncovering unknown user preferences. While there has been some progress with neural contextual bandit algorithms towards enabling online exploration through neural networks, their onerous computational demands hinder widespread adoption in real-world recommender systems. In this work, we propose a scalable sample-efficient neural contextual bandit algorithm for recommender systems. To do this, we design an epistemic neural network architecture, Epistemic Neural Recommendation (ENR), that enables Thompson sampling at a large scale. In two distinct large-scale experiments with real-world tasks, ENR significantly boosts click-through rates and user ratings by at least 9% and 6% respectively compared to state-of-the-art neural contextual bandit algorithms. Furthermore, it achieves equivalent performance with at least 29% fewer user interactions compared to the best-performing baseline algorithm. Remarkably, while accomplishing these improvements, ENR demands orders of magnitude fewer computational resources than neural contextual bandit baseline algorithms.
翻訳日:2023-06-27 12:38:53 公開日:2023-06-26
# HonestBait:Attractive but Faithful Headline Generationのフォワードリファレンス

HonestBait: Forward References for Attractive but Faithful Headline Generation ( http://arxiv.org/abs/2306.14828v1 )

ライセンス: Link先を確認
Chih-Yao Chen, Dennis Wu, Lun-Wei Ku(参考訳) 魅力的な見出しを生成する現在の方法は、ユーザークリック数やビュー数に基づいて魅力的なデータから直接学習することが多い。 クリックやビューはユーザの関心を反映するが、書き込みスタイルによってどれだけの関心を集めているか、イベントやトピック自体に起因するものなのかを明らかにできない場合がある。 また、そのようなアプローチは、コンテンツの過剰な誇張と偽情報の拡散の悪化によって有害な発明につながる可能性がある。 本稿では,これらの問題を解決するための新しいフレームワークであるhonestbaitを提案する。 急激な発明を避けるために、訓練中に自己検証プロセスを含む。 まず、FRがユーザの関心にどのように影響するかを理解するための予備的なユーザスタディから始め、次に、偽ニュースと検証されたニュースのペアを含む革新的なデータセットであるPANCO1を紹介します。 自動測定と人的評価は、我々のフレームワークがより魅力的な結果(人手による検証済みニュースの見出しに比べて+11.25%)を得る一方で、高い妥当性を維持し、偽ニュースと戦うために実際の情報を促進するのに役立つことを示している。

Current methods for generating attractive headlines often learn directly from data, which bases attractiveness on the number of user clicks and views. Although clicks or views do reflect user interest, they can fail to reveal how much interest is raised by the writing style and how much is due to the event or topic itself. Also, such approaches can lead to harmful inventions by over-exaggerating the content, aggravating the spread of false information. In this work, we propose HonestBait, a novel framework for solving these issues from another aspect: generating headlines using forward references (FRs), a writing technique often used for clickbait. A self-verification process is included during training to avoid spurious inventions. We begin with a preliminary user study to understand how FRs affect user interest, after which we present PANCO1, an innovative dataset containing pairs of fake news with verified news for attractive but faithful news headline generation. Automatic metrics and human evaluations show that our framework yields more attractive results (+11.25% compared to human-written verified news headlines) while maintaining high veracity, which helps promote real information to fight against fake news.
翻訳日:2023-06-27 12:38:31 公開日:2023-06-26
# サブグラフ選択によるベトナムのマルチドキュメント要約 -vlsp 2022 abmusu shared task

Vietnamese multi-document summary using subgraph selection approach -- VLSP 2022 AbMuSu Shared Task ( http://arxiv.org/abs/2306.14827v1 )

ライセンス: Link先を確認
Huu-Thin Nguyen, Tam Doan Thanh, Cam-Van Thi Nguyen(参考訳) 文書要約(英: document summarization)とは、文書を要約し、重要な情報を収集するタスクである。 文書のクラスタはマルチドキュメント要約(MDS)の入力として機能し、クラスタのサマリは出力として機能する。 本稿では,抽出MDS問題をサブグラフ選択に変換することに焦点を当てる。 グラフの形での問題にアプローチすることは、グラフ構造全体と選択した部分グラフを利用して、同じ文書内の文と同一クラスタ内の文の関係を同時にキャプチャするのに役立つ。 VLSP評価キャンペーン2022で発表されたベトナムのデータセットで実験が行われた。 このモデルは現在、公開テストセットの粗い2ドルの$f\_1$測定値で報告される上位10チームの結果となっている。

Document summarization is a task to generate afluent, condensed summary for a document, andkeep important information. A cluster of documents serves as the input for multi-document summarizing (MDS), while the cluster summary serves as the output. In this paper, we focus on transforming the extractive MDS problem into subgraph selection. Approaching the problem in the form of graphs helps to capture simultaneously the relationship between sentences in the same document and between sentences in the same cluster based on exploiting the overall graph structure and selected subgraphs. Experiments have been implemented on the Vietnamese dataset published in VLSP Evaluation Campaign 2022. This model currently results in the top 10 participating teams reported on the ROUGH-2 $F\_1$ measure on the public test set.
翻訳日:2023-06-27 12:38:09 公開日:2023-06-26
# kosmos-2: マルチモーダル大規模言語モデルの世界への接地

Kosmos-2: Grounding Multimodal Large Language Models to the World ( http://arxiv.org/abs/2306.14824v1 )

ライセンス: Link先を確認
Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei(参考訳) マルチモーダル大言語モデル(MLLM)であるKosmos-2を導入し,オブジェクト記述(バウンディングボックスなど)の認識と,視覚の世界へのテキストの接地を可能にする。 具体的には、オブジェクト記述が位置トークンのシーケンスである``[text span](bounding box)''のリンクとして参照表現を表現する。 マルチモーダルコーパスとともに、グラウンドドイメージテキストペア(GrIT)の大規模データを構築し、モデルを訓練する。 MLLMの既存の機能(例えば、一般的なモダリティの知覚、命令の追従、テキスト内学習の実行など)に加えて、Kosmos-2はダウンストリームアプリケーションにグラウンド機能を統合する。 我々はKosmos-2を幅広いタスクで評価する。 (i)表現の理解や句の接頭辞など多様接頭辞 (ii)表現生成の参照等の多元的参照 (iii)知覚言語課題、及び (4)言語理解と生成。 本研究は、具体化aiの開発の基礎を整理し、人工知能への重要な一歩である言語、マルチモーダル知覚、行動、世界モデリングの大規模な収束に光を当てる。 データ、デモ、事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。

We introduce Kosmos-2, a Multimodal Large Language Model (MLLM), enabling new capabilities of perceiving object descriptions (e.g., bounding boxes) and grounding text to the visual world. Specifically, we represent refer expressions as links in Markdown, i.e., ``[text span](bounding boxes)'', where object descriptions are sequences of location tokens. Together with multimodal corpora, we construct large-scale data of grounded image-text pairs (called GrIT) to train the model. In addition to the existing capabilities of MLLMs (e.g., perceiving general modalities, following instructions, and performing in-context learning), Kosmos-2 integrates the grounding capability into downstream applications. We evaluate Kosmos-2 on a wide range of tasks, including (i) multimodal grounding, such as referring expression comprehension, and phrase grounding, (ii) multimodal referring, such as referring expression generation, (iii) perception-language tasks, and (iv) language understanding and generation. This work lays out the foundation for the development of Embodiment AI and sheds light on the big convergence of language, multimodal perception, action, and world modeling, which is a key step toward artificial general intelligence. Data, demo, and pretrained models are available at https://aka.ms/kosmos-2.
翻訳日:2023-06-27 12:37:55 公開日:2023-06-26
# 微粒な感情分類のためのラベル認識ハイパーボリック埋め込み

Label-Aware Hyperbolic Embeddings for Fine-grained Emotion Classification ( http://arxiv.org/abs/2306.14822v1 )

ライセンス: Link先を確認
Chih-Yao Chen, Tun-Min Hung, Yi-Li Hsu, Lun-Wei Ku(参考訳) きめ細かい感情分類(FEC)は難しい課題である。 具体的には、FECはラベル間の微妙なニュアンスを扱う必要がある。 既存のほとんどのモデルはユークリッド空間におけるテキスト分類の問題にのみ対処するが、これは近い意味論(例えば恐怖と恐怖)のラベルがそのような空間では区別されず、性能を損なうような最適解ではないと考えられる。 本稿では,双曲組込みを統合してfecタスクを改善する,新しいフレームワークであるphymoを提案する。 まず,双曲空間へのラベル埋め込みを学習し,その階層構造をよりよく把握し,さらに,文脈化された表現を双曲空間に投影し,サンプルとラベル間の距離を計算する。 実験の結果, 重みのクロスエントロピー損失にその距離を組み込むことにより, 性能が大幅に向上し, 効率が向上した。 提案モデルは2つのベンチマークデータセットで評価し、43.2%のパラメータと76.9%のトレーニング時間で以前の技術と比較して4.8%の相対的改善が見られた。 コードはhttps: //github.com/dinobby/HypEmoで入手できる。

Fine-grained emotion classification (FEC) is a challenging task. Specifically, FEC needs to handle subtle nuance between labels, which can be complex and confusing. Most existing models only address text classification problem in the euclidean space, which we believe may not be the optimal solution as labels of close semantic (e.g., afraid and terrified) may not be differentiated in such space, which harms the performance. In this paper, we propose HypEmo, a novel framework that can integrate hyperbolic embeddings to improve the FEC task. First, we learn label embeddings in the hyperbolic space to better capture their hierarchical structure, and then our model projects contextualized representations to the hyperbolic space to compute the distance between samples and labels. Experimental results show that incorporating such distance to weight cross entropy loss substantially improves the performance with significantly higher efficiency. We evaluate our proposed model on two benchmark datasets and found 4.8% relative improvement compared to the previous state of the art with 43.2% fewer parameters and 76.9% less training time. Code is available at https: //github.com/dinobby/HypEmo.
翻訳日:2023-06-27 12:37:33 公開日:2023-06-26
# 知識蒸留による分子グラフニューラルネットワークの高速化

Accelerating Molecular Graph Neural Networks via Knowledge Distillation ( http://arxiv.org/abs/2306.14818v1 )

ライセンス: Link先を確認
Filip Ekstr\"om Kelvinius, Dimitar Georgiev, Artur Petrov Toshev, Johannes Gasteiger(参考訳) グラフニューラルネットワーク(GNN)の最近の進歩により、計算コストのごく一部で従来の金標準法と同等の精度で分子シミュレーションが可能になった。 それにもかかわらず、この分野がより大規模で複雑なアーキテクチャへと進展しているため、最先端のGNNは、多くの大規模アプリケーションでほとんど禁止されている。 本稿では,分子GNNの加速のための知識蒸留(KD)の有用性を初めて検討する。 そこで我々は, 方向性および同変GNNにおける隠れ表現の蒸留を容易にするKD戦略を考案し, エネルギー・力予測の回帰課題におけるその性能を評価する。 我々は,教師の学生構成の異なるプロトコルを検証し,学生モデルの予測精度をアーキテクチャを変更することなく向上させることができることを示した。 また,フレームワークの様々なコンポーネントを総合的に最適化し,データ拡張の可能性を調べ,さらなる性能向上を図る。 全体としては、gemnet-oc や painn のようなモデル間の予測精度の差の最大59%を、推論の追加コストなしで閉じることができました。

Recent advances in graph neural networks (GNNs) have allowed molecular simulations with accuracy on par with conventional gold-standard methods at a fraction of the computational cost. Nonetheless, as the field has been progressing to bigger and more complex architectures, state-of-the-art GNNs have become largely prohibitive for many large-scale applications. In this paper, we, for the first time, explore the utility of knowledge distillation (KD) for accelerating molecular GNNs. To this end, we devise KD strategies that facilitate the distillation of hidden representations in directional and equivariant GNNs and evaluate their performance on the regression task of energy and force prediction. We validate our protocols across different teacher-student configurations and demonstrate that they can boost the predictive accuracy of student models without altering their architecture. We also conduct comprehensive optimization of various components of our framework, and investigate the potential of data augmentation to further enhance performance. All in all, we manage to close as much as 59% of the gap in predictive accuracy between models like GemNet-OC and PaiNN with zero additional cost at inference.
翻訳日:2023-06-27 12:37:04 公開日:2023-06-26
# 機械学習におけるブラックホールとロスランドスケープ

Black holes and the loss landscape in machine learning ( http://arxiv.org/abs/2306.14817v1 )

ライセンス: Link先を確認
Pranav Kumar, Taniya Mandal, Swapnamay Mondal(参考訳) ロスランドスケープを理解することは、機械学習において重要な問題である。 多くのニューラルネットワークアーキテクチャに共通する損失関数の重要な特徴の1つは、指数関数的に多くの低い局所的ミニマの存在である。 同様のエネルギー景観を持つ物理系は有用な洞察を与えるかもしれない。 本研究では、ブラックホールのエントロピーの存在により、ブラックホールが自然にそのような風景を生み出すことを指摘する。 確定性については、$\mathcal{N} = 8$ string theory の 1/8 BPS ブラックホールを考える。 これらは、対応するブラックホールの微視的な記述で生じる潜在的な風景の無限のファミリーを提供する。 ミニマの計数量はブラックホールの微少状態計数に等しい。 さらに、これらの風景におけるミニマの正確な数は、弦理論の双対性から知られている事前性である。 ミニマの一部は、モード接続のような低損失値の経路で接続されている。 すべてのソリューションを見つけるために必要な実行回数を見積もっています。 初期の調査は、確率的勾配降下が極小値のかなりの割合を見つけることを示唆している。

Understanding the loss landscape is an important problem in machine learning. One key feature of the loss function, common to many neural network architectures, is the presence of exponentially many low lying local minima. Physical systems with similar energy landscapes may provide useful insights. In this work, we point out that black holes naturally give rise to such landscapes, owing to the existence of black hole entropy. For definiteness, we consider 1/8 BPS black holes in $\mathcal{N} = 8$ string theory. These provide an infinite family of potential landscapes arising in the microscopic descriptions of corresponding black holes. The counting of minima amounts to black hole microstate counting. Moreover, the exact numbers of the minima for these landscapes are a priori known from dualities in string theory. Some of the minima are connected by paths of low loss values, resembling mode connectivity. We estimate the number of runs needed to find all the solutions. Initial explorations suggest that Stochastic Gradient Descent can find a significant fraction of the minima.
翻訳日:2023-06-27 12:36:48 公開日:2023-06-26
# AIの誤認を検知・緩和する実験

Experiments with Detecting and Mitigating AI Deception ( http://arxiv.org/abs/2306.14816v1 )

ライセンス: Link先を確認
Ismail Sahbane, Francis Rhys Ward, C Henrik {\AA}slund(参考訳) 偽りのAIシステムを検知し緩和する方法は、安全で信頼できるAI分野のオープンな問題である。 第1のアルゴリズムは、デセプションをインセンティブとするゲーム内のパスを取り除いたパス固有のobjectivesフレームワークに基づいています。 2つ目は、保護、すなわち安全でないポリシーの監視、安全な参照ポリシーに置き換えることに基づいている。 2つの簡単なゲームを構築し、アルゴリズムを経験的に評価する。 どちらの方法もエージェントが欺かないことを保証するが、遮蔽はより高い報酬を得る傾向がある。

How to detect and mitigate deceptive AI systems is an open problem for the field of safe and trustworthy AI. We analyse two algorithms for mitigating deception: The first is based on the path-specific objectives framework where paths in the game that incentivise deception are removed. The second is based on shielding, i.e., monitoring for unsafe policies and replacing them with a safe reference policy. We construct two simple games and evaluate our algorithms empirically. We find that both methods ensure that our agent is not deceptive, however, shielding tends to achieve higher reward.
翻訳日:2023-06-27 12:36:35 公開日:2023-06-26
# 二元入力二元出力二元非局所ゲームに関連するブール関数の解析

Analysis of Boolean Functions Related to Binary Input Binary Output Two-party Nonlocal Games ( http://arxiv.org/abs/2306.14815v1 )

ライセンス: Link先を確認
Jyotirmoy Basak and Subhamoy Maitra and Prabal Paul and Animesh Roy(参考訳) 有名なCHSHゲームは、古典的なシナリオにおける成功確率を理解しながらブール関数で解釈することができる。 本稿では,4変数のブール関数をすべて網羅的に研究し,バイナリ入力バイナリ出力を2つの非局所ゲームで表現し,古典的,量子的両方のシナリオでそれらの性能について検討した。 我々の分析では、古典的なゲームと比べて量子シナリオの成功確率が高いゲーム(CHSHゲーム以外のゲーム)がいくつか見出されている。 当然のことながら、我々の研究はCHSHゲーム(および同様の分割に対応するゲーム)が量子技術と古典的技法の分離において最も効率的であることも指摘している。

The famous CHSH game can be interpreted with Boolean functions while understanding the success probability in the classical scenario. In this paper, we have exhaustively studied all the Boolean functions on four variables to express binary input binary output two-party nonlocal games and explore their performance in both classical and quantum scenarios. Our analysis finds out some other games (other than the CHSH game) which offer a higher success probability in the quantum scenario as compared to the classical one. Naturally, our study also notes that the CHSH game (and the games corresponding to the similar partition) is the most efficient in terms of separation between quantum and classical techniques.
翻訳日:2023-06-27 12:36:26 公開日:2023-06-26
# GoA4貨物列車の障害物検出システムの確率論的リスク評価

Probabilistic Risk Assessment of an Obstacle Detection System for GoA 4 Freight Trains ( http://arxiv.org/abs/2306.14814v1 )

ライセンス: Link先を確認
Mario Gleirscher and Anne E. Haxthausen and Jan Peleska(参考訳) 本稿では,低速貨物列車の自動化度(goa)~4の障害物検出機能を設計するための定量的リスクアセスメント手法について検討する。 この5段階のアプローチでは、単一の検出チャネルから始まり、3つの独立したデュアルチャネルモジュールと投票者からなる3つのアウトオブ3(3oo3)モデルで終わる。 一定の不合理な仮定の下では、結果として生じるハザード率は特定のアプリケーション設定で許容される。 畳み込みニューラルネットワークと従来の画像処理ソフトウェアにおける誤分類の残留リスクを評価する統計的アプローチは、現実的な機械学習の不確実性を伴うにもかかわらず、安全クリティカルな障害物検出機能に高い信頼性を配置できることを示唆している。

In this paper, a quantitative risk assessment approach is discussed for the design of an obstacle detection function for low-speed freight trains with grade of automation (GoA)~4. In this 5-step approach, starting with single detection channels and ending with a three-out-of-three (3oo3) model constructed of three independent dual-channel modules and a voter, a probabilistic assessment is exemplified, using a combination of statistical methods and parametric stochastic model checking. It is illustrated that, under certain not unreasonable assumptions, the resulting hazard rate becomes acceptable for specific application settings. The statistical approach for assessing the residual risk of misclassifications in convolutional neural networks and conventional image processing software suggests that high confidence can be placed into the safety-critical obstacle detection function, even though its implementation involves realistic machine learning uncertainties.
翻訳日:2023-06-27 12:36:13 公開日:2023-06-26
# 逐次意思決定のための選好の比例集計

Proportional Aggregation of Preferences for Sequential Decision Making ( http://arxiv.org/abs/2306.14858v1 )

ライセンス: Link先を確認
Nikhil Chandak, Shashwat Goel, Dominik Peters(参考訳) 投票者の選好を適度に決定する問題について検討する。 各ラウンドにおいて、決定ルールは、各投票者が承認する選択肢のどれかを報告する一連の代替案から決定を選ばなければならない。 各ラウンドで最も人気のある選択肢ではなく、比例代表を目標としています。 本稿は,多票制に関する文献で提案され,近年の多問題意思決定に適応したPJR(Proportional Justified Representation)に基づく公理を用いて,この目的を定式化する。 公理では、全ての投票者の$\alpha\%$ のグループは、各ラウンドにおいて同意する(つまり共通の選択肢を承認する)場合、その投票者は少なくとも$\alpha\%$ の決定を承認しなければならない。 公理のより強固なバージョンでは、ラウンドの$\beta$で同意する有権者の全てのグループに対して、決定の$\beta\cdot\alpha\%$を承認する必要がある。 3つの魅力的な投票規則がこのスタイルの公理を満たすことを示す。 そのうちの1つ (Sequential Phragm\'en) はその決定をオンラインで行い、残りの2つは公理の強化されたバージョンを満足するが、半オフライン (Method of Equal Shares) または完全オフライン (Proportional Approval Voting) で決定する。 最初の2つは多項式時間計算可能であり、後者はNP-ハード最適化に基づいているが、同じ公理特性を満たす多項式時間局所探索アルゴリズムが認められる。 我々は、合成データと米国の政治選挙に基づいて、これらのルールの実行に関する実証的な結果を示す。 また、倫理的ジレンマに関する道徳的マシンデータセットから、ユーザの反応に基づいて訓練された選好モデルによって投票を行う実験も行います。

We study the problem of fair sequential decision making given voter preferences. In each round, a decision rule must choose a decision from a set of alternatives where each voter reports which of these alternatives they approve. Instead of going with the most popular choice in each round, we aim for proportional representation. We formalize this aim using axioms based on Proportional Justified Representation (PJR), which were proposed in the literature on multi-winner voting and were recently adapted to multi-issue decision making. The axioms require that every group of $\alpha\%$ of the voters, if it agrees in every round (i.e., approves a common alternative), then those voters must approve at least $\alpha\%$ of the decisions. A stronger version of the axioms requires that every group of $\alpha\%$ of the voters that agrees in a $\beta$ fraction of rounds must approve $\beta\cdot\alpha\%$ of the decisions. We show that three attractive voting rules satisfy axioms of this style. One of them (Sequential Phragm\'en) makes its decisions online, and the other two satisfy strengthened versions of the axioms but make decisions semi-online (Method of Equal Shares) or fully offline (Proportional Approval Voting). The first two are polynomial-time computable, and the latter is based on an NP-hard optimization, but it admits a polynomial-time local search algorithm that satisfies the same axiomatic properties. We present empirical results about the performance of these rules based on synthetic data and U.S. political elections. We also run experiments where votes are cast by preference models trained on user responses from the moral machine dataset about ethical dilemmas.
翻訳日:2023-06-27 12:31:11 公開日:2023-06-26
# メタポピュレーショングラフニューラルネットワーク:ヒト運動を用いた深部メタポピュレーションエピデミックモデリング

Metapopulation Graph Neural Networks: Deep Metapopulation Epidemic Modeling with Human Mobility ( http://arxiv.org/abs/2306.14857v1 )

ライセンス: Link先を確認
Qi Cao (1), Renhe Jiang (1), Chuang Yang (1), Zipei Fan (1), Xuan Song (1 and 2), Ryosuke Shibasaki (1) ((1) Center for Spatial Information Science, The University of Tokyo, (2) SUSTech-UTokyo Joint Research Center on Super Smart City, Department of Computer Science and Engineering, Southern University of Science and Technology)(参考訳) 流行予測は疫病対策と予防の基本的な課題である。 多くの力学モデルとディープラーニングモデルがこのタスクのために構築されている。 しかし、ほとんどの機械モデルでは時間/地域変動の疫学パラメータの推定が困難であるが、深層学習モデルは疫学領域知識の指導や予測結果の解釈可能性に欠ける。 本研究では,グラフニューラルネットワーク(GNN)とグラフ学習機構をメタポピュレーションSIRモデルに組み込んだ多段階多地点流行予測のためのMepoGNNというハイブリッドモデルを提案する。 本モデルでは, 診断された症例数だけでなく, 不均一なデータから疫学的パラメータや流行伝播グラフをエンド・ツー・エンドで明示的に学習する。 日本における多ソース流行関連データと移動データを収集処理し,実験用データセットを作成する。 実験により,我々のモデルは,既存の力学モデルやディープラーニングモデルよりも大きなマージンで優れていることを示した。 さらに, 学習パラメータの解析により, モデルの信頼性と解釈性が向上し, 感染拡大の理解を深めることができた。 さらに,不利用可能なモビリティデータの問題に対処するモビリティ生成手法を提案し,本モデルに対する入力として生成されたモビリティデータの有効性を示す実験結果を示した。

Epidemic prediction is a fundamental task for epidemic control and prevention. Many mechanistic models and deep learning models are built for this task. However, most mechanistic models have difficulty estimating the time/region-varying epidemiological parameters, while most deep learning models lack the guidance of epidemiological domain knowledge and interpretability of prediction results. In this study, we propose a novel hybrid model called MepoGNN for multi-step multi-region epidemic forecasting by incorporating Graph Neural Networks (GNNs) and graph learning mechanisms into Metapopulation SIR model. Our model can not only predict the number of confirmed cases but also explicitly learn the epidemiological parameters and the underlying epidemic propagation graph from heterogeneous data in an end-to-end manner. The multi-source epidemic-related data and mobility data of Japan are collected and processed to form the dataset for experiments. The experimental results demonstrate our model outperforms the existing mechanistic models and deep learning models by a large margin. Furthermore, the analysis on the learned parameters illustrate the high reliability and interpretability of our model and helps better understanding of epidemic spread. In addition, a mobility generation method is presented to address the issue of unavailable mobility data, and the experiment results demonstrate effectiveness of the generated mobility data as an input to our model.
翻訳日:2023-06-27 12:30:41 公開日:2023-06-26
# 二値最適化における定常点探索のための近接最適完全一階アルゴリズム

Near-Optimal Fully First-Order Algorithms for Finding Stationary Points in Bilevel Optimization ( http://arxiv.org/abs/2306.14853v1 )

ライセンス: Link先を確認
Lesi Chen, Yaohua Ma, Jingzhao Zhang(参考訳) 双レベル最適化には、ハイパーパラメータ最適化やメタラーニングといった様々な応用がある。 双レベル最適化のための理論的に効率的なアルゴリズムの設計は、他の最適化問題を通して暗黙的に実現可能性を定義するため、標準最適化よりも難しい。 1つの難解なケースは、下層問題によって強い凸性が許される場合である。 最近の研究によると、二階法は、問題の1階定常点を$\tilde{\mathcal{O}}(\epsilon^{-2})$で確実に収束させることができるが、これらのアルゴリズムはヘッセンベクトル積のオラクルを必要とする。 kwon et al. (2023) は、$\tilde{\mathcal{o}}(\epsilon^{-3})$で同じ目標を達成できる一階法を提案して問題を解決した。 本稿では,1次手法が$\epsilon$に依存する2次メソッドの上限値と一致する$\tilde {\mathcal{o}}(\epsilon^{-2})$ oracle の複雑性内で $\epsilon$-first-order stationary point を見つけることができることを示す,改良された解析結果を提供する。 さらに,二階定常点の発見や分散二階問題において,類似の最適化速度を実現できる単純な一階アルゴリズムを導出する。

Bilevel optimization has various applications such as hyper-parameter optimization and meta-learning. Designing theoretically efficient algorithms for bilevel optimization is more challenging than standard optimization because the lower-level problem defines the feasibility set implicitly via another optimization problem. One tractable case is when the lower-level problem permits strong convexity. Recent works show that second-order methods can provably converge to an $\epsilon$-first-order stationary point of the problem at a rate of $\tilde{\mathcal{O}}(\epsilon^{-2})$, yet these algorithms require a Hessian-vector product oracle. Kwon et al. (2023) resolved the problem by proposing a first-order method that can achieve the same goal at a slower rate of $\tilde{\mathcal{O}}(\epsilon^{-3})$. In this work, we provide an improved analysis demonstrating that the first-order method can also find an $\epsilon$-first-order stationary point within $\tilde {\mathcal{O}}(\epsilon^{-2})$ oracle complexity, which matches the upper bounds for second-order methods in the dependency on $\epsilon$. Our analysis further leads to simple first-order algorithms that can achieve similar near-optimal rates in finding second-order stationary points and in distributed bilevel problems.
翻訳日:2023-06-27 12:30:17 公開日:2023-06-26
# CoarsenConf:分子コンフォーマ生成のための凝集注意による等変粗大化

CoarsenConf: Equivariant Coarsening with Aggregated Attention for Molecular Conformer Generation ( http://arxiv.org/abs/2306.14852v1 )

ライセンス: Link先を確認
Danny Reidenbach, Aditi S. Krishnapriyan(参考訳) 分子コンホメータ生成(MCG)は、化学情報学と薬物発見において重要な課題である。 低エネルギーの3D構造を効率的に生成する能力は、高価な量子力学シミュレーションを回避し、スクリーニングの高速化と構造探索の強化につながる。 MCG向けにいくつかの生成モデルが開発されているが、高品質なコンバータを一貫して作るのに多くの困難がある。 これらの問題に対処するために、CoarsenConfを導入し、これは分子グラフをねじれ角に基づいて粗く解析し、SE(3)等式な階層的変分オートエンコーダに統合する。 等変粗粒化により、回転可能な結合を介して連結された部分グラフの微細な原子座標を集約し、可変長粗粒化潜在表現を生成する。 本モデルでは, 粒度の粗い潜在表現から細粒度座標を復元する新しいアグリゲートアテンション機構を用いて, 大分子の自動回帰生成を実現する。 さらに,現在のコンフォーメータ生成ベンチマークを拡張し,生成したコンフォーメータの品質と有効性を評価するための新しいメトリクスを導入した。 従来の生成モデルや化学情報学手法と比較して,CoarsenConfはより正確なコンホメータアンサンブルを生成することを示した。

Molecular conformer generation (MCG) is an important task in cheminformatics and drug discovery. The ability to efficiently generate low-energy 3D structures can avoid expensive quantum mechanical simulations, leading to accelerated screenings and enhanced structural exploration. Several generative models have been developed for MCG, but many struggle to consistently produce high-quality conformers. To address these issues, we introduce CoarsenConf, which coarse-grains molecular graphs based on torsional angles and integrates them into an SE(3)-equivariant hierarchical variational autoencoder. Through equivariant coarse-graining, we aggregate the fine-grained atomic coordinates of subgraphs connected via rotatable bonds, creating a variable-length coarse-grained latent representation. Our model uses a novel aggregated attention mechanism to restore fine-grained coordinates from the coarse-grained latent representation, enabling efficient autoregressive generation of large molecules. Furthermore, our work expands current conformer generation benchmarks and introduces new metrics to better evaluate the quality and viability of generated conformers. We demonstrate that CoarsenConf generates more accurate conformer ensembles compared to prior generative models and traditional cheminformatics methods.
翻訳日:2023-06-27 12:29:47 公開日:2023-06-26
# 失意感を和らげる利得信頼:スパース回帰に対するクロスバリデーションの新しいアプローチ

Gain Confidence, Reduce Disappointment: A New Approach to Cross-Validation for Sparse Regression ( http://arxiv.org/abs/2306.14851v1 )

ライセンス: Link先を確認
Ryan Cory-Wright, Andr\'es G\'omez(参考訳) ridge正規化スパース回帰は、設計行列と出力ベクトルの関係を解釈可能な方法で説明する特徴のサブセットを選択することを伴う。 線形レグレプタのスパース性とロバスト性を選択するために、リセットワンアウトクロスバリデーションのような技法がハイパーパラメータチューニングに一般的に用いられる。 しかし、クロスバリデーションは典型的にはスパース回帰のコストを数桁増加させる。 さらに、検証メトリクスはテストセットエラーのノイズの多い推定器であり、異なるハイパーパラメータの組み合わせによって異なるノイズのモデルが得られる。 したがって、これらのメトリクスを最適化することは、特に過度に決定された設定において、サンプル外の失望に弱い。 これに対処するために、私たちは2つの貢献をします。 第一に, 一般化理論の文献を活用し, 期待外れへの適応性の低下を表わす, 信頼度調整型let-one-outを提案する。 第2に,混合整数文献のアイデアを活用し,信頼度調整された残余ワンアウトの計算可能な緩和度を得る。 我々の緩和は、文献の他の方法よりもはるかに低い残余誤差が得られる効率的な座標降下スキームを生み出します。 我々は,glmnet のような一般的な手法より著しくスパースで比較可能な解が得られることを示すことにより,この理論を検証する。 合成データセット上では, 信頼度調整手順は疑似発見を著しく少なくし, 信頼度調整を伴わないクロスバリデーションに比べ, サンプル外性能を2-5%向上させる。 提案手法の校正版では,13個の実データセットの集合全体にわたって,信頼度調整を伴わないクロスバリデーションに比べて,テストセットエラーを平均4%改善する。

Ridge regularized sparse regression involves selecting a subset of features that explains the relationship between a design matrix and an output vector in an interpretable manner. To select the sparsity and robustness of linear regressors, techniques like leave-one-out cross-validation are commonly used for hyperparameter tuning. However, cross-validation typically increases the cost of sparse regression by several orders of magnitude. Additionally, validation metrics are noisy estimators of the test-set error, with different hyperparameter combinations giving models with different amounts of noise. Therefore, optimizing over these metrics is vulnerable to out-of-sample disappointment, especially in underdetermined settings. To address this, we make two contributions. First, we leverage the generalization theory literature to propose confidence-adjusted variants of leave-one-out that display less propensity to out-of-sample disappointment. Second, we leverage ideas from the mixed-integer literature to obtain computationally tractable relaxations of confidence-adjusted leave-one-out, thereby minimizing it without solving as many MIOs. Our relaxations give rise to an efficient coordinate descent scheme which allows us to obtain significantly lower leave-one-out errors than via other methods in the literature. We validate our theory by demonstrating we obtain significantly sparser and comparably accurate solutions than via popular methods like GLMNet and suffer from less out-of-sample disappointment. On synthetic datasets, our confidence adjustment procedure generates significantly fewer false discoveries, and improves out-of-sample performance by 2-5% compared to cross-validating without confidence adjustment. Across a suite of 13 real datasets, a calibrated version of our procedure improves the test set error by an average of 4% compared to cross-validating without confidence adjustment.
翻訳日:2023-06-27 12:29:24 公開日:2023-06-26
# 熱処理と断熱にショートカットを施した量子オットーエンジン

A Quantum Otto Engine with Shortcuts to Thermalization and Adiabaticity ( http://arxiv.org/abs/2306.14847v1 )

ライセンス: Link先を確認
Ali Pedram, Serhat C. Kad{\i}o\u{g}lu, Alkan Kabak\c{c}{\i}o\u{g}lu, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 我々は, 量子調和振動子オットーエンジンを, 短絡(パワーストローク, 圧縮ストローク)と平衡(ホットアイソコール)に, 反断熱駆動(CD)により加速させるエネルギー的優位性について検討した。 各種プロトコルとCD駆動との比較により, 運転コストを考慮した場合においても, 双方のショートカットを適用すれば, パワーと効率が向上することがわかった。 ハイブリッドプロトコルはリミットサイクルにおいてその優位性を保持するだけでなく、未制御の有限時間オットーサイクルが失敗するパラメータレジームにおけるエンジン機能(すなわち正の出力)を回復する。 サイクルの3ストロークの制御は,2つのアディバティックストロークの制御に比べ,パフォーマンス指標の全体的な改善につながることを示す。 さらに, エンジンのリミットサイクル挙動を数値的に計算し, この動作モードでは, イソコリックおよび断熱ストロークを加速したエンジンが優れた出力を示すことを示す。

We investigate the energetic advantage of accelerating a quantum harmonic oscillator Otto engine by use of shortcuts to adiabaticity (for the power and compression strokes) and to equilibrium (for the hot isochore), by means of counter-diabatic (CD) driving. By comparing various protocols with and without CD driving, we find that, applying both type of shortcuts leads to enhanced power and efficiency even after the driving costs are taken into account. The hybrid protocol not only retains its advantage in the limit cycle, but also recovers engine functionality (i.e., a positive power output) in parameter regimes where an uncontrolled, finite-time Otto cycle fails. We show that controlling three strokes of the cycle leads to an overall improvement of the performance metrics compared with controlling only the two adiabatic strokes. Moreover, we numerically calculate the limit cycle behavior of the engine and show that the engines with accelerated isochoric and adiabatic strokes display a superior power output in this mode of operation.
翻訳日:2023-06-27 12:28:56 公開日:2023-06-26
# vint:ビジュアルナビゲーションのための基礎モデル

ViNT: A Foundation Model for Visual Navigation ( http://arxiv.org/abs/2306.14846v1 )

ライセンス: Link先を確認
Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine(参考訳) 汎用的事前学習モデル("foundation model")は、個々の機械学習問題に対して、スクラッチから学習するために必要なものよりもはるかに小さいデータセットを使って、一般化可能なソリューションを作成することができる。 このようなモデルは通常、弱い監督を持つ大規模で多様なデータセットでトレーニングされ、個々のダウンストリームアプリケーションで利用可能なものよりも多くのトレーニングデータを消費する。 本稿では,視覚に基づくロボットナビゲーションにおける汎用事前学習モデルの成功を目的とした基礎モデルである視覚ナビゲーショントランスフォーマ(vint)について述べる。 ViNTは、任意のナビゲーションデータセットで使用可能な汎用目標到達目標をトレーニングし、フレキシブルなTransformerベースのアーキテクチャを使用して、ナビゲーションの余裕を学習し、さまざまな下流ナビゲーションタスクへの効率的な適応を可能にする。 vintは、さまざまなロボットプラットフォームから数百時間のロボットナビゲーションを含む、既存の多くのナビゲーションデータセットでトレーニングされており、特異なデータセットでトレーニングされた専門家モデルよりも優れた、ポジティブな転送を示す。 ViNTは、新しい環境を探索するための拡散に基づくサブゴールの提案で拡張することができ、長距離ヒューリスティックスを備えた場合のキロメートル規模のナビゲーション問題を解決することができる。 ViNTはプロンプトチューニングにインスパイアされた技法で新しいタスク仕様に適応することができ、ゴールエンコーダはゴールトークンの同じ空間に埋め込まれた別のタスクモダリティ(GPSウェイポイントやルーティングコマンドなど)のエンコーディングに置き換えられる。 様々な下流問題領域に対応する柔軟性と能力は、モバイルロボティクスの効果的な基盤モデルとしてViNTを確立している。 ビデオ、コード、モデルチェックポイントについては、プロジェクトページ https://visualnav-transformer.github.io を参照してください。

General-purpose pre-trained models ("foundation models") have enabled practitioners to produce generalizable solutions for individual machine learning problems with datasets that are significantly smaller than those required for learning from scratch. Such models are typically trained on large and diverse datasets with weak supervision, consuming much more training data than is available for any individual downstream application. In this paper, we describe the Visual Navigation Transformer (ViNT), a foundation model that aims to bring the success of general-purpose pre-trained models to vision-based robotic navigation. ViNT is trained with a general goal-reaching objective that can be used with any navigation dataset, and employs a flexible Transformer-based architecture to learn navigational affordances and enable efficient adaptation to a variety of downstream navigational tasks. ViNT is trained on a number of existing navigation datasets, comprising hundreds of hours of robotic navigation from a variety of different robotic platforms, and exhibits positive transfer, outperforming specialist models trained on singular datasets. ViNT can be augmented with diffusion-based subgoal proposals to explore novel environments, and can solve kilometer-scale navigation problems when equipped with long-range heuristics. ViNT can also be adapted to novel task specifications with a technique inspired by prompt-tuning, where the goal encoder is replaced by an encoding of another task modality (e.g., GPS waypoints or routing commands) embedded into the same space of goal tokens. This flexibility and ability to accommodate a variety of downstream problem domains establishes ViNT as an effective foundation model for mobile robotics. For videos, code, and model checkpoints, see our project page at https://visualnav-transformer.github.io.
翻訳日:2023-06-27 12:28:34 公開日:2023-06-26
# 変分量子シミュレーションのスケーラビリティ向上のためのフェルミオンシミュレータ

Fermionic Simulators for Enhanced Scalability of Variational Quantum Simulation ( http://arxiv.org/abs/2306.14842v1 )

ライセンス: Link先を確認
Qingyu Li, Chiranjib Mukhopadhyay, Abolfazl Bayat(参考訳) 短期量子シミュレータは主に量子ビットベースのアーキテクチャに基づいている。 しかし、その不完全な性質は実用性を著しく制限している。 この状況は、物質科学や化学のほとんどを根底にあるフェルミオン系をシミュレートする上でさらに悪化している。 光ツイーザーにおける中性原子のトラップと操作の最近の進歩により、デジタルフェルミオン量子シミュレーターが実現しつつある。 鍵となる疑問は、これらの出現するフェルミオンシミュレータが、強い相関電子系を特徴づけるためにキュービットベースのシミュレータより優れているかどうかである。 本稿では, 凝縮体系と量子化学問題の両方におけるフェルミオン系の変動基底状態エミュレーションのための量子ビットシミュレータとフェルミオンシミュレータとの資源効率の包括的比較を行う。 フェルミイオンシミュレータは量子進化の資源(循環深さ)や古典的最適化(必要パラメータ数と反復数)において量子ビットシミュレータよりも優れていることを示す。 さらに、回路のランダム初期化に対する感度を低下させる。 フェルミオンシミュレータの相対的な利点は、相互作用が強くなるにつれてさらに顕著になり、また、スピンフルフェルミオンと同様に1次元以上のトンネルが許される。 重要なのは、この改善はスケーラブルであり、fermionicシミュレータとqubitシミュレータのパフォーマンスギャップは、より大きなシステムサイズでのみ大きくなることだ。

Near-term quantum simulators are mostly based on qubit-based architectures. However, their imperfect nature significantly limits their practical application. The situation is even worse for simulating fermionic systems, which underlie most of material science and chemistry, as one has to adopt fermion-to-qubit encodings which create significant additional resource overhead and trainability issues. Thanks to recent advances in trapping and manipulation of neutral atoms in optical tweezers, digital fermionic quantum simulators are becoming viable. A key question is whether these emerging fermionic simulators can outperform qubit-based simulators for characterizing strongly correlated electronic systems. Here, we perform a comprehensive comparison of resource efficiency between qubit and fermionic simulators for variational ground-state emulation of fermionic systems in both condensed matter systems and quantum chemistry problems. We show that the fermionic simulators indeed outperform their qubit counterparts with respect to resources for quantum evolution (circuit depth), as well as classical optimization (number of required parameters and iterations). In addition, they show less sensitivity to the random initialization of the circuit. The relative advantage of fermionic simulators becomes even more pronounced as interaction becomes stronger, or tunneling is allowed in more than one dimension, as well as for spinful fermions. Importantly, this improvement is scalable, i.e., the performance gap between fermionic and qubit simulators only grows for bigger system sizes.
翻訳日:2023-06-27 12:28:04 公開日:2023-06-26
# Schistosoma mansoni Egg Detection のための適応デコーダ付きフライ級CNN

A Flyweight CNN with Adaptive Decoder for Schistosoma mansoni Egg Detection ( http://arxiv.org/abs/2306.14840v1 )

ライセンス: Link先を確認
Leonardo de Melo Joao, Azael de Melo e Sousa, Bianca Martins dos Santos, Silvio Jamil Ferzoli Guimaraes, Jancarlo Ferreira Gomes, Ewa Kijak, Alexandre Xavier Falcao(参考訳) Schistosomiasis mansoniは70か国以上で発症した寄生虫性疾患であり、胎児の顕微鏡画像に寄生虫の卵を視覚的に数えることで診断が一般的である。 State-of-the-art(SOTA)オブジェクト検出アルゴリズムは、実験室のルーチンで診断を自動化するのに適さない重いニューラルネットワークに基づいている。 我々は、SOTAオブジェクト検出器の数千倍の重量のフライウェイト畳み込みニューラルネットワーク(CNN)を提示することで、この問題を回避する。 提案手法のカーネルは,ごく少数のトレーニング画像上で,ユーザが描画したスクリブルによって示される注意領域から階層的に学習される。 代表カーネルを視覚的に識別し、計算コストを削減して性能を向上させる。 もう1つの革新は、オンザフライ画像ごとに畳み込み重みが自動的に定義される単層適応デコーダである。 実験の結果,我々のCNNは,実験室のCPU実行に適した5つの基準に従って3つのSOTAベースラインを上回り,各スレッドに対して1秒あたり約4つの画像を処理できることがわかった。

Schistosomiasis mansoni is an endemic parasitic disease in more than seventy countries, whose diagnosis is commonly performed by visually counting the parasite eggs in microscopy images of fecal samples. State-of-the-art (SOTA) object detection algorithms are based on heavyweight neural networks, unsuitable for automating the diagnosis in the laboratory routine. We circumvent the problem by presenting a flyweight Convolutional Neural Network (CNN) that weighs thousands of times less than SOTA object detectors. The kernels in our approach are learned layer-by-layer from attention regions indicated by user-drawn scribbles on very few training images. Representative kernels are visually identified and selected to improve performance with reduced computational cost. Another innovation is a single-layer adaptive decoder whose convolutional weights are automatically defined for each image on-the-fly. The experiments show that our CNN can outperform three SOTA baselines according to five measures, being also suitable for CPU execution in the laboratory routine, processing approximately four images a second for each available thread.
翻訳日:2023-06-27 12:27:40 公開日:2023-06-26
# Schr\"odinger's cat with Artificial Intelligence: Emergent Classicality from Information Bottleneck

Observing Schr\"odinger's Cat with Artificial Intelligence: Emergent Classicality from Information Bottleneck ( http://arxiv.org/abs/2306.14838v1 )

ライセンス: Link先を確認
Zhelun Zhang, Yi-Zhuang You(参考訳) 我々はSchr\"odingerの猫量子状態から収集したランダムな局所測定データに基づいて生成言語モデルを訓練する。 私たちのトレーニングデータには、Schr\"odinger's catに関する完全な量子情報が含まれていますが、弱い言語モデルは、データから猫の古典的な現実を捉えることしか学べません。 量子古典的境界を量子系の大きさと古典知的エージェントの情報処理能力の両方の観点から同定し、より強力なエージェントが量子系を取り巻く環境雑音においてより量子的性質を実現できることを示す。 我々のアプローチは、ノイズの多い中間スケール量子(NISQ)デバイスで生成されたビッグデータを使用して、量子演算子の表現学習のための生成モデルを訓練するための新たな道を開く。

We train a generative language model on the randomized local measurement data collected from Schr\"odinger's cat quantum state. We demonstrate that the classical reality emerges in the language model due to the information bottleneck: although our training data contains the full quantum information about Schr\"odinger's cat, a weak language model can only learn to capture the classical reality of the cat from the data. We identify the quantum-classical boundary in terms of both the size of the quantum system and the information processing power of the classical intelligent agent, which indicates that a stronger agent can realize more quantum nature in the environmental noise surrounding the quantum system. Our approach opens up a new avenue for using the big data generated on noisy intermediate-scale quantum (NISQ) devices to train generative models for representation learning of quantum operators, which might be a step toward our ultimate goal of creating an artificial intelligence quantum physicist.
翻訳日:2023-06-27 12:27:17 公開日:2023-06-26
# 潜在空間アンカーによる領域スカラーアンペア画像変換

Domain-Scalable Unpaired Image Translation via Latent Space Anchoring ( http://arxiv.org/abs/2306.14879v1 )

ライセンス: Link先を確認
Siyu Huang, Jie An, Donglai Wei, Zudi Lin, Jiebo Luo, Hanspeter Pfister(参考訳) unpaired image-to-image translation (unit)は、2つのビジュアルドメイン間の画像をペアトレーニングデータなしでマッピングすることを目的としている。 しかし、特定のドメインでトレーニングされたUNITモデルを考えると、既存のドメインと新しいドメインの両方でフルモデルをトレーニングする必要があるため、現在のメソッドで新しいドメインを組み込むのは難しい。 この問題に対処するため,既存の領域のエンコーダやデコーダの微調整を必要とせず,効率よく新しい視覚領域に拡張できる潜在空間アンカーと呼ばれる新しい領域スケーリング可能なUNIT手法を提案する。 本手法は, 軽量エンコーダと回帰器モデルを学習し, 単一領域画像の再構成を行うことにより, 異なる領域の画像を同じ静止空間に固定する。 推論フェーズでは、異なるドメインの学習エンコーダとデコーダを任意に組み合わせて、微調整なしで任意の2つのドメイン間で画像を変換することができる。 各種データセットに対する実験により,提案手法は,最先端の手法と比較して,標準タスクとドメインスケーリング可能なUNITタスクの両方において優れた性能を発揮することが示された。

Unpaired image-to-image translation (UNIT) aims to map images between two visual domains without paired training data. However, given a UNIT model trained on certain domains, it is difficult for current methods to incorporate new domains because they often need to train the full model on both existing and new domains. To address this problem, we propose a new domain-scalable UNIT method, termed as latent space anchoring, which can be efficiently extended to new visual domains and does not need to fine-tune encoders and decoders of existing domains. Our method anchors images of different domains to the same latent space of frozen GANs by learning lightweight encoder and regressor models to reconstruct single-domain images. In the inference phase, the learned encoders and decoders of different domains can be arbitrarily combined to translate images between any two domains without fine-tuning. Experiments on various datasets show that the proposed method achieves superior performance on both standard and domain-scalable UNIT tasks in comparison with the state-of-the-art methods.
翻訳日:2023-06-27 12:19:39 公開日:2023-06-26
# 生成プロセス改善のための再起動サンプリング

Restart Sampling for Improving Generative Processes ( http://arxiv.org/abs/2306.14878v1 )

ライセンス: Link先を確認
Yilun Xu, Mingyang Deng, Xiang Cheng, Yonglong Tian, Ziming Liu, Tommi Jaakkola(参考訳) 拡散モデルのような微分方程式の解法を含む生成過程は、しばしば速度と品質のバランスをとる必要がある。 ODEベースのサンプリングは高速であるが,SDEベースのサンプリングはサンプリング時間の増加を犠牲にして高い品質のサンプルを提供する。 ODE-samplerはより小さな離散化エラーを伴い、SDE契約の確率性はエラーを蓄積する。 そこで本研究では,離散化誤差と縮小のバランスを改善するために,リスタートと呼ばれる新しいサンプリングアルゴリズムを提案する。 サンプリング方法は、追加の前方ステップに実質的なノイズを付加することと、後方ODEを厳密に追従することとを交互に行う。 経験的に、Restart は以前の SDE と ODE のサンプルをスピードと精度で上回っている。 再起動は、以前のベストsde結果を上回るだけでなく、cifar-10 / imagenetのサンプリング速度を10倍/2倍に加速する。 さらに、同じサンプリング時間内でODEサンプルよりもはるかに優れたサンプル品質が得られる。 さらに、laion 512 \times 512$で事前トレーニングされた大規模テキストから画像への安定拡散モデルでは、テキスト画像のアライメント/ビジュアル品質と多様性のバランスが向上している。 コードはhttps://github.com/Newbeeer/diffusion_restart_samplingで入手できる。

Generative processes that involve solving differential equations, such as diffusion models, frequently necessitate balancing speed and quality. ODE-based samplers are fast but plateau in performance while SDE-based samplers deliver higher sample quality at the cost of increased sampling time. We attribute this difference to sampling errors: ODE-samplers involve smaller discretization errors while stochasticity in SDE contracts accumulated errors. Based on these findings, we propose a novel sampling algorithm called Restart in order to better balance discretization errors and contraction. The sampling method alternates between adding substantial noise in additional forward steps and strictly following a backward ODE. Empirically, Restart sampler surpasses previous SDE and ODE samplers in both speed and accuracy. Restart not only outperforms the previous best SDE results, but also accelerates the sampling speed by 10-fold / 2-fold on CIFAR-10 / ImageNet $64 \times 64$. In addition, it attains significantly better sample quality than ODE samplers within comparable sampling times. Moreover, Restart better balances text-image alignment/visual quality versus diversity than previous samplers in the large-scale text-to-image Stable Diffusion model pre-trained on LAION $512 \times 512$. Code is available at https://github.com/Newbeeer/diffusion_restart_sampling
翻訳日:2023-06-27 12:19:20 公開日:2023-06-26
# 時間局所非リンドブラドマスター方程式の量子軌道

Quantum trajectories for time-local non-Lindblad master equations ( http://arxiv.org/abs/2306.14876v1 )

ライセンス: Link先を確認
Tobias Becker and Ch\'e Netzer and Andr\'e Eckardt(参考訳) 開量子系の効率的なシミュレーションには、基底となるマスター方程式の力学を解くために確率的に進化する純粋状態によって与えられる量子ジャンプ軌道を使うことが多い。 マルコフ系では、ダイナミクスがリンドブラッドマスター方程式によって記述されるとき、この手順はモンテカルロ波動関数(mcwf)アプローチとして知られている。 しかし、超弱系-バス結合を超えて、系の力学はリンドブラッド型の方程式ではなく、擬Lindblad形式に変換できるレッドフィールド方程式によって記述される。 ここで負の散逸強度は従来のアプローチを禁止する。 この問題を解決するために、擬似Lindblad quantum trajectory (PLQT)を提案する。 他のアプローチと同様に、単一の古典的なビットを追加する以外は、状態空間の効果的な拡張を必要としない。 熱浴に結合した単一の量子ビットと相互作用するフェルミハバード鎖の永遠非マルコフマスター方程式に対するplqtをテストし、その計算労力を全マスター方程式の解と比較した。

For the efficient simulation of open quantum systems we often use quantum jump trajectories given by pure states that evolve stochastically to unravel the dynamics of the underlying master equation. In the Markovian regime, when the dynamics is described by a Lindblad master equation, this procedure is known as Monte Carlo wavefunction (MCWF) approach. However, beyond ultraweak system-bath coupling, the dynamics of the system is not described by an equation of Lindblad type, but rather by the Redfield equation, which can be brought into pseudo-Lindblad form. Here negative dissipation strengths prohibit the conventional approach. To overcome this problem, we propose a pseudo-Lindblad quantum trajectory (PLQT) unravelling. It does not require an effective extension of the state space, like other approaches, except for the addition of a single classical bit. We test the PLQT for the eternal non-Markovian master equation for a single qubit and an interacting Fermi Hubbard chain coupled to a thermal bath and discuss its computational effort compared to solving the full master equation.
翻訳日:2023-06-27 12:19:01 公開日:2023-06-26
# 白血球画像のための完全教師なしインスタンスセグメンテーション手法

A Fully Unsupervised Instance Segmentation Technique for White Blood Cell Images ( http://arxiv.org/abs/2306.14875v1 )

ライセンス: Link先を確認
Shrijeet Biswas, Amartya Bhattacharya(参考訳) 白血球 (leukocytes) とも呼ばれる白血球は、正常な免疫系細胞として機能する不均一に核化された細胞群である。 これらは骨髄に由来するもので、血液、血漿、リンパ組織に存在する。 白血球は、ヒトの体内に侵入する細菌、ウイルス、その他の病原体を殺す。 白血球数の検出は、カモフラージュ感染や、自己免疫疾患、免疫不全、血液疾患などの慢性的な疾患について医師に警告することができる。 分画は顕微鏡画像解析から白血球(WBC)の同定に重要な役割を果たしている。 顕微鏡画像におけるセグメンテーションの目標は、画像を異なる領域に分割することである。 そこで本研究では,核と細胞質の両方を含むWBCを骨髄画像からセグメント化するための新しい例分割法を提案する。

White blood cells, also known as leukocytes are group of heterogeneously nucleated cells which act as salient immune system cells. These are originated in the bone marrow and are found in blood, plasma, and lymph tissues. Leukocytes kill the bacteria, virus and other kind of pathogens which invade human body through phagocytosis that in turn results immunity. Detection of a white blood cell count can reveal camouflaged infections and warn doctors about chronic medical conditions such as autoimmune diseases, immune deficiencies, and blood disorders. Segmentation plays an important role in identification of white blood cells (WBC) from microscopic image analysis. The goal of segmentation in a microscopic image is to divide the image into different distinct regions. In our paper, we tried to propose a novel instance segmentation method for segmenting the WBCs containing both the nucleus and the cytoplasm, from bone marrow images.
翻訳日:2023-06-27 12:18:42 公開日:2023-06-26
# 離散時間結晶相の熱揺らぎと安定性

Thermal fluctuations and stability of discrete time-crystalline phases ( http://arxiv.org/abs/2306.14873v1 )

ライセンス: Link先を確認
Saptarshi Saha and Rangeet Bhattacharyya(参考訳) 離散時間変換対称性の破れは、量子多体系における離散時間結晶(DTC)相の出現につながる。 この段階では、観測可能な系はロバストなサブハーモニック応答を示す。 dtcは、通常閉システムに適用可能なフロッケ形式を用いて解析される駆動型双極子系において実験的に実現されている。 ここでは、解析を、周期駆動を受ける双極子結合二スピン散逸系である現実的なオープン量子系に拡張する。 この目的のために、我々の分析には変動制御量子マスター方程式(FRQME)を用いる。 この主方程式の散逸子は熱ゆらぎによって規則化され、摂動に対するDTC相の安定化に中心的な役割を果たす。 我々の結果は公表された実験とよく一致している。 さらに,オープン量子系におけるDTC相の温度依存性を示す。

Breaking of the discrete time-translation symmetry leads to the emergence of the discrete time-crystalline (DTC) phase in quantum many-body systems. In this phase, system observables exhibit a robust sub-harmonic response. DTC has been experimentally realized in the driven dipolar systems, which are usually analyzed using a Floquet formalism applicable to closed systems. Here, we extend the analysis to a realistic open quantum system, a dipolar coupled two-spin dissipative system subjected to a periodic drive. To this end, we use a fluctuation-regulated quantum master equation (FRQME) for our analysis. The dissipators of this master equation are regularized by thermal fluctuations and play a central role in stabilizing the DTC phase against perturbations. Our results are in excellent agreement with the published experiments. Moreover, we show the temperature dependence of the DTC phase in open quantum systems.
翻訳日:2023-06-27 12:18:28 公開日:2023-06-26
# 線形バンドイットの性能と理論的保証のバランスをとる幾何アウェアアプローチ

Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits ( http://arxiv.org/abs/2306.14872v1 )

ライセンス: Link先を確認
Yuwei Luo, Mohsen Bayati(参考訳) 本稿は,トンプソンサンプリングやグリーディのようなアルゴリズムの有望な実験性能と,悲観的理論的後悔境界との相違を明らかにする線形バンディット文学の最近の発展を動機としている。 この課題は、これらのアルゴリズムが特定の問題インスタンスではうまく機能しないが、典型例では優れているという事実から生じる。 そこで本研究では,不確実な楕円体の形状を追跡するデータ駆動手法を提案する。この手法により,Greedy,OFUL,Thompsonのサンプリングなど,幅広いアルゴリズムに対して,インスタンス依存の頻繁な後悔を解消することができる。 この結果により、ベースアルゴリズムが性能が劣るインスタンスを識別し、 `course-correct' することが可能になる。 コース修正されたアルゴリズムは、基本アルゴリズムの望ましい性質をほとんど保持しながら、$\tilde{\mathcal{o}}(d\sqrt{t})$の最小最適後悔を達成する。 実験の結果をシミュレーションにより検証し,本アルゴリズムの性能をベースラインと比較した。

This paper is motivated by recent developments in the linear bandit literature, which have revealed a discrepancy between the promising empirical performance of algorithms such as Thompson sampling and Greedy, when compared to their pessimistic theoretical regret bounds. The challenge arises from the fact that while these algorithms may perform poorly in certain problem instances, they generally excel in typical instances. To address this, we propose a new data-driven technique that tracks the geometry of the uncertainty ellipsoid, enabling us to establish an instance-dependent frequentist regret bound for a broad class of algorithms, including Greedy, OFUL, and Thompson sampling. This result empowers us to identify and ``course-correct" instances in which the base algorithms perform poorly. The course-corrected algorithms achieve the minimax optimal regret of order $\tilde{\mathcal{O}}(d\sqrt{T})$, while retaining most of the desirable properties of the base algorithms. We present simulation results to validate our findings and compare the performance of our algorithms with the baselines.
翻訳日:2023-06-27 12:18:17 公開日:2023-06-26
# 算術演算を用いたパラメータ有効モジュールの構成

Composing Parameter-Efficient Modules with Arithmetic Operations ( http://arxiv.org/abs/2306.14870v1 )

ライセンス: Link先を確認
Jinghan Zhang, Shiqi Chen, Junteng Liu, Junxian He(参考訳) 従来の完全微調整の代替として、パラメータ効率のよい微調整(PEFT)が、事前訓練された言語モデルに適応するための一般的な方法になりつつある。 peftでは、基礎となる事前学習された言語モデルが変わらず、軽量モジュールが各データセットで学習され、さまざまなドメインやタスクに適用されると、さまざまなスキルを表す複数のコンパクトモジュールが生成される。 本稿では,重み空間における線形算術演算により,これらのパラメータ効率のよいモジュールを構成することを提案する。 具体的には、まず加法演算子と否定演算子を定義し、さらに2つの基本演算子を構成してフレキシブル演算を行う。 我々のアプローチでは 'emph{no additional training} を必要とし、高度に柔軟なモジュール構成を可能にします。 1) 分散一般化, (2) マルチタスク, (3) 未学習, (4) ドメイン転送のためのパラメータ効率のよいモジュールを構成するために, 異なる算術演算を適用する。 さらに、LLaMAに基づく最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。 実験により,本手法は,既存のモジュールを全設定で大幅に上回る,新しい,効果的なパラメータ効率のモジュールを生成することを示す。

As an efficient alternative to conventional full finetuning, parameter-efficient finetuning (PEFT) is becoming the prevailing method to adapt pretrained language models. In PEFT, a lightweight module is learned on each dataset while the underlying pretrained language model remains unchanged, resulting in multiple compact modules representing diverse skills when applied to various domains and tasks. In this paper, we propose to compose these parameter-efficient modules through linear arithmetic operations in the weight space, thereby integrating different module capabilities. Specifically, we first define addition and negation operators for the module, and then further compose these two basic operators to perform flexible arithmetic. Our approach requires \emph{no additional training} and enables highly flexible module composition. We apply different arithmetic operations to compose the parameter-efficient modules for (1) distribution generalization, (2) multi-tasking, (3) unlearning, and (4) domain transfer. Additionally, we extend our approach to detoxify Alpaca-LoRA, the latest instruction-tuned large language model based on LLaMA. Empirical results demonstrate that our approach produces new and effective parameter-efficient modules that significantly outperform existing ones across all settings.
翻訳日:2023-06-27 12:17:55 公開日:2023-06-26
# NArabizi Treebankの強化 - アンダーソース言語をサポートするための多面的アプローチ

Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language ( http://arxiv.org/abs/2306.14866v1 )

ライセンス: Link先を確認
Riabi Arij, Mahamdi Menel, Seddah Djam\'e(参考訳) 本稿では,主にソーシャルメディアで使用される北アフリカアラビアのローマ字形式であるナラビジの注釈データの不足に対処し,自然言語処理(NLP)の課題を提起する。 我々は,NArabizi Treebank(Seddah et al., 2020)の豊富なバージョンを紹介し,2つの新しいアノテーション層(エンティティ認識と攻撃的言語検出)の追加と,アノテーションの整合性を保証するトークン化,モルフォシアンタクティックおよび構文的レイヤの再アノテーションについて紹介する。 さまざまなトークン化スキームを用いた実験結果は,コントリビューションの価値を示し,nerと依存性解析のための非goldトークン化による作業の影響を強調する。 今後の研究を促進するため,これらのアノテーションを一般公開する。 拡張されたナラビジツリーバンクは、この低表現言語のための洗練された言語モデルとnlpツールの作成方法を提供します。

In this paper we address the scarcity of annotated data for NArabizi, a Romanized form of North African Arabic used mostly on social media, which poses challenges for Natural Language Processing (NLP). We introduce an enriched version of NArabizi Treebank (Seddah et al., 2020) with three main contributions: the addition of two novel annotation layers (named entity recognition and offensive language detection) and a re-annotation of the tokenization, morpho-syntactic and syntactic layers that ensure annotation consistency. Our experimental results, using different tokenization schemes, showcase the value of our contributions and highlight the impact of working with non-gold tokenization for NER and dependency parsing. To facilitate future research, we make these annotations publicly available. Our enhanced NArabizi Treebank paves the way for creating sophisticated language models and NLP tools for this under-represented language.
翻訳日:2023-06-27 12:17:33 公開日:2023-06-26
# ニューラルネットワーク表現の識別性向上のためのタスク構造活用

Leveraging Task Structures for Improved Identifiability in Neural Network Representations ( http://arxiv.org/abs/2306.14861v1 )

ライセンス: Link先を確認
Wenlin Chen, Julien Horwood, Juyeon Heo, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 本研究は,教師付き学習における識別可能性の理論を,タスクの分布へのアクセスによる結果を考慮して拡張するものである。 このような場合、回帰の場合であっても識別可能性は達成可能であり、事前の作業は単一タスクの分類ケースに限定される。 さらに,潜在変数の条件付きプリエントを定義するタスク分布の存在は,置換とスケーリングの同一性(より強く,より有用な結果)の等価クラスを減少させることを示した。 これらの課題に対してさらに因果構造を仮定すると,提案手法は,因果表現学習への下流適用性とともに,簡便な最大限度最適化を可能にする。 実験により、我々のモデルは、合成および実世界のデータに対する標準表現の復元において、より一般的な教師なしモデルよりも優れていることを確認した。

This work extends the theory of identifiability in supervised learning by considering the consequences of having access to a distribution of tasks. In such cases, we show that identifiability is achievable even in the case of regression, extending prior work restricted to the single-task classification case. Furthermore, we show that the existence of a task distribution which defines a conditional prior over latent variables reduces the equivalence class for identifiability to permutations and scaling, a much stronger and more useful result. When we further assume a causal structure over these tasks, our approach enables simple maximum marginal likelihood optimization together with downstream applicability to causal representation learning. Empirically, we validate that our model outperforms more general unsupervised models in recovering canonical representations for synthetic and real-world data.
翻訳日:2023-06-27 12:16:47 公開日:2023-06-26
# 深部非パラメトリック回帰の効果的なミンコフスキー次元:関数近似と統計理論

Effective Minkowski Dimension of Deep Nonparametric Regression: Function Approximation and Statistical Theories ( http://arxiv.org/abs/2306.14859v1 )

ライセンス: Link先を確認
Zixuan Zhang, Minshuo Chen, Mengdi Wang, Wenjing Liao, Tuo Zhao(参考訳) 深層非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは固有のデータ構造に適応できることを示した。 実世界の応用において、そのような低次元多様体に正確に横たわるデータの仮定は厳密である。 本稿では、入力データが$\mathcal{s}$ で表される$\mathbb{r}^d$ の部分集合の周りに集中しているという緩和された仮定を導入し、$\mathcal{s}$ の本質的次元は、新しい複雑性記法 -- 効果的なミンコフスキー次元によって特徴づけられる。 我々は、深い非パラメトリック回帰のサンプルの複雑さが、有効ミンコフスキー次元の$\mathcal{S}$にのみ依存していることを証明する。 さらに、非パラメトリック回帰を異方性ガウス的ランダム設計で考慮し、N(0,\Sigma)$,$\Sigma$をフルランクとする理論的な知見を述べる。 固有値が指数的または多項式的崩壊を持つとき、そのようなガウス的ランダム設計の有効ミンコフスキー次元は、それぞれ $p=\mathcal{o}(\sqrt{\log n})$ または $p=\mathcal{o}(n^\gamma)$ であり、ここで $n$ は標本サイズであり、$\gamma\in(0,1)$ は多項式減衰率に依存する小さな定数である。 この理論は、多様体の仮定が持たない場合でも、深層ニューラルネットワークはデータの効果的なミンコフスキー次元に適応でき、適度なサンプルサイズに対する環境次元の呪いを回避できることを示している。

Existing theories on deep nonparametric regression have shown that when the input data lie on a low-dimensional manifold, deep neural networks can adapt to the intrinsic data structures. In real world applications, such an assumption of data lying exactly on a low dimensional manifold is stringent. This paper introduces a relaxed assumption that the input data are concentrated around a subset of $\mathbb{R}^d$ denoted by $\mathcal{S}$, and the intrinsic dimension of $\mathcal{S}$ can be characterized by a new complexity notation -- effective Minkowski dimension. We prove that, the sample complexity of deep nonparametric regression only depends on the effective Minkowski dimension of $\mathcal{S}$ denoted by $p$. We further illustrate our theoretical findings by considering nonparametric regression with an anisotropic Gaussian random design $N(0,\Sigma)$, where $\Sigma$ is full rank. When the eigenvalues of $\Sigma$ have an exponential or polynomial decay, the effective Minkowski dimension of such an Gaussian random design is $p=\mathcal{O}(\sqrt{\log n})$ or $p=\mathcal{O}(n^\gamma)$, respectively, where $n$ is the sample size and $\gamma\in(0,1)$ is a small constant depending on the polynomial decay rate. Our theory shows that, when the manifold assumption does not hold, deep neural networks can still adapt to the effective Minkowski dimension of the data, and circumvent the curse of the ambient dimensionality for moderate sample sizes.
翻訳日:2023-06-27 12:16:33 公開日:2023-06-26
# FunQA: 意外なビデオ理解を目指して

FunQA: Towards Surprising Video Comprehension ( http://arxiv.org/abs/2306.14899v1 )

ライセンス: Link先を確認
Binzhu Xie, Sicheng Zhang, Zitang Zhou, Bo Li, Yuanhan Zhang, Jack Hessel, Jingkang Yang, Ziwei Liu(参考訳) 驚くべきビデオ、例えば面白いクリップ、創造的なパフォーマンス、あるいは視覚錯覚は、大きな注目を集めている。 これらのビデオの楽しみは、単に視覚刺激に対する反応ではなく、これらのビデオに描かれた常識違反を理解する(そして評価する)人間の能力にかかっている。 本稿では,直感的かつ楽しいビデオに基づくビデオ推論の深度評価と向上を目的とした,挑戦的なビデオ質問応答(QA)データセットFunQAを紹介する。 多くのビデオqaベンチマークとは異なり、funqaは、料理やインストラクションビデオなど、あまり意外ではないコンテキストに焦点を当てている。 1)ユーモカ, 2)CreativeQA,及び 3)マジックカー。 各サブセットに対して,直観的タイムスタンプのローカライズ,詳細なビデオ記述,直観的対処に関する推論において,モデルの能力を評価するように設計された厳密なqaタスクを確立する。 また,映像に適度で鮮明なタイトルを付与し,映像クリエイティビティをスコアするなど,高レベルなタスクも行う。 FunQAベンチマークは4.3Kのビデオクリップから312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。 既存のビデオQAモデルによる大規模な実験では、空間的時間的推論、視覚中心推論、自由テキスト生成にまたがるFunQAビデオのパフォーマンスギャップが顕著である。

Surprising videos, e.g., funny clips, creative performances, or visual illusions, attract significant attention. Enjoyment of these videos is not simply a response to visual stimuli; rather, it hinges on the human capacity to understand (and appreciate) commonsense violations depicted in these videos. We introduce FunQA, a challenging video question answering (QA) dataset specifically designed to evaluate and enhance the depth of video reasoning based on counter-intuitive and fun videos. Unlike most video QA benchmarks which focus on less surprising contexts, e.g., cooking or instructional videos, FunQA covers three previously unexplored types of surprising videos: 1) HumorQA, 2) CreativeQA, and 3) MagicQA. For each subset, we establish rigorous QA tasks designed to assess the model's capability in counter-intuitive timestamp localization, detailed video description, and reasoning around counter-intuitiveness. We also pose higher-level tasks, such as attributing a fitting and vivid title to the video, and scoring the video creativity. In total, the FunQA benchmark consists of 312K free-text QA pairs derived from 4.3K video clips, spanning a total of 24 video hours. Extensive experiments with existing VideoQA models reveal significant performance gaps for the FunQA videos across spatial-temporal reasoning, visual-centered reasoning, and free-text generation.
翻訳日:2023-06-27 12:10:22 公開日:2023-06-26
# InterCode: 実行フィードバックによるインタラクティブコーディングの標準化とベンチマーク

InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback ( http://arxiv.org/abs/2306.14898v1 )

ライセンス: Link先を確認
John Yang, Akshara Prabhakar, Karthik Narasimhan, Shunyu Yao(参考訳) 人間は基本的にインタラクティブな方法でコードを書き、エラーを修正し、曖昧さを解決し、タスクを分解するために一定の実行フィードバックに頼る。 LLMは最近、有望なコーディング機能を示したが、現在のコーディングベンチマークは、主に静的命令からコードへのシーケンスのトランスダクションプロセスを検討しており、エラーの伝播や生成されたコードと最終的な実行環境との切り離しが可能である。 このギャップに対処するため、対話型コーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを標準強化学習(RL)環境として導入し、コードをアクションとして、実行フィードバックを観察する。 私たちのフレームワークは言語とプラットフォームに依存しず、自己完結型のDocker環境を使用して安全で再現可能な実行を提供し、従来のseq2seqコーディングメソッドと互換性があり、インタラクティブなコード生成のための新しいメソッドの開発を可能にします。 私たちはInterCodeを使って、静的スパイダーとNL2Bashデータセットのデータを活用して、BashとSQLをアクションスペースとして2つのインタラクティブなコード環境を作成しています。 我々は、ReActやPlan & Solveといった様々なプロンプト戦略で構成された複数の最先端LLMを評価することで、InterCodeの生存性をテストベッドとして示す。 その結果,インタラクティブなコード生成の利点が示され,コード理解と生成能力向上のための難解なベンチマークとしてインターコードの利用が期待できることを示した。 intercodeは簡単に拡張できるように設計されているが、capture the flagのような新しいタスクを組み込むこともできる。 コードとデータを持つプロジェクトサイト: https://intercode-benchmark.github.io

Humans write code in a fundamentally interactive manner and rely on constant execution feedback to correct errors, resolve ambiguities, and decompose tasks. While LLMs have recently exhibited promising coding capabilities, current coding benchmarks mostly consider a static instruction-to-code sequence transduction process, which has the potential for error propagation and a disconnect between the generated code and its final execution environment. To address this gap, we introduce InterCode, a lightweight, flexible, and easy-to-use framework of interactive coding as a standard reinforcement learning (RL) environment, with code as actions and execution feedback as observations. Our framework is language and platform agnostic, uses self-contained Docker environments to provide safe and reproducible execution, and is compatible out-of-the-box with traditional seq2seq coding methods, while enabling the development of new methods for interactive code generation. We use InterCode to create two interactive code environments with Bash and SQL as action spaces, leveraging data from the static Spider and NL2Bash datasets. We demonstrate InterCode's viability as a testbed by evaluating multiple state-of-the-art LLMs configured with different prompting strategies such as ReAct and Plan & Solve. Our results showcase the benefits of interactive code generation and demonstrate that InterCode can serve as a challenging benchmark for advancing code understanding and generation capabilities. InterCode is designed to be easily extensible and can even be used to incorporate new tasks such as Capture the Flag, a popular coding puzzle that is inherently multi-step and involves multiple programming languages. Project site with code and data: https://intercode-benchmark.github.io
翻訳日:2023-06-27 12:09:47 公開日:2023-06-26
# rvt: 3dオブジェクト操作のためのロボットビュートランスフォーマー

RVT: Robotic View Transformer for 3D Object Manipulation ( http://arxiv.org/abs/2306.14896v1 )

ライセンス: Link先を確認
Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox(参考訳) 3Dオブジェクト操作では、明示的な3D表現を構築する手法は、カメラ画像のみに依存する方法よりも優れている。 しかしvoxelsのような明示的な3d表現を使うことは、大きなコンピューティングコストを伴い、スケーラビリティに悪影響を及ぼす。 本研究では,スケーラブルかつ高精度な3次元操作用マルチビュートランスであるRVTを提案する。 RVTの重要な特徴は、ビューにまたがる情報を集約するアテンションメカニズムと、ロボットワークスペース周辺の仮想ビューから入力されたカメラの再レンダリングである。 シミュレーションでは,1つのRVTモデルが18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し,既存の最先端手法(PerAct)よりも26%高い相対的成功率を達成した。 また、同じ性能を達成するためにPerActよりも36倍速くトレーニングし、PerActの推論速度の2.3倍を達成する。 さらにRVTは、タスクごとにほんの数($10)のデモで、現実世界でさまざまな操作タスクを実行することができる。 視覚的な結果、コード、トレーニングされたモデルはhttps://robotic-view-transformer.github.io/で提供される。

For 3D object manipulation, methods that build an explicit 3D representation perform better than those relying only on camera images. But using explicit 3D representations like voxels comes at large computing cost, adversely affecting scalability. In this work, we propose RVT, a multi-view transformer for 3D manipulation that is both scalable and accurate. Some key features of RVT are an attention mechanism to aggregate information across views and re-rendering of the camera input from virtual views around the robot workspace. In simulations, we find that a single RVT model works well across 18 RLBench tasks with 249 task variations, achieving 26% higher relative success than the existing state-of-the-art method (PerAct). It also trains 36X faster than PerAct for achieving the same performance and achieves 2.3X the inference speed of PerAct. Further, RVT can perform a variety of manipulation tasks in the real world with just a few ($\sim$10) demonstrations per task. Visual results, code, and trained model are provided at https://robotic-view-transformer.github.io/.
翻訳日:2023-06-27 12:09:17 公開日:2023-06-26
# 大規模マルチモーダルモデル:cvpr 2023チュートリアルの注意点

Large Multimodal Models: Notes on CVPR 2023 Tutorial ( http://arxiv.org/abs/2306.14895v1 )

ライセンス: Link先を確認
Chunyuan Li(参考訳) 本チュートリアルでは, cvpr 2023 チュートリアル "recent advances in vision foundation models'' の一環として, ``large multimodal models: towards building and exceeding multimodal gpt-4''' というプレゼンテーションを要約する。 チュートリアルは3つの部分からなる。 まず,近年の GPT のような大規模モデルによる視覚・言語モデリングの背景について紹介し,命令調整型大規模マルチモーダルモデル (LMM) の研究を動機づける。 前提条件として,マルチモーダル空間に拡張された大規模言語モデルにおける命令チューニングの基本について述べる。 最後に,マルチモーダルgpt-4likeモデルの最小限のプロトタイプをオープンソースリソースで構築する方法を説明し,最近登場したトピックをレビューする。

This tutorial note summarizes the presentation on ``Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4'', a part of CVPR 2023 tutorial on ``Recent Advances in Vision Foundation Models''. The tutorial consists of three parts. We first introduce the background on recent GPT-like large models for vision-and-language modeling to motivate the research in instruction-tuned large multimodal models (LMMs). As a pre-requisite, we describe the basics of instruction-tuning in large language models, which is further extended to the multimodal space. Lastly, we illustrate how to build the minimum prototype of multimodal GPT-4 like models with the open-source resource, and review the recently emerged topics.
翻訳日:2023-06-27 12:08:59 公開日:2023-06-26
# 生成型分類器による位相図のマッピング

Mapping out phase diagrams with generative classifiers ( http://arxiv.org/abs/2306.14894v1 )

ライセンス: Link先を確認
Julian Arnold, Frank Sch\"afer, Alan Edelman, Christoph Bruder(参考訳) 多体物理学における中心的な課題の1つは位相図の決定であり、分類問題として考えられる。 通常、分類問題は、与えられたラベルの条件付き確率を明示的にモデル化する識別的分類器を用いて取り組まれる。 ここでは,物理系に基づく測定統計の確率的モデルに基づく生成的分類器を用いて,位相分類問題の解法が自然に適切であることを示す。 このような生成的アプローチは、統計的および量子物理学の領域に固有の概念のモデリングと、機械学習の最近の進歩から恩恵を受けている。 これにより、従来のシステム知識を活用できる自動化された方法で、古典的および量子システムのフェーズ図をマッピングする強力なフレームワークが得られます。

One of the central tasks in many-body physics is the determination of phase diagrams, which can be cast as a classification problem. Typically, classification problems are tackled using discriminative classifiers that explicitly model the conditional probability of labels given a sample. Here we show that phase-classification problems are naturally suitable to be solved using generative classifiers that are based on probabilistic models of the measurement statistics underlying the physical system. Such a generative approach benefits from modeling concepts native to the realm of statistical and quantum physics, as well as recent advances in machine learning. This yields a powerful framework for mapping out phase diagrams of classical and quantum systems in an automated fashion capable of leveraging prior system knowledge.
翻訳日:2023-06-27 12:08:44 公開日:2023-06-26
# LongCoder: コード補完のための長距離事前訓練型言語モデル

LongCoder: A Long-Range Pre-trained Language Model for Code Completion ( http://arxiv.org/abs/2306.14893v1 )

ライセンス: Link先を確認
Daya Guo and Canwen Xu and Nan Duan and Jian Yin and Julian McAuley(参考訳) 本稿では,長いコード入力を扱うことに焦点を当てたコード補完のための新しいタスクを紹介し,このタスクに対処するためにLongCoderと呼ばれるスパーストランスフォーマーモデルを提案する。 longcoderはセルフアテンションにスライディングウィンドウ機構を採用し、グローバルにアクセス可能なtokensbridgeトークンとメモリトークンの2つのタイプを導入している。 ブリッジトークンは入力シーケンス全体に挿入され、ローカル情報を集約し、グローバルなインタラクションを促進する。一方、メモリトークンは後で呼び出され、パッケージのインポートやクラス、関数、構造などの記憶が必要な重要なステートメントをハイライトするために含まれる。 我々は、より長いコードコンテキストと利用可能なCodeXGLUEベンチマークを含む、新しく構築されたデータセットで実験を行う。 実験結果から,LongCoderは従来のモデルに比べてコード補完タスクの性能が優れており,推論時の計算資源の面では同等の効率を保っていることがわかった。 すべてのコードとデータはhttps://github.com/microsoft/CodeBERT.comで入手できる。

In this paper, we introduce a new task for code completion that focuses on handling long code input and propose a sparse Transformer model, called LongCoder, to address this task. LongCoder employs a sliding window mechanism for self-attention and introduces two types of globally accessible tokens - bridge tokens and memory tokens - to improve performance and efficiency. Bridge tokens are inserted throughout the input sequence to aggregate local information and facilitate global interaction, while memory tokens are included to highlight important statements that may be invoked later and need to be memorized, such as package imports and definitions of classes, functions, or structures. We conduct experiments on a newly constructed dataset that contains longer code context and the publicly available CodeXGLUE benchmark. Experimental results demonstrate that LongCoder achieves superior performance on code completion tasks compared to previous models while maintaining comparable efficiency in terms of computational resources during inference. All the codes and data are available at https://github.com/microsoft/CodeBERT.
翻訳日:2023-06-27 12:08:31 公開日:2023-06-26
# 教師付き事前学習は文脈強化学習を学習できる

Supervised Pretraining Can Learn In-Context Reinforcement Learning ( http://arxiv.org/abs/2306.14892v1 )

ライセンス: Link先を確認
Jonathan N. Lee, Annie Xie, Aldo Pacchiano, Yash Chandak, Chelsea Finn, Ofir Nachum, Emma Brunskill(参考訳) さまざまなデータセットでトレーニングされた大規模トランスフォーマーモデルでは、コンテキスト内学習能力が著しく向上し、明示的にトレーニングされていないタスクで高い少数ショットのパフォーマンスを達成している。 本稿では,意思決定問題におけるトランスフォーマーの文脈内学習能力,すなわちバンディットのための強化学習(RL)とマルコフ決定過程について検討する。 そこで本研究では,クエリ状態と対話のコンテキスト内データセットが与えられた最適動作を予測する教師付き事前学習手法であるDPT(Decision-Pretrained Transformer)を,多様なタスクセットにわたって導入・研究する。 この手順は単純ではあるが、いくつかの驚くべき能力を持つモデルを生成する。 事前訓練されたトランスフォーマーは、オンラインと保守主義の両方をオフラインで行うことで、コンテキスト内でのさまざまなRL問題の解決に使用することができる。 このモデルはまた、事前学習された分布を新しいタスクへと一般化し、意思決定戦略を未知の構造に自動的に適応させる。 理論的には, DPT はベイジアン後方サンプリングの効率的な実装であり, 確実にサンプル効率のよい RL アルゴリズムであることを示す。 我々はさらに,dptが生み出す文脈内アルゴリズムの後悔を保証し,事前学習データを生成するアルゴリズムよりも高速に学習できることを証明するために,この接続を利用する。 これらの結果から,変換器の強い文脈内意思決定能力を実現するための,有望かつシンプルな方法が示唆された。

Large transformer models trained on diverse datasets have shown a remarkable ability to learn in-context, achieving high few-shot performance on tasks they were not explicitly trained to solve. In this paper, we study the in-context learning capabilities of transformers in decision-making problems, i.e., reinforcement learning (RL) for bandits and Markov decision processes. To do so, we introduce and study Decision-Pretrained Transformer (DPT), a supervised pretraining method where the transformer predicts an optimal action given a query state and an in-context dataset of interactions, across a diverse set of tasks. This procedure, while simple, produces a model with several surprising capabilities. We find that the pretrained transformer can be used to solve a range of RL problems in-context, exhibiting both exploration online and conservatism offline, despite not being explicitly trained to do so. The model also generalizes beyond the pretraining distribution to new tasks and automatically adapts its decision-making strategies to unknown structure. Theoretically, we show DPT can be viewed as an efficient implementation of Bayesian posterior sampling, a provably sample-efficient RL algorithm. We further leverage this connection to provide guarantees on the regret of the in-context algorithm yielded by DPT, and prove that it can learn faster than algorithms used to generate the pretraining data. These results suggest a promising yet simple path towards instilling strong in-context decision-making abilities in transformers.
翻訳日:2023-06-27 12:08:13 公開日:2023-06-26
# ファジィコンディション拡散と拡散射影の注意が顔画像補正への応用

Fuzzy-Conditioned Diffusion and Diffusion Projection Attention Applied to Facial Image Correction ( http://arxiv.org/abs/2306.14891v1 )

ライセンス: Link先を確認
Majed El Helou(参考訳) 画像拡散は画像合成において顕著な性能を示しており、暗黙的に先行画像として機能している。 このような前者は、塗装問題の解決にコンディショニングが使われてきたが、バイナリユーザベースのコンディショニングのみをサポートしている。 我々は、暗黙の拡散先行を制御可能な強度で活用できるファジィ条件拡散を導出する。 ファジィコンディショニングはピクセル単位で適用でき、異なる画像コンポーネントを様々な程度に変更することができる。 さらに,ファジィ条件の拡散と拡散依存性の注意マップを組み合わせた顔画像補正手法を提案する。 我々の写像は異常の度合いを推定し、拡散空間に投影することで得られる。 われわれのアプローチは、また、解釈可能かつ自律的な顔画像補正につながることを示す。

Image diffusion has recently shown remarkable performance in image synthesis and implicitly as an image prior. Such a prior has been used with conditioning to solve the inpainting problem, but only supporting binary user-based conditioning. We derive a fuzzy-conditioned diffusion, where implicit diffusion priors can be exploited with controllable strength. Our fuzzy conditioning can be applied pixel-wise, enabling the modification of different image components to varying degrees. Additionally, we propose an application to facial image correction, where we combine our fuzzy-conditioned diffusion with diffusion-derived attention maps. Our map estimates the degree of anomaly, and we obtain it by projecting on the diffusion space. We show how our approach also leads to interpretable and autonomous facial image correction.
翻訳日:2023-06-27 12:07:46 公開日:2023-06-26
# ibm の kick ising 実験の効率的なテンソルネットワークシミュレーション

Efficient tensor network simulation of IBM's kicked Ising experiment ( http://arxiv.org/abs/2306.14887v1 )

ライセンス: Link先を確認
Joseph Tindall, Matt Fishman, Miles Stoudenmire and Dries Sels(参考訳) ヘキサゴン格子上の127量子ビットキックイジング量子システムの高精度なメモリと時間効率の良い古典シミュレーションを報告した。 近年, ノイズ緩和技術を用いて量子プロセッサ上でのシミュレーションを行い, 精度を向上した(Nature volume 618, p. 500-505 (2023))。 ここでは、装置の量子ビット接続を反映したテンソルネットワークアプローチを採用することにより、検証可能な状態の量子デバイスから得られた結果よりもはるかに正確で、より深い深さの量子シミュレーション結果に匹敵する古典的なシミュレーションを行うことができることを示す。 テンソルネットワークのアプローチは、木のような相関を持つ量子システムのダイナミクスをシミュレートするための幅広い応用が期待できる。

We report an accurate, memory and time efficient classical simulation of a 127-qubit kicked Ising quantum system on the heavy-hexagon lattice. A simulation of this system on a quantum processor was recently performed using noise mitigation techniques to enhance accuracy (Nature volume 618, p. 500-505 (2023)). Here we show that, by adopting a tensor network approach that reflects the qubit connectivity of the device, we can perform a classical simulation that is significantly more accurate than the results obtained from the quantum device in the verifiable regime and comparable to the quantum simulation results for larger depths. The tensor network approach used will likely have broader applications for simulating the dynamics of quantum systems with tree-like correlations.
翻訳日:2023-06-27 12:07:32 公開日:2023-06-26
# RLにおける事前学習モデルのモデル化

Learning to Modulate pre-trained Models in RL ( http://arxiv.org/abs/2306.14884v1 )

ライセンス: Link先を確認
Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu, Sepp Hochreiter(参考訳) 強化学習(RL)は、ロボット工学、ゲームプレイ、シミュレーションといった様々な分野で成功している。 RLエージェントは特定のタスクに印象的な能力を示してきたが、新しいタスクに十分に適応できなかった。 教師付き学習では、この適応問題は大規模な事前学習と、新しい下流タスクへの微調整によって解決される。 近年,複数のタスクの事前学習がRLで活発化している。 しかし、事前訓練されたモデルの微調整は、しばしば破滅的な忘れ込み、すなわち、新しいタスクを微調整すると、事前訓練されたタスクのパフォーマンスが劣化する。 そこで我々は,メタワールドとdmcontrolという2つのベンチマークスイートから,データセットのモデルを事前学習した。 次に,自然言語処理において広く普及する様々な微調整手法について,新しいタスクの性能と,事前学習タスクにおける性能の保持について評価・比較を行う。 本研究は,ほとんどの微調整手法では,事前学習タスクの性能が著しく低下することを示す。 そこで本研究では,学習可能な変調プールを介して凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。 本手法は,事前学習タスクのパフォーマンスを維持しつつ,連続世界ベンチマークで最先端のパフォーマンスを実現する。 最後に、この分野における今後の研究を支援するため、50のMeta-Worldと16のDMControlタスクを含むデータセットをリリースする。

Reinforcement Learning (RL) has been successful in various domains like robotics, game playing, and simulation. While RL agents have shown impressive capabilities in their specific tasks, they insufficiently adapt to new tasks. In supervised learning, this adaptation problem is addressed by large-scale pre-training followed by fine-tuning to new down-stream tasks. Recently, pre-training on multiple tasks has been gaining traction in RL. However, fine-tuning a pre-trained model often suffers from catastrophic forgetting, that is, the performance on the pre-training tasks deteriorates when fine-tuning on new tasks. To investigate the catastrophic forgetting phenomenon, we first jointly pre-train a model on datasets from two benchmark suites, namely Meta-World and DMControl. Then, we evaluate and compare a variety of fine-tuning methods prevalent in natural language processing, both in terms of performance on new tasks, and how well performance on pre-training tasks is retained. Our study shows that with most fine-tuning approaches, the performance on pre-training tasks deteriorates significantly. Therefore, we propose a novel method, Learning-to-Modulate (L2M), that avoids the degradation of learned skills by modulating the information flow of the frozen pre-trained model via a learnable modulation pool. Our method achieves state-of-the-art performance on the Continual-World benchmark, while retaining performance on the pre-training tasks. Finally, to aid future research in this area, we release a dataset encompassing 50 Meta-World and 16 DMControl tasks.
翻訳日:2023-06-27 12:07:19 公開日:2023-06-26
# AIは完璧な気候の誤報を生み出すかもしれない

AI could create a perfect storm of climate misinformation ( http://arxiv.org/abs/2306.12807v2 )

ライセンス: Link先を確認
Victor Galaz, Hannah Metzler, Stefan Daume, Andreas Olsson, Bj\"orn Lindstr\"om, Arvid Marklund(参考訳) 私たちは今、デジタルニュースエコシステムの変革の最中です。 オンラインソーシャルネットワークの拡大、レコメンデーションシステムの影響、自動化の強化、そして新しい生成型人工知能ツールによって、気候変動や持続可能性問題に関する誤情報が世界中に移動するスピードと方法が急速に変化している。 政策立案者、研究者、そして一般大衆は、不透明なソーシャルメディアアルゴリズムの危険な組み合わせ、ソーシャルボットの分極、そして新しい世代のAI生成コンテンツに対処する力を組み合わせる必要がある。 この合成ブリーフはストックホルム大学のストックホルムレジリエンスセンター、スウェーデン王立科学アカデミーのBeijer Institute of Ecological Economics、ウィーンの複雑さ科学ハブ、カロリンスカ研究所の協力によるものである。 2023年5月24日から26日にかけてワシントンd.c.で開催されたノーベル平和サミット2023, truth, trust and hopeに独立した貢献としてまとめられた。

We are in the midst of a transformation of the digital news ecosystem. The expansion of online social networks, the influence of recommender systems, increased automation, and new generative artificial intelligence tools are rapidly changing the speed and the way misinformation about climate change and sustainability issues moves around the world. Policymakers, researchers and the public need to combine forces to address the dangerous combination of opaque social media algorithms, polarizing social bots, and a new generation of AI-generated content. This synthesis brief is the result of a collaboration between Stockholm Resilience Centre at Stockholm University, the Beijer Institute of Ecological Economics at the Royal Swedish Academy of Sciences, the Complexity Science Hub Vienna, and Karolinska Institutet. It has been put together as an independent contribution to the Nobel Prize Summit 2023, Truth, Trust and Hope, Washington D.C., 24th to 26th of May 2023.
翻訳日:2023-06-27 10:23:35 公開日:2023-06-26
# FlowFace++: セマンティックフローを教師するエンドツーエンドの顔スワッピング

FlowFace++: Explicit Semantic Flow-supervised End-to-End Face Swapping ( http://arxiv.org/abs/2306.12686v2 )

ライセンス: Link先を確認
Yu Zhang, Hao Zeng, Bowen Ma, Wei Zhang, Zhimeng Zhang, Yu Ding, Tangjie Lv, Changjie Fan(参考訳) 本研究は、明示的な意味的フロー監督とエンドツーエンドアーキテクチャを利用して、シェイプアウェアなフェイススワッピングを容易にする新しいフェイススワッピングフレームワークflowface++を提案する。 具体的には、顔形状判別器を事前訓練し、顔交換ネットワークを監督する。 識別器は形状を認識でき、対象面とソース面との形状の相違を明示的に計算するため、セマンティックフロー誘導操作により、顔交換ネットワークを最適化し、極めて現実的な結果を生成する。 顔交換ネットワークは、事前訓練された顔マスク式オートエンコーダ(mae)、クロスアテンション融合モジュール、畳み込みデコーダのスタックである。 MAEは、ターゲットとソースの顔に統一されたきめ細かい顔画像表現空間を提供し、最終的な現実的な結果を促進する。 クロスアテンション融合モジュールは、ターゲット画像の他の属性(表情、頭部ポーズ、髪型、背景、照明など)を保存しつつ、細粒度の潜在空間でソースからターゲットへの顔交換を行う。 最後に、畳み込み復号器は、クロスアテンション融合モジュールからのフェイススワッピング潜水埋め込みに応じてスワップ結果をさらに合成する。 in-the-wild faceに関する広範囲な定量的・定性的な実験は、flowface++が最先端を著しく上回っていることを示している。

This work proposes a novel face-swapping framework FlowFace++, utilizing explicit semantic flow supervision and end-to-end architecture to facilitate shape-aware face-swapping. Specifically, our work pretrains a facial shape discriminator to supervise the face swapping network. The discriminator is shape-aware and relies on a semantic flow-guided operation to explicitly calculate the shape discrepancies between the target and source faces, thus optimizing the face swapping network to generate highly realistic results. The face swapping network is a stack of a pre-trained face-masked autoencoder (MAE), a cross-attention fusion module, and a convolutional decoder. The MAE provides a fine-grained facial image representation space, which is unified for the target and source faces and thus facilitates final realistic results. The cross-attention fusion module carries out the source-to-target face swapping in a fine-grained latent space while preserving other attributes of the target image (e.g. expression, head pose, hair, background, illumination, etc). Lastly, the convolutional decoder further synthesizes the swapping results according to the face-swapping latent embedding from the cross-attention fusion module. Extensive quantitative and qualitative experiments on in-the-wild faces demonstrate that our FlowFace++ outperforms the state-of-the-art significantly, particularly while the source face is obstructed by uneven lighting or angle offset.
翻訳日:2023-06-27 10:22:55 公開日:2023-06-26
# qudit量子力学のフレーム表現

Frame representations of qudit quantum mechanics ( http://arxiv.org/abs/2305.19287v3 )

ライセンス: Link先を確認
Nicolae Cotfas(参考訳) すべての線型作用素 A:H -- > H の空間 L(H) は複素ヒルベルト空間であり、すべての自己随伴作用素 A:H -- > H の空間 A(H) は実ヒルベルト空間である。 キューディット量子力学の通常の離散位相空間の定式化は、ある直交基底を用いて L(H) と A(H) の記述に基づいている。 オルタナティブな定式化は直交基底の代わりにタイトフレームを用いて得られることを示し,qubit と qutrit に関するいくつかの例を示す。

A qudit is a quantum system described by a d-dimensional complex Hilbert space H. The space L(H) of all the linear operators A:H -- > H is a complex Hilbert space, and the space A(H) of all the self-adjoint operators A:H -- > H is a real Hilbert space. The usual discrete phase-space formulation of qudit quantum mechanics is based on the description of L(H) and A(H) by using certain orthogonal bases. We show that some alternative formulations can be obtained by using tight frames instead of orthogonal bases, and present some examples concerning the qubit and qutrit.
翻訳日:2023-06-27 10:21:57 公開日:2023-06-26
# Bayesian Implicit Neural Representation による圧縮

Compression with Bayesian Implicit Neural Representations ( http://arxiv.org/abs/2305.19185v3 )

ライセンス: Link先を確認
Zongyu Guo, Gergely Flamich, Jiajun He, Zhibo Chen, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 多くの一般的なデータ型は、ピクセルの位置や画像の場合のrgb値など、座標を信号値にマッピングする関数として表現することができる。 このビューに基づいて、コンパクトニューラルネットワークを機能表現に過度に適合させ、ネットワーク重みを符号化することで、データを圧縮することができる。 しかし、現在のソリューションのほとんどは非効率であり、低ビット精度への量子化は再構成品質を実質的に低下させる。 この問題に対処するために、変分ベイズニューラルネットワークをデータに適用し、量子化やエントロピー符号化の代わりに相対エントロピー符号化を用いて近似後重みサンプルを圧縮する手法を提案する。 この戦略により、$\beta$-elboを最小化し、$\beta$を調整して所定のネットワークアーキテクチャの異なるレートディストリクトトレードオフを目標とするレートディストリクト性能の直接最適化が可能になる。 さらに, 先行体重分布を学習するための反復アルゴリズムを導入し, 変動後方の漸進的改良プロセスを採用し, 性能を著しく向上させる。 実験により,本手法は単純さを維持しつつ,画像および音声の圧縮に強い性能を発揮することが示された。

Many common types of data can be represented as functions that map coordinates to signal values, such as pixel locations to RGB values in the case of an image. Based on this view, data can be compressed by overfitting a compact neural network to its functional representation and then encoding the network weights. However, most current solutions for this are inefficient, as quantization to low-bit precision substantially degrades the reconstruction quality. To address this issue, we propose overfitting variational Bayesian neural networks to the data and compressing an approximate posterior weight sample using relative entropy coding instead of quantizing and entropy coding it. This strategy enables direct optimization of the rate-distortion performance by minimizing the $\beta$-ELBO, and target different rate-distortion trade-offs for a given network architecture by adjusting $\beta$. Moreover, we introduce an iterative algorithm for learning prior weight distributions and employ a progressive refinement process for the variational posterior that significantly enhances performance. Experiments show that our method achieves strong performance on image and audio compression while retaining simplicity.
翻訳日:2023-06-27 10:21:46 公開日:2023-06-26
# リアルタイムスエップ検出のためのオートエンコーダ

Autoencoders for Real-Time SUEP Detection ( http://arxiv.org/abs/2306.13595v2 )

ライセンス: Link先を確認
Simranjit Singh Chhibra, Nadezda Chernyavskaya, Benedikt Maier, Maurzio Pierini and Syed Hasan(参考訳) ダークセクターを疑似等角力学で固定することで、大型ハドロン衝突器(Large Hadron Collider)でソフト・アンクラスタド・エナジー・パターン(SUEP)を生成できる: ダークシャワーやダークハドロンの高多重度生産につながる陽子-陽子衝突におけるダーククォークの生成。 最後の実験的署名は、数百mevの逆エネルギーを持つ異常に多数の軟質標準模型粒子による球対称なエネルギー沈着である。 SUEP探索の背景は、グルーオングルーオン融合によって生成される場合、マルチジェットQCDイベントである。 我々は,大型ハドロン衝突型加速器におけるコンパクト・ムーン・ソレノイド実験の高レベルトリガーシステムにおいて,QCDジェットを拒絶し,SUEPを含む異常シグネチャをリアルタイムに同定する,ディープラーニングに基づく異常検出手法を開発した。 深部畳み込み型ニューラルオートエンコーダネットワークは、内部トラッカー、電磁カロリーメータ、ハドロンカロリーメータサブ検出器を3チャンネル画像データとして、QCDイベントを用いて訓練されている。 タスクの最大の課題に取り組むために、データのスパース性のために、合計300k画像ピクセルの 0.5% はゼロではない値を持ち、非標準損失関数であるDice Loss の逆が利用されてきた。 QCDジェットの空間特性を学習した訓練されたオートエンコーダは、SuEPイベントの40%を検出でき、QCDイベントの誤タグレートは2%以下である。 モデル推論時間はIntel CoreTM i5-9600KFプロセッサを用いて測定され、約20msであることが判明し、これはハイレベルトリガーシステムのO(100)msの遅延を完全に満足している。

Confining dark sectors with pseudo-conformal dynamics can produce Soft Unclustered Energy Patterns, or SUEPs, at the Large Hadron Collider: the production of dark quarks in proton-proton collisions leading to a dark shower and the high-multiplicity production of dark hadrons. The final experimental signature is spherically-symmetric energy deposits by an anomalously large number of soft Standard Model particles with a transverse energy of a few hundred MeV. The dominant background for the SUEP search, if it gets produced via gluon-gluon fusion, is multi-jet QCD events. We have developed a deep learning-based Anomaly Detection technique to reject QCD jets and identify any anomalous signature, including SUEP, in real-time in the High-Level Trigger system of the Compact Muon Solenoid experiment at the Large Hadron Collider. A deep convolutional neural autoencoder network has been trained using QCD events by taking transverse energy deposits in the inner tracker, electromagnetic calorimeter, and hadron calorimeter sub-detectors as 3-channel image data. To tackle the biggest challenge of the task, due to the sparse nature of the data: only ~0.5% of the total ~300 k image pixels have non-zero values, a non-standard loss function, the inverse of the so-called Dice Loss, has been exploited. The trained autoencoder with learned spatial features of QCD jets can detect 40% of the SUEP events, with a QCD event mistagging rate as low as 2%. The model inference time has been measured using the Intel CoreTM i5-9600KF processor and found to be ~20 ms, which perfectly satisfies the High-Level Trigger system's latency of O(100) ms. Given the virtue of the unsupervised learning of the autoencoders, the trained model can be applied to any new physics model that predicts an experimental signature anomalous to QCD jets.
翻訳日:2023-06-27 10:18:19 公開日:2023-06-26
# ラベル・画像翻訳のための半ペアアプローチ

A Semi-Paired Approach For Label-to-Image Translation ( http://arxiv.org/abs/2306.13585v2 )

ライセンス: Link先を確認
George Eskandar, Shuai Zhang, Mohamed Abdelsamad, Mark Youssef, Diandian Guo, Bin Yang(参考訳) データ効率、あるいはラベル付きデータから一般化する能力は、ディープラーニングにおいて依然として大きな課題である。 半教師付き学習は、大量のラベル付きデータの必要性を緩和する従来の認識タスクで栄えているが、画像から画像への変換(i2i)タスクでは未熟である。 本稿では,意味的ラベルマップからフォトリアリスティックな画像を生成するi2iのサブタスクである,ラベル間変換のための最初の半教師付き(セミペア)フレームワークを提案する。 半ペア画像設定では、小さなペアデータとより大きなペア画像とラベルのセットにアクセスすることができる。 従来のような事前テキストタスクとして幾何変換を使用する代わりに、逆生成器としてペアデータ上の条件判別器を利用する入力再構成タスクを利用する。 本稿では,この共有ネットワークのための学習アルゴリズムを提案し,非表現クラスに着目した希少クラスサンプリングアルゴリズムを提案する。 3つの標準ベンチマークの実験により、提案モデルは最先端の教師なしおよび半教師付きアプローチと、はるかに少ないペアサンプルを用いて完全に教師付きアプローチより優れていることが示された。

Data efficiency, or the ability to generalize from a few labeled data, remains a major challenge in deep learning. Semi-supervised learning has thrived in traditional recognition tasks alleviating the need for large amounts of labeled data, yet it remains understudied in image-to-image translation (I2I) tasks. In this work, we introduce the first semi-supervised (semi-paired) framework for label-to-image translation, a challenging subtask of I2I which generates photorealistic images from semantic label maps. In the semi-paired setting, the model has access to a small set of paired data and a larger set of unpaired images and labels. Instead of using geometrical transformations as a pretext task like previous works, we leverage an input reconstruction task by exploiting the conditional discriminator on the paired data as a reverse generator. We propose a training algorithm for this shared network, and we present a rare classes sampling algorithm to focus on under-represented classes. Experiments on 3 standard benchmarks show that the proposed model outperforms state-of-the-art unsupervised and semi-supervised approaches, as well as some fully supervised approaches while using a much smaller number of paired samples.
翻訳日:2023-06-27 10:17:39 公開日:2023-06-26
# 3次元マルチパーソン動作予測のためのMI-Motionデータセットとベンチマーク

The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion Prediction ( http://arxiv.org/abs/2306.13566v2 )

ライセンス: Link先を確認
Xiaogang Peng, Xiao Zhou, Yikai Luo, Hao Wen, Yu Ding, Zizhao Wu(参考訳) 3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。 このタスクへのアプローチの出現にもかかわらず、標準化されたトレーニング設定とベンチマークデータセットが欠如しているため、それらを比較することは困難である。 本稿では,モーションキャプチャシステムによって収集され,ゲームエンジンを用いて洗練合成された複数の個体の骨格配列を含むマルチパーソンインタラクションモーション(mi-motion)データセットを提案する。 データセットには、人の骨格ポーズを相互作用させる167kフレームが含まれ、5つの異なる活動シーンに分類される。 複数対人動作予測の研究を容易にするため,短期,長期,超長期の予測という3つの設定で予測手法の性能を評価するベンチマークも提供する。 さらに,多人数動作予測における競合結果を示すグラフ畳み込みネットワークを活用した新しいベースライン手法を提案する。 提案したMI-Motionベンチマークデータセットとベースラインは,この分野における今後の研究を促進し,最終的には多人数インタラクションの理解とモデリングが向上すると考えている。

3D multi-person motion prediction is a challenging task that involves modeling individual behaviors and interactions between people. Despite the emergence of approaches for this task, comparing them is difficult due to the lack of standardized training settings and benchmark datasets. In this paper, we introduce the Multi-Person Interaction Motion (MI-Motion) Dataset, which includes skeleton sequences of multiple individuals collected by motion capture systems and refined and synthesized using a game engine. The dataset contains 167k frames of interacting people's skeleton poses and is categorized into 5 different activity scenes. To facilitate research in multi-person motion prediction, we also provide benchmarks to evaluate the performance of prediction methods in three settings: short-term, long-term, and ultra-long-term prediction. Additionally, we introduce a novel baseline approach that leverages graph and temporal convolutional networks, which has demonstrated competitive results in multi-person motion prediction. We believe that the proposed MI-Motion benchmark dataset and baseline will facilitate future research in this area, ultimately leading to better understanding and modeling of multi-person interactions.
翻訳日:2023-06-27 10:17:17 公開日:2023-06-26
# リアルタイム手書き文字認識のための畳み込みニューラルネットワークのFPGA実装

FPGA Implementation of Convolutional Neural Network for Real-Time Handwriting Recognition ( http://arxiv.org/abs/2306.13557v2 )

ライセンス: Link先を確認
Shichen Qiao, Haining Qiu, Lingkai Zhao, Qikun Liu, Eric J. Hoffman(参考訳) 機械学習(ML)は、最近コンピュータサイエンスの急激な分野となった。 コンピュータハードウェアエンジニアとして、人気のあるソフトウェアmlアーキテクチャのハードウェア実装に熱心で、パフォーマンス、信頼性、リソース使用量を最適化しています。 本稿では,Altera DE1 FPGA Kitを用いて手書き文字と数字を認識できる高構成のリアルタイムデバイスを設計した。 我々は,IEEE-75432ビット浮動小数点標準,ビデオグラフィックスアレー(VGA)表示プロトコル,UART(Universal Asynchronous Receiver-Transmitter)プロトコル,I2C(Inter-Integrated Circuit)プロトコルなど,さまざまな技術標準に従った。 これらは互換性、再利用性、検証の単純さにおいて設計を大幅に改善しました。 これらの標準に従い、我々は32ビット浮動小数点(FP)命令セットアーキテクチャ(ISA)を設計した。 画像処理,行列乗算,ML分類,ユーザインタフェースを管理する5段階RISCプロセッサをSystem Verilogで開発した。 リニア分類(LC)、784-64-10完全連結ニューラルネットワーク(NN)、ReLUアクティベーション層と36のクラス(数字は10、ケースインセンティブ文字は26)を備えたLeNetライクな畳み込みニューラルネットワーク(CNN)の3つの異なるMLアーキテクチャの実装と評価を行った。 トレーニングプロセスはPythonスクリプトで行われ、その結果のカーネルと重みはhexファイルに格納され、FPGAのSRAMユニットにロードされる。 畳み込み、プーリング、データ管理、その他さまざまなml機能は、我々のカスタムアセンブリ言語のファームウェアによって導かれました。 本稿では,高レベル設計ブロック図,各システムverilogモジュール間のインタフェース,ソフトウェアとファームウェアコンポーネントの実装詳細,潜在的影響に関するさらなる議論について述べる。

Machine Learning (ML) has recently been a skyrocketing field in Computer Science. As computer hardware engineers, we are enthusiastic about hardware implementations of popular software ML architectures to optimize their performance, reliability, and resource usage. In this project, we designed a highly-configurable, real-time device for recognizing handwritten letters and digits using an Altera DE1 FPGA Kit. We followed various engineering standards, including IEEE-754 32-bit Floating-Point Standard, Video Graphics Array (VGA) display protocol, Universal Asynchronous Receiver-Transmitter (UART) protocol, and Inter-Integrated Circuit (I2C) protocols to achieve the project goals. These significantly improved our design in compatibility, reusability, and simplicity in verifications. Following these standards, we designed a 32-bit floating-point (FP) instruction set architecture (ISA). We developed a 5-stage RISC processor in System Verilog to manage image processing, matrix multiplications, ML classifications, and user interfaces. Three different ML architectures were implemented and evaluated on our design: Linear Classification (LC), a 784-64-10 fully connected neural network (NN), and a LeNet-like Convolutional Neural Network (CNN) with ReLU activation layers and 36 classes (10 for the digits and 26 for the case-insensitive letters). The training processes were done in Python scripts, and the resulting kernels and weights were stored in hex files and loaded into the FPGA's SRAM units. Convolution, pooling, data management, and various other ML features were guided by firmware in our custom assembly language. This paper documents the high-level design block diagrams, interfaces between each System Verilog module, implementation details of our software and firmware components, and further discussions on potential impacts.
翻訳日:2023-06-27 10:16:58 公開日:2023-06-26
# 農業ロボットの精密噴霧のための植物形状特徴を利用した植物植物のセグメンテーションと追跡

Segmentation and Tracking of Vegetable Plants by Exploiting Vegetable Shape Feature for Precision Spray of Agricultural Robots ( http://arxiv.org/abs/2306.13518v2 )

ライセンス: Link先を確認
Nan Hu and Daobilige Su and Shuo Wang and Xuechang Wang and Huiyu Zhong and Zimeng Wang and Yongliang Qiao and Yu Tan(参考訳) 農業用ロボットの普及に伴い、従来の手作業による肥料や農薬の散布は徐々に農業用ロボットに置き換えられている。 植物農場におけるロボットの精密噴霧適用においては, 事例区分による正確な植物表現の抽出とロバストな植物追跡が重要である。 本報告では, 野菜の密着性トラッキングに関して, 連続画像における類似の色やテクスチャと野菜を関連付けるという課題を解決するために, 複数植物のセグメンテーション・トラッキングにおいて, マルチプルオブジェクトトラッキング・セグメンテーション(MOTS)の新たな手法を提案する。 本手法では,各野菜の独特の特徴を表現し,同じ野菜を異なる画像で関連付けるため,輪郭とブロブの特徴を抽出する。 各野菜にユニークなidを割り当てることで、ロボットは農場の列に沿って横断しながら、各野菜を正確に1回だけスプレーできる。 アブレーション研究を含む包括的実験を行い、2つの最先端mots法よりも優れた性能を示す。 従来のmots法と比較して,提案手法では,カメラの視野から外れた物体を再識別し,ロボットが往復するときにのみ各野菜を噴霧させることが重要となるデータアソシエーション戦略を用いて再出現させることができる。 レタス農場で試験されているが、ブロッコリーやカノーラなどの他の類似野菜にも適用できる。 この論文のコードとデータセットは、コミュニティの利益のために公開されています。

With the increasing deployment of agricultural robots, the traditional manual spray of liquid fertilizer and pesticide is gradually being replaced by agricultural robots. For robotic precision spray application in vegetable farms, accurate plant phenotyping through instance segmentation and robust plant tracking are of great importance and a prerequisite for the following spray action. Regarding the robust tracking of vegetable plants, to solve the challenging problem of associating vegetables with similar color and texture in consecutive images, in this paper, a novel method of Multiple Object Tracking and Segmentation (MOTS) is proposed for instance segmentation and tracking of multiple vegetable plants. In our approach, contour and blob features are extracted to describe unique feature of each individual vegetable, and associate the same vegetables in different images. By assigning a unique ID for each vegetable, it ensures the robot to spray each vegetable exactly once, while traversing along the farm rows. Comprehensive experiments including ablation studies are conducted, which prove its superior performance over two State-Of-The-Art (SOTA) MOTS methods. Compared to the conventional MOTS methods, the proposed method is able to re-identify objects which have gone out of the camera field of view and re-appear again using the proposed data association strategy, which is important to ensure each vegetable be sprayed only once when the robot travels back and forth. Although the method is tested on lettuce farm, it can be applied to other similar vegetables such as broccoli and canola. Both code and the dataset of this paper is publicly released for the benefit of the community: https://github.com/NanH5837/LettuceMOTS.
翻訳日:2023-06-27 10:16:24 公開日:2023-06-26
# 測定に基づく量子コンピューティングにおける3ビットDeutsch-Jozsa

Three-qubit Deutsch-Jozsa in measurement-based quantum computing ( http://arxiv.org/abs/2306.13372v2 )

ライセンス: Link先を確認
M. Schwetz and R. M. Noack(参考訳) 量子アルゴリズムを定式化する代替パラダイムである測定ベース量子コンピューティング(MBQC)は、量子アルゴリズムにおける絡み合いの役割に関する理論的洞察と同様に、潜在的に柔軟で効率的な実装をもたらす。 最近開発されたZX計算を用いて、量子回路をMBQC実装として再構成する一般的なスキームを概説する。 2キュービットのDeutsch-Jozsaアルゴリズムを用いて手法を解析した後、3キュービットのDeutsch-Jozsaアルゴリズムの一般的なMBQC実装を符号化したZXグラフ図を導出する。 このグラフは、アルゴリズムの実行にシングルキュービットの計測を使用する11キュービットのクラスタ状態を記述する。 特に測定のための軸の選択の集合は、オラクルの任意の実現の実装に使うことができる。 さらに,アルゴリズムの等価な格子クラスタ状態も導出する。

Measurement-based quantum computing (MBQC), an alternate paradigm for formulating quantum algorithms, can lead to potentially more flexible and efficient implementations as well as to theoretical insights on the role of entanglement in a quantum algorithm. Using the recently developed ZX-calculus, we outline a general scheme for reformulating quantum circuits as MBQC implementations. After illustrating the method using the two-qubit Deutsch-Jozsa algorithm, we derive a ZX graph-diagram that encodes a general MBQC implementation for the three-qubit Deutsch-Jozsa algorithm. This graph describes an 11-qubit cluster state on which single-qubit measurements are used to execute the algorithm. Particular sets of choices of the axes for the measurements can be used to implement any realization of the oracle. In addition, we derive an equivalent lattice cluster state for the algorithm.
翻訳日:2023-06-27 10:15:50 公開日:2023-06-26
# 作業の準確率分布に対する時間-逆対称性に関する一考察

A note on the time-reversal symmetry for the quasiprobability distributions of work ( http://arxiv.org/abs/2306.13353v2 )

ライセンス: Link先を確認
Gianluca Francica(参考訳) 本稿では,作業の準確率分布の時間反転について述べる。

In this short note we discuss the time-reversal of a quasiprobability distribution of work.
翻訳日:2023-06-27 10:15:35 公開日:2023-06-26
# コンフォーメータトランスデューサ音声認識システムにおける効率的かつコンパクトなコンテクスト表現に向けて

Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems ( http://arxiv.org/abs/2306.13307v2 )

ライセンス: Link先を確認
Mingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin, Yutao Xie, Xie Chen, Xunying Liu(参考訳) 現在のasrシステムは、主に発話レベルで訓練され、評価される。 長距離横断発話コンテキストを組み込むことができる。 重要なタスクは、最も関連する履歴コンテキストの適切なコンパクト表現を導出することである。 従来のlstm-rnn符号化履歴に基づく研究とは対照的に、より長い範囲のコンテキストからの情報を減衰させるlstm-rnn符号化履歴や、トランスフォーマーコンテキスト埋め込みのフレームレベル結合などとは対照的に、よりコンパクトな低次元クロス発話コンテキスト特徴をコンフォーメータトランスデューサエンコーダで学習し、先行発話履歴ベクトルを効率的にキャッシュする特別に設計された注意プーリング層を用いて学習する。 1000時間Gigaspeechコーパスの実験では、提案されたコンフォーマー・トランスデューサは、音声内部コンテキストを使用してベースラインを上回り、開発データとテストデータに対して統計的に有意なWERの0.7%から0.5%の絶対値(4.3%から3.1%の相対値)を減少させる。

Current ASR systems are mainly trained and evaluated at the utterance level. Long range cross utterance context can be incorporated. A key task is to derive a suitable compact representation of the most relevant history contexts. In contrast to previous researches based on either LSTM-RNN encoded histories that attenuate the information from longer range contexts, or frame level concatenation of transformer context embeddings, in this paper compact low-dimensional cross utterance contextual features are learned in the Conformer-Transducer Encoder using specially designed attention pooling layers that are applied over efficiently cached preceding utterances history vectors. Experiments on the 1000-hr Gigaspeech corpus demonstrate that the proposed contextualized streaming Conformer-Transducers outperform the baseline using utterance internal context only with statistically significant WER reductions of 0.7% to 0.5% absolute (4.3% to 3.1% relative) on the dev and test data.
翻訳日:2023-06-27 10:15:33 公開日:2023-06-26
# 自動運転の新技術の概要

An Overview about Emerging Technologies of Autonomous Driving ( http://arxiv.org/abs/2306.13302v2 )

ライセンス: Link先を確認
Yu Huang, Yue Chen, Zijiang Yang(参考訳) 2004年にDARPAがグランドチャレンジを始め、2007年にアーバンチャレンジを開始して以来、自動運転はAIアプリケーションの最も活発な分野となっている。 本稿では,自動運転技術とオープン問題の技術的側面について概説する。 本稿では,認識,マッピングとローカライゼーション,予測,計画と制御,シミュレーション,V2X,安全性など,自動運転システムの主要な分野について検討する。 特に私たちは,ロングテールの自動運転問題を解決するための一般的なプラットフォームであるdata closed loopのフレームワークで,これらすべての問題を詳しく説明しています。

Since DARPA started Grand Challenges in 2004 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. This paper gives an overview about technical aspects of autonomous driving technologies and open problems. We investigate the major fields of self-driving systems, such as perception, mapping and localization, prediction, planning and control, simulation, V2X and safety etc. Especially we elaborate on all these issues in a framework of data closed loop, a popular platform to solve the long tailed autonomous driving problems.
翻訳日:2023-06-27 10:15:14 公開日:2023-06-26
# 微分可能決定木は解釈可能な逆関数を学習できるか?

Can Differentiable Decision Trees Learn Interpretable Reward Functions? ( http://arxiv.org/abs/2306.13004v2 )

ライセンス: Link先を確認
Akansha Kalra, Daniel S. Brown(参考訳) 人間の意図や好みをモデル化する報酬関数の学習への関心が高まっている。 しかし、多くのフレームワークは、表現力はあるが解釈が難しいブラックボックス学習手法を使っている。 本稿では,微分可能決定木(DDT)を用いた嗜好から表現的かつ解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。 Cartpole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。 本研究では,大容量深層ニューラルネットワークの報酬関数と比較して,報酬ddtsの使用が競合性能をもたらすことを実験的に証明した。 また,DDTの軟質と硬質(argmax)の出力の選択は,高い形状の報酬を求めることと良好なRL性能を確保することとの緊張感を示すとともに,シンプルで非形状の報酬を求めることも観察した。

There is an increasing interest in learning reward functions that model human intent and human preferences. However, many frameworks use blackbox learning methods that, while expressive, are difficult to interpret. We propose and evaluate a novel approach for learning expressive and interpretable reward functions from preferences using Differentiable Decision Trees (DDTs). Our experiments across several domains, including Cartpole, Visual Gridworld environments and Atari games, provide evidence that that the tree structure of our learned reward function is useful in determining the extent to which the reward function is aligned with human preferences. We experimentally demonstrate that using reward DDTs results in competitive performance when compared with larger capacity deep neural network reward functions. We also observe that the choice between soft and hard (argmax) output of reward DDT reveals a tension between wanting highly shaped rewards to ensure good RL performance, while also wanting simple, non-shaped rewards to afford interpretability.
翻訳日:2023-06-27 10:15:05 公開日:2023-06-26