このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230419となっている論文です。

PDF登録状況(公開日: 20230419)

TitleAuthorsAbstract論文公表日・翻訳日
# MTrainS:異種記憶を用いたDLRMトレーニング効率の向上

MTrainS: Improving DLRM training efficiency using heterogeneous memories ( http://arxiv.org/abs/2305.01515v1 )

ライセンス: Link先を確認
Hiwot Tadese Kassa, Paul Johnson, Jason Akers, Mrinmoy Ghosh, Andrew Tulloch, Dheevatsa Mudigere, Jongsoo Park, Xing Liu, Ronald Dreslinski, Ehsan K. Ardestani(参考訳) 推奨モデルは非常に大きく、トレーニング中にテラバイト(TB)のメモリを必要とする。 より良い品質を求めるために、モデルのサイズと複雑さは時間とともに増大し、過度な適合を避けるために追加のトレーニングデータが必要である。 このモデルの成長は、データセンターの大量のリソースを必要とする。 したがって、データセンターの電力需要を管理するために、トレーニング効率がかなり重要になっている。 Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。 本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。 バンド幅要件は異なるテーブル間で均一ではなく、埋め込みテーブルは時間的局所性が高いことを示す。 次に、dlrm用のバイトおよびブロックアドレス可能なストレージクラスメモリを含む異種メモリを利用するmtrainを階層的に設計する。 MTrainSにより、ノード当たりのメモリ容量が向上し、メモリ容量境界ユースケースで複数のホストにスケールアウトする必要がなくなることにより、トレーニング効率が向上する。 プラットフォームメモリ階層を最適化することで、トレーニングのためのノード数を4~8倍削減し、目標のトレーニング性能を満たしながら、トレーニングのパワーとコストを節約します。

Recommendation models are very large, requiring terabytes (TB) of memory during training. In pursuit of better quality, the model size and complexity grow over time, which requires additional training data to avoid overfitting. This model growth demands a large number of resources in data centers. Hence, training efficiency is becoming considerably more important to keep the data center power demand manageable. In Deep Learning Recommendation Models (DLRM), sparse features capturing categorical inputs through embedding tables are the major contributors to model size and require high memory bandwidth. In this paper, we study the bandwidth requirement and locality of embedding tables in real-world deployed models. We observe that the bandwidth requirement is not uniform across different tables and that embedding tables show high temporal locality. We then design MTrainS, which leverages heterogeneous memory, including byte and block addressable Storage Class Memory for DLRM hierarchically. MTrainS allows for higher memory capacity per node and increases training efficiency by lowering the need to scale out to multiple hosts in memory capacity bound use cases. By optimizing the platform memory hierarchy, we reduce the number of nodes for training by 4-8X, saving power and cost of training while meeting our target training performance.
翻訳日:2023-05-07 16:04:17 公開日:2023-04-19
# 新型コロナウイルス(covid-19)のパンデミア状況に就て

Un jeu a debattre pour sensibiliser a l'Intelligence Artificielle dans le contexte de la pandemie de COVID-19 ( http://arxiv.org/abs/2304.12186v1 )

ライセンス: Link先を確認
Carole Adam, C\'edric Lauradoux(参考訳) 人工知能は私たちの生活にますます浸透している。 多くの重要な決定はAIアルゴリズムに委譲されている。高等教育へのアクセス、懲役刑の判決、自動運転車の運転などだ。 エンジニアや研究者はこの分野に教育を受けているが、一般市民はaiに関する知識がほとんどない。 結果として、彼らはメディアによって広められる(より正確には)アイデアに非常に敏感である。 したがって、ユネスコが強調したように、AIアルゴリズムの一般的な理解を人口に提供することが不可欠である。 そこで我々は,パンデミックを制御するAIソリューションの選択を目的とした市民討論という形で,真剣なゲームを提案する。 このゲームは高校生をターゲットにしており、科学フェアで初めて実験され、現在は無料で利用できる。

Artificial Intelligence is more and more pervasive in our lives. Many important decisions are delegated to AI algorithms: accessing higher education, determining prison sentences, autonomously driving vehicles... Engineers and researchers are educated to this field, while the general population has very little knowledge about AI. As a result, they are very sensitive to the (more or less accurate) ideas disseminated by the media: an AI that is unbiased, infallible, and will either save the world or lead to its demise. We therefore believe, as highlighted by UNESCO, that it is essential to provide the population with a general understanding of AI algorithms, so that they can choose wisely whether to use them (or not). To this end, we propose a serious game in the form of a civic debate aiming at selecting an AI solution to control a pandemic. This game is targeted at high school students, it was first experimented during a science fair, and is now available freely.
翻訳日:2023-04-30 07:48:46 公開日:2023-04-19
# ACROCPoLis: 公正さの感覚を作るための記述型フレームワーク

ACROCPoLis: A Descriptive Framework for Making Sense of Fairness ( http://arxiv.org/abs/2304.11217v1 )

ライセンス: Link先を確認
Andrea Aler Tubella, Dimitri Coelho Mollo, Adam Dahlgren Lindstr\"om, Hannah Devinney, Virginia Dignum, Petter Ericson, Anna Jonsson, Timotheus Kampik, Tom Lenaerts, Julian Alfredo Mendez, Juan Carlos Nieves(参考訳) 公正は、AIシステムの倫理的かつ責任ある開発と利用の中心であり、多数のフレームワークとアルゴリズムフェアネスの正式な概念が利用可能である。 しかしながら、フェアネスソリューションの多くは、最も影響のあるコミュニティのニーズや結果ではなく、技術的な考慮を中心に提案されている。 ですから私たちは、定義から焦点を逸脱し、AIシステムの効果がどのように影響し、個人や社会グループによって経験されるかを表現するために、社会的・リレーショナルな側面を取り入れたいと思っています。 本稿では,ACROCPoLisフレームワークを,公平性に着目したモデリングでアロケーションプロセスを表現する手法として提案する。 このフレームワークは、異なる状況や手続きに対する公正評価に関連する要因とそれらの相互関係を明示する共有語彙を提供する。 これにより、類似した状況を比較し、異なる状況の違いを強調し、異なる利害関係者による同じ状況の異なる解釈を捉えることができる。

Fairness is central to the ethical and responsible development and use of AI systems, with a large number of frameworks and formal notions of algorithmic fairness being available. However, many of the fairness solutions proposed revolve around technical considerations and not the needs of and consequences for the most impacted communities. We therefore want to take the focus away from definitions and allow for the inclusion of societal and relational aspects to represent how the effects of AI systems impact and are experienced by individuals and social groups. In this paper, we do this by means of proposing the ACROCPoLis framework to represent allocation processes with a modeling emphasis on fairness aspects. The framework provides a shared vocabulary in which the factors relevant to fairness assessments for different situations and procedures are made explicit, as well as their interrelationships. This enables us to compare analogous situations, to highlight the differences in dissimilar situations, and to capture differing interpretations of the same situation by different stakeholders.
翻訳日:2023-04-30 07:47:53 公開日:2023-04-19
# 変分量子PageRank

Variational Quantum PageRank ( http://arxiv.org/abs/2304.12232v1 )

ライセンス: Link先を確認
Christopher Sims(参考訳) PageRankアルゴリズムはWebページのランク付けに重要である。 開発以来、PageRankアルゴリズムは現在、検索エンジンの重要かつ基本的な部分となっている。 PageRankはグラフベースのアルゴリズムで、他のページのリンク数に基づいてページをランク付けする。 この研究は、PageRankアルゴリズムの変分量子バージョンを開発し、2つのアルゴリズムの性能を比較する。 量子PageRankは通常のPageRankアルゴリズムよりもウェブサイトのランク付けに優れていた。

The PageRank algorithm is used to rank web pages by their importance. Since its development, the PageRank algorithm is a critical and fundamental part of search engines today. PageRank is a graph-based algorithm that ranks pages based on how many other pages link to them. This work develops a variational quantum version of the PageRank algorithm and compares the performance of the two algorithms. It is found that quantum PageRank performs better at ranking websites than the normal PageRank algorithm
翻訳日:2023-04-30 07:39:46 公開日:2023-04-19
# Multipar-T: グループ会話における係り受け動作をキャプチャするマルチパーティ変換器

Multipar-T: Multiparty-Transformer for Capturing Contingent Behaviors in Group Conversations ( http://arxiv.org/abs/2304.12204v1 )

ライセンス: Link先を確認
Dong Won Lee, Yubin Kim, Rosalind Picard, Cynthia Breazeal, Hae Won Park(参考訳) 現実のAIシステムに近づくにつれて、AIエージェントはマルチパーティ(グループ)の会話に対処できなければならない。 システムは個々の行動の手がかりを認識し、複数の人のデータストリームの複雑さに対応し、グループメンバー間で起こる微妙な偶然の社会的交流を認識する必要があるため、多人数の行動を認識して解釈することは困難である。 この課題に対処するため,マルチパーティ動作モデリングのためのトランスフォーマーモデルであるMultipar-Tを提案する。 提案するアプローチのコアコンポーネントは、対人的注意(crossperson attention)です。 我々は、Multipar-Tの有効性をビデオベースグループエンゲージメント検出ベンチマークで検証し、平均F-1スコアにおける最先端のアプローチを5.2%、クラスF-1スコアを最大10.0%上回る結果を得た。 定性的分析により,我々のクロスパーソン・アテンション・モジュールは随伴行動を発見することができることを示す。

As we move closer to real-world AI systems, AI agents must be able to deal with multiparty (group) conversations. Recognizing and interpreting multiparty behaviors is challenging, as the system must recognize individual behavioral cues, deal with the complexity of multiple streams of data from multiple people, and recognize the subtle contingent social exchanges that take place amongst group members. To tackle this challenge, we propose the Multiparty-Transformer (Multipar-T), a transformer model for multiparty behavior modeling. The core component of our proposed approach is the Crossperson Attention, which is specifically designed to detect contingent behavior between pairs of people. We verify the effectiveness of Multipar-T on a publicly available video-based group engagement detection benchmark, where it outperforms state-of-the-art approaches in average F-1 scores by 5.2% and individual class F-1 scores by up to 10.0%. Through qualitative analysis, we show that our Crossperson Attention module is able to discover contingent behavior.
翻訳日:2023-04-30 07:39:30 公開日:2023-04-19
# 表面近傍に量子力学的物質波を印加して原子を左右に動かすこと

Moving an Atom towards Right or Left Side by Applying Quantum Mechanical Matter Wave Near a Surface ( http://arxiv.org/abs/2304.12321v1 )

ライセンス: Link先を確認
Sadia Humaira Salsabil, Golam Dastegir Al-Quaderi, M.R.C. Mahdy(参考訳) 光を使って原子や分子をトラップする領域は、ここ数十年で大きく進歩した。 対照的に、量子力学的物質波を用いた原子サイズの粒子の動きを(トラップだけでなく)制御するという考え方は、全く新しい粒子操作領域である。 前回の報告では物質波トラクタビームに基づく原子の引き抜きが提案されているが、この手法を用いて横力(原子を左右に動かす)を作り出す試みはまだ行われていない。 本稿では、非対称な配置を形成する金属表面の存在下での量子力学的物質波の相互作用エネルギーにより、原子に可逆的な横力を与える物質波に基づく操作シナリオを示す。 対称な設定では、横力は観測されていない。 我々は,銅表面近傍に配置されたキセノン散乱体原子の特定のセットアップに対して,散乱体の両面から表面と平行な方向にヘリウムの2つの平面物質波が衝突する,いくつかのフルウェーブシミュレーションと解析計算を行った。 時間に依存しないシュロディンガー方程式を解くことで、量子力学的応力テンソル形式が粒子に作用する力を計算するために応用された。 完全な波動シミュレーションの結果は解析計算とよく一致している。 その結果,提案手法は電子刺激脱離法と同様の効率的な洗浄法となり,未来的応用が期待できることが示唆された。

The area of trapping the atoms or molecules using light has advanced tremendously in the last few decades. In contrast, the idea of controlling (not only trapping) the movement of atomic-sized particles using quantum mechanical matter waves is a completely new emerging area of particle manipulation. Though a single previous report has suggested the pulling of atoms based on matter wave tractor beams, an attempt is yet to be made to produce a lateral force (moving the atoms towards left or right) using this technique. This article demonstrates a matter wave-based manipulation scenario that gives rise to reversible lateral force on an atom due to the interaction energy of the quantum mechanical matter wave in the presence of a metal surface creating an asymmetrical set-up. For a symmetric set-up, no lateral force has been observed. We have performed several full wave simulations and analytical calculations on a particular set-up of Xenon scatterer atoms placed near a Copper surface, with two plane matter waves of Helium impinging in the direction parallel to the surface from two sides of the scatterer. By solving the time-independent Schrodinger equation and using the solution, quantum mechanical stress tensor formalism has been applied to compute the force acting on the particle. The full wave simulation results have been found in excellent agreement with the analytical calculations. The results for the adsorbed scatterer case suggests that our proposed technique can be an efficient cleaning procedure similar to electron-stimulated desorption for futuristic applications.
翻訳日:2023-04-30 07:27:43 公開日:2023-04-19
# 大規模ラベルシステムテキスト分類モードにおける教師なしコントラスト学習とUDA半教師付き学習

ESimCSE Unsupervised Contrastive Learning Jointly with UDA Semi-Supervised Learning for Large Label System Text Classification Mode ( http://arxiv.org/abs/2304.13140v1 )

ライセンス: Link先を確認
Ruan Lu, Zhou HangCheng, Ran Meng, Zhao Jin, Qin JiaoYu, Wei Feng, Wang ChenZi(参考訳) 自然言語処理タスクにおける大きなタグシステムによるテキスト分類の課題は、複数のタグシステム、不均一なデータ分散、高ノイズである。 To address these problems, the ESimCSE unsupervised comparative learning and UDA semi-supervised comparative learning models are combined through the use of joint training techniques in the models.The ESimCSE model efficiently learns text vector representations using unlabeled data to achieve better classification results, while UDA is trained using unlabeled data through semi-supervised learning methods to improve the prediction performance of the models and stability, and further improve the generalization ability of the model. さらに、モデルの堅牢性と信頼性を向上させるため、モデルトレーニングプロセスではFGMとPGDの対向訓練技術が使用される。 実験の結果,公開データセットラスターおよび運用データセット上では,ベースラインに対して8%と10%の精度向上が達成され,操作データセットでは手作業による検証精度が15%向上し,本手法が有効であることが示唆された。

The challenges faced by text classification with large tag systems in natural language processing tasks include multiple tag systems, uneven data distribution, and high noise. To address these problems, the ESimCSE unsupervised comparative learning and UDA semi-supervised comparative learning models are combined through the use of joint training techniques in the models.The ESimCSE model efficiently learns text vector representations using unlabeled data to achieve better classification results, while UDA is trained using unlabeled data through semi-supervised learning methods to improve the prediction performance of the models and stability, and further improve the generalization ability of the model. In addition, adversarial training techniques FGM and PGD are used in the model training process to improve the robustness and reliability of the model. The experimental results show that there is an 8% and 10% accuracy improvement relative to Baseline on the public dataset Ruesters as well as on the operational dataset, respectively, and a 15% improvement in manual validation accuracy can be achieved on the operational dataset, indicating that the method is effective.
翻訳日:2023-04-30 07:19:17 公開日:2023-04-19
# 侵入検知システムにおける深層移動学習応用:総合的考察

Deep Transfer Learning Applications in Intrusion Detection Systems: A Comprehensive Review ( http://arxiv.org/abs/2304.10550v1 )

ライセンス: Link先を確認
Hamza Kheddar, Yassine Himeur, Ali Ismail Awad(参考訳) グローバルな外部インターネットは、現代産業制御システムとますます結びついています。 結果として、ネットワークをいくつかの脅威から直ちに保護する必要性がある。 産業活動の重要な基盤は、新しい種類の危険な脅威や敵対的な活動を認識するための予防対策機構である侵入検知システム(ids)を使用することによって、害から保護される可能性がある。 本研究は,IDSに基づく深層移動学習(DTL)を中心に,多種多様な産業制御ネットワークにおいてIDSを作成するための最新の人工知能(AI)技術について検討する。 後者はマージする情報融合の一種と見なすことができ、ターゲットドメイン内のラベル付きデータが少ない場合、ターゲットタスクのパフォーマンスを向上させるために複数のドメインからの知識を/または適用することができる。 2015年以降の公開が検討された。 これらの論文はDTLのみとIDSのみの3つのカテゴリに分けられ、DTLベースのIDS論文はこのレビューの中核となる論文に関係している。 研究者は、このレビュー論文を読んで、様々な種類のネットワークでIDSで使用されるDTLアプローチの現状をよりよく把握することができるだろう。 使用するデータセット、dtlの種類、トレーニング済みネットワーク、ids技術、精度/f-scoreと偽アラームレート(far)を含む評価指標、改善点など、他の有用な情報も紹介した。 いくつかの研究で使用されるアルゴリズムや手法、あるいはDTLベースのIDSサブカテゴリの原理を深く明確に記述する手法を読者に提示する。

Globally, the external Internet is increasingly being connected to the contemporary industrial control system. As a result, there is an immediate need to protect the network from several threats. The key infrastructure of industrial activity may be protected from harm by using an intrusion detection system (IDS), a preventive measure mechanism, to recognize new kinds of dangerous threats and hostile activities. The most recent artificial intelligence (AI) techniques used to create IDS in many kinds of industrial control networks are examined in this study, with a particular emphasis on IDS-based deep transfer learning (DTL). This latter can be seen as a type of information fusion that merge, and/or adapt knowledge from multiple domains to enhance the performance of the target task, particularly when the labeled data in the target domain is scarce. Publications issued after 2015 were taken into account. These selected publications were divided into three categories: DTL-only and IDS-only are involved in the introduction and background, and DTL-based IDS papers are involved in the core papers of this review. Researchers will be able to have a better grasp of the current state of DTL approaches used in IDS in many different types of networks by reading this review paper. Other useful information, such as the datasets used, the sort of DTL employed, the pre-trained network, IDS techniques, the evaluation metrics including accuracy/F-score and false alarm rate (FAR), and the improvement gained, were also covered. The algorithms, and methods used in several studies, or illustrate deeply and clearly the principle in any DTL-based IDS subcategory are presented to the reader.
翻訳日:2023-04-24 17:04:03 公開日:2023-04-19
# 部分順序の共役フリージェネリック集合の連結性に関する一考察

A note on the connectedness property of union-free generic sets of partial orders ( http://arxiv.org/abs/2304.10549v1 )

ライセンス: Link先を確認
Georg Schollmeyer, Hannah Blocher(参考訳) この短い注記は、blocherらによって導入された連結性の性質を記述し、証明している。 2023] 部分順序に対するデータ深さ関数の文脈において。 連結性はユニオンフリーな一般集合の構造的洞察を与える。 これらの集合はblocher et alで示される。 2023]は、形式的概念解析理論の中に自然に現れるすべての部分順序の集合上のクロージャ演算子を用いて定義される。 形式的概念解析の言語では、連結性の性質は鮮明に証明できる。 しかし、その後Blocherらで活動した。 2023] 形式的な概念分析を議論しなかったので, このノートに証明をアウトソースした。

This short note describes and proves a connectedness property which was introduced in Blocher et al. [2023] in the context of data depth functions for partial orders. The connectedness property gives a structural insight into union-free generic sets. These sets, presented in Blocher et al. [2023], are defined by using a closure operator on the set of all partial orders which naturally appears within the theory of formal concept analysis. In the language of formal concept analysis, the property of connectedness can be vividly proven. However, since within Blocher et al. [2023] we did not discuss formal concept analysis, we outsourced the proof to this note.
翻訳日:2023-04-24 17:03:36 公開日:2023-04-19
# 理想的共同分類器推定に基づく知識蒸留

Knowledge Distillation Under Ideal Joint Classifier Assumption ( http://arxiv.org/abs/2304.11004v1 )

ライセンス: Link先を確認
Huayu Li, Xiwen Chen, Gregory Ditzler, Ping Chang, Janet Roveda, Ao Li(参考訳) 知識蒸留は、大きなニューラルネットワークをより小さく、より効率的なネットワークに圧縮する強力な技術である。 ソフトマックス回帰表現学習は、教師ネットワークを用いてより小さな学生ネットワークの学習を指導する一般的な手法である。 ソフトマックス回帰表現学習の有効性を探究する研究がいくつかあるが、知識伝達を提供する基本的なメカニズムはよく分かっていない。 本稿では,既存の知識蒸留法を明確かつ包括的に理解し,将来研究のための理論的基礎を提供する統一的枠組みである,理想的共同分類器知識蒸留(ijckd)を提案する。 ドメイン適応理論から導かれた数学的手法を用いて,教師の関数としての学生ネットワークの誤差を詳細に分析する。 本フレームワークは教師と生徒のネットワーク間の効率的な知識伝達を可能にし,様々なアプリケーションに適用できる。

Knowledge distillation is a powerful technique to compress large neural networks into smaller, more efficient networks. Softmax regression representation learning is a popular approach that uses a pre-trained teacher network to guide the learning of a smaller student network. While several studies explored the effectiveness of softmax regression representation learning, the underlying mechanism that provides knowledge transfer is not well understood. This paper presents Ideal Joint Classifier Knowledge Distillation (IJCKD), a unified framework that provides a clear and comprehensive understanding of the existing knowledge distillation methods and a theoretical foundation for future research. Using mathematical techniques derived from a theory of domain adaptation, we provide a detailed analysis of the student network's error bound as a function of the teacher. Our framework enables efficient knowledge transfer between teacher and student networks and can be applied to various applications.
翻訳日:2023-04-24 14:23:35 公開日:2023-04-19
# RMTによる100万トークン以上のTransformerのスケーリング

Scaling Transformer to 1M tokens and beyond with RMT ( http://arxiv.org/abs/2304.11062v1 )

ライセンス: Link先を確認
Aydar Bulatov, Yuri Kuratov, Mikhail S. Burtsev(参考訳) 本技術報告では,自然言語処理において最も有効なトランスフォーマーモデルであるBERTのコンテキスト長を拡張するために,リカレントメモリの適用について述べる。 Recurrent Memory Transformerアーキテクチャを利用することで、高いメモリ取得精度を維持しながら、モデルの有効性を200万トークンにまで拡張することに成功した。 本手法は,局所的および大域的な情報の保存と処理を可能にし,再帰的手法を用いて入力シーケンスのセグメント間の情報フローを可能にする。 本実験は,自然言語理解および生成タスクにおける長期依存性処理の強化と,メモリ集約型アプリケーションにおける大規模コンテキスト処理の実現に有効なアプローチの有効性を示す。

This technical report presents the application of a recurrent memory to extend the context length of BERT, one of the most effective Transformer-based models in natural language processing. By leveraging the Recurrent Memory Transformer architecture, we have successfully increased the model's effective context length to an unprecedented two million tokens, while maintaining high memory retrieval accuracy. Our method allows for the storage and processing of both local and global information and enables information flow between segments of the input sequence through the use of recurrence. Our experiments demonstrate the effectiveness of our approach, which holds significant potential to enhance long-term dependency handling in natural language understanding and generation tasks as well as enable large-scale context processing for memory-intensive applications.
翻訳日:2023-04-24 14:17:37 公開日:2023-04-19
# 大規模ストリーミングASRにおける半教師付き学習手法の比較

A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at Scale ( http://arxiv.org/abs/2304.11053v1 )

ライセンス: Link先を確認
Cal Peyser, Michael Picheny, Kyunghyun Cho, Rohit Prabhavalkar, Ronny Huang, Tara Sainath(参考訳) アンペアテキストとオーディオインジェクションは、大きなラベル付きコーパスがない場合にasrの性能を改善する主要な方法として浮上している。 しかし、非常に大規模な教師付きコーパスで訓練され、制約付きモデルサイズやCPU予算、ストリーミング機能、NLUタスクの再構成とダウンストリームのためのリッチな格子といった現実的な要求を満たす、本番ASRシステムを改善するためのこれらの手法の展開に関するガイダンスはほとんどない。 本研究は,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,その組み合わせをジョイントトレーニングを用いた制御環境で比較する。 我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。

Unpaired text and audio injection have emerged as dominant methods for improving ASR performance in the absence of a large labeled corpus. However, little guidance exists on deploying these methods to improve production ASR systems that are trained on very large supervised corpora and with realistic requirements like a constrained model size and CPU budget, streaming capability, and a rich lattice for rescoring and for downstream NLU tasks. In this work, we compare three state-of-the-art semi-supervised methods encompassing both unpaired text and audio as well as several of their combinations in a controlled setting using joint training. We find that in our setting these methods offer many improvements beyond raw WER, including substantial gains in tail-word WER, decoder computation during inference, and lattice density.
翻訳日:2023-04-24 14:16:32 公開日:2023-04-19
# 情緒的社会人型知的システム

Affective social anthropomorphic intelligent system ( http://arxiv.org/abs/2304.11046v1 )

ライセンス: Link先を確認
Md. Adyelullahil Mamun, Hasnat Md. Abdullah, Md. Golam Rabiul Alam, Muhammad Mehedi Hassan and Md. Zia Uddin(参考訳) 人間の会話スタイルは、ユーモア、性格、声のトーンの感覚によって測定される。 これらの特徴は会話型知的バーチャルアシスタントに欠かせないものとなっている。 しかし、最先端のインテリジェントバーチャルアシスタント(IVAs)のほとんどは、人間の声の感情的意味論を解釈できない。 本研究は、感情や性格と人間のような適切な会話をすることができる人間型知的システムを提案する。 特定の感情の属性をマップするために、音声スタイル転送法も提案されている。 当初、周波数領域データ(Mel-Spectrogram)は、音符、ピッチ、リズム、メロディなどの音声特徴の離散パターンを含む時間音波データを変換することによって作成される。 CNN-Transformer-Encoderは、音声から7つの異なる感情状態を予測するために使用される。 音声はまた、スペクトルからテキストの転写を生成するrnnモデルであるdeep-speechと並行して供給される。 そして、合成スキルトーク、トランスフォーマーベース検索生成戦略、ビーム検索復号を用いて、転写テキストを多領域会話エージェントに転送し、適切なテキスト応答を生成する。 このシステムは、操作可能な潜在空間へのデータの可逆的マッピングを学習し、以前のメル・スペクトログラムフレームに基づいてメル・スペクトログラムフレームを生成し、音声合成およびスタイル転送を行う。 最後に、波形はスペクトログラムからWaveGlowを用いて生成される。 個々のモデルで行った研究の結果は注目に値するものだった。 さらに、システムと対話したユーザはポジティブなフィードバックを提供し、システムの有効性を実証した。

Human conversational styles are measured by the sense of humor, personality, and tone of voice. These characteristics have become essential for conversational intelligent virtual assistants. However, most of the state-of-the-art intelligent virtual assistants (IVAs) are failed to interpret the affective semantics of human voices. This research proposes an anthropomorphic intelligent system that can hold a proper human-like conversation with emotion and personality. A voice style transfer method is also proposed to map the attributes of a specific emotion. Initially, the frequency domain data (Mel-Spectrogram) is created by converting the temporal audio wave data, which comprises discrete patterns for audio features such as notes, pitch, rhythm, and melody. A collateral CNN-Transformer-Encoder is used to predict seven different affective states from voice. The voice is also fed parallelly to the deep-speech, an RNN model that generates the text transcription from the spectrogram. Then the transcripted text is transferred to the multi-domain conversation agent using blended skill talk, transformer-based retrieve-and-generate generation strategy, and beam-search decoding, and an appropriate textual response is generated. The system learns an invertible mapping of data to a latent space that can be manipulated and generates a Mel-spectrogram frame based on previous Mel-spectrogram frames to voice synthesize and style transfer. Finally, the waveform is generated using WaveGlow from the spectrogram. The outcomes of the studies we conducted on individual models were auspicious. Furthermore, users who interacted with the system provided positive feedback, demonstrating the system's effectiveness.
翻訳日:2023-04-24 14:15:44 公開日:2023-04-19
# 大規模言語モデルにおけるアライメントの基本限界

Fundamental Limitations of Alignment in Large Language Models ( http://arxiv.org/abs/2304.11082v1 )

ライセンス: Link先を確認
Yotam Wolf, Noam Wies, Yoav Levine, Amnon Shashua(参考訳) 人間と対話する言語モデルを開発する上で重要な側面は、人間のユーザにとって有用で有害な振る舞いを整列させることである。 これは通常、望ましい振る舞いを高め、望ましくない振る舞い、すなわちアライメントと呼ばれるプロセスを抑制する方法でモデルを調整することによって達成される。 本稿では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。 重要なことに、モデルによって提示される確率が有限である任意の挙動に対して、この挙動を出力するためにモデルをトリガーできるプロンプトが存在し、プロンプトの長さが増加する確率が増加する。 これは、望ましくない振る舞いを弱めるが完全に取り除かないアライメントプロセスは、敵対的な攻撃に対して安全ではないことを意味する。 さらに,この枠組みは,人間からのフィードバックからの強化学習などの指導的アライメントアプローチが,望ましくない行動に刺激される傾向があることを示唆している。 さらに、BEBフレームワークにはペルソナの概念が含まれており、モデルが特定のペルソナとして振る舞うように促すことで、一般的にはモデルによって提示される可能性が極めて低い振る舞いを前面に持ち込むことができる。 この理論結果は、現代の"chatGPT jailbreaks"と呼ばれる、敵のユーザがLSMを騙してアライメントガードレールを壊し、悪意のあるペルソナとして行動させることによって、大規模に実証されている。 この結果から,LLMのアライメントにおける基本的な制限が明らかになり,AIの安全性を確保するための信頼性の高いメカニズムを考案する必要が生じた。

An important aspect in developing language models that interact with humans is aligning their behavior to be useful and unharmful for their human users. This is usually achieved by tuning the model in a way that enhances desired behaviors and inhibits undesired ones, a process referred to as alignment. In this paper, we propose a theoretical approach called Behavior Expectation Bounds (BEB) which allows us to formally investigate several inherent characteristics and limitations of alignment in large language models. Importantly, we prove that for any behavior that has a finite probability of being exhibited by the model, there exist prompts that can trigger the model into outputting this behavior, with probability that increases with the length of the prompt. This implies that any alignment process that attenuates undesired behavior but does not remove it altogether, is not safe against adversarial prompting attacks. Furthermore, our framework hints at the mechanism by which leading alignment approaches such as reinforcement learning from human feedback increase the LLM's proneness to being prompted into the undesired behaviors. Moreover, we include the notion of personas in our BEB framework, and find that behaviors which are generally very unlikely to be exhibited by the model can be brought to the front by prompting the model to behave as specific persona. This theoretical result is being experimentally demonstrated in large scale by the so called contemporary "chatGPT jailbreaks", where adversarial users trick the LLM into breaking its alignment guardrails by triggering it into acting as a malicious persona. Our results expose fundamental limitations in alignment of LLMs and bring to the forefront the need to devise reliable mechanisms for ensuring AI safety.
翻訳日:2023-04-24 14:05:16 公開日:2023-04-19
# 会話的プロセスモデリング: 実践における技術、応用、および意味

Conversational Process Modelling: State of the Art, Applications, and Implications in Practice ( http://arxiv.org/abs/2304.11065v1 )

ライセンス: Link先を確認
Nataliia Klievtsova, Janik-Vasily Benzin, Timotheus Kampik, Juergen Mangler, Stefanie Rinderle-Ma(参考訳) ChatGPTのようなチャットボットは最近、大きな誇大広告を引き起こしている。 BPMアプリケーションでは、ビジネス価値を生み出すためにチャットボットを適用する方法が明確でないことが多い。 そこで本研究は,対話型プロセスモデリングをプロセス指向能力としてサポートするチャットボットを体系的に分析することを目的とする。 アプリケーションのシナリオはプロセスライフサイクルに沿って特定されます。 そして、対話的プロセスモデリングに関する体系的文献レビューを行う。 結果として生じる分類は、パラフレーズ化やプロセス記述の改善を含む会話プロセスモデリングのアプリケーションシナリオの識別のための入力として機能する。 アプリケーションのシナリオは、高等教育ドメインの実際のテストセットに基づいて、既存のチャットボットで評価される。 プロセス記述とそれに対応するプロセスモデル、およびモデル品質の評価を含む。 文献と応用シナリオ分析に基づいて,会話的プロセスモデリングの活用(実践的意味)とさらなる発展(研究方向)の勧告が導出される。

Chatbots such as ChatGPT have caused a tremendous hype lately. For BPM applications, it is often not clear how to apply chatbots to generate business value. Hence, this work aims at the systematic analysis of existing chatbots for their support of conversational process modelling as process-oriented capability. Application scenarios are identified along the process life cycle. Then a systematic literature review on conversational process modelling is performed. The resulting taxonomy serves as input for the identification of application scenarios for conversational process modelling, including paraphrasing and improvement of process descriptions. The application scenarios are evaluated for existing chatbots based on a real-world test set from the higher education domain. It contains process descriptions as well as corresponding process models, together with an assessment of the model quality. Based on the literature and application scenario analyses, recommendations for the usage (practical implications) and further development (research directions) of conversational process modelling are derived.
翻訳日:2023-04-24 14:04:04 公開日:2023-04-19
# 高精細画像合成のための階層合成GAN

Hierarchy Composition GAN for High-fidelity Image Synthesis ( http://arxiv.org/abs/1905.04693v5 )

ライセンス: Link先を確認
Fangneng Zhan, Jiaxing Huang and Shijian Lu(参考訳) 近年、画像合成におけるgans(generative adversarial network)の急速な進歩にもかかわらず、既存の画像合成アプローチは幾何領域と外観領域の両方で機能し、しばしば様々な合成アーティファクトを導入する。 本稿では、幾何学と外観領域における画像合成をエンドツーエンドのトレーニング可能なネットワークに組み込んだ革新的な階層構成GAN(HIC-GAN)を提案する。 複数のフォアグラウンドオブジェクトが画像合成に関与する間、現実的な構成幾何学を学習し、オクルージョンを処理できる革新的な階層的構成機構を設計する。 さらに,前景物体の出現を誘導する新しいアテンションマスク機構を導入し,幾何学領域における学習のためのより良いトレーニング基準を提供する。 シーンテキスト合成, ポートレート編集, 屋内レンダリングタスクに関する広範な実験により, 提案手法が質的, 定量的に優れた合成性能を実現することが示された。

Despite the rapid progress of generative adversarial networks (GANs) in image synthesis in recent years, the existing image synthesis approaches work in either geometry domain or appearance domain alone which often introduces various synthesis artifacts. This paper presents an innovative Hierarchical Composition GAN (HIC-GAN) that incorporates image synthesis in geometry and appearance domains into an end-to-end trainable network and achieves superior synthesis realism in both domains simultaneously. We design an innovative hierarchical composition mechanism that is capable of learning realistic composition geometry and handling occlusions while multiple foreground objects are involved in image composition. In addition, we introduce a novel attention mask mechanism that guides to adapt the appearance of foreground objects which also helps to provide better training reference for learning in geometry domain. Extensive experiments on scene text image synthesis, portrait editing and indoor rendering tasks show that the proposed HIC-GAN achieves superior synthesis performance qualitatively and quantitatively.
翻訳日:2023-04-21 18:47:49 公開日:2023-04-19
# フォレの時代:財団

The ERA of FOLE: Foundation ( http://arxiv.org/abs/1512.07430v3 )

ライセンス: Link先を確認
Robert E. Kent(参考訳) 本稿では,一階論理環境におけるオントロジーの表現について論じる。 オントロジーは、会話のコミュニティの知識資源をモデル化するプリミティブを定義する。 これらのプリミティブはクラス、リレーションシップ、プロパティから構成される。 オントロジーはこれらのプリミティブの解釈を制約するために形式公理を使用する。 要するに、オントロジーは論理理論を特定する。 本稿では,一階論理環境におけるオントロジの表現と解釈の議論を続行する。 多種一階論理の形式論と意味論は、 \emph{classification form} と \emph{interpretation form} の両方で発展することができる。 2つの論文、すなわち、構造の概念を定義する現在の論文、および {\ttfamily fole} の ‘the {\ttfamily era}: superstructure'' は、音論理の概念を定義するもので、'情報フローフレームワーク'で議論されたアイデアに対応する \emph{classification form} を表す。 関係表の概念を定義する ``the {\ttfamily fole} table'' と、関係データベースの概念を定義する ``the {\ttfamily fole} database'' の 2 つの論文は、"`database semantics'' という論文で見つかった資料を拡張して、 \emph{interpretation form} を表す。 分類形式はChenのエンティティ-リレーショナル-属性データモデルに従っているが、解釈形式はCoddのリレーショナルデータモデルを含んでいる。 第5の論文 ``{\tt Family FOLE} Equivalence'' は、分類形式が解釈形式と等価であることを証明している。 一般に、 FOLE 表現は概念構造的アプローチを用いており、制度の理論、形式的概念分析、情報の流れと完全に互換性がある。

This paper discusses the representation of ontologies in the first-order logical environment {\ttfamily FOLE}. An ontology defines the primitives with which to model the knowledge resources for a community of discourse. These primitives consist of classes, relationships and properties. An ontology uses formal axioms to constrain the interpretation of these primitives. In short, an ontology specifies a logical theory. This paper continues the discussion of the representation and interpretation of ontologies in the first-order logical environment {\ttfamily FOLE}. The formalism and semantics of (many-sorted) first-order logic can be developed in both a \emph{classification form} and an \emph{interpretation form}. Two papers, the current paper, defining the concept of a structure, and ``The {\ttfamily ERA} of {\ttfamily FOLE}: Superstructure'', defining the concept of a sound logic, represent the \emph{classification form}, corresponding to ideas discussed in the ``Information Flow Framework''. Two papers, ``The {\ttfamily FOLE} Table'', defining the concept of a relational table, and ``The {\ttfamily FOLE} Database'', defining the concept of a relational database, represent the \emph{interpretation form}, expanding on material found in the paper ``Database Semantics''. Although the classification form follows the entity-relationship-attribute data model of Chen, the interpretation form incorporates the relational data model of Codd. A fifth paper ``{\ttfamily FOLE} Equivalence'' proves that the classification form is equivalent to the interpretation form. In general, the {\ttfamily FOLE} representation uses a conceptual structures approach, that is completely compatible with the theory of institutions, formal concept analysis and information flow.
翻訳日:2023-04-21 18:46:55 公開日:2023-04-19
# 未知干渉実験における政策設計

Policy design in experiments with unknown interference ( http://arxiv.org/abs/2011.08174v7 )

ライセンス: Link先を確認
Davide Viviano(参考訳) 本稿では, 流出効果の存在下での福祉最大化政策の評価と推定のための実験的設計について検討する。 単位は有限個の大きなクラスタに編成され、各クラスタ内で未知の方法で相互作用する。 まず, クラスター対間のランダム化を慎重に変化させることで, 治療確率の変化の限界効果を推定し, 流出効果を考慮した単一波実験を紹介する。 限界効果を用いて、政策最適性のテストを提案する。 第2の貢献として,治療ルールを推定し,福祉を最大化するマルチウェーブ実験をデザインした。 達成可能な最大福祉と推定政策で評価された福祉の相違により、強い小さめの保証を得る。 パキスタンの農村部で実施した大規模フィールド実験において,情報拡散・現金移動プログラムに関する既存の実験を校正したシミュレーションにおいて,本手法の特性について述べる。

This paper studies experimental designs for estimation and inference on welfare-maximizing policies in the presence of spillover effects. Units are organized into a finite number of large clusters and interact in unknown ways within each cluster. As a first contribution, I introduce a single-wave experiment that, by carefully varying the randomization across cluster pairs, estimates the marginal effect of a change in treatment probabilities, taking spillover effects into account. Using the marginal effect, I propose a test for policy optimality. As a second contribution, I design a multiple-wave experiment to estimate treatment rules and maximize welfare. I derive strong small-sample guarantees on the difference between the maximum attainable welfare and the welfare evaluated at the estimated policy. I illustrate the method's properties in simulations calibrated to existing experiments on information diffusion and cash-transfer programs, and in a large scale field experiment implemented in rural Pakistan.
翻訳日:2023-04-21 18:43:29 公開日:2023-04-19
# 非エルミート準粒子の確率的リセットからの絡み合い遷移

Entanglement Transitions from Stochastic Resetting of Non-Hermitian Quasiparticles ( http://arxiv.org/abs/2111.03500v3 )

ライセンス: Link先を確認
Xhek Turkeshi, Marcello Dalmonte, Rosario Fazio, Marco Schir\`o(参考訳) 我々は、よく定義された準粒子を持つ監視量子多体系における絡み合い力学の現象論的理論を提唱した。 この理論の中での絡み合いは、有限逆寿命で与えられる速度で測定プロトコルによって確率的にリセットされる非エルミート準粒子を確率的に伝播させることによってもたらされる。 エンタングルメントエントロピーの統計量に対する更新式を書き、準粒子崩壊率のスペクトルによって異なるエンタングルメントスケーリングが起こり、さらには急激なエンタングルメント相転移が起こることを示した。 量子ジャンプによって横磁化を測定する量子イジングチェーンに適用した場合、この理論はエンタングルメントの対数的スケーリング、領域法相、およびそれらの間の連続相転移を伴う臨界相を予測し、遷移点における正方根として有効中心電荷が消滅する。 我々はこれらの予測と同一モデル上の正確な数値計算を比較し、優れた一致を見出す。

We put forward a phenomenological theory for entanglement dynamics in monitored quantum many-body systems with well-defined quasiparticles. Within this theory entanglement is carried by ballistically propagating non-Hermitian quasiparticles which are stochastically reset by the measurement protocol with rate given by their finite inverse lifetime. We write down a renewal equation for the statistics of the entanglement entropy and show that depending on the spectrum of quasiparticle decay rates different entanglement scaling can arise and even sharp entanglement phase transitions. When applied to a Quantum Ising chain where the transverse magnetization is measured by quantum jumps, our theory predicts a critical phase with logarithmic scaling of the entanglement, an area law phase and a continuous phase transition between them, with an effective central charge vanishing as a square root at the transition point. We compare these predictions with with exact numerical calculations on the same model and find an excellent agreement.
翻訳日:2023-04-21 18:06:41 公開日:2023-04-19
# 配向マトロイド錯体に対するラベル付きサンプル圧縮スキーム

Labeled sample compression schemes for complexes of oriented matroids ( http://arxiv.org/abs/2110.15168v3 )

ライセンス: Link先を確認
Victor Chepoi, Kolja Knauer, Manon Philibert(参考訳) vc-dimension $d$ の向き付けされたマトロイド(略して com)の複合体の頂点は、適切なラベル付きサンプル圧縮スキームを$d$ で認める。 これは、高平面のアフィン配置に関するベン・ダビッドとリトマンのアンプル類に関するモランとワーマスの結果をかなり拡張し、一様配向マトロイドの複素数論の著者の1つであり、計算学習理論において最も古い開問題の一つであるサンプル圧縮予想への一歩である。 一方,本手法では,配向マトロイド理論を用いてCOMのリッチなコンビネータセル構造を利用する。 一方、COMのトープグラフを部分立方体として見ることは、計量グラフ理論と実りあるリンクを生み出す。

We show that the topes of a complex of oriented matroids (abbreviated COM) of VC-dimension $d$ admit a proper labeled sample compression scheme of size $d$. This considerably extends results of Moran and Warmuth on ample classes, of Ben-David and Litman on affine arrangements of hyperplanes, and of the authors on complexes of uniform oriented matroids, and is a step towards the sample compression conjecture -- one of the oldest open problems in computational learning theory. On the one hand, our approach exploits the rich combinatorial cell structure of COMs via oriented matroid theory. On the other hand, viewing tope graphs of COMs as partial cubes creates a fruitful link to metric graph theory.
翻訳日:2023-04-21 18:06:23 公開日:2023-04-19
# 量子遅延トレーニング

Quantum Lazy Training ( http://arxiv.org/abs/2202.08232v6 )

ライセンス: Link先を確認
Erfan Abedi, Salman Beigi, Leila Taghavi(参考訳) 勾配降下による過度パラメータ化モデル関数の訓練では、パラメータが大きく変化せず、初期値に近づかないことがある。 この現象は遅延トレーニングと呼ばれ、初期パラメータ周辺のモデル関数の線形近似を考える動機付けとなる。 遅延状態において、この線形近似は、関連するカーネルである接カーネルと呼ばれるパラメータ化関数の挙動を模倣し、モデルのトレーニング性能を規定する。 遅延トレーニングは、幅が大きい(古典的)ニューラルネットワークの場合に発生することが知られている。 本稿では、幾何学的に局所的なパラメータ化された量子回路のトレーニングが、大量の量子ビットの遅延レジームに入ることを示す。 より正確には、トレーニング過程におけるそのような幾何学的局所的なパラメータ化量子回路のパラメータの変化率と、関連する量子モデル関数の線形近似の精度のバウンダリを証明し、これらのバウンダリは、キュービットの数が増加するにつれてゼロになる傾向がある。 我々は数値シミュレーションを用いて解析結果を支持する。

In the training of over-parameterized model functions via gradient descent, sometimes the parameters do not change significantly and remain close to their initial values. This phenomenon is called lazy training, and motivates consideration of the linear approximation of the model function around the initial parameters. In the lazy regime, this linear approximation imitates the behavior of the parameterized function whose associated kernel, called the tangent kernel, specifies the training performance of the model. Lazy training is known to occur in the case of (classical) neural networks with large widths. In this paper, we show that the training of geometrically local parameterized quantum circuits enters the lazy regime for large numbers of qubits. More precisely, we prove bounds on the rate of changes of the parameters of such a geometrically local parameterized quantum circuit in the training process, and on the precision of the linear approximation of the associated quantum model function; both of these bounds tend to zero as the number of qubits grows. We support our analytic results with numerical simulations.
翻訳日:2023-04-21 17:56:42 公開日:2023-04-19
# 軽視による監督

Supervision by Denoising ( http://arxiv.org/abs/2202.02952v2 )

ライセンス: Link先を確認
Sean I. Young, Adrian V. Dalca, Enzo Ferrante, Polina Golland, Christopher A. Metzler, Bruce Fischl, and Juan Eugenio Iglesias(参考訳) u-netのような学習ベースの画像再構成モデルは、適切な一般化が保証される場合、大量のラベル付き画像を必要とする。 しかし、一部の撮像領域では、画素レベルやボクセルレベルのラベル精度を持つラベル付きデータを取得するコストが低くなる。 この問題は、単一の基底的真理ラベルが存在しない医療画像のような領域でさらに悪化し、その結果、ラベルに大量の繰り返し変動が生じる。 したがって、ラベル付きおよびラベルなしの例(半教師付き学習と呼ばれる)から学習することで、より一般化するための訓練レコンストラクションネットワークは、実用的かつ理論的に興味深い問題である。 しかし、画像再構成のための従来の半教師付き学習手法は、特定の画像問題に特有の識別可能な正規化器を手作りする必要があり、非常に時間がかかる。 本研究は,自己の復号化出力をソフトラベルとして,再構成モデルの監督を可能にするフレームワークである「復号化スーパービジョン(SUD)」を提案する。 SUDは、時空間デノナイズフレームワークの下で確率平均化と空間デノナイズ技術を統一し、セミスーパービジョンのための最適化フレームワークにおけるデノナイズとモデルウェイト更新ステップを交互に行う。 例えば、生体医用画像(解剖学的脳再構築(3D)と皮質パーセレーション(2D))による2つの問題にSUDを適用し、教師付きおよび確率的平均化ベースラインよりも画像再構成の大幅な改善を示す。

Learning-based image reconstruction models, such as those based on the U-Net, require a large set of labeled images if good generalization is to be guaranteed. In some imaging domains, however, labeled data with pixel- or voxel-level label accuracy are scarce due to the cost of acquiring them. This problem is exacerbated further in domains like medical imaging, where there is no single ground truth label, resulting in large amounts of repeat variability in the labels. Therefore, training reconstruction networks to generalize better by learning from both labeled and unlabeled examples (called semi-supervised learning) is problem of practical and theoretical interest. However, traditional semi-supervised learning methods for image reconstruction often necessitate handcrafting a differentiable regularizer specific to some given imaging problem, which can be extremely time-consuming. In this work, we propose "supervision by denoising" (SUD), a framework that enables us to supervise reconstruction models using their own denoised output as soft labels. SUD unifies stochastic averaging and spatial denoising techniques under a spatio-temporal denoising framework and alternates denoising and model weight update steps in an optimization framework for semi-supervision. As example applications, we apply SUD to two problems arising from biomedical imaging -- anatomical brain reconstruction (3D) and cortical parcellation (2D) -- to demonstrate a significant improvement in the image reconstructions over supervised-only and stochastic averaging baselines.
翻訳日:2023-04-21 17:55:17 公開日:2023-04-19
# スパースベイズ学習を用いたチャネル推定のための適応深み付きddpg駆動ディープアンフォールディング

DDPG-Driven Deep-Unfolding with Adaptive Depth for Channel Estimation with Sparse Bayesian Learning ( http://arxiv.org/abs/2201.08477v3 )

ライセンス: Link先を確認
Qiyu Hu, Shuhan Shi, Yunlong Cai and Guanding Yu(参考訳) ディープ・アンフォールディング・ニューラルネット(NN)は、比較的低い複雑さで良好な性能を達成したため、大きな注目を集めている。 通常、これらのディープアンフォールディングNNは全ての入力に対して固定深度に制限される。 しかし、収束に必要な層の数は異なる入力で変化する。 本稿では,まず,異なる入力に対して適応的な奥行きを持つ,ddpg(deep deterministic policy gradient)駆動のディープアンフォールディングの枠組みを考案し,確率的勾配降下アルゴリズムによって直接更新されるのではなく,ddpgで学習可能なnnの学習パラメータを学習する。 具体的には、ddpgの状態、動作、状態遷移として、最適化変数、トレーニング可能なパラメータ、およびディープアンフォールディングnnのアーキテクチャをそれぞれ設計する。 次に,多入力多重出力システムにおけるチャネル推定問題に対処するために,このフレームワークを用いる。 具体的には、まず、オフグリッドベースでチャネル推定問題を定式化し、スパースベイズ学習(SBL)に基づくアルゴリズムを開発し、それを解く。 第二に、SBLベースのアルゴリズムは、導入可能なトレーニング可能なパラメータのセットを持つ階層構造に展開される。 第3に、SBLアルゴリズムの展開構造に基づいて、提案したDDPG駆動のディープアンフォールディングフレームワークを用いて、このチャネル推定問題を解く。 適応的な深さを実現するために,チャネル再構成誤差の関数である停止時間を示す停止スコアを設計する。 さらに,提案手法を拡張し,一般深層ニューラルネットワーク(dnn)の適応的深さを実現する。 シミュレーションの結果,提案アルゴリズムは従来の最適化アルゴリズムやDNNよりも高い性能を示し,層数を大幅に削減した。

Deep-unfolding neural networks (NNs) have received great attention since they achieve satisfactory performance with relatively low complexity. Typically, these deep-unfolding NNs are restricted to a fixed-depth for all inputs. However, the optimal number of layers required for convergence changes with different inputs. In this paper, we first develop a framework of deep deterministic policy gradient (DDPG)-driven deep-unfolding with adaptive depth for different inputs, where the trainable parameters of deep-unfolding NN are learned by DDPG, rather than updated by the stochastic gradient descent algorithm directly. Specifically, the optimization variables, trainable parameters, and architecture of deep-unfolding NN are designed as the state, action, and state transition of DDPG, respectively. Then, this framework is employed to deal with the channel estimation problem in massive multiple-input multiple-output systems. Specifically, first of all we formulate the channel estimation problem with an off-grid basis and develop a sparse Bayesian learning (SBL)-based algorithm to solve it. Secondly, the SBL-based algorithm is unfolded into a layer-wise structure with a set of introduced trainable parameters. Thirdly, the proposed DDPG-driven deep-unfolding framework is employed to solve this channel estimation problem based on the unfolded structure of the SBL-based algorithm. To realize adaptive depth, we design the halting score to indicate when to stop, which is a function of the channel reconstruction error. Furthermore, the proposed framework is extended to realize the adaptive depth of the general deep neural networks (DNNs). Simulation results show that the proposed algorithm outperforms the conventional optimization algorithms and DNNs with fixed depth with much reduced number of layers.
翻訳日:2023-04-21 17:54:38 公開日:2023-04-19
# 道路利用者検出のための確率論的アプローチ

Probabilistic Approach for Road-Users Detection ( http://arxiv.org/abs/2112.01360v3 )

ライセンス: Link先を確認
G. Melotti and W. Lu and P. Conde and D. Zhao and A. Asvadi and N. Gon\c{c}alves and C. Premebida(参考訳) 自動運転アプリケーションにおける物体検出は、セマンティックオブジェクトの検出と追跡が、歩行者や車両のような都市部の運転環境に特有のことを暗示している。 最先端のディープラーニングに基づくオブジェクト検出における大きな課題の1つは、自信過剰なスコアで発生する偽陽性である。 安全上の懸念から、自動運転や他の重要なロボット知覚領域では、これは非常に望ましくない。 本稿では, 深層物体検出ネットワークに新しい確率層を導入することにより, 過密予測の問題を緩和する手法を提案する。 提案手法は従来のsgmoidまたはsoftmax予測層を避け、しばしば自信過剰な予測を生成する。 提案手法は, 真正に対する性能を劣化させることなく, 偽正の過信を低減できることを実証した。 この手法は、YOLOV4とSECOND(Lidar-based detector)による2D-KITTI対物検出で検証される。 提案手法は,ネットワークの再学習を必要とせず,解釈可能な確率予測を可能にする。

Object detection in autonomous driving applications implies that the detection and tracking of semantic objects are commonly native to urban driving environments, as pedestrians and vehicles. One of the major challenges in state-of-the-art deep-learning based object detection are false positives which occur with overconfident scores. This is highly undesirable in autonomous driving and other critical robotic-perception domains because of safety concerns. This paper proposes an approach to alleviate the problem of overconfident predictions by introducing a novel probabilistic layer to deep object detection networks in testing. The suggested approach avoids the traditional Sigmoid or Softmax prediction layer which often produces overconfident predictions. It is demonstrated that the proposed technique reduces overconfidence in the false positives without degrading the performance on the true positives. The approach is validated on the 2D-KITTI objection detection through the YOLOV4 and SECOND (Lidar-based detector). The proposed approach enables interpretable probabilistic predictions without the requirement of re-training the network and therefore is very practical.
翻訳日:2023-04-21 17:53:57 公開日:2023-04-19
# AIオートノミー : 自己開始型オープンワールド連続学習と適応

AI Autonomy : Self-Initiated Open-World Continual Learning and Adaptation ( http://arxiv.org/abs/2203.08994v3 )

ライセンス: Link先を確認
Bing Liu, Sahisnu Mazumder, Eric Robertson, Scott Grigsby(参考訳) ますます多くのaiエージェントが使われるようになるにつれ、これらのエージェントを完全な自律性を持たせ、(1)人間エンジニアの開始に定期的にオフラインで再訓練されるのではなく、自己モチベーションと自己開始の方法で継続的に学習し、(2)予期せぬ状況や新しい状況に適応し適応させる方法を考える時が来ている。 現実世界は未知や新規性に満ちたオープン環境であるため、ノベルティの検出、特徴付け、それらへの適応、基礎訓練データ収集、未知/ノベルティの段階的な学習といった能力は、aiエージェントを時間とともにより知識豊かで強力で自己維持可能なものにするために重要になる。 ここでの重要な課題は、エージェント自身のイニシアチブや、人間、他のエージェント、そして人間のオンザジョブ学習と同じように環境との相互作用を通じて継続的に実行されるように、プロセスを自動化する方法である。 本稿では,この学習パラダイムのためのフレームワーク(SOLA)を提案する。 実現可能性を示すために、実装エージェントについても述べる。

As more and more AI agents are used in practice, it is time to think about how to make these agents fully autonomous so that they can (1) learn by themselves continually in a self-motivated and self-initiated manner rather than being retrained offline periodically on the initiation of human engineers and (2) accommodate or adapt to unexpected or novel circumstances. As the real-world is an open environment that is full of unknowns or novelties, the capabilities of detecting novelties, characterizing them, accommodating/adapting to them, gathering ground-truth training data and incrementally learning the unknowns/novelties become critical in making the AI agent more and more knowledgeable, powerful and self-sustainable over time. The key challenge here is how to automate the process so that it is carried out continually on the agent's own initiative and through its own interactions with humans, other agents and the environment just like human on-the-job learning. This paper proposes a framework (called SOLA) for this learning paradigm to promote the research of building autonomous and continual learning enabled AI agents. To show feasibility, an implemented agent is also described.
翻訳日:2023-04-21 17:45:59 公開日:2023-04-19
# マルコフポテンシャルゲームにおける独立学習と分散学習

Independent and Decentralized Learning in Markov Potential Games ( http://arxiv.org/abs/2205.14590v4 )

ライセンス: Link先を確認
Chinmay Maheshwari and Manxi Wu and Druv Pai and Shankar Sastry(参考訳) マルチエージェント強化学習ダイナミックスを提案し、無限水平割引マルコフポテンシャルゲームにおける収束解析を行う。 我々は、プレイヤーがゲームモデルに関する知識を持っておらず、協調できない独立的で分散的な設定に焦点を当てる。 各ステージにおいて、プレイヤーは、実現された1ステージの報酬に基づいて非同期に合計の対価を評価できる摂動q関数の見積もりを更新する。 そして、プレイヤーは、推定Q-関数に基づいて、スムーズな最適1段偏差戦略を組み込むことで、それぞれのポリシーを独立に更新する。 学習ダイナミクスの重要な特徴は、q関数の見積もりがポリシーよりも高速なタイムスケールで更新されることです。 学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおいて定常ナッシュ平衡に収束することを示す。 本研究は,最小限の情報しか得られない環境でも定常nash平衡に達するための単純な学習ダイナミクスの有効性を浮き彫りにする。

We propose a multi-agent reinforcement learning dynamics, and analyze its convergence in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players do not have knowledge of the game model and cannot coordinate. In each stage, players update their estimate of a perturbed Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating a smoothed optimal one-stage deviation strategy based on the estimated Q-function. A key feature of the learning dynamics is that the Q-function estimates are updated at a faster timescale than the policies. We prove that the policies induced by our learning dynamics converge to a stationary Nash equilibrium in Markov potential games with probability 1. Our results highlight the efficacy of simple learning dynamics in reaching a stationary Nash equilibrium even in environments with minimal information available.
翻訳日:2023-04-21 17:36:22 公開日:2023-04-19
# コミュニケーション効率の高い適応型連合学習

Communication-Efficient Adaptive Federated Learning ( http://arxiv.org/abs/2205.02719v3 )

ライセンス: Link先を確認
Yujia Wang, Lu Lin, Jinghui Chen(参考訳) フェデレーション学習(federated learning)は、クライアントが独自のローカライズデータを共有することなく、共同でモデルをトレーニング可能な、マシンラーニングトレーニングパラダイムである。 しかし、繰り返しサーバ-クライアント同期による通信オーバーヘッドの増大や、SGDベースのモデル更新による適応性の欠如など、実際にはフェデレーション学習の実装には多くの課題がある。 勾配圧縮や量子化による通信コスト削減のための様々な手法が提案されているが、FedAdamのような適応最適化器の連合版は適応性を高めるために提案されているが、現在の連合学習フレームワークは上記の課題をすべて一度に解くことはできない。 本稿では,理論収束を保証する新しいコミュニケーション効率適応型フェデレーション学習法(FedCAMS)を提案する。 我々は、非凸確率最適化設定において、提案したFedCAMSが、非圧縮の値と同じ$O(\frac{1}{\sqrt{TKm}})$を得ることを示す。 様々なベンチマークに関する大規模な実験は、我々の理論分析を検証する。

Federated learning is a machine learning training paradigm that enables clients to jointly train models without sharing their own localized data. However, the implementation of federated learning in practice still faces numerous challenges, such as the large communication overhead due to the repetitive server-client synchronization and the lack of adaptivity by SGD-based model updates. Despite that various methods have been proposed for reducing the communication cost by gradient compression or quantization, and the federated versions of adaptive optimizers such as FedAdam are proposed to add more adaptivity, the current federated learning framework still cannot solve the aforementioned challenges all at once. In this paper, we propose a novel communication-efficient adaptive federated learning method (FedCAMS) with theoretical convergence guarantees. We show that in the nonconvex stochastic optimization setting, our proposed FedCAMS achieves the same convergence rate of $O(\frac{1}{\sqrt{TKm}})$ as its non-compressed counterparts. Extensive experiments on various benchmarks verify our theoretical analysis.
翻訳日:2023-04-21 17:35:35 公開日:2023-04-19
# マニフォールド2サンプル実験:ニューラルネットワークを用いた積分確率測定

A Manifold Two-Sample Test Study: Integral Probability Metric with Neural Networks ( http://arxiv.org/abs/2205.02043v2 )

ライセンス: Link先を確認
Jie Wang, Minshuo Chen, Tuo Zhao, Wenjing Liao, Yao Xie(参考訳) 2サンプルテストは、2つの観測コレクションが同じ分布に従うかどうかを判断する重要な領域である。 低次元多様体上に支持された高次元試料に対する積分確率距離(IPM)に基づく2サンプル試験を提案する。 我々は,本質次元 $d$ を持つ多様体の構造およびサンプル $n$ の個数に関して,提案するテストの性質を特徴付ける。 アトラスが与えられると、一般分布の違いを特定するための2段階のテストを提案し、これは$n^{-1/\max\{d,2\}}$の順序でタイプIIリスクを達成する。 atlasが与えられない場合、$(s,\beta)$-H\'older densitiesを持つデータ分布に適用可能なH\older IPMテストを提案し、$n^{-(s+\beta)/d}$の順でタイプIIリスクを達成する。 ニューラルネットワークを用いてH\"older IPMの評価を行う際の計算負荷を軽減するために,H\"older関数クラスを近似した。 ニューラルネットワークの近似理論に基づき、ニューラルネットワークipmテストは、h\"older ipmテストと同じ2型リスクである$n^{-(s+\beta)/d}$の順でタイプiiのリスクを持つことを示した。 提案手法は,データ次元ではなく本質的な次元に大きく依存するため,低次元の幾何学的構造に適応する。

Two-sample tests are important areas aiming to determine whether two collections of observations follow the same distribution or not. We propose two-sample tests based on integral probability metric (IPM) for high-dimensional samples supported on a low-dimensional manifold. We characterize the properties of proposed tests with respect to the number of samples $n$ and the structure of the manifold with intrinsic dimension $d$. When an atlas is given, we propose two-step test to identify the difference between general distributions, which achieves the type-II risk in the order of $n^{-1/\max\{d,2\}}$. When an atlas is not given, we propose H\"older IPM test that applies for data distributions with $(s,\beta)$-H\"older densities, which achieves the type-II risk in the order of $n^{-(s+\beta)/d}$. To mitigate the heavy computation burden of evaluating the H\"older IPM, we approximate the H\"older function class using neural networks. Based on the approximation theory of neural networks, we show that the neural network IPM test has the type-II risk in the order of $n^{-(s+\beta)/d}$, which is in the same order of the type-II risk as the H\"older IPM test. Our proposed tests are adaptive to low-dimensional geometric structure because their performance crucially depends on the intrinsic dimension instead of the data dimension.
翻訳日:2023-04-21 17:35:18 公開日:2023-04-19
# 弱監視ビデオ異常検出における見落としビデオ分類

Overlooked Video Classification in Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2210.06688v2 )

ライセンス: Link先を確認
Weijun Tan, Qi Yao, Jingfeng Liu(参考訳) 現在の弱教師付きビデオ異常検出アルゴリズムは、主に複数のインスタンス学習(MIL)またはそれらの変種を用いる。 ほぼすべての最近のアプローチは、パフォーマンスを改善するためのトレーニングのための正しいスニペットの選択方法に焦点を当てている。 彼らは異常検出の性能を高めるのにビデオ分類の力を見逃したり、気づかなかったりする。 本稿では,BERT や LSTM を用いた映像分類管理の能力を明らかにする。 このBERTまたはLSTMにより、ビデオの全スニペットのCNN機能は、ビデオ分類に使用できる単一の機能に集約できる。 このシンプルで強力なビデオ分類の監督は、milフレームワークに組み合わされ、主要な3つのビデオ異常検出データセットすべてに驚くべきパフォーマンス改善をもたらす。 特に、XD-Violenceの平均平均精度(mAP)をSOTA 78.84\%から新しい82.10\%に改善する。 ソースコードはhttps://github.com/wjtan99/bert_anomaly_video_classificationで入手できる。

Current weakly supervised video anomaly detection algorithms mostly use multiple instance learning (MIL) or their varieties. Almost all recent approaches focus on how to select the correct snippets for training to improve the performance. They overlook or do not realize the power of video classification in boosting the performance of anomaly detection. In this paper, we study explicitly the power of video classification supervision using a BERT or LSTM. With this BERT or LSTM, CNN features of all snippets of a video can be aggregated into a single feature which can be used for video classification. This simple yet powerful video classification supervision, combined into the MIL framework, brings extraordinary performance improvement on all three major video anomaly detection datasets. Particularly it improves the mean average precision (mAP) on the XD-Violence from SOTA 78.84\% to new 82.10\%. The source code is available at https://github.com/wjtan99/BERT_Anomaly_Video_Classification.
翻訳日:2023-04-21 17:19:48 公開日:2023-04-19
# マルチスケール深部生成モデルによる状態特異的タンパク質-リガンド複合体構造予測

State-specific protein-ligand complex structure prediction with a multi-scale deep generative model ( http://arxiv.org/abs/2209.15171v2 )

ライセンス: Link先を確認
Zhuoran Qiao, Weili Nie, Arash Vahdat, Thomas F. Miller III, Anima Anandkumar(参考訳) タンパク質と小さな分子配位子によって形成される結合複合体はユビキタスであり、生命に必須である。 近年のタンパク質構造予測の進歩にもかかわらず、既存のアルゴリズムではタンパク質の折りたたみに対する制御効果とともに結合配位子構造を系統的に予測することはできない。 タンパク質配列とリガンド分子グラフ入力のみを使用して、タンパク質-リガンド複合体構造を直接予測する計算手法であるneuroplexerを提案する。 NeuralPLexerは、結合複合体の3次元構造とその構造変化を原子分解能でサンプリングするために、深い生成モデルを採用している。 本モデルは,生体物理学的な制約と多スケールの幾何学的深層学習システムを組み合わせた拡散過程に基づき,残差レベル接触マップと重原子座標を階層的にサンプリングする。 NeuralPLexerは、タンパク質リガンドドッキングとフレキシブルな結合サイト構造回復のベンチマークにおける既存のすべての方法と比較して、最先端のパフォーマンスを実現している。 さらに、リガンドフリー状態とリガンドバウンド状態の両方のアンサンブルをサンプリングする特異性のため、NeuralPLexerは、大きなコンフォメーション変化を持つ2つの代表構造対(平均TM-score=0.93)と最近決定されたリガンド結合タンパク質(平均TM-score=0.89)のグローバルなタンパク質構造精度において、一貫してAlphaFold2を上回っている。 ケーススタディでは、予測されたコンフォメーション変異は、ヒトKRAS$^\textrm{G12C}$、ケトール酸還元酵素、精製GPCRなどの重要な標的の構造決定実験と一致していることが明らかとなった。 我々の研究は、データ駆動アプローチがタンパク質と小さな分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。

The binding complexes formed by proteins and small molecule ligands are ubiquitous and critical to life. Despite recent advancements in protein structure prediction, existing algorithms are so far unable to systematically predict the binding ligand structures along with their regulatory effects on protein folding. To address this discrepancy, we present NeuralPLexer, a computational approach that can directly predict protein-ligand complex structures solely using protein sequence and ligand molecular graph inputs. NeuralPLexer adopts a deep generative model to sample the 3D structures of the binding complex and their conformational changes at an atomistic resolution. The model is based on a diffusion process that incorporates essential biophysical constraints and a multi-scale geometric deep learning system to iteratively sample residue-level contact maps and all heavy-atom coordinates in a hierarchical manner. NeuralPLexer achieves state-of-the-art performance compared to all existing methods on benchmarks for both protein-ligand blind docking and flexible binding site structure recovery. Moreover, owing to its specificity in sampling both ligand-free-state and ligand-bound-state ensembles, NeuralPLexer consistently outperforms AlphaFold2 in terms of global protein structure accuracy on both representative structure pairs with large conformational changes (average TM-score=0.93) and recently determined ligand-binding proteins (average TM-score=0.89). Case studies reveal that the predicted conformational variations are consistent with structure determination experiments for important targets, including human KRAS$^\textrm{G12C}$, ketol-acid reductoisomerase, and purine GPCRs. Our study suggests that a data-driven approach can capture the structural cooperativity between proteins and small molecules, showing promise in accelerating the design of enzymes, drug molecules, and beyond.
翻訳日:2023-04-21 17:19:35 公開日:2023-04-19
# 連続時間システム解析のための深層学習手法

A Deep Learning Approach to Analyzing Continuous-Time Systems ( http://arxiv.org/abs/2209.12128v2 )

ライセンス: Link先を確認
Cory Shain and William Schuler(参考訳) 科学者は複雑な自然過程を研究するのに観測時系列データを使うことが多いが、回帰分析はしばしば単純なダイナミクスを仮定している。 ディープラーニングの最近の進歩は、複雑なプロセスのモデルのパフォーマンスに驚くべき改善をもたらしたが、深層学習は一般的に科学分析には使われていない。 ここでは,深層学習を複雑なプロセスの解析に利用し,解釈可能性を維持しつつ柔軟な関数近似を提供する。 我々のアプローチは、多くの自然システムにはありえない、データの解釈に批判的に影響を与えるような標準的な単純化仮定(例えば、線形性、定常性、ホモ代数学性)を緩和する。 複雑な連続力学を持つ領域であるインクリメンタルヒューマン言語処理のモデルを評価する。 本研究では, 行動・神経画像データに顕著な改良を加え, 探索分析における新しいパターンの発見, 確認解析における多様なコンファウンドの制御, 研究が難しい研究課題の開放を可能にした。

Scientists often use observational time series data to study complex natural processes, but regression analyses often assume simplistic dynamics. Recent advances in deep learning have yielded startling improvements to the performance of models of complex processes, but deep learning is generally not used for scientific analysis. Here we show that deep learning can be used to analyze complex processes, providing flexible function approximation while preserving interpretability. Our approach relaxes standard simplifying assumptions (e.g., linearity, stationarity, and homoscedasticity) that are implausible for many natural systems and may critically affect the interpretation of data. We evaluate our model on incremental human language processing, a domain with complex continuous dynamics. We demonstrate substantial improvements on behavioral and neuroimaging data, and we show that our model enables discovery of novel patterns in exploratory analyses, controls for diverse confounds in confirmatory analyses, and opens up research questions that are otherwise hard to study.
翻訳日:2023-04-21 17:18:56 公開日:2023-04-19
# エントロピー和に対するELBOの収束性について

On the Convergence of the ELBO to Entropy Sums ( http://arxiv.org/abs/2209.03077v3 )

ライセンス: Link先を確認
J\"org L\"ucke(参考訳) 変分下界(ELBOまたは自由エネルギー)は、多くの確立された目的であり、教師なし学習のための多くの新しいアルゴリズムである。 学習アルゴリズムは、変分下界が増加するようにモデルパラメータを変更する。 学習は通常、パラメータが学習ダイナミクスの静止点に近い値に収束するまで進行する。 この純粋に理論的な寄与において、(非常に大きな生成モデルのクラスに対して)変分下界がすべての定常学習点においてエントロピーの和に等しいことを示す。 1組の潜在変数と1組の観測変数を持つ標準的な機械学習モデルの場合、和は3つのエントロピーからなる: (A) 変動分布の(平均)エントロピー、(B) モデルの以前の分布の負エントロピー、(C) 観測可能な分布の(予想)負エントロピー。 得られた結果は、データポイントの有限個数、(鞍点を含む)任意の定常点、および(よく振る舞う)変分分布の族を含む現実的な条件下に適用される。 エントロピー和の等式を示す生成モデルのクラスは、多くのよく知られた生成モデルを含んでいる。 具体的な例としてsgmoid belief network, probabilistic pca, (gaussian and non-gaussian) 混合モデルについて述べる。 結果は標準(ガウシアン)変分オートエンコーダにも適用され、並列に示されている(damm et al., 2023)。 エントロピー和の等式を示すための前提条件は比較的穏やかである。 具体的には、与えられた生成モデルの分布は指数族(定数基底測度を持つ)でなければならないし、モデルはパラメータ化基準(通常は満たされる)を満たす必要がある。 ELBO の等式を定常点におけるエントロピー和 (entropy sums) に証明することは、この研究の主な貢献である。

The variational lower bound (a.k.a. ELBO or free energy) is the central objective for many established as well as many novel algorithms for unsupervised learning. Learning algorithms change model parameters such that the variational lower bound increases. Learning usually proceeds until parameters have converged to values close to a stationary point of the learning dynamics. In this purely theoretical contribution, we show that (for a very large class of generative models) the variational lower bound is at all stationary points of learning equal to a sum of entropies. For standard machine learning models with one set of latents and one set observed variables, the sum consists of three entropies: (A) the (average) entropy of the variational distributions, (B) the negative entropy of the model's prior distribution, and (C) the (expected) negative entropy of the observable distributions. The obtained result applies under realistic conditions including: finite numbers of data points, at any stationary points (including saddle points) and for any family of (well behaved) variational distributions. The class of generative models for which we show the equality to entropy sums contains many well-known generative models. As concrete examples we discuss Sigmoid Belief Networks, probabilistic PCA and (Gaussian and non-Gaussian) mixture models. The results also apply for standard (Gaussian) variational autoencoders, which has been shown in parallel (Damm et al., 2023). The prerequisites we use to show equality to entropy sums are relatively mild. Concretely, the distributions of a given generative model have to be of the exponential family (with constant base measure), and the model has to satisfy a parameterization criterion (which is usually fulfilled). Proving the equality of the ELBO to entropy sums at stationary points (under the stated conditions) is the main contribution of this work.
翻訳日:2023-04-21 17:18:19 公開日:2023-04-19
# 因果AIのための因果表現学習と再定義DAGの実現

Realization of Causal Representation Learning and Redefined DAG for Causal AI ( http://arxiv.org/abs/2211.08573v7 )

ライセンス: Link先を確認
Jia Li, Xiang Li, Xiaowei Jia, Michael Steinbach, Vipin Kumar(参考訳) 因果推論からのDAG(Directed Acyclic Graph)は因果効果と相関変化を区別しない。 そして、集団の一般的な効果は、通常、すべての個体に対する平均相関によって近似される。 ai(artificial intelligence)はビッグデータの大規模構造モデリングを可能にするため、複雑な隠れたコンファウンディングによって、これらの近似誤差はもはや無視できないが、かなりのモデリングバイアスによって雪だるまになった - このような因果表現バイアス(crb)は、多くの問題を引き起こす。 簡単に言うと、DAGは因果AIの新しいフレームワークを可能にするために再定義されなければならない。 統計学における観測時系列は相関した変化しか表現できないが、DLベースのオートエンコーダはそれらを潜在空間における個々の特徴変化として表現し、因果効果を直接推定することができる。 本稿では、再定義されたdo-DAGを用いてCRBを可視化し、その実現のための新しいアーキテクチャとともに汎用的なソリューションCausal Representation Learning(CRL)フレームワークを提案し、その実現可能性について実験的に検証する。

DAG(Directed Acyclic Graph) from causal inference does not differentiate causal effects and correlated changes. And the general effect of a population is usually approximated by averaging correlations over all individuals. Since AI(Artificial Intelligence) enables large-scale structure modeling on big data, the complex hidden confoundings have made these approximation errors no longer ignorable but snowballed to considerable modeling bias - Such Causal Representation Bias (CRB) leads to many problems: ungeneralizable causal models, unrevealed individual-level features, hardly utilized causal knowledge in DL(Deep Learning), etc. In short, DAG must be redefined to enable a new framework for causal AI. The observational time series in statistics can only represent correlated changes, while the DL-based autoencoder can represent them as individualized feature changes in latent space to estimate the causal effects directly. In this paper, we introduce the redefined do-DAG to visualize CRB, propose a generic solution Causal Representation Learning (CRL) framework, along with a novel architecture for its realization, and experimentally verify the feasibility.
翻訳日:2023-04-21 17:10:26 公開日:2023-04-19
# 生涯自己適応を用いた学習型自己適応システムにおける適応空間のドリフト処理

Dealing with Drift of Adaptation Spaces in Learning-based Self-Adaptive Systems using Lifelong Self-Adaptation ( http://arxiv.org/abs/2211.02658v2 )

ライセンス: Link先を確認
Omid Gheibi and Danny Weyns(参考訳) 近年、機械学習(ML)は自己適応をサポートする一般的なアプローチとなっている。 MLは、不確実性とスケーラブルな意思決定の下での最新のランタイムモデルを維持するなど、自己適応におけるいくつかの問題に対処するために使用されてきた。 しかし、MLの利用には固有の課題が伴う。 本稿では,学習型自己適応システムにおいて特に重要な課題である適応空間のドリフトに着目した。 適応空間では、適応オプションの集合を参照し、自己適応システムは、適応オプションの推定品質特性に基づいて、所定のタイミングで適応を選択することができる。 適応空間のドリフトは不確実性から始まり、適応オプションの品質特性に影響を及ぼす。 このようなドリフトは、最終的に適応オプションが適応目標の初期セットを満たすことができず、システムの品質を劣化させたり、適応オプションが出現して適応目標が拡張されることを示唆する。 MLでは、そのようなシフトは、一般的なML技術が扱う問題のあるターゲットデータにおいて、新しいクラスの出現に対応する。 この問題に対処するために,生涯ML層を用いた学習に基づく自己適応システムを強化する,新たな自己適応手法を提案する。 このアプローチを生涯の自己適応と呼んでいる。 生涯ml層は、システムとその環境を追跡し、その知識と現在のタスクを関連付け、違いに基づいて新しいタスクを特定し、それに応じて自己適応システムの学習モデルを更新する。 人間の利害関係者は学習プロセスを支援し、学習と目標モデルを調整するために関与する。 本稿では、生涯の自己適応のための一般的なアーキテクチャを提案し、自己適応の意思決定に影響を与える適応空間の漂流の場合に適用する。 DeltaIoTの例を使って,一連のシナリオに対するアプローチを検証する。

Recently, machine learning (ML) has become a popular approach to support self-adaptation. ML has been used to deal with several problems in self-adaptation, such as maintaining an up-to-date runtime model under uncertainty and scalable decision-making. Yet, exploiting ML comes with inherent challenges. In this paper, we focus on a particularly important challenge for learning-based self-adaptive systems: drift in adaptation spaces. With adaptation space we refer to the set of adaptation options a self-adaptive system can select from at a given time to adapt based on the estimated quality properties of the adaptation options. Drift of adaptation spaces originates from uncertainties, affecting the quality properties of the adaptation options. Such drift may imply that eventually no adaptation option can satisfy the initial set of the adaptation goals, deteriorating the quality of the system, or adaptation options may emerge that allow enhancing the adaptation goals. In ML, such shift corresponds to novel class appearance, a type of concept drift in target data that common ML techniques have problems dealing with. To tackle this problem, we present a novel approach to self-adaptation that enhances learning-based self-adaptive systems with a lifelong ML layer. We refer to this approach as lifelong self-adaptation. The lifelong ML layer tracks the system and its environment, associates this knowledge with the current tasks, identifies new tasks based on differences, and updates the learning models of the self-adaptive system accordingly. A human stakeholder may be involved to support the learning process and adjust the learning and goal models. We present a general architecture for lifelong self-adaptation and apply it to the case of drift of adaptation spaces that affects the decision-making in self-adaptation. We validate the approach for a series of scenarios using the DeltaIoT exemplar.
翻訳日:2023-04-21 17:09:07 公開日:2023-04-19
# 一様加速粒子検出器による相互情報収集

Mutual information harvested by uniformly accelerated particle detectors ( http://arxiv.org/abs/2212.12546v2 )

ライセンス: Link先を確認
Manar Naeem and Kensuke Gallock-Yoshimura and Robert B. Mann(参考訳) 2つの粒子検出器の相互情報収集プロトコルについて検討する。 一つの検出器が熱浴に浸入しているかのように応答するのに対し、2つの加速検出器間の量子相互情報が熱浴中の2つの慣性検出器と異なる挙動を示す。 これは、1つの一様加速検出器の軌道に沿ってワイトマン関数が熱浴の検出器と同じであるのに対し、同じケースの2つの検出器はワイトマン関数が異なるためである。

We investigate the mutual information harvesting protocol for two uniformly accelerated particle detectors. We numerically show that, while a single detector responds as if it is immersed in a thermal bath, the quantum mutual information between two accelerating detectors behaves differently than that of two inertial detectors in a thermal bath. This is due to the fact that while the Wightman function along the trajectory of a single uniformly accelerating detector is the same as that of as a detector in a thermal bath, a pair of detectors in the same respective cases will have different Wightman functions.
翻訳日:2023-04-21 16:59:18 公開日:2023-04-19
# 極小モデルを超えた位相位相の動的特徴付け

Dynamical characterization of topological phases beyond the minimal models ( http://arxiv.org/abs/2302.03295v2 )

ライセンス: Link先を確認
Xi Wu, Panpan Fang, Fuxiang Li(参考訳) 量子クエンチ力学の下での位相位相の動的特性は、強力で効率的なツールとして実証されている。 これまでの研究は、ハミルトニアンが互いに可換でクリフォード代数を満たす行列からなる系に焦点を当ててきた。 本研究では、最小モデルを超えているハミルトニアンの位相位相の特徴づけについて考察する。 具体的には、2種類の層状系の量子クエンチダイナミクスが研究され、その中のハミルトン行列はクリフォード代数を全て満足するわけではない。 他方との反共は、すべてのバンドのトポロジーを制御する共通のバンド反転曲面を持つことができるが、言い換えれば、普遍的な振る舞いはなく、ケースごとに扱う必要がある。

Dynamical characterization of topological phases under quantum quench dynamics has been demonstrated as a powerful and efficient tool. Previous studies have been focused on systems of which the Hamiltonian consists of matrices that commute with each other and satisfy Clifford algebra. In this work, we consider the characterization of topological phases with Hamiltonians that are beyond the minimal model. Specifically, the quantum quench dynamics of two types of layered systems is studied, of which the consisting matrices of Hamiltonians do not all satisfy Clifford algebra. We find that the terms which anti-commute with others can hold common band-inversion surfaces, which controls the topology of all the bands, but for other terms, there is no universal behavior and need to be treated case by case.
翻訳日:2023-04-21 16:51:32 公開日:2023-04-19
# 品質多様性を利用したMinecraftのフライングマシンの進化

Evolving Flying Machines in Minecraft Using Quality Diversity ( http://arxiv.org/abs/2302.00782v2 )

ライセンス: Link先を確認
Alejandro Medina and Melanie Richey and Mark Mueller and Jacob Schrum(参考訳) Minecraftは人間の創造性に優れたテストベッドであり、様々な構造や、飛行機械を含む機能する機械の設計にインスピレーションを与えている。 EvoCraftはMinecraftでプログラムで構造を生成するためのAPIだが、この領域での最初の作業は飛行機械を進化させることができなかった。 本稿では,飛行機械を進化させるために,適合性に基づく進化と品質多様性探索を適用する。 フィットネスだけでは時々空飛ぶ機械を生産できるが、かつて使用されていたより高度なフィットネス機能のおかげで、品質の多様性のアルゴリズムであるmap-elitesは、少なくとも多様なソリューションを探索するために適切な行動特徴付けを使用する場合に、飛行機械をより確実に発見することができる。

Minecraft is a great testbed for human creativity that has inspired the design of various structures and even functioning machines, including flying machines. EvoCraft is an API for programmatically generating structures in Minecraft, but the initial work in this domain was not capable of evolving flying machines. This paper applies fitness-based evolution and quality diversity search in order to evolve flying machines. Although fitness alone can occasionally produce flying machines, thanks in part to a more sophisticated fitness function than was used previously, the quality diversity algorithm MAP-Elites is capable of discovering flying machines much more reliably, at least when an appropriate behavior characterization is used to guide the search for diverse solutions.
翻訳日:2023-04-21 16:51:21 公開日:2023-04-19
# コミュニティ検出のためのヒューリスティックモジュラリティ最大化アルゴリズムは、最適パーティションなどを返すことは滅多にない

Heuristic Modularity Maximization Algorithms for Community Detection Rarely Return an Optimal Partition or Anything Similar ( http://arxiv.org/abs/2302.14698v2 )

ライセンス: Link先を確認
Samin Aref, Mahdi Mostajabdaveh, and Hriday Chheda(参考訳) コミュニティ検出は計算科学の基本的な問題であり、様々な分野に広く応用されている。 最もよく使われる方法は、ネットワークノードの異なるパーティションに対するモジュラリティを最大化するアルゴリズムである。 幅広い文脈から80個の実ネットワークとランダムネットワークを用いて、現在のヒューリスティックモジュラリティ最大化アルゴリズムが最大モジュラリティ(最適)パーティションの返却に成功する範囲について検討する。 我々は,(1) アルゴリズムの出力モジュラリティと各入力グラフの最大モジュラリティとの比を評価し,(2) 出力分割とそのグラフの任意の最適分割との最大類似度を評価する。 モジュラリティをグローバルに最大化する8つの既存のヒューリスティックアルゴリズムと厳密な整数計画法を比較した。 平均モジュラリティに基づくヒューリスティックアルゴリズムは、考慮された80グラフのうち16.9%の最適分割を返す。 さらに,調整された相互情報に関する結果から,実験におけるサブ最適分割とネットワークの最適分割との間に有意な相似性が認められた。 さらに重要なことは、我々の結果は、ほぼ最適な分割は、しばしば最適な分割と不均等に異なることである。 共同で分析した結果,コミュニティの発見に広く用いられているモジュール性に基づくヒューリスティックが,最適パーティションや最適パーティションに類似したパーティションを生成することは稀であることがわかった。 モジュラリティがコミュニティの検出に使用される場合、その適用可能性の限界内でモジュール性をより適切に利用するために、正確にあるいは近似的な最適化アルゴリズムが推奨される。

Community detection is a fundamental problem in computational sciences with extensive applications in various fields. The most commonly used methods are the algorithms designed to maximize modularity over different partitions of the network nodes. Using 80 real and random networks from a wide range of contexts, we investigate the extent to which current heuristic modularity maximization algorithms succeed in returning maximum-modularity (optimal) partitions. We evaluate (1) the ratio of the algorithms' output modularity to the maximum modularity for each input graph, and (2) the maximum similarity between their output partition and any optimal partition of that graph. We compare eight existing heuristic algorithms against an exact integer programming method that globally maximizes modularity. The average modularity-based heuristic algorithm returns optimal partitions for only 16.9% of the 80 graphs considered. Additionally, results on adjusted mutual information reveal substantial dissimilarity between the sub-optimal partitions and any optimal partition of the networks in our experiments. More importantly, our results show that near-optimal partitions are often disproportionately dissimilar to any optimal partition. Taken together, our analysis points to a crucial limitation of commonly used modularity-based heuristics for discovering communities: they rarely produce an optimal partition or a partition resembling an optimal partition. If modularity is to be used for detecting communities, exact or approximate optimization algorithms are recommendable for a more methodologically sound usage of modularity within its applicability limits.
翻訳日:2023-04-21 16:42:54 公開日:2023-04-19
# hyena階層:より大きな畳み込み言語モデルに向けて

Hyena Hierarchy: Towards Larger Convolutional Language Models ( http://arxiv.org/abs/2302.10866v3 )

ライセンス: Link先を確認
Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher R\'e(参考訳) 近年のディープラーニングの進歩は、大規模に学習する能力のため、大きなトランスフォーマーの使用に大きく依存している。 しかし、トランスのコア構成ブロックであるアテンション演算子はシーケンシャルな長さの二次コストを示し、アクセス可能なコンテキストの量を制限している。 低ランクおよびスパース近似に基づく既存のサブクワッドラティック手法は、トランスフォーマーにマッチする高密度の注意層と組み合わせて、能力のギャップを示す必要がある。 本研究では,暗黙的にパラメトリ化された長大畳み込みとデータ制御型ゲーティングをインターリーブし,注意を喚起するサブクアドラティックなドロップイン方式であるhyenaを提案する。 数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは、注意ベースのモデルにマッチする状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。 我々は,標準データセット (WikiText103 と The Pile) における言語モデリングに基づく高密度アテンションレスアーキテクチャのための新しい最先端アーキテクチャを,シークエンス2Kに必要なトレーニング計算を20%削減してトランスフォーマー品質に到達した。 ハイエナ演算子は、シーケンス長8Kで高度に最適化された注意力と、シーケンス長64Kで100倍高速である。

Recent advances in deep learning have relied heavily on the use of large Transformers due to their ability to learn at scale. However, the core building block of Transformers, the attention operator, exhibits quadratic cost in sequence length, limiting the amount of context accessible. Existing subquadratic methods based on low-rank and sparse approximations need to be combined with dense attention layers to match Transformers, indicating a gap in capability. In this work, we propose Hyena, a subquadratic drop-in replacement for attention constructed by interleaving implicitly parametrized long convolutions and data-controlled gating. In recall and reasoning tasks on sequences of thousands to hundreds of thousands of tokens, Hyena improves accuracy by more than 50 points over operators relying on state-spaces and other implicit and explicit methods, matching attention-based models. We set a new state-of-the-art for dense-attention-free architectures on language modeling in standard datasets (WikiText103 and The Pile), reaching Transformer quality with a 20% reduction in training compute required at sequence length 2K. Hyena operators are twice as fast as highly optimized attention at sequence length 8K, and 100x faster at sequence length 64K.
翻訳日:2023-04-21 16:41:23 公開日:2023-04-19
# 人工知能の心理学における「正しい答え」

"Correct answers" from the psychology of artificial intelligence ( http://arxiv.org/abs/2302.07267v5 )

ライセンス: Link先を確認
Peter S. Park, Philipp Schoenegger, Chongyang Zhu(参考訳) 我々は,M many Labs 2 複製プロジェクト (Klein et al., 2018) の14の心理学研究を OpenAI のtext-davinci-003 モデルで再現した。 分析可能な8つの研究のうち、GPTサンプルは元の結果の37.5%とM many Labs 2の結果の37.5%を複製した。 我々が「正しい答え」効果と呼ぶ予期せぬ現象のために、残りの6つの研究を分析できなかった。 GPT3.5の様々な実行は、政治的指向、経済的嗜好、判断、道徳哲学を、応答のゼロまたはほぼゼロのばらつき、すなわち「正しい答え」とみなす、曖昧な疑問に答えた。 これらの「正しい答え」のほとんどは、答えの選択の順序を変えるのに頑健ではなかった。 GPT3.5 は元の状態 (N=1,030, 99.6%) において保守的であり、逆順序条件 (N=1,030, 99.3%) ではリベラルであるとほぼ常に認識されていた。 gpt3.5のその後の質問に対する反応は、ポストホックな合理化を明らかにした。 しかし、自己報告のGPT保守派と自己報告のGPTリベラル派は、自己報告のGPTリベラル派の右寄りの偏見は弱かったものの、右寄りのMoral Foundationsを明らかにした。 このパターンは、主にインターネットベースのトレーニングデータにおける保守的なバイアスから学習されたと仮定する。 未来のAIモデルは、GPT3.5と同じインターネットデータに基づいて訓練される可能性があるため、私たちの結果は、仮説的なAIによる未来が、思考の多様性の低下に直面するのではないかという懸念を提起する。

We re-replicate 14 psychology studies from the Many Labs 2 replication project (Klein et al., 2018) with OpenAI's text-davinci-003 model, colloquially known as GPT3.5. Among the eight studies we could analyse, our GPT sample replicated 37.5% of the original results and 37.5% of the Many Labs 2 results. We could not analyse the remaining six studies, due to an unexpected phenomenon we call the "correct answer" effect. Different runs of GPT3.5 answered nuanced questions probing political orientation, economic preference, judgement, and moral philosophy with zero or near-zero variation in responses: with the supposedly "correct answer." Most but not all of these "correct answers" were robust to changing the order of answer choices. One exception occurred in the Moral Foundations Theory survey (Graham et al., 2009), for which GPT3.5 almost always identified as a conservative in the original condition (N=1,030, 99.6%) and as a liberal in the reverse-order condition (N=1,030, 99.3%). GPT3.5's responses to subsequent questions revealed post-hoc rationalisation; there was a relative bias in the direction of its previously reported political orientation. But both self-reported GPT conservatives and self-reported GPT liberals revealed right-leaning Moral Foundations, although the right-leaning bias of self-reported GPT liberals was weaker. We hypothesise that this pattern was learned from a conservative bias in the model's largely Internet-based training data. Since AI models of the future may be trained on much of the same Internet data as GPT3.5, our results raise concerns that a hypothetical AI-led future may be subject to a diminished diversity of thought.
翻訳日:2023-04-21 16:39:24 公開日:2023-04-19
# 相関行列構成によるレゲットゲージ様不等式

Leggett-Garg-like Inequalities from a Correlation Matrix Construction ( http://arxiv.org/abs/2303.09107v2 )

ライセンス: Link先を確認
Dana Ben Porath and Eliahu Cohen(参考訳) レゲット・ガーグ不等式 (leggett-garg inequality, lgi) は、ある基本的な仮定の下で異なる時間における量 q の測定間の相関を制約する。 本稿では,lgiを解析し,非局所相関の文脈で最近提案された相関行列の数学的性質を利用する手法を用いて,類似するがやや精巧な不等式を提案する。 また、この手法は(LGIのように)異なる時間間の相関と(ベルの不等式のように)異なる位置間の相関を組み合わせた不等式にも適用できる。 提案されたすべての境界は、元の境界よりも追加の相関を含み、また特定の相補性をもたらす。 実験的実現の可能性とその応用について概説する。

The Leggett-Garg Inequality (LGI) constrains, under certain fundamental assumptions, the correlations between measurements of a quantity Q at different times. Here we analyze the LGI, and propose similar but somewhat more elaborate inequalities, employing a technique that utilizes the mathematical properties of correlation matrices, which was recently proposed in the context of nonlocal correlations. We also find that this technique can be applied to inequalities that combine correlations between different times (as in LGI) and correlations between different locations (as in Bell inequalities). All the proposed bounds include additional correlations compared to the original ones and also lead to a particular form of complementarity. A possible experimental realization and some applications are briefly discussed.
翻訳日:2023-04-21 16:32:27 公開日:2023-04-19
# 注意マップエントロピーに基づくアクティブビジュアル探索

Active Visual Exploration Based on Attention-Map Entropy ( http://arxiv.org/abs/2303.06457v2 )

ライセンス: Link先を確認
Adam Pardyl, Grzegorz Rype\'s\'c, Grzegorz Kurzejamski, Bartosz Zieli\'nski, Tomasz Trzci\'nski(参考訳) アクティブビジュアル探索は、環境に基づいて連続した観測がアクティブに選択される現実世界のシナリオにおいて、限られたセンサー能力の問題に対処する。 この問題に対処するために,Attention-Map Entropy (AME) と呼ばれる新しい手法を導入する。 変圧器モデルの内部の不確実性を利用して、最も情報性の高い観測値を決定する。 既存のソリューションとは対照的に、トレーニングを単純化する追加の損失コンポーネントは必要ない。 網膜様センサを模倣する実験により、そのような簡易なトレーニングにより、公開データセットの再構成、セグメンテーション、分類の性能が大幅に向上することを示した。

Active visual exploration addresses the issue of limited sensor capabilities in real-world scenarios, where successive observations are actively chosen based on the environment. To tackle this problem, we introduce a new technique called Attention-Map Entropy (AME). It leverages the internal uncertainty of the transformer-based model to determine the most informative observations. In contrast to existing solutions, it does not require additional loss components, which simplifies the training. Through experiments, which also mimic retina-like sensors, we show that such simplified training significantly improves the performance of reconstruction, segmentation and classification on publicly available datasets.
翻訳日:2023-04-21 16:32:13 公開日:2023-04-19
# PT対称性と準エルミート量子論の運用基盤」に対するコメントへの回答

Reply to the Comment on `The operational foundations of PT-symmetric and quasi-Hermitian quantum theory' ( http://arxiv.org/abs/2303.14890v2 )

ライセンス: Link先を確認
Abhijeet Alase, Salini Karuvade, Carlo Maria Scandolo(参考訳) この文書は、「PT対称および準エルミート量子論の運用基盤」と題された最近の研究に対する我々の回答である(Miloslav Znojil 2023 J. Phys. A: Math. Theor. 56, 038001)。 最初のコメントは3つの追加書で構成されています。 最初の補題では、我々の研究は動機付けの問題として不明確なものであり、PT対称量子論が標準量子論を拡張しているかどうかが文献で既に答えられている。 第2の補題は、我々の研究に欠けているいくつかの参照を示し、第3の補題は、標準量子論の拡張にどんな制約をもたらすかを示している。 我々の回答では、第一追加項の主張は、動機づけられる質問の誤解の結果であると説明した。 正しく解釈すると、コメントの3番目の追加項は、なぜモチベーションのある質問が興味深く関連があるのかを詳しく説明している。 また、第3の追加項で示唆される線に沿った標準量子論の拡張の展望についても、簡潔にコメントする。 第2次補足への反応として、ある参照を引用しながら、他の参照を除外する根拠を説明します。

This document is our reply to the Comment (Miloslav Znojil 2023 J. Phys. A: Math. Theor. 56, 038001) on our recent work titled `The operational foundations of PT-symmetric and quasi-Hermitian quantum theory'. The original Comment consists of three addenda to our work. The first addendum claims that our work is ill-motivated as the motivating question, namely whether PT-symmetric quantum theory extends the standard quantum theory, was already answered in the literature. The second addendum points to some missing references in our work, and the third addendum suggests what constraints could lead to an extension of standard quantum theory. In our reply, we explain that the claim in the first addendum is a result of a misinterpretation of our motivating question. When interpreted correctly, the third addendum in the Comment in itself elaborates on why our motivating question is interesting and relevant. We also briefly comment on the prospects of an extension of standard quantum theory along the lines suggested in the third addendum. As our response to the second addendum, we explain our rationale behind citing certain references while leaving out others.
翻訳日:2023-04-21 16:21:43 公開日:2023-04-19
# 結合古典振動子シミュレーションにおける指数量子スピードアップ

Exponential quantum speedup in simulating coupled classical oscillators ( http://arxiv.org/abs/2303.13012v2 )

ライセンス: Link先を確認
Ryan Babbush, Dominic W. Berry, Robin Kothari, Rolando D. Somma and Nathan Wiebe(参考訳) 2^n$結合振動子の古典力学をシミュレートする量子アルゴリズム(例えば、バネに結合された2^n$質量)を提案する。 我々のアプローチは、進化した量子状態の振幅が古典振動子のモータと変位を符号化するような調和ポテンシャルに対するシュリンガー方程式とニュートン方程式の間の写像を利用する。 個々の質量とばね定数を効率的に問合せすることができ、初期状態が効率的に作成できるとき、量子アルゴリズムの複雑性は多項式 n$ であり、進化時間はほぼ線形であり、スパーシティにおける部分線型である。 例として,振動子の運動エネルギーを常に効率的に推定するために,量子アルゴリズムを適用した。 同じ問題を解決する古典的アルゴリズムは非効率であり、oracleに対して2^{\omega(n)$のクエリを行なわなければならず、oracleが効率的な量子回路によってインスタンス化される場合、問題はbqp完全である。 そこで本手法は,古典的コンピュータ上での指数的高速化によって,潜在的に実用的な応用を解く。 最後に、同様の条件下では、2^n$モードでより一般的な古典調和系を効率的にシミュレートできることを示す。

We present a quantum algorithm for simulating the classical dynamics of $2^n$ coupled oscillators (e.g., $2^n$ masses coupled by springs). Our approach leverages a mapping between the Schr\"odinger equation and Newton's equation for harmonic potentials such that the amplitudes of the evolved quantum state encode the momenta and displacements of the classical oscillators. When individual masses and spring constants can be efficiently queried, and when the initial state can be efficiently prepared, the complexity of our quantum algorithm is polynomial in $n$, almost linear in the evolution time, and sublinear in the sparsity. As an example application, we apply our quantum algorithm to efficiently estimate the kinetic energy of an oscillator at any time. We show that any classical algorithm solving this same problem is inefficient and must make $2^{\Omega(n)}$ queries to the oracle and, when the oracles are instantiated by efficient quantum circuits, the problem is BQP-complete. Thus, our approach solves a potentially practical application with an exponential speedup over classical computers. Finally, we show that under similar conditions our approach can efficiently simulate more general classical harmonic systems with $2^n$ modes.
翻訳日:2023-04-21 16:20:14 公開日:2023-04-19
# コンドルセト選挙のリスク制限監査

Risk-Limiting Audits for Condorcet Elections ( http://arxiv.org/abs/2303.10509v2 )

ライセンス: Link先を確認
Michelle Blom, Peter J. Stuckey, Vanessa Teague, Damjan Vukcevic(参考訳) 選挙人が候補者(または候補者のサブセット)を優先順にランク付けする選挙は、選挙人の意図に関するさらなる情報を集めることができる。 このタイプの最も広く使われている選挙はInstant-Runoff Voting (IRV)である。 コンドルセット選挙(condorcet election)は、各候補者について同時に決定する選挙である。 コンドルチェットの勝者は、これらのペアワイズコンテストで他のすべての人を破る候補者です。 コンドルセトの勝者が存在しない場合は、勝者を決定するための様々な提案がある。 本稿では,コンドルチェット選挙を多変量で効率的に評価する方法を示す。 また、IRVとCondorcet選挙の監査効率(どれだけの投票がサンプリングされるか)を比較します。

Elections where electors rank the candidates (or a subset of the candidates) in order of preference allow the collection of more information about the electors' intent. The most widely used election of this type is Instant-Runoff Voting (IRV), where candidates are eliminated one by one, until a single candidate holds the majority of the remaining ballots. Condorcet elections treat the election as a set of simultaneous decisions about each pair of candidates. The Condorcet winner is the candidate who beats all others in these pairwise contests. There are various proposals to determine a winner if no Condorcet winner exists. In this paper we show how we can efficiently audit Condorcet elections for a number of variations. We also compare the audit efficiency (how many ballots we expect to sample) of IRV and Condorcet elections.
翻訳日:2023-04-21 16:19:40 公開日:2023-04-19
# 知識グラフエンティティとスキーマの深いアクティブアライメント

Deep Active Alignment of Knowledge Graph Entities and Schemata ( http://arxiv.org/abs/2304.04389v2 )

ライセンス: Link先を確認
Jiacheng Huang and Zequn Sun and Qijin Chen and Xiaozhou Xu and Weijun Ren and Wei Hu(参考訳) 知識グラフ(KG)は現実世界に関する豊富な事実を格納する。 本稿では, 実体だけでなく, 異なるkgにおける関係とクラス間のアライメントを見出すことを目的としたkgアライメントについて検討する。 エンティティレベルでのアライメントは、スキーマレベルでアライメントをクロスコンパイルする。 我々は,深層学習と能動学習に基づく新しいKGアライメント手法であるDAAKGを提案する。 ディープラーニングでは、エンティティ、関係、クラスの埋め込みを学び、それらを半教師付きで協調的に調整する。 アクティブな学習では、エンティティ、リレーション、クラスペアが推測できる確率を推定し、人間のラベル付けに最適なバッチを選択する。 バッチ選択の効率的な解法として2つの近似アルゴリズムを設計する。 ベンチマークデータセットを用いた実験により,DAAKGの精度と一般化が向上し,全モジュールの有効性が検証された。

Knowledge graphs (KGs) store rich facts about the real world. In this paper, we study KG alignment, which aims to find alignment between not only entities but also relations and classes in different KGs. Alignment at the entity level can cross-fertilize alignment at the schema level. We propose a new KG alignment approach, called DAAKG, based on deep learning and active learning. With deep learning, it learns the embeddings of entities, relations and classes, and jointly aligns them in a semi-supervised manner. With active learning, it estimates how likely an entity, relation or class pair can be inferred, and selects the best batch for human labeling. We design two approximation algorithms for efficient solution to batch selection. Our experiments on benchmark datasets show the superior accuracy and generalization of DAAKG and validate the effectiveness of all its modules.
翻訳日:2023-04-21 16:13:24 公開日:2023-04-19
# カリフォルニア大学サンフランシスコ校脳転移性定位ラジオサージ(ucsf-bmsr)mriデータセット

The University of California San Francisco, Brain Metastases Stereotactic Radiosurgery (UCSF-BMSR) MRI Dataset ( http://arxiv.org/abs/2304.07248v2 )

ライセンス: Link先を確認
Jeffrey D. Rudie, Rachit Saluja, David A. Weiss, Pierre Nedelec, Evan Calabrese, John B. Colby, Benjamin Laguna, John Mongan, Steve Braunstein, Christopher P. Hess, Andreas M. Rauschecker, Leo P. Sugrue, and Javier E. Villanueva-Meyer(参考訳) カリフォルニア大学サンフランシスコ校脳転移ステレオタクティック放射線外科(UCSF-BMSR)データセットは、5136脳転移の専門アノテーションを持つ412人の患者の560個の脳MRIからなる、パブリック、臨床、マルチモーダル脳MRIデータセットである。 データは、T1後コントラスト、T1前コントラスト、FLAIRおよびサブトラクション(T1前コントラスト - T1後コントラスト)の画像と、NifTIフォーマットで脳転移を増強するボクセルワイズセグメンテーションからなる。 このデータセットには、患者の人口統計、手術状況、および原発性がんの種類も含まれる。 UCSF-BSMRは、研究者たちがこれらのデータを使って脳転移のためのAIアプリケーションの境界を押し上げることを期待して、一般公開されている。

The University of California San Francisco Brain Metastases Stereotactic Radiosurgery (UCSF-BMSR) dataset is a public, clinical, multimodal brain MRI dataset consisting of 560 brain MRIs from 412 patients with expert annotations of 5136 brain metastases. Data consists of registered and skull stripped T1 post-contrast, T1 pre-contrast, FLAIR and subtraction (T1 pre-contrast - T1 post-contrast) images and voxelwise segmentations of enhancing brain metastases in NifTI format. The dataset also includes patient demographics, surgical status and primary cancer types. The UCSF-BSMR has been made publicly available in the hopes that researchers will use these data to push the boundaries of AI applications for brain metastases.
翻訳日:2023-04-21 16:04:12 公開日:2023-04-19
# 二元積分布に対する多項式時間、純粋微分プライベート推定器

A Polynomial Time, Pure Differentially Private Estimator for Binary Product Distributions ( http://arxiv.org/abs/2304.06787v2 )

ライセンス: Link先を確認
Vikrant Singhal(参考訳) 我々は,全変数距離で正確に$\{0,1\}^d$ の積分布平均を推定する最初の$\varepsilon$-differentially private, computationally efficientアルゴリズムを提案する。 以前の作業では、この問題をより弱いプライバシー概念の下で効率的かつ最適に解決するか、指数的な実行時間を持ちながら最適に解決していた。

We present the first $\varepsilon$-differentially private, computationally efficient algorithm that estimates the means of product distributions over $\{0,1\}^d$ accurately in total-variation distance, whilst attaining the optimal sample complexity to within polylogarithmic factors. The prior work had either solved this problem efficiently and optimally under weaker notions of privacy, or had solved it optimally while having exponential running times.
翻訳日:2023-04-21 16:03:24 公開日:2023-04-19
# マルチデータ因果探索を用いた機械学習アプリケーションのためのロバスト特徴の選択

Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery ( http://arxiv.org/abs/2304.05294v3 )

ライセンス: Link先を確認
Saranya Ganesh S., Tom Beucler, Frederick Iat-Hin Tam, Milton S. Gomez, Jakob Runge, and Andreas Gerhardus(参考訳) 信頼性と解釈可能な機械学習(ML)モデルを作成するには、ロバストな機能選択が不可欠だ。 ドメイン知識が限られ、基礎となる相互作用が不明な場合に統計的予測モデルを設計する場合、最適な特徴セットを選択することはしばしば困難である。 この問題を軽減するために,時系列データセットのアンサンブルを同時に処理し,1組の因果ドライバを生成するマルチデータ(m)因果特徴選択手法を導入する。 このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。 これらのアルゴリズムは条件付き独立テストを利用して因果グラフの一部を推論する。 我々の因果的特徴選択手法は、ターゲットを予測するMLモデル(多重線形回帰、ランダムフォレスト)への入力として、残りの因果的特徴を渡す前に因果的特徴リンクをフィルタリングする。 我々は,西太平洋熱帯サイクロン (TC) の統計的強度予測に我々の枠組みを適用し,ドライバの正確な選択と次元削減(時間ラグ,垂直レベル,面積拡大)が困難な場合が多い。 条件付き独立テストでより厳密な重要性のしきい値を使用することは、スプリアス因果関係を排除するのに役立つ。 機能の少ないM-PC1は、M-PCMCI、非因果ML、その他の特徴選択方法(ラベル付き相関、ランダム)よりも優れており、eXplainable Artificial Intelligenceに基づく機能選択よりも若干優れています。 因果的特徴の選択から得られた最適な因果的ドライバは、基礎的関係の理解を深め、tc強化の新たな潜在的なドライバを提案するのに役立つ。

Robust feature selection is vital for creating reliable and interpretable Machine Learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a Multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally-spurious links before passing the remaining causal features as inputs to ML models (Multiple linear regression, Random Forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific Tropical Cyclones (TC), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, non-causal ML, and other feature selection methods (lagged correlation, random), even slightly outperforming feature selection based on eXplainable Artificial Intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification.
翻訳日:2023-04-21 16:02:08 公開日:2023-04-19
# SAM vs BET:深層学習を用いた磁気共鳴画像の脳抽出と分割の比較研究

SAM vs BET: A Comparative Study for Brain Extraction and Segmentation of Magnetic Resonance Images using Deep Learning ( http://arxiv.org/abs/2304.04738v3 )

ライセンス: Link先を確認
Sovesh Mohapatra, Advait Gosai, Gottfried Schlaug(参考訳) 脳抽出は、様々な神経画像研究において重要な前処理であり、特に脳の非脳組織からの正確な分離と、mri(mri)データを用いた脳内組織区画と構造の分割を可能にする。 fslの脳抽出ツール(bet:brain extraction tool)は、脳の自動抽出の現在の標準とされるが、限界があり、脳の外側に損傷のある脳の過剰抽出、脳組織と周囲の髄膜との不正確な分化、画像の品質問題への感受性などの誤りを引き起こす可能性がある。 近年のコンピュータビジョン研究の進歩により、meta aiによるsegment anything model(sam)の開発につながった。 本報告では,脳の様々な領域に影響を及ぼす画像品質,MR配列,脳病変の異なる様々な脳スキャンにおいて,SAMと広く使用されている金標準法であるBETを比較した脳抽出法の比較分析を行った。 特に,信号不均一性,非等方性ボクセル分解能,脳外領域の近傍(あるいは髄膜)に位置する脳病変の存在によって画像品質が損なわれる場合において,samは平均サイス係数,iou,正確度指標に基づいてベットを上回った。 さらにSAMは、異なる課題区画と異なる脳構造を微細に分離することのできるセグメンテーション特性も克服していない。 これらの結果は、SAMはより正確で堅牢で汎用的なツールとして、幅広い脳の抽出とセグメンテーションの応用の可能性を示唆している。

Brain extraction is a critical preprocessing step in various neuroimaging studies, particularly enabling accurate separation of brain from non-brain tissue and segmentation of relevant within-brain tissue compartments and structures using Magnetic Resonance Imaging (MRI) data. FSL's Brain Extraction Tool (BET), although considered the current gold standard for automatic brain extraction, presents limitations and can lead to errors such as over-extraction in brains with lesions affecting the outer parts of the brain, inaccurate differentiation between brain tissue and surrounding meninges, and susceptibility to image quality issues. Recent advances in computer vision research have led to the development of the Segment Anything Model (SAM) by Meta AI, which has demonstrated remarkable potential in zero-shot segmentation of objects in real-world scenarios. In the current paper, we present a comparative analysis of brain extraction techniques comparing SAM with a widely used and current gold standard technique called BET on a variety of brain scans with varying image qualities, MR sequences, and brain lesions affecting different brain regions. We find that SAM outperforms BET based on average Dice coefficient, IoU and accuracy metrics, particularly in cases where image quality is compromised by signal inhomogeneities, non-isotropic voxel resolutions, or the presence of brain lesions that are located near (or involve) the outer regions of the brain and the meninges. In addition, SAM has also unsurpassed segmentation properties allowing a fine grain separation of different issue compartments and different brain structures. These results suggest that SAM has the potential to emerge as a more accurate, robust and versatile tool for a broad range of brain extraction and segmentation applications.
翻訳日:2023-04-21 16:01:24 公開日:2023-04-19
# セラピストアシスタントとしてのchatgpt:適合性研究

ChatGPT as a Therapist Assistant: A Suitability Study ( http://arxiv.org/abs/2304.09873v1 )

ライセンス: Link先を確認
Mahshid Eshghie, Mojtaba Eshghie(参考訳) 本稿では,様々な応用の革新的な技術であるChatGPTを心理療法のアシスタントとして活用することを提案する。 ChatGPTは、患者情報収集装置、セラピーセッション間の患者のためのコンパニオン、およびセラピストのための収集された情報のオーガナイザとして機能し、治療プロセスを促進することができる。 この研究は5つの研究課題を特定し、ChatGPTがポジティブな会話に参加し、注意深く耳を傾け、明確な医療アドバイスを提供することなく検証と潜在的な対処戦略を提供し、セラピストが同一患者との複数の会話から新たな洞察を発見する手助けをすることを示す。 ChatGPTを心理療法のアシスタントとして使用すると、技術的な問題や人間中心の課題など、対処すべきいくつかの課題が生じる。

This paper proposes using ChatGPT, an innovative technology with various applications, as an assistant for psychotherapy. ChatGPT can serve as a patient information collector, a companion for patients in between therapy sessions, and an organizer of gathered information for therapists to facilitate treatment processes. The research identifies five research questions and discovers useful prompts for fine-tuning the assistant, which shows that ChatGPT can participate in positive conversations, listen attentively, offer validation and potential coping strategies without providing explicit medical advice, and help therapists discover new insights from multiple conversations with the same patient. Using ChatGPT as an assistant for psychotherapy poses several challenges that need to be addressed, including technical as well as human-centric challenges which are discussed.
翻訳日:2023-04-21 15:35:51 公開日:2023-04-19
# 機械学習アルゴリズムの記述的解析による部分順序の深さ関数

Depth Functions for Partial Orders with a Descriptive Analysis of Machine Learning Algorithms ( http://arxiv.org/abs/2304.09872v1 )

ライセンス: Link先を確認
Hannah Blocher, Georg Schollmeyer, Christoph Jansen, Malte Nalenz(参考訳) 本稿では,深度関数の概念に基づく部分順序集合を記述的に解析するフレームワークを提案する。 線形空間および距離空間における深さ関数の集中的な研究にもかかわらず、部分順序のような非標準データ型に対する深さ関数についてはほとんど議論がない。 我々は、よく知られたsimplicial depthをすべての部分順序、union-free generic (ufg) depthの集合に適応させる。 さらに,多次元性能測定に基づく機械学習アルゴリズムの比較のために,我々の ufg 深度を利用する。 具体的には、標準ベンチマークデータセットのサンプル上で異なる分類器の性能の分布を分析する。 提案手法が既存のベンチマーク手法と大きく異なることを有望に証明し,分類器の比較に関する活発な議論に新たな視点を付加した。

We propose a framework for descriptively analyzing sets of partial orders based on the concept of depth functions. Despite intensive studies of depth functions in linear and metric spaces, there is very little discussion on depth functions for non-standard data types such as partial orders. We introduce an adaptation of the well-known simplicial depth to the set of all partial orders, the union-free generic (ufg) depth. Moreover, we utilize our ufg depth for a comparison of machine learning algorithms based on multidimensional performance measures. Concretely, we analyze the distribution of different classifier performances over a sample of standard benchmark data sets. Our results promisingly demonstrate that our approach differs substantially from existing benchmarking approaches and, therefore, adds a new perspective to the vivid debate on the comparison of classifiers.
翻訳日:2023-04-21 15:35:37 公開日:2023-04-19
# 大規模機械学習におけるアダム不安定性の理論

A Theory on Adam Instability in Large-Scale Machine Learning ( http://arxiv.org/abs/2304.09871v1 )

ライセンス: Link先を確認
Igor Molybog, Peter Albert, Moya Chen, Zachary DeVito, David Esiobu, Naman Goyal, Punit Singh Koura, Sharan Narang, Andrew Poulton, Ruan Silva, Binh Tang, Puxin Xu, Yuchen Zhang, Melanie Kambadur, Stephen Roller, Susan Zhang(参考訳) 本稿では,大規模言語モデルの訓練において,これまで説明されていなかった発散行動の理論について述べる。 我々は、この現象はadamと呼ばれるトレーニングに使用される支配的最適化アルゴリズムの成果物であると主張する。 我々は、adam がパラメータ更新ベクトルが比較的大きなノルムを持ち、トレーニング損失のランドスケープにおける降下方向と本質的に無関係である状態に入ることを観測し、分岐を引き起こす。 このアーティファクトは、大規模な言語モデルトレーニングの典型的な設定である大きなバッチサイズを持つディープモデルのトレーニングにおいて、より観察される可能性が高い。 この理論を議論するために、我々は70億、300億、65億、および546億の異なるスケールの言語モデルのトレーニング実行から観察する。

We present a theory for the previously unexplained divergent behavior noticed in the training of large language models. We argue that the phenomenon is an artifact of the dominant optimization algorithm used for training, called Adam. We observe that Adam can enter a state in which the parameter update vector has a relatively large norm and is essentially uncorrelated with the direction of descent on the training loss landscape, leading to divergence. This artifact is more likely to be observed in the training of a deep model with a large batch size, which is the typical setting of large-scale language model training. To argue the theory, we present observations from the training runs of the language models of different scales: 7 billion, 30 billion, 65 billion, and 546 billion parameters.
翻訳日:2023-04-21 15:35:25 公開日:2023-04-19
# 不均一エージェント強化学習

Heterogeneous-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.09870v1 )

ライセンス: Link先を確認
Yifan Zhong, Jakub Grudzien Kuba, Siyi Hu, Jiaming Ji, and Yaodong Yang(参考訳) インテリジェントマシン間の協調の必要性は、AI研究において協調型マルチエージェント強化学習(MARL)を普及させた。 しかし、多くの研究はエージェント間のパラメータ共有に大きく依存しており、それらは均質なエージェントの設定のみに限定し、トレーニング不安定性と収束保証の欠如につながる。 一般ヘテロジニアスエージェント設定における効果的な協調を実現するために,上記の課題を解決するヘテロジニアスエージェント強化学習(harl)アルゴリズムを提案する。 本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。 そこで本研究では,パラメータ共有制約のない確率的正当信頼領域学習(HATRL)を開発し,抽出可能な近似によりHATRPOとHAPPOを導出する。 さらに、HATRPOとHAPPOの理論的保証を強化し、協調的なMARLアルゴリズム設計のための一般的なテンプレートを提供するHAML(Heterogeneous-Agent Mirror Learning)という新しいフレームワークを発見した。 HAMLから派生した全てのアルゴリズムが、本質的にはNash Equilibriumへのジョイント報酬と収束の単調な改善を享受していることを証明する。 自然な結果として、HAMLはHATRPOとHAPPOに加えて、HATRPO、HADDPG、HATD3などの新しいアルゴリズムを検証している。 我々は,HARLアルゴリズムを6つの挑戦的ベンチマークで総合的にテストし,MAPPOやQMIXのような強力なベースラインと比較して,異種エージェントのコーディネートに優れた効率と安定性を示す。

The necessity for cooperation among intelligent machines has popularised cooperative multi-agent reinforcement learning (MARL) in AI research. However, many research endeavours heavily rely on parameter sharing among agents, which confines them to only homogeneous-agent setting and leads to training instability and lack of convergence guarantees. To achieve effective cooperation in the general heterogeneous-agent setting, we propose Heterogeneous-Agent Reinforcement Learning (HARL) algorithms that resolve the aforementioned issues. Central to our findings are the multi-agent advantage decomposition lemma and the sequential update scheme. Based on these, we develop the provably correct Heterogeneous-Agent Trust Region Learning (HATRL) that is free of parameter-sharing constraint, and derive HATRPO and HAPPO by tractable approximations. Furthermore, we discover a novel framework named Heterogeneous-Agent Mirror Learning (HAML), which strengthens theoretical guarantees for HATRPO and HAPPO and provides a general template for cooperative MARL algorithmic designs. We prove that all algorithms derived from HAML inherently enjoy monotonic improvement of joint reward and convergence to Nash Equilibrium. As its natural outcome, HAML validates more novel algorithms in addition to HATRPO and HAPPO, including HAA2C, HADDPG, and HATD3, which consistently outperform their existing MA-counterparts. We comprehensively test HARL algorithms on six challenging benchmarks and demonstrate their superior effectiveness and stability for coordinating heterogeneous agents compared to strong baselines such as MAPPO and QMIX.
翻訳日:2023-04-21 15:35:13 公開日:2023-04-19
# 制約付き強化学習政策の展開

Evolving Constrained Reinforcement Learning Policy ( http://arxiv.org/abs/2304.09869v1 )

ライセンス: Link先を確認
Chengpeng Hu, Jiyuan Pei, Jialin Liu, Xin Yao(参考訳) 進化的アルゴリズムは、アクターの集団を進化させ、強化学習エージェントを訓練するための多様な経験を生み出し、時間的信用割り当て問題に対処し、探索効率を向上させるのに役立っている。 しかしながら、制約のある問題に対処するためにこのアプローチを適用する場合、報酬と制約違反とのトレードオフのバランスを取るのは難しい。 本稿では, 確率的ランキングと報酬と制約違反を適応的にバランスさせながら, 制約バッファ付きラグランジュ緩和係数のセットを保ちながら, ポリシーの動作を制限する, 進化的制約強化学習(ecrl)アルゴリズムを提案する。 ロボット制御ベンチマークの大規模な実験は、ECRLが最先端のアルゴリズムと比較して優れた性能を発揮することを示している。 アブレーション解析は確率的ランキングと制約バッファを導入する利点を示している。

Evolutionary algorithms have been used to evolve a population of actors to generate diverse experiences for training reinforcement learning agents, which helps to tackle the temporal credit assignment problem and improves the exploration efficiency. However, when adapting this approach to address constrained problems, balancing the trade-off between the reward and constraint violation is hard. In this paper, we propose a novel evolutionary constrained reinforcement learning (ECRL) algorithm, which adaptively balances the reward and constraint violation with stochastic ranking, and at the same time, restricts the policy's behaviour by maintaining a set of Lagrange relaxation coefficients with a constraint buffer. Extensive experiments on robotic control benchmarks show that our ECRL achieves outstanding performance compared to state-of-the-art algorithms. Ablation analysis shows the benefits of introducing stochastic ranking and constraint buffer.
翻訳日:2023-04-21 15:34:46 公開日:2023-04-19
# スペクトル保存データ圧縮による高速化支援ベクトルクラスタリング

Accelerate Support Vector Clustering via Spectrum-Preserving Data Compression? ( http://arxiv.org/abs/2304.09868v1 )

ライセンス: Link先を確認
Yuxuan Song, Yongyu Wang(参考訳) サポートベクタークラスタリングは重要なクラスタリング手法である。 しかし、計算コストのかかるクラスタ割り当てステップのためにスケーラビリティの問題に悩まされている。 本稿では,スペクトル保存データ圧縮によるサポートベクタークラスタリングを認証する。 具体的には、まず最初のデータセットを少数のスペクトル的に代表される集約されたデータポイントに圧縮する。 次に,圧縮データセット上で標準サポートベクトルクラスタリングを行う。 最後に、圧縮されたデータセットのクラスタリング結果をマッピングして、元のデータセット内のクラスタを検出する。 実世界のデータセットに関する広範な実験結果は、クラスタリングの品質を犠牲にすることなく、標準サポートベクタークラスタリングよりも劇的にスピードアップすることを示している。

Support vector clustering is an important clustering method. However, it suffers from a scalability issue due to its computational expensive cluster assignment step. In this paper we accelertate the support vector clustering via spectrum-preserving data compression. Specifically, we first compress the original data set into a small amount of spectrally representative aggregated data points. Then, we perform standard support vector clustering on the compressed data set. Finally, we map the clustering results of the compressed data set back to discover the clusters in the original data set. Our extensive experimental results on real-world data set demonstrate dramatically speedups over standard support vector clustering without sacrificing clustering quality.
翻訳日:2023-04-21 15:34:32 公開日:2023-04-19
# 包括的AIモデルの標準方法論としての構成理論の導入

Introducing Construct Theory as a Standard Methodology for Inclusive AI Models ( http://arxiv.org/abs/2304.09867v1 )

ライセンス: Link先を確認
Susanna Raj, Sudha Jamthe, Yashaswini Viswanath, Suresh Lokiah(参考訳) ジョージ・ケリーによって開発された社会心理学における構成理論は、事象を予測し予測するための精神構成である。 構成は、人間がデータを解釈し、キュレートし、予測し、検証する方法です。 今日のaiは、トレーニングデータラベルで定義された狭いコンストラクタでトレーニングされるため、偏りがある。 顔認識のための機械学習アルゴリズムは、より暗い肌の色と地上での研究論文(Buolamwini、Joy、Timnit Gebru)を識別する。 ジェンダーシェード:商業性分類における交叉精度の差。 FAT (2018) では, 表現型ラベリングが有効解として提案されている。 構成論において、表現型は顔の構成を構成する多くの部分要素の1つである。 本稿では、現在7つの人種、性別、年齢のデータを保有しているFairFaceデータセットを使用して、50のサブエレメントとテストされたGoogle Cloud Vision APIとMicrosoft Cognitive Services APIを用いて、顔の構成の15の要素を提示する。 この結果から, 傾斜率の差が正確に分かる。 実験結果に基づき,検証されたインクルーシブコンストラクタが今後,ai mlモデルの業界標準となることを提案する。

Construct theory in social psychology, developed by George Kelly are mental constructs to predict and anticipate events. Constructs are how humans interpret, curate, predict and validate data; information. AI today is biased because it is trained with a narrow construct as defined by the training data labels. Machine Learning algorithms for facial recognition discriminate against darker skin colors and in the ground breaking research papers (Buolamwini, Joy and Timnit Gebru. Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. FAT (2018), the inclusion of phenotypic labeling is proposed as a viable solution. In Construct theory, phenotype is just one of the many subelements that make up the construct of a face. In this paper, we present 15 main elements of the construct of face, with 50 subelements and tested Google Cloud Vision API and Microsoft Cognitive Services API using FairFace dataset that currently has data for 7 races, genders and ages, and we retested against FairFace Plus dataset curated by us. Our results show exactly where they have gaps for inclusivity. Based on our experiment results, we propose that validated, inclusive constructs become industry standards for AI ML models going forward.
翻訳日:2023-04-21 15:34:24 公開日:2023-04-19
# ポピュリズムの顔:機械学習を用いた政治指導者の感情表現の相違について

The Face of Populism: Examining Differences in Facial Emotional Expressions of Political Leaders Using Machine Learning ( http://arxiv.org/abs/2304.09914v1 )

ライセンス: Link先を確認
Sara Major, Aleksandar Toma\v{s}evi\'c(参考訳) オンラインメディアは、政治情報がグローバルに拡散され消費される方法に革命をもたらしており、この変化によって、政治関係者は有権者の注意を引き付けて維持する新しい戦略を採用せざるを得なくなった。 これらの戦略はしばしば感情的な説得と魅力に頼り、視覚的コンテンツがバーチャル空間でますます普及するにつれて、政治的コミュニケーションの多くは、挑発的なビデオコンテンツとイメージによって特徴づけられるようになった。 本稿では, この種の材料を解析するための新しいアプローチを提案する。 我々は、pythonライブラリferが提供する既存のトレーニング済み畳み込みニューラルネットワークアーキテクチャに基づいて、15カ国の政治指導者を描いた220のyoutubeビデオのサンプルにディープラーニングベースのコンピュータビジョンアルゴリズムを適用する。 このアルゴリズムは6つの感情状態(不安、嫌悪感、恐怖、幸福、悲しみ、驚き)の相対的な存在を表す感情スコアと、処理されたYouTubeビデオのフレームごとに中立的な表現を返す。 我々は,Global Party Survey (GPS) で定義されている,ポピュリスト・レトリックの度合いの異なるリーダー群の平均否定感情スコアの統計的に有意な差を観察し,ポピュリスト・リーダーは,非ポピュリスト・レトリックよりも公的なパフォーマンスにおいて否定感情を表現する傾向を示した。 全体として、我々の貢献は、政治指導者間の視覚的自己表現の特徴と、非言語コミュニケーションのさらなる計算研究のためのオープンソースワークフローに関する洞察を与えます。

Online media has revolutionized the way political information is disseminated and consumed on a global scale, and this shift has compelled political figures to adopt new strategies of capturing and retaining voter attention. These strategies often rely on emotional persuasion and appeal, and as visual content becomes increasingly prevalent in virtual space, much of political communication too has come to be marked by evocative video content and imagery. The present paper offers a novel approach to analyzing material of this kind. We apply a deep-learning-based computer-vision algorithm to a sample of 220 YouTube videos depicting political leaders from 15 different countries, which is based on an existing trained convolutional neural network architecture provided by the Python library fer. The algorithm returns emotion scores representing the relative presence of 6 emotional states (anger, disgust, fear, happiness, sadness, and surprise) and a neutral expression for each frame of the processed YouTube video. We observe statistically significant differences in the average score of expressed negative emotions between groups of leaders with varying degrees of populist rhetoric as defined by the Global Party Survey (GPS), indicating that populist leaders tend to express negative emotions to a greater extent during their public performance than their non-populist counterparts. Overall, our contribution provides insight into the characteristics of visual self-representation among political leaders, as well as an open-source workflow for further computational studies of their non-verbal communication.
翻訳日:2023-04-21 15:27:15 公開日:2023-04-19
# MARS:弱スーパービジョンセマンティックセマンティックセグメンテーションのための追加スーパービジョンを伴わないモデル非依存的バイアスオブジェクト除去

MARS: Model-agnostic Biased Object Removal without Additional Supervision for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2304.09913v1 )

ライセンス: Link先を確認
Sanghyun Jo, In-Jae Yu, Kyungsu Kim(参考訳) 弱い教師付き意味セグメンテーションは、画像レベルのクラスラベルのような弱い監督を使用して意味セグメンテーションモデルをトレーニングすることで、ラベリングコストを削減することを目的としている。 しかし、ほとんどのアプローチは正確なローカライゼーションマップの作成に苦労し、列車のクラスで鉄道を検知するなど、クラスに関連する背景(偏りのある物体)で誤った予測に苦しむ。 バイアスオブジェクトを削除する最近の手法では、問題のあるクラスごとにバイアスオブジェクトを手動で識別し、予測をレビューすることでデータセットを収集し、複数のラベルを持つ現実のデータセットに適用性を制限するとともに、バイアスに対する複雑な関係を限定する。 偏りのある特徴を同一データセット内の背景とマッチングして分離・排除できるという最初の観察に続いて、mars (model-specific biased object removal without additional supervisor) と呼ばれる完全自動/モデル非依存の偏り除去フレームワークを提案する。 驚いたことに、MARSはPASCAL VOC 2012 (val: 77.7%, test: 77.2%) と MS COCO 2014 (val: 49.4%) という2つの人気のあるベンチマークで、様々なWSSSモデルの性能を、追加の監督なしに少なくとも30%向上させることで、新しい最先端の結果を達成している。

Weakly-supervised semantic segmentation aims to reduce labeling costs by training semantic segmentation models using weak supervision, such as image-level class labels. However, most approaches struggle to produce accurate localization maps and suffer from false predictions in class-related backgrounds (i.e., biased objects), such as detecting a railroad with the train class. Recent methods that remove biased objects require additional supervision for manually identifying biased objects for each problematic class and collecting their datasets by reviewing predictions, limiting their applicability to the real-world dataset with multiple labels and complex relationships for biasing. Following the first observation that biased features can be separated and eliminated by matching biased objects with backgrounds in the same dataset, we propose a fully-automatic/model-agnostic biased removal framework called MARS (Model-Agnostic biased object Removal without additional Supervision), which utilizes semantically consistent features of an unsupervised technique to eliminate biased objects in pseudo labels. Surprisingly, we show that MARS achieves new state-of-the-art results on two popular benchmarks, PASCAL VOC 2012 (val: 77.7%, test: 77.2%) and MS COCO 2014 (val: 49.4%), by consistently improving the performance of various WSSS models by at least 30% without additional supervision.
翻訳日:2023-04-21 15:26:37 公開日:2023-04-19
# 無質量ディラックフェルミオンの有限温度負性ハミルトニアン

Finite temperature negativity Hamiltonians of the massless Dirac fermion ( http://arxiv.org/abs/2304.09906v1 )

ライセンス: Link先を確認
Federico Rottoli, Sara Murciano and Pasquale Calabrese(参考訳) 部分的に転置された密度行列の対数として定義される負性ハミルトニアンは、混合状態の絡み合いの演算的特徴付けを提供する。 しかし、これまでのところ、グローバル純粋状態のサブシステムに対応する混合状態密度行列についてのみ研究されている。 ここでは、有限温度と大きさの系における1次元質量を持たないディラックフェルミオンの混合状態の真の例と考える。 サブシステムとして、任意の連続した間隔の集合を考える。 対応するネガティビティ・ハミルトニアンの構造は同じ幾何学における絡み合いハミルトニアンの構造に似ている: 応力-エネルギーテンソルに比例する局所項に加えて、各点は他の点の無限だが離散的な集合に非局所結合である。 しかし、転置区間と非転置区間の長さが一致すると、構造が著しく単純化され、基底状態陰性ハミルトニアンの軽度非局所性が得られる。 また、ツイストされた部分転位に付随する負性ハミルトニアンの正確な式、すなわちエルミートフェルミオン行列も予想する。 自由フェルミオン鎖の正確な数値計算から最終的に局所作用素と双局所作用素の連続限界を得る。

The negativity Hamiltonian, defined as the logarithm of a partially transposed density matrix, provides an operatorial characterisation of mixed-state entanglement. However, so far, it has only been studied for the mixed-state density matrices corresponding to subsystems of globally pure states. Here, we consider as a genuine example of a mixed state the one-dimensional massless Dirac fermions in a system at finite temperature and size. As subsystems, we consider an arbitrary set of disjoint intervals. The structure of the corresponding negativity Hamiltonian resembles the one for the entanglement Hamiltonian in the same geometry: in addition to a local term proportional to the stress-energy tensor, each point is non-locally coupled to an infinite but discrete set of other points. However, when the lengths of the transposed and non-transposed intervals coincide, the structure remarkably simplifies and we retrieve the mild non-locality of the ground state negativity Hamiltonian. We also conjecture an exact expression for the negativity Hamiltonian associated to the twisted partial transpose, which is a Hermitian fermionic matrix. We finally obtain the continuum limit of both the local and bi-local operators from exact numerical computations in free-fermionic chains.
翻訳日:2023-04-21 15:26:07 公開日:2023-04-19
# ホログラフィック時空における物理コンピュータの制約

Constraints on physical computers in holographic spacetimes ( http://arxiv.org/abs/2304.09900v1 )

ライセンス: Link先を確認
Aleksander M. Kubicki, Alex May and David P\'erez-Garcia,(参考訳) AdS/CFT対応の設定の中で、重力の存在下でのコンピュータのパワーについて尋ねる。 エントロピーが$O(2^n)$未満のブラックホール内部では実装できない$n$量子ビット上の計算が存在することを示す。 我々の主張を確立するためには、実行すべきユニタリの入力と記述が大きすぎる限り、ブラックホール内部で発生する計算をプログラマブル量子プロセッサで実装する必要がある、と我々は主張する。 次に、ブラックホール内部で多くのユニタリを実装できないことを示す量子プロセッサのバウンダリを証明し、これらのいくつかは短い記述を持ち、小さなシステムに作用することを示す。 これらの短い記述を持つユニタリは、ブラックホールの内部で計算的に起こることを禁じられなければならない。

Within the setting of the AdS/CFT correspondence, we ask about the power of computers in the presence of gravity. We show that there are computations on $n$ qubits which cannot be implemented inside of black holes with entropy less than $O(2^n)$. To establish our claim, we argue computations happening inside the black hole must be implementable in a programmable quantum processor, so long as the inputs and description of the unitary to be run are not too large. We then prove a bound on quantum processors which shows many unitaries cannot be implemented inside the black hole, and further show some of these have short descriptions and act on small systems. These unitaries with short descriptions must be computationally forbidden from happening inside the black hole.
翻訳日:2023-04-21 15:25:45 公開日:2023-04-19
# 確率勾配降下による量子カーネルアライメント

Quantum Kernel Alignment with Stochastic Gradient Descent ( http://arxiv.org/abs/2304.09899v1 )

ライセンス: Link先を確認
Gian Gentinetta, David Sutter, Christa Zoufal, Bryce Fuller, Stefan Woerner(参考訳) 量子サポートベクトルマシンは、特定の機械学習問題を解決するための量子スピードアップを達成する可能性がある。 そのための鍵となる課題は、所定のデータセット -- カーネルアライメントと呼ばれるタスクのための優れた量子カーネルを見つけることです。 本稿では,サポートベクトルマシン最適化問題を解くために,確率的勾配降下を用いたアルゴリズムであるペガソスアルゴリズムを用いてこの問題を考察する。 我々はpegasosを量子ケースに拡張し、そのカーネルアライメントの有効性を示す。 外部最適化ループ内でQSVMをトレーニングすることでカーネルアライメントを実行する以前の作業とは異なり、Pegasosを使用することで、サポートベクトルマシンを同時にトレーニングし、カーネルをアライメントすることが可能である。 提案手法は, 量子特徴写像を高精度に整列させ, 既存の量子カーネルアライメント技術より優れていることを示す。 具体的には、ペガソスが非定常データに対して特に有効であることを示し、これは現実世界のアプリケーションにおいて重要な課題である。

Quantum support vector machines have the potential to achieve a quantum speedup for solving certain machine learning problems. The key challenge for doing so is finding good quantum kernels for a given data set -- a task called kernel alignment. In this paper we study this problem using the Pegasos algorithm, which is an algorithm that uses stochastic gradient descent to solve the support vector machine optimization problem. We extend Pegasos to the quantum case and and demonstrate its effectiveness for kernel alignment. Unlike previous work which performs kernel alignment by training a QSVM within an outer optimization loop, we show that using Pegasos it is possible to simultaneously train the support vector machine and align the kernel. Our experiments show that this approach is capable of aligning quantum feature maps with high accuracy, and outperforms existing quantum kernel alignment techniques. Specifically, we demonstrate that Pegasos is particularly effective for non-stationary data, which is an important challenge in real-world applications.
翻訳日:2023-04-21 15:25:32 公開日:2023-04-19
# 固有ベクトル相関による非エルミート・パワーロー・バンド付きランダム行列の局所化遷移

Eigenvector Correlations Across the Localisation Transition in non-Hermitian Power-Law Banded Random Matrices ( http://arxiv.org/abs/2304.09892v1 )

ライセンス: Link先を確認
Soumi Ghosh, Manas Kulkarni, and Sthitadhi Roy(参考訳) 固有ベクトル相関は、量子多体系のダイナミクスを理解する上で中心的な要素である。 本研究では,非エルミート量子系における局所化遷移にまたがる相関について検討する。 具体的な設定として、非エルミート的非エルミート系における局所化を研究するための有望なプラットフォームとして現れた非エルミート的パワーローバンドランダム行列を考える。 固有ベクトル相関は非局在相と局所相の間に有意な差を示した。 非局在化相において、固有ベクトルは、消失するほど小さな複素固有値間隔の極限における分岐相関によって強く相関する。 逆に局所化フェーズでは、相関は固有値間隔とは独立である。 我々は,ギニアブルランダムマトリクスアンサンブルに訴えることで,非局在化相における結果を説明する。 一方, 局所化相では, 解析処理が非局在化相と比較して抑制された相関に光を当てる。 固有ベクトル相関が非エルミート生成器による実時間および虚時力学を理解するための基本的な要素であることを考えると、非エルミート量子多体系における動的位相を特徴づける新たな方法が開かれる。

Eigenvector correlations are a central ingredient in the understanding of the dynamics of quantum many-body systems. In this work, we study such correlations across a localisation transition in non-Hermitian quantum systems. As a concrete setting, we consider non-Hermitian power-law banded random matrices which have emerged as a promising platform for studying localisation in disordered, non-Hermitian systems. We show that eigenvector correlations show marked differences between the delocalised and localised phases. In the delocalised phase, the eigenvectors are strongly correlated as evinced by divergent correlations in the limit of vanishingly small complex eigenvalue spacings. On the contrary, in the localised phase, the correlations are independent of the eigenvalue spacings. We explain our results in the delocalised phase by appealing to the Ginibre random matrix ensemble. On the other hand, in the localised phase, an analytical treatment sheds light on the suppressed correlations, relative to the delocalised phase. Given that eigenvector correlations are fundamental ingredients towards understanding real- and imaginary-time dynamics with non-Hermitian generators, our results open a new avenue for characterising dynamical phases in non-Hermitian quantum many-body systems.
翻訳日:2023-04-21 15:25:17 公開日:2023-04-19
# ブラックホールは高速で完全なスクランブラーになれるのか?

Can black holes be both fast and thorough scramblers? ( http://arxiv.org/abs/2304.09885v1 )

ライセンス: Link先を確認
Claudio Chamon, Eduardo R. Mucciolo, Andrei E. Ruckenstein, and Zhi-Cheng Yang(参考訳) ブラックホールは自然界において最も高速な情報スクランブラであると推測され、急激な時間である$\tau _{sc}$は系の自由度数と対数的にスケールする$\tau _{sc} \sim \log n$である。 同時に、最近の研究は、蒸発するブラックホールの量子的記述に固有の、長期にわたる情報のパラドックスのいくつかを解くには、情報の暗号化レベルを急ぐ必要があることを示唆している。 ブラックホールは計算擬似ランダム性の有効な生成元であり、多項式資源を持つ観測者によってハールランダムと区別できない擬似ランダム量子状態を生成することを意味する。 この論文で明確に正当化された単純なポイントは、一般にブラックホール力学の単純なモデルとして使用される2ドルキュービットゲートベースのランダム量子回路の文脈で解析すると、これらの2つの予想は互いに矛盾するということである。 より正確には、$\log n$-depth $2-qubit-gate-based random quantum circuits that match the speed limit for scrambling, conjectureed for black hole, cannot creating computationally pseudorandom quantum states. と論じている。 しかし、浅い$\log n$-depth量子回路を持つ状態を生成する${\it can}$は、2-qu$d$it-gates in $U(d^2)$ with $d\ge 3$ and $d$ prime, or a special 3-qubit gatesとして実装された ''inflationary'' 量子(IQ)ゲートの普遍的な族を用いると達成される。

Black holes are conjectured to be the fastest scramblers of information in nature, with a scrambling time, $\tau _{sc}$, that scales logarithmically with the number of degrees of freedom of the system, $\tau _{sc} \sim \log n$. At the same time, recent work suggests that resolving some of the long-standing information paradoxes inherent in the quantum description of evaporating black holes requires cryptographic level scrambling of information. The implication is that black holes are effective generators of computational pseudorandomness, i.e., that they generate pseudorandom quantum states that cannot be distinguished from Haar-random by an observer with polynomial resources. The simple point made and explicitly justified in this paper is that, when analyzed in the context of universal $2$-qubit-gate-based random quantum circuits - which are generally employed as simple models of black hole dynamics - these two conjectures are inconsistent with one another. More precisely, we argue that $\log n$-depth $2$-qubit-gate-based random quantum circuits that match the speed limit for scrambling, conjectured for black holes, cannot produce computationally pseudorandom quantum states. However, producing such states with shallow $\log n$-depth quantum circuits ${\it can}$ be accomplished if one employs universal families of ``inflationary'' quantum (IQ) gates implemented either as a subset of 2-qu$d$it-gates in $U(d^2)$ with $d\ge 3$ and $d$ prime, or as special 3-qubit gates.
翻訳日:2023-04-21 15:24:56 公開日:2023-04-19
# モデルプランニングは、収量予測とデータ共有のための局所的かつ効率的なフェデレーション学習を可能にする

Model Pruning Enables Localized and Efficient Federated Learning for Yield Forecasting and Data Sharing ( http://arxiv.org/abs/2304.09876v1 )

ライセンス: Link先を確認
Andy Li, Milan Markovic, Peter Edwards and Georgios Leontidis(参考訳) フェデレートラーニング(FL)は、アグリフードセクターにおけるモデルトレーニングに対する分散型アプローチを示し、個々のファームやデータサイロの安全性とプライバシを確保しながら、機械学習のパフォーマンスを改善する可能性を提供する。 しかし、従来のFLアプローチには2つの大きな制限がある。 まず、個々のサイロに関する異種データによって、グローバルモデルが一部のクライアントでうまく機能するが、すべてではない可能性がある。 第2に,flと大規模モデルサイズにおける通信コストに関する効率的な観点が欠如している。 本稿では,クライアントモデル上でネットワークプルーニングを活用し,プルーニングモデルを集約する新しい技術ソリューションを提案する。 この方法では、各データ分布に合わせて局所モデルを調整し、アグリフードデータに存在するデータの均一性を緩和することができる。 さらに、送信時に少ないデータを消費するよりコンパクトなモデルを可能にする。 本研究では,大豆収率予測データセットを用いて,fedavgと比較して推定性能を15.5%から20%向上させるとともに,局所モデルサイズを最大84%削減し,クライアントとサーバ間で通信するデータ量を57.1%から64.7%に削減した。

Federated Learning (FL) presents a decentralized approach to model training in the agri-food sector and offers the potential for improved machine learning performance, while ensuring the safety and privacy of individual farms or data silos. However, the conventional FL approach has two major limitations. First, the heterogeneous data on individual silos can cause the global model to perform well for some clients but not all, as the update direction on some clients may hinder others after they are aggregated. Second, it is lacking with respect to the efficiency perspective concerning communication costs during FL and large model sizes. This paper proposes a new technical solution that utilizes network pruning on client models and aggregates the pruned models. This method enables local models to be tailored to their respective data distribution and mitigate the data heterogeneity present in agri-food data. Moreover, it allows for more compact models that consume less data during transmission. We experiment with a soybean yield forecasting dataset and find that this approach can improve inference performance by 15.5% to 20% compared to FedAvg, while reducing local model sizes by up to 84% and the data volume communicated between the clients and the server by 57.1% to 64.7%.
翻訳日:2023-04-21 15:24:19 公開日:2023-04-19
# GREATスコア: 生成モデルを用いた対向摂動のグローバルロバストネス評価

GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models ( http://arxiv.org/abs/2304.09875v1 )

ライセンス: Link先を確認
Li Zaitang, Pin-Yu Chen and Tsung-Yi Ho(参考訳) 対向ロバストネスに関する最近の研究は、主に異なるモデルの評価とランク付けを行う一連のデータサンプルからの局所ロバストネス結果の集約に焦点を当てている。 しかし、ローカル統計は、基礎となる未知のデータ分布の真のグローバルロバスト性を表しているのではないかもしれない。 この課題に対処するため,本論文は,生成モデルを用いた逆摂動のグローバルロバスト性評価のための,great score と呼ばれる新しい枠組みを初めて提示する試みである。 正式には、GREAT Scoreは、生成モデルから引き出された全てのサンプルに対して平均的な攻撃防御摂動レベルを捕捉するグローバル統計の物理的意味を持つ。 また, 有限サンプル評価において, サンプル平均と真の平均との差と, サンプルの複雑さの確率的保証を導出する。 優れたスコアにはいくつかの利点がある。 1) 優れたスコアを用いた堅牢性評価は、敵の攻撃を回避し、大規模モデルに対して効率的でスケーラブルである。 特に,ロバストベンチの攻撃ベースモデル(Croce,et. 2021)と比較して,高い相関性を示し,GREATスコアの計算コストを大幅に削減した。 2) 生成モデルを用いることで未知のデータ分布の近似が容易になる。 本研究は,GAN (Generative Adversarial Network) を用いたアブレーション研究において,グローバルロバストネス評価とGANの品質の整合性を観察する。 3) オンライン顔認識サービスのロバスト性評価によって示されるように,優れたスコアは,プライバシに敏感なブラックボックスモデルの遠隔監査に使用できる。

Current studies on adversarial robustness mainly focus on aggregating local robustness results from a set of data samples to evaluate and rank different models. However, the local statistics may not well represent the true global robustness of the underlying unknown data distribution. To address this challenge, this paper makes the first attempt to present a new framework, called GREAT Score , for global robustness evaluation of adversarial perturbation using generative models. Formally, GREAT Score carries the physical meaning of a global statistic capturing a mean certified attack-proof perturbation level over all samples drawn from a generative model. For finite-sample evaluation, we also derive a probabilistic guarantee on the sample complexity and the difference between the sample mean and the true mean. GREAT Score has several advantages: (1) Robustness evaluations using GREAT Score are efficient and scalable to large models, by sparing the need of running adversarial attacks. In particular, we show high correlation and significantly reduced computation cost of GREAT Score when compared to the attack-based model ranking on RobustBench (Croce,et. al. 2021). (2) The use of generative models facilitates the approximation of the unknown data distribution. In our ablation study with different generative adversarial networks (GANs), we observe consistency between global robustness evaluation and the quality of GANs. (3) GREAT Score can be used for remote auditing of privacy-sensitive black-box models, as demonstrated by our robustness evaluation on several online facial recognition services.
翻訳日:2023-04-21 15:23:57 公開日:2023-04-19
# リモートセンシング衛星画像を用いたドメイン適応型自己教師型表現学習

Domain Adaptable Self-supervised Representation Learning on Remote Sensing Satellite Imagery ( http://arxiv.org/abs/2304.09874v1 )

ライセンス: Link先を確認
Muskaan Chopra, Prakash Chandra Chhipa, Gopal Mengi, Varun Gupta and Marcus Liwicki(参考訳) 本稿では,リモートセンシング衛星データを用いたコントラスト的自己教師あり表現学習と知識伝達を研究するための新しいドメイン適応パラダイムを提案する。 最先端のリモートセンシング視覚ドメインの取り組みは主に、完全に人間のアノテーションに依存する完全な教師付き学習アプローチに焦点を当てている。 一方、リモートセンシング衛星画像における人間のアノテーションは、高コストとドメインの専門知識のため、常に限られた量に制限されるため、転送学習が有効な代替手段となる。 提案手法は,リモートセンシングデータ領域において,異なるソースとターゲットデータ分布をまたいだ自己教師付き表現の知識伝達について検討する。 この配置では、ソースデータセット上で自己教師付きコントラスト学習に基づく事前訓練を行い、ラウンドロビン方式でターゲットデータセット上で下流タスクを実行する。 実験は、UC Merced Landuse (UCMD)、SIRI-WHU、MLRSNetの3つの公開データセットで行われ、下流分類タスクとラベル効率が異なる。 自己教師付き知識伝達では,ラベル効率ラベルによる最先端性能を実現し,完全教師付き設定よりも優れる。 より詳細な質的検証により、説明可能な表現学習の一貫した証拠が明らかになる。 ソースコードとトレーニングされたモデルはgithubで公開されている。

This work presents a novel domain adaption paradigm for studying contrastive self-supervised representation learning and knowledge transfer using remote sensing satellite data. Major state-of-the-art remote sensing visual domain efforts primarily focus on fully supervised learning approaches that rely entirely on human annotations. On the other hand, human annotations in remote sensing satellite imagery are always subject to limited quantity due to high costs and domain expertise, making transfer learning a viable alternative. The proposed approach investigates the knowledge transfer of selfsupervised representations across the distinct source and target data distributions in depth in the remote sensing data domain. In this arrangement, self-supervised contrastive learning-based pretraining is performed on the source dataset, and downstream tasks are performed on the target datasets in a round-robin fashion. Experiments are conducted on three publicly available datasets, UC Merced Landuse (UCMD), SIRI-WHU, and MLRSNet, for different downstream classification tasks versus label efficiency. In self-supervised knowledge transfer, the proposed approach achieves state-of-the-art performance with label efficiency labels and outperforms a fully supervised setting. A more in-depth qualitative examination reveals consistent evidence for explainable representation learning. The source code and trained models are published on GitHub.
翻訳日:2023-04-21 15:23:29 公開日:2023-04-19
# エッジサーバ上のDNNのスケジューリング

Scheduling DNNs on Edge Servers ( http://arxiv.org/abs/2304.09961v1 )

ライセンス: Link先を確認
Jian He, Chenxi Yang, Zhaoyuan He, Ghufran Baig, Lili Qiu(参考訳) ディープニューラルネットワーク(DNN)は様々なビデオ分析タスクで広く利用されている。 これらのタスクはリアルタイム応答を要求する。 モバイルデバイスの処理能力が限られているため、そのようなリアルタイム分析をサポートする一般的な方法は、処理をエッジサーバにオフロードすることだ。 本稿では,複数のクライアントに対するエッジサーバdnn処理の高速化について検討する。 特に,複数のDNN要求のバッチ化は処理時間を著しく短縮する。 この観測に基づいて、我々はまず、同一のDNNを実行する全てのリクエストのバッチ処理の利点を利用する新しいスケジューリングアルゴリズムを設計する。 なぜなら、少数のDNNが存在し、多くのリクエストが同じDNNを使用する傾向があるからだ。 私たちのアルゴリズムは汎用的で、完了時間の最小化やオンタイム比の最大化など、さまざまな目標をサポートできます。 次に、異なるDNNを使用するリクエストを、共有レイヤの有無に関わらず処理するようにアルゴリズムを拡張します。 最後に,クライアントの局所的な要求の一部や部分の処理を適応的に行うことにより,パフォーマンスを向上させるための協調的アプローチを開発した。 これは特にネットワークやサーバが混雑している場合に便利である。 本実装は,異なる要求分布(例えば,poisson,pareto,constant inter-arrivals)下でのアプローチの有効性を示す。

Deep neural networks (DNNs) have been widely used in various video analytic tasks. These tasks demand real-time responses. Due to the limited processing power on mobile devices, a common way to support such real-time analytics is to offload the processing to an edge server. This paper examines how to speed up the edge server DNN processing for multiple clients. In particular, we observe batching multiple DNN requests significantly speeds up the processing time. Based on this observation, we first design a novel scheduling algorithm to exploit the batching benefits of all requests that run the same DNN. This is compelling since there are only a handful of DNNs and many requests tend to use the same DNN. Our algorithms are general and can support different objectives, such as minimizing the completion time or maximizing the on-time ratio. We then extend our algorithm to handle requests that use different DNNs with or without shared layers. Finally, we develop a collaborative approach to further improve performance by adaptively processing some of the requests or portions of the requests locally at the clients. This is especially useful when the network and/or server is congested. Our implementation shows the effectiveness of our approach under different request distributions (e.g., Poisson, Pareto, and Constant inter-arrivals).
翻訳日:2023-04-21 15:17:50 公開日:2023-04-19
# 大規模言語モデルにおける創発能力の潜在空間理論

A Latent Space Theory for Emergent Abilities in Large Language Models ( http://arxiv.org/abs/2304.09960v1 )

ライセンス: Link先を確認
Hui Jiang(参考訳) 言語はランダムに作られるのではなく、情報を伝える。 言語とその根底にある意味の間には強い関連があり、その結果、それらの相関によってピークを極める疎結合分布となる。 さらに、これらのピーク値は、スパーシリティによる言語の限界分布と一致します。 ビッグデータと大規模モデルで訓練されたllmの出現により、言語の限界分布を正確に評価することができ、効果的な推論のためにジョイント分布のスパース構造を探索する便利な手段を提供する。 本稿では,言語理解,文脈内学習,思考の連鎖的促進,効果的な命令の微調整などllmの創発的能力が,言語の疎結合分布に対するベイズ推定に起因していることを示すために,言語を曖昧あるいは不明瞭に分類し,定量的な結果を示す。

Languages are not created randomly but rather to communicate information. There is a strong association between languages and their underlying meanings, resulting in a sparse joint distribution that is heavily peaked according to their correlations. Moreover, these peak values happen to match with the marginal distribution of languages due to the sparsity. With the advent of LLMs trained on big data and large models, we can now precisely assess the marginal distribution of languages, providing a convenient means of exploring the sparse structures in the joint distribution for effective inferences. In this paper, we categorize languages as either unambiguous or {\epsilon}-ambiguous and present quantitative results to demonstrate that the emergent abilities of LLMs, such as language understanding, in-context learning, chain-of-thought prompting, and effective instruction fine-tuning, can all be attributed to Bayesian inference on the sparse joint distribution of languages.
翻訳日:2023-04-21 15:17:32 公開日:2023-04-19
# 大規模言語モデルを用いた低リソース二言語辞書生成

Low-resource Bilingual Dialect Lexicon Induction with Large Language Models ( http://arxiv.org/abs/2304.09957v1 )

ライセンス: Link先を確認
Ekaterina Artemova and Barbara Plank(参考訳) バイリンガル語の語彙は、ある言語の単語から他の言語の同義語へのマッピングを容易にするため、多言語自然言語理解と機械翻訳タスクにとって重要なツールである。 これを達成するために、多くの論文が高リソースシナリオにおいて、bitext miningとword alignmentという2つの教師なしのステップからなる典型的なパイプラインを使用して、bilingual lexicon induction(bli)を探求している。 本稿では、ドイツ語と2つの方言であるバイエルン語とアレマン語のbliパイプラインの分析を行う。 この設定には、リソースの不足、言語の関連性、方言の正書法における標準化の欠如など、いくつかの固有の課題がある。 BLI出力を評価するために,単語頻度とペア編集距離を解析する。 さらに,二言語間文ペア1,500と二言語間単語ペア1,000からなる評価データセットを2つ公開する。 彼らはバイエルン語とドイツ・アレマン語の各言語対について意味的類似性について手動で判断された。

Bilingual word lexicons are crucial tools for multilingual natural language understanding and machine translation tasks, as they facilitate the mapping of words in one language to their synonyms in another language. To achieve this, numerous papers have explored bilingual lexicon induction (BLI) in high-resource scenarios, using a typical pipeline consisting of two unsupervised steps: bitext mining and word alignment, both of which rely on pre-trained large language models~(LLMs). In this paper, we present an analysis of the BLI pipeline for German and two of its dialects, Bavarian and Alemannic. This setup poses several unique challenges, including the scarcity of resources, the relatedness of the languages, and the lack of standardization in the orthography of dialects. To evaluate the BLI outputs, we analyze them with respect to word frequency and pairwise edit distance. Additionally, we release two evaluation datasets comprising 1,500 bilingual sentence pairs and 1,000 bilingual word pairs. They were manually judged for their semantic similarity for each Bavarian-German and Alemannic-German language pair.
翻訳日:2023-04-21 15:17:14 公開日:2023-04-19
# ユニバーサル移動物体セグメンテーションのための時間分布と空間相関の学習

Learning Temporal Distribution and Spatial Correlation for Universal Moving Object Segmentation ( http://arxiv.org/abs/2304.09949v1 )

ライセンス: Link先を確認
Guanfang Dong, Chenqiu Zhao, Xichen Pan, Anup Basu(参考訳) ユニバーサル移動オブジェクトセグメンテーションは、通常、特定のシーンや類似のシーンに有効であるように、あらゆる種類の自然シーンのビデオの一般的なモデルを提供することを目的としている。 本稿では,普遍移動物体のセグメンテーションの汎用解となる可能性を持つ時間分布・空間相関学習法(lts)を提案する。 提案手法では,時間画素からの分布をシーン非依存のセグメンテーションのためのDefect Iterative Distribution Learning (DIDL)ネットワークで学習する。 次に,空間相関を学習する確率ベイズ補充(SBR)ネットワークを提案し,DIDLネットワークが生成する二項マスクを改善する。 時間分布のシーン独立性と空間相関による精度の向上から, 提案手法は, パラメータが固定された多様で複雑な自然シーンのほとんどすべての映像に対して良好に動作する。 LASIESTA、CDNet2014、BMC、SBMI2015、および128の現実世界ビデオを含む標準データセットに関する包括的な実験は、ディープラーニングネットワークの使用の有無に関わらず、最先端の手法と比較して提案手法の優位性を示す。 我々の知る限り、この研究は現実世界の環境においてオブジェクトセグメンテーションを動かすための一般的な解決策となる可能性が高い。

Universal moving object segmentation aims to provide a general model for videos from all types of natural scenes, as previous approaches are usually effective for specific or similar scenes. In this paper, we propose a method called Learning Temporal Distribution and Spatial Correlation (LTS) that has the potential to be a general solution for universal moving object segmentation. In the proposed approach, the distribution from temporal pixels is first learned by our Defect Iterative Distribution Learning (DIDL) network for a scene-independent segmentation. Then, the Stochastic Bayesian Refinement (SBR) Network, which learns the spatial correlation, is proposed to improve the binary mask generated by the DIDL network. Benefiting from the scene independence of the temporal distribution and the accuracy improvement resulting from the spatial correlation, the proposed approach performs well for almost all videos from diverse and complex natural scenes with fixed parameters. Comprehensive experiments on standard datasets including LASIESTA, CDNet2014, BMC, SBMI2015 and 128 real world videos demonstrate the superiority of proposed approach compared to state-of-the-art methods with or without the use of deep learning networks. To the best of our knowledge, this work has high potential to be a general solution for moving object segmentation in real world environments.
翻訳日:2023-04-21 15:16:54 公開日:2023-04-19
# 大量言語モデルによる不正な医師のレビューの特定 - 生成的事前学習トランスフォーマーによる検討

Catch Me If You Can: Identifying Fraudulent Physician Reviews with Large Language Models Using Generative Pre-Trained Transformers ( http://arxiv.org/abs/2304.09948v1 )

ライセンス: Link先を確認
Aishwarya Deep Shukla, Laksh Agarwal, Jie Mein (JM) Goh, Guodong (Gordon) Gao, Ritu Agarwal(参考訳) 医師の偽レビューの急増は患者の幸福を損なう可能性があり、消費者保護団体や規制団体の間で懸念が高まっている。 しかし、機械学習と自然言語処理の分野における著しい進歩にもかかわらず、偽レビューと偽レビューを区別する特徴の理解は限られている。 本研究は、38048名の医師レビューの新たなデータセットを用いて、レビュー分類における大規模言語モデルの有効性を確立した。 具体的には、ロジスティック回帰やサポートベクタマシンなどの従来のMLモデルと、生成事前学習型トランスモデルの比較を行う。 さらに, GPTファミリーの最新のモデルである GPT4 を用いて, 偽の医師レビューと本物の医師レビューの相違点を明らかにする。 本研究により,従来のMLモデルよりもGPT-3の方が優れた性能を示した。 さらに,本分析の結果から,GPT3は従来のモデルよりも少ないトレーニングサンプルを必要とすることが示唆された。 さらに、GPT3の性能は、冷戦開始の文脈、すなわち、医師の事前のレビューがない場合に向上する。 最後に,偽医師レビューを識別する重要な側面を明らかにするために,GPT4を用いた。 シミュレーションデータを用いて得られた文献と対照的に,実世界のデータセットでは,偽レビューは概して臨床的に詳細であり,感情に留意され,真性よりも構造や文法が優れていることが示唆された。

The proliferation of fake reviews of doctors has potentially detrimental consequences for patient well-being and has prompted concern among consumer protection groups and regulatory bodies. Yet despite significant advancements in the fields of machine learning and natural language processing, there remains limited comprehension of the characteristics differentiating fraudulent from authentic reviews. This study utilizes a novel pre-labeled dataset of 38048 physician reviews to establish the effectiveness of large language models in classifying reviews. Specifically, we compare the performance of traditional ML models, such as logistic regression and support vector machines, to generative pre-trained transformer models. Furthermore, we use GPT4, the newest model in the GPT family, to uncover the key dimensions along which fake and genuine physician reviews differ. Our findings reveal significantly superior performance of GPT-3 over traditional ML models in this context. Additionally, our analysis suggests that GPT3 requires a smaller training sample than traditional models, suggesting its appropriateness for tasks with scarce training data. Moreover, the superiority of GPT3 performance increases in the cold start context i.e., when there are no prior reviews of a doctor. Finally, we employ GPT4 to reveal the crucial dimensions that distinguish fake physician reviews. In sharp contrast to previous findings in the literature that were obtained using simulated data, our findings from a real-world dataset show that fake reviews are generally more clinically detailed, more reserved in sentiment, and have better structure and grammar than authentic ones.
翻訳日:2023-04-21 15:16:31 公開日:2023-04-19
# キーポイントによるマルチモーダル登録のための頑健で解釈可能なディープラーニングフレームワーク

A robust and interpretable deep learning framework for multi-modal registration via keypoints ( http://arxiv.org/abs/2304.09941v1 )

ライセンス: Link先を確認
Alan Q. Wang, Evan M. Yu, Adrian V. Dalca, Mert R. Sabuncu(参考訳) 我々は,キーポイントの自動検出に依存するディープラーニングベースの画像登録フレームワークであるkeymorphを提案する。 最新の最先端のディープラーニング手法は、しばしば大きなミスアライメントに対して堅牢ではなく、解釈不可能であり、問題の対称性を組み込んでいない。 さらに、ほとんどのモデルはテスト時に単一の予測しか生成しない。 これらの欠点に対処する中核的な洞察は、画像間の対応するキーポイントを使用して、微分可能な閉形式表現を通じて最適な変換を得ることができることである。 この観察により,登録作業に適したキーポイントをエンド・ツー・エンドで学習し,基幹鍵ポイントの知識を欠くことなく学習する。 このフレームワークは、より堅牢な登録につながるだけでなく、画像のどの部分が最終アライメントを駆動しているかがキーポイントによって明らかにされるため、解釈性も向上する。 さらに、KeyMorphは、入力画像の順序付けに関して、画像翻訳および/または対称の下で同変するように設計することができる。 最後に,複数変形場を異なる変形変種に対応する試験時間における閉形式で効率的に計算する方法を示す。 マルチモーダル脳MRIスキャンの3Dアフィンとスプラインによる登録を解くためのフレームワークを提案する。 特に,現在最先端の手法を超越した登録精度を,特に大規模変位の文脈で示す。 私たちのコードはhttps://github.com/evanmy/keymorph.comで利用可能です。

We present KeyMorph, a deep learning-based image registration framework that relies on automatically detecting corresponding keypoints. State-of-the-art deep learning methods for registration often are not robust to large misalignments, are not interpretable, and do not incorporate the symmetries of the problem. In addition, most models produce only a single prediction at test-time. Our core insight which addresses these shortcomings is that corresponding keypoints between images can be used to obtain the optimal transformation via a differentiable closed-form expression. We use this observation to drive the end-to-end learning of keypoints tailored for the registration task, and without knowledge of ground-truth keypoints. This framework not only leads to substantially more robust registration but also yields better interpretability, since the keypoints reveal which parts of the image are driving the final alignment. Moreover, KeyMorph can be designed to be equivariant under image translations and/or symmetric with respect to the input image ordering. Finally, we show how multiple deformation fields can be computed efficiently and in closed-form at test time corresponding to different transformation variants. We demonstrate the proposed framework in solving 3D affine and spline-based registration of multi-modal brain MRI scans. In particular, we show registration accuracy that surpasses current state-of-the-art methods, especially in the context of large displacements. Our code is available at https://github.com/evanmy/keymorph.
翻訳日:2023-04-21 15:16:05 公開日:2023-04-19
# 量的対象を持つ確率ゲームにおける値反復の停止基準

Stopping Criteria for Value Iteration on Stochastic Games with Quantitative Objectives ( http://arxiv.org/abs/2304.09930v1 )

ライセンス: Link先を確認
Jan K\v{r}et\'insk\'y, Tobias Meggendorfer, Maximilian Weininger(参考訳) マルコフ決定過程(MDP)と確率ゲーム(SG)の古典的な解法は、価値反復(VI)である。 優れた実用性能のため、この近似手法は一般的には正確な手法よりも好まれるが、結果の不正確性に関する実践的な限界は近年まで与えられなかった。 その結果、最もよく使われるモデルチェッカーでさえ、任意に間違った結果を返すことができた。 過去10年間で、様々な作業が停止基準を導出し、その精度が望ましいレベルに達したとき、特にリーチビリティ、総報酬、平均支払、到達性を備えたSGといった様々な設定で示していた。 本稿では、SG 上での VI の停止基準を、全報酬と平均ペイオフで提供し、これらの設定で最初にアルゴリズムを出力する。 この目的のために、我々は、まず、MDPケースへの還元と、SG上で直接的に2つのフレーバーの解を提供する。 前者は単純で、自動的にMDPの進歩を利用する。 後者はより局所的な計算を可能にし、より実用的な効率を目指しています。 我々のソリューションは、前述のMDPとSGのアプローチとその基盤となるアイデアを統一する。 これを実現するため、目的固有のサブルーチンを分離し、目的に依存しない概念を識別する。 これらの構造的概念は驚くほど単純であるが、統一ソリューションの本質を形作っている。

A classic solution technique for Markov decision processes (MDP) and stochastic games (SG) is value iteration (VI). Due to its good practical performance, this approximative approach is typically preferred over exact techniques, even though no practical bounds on the imprecision of the result could be given until recently. As a consequence, even the most used model checkers could return arbitrarily wrong results. Over the past decade, different works derived stopping criteria, indicating when the precision reaches the desired level, for various settings, in particular MDP with reachability, total reward, and mean payoff, and SG with reachability. In this paper, we provide the first stopping criteria for VI on SG with total reward and mean payoff, yielding the first anytime algorithms in these settings. To this end, we provide the solution in two flavours: First through a reduction to the MDP case and second directly on SG. The former is simpler and automatically utilizes any advances on MDP. The latter allows for more local computations, heading towards better practical efficiency. Our solution unifies the previously mentioned approaches for MDP and SG and their underlying ideas. To achieve this, we isolate objective-specific subroutines as well as identify objective-independent concepts. These structural concepts, while surprisingly simple, form the very essence of the unified solution.
翻訳日:2023-04-21 15:15:42 公開日:2023-04-19
# パーソナライズされた状態不安検出--言語バイオマーカーと機械学習パイプラインを用いた実証研究

Personalized State Anxiety Detection: An Empirical Study with Linguistic Biomarkers and A Machine Learning Pipeline ( http://arxiv.org/abs/2304.09928v1 )

ライセンス: Link先を確認
Zhiyuan Wang, Mingyue Tang, Maria A. Larrazabal, Emma R. Toner, Mark Rucker, Congyu Wu, Bethany A. Teachman, Mehdi Boukhechba, Laura E. Barnes(参考訳) 社会不安症状が高い人は、しばしば社会的状況において状態不安が高まる。 デジタルバイオマーカーと機械学習技術を利用して状態不安を検出することが可能である。 しかし、既存の作業訓練は参加者全員をモデルにしており、社会的文脈に対する心理的および行動的反応の個人差を捉えられなかった。 この懸念に対処するため,研究1では,N=35高次社会不安者からの様々な社会的文脈における言語データを収集し,デジタル言語バイオマーカーが評価的・非評価的社会的文脈と特徴的心理的症状の異なる個人の間で大きく異なること,状態不安を検出するためのパーソナライズされたアプローチの重要性を示唆した。 研究2では、同じデータと研究1の結果を用いて、多層化されたパーソナライズされた機械学習パイプラインをモデル化し、文脈的および個人的差異を考慮した状態不安を検出する。 このパーソナライズされたモデルはF1スコアを28.0%上回った。 その結果、個人化された機械学習アプローチによって状態不安をより正確に検出でき、言語バイオマーカーは、邪魔にならない方法で状態不安の期間を特定することを約束している。

Individuals high in social anxiety symptoms often exhibit elevated state anxiety in social situations. Research has shown it is possible to detect state anxiety by leveraging digital biomarkers and machine learning techniques. However, most existing work trains models on an entire group of participants, failing to capture individual differences in their psychological and behavioral responses to social contexts. To address this concern, in Study 1, we collected linguistic data from N=35 high socially anxious participants in a variety of social contexts, finding that digital linguistic biomarkers significantly differ between evaluative vs. non-evaluative social contexts and between individuals having different trait psychological symptoms, suggesting the likely importance of personalized approaches to detect state anxiety. In Study 2, we used the same data and results from Study 1 to model a multilayer personalized machine learning pipeline to detect state anxiety that considers contextual and individual differences. This personalized model outperformed the baseline F1-score by 28.0%. Results suggest that state anxiety can be more accurately detected with personalized machine learning approaches, and that linguistic biomarkers hold promise for identifying periods of state anxiety in an unobtrusive way.
翻訳日:2023-04-21 15:15:22 公開日:2023-04-19
# eBible Corpus:低リソース言語のためのBible Translationのためのデータとモデルベンチマーク

The eBible Corpus: Data and Model Benchmarks for Bible Translation for Low-Resource Languages ( http://arxiv.org/abs/2304.09919v1 )

ライセンス: Link先を確認
Vesa Akerman and David Baines and Damien Daspit and Ulf Hermjakob and Taeho Jang and Colin Leong and Michael Martin and Joel Mathew and Jonathan Robie and Marcus Schwarting(参考訳) コーパスを低リソース言語に効率的かつ正確に翻訳することは、手動、自動化、あるいは2つの組み合わせに関わらず、依然として困難である。 多くのキリスト教の組織は、聖書を近代的な翻訳を欠く言語に翻訳することに専念している。 聖書翻訳(bt)は現在3000以上の極低資源言語で研究が進められている。 聖書の一部の1009の翻訳と75の言語ファミリーにわたる853の言語でのデータを含むデータセットであるebible corpusを紹介する。 BTベンチマークデータセットに加えて、NLLB(No Language Left Behind)ニューラルマシン翻訳(NMT)モデルに基づいて構築されたモデルパフォーマンスベンチマークを導入する。 最後に、BTのドメインに特有のいくつかの問題について述べ、確立されたデータとモデルベンチマークが将来の翻訳にどのように使われるかを検討する。 NLLBで訓練されたBTタスクでは、オーストロネシア語族とトランスニューギニア語族はそれぞれ35.1と31.6のBLEUスコアを獲得し、パプアニューギニアの低リソース言語のためのNMTのイノベーションを加速させる。

Efficiently and accurately translating a corpus into a low-resource language remains a challenge, regardless of the strategies employed, whether manual, automated, or a combination of the two. Many Christian organizations are dedicated to the task of translating the Holy Bible into languages that lack a modern translation. Bible translation (BT) work is currently underway for over 3000 extremely low resource languages. We introduce the eBible corpus: a dataset containing 1009 translations of portions of the Bible with data in 833 different languages across 75 language families. In addition to a BT benchmarking dataset, we introduce model performance benchmarks built on the No Language Left Behind (NLLB) neural machine translation (NMT) models. Finally, we describe several problems specific to the domain of BT and consider how the established data and model benchmarks might be used for future translation efforts. For a BT task trained with NLLB, Austronesian and Trans-New Guinea language families achieve 35.1 and 31.6 BLEU scores respectively, which spurs future innovations for NMT for low-resource languages in Papua New Guinea.
翻訳日:2023-04-21 15:15:00 公開日:2023-04-19
# DCN-T:ハイパースペクトル画像分類のための変換器付きデュアルコンテキストネットワーク

DCN-T: Dual Context Network with Transformer for Hyperspectral Image Classification ( http://arxiv.org/abs/2304.09915v1 )

ライセンス: Link先を確認
Di Wang, Jing Zhang, Bo Du, Liangpei Zhang and Dacheng Tao(参考訳) hyperspectral image (hsi) 分類は複雑な撮像条件によって引き起こされる空間変動のために困難である。 従来の手法では、特殊な設計のネットワークを制限されたデータからスクラッチからトレーニングするため、表現能力の制限に苦しむ。 本稿では,HSIを高品質な3スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。 本研究は,HSIには意味的・幾何学的性質の異なる多くの均質な領域があり,有用コンテキストの抽出に利用することができることを考察し,DCN-Tというエンドツーエンドセグメンテーションネットワークを提案する。 類似性に基づくクラスタリングによって発見された同質領域内および同質領域間の局所的適応と大域的集合空間コンテキストを効果的にエンコードするトランスフォーマーを採用している。 hsiの豊富なスペクトルを十分に活用するために、三スペクトル画像の全てのセグメンテーション結果が投票方式によって最終予測に統合されたアンサンブルアプローチを採用する。 3つの公開ベンチマーク実験の結果,提案手法はHSI分類の最先端手法よりも優れていることがわかった。

Hyperspectral image (HSI) classification is challenging due to spatial variability caused by complex imaging conditions. Prior methods suffer from limited representation ability, as they train specially designed networks from scratch on limited annotated data. We propose a tri-spectral image generation pipeline that transforms HSI into high-quality tri-spectral images, enabling the use of off-the-shelf ImageNet pretrained backbone networks for feature extraction. Motivated by the observation that there are many homogeneous areas with distinguished semantic and geometric properties in HSIs, which can be used to extract useful contexts, we propose an end-to-end segmentation network named DCN-T. It adopts transformers to effectively encode regional adaptation and global aggregation spatial contexts within and between the homogeneous areas discovered by similarity-based clustering. To fully exploit the rich spectrums of the HSI, we adopt an ensemble approach where all segmentation results of the tri-spectral images are integrated into the final prediction through a voting scheme. Extensive experiments on three public benchmarks show that our proposed method outperforms state-of-the-art methods for HSI classification.
翻訳日:2023-04-21 15:14:40 公開日:2023-04-19
# CKmeansとFCKmeans : 群集距離を用いたKmeansアルゴリズムの2つの決定論的初期化法

CKmeans and FCKmeans : Two Deterministic Initialization Procedures For Kmeans Algorithm Using Crowding Distance ( http://arxiv.org/abs/2304.09989v1 )

ライセンス: Link先を確認
Abdesslem Layeb(参考訳) 本稿では,K平均クラスタリングのための2つの新しい決定論的初期化手順を提案する。 CKmeans と FCKmeans という名前の手順は、より混雑した点を初期セントロイドとして使用する。 複数のデータセットに関する実験的研究により、提案手法がクラスタリング精度においてKmeansとKmeans++より優れていることが示された。 ckmeansとfckmeansの有効性は,改良された群集距離に基づいてより良好な初期中心体を選択する能力に起因する。 全体として、提案されたアプローチは、K平均クラスタリングを改善するための有望な代替手段を提供する。

This paper presents two novel deterministic initialization procedures for K-means clustering based on a modified crowding distance. The procedures, named CKmeans and FCKmeans, use more crowded points as initial centroids. Experimental studies on multiple datasets demonstrate that the proposed approach outperforms Kmeans and Kmeans++ in terms of clustering accuracy. The effectiveness of CKmeans and FCKmeans is attributed to their ability to select better initial centroids based on the modified crowding distance. Overall, the proposed approach provides a promising alternative for improving K-means clustering.
翻訳日:2023-04-21 15:07:47 公開日:2023-04-19
# Tetra-NeRF:Tetrahedraを用いたニューラルラジアンスフィールドの表現

Tetra-NeRF: Representing Neural Radiance Fields Using Tetrahedra ( http://arxiv.org/abs/2304.09987v1 )

ライセンス: Link先を確認
Jonas Kulhanek and Torsten Sattler(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成と3次元再構成の問題に対して、非常に最近かつ非常にポピュラーなアプローチである。 NeRFの一般的なシーン表現は、シーンの均一なボクセルベースのサブディビジョンとMPPを組み合わせることである。 本稿では,シーンの(少ない)点雲がしばしば利用できるという観測に基づいて,一様部分分割や点ベース表現の代わりにテトラヘドラとデラウネー表現に基づく適応表現を用いることを提案する。 このような表現が効率的なトレーニングを可能にし,最先端の成果をもたらすことを示す。 提案手法は, 3次元幾何処理, 三角形ベースのレンダリング, 現代のニューラル放射場の概念をエレガントに組み合わせる。 voxelベースの表現と比較すると、私達は表面に近いと思われるシーンの一部についてより詳細な情報を提供している。 点ベース表現と比較して,本手法は性能が向上する。

Neural Radiance Fields (NeRFs) are a very recent and very popular approach for the problems of novel view synthesis and 3D reconstruction. A popular scene representation used by NeRFs is to combine a uniform, voxel-based subdivision of the scene with an MLP. Based on the observation that a (sparse) point cloud of the scene is often available, this paper proposes to use an adaptive representation based on tetrahedra and a Delaunay representation instead of the uniform subdivision or point-based representations. We show that such a representation enables efficient training and leads to state-of-the-art results. Our approach elegantly combines concepts from 3D geometry processing, triangle-based rendering, and modern neural radiance fields. Compared to voxel-based representations, ours provides more detail around parts of the scene likely to be close to the surface. Compared to point-based representations, our approach achieves better performance.
翻訳日:2023-04-21 15:07:38 公開日:2023-04-19
# Radar de Parit\'e:フランスのニュース記事におけるジェンダー表現を測定するNLPシステム

Radar de Parit\'e: An NLP system to measure gender representation in French news stories ( http://arxiv.org/abs/2304.09982v1 )

ライセンス: Link先を確認
Valentin-Gabriel Soumah, Prashanth Rao, Philipp Eibl, Maite Taboada(参考訳) カナダの6つのフランス語メディアで毎日引用されている女性と男性の割合を測定する,NLP(Automatic Natural Language Processing)システムであるRadar de Parit\'eを紹介する。 システムのアーキテクチャを概説し、フランス固有の問題、特にフランス語のnlp文学への新たな貢献であるコリファレンス解決に関する課題を詳述する。 また、1年分のデータ(282,512のニュース記事)に関する統計も紹介する。 本研究は,ジェンダー表現の計測や社会問題への対処に近代的NLP手法を応用した上で,ニュース記事における女性の表現不足を強調した。

We present the Radar de Parit\'e, an automated Natural Language Processing (NLP) system that measures the proportion of women and men quoted daily in six Canadian French-language media outlets. We outline the system's architecture and detail the challenges we overcame to address French-specific issues, in particular regarding coreference resolution, a new contribution to the NLP literature on French. We also showcase statistics covering over one year's worth of data (282,512 news articles). Our results highlight the underrepresentation of women in news stories, while also illustrating the application of modern NLP methods to measure gender representation and address societal issues.
翻訳日:2023-04-21 15:07:20 公開日:2023-04-19
# 再送防止のための退院後介入の割り当てに対する不均質な生存者バイアス補正治療効果

Interpretable (not just posthoc-explainable) heterogeneous survivor bias-corrected treatment effects for assignment of postdischarge interventions to prevent readmissions ( http://arxiv.org/abs/2304.09981v1 )

ライセンス: Link先を確認
Hongjing Xia, Joshua C. Chang, Sarah Nowak, Sonya Mahajan, Rohit Mahajan, Ted L. Chang, Carson C. Chow(参考訳) 退院後評価・管理(E/M)サービスによる退院・死亡予防効果の定量化に生存分析を用いた。 我々のアプローチは、この問題に機械学習を適用するという特定の落とし穴を避けます。これは、生存者のバイアスによる介入の効果を膨らませた見積もりです。 このバイアスは、退院後に介入を受けるために、インターベンション期間中に人が再送されるべきではないため、単に生じる。 このファントム効果の表現を導出した後、本質的に解釈可能なベイズ生存枠組み内のバイアスやその他のバイアスを制御した。 症例管理サービスは,介護施設に退院した患者,入所前四半期の資源利用率が高い患者において,全体の欠学率の低下に最も影響を与えるものと考えられた。

We used survival analysis to quantify the impact of postdischarge evaluation and management (E/M) services in preventing hospital readmission or death. Our approach avoids a specific pitfall of applying machine learning to this problem, which is an inflated estimate of the effect of interventions, due to survivors bias -- where the magnitude of inflation may be conditional on heterogeneous confounders in the population. This bias arises simply because in order to receive an intervention after discharge, a person must not have been readmitted in the intervening period. After deriving an expression for this phantom effect, we controlled for this and other biases within an inherently interpretable Bayesian survival framework. We identified case management services as being the most impactful for reducing readmissions overall, particularly for patients discharged to long term care facilities, with high resource utilization in the quarter preceding admission.
翻訳日:2023-04-21 15:07:07 公開日:2023-04-19
# 機能学習のためのトランスフォーマー

Beyond Transformers for Function Learning ( http://arxiv.org/abs/2304.09979v1 )

ライセンス: Link先を確認
Simon Segert, Jonathan Cohen(参考訳) 単純な機能を学習し、予測する能力は、人間の知能の重要な側面である。 最近の研究はトランスフォーマーアーキテクチャを使ってこの能力を探求し始めているが、この領域の人々の外挿能力を再カプセル化するのに十分かどうかは不明だ。 本稿では,認知科学における抽象的推論モデルから直接適応した2つの単純な帰納的学習バイアスでトランスフォーマーアーキテクチャを増大させることにより,このギャップに対処することを提案する。 その結果,これらのバイアスは大規模ニューラルネットワークモデルの文脈において有用であり,外挿における人間の能力に寄与する帰納的学習バイアスの種類にも光を当てることができた。

The ability to learn and predict simple functions is a key aspect of human intelligence. Recent works have started to explore this ability using transformer architectures, however it remains unclear whether this is sufficient to recapitulate the extrapolation abilities of people in this domain. Here, we propose to address this gap by augmenting the transformer architecture with two simple inductive learning biases, that are directly adapted from recent models of abstract reasoning in cognitive science. The results we report demonstrate that these biases are helpful in the context of large neural network models, as well as shed light on the types of inductive learning biases that may contribute to human abilities in extrapolation.
翻訳日:2023-04-21 15:06:51 公開日:2023-04-19
# 深部ホログラフィー推定における領域シフト免疫の解析

Analyzing the Domain Shift Immunity of Deep Homography Estimation ( http://arxiv.org/abs/2304.09976v1 )

ライセンス: Link先を確認
Mingzhen Shao, Tolga Tasdizen, Sarang Joshi(参考訳) ホログラフィー推定は多くの応用において基本的な画像アライメント法である。 近年,畳み込みニューラルネットワーク(CNN)の発展に伴い,この課題において学習に基づくアプローチが大きな成功を収めている。 しかし、様々な分野における性能の研究は行われていない。 他の一般的なタスク(分類、検出、セグメンテーション)とは異なり、CNNベースのホモグラフィー推定モデルは、ドメインシフト免疫を示す。 この特異な性能を説明するためには、CNNがどのようにホモグラフィーを推定するかを決定する必要がある。 本研究では、まず、異なる深層ホモグラフィ推定モデルの領域シフト免疫性を示す。 次に、特別に設計されたデータセットを持つ浅いネットワークを使用して、見積もりに使用する特徴を分析します。 その結果,ネットワークは低レベルのテクスチャ情報を用いてホモグラフィーを推定した。 また,共通のデータセット上で歪んだテクスチャ密度と画像特徴のパフォーマンスを比較する実験もいくつか行った。 これらの知見に基づき, 深部ホモグラフィー推定の領域シフト免疫について説明する。

Homography estimation is a basic image-alignment method in many applications. Recently, with the development of convolutional neural networks (CNNs), some learning based approaches have shown great success in this task. However, the performance across different domains has never been researched. Unlike other common tasks (\eg, classification, detection, segmentation), CNN based homography estimation models show a domain shift immunity, which means a model can be trained on one dataset and tested on another without any transfer learning. To explain this unusual performance, we need to determine how CNNs estimate homography. In this study, we first show the domain shift immunity of different deep homography estimation models. We then use a shallow network with a specially designed dataset to analyze the features used for estimation. The results show that networks use low-level texture information to estimate homography. We also design some experiments to compare the performance between different texture densities and image features distorted on some common datasets to demonstrate our findings. Based on these findings, we provide an explanation of the domain shift immunity of deep homography estimation.
翻訳日:2023-04-21 15:06:39 公開日:2023-04-19
# スーパービジョンのないグラフニューラルネットワークによるキドニー交換問題の解法

Solving the Kidney-Exchange Problem via Graph Neural Networks with No Supervision ( http://arxiv.org/abs/2304.09975v1 )

ライセンス: Link先を確認
Pedro Foletto Pimenta, Pedro H. C. Avelar and Luis C. Lamb(参考訳) 本稿では,グラフ上のNP困難問題であるKidney-Exchange Problem (KEP) を解くための学習に基づく新しいアプローチを提案する。 この問題は、腎臓ドナーのプールと腎臓ドナーを待っている患者が与えられると、これらのドナーの配置に関する一連の制約を尊重しながら行われる移植の量と品質を最適化する一連のドナーを最適に選択する。 提案手法は2つの主要なステップから構成される: 1つは教師無しで訓練されたグラフニューラルネットワーク(GNN)、2つ目は、GNNの出力を使って経路やサイクルを見つける決定論的非学習的探索ヒューリスティックである。 比較のために、整数プログラミングを用いた正確な解法、機械学習モジュールを使わずに2つのグリージー検索ヒューリスティック、ヒューリスティックを使わずにGNNのみを実装・テストした。 提案手法を解析・比較し,学習に基づく2段階アプローチが最良解品質であると結論し,決定論的ヒューリスティックのみの解よりも平均1.1倍価値の高い解を導出する。

This paper introduces a new learning-based approach for approximately solving the Kidney-Exchange Problem (KEP), an NP-hard problem on graphs. The problem consists of, given a pool of kidney donors and patients waiting for kidney donations, optimally selecting a set of donations to optimize the quantity and quality of transplants performed while respecting a set of constraints about the arrangement of these donations. The proposed technique consists of two main steps: the first is a Graph Neural Network (GNN) trained without supervision; the second is a deterministic non-learned search heuristic that uses the output of the GNN to find paths and cycles. To allow for comparisons, we also implemented and tested an exact solution method using integer programming, two greedy search heuristics without the machine learning module, and the GNN alone without a heuristic. We analyze and compare the methods and conclude that the learning-based two-stage approach is the best solution quality, outputting approximate solutions on average 1.1 times more valuable than the ones from the deterministic heuristic alone.
翻訳日:2023-04-21 15:06:22 公開日:2023-04-19
# surgerygpt : 視覚質問応答のためのエンド・ツー・エンド言語ビジョンgpt

SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery ( http://arxiv.org/abs/2304.09974v1 )

ライセンス: Link先を確認
Lalithkumar Seenivasan, Mobarakol Islam, Gokul Kannan and Hongliang Ren(参考訳) GPTベースの大規模言語モデル(LLM)の進歩は、自然言語処理に革命をもたらし、様々な領域でその使用を指数関数的に増加させている。 一方向の注意を組み込んだこれらの自己回帰LDMは、長いコヒーレントな段落を生成することができる。 しかしながら、視覚と言語処理の両方を必要とする視覚的質問応答(VQA)タスクでは、双方向の注意または融合技術を用いたモデルを用いて、複数のモーダルのコンテキストを同時にキャプチャすることが多い。 GPTは視覚トークンをネイティブに処理せず、ロボット手術におけるVQAのためのGPTモデルの進歩を利用するため、GPT2モデルを拡張して視覚入力(画像)を含むエンドツーエンドのトレーニング可能な言語ビジョンGPT(LV-GPT)モデルを設計する。 提案するLV-GPTには,特徴抽出器(ビジョントークン化器)と視覚トークン埋め込み(トークンタイプとポーズ)が組み込まれている。 GPTモデルにおける一方向の注意の限界とコヒーレントな長文を生成する能力を考えると、視覚トークンの前に単語トークンを注意深くシーケンスし、人間の思考過程を模倣して画像から答えを推測する。 lv-gptモデルは,手術用vqaデータセット(内視鏡的視覚課題ロボットシーンセグメンテーション2018とcholectriplet2021に基づく)と,新たにアノテーション付きデータセット(総合的な手術用シーンデータセットに基づく)で,他の最先端vqaモデルよりも優れていることを定量的に証明する。 さらに3つのデータセットに、サブタイプ分析を可能にする質問型アノテーションを含めるようアノテートする。 さらに, lv-gptモデルにおける視覚トークンに対するトークンシーケンシング, トークンタイプ, ポーズ埋め込みの効果を広く研究し, 提示する。

Advances in GPT-based large language models (LLMs) are revolutionizing natural language processing, exponentially increasing its use across various domains. Incorporating uni-directional attention, these autoregressive LLMs can generate long and coherent paragraphs. However, for visual question answering (VQA) tasks that require both vision and language processing, models with bi-directional attention or models employing fusion techniques are often employed to capture the context of multiple modalities all at once. As GPT does not natively process vision tokens, to exploit the advancements in GPT models for VQA in robotic surgery, we design an end-to-end trainable Language-Vision GPT (LV-GPT) model that expands the GPT2 model to include vision input (image). The proposed LV-GPT incorporates a feature extractor (vision tokenizer) and vision token embedding (token type and pose). Given the limitations of unidirectional attention in GPT models and their ability to generate coherent long paragraphs, we carefully sequence the word tokens before vision tokens, mimicking the human thought process of understanding the question to infer an answer from an image. Quantitatively, we prove that the LV-GPT model outperforms other state-of-the-art VQA models on two publically available surgical-VQA datasets (based on endoscopic vision challenge robotic scene segmentation 2018 and CholecTriplet2021) and on our newly annotated dataset (based on the holistic surgical scene dataset). We further annotate all three datasets to include question-type annotations to allow sub-type analysis. Furthermore, we extensively study and present the effects of token sequencing, token type and pose embedding for vision tokens in the LV-GPT model.
翻訳日:2023-04-21 15:06:01 公開日:2023-04-19
# MasakhaneWS: アフリカの言語のニューストピック分類

MasakhaNEWS: News Topic Classification for African languages ( http://arxiv.org/abs/2304.09972v1 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, Marek Masiak, Israel Abebe Azime, Jesujoba Oluwadara Alabi, Atnafu Lambebo Tonja, Christine Mwase, Odunayo Ogundepo, Bonaventure F. P. Dossou, Akintunde Oladipo, Doreen Nixdorf, Chris Chinenye Emezue, Sana Sabah al-azzawi, Blessing K. Sibanda, Davis David, Lolwethu Ndolela, Jonathan Mukiibi, Tunde Oluwaseyi Ajayi, Tatiana Moteu Ngoli, Brian Odhiambo, Abraham Toluwase Owodunni, Nnaemeka C. Obiefuna, Shamsuddeen Hassan Muhammad, Saheed Salahudeen Abdullahi, Mesay Gemeda Yigezu, Tajuddeen Gwadabe, Idris Abdulmumin, Mahlet Taye Bame, Oluwabusayo Olufunke Awoyomi, Iyanuoluwa Shode, Tolulope Anu Adelani, Habiba Abdulganiy Kailani, Abdul-Hakeem Omotayo, Adetola Adeeko, Afolabi Abeeb, Anuoluwapo Aremu, Olanrewaju Samuel, Clemencia Siro, Wangari Kimotho, Onyekachi Raphael Ogbu, Chinedu E. Mbonu, Chiamaka I. Chukwuneke, Samuel Fanijo, Jessica Ojo, Oyinkansola F. Awosan, Tadesse Kebede Guge, Sakayo Toadoum Sari, Pamela Nyatsine, Freedmore Sidume, Oreen Yousuf, Mardiyyah Oduwole, Ussen Kimanuka, Kanda Patrick Tshinu, Thina Diko, Siyanda Nxakama, Abdulmejid Tuni Johar, Sinodos Gebre, Muhidin Mohamed, Shafie Abdi Mohamed, Fuad Mire Hassan, Moges Ahmed Mehamed, Evrard Ngabire, and Pontus Stenetorp(参考訳) アフリカの言語は、いくつかのNLPタスクをカバーするデータセットが欠如しているため、NLP研究において非常に不足している。 個別の言語固有のデータセットがさまざまなタスクに拡張されているが、いくつかのNLPタスク(エンティティ認識や機械翻訳など)だけが、地理的およびタイプ論的に異なるアフリカの言語をカバーするベンチマークデータセットを標準化している。 本稿では,アフリカで広く話されている16言語を対象とした,ニューストピック分類のための新しいベンチマークデータセットであるMashokhaNEWSを開発する。 古典的機械学習モデルを訓練し,複数の言語モデルを微調整することにより,ベースラインモデルの評価を行う。 さらに,クロスリンガルパラメーター効率の優れた微調整(mad-x など),パターン活用トレーニング(pet),プロンプト言語モデル(chatgpt など),プロンプトフリー文変換(setfit と cohere embedded api)といった,ゼロショット学習や少数ショット学習に適した言語モデルの完全微調整の選択肢についても検討した。 ゼロショット設定による評価は,低資源アフリカ言語におけるニューストピック分類におけるchatgptの促進の可能性を示し,mad-xのような追加の監督を必要とせず,平均70f1ポイントのパフォーマンスを達成した。 少数の設定では、PETアプローチを利用したフル教師付きトレーニング(92.6F1ポイント)のパフォーマンスの90%以上(86.0F1ポイント)を達成した。

African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS -- a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach.
翻訳日:2023-04-21 15:05:25 公開日:2023-04-19
# ビジネスプロセスにおける資源配分の学習方針

Learning policies for resource allocation in business processes ( http://arxiv.org/abs/2304.09970v1 )

ライセンス: Link先を確認
J. Middelhuis, R. Lo Bianco, E. Scherzer, Z. A. Bukhsh, I. J. B. F. Adan, R. M. Dijkman(参考訳) リソース割り当ては、実行時に特定の瞬間にビジネスプロセスで実行されなければならないアクティビティへのリソースの割り当てです。 資源割り当ては製造など他の分野でよく研究されているが、ビジネスプロセス管理にはいくつかの方法しか存在しない。 既存の手法は、大規模なビジネスプロセスのアプリケーションや、すべてのケースを組み合わせるのではなく、単一のケースでリソース割り当てを最適化することには適していない。 このギャップを埋めるために,本論文では,深層強化学習とスコアに基づく値関数近似という,ビジネスプロセスにおける資源配分の学習に基づく2つの手法を提案する。 この2つの方法は、典型的なビジネスプロセス構造を表す一連のシナリオと、現実的なビジネスプロセスを表す完全なネットワークにおける既存のヒューリスティックと比較されます。 その結果、学習に基づく手法は、ほとんどのシナリオにおいて一般的なヒューリスティックと競合し、ネットワーク全体のヒューリスティックよりも優れていた。

Resource allocation is the assignment of resources to activities that must be executed in a business process at a particular moment at run-time. While resource allocation is well-studied in other fields, such as manufacturing, there exist only a few methods in business process management. Existing methods are not suited for application in large business processes or focus on optimizing resource allocation for a single case rather than for all cases combined. To fill this gap, this paper proposes two learning-based methods for resource allocation in business processes: a deep reinforcement learning-based approach and a score-based value function approximation approach. The two methods are compared against existing heuristics in a set of scenarios that represent typical business process structures and on a complete network that represents a realistic business process. The results show that our learning-based methods outperform or are competitive with common heuristics in most scenarios and outperform heuristics in the complete network.
翻訳日:2023-04-21 15:04:55 公開日:2023-04-19
# 分離性, 文脈性, および量子フレーム問題

Separability, Contextuality, and the Quantum Frame Problem ( http://arxiv.org/abs/2304.10010v1 )

ライセンス: Link先を確認
Chris Fields and James F. Glazebrook(参考訳) 本研究では, 状態分離可能性の仮定と, 準備と測定の文脈性との関係について検討し, それらとフレーム問題との関係について検討した。 我々は後者の量子類似性を示し、その不決定性を証明する。 基礎選択,熱力学的交換,事前因果モデルの付与による状態形成と測定において,文脈性が汎用的にどのように引き起こされるか,非文脈性として特徴づけられる設定において,微調整仮定がいかにユビキタスに現れるかを示す。

We study the relationship between assumptions of state separability and both preparation and measurement contextuality, and the relationship of both of these to the frame problem, the problem of predicting what does not change in consequence of an action. We state a quantum analog of the latter and prove its undecidability. We show how contextuality is generically induced in state preparation and measurement by basis choice, thermodynamic exchange, and the imposition of a priori causal models, and how fine-tuning assumptions appear ubiquitously in settings characterized as non-contextual.
翻訳日:2023-04-21 14:57:50 公開日:2023-04-19
# スピードランニングと機械学習における電力法の動向

Power Law Trends in Speedrunning and Machine Learning ( http://arxiv.org/abs/2304.10004v1 )

ライセンス: Link先を確認
Ege Erdil and Jaime Sevilla(参考訳) スピードランニングの世界記録の改善は、電力法パターンに従っている。 この観察から,世界記録を1ヶ月などの時間的地平線で予測する場合,改善の予測基準をどう改善すればよいのか,という,これまでの研究から顕著な疑問に答える。 ランダム効果モデルを用いて, 平均二乗誤差に対するこのベースラインの改善を行い, 比較指標として, 平均二乗誤差を10^{-5}$で予測した。 同じセットアップでは、前ポストの最も指数的な移動平均の予測値である \textit{even} を$p = 0.15$の重要度レベルで改善する。 機械学習ベンチマークに適用し,ベースラインを超える予測を達成することによって,このアプローチの有効性を実証する。 最後に、結果のモデルを解釈して 1)MLベンチマークは飽和から程遠い。 2) 機械学習の突然の大きな改善はあり得ないが、除外することはできない。

We find that improvements in speedrunning world records follow a power law pattern. Using this observation, we answer an outstanding question from previous work: How do we improve on the baseline of predicting no improvement when forecasting speedrunning world records out to some time horizon, such as one month? Using a random effects model, we improve on this baseline for relative mean square error made on predicting out-of-sample world record improvements as the comparison metric at a $p < 10^{-5}$ significance level. The same set-up improves \textit{even} on the ex-post best exponential moving average forecasts at a $p = 0.15$ significance level while having access to substantially fewer data points. We demonstrate the effectiveness of this approach by applying it to Machine Learning benchmarks and achieving forecasts that exceed a baseline. Finally, we interpret the resulting model to suggest that 1) ML benchmarks are far from saturation and 2) sudden large improvements in Machine Learning are unlikely but cannot be ruled out.
翻訳日:2023-04-21 14:57:38 公開日:2023-04-19
# 乳幼児の泣き声の弱さ検出

Weakly Supervised Detection of Baby Cry ( http://arxiv.org/abs/2304.10001v1 )

ライセンス: Link先を確認
Weijun Tan, Qi Yao, Jingfeng Liu(参考訳) 乳幼児の泣き声の検出は乳児のモニタリングと健康管理の重要な部分である。 既存のほとんどのメソッドは、教師付きSVM、CNN、またはそれらの変種を使用する。 本研究では,乳児の泣き声を検出するために弱い教師付き異常検出法を提案する。 この弱い監視では、オーディオファイルに泣き声がある場合にのみ弱いアノテーションが必要である。 我々は、VGGish特徴抽出器と、長い音声ファイルの異常検出ネットワークを用いて、データマイニング手法を設計する。 得られたデータセットは、簡単なCNN機能ネットワークをトレーニングして、Cry/non-cry分類を行う。 次に、このCNNを異常検出フレームワークの機能抽出器として使用し、より優れた低温検出性能を実現する。

Detection of baby cries is an important part of baby monitoring and health care. Almost all existing methods use supervised SVM, CNN, or their varieties. In this work, we propose to use weakly supervised anomaly detection to detect a baby cry. In this weak supervision, we only need weak annotation if there is a cry in an audio file. We design a data mining technique using the pre-trained VGGish feature extractor and an anomaly detection network on long untrimmed audio files. The obtained datasets are used to train a simple CNN feature network for cry/non-cry classification. This CNN is then used as a feature extractor in an anomaly detection framework to achieve better cry detection performance.
翻訳日:2023-04-21 14:57:16 公開日:2023-04-19
# パーソナライズされたヘパリン投与のためのモデルベース強化学習

Model Based Reinforcement Learning for Personalized Heparin Dosing ( http://arxiv.org/abs/2304.10000v1 )

ライセンス: Link先を確認
Qinyang He and Yonatan Mintz(参考訳) 逐次意思決定における鍵となる課題は、部分的情報の下で安全にシステムを最適化することである。 文献の多くは、部分的に知られた状態または部分的に既知のダイナミクスのケースに焦点を当てているが、状態とダイナミクスの両方が部分的に知られている場合においてさらに悪化している。 ヘパリンの濃度を直接測定することはできず、ヘパリンを代謝する割合が個人によって大きく異なるため、患者に対するヘパリンの計算量はこのパラダイムに適合する。 提案されたソリューションの多くはモデルフリーだが、複雑なモデルが必要であり、安全性を確保するのに困難である。 しかし、ダイナミックスの構造の一部が分かっていれば、モデルに基づくアプローチを利用して安全なポリシーを提供することができる。 本稿では,パーソナライズされたヘパリン線量最適化の課題に対処するための枠組みを提案する。 患者によって個別にパラメータ化された予測モデルを用いて将来の治療効果を予測する。 次に,患者安全を確保するシナリオ生成に基づくアプローチを用いて,このモデルを活用する。 我々は、既存の機械学習技術と比較し、シミュレーションしたICU環境における患者の治療方法を示すことによって、我々のモデルを数値実験で検証する。

A key challenge in sequential decision making is optimizing systems safely under partial information. While much of the literature has focused on the cases of either partially known states or partially known dynamics, it is further exacerbated in cases where both states and dynamics are partially known. Computing heparin doses for patients fits this paradigm since the concentration of heparin in the patient cannot be measured directly and the rates at which patients metabolize heparin vary greatly between individuals. While many proposed solutions are model free, they require complex models and have difficulty ensuring safety. However, if some of the structure of the dynamics is known, a model based approach can be leveraged to provide safe policies. In this paper we propose such a framework to address the challenge of optimizing personalized heparin doses. We use a predictive model parameterized individually by patient to predict future therapeutic effects. We then leverage this model using a scenario generation based approach that is capable of ensuring patient safety. We validate our models with numerical experiments by comparing the predictive capabilities of our model against existing machine learning techniques and demonstrating how our dosing algorithm can treat patients in a simulated ICU environment.
翻訳日:2023-04-21 14:57:05 公開日:2023-04-19
# 投票者としてのデータ:承認に基づく多票制による事例選択

Data as voters: instance selection using approval-based multi-winner voting ( http://arxiv.org/abs/2304.09995v1 )

ライセンス: Link先を確認
Luis S\'anchez-Fern\'andez and Jes\'us A. Fisteus and Rafael L\'opez-Zaragoza(参考訳) 本稿では,機械学習(あるいはデータマイニング)におけるインスタンス選択問題に対する新しいアプローチを提案する。 このアプローチは、承認ベースの複数当選者選挙における(プロポーザルな)代表による最近の結果に基づいている。 私たちのモデルでは、インスタンスは有権者と候補者の両方の役割を担います。 トレーニングセット(投票者として実行される)の各インスタンスは、そのローカルセットに属するインスタンス(候補者の役割を演じる)を承認する(それ自体を除いて)。 次に、代表投票ルールを使用して選挙勝者を選択し、そのような勝者は、縮小されたトレーニングセットに保持されるデータインスタンスである。

We present a novel approach to the instance selection problem in machine learning (or data mining). Our approach is based on recent results on (proportional) representation in approval-based multi-winner elections. In our model, instances play a double role as voters and candidates. Each instance in the training set (acting as a voter) approves of the instances (playing the role of candidates) belonging to its local set (except itself), a concept already existing in the literature. We then select the election winners using a representative voting rule, and such winners are the data instances kept in the reduced training set.
翻訳日:2023-04-21 14:56:48 公開日:2023-04-19
# LSTM-DeepLabv3+による都市洪水予測の改善と時空間的特徴融合によるベイズ最適化

Improving Urban Flood Prediction using LSTM-DeepLabv3+ and Bayesian Optimization with Spatiotemporal feature fusion ( http://arxiv.org/abs/2304.09994v1 )

ライセンス: Link先を確認
Zuxiang Situ, Qi Wang, Shuai Teng, Wanen Feng, Gongfa Chen, Qianqian Zhou, Guangtao Fu(参考訳) ディープラーニングモデルは,従来の手法よりも精度と効率が優れているため,洪水予測に人気が高まっている。 しかし、現在の機械学習手法は、しばしば異なる空間的・時間的特徴分析に依存し、入力データのタイプ、数、次元に制限がある。 本研究では,CNNの空間的特徴の処理における強度と,時系列の異なる次元の解析におけるRNNの強度を統合した,都市洪水予測のためのCNN-RNNハイブリッド機能融合モデリング手法を提案する。 このアプローチは静的および動的洪水予測の両方を可能にした。 ベイズ最適化は7つの最も影響力のある洪水要因を特定し、最良の組み合わせ戦略を決定するために適用された。 4つのCNN(FCN, UNet, SegNet, DeepLabv3+)と3つのRNN(LSTM, BiLSTM, GRU)を組み合わせることで、最適なハイブリッドモデルをLSTM-DeepLabv3+と同定した。 このモデルは降雨入力条件下での予測精度が最も高かった(MAE, RMSE, NSE, KGEはそれぞれ0.007, 0.025, 0.973, 0.755)。 さらに、物理モデルと比較して1.158秒(従来の計算時間の約1/125)の推論時間で処理速度が大幅に向上した。

Deep learning models have become increasingly popular for flood prediction due to their superior accuracy and efficiency compared to traditional methods. However, current machine learning methods often rely on separate spatial or temporal feature analysis and have limitations on the types, number, and dimensions of input data. This study presented a CNN-RNN hybrid feature fusion modelling approach for urban flood prediction, which integrated the strengths of CNNs in processing spatial features and RNNs in analyzing different dimensions of time sequences. This approach allowed for both static and dynamic flood predictions. Bayesian optimization was applied to identify the seven most influential flood-driven factors and determine the best combination strategy. By combining four CNNs (FCN, UNet, SegNet, DeepLabv3+) and three RNNs (LSTM, BiLSTM, GRU), the optimal hybrid model was identified as LSTM-DeepLabv3+. This model achieved the highest prediction accuracy (MAE, RMSE, NSE, and KGE were 0.007, 0.025, 0.973 and 0.755, respectively) under various rainfall input conditions. Additionally, the processing speed was significantly improved, with an inference time of 1.158s (approximately 1/125 of the traditional computation time) compared to the physically-based models.
翻訳日:2023-04-21 14:56:38 公開日:2023-04-19
# LLMにおける人間とAIの協調支援

Supporting Human-AI Collaboration in Auditing LLMs with LLMs ( http://arxiv.org/abs/2304.09991v1 )

ライセンス: Link先を確認
Charvi Rastogi, Marco Tulio Ribeiro, Nicholas King, Saleema Amershi(参考訳) 社会技術的システムへの展開を通じて,大規模言語モデルの普及とユビキタス化が進んでいる。 しかし、これらの言語モデルは分類や生成のためのもので、偏見があり、無責任に振る舞うことが示され、大規模に人々に害を与えている。 これらの言語モデルを厳密に監査することが重要である。 既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。 本研究では、人間とAIのコラボレーションとセンスメイキングの文献を取り上げ、安全で公正なAIの専門家とのインタビューを行い、監査ツールであるAdaTest(Ribeiro and Lundberg, 2022)をベースとして、ジェネレーティブな大規模言語モデル(LLM)を活用している。 デザインプロセスを通じて,協調監査における人間と生成モデルの補完的強みを活用するために,感性作りと人間-aiコミュニケーションの重要性を強調する。 拡張ツールであるAdaTest++の有効性を評価するために,OpenAIのGPT-3とAzureの感情分析モデルという,2つの商用言語モデルを監査する参加者を対象に,ユーザスタディを実施している。 定性的分析は、AdaTest++がスキーマ化や仮説形成、テストといった人間の強みを効果的に活用していることを示している。 さらに,本ツールでは,2つのタスクに対して26のトピックをカバーし,これまで公式な監査や報告が不十分であったさまざまな障害モードを特定した。

Large language models are becoming increasingly pervasive and ubiquitous in society via deployment in sociotechnical systems. Yet these language models, be it for classification or generation, have been shown to be biased and behave irresponsibly, causing harm to people at scale. It is crucial to audit these language models rigorously. Existing auditing tools leverage either or both humans and AI to find failures. In this work, we draw upon literature in human-AI collaboration and sensemaking, and conduct interviews with research experts in safe and fair AI, to build upon the auditing tool: AdaTest (Ribeiro and Lundberg, 2022), which is powered by a generative large language model (LLM). Through the design process we highlight the importance of sensemaking and human-AI communication to leverage complementary strengths of humans and generative models in collaborative auditing. To evaluate the effectiveness of the augmented tool, AdaTest++, we conduct user studies with participants auditing two commercial language models: OpenAI's GPT-3 and Azure's sentiment analysis model. Qualitative analysis shows that AdaTest++ effectively leverages human strengths such as schematization, hypothesis formation and testing. Further, with our tool, participants identified a variety of failures modes, covering 26 different topics over 2 tasks, that have been shown before in formal audits and also those previously under-reported.
翻訳日:2023-04-21 14:56:13 公開日:2023-04-19
# テキスト画像コントラストモデルのパワーを利用したオンライン誤情報の自動検出

Harnessing the Power of Text-image Contrastive Models for Automatic Detection of Online Misinformation ( http://arxiv.org/abs/2304.10249v1 )

ライセンス: Link先を確認
Hao Chen, Peng Zheng, Xin Wang, Shu Hu, Bin Zhu, Jinrong Hu, Xi Wu, Siwei Lyu(参考訳) ここ数十年でソーシャルメディアのウェブサイトの利用が増加するにつれて、ニュース記事が急速にオンラインに広まり、前例のない規模の不正な情報を生み出した。 このようなコンテンツを検出するために教師付き機械学習アプローチを適用した研究は数多くあるが、ゴールドスタンダードのトレーニングデータが欠如していることが開発を妨げている。 偽のテキスト記述や偽画像など、単一のデータフォーマットを分析することが、現在の研究の主流の方向である。 しかし、現実のシナリオにおける誤報は、ニュース記事/ニュースタイトルをテキストコンテンツとして記述し、通常は関連画像が続くテキスト画像ペアとして一般的に形成される。 ラベル付きデータなしで特徴を学習する強力な能力を考えると、自己学習アプローチとしての対照的な学習が出現し、コンピュータビジョンで成功している。 本稿では,誤情報識別分野におけるコンストラクティブ学習を探求することを目的とする。 自己学習モデルを開発し,cosmosという公開データセット上で総合的な実験を行った。 ベースライン分類器と比較すると,トレーニングデータが不十分な場合,非マッチング画像テキストペア検出(約10%)の優れた性能を示す。 さらに,学習の安定性を観察し,学習データ量を大幅に削減するとともに,比較した分類結果を維持することを提案した。

As growing usage of social media websites in the recent decades, the amount of news articles spreading online rapidly, resulting in an unprecedented scale of potentially fraudulent information. Although a plenty of studies have applied the supervised machine learning approaches to detect such content, the lack of gold standard training data has hindered the development. Analysing the single data format, either fake text description or fake image, is the mainstream direction for the current research. However, the misinformation in real-world scenario is commonly formed as a text-image pair where the news article/news title is described as text content, and usually followed by the related image. Given the strong ability of learning features without labelled data, contrastive learning, as a self-learning approach, has emerged and achieved success on the computer vision. In this paper, our goal is to explore the constrastive learning in the domain of misinformation identification. We developed a self-learning model and carried out the comprehensive experiments on a public data set named COSMOS. Comparing to the baseline classifier, our model shows the superior performance of non-matched image-text pair detection (approximately 10%) when the training data is insufficient. In addition, we observed the stability for contrsative learning and suggested the use of it offers large reductions in the number of training data, whilst maintaining comparable classification results.
翻訳日:2023-04-21 13:31:05 公開日:2023-04-19
# anything-3d: 野生のone-view anythingの再構築に向けて

Anything-3D: Towards Single-view Anything Reconstruction in the Wild ( http://arxiv.org/abs/2304.10261v1 )

ライセンス: Link先を確認
Qiuhong Shen, Xingyi Yang, Xinchao Wang(参考訳) 制約のない実世界のシナリオにおける単一RGB画像からの3D再構成は、オブジェクトや環境の固有の多様性と複雑さのために、多くの課題を提起する。 本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを巧みに組み合わせて,オブジェクトを3次元に高める手法であるAnything-3Dを紹介する。 提案手法では,blipモデルを用いてテキスト記述を生成し,関心対象の効果的な抽出にセグメント・エナッシングモデルを使用し,テキストから画像への拡散モデルを用いてオブジェクトをニューラルネットワークの放射場へ持ち上げる。 広範囲のオブジェクトに対して正確で詳細な3D再構成を生成する能力を示す上で, 既存の方法論の限界に対処する上での約束を示す。 様々なデータセットに関する総合的な実験と評価を通じて、我々のアプローチのメリットを実証し、3D再構成の分野に有意義な貢献の可能性を明らかにする。 デモとコードは \href{https://github.com/Anything-of-anything/Anything-3D}{https://github.com/Anything-of-anything/Anything-3D} で公開される。

3D reconstruction from a single-RGB image in unconstrained real-world scenarios presents numerous challenges due to the inherent diversity and complexity of objects and environments. In this paper, we introduce Anything-3D, a methodical framework that ingeniously combines a series of visual-language models and the Segment-Anything object segmentation model to elevate objects to 3D, yielding a reliable and versatile system for single-view conditioned 3D reconstruction task. Our approach employs a BLIP model to generate textural descriptions, utilizes the Segment-Anything model for the effective extraction of objects of interest, and leverages a text-to-image diffusion model to lift object into a neural radiance field. Demonstrating its ability to produce accurate and detailed 3D reconstructions for a wide array of objects, \emph{Anything-3D\footnotemark[2]} shows promise in addressing the limitations of existing methodologies. Through comprehensive experiments and evaluations on various datasets, we showcase the merits of our approach, underscoring its potential to contribute meaningfully to the field of 3D reconstruction. Demos and code will be available at \href{https://github.com/Anything-of-anything/Anything-3D}{https://github.com/Anything-of-anything/Anything-3D}.
翻訳日:2023-04-21 13:22:20 公開日:2023-04-19
# ドメイン適応模倣による力学系の学習代表軌跡

Learning Representative Trajectories of Dynamical Systems via Domain-Adaptive Imitation ( http://arxiv.org/abs/2304.10260v1 )

ライセンス: Link先を確認
Edgardo Solano-Carrillo, Jannis Stoppe(参考訳) ドメイン適応軌道模倣は、ある領域(速度と操舵方向)から別の領域(現在動く獲物の位置)に動的情報をマッピングすることで、一部の捕食者が生存のために学ぶスキルである。 このスキルを持つインテリジェントエージェントは、代表的軌跡を模倣することを学ぶと、トラフィックの異常な動きを認識することを含む、さまざまなタスクに利用することができる。 そこで本研究では,この方向に向けて,周期整合生成型逆行法を用いて,ドメイン適応型軌道模倣のための深層強化学習エージェントdatiを提案する。 各種基準軌跡の合成系に関する実験により,DATIは模擬学習法や最適制御法よりも優れた性能を示し,各タスクごとのハイパーパラメータを維持できることがわかった。 実世界のシナリオへの一般化は、海上交通における異常な動きパターンの発見を通じて示され、空間的に制約のない軌道データマイニングのための深部強化学習手法の使用のための扉を開く。

Domain-adaptive trajectory imitation is a skill that some predators learn for survival, by mapping dynamic information from one domain (their speed and steering direction) to a different domain (current position of the moving prey). An intelligent agent with this skill could be exploited for a diversity of tasks, including the recognition of abnormal motion in traffic once it has learned to imitate representative trajectories. Towards this direction, we propose DATI, a deep reinforcement learning agent designed for domain-adaptive trajectory imitation using a cycle-consistent generative adversarial method. Our experiments on a variety of synthetic families of reference trajectories show that DATI outperforms baseline methods for imitation learning and optimal control in this setting, keeping the same per-task hyperparameters. Its generalization to a real-world scenario is shown through the discovery of abnormal motion patterns in maritime traffic, opening the door for the use of deep reinforcement learning methods for spatially-unconstrained trajectory data mining.
翻訳日:2023-04-21 13:21:57 公開日:2023-04-19
# 確率過程学習のための条件生成モデル

Conditional Generative Models for Learning Stochastic Processes ( http://arxiv.org/abs/2304.10382v1 )

ライセンス: Link先を確認
Salvatore Certo, Anh Pham, Nicolas Robles, Andrew Vlasic(参考訳) マルチモーダル分布を学習するための枠組みが提案され、条件付き量子生成逆逆ネットワーク (c-qgan) と呼ばれる。 ニューラルネットワークの構造は厳密に量子回路内にあり、その結果、現在の方法よりも効率的な状態準備手順を示すことが示される。 この手法はモンテカルロ解析のようなアルゴリズムを高速化する可能性がある。 特に、学習課題におけるネットワークの有効性を実証した後、アジアオプションデリバティブの価格設定に適用し、他の経路に依存した選択肢についてさらなる研究を行う基盤を提供する。

A framework to learn a multi-modal distribution is proposed, denoted as the Conditional Quantum Generative Adversarial Network (C-qGAN). The neural network structure is strictly within a quantum circuit and, as a consequence, is shown to represents a more efficient state preparation procedure than current methods. This methodology has the potential to speed-up algorithms, such as Monte Carlo analysis. In particular, after demonstrating the effectiveness of the network in the learning task, the technique is applied to price Asian option derivatives, providing the foundation for further research on other path-dependent options.
翻訳日:2023-04-21 12:44:52 公開日:2023-04-19
# 一様一次元断片について

On the uniform one-dimensional fragment ( http://arxiv.org/abs/1604.01673v3 )

ライセンス: Link先を確認
Antti Kuusisto(参考訳) 一階論理の均一な一次元断片 U1 は、2変数論理を自然に全てのアーリーの関係を持つ文脈に拡張する形式主義である。 dlr_reg に特に注意を向け,高次アーリティー関係に対応するように設計された記述論理と u1 の性質について検討した。 また、U1の変種の記述論理バージョンを定義し、U1と関連する論理の表現性に関する新しい結果の範囲を証明した。

The uniform one-dimensional fragment of first-order logic, U1, is a formalism that extends two-variable logic in a natural way to contexts with relations of all arities. We survey properties of U1 and investigate its relationship to description logics designed to accommodate higher arity relations, with particular attention given to DLR_reg. We also define a description logic version of a variant of U1 and prove a range of new results concerning the expressivity of U1 and related logics.
翻訳日:2023-04-20 19:17:27 公開日:2023-04-19
# スマートな選択と選択モナド

Smart Choices and the Selection Monad ( http://arxiv.org/abs/2007.08926v9 )

ライセンス: Link先を確認
Martin Abadi, Gordon Plotkin(参考訳) 選択と結果として得られるコストと報酬の観点からシステムを記述することは、アルゴリズム設計者やプログラマがそれらの選択をどのように行うべきかを特定するのを解放することを約束する。 我々はこのアプローチをプログラミング言語の観点から研究する。 意思決定の抽象化をサポートする2つの小さな言語を定義しています。 私たちは操作的意味論と意味論の両方を与えます。 第2言語の場合、可能なプログラム値と期待される報酬との相関の程度が異なる3つの意味論的意味を考える。 オペレーショナルセマンティクスは、標準構成の通常のセマンティクスと、実行可能な実行戦略の空間上の最適化を組み合わせる。 記号意味論は、構成的であり、選択モナドに依存し、選択を処理し、報酬や確率といった他の効果を扱う補助モナドを追加する。 我々は、2つの意味論がすべての場合で一致するという妥当性定理を確立する。 また,様々な相関の度合いに対応する確率的ケースにおいて,観測概念の異なる基底型で完全な抽象化を証明した。 選択公理と報酬と確率を組み合わせることで、確率のない報酬の場合の基礎型における完全性を確立する。

Describing systems in terms of choices and their resulting costs and rewards offers the promise of freeing algorithm designers and programmers from specifying how those choices should be made; in implementations, the choices can be realized by optimization techniques and, increasingly, by machine-learning methods. We study this approach from a programming-language perspective. We define two small languages that support decision-making abstractions: one with choices and rewards, and the other additionally with probabilities. We give both operational and denotational semantics. In the case of the second language we consider three denotational semantics, with varying degrees of correlation between possible program values and expected rewards. The operational semantics combine the usual semantics of standard constructs with optimization over spaces of possible execution strategies. The denotational semantics, which are compositional, rely on the selection monad, to handle choice, augmented with an auxiliary monad to handle other effects, such as rewards or probability. We establish adequacy theorems that the two semantics coincide in all cases. We also prove full abstraction at base types, with varying notions of observation in the probabilistic case corresponding to the various degrees of correlation. We present axioms for choice combined with rewards and probability, establishing completeness at base types for the case of rewards without probability.
翻訳日:2023-04-20 19:12:16 公開日:2023-04-19
# 光キャビティに強く結合した原子を持つ非逆キャビティポラリトン

Non-reciprocal Cavity Polariton with Atoms Strongly Coupled to Optical Cavity ( http://arxiv.org/abs/1911.10300v2 )

ライセンス: Link先を確認
Pengfei Yang, Ming Li, Xing Han, Hai He, Gang Li, Chang-Ling Zou, Pengfei Zhang, Yuhua Qian and Tiancai Zhang(参考訳) 光の時間反転対称性を破ることは基礎物理学において非常に重要であり、非相互光デバイスの研究への関心が高まっている。 本稿では,複数の原子がファブリペロキャビティに強く結合したキラルキャビティqedシステムを実験的に実証する。 原子の内部量子状態の分極により、原子-キャビティ相互作用の時間反転対称性が破られる。 強結合原子空洞系は非逆準粒子、すなわちキャビティポラリトンによって記述できる。 線形状態で動作する場合、固有の非相反性により、システムは単一光子レベルの光アイソレータとして機能する。 複数の原子の集合的増強により、単一クアンタ準位(平均0.1光トン)で30〜dBを超える孤立比が得られる。 ゼロ磁場下での非相反装置の妥当性と分離方向の再構成可能性についても実験的に実証した。 さらに、キャビティポラリトンが非線形状態で動作するとき、非調和性の弱いポラリトン間の量子干渉はコヒーレントプローブ光からのキャビティ伝達の非逆非古典的統計を誘導する。

Breaking the time-reversal symmetry of light is of great importance for fundamental physics and has attracted increasing interest in the study of non-reciprocal photonic devices. Here, we experimentally demonstrate a chiral cavity QED system with multiple atoms strongly coupled to a Fabry-Perot cavity. By polarizing the internal quantum state of the atoms, the time-reversal symmetry of the atom-cavity interaction is broken. The strongly coupled atom-cavity system can be described by non-reciprocal quasiparticles, i.e., the cavity polariton. When it works in the linear regime, the inherent nonreciprocity makes the system work as a single-photon-level optical isolator. Benefiting from the collective enhancement of multiple atoms, an isolation ratio exceeding 30~dB on the single-quanta level (~0.1 photon on average) is achieved. The validity of the non-reciprocal device under zero magnetic field and the reconfigurability of the isolation direction are also experimentally demonstrated. Moreover, when the cavity polariton works in the nonlinear regime, the quantum interference between polaritons with weak anharmonicity induces non-reciprocal nonclassical statistics of cavity transmission from coherent probe light.
翻訳日:2023-04-20 19:11:57 公開日:2023-04-19
# スパースプラス低ランク行列分解:離散最適化アプローチ

Sparse Plus Low Rank Matrix Decomposition: A Discrete Optimization Approach ( http://arxiv.org/abs/2109.12701v2 )

ライセンス: Link先を確認
Dimitris Bertsimas, Ryan Cory-Wright and Nicholas A. G. Johnson(参考訳) 本研究では,劣化したデータ行列を摂動のスパース行列と基底真理を含むローランク行列に分解する問題であるスパースプラスローランク分解問題(slr)について検討する。 SLRは、データ圧縮、潜時セマンティックインデックス、協調フィルタリング、医用画像など、さまざまなアプリケーションで発生するオペレーションリサーチと機械学習の根本的な問題である。 基礎となる離散性を直接モデル化する新しいslrの定式化を提案する。 この定式化のために、高品質な解を計算する交互最小化ヒューリスティックと、ヒューリスティックによって返される解に有意な境界を与える新しい半定緩和を開発する。 我々はまた、我々のヒューリスティックかつ凸緩和を利用して、SLRの小さなインスタンスを証明可能な(ほぼ)最適性に解決する独自の分岐結合アルゴリズムを開発した。 入力$n$-by-$n$行列が与えられた場合、我々のヒューリスティックスケールは$n=10000$ in minutesのインスタンスを解決し、緩和スケールは$n=200$ in hoursのインスタンスにスケールし、分岐とバウンドのアルゴリズムは$n=25$ in minutesのインスタンスにスケールします。 数値計算の結果,我々のアプローチは,同等のランタイムを維持しながら,既存の最先端のアプローチよりもランク,スパーシティ,平均2乗誤差の点で優れていることがわかった。

We study the Sparse Plus Low-Rank decomposition problem (SLR), which is the problem of decomposing a corrupted data matrix into a sparse matrix of perturbations plus a low-rank matrix containing the ground truth. SLR is a fundamental problem in Operations Research and Machine Learning which arises in various applications, including data compression, latent semantic indexing, collaborative filtering, and medical imaging. We introduce a novel formulation for SLR that directly models its underlying discreteness. For this formulation, we develop an alternating minimization heuristic that computes high-quality solutions and a novel semidefinite relaxation that provides meaningful bounds for the solutions returned by our heuristic. We also develop a custom branch-and-bound algorithm that leverages our heuristic and convex relaxations to solve small instances of SLR to certifiable (near) optimality. Given an input $n$-by-$n$ matrix, our heuristic scales to solve instances where $n=10000$ in minutes, our relaxation scales to instances where $n=200$ in hours, and our branch-and-bound algorithm scales to instances where $n=25$ in minutes. Our numerical results demonstrate that our approach outperforms existing state-of-the-art approaches in terms of rank, sparsity, and mean-square error while maintaining a comparable runtime.
翻訳日:2023-04-20 18:37:23 公開日:2023-04-19
# デコヒーレンスの熱力学

Thermodynamics of decoherence ( http://arxiv.org/abs/2107.14216v3 )

ライセンス: Link先を確認
Maria Popovic, Mark T. Mitchison, and John Goold(参考訳) 純非コヒーレンスの非平衡熱力学について検討する。 純粋なデコヒーレンス過程において、ハミルトニアン系は運動の定数であり、系と周囲の間に直接のエネルギー交換は存在しない。 しかしながら、環境のエネルギーは一般に保存されておらず、この研究において、非コヒーレンス単独の結果として、非自明な熱散逸につながることを示す。 この熱は非常に特徴的な性質を持ち、積分的ゆらぎ関係に従い、初期状態のエネルギー固有化における個体群に関連するエントロピー生成の観点で解釈することができる。 純粋なデコヒーレンスプロセスにおける熱分布は,初期システム-バス相互作用クエンチによる作業の分布と異なることを示す。 代わりに、これは循環過程のワーク分布の混合物に対応し、それぞれが開システムの状態に基づいて条件付けされる。 超低温ガス中の不純物に関する最近の実験に触発され、種選択光学格子の最低帯にある縮退したフェルミガスに浸漬された量子ビットの熱を研究した結果を実証した。

We investigate the nonequilibrium thermodynamics of pure decoherence. In a pure decoherence process, the system Hamiltonian is a constant of motion and there is no direct energy exchange between the system and its surroundings. Nevertheless, the environment's energy is not generally conserved and in this work we show that this leads to nontrivial heat dissipation as a result of decoherence alone. This heat has some very distinctive properties: it obeys an integral fluctuation relation and can be interpreted in terms of the entropy production associated with populations in the energy eigenbasis of the initial state. We show that the heat distribution for a pure decoherence process is different from the distribution of work done by the initial system-bath interaction quench. Instead, it corresponds to a mixture of work distributions of cyclical processes, each conditioned on a state of the open system. Inspired by recent experiments on impurities in ultra-cold gases, we demonstrate our general results by studying the heat generated by the decoherence of a qubit immersed within a degenerate Fermi gas in the lowest band of a species-selective optical lattice.
翻訳日:2023-04-20 18:36:56 公開日:2023-04-19
# ディープラーニングによるデータ隠蔽: デジタル透かしとステガノグラフィの統合調査

Data Hiding with Deep Learning: A Survey Unifying Digital Watermarking and Steganography ( http://arxiv.org/abs/2107.09287v3 )

ライセンス: Link先を確認
Zihan Wang, Olivia Byrnes, Hu Wang, Ruoxi Sun, Congbo Ma, Huaming Chen, Qi Wu, Minhui Xue(参考訳) セキュアな通信と身元確認フィールドの進歩は、深層学習技術を用いてデータ隠蔽を行うことによって著しく増大した。 音声、ビデオ、画像などの耐雑音性信号に情報を埋め込むことにより、機密性のある知的財産を保護し、機密通信を可能にするデジタル透かしおよびステガノグラフィ技術が利用でき、埋め込まれた情報が認証された当事者にのみアクセスできるようにする。 本調査は,モデルアーキテクチャやノイズインジェクション手法に従って体系的に分類された,データ隠蔽のためのディープラーニング技術の最近の進歩の概要を提供する。 これらのデータ隠蔽モデルのトレーニングに使用される客観的関数、評価メトリクス、データセットは、包括的に要約される。 さらに、セキュリティを強化しリスクを軽減するため、ソフトウェア工学におけるデジタル透かしとステガノグラフィを統合する今後の研究方向を示唆し、検討する。 この貢献により、より信頼できるデジタル世界が創造され、責任あるaiが進歩する。

The advancement of secure communication and identity verification fields has significantly increased through the use of deep learning techniques for data hiding. By embedding information into a noise-tolerant signal such as audio, video, or images, digital watermarking and steganography techniques can be used to protect sensitive intellectual property and enable confidential communication, ensuring that the information embedded is only accessible to authorized parties. This survey provides an overview of recent developments in deep learning techniques deployed for data hiding, categorized systematically according to model architectures and noise injection methods. The objective functions, evaluation metrics, and datasets used for training these data hiding models are comprehensively summarised. Additionally, potential future research directions that unite digital watermarking and steganography on software engineering to enhance security and mitigate risks are suggested and deliberated. This contribution furthers the creation of a more trustworthy digital world and advances Responsible AI.
翻訳日:2023-04-20 18:36:35 公開日:2023-04-19
# サンプリングコストによる継続的時間帯

Continuous Time Bandits With Sampling Costs ( http://arxiv.org/abs/2107.05289v2 )

ライセンス: Link先を確認
Rahul Vaze and Manjesh K. Hanawal(参考訳) 連続時間マルチアームバンディット問題 (CTMAB) を考えると、学習者は任意の間隔でアームを何回でもサンプリングでき、各サンプルからランダムな報酬を得ることができるが、サンプリング頻度の増加は付加的なペナルティ/コストをもたらす。 したがって、サンプリング周波数の関数として、大きな報酬を得ることと、かかるサンプリングコストとのトレードオフが生じる。 目的は後悔を最小限に抑える学習アルゴリズムを設計することであり、これはオラクルのポリシーと学習アルゴリズムの報酬の差として定義される。 CTMABは、通常のマルチアームバンディット問題(MAB)と根本的に異なる、例えば、単一アームの場合でさえCTMABでは、最適なサンプリング周波数が推定される腕の平均に依存するため、非自明である。 まず,任意のアルゴリズムで達成可能な後悔の限界を低く設定し,対数的要因までの範囲を低くするアルゴリズムを提案する。 単腕の場合、後悔の上の下限は$\omega((\log t)^2/\mu)$であり、ここで$\mu$は腕の平均であり、$t$は時間軸である。 多重腕の場合、後悔の上の下限は$\omega((\log t)^2 \mu/\delta^2)$であり、ここで$\mu$は最高の腕の平均を表し、$\delta$は最高の腕と2番目の腕の平均の差である。 次に,定数項へのバウンドを達成するアルゴリズムを提案する。

We consider a continuous-time multi-arm bandit problem (CTMAB), where the learner can sample arms any number of times in a given interval and obtain a random reward from each sample, however, increasing the frequency of sampling incurs an additive penalty/cost. Thus, there is a tradeoff between obtaining large reward and incurring sampling cost as a function of the sampling frequency. The goal is to design a learning algorithm that minimizes regret, that is defined as the difference of the payoff of the oracle policy and that of the learning algorithm. CTMAB is fundamentally different than the usual multi-arm bandit problem (MAB), e.g., even the single-arm case is non-trivial in CTMAB, since the optimal sampling frequency depends on the mean of the arm, which needs to be estimated. We first establish lower bounds on the regret achievable with any algorithm and then propose algorithms that achieve the lower bound up to logarithmic factors. For the single-arm case, we show that the lower bound on the regret is $\Omega((\log T)^2/\mu)$, where $\mu$ is the mean of the arm, and $T$ is the time horizon. For the multiple arms case, we show that the lower bound on the regret is $\Omega((\log T)^2 \mu/\Delta^2)$, where $\mu$ now represents the mean of the best arm, and $\Delta$ is the difference of the mean of the best and the second-best arm. We then propose an algorithm that achieves the bound up to constant terms.
翻訳日:2023-04-20 18:36:18 公開日:2023-04-19
# インフルエンシャルランク:雑音ラベルに対するロバストモデルのためのポストトレーニングの新しい視点

Influential Rank: A New Perspective of Post-training for Robust Model against Noisy Labels ( http://arxiv.org/abs/2106.07217v4 )

ライセンス: Link先を確認
Seulki Park, Hwanjun Song, Daeho Um, Dae Ung Jo, Sangdoo Yun, and Jin Young Choi(参考訳) ディープニューラルネットワークは、高いキャパシティのため、ノイズの多いラベルにも容易に適合し、モデルの一般化性能を低下させる。 そこで本研究では,雑音ラベルデータに基づく事前学習モデルの一般化性能を大幅に向上させることができる,雑音ラベル(LNL)からの学習方法を提案する。 この目的のために、トレーニングされたモデルの過剰な適合性を利用して、誤ったラベルのサンプルを識別する。 具体的には,決定境界に強い影響を与えるサンプルを徐々に除去し,決定境界を洗練し,一般化性能を向上させる。 我々のポストトレーニングアプローチは、既存のLNL法と組み合わせることで大きなシナジーを生み出す。 実世界および合成ベンチマークデータセットの実験結果から, 多様な現実シナリオにおけるアプローチの有効性が示された。

Deep neural network can easily overfit to even noisy labels due to its high capacity, which degrades the generalization performance of a model. To overcome this issue, we propose a new approach for learning from noisy labels (LNL) via post-training, which can significantly improve the generalization performance of any pre-trained model on noisy label data. To this end, we rather exploit the overfitting property of a trained model to identify mislabeled samples. Specifically, our post-training approach gradually removes samples with high influence on the decision boundary and refines the decision boundary to improve generalization performance. Our post-training approach creates great synergies when combined with the existing LNL methods. Experimental results on various real-world and synthetic benchmark datasets demonstrate the validity of our approach in diverse realistic scenarios.
翻訳日:2023-04-20 18:35:47 公開日:2023-04-19
# 二次元電子結晶における創発的偽真空崩壊過程--超伝導量子プロセッサにおける実験とシミュレーション

Emergent false vacuum decay processes in a two-dimensional electronic crystal: experiment vs. simulations on a noisy superconducting quantum processor ( http://arxiv.org/abs/2103.07343v3 )

ライセンス: Link先を確認
Jaka Vodeb, Michele Diego, Yevhenii Vaskivskyi, Leonard Logaric, Yaroslav Gerasimenko, Viktor Kabanov, Benjamin Lipovsek, Marko Topic and Dragan Mihailovic(参考訳) 非平衡系の創発的転移性は、生命の起源から宇宙の量子的性質まであらゆるものに触れる主題である。 凝縮量子物質では、対称性破壊相転移の余波における相関電子結晶における位相的に阻害された電子領域の自己組織化のメタステイビリティが良い例である。 このようなシステムのダイナミクスを理解することは、新しい量子技術を開発し、多体非平衡量子力学の基本的な側面を探求するために重要である。 ここで、非平衡状態は、量子材料(m)にキャリア注入によって設定され、走査型トンネル顕微鏡によって時間発展が研究される領域構造となる。 創発的非平衡量子挙動のモデリングへの新しいアプローチを示すために, 共役量子ビット相互接続を電子結晶材料の三角格子上の電子的相互作用と直接対応させる有プログラマブル・ノイズ超伝導量子シミュレータ(nsqs)における2008年量子ビットのアレイを用いた。 シミュレーションの成功は、2つのシステム間のモデル対応の忠実さとデコヒーレンス経路の慎重な管理の両方に依存している。 重要なことに、PとMのデコヒーレンスは、特性1/{\nu}周波数スペクトルのノイズによって駆動される。 これらのシミュレーションは、Mの観察された電子領域ダイナミクスの時間的進化と温度依存性を、顕微鏡的電子相互作用のみに基づいて記述している。 並列実験は、複雑な多体量子系の創発的非平衡ダイナミクスを研究するためのNSQSの可能性を示す。

Emergent metastability in non-equilibrium systems is a subject that touches everything from the origins of life to the quantum nature of the universe. In condensed quantum matter, a good topical example is the metastability of topologically inhibited self-organization of electronic domains in a correlated electronic crystal in the aftermath of a symmetry-breaking phase transition. Understanding the dynamics of such systems is crucial for developing new quantum technologies and exploring fundamental aspects of many-body non-equilibrium quantum mechanics. Here, a non-equilibrium state is set up by carrier injection in the quantum material (M), resulting in a domain structure, whose time-evolution is investigated by scanning tunneling microscopy. Demonstrating a new approach to modelling of emergent non-equilibrium quantum behavior, we use an array of 2008 qubits in a programmable noisy superconducting quantum simulator (NSQS) without error correction (P), in which mutual qubit interconnections correspond directly to the electronic interactions on the triangular lattice of the electronic crystal material. The success of the simulations critically depends on both the faithfulness of the model correspondence between the two systems and careful management of the decoherence pathways. Importantly, decoherence of both P and M is driven by noise with a characteristic 1/{\nu} frequency spectrum. The simulations reveal how an emergent false vacuum state arises, describing the time evolution and temperature dependence of the observed electronic domain dynamics of M solely on the basis of microscopic electronic interactions. The parallel experiments demonstrate the potential of NSQSs for studying emergent non-equilibrium dynamics in complex many-body quantum systems.
翻訳日:2023-04-20 18:35:34 公開日:2023-04-19
# 重み付きスライスランクとストラッセンのスペクトルに対するミニマックス対応

Weighted slice rank and a minimax correspondence to Strassen's spectra ( http://arxiv.org/abs/2012.14412v3 )

ライセンス: Link先を確認
Matthias Christandl, Vladimir Lysikov, Jeroen Zuiddam(参考訳) テンソルの構造的および計算的理解は、より高速な行列乗法アルゴリズム、量子エンタングルメントの展開、キャップセット問題におけるブレークスルーの原動力である。 ストラッセンの漸近スペクトルプログラム(FOCS 1986)は単調関数による最適行列乗算アルゴリズムを特徴付ける。 我々の研究は、テンソルの研究における2つの最近の発展、すなわちテンソルのスライス階数、キャップセット問題の解決から現れたテンソルの階数の概念(Ann. of Math. 2017)、テンソルの量子汎関数(STOC 2018)、モーメントポリトープの最適化として定義されたモノトン汎関数の2つの新しい関係を進展させ、新しいものにしている。 より正確には、重み付きスライスランクと呼ばれるスライスランクの拡張を導入し、漸近重み付きスライスランクと量子汎関数との間のミニマックス対応を開発する。 重み付きスライスランクは、量子エンタングルメントの双対性の異なる概念をカプセル化する。 この対応により、量子汎函数のランク型特徴づけを与えることができる。 さらに、元の量子汎函数の定義は複素数上でのみ機能するが、この新しい特徴づけはすべての体に拡張できる。 これにより、複素数に対するストラッセンの理論のより深い理解を得るとともに、他の場に対する量子汎函数の提案を得る。 有限体の場合、場を最適化できる組合せ問題やアルゴリズム問題には不可欠である。

Structural and computational understanding of tensors is the driving force behind faster matrix multiplication algorithms, the unraveling of quantum entanglement, and the breakthrough on the cap set problem. Strassen's asymptotic spectra program (FOCS 1986) characterizes optimal matrix multiplication algorithms through monotone functionals. Our work advances and makes novel connections among two recent developments in the study of tensors, namely - the slice rank of tensors, a notion of rank for tensors that emerged from the resolution of the cap set problem (Ann. of Math. 2017), - and the quantum functionals of tensors (STOC 2018), monotone functionals defined as optimizations over moment polytopes. More precisely, we introduce an extension of slice rank that we call weighted slice rank and we develop a minimax correspondence between the asymptotic weighted slice rank and the quantum functionals. Weighted slice rank encapsulates different notions of bipartiteness of quantum entanglement. The correspondence allows us to give a rank-type characterization of the quantum functionals. Moreover, whereas the original definition of the quantum functionals only works over the complex numbers, this new characterization can be extended to all fields. Thereby, in addition to gaining deeper understanding of Strassen's theory for the complex numbers, we obtain a proposal for quantum functionals over other fields. The finite field case is crucial for combinatorial and algorithmic problems where the field can be optimized over.
翻訳日:2023-04-20 18:35:05 公開日:2023-04-19
# オフライン強化学習に関する調査 : 分類学、レビュー、オープン問題

A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems ( http://arxiv.org/abs/2203.01387v3 )

ライセンス: Link先を確認
Rafael Figueiredo Prudencio, Marcos R. O. A. Maximo, Esther Luna Colombini(参考訳) ディープラーニングの普及に伴い、強化学習(rl)の人気が劇的に高まり、ピクセル観察による複雑なゲームをプレイしたり、人間との会話を継続したり、ロボットエージェントを制御するといった、これまで難解だった問題に拡大した。 しかし、高コストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。 オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムであり、大規模で多様なトレーニングデータセットからポリシーを抽出することができる。 効果的なオフラインRLアルゴリズムはオンラインRLよりもはるかに広い範囲のアプリケーションを持ち、特に教育、医療、ロボット工学といった現実世界のアプリケーションにアピールしている。 本研究は,オフラインRL法を分類する統合分類に貢献する。 さらに、統一表記法を用いて、この分野における最新のアルゴリズムのブレークスルーを網羅的にレビューするとともに、既存のベンチマークの特性と欠点をレビューする。 さらに,各手法と各手法の異なるデータセット特性に関するクラスの性能を要約し,手元にある問題に最適なアルゴリズムの種類を判断し,最も有望なアルゴリズムのクラスを特定するためのツールを研究者に提供する。 最後に,オープン問題に対する我々の視点を示し,この急速に成長する分野に対する今後の研究の方向性を提案する。

With the widespread adoption of deep learning, reinforcement learning (RL) has experienced a dramatic increase in popularity, scaling to previously intractable problems, such as playing complex games from pixel observations, sustaining conversations with humans, and controlling robotic agents. However, there is still a wide range of domains inaccessible to RL due to the high cost and danger of interacting with the environment. Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications, such as education, healthcare, and robotics. In this work, we contribute with a unifying taxonomy to classify offline RL methods. Furthermore, we provide a comprehensive review of the latest algorithmic breakthroughs in the field using a unified notation as well as a review of existing benchmarks' properties and shortcomings. Additionally, we provide a figure that summarizes the performance of each method and class of methods on different dataset properties, equipping researchers with the tools to decide which type of algorithm is best suited for the problem at hand and identify which classes of algorithms look the most promising. Finally, we provide our perspective on open problems and propose future research directions for this rapidly growing field.
翻訳日:2023-04-20 18:28:20 公開日:2023-04-19
# CADRE:視覚に基づく自律型都市走行のためのカスケード深部強化学習フレームワーク

CADRE: A Cascade Deep Reinforcement Learning Framework for Vision-based Autonomous Urban Driving ( http://arxiv.org/abs/2202.08557v2 )

ライセンス: Link先を確認
Yinuo Zhao, Kun Wu, Zhiyuan Xu, Zhengping Che, Qi Lu, Jian Tang, Chi Harold Liu(参考訳) 複雑な都市環境と運転行動のダイナミクスのため、高密度交通における視覚に基づく自律走行は極めて困難である。 広く応用された手法は、手作りのルールに大きく依存するか、限られた人間の経験から学習する。 本稿では,モデルフリービジョンに基づく自律運転を実現するために,新しいカスケード深層強化学習フレームワークcadreを提案する。 cadreでは、生の観察から代表的潜在性特徴を導出するため、まずコアテンション機構を利用したコアテンション知覚モジュール(copm)をオフラインで訓練し、事前収集した駆動データセットから視覚情報と制御情報との相互関係を学習する。 凍結したCoPMを事例として、特に設計された報酬関数の指導の下で、運転ポリシーをオンライン学習するための効率的な分散近位ポリシー最適化フレームワークを提案する。 我々は、CARLA NoCrashベンチマークと、自律都市運転タスクにおける特定の障害物回避シナリオを用いて、総合的な実証的研究を行う。 実験結果はCADREの有効性と最先端技術に対する優位性を広いマージンで良好に証明した。

Vision-based autonomous urban driving in dense traffic is quite challenging due to the complicated urban environment and the dynamics of the driving behaviors. Widely-applied methods either heavily rely on hand-crafted rules or learn from limited human experience, which makes them hard to generalize to rare but critical scenarios. In this paper, we present a novel CAscade Deep REinforcement learning framework, CADRE, to achieve model-free vision-based autonomous urban driving. In CADRE, to derive representative latent features from raw observations, we first offline train a Co-attention Perception Module (CoPM) that leverages the co-attention mechanism to learn the inter-relationships between the visual and control information from a pre-collected driving dataset. Cascaded by the frozen CoPM, we then present an efficient distributed proximal policy optimization framework to online learn the driving policy under the guidance of particularly designed reward functions. We perform a comprehensive empirical study with the CARLA NoCrash benchmark as well as specific obstacle avoidance scenarios in autonomous urban driving tasks. The experimental results well justify the effectiveness of CADRE and its superiority over the state-of-the-art by a wide margin.
翻訳日:2023-04-20 18:27:59 公開日:2023-04-19
# 縦断データに対する適応サンプリング後の統計的推測

Statistical Inference After Adaptive Sampling for Longitudinal Data ( http://arxiv.org/abs/2202.07098v5 )

ライセンス: Link先を確認
Kelly W. Zhang, Lucas Janson, Susan A. Murphy(参考訳) オンライン強化学習やその他の適応的サンプリングアルゴリズムは、時間とともにユーザの治療配信を最適化するデジタル介入実験でますます使われている。 本研究では,多数の適応サンプリングアルゴリズムによって収集された縦断的ユーザデータに着目し,複数のユーザからのデータを用いてオンラインの処置決定を最適化する。 ユーザ間でデータを結合または"プーリング"することで、適応的なサンプリングアルゴリズムがより早く学習することができる。 しかし,これらのアルゴリズムはサンプリングされたユーザデータトラジェクトリ間の依存性を誘導し,このデータ型における共通推定器の真の分散を過小評価するために,標準分散推定器を生じる可能性があることを示す。 そこで我々は,Z推定による適応的なサンプルデータに対して,様々な統計的解析を行う新しい手法を開発した。 具体的には,適応サンプリング下で一貫した分散推定を導く補正されたサンドイッチ推定器である \textit{adaptive} sandwich variance estimator を導入する。 さらに,本研究の結果を実証するために,独立に興味を持つ可能性のある,適応的なサンプルデータを用いた実験プロセスに関する新しい理論ツールを開発した。 この研究は,オンライン強化学習アルゴリズムが治療決定を最適化する実験をデザインする試みに動機づけられているが,実験終了後に解析を行うには統計的推論が不可欠である。

Online reinforcement learning and other adaptive sampling algorithms are increasingly used in digital intervention experiments to optimize treatment delivery for users over time. In this work, we focus on longitudinal user data collected by a large class of adaptive sampling algorithms that are designed to optimize treatment decisions online using accruing data from multiple users. Combining or "pooling" data across users allows adaptive sampling algorithms to potentially learn faster. However, by pooling, these algorithms induce dependence between the sampled user data trajectories; we show that this can cause standard variance estimators for i.i.d. data to underestimate the true variance of common estimators on this data type. We develop novel methods to perform a variety of statistical analyses on such adaptively sampled data via Z-estimation. Specifically, we introduce the \textit{adaptive} sandwich variance estimator, a corrected sandwich estimator that leads to consistent variance estimates under adaptive sampling. Additionally, to prove our results we develop novel theoretical tools for empirical processes on non-i.i.d., adaptively sampled longitudinal data which may be of independent interest. This work is motivated by our efforts in designing experiments in which online reinforcement learning algorithms optimize treatment decisions, yet statistical inference is essential for conducting analyses after experiments conclude.
翻訳日:2023-04-20 18:27:39 公開日:2023-04-19
# 3次元表面解析のための連続フィルタによるメッシュ畳み込み

Mesh Convolution with Continuous Filters for 3D Surface Parsing ( http://arxiv.org/abs/2112.01801v2 )

ライセンス: Link先を確認
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian(参考訳) 3次元曲面の幾何学的特徴学習は、コンピュータグラフィックスや3dビジョンの多くの応用において重要である。 しかし、現在ディープラーニングは、必要な操作の欠如や効率的な実装のために、3D表面の階層的モデリングに遅れている。 本稿では,3次元トライアングルメッシュからの効果的な幾何学的特徴学習のための一連のモジュラー演算を提案する。 これらの操作には、新しいメッシュ畳み込み、効率的なメッシュデシメーション、関連するメッシュ(un)プールが含まれる。 メッシュ畳み込みは球面調和を正規直交基底として連続畳み込みフィルタを作成する。 メッシュデシメーションモジュールはGPUアクセラレーションされ、バッチ処理されたメッシュをオンザフライで処理できる。 われわれはこれらの操作をオープンソースで実装し、Picassoと呼ぶ。 Picassoは異種メッシュバッチ処理と処理をサポートする。 モジュラー操作を活用することで、PicassoNet++という名前の3次元表面の知覚解析のための新しい階層型ニューラルネットワークを提供する。 顕著な3Dベンチマークで形状解析とシーンセグメンテーションにおいて高い競争力を発揮する。 コード、データ、トレーニングされたモデルはhttps://github.com/EnyaHermite/Picasso.comで入手できる。

Geometric feature learning for 3D surfaces is critical for many applications in computer graphics and 3D vision. However, deep learning currently lags in hierarchical modeling of 3D surfaces due to the lack of required operations and/or their efficient implementations. In this paper, we propose a series of modular operations for effective geometric feature learning from 3D triangle meshes. These operations include novel mesh convolutions, efficient mesh decimation and associated mesh (un)poolings. Our mesh convolutions exploit spherical harmonics as orthonormal bases to create continuous convolutional filters. The mesh decimation module is GPU-accelerated and able to process batched meshes on-the-fly, while the (un)pooling operations compute features for up/down-sampled meshes. We provide open-source implementation of these operations, collectively termed Picasso. Picasso supports heterogeneous mesh batching and processing. Leveraging its modular operations, we further contribute a novel hierarchical neural network for perceptual parsing of 3D surfaces, named PicassoNet++. It achieves highly competitive performance for shape analysis and scene segmentation on prominent 3D benchmarks. The code, data and trained models are available at https://github.com/EnyaHermite/Picasso.
翻訳日:2023-04-20 18:25:56 公開日:2023-04-19
# 固定翼UAVの姿勢制御のためのデータ効率の良い深部強化学習:フィールド実験

Data-Efficient Deep Reinforcement Learning for Attitude Control of Fixed-Wing UAVs: Field Experiments ( http://arxiv.org/abs/2111.04153v2 )

ライセンス: Link先を確認
Eivind B{\o}hn, Erlend M. Coates, Dirk Reinhardt, and Tor Arne Johansen(参考訳) 固定翼無人航空機(UAV)の姿勢制御は、不確実な非線形力学、アクチュエータの制約、縦横運動の結合などにより難しい制御問題である。 現在のオートパイロットは線形制御に基づいており、その効果と性能に制限がある。 深層強化学習(drl)は、複雑な非線形ダイナミクスを扱う制御系との相互作用を通じて最適な制御法則を自動的に発見する機械学習手法である。 本稿では,DRLが元の非線形力学を直接操作する固定翼UAVの姿勢制御を,最大3分間の飛行データで行うことができることを示す。 我々はまず、まずシミュレーション環境でモデルをトレーニングし、続いてUAV上で学習したコントローラを飛行試験にデプロイし、さらにオンライン学習を必要とせず、最先端のArduPlane比例積分微分(PID)姿勢制御と同等の性能を示す。 アクティベーション遅延と多様なシミュレーション力学の学習は、実際のUAVの制御に成功するために重要であることが判明した。 本稿では,ArduPlaneオートパイロットの質的比較に加えて,線形解析に基づく定量的評価を行い,学習コントローラの動作をよりよく理解する。

Attitude control of fixed-wing unmanned aerial vehicles (UAVs) is a difficult control problem in part due to uncertain nonlinear dynamics, actuator constraints, and coupled longitudinal and lateral motions. Current state-of-the-art autopilots are based on linear control and are thus limited in their effectiveness and performance. Deep reinforcement learning (DRL) is a machine learning method to automatically discover optimal control laws through interaction with the controlled system, which can handle complex nonlinear dynamics. We show in this paper that DRL can successfully learn to perform attitude control of a fixed-wing UAV operating directly on the original nonlinear dynamics, requiring as little as three minutes of flight data. We initially train our model in a simulation environment and then deploy the learned controller on the UAV in flight tests, demonstrating comparable performance to the state-of-the-art ArduPlane proportional-integral-derivative (PID) attitude controller with no further online learning required. Learning with significant actuation delay and diversified simulated dynamics were found to be crucial for successful transfer to control of the real UAV. In addition to a qualitative comparison with the ArduPlane autopilot, we present a quantitative assessment based on linear analysis to better understand the learning controller's behavior.
翻訳日:2023-04-20 18:25:41 公開日:2023-04-19
# HiLoアテンションを用いた高速ビジョントランス

Fast Vision Transformers with HiLo Attention ( http://arxiv.org/abs/2205.13213v5 )

ライセンス: Link先を確認
Zizheng Pan, Jianfei Cai, Bohan Zhuang(参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンにおける最新の重要なブレークスルーを引き起こしている。 彼らの効率的な設計は、主に計算複雑性の間接メートル法、すなわちFLOPによって導かれるが、スループットのような直接メートル法と明確なギャップがある。 そこで本稿では,効率的なViTの設計原理として,ターゲットプラットフォーム上での直接速度評価を提案する。 特に,より高速なモデルサイズで,既存の最先端手法に対して良好に動作可能な,シンプルで効果的なViTであるLITv2を紹介する。 LITv2の中核は、HiLoをダブする新しい自己保持機構である。 HiLoは、画像中の高頻度が局所的な細部を捉え、低頻度がグローバル構造に焦点をあてているという洞察にインスパイアされている。 そこで本研究では,各ローカルウィンドウ内の自己参照により高周波数を符号化する2つのグループにヘッドを分離し,また,入力特徴マップにおいて,平均プール型低周波キーと各ウィンドウからの値と各クエリ位置の間でグローバルに注意を向けることで低周波数を符号化する手法を提案する。 両グループの効率的な設計に特化して, FLOP, 速度, メモリ消費をGPUやCPU上で総合的にベンチマークすることで, HiLoは既存の注意機構よりも優れていることを示す。 例えば、HiLoは空間縮小の注意より1.4倍、CPUのローカルウィンドウの注意より1.6倍速い。 hiloを搭載したlitv2は、画像分類、高密度検出、セグメンテーションなど、主要なビジョンタスクのバックボーンとして機能する。 コードはhttps://github.com/ziplab/litv2で入手できる。

Vision Transformers (ViTs) have triggered the most recent and significant breakthroughs in computer vision. Their efficient designs are mostly guided by the indirect metric of computational complexity, i.e., FLOPs, which however has a clear gap with the direct metric such as throughput. Thus, we propose to use the direct speed evaluation on the target platform as the design principle for efficient ViTs. Particularly, we introduce LITv2, a simple and effective ViT which performs favourably against the existing state-of-the-art methods across a spectrum of different model sizes with faster speed. At the core of LITv2 is a novel self-attention mechanism, which we dub HiLo. HiLo is inspired by the insight that high frequencies in an image capture local fine details and low frequencies focus on global structures, whereas a multi-head self-attention layer neglects the characteristic of different frequencies. Therefore, we propose to disentangle the high/low frequency patterns in an attention layer by separating the heads into two groups, where one group encodes high frequencies via self-attention within each local window, and another group encodes low frequencies by performing global attention between the average-pooled low-frequency keys and values from each window and each query position in the input feature map. Benefiting from the efficient design for both groups, we show that HiLo is superior to the existing attention mechanisms by comprehensively benchmarking FLOPs, speed and memory consumption on GPUs and CPUs. For example, HiLo is 1.4x faster than spatial reduction attention and 1.6x faster than local window attention on CPUs. Powered by HiLo, LITv2 serves as a strong backbone for mainstream vision tasks including image classification, dense detection and segmentation. Code is available at https://github.com/ziplab/LITv2.
翻訳日:2023-04-20 18:18:19 公開日:2023-04-19
# 確率的分類集合の校正について

On the Calibration of Probabilistic Classifier Sets ( http://arxiv.org/abs/2205.10082v2 )

ライセンス: Link先を確認
Thomas Mortier and Viktor Bengs and Eyke H\"ullermeier and Stijn Luca and Willem Waegeman(参考訳) アンサンブル学習法のような確率的分類器の集合を生成する多クラス分類法は、アレタリックおよびエピステミック不確実性をモデル化することができる。 有理不確実性は通常ベイズ誤差によって定量化され、認識不確実性は集合の大きさによって決定される。 本稿では,1つの確率的分類器の確率的不確実性表現の妥当性を評価するために一般的に用いられるキャリブレーションの概念を拡張し,確率的分類器の集合によって得られた認識的不確実性表現の妥当性を評価する。 広義的には、これらの分類器の校正凸結合を見つけることができれば、校正された確率的分類器の集合を呼ぶ。 このキャリブレーションの概念を評価するために,単一確率分類器の既存の試験を確率分類器の集合に一般化する新しい非パラメトリック検定法を提案する。 このテストを利用して、ディープニューラルネットワークのアンサンブルがよく校正されていないことを実証的に示す。

Multi-class classification methods that produce sets of probabilistic classifiers, such as ensemble learning methods, are able to model aleatoric and epistemic uncertainty. Aleatoric uncertainty is then typically quantified via the Bayes error, and epistemic uncertainty via the size of the set. In this paper, we extend the notion of calibration, which is commonly used to evaluate the validity of the aleatoric uncertainty representation of a single probabilistic classifier, to assess the validity of an epistemic uncertainty representation obtained by sets of probabilistic classifiers. Broadly speaking, we call a set of probabilistic classifiers calibrated if one can find a calibrated convex combination of these classifiers. To evaluate this notion of calibration, we propose a novel nonparametric calibration test that generalizes an existing test for single probabilistic classifiers to the case of sets of probabilistic classifiers. Making use of this test, we empirically show that ensembles of deep neural networks are often not well calibrated.
翻訳日:2023-04-20 18:17:46 公開日:2023-04-19
# 古典的および量子的絡み合い支援通信シナリオ間の相互作用

Interplays between classical and quantum entanglement-assisted communication scenarios ( http://arxiv.org/abs/2205.05171v3 )

ライセンス: Link先を確認
Carlos Vieira, Carlos de Gois, Lucas Pollyceno, Rafael Rabelo(参考訳) 準備・測定シナリオは、その多くの形態において、コミュニケーションタスクの基本的な構成要素と見なすことができる。 このように、それらは、密なコーディングとランダムアクセスコードが重要な例である、古典的および量子的なプロトコルの多様性を統一的に分析するために使うことができる。 特に準備・測定シナリオにおける資源としての絡み合いの利用は、最近になって体系的に調査され始めており、多くの重要な疑問が残されている。 本研究では,このようなシナリオを探求し,いくつかの質問に対する回答を提供する。 具体的には、絡み合いが自由資源である場合、量子メッセージは2倍の容量を持つ古典的メッセージと等価であることを示す。 このようなシナリオでは、送信されたメッセージよりも大きな次元の絡み合った状態を共有することが常に有利であることを証明します。 最後に,従来の通信タスクでは,制御不能な状態では利点が得られず,全ての絡み合った状態が有用な資源ではないことを示す。

Prepare-and-measure scenarios, in their many forms, can be seen as the basic building blocks of communication tasks. As such, they can be used to analyze a diversity of classical and quantum protocols -- of which dense coding and random access codes are key examples -- in a unified manner. In particular, the use of entanglement as a resource in prepare-and-measure scenarios have only recently started to be systematically investigated, and many crucial questions remain open. In this work, we explore such scenarios and provide answers to some seminal questions. More specifically, we show that, in scenarios where entanglement is a free resource, quantum messages are equivalent to classical ones with twice the capacity. We also prove that, in such scenarios, it is always advantageous for the parties to share entangled states of dimension greater than the transmitted message. Finally, we show that unsteerable states cannot provide advantages in classical communication tasks, thus proving that not all entangled states are useful resources in these scenarios.
翻訳日:2023-04-20 18:17:27 公開日:2023-04-19
# コヒーレントマルチスタート最適化による量子回路の効率的な変分合成

Efficient variational synthesis of quantum circuits with coherent multi-start optimization ( http://arxiv.org/abs/2205.01121v2 )

ライセンス: Link先を確認
Nikita A. Nemkov, Evgeniy O. Kiktenko, Ilia A. Luchnikov, Aleksey K. Fedorov(参考訳) 我々は、cnotゲートと任意の単一量子ビット (1q) ゲートからなるゲート集合への変分量子回路合成の問題を考える。 まず、複雑性の組合せ爆発に苦しむ離散的なアーキテクチャ探索とともに、1qゲートの最適化は局所的最小値の不完全性(変分量子アルゴリズムの文脈ではよく知られているが、変分コンパイルの文脈では過小評価されている)のために重要な障害となる。 この問題を真剣に受け止めるため、初期条件に関する広範囲な調査を私たちのアプローチの重要な部分としています。 もう一つの重要なアイデアは、パラメータ化された2量子ビット(2q)制御相ゲートを使用することで、IDゲートとCNOTゲートの間を補間し、1qゲートの最適化と共同で実行できる離散アーキテクチャ探索を連続的に緩和することである。 このアーキテクチャの一貫性のある最適化と1qゲートは、実際は驚くほどうまく機能し、時には1qゲート単独での最適化(固定された最適アーキテクチャの場合)よりも優れています。 8 cnot と t depth 3 を最近傍トポロジー上の 3q toffoli ゲートの分解、星型トポロジー上の 1 cnot ゲート改良を含む全 4q トポロジー上の 4q toffoli ゲートの既知の最良の分解を再発見し、48 cnot ゲートを持つ最近傍トポロジー上の 5q toffoli ゲートの分解を提案する。 また、ibm_qx_mappingデータベースから得られた5q量子回路の性能をベンチマークし、既存のソフトウェアと高い競合性を示している。 この研究で開発されたアルゴリズムはPythonパッケージCPFlowとして利用可能である。

We consider the problem of the variational quantum circuit synthesis into a gate set consisting of the CNOT gate and arbitrary single-qubit (1q) gates with the primary target being the minimization of the CNOT count. First we note that along with the discrete architecture search suffering from the combinatorial explosion of complexity, optimization over 1q gates can also be a crucial roadblock due to the omnipresence of local minimums (well known in the context of variational quantum algorithms but apparently underappreciated in the context of the variational compiling). Taking the issue seriously, we make an extensive search over the initial conditions an essential part of our approach. Another key idea we propose is to use parametrized two-qubit (2q) controlled phase gates, which can interpolate between the identity gate and the CNOT gate, and allow a continuous relaxation of the discrete architecture search, which can be executed jointly with the optimization over 1q gates. This coherent optimization of the architecture together with 1q gates appears to work surprisingly well in practice, sometimes even outperforming optimization over 1q gates alone (for fixed optimal architectures). As illustrative examples and applications we derive 8 CNOT and T depth 3 decomposition of the 3q Toffoli gate on the nearest-neighbor topology, rediscover known best decompositions of the 4q Toffoli gate on all 4q topologies including a 1 CNOT gate improvement on the star-shaped topology, and propose decomposition of the 5q Toffoli gate on the nearest-neighbor topology with 48 CNOT gates. We also benchmark the performance of our approach on a number of 5q quantum circuits from the ibm_qx_mapping database showing that it is highly competitive with the existing software. The algorithm developed in this work is available as a Python package CPFlow.
翻訳日:2023-04-20 18:17:10 公開日:2023-04-19
# broad recommender system: 効率的な非線形協調フィルタリング手法

Broad Recommender System: An Efficient Nonlinear Collaborative Filtering Approach ( http://arxiv.org/abs/2204.11602v4 )

ライセンス: Link先を確認
Ling Huang, Can-Rong Guan, Zhen-Wei Huang, Yuefang Gao, Yingjie Kuang, Chang-Dong Wang, C. L. Philip Chen(参考訳) 近年、ディープニューラルネットワーク(dnns)は、アイテムとユーザ間の複雑な非線形関係を捉える能力により、より正確な推奨結果を生成するために、協調フィルタリング(cf)に広く導入されているが、dnnsベースのモデルは、通常、非常に長いトレーニング時間を消費し、大量のトレーニング可能なパラメータを格納する高い計算複雑性に苦しめられている。 そこで本稿では,効率的な非線形協調フィルタリング手法であるbroadcf(broad collaborative filtering)という,新しい広義の推薦システムを提案する。 DNNの代わりに、Broad Learning System (BLS) は、ユーザとアイテム間の複雑な非線形関係を学習するためのマッピング機能として使われ、上述の問題を回避しつつ、非常に良好なレコメンデーション性能を実現している。 しかし、元のレーティングデータをBLSに直接フィードすることは不可能である。 そこで,本稿では,類似するユーザ/コンテンツの品質判断を活用できる低次元ユーザ項目入力データを生成するために,協調ベクトル前処理手法を提案する。 提案するbroadcfアルゴリズムの有効性を7つのベンチマークデータセットで検証した。

Recently, Deep Neural Networks (DNNs) have been widely introduced into Collaborative Filtering (CF) to produce more accurate recommendation results due to their capability of capturing the complex nonlinear relationships between items and users.However, the DNNs-based models usually suffer from high computational complexity, i.e., consuming very long training time and storing huge amount of trainable parameters. To address these problems, we propose a new broad recommender system called Broad Collaborative Filtering (BroadCF), which is an efficient nonlinear collaborative filtering approach. Instead of DNNs, Broad Learning System (BLS) is used as a mapping function to learn the complex nonlinear relationships between users and items, which can avoid the above issues while achieving very satisfactory recommendation performance. However, it is not feasible to directly feed the original rating data into BLS. To this end, we propose a user-item rating collaborative vector preprocessing procedure to generate low-dimensional user-item input data, which is able to harness quality judgments of the most similar users/items. Extensive experiments conducted on seven benchmark datasets have confirmed the effectiveness of the proposed BroadCF algorithm
翻訳日:2023-04-20 18:16:35 公開日:2023-04-19
# 非対称性の資源理論におけるi.d.を超えて:量子漁業情報に対する情報スペクトルアプローチ

Beyond i.i.d. in the Resource Theory of Asymmetry: An Information-Spectrum Approach for Quantum Fisher Information ( http://arxiv.org/abs/2204.08439v5 )

ライセンス: Link先を確認
Koji Yamaguchi and Hiroyasu Tajima(参考訳) エネルギーコヒーレンスは、時間の測定や量子操作の加速など、様々な操作に不可欠である。 エネルギーコヒーレンスは脆弱であるため、蒸留と希釈の限界を理解して損傷を回復することが不可欠である。 rta(resource theory of asymmetry)は、時間変換対称性を破る資源としてエネルギーコヒーレンスを調べるための厳密な枠組みを提供する。 近年、ある状態の同一コピーを別の状態の同一コピーに変換するi.i.d.体制において、エネルギーコヒーレンスの変換性は量子フィッシャー情報(qfi)と呼ばれる標準的なエネルギーコヒーレンスの尺度によって制御されていることが示されている。 この事実は、エネルギーコヒーレンス理論におけるQFIが熱力学におけるエントロピーとエンタングルメント理論におけるエントロピーに取って代わることを意味する。 しかし、現実的な状況下での蒸留と希釈は、量子状態がしばしば複雑な相関を持つ状態を超えた状態で行われる。 絡み合い理論とは異なり、非i.d.体制における純粋状態におけるエネルギー的コヒーレンス変換理論は開問題である。 本稿では,QFIのための情報スペクトル法という新しい手法を導入することで,この問題を解決する。 コヒーレンスコストと蒸留可能なコヒーレンスという2つの基本量は、純状態の任意の配列に対するスペクトルQFIレートと等しいことが示されている。 その結果, 情報スペクトル法では, エントロピーとQFIがそれぞれ異なる量, エントロピーとQFIに基づいて, 絡み合い理論とRTAの両方が理解されていることがわかった。

Energetic coherence is indispensable for various operations, including precise measurement of time and acceleration of quantum manipulations. Since energetic coherence is fragile, it is essential to understand the limits in distillation and dilution to restore damage. The resource theory of asymmetry (RTA) provides a rigorous framework to investigate energetic coherence as a resource to break time-translation symmetry. Recently, in the i.i.d. regime where identical copies of a state are converted into identical copies of another state, it has been shown that the convertibility of energetic coherence is governed by a standard measure of energetic coherence, called the quantum Fisher information (QFI). This fact means that QFI in the theory of energetic coherence takes the place of entropy in thermodynamics and entanglement entropy in entanglement theory. However, distillation and dilution in realistic situations take place in regimes beyond i.i.d., where quantum states often have complex correlations. Unlike entanglement theory, the conversion theory of energetic coherence in pure states in the non-i.i.d. regime has been an open problem. In this Letter, we solve this problem by introducing a new technique: an information-spectrum method for QFI. Two fundamental quantities, coherence cost and distillable coherence, are shown to be equal to the spectral QFI rates for arbitrary sequences of pure states. As a consequence, we find that both entanglement theory and RTA in the non-i.i.d. regime are understood in the information-spectrum method, while they are based on different quantities, i.e., entropy and QFI, respectively.
翻訳日:2023-04-20 18:16:13 公開日:2023-04-19
# 人間ライクな音声認識におけるニューラルネットワークの成功と批判的失敗

Successes and critical failures of neural networks in capturing human-like speech recognition ( http://arxiv.org/abs/2204.03740v4 )

ライセンス: Link先を確認
Federico Adolfi, Jeffrey S. Bowers, David Poeppel(参考訳) 自然と人工のオーディションは、原則として与えられた問題に対する異なる解を得ることができる。 しかし、タスクの制約は、オーディションの認知科学と工学を質的に収束させる可能性があり、より緊密な相互検査は、人工聴覚システムと心と脳のプロセスモデルを強化する可能性を示唆している。 音声認識 この領域は、人間にとって本質的には様々なスペクトル時間粒度の多くの変換に頑健である。 これらの堅牢性プロファイルは、ハイパフォーマンスニューラルネットワークシステムによってどの程度まで説明されていますか? ニューラルネットワークを刺激計算可能な最適化オブザーバとして評価するために,単一合成モデルに基づく音声認識実験を行った。 In a series of experiments, we (1) clarify how influential speech manipulations in the literature relate to each other and to natural speech, (2) show the granularities at which machines exhibit out-of-distribution robustness, reproducing classical perceptual phenomena in humans, (3) identify the specific conditions where model predictions of human performance differ, and (4) demonstrate a crucial failure of all artificial systems to perceptually recover where humans do, suggesting alternative directions for theory and model building. これらの知見は、認知科学とオーディションの工学との密接な相乗効果を促進する。

Natural and artificial audition can in principle acquire different solutions to a given problem. The constraints of the task, however, can nudge the cognitive science and engineering of audition to qualitatively converge, suggesting that a closer mutual examination would potentially enrich artificial hearing systems and process models of the mind and brain. Speech recognition - an area ripe for such exploration - is inherently robust in humans to a number transformations at various spectrotemporal granularities. To what extent are these robustness profiles accounted for by high-performing neural network systems? We bring together experiments in speech recognition under a single synthesis framework to evaluate state-of-the-art neural networks as stimulus-computable, optimized observers. In a series of experiments, we (1) clarify how influential speech manipulations in the literature relate to each other and to natural speech, (2) show the granularities at which machines exhibit out-of-distribution robustness, reproducing classical perceptual phenomena in humans, (3) identify the specific conditions where model predictions of human performance differ, and (4) demonstrate a crucial failure of all artificial systems to perceptually recover where humans do, suggesting alternative directions for theory and model building. These findings encourage a tighter synergy between the cognitive science and engineering of audition.
翻訳日:2023-04-20 18:15:34 公開日:2023-04-19
# EMSにおける負荷モニタリング時系列の次元展開と伝達学習

Dimensionality Expansion of Load Monitoring Time Series and Transfer Learning for EMS ( http://arxiv.org/abs/2204.02802v4 )

ライセンス: Link先を確認
Bla\v{z} Bertalani\v{c}, Jakob Jenko and Carolina Fortuna(参考訳) エネルギー管理システム(EMS)は(非)非侵襲的負荷監視(N)ILM(英語版)に依存し、家電を監視し管理し、住民がよりエネルギー効率が良く、より粗い状態になるのを助ける。 N)ILMの最も有望な機械学習ソリューションのロバスト性と転送ポテンシャルは、比較的限られたデータでトレーニングされ評価されるため、まだ完全には理解されていない。 本稿では,時系列の次元拡張と転送学習に基づくems構築における負荷モニタリングのための新しい手法を提案する。 5種類の低周波データセットについて広範な評価を行う。 ビデオライクトランスフォーメーションとリソースアウェアなディープラーニングアーキテクチャを用いた特徴次元拡張は,29のアプライアンスを用いたデータセット全体で平均0.88の重み付けf1スコアを達成し,最先端のイメージング手法と比較して計算効率が向上する。 ドメイン間移動学習におけるクロスデータセット手法の検討 1) 本手法では, 平均重み付きF1スコアが0.80であり, モデルトレーニングに要するエポックが3倍少ない。 2) F1スコアは0.75で、230のデータサンプルしか得られない。 3) 移動方式は, 未使用機器の精度低下率を最大12ポイント向上させた。

Energy management systems (EMS) rely on (non)-intrusive load monitoring (N)ILM to monitor and manage appliances and help residents be more energy efficient and thus more frugal. The robustness as well as the transfer potential of the most promising machine learning solutions for (N)ILM is not yet fully understood as they are trained and evaluated on relatively limited data. In this paper, we propose a new approach for load monitoring in building EMS based on dimensionality expansion of time series and transfer learning. We perform an extensive evaluation on 5 different low-frequency datasets. The proposed feature dimensionality expansion using video-like transformation and resource-aware deep learning architecture achieves an average weighted F1 score of 0.88 across the datasets with 29 appliances and is computationally more efficient compared to the state-of-the-art imaging methods. Investigating the proposed method for cross-dataset intra-domain transfer learning, we find that 1) our method performs with an average weighted F1 score of 0.80 while requiring 3-times fewer epochs for model training compared to the non-transfer approach, 2) can achieve an F1 score of 0.75 with only 230 data samples, and 3) our transfer approach outperforms the state-of-the-art in precision drop by up to 12 percentage points for unseen appliances.
翻訳日:2023-04-20 18:15:18 公開日:2023-04-19
# tokenmix:視覚トランスフォーマーのデータ拡張のための画像混合再考

TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers ( http://arxiv.org/abs/2207.08409v3 )

ライセンス: Link先を確認
Jihao Liu and Boxiao Liu and Hang Zhou and Hongsheng Li and Yu Liu(参考訳) cutmixは、現代の畳み込みおよびトランスフォーマービジョンネットワークの訓練に一般的に使用される拡張技術である。 元々は、CNN(Convolution Neural Networks)がローカル情報ではなく、画像のグローバルコンテキストにもっと焦点を合わせるように設計されており、CNNのパフォーマンスを大幅に改善している。 しかし,グローバルな受容領域を持つトランスフォーマーベースのアーキテクチャには,限られたメリットがあることがわかった。 本稿では,視覚トランスフォーマーの性能を向上させるための新しいデータ拡張技術であるtokenmixを提案する。 tokenmixは、混合領域を複数の分離部分に分割することにより、トークンレベルで2つのイメージを混合する。 さらに,一対の基底真理ラベルの線形結合である cutmix の混合学習目標が不正確であり,時には直観に反することもあることを示した。 より適当な目標を得るために,事前学習した教師モデルから2つの画像の内容に基づく神経活性化マップに基づいて目標スコアを割り当てる手法を提案する。 様々な視覚変換器アーキテクチャに関する多くの実験により、提案したTokenMixは、視覚変換器が前景領域に集中してクラスを推論し、一貫した性能向上を図っている。 特に,DeiT-T/S/Bを+1% ImageNet Top-1精度で改善する。 さらに、TokenMixはより長いトレーニングを楽しみ、400エポックでトレーニングされたDeiT-SでImageNetで81.2%のトップ-1の精度を達成した。 コードはhttps://github.com/Sense-X/TokenMix.comで入手できる。

CutMix is a popular augmentation technique commonly used for training modern convolutional and transformer vision networks. It was originally designed to encourage Convolution Neural Networks (CNNs) to focus more on an image's global context instead of local information, which greatly improves the performance of CNNs. However, we found it to have limited benefits for transformer-based architectures that naturally have a global receptive field. In this paper, we propose a novel data augmentation technique TokenMix to improve the performance of vision transformers. TokenMix mixes two images at token level via partitioning the mixing region into multiple separated parts. Besides, we show that the mixed learning target in CutMix, a linear combination of a pair of the ground truth labels, might be inaccurate and sometimes counter-intuitive. To obtain a more suitable target, we propose to assign the target score according to the content-based neural activation maps of the two images from a pre-trained teacher model, which does not need to have high performance. With plenty of experiments on various vision transformer architectures, we show that our proposed TokenMix helps vision transformers focus on the foreground area to infer the classes and enhances their robustness to occlusion, with consistent performance gains. Notably, we improve DeiT-T/S/B with +1% ImageNet top-1 accuracy. Besides, TokenMix enjoys longer training, which achieves 81.2% top-1 accuracy on ImageNet with DeiT-S trained for 400 epochs. Code is available at https://github.com/Sense-X/TokenMix.
翻訳日:2023-04-20 18:10:33 公開日:2023-04-19
# コンパイラ表現によるコード翻訳

Code Translation with Compiler Representations ( http://arxiv.org/abs/2207.03578v4 )

ライセンス: Link先を確認
Marc Szafraniec, Baptiste Roziere, Hugh Leather, Francois Charton, Patrick Labatut, Gabriel Synnaeve(参考訳) 本稿では、低レベルコンパイラ中間表現(IR)を利用してコード翻訳を改善する。 従来のトランスパイラは構文情報と手作りのルールに依存しており、適用性が制限され、不自然なコードを生成する。 コードへのニューラルマシン翻訳(NMT)アプローチの適用は、自然な翻訳を得られる一連のプログラムをうまく拡張した。 しかし、彼らはコードをテキストトークンのシーケンスとして扱い、異なる言語で異なる意味を持つ類似のコードと十分に区別できない。 その結果、低品質翻訳が実現され、NMTの実用性が低下し、その精度を大幅に向上させるアプローチの必要性が強調された。 ここでは、C++、Java、Rust、Go言語に関する結果とともに、IR、特にLLVM IRによるコード翻訳を強化することを提案する。 我々の手法は教師なしのコード翻訳技術の現状を改善し、平均して11%の正しい翻訳数が増加し、Java -> Rust ペアのgreedyデコーディングが 79% になった。 beam searchでは、正しい翻訳回数を平均5.5%増加させる。 数百のGoとRust関数を追加することで、コード翻訳の以前のテストセットを拡張しました。 さらに、IR復号化問題、IRからのプログラミングソースコードの生成、IRを中間ピボットとして用いた研究等において、高い性能のモデルを訓練する。

In this paper, we leverage low-level compiler intermediate representations (IR) to improve code translation. Traditional transpilers rely on syntactic information and handcrafted rules, which limits their applicability and produces unnatural-looking code. Applying neural machine translation (NMT) approaches to code has successfully broadened the set of programs on which one can get a natural-looking translation. However, they treat the code as sequences of text tokens, and still do not differentiate well enough between similar pieces of code which have different semantics in different languages. The consequence is low quality translation, reducing the practicality of NMT, and stressing the need for an approach significantly increasing its accuracy. Here we propose to augment code translation with IRs, specifically LLVM IR, with results on the C++, Java, Rust, and Go languages. Our method improves upon the state of the art for unsupervised code translation, increasing the number of correct translations by 11% on average, and up to 79% for the Java -> Rust pair with greedy decoding. With beam search, it increases the number of correct translations by 5.5% in average. We extend previous test sets for code translation, by adding hundreds of Go and Rust functions. Additionally, we train models with high performance on the problem of IR decompilation, generating programming source code from IR, and study using IRs as intermediary pivot for translation.
翻訳日:2023-04-20 18:10:04 公開日:2023-04-19
# テキスト論理推論のための談話認識グラフネットワーク

Discourse-Aware Graph Networks for Textual Logical Reasoning ( http://arxiv.org/abs/2207.01450v2 )

ライセンス: Link先を確認
Yinya Huang, Lemao Liu, Kun Xu, Meng Fang, Liang Lin, and Xiaodan Liang(参考訳) テキスト論理推論、特に論理推論を伴う質問応答(QA)タスクは、特定の論理構造を認識する必要がある。 節レベルの論理関係は命題単位間の含意や矛盾を表す(例えば、結論付け文)。 しかしながら、現在のQAシステムはエンティティベースの関係に焦点を当てているため、そのような構造は探索されていない。 本研究では,論理的推論QAを解決するための論理構造制約モデリングと,談話対応グラフネットワーク(DAGN)を提案する。 ネットワークはまず、インラインの談話接続とジェネリック論理理論を利用した論理グラフを構築し、その後、エッジ推論機構を用いて論理関係を進化させ、グラフ機能を更新することで論理表現を学ぶ。 このパイプラインは一般的なエンコーダに適用され、その基本的な特徴は解答予測のための高レベル論理機能と結合される。 3つのテキスト論理推論データセットの実験は、DAGNに構築された論理構造の理性および学習された論理特性の有効性を示す。 さらに、ゼロショット転送の結果は、見えない論理テキストに対する特徴の一般化を示している。

Textual logical reasoning, especially question-answering (QA) tasks with logical reasoning, requires awareness of particular logical structures. The passage-level logical relations represent entailment or contradiction between propositional units (e.g., a concluding sentence). However, such structures are unexplored as current QA systems focus on entity-based relations. In this work, we propose logic structural-constraint modeling to solve the logical reasoning QA and introduce discourse-aware graph networks (DAGNs). The networks first construct logic graphs leveraging in-line discourse connectives and generic logic theories, then learn logic representations by end-to-end evolving the logic relations with an edge-reasoning mechanism and updating the graph features. This pipeline is applied to a general encoder, whose fundamental features are joined with the high-level logic features for answer prediction. Experiments on three textual logical reasoning datasets demonstrate the reasonability of the logical structures built in DAGNs and the effectiveness of the learned logic features. Moreover, zero-shot transfer results show the features' generality to unseen logical texts.
翻訳日:2023-04-20 18:09:40 公開日:2023-04-19
# batformer: 効率的な医用画像分割のためのバウンダリアウェア軽量トランスフォーマ

BATFormer: Towards Boundary-Aware Lightweight Transformer for Efficient Medical Image Segmentation ( http://arxiv.org/abs/2206.14409v3 )

ライセンス: Link先を確認
Xian Lin, Li Yu, Kwang-Ting Cheng, and Zengqiang Yan(参考訳) 目的:CNNの不適切な受容領域を治療するために生まれたトランスフォーマーは、最近爆発的な注目を集めている。 しかし、グローバル表現学習の計算の複雑さは、厳格なウィンドウ分割とともに、医療画像のセグメンテーションにおける配置を妨げる。 この研究は、トランスフォーマーの2つの問題に対処し、医用画像のセグメンテーションを改善することを目的としている。 方法: エントロピーの指導の下で, 計算複雑性の低い大規模グローバルインタラクションを構築し, ウィンドウを柔軟に生成できる境界対応軽量トランスフォーマー (BATFormer) を提案する。 具体的には、長距離依存性確立におけるトランスフォーマーの利点をフルに探求するため、クロススケールグローバルトランスフォーマー(CGT)モジュールを導入し、計算複雑性の低いよりリッチなグローバル機能に複数の小規模機能マップを併用する。 医用画像セグメンテーションにおける形状モデリングの重要性から、境界対応ローカルトランス (BLT) モジュールが構築されている。 境界歪みを生じるバニラ変圧器の剛性窓分割とは異なり、BLTはエントロピーの指導の下で適応窓分割方式を採用し、計算複雑性の低減と形状の保存を行う。 結果: batformer は平均,右室,心筋,左室で92.84%,91.97%,90.26%,96.30%,icc 2018 データセットでは90.76%,84.64%,96.76% で,adcdc データセットでは,それぞれ,右室,心筋,左室でそれぞれ96.30%,dice,iou,accでは90.76%,84.64%,accでは96.76%であった。 さらに重要なのは、BATFormerは、最先端のアプローチと比較して最小のモデルパラメータと最小の計算複雑性を必要とすることだ。 結論と意義: より効率的な医用画像分割のためのカスタマイズトランスフォーマーの開発の必要性を示す。

Objective: Transformers, born to remedy the inadequate receptive fields of CNNs, have drawn explosive attention recently. However, the daunting computational complexity of global representation learning, together with rigid window partitioning, hinders their deployment in medical image segmentation. This work aims to address the above two issues in transformers for better medical image segmentation. Methods: We propose a boundary-aware lightweight transformer (BATFormer) that can build cross-scale global interaction with lower computational complexity and generate windows flexibly under the guidance of entropy. Specifically, to fully explore the benefits of transformers in long-range dependency establishment, a cross-scale global transformer (CGT) module is introduced to jointly utilize multiple small-scale feature maps for richer global features with lower computational complexity. Given the importance of shape modeling in medical image segmentation, a boundary-aware local transformer (BLT) module is constructed. Different from rigid window partitioning in vanilla transformers which would produce boundary distortion, BLT adopts an adaptive window partitioning scheme under the guidance of entropy for both computational complexity reduction and shape preservation. Results: BATFormer achieves the best performance in Dice of 92.84%, 91.97%, 90.26%, and 96.30% for the average, right ventricle, myocardium, and left ventricle respectively on the ACDC dataset and the best performance in Dice, IoU, and ACC of 90.76%, 84.64%, and 96.76% respectively on the ISIC 2018 dataset. More importantly, BATFormer requires the least amount of model parameters and the lowest computational complexity compared to the state-of-the-art approaches. Conclusion and Significance: Our results demonstrate the necessity of developing customized transformers for efficient and better medical image segmentation.
翻訳日:2023-04-20 18:09:22 公開日:2023-04-19
# コンテキスト応用のための最適測定構造

Optimal Measurement Structures for Contextuality Applications ( http://arxiv.org/abs/2206.13139v3 )

ライセンス: Link先を確認
Yuan Liu, Ravishankar Ramanathan, Karol Horodecki, Monika Rosicka, and Pawe{\l} Horodecki(参考訳) Kochen-Specker (KS) の定理は、量子論と古典的非文脈理論の基本的な違いを記述する量子力学の基礎における基礎的な結果である。 最近、$01$-gadgetsと呼ばれる特定の部分構造が、定理の本質的な矛盾を捉えるKS証明の中に存在することが示されている。 ここでは、これらのガジェットとその一般化がコンテキスト性アプリケーションに最適なツールボックスを提供することを示す。 (i)ゼロエラー通信における絡み合い支援の利点を示す古典的チャネルの構築 (ii)量子論と二項一般化確率論の間の大きな分離の特定、及び (iii)文脈性に基づく半デバイス非依存ランダムネス生成のための最適なテストを見つけること。 さらに,より一般的な論理命題に対して定式化した予測集合を一般化し,高次ガジェットと呼ぶ。 これらの高次ガジェットがks証明で果たす役割を、ksグラフ内の誘導サブグラフとして識別し、高次ガジェットをビルディングブロックとして、状態に依存しないコンテキスト性の証明を構築する方法を示す。 ここで開発された構成は、kochen-specker定理の最小証明に関する未解決の問題のいくつかを解決するのに役立つかもしれない。

The Kochen-Specker (KS) theorem is a corner-stone result in the foundations of quantum mechanics describing the fundamental difference between quantum theory and classical non-contextual theories. Recently specific substructures termed $01$-gadgets were shown to exist within KS proofs that capture the essential contradiction of the theorem. Here, we show these gadgets and their generalizations provide an optimal toolbox for contextuality applications including (i) constructing classical channels exhibiting entanglement-assisted advantage in zero-error communication, (ii) identifying large separations between quantum theory and binary generalised probabilistic theories, and (iii) finding optimal tests for contextuality-based semi-device-independent randomness generation. Furthermore, we introduce and study a generalisation to definite prediction sets for more general logical propositions, that we term higher-order gadgets. We pinpoint the role these higher-order gadgets play in KS proofs by identifying these as induced subgraphs within KS graphs and showing how to construct proofs of state-independent contextuality using higher-order gadgets as building blocks. The constructions developed here may help in solving some of the remaining open problems regarding minimal proofs of the Kochen-Specker theorem.
翻訳日:2023-04-20 18:08:40 公開日:2023-04-19
# 部分的に観測可能なマルコフゲームにおける多目的自己組織化追求に向けて

Toward multi-target self-organizing pursuit in a partially observable Markov game ( http://arxiv.org/abs/2206.12330v3 )

ライセンス: Link先を確認
Lijun Sun, Yu-Cheng Chang, Chao Lyu, Ye Shi, Yuhui Shi, and Chin-Teng Lin(参考訳) マルチターゲット自己組織化追尾(SOP)問題には幅広い応用があり、知的エージェントが協調して複数の動的ターゲットを部分的に観察する分散システムにおける挑戦的な自己組織化ゲームと考えられている。 本研究は,探索と追跡における暗黙の協調能力を改善するために,分散マルチエージェントシステムのためのフレームワークを提案する。 我々は,大規模,分散,部分的観測,非通信を特徴とする,部分観測可能なマルコフゲーム(pomg)として自己組織化システムをモデル化する。 提案した分散アルゴリズムは、ファジィ自己組織化協調共進化(FSC2)を利用して、分散自己組織化探索(SOS)、分散タスク割り当て、分散単一ターゲット探索の3つの課題を解決する。 FSC2は、一様エージェントが自然なSOSパターンを学習できる協調型マルチエージェント深部強化学習(MARL)法を含む。 さらに,複数ターゲットSOPを複数の単一ターゲット追従問題に分解するファジィ型分散タスク割り当て手法を提案する。 協調的共進化原理は、各単一ターゲット追従問題に対する分散トラッカーの協調に使用される。 したがって、POMGにおける固有の部分的観察と分散意思決定の不確実性は軽減できる。 実験結果から,SOPタスクを分解することにより,一般のMARLアルゴリズムで完全に訓練された他の暗黙の調整ポリシーと比較して,FSC2は優れた性能を発揮することが示された。 FSC2のスケーラビリティは、最大2048個のFSC2エージェントが100%の捕捉率で効率的なマルチターゲットSOPを実行することを証明している。 実証分析とアブレーション研究は、FSC2におけるコンポーネントアルゴリズムの解釈可能性、合理性、および有効性を検証する。

The multiple-target self-organizing pursuit (SOP) problem has wide applications and has been considered a challenging self-organization game for distributed systems, in which intelligent agents cooperatively pursue multiple dynamic targets with partial observations. This work proposes a framework for decentralized multi-agent systems to improve the implicit coordination capabilities in search and pursuit. We model a self-organizing system as a partially observable Markov game (POMG) featured by large-scale, decentralization, partial observation, and noncommunication. The proposed distributed algorithm: fuzzy self-organizing cooperative coevolution (FSC2) is then leveraged to resolve the three challenges in multi-target SOP: distributed self-organizing search (SOS), distributed task allocation, and distributed single-target pursuit. FSC2 includes a coordinated multi-agent deep reinforcement learning (MARL) method that enables homogeneous agents to learn natural SOS patterns. Additionally, we propose a fuzzy-based distributed task allocation method, which locally decomposes multi-target SOP into several single-target pursuit problems. The cooperative coevolution principle is employed to coordinate distributed pursuers for each single-target pursuit problem. Therefore, the uncertainties of inherent partial observation and distributed decision-making in the POMG can be alleviated. The experimental results demonstrate that by decomposing the SOP task, FSC2 achieves superior performance compared with other implicit coordination policies fully trained by general MARL algorithms. The scalability of FSC2 is proved that up to 2048 FSC2 agents perform efficient multi-target SOP with almost 100 percent capture rates. Empirical analyses and ablation studies verify the interpretability, rationality, and effectiveness of component algorithms in FSC2.
翻訳日:2023-04-20 18:08:22 公開日:2023-04-19
# Trajectory-Wise Reward を用いたオフライン強化学習

Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward ( http://arxiv.org/abs/2206.06426v2 )

ライセンス: Link先を確認
Tengyu Xu, Yue Wang, Shaofeng Zou, Yingbin Liang(参考訳) 強化学習(RL)の顕著な成功は、訪問した全ての状態-行動ペアの報酬の観察に大きく依存している。 しかし、現実世界の多くの応用において、エージェントは軌道全体の質を表すスコアのみを観察することができ、これは「軌道回り報酬」と呼ばれる。 このような状況下では、標準のRL法では軌道的報酬をうまく活用することは困難であり、政策評価において大きなバイアスと分散誤差が生じる可能性がある。 本稿では、最小二乗法に基づく報酬再分配によるステップごとの代用報酬への軌道戻りを分解し、学習した代用報酬に基づいて悲観的価値反復を行う、Pessimistic vAlue iteRaTion with rEward Decomposition (PARTED)と呼ばれる新しいオフラインRLアルゴリズムを提案する。 PartEDで構築された値関数が常に最適値に対して悲観的であることを保証するため、我々はプロキシ報酬の不確実性を相殺する新しいペナルティ項を設計する。 大きな状態空間を持つ一般的なエピソードMDPに対して、オーバーパラメータ化されたニューラルネットワーク関数近似で$\tilde{\mathcal{O}}(D_{\text{eff}}H^2/\sqrt{N})$ suboptimality, where $H$ is the length of episode, $N$ is the total number of sample, $D_{\text{eff}}$ is the effective dimension of the neural tangent kernel matrix。 この結果をさらに説明するために、parted は線形 mdps に対して $\tilde{\mathcal{o}}(dh^3/\sqrt{n})$ 準最適性を達成し、ここで $d$ は特徴次元であり、$d_{\text{eff}}=dh$ のとき、ニューラルネットワーク関数近似と一致する。 私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、確実に効率の良い最初のオフラインRLアルゴリズムである。

The remarkable success of reinforcement learning (RL) heavily relies on observing the reward of every visited state-action pair. In many real world applications, however, an agent can observe only a score that represents the quality of the whole trajectory, which is referred to as the {\em trajectory-wise reward}. In such a situation, it is difficult for standard RL methods to well utilize trajectory-wise reward, and large bias and variance errors can be incurred in policy evaluation. In this work, we propose a novel offline RL algorithm, called Pessimistic vAlue iteRaTion with rEward Decomposition (PARTED), which decomposes the trajectory return into per-step proxy rewards via least-squares-based reward redistribution, and then performs pessimistic value iteration based on the learned proxy reward. To ensure the value functions constructed by PARTED are always pessimistic with respect to the optimal ones, we design a new penalty term to offset the uncertainty of the proxy reward. For general episodic MDPs with large state space, we show that PARTED with overparameterized neural network function approximation achieves an $\tilde{\mathcal{O}}(D_{\text{eff}}H^2/\sqrt{N})$ suboptimality, where $H$ is the length of episode, $N$ is the total number of samples, and $D_{\text{eff}}$ is the effective dimension of the neural tangent kernel matrix. To further illustrate the result, we show that PARTED achieves an $\tilde{\mathcal{O}}(dH^3/\sqrt{N})$ suboptimality with linear MDPs, where $d$ is the feature dimension, which matches with that with neural network function approximation, when $D_{\text{eff}}=dH$. To the best of our knowledge, PARTED is the first offline RL algorithm that is provably efficient in general MDP with trajectory-wise reward.
翻訳日:2023-04-20 18:07:53 公開日:2023-04-19
# マスクvq-vae対応コードブックによるロバストな意味コミュニケーション

Robust Semantic Communications with Masked VQ-VAE Enabled Codebook ( http://arxiv.org/abs/2206.04011v2 )

ライセンス: Link先を確認
Qiyu Hu, Guangyi Zhang, Zhijin Qin, Yunlong Cai, Guanding Yu, Geoffrey Ye Li(参考訳) セマンティックコミュニケーションは,多くのタスクにおいて良好な性能を示したが,セマンティックノイズの影響やシステムの堅牢性は十分に研究されていない。 セマンティックノイズ(Semantic noise)とは、意図した意味記号と受信した意味記号との誤解を招き、タスクの失敗を引き起こす。 本稿ではまず,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。 特に,サンプル依存とサンプル非依存のセマンティクスノイズを分析した。 セマンティックノイズに対処するために, トレーニングデータセットにセマンティックノイズを含むサンプルを組み込むために, 重量摂動による対向訓練を開発した。 そこで我々は,意味的ノイズが頻繁に現れる入力の一部をマスキングし,ノイズ関連マスキング戦略を用いて,マスク付きベクトル量子化可変オートエンコーダ(VQ-VAE)を設計する。 我々は送信機と受信機が共有する離散コードブックを用いて特徴表現を符号化する。 システムの堅牢性をさらに向上するため,ノイズやタスク非関連機能を抑制する機能重要モジュール(FIM)を開発した。 したがって、送信側はコードブックにこれらの重要なタスク関連機能の指標を送信するだけでよい。 シミュレーションの結果,提案手法は多くの下流タスクに適用でき,伝送オーバーヘッドを著しく低減し,セマンティックノイズに対するロバスト性を大幅に向上できることがわかった。

Although semantic communications have exhibited satisfactory performance for a large number of tasks, the impact of semantic noise and the robustness of the systems have not been well investigated. Semantic noise refers to the misleading between the intended semantic symbols and received ones, thus cause the failure of tasks. In this paper, we first propose a framework for the robust end-to-end semantic communication systems to combat the semantic noise. In particular, we analyze sample-dependent and sample-independent semantic noise. To combat the semantic noise, the adversarial training with weight perturbation is developed to incorporate the samples with semantic noise in the training dataset. Then, we propose to mask a portion of the input, where the semantic noise appears frequently, and design the masked vector quantized-variational autoencoder (VQ-VAE) with the noise-related masking strategy. We use a discrete codebook shared by the transmitter and the receiver for encoded feature representation. To further improve the system robustness, we develop a feature importance module (FIM) to suppress the noise-related and task-unrelated features. Thus, the transmitter simply needs to transmit the indices of these important task-related features in the codebook. Simulation results show that the proposed method can be applied in many downstream tasks and significantly improve the robustness against semantic noise with remarkable reduction on the transmission overhead.
翻訳日:2023-04-20 18:07:07 公開日:2023-04-19
# Dyna-DM:動的オブジェクト認識型自己教師型単眼深度マップ

Dyna-DM: Dynamic Object-aware Self-supervised Monocular Depth Maps ( http://arxiv.org/abs/2206.03799v3 )

ライセンス: Link先を確認
Kieran Saunders, George Vogiatzis and Luis J. Manso(参考訳) 近年、ロボット工学や自律運転に応用されているため、自己監督型単眼深度推定は激しい研究の対象となっている。 最近の研究の多くは、アーキテクチャの複雑さを増大させることによる深さ推定の改善に焦点を当てている。 本稿では,モデルの複雑さを増すのではなく,学習プロセスを改善することにより,最先端のパフォーマンスを実現することができることを示す。 より具体的に言えば (i)訓練時に小さい可能性のある動的物体を無視すること、 (2) オブジェクトを別々に推定するために外見に基づくアプローチを採用する。 これらの単純化はGPUメモリ使用量を29%削減し,定性的かつ定量的に深度マップを改良することを示した。 コードはhttps://github.com/kieran514/dyna-dmで入手できる。

Self-supervised monocular depth estimation has been a subject of intense study in recent years, because of its applications in robotics and autonomous driving. Much of the recent work focuses on improving depth estimation by increasing architecture complexity. This paper shows that state-of-the-art performance can also be achieved by improving the learning process rather than increasing model complexity. More specifically, we propose (i) disregarding small potentially dynamic objects when training, and (ii) employing an appearance-based approach to separately estimate object pose for truly dynamic objects. We demonstrate that these simplifications reduce GPU memory usage by 29% and result in qualitatively and quantitatively improved depth maps. The code is available at https://github.com/kieran514/Dyna-DM.
翻訳日:2023-04-20 18:06:41 公開日:2023-04-19
# ユニタリ複素共役のための最適普遍量子回路

Optimal universal quantum circuits for unitary complex conjugation ( http://arxiv.org/abs/2206.00107v2 )

ライセンス: Link先を確認
Daniel Ebler, Micha{\l} Horodecki, Marcin Marciniak, Tomasz M{\l}ynik, Marco T\'ulio Quintino, Micha{\l} Studzi\'nski(参考訳) u_d$ を任意の $d$-次元ユニタリ量子演算を表すユニタリ作用素とする。 この研究は、$U_d$のコール数$k$を複素共役$\bar{U_d}$に変換するための最適量子回路を示す。 我々の回路は並列実装を認めており、$k$と$d$に対して、平均忠実度$\left\langle{f}\right\rangle =\frac{k+1}{d(d-k)}$で最適であることが証明されている。 平均的忠実度、雑音に対する堅牢性、その他の標準的なメリットの指標に対して最適性を示す。 これは、$U_d$の単一の呼び出しのシナリオ($k=1$)と、$k=d-1$呼び出しの特別なケースを考える以前の作業を拡張する。 この結果から、任意の任意の準同型に対して$k$の$u_d$ から$f(u_d)$ への最適変換を、$d$-次元ユニタリ作用素の群からそれ自身へ、複素共役がユニタリ作用素の群上の唯一の非自明な自己同型であるため、包含することを示した。 最後に、任意の量子進化を逆転する確率回路の設計に最適な複素共役実装を適用する。

Let $U_d$ be a unitary operator representing an arbitrary $d$-dimensional unitary quantum operation. This work presents optimal quantum circuits for transforming a number $k$ of calls of $U_d$ into its complex conjugate $\bar{U_d}$. Our circuits admit a parallel implementation and are proven to be optimal for any $k$ and $d$ with an average fidelity of $\left\langle{F}\right\rangle =\frac{k+1}{d(d-k)}$. Optimality is shown for average fidelity, robustness to noise, and other standard figures of merit. This extends previous works which considered the scenario of a single call ($k=1$) of the operation $U_d$, and the special case of $k=d-1$ calls. We then show that our results encompass optimal transformations from $k$ calls of $U_d$ to $f(U_d)$ for any arbitrary homomorphism $f$ from the group of $d$-dimensional unitary operators to itself, since complex conjugation is the only non-trivial automorphisms on the group of unitary operators. Finally, we apply our optimal complex conjugation implementation to design a probabilistic circuit for reversing arbitrary quantum evolutions.
翻訳日:2023-04-20 18:06:31 公開日:2023-04-19
# COLO: 一段階要約のためのコントラスト学習に基づく再分類フレームワーク

COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization ( http://arxiv.org/abs/2209.14569v2 )

ライセンス: Link先を確認
Chenxin An, Ming Zhong, Zhiyong Wu, Qin Zhu, Xuanjing Huang, Xipeng Qiu(参考訳) 抽出的および抽象的要約システムの伝統的な訓練パラダイムは、常にトークンレベルまたは文レベルの訓練目標のみを使用する。 しかし、アウトプット・サマリーは常に、トレーニングと評価の不整合につながる要約レベルから評価される。 本稿では,COLOと呼ばれる一段階要約のためのコントラスト学習に基づくフレームワークを提案する。 比較対象をモデル化することにより、要約モデルが追加モジュールやパラメータなしで要約レベルスコアに従って直接要約を生成することができることを示す。 広範な実験により、cnn/dailymailベンチマークにおける1段階システムの抽出および抽象化の結果が、パラメータ効率と推論効率を維持しながら44.58および46.33ルージュ-1スコアに向上することが示された。 最先端のマルチステージシステムと比較して、100以上のGPUトレーニング時間を節約し、比較結果を維持しながら、推論中に3~8のスピードアップ比を得る。

Traditional training paradigms for extractive and abstractive summarization systems always only use token-level or sentence-level training objectives. However, the output summary is always evaluated from summary-level which leads to the inconsistency in training and evaluation. In this paper, we propose a Contrastive Learning based re-ranking framework for one-stage summarization called COLO. By modeling a contrastive objective, we show that the summarization model is able to directly generate summaries according to the summary-level score without additional modules and parameters. Extensive experiments demonstrate that COLO boosts the extractive and abstractive results of one-stage systems on CNN/DailyMail benchmark to 44.58 and 46.33 ROUGE-1 score while preserving the parameter efficiency and inference efficiency. Compared with state-of-the-art multi-stage systems, we save more than 100 GPU training hours and obtaining 3~8 speed-up ratio during inference while maintaining comparable results.
翻訳日:2023-04-20 17:59:43 公開日:2023-04-19
# 調和振動子と三重型ポテンシャルを有する磁束場下でのschr\"{o}dinger粒子の点状欠陥:分子ポテンシャルへの応用

Point-like defect on Schr\"{o}dinger particles under flux field with harmonic oscillator plus Mie-type potential: application to molecular potentials ( http://arxiv.org/abs/2209.13490v3 )

ライセンス: Link先を確認
Faizuddin Ahmed(参考訳) 本研究では, Aharonov-Bohm (AB)フラックス場に閉じ込められた非相対論的粒子の量子運動と, 点状欠陥におけるMie型ポテンシャルについて検討する。 粒子の固有値解を解析的に決定し、このポテンシャルによるトポロジ的欠陥とフラックス場の影響を議論する。 この固有値解は、いくつかの二原子分子ポテンシャルモデル(調和振動子とクラッツァー、修正クラッツァーおよび魅力的なクーロンポテンシャル)で使われ、固有値解として提示される。 その後、量子系における一般ポテンシャル形式(擬調和とコーネル型ポテンシャルの重ね合わせ)を考え、固有値解に対する様々な因子の影響を分析する。 点状大域モノポールとフラックス場のトポロジ的欠陥により固有値解が修正されることが, 平坦空間で得られた結果と比較された。

In this analysis, we study the quantum motions of a non-relativistic particle confined by the Aharonov-Bohm (AB) flux field with harmonic oscillator plus Mie-type potential in a point-like defect. We determine the eigenvalue solution of the particles analytically and discuss the effects of the topological defect and flux field with this potential. This eigenvalue solution is then used in some diatomic molecular potential models (harmonic oscillator plus Kratzer, modified Kratzer and attractive Coulomb potentials) and presented as the eigenvalue solutions. Afterwards, we consider a general potential form (superposition of pseudoharmonic plus Cornell-type potential) in the quantum system and analyse the effects of various factors on the eigenvalue solution. It is shown that the eigenvalue solutions are modified by the topological defect of a point-like global monopole and flux field compared to the results obtained in the flat space
翻訳日:2023-04-20 17:59:29 公開日:2023-04-19
# 擬エルミート行列の退化と対称性の破れ

Degeneracies and symmetry breaking in pseudo-Hermitian matrices ( http://arxiv.org/abs/2209.06887v3 )

ライセンス: Link先を確認
Abhijeet Melkani(参考訳) 実行列や$\mathcal{pt-}$symmetric行列のような擬エルミート行列の実固有値は、しばしば複素共役対に分割される。 これは固有ベクトルのある種の対称性の破れや、典型的にはシステムの挙動の劇的な変化を伴う。 本稿では、擬エルミート行列の固有空間を分類し、そのような対称性の破れは、複素固有値平面の実軸上で反対種の固有値が衝突した場合にのみ起こることを示す。 これにより、全ての固有値が実数であるパラメータ空間における非連結領域の分類が可能となり、これは系の安定相に対応する。 これらの切断された領域は、擬エルミート行列のすべての実数値例外点からなる例外曲面に囲まれている。 例外曲面は、それらの交叉によって生成されるダイアボリック点とともに、擬ハーミティティ破れのすべての点を構成する。 特に、対称性の破れにかかわる退化性は必ずしも例外的な点ではない。 また、この研究が保存量とどのように関係しているかを議論し、外部対称性による退化がしきい値のない擬似半減期破壊の影響を受ける場合の条件を導出する。 我々は、フォトニクス、凝縮物質物理学、メカニクスの例を挙げる。

Real eigenvalues of pseudo-Hermitian matrices, such as real matrices and $\mathcal{PT-}$symmetric matrices, frequently split into complex conjugate pairs. This is accompanied by the breaking of certain symmetries of the eigenvectors and, typically, also a drastic change in the behavior of the system. In this paper, we classify the eigenspace of pseudo-Hermitian matrices and show that such symmetry breaking occurs if and only if eigenvalues of opposite kinds collide on the real axis of the complex eigenvalue plane. This enables a classification of the disconnected regions in parameter space where all eigenvalues are real -- which correspond, physically, to the stable phases of the system. These disconnected regions are surrounded by exceptional surfaces which comprise all the real-valued exceptional points of pseudo-Hermitian matrices. The exceptional surfaces, together with the diabolic points created by their intersections, comprise all points of pseudo-Hermiticity breaking. In particular, this clarifies that the degeneracy involved in symmetry breaking is not necessarily an exceptional point. We also discuss how our study relates to conserved quantities and derive the conditions for when degeneracies caused by external symmetries are susceptible to thresholdless pseudo-Hermiticity breaking. We illustrate our results with examples from photonics, condensed matter physics, and mechanics.
翻訳日:2023-04-20 17:58:51 公開日:2023-04-19
# 表現の制約は、知らないものを知るモデルになる

Constraining Representations Yields Models That Know What They Don't Know ( http://arxiv.org/abs/2208.14488v3 )

ライセンス: Link先を確認
Joao Monteiro, Pau Rodriguez, Pierre-Andre Noel, Issam Laradji, David Vazquez(参考訳) ニューラルネットワークのよく知られた障害モードは、誤った予測を確実に返すことである。 このような安全でない振る舞いは、ユースケースがトレーニングコンテキストとわずかに異なる場合や、敵の存在下では特に頻繁である。 この研究は、モデルの内部アクティベーションパターンにクラスを意識した制約を課すことによって、これらの問題を解決するための新しい方向性を示す。 具体的には、各クラスに一意で固定、ランダムに生成されたバイナリベクターを割り当て、クラスコードを呼び出してモデルを訓練し、そのクロスディープなアクティベーションパターンが入力サンプルのクラスに応じて適切なクラスコードを予測できるようにします。 結果として得られる予測子は、Ttal Activation Classifiers (TAC)と呼ばれ、TACはスクラッチからトレーニングするか、あるいは凍結、トレーニング済みのニューラルネットワークの上に薄いアドオンとして無視可能なコストで使用することができる。 TACのアクティベーションパターンと最も近い有効なコードとの距離は、デフォルトのunTACの予測ヘッドに加えて、さらなる信頼スコアとして機能する。 アドオンの場合、元のニューラルネットワークの推論ヘッドは、完全に影響を受けていない(そのため、その正確性は同じである)が、仮説的な生産ワークフローでどのアクションを行うかを決定する際に、TAC自身の自信と予測を使用するオプションが選択された。 特に、TACは、拒否/延期が許されるモデルから得られる値を厳密に改善することを示す。 さらに、TACが複数のタイプのアーキテクチャやデータモダリティでうまく機能し、既存のモデルから派生した最先端の代替的信頼性スコアと同程度であることを示す。

A well-known failure mode of neural networks is that they may confidently return erroneous predictions. Such unsafe behaviour is particularly frequent when the use case slightly differs from the training context, and/or in the presence of an adversary. This work presents a novel direction to address these issues in a broad, general manner: imposing class-aware constraints on a model's internal activation patterns. Specifically, we assign to each class a unique, fixed, randomly-generated binary vector - hereafter called class code - and train the model so that its cross-depths activation patterns predict the appropriate class code according to the input sample's class. The resulting predictors are dubbed Total Activation Classifiers (TAC), and TACs may either be trained from scratch, or used with negligible cost as a thin add-on on top of a frozen, pre-trained neural network. The distance between a TAC's activation pattern and the closest valid code acts as an additional confidence score, besides the default unTAC'ed prediction head's. In the add-on case, the original neural network's inference head is completely unaffected (so its accuracy remains the same) but we now have the option to use TAC's own confidence and prediction when determining which course of action to take in an hypothetical production workflow. In particular, we show that TAC strictly improves the value derived from models allowed to reject/defer. We provide further empirical evidence that TAC works well on multiple types of architectures and data modalities and that it is at least as good as state-of-the-art alternative confidence scores derived from existing models.
翻訳日:2023-04-20 17:58:26 公開日:2023-04-19
# shor型誤り訂正のための適応型シンドローム測定

Adaptive syndrome measurements for Shor-style error correction ( http://arxiv.org/abs/2208.05601v3 )

ライセンス: Link先を確認
Theerapat Tansuwannont, Balint Pato, Kenneth R. Brown(参考訳) Shor fault-tolerant error correct (FTEC) 方式では, ゲート故障によるエラーの伝播を防止するために, 猫の状態に用意されたトランスバーサルゲートとアンシラキュービットを用いる。 最大$t=\lfloor(d-1)/2\rfloor$エラーを訂正できる安定化コード$d$のために、従来のshorスキームは、症候群が連続して繰り返されるまで症候群の測定を行うことで、アンシラの準備と測定の欠陥を処理し、最悪のケースでは$(t+1)^2$の計測が必要となる。 本研究では,適応型シンドローム計測手法を用いてshor ftecスキームを改善する。 誤り訂正症候群は、連続したラウンドから得られる症候群の違いの情報に基づいて決定される。 強いFTEC条件と弱いFTEC条件を満たすプロトコルは、それぞれ$(t+3)^2/4-1$ラウンドと$(t+3)^2/4-2$ラウンドを必要とせず、どの安定化符号にも適用可能である。 小距離ヘキサゴナルカラーコードに対する適応方式によるFTECプロトコルのシミュレーションにより、このプロトコルが符号距離を保ち、擬似閾値を増大させ、従来のショア方式と比較してラウンド数を減少させることができることを確認した。 また、距離$d$の符号に対して、適応型スキームを持つFTECプロトコルは、平均$d$のラウンドを必要としない。

The Shor fault-tolerant error correction (FTEC) scheme uses transversal gates and ancilla qubits prepared in the cat state in syndrome extraction circuits to prevent propagation of errors caused by gate faults. For a stabilizer code of distance $d$ that can correct up to $t=\lfloor(d-1)/2\rfloor$ errors, the traditional Shor scheme handles ancilla preparation and measurement faults by performing syndrome measurements until the syndromes are repeated $t+1$ times in a row; in the worst-case scenario, $(t+1)^2$ rounds of measurements are required. In this work, we improve the Shor FTEC scheme using an adaptive syndrome measurement technique. The syndrome for error correction is determined based on information from the differences of syndromes obtained from consecutive rounds. Our protocols that satisfy the strong and the weak FTEC conditions require no more than $(t+3)^2/4-1$ rounds and $(t+3)^2/4-2$ rounds, respectively, and are applicable to any stabilizer code. Our simulations of FTEC protocols with the adaptive schemes on hexagonal color codes of small distances verify that our protocols preserve the code distance, can increase the pseudothreshold, and can decrease the average number of rounds compared to the traditional Shor scheme. We also find that for the code of distance $d$, our FTEC protocols with the adaptive schemes require no more than $d$ rounds on average.
翻訳日:2023-04-20 17:57:53 公開日:2023-04-19
# 対称性破れのプローブとしての絡み合い非対称性

Entanglement asymmetry as a probe of symmetry breaking ( http://arxiv.org/abs/2207.14693v2 )

ライセンス: Link先を確認
Filiberto Ares, Sara Murciano, Pasquale Calabrese(参考訳) 対称性と対称性の破れは、現代の量子物理学の2つの柱である。 それでも、対称性がどの程度壊れているかの定量化は、ほとんど注目を集めていない問題だ。 拡張量子系では、この問題は本質的に関心のサブシステムに結びついている。 そこで本研究では、多体量子系における絡み合いの理論から手法を借用し、絡み合い非対称性を導出する対称性破れのサブシステム測度を導入する。 典型例として,初期崩壊した大域的 u(1)$ 対称性を動的に復元するスピンチェーンの量子クエンチにおける絡み合い非対称性について検討する。 準粒子像を絡み合い発展に適用し、絡み合い非対称性の解析的決定を行う。 予想されることに、より大きいものはサブシステムであり、遅いものは修復であるだけでなく、より対称性が破壊され、より速く復元されるという反直感的な結果、一種の量子Mpemba効果、これは様々なシステムで起こる現象である。

Symmetry and symmetry breaking are two pillars of modern quantum physics. Still, quantifying how much a symmetry is broken is an issue that has received little attention. In extended quantum systems, this problem is intrinsically bound to the subsystem of interest. Hence, in this work, we borrow methods from the theory of entanglement in many-body quantum systems to introduce a subsystem measure of symmetry breaking that we dub entanglement asymmetry. As a prototypical illustration, we study the entanglement asymmetry in a quantum quench of a spin chain in which an initially broken global $U(1)$ symmetry is restored dynamically. We adapt the quasiparticle picture for entanglement evolution to the analytic determination of the entanglement asymmetry. We find, expectedly, that larger is the subsystem, slower is the restoration, but also the counterintuitive result that more the symmetry is initially broken, faster it is restored, a sort of quantum Mpemba effect, a phenomenon that we show to occur in a large variety of systems.
翻訳日:2023-04-20 17:57:21 公開日:2023-04-19
# EC-KitY: シームレス機械学習統合を備えたPythonの進化型計算ツールキット

EC-KitY: Evolutionary Computation Tool Kit in Python with Seamless Machine Learning Integration ( http://arxiv.org/abs/2207.10367v2 )

ライセンス: Link先を確認
Moshe Sipper, Tomer Halperin, Itai Tzruia, Achiya Elyasaf(参考訳) EC-KitYは、進化計算(EC)を行うための包括的なPythonライブラリで、BSD 3-Clause Licenseの下でライセンスされ、Scikit-learnと互換性がある。 現代のソフトウェアエンジニアリングと機械学習の統合を念頭に設計されたEC-KitYは、遺伝的アルゴリズム、遺伝的プログラミング、共進化、進化的多目的最適化など、一般的なECパラダイムをすべてサポートできる。 本稿では,EC実験のセットアップを容易にすること,アーキテクチャ,主な特徴,他のライブラリとの比較など,パッケージの概要を紹介する。

EC-KitY is a comprehensive Python library for doing evolutionary computation (EC), licensed under the BSD 3-Clause License, and compatible with scikit-learn. Designed with modern software engineering and machine learning integration in mind, EC-KitY can support all popular EC paradigms, including genetic algorithms, genetic programming, coevolution, evolutionary multi-objective optimization, and more. This paper provides an overview of the package, including the ease of setting up an EC experiment, the architecture, the main features, and a comparison with other libraries.
翻訳日:2023-04-20 17:56:30 公開日:2023-04-19
# ボソンサンプリングの完全状態ベクトルにおける絡み合い

Entanglement in the full state vector of boson sampling ( http://arxiv.org/abs/2210.09915v2 )

ライセンス: Link先を確認
Yulong Qiao, Joonsuk Huh, and Frank Grossmann(参考訳) ボソンサンプリングの完全状態ベクトルは、Mモードのビームスプリッタを介してS単一光子を通過させることにより生成される。 初期フォック状態は一般化コヒーレント状態で表現され、ユニタリ進化の正確な適用が可能となる。 M の多項式スケーリングに有利なため、中間粒子と巨大モード数に対する Renyi 絡み合いエントロピーを調査できる。 ほぼ)renyiインデックス独立な対称ページ曲線が等間隔で最大エントロピーを持つ。 さらに、モードインデックスの関数としての最大エントロピーは、衝突のない部分空間の場合のMの関数として飽和する。 エントロピーの漸近値は S と直線的に増加するが、さらに、エントロピーの組上げは非対称エントロピー曲線の S に等しいサブシステムサイズでのカスプにつながることを示す。 最大エンタングルメントは、システム全体にわたってモード人口が分散する前に驚くほど早く到達する。

The full state vector of boson sampling is generated by passing S single photons through beam splitters of M modes. The initial Fock state is expressed withgeneralized coherent states, and an exact application of the unitary evolution becomes possible. Due to the favorable polynomial scaling in M , we can investigate Renyi entanglement entropies for moderate particle and huge mode numbers. We find (almost) Renyi index independent symmetric Page curves with maximum entropy at equal partition. Furthermore, the maximum entropy as a function of mode index saturates as a function of M in the collision-free subspace case. The asymptotic value of the entropy increases linearly with S. Furthermore, we show that the build-up of the entanglement leads to a cusp at subsystem size equal to S in the asymmetric entanglement curve. The maximum entanglement is reached surprisingly early before the mode population is distributed over the whole system.
翻訳日:2023-04-20 17:51:04 公開日:2023-04-19
# DyLoRA:動的探索自由低ランク適応を用いた事前学習モデルのパラメータ調整

DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic Search-Free Low-Rank Adaptation ( http://arxiv.org/abs/2210.07558v2 )

ライセンス: Link先を確認
Mojtaba Valipour, Mehdi Rezagholizadeh, Ivan Kobyzev, Ali Ghodsi(参考訳) 事前訓練されたモデル(PM)のサイズが拡大するにつれて、微調整は高価で資源不足になっている。 対策として、ローランクアダプタ(LoRA)はモデルのトレーニング済みの重みを凍結させ、学習可能なSVDモジュール(いわゆるLoRAブロック)をモデルに導入する。 第一に、これらのブロックのサイズは固定されており、トレーニング後に変更できない(例えば、LoRAブロックのランクを変更する必要がある場合、スクラッチから再トレーニングする必要がある)。 本研究では,これら2つの問題に対処する動的低ランク適応(DyLoRA)手法を提案する。 我々のDyLoRAメソッドは、トレーニング中に異なるランクでアダプタモジュールが学習した表現をソートすることで、LORAブロックを単一のランクではなく幅広いランクでトレーニングする。 我々は,RoBERTa や GPT などの事前学習モデルを用いて,異なる自然言語理解 (GLUE ベンチマーク) と言語生成タスク (E2E, DART, WebNLG) について評価を行った。 この結果から,DyLoRAを用いた動的検索自由モデルをLoRAより4~7倍高速に訓練できることがわかった。 さらに、我々のモデルはLoRAに比べてはるかに広いランクで一貫して性能を向上できる。

With the ever-growing size of pretrained models (PMs), fine-tuning them has become more expensive and resource-hungry. As a remedy, low-rank adapters (LoRA) keep the main pretrained weights of the model frozen and just introduce some learnable truncated SVD modules (so-called LoRA blocks) to the model. While LoRA blocks are parameter-efficient, they suffer from two major problems: first, the size of these blocks is fixed and cannot be modified after training (for example, if we need to change the rank of LoRA blocks, then we need to re-train them from scratch); second, optimizing their rank requires an exhaustive search and effort. In this work, we introduce a dynamic low-rank adaptation (DyLoRA) technique to address these two problems together. Our DyLoRA method trains LoRA blocks for a range of ranks instead of a single rank by sorting the representation learned by the adapter module at different ranks during training. We evaluate our solution on different natural language understanding (GLUE benchmark) and language generation tasks (E2E, DART and WebNLG) using different pretrained models such as RoBERTa and GPT with different sizes. Our results show that we can train dynamic search-free models with DyLoRA at least 4 to 7 times (depending to the task) faster than LoRA without significantly compromising performance. Moreover, our models can perform consistently well on a much larger range of ranks compared to LoRA.
翻訳日:2023-04-20 17:50:48 公開日:2023-04-19
# 凍結視覚トランスの入力ベース適応のためのプロンプト生成ネットワーク

Prompt Generation Networks for Input-based Adaptation of Frozen Vision Transformers ( http://arxiv.org/abs/2210.06466v2 )

ライセンス: Link先を確認
Jochem Loedeman, Maarten C. Stol, Tengda Han, Yuki M. Asano(参考訳) コンピュータビジョンにおけるトランスフォーマーアーキテクチャの導入により、モデルスケールの増大は、パフォーマンスとロバスト性向上を達成するための明確な経路として実証されている。 しかし、モデルパラメータが数十億に達すると、NLPのようにモデルが推論APIとしてホストされるようになると、古典的な微調整アプローチはますます制限され、実現不可能になっている。 この目的のために、モデルが追加入力を学習することによって適応される視覚的プロンプト学習は、凍結およびクラウドホストされたモデルに適応するための潜在的なソリューションとして登場した。 本稿では,トークンのエンドツーエンド学習ライブラリから,高パフォーマンスかつ入力依存的なプロンプトを生成するPrompt Generation Network(PGN)を提案する。 さらに、PGNを遅延空間で効率的に訓練できるが、推論のための厳密な入力専用プロンプトとして展開する"prompt inversion"手法を導入する。 pgnは、事前学習されたモデルを様々な新しいデータセットに適応させるのに効果的であることを示す: 12/12のデータセットで従来の方法を大きく超え、さらに5/12のフル微調整よりも100倍のパラメータを必要とする。

With the introduction of the transformer architecture in computer vision, increasing model scale has been demonstrated as a clear path to achieving performance and robustness gains. However, with model parameter counts reaching the billions, classical finetuning approaches are becoming increasingly limiting and even unfeasible when models become hosted as inference APIs, as in NLP. To this end, visual prompt learning, whereby a model is adapted by learning additional inputs, has emerged as a potential solution for adapting frozen and cloud-hosted models: During inference, this neither requires access to the internals of models' forward pass function, nor requires any post-processing. In this work, we propose the Prompt Generation Network (PGN) that generates high performing, input-dependent prompts by sampling from an end-to-end learned library of tokens. We further introduce the "prompt inversion" trick, with which PGNs can be efficiently trained in a latent space but deployed as strictly input-only prompts for inference. We show the PGN is effective in adapting pre-trained models to various new datasets: It surpasses previous methods by a large margin on 12/12 datasets and even outperforms full-finetuning on 5/12, while requiring 100x less parameters.
翻訳日:2023-04-20 17:50:22 公開日:2023-04-19
# スパイキングDS-ResNetによるマルチレベルファイリング:より良く、より深く直接訓練されたスパイキングニューラルネットワーク

Multi-Level Firing with Spiking DS-ResNet: Enabling Better and Deeper Directly-Trained Spiking Neural Networks ( http://arxiv.org/abs/2210.06386v2 )

ライセンス: Link先を確認
Lang Feng, Qianhui Liu, Huajin Tang, De Ma, Gang Pan(参考訳) スパイキングニューラルネットワーク(SNN)は、非同期な離散性とスパース特性を持つバイオインスパイアされたニューラルネットワークであり、低エネルギー消費においてその優位性を示している。 最近の研究は、時空間情報を利用して、バックプロパゲーションによってSNNを直接訓練することに集中している。 しかし、スパイクアクティビティのバイナリおよび非微分可能特性は、直接訓練されたSNNが深刻な勾配の消失とネットワーク劣化に悩まされ、直接訓練されたSNNの性能が大幅に低下し、より深くなることを防ぐ。 本稿では,既存の時空間バック伝搬(STBP)法に基づくマルチレベルファイアリング(MLF)法と,停止抑制残差ネットワーク(DS-ResNetをスパイクする)を提案する。 MLFは神経細胞のより効率的な勾配伝播と漸進的な発現を可能にする。 DS-ResNetは離散スパイクのIDマッピングを効率的に行うことができ、深部SNNの勾配伝播により適した接続を提供する。 提案手法により,非ニューロモルフィックデータセットと2つのニューロモルフィックデータセットにおいて,トレーニング可能なパラメータがはるかに少ない性能を達成し,深部SNNにおける勾配消滅・劣化問題に対処する優れた能力を示す。

Spiking neural networks (SNNs) are bio-inspired neural networks with asynchronous discrete and sparse characteristics, which have increasingly manifested their superiority in low energy consumption. Recent research is devoted to utilizing spatio-temporal information to directly train SNNs by backpropagation. However, the binary and non-differentiable properties of spike activities force directly trained SNNs to suffer from serious gradient vanishing and network degradation, which greatly limits the performance of directly trained SNNs and prevents them from going deeper. In this paper, we propose a multi-level firing (MLF) method based on the existing spatio-temporal back propagation (STBP) method, and spiking dormant-suppressed residual network (spiking DS-ResNet). MLF enables more efficient gradient propagation and the incremental expression ability of the neurons. Spiking DS-ResNet can efficiently perform identity mapping of discrete spikes, as well as provide a more suitable connection for gradient propagation in deep SNNs. With the proposed method, our model achieves superior performances on a non-neuromorphic dataset and two neuromorphic datasets with much fewer trainable parameters and demonstrates the great ability to combat the gradient vanishing and degradation problem in deep SNNs.
翻訳日:2023-04-20 17:50:00 公開日:2023-04-19
# 火災との戦い--テキスト対ビデオ検索ベンチマークの有効性評価

Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks ( http://arxiv.org/abs/2210.05038v2 )

ライセンス: Link先を確認
Pedro Rodriguez, Mahmoud Azab, Becka Silvert, Renato Sanchez, Linzy Labson, Hardik Shah and Seungwhan Moon(参考訳) テキストによるビデオの検索は,マルチモーダル検索の中心的な課題である。 テキスト対ビデオ検索のための目的のデータセットが欠如していることから,(1)キャプションをそれぞれのビデオに正の一致として扱うこと,(2)他のすべての動画を負と仮定することで,モデルを評価するためにビデオキャプションデータセットが再設計された。 しかし、この手法は評価中に根本的な欠陥をもたらす:キャプションは元のビデオにのみ関連付けられているため、多くの代替ビデオはキャプションにマッチする。 これらの偽陰性が修正されると、最近の最先端モデルでは25倍のリコールポイントが得られます -- ベンチマーク自体の有効性を脅かす違いです。 この問題を診断し緩和するために、683K追加のキャプションビデオペアを注釈してリリースする。 これらを用いて、2つの標準ベンチマーク(MSR-VTTとMSVD)における3つのモデルの有効性スコアを再計算する。 その結果, (1) 再計算された指標は, 最高のモデルに対して最大25\%のリコールポイント, (2) Recall@10の飽和度に近づき, (3) キャプション長(一般性)は正の値の数に関係しており, (4) アノテーションのコストはサンプリングによって軽減できることがわかった。 我々はこれらのベンチマークを現在の形でリタイアすることを推奨し、将来のテキスト・ビデオ検索ベンチマークを推奨する。

Searching troves of videos with textual descriptions is a core multimodal retrieval task. Owing to the lack of a purpose-built dataset for text-to-video retrieval, video captioning datasets have been re-purposed to evaluate models by (1) treating captions as positive matches to their respective videos and (2) assuming all other videos to be negatives. However, this methodology leads to a fundamental flaw during evaluation: since captions are marked as relevant only to their original video, many alternate videos also match the caption, which introduces false-negative caption-video pairs. We show that when these false negatives are corrected, a recent state-of-the-art model gains 25\% recall points -- a difference that threatens the validity of the benchmark itself. To diagnose and mitigate this issue, we annotate and release 683K additional caption-video pairs. Using these, we recompute effectiveness scores for three models on two standard benchmarks (MSR-VTT and MSVD). We find that (1) the recomputed metrics are up to 25\% recall points higher for the best models, (2) these benchmarks are nearing saturation for Recall@10, (3) caption length (generality) is related to the number of positives, and (4) annotation costs can be mitigated through sampling. We recommend retiring these benchmarks in their current form, and we make recommendations for future text-to-video retrieval benchmarks.
翻訳日:2023-04-20 17:49:34 公開日:2023-04-19
# ハイパーグラフに基づくマルチロボットタスクと運動計画

Hypergraph-based Multi-Robot Task and Motion Planning ( http://arxiv.org/abs/2210.04333v2 )

ライセンス: Link先を確認
James Motes, Tan Chen, Timothy Bretl, Marco Morales, Nancy M. Amato(参考訳) 本稿では,マニピュレータによるオブジェクトの再配置に適用した場合,既存の手法よりも最大3桁高速で解解時間を実現し,最大20個のオブジェクトの3倍以上のオブジェクトの問題を計画できるマルチロボットタスクと動作計画法を提案する。 我々は, 物体を保持するマニピュレータ, 物体, マニピュレータのみを考えるための計画空間を分解することにより, この改善を実現する。 この分解をハイパーグラフで表現し、頂点は計画空間の分解要素であり、超弧は要素間の遷移である。 既存の手法では、頂点が完全な合成空間であり、エッジがそれらの間の遷移であるグラフベースの表現を用いる。 ハイパーグラフを用いて、マルチマニピュレータオブジェクト再構成のための計画空間の表現サイズを減らすことで、ハイパーグラフ頂点の数はロボットまたはオブジェクトの数と線形にスケールし、ハイパーアークの数はロボットの数と2次的にスケールし、オブジェクトの数と線形にスケールする。 対照的に、グラフベースの表現における頂点とエッジの数は、ロボットやオブジェクトの数に指数関数的にスケールする。 また,他のマルチロボットタスクや動作計画問題にも同様の効果が期待できることを示す。

We present a multi-robot task and motion planning method that, when applied to the rearrangement of objects by manipulators, results in solution times up to three orders of magnitude faster than existing methods and successfully plans for problems with up to twenty objects, more than three times as many objects as comparable methods. We achieve this improvement by decomposing the planning space to consider manipulators alone, objects, and manipulators holding objects. We represent this decomposition with a hypergraph where vertices are decomposed elements of the planning spaces and hyperarcs are transitions between elements. Existing methods use graph-based representations where vertices are full composite spaces and edges are transitions between these. Using the hypergraph reduces the representation size of the planning space-for multi-manipulator object rearrangement, the number of hypergraph vertices scales linearly with the number of either robots or objects, while the number of hyperarcs scales quadratically with the number of robots and linearly with the number of objects. In contrast, the number of vertices and edges in graph-based representations scales exponentially in the number of robots and objects. We show that similar gains can be achieved for other multi-robot task and motion planning problems.
翻訳日:2023-04-20 17:49:06 公開日:2023-04-19
# bluetoothのリアルタイムrf指紋認証のための埋め込み型注意深層学習

Embedding-Assisted Attentional Deep Learning for Real-World RF Fingerprinting of Bluetooth ( http://arxiv.org/abs/2210.02897v2 )

ライセンス: Link先を確認
Anu Jagannath and Jithin Jagannath(参考訳) スケーラブルで計算効率の良いフレームワークは、現実世界のbluetoothデバイスを指紋化するように設計されている。 実際のBluetoothデバイスの指紋認証に適した埋め込み型注意フレームワーク(Mbed-ATN)を提案する。 その一般化能力は異なる設定で解析され、サンプル長とアンチエイリアスデシメーションの効果が示される。 埋め込みモジュールは、高次元3次元入力テンソルをATNモジュールによるさらなる処理のために1D特徴ベクトルにマッピングする次元還元ユニットとして機能する。 さらに,この分野での先行研究と異なり,モデルの複雑さを綿密に評価し,異なる時間枠と実験環境下で収集した実世界のBluetoothデータセットを用いて指紋認証機能をテストする。 我々の研究では、GRUとOracleのベンチマークモデルと比較すると、サンプル長が100kSの9.17xと65.2xのメモリ使用量が少ないことが判明した。 さらに提案されたMbed-ATNは、Oracleと比較して16.9倍のFLOPと7.5倍のトレーニング可能なパラメータを示している。 最後に,Mbed-ATN フレームワークは, アンチエイリアスデシメーションおよび1MS の入力サンプル長が大きい場合, 5.32倍のTPR, 37.9%の誤報, 6.74倍の精度が得られることを示した。

A scalable and computationally efficient framework is designed to fingerprint real-world Bluetooth devices. We propose an embedding-assisted attentional framework (Mbed-ATN) suitable for fingerprinting actual Bluetooth devices. Its generalization capability is analyzed in different settings and the effect of sample length and anti-aliasing decimation is demonstrated. The embedding module serves as a dimensionality reduction unit that maps the high dimensional 3D input tensor to a 1D feature vector for further processing by the ATN module. Furthermore, unlike the prior research in this field, we closely evaluate the complexity of the model and test its fingerprinting capability with real-world Bluetooth dataset collected under a different time frame and experimental setting while being trained on another. Our study reveals a 9.17x and 65.2x lesser memory usage at a sample length of 100 kS when compared to the benchmark - GRU and Oracle models respectively. Further, the proposed Mbed-ATN showcases 16.9x fewer FLOPs and 7.5x lesser trainable parameters when compared to Oracle. Finally, we show that when subject to anti-aliasing decimation and at greater input sample lengths of 1 MS, the proposed Mbed-ATN framework results in a 5.32x higher TPR, 37.9% fewer false alarms, and 6.74x higher accuracy under the challenging real-world setting.
翻訳日:2023-04-20 17:48:44 公開日:2023-04-19
# 音響変調器を用いた量子技術用バイ周波数干渉計

An acousto-optic modulator based bi-frequency interferometer for quantum technology ( http://arxiv.org/abs/2210.00406v2 )

ライセンス: Link先を確認
Wenqi Li, Qiqi Deng, Xueshi Guo, Xiaoying Li(参考訳) 音響光学変調器(AOM)は量子光学技術で広く用いられているが、非理想回折効率は量子系における応用を制限する。 本稿では,aomsをビームスプリッタとビームコンビナの両方として用いた2周波干渉計を示す。 入力光の強度は単一光子レベルと同じくらい低くなり、干渉計は切断された位相ロックモードで動作する。 位相同期方式の変調は、特別な設計の無線周波数信号によって駆動されるビーム分割AOM上で実現され、余分な光変調器の使用を回避し、システムの量子効率を(95\pm1)\%$まで高める。 モードマッチングに影響する要因を最適化することで、干渉計のビーティング信号の可視性は$(99.5\pm0.2)\%である。 このほぼ完全な可視性により、干渉計は高効率の量子技術スキームに適用でき、各AOMの回折効率を約50\%$で残すことができる。 これによりAOMの運転需要は大幅に減少した。

Acousto-optic modulators (AOMs) have been widely used in quantum optical technology, but the non-ideal diffraction efficiency limits its application in a quantum system. Here we demonstrate a bi-frequency interferometer using AOMs as both the beam-splitter and the beam-combiner. The intensity of the input light can be as low as the single photon level, and the interferometer can work in a chopped phase locking mode. The modulation for the phase locking scheme is realized on the beam-splitting AOM driven by specially designed radio frequency signal, which avoids using extra optical modulators and makes the quantum efficiency of the system as high as $(95\pm1)\%$. By optimizing the factors that affect the mode matching, the visibility of the beating signal for the interferometer is $(99.5\pm0.2)\%$. This near prefect visibility allows the interferometer to be applied in high efficiency quantum technical schemes while leaving the diffraction efficiencies of each AOM for about $50\%$. This greatly reduced the demand for the driving of AOMs.
翻訳日:2023-04-20 17:48:10 公開日:2023-04-19
# AdaGrad(Norm)の$\R^{d}$上の収束性について: 凸性、非漸近速度、加速度

On the Convergence of AdaGrad(Norm) on $\R^{d}$: Beyond Convexity, Non-Asymptotic Rate and Acceleration ( http://arxiv.org/abs/2209.14827v3 )

ライセンス: Link先を確認
Zijian Liu, Ta Duy Nguyen, Alina Ene, Huy L. Nguyen(参考訳) 滑らかな凸最適化のためのAdaGradや他の適応手法の既存の分析は、典型的には有界領域径を持つ関数に対して行われる。 制約のない問題では、以前の研究は関数クラス全体に真となる明示的な定数因子を伴わない漸近収束率を保証する。 さらに、確率的設定では、AdaGradの修正版のみが、一般的に使われているものと異なり、最新の勾配はステップサイズを更新するのに使われていない。 本稿では,これらのギャップを埋め,AdaGradとその変種を滑らかな凸関数の標準設定およびより一般的なクエーサー凸関数の設定でより深く理解することを目的とする。 まず,バニラAdaGradの収束率を決定論的,確率的両面の制約のない問題に明示的に拘束する手法を示す。 第二に、平均的な反復ではなく、最後の反復の収束を示すことのできる AdaGrad の変種を提案する。 最後に,問題パラメータに明示的に依存した決定論的設定において,新しい高速化適応アルゴリズムと収束保証を与え,先行研究で示された漸近速度を改善した。

Existing analysis of AdaGrad and other adaptive methods for smooth convex optimization is typically for functions with bounded domain diameter. In unconstrained problems, previous works guarantee an asymptotic convergence rate without an explicit constant factor that holds true for the entire function class. Furthermore, in the stochastic setting, only a modified version of AdaGrad, different from the one commonly used in practice, in which the latest gradient is not used to update the stepsize, has been analyzed. Our paper aims at bridging these gaps and developing a deeper understanding of AdaGrad and its variants in the standard setting of smooth convex functions as well as the more general setting of quasar convex functions. First, we demonstrate new techniques to explicitly bound the convergence rate of the vanilla AdaGrad for unconstrained problems in both deterministic and stochastic settings. Second, we propose a variant of AdaGrad for which we can show the convergence of the last iterate, instead of the average iterate. Finally, we give new accelerated adaptive algorithms and their convergence guarantee in the deterministic setting with explicit dependency on the problem parameters, improving upon the asymptotic rate shown in previous works.
翻訳日:2023-04-20 17:47:52 公開日:2023-04-19
# 高次元量子量回帰を用いた転校学習の統計的推論

Statistical inference for transfer learning with high-dimensional quantile regression ( http://arxiv.org/abs/2211.14578v2 )

ライセンス: Link先を確認
Jiayu Huang, Mingqiu Wang, Yuanshan Wu(参考訳) 転送学習は、ソースドメインからの情報を活用して、ターゲットタスクの性能を高めるための重要な技術となっている。 高次元データの頻度にもかかわらず、異質性や重い尾は現在の移動学習手法によって十分に説明できないため、結果として生じる性能を損なう可能性がある。 本研究では,高次元分位回帰モデルの枠組みにおいて,ソース領域とターゲット領域の重みと不均一性に対応するための伝達学習手順を提案する。 そこで,提案手法では,より繊細に選択されたトランスファー可能なソースドメインに基づいて,トランスファー学習推定器の誤差境界を定め,決定基準を低くし,ソースタスクのサンプルサイズを増加させることが可能であることを示す。 さらに,トランスファー学習の手法を再び設計するトランスファー学習推定器において,一段階の偏差推定器である二重伝達学習推定器を提唱し,高次元分位回帰係数の個々の成分に対する正当な信頼区間と仮説試験手順を提案する。 シミュレーションの結果,提案手法は良好な性能を示し,さらに理論的な結果と相関することが示された。

Transfer learning has become an essential technique to exploit information from the source domain to boost performance of the target task. Despite the prevalence in high-dimensional data, heterogeneity and/or heavy tails are insufficiently accounted for by current transfer learning approaches and thus may undermine the resulting performance. We propose a transfer learning procedure in the framework of high-dimensional quantile regression models to accommodate the heterogeneity and heavy tails in the source and target domains. We establish error bounds of the transfer learning estimator based on delicately selected transferable source domains, showing that lower error bounds can be achieved for critical selection criterion and larger sample size of source tasks. We further propose valid confidence interval and hypothesis test procedures for individual component of high-dimensional quantile regression coefficients by advocating a double transfer learning estimator, which is the one-step debiased estimator for the transfer learning estimator wherein the technique of transfer learning is designed again. Simulation results demonstrate that the proposed method exhibits some favorable performances, further corroborating our theoretical results.
翻訳日:2023-04-20 17:41:06 公開日:2023-04-19
# ab-initio量子化学のための自己アテンションアンサッツ

A Self-Attention Ansatz for Ab-initio Quantum Chemistry ( http://arxiv.org/abs/2211.13672v2 )

ライセンス: Link先を確認
Ingrid von Glehn, James S. Spencer, David Pfau(参考訳) 本稿では,量子化学と物質科学の基本的な方程式である多電子Schr\odinger方程式の近似(あるいはAnsatz)として使用できる,自己注意型ウェーブファンクショントランスフォーマー(Psiformer)を用いたニューラルネットワークアーキテクチャを提案する。 この方程式は第一原理から解くことができ、外部のトレーニングデータを必要としない。 近年、フェルミントやポーリネットのような深層ニューラルネットワークは、これらの第一原理計算の精度を著しく向上させるのに使われているが、電子間の相互作用をゲートする注意深いメカニズムを欠いている。 ここでは、Psiformerが他のニューラルネットワークのドロップイン代替として使用でき、計算の精度が劇的に向上することを示す。 特に大きな分子では、基底状態エネルギーを数十kcal/molで改善することができる。 これは、自己結合ネットワークが電子間の複雑な量子力学的相関を学習できることを示し、より大きな系の化学計算において前例のない精度に達する有望な経路であることを示している。

We present a novel neural network architecture using self-attention, the Wavefunction Transformer (Psiformer), which can be used as an approximation (or Ansatz) for solving the many-electron Schr\"odinger equation, the fundamental equation for quantum chemistry and material science. This equation can be solved from first principles, requiring no external training data. In recent years, deep neural networks like the FermiNet and PauliNet have been used to significantly improve the accuracy of these first-principle calculations, but they lack an attention-like mechanism for gating interactions between electrons. Here we show that the Psiformer can be used as a drop-in replacement for these other neural networks, often dramatically improving the accuracy of the calculations. On larger molecules especially, the ground state energy can be improved by dozens of kcal/mol, a qualitative leap over previous methods. This demonstrates that self-attention networks can learn complex quantum mechanical correlations between electrons, and are a promising route to reaching unprecedented accuracy in chemical calculations on larger systems.
翻訳日:2023-04-20 17:40:46 公開日:2023-04-19
# FLAIR #1: セマンティックセグメンテーションとドメイン適応データセット

FLAIR #1: semantic segmentation and domain adaptation dataset ( http://arxiv.org/abs/2211.12979v5 )

ライセンス: Link先を確認
Anatol Garioud, St\'ephane Peillet, Eva Bookjans, S\'ebastien Giordano, Boris Wattrelos(参考訳) フランス国立地理学・森林情報研究所(IGN)は、フランス領の土地被覆を文書化し、測定する任務を持ち、高解像度の空中画像や地形地図を含む参照地理的データセットを提供している。 土地被覆のモニタリングは土地管理と計画のイニシアチブにおいて重要な役割を果たす。 リモートセンシング技術とともに、人工知能(ia)は、土地被覆とその進化を決定する強力なツールになることを約束する。 IGNは現在、高解像度の土地被覆地図の作成においてIAの可能性を探っている。 特に,空中画像のセマンティックセグメンテーションを得るために深層学習法が用いられている。 しかし、フランスのように広い領域は異質な文脈を暗示している: 風景の変化と画像の取得は、フランス全土で均一で信頼性が高く正確な結果を提供することを困難にしている。 FLAIR-oneデータセットは、現在IGNで使われているデータセットの一部であり、フランス国立土地被覆地図「Occupation du sol \`a grande \'echelle」(OCS-GE)の確立に使用されている。

The French National Institute of Geographical and Forest Information (IGN) has the mission to document and measure land-cover on French territory and provides referential geographical datasets, including high-resolution aerial images and topographic maps. The monitoring of land-cover plays a crucial role in land management and planning initiatives, which can have significant socio-economic and environmental impact. Together with remote sensing technologies, artificial intelligence (IA) promises to become a powerful tool in determining land-cover and its evolution. IGN is currently exploring the potential of IA in the production of high-resolution land cover maps. Notably, deep learning methods are employed to obtain a semantic segmentation of aerial images. However, territories as large as France imply heterogeneous contexts: variations in landscapes and image acquisition make it challenging to provide uniform, reliable and accurate results across all of France. The FLAIR-one dataset presented is part of the dataset currently used at IGN to establish the French national reference land cover map "Occupation du sol \`a grande \'echelle" (OCS- GE).
翻訳日:2023-04-20 17:40:27 公開日:2023-04-19
# 滑らかな計量調整スキュー情報レート

Smooth Metric Adjusted Skew Information Rates ( http://arxiv.org/abs/2211.12522v2 )

ライセンス: Link先を確認
Koji Yamaguchi and Hiroyasu Tajima(参考訳) 量子フィッシャー情報から誘導される計量調整スキュー情報は、非対称性の資源理論においてよく知られた資源測度である。 しかし、漸近性不連続性があるため、漸近性は有効な非対称性モノトンではない。 ここではスムース化技術を用いた新しい非対称性測度を導入し,スムースな計量調整スキュー情報と呼ぶ。 我々は、その漸近 sup- および inf-rate が非対称性の資源理論において有効な漸近測度であることを証明した。 さらに、滑らかな計量調整スキュー情報レートは、コヒーレンスコストに対する下限と、蒸留可能なコヒーレンスに対する上限を与えることが証明される。

Metric adjusted skew information, induced from quantum Fisher information, is a well-known family of resource measures in the resource theory of asymmetry. However, its asymptotic rates are not valid asymmetry monotone since it has an asymptotic discontinuity. We here introduce a new class of asymmetry measures with the smoothing technique, which we term smooth metric adjusted skew information. We prove that its asymptotic sup- and inf-rates are valid asymptotic measures in the resource theory of asymmetry. Furthermore, it is proven that the smooth metric adjusted skew information rates provide a lower bound for the coherence cost and an upper bound for the distillable coherence.
翻訳日:2023-04-20 17:40:07 公開日:2023-04-19
# motrv2: 事前学習された物体検出器によるエンドツーエンドのマルチオブジェクト追跡

MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors ( http://arxiv.org/abs/2211.09791v2 )

ライセンス: Link先を確認
Yuang Zhang, Tiancai Wang, Xiangyu Zhang(参考訳) 本稿では,事前学習された物体検出器を用いてエンドツーエンドのマルチオブジェクト追跡をブートストラップする,シンプルかつ効果的なパイプラインであるmotrv2を提案する。 既存のエンド・ツー・エンドの手法であるmotrとtrackformerは、主に検出性能が悪いため、追跡・検出方式よりも劣っている。 我々は、追加の物体検出器をエレガントに組み込むことでMOTRを改善することを目指している。 まず、クエリのアンカー定式化を採用し、次に余分なオブジェクト検出器を使用してアンカーとして提案を生成し、MOTRに先立って検出する。 単純な修正により、MOTRにおける共同学習検出と関連タスクの衝突が大幅に緩和される。 MOTRv2は、クエリのプロポーゲーション機能を保持し、大規模なベンチマークでうまくスケールする。 MOTRv2はグループ・ダンス・チャレンジで1位(ダンストラックの73.4%HOTA)にランクインした。 さらに、MOTRv2はBDD100Kデータセット上で最先端のパフォーマンスに達する。 このシンプルで効果的なパイプラインが、エンドツーエンドのMOTコミュニティに新たな洞察を与えてくれることを願っています。 コードは \url{https://github.com/megvii-research/motrv2} で入手できる。

In this paper, we propose MOTRv2, a simple yet effective pipeline to bootstrap end-to-end multi-object tracking with a pretrained object detector. Existing end-to-end methods, MOTR and TrackFormer are inferior to their tracking-by-detection counterparts mainly due to their poor detection performance. We aim to improve MOTR by elegantly incorporating an extra object detector. We first adopt the anchor formulation of queries and then use an extra object detector to generate proposals as anchors, providing detection prior to MOTR. The simple modification greatly eases the conflict between joint learning detection and association tasks in MOTR. MOTRv2 keeps the query propogation feature and scales well on large-scale benchmarks. MOTRv2 ranks the 1st place (73.4% HOTA on DanceTrack) in the 1st Multiple People Tracking in Group Dance Challenge. Moreover, MOTRv2 reaches state-of-the-art performance on the BDD100K dataset. We hope this simple and effective pipeline can provide some new insights to the end-to-end MOT community. Code is available at \url{https://github.com/megvii-research/MOTRv2}.
翻訳日:2023-04-20 17:39:56 公開日:2023-04-19
# 実時間目標音抽出

Real-Time Target Sound Extraction ( http://arxiv.org/abs/2211.02250v3 )

ライセンス: Link先を確認
Bandhav Veluri, Justin Chan, Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota(参考訳) 実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。 そこで本研究では,エンコーダとして拡張因果畳み込み層,デコーダとしてトランスフォーマデコーダ層を有するエンコーダ・デコーダアーキテクチャである波形器を提案する。 このハイブリッドアーキテクチャは、拡張因果畳み込みを用いて大きな受容場を計算的に効率的に処理し、トランスフォーマーベースのアーキテクチャの一般化性能を活用する。 評価の結果、SI-SNRiの2.2-3.3dB改善は、1.2-4倍のモデルサイズと1.5-2倍のランタイムを持つ。 コード、データセット、オーディオサンプルを提供します。 https://waveformer.cs.washington.edu/。

We present the first neural network model to achieve real-time and streaming target sound extraction. To accomplish this, we propose Waveformer, an encoder-decoder architecture with a stack of dilated causal convolution layers as the encoder, and a transformer decoder layer as the decoder. This hybrid architecture uses dilated causal convolutions for processing large receptive fields in a computationally efficient manner while also leveraging the generalization performance of transformer-based architectures. Our evaluations show as much as 2.2-3.3 dB improvement in SI-SNRi compared to the prior models for this task while having a 1.2-4x smaller model size and a 1.5-2x lower runtime. We provide code, dataset, and audio samples: https://waveformer.cs.washington.edu/.
翻訳日:2023-04-20 17:39:42 公開日:2023-04-19
# 移動検出器の存在下での量子ウォーカー

Quantum Walker in Presence of a Moving Detector ( http://arxiv.org/abs/2211.01942v2 )

ライセンス: Link先を確認
Md Aquib Molla and Sanchari Goswami(参考訳) 本研究では,移動検知器が1次元の量子ランダムウォークの離散時間に与える影響について検討する。 占有確率$f(x,t;n,s)$は、検出数$n$とシフト数$s$が異なるものとして推定される。 検出器の初期位置である$x_D$の占有確率は、量子力学的効果である$n$が小さいが、$n$が大きい場合には低下するときに向上する。 Infinite walkにおける歩行の職業確率の比率は,$\frac{x_D^2}{n^2}$のスケーリング挙動を示す。 これは、シフトの量も$s$である、明確なスケーリング動作を示している。 歩行の制限挙動は、x_d$が大きいとき、n$が大きいとき、s$が大きいとき、そしてこれらの場合の歩行は、それぞれ無限ウォーク、半無限ウォーク、クエンチド量子ウォークに近づくときに観察される。

In this work, we study the effect of a moving detector on a discrete time one dimensional Quantum Random Walk where the movement is realized in the form of hopping/shifts. The occupation probability $f(x,t;n,s)$ is estimated as the number of detection $n$ and amount of shift $s$ vary. It is seen that the occupation probability at the initial position $x_D$ of the detector is enhanced when $n$ is small which is a quantum mechanical effect but decreases when $n$ is large. The ratio of occupation probabilities of our walk to that of an Infinite walk shows a scaling behavior of $\frac{x_D^2}{n^2}$. It shows a definite scaling behavior with amount of shifts $s$ also. The limiting behaviors of the walk are observed when $x_D$ is large, $n$ is large and $s$ is large and the walker for these cases approach the Infinite Walk, The Semi Infinite Walk and the Quenched Quantum Walk respectively.
翻訳日:2023-04-20 17:39:25 公開日:2023-04-19
# L ojasiewicz関数に対する確率ゼロ階勾配の収束速度

Convergence Rates of Stochastic Zeroth-order Gradient Descent for \L ojasiewicz Functions ( http://arxiv.org/abs/2210.16997v6 )

ライセンス: Link先を確認
Tianyu Wang and Yasong Feng(参考訳) Lojasiewicz関数に対する確率ゼロ階勾配Descent(SZGD)アルゴリズムの収束率を証明した。 szgdアルゴリズムは、 \begin{align*} \mathbf{x}_{t+1} = \mathbf{x}_t - \eta_t \widehat{\nabla} f (\mathbf{x}_t), \qquad t = 0,1,2,3,\cdots , \end{align*} ここで、$f$ は \l ojasiewicz の不等式を満たす目的関数であり、 \l ojasiewicz exponent $\theta$, $\eta_t$ はステップサイズ(学習率)であり、$ \widehat{\nabla} f (\mathbf{x}_t)$ はゼロ次情報のみを用いた近似勾配である。 その結果、$f$ が滑らかであるか否かに関わらず、$ \{f (\mathbf{x}_t) - f (\mathbf{x}_\infty) \}_{t \in \mathbb{n} } $ は$ \{ \| \mathbf{x}_t\mathbf{x}_\infty \| \}_{t \in \mathbb{n} }$ よりも高速に収束することが示された。

We prove convergence rates of Stochastic Zeroth-order Gradient Descent (SZGD) algorithms for Lojasiewicz functions. The SZGD algorithm iterates as \begin{align*} \mathbf{x}_{t+1} = \mathbf{x}_t - \eta_t \widehat{\nabla} f (\mathbf{x}_t), \qquad t = 0,1,2,3,\cdots , \end{align*} where $f$ is the objective function that satisfies the \L ojasiewicz inequality with \L ojasiewicz exponent $\theta$, $\eta_t$ is the step size (learning rate), and $ \widehat{\nabla} f (\mathbf{x}_t) $ is the approximate gradient estimated using zeroth-order information only. Our results show that $ \{ f (\mathbf{x}_t) - f (\mathbf{x}_\infty) \}_{t \in \mathbb{N} } $ can converge faster than $ \{ \| \mathbf{x}_t - \mathbf{x}_\infty \| \}_{t \in \mathbb{N} }$, regardless of whether the objective $f$ is smooth or nonsmooth.
翻訳日:2023-04-20 17:38:56 公開日:2023-04-19
# GliTr:オンライン行動予測のための時空間整合性を有する傾斜変圧器

GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction ( http://arxiv.org/abs/2210.13605v2 )

ライセンス: Link先を確認
Samrudhdhi B Rangrej, Kevin J Liang, Tal Hassner, James J Clark(参考訳) 多くのオンライン行動予測モデルは、全フレームを観察し、グローバルおよびローカル情報に基づいて現在進行中の行動を認識する。 しかし、制約のあるアプリケーションでは、エージェントは完全なフレームを観測できないかもしれないが、ローカル情報のみに基づいて不完全なアクションを予測するのに有用な見落としを見つけなければならない。 本稿では,これまで収集された部分的時空間情報に基づいて,常に狭い間隙のみを観測する間欠的トランスフォーマー (glitr) を開発し,現在進行中の動作と,それに続く最も有意義な間欠的位置を予測する。 我々はglitrに、対応する完全フレーム(すなわち空間的一貫性)に類似した特徴を持ち、結果として得られるクラスロジットが、最大$t$(すなわち時間的一貫性)までのフレームで予測されるものと同等である場合(つまり、時間的一貫性)に類似した特徴を持つスピープに出席するよう要求する。 提案手法を適用すれば,Something-v2 (SSv2) データセットの精度は,ベースラインのクロスエントロピー目標よりも約10%高い。 全体では、1フレームあたりの総面積の約33%しか観測していないが、glitrはssv2とjesterデータセットでそれぞれ53.02%と93.91%の精度を達成している。

Many online action prediction models observe complete frames to locate and attend to informative subregions in the frames called glimpses and recognize an ongoing action based on global and local information. However, in applications with constrained resources, an agent may not be able to observe the complete frame, yet must still locate useful glimpses to predict an incomplete action based on local information only. In this paper, we develop Glimpse Transformers (GliTr), which observe only narrow glimpses at all times, thus predicting an ongoing action and the following most informative glimpse location based on the partial spatiotemporal information collected so far. In the absence of a ground truth for the optimal glimpse locations for action recognition, we train GliTr using a novel spatiotemporal consistency objective: We require GliTr to attend to the glimpses with features similar to the corresponding complete frames (i.e. spatial consistency) and the resultant class logits at time $t$ equivalent to the ones predicted using whole frames up to $t$ (i.e. temporal consistency). Inclusion of our proposed consistency objective yields ~10% higher accuracy on the Something-Something-v2 (SSv2) dataset than the baseline cross-entropy objective. Overall, despite observing only ~33% of the total area per frame, GliTr achieves 53.02% and 93.91% accuracy on the SSv2 and Jester datasets, respectively.
翻訳日:2023-04-20 17:38:11 公開日:2023-04-19
# クリップの対比による映像の要約学習

Learning to Summarize Videos by Contrasting Clips ( http://arxiv.org/abs/2301.05213v3 )

ライセンス: Link先を確認
Ivan Sosnovik, Artem Moskalev, Cees Kaandorp, Arnold Smeulders(参考訳) ビデオ要約は、ストーリーをできるだけ元のストーリーに近づけるビデオの一部を選ぶことを目的としている。 既存のビデオ要約アプローチのほとんどは手作りのラベルに焦点を当てている。 動画の数が指数関数的に増加するにつれ、ラベル付きアノテーションなしで意味のある要約を学習できるメソッドの必要性が高まっている。 本稿では,教師なし動画の要約を最大限活用しつつ,いくつかの個人化されたラベルをアドオンとして集中させることを目的としている。 そこで我々は,映像要約の鍵となる要件を定式化する。 そこで,両質問に対する回答として,コントラスト学習を提案する。 コントラストビデオ要約(csum)をさらに強化するため,既存の手法で採用されている平均ビデオ機能ではなく,トップk機能をコントラストする手法を提案する。 いくつかのベンチマーク実験により,ラベル付きデータが提供されない場合,本手法が有意義かつ多様な要約を可能にすることが示された。

Video summarization aims at choosing parts of a video that narrate a story as close as possible to the original one. Most of the existing video summarization approaches focus on hand-crafted labels. As the number of videos grows exponentially, there emerges an increasing need for methods that can learn meaningful summarizations without labeled annotations. In this paper, we aim to maximally exploit unsupervised video summarization while concentrating the supervision to a few, personalized labels as an add-on. To do so, we formulate the key requirements for the informative video summarization. Then, we propose contrastive learning as the answer to both questions. To further boost Contrastive video Summarization (CSUM), we propose to contrast top-k features instead of a mean video feature as employed by the existing method, which we implement with a differentiable top-k feature selector. Our experiments on several benchmarks demonstrate, that our approach allows for meaningful and diverse summaries when no labeled data is provided.
翻訳日:2023-04-20 17:31:35 公開日:2023-04-19
# 半教師付き学習のためのグラフラプラシアン

Graph Laplacian for Semi-Supervised Learning ( http://arxiv.org/abs/2301.04956v2 )

ライセンス: Link先を確認
Or Streicher and Guy Gilboa(参考訳) 半教師付き学習は、ラベル付きデータが少ないがラベルなしデータが豊富である一般的なシナリオで非常に有用である。 グラフ(または非局所)ラプラシアンは、様々な学習タスクを解決する基本的な平滑化演算子である。 教師なしクラスタリングでは、グラフラプラシア固有ベクトルに基づくスペクトル埋め込みがしばしば用いられる。 半教師付き問題に対して、一般的なアプローチは、グラフ-ラプラシアンに基づくディリクレエネルギーによって正規化される制約付き最適化問題を解くことである。 しかし、監督が減少するにつれて、ディリクレ最適化は準最適となる。 したがって、教師なしクラスタリングと教師なしグラフベースの分類の間のスムーズな遷移を求める。 本稿では,Semi-Supervised Learning (SSL)問題に適応した新しいグラフラプラシアンを提案する。 これは密度とコントラストの両測度に基づいており、演算子に直接ラベル付きデータの符号化を可能にする。 そこで,スペクトルクラスタリングによる半教師付き学習を成功させる。 私たちのアプローチの利点は、SSLのいくつかの問題に対して説明されています。

Semi-supervised learning is highly useful in common scenarios where labeled data is scarce but unlabeled data is abundant. The graph (or nonlocal) Laplacian is a fundamental smoothing operator for solving various learning tasks. For unsupervised clustering, a spectral embedding is often used, based on graph-Laplacian eigenvectors. For semi-supervised problems, the common approach is to solve a constrained optimization problem, regularized by a Dirichlet energy, based on the graph-Laplacian. However, as supervision decreases, Dirichlet optimization becomes suboptimal. We therefore would like to obtain a smooth transition between unsupervised clustering and low-supervised graph-based classification. In this paper, we propose a new type of graph-Laplacian which is adapted for Semi-Supervised Learning (SSL) problems. It is based on both density and contrastive measures and allows the encoding of the labeled data directly in the operator. Thus, we can perform successfully semi-supervised learning using spectral clustering. The benefits of our approach are illustrated for several SSL problems.
翻訳日:2023-04-20 17:31:20 公開日:2023-04-19
# 波動関数密度勾配に伴う粒子運動

Particle motion associated with wave function density gradients ( http://arxiv.org/abs/2212.11575v4 )

ライセンス: Link先を確認
Jan Klaers, Violetta Sharoglazova, Chris Toebes(参考訳) 2つの結合導波管電位の系における大粒子の量子力学的運動について検討し、導波管間の集団移動が時計として効果的に働き、粒子速度を決定できることを示す。 反射ステップポテンシャルにおけるエバネッセント現象へのこのスキームの適用は、古典的に禁止された運動に対するエネルギー-速度関係を明らかにする。 獲得と損失の領域は、想像上のポテンシャルによって説明され、粒子の運動を加速させる。 量子力学的波動関数の位相および密度勾配は粒子の速度を示すのに相補的な役割を果たす。

We study the quantum mechanical motion of massive particles in a system of two coupled waveguide potentials, where the population transfer between the waveguides effectively acts as a clock and allows particle velocities to be determined. Application of this scheme to evanescent phenomena at a reflective step potential reveals an energy-velocity relationship for classically forbidden motion. Regions of gain and loss, as described by imaginary potentials, are shown to speed up the motion of particles. We argue that phase and density gradients in quantum mechanical wave functions play complementary roles in indicating the speed of particles.
翻訳日:2023-04-20 17:30:25 公開日:2023-04-19
# FLAG3D: 言語指導を伴う3次元フィットネスアクティビティデータセット

FLAG3D: A 3D Fitness Activity Dataset with Language Instruction ( http://arxiv.org/abs/2212.04638v2 )

ライセンス: Link先を確認
Yansong Tang, Jinpeng Liu, Aoyang Liu, Bin Yang, Wenxun Dai, Yongming Rao, Jiwen Lu, Jie Zhou, Xiu Li(参考訳) 世界中の人気が続き、フィットネスアクティビティ分析はコンピュータビジョンにおける新たな研究テーマとなっている。 最近、様々な新しいタスクやアルゴリズムが提案されているが、高品質データ、きめ細かいラベル、多様な環境に関わるデータリソースの飢えが増えている。 本稿では,60カテゴリの180Kシーケンスを含む言語命令付き大規模3DフィットネスアクティビティデータセットFLAG3Dを提案する。 FLAG3Dには以下の3つの側面がある。 1) 複雑な活動と大きな動きを扱うため, 高度MoCapシステムから捉えた高精度で高密度な3Dポーズ。 2)特定の活動の実施方法を記述するための詳細かつ専門的な言語指導 3) 高精細なMoCapシステム,レンダリングソフトウェア,自然環境におけるコスト効率のよいスマートフォンからの多用途ビデオリソース。 広範囲にわたる実験と詳細な分析により、FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導されたヒューマンアクション生成など、さまざまな課題に対して大きな研究価値をもたらすことが示されている。 データセットとソースコードはhttps://andytang15.github.io/FLAG3D.comで公開されています。

With the continuously thriving popularity around the world, fitness activity analytic has become an emerging research topic in computer vision. While a variety of new tasks and algorithms have been proposed recently, there are growing hunger for data resources involved in high-quality data, fine-grained labels, and diverse environments. In this paper, we present FLAG3D, a large-scale 3D fitness activity dataset with language instruction containing 180K sequences of 60 categories. FLAG3D features the following three aspects: 1) accurate and dense 3D human pose captured from advanced MoCap system to handle the complex activity and large movement, 2) detailed and professional language instruction to describe how to perform a specific activity, 3) versatile video resources from a high-tech MoCap system, rendering software, and cost-effective smartphones in natural environments. Extensive experiments and in-depth analysis show that FLAG3D contributes great research value for various challenges, such as cross-domain human action recognition, dynamic human mesh recovery, and language-guided human action generation. Our dataset and source code are publicly available at https://andytang15.github.io/FLAG3D.
翻訳日:2023-04-20 17:29:56 公開日:2023-04-19
# BASiS: バッチアライメントされたスペクトル埋め込みスペース

BASiS: Batch Aligned Spectral Embedding Space ( http://arxiv.org/abs/2211.16960v2 )

ライセンス: Link先を確認
Or Streicher, Ido Cohen, Guy Gilboa(参考訳) グラフは非常に汎用的で多様な表現であり、ほぼあらゆるデータ処理問題に適している。 スペクトルグラフ理論は、ソリッド線形代数理論に支えられた強力なアルゴリズムを提供することが示されている。 したがって、スペクトルグラフ特性を持つディープネットワークビルディングブロックを設計するのに極めて有用である。 例えば、そのようなネットワークは特定のタスクに対して最適なグラフを設計したり、データの標準直交低次元埋め込みを得ることを可能にする。 この問題を解決する最近の試みはレイリー商型損失の最小化に基づいている。 固有値を直接学習する別のアプローチを提案する。 バッチ学習に適用される直接的なアプローチの深刻な問題は、異なるバッチ内の固有空間座標への特徴の一貫性のないマッピングである。 本稿では,このタスクをバッチを用いて学習する自由度を分析し,バッチ変化とグラフメトリック変化の両方で動作する安定したアライメント機構を提案する。 我々は,SOTAと比較して,NMI,ACC,グラスマン距離,直交性,分類精度の点で,学習したスペクトル埋め込みの方が優れていることを示す。 さらに、学習はより安定している。

Graph is a highly generic and diverse representation, suitable for almost any data processing problem. Spectral graph theory has been shown to provide powerful algorithms, backed by solid linear algebra theory. It thus can be extremely instrumental to design deep network building blocks with spectral graph characteristics. For instance, such a network allows the design of optimal graphs for certain tasks or obtaining a canonical orthogonal low-dimensional embedding of the data. Recent attempts to solve this problem were based on minimizing Rayleigh-quotient type losses. We propose a different approach of directly learning the eigensapce. A severe problem of the direct approach, applied in batch-learning, is the inconsistent mapping of features to eigenspace coordinates in different batches. We analyze the degrees of freedom of learning this task using batches and propose a stable alignment mechanism that can work both with batch changes and with graph-metric changes. We show that our learnt spectral embedding is better in terms of NMI, ACC, Grassman distance, orthogonality and classification accuracy, compared to SOTA. In addition, the learning is more stable.
翻訳日:2023-04-20 17:29:38 公開日:2023-04-19
# NoisyQuant:視覚変換器用ノイズバイアス強化ポストトレーニング活性化量子化

NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers ( http://arxiv.org/abs/2211.16056v2 )

ライセンス: Link先を確認
Yijiang Liu, Huanrui Yang, Zhen Dong, Kurt Keutzer, Li Du, Shanghang Zhang(参考訳) 視覚トランスフォーマーの複雑なアーキテクチャと高い訓練コストは、トレーニング後の量子化の探求を促す。 しかしながら、視覚変圧器活性化の重畳分布は、高度な量子化設計であっても、以前の訓練後の量子化法の有効性を阻害する。 本稿では,複雑なアクティベーション分布に適合するように量子化器をチューニングする代わりに,視覚トランスフォーマーのトレーニング後のアクティベーション量子化性能を量子化器に依存しない拡張するノイズ量子antを提案する。 与えられた量子化器では、量子化される値に一定の一様雑音のバイアスを加えることで、証明可能な条件下での量子化誤差を著しく低減できるという驚くべき理論的発見を行う。 理論的な洞察に基づいて、NoisyQuantは、与えられた量子化器に適合するように、加法雑音バイアスで重い尾の活性化分布を積極的に変化させる最初の成功を達成する。 広汎な実験により、NoisyQuantは最小の計算オーバーヘッドを持つビジョントランスのトレーニング後の量子化性能を大幅に改善した。 例えば、線形均一な6ビットのアクティベーション量子化では、NoisyQuantはイメージネット上のSOTAトップ1の精度を最大1.7%、ViT、DeiT、Swin Transformerで1.1%、0.5%向上し、従来の非線形、混合精度の量子化よりもオンパーまたはさらに高いパフォーマンスを達成する。

The complicated architecture and high training cost of vision transformers urge the exploration of post-training quantization. However, the heavy-tailed distribution of vision transformer activations hinders the effectiveness of previous post-training quantization methods, even with advanced quantizer designs. Instead of tuning the quantizer to better fit the complicated activation distribution, this paper proposes NoisyQuant, a quantizer-agnostic enhancement for the post-training activation quantization performance of vision transformers. We make a surprising theoretical discovery that for a given quantizer, adding a fixed Uniform noisy bias to the values being quantized can significantly reduce the quantization error under provable conditions. Building on the theoretical insight, NoisyQuant achieves the first success on actively altering the heavy-tailed activation distribution with additive noisy bias to fit a given quantizer. Extensive experiments show NoisyQuant largely improves the post-training quantization performance of vision transformer with minimal computation overhead. For instance, on linear uniform 6-bit activation quantization, NoisyQuant improves SOTA top-1 accuracy on ImageNet by up to 1.7%, 1.1% and 0.5% for ViT, DeiT, and Swin Transformer respectively, achieving on-par or even higher performance than previous nonlinear, mixed-precision quantization.
翻訳日:2023-04-20 17:29:03 公開日:2023-04-19
# cadモデルからソフトポイントクラウドラベルへ:安価な教師付き3dセマンティックセグメンテーションのための自動アノテーションパイプライン

From CAD models to soft point cloud labels: An automatic annotation pipeline for cheaply supervised 3D semantic segmentation ( http://arxiv.org/abs/2302.03114v2 )

ライセンス: Link先を確認
Galadrielle Humblot-Renaux, Simon Buus Jensen, Andreas M{\o}gelmose(参考訳) そこで本研究では,CADモデルのセットを入力として生の3Dポイントクラウドを完全自動アノテーション方式を提案し,ポイントクラウドセグメンテーションのための安価なトレーニングデータとして使用できる説得力のあるポイントワイドラベルを出力する。 手動アノテーションと比較して,アノテーション時間を大幅に削減しつつ,自動ラベルが正確であること,手作業による介入やデータセット固有のパラメータの必要性をなくすこと,などが分かる。 我々のラベル付けパイプラインは、セマンティッククラスとソフトポイントのオブジェクトスコアを出力し、標準の1ホットコードラベルにバイナライズし、未ラベルの曖昧な点を持つ弱いラベルに閾値付けするか、トレーニング中にソフトラベルとして直接使用することができる。 本研究では,実産業用点雲のデータセットと屋内シーンの公開データセットであるScan2CADを用いて,PointNet++のラベル品質とセグメンテーション性能を評価する。 提案手法は,各点に難解な「最良の推測」ラベルを割り当てる従来の手法に比べて,自動ラベル付けが難しい領域における監督の削減が有益であることを示す。

We propose a fully automatic annotation scheme which takes a raw 3D point cloud with a set of fitted CAD models as input, and outputs convincing point-wise labels which can be used as cheap training data for point cloud segmentation. Compared to manual annotations, we show that our automatic labels are accurate while drastically reducing the annotation time, and eliminating the need for manual intervention or dataset-specific parameters. Our labeling pipeline outputs semantic classes and soft point-wise object scores which can either be binarized into standard one-hot-encoded labels, thresholded into weak labels with ambiguous points left unlabeled, or used directly as soft labels during training. We evaluate the label quality and segmentation performance of PointNet++ on a dataset of real industrial point clouds and Scan2CAD, a public dataset of indoor scenes. Our results indicate that reducing supervision in areas which are more difficult to label automatically is beneficial, compared to the conventional approach of naively assigning a hard "best guess" label to every point.
翻訳日:2023-04-20 17:22:04 公開日:2023-04-19
# SceneDreamer:2D画像からの無拘束3Dシーン生成

SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections ( http://arxiv.org/abs/2302.01330v2 )

ライセンス: Link先を確認
Zhaoxi Chen, Guangcong Wang, Ziwei Liu(参考訳) 本研究では,無作為ノイズから大規模3次元景観を合成する無条件3次元シーン生成モデルであるscenedreamerを提案する。 フレームワークは3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。 SceneDreamerの中核は、原則化された学習パラダイムである 1)効率的かつ表現力のある3Dシーン表現 2)生成的シーンのパラメータ化,及び 3) 2次元画像からの知識を活用できる効果的なレンダラ。 提案手法は, 簡易ノイズから生成される効率的な鳥眼視(BEV)表現から始まり, 表面標高の高度場と詳細なシーン意味論のセマンティックフィールドを含む。 このBEVシーン表現は 1)2次複雑さを持つ3次元シーンを表す。 2)絡み合った幾何学,意味論,及び 3)効率的な訓練。 さらに,3次元位置とシーン意味論に基づいて潜在空間をパラメータ化する新しい生成型ニューラルネットワークグリッドを提案する。 最後に,2次元画像収集から学習したニューラルボリュームレンダラーを用いて,フォトリアリスティックな画像を生成する。 SceneDreamerの有効性と最先端の手法による鮮明で多種多様な3Dワールドの創出に対する優位性を示す。

In this work, we present SceneDreamer, an unconditional generative model for unbounded 3D scenes, which synthesizes large-scale 3D landscapes from random noise. Our framework is learned from in-the-wild 2D image collections only, without any 3D annotations. At the core of SceneDreamer is a principled learning paradigm comprising 1) an efficient yet expressive 3D scene representation, 2) a generative scene parameterization, and 3) an effective renderer that can leverage the knowledge from 2D images. Our approach begins with an efficient bird's-eye-view (BEV) representation generated from simplex noise, which includes a height field for surface elevation and a semantic field for detailed scene semantics. This BEV scene representation enables 1) representing a 3D scene with quadratic complexity, 2) disentangled geometry and semantics, and 3) efficient training. Moreover, we propose a novel generative neural hash grid to parameterize the latent space based on 3D positions and scene semantics, aiming to encode generalizable features across various scenes. Lastly, a neural volumetric renderer, learned from 2D image collections through adversarial training, is employed to produce photorealistic images. Extensive experiments demonstrate the effectiveness of SceneDreamer and superiority over state-of-the-art methods in generating vivid yet diverse unbounded 3D worlds.
翻訳日:2023-04-20 17:21:42 公開日:2023-04-19
# 単一エミッタナノレーザーの量子ノイズに対する確率論的アプローチ

A stochastic approach to the quantum noise of a single-emitter nanolaser ( http://arxiv.org/abs/2301.11815v2 )

ライセンス: Link先を確認
Matias Bundgaard-Nielsen and Emil Vosmar Denning and Marco Saldutti and Jesper M{\o}rk(参考訳) エミッタ励起と光子数を整数値の確率変数とする唯一の仮定の下で、標準速度方程式モデルの確率的解釈を取り入れることで、単一エミッタナノレーザーの強度量子ノイズを正確に計算できることが示されている。 これは平均場限界を超えたレート方程式の妥当性を拡張し、少数のエミッターで失敗することが示される標準ランゲヴィンアプローチの使用を避ける。 このモデルは、相対強度雑音と二階強度相関関数 g(2)({\tau} )の完全な量子シミュレーションと比較して検証される。 驚くべきことに、全量子モデルが速度方程式に説明されない真空ラビ振動を示す場合でも、強度量子ノイズは確率的アプローチによって正しく予測される。 放射子と光子集団の単純な離散化を採用することで、レーザーの量子ノイズを記述するのに長い道のりが進む。 様々な応用が可能な新しい世代のナノレーザーをモデリングするための汎用的で使いやすいツールを提供するだけでなく、これらの結果はレーザーにおける量子ノイズの基本的な性質についての洞察を提供する。

It is shown that the intensity quantum noise of a single-emitter nanolaser can be accurately computed by adopting a stochastic interpretation of the standard rate equation model under the only assumption that the emitter excitation and photon number are stochastic variables with integer values. This extends the validity of rate equations beyond the mean-field limit and avoids using the standard Langevin approach, which is shown to fail for few emitters. The model is validated by comparison to full quantum simulations of the relative intensity noise and second-order intensity correlation function, g(2)({\tau} ). Surprisingly, even when the full quantum model displays vacuum Rabi oscillations, which are not accounted for by rate equations, the intensity quantum noise is correctly predicted by the stochastic approach. Adopting a simple discretization of the emitter and photon populations, thus, goes a long way in describing quantum noise in lasers. Besides providing a versatile and easy-to-use tool for modeling a new generation of nanolasers with many possible applications, these results provide insight into the fundamental nature of quantum noise in lasers.
翻訳日:2023-04-20 17:21:22 公開日:2023-04-19
# 訓練と一般化のための微調整型ニューラルネットワークアーキテクチャ

Fine-tuning Neural-Operator architectures for training and generalization ( http://arxiv.org/abs/2301.11509v2 )

ライセンス: Link先を確認
JA Lara Benitez, Takashi Furuya, Florian Faucher, Xavier Tricoche, Maarten V. de Hoop(参考訳) この研究は、ニューラル演算子(NOs)とその派生アーキテクチャの一般化特性を包括的に分析する。 テスト損失の実証評価,複雑性に基づく一般化境界の解析,損失景観の可視化の質的評価を通じて,NOの一般化能力の向上を目的とした修正について検討する。 トランスフォーマーの成功に触発されて、自己アテンションの代わりにカーネル積分演算子を導入する${\textit{s}}{\text{no}}+\varepsilon$を提案する。 その結果,データ集合全体の性能と初期化が著しく向上し,損失景観の可視化の質的変化がみられた。 我々はトランスフォーマーのレイアウトにより、最適化アルゴリズムがより優れた最小値と確率的な深さを見つけ、一般化性能を向上させることができると推測する。 トレーニングダイナミクスの厳密な分析は、ディープラーニングにおける最も顕著な未解決問題の1つであり、私たちの排他的焦点は、アーキテクチャの複雑さに基づく一般化の分析である。 統計理論、特にダドリーの定理に基づいて、我々は nos のラデマッハ複雑性の上界と ${\textit{s}}{\text{no}}+\varepsilon$ を導出する。 後者の場合、我々の境界はパラメータのノルム制御に依存しない。 これにより、アーキテクチャ内の確率変数が減衰則に従う限り、任意の深さのネットワークに適用でき、確率的深さと一般化を接続できる。 対照的に、NOsにおける境界はパラメータのノルム制御にのみ依存しており、深さへの指数的な依存を示す。 また,本実験では,提案ネットワークがデータ分布の摂動を受けると顕著な一般化能力を示すことを示す。 対照的に,アウトオブディストリビューションのシナリオでは,パフォーマンスの悪さは発生しない。

This work provides a comprehensive analysis of the generalization properties of Neural Operators (NOs) and their derived architectures. Through empirical evaluation of the test loss, analysis of the complexity-based generalization bounds, and qualitative assessments of the visualization of the loss landscape, we investigate modifications aimed at enhancing the generalization capabilities of NOs. Inspired by the success of Transformers, we propose ${\textit{s}}{\text{NO}}+\varepsilon$, which introduces a kernel integral operator in lieu of self-Attention. Our results reveal significantly improved performance across datasets and initializations, accompanied by qualitative changes in the visualization of the loss landscape. We conjecture that the layout of Transformers enables the optimization algorithm to find better minima, and stochastic depth, improve the generalization performance. As a rigorous analysis of training dynamics is one of the most prominent unsolved problems in deep learning, our exclusive focus is on the analysis of the complexity-based generalization of the architectures. Building on statistical theory, and in particular Dudley theorem, we derive upper bounds on the Rademacher complexity of NOs, and ${\textit{s}}{\text{NO}}+\varepsilon$. For the latter, our bounds do not rely on norm control of parameters. This makes it applicable to networks of any depth, as long as the random variables in the architecture follow a decay law, which connects stochastic depth with generalization, as we have conjectured. In contrast, the bounds in NOs, solely rely on norm control of the parameters, and exhibit an exponential dependence on depth. Furthermore, our experiments also demonstrate that our proposed network exhibits remarkable generalization capabilities when subjected to perturbations in the data distribution. In contrast, NO perform poorly in out-of-distribution scenarios.
翻訳日:2023-04-20 17:21:03 公開日:2023-04-19
# qudit脱分極チャネルの次元による量子容量減少の超加法的効果

The superadditivity effects of quantum capacity decrease with the dimension for qudit depolarizing channels ( http://arxiv.org/abs/2301.10132v2 )

ライセンス: Link先を確認
Josu Etxezarreta Martinez, Antonio deMarti iOlius and Pedro M. Crespo(参考訳) 量子チャネル容量 (quantum channel capacity) は、ノイズを受ける際に量子情報をどのように送信または修正できるかを理解するための基本的な量である。 しかし、量子チャネルコヒーレント情報は全てのチャネルに対して加法的ではないため、そのような量を計算する方法は一般には知られていない。 これは超加法的現象(superadditivity)と呼ばれ、n$チャンネルの正規化コヒーレント情報が1ショットコヒーレント情報を超えるという事実を指す。 本稿では,Qudit脱分極チャネルの量子容量の利得が考慮される系の次元とどのように関係するかを考察する。 超加法的効果がそのようなチャネルの族に対する次元の関数として減少することを示すために、非閉包境界に基づく議論を用いる。 さらに、qudit脱分極チャネルの容量が$d\rightarrow\infty$のコヒーレント情報と一致することを証明している。 偏極ノイズを経験する高次元キューディットを考えると、チャネルのコヒーレント情報は達成可能な速度であるだけでなく、本質的に任意の量子ブロック符号に対して可能な最大速度である。

Quantum channel capacity is a fundamental quantity in order to understand how good can quantum information be transmitted or corrected when subjected to noise. However, it is generally not known how to compute such quantities, since the quantum channel coherent information is not additive for all channels, implying that it must be maximized over an unbounded number of channel uses. This leads to the phenomenon known as superadditivity, which refers to the fact that the regularized coherent information of $n$ channel uses exceeds one-shot coherent information. In this article, we study how the gain in quantum capacity of qudit depolarizing channels relates to the dimension of the systems considered. We make use of an argument based on the no-cloning bound in order to proof that the possible superadditive effects decrease as a function of the dimension for such family of channels. In addition, we prove that the capacity of the qudit depolarizing channel coincides with the coherent information when $d\rightarrow\infty$. We conclude that when high dimensional qudits experiencing depolarizing noise are considered, the coherent information of the channel is not only an achievable rate but essentially the maximum possible rate for any quantum block code.
翻訳日:2023-04-20 17:20:32 公開日:2023-04-19
# 地球モニタリングの基礎モデルに向けて:自然災害セグメンテーションのための一般化可能な深層学習モデル

Toward Foundation Models for Earth Monitoring: Generalizable Deep Learning Models for Natural Hazard Segmentation ( http://arxiv.org/abs/2301.09318v2 )

ライセンス: Link先を確認
Johannes Jakubik, Michal Muszynski, Michael V\"ossing, Niklas K\"uhl, Thomas Brunschwiler(参考訳) 気候変動は、社会やビジネスを世界的な規模で危険にさらす極端な気象事象の確率を増加させる。 したがって、自然災害のほぼリアルタイムマッピングは、自然災害の救済、リスク管理、政府の政策決定の伝達を支援するための新たな優先事項である。 リアルタイムに近いマッピングを実現するための最近の手法は、ディープラーニング(DL)を活用している。 しかし、DLベースのアプローチは、衛星データの特定の周波数帯域に基づいて、1つの地理的領域における1つの特定のタスクのために設計されている。 そのため、特定の自然災害をマップするために使われるDLモデルは、目に見えない地域での他の種類の自然災害への一般化に苦しむ。 本研究では,適切なプレタスクによる事前学習に基づいて,DL自然災害マッパーの一般化可能性を大幅に向上させる手法を提案する。 対象領域からのデータにアクセスせずに、4つのU-Netアーキテクチャにまたがる一般化可能性の向上を実証する。 重要な点として,本手法は衛星データの周波数帯域の種類と地理的差に不変である。 公開可能な対象領域からのラベルなし画像の特性を活用することで,より微調整することなく,一般化動作をさらに改善することができる。 そこで本研究では,衛星画像の異なる領域にまたがる未知の自然災害を直接分類することを目的として,地球観測のための基盤モデルの開発を支援する。

Climate change results in an increased probability of extreme weather events that put societies and businesses at risk on a global scale. Therefore, near real-time mapping of natural hazards is an emerging priority for the support of natural disaster relief, risk management, and informing governmental policy decisions. Recent methods to achieve near real-time mapping increasingly leverage deep learning (DL). However, DL-based approaches are designed for one specific task in a single geographic region based on specific frequency bands of satellite data. Therefore, DL models used to map specific natural hazards struggle with their generalization to other types of natural hazards in unseen regions. In this work, we propose a methodology to significantly improve the generalizability of DL natural hazards mappers based on pre-training on a suitable pre-task. Without access to any data from the target domain, we demonstrate this improved generalizability across four U-Net architectures for the segmentation of unseen natural hazards. Importantly, our method is invariant to geographic differences and differences in the type of frequency bands of satellite data. By leveraging characteristics of unlabeled images from the target domain that are publicly available, our approach is able to further improve the generalization behavior without fine-tuning. Thereby, our approach supports the development of foundation models for earth monitoring with the objective of directly segmenting unseen natural hazards across novel geographic regions given different sources of satellite imagery.
翻訳日:2023-04-20 17:20:09 公開日:2023-04-19
# Chaos to Order: ソースフリーなドメイン適応に関するラベルプロパゲーションの視点

Chaos to Order: A Label Propagation Perspective on Source-Free Domain Adaptation ( http://arxiv.org/abs/2301.08413v2 )

ライセンス: Link先を確認
Chunwei Wu, Guitao Cao, Yan Li, Xidong Xi, Wenming Cao, Hong Wang(参考訳) ソースフリードメイン適応(英: Source-free domain adapt, SFDA)は、対象の分布に適応するために事前訓練されたソースモデルのみを使用する、より一般的なアプローチである。 しかし,対象領域の教師付き情報が欠如していることから,対象特徴の固有構造を正確に把握することは困難である。 対象特徴のクラスタリング性能を分析することで,識別属性に関連するコア機能を含むが,意味情報の照合が欠如していることを示す。 この知見に触発されて、我々はSFDAの新しいアプローチであるChaos to Order(CtO)を提示する。 ctoは、学習状態の適応しきい値に基づいて、ターゲットデータを内外サンプルに分割し、データプロパティに最適な学習戦略をカスタマイズする。 具体的には、内部サンプルは比較的凝集した性質によりクラス内構造を学習するために利用される。 低密度の異常サンプルは入力一貫性によって正規化され、基底真理ラベルに対して高い精度を達成する。 CtOでは、さまざまな学習戦略を使用して、ラベルを内部のローカルから外部のインスタンスに伝播することで、グローバルサンプルをカオスから順にクラスタする。 さらに、内部サンプルの近傍親和性を適応的に調整し、局所的な意味的信頼性を制約する。 理論および実証分析により,本アルゴリズムは内部から外部へ伝播するだけでなく,局所的なクラスタリングによるクラスタ形成を阻害することを示した。 実証的な証拠は、CtOがOffice-31、Office-Home、VisDAの3つの公開ベンチマークで芸術の状態を上回ります。

Source-free domain adaptation (SFDA), where only a pre-trained source model is used to adapt to the target distribution, is a more general approach to achieving domain adaptation in the real world. However, it can be challenging to capture the inherent structure of the target features accurately due to the lack of supervised information on the target domain. By analyzing the clustering performance of the target features, we show that they still contain core features related to discriminative attributes but lack the collation of semantic information. Inspired by this insight, we present Chaos to Order (CtO), a novel approach for SFDA that strives to constrain semantic credibility and propagate label information among target subpopulations. CtO divides the target data into inner and outlier samples based on the adaptive threshold of the learning state, customizing the learning strategy to fit the data properties best. Specifically, inner samples are utilized for learning intra-class structure thanks to their relatively well-clustered properties. The low-density outlier samples are regularized by input consistency to achieve high accuracy with respect to the ground truth labels. In CtO, by employing different learning strategies to propagate the labels from the inner local to outlier instances, it clusters the global samples from chaos to order. We further adaptively regulate the neighborhood affinity of the inner samples to constrain the local semantic credibility. In theoretical and empirical analyses, we demonstrate that our algorithm not only propagates from inner to outlier but also prevents local clustering from forming spurious clusters. Empirical evidence demonstrates that CtO outperforms the state of the arts on three public benchmarks: Office-31, Office-Home, and VisDA.
翻訳日:2023-04-20 17:19:49 公開日:2023-04-19
# 舞台裏:単一視点再構成のための密度場

Behind the Scenes: Density Fields for Single View Reconstruction ( http://arxiv.org/abs/2301.07668v3 )

ライセンス: Link先を確認
Felix Wimbauer, Nan Yang, Christian Rupprecht, Daniel Cremers(参考訳) 単一の画像から有意義な幾何学的シーン表現を推測することは、コンピュータビジョンにおける根本的な問題である。 従来の深度マップ予測に基づくアプローチは、画像で見える領域のみを推論できる。 現在、neural radiance field(nerfs)はカラーを含む真の3dをキャプチャできるが、単一の画像から生成するには複雑すぎる。 代替として、暗黙の密度場を予測することを提案する。 密度場は入力画像のフラスタム内の全ての位置を体積密度にマッピングする。 密度場に色を格納する代わりに、利用可能なビューから直接色をサンプリングすることにより、私たちのシーン表現はNeRFよりもはるかに複雑になり、ニューラルネットワークはそれを単一の前方通過で予測できる。 予測ネットワークはビデオデータのみから自己スーパービジョンにより訓練される。 我々の定式化により、ボリュームレンダリングは深度予測と新しいビュー合成の両方を行うことができる。 実験により,入力画像にオクルードされた領域に対して有意な形状を予測できることを示す。 さらに,深度予測と新しい視点合成のための3つのデータセットに対するアプローチの可能性を示す。

Inferring a meaningful geometric scene representation from a single image is a fundamental problem in computer vision. Approaches based on traditional depth map prediction can only reason about areas that are visible in the image. Currently, neural radiance fields (NeRFs) can capture true 3D including color, but are too complex to be generated from a single image. As an alternative, we propose to predict implicit density fields. A density field maps every location in the frustum of the input image to volumetric density. By directly sampling color from the available views instead of storing color in the density field, our scene representation becomes significantly less complex compared to NeRFs, and a neural network can predict it in a single forward pass. The prediction network is trained through self-supervision from only video data. Our formulation allows volume rendering to perform both depth prediction and novel view synthesis. Through experiments, we show that our method is able to predict meaningful geometry for regions that are occluded in the input image. Additionally, we demonstrate the potential of our approach on three datasets for depth prediction and novel-view synthesis.
翻訳日:2023-04-20 17:19:20 公開日:2023-04-19
# アンサンブル強化学習:調査

Ensemble Reinforcement Learning: A Survey ( http://arxiv.org/abs/2303.02618v2 )

ライセンス: Link先を確認
Yanjie Song, P. N. Suganthan, Witold Pedrycz, Junwei Ou, Yongming He, Yingwu Chen, Yutong Wu(参考訳) 強化学習(Reinforcement Learning, RL)は, 様々な科学的, 応用的な問題に対処するための, 極めて効果的な手法として登場した。 その成功にもかかわらず、ある複雑なタスクは単一のモデルとアルゴリズムでのみ対処することが困難である。 これに対し, アンサンブル強化学習(ERL)は, RLとアンサンブル学習(EL)の両方の利点を組み合わせた有望なアプローチであり, 広く普及している。 ERLは複数のモデルやトレーニングアルゴリズムを利用して、問題空間を包括的に探索し、強力な一般化能力を持つ。 本研究では,ERLに関する総合的な調査を行い,この分野における最近の進歩と課題について概観する。 まず,ERLの背景と動機を紹介する。 第2に,モデルの平均化,モデル選択,モデルの組み合わせなど,erlでうまく適用された戦略を詳細に分析する。 その後,データセットを要約し,関連する研究で使用されるアルゴリズムを分析する。 最後に,いくつかのオープンな質問について概説し,今後のERL研究の方向性について論じる。 将来の科学研究および工学応用のためのガイドを提供することで、この調査はerlの進歩に寄与する。

Reinforcement Learning (RL) has emerged as a highly effective technique for addressing various scientific and applied problems. Despite its success, certain complex tasks remain challenging to be addressed solely with a single model and algorithm. In response, ensemble reinforcement learning (ERL), a promising approach that combines the benefits of both RL and ensemble learning (EL), has gained widespread popularity. ERL leverages multiple models or training algorithms to comprehensively explore the problem space and possesses strong generalization capabilities. In this study, we present a comprehensive survey on ERL to provide readers with an overview of recent advances and challenges in the field. First, we introduce the background and motivation for ERL. Second, we analyze in detail the strategies that have been successfully applied in ERL, including model averaging, model selection, and model combination. Subsequently, we summarize the datasets and analyze algorithms used in relevant studies. Finally, we outline several open questions and discuss future research directions of ERL. By providing a guide for future scientific research and engineering applications, this survey contributes to the advancement of ERL.
翻訳日:2023-04-20 17:12:15 公開日:2023-04-19
# rafen -- ノード埋め込みのための正規化アライメントフレームワーク

RAFEN -- Regularized Alignment Framework for Embeddings of Nodes ( http://arxiv.org/abs/2303.01926v2 )

ライセンス: Link先を確認
Kamil Tagowski, Piotr Bielak, Jakub Binkowski, Tomasz Kajdanowicz(参考訳) ノードの学習表現は、グラフ機械学習研究領域において重要な領域である。 適切に定義されたノード埋め込みモデルは、最終埋め込みにおけるノードの特徴とグラフ構造の両方を反映すべきである。 動的グラフの場合、機能と構造の両方が時間とともに変化するので、この問題はさらに複雑になる。 特定のノードの埋め込みはグラフの進化において同等であり続け、アライメント手順を適用することで達成できる。 このステップは、ノード埋め込みが既に計算された後、既存の作業でしばしば適用された。 本稿では、前述のアライメント項を用いて既存のノード埋め込み手法を拡張できるフレームワーク、RAFENを導入し、トレーニング期間中に同調ノード埋め込みを学習する。 我々は,本フレームワークのいくつかの変種を提案し,実世界の6つのデータセット上での性能を示す。 RAFENは、追加の処理ステップを必要とせずに、既存のアプローチよりも十分なパフォーマンスを達成する。

Learning representations of nodes has been a crucial area of the graph machine learning research area. A well-defined node embedding model should reflect both node features and the graph structure in the final embedding. In the case of dynamic graphs, this problem becomes even more complex as both features and structure may change over time. The embeddings of particular nodes should remain comparable during the evolution of the graph, what can be achieved by applying an alignment procedure. This step was often applied in existing works after the node embedding was already computed. In this paper, we introduce a framework -- RAFEN -- that allows to enrich any existing node embedding method using the aforementioned alignment term and learning aligned node embedding during training time. We propose several variants of our framework and demonstrate its performance on six real-world datasets. RAFEN achieves on-par or better performance than existing approaches without requiring additional processing steps.
翻訳日:2023-04-20 17:11:59 公開日:2023-04-19
# 熱資源を用いた制御マルコフ量子力学の限界を探る

Exploring the Limits of Controlled Markovian Quantum Dynamics with Thermal Resources ( http://arxiv.org/abs/2303.01891v2 )

ライセンス: Link先を確認
Frederik vom Ende, Emanuel Malvetti, Gunther Dirr, Thomas Schulte-Herbr\"uggen(参考訳) まず、熱力学過程の量子力学的半群の生成元を厳格に分析する。 熱演算における量子写像に対するGKSL生成器の幅広いクラスを特徴付け、マルコフ熱演算の(1パラメータ半群の)任意の無限小生成器がこのクラスに属すると主張する。 一つの量子ビットの場合、それらとその非マルコフ的対象を完全に分類して視覚化する。 第二に、この記述を双線形制御系の枠組みを用いて、熱浴への交換可能なカップリングを伴うコヒーレントに制御可能な量子系の到達可能な集合を特徴づける。 コア問題は、2種類の進化を可能にする標準的単純度に基づくハイブリッド制御システム("toy model")の研究に還元される。 (i)即時の順列及び (ii)$d$-stochastic mapsの1パラメータ半群。 我々は,この玩具モデルの到達可能な集合の上界を一般化し,サーモマジョリゼーションの新しい結果をもたらす。 制御理論のツールを用いて、これらの到達可能な集合と安定化可能な状態の集合を完全に特徴づける。

Our aim is twofold: First, we rigorously analyse the generators of quantum-dynamical semigroups of thermodynamic processes. We characterise a wide class of GKSL-generators for quantum maps within thermal operations and argue that every infinitesimal generator of (a one-parameter semigroup of) Markovian thermal operations belongs to this class. We completely classify and visualise them and their non-Markovian counterparts for the case of a single qubit. Second, we use this description in the framework of bilinear control systems to characterise reachable sets of coherently controllable quantum systems with switchable coupling to a thermal bath. The core problem reduces to studying a hybrid control system ("toy model") on the standard simplex allowing for two types of evolution: (i) instantaneous permutations and (ii) a one-parameter semigroup of $d$-stochastic maps. We generalise upper bounds of the reachable set of this toy model invoking new results on thermomajorisation. Using tools of control theory we fully characterise these reachable sets as well as the set of stabilisable states as exemplified by exact results in qutrit systems.
翻訳日:2023-04-20 17:11:46 公開日:2023-04-19
# 絡み込み抑制による自然崩壊

Spontaneous collapse by entanglement suppression ( http://arxiv.org/abs/2303.00697v2 )

ライセンス: Link先を確認
Eyal Buks(参考訳) 非線形項を付加した最近提案された修正Schr\"{o}dinger方程式について検討し, 絡み合いを引き起こす。 量子測定のプロセスは、一対の結合スピンの場合のために探索される。 修正Schr\"{o}dinger方程式によって生成される決定論的時間進化は、波動関数の崩壊の過程を模倣する。 付加雑音は測定過程において確率性を引き起こす。 因果性と分離性の両方の原理との衝突は、非線形項はサブシステム間の相互作用の間のみアクティブであると仮定することで回避できる。 さらに、絡み合いがない場合、標準量子力学の全ての予測は、追加の非線形項の影響を受けない。

We study a recently proposed modified Schr\"{o}dinger equation having an added nonlinear term, which gives rise to disentanglement. The process of quantum measurement is explored for the case of a pair of coupled spins. We find that the deterministic time evolution generated by the modified Schr\"{o}dinger equation mimics the process of wavefunction collapse. Added noise gives rise to stochasticity in the measurement process. Conflict with both principles of causality and separability can be avoided by postulating that the nonlinear term is active only during the time when subsystems interact. Moreover, in the absence of entanglement, all predictions of standard quantum mechanics are unaffected by the added nonlinear term.
翻訳日:2023-04-20 17:11:27 公開日:2023-04-19
# バリアによるサンプリング:Lewis Weightsによる高速混合

Sampling with Barriers: Faster Mixing via Lewis Weights ( http://arxiv.org/abs/2303.00480v2 )

ライセンス: Link先を確認
Khashayar Gatmiry, Jonathan Kelner, Santosh S. Vempala(参考訳) リーマンハミルトニアンモンテカルロ (rhmc) を解析し, 凸障壁関数のヘッシアンによって定義される計量で与えられる$\r^n$ における m$ 不等式で定義されるポリトープをサンプリングする。 RHMCのボールウォーク、ヒット・アンド・ラン、ダイキンウォークといったユークリッド法に対する利点は、より長いステップを踏む能力にある。 しかし、全ての研究において、混合速度は不等式の数に線形依存している。 ルイス重み障壁と標準対数障壁のハイブリッドを導入することにより、対応するrhmcの混合速度が$\tilde o(m^{1/3}n^{4/3})$となることを証明し、以前の最高値である$\tilde o(mn^{2/3})$(対数障壁に基づく)を改良する。 これは最適化とサンプリングの一般的な並列性であり、後者は一般的に新しいツールやより洗練された分析につながる。 主な結果を証明するためには、ハミルトン曲線の滑らかさと障壁の自己調和性に関するいくつかの課題を克服する必要がある。 この過程において、リーマン多様体上のマルコフ連鎖の解析のための一般的な枠組みを与え、ハミルトン曲線上の新しい滑らかさ境界を導出し、比較幾何学の中心的なトピックを導き、無限ノルムへの自己一致を拡張し、よりシャープな境界を与える。

We analyze Riemannian Hamiltonian Monte Carlo (RHMC) for sampling a polytope defined by $m$ inequalities in $\R^n$ endowed with the metric defined by the Hessian of a convex barrier function. The advantage of RHMC over Euclidean methods such as the ball walk, hit-and-run and the Dikin walk is in its ability to take longer steps. However, in all previous work, the mixing rate has a linear dependence on the number of inequalities. We introduce a hybrid of the Lewis weights barrier and the standard logarithmic barrier and prove that the mixing rate for the corresponding RHMC is bounded by $\tilde O(m^{1/3}n^{4/3})$, improving on the previous best bound of $\tilde O(mn^{2/3})$ (based on the log barrier). This continues the general parallels between optimization and sampling, with the latter typically leading to new tools and more refined analysis. To prove our main results, we have to overcomes several challenges relating to the smoothness of Hamiltonian curves and the self-concordance properties of the barrier. In the process, we give a general framework for the analysis of Markov chains on Riemannian manifolds, derive new smoothness bounds on Hamiltonian curves, a central topic of comparison geometry, and extend self-concordance to the infinity norm, which gives sharper bounds; these properties appear to be of independent interest.
翻訳日:2023-04-20 17:11:17 公開日:2023-04-19
# オフライン強化学習のためのサンプル内ソフトマックス

The In-Sample Softmax for Offline Reinforcement Learning ( http://arxiv.org/abs/2302.14372v2 )

ライセンス: Link先を確認
Chenjun Xiao, Han Wang, Yangchen Pan, Adam White, Martha White(参考訳) 強化学習(RL)エージェントは、以前に収集したデータのバッチを利用して合理的な制御ポリシーを抽出することができる。 しかし、このオフラインRL設定における新たな問題は、我々のメソッドの多くの基盤となるブートストラップ更新が、不十分なアクションカバレッジに悩まされていることである。 これらの不正確な値からのブートストラッピングは、過大評価や分散につながる可能性がある。 データセットでよくカバーされたアクションのみを使用する \emph{in-sample} maxを近似しようとするメソッドが増えている。 データセット内のアクションのみを使用して、サンプル内 \emph{softmax} を近似することはより簡単である。 本研究は, サンプル内ソフトマックスに基づく政策反復が収束し, 温度低下のためにサンプル内最大値に近づくことを示す。 In-Sample Actor-Critic (AC) をこのインサンプルソフトマックスを用いて導き、既存のオフラインRL法と一貫して良いか同等かを示し、微調整にも適していることを示す。

Reinforcement learning (RL) agents can leverage batches of previously collected data to extract a reasonable control policy. An emerging issue in this offline RL setting, however, is that the bootstrapping update underlying many of our methods suffers from insufficient action-coverage: standard max operator may select a maximal action that has not been seen in the dataset. Bootstrapping from these inaccurate values can lead to overestimation and even divergence. There are a growing number of methods that attempt to approximate an \emph{in-sample} max, that only uses actions well-covered by the dataset. We highlight a simple fact: it is more straightforward to approximate an in-sample \emph{softmax} using only actions in the dataset. We show that policy iteration based on the in-sample softmax converges, and that for decreasing temperatures it approaches the in-sample max. We derive an In-Sample Actor-Critic (AC), using this in-sample softmax, and show that it is consistently better or comparable to existing offline RL methods, and is also well-suited to fine-tuning.
翻訳日:2023-04-20 17:10:48 公開日:2023-04-19
# トランスフォーマーモデルを用いたロバストな人間の動き予測

Robust Human Motion Forecasting using Transformer-based Model ( http://arxiv.org/abs/2302.08274v2 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Shuo Ma, Hyemin Ahn, Dongheui Lee(参考訳) 人間の動きを補完することは、人間-ロボット協調アプリケーションを開発するための根本的な課題である。 コンピュータビジョンの研究者たちは、予測におけるエラーを減らすことだけに焦点を合わせながら、ロボットにおけるその実装を促進するための要件を考慮していない。 本稿では,トランスフォーマーをベースとした,短時間・長期のリアルタイムな3次元動作予測を同時に扱う新しいモデルを提案する。 2-Channel Transformer (2CH-TR) は, 近いうちに観測されたシーケンス(400ms)の時空間情報を効率よく利用し, 現状に対する競合精度を実現できる。 2CH-TRはTransformerの高性能で、競合他社よりも軽量で高速である。 また,高騒音環境下での3次元動作の再現・予測におけるロバスト性を示すために,人間の動作がかなり遮蔽されている条件下で実験を行った。 実験の結果,提案した2CH-TRはST-Transformerよりも優れており,ST-Transformerは入力プレフィックスと同じ条件下での再構築と予測を行う。 このモデルでは、短期予測ではst変換器の平均二乗誤差が8.89%、入力プレフィックスが400msのhuman3.6mデータセットでは2.57%減少する。 当社のWebサイト、$\href{https://sites.google.com/view/estevevallsmascaro/publications/iros2022}{here}$.comを参照してください。

Comprehending human motion is a fundamental challenge for developing Human-Robot Collaborative applications. Computer vision researchers have addressed this field by only focusing on reducing error in predictions, but not taking into account the requirements to facilitate its implementation in robots. In this paper, we propose a new model based on Transformer that simultaneously deals with the real time 3D human motion forecasting in the short and long term. Our 2-Channel Transformer (2CH-TR) is able to efficiently exploit the spatio-temporal information of a shortly observed sequence (400ms) and generates a competitive accuracy against the current state-of-the-art. 2CH-TR stands out for the efficient performance of the Transformer, being lighter and faster than its competitors. In addition, our model is tested in conditions where the human motion is severely occluded, demonstrating its robustness in reconstructing and predicting 3D human motion in a highly noisy environment. Our experiment results show that the proposed 2CH-TR outperforms the ST-Transformer, which is another state-of-the-art model based on the Transformer, in terms of reconstruction and prediction under the same conditions of input prefix. Our model reduces in 8.89% the mean squared error of ST-Transformer in short-term prediction, and 2.57% in long-term prediction in Human3.6M dataset with 400ms input prefix. Visit our website $\href{https://sites.google.com/view/estevevallsmascaro/publications/iros2022}{here}$.
翻訳日:2023-04-20 17:10:29 公開日:2023-04-19
# GMConv: 畳み込みカーネルの効果的な受容場制御

GMConv: Modulating Effective Receptive Fields for Convolutional Kernels ( http://arxiv.org/abs/2302.04544v2 )

ライセンス: Link先を確認
Qi Chen, Chao Li, Jia Ning, Stephen Lin, Kun He(参考訳) 畳み込みニューラルネットワークでは、従来の畳み込みは、固定N$\times$N受容場(RF)を持つ正方形カーネルを用いて実行される。 しかし、ネットワークにとって最も重要なのは、入力画素が出力画素にどの程度寄与するかを示す効果的な受容場(erf)である。 ERFが通常ガウス分布を示す性質に着想を得て,本研究でガウス・マスク畳み込みカーネル(GMConv)を提案する。 具体的には、GMConvはガウス関数を用いて、核上に配置された同心対称マスクを生成してRFを洗練させる。 gmconvは既存のcnnの標準畳み込みを直接置き換えることができ、標準のバックプロパゲーションによってエンドツーエンドで容易に訓練することができます。 画像分類と物体検出タスクに関する広範な実験を通じて,提案手法を評価した。 いくつかのタスクと標準ベースモデルに対して、我々のアプローチは標準畳み込みと比較できる。 例えば、gmconv for alexnet と resnet-50 を用いて、imagenet 分類における top-1 の精度を 0.98% と 0.85% で向上させる。

In convolutional neural networks, the convolutions are conventionally performed using a square kernel with a fixed N $\times$ N receptive field (RF). However, what matters most to the network is the effective receptive field (ERF) that indicates the extent with which input pixels contribute to an output pixel. Inspired by the property that ERFs typically exhibit a Gaussian distribution, we propose a Gaussian Mask convolutional kernel (GMConv) in this work. Specifically, GMConv utilizes the Gaussian function to generate a concentric symmetry mask that is placed over the kernel to refine the RF. Our GMConv can directly replace the standard convolutions in existing CNNs and can be easily trained end-to-end by standard back-propagation. We evaluate our approach through extensive experiments on image classification and object detection tasks. Over several tasks and standard base models, our approach compares favorably against the standard convolution. For instance, using GMConv for AlexNet and ResNet-50, the top-1 accuracy on ImageNet classification is boosted by 0.98% and 0.85%, respectively.
翻訳日:2023-04-20 17:10:02 公開日:2023-04-19
# 駆動キャビティによる非局所多ビット量子ゲート

Non-Local Multi-Qubit Quantum Gates via a Driven Cavity ( http://arxiv.org/abs/2303.13127v2 )

ライセンス: Link先を確認
Sven Jandura, Vineesha Srivastava, Gavin Brennen, Guido Pupillo(参考訳) 共振器モードに結合したキュービット上の決定論的非局所的マルチキュービット量子ゲートを実装するための2つのプロトコルを提案する。 プロトコルはキャビティモードの古典的なドライブのみに依存し、キュービットの外部ドライブは不要である。 第1のプロトコルでは、空洞の状態は位相空間の閉軌跡に従い、量子ビットの状態に応じて幾何学的位相を蓄積する。 第2のプロトコルは、結合されたキュービットキャビティシステムの断熱進化を利用して動的位相を蓄積する。 このプロトコルの繰り返しの応用は、位相回転ゲートや多制御Zゲートといった任意の位相を持つ位相ゲートの実現を可能にする。 どちらのプロトコルに対しても、誤り率の解析解を提供し、$\sim N/\sqrt{C}$、$C$の協調性と$N$の量子ビット数でスケールする。 我々のプロトコルは様々なシステムに適用でき、音素モードのような異なるボソニックモードでキャビティを置き換えることで一般化することができる。 我々は、光またはマイクロ波空洞に結合した原子および分子量子ビットのゲート密度と時間の推定を行い、量子誤差補正への応用を提案する。

We present two protocols for implementing deterministic non-local multi-qubit quantum gates on qubits coupled to a common cavity mode. The protocols rely only on a classical drive of the cavity modes, while no external drive of the qubits is required. In the first protocol, the state of the cavity follows a closed trajectory in phase space and accumulates a geometric phase depending on the state of the qubits. The second protocol uses an adiabatic evolution of the combined qubit-cavity system to accumulate a dynamical phase. Repeated applications of this protocol allow for the realization of phase gates with arbitrary phases, e.g. phase-rotation gates and multi-controlled-Z gates. For both protocols, we provide analytic solutions for the error rates, which scale as $\sim N/\sqrt{C}$, with $C$ the cooperativity and $N$ the qubit number. Our protocols are applicable to a variety of systems and can be generalized by replacing the cavity by a different bosonic mode, such as a phononic mode. We provide estimates of gate fidelities and durations for atomic and molecular qubits coupled to optical or microwave cavities, and suggest applications for quantum error correction.
翻訳日:2023-04-20 17:03:19 公開日:2023-04-19
# 安定拡散による画像操作のための高個人化テキスト埋め込み

Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion ( http://arxiv.org/abs/2303.08767v3 )

ライセンス: Link先を確認
Inhwa Han, Serin Yang, Taesung Kwon, Jong Chul Ye(参考訳) 拡散モデルは画像生成と操作において優れた性能を示すが、固有の確率性は画像の内容とアイデンティティの保存と操作の課題を示す。 DreamBoothやTextual Inversionといった以前のアプローチでは、コンテンツを維持するためのモデルや潜在表現のパーソナライゼーションが提案されていたが、複数の参照イメージへの依存と複雑なトレーニングは実用性を制限する。 本稿では、パーソナライズとコンテンツ操作のためのCLIP埋め込み空間を分解し、高度にパーソナライズされた(HiPer)テキスト埋め込みを用いたパーソナライズへのシンプルかつ高効率なアプローチを提案する。 本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。 多様な対象テキストを用いた実験により,様々なタスクにまたがって,高度にパーソナライズされ,複雑な意味的画像編集を実現することを実証した。 本研究で提示されるテキスト埋め込み空間の新たな理解は、様々なタスクにまたがるさらなる研究を促す可能性があると考えている。

Diffusion models have shown superior performance in image generation and manipulation, but the inherent stochasticity presents challenges in preserving and manipulating image content and identity. While previous approaches like DreamBooth and Textual Inversion have proposed model or latent representation personalization to maintain the content, their reliance on multiple reference images and complex training limits their practicality. In this paper, we present a simple yet highly effective approach to personalization using highly personalized (HiPer) text embedding by decomposing the CLIP embedding space for personalization and content manipulation. Our method does not require model fine-tuning or identifiers, yet still enables manipulation of background, texture, and motion with just a single image and target text. Through experiments on diverse target texts, we demonstrate that our approach produces highly personalized and complex semantic image edits across a wide range of tasks. We believe that the novel understanding of the text embedding space presented in this work has the potential to inspire further research across various tasks.
翻訳日:2023-04-20 17:02:00 公開日:2023-04-19
# 時系列表と多変量時系列のモデル複雑性の理解 : ヌメライデータサイエンストーナメントを事例として

Understanding Model Complexity for temporal tabular and multi-variate time series, case study with Numerai data science tournament ( http://arxiv.org/abs/2303.07925v2 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 本稿では,多変量時系列モデリングにおける特徴工学と次元減少法の利用について検討する。 ニュメライトーナメントから作成した特徴的相互相関時系列データセットを用いて,異なる特徴工学手法による性能と予測の両方が同じ平衡に収束し,再生核ヒルベルト空間によって特徴づけられることを示した。 高次元時系列モデリングのためのランダムな非線形変換とリッジ回帰を組み合わせた新しいアンサンブル法を提案する。 LSTMやトランスフォーマーなどのシーケンスモデリングによく用いられるディープラーニングモデルと比較して,本手法はより堅牢である(異なるランダムシードに対するモデル分散が低く,アーキテクチャの選択に敏感でない)。 また、PyTorchのような高度なディープラーニングフレームワークを使う必要がなくなるため、モデルの単純さも利点である。 次に、学習した特徴ランキングを、ヌメライトーナメントにおける時間表予測問題に適用し、本手法から得られた特徴ランキングの予測力は、移動平均値に基づくベースライン予測モデルよりも優れている。

In this paper, we explore the use of different feature engineering and dimensionality reduction methods in multi-variate time-series modelling. Using a feature-target cross correlation time series dataset created from Numerai tournament, we demonstrate under over-parameterised regime, both the performance and predictions from different feature engineering methods converge to the same equilibrium, which can be characterised by the reproducing kernel Hilbert space. We suggest a new Ensemble method, which combines different random non-linear transforms followed by ridge regression for modelling high dimensional time-series. Compared to some commonly used deep learning models for sequence modelling, such as LSTM and transformers, our method is more robust (lower model variance over different random seeds and less sensitive to the choice of architecture) and more efficient. An additional advantage of our method is model simplicity as there is no need to use sophisticated deep learning frameworks such as PyTorch. The learned feature rankings are then applied to the temporal tabular prediction problem in the Numerai tournament, and the predictive power of feature rankings obtained from our method is better than the baseline prediction model based on moving averages
翻訳日:2023-04-20 17:01:39 公開日:2023-04-19
# DarkVisionNet:RGB-NIR融合による低照度イメージング

DarkVisionNet: Low-Light Imaging via RGB-NIR Fusion with Deep Inconsistency Prior ( http://arxiv.org/abs/2303.06834v2 )

ライセンス: Link先を確認
Shuangping Jin, Bingbing Yu, Minhao Jing, Yi Zhou, Jiajun Liang, Renhe Ji(参考訳) RGB-NIR融合は低照度イメージングの有望な方法である。 しかし、低照度画像における高強度ノイズは、既存のアルゴリズムに反するRGB-NIR画像間の構造不整合の影響を増幅する。 そこで我々は,DVN (Dark Vision Net) と呼ばれる新しいRGB-NIR融合アルゴリズムを提案し,DIP(Deep Structure and Deep Inconsistency Prior)とDIP(Deep Inconsistency Prior)の2つの技術的特徴について述べる。 ディープ構造は、生の入力空間よりも深いマルチスケールの特徴空間における明確な構造の詳細を抽出する。 RGBドメインとNIRドメインの両方の深い構造に基づいて、RGB-NIRの融合を導くために構造不整合を利用するDIPを導入する。 これより、提案したDVNは、視覚的アーティファクトのない高品質の低照度画像を得る。 また、最初の公開RGBNIR融合ベンチマークとして、一致したRGB-NIR画像ペアからなるDark Vision Dataset (DVD) という新しいデータセットを提案する。 提案したベンチマークの定量的および定性的な結果から、DVNはPSNRとSSIMの他の比較アルゴリズム、特に極低照度環境では著しく優れていた。

RGB-NIR fusion is a promising method for low-light imaging. However, high-intensity noise in low-light images amplifies the effect of structure inconsistency between RGB-NIR images, which fails existing algorithms. To handle this, we propose a new RGB-NIR fusion algorithm called Dark Vision Net (DVN) with two technical novelties: Deep Structure and Deep Inconsistency Prior (DIP). The Deep Structure extracts clear structure details in deep multiscale feature space rather than raw input space, which is more robust to noisy inputs. Based on the deep structures from both RGB and NIR domains, we introduce the DIP to leverage the structure inconsistency to guide the fusion of RGB-NIR. Benefiting from this, the proposed DVN obtains high-quality lowlight images without the visual artifacts. We also propose a new dataset called Dark Vision Dataset (DVD), consisting of aligned RGB-NIR image pairs, as the first public RGBNIR fusion benchmark. Quantitative and qualitative results on the proposed benchmark show that DVN significantly outperforms other comparison algorithms in PSNR and SSIM, especially in extremely low light conditions.
翻訳日:2023-04-20 17:01:18 公開日:2023-04-19
# TSMixer: 時系列予測のためのオールMLPアーキテクチャ

TSMixer: An all-MLP Architecture for Time Series Forecasting ( http://arxiv.org/abs/2303.06053v2 )

ライセンス: Link先を確認
Si-An Chen, Chun-Liang Li, Nate Yoder, Sercan O. Arik, Tomas Pfister(参考訳) 現実世界の時系列データセットはしばしば複雑なダイナミクスを持つ多変量である。 この複雑さを捉えるために、リカレントやアテンションベースのシーケンシャルディープラーニングモデルのような高容量アーキテクチャが普及している。 しかし、最近の研究では、単純な単変量線形モデルは、よく使われるいくつかの学術ベンチマークにおいて、そのような深層学習モデルより優れていることが示されている。 本稿では,時系列予測のための線形モデルと,多層パーセプトロン (mlps) を積み重ねた新しいアーキテクチャであるcurrent time-series mixer (tsmixer) の機能について検討する。 TSMixerは時間次元と特徴次元の混合操作に基づいて情報を効率的に抽出する。 一般的な学術ベンチマークでは、TSMixerは特定のベンチマークの帰納バイアスを利用する専門的な最先端モデルに匹敵する。 現実の小売データセットである挑戦的で大規模なM5ベンチマークでは、TSMixerは最先端の代替モデルよりも優れたパフォーマンスを示している。 その結果,時系列予測の性能向上にクロスバリアイトと補助情報を効果的に活用することの重要性が示唆された。 我々はTSMixerの能力について様々な分析を行った。 TSMixerで使用される設計パラダイムは、ディープラーニングに基づく時系列予測のための新たな地平を開くことが期待されている。

Real-world time-series datasets are often multivariate with complex dynamics. To capture this complexity, high capacity architectures like recurrent- or attention-based sequential deep learning models have become popular. However, recent work demonstrates that simple univariate linear models can outperform such deep learning models on several commonly used academic benchmarks. Extending them, in this paper, we investigate the capabilities of linear models for time-series forecasting and present Time-Series Mixer (TSMixer), a novel architecture designed by stacking multi-layer perceptrons (MLPs). TSMixer is based on mixing operations along both the time and feature dimensions to extract information efficiently. On popular academic benchmarks, the simple-to-implement TSMixer is comparable to specialized state-of-the-art models that leverage the inductive biases of specific benchmarks. On the challenging and large scale M5 benchmark, a real-world retail dataset, TSMixer demonstrates superior performance compared to the state-of-the-art alternatives. Our results underline the importance of efficiently utilizing cross-variate and auxiliary information for improving the performance of time series forecasting. We present various analyses to shed light into the capabilities of TSMixer. The design paradigms utilized in TSMixer are expected to open new horizons for deep learning-based time series forecasting.
翻訳日:2023-04-20 17:00:53 公開日:2023-04-19
# マトリックス製品状態の完全パウリサンプリングによる量子マジック

Quantum Magic via Perfect Pauli Sampling of Matrix Product States ( http://arxiv.org/abs/2303.05536v2 )

ライセンス: Link先を確認
Guglielmo Lami, Mario Collura(参考訳) 我々は,n$-qubits行列積状態(mps)の結合次元$\chi$の非安定化性を評価するための新しいブレークスルー手法を提案する。 特に、最近導入された安定化器R\'enyi Entropies (SRE) を考える。 パウリ弦構成上の多体波動関数の単純なサンプリングにより,SREの指数関数的にハードな評価が可能であることを示す。 このサンプリングは、新しいMPS技術により達成され、計算コスト$O(N\chi^3)$で各サンプルを効率的に計算することができる。 ランダムに生成したマジック状態と量子イジング鎖の基底状態に対して,本手法をベンチマークする。 非常に好都合なスケーリングを爆発させると、量子クエンチ後のSREの非平衡ダイナミクスに容易にアクセスできる。

We introduce a novel breakthrough approach to evaluate the nonstabilizerness of an $N$-qubits Matrix Product State (MPS) with bond dimension $\chi$. In particular, we consider the recently introduced Stabilizer R\'enyi Entropies (SREs). We show that the exponentially hard evaluation of the SREs can be achieved by means of a simple perfect sampling of the many-body wave function over the Pauli string configurations. The sampling is achieved with a novel MPS technique, which enables to compute each sample in an efficient way with a computational cost $O(N\chi^3)$. We benchmark our method over randomly generated magic states, as well as in the ground-state of the quantum Ising chain. Exploiting the extremely favourable scaling, we easily have access to the non-equilibrium dynamics of the SREs after a quantum quench.
翻訳日:2023-04-20 17:00:30 公開日:2023-04-19
# 量子力学の構成空間密度定式化の非量子挙動

Non-Quantum Behaviors of Configuration-Space Density Formulations of quantum mechanics ( http://arxiv.org/abs/2303.04959v2 )

ライセンス: Link先を確認
Philipp Roser, Matthew T. Scoggins(参考訳) 量子力学のパイロット波定式化とその経験的予測の軌跡は、物理的波動関数に言及せずに、系の構成空間上の密度関数のダイナミクスを介して回復することができる。 我々はそのような定式化の 'CSD フレームワーク' をラベル付けする。 しかし、この結果は、標準量子力学における波動関数の単値性と同値である特定のアドホック条件が課される場合にのみ成立する。 ここでこの条件を緩和します。 量子力学からの逸脱に繋がるシナリオの種類について述べる。 計算モデルを使って、状態の'非量子性'の程度が時間とともにどのように変化するか尋ねる。 非自明な力学の下でも時間的に一定であり、これはウォールストローム条件の動的正当化が成功しそうにないことを意味すると論じる。 しかし, csdフレームワークの定常状態についてもある程度の観察を行い, ウォールストローム条件の正当化の一助となるかもしれない。

The trajectories of the pilot-wave formulation of quantum mechanics and hence its empirical predictions may be recovered via the dynamics of a density function on the configuration space of a system, without reference to a physical wave function. We label such formulations `CSD frameworks.' But this result only holds if a particular, apparently ad hoc condition, broadly speaking equivalent to the single-valuedness of the wave function in standard quantum mechanics, is imposed. Here we relax this condition. We describe the types of scenarios in which this would lead to deviations from quantum mechanics. Using computational models we ask how the degree of `non-quantumness' of a state, suitably defined, changes with time. We find that it remains constant in time even under non-trivial dynamics, and argue that this implies that a dynamical justification of the Wallstrom condition is unlikely to be successful. However, we also make certain observations about stationary states in CSD frameworks, which may offer a way forward in justifying the Wallstrom condition.
翻訳日:2023-04-20 17:00:18 公開日:2023-04-19
# コントラスト学習のための適応的データ拡張

Adaptive Data Augmentation for Contrastive Learning ( http://arxiv.org/abs/2304.02451v2 )

ライセンス: Link先を確認
Yuhan Zhang, He Zhu, Shan Yu(参考訳) コンピュータビジョンにおいて、コントラスト学習は最も高度な教師なし学習フレームワークである。 しかし、以前のほとんどの方法は、データ効率を改善するためにデータ拡張の固定構成を適用するだけで、トレーニングにおける最適な設定の変更を無視する。 したがって、事前決定された拡張操作のパラメータは、学習期間全体において進化するネットワークに必ずしも適合せず、学習表現の品質が低下する。 本研究では,一般的なコントラスト学習ネットワークに閉ループフィードバック構造を実装するAdDAを提案する。 AdDAは、ネットワークがリアルタイムフィードバックに応じて拡張構成を適応的に調整できるようにする。 このオンライン調整は動的最適構成の維持に役立ち、ネットワークは計算オーバーヘッドを最小限にし、より一般化可能な表現を得ることができる。 AdDAはImageNet-100分類の共通線形プロトコル(MoCo v2では+1.11%)の下で競合する結果を得る。

In computer vision, contrastive learning is the most advanced unsupervised learning framework. Yet most previous methods simply apply fixed composition of data augmentations to improve data efficiency, which ignores the changes in their optimal settings over training. Thus, the pre-determined parameters of augmentation operations cannot always fit well with an evolving network during the whole training period, which degrades the quality of the learned representations. In this work, we propose AdDA, which implements a closed-loop feedback structure to a generic contrastive learning network. AdDA works by allowing the network to adaptively adjust the augmentation compositions according to the real-time feedback. This online adjustment helps maintain the dynamic optimal composition and enables the network to acquire more generalizable representations with minimal computational overhead. AdDA achieves competitive results under the common linear protocol on ImageNet-100 classification (+1.11% on MoCo v2).
翻訳日:2023-04-20 16:53:53 公開日:2023-04-19
# 量子コンピューティングのための多重シリコンダングリング結合電荷量子ビット:ハミルトニアンのヒルベルト空間解析

Multiple Silicon Dangling-Bond Charge qubits for quantum computing: A Hilbert-Space Analysis of the Hamiltonian ( http://arxiv.org/abs/2304.00283v2 )

ライセンス: Link先を確認
Zahra Shaterzadeh-Yazdi(参考訳) シリコンベースのダングリング結合電荷量子ビットは、普遍的フォールトトレラントな固体量子コンピューティングの好都合なモデルの一つである。 普遍量子コンピューティングでは、計算ヒルベルト空間の評価と特徴付けを行い、計算空間の複雑さとサイズを減らすことが重要である。 ここでは、この問題を認識し、ダングリング結合量子ビットモデルにおけるヒルベルト空間の複雑性と特性を理解する。 所望のヒルベルト空間のサイズは、キュービット損失に関する仮定を考えると顕著に小さくすることができる。 さらに、空間における所望の部分集合の次元はスピン保存性により2倍に縮小する。 最後に、量子ビット情報、ハミルトン空間、ヒルベルト空間の記憶に必要な古典記憶は、量子ビット数が増えると解析される。

Silicon-based dangling-bond charge qubit is one of the auspicious models for universal fault-tolerant solid-state quantum computing. In universal quantum computing, it is crucial to evaluate and characterize the computational Hilbert space and reduce the complexity and size of the computational space. Here, we recognize this problem to understand the complexity and characteristics of the Hilbert space in our dangling-bond qubit model. The size of the desired Hilbert space can prominently be reduced by considering assumptions regarding the qubit loss. Moreover, the dimension of the desired subsets in the space shrinks by a factor of two due to the spin preservation property. Finally, the required classical memory for storage of the qubit information, Hamiltonian and Hilbert space is analysed when the number of qubits grows.
翻訳日:2023-04-20 16:53:40 公開日:2023-04-19
# 階層変換器を用いた関係経路と文脈からの帰納的関係予測

Inductive Relation Prediction from Relational Paths and Context with Hierarchical Transformers ( http://arxiv.org/abs/2304.00215v2 )

ライセンス: Link先を確認
Jiaang Li, Quan Wang, Zhendong Mao(参考訳) 知識グラフ(KG)に関する関係予測は重要な研究トピックである。 支配的な埋め込みベースの手法は、主にトランスダクティブな設定に焦点を当て、推論のために新しいエンティティに一般化するインダクティブな能力を欠いている。 帰納的推論の既存の方法は、主に関係的文脈に含まれる頭と尾のエンティティの性質を考慮せずに、関係的経路(relational paths)というエンティティ間の接続を掘り下げる。 本稿では,リレーショナルパスとコンテキストを同時に集約することにより,エンティティ間の接続とエンティティの固有性の両方をキャプチャする新しい手法,すなわちレポートを提案する。 因果関係論のみに依拠し、訓練や推論のためのKGが共通の実体を持たない完全帰納的設定に自然に一般化することができる。 実験では、2つの完全帰納的データセットの8つのバージョンサブセットのほぼすべてのベースラインに対して、Actionalは一貫してパフォーマンスが向上する。 さらに。 レポートは、各要素の予測結果への貢献を提供することによって解釈できる。

Relation prediction on knowledge graphs (KGs) is a key research topic. Dominant embedding-based methods mainly focus on the transductive setting and lack the inductive ability to generalize to new entities for inference. Existing methods for inductive reasoning mostly mine the connections between entities, i.e., relational paths, without considering the nature of head and tail entities contained in the relational context. This paper proposes a novel method that captures both connections between entities and the intrinsic nature of entities, by simultaneously aggregating RElational Paths and cOntext with a unified hieRarchical Transformer framework, namely REPORT. REPORT relies solely on relation semantics and can naturally generalize to the fully-inductive setting, where KGs for training and inference have no common entities. In the experiments, REPORT performs consistently better than all baselines on almost all the eight version subsets of two fully-inductive datasets. Moreover. REPORT is interpretable by providing each element's contribution to the prediction results.
翻訳日:2023-04-20 16:53:28 公開日:2023-04-19
# 安定化器近似III:最大カット

Stabilizer Approximation III: Maximum Cut ( http://arxiv.org/abs/2303.17215v2 )

ライセンス: Link先を確認
Chuixiong Wu, Jianan Wang, Fen Zuo(参考訳) 最大カット問題に対して安定化器の定式化を適用し,新しいグリーディな建設ヒューリスティックを得る。 エッジコントラクションと異なるエッジコントラクションアプローチのエレガントな合成であることが分かりました。 最大カット問題とイジングモデルの関係を利用して、ヒューリスティックの近似比が少なくとも1/2$であることが容易に分かる。 さらに, 数値計算の結果から, 約100頂点のグラフに対して, ヒューリスティックは極めて優れた性能を示すことがわかった。

We apply the stabilizer formalism to the Maximum Cut problem, and obtain a new greedy construction heuristic. It turns out to be an elegant synthesis of the edge-contraction and differencing edge-contraction approaches. Utilizing the relation between the Maximum Cut problem and the Ising model, the approximation ratio of the heuristic is easily found to be at least $1/2$. Moreover, numerical results show that the heuristic has very nice performance for graphs with about 100 vertices.
翻訳日:2023-04-20 16:53:10 公開日:2023-04-19
# DORT:マルチカメラ3次元物体検出・追跡のためのリカレント動的物体モデリング

DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object Detection and Tracking ( http://arxiv.org/abs/2303.16628v2 )

ライセンス: Link先を確認
Qing Lian, Tai Wang, Dahua Lin, Jiangmiao Pang(参考訳) 最近のマルチカメラ3Dオブジェクト検出器は通常、時間的情報を利用して、不適切な深さ推定を緩和する多視点ステレオを構築する。 しかし、通常は全てのオブジェクトが静的であり、フレーム間で直接集約されていると仮定する。 この研究は、運動物体の運動を無視した理論的および経験的な分析から始まり、深刻な局所化バイアスをもたらす。 そこで本稿では,RecurrenT (DORT) における動的オブジェクトをモデル化してこの問題に対処する。 従来のグローバルなBird-Eye-View (BEV) 法とは対照的に,DORT はオブジェクトワイドな局所ボリュームを抽出し,計算負荷を軽減する。 推定対象運動と位置を反復的に精製することにより、上記の悪影響を軽減するために、上記特徴を電流フレームに正確に集約することができる。 simple frameworkには2つの大きな魅力がある。 フレキシブルで実用的で、ほとんどのカメラベースの3dオブジェクト検出器に接続できる。 ループ内に物体の動きの予測があるため、最寄りの中心距離に応じてフレームを横切る物体を容易に追跡することができる。 ベルとホイッスルがなければ、DORTは、それぞれ 62.5\% NDS と 57.6\% AMOTA の nuScenes 検出および追跡ベンチマークにおいて、すべての従来の手法より優れている。 ソースコードはリリースされます。

Recent multi-camera 3D object detectors usually leverage temporal information to construct multi-view stereo that alleviates the ill-posed depth estimation. However, they typically assume all the objects are static and directly aggregate features across frames. This work begins with a theoretical and empirical analysis to reveal that ignoring the motion of moving objects can result in serious localization bias. Therefore, we propose to model Dynamic Objects in RecurrenT (DORT) to tackle this problem. In contrast to previous global Bird-Eye-View (BEV) methods, DORT extracts object-wise local volumes for motion estimation that also alleviates the heavy computational burden. By iteratively refining the estimated object motion and location, the preceding features can be precisely aggregated to the current frame to mitigate the aforementioned adverse effects. The simple framework has two significant appealing properties. It is flexible and practical that can be plugged into most camera-based 3D object detectors. As there are predictions of object motion in the loop, it can easily track objects across frames according to their nearest center distances. Without bells and whistles, DORT outperforms all the previous methods on the nuScenes detection and tracking benchmarks with 62.5\% NDS and 57.6\% AMOTA, respectively. The source code will be released.
翻訳日:2023-04-20 16:53:01 公開日:2023-04-19
# プライベートからパブリックへ:プライベート時系列分類におけるGANのベンチマーク

From Private to Public: Benchmarking GANs in the Context of Private Time Series Classification ( http://arxiv.org/abs/2303.15916v2 )

ライセンス: Link先を確認
Dominique Mercier, Andreas Dengel, Sheraz Ahmed(参考訳) ディープラーニングはさまざまなドメインやさまざまなタスクで成功している。 しかし、プライベートデータに関しては、いくつかの制限があるため、これらのアプリケーションフィールドでディープラーニングアプローチを使用するのは難しい。 最近のアプローチでは、分類器の上にプライバシー保護機構を直接適用するのではなく、プライベートにデータを生成する。 解決策は、データのプライバシを保存する方法で、プライベートデータから公開データを作成することである。 本研究では,プライベート時系列分類の文脈において,非常に顕著な2つのGANアーキテクチャを評価した。 主にイメージドメインに限定された以前の作業とは対照的に、このベンチマークの範囲は時系列ドメインだった。 実験によると、特にGSWGANは、競合するDPWGANよりも優れた、さまざまな公開データセットでよく機能している。 生成されたデータセットの分析により、時系列生成の文脈におけるGSWGANの優位性をさらに検証する。

Deep learning has proven to be successful in various domains and for different tasks. However, when it comes to private data several restrictions are making it difficult to use deep learning approaches in these application fields. Recent approaches try to generate data privately instead of applying a privacy-preserving mechanism directly, on top of the classifier. The solution is to create public data from private data in a manner that preserves the privacy of the data. In this work, two very prominent GAN-based architectures were evaluated in the context of private time series classification. In contrast to previous work, mostly limited to the image domain, the scope of this benchmark was the time series domain. The experiments show that especially GSWGAN performs well across a variety of public datasets outperforming the competitor DPWGAN. An analysis of the generated datasets further validates the superiority of GSWGAN in the context of time series generation.
翻訳日:2023-04-20 16:52:38 公開日:2023-04-19
# MD-VQA:UGCライブビデオの多次元品質評価

MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos ( http://arxiv.org/abs/2303.14933v2 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Wu, Wei Sun, Dangyang Tu, Wei Lu, Xiongkuo Min, Ying Chen, Guangtao Zhai(参考訳) ユーザ生成コンテンツ(UGC)ライブビデオは、キャプチャ手順中に様々な歪みに悩まされ、様々な視覚特性を示す。 このようなソースビデオはさらに圧縮され、メディアサーバプロバイダによってエンコードされ、エンドユーザに配布される。 UGCライブビデオの興隆により、配信プロセスにおけるライブストリーミングビデオの監視とパーセプションに有効なビデオ品質評価(VQA)ツールが必要である。 本稿では,第一種主観的UGC Live VQAデータベースを構築し,有効な評価ツールを開発することで,‘textbf{UGC Live VQA} 問題に対処する。 具体的には、実際のライブストリーミングシナリオで418のソースUGCビデオを収集し、その後の主観的VQA実験のために、異なるビットレートで3,762個の圧縮映像を生成する。 構築したデータベースに基づいて,UGCライブビデオの視覚的品質を,それぞれ意味的,歪み,動き的側面から測定する,Shaunderline{M}ulti-\underline{D}imensional \underline{VQA} (\textbf{MD-VQA})評価器を開発した。 MD-VQAはUGC Live VQAデータベースと既存の圧縮されたUGC VQAデータベースの両方で最先端の性能を実現する。

User-generated content (UGC) live videos are often bothered by various distortions during capture procedures and thus exhibit diverse visual qualities. Such source videos are further compressed and transcoded by media server providers before being distributed to end-users. Because of the flourishing of UGC live videos, effective video quality assessment (VQA) tools are needed to monitor and perceptually optimize live streaming videos in the distributing process. In this paper, we address \textbf{UGC Live VQA} problems by constructing a first-of-a-kind subjective UGC Live VQA database and developing an effective evaluation tool. Concretely, 418 source UGC videos are collected in real live streaming scenarios and 3,762 compressed ones at different bit rates are generated for the subsequent subjective VQA experiments. Based on the built database, we develop a \underline{M}ulti-\underline{D}imensional \underline{VQA} (\textbf{MD-VQA}) evaluator to measure the visual quality of UGC live videos from semantic, distortion, and motion aspects respectively. Extensive experimental results show that MD-VQA achieves state-of-the-art performance on both our UGC Live VQA database and existing compressed UGC VQA databases.
翻訳日:2023-04-20 16:52:26 公開日:2023-04-19
# 物体検出のための未知のスニッファー: 未知の物体に盲目を向けるな

Unknown Sniffer for Object Detection: Don't Turn a Blind Eye to Unknown Objects ( http://arxiv.org/abs/2303.13769v2 )

ライセンス: Link先を確認
Wenteng Liang, Feng Xue, Yihao Liu, Guofeng Zhong, Anlong Ming(参考訳) 最近提案されたオープンワールドオブジェクトとオープンセット検出は、決して認識されないオブジェクトを発見し、それらを既知のオブジェクトと区別するブレークスルーを達成した。 しかし、既知のクラスから未知のクラスへの知識伝達に関する研究は、十分に深くないため、背景に隠れている未知のクラスを検出する能力が不足している。 本稿では,未知のオブジェクトと未知のオブジェクトの両方を見つけるための未知のスニファー(UnSniffer)を提案する。 まず、一般的なオブジェクト信頼度(GOC)スコアを導入し、既知のサンプルのみを監視に使用し、背景にある未知の不正な抑制を回避する。 特に、既知のオブジェクトから学んだ信頼度スコアは、未知のものまで一般化することができる。 さらに,背景の非対象サンプルをさらに抑制するために,負のエネルギー抑制損失を提案する。 次に、各未知の最良のボックスは、トレーニング中に意味情報を欠いているため、推論中に取得することが難しい。 この問題を解決するために,手動設計による非最大抑圧(NMS)後処理を置き換えるグラフベースの決定手法を提案する。 最後に,未知の物体検出ベンチマーク(Unknown Object Detection Benchmark)を提案する。 実験の結果,本手法は既存の最先端手法よりもはるかに優れていることがわかった。

The recently proposed open-world object and open-set detection have achieved a breakthrough in finding never-seen-before objects and distinguishing them from known ones. However, their studies on knowledge transfer from known classes to unknown ones are not deep enough, resulting in the scanty capability for detecting unknowns hidden in the background. In this paper, we propose the unknown sniffer (UnSniffer) to find both unknown and known objects. Firstly, the generalized object confidence (GOC) score is introduced, which only uses known samples for supervision and avoids improper suppression of unknowns in the background. Significantly, such confidence score learned from known objects can be generalized to unknown ones. Additionally, we propose a negative energy suppression loss to further suppress the non-object samples in the background. Next, the best box of each unknown is hard to obtain during inference due to lacking their semantic information in training. To solve this issue, we introduce a graph-based determination scheme to replace hand-designed non-maximum suppression (NMS) post-processing. Finally, we present the Unknown Object Detection Benchmark, the first publicly benchmark that encompasses precision evaluation for unknown detection to our knowledge. Experiments show that our method is far better than the existing state-of-the-art methods.
翻訳日:2023-04-20 16:51:31 公開日:2023-04-19
# 2023年。 実世界展開のための良質なレコメンダシステム

EvalRS 2023. Well-Rounded Recommender Systems For Real-World Deployments ( http://arxiv.org/abs/2304.07145v2 )

ライセンス: Link先を確認
Federico Bianchi, Patrick John Chia, Ciro Greco, Claudio Pomo, Gabriel Moreira, Davide Eynard, Fahd Husain, Jacopo Tagliabue(参考訳) EvalRSは、業界や学界の実践者たちを集めて、さまざまなデプロイメントシナリオにおける現実の影響に焦点を当てた、レコメンダシステムの丸い評価に関する議論を促進することを目的としている。 レコメンダシステムは、しばしば精度の指標によってのみ評価され、それらの一般化能力を完全に特徴づけることができず、公正性、バイアス、有用性、情報性といった重要な側面を見逃す。 このワークショップは、CIKMでの昨年のワークショップの成功に基づいているが、幅広いスコープとインタラクティブなフォーマットがある。

EvalRS aims to bring together practitioners from industry and academia to foster a debate on rounded evaluation of recommender systems, with a focus on real-world impact across a multitude of deployment scenarios. Recommender systems are often evaluated only through accuracy metrics, which fall short of fully characterizing their generalization capabilities and miss important aspects, such as fairness, bias, usefulness, informativeness. This workshop builds on the success of last year's workshop at CIKM, but with a broader scope and an interactive format.
翻訳日:2023-04-20 16:43:44 公開日:2023-04-19
# 転がりシャッター画像とイベントからの自己監督されたシーンダイナミックリカバリ

Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and Events ( http://arxiv.org/abs/2304.06930v2 )

ライセンス: Link先を確認
Yangguang Wang, Xiang Zhang, Mingyuan Lin, Lei Yu, Boxin Shi, Wen Yang, and Gui-Song Xia(参考訳) 歪んだローリングシャッター(RS)画像を非歪な高フレームレートのGlobal Shutter(GS)ビデオに反転させることによるシーンダイナミックリカバリ(SDR)は、RSフレーム内スキャンラインとフレーム間露出の両方において時間的ダイナミック情報が欠落しているため、特にカメラや物体の動きに関する事前の知識が利用できないため、深刻な問題となる。 シーンや動きやデータ特有の特性に関する人工的な仮定は、現実のシナリオにおいて最適なサブソリューションを作り出す傾向がある。 この課題に対処するために,自己教師付き学習パラダイム(SelfUnroll)内でイベントベースのSDRネットワークを提案する。 イベントカメラの時間分解能を極端に高め、フレーム間/フレーム間のダイナミックな正確な情報を提供する。 具体的には,イベントベースのフレーム間補償器(E-IC)を提案し,時間遷移と空間変換を含む任意の時間間隔間の画素単位のダイナミクスを予測する。 RS-RS, RS-GS, GS-RSの接続関係を探索し, 提案したE-ICとの相互制約を明示的に定式化し, GS画像のない監視を行う。 合成および実データに対する広範囲な評価は,提案手法が最先端を達成し,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて顕著な性能を示すことを示す。 データセットとコードはhttps://w3un.github.io/selfunroll/で入手できる。

Scene Dynamic Recovery (SDR) by inverting distorted Rolling Shutter (RS) images to an undistorted high frame-rate Global Shutter (GS) video is a severely ill-posed problem due to the missing temporal dynamic information in both RS intra-frame scanlines and inter-frame exposures, particularly when prior knowledge about camera/object motions is unavailable. Commonly used artificial assumptions on scenes/motions and data-specific characteristics are prone to producing sub-optimal solutions in real-world scenarios. To address this challenge, we propose an event-based SDR network within a self-supervised learning paradigm, i.e., SelfUnroll. We leverage the extremely high temporal resolution of event cameras to provide accurate inter/intra-frame dynamic information. Specifically, an Event-based Inter/intra-frame Compensator (E-IC) is proposed to predict the per-pixel dynamic between arbitrary time intervals, including the temporal transition and spatial translation. Exploring connections in terms of RS-RS, RS-GS, and GS-RS, we explicitly formulate mutual constraints with the proposed E-IC, resulting in supervisions without ground-truth GS images. Extensive evaluations over synthetic and real datasets demonstrate that the proposed method achieves state-of-the-art and shows remarkable performance for event-based RS2GS inversion in real-world scenarios. The dataset and code are available at https://w3un.github.io/selfunroll/.
翻訳日:2023-04-20 16:43:34 公開日:2023-04-19
# PDFVQA:PDFドキュメント上の実世界のVQAのための新しいデータセット

PDFVQA: A New Dataset for Real-World VQA on PDF Documents ( http://arxiv.org/abs/2304.06447v3 )

ライセンス: Link先を確認
Yihao Ding, Siwen Luo, Hyunsuk Chung, Soyeon Caren Han(参考訳) 文書ベースの視覚的質問応答は、自然言語質問の条件下で文書画像の文書理解を調べる。 文書要素認識,文書レイアウト構造理解,コンテキスト理解,キー情報抽出など,さまざまな側面から文書理解を包括的に検討するための文書ベースVQAデータセットであるPDF-VQAを提案する。 我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。 また、異なる文書要素間の空間的・階層的構造関係を明示的に統合し、文書構造理解を促進するグラフベースの新しいVQAモデルを提案する。 パフォーマンスは、異なる質問タイプ上のいくつかのベースラインと比較され、tasks\footnote{the full datasetは、紙の受け入れ後にリリースされる。

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.
翻訳日:2023-04-20 16:43:02 公開日:2023-04-19
# カーネル回帰による対人訓練におけるオーバーフィッティングの理解

Understanding Overfitting in Adversarial Training via Kernel Regression ( http://arxiv.org/abs/2304.06326v2 )

ライセンス: Link先を確認
Teng Zhang, Kang Li(参考訳) ニューラルネットワークの性能を高めるために、逆トレーニングとノイズによるデータ拡張が広く採用されている。 本稿では,再生核ヒルベルト空間(rkhs)における正規化回帰の文脈における雑音を伴う逆訓練とデータ拡張について検討する。 攻撃と雑音の大きさ、正規化パラメータがゼロになる傾向にあるため、これらの手法の制限式を定式化します。 この制限公式に基づいて、特定のシナリオを分析し、適切な正規化がなければ、この2つの方法が標準カーネル回帰よりも大きな一般化誤差とリプシッツ定数を持つことを実証する。 しかし、適切な正規化パラメータを選択することで、これらの2つの方法は標準カーネル回帰よりも優れ、より小さな一般化誤差とリプシッツ定数を達成することができる。 これらの知見は、敵の訓練が過度な適合につながるという経験的観察を支持し、早期停止のような適切な正規化手法はこの問題を軽減することができる。

Adversarial training and data augmentation with noise are widely adopted techniques to enhance the performance of neural networks. This paper investigates adversarial training and data augmentation with noise in the context of regularized regression in a reproducing kernel Hilbert space (RKHS). We establish the limiting formula for these techniques as the attack and noise size, as well as the regularization parameter, tend to zero. Based on this limiting formula, we analyze specific scenarios and demonstrate that, without appropriate regularization, these two methods may have larger generalization error and Lipschitz constant than standard kernel regression. However, by selecting the appropriate regularization parameter, these two methods can outperform standard kernel regression and achieve smaller generalization error and Lipschitz constant. These findings support the empirical observations that adversarial training can lead to overfitting, and appropriate regularization methods, such as early stopping, can alleviate this issue.
翻訳日:2023-04-20 16:42:47 公開日:2023-04-19
# イオンキャビティ系における3次例外点

Third-order exceptional point in an ion-cavity system ( http://arxiv.org/abs/2304.05886v2 )

ライセンス: Link先を確認
Jinuk Kim, Taegyu Ha, Donggeon Kim, Dowon Lee, Ki-Se Lee, Jongcheol Won, Youngil Moon, Moonjoo Lee(参考訳) イオンキャビティ設定における3次例外点(EP3)の観測方法について検討する。 ラムダ型のレベル設定では、イオンはポンプ磁場によって駆動され、共振器は別の弱いレーザー磁場でプローブされる。 我々は、イオンの励起状態の高度非対称分岐比を利用して弱励起極限を満たすので、非エルミート的ハミルトニアン$(H_{\textrm{nH}})$を構築することができる。 共振器透過スペクトルに適合すると、$H_{\textrm{nH}}$の固有値が得られる。 EP3は、ポンプレーザのラビ周波数と原子空洞結合が系の損失率を一定にバランスする点に現れる。 可能な実験パラメータが提供される。

We investigate a scheme for observing the third-order exceptional point (EP3) in an ion-cavity setting. In the lambda-type level configuration, the ion is driven by a pump field, and the resonator is probed with another weak laser field. We exploit the highly asymmetric branching ratio of an ion's excited state to satisfy the weak-excitation limit, which allows us to construct the non-Hermitian Hamiltonian $(H_{\textrm{nH}})$. Via fitting the cavity-transmission spectrum, the eigenvalues of $H_{\textrm{nH}}$ are obtained. The EP3 appears at a point where the Rabi frequency of the pump laser and the atom-cavity coupling constant balance the loss rates of the system. Feasible experimental parameters are provided.
翻訳日:2023-04-20 16:42:32 公開日:2023-04-19
# ディープグラフ表現学習に関する包括的調査

A Comprehensive Survey on Deep Graph Representation Learning ( http://arxiv.org/abs/2304.05055v2 )

ライセンス: Link先を確認
Wei Ju, Zheng Fang, Yiyang Gu, Zequn Liu, Qingqing Long, Ziyue Qiao, Yifang Qin, Jianhao Shen, Fang Sun, Zhiping Xiao, Junwei Yang, Jingyang Yuan, Yusheng Zhao, Xiao Luo, Ming Zhang(参考訳) グラフ表現学習は、高次元スパースグラフ構造化データを低次元密度ベクトルに効果的に符号化することを目的としており、これは機械学習やデータマイニングなど様々な分野で広く研究されている基本的なタスクである。 古典的なグラフ埋め込み手法は、グラフ内の連結ノードの埋め込みベクトルが比較的近い距離を維持できるという基本的な考え方に従っており、グラフ内のノード間の構造情報を保存できる。 しかし、これは以下の点で最適である。 (i)従来の手法は、学習性能を制限する限られたモデル能力を有する。 (二)既存の技術は一般に教師なしの学習戦略に依存し、最新の学習パラダイムと相容れない。 (iii)表現学習と下流課題は相互に依存し、協調的に強化されるべきである。 ディープラーニングの成功により、深層グラフ表現学習は、浅い(伝統的な)手法よりも大きな可能性と利点を示し、過去10年間、特にグラフニューラルネットワークにおいて、多くの深層グラフ表現学習技術が提案されてきた。 本研究では,現在の深層グラフ表現学習アルゴリズムの包括的調査を行い,現状の文献の新しい分類法を提案する。 具体的には,グラフ表現学習の基本要素を体系的に要約し,グラフニューラルネットワークアーキテクチャと最新の学習パラダイムを用いて既存のアプローチを分類する。 さらに,本調査は,深層グラフ表現学習の実践的かつ有望な応用も提供する。 最後に、我々は新たな視点を述べ、今後のさらなる調査に値する挑戦的な方向性を提案する。

Graph representation learning aims to effectively encode high-dimensional sparse graph-structured data into low-dimensional dense vectors, which is a fundamental task that has been widely studied in a range of fields, including machine learning and data mining. Classic graph embedding methods follow the basic idea that the embedding vectors of interconnected nodes in the graph can still maintain a relatively close distance, thereby preserving the structural information between the nodes in the graph. However, this is sub-optimal due to: (i) traditional methods have limited model capacity which limits the learning performance; (ii) existing techniques typically rely on unsupervised learning strategies and fail to couple with the latest learning paradigms; (iii) representation learning and downstream tasks are dependent on each other which should be jointly enhanced. With the remarkable success of deep learning, deep graph representation learning has shown great potential and advantages over shallow (traditional) methods, there exist a large number of deep graph representation learning techniques have been proposed in the past decade, especially graph neural networks. In this survey, we conduct a comprehensive survey on current deep graph representation learning algorithms by proposing a new taxonomy of existing state-of-the-art literature. Specifically, we systematically summarize the essential components of graph representation learning and categorize existing approaches by the ways of graph neural network architectures and the most recent advanced learning paradigms. Moreover, this survey also provides the practical and promising applications of deep graph representation learning. Last but not least, we state new perspectives and suggest challenging directions which deserve further investigations in the future.
翻訳日:2023-04-20 16:42:18 公開日:2023-04-19
# 訓練可能なアクティベーション機能を有するスパースニューラルネットワークのベイズ最適化

Bayesian optimization for sparse neural networks with trainable activation functions ( http://arxiv.org/abs/2304.04455v2 )

ライセンス: Link先を確認
Mohamed Fakhfakh and Lotfi Chaari(参考訳) ディープニューラルネットワークに関する文献では、ニューラルネットワークの性能を向上させる活性化関数の開発にかなりの関心がある。 近年,ネットワーク性能の向上を図り,特に過度な適合を減らし,学習過程を通じてトレーニング可能な活性化関数の提案に,新たな科学的関心が寄せられている。 本稿では,パラメータを推定する必要があるトレーニング可能なアクティベーション関数を提案する。 モデル重みと活性化関数パラメータの両方から学習データを自動的に推定する完全ベイズモデルを開発した。 MCMCに基づく最適化手法が提案されている。 提案手法は,グローバルな最大値への収束を保証する効率的なサンプリング手法を用いて,上記の問題を解決すること,収束時間を改善することを目的とする。 提案手法は3つの異なるCNNを持つ3つのデータセットで検証される。 提案手法は,活性化関数によるモデル精度の向上とパラメータのベイズ推定に有用であることを示す。

In the literature on deep neural networks, there is considerable interest in developing activation functions that can enhance neural network performance. In recent years, there has been renewed scientific interest in proposing activation functions that can be trained throughout the learning process, as they appear to improve network performance, especially by reducing overfitting. In this paper, we propose a trainable activation function whose parameters need to be estimated. A fully Bayesian model is developed to automatically estimate from the learning data both the model weights and activation function parameters. An MCMC-based optimization scheme is developed to build the inference. The proposed method aims to solve the aforementioned problems and improve convergence time by using an efficient sampling scheme that guarantees convergence to the global maximum. The proposed scheme is tested on three datasets with three different CNNs. Promising results demonstrate the usefulness of our proposed approach in improving model accuracy due to the proposed activation function and Bayesian estimation of the parameters.
翻訳日:2023-04-20 16:41:55 公開日:2023-04-19
# 未知のダイナミクスによる長期公正性

Long-Term Fairness with Unknown Dynamics ( http://arxiv.org/abs/2304.09362v1 )

ライセンス: Link先を確認
Tongxin Yin, Reilly Raab, Mingyan Liu, Yang Liu(参考訳) 機械学習はミオプティックに社会的不平等を補強するが、平等な結果を動的に求めるためにも用いられる。 本稿では,オンライン強化学習の文脈における長期公正性を定式化する。 この定式化は、人口状態に固有の運転株式など、公正性の静的な定式化に組み込むことができない動的制御目的を満たすことができる。 このフレーミングによってアルゴリズムが未知のダイナミクスに適応できることを実証し、より望ましい平衡に向けて分類器人口システムを駆動する短期的インセンティブを犠牲にすることで証明する。 提案手法では,オンライン学習における最近の研究に適応するアルゴリズムを開発する。 本アルゴリズムは,人口集団間の統計的規則性として,累積損失と累積フェアネス違反の同時確率境界を実現する。 提案手法は,筋タイプ分類器の再訓練をベースラインとして繰り返し行うことと,安全性保証を欠いた深層強化学習アルゴリズムと比較した。 我々の実験は進化ゲーム理論に従って人間の人口をモデル化し、実世界のデータセットを統合する。

While machine learning can myopically reinforce social inequalities, it may also be used to dynamically seek equitable outcomes. In this paper, we formalize long-term fairness in the context of online reinforcement learning. This formulation can accommodate dynamical control objectives, such as driving equity inherent in the state of a population, that cannot be incorporated into static formulations of fairness. We demonstrate that this framing allows an algorithm to adapt to unknown dynamics by sacrificing short-term incentives to drive a classifier-population system towards more desirable equilibria. For the proposed setting, we develop an algorithm that adapts recent work in online learning. We prove that this algorithm achieves simultaneous probabilistic bounds on cumulative loss and cumulative violations of fairness (as statistical regularities between demographic groups). We compare our proposed algorithm to the repeated retraining of myopic classifiers, as a baseline, and to a deep reinforcement learning algorithm that lacks safety guarantees. Our experiments model human populations according to evolutionary game theory and integrate real-world datasets.
翻訳日:2023-04-20 15:58:14 公開日:2023-04-19
# ディープニューラルネットワークにおける3次元一般化の性質の検討

Investigating the Nature of 3D Generalization in Deep Neural Networks ( http://arxiv.org/abs/2304.09358v1 )

ライセンス: Link先を確認
Shoaib Ahmed Siddiqui, David Krueger, Thomas Breuel(参考訳) 視覚物体認識システムは、2次元のトレーニングビューから新しいビューに一般化する必要がある。 人間の視覚システムがどのように新しい視点に一般化できるかという問題は、心理学、コンピュータビジョン、神経科学で研究され、モデル化されている。 オブジェクト認識のための現代のディープラーニングアーキテクチャは、新しい視点によく一般化するが、メカニズムはよく理解されていない。 本稿では,一般的なディープラーニングアーキテクチャが新規な視点に一般化する能力を特徴付ける。 これは、ラベルがユニークな3dオブジェクトに対応し、サンプルが異なる3d方向のオブジェクトの2dビューに対応する教師付き分類タスクとして定式化します。 一般化の一般的な3つのモデルを考える。 (i)完全な3次元一般化 (ii)純粋な2次元マッチング、および (iii)ビューの線形な組み合わせに基づくマッチング。 深いモデルは、新しいビューにうまく一般化するが、これらすべての既存モデルと異なる方法でそれを実現している。 トレーニングセットのビューがカバーする範囲を超えたビューの補間は制限され、新しい回転軸への補間は更に制限され、ネットワークが完全な3d構造を推論したり、線形補間を使ったりしないことを意味する。 しかし、一般化は純粋な2Dマッチングよりもはるかに優れている。 これらの結果は,3次元一般化を実現するために必要な2次元ビューを備えたデータセットの設計に役立つ。 実験を再現するコードは、https://github.com/shoaibahmed/investigating_3d_ generalization.git.comで公開されている。

Visual object recognition systems need to generalize from a set of 2D training views to novel views. The question of how the human visual system can generalize to novel views has been studied and modeled in psychology, computer vision, and neuroscience. Modern deep learning architectures for object recognition generalize well to novel views, but the mechanisms are not well understood. In this paper, we characterize the ability of common deep learning architectures to generalize to novel views. We formulate this as a supervised classification task where labels correspond to unique 3D objects and examples correspond to 2D views of the objects at different 3D orientations. We consider three common models of generalization to novel views: (i) full 3D generalization, (ii) pure 2D matching, and (iii) matching based on a linear combination of views. We find that deep models generalize well to novel views, but they do so in a way that differs from all these existing models. Extrapolation to views beyond the range covered by views in the training set is limited, and extrapolation to novel rotation axes is even more limited, implying that the networks do not infer full 3D structure, nor use linear interpolation. Yet, generalization is far superior to pure 2D matching. These findings help with designing datasets with 2D views required to achieve 3D generalization. Code to reproduce our experiments is publicly available: https://github.com/shoaibahmed/investigating_3d_generalization.git
翻訳日:2023-04-20 15:57:59 公開日:2023-04-19
# 圧縮または圧縮しない -- 自己教師付き学習と情報理論:レビュー

To Compress or Not to Compress -- Self-Supervised Learning and Information Theory: A Review ( http://arxiv.org/abs/2304.09355v1 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv and Yann LeCun(参考訳) ディープニューラルネットワークは教師付き学習タスクにおいて顕著な性能を示しているが、大量のラベル付きデータを必要とする。 自己組織化学習は代替のパラダイムを提供し、明示的なラベルなしでモデルがデータから学習できるようにする。 情報理論はディープニューラルネットワークの理解と最適化に役立っている。 具体的には、情報ボトルネック原理を適用し、教師付き設定における圧縮と関連する情報保存のトレードオフを最適化する。 しかし,自己教師付き学習における最適な情報目標はいまだ不明である。 本稿では,情報理論の観点からの自己教師型学習への様々なアプローチをレビューし,情報理論的学習問題を定式化する統一フレームワークを提案する。 既存の研究をコヒーレントなフレームワークに統合し、最近の自己監督手法を調査し、研究の機会と課題を特定します。 さらに,情報理論量とその推定器の実証測定について論じる。 本稿では,情報理論,自己教師付き学習,深層ニューラルネットワークの交点を網羅的に検討する。

Deep neural networks have demonstrated remarkable performance in supervised learning tasks but require large amounts of labeled data. Self-supervised learning offers an alternative paradigm, enabling the model to learn from data without explicit labels. Information theory has been instrumental in understanding and optimizing deep neural networks. Specifically, the information bottleneck principle has been applied to optimize the trade-off between compression and relevant information preservation in supervised settings. However, the optimal information objective in self-supervised learning remains unclear. In this paper, we review various approaches to self-supervised learning from an information-theoretic standpoint and present a unified framework that formalizes the \textit{self-supervised information-theoretic learning problem}. We integrate existing research into a coherent framework, examine recent self-supervised methods, and identify research opportunities and challenges. Moreover, we discuss empirical measurement of information-theoretic quantities and their estimators. This paper offers a comprehensive review of the intersection between information theory, self-supervised learning, and deep neural networks.
翻訳日:2023-04-20 15:57:37 公開日:2023-04-19
# 長期安全のための炭素貯蔵の最適化

Optimizing Carbon Storage Operations for Long-Term Safety ( http://arxiv.org/abs/2304.09352v1 )

ライセンス: Link先を確認
Yizheng Wang and Markus Zechner and Gege Wen and Anthony Louis Corso and John Michael Mern and Mykel J. Kochenderfer and Jef Karel Caers(参考訳) 地球温暖化に対処し、気候変動に伴うリスクを軽減するため、炭素捕獲・貯蔵(CCS)が重要な技術として浮上している。 しかし、長期保存のための地質学的構造におけるCO2の安全な隔離は、いくつかの課題をもたらす。 本研究では,炭素貯蔵業務の意思決定過程を部分可観測マルコフ決定プロセス(pomdp)としてモデル化することにより,これらの課題を解決する。 我々は,PMDPを信頼状態計画を用いて解決し,安全を維持しつつ,貯蔵したCO2を最大化することを目的とする。 シミュレーション実験の結果, 長期的な炭素貯蔵の安全確保に有効であることが示された。 3つの異なるモニタリング戦略を導入し、意思決定品質への影響を調べることで、私たちのアプローチの柔軟性を示す。 さらに,多相流の複雑なダイナミクスを扱うために,pomdp意思決定プロセスのためのニューラルネットワークサロゲートモデルを提案する。 また,サロゲートモデルの異なる忠実度レベルが意思決定品質に及ぼす影響についても検討した。

To combat global warming and mitigate the risks associated with climate change, carbon capture and storage (CCS) has emerged as a crucial technology. However, safely sequestering CO2 in geological formations for long-term storage presents several challenges. In this study, we address these issues by modeling the decision-making process for carbon storage operations as a partially observable Markov decision process (POMDP). We solve the POMDP using belief state planning to optimize injector and monitoring well locations, with the goal of maximizing stored CO2 while maintaining safety. Empirical results in simulation demonstrate that our approach is effective in ensuring safe long-term carbon storage operations. We showcase the flexibility of our approach by introducing three different monitoring strategies and examining their impact on decision quality. Additionally, we introduce a neural network surrogate model for the POMDP decision-making process to handle the complex dynamics of the multi-phase flow. We also investigate the effects of different fidelity levels of the surrogate model on decision qualities.
翻訳日:2023-04-20 15:57:19 公開日:2023-04-19
# 初期リンゴ花の機械視システムと精密薄型化・受粉のための花団検出

Machine Vision System for Early-stage Apple Flowers and Flower Clusters Detection for Precision Thinning and Pollination ( http://arxiv.org/abs/2304.09351v1 )

ライセンス: Link先を確認
Salik Ram Khanal, Ranjan Sapkota, Dawood Ahmed, Uddhav Bhattarai, Manoj Karkee(参考訳) 果樹園環境において開花と開花の両方の状態にある果実の花の早期識別は,自動およびロボットプラットフォームを用いて,開花や受粉などの作物負荷管理を行うための重要な情報である。 これらの操作は、果実の品質を高め、作物の負荷を管理し、全体の利益を高めるために、果樹栽培において重要である。 農業オートメーションの最近の開発は、機械ビジョン技術を含むロボティクスを使ってこれを実現できることを示唆している。 本稿では, YOLOv5オブジェクト検出アルゴリズムを用いて, 未構造化果樹園環境における早期花の検出を行う視覚システムを提案する。 ロボット工学の実装においては,花の房の位置はロボットとエンドエフェクタをナビゲートするために重要である。 開花と開花の両方の)個々の花のセントロイドを同定し,K平均クラスタリングによる花団と関連づけた。 開花・開花検出の精度は、商業用果樹園画像において81.9%のmAPに達する。

Early-stage identification of fruit flowers that are in both opened and unopened condition in an orchard environment is significant information to perform crop load management operations such as flower thinning and pollination using automated and robotic platforms. These operations are important in tree-fruit agriculture to enhance fruit quality, manage crop load, and enhance the overall profit. The recent development in agricultural automation suggests that this can be done using robotics which includes machine vision technology. In this article, we proposed a vision system that detects early-stage flowers in an unstructured orchard environment using YOLOv5 object detection algorithm. For the robotics implementation, the position of a cluster of the flower blossom is important to navigate the robot and the end effector. The centroid of individual flowers (both open and unopen) was identified and associated with flower clusters via K-means clustering. The accuracy of the opened and unopened flower detection is achieved up to mAP of 81.9% in commercial orchard images.
翻訳日:2023-04-20 15:57:03 公開日:2023-04-19
# ロボット脳としてのLLM : エゴセントリック記憶と制御の統合

LLM as A Robotic Brain: Unifying Egocentric Memory and Control ( http://arxiv.org/abs/2304.09349v1 )

ライセンス: Link先を確認
Jinjie Mai, Jun Chen, Bing Li, Guocheng Qian, Mohamed Elhoseiny, Bernard Ghanem(参考訳) embodied aiは、物理的または仮想の体型(つまりロボット)を持ち、環境と動的に相互作用できるインテリジェントなシステムの研究と開発に焦点を当てている。 メモリと制御は、具体化されたシステムの2つの重要な部分であり、通常、それぞれをモデル化するために別々のフレームワークが必要です。 本稿では,ロボット脳として大規模言語モデルを用いて自己中心記憶と制御を統一する,llm-brainと呼ばれる新しい汎用フレームワークを提案する。 LLM-Brainフレームワークは、ゼロショット学習アプローチを利用して、ロボットタスクのための複数のマルチモーダル言語モデルを統合する。 LLM-Brain内の全てのコンポーネントは、認識、計画、制御、記憶を含む閉ループ多ラウンド対話において自然言語を用いて通信する。 システムのコアは、エゴセントリックメモリを維持し、ロボットを制御するための具体化されたllmである。 LLM-Brainは,アクティブ探索と具体的質問応答という,下流の2つの課題を調べることで実証する。 アクティブな探索タスクでは、ロボットは限られた数のアクションで未知の環境を広範囲に探索する必要がある。 一方、具体的質問応答タスクでは、ロボットが事前探索中に得られた観察に基づいて質問に答える必要がある。

Embodied AI focuses on the study and development of intelligent systems that possess a physical or virtual embodiment (i.e. robots) and are able to dynamically interact with their environment. Memory and control are the two essential parts of an embodied system and usually require separate frameworks to model each of them. In this paper, we propose a novel and generalizable framework called LLM-Brain: using Large-scale Language Model as a robotic brain to unify egocentric memory and control. The LLM-Brain framework integrates multiple multimodal language models for robotic tasks, utilizing a zero-shot learning approach. All components within LLM-Brain communicate using natural language in closed-loop multi-round dialogues that encompass perception, planning, control, and memory. The core of the system is an embodied LLM to maintain egocentric memory and control the robot. We demonstrate LLM-Brain by examining two downstream tasks: active exploration and embodied question answering. The active exploration tasks require the robot to extensively explore an unknown environment within a limited number of actions. Meanwhile, the embodied question answering tasks necessitate that the robot answers questions based on observations acquired during prior explorations.
翻訳日:2023-04-20 15:56:44 公開日:2023-04-19
# SP-BatikGAN:対称性パターン生成のための効率的な生成逆ネットワーク

SP-BatikGAN: An Efficient Generative Adversarial Network for Symmetric Pattern Generation ( http://arxiv.org/abs/2304.09384v1 )

ライセンス: Link先を確認
Chrystian, Wahyono(参考訳) AIアートの論争に続き、私たちの研究はAIを、特にアーティストのために、限られたデータと設定でAIアートを作成することに重点を置いています。 我々は幾何学的に対称なパターン生成に興味を持ち、ポルトガル、モロッコのタイル、東南アジアの文化的遺産であるバティクなど多くの美術品に現れる。 対称パターン生成は複雑な問題であり、事前の研究は特定のパターンのみに対して過剰に特定のモデルを作成する。 このタスクのために設計ファイルから直接、1,216の高品質な対称パターンを公に提供します。 次に対称パターン強制(spe)損失を定式化し、現在の画像分布に存在する対称ベースの構造を活用する。 我々のSPEは任意のGAN構成のトレーニングを改善・加速し、SP-BatikGANはFastGANと比較して効率よく注目され、限られた設定のための最先端のGANであり、FIDスコアが110.11から90.76に改善され、18%が減少し、モデルの多様性リコールスコアが0.047から0.204に改善され、334%が増加した。

Following the contention of AI arts, our research focuses on bringing AI for all, particularly for artists, to create AI arts with limited data and settings. We are interested in geometrically symmetric pattern generation, which appears on many artworks such as Portuguese, Moroccan tiles, and Batik, a cultural heritage in Southeast Asia. Symmetric pattern generation is a complex problem, with prior research creating too-specific models for certain patterns only. We provide publicly, the first-ever 1,216 high-quality symmetric patterns straight from design files for this task. We then formulate symmetric pattern enforcement (SPE) loss to leverage underlying symmetric-based structures that exist on current image distributions. Our SPE improves and accelerates training on any GAN configuration, and, with efficient attention, SP-BatikGAN compared to FastGAN, the state-of-the-art GAN for limited setting, improves the FID score from 110.11 to 90.76, an 18% decrease, and model diversity recall score from 0.047 to 0.204, a 334% increase.
翻訳日:2023-04-20 15:48:04 公開日:2023-04-19
# 異化拡散医療モデル

Denoising Diffusion Medical Models ( http://arxiv.org/abs/2304.09383v1 )

ライセンス: Link先を確認
Pham Ngoc Huy, and Tran Minh Quan(参考訳) 本研究では,生物医学的画像解析におけるセグメンテーションなどの下流活動に漸近的に好適な,多数の放射線画像/ラベルペアを合成できる生成モデルを提案する。 提案手法であるDDMM(Denoising Diffusion Medical Model)は,少数の注釈付きデータセットに加えて,監督のない大規模未ラベルデータセットに対して,現実的なX線画像と関連するセグメンテーションを作成することができる。 DDMMサンプリングプロセスによって、確率的モードで共同でX線/セグメンテーションペアを生成する。 その結果、セグメンテーションタスクにこのデータ拡張を使用するバニラUNetは、同様のデータ中心のアプローチよりも優れています。

In this study, we introduce a generative model that can synthesize a large number of radiographical image/label pairs, and thus is asymptotically favorable to downstream activities such as segmentation in bio-medical image analysis. Denoising Diffusion Medical Model (DDMM), the proposed technique, can create realistic X-ray images and associated segmentations on a small number of annotated datasets as well as other massive unlabeled datasets with no supervision. Radiograph/segmentation pairs are generated jointly by the DDMM sampling process in probabilistic mode. As a result, a vanilla UNet that uses this data augmentation for segmentation task outperforms other similarly data-centric approaches.
翻訳日:2023-04-20 15:47:42 公開日:2023-04-19
# 単一光子メモリ計測-デバイス非依存の量子セキュア直接通信-その1 基礎と進化

Single-Photon-Memory Measurement-Device-Independent Quantum Secure Direct Communication -- Part I: Its Fundamentals and Evolution ( http://arxiv.org/abs/2304.09379v1 )

ライセンス: Link先を確認
Xiang-Jie Li, Dong Pan, Gui-Lu Long, and Lajos Hanzo(参考訳) 量子セキュア直接通信(QSDC)は多くの注目を集めており、盗聴に直面する通信の無条件安全性を保証するために、深いルートの量子物理原理を利用している。 まず,QSDCの基礎を概観し,セキュリティ証明,性能向上技術,実践的実装など,その進化について述べる。 最後に,QSDCの今後の方向性について述べる。

Quantum secure direct communication (QSDC) has attracted a lot of attention, which exploits deep-rooted quantum physical principles to guarantee unconditional security of communication in the face of eavesdropping. We first briefly review the fundamentals of QSDC, and then present its evolution, including its security proof, its performance improvement techniques, and practical implementation. Finally, we discuss the future directions of QSDC.
翻訳日:2023-04-20 15:47:31 公開日:2023-04-19
# 海洋表面温度予測のための物理知識強化深部ニューラルネットワーク

Physical Knowledge Enhanced Deep Neural Network for Sea Surface Temperature Prediction ( http://arxiv.org/abs/2304.09376v1 )

ライセンス: Link先を確認
Yuxin Meng, Feng Gao, Eric Rigall, Ran Dong, Junyu Dong, Qian Du(参考訳) 伝統的に、数値モデルは物理方程式を表現して海洋力学をシミュレートするために海洋学研究に展開されてきた。 しかし、海洋力学に関連する多くの要因は未定義であるようである。 観測データからの物理知識の伝達は、海面温度予測(sst)における数値モデルの精度をさらに向上させることができる。 近年、地球観測技術の進歩は、データの顕著な成長をもたらした。 その結果,観測データの蓄積量の増加にともなう数値モデルの改善と補修の方法を探究することが重要である。 そこで本研究では,歴史的観測から数値モデルへ物理知識を伝達するSST予測手法を提案する。 具体的には、エンコーダと生成的逆ネットワーク(gan)の組み合わせを用いて、観測データから物理的知識を捉える。 数値モデルデータは事前訓練されたモデルに入力され、物理強調データを生成し、SST予測に使用できる。 実験により,提案手法は,いくつかの最先端ベースラインと比較して,SST予測性能を著しく向上することを示した。

Traditionally, numerical models have been deployed in oceanography studies to simulate ocean dynamics by representing physical equations. However, many factors pertaining to ocean dynamics seem to be ill-defined. We argue that transferring physical knowledge from observed data could further improve the accuracy of numerical models when predicting Sea Surface Temperature (SST). Recently, the advances in earth observation technologies have yielded a monumental growth of data. Consequently, it is imperative to explore ways in which to improve and supplement numerical models utilizing the ever-increasing amounts of historical observational data. To this end, we introduce a method for SST prediction that transfers physical knowledge from historical observations to numerical models. Specifically, we use a combination of an encoder and a generative adversarial network (GAN) to capture physical knowledge from the observed data. The numerical model data is then fed into the pre-trained model to generate physics-enhanced data, which can then be used for SST prediction. Experimental results demonstrate that the proposed method considerably enhances SST prediction performance when compared to several state-of-the-art baselines.
翻訳日:2023-04-20 15:47:22 公開日:2023-04-19
# Shuffle & Divide: 長文のコントラスト学習

Shuffle & Divide: Contrastive Learning for Long Text ( http://arxiv.org/abs/2304.09374v1 )

ライセンス: Link先を確認
Joonseok Lee, Seongho Joe, Kyoungwon Park, Bogun Kim, Hoyoung Kang, Jaeseon Park, Youngjune Gwon(参考訳) コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。 提案手法の鍵は shuffle and divide (sad) であり、bert ベースの文書埋め込みのコントラスト更新に必要なプリテキストタスクを設定するシンプルなテキスト拡張アルゴリズムである。 SaDは文書全体をランダムにシャッフルされた単語を含む2つのサブドキュメントに分割する。 サブ文書は肯定的な例と見なされ、コーパス内の他の全ての文書は否定的である。 SaDの後、コンバージェンスまでコントラスト更新とクラスタリングフェーズを繰り返します。 テキスト文書をラベル付けするのは当然時間を要する面倒な作業であり、私たちの手法はAIで最も高価なリソースである人間の努力を軽減するのに役立ちます。 我々は,20のニュースグループ,reuters-21578,bbc,bbcsportのデータセットに対して教師なしテキスト分類を行うことで,本手法を実証的に評価した。 特に,現在最先端のss-sb-mtを20のニュースグループに20.94%精度でプッシュする。 また,Reuters-21578の最先端性能と,BBCおよびBBCSportデータセットの教師なし分類において,95%以上の高精度性能を実現した。

We propose a self-supervised learning method for long text documents based on contrastive learning. A key to our method is Shuffle and Divide (SaD), a simple text augmentation algorithm that sets up a pretext task required for contrastive updates to BERT-based document embedding. SaD splits a document into two sub-documents containing randomly shuffled words in the entire documents. The sub-documents are considered positive examples, leaving all other documents in the corpus as negatives. After SaD, we repeat the contrastive update and clustering phases until convergence. It is naturally a time-consuming, cumbersome task to label text documents, and our method can help alleviate human efforts, which are most expensive resources in AI. We have empirically evaluated our method by performing unsupervised text classification on the 20 Newsgroups, Reuters-21578, BBC, and BBCSport datasets. In particular, our method pushes the current state-of-the-art, SS-SB-MT, on 20 Newsgroups by 20.94% in accuracy. We also achieve the state-of-the-art performance on Reuters-21578 and exceptionally-high accuracy performances (over 95%) for unsupervised classification on the BBC and BBCSport datasets.
翻訳日:2023-04-20 15:47:06 公開日:2023-04-19
# ハイパースペクトル画像復調のためのマルチスケール適応核融合ネットワーク

Multi-scale Adaptive Fusion Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2304.09373v1 )

ライセンス: Link先を確認
Haodong Pan, Feng Gao, Junyu Dong, Qian Du(参考訳) ハイパースペクトル画像(HSI)のノイズ除去と視覚的品質向上は,学術・産業において困難である。 局所的・グローバル的・スペクトル的文脈情報をHSI復調に活用する努力が盛んに行われている。 しかし,既存の手法では,複数スケール間における特徴相互作用の活用やスペクトル構造保存に制限がある。 そこで本研究では, クリーンかつノイズの多いHSI間の複雑な非線形マッピングを学習可能なマルチスケール適応核融合ネットワーク(MAFNet)を用いて, HSIデノベーションを探索する新しい手法を提案する。 2つの重要なコンポーネントがハイパースペクトル画像のデノージングを改善するのに寄与している: 漸進的に多スケールな情報集約ネットワークとコアテンション融合モジュールである。 具体的には,まず,マルチスケール画像のセットを生成し,粗い拡散ネットワークに流し込み,文脈的テクスチャ相関を生かした。 その後、微細核融合ネットワークが続き、並列マルチスケールサブネットワークを介して情報を交換する。 さらに、異なる尺度から情報的特徴を適応的に強調するコアテンション融合モジュールを設計し、それによって識別学習能力を向上する。 合成および実HSIデータセットに関する大規模な実験は、提案されたMAFNetが、他の最先端技術よりも優れたノイズ発生性能を達成したことを示している。 私たちのコードは、 \verb'https://github.com/summitgao/MAFNet'で利用可能です。

Removing the noise and improving the visual quality of hyperspectral images (HSIs) is challenging in academia and industry. Great efforts have been made to leverage local, global or spectral context information for HSI denoising. However, existing methods still have limitations in feature interaction exploitation among multiple scales and rich spectral structure preservation. In view of this, we propose a novel solution to investigate the HSI denoising using a Multi-scale Adaptive Fusion Network (MAFNet), which can learn the complex nonlinear mapping between clean and noisy HSI. Two key components contribute to improving the hyperspectral image denoising: A progressively multiscale information aggregation network and a co-attention fusion module. Specifically, we first generate a set of multiscale images and feed them into a coarse-fusion network to exploit the contextual texture correlation. Thereafter, a fine fusion network is followed to exchange the information across the parallel multiscale subnetworks. Furthermore, we design a co-attention fusion module to adaptively emphasize informative features from different scales, and thereby enhance the discriminative learning capability for denoising. Extensive experiments on synthetic and real HSI datasets demonstrate that the proposed MAFNet has achieved better denoising performance than other state-of-the-art techniques. Our codes are available at \verb'https://github.com/summitgao/MAFNet'.
翻訳日:2023-04-20 15:46:44 公開日:2023-04-19
# 3次元高密度再構成:アルゴリズムとデータセットのレビュー

3 Dimensional Dense Reconstruction: A Review of Algorithms and Dataset ( http://arxiv.org/abs/2304.09371v1 )

ライセンス: Link先を確認
Yangming Li(参考訳) 3D高密度再構成は、2次元平面画像から3次元物体の完全な形状とテクスチャ特性を得る過程を指す。 3dリコンストラクションは重要かつ広範囲に研究された問題であるが、解決にはほど遠い。 本研究は,幾何学的および光学的モデルに基づく3次元密再構築の古典的手法と,深層学習に基づく手法を体系的に導入する。 さらに、ディープラーニングのためのデータセットと、これらのデータセット上のディープラーニングメソッドによって示されるパフォーマンスとメリットとデメリットも紹介している。

3D dense reconstruction refers to the process of obtaining the complete shape and texture features of 3D objects from 2D planar images. 3D reconstruction is an important and extensively studied problem, but it is far from being solved. This work systematically introduces classical methods of 3D dense reconstruction based on geometric and optical models, as well as methods based on deep learning. It also introduces datasets for deep learning and the performance and advantages and disadvantages demonstrated by deep learning methods on these datasets.
翻訳日:2023-04-20 15:46:20 公開日:2023-04-19
# ContraCluster: 比較自己スーパービジョンとプロトタイプベースセミスーパービジョンによるラベルなしの分類学習

ContraCluster: Learning to Classify without Labels by Contrastive Self-Supervision and Prototype-Based Semi-Supervision ( http://arxiv.org/abs/2304.09369v1 )

ライセンス: Link先を確認
Seongho Joe, Byoungjip Kim, Hoyoung Kang, Kyoungwon Park, Bogun Kim, Jaeseon Park, Joonseok Lee, Youngjune Gwon(参考訳) 近年の表現学習の進歩は,教師なし画像分類課題の課題を原理的に解決するきっかけとなった。 本研究では,クラスタリングとコントラスト型自己教師学習の能力を組み合わせた教師なし画像分類手法であるContraClusterを提案する。 コントラクラスターは,(1)コントラスト型自己教師付き事前訓練(cpt),(2)コントラスト型プロトタイプサンプリング(cps),(3)プロトタイプ型半教師付き微調整(pb-sft)の3段階からなる。 CPSは、コントラスト学習によって学習された埋め込み空間において、高度に正確で分類学的にプロトタイプ画像を選択することができる。 サンプルプロトタイプをノイズラベル付きデータとして,半教師付き微調整(PB-SFT)を行い,小型プロトタイプと大規模未ラベルデータを活用し,精度の向上を図る。 我々は、contraclusterがcifar-10、stl-10、imagenet-10を含む標準ベンチマークデータセットの新しい最先端結果を達成することを実証的に証明する。 例えば、ContraClusterはCIFAR-10の約90.8%の精度でDAC(52.2%)、ICC(61.7%)、SCAN(87.6%)を上回っている。 ラベルがなければ、contraclusterは90.8%の精度を達成できる。

The recent advances in representation learning inspire us to take on the challenging problem of unsupervised image classification tasks in a principled way. We propose ContraCluster, an unsupervised image classification method that combines clustering with the power of contrastive self-supervised learning. ContraCluster consists of three stages: (1) contrastive self-supervised pre-training (CPT), (2) contrastive prototype sampling (CPS), and (3) prototype-based semi-supervised fine-tuning (PB-SFT). CPS can select highly accurate, categorically prototypical images in an embedding space learned by contrastive learning. We use sampled prototypes as noisy labeled data to perform semi-supervised fine-tuning (PB-SFT), leveraging small prototypes and large unlabeled data to further enhance the accuracy. We demonstrate empirically that ContraCluster achieves new state-of-the-art results for standard benchmark datasets including CIFAR-10, STL-10, and ImageNet-10. For example, ContraCluster achieves about 90.8% accuracy for CIFAR-10, which outperforms DAC (52.2%), IIC (61.7%), and SCAN (87.6%) by a large margin. Without any labels, ContraCluster can achieve a 90.8% accuracy that is comparable to 95.8% by the best supervised counterpart.
翻訳日:2023-04-20 15:46:11 公開日:2023-04-19
# グラフニューラルネットワークを用いた河川ネットワークシステムの異常検出

Graph Neural Network-Based Anomaly Detection for River Network Systems ( http://arxiv.org/abs/2304.09367v1 )

ライセンス: Link先を確認
Katie Buchhorn, Edgar Santos-Fernandez, Kerrie Mengersen, Robert Salomone(参考訳) 水は河川網の活力であり、その品質は水生生態系と人間社会の両方を維持する上で重要な役割を担っている。 水質のリアルタイムモニタリングは, センサ技術に依存しつつある。 異常検出はセンサデータの誤ったパターンを特定するのに不可欠であるが、通常の状況でもデータの複雑さと変動性のために困難な課題となる。 本稿では,水質の高精度かつ連続的なモニタリングに不可欠な河川ネットワークセンサデータの異常検出の課題に対する解決法を提案する。 我々はグラフニューラルネットワークモデル、最近提案されたグラフ偏差ネットワーク(GDN)を用いて、グラフ注意に基づく予測を用いて、センサ間の複雑な時空間関係をキャプチャする。 本稿では,学習グラフに基づいて,モデルの異常しきい値であるGDN+を提案する。 モデルの有効性を評価するため,高度に洗練された依存構造と各種のサブシーケンス異常を用いたベンチマークシミュレーション実験を導入する。 このベースラインアプローチであるgdnの強みと弱みを,複雑な実世界の河川ネットワークデータに対する他のベンチマーク手法と比較して検討する。 GDN+は高次元データのベースラインアプローチよりも優れており、解釈性も向上している。 gnnadというソフトウェアも導入しています。

Water is the lifeblood of river networks, and its quality plays a crucial role in sustaining both aquatic ecosystems and human societies. Real-time monitoring of water quality is increasingly reliant on in-situ sensor technology. Anomaly detection is crucial for identifying erroneous patterns in sensor data, but can be a challenging task due to the complexity and variability of the data, even under normal conditions. This paper presents a solution to the challenging task of anomaly detection for river network sensor data, which is essential for the accurate and continuous monitoring of water quality. We use a graph neural network model, the recently proposed Graph Deviation Network (GDN), which employs graph attention-based forecasting to capture the complex spatio-temporal relationships between sensors. We propose an alternate anomaly threshold criteria for the model, GDN+, based on the learned graph. To evaluate the model's efficacy, we introduce new benchmarking simulation experiments with highly-sophisticated dependency structures and subsequence anomalies of various types. We further examine the strengths and weaknesses of this baseline approach, GDN, in comparison to other benchmarking methods on complex real-world river network data. Findings suggest that GDN+ outperforms the baseline approach in high-dimensional data, while also providing improved interpretability. We also introduce software called gnnad.
翻訳日:2023-04-20 15:45:45 公開日:2023-04-19
# 知覚模倣:自動運転車の合成不要シミュレータを目指して

Perception Imitation: Towards Synthesis-free Simulator for Autonomous Vehicles ( http://arxiv.org/abs/2304.09365v1 )

ライセンス: Link先を確認
Xiaoliang Ju, Yiyang Sun, Yiming Hao, Yikang Li, Yu Qiao, Hongsheng Li(参考訳) 本研究では,ある知覚モデルの結果をシミュレートする知覚模倣法を提案し,データ合成を伴わない自律走行シミュレータの新しいヒューリスティックな経路について論じる。 動機は、意味認識結果の準備が整ったときの計画や制御のようなタスクには、オリジナルのセンサデータが必ずしも必要ではないため、直接知覚をシミュレートする方が経済的かつ効率的である。 本研究は,下流タスクの計測基準と性能のマッチングなどの一連の評価手法を用いて,シミュレーション品質を検証した。 実験により,本手法は学習に基づく知覚モデルの動作をモデル化するのに有効であることを示し,提案するシミュレーション経路をスムーズに適用できることを示した。

We propose a perception imitation method to simulate results of a certain perception model, and discuss a new heuristic route of autonomous driving simulator without data synthesis. The motivation is that original sensor data is not always necessary for tasks such as planning and control when semantic perception results are ready, so that simulating perception directly is more economic and efficient. In this work, a series of evaluation methods such as matching metric and performance of downstream task are exploited to examine the simulation quality. Experiments show that our method is effective to model the behavior of learning-based perception model, and can be further applied in the proposed simulation route smoothly.
翻訳日:2023-04-20 15:45:26 公開日:2023-04-19
# 深層学習コードを使って物事をする方法

How to Do Things with Deep Learning Code ( http://arxiv.org/abs/2304.09406v1 )

ライセンス: Link先を確認
Minh Hua, Rita Raley(参考訳) 本稿の前提は,大規模言語モデルの構成と機能に関する基本的な理解が,極めて緊急的であることである。 そこで我々は,OpenAI の GPT-2 の表現マップを,モデルに関連する深層学習コードの2つのクラスとして記述し,モデルを中心に構築されたアプリケーションを書き込む。 次に、テキストアドベンチャーゲーム、AI Dungeon、言語アートプロジェクトであるThis Word Does Not Existの2つの人気のあるGPT-2アプリケーションのケーススタディを通して、このマップを検証する。 このようなエクササイズによって、学習対象が深層学習コードである場合の臨界コード研究の可能性をテストすることができ、批判的人工知能と批判的機械学習研究のサブフィールドの研究者にとって分析的焦点としてのコードの妥当性を示すことができる。 しかし,本研究は,より広範に,一般ユーザーが深層学習システムの行動と対話し,さらに直接的に対話する手段に注意を向け,さらに「AI」のオーラティックミステリーの一部を解明するための拡張作業を行っている。 注目されているのは、大規模言語モデルの責任ある応用に関する社会技術的コンセンサスを得る可能性であり、また、その創造的能力のより広範に理解され、どのように、どこでエンゲージメントが発生するかを理解し、私たち全員が機械学習システムの開発にもっと積極的に参加できるようになる。

The premise of this article is that a basic understanding of the composition and functioning of large language models is critically urgent. To that end, we extract a representational map of OpenAI's GPT-2 with what we articulate as two classes of deep learning code, that which pertains to the model and that which underwrites applications built around the model. We then verify this map through case studies of two popular GPT-2 applications: the text adventure game, AI Dungeon, and the language art project, This Word Does Not Exist. Such an exercise allows us to test the potential of Critical Code Studies when the object of study is deep learning code and to demonstrate the validity of code as an analytical focus for researchers in the subfields of Critical Artificial Intelligence and Critical Machine Learning Studies. More broadly, however, our work draws attention to the means by which ordinary users might interact with, and even direct, the behavior of deep learning systems, and by extension works toward demystifying some of the auratic mystery of "AI." What is at stake is the possibility of achieving an informed sociotechnical consensus about the responsible applications of large language models, as well as a more expansive sense of their creative capabilities-indeed, understanding how and where engagement occurs allows all of us to become more active participants in the development of machine learning systems.
翻訳日:2023-04-20 15:40:21 公開日:2023-04-19
# ウェーブレットは敵のロバストさで猿を打ち負かす

Wavelets Beat Monkeys at Adversarial Robustness ( http://arxiv.org/abs/2304.09403v1 )

ライセンス: Link先を確認
Jingtong Su and Julia Kempe(参考訳) 敵対的ノイズ(知覚できない悪意のあるデータ摂動)に対するニューラルネットワークの堅牢性を改善する研究が注目されている。 現在実証されていない、堅牢なディープニューラルネットワークを得るための最先端の防御は、敵対的トレーニング(adversarial training:at)だが、標準的なトレーニングに比べてはるかに多くのリソースを消費し、堅牢性のために正確さをトレードオフする。 最近の研究(dapelloら)は、神経生物学のツールを提供することを目的としている:人間の視覚のように堅牢に一般化するニューラルネットをどうやって開発できるのか? dapelloら] 霊長類の一次視覚野(v1)を模倣する神経隠れの第1層でネットワーク構造を設計し、その後、現在のcnn視覚モデルから適応したバックエンド構造をデザインします。 小さな摂動でテストすると、標準ビジョンベンチマークで非自明な敵対的ロバスト性が達成されるようだ。 ここでは、この生物学的にインスパイアされた研究を再検討し、物理から着想を得たパラメータフリー表現が同じ目標を達成することができるかどうかを問う。 ウェーブレット散乱変換は, 複雑なV1座標と単純な一様ガウス雑音に代えて, ニューラル確率性に寄与し, 対向的強靭性を実現する。 適応的な攻撃を伴うcifar-10ベンチマークの広範な実験では、以下のことが示される。 1) VOneBlockアーキテクチャのロバスト性は, 対向攻撃半径の強度が通常用いられるベンチマークに設定された場合, 比較的弱い(ゼロではない)。 2) オフザシェルフパラメータフリーのScatternetでVOneBlockを置き換えた後, 単純な一様ガウス雑音により, 対向訓練を伴わずに, より実質的な対向ロバスト性を実現することができる。 私たちの研究は、物理的にインスパイアされた構造が、これまで人間の皮質を巧みに模倣することでしか考えられていなかった強靭さに対する新たな洞察をいかに生み出すかを示しています。

Research on improving the robustness of neural networks to adversarial noise - imperceptible malicious perturbations of the data - has received significant attention. The currently uncontested state-of-the-art defense to obtain robust deep neural networks is Adversarial Training (AT), but it consumes significantly more resources compared to standard training and trades off accuracy for robustness. An inspiring recent work [Dapello et al.] aims to bring neurobiological tools to the question: How can we develop Neural Nets that robustly generalize like human vision? [Dapello et al.] design a network structure with a neural hidden first layer that mimics the primate primary visual cortex (V1), followed by a back-end structure adapted from current CNN vision models. It seems to achieve non-trivial adversarial robustness on standard vision benchmarks when tested on small perturbations. Here we revisit this biologically inspired work, and ask whether a principled parameter-free representation with inspiration from physics is able to achieve the same goal. We discover that the wavelet scattering transform can replace the complex V1-cortex and simple uniform Gaussian noise can take the role of neural stochasticity, to achieve adversarial robustness. In extensive experiments on the CIFAR-10 benchmark with adaptive adversarial attacks we show that: 1) Robustness of VOneBlock architectures is relatively weak (though non-zero) when the strength of the adversarial attack radius is set to commonly used benchmarks. 2) Replacing the front-end VOneBlock by an off-the-shelf parameter-free Scatternet followed by simple uniform Gaussian noise can achieve much more substantial adversarial robustness without adversarial training. Our work shows how physically inspired structures yield new insights into robustness that were previously only thought possible by meticulously mimicking the human cortex.
翻訳日:2023-04-20 15:39:55 公開日:2023-04-19
# mixpro:プロンプトベース学習のためのシンプルで効果的なデータ拡張

MixPro: Simple yet Effective Data Augmentation for Prompt-based Learning ( http://arxiv.org/abs/2304.09402v1 )

ライセンス: Link先を確認
Bohan Li, Longxu Dou, Yutai Hou, Yunlong Feng, Honglin Mu, Wanxiang Che(参考訳) Promptベースの学習は、元の入力とテンプレートを組み合わせることで、下流タスクをクローゼ問題として再構成する。 このテクニックは、限られたデータ量でモデルがトレーニングされる、少数の学習において特に有用である。 しかし、少数のプロンプトベースの学習で使われる限定的なテンプレートとテキストは、パフォーマンス改善の余地を残している。 さらに、モデルアンサンブルを使った既存のメソッドはモデルの効率を制限できる。 そこで本稿では,バニラ入力テキストとテンプレートの両方をトークンレベル,文レベル,エポックレベルのミックスアップ戦略によって拡張するMixProという手法を提案する。 その結果,mixproは他の拡張ベースラインよりも優れており,拡張前のモデル性能は平均5.8%向上していることがわかった。

Prompt-based learning reformulates downstream tasks as cloze problems by combining the original input with a template. This technique is particularly useful in few-shot learning, where a model is trained on a limited amount of data. However, the limited templates and text used in few-shot prompt-based learning still leave significant room for performance improvement. Additionally, existing methods using model ensembles can constrain the model efficiency. To address these issues, we propose an augmentation method called MixPro, which augments both the vanilla input text and the templates through token-level, sentence-level, and epoch-level Mixup strategies. We conduct experiments on five few-shot datasets, and the results show that MixPro outperforms other augmentation baselines, improving model performance by an average of 5.08% compared to before augmentation.
翻訳日:2023-04-20 15:39:23 公開日:2023-04-19
# 不完全相ランダム化と一般化デコイ状態量子キー分布

Imperfect Phase-Randomisation and Generalised Decoy-State Quantum Key Distribution ( http://arxiv.org/abs/2304.09401v1 )

ライセンス: Link先を確認
Shlok Nahar, Twesh Upadhyaya, Norbert L\"utkenhaus(参考訳) デコイ状態法[1, 2]は、単一光子源が存在しない場合、広範囲に量子鍵分布(QKD)を実行するために不可欠である。 しかし、標準技術は、独立で均等に分散したレーザーパルスが用いられる場合にのみ適用される(iid)。 さらに、レーザーパルスは完全に位相ランダム化される必要がある。 しかし、現実的な高速QKDセットアップはこれらの厳密な要件を満たしていない[3]。 本研究では,不完全な位相ランダム状態を生成するレーザー源に対応するために,デコイ状態解析を一般化する。 また,独立なパルスを放出するレーザーを用いたプロトコルの安全性を証明する理論的ツールも開発している。 これらのツールは最近の研究[4]で利用でき、位相分布の相関によるレーザー源の安全性も証明できる。 3状態プロトコルの簡単な実装のための鍵レートを計算し、不完全位相ランダム化が鍵レートに与える影響を定量的に示す。

Decoy-state methods [1, 2] are essential to perform quantum key distribution (QKD) at large distances in the absence of single photon sources. However, the standard techniques apply only if laser pulses are used that are independent and identically distributed (iid). Moreover, they require that the laser pulses are fully phase-randomised. However, realistic high-speed QKD setups do not meet these stringent requirements [3]. In this work, we generalise decoy-state analysis to accommodate laser sources that emit imperfectly phase-randomised states. We also develop theoretical tools to prove the security of protocols with lasers that emit pulses that are independent, but not identically distributed. These tools can be used with recent work [4] to prove the security of laser sources with correlated phase distributions as well. We quantitatively demonstrate the effect of imperfect phase-randomisation on key rates by computing the key rates for a simple implementation of the three-state protocol.
翻訳日:2023-04-20 15:39:11 公開日:2023-04-19
# スパース添加モデルにおけるミニマックス信号検出

Minimax Signal Detection in Sparse Additive Models ( http://arxiv.org/abs/2304.09398v1 )

ライセンス: Link先を確認
Subhodh Kotekal and Chao Gao(参考訳) スパース加法モデルは、高次元の面においてフレキシブルなモデリングを要求する状況において魅力的な選択である。 信号検出問題を調べ,スパース加算信号の検出のための最小分離率を確立する。 この結果は非漸近的であり、不定元成分関数が一般再生成核ヒルベルト空間に属する一般の場合に適用できる。 推定理論とは異なり、ミニマックス分離率はスパーシティと関数空間の選択の間の非自明な相互作用を示している。 また,空間の分散化や一般関数空間の適応テスト率の確立も検討し,いくつかの空間では適応が可能であり,他の空間では避けられないコストを課す。 最後に,ソボレフ空間の設定において,スパース性と滑らか性の両方への適応が研究され,文献上の既存の主張を補正する。

Sparse additive models are an attractive choice in circumstances calling for modelling flexibility in the face of high dimensionality. We study the signal detection problem and establish the minimax separation rate for the detection of a sparse additive signal. Our result is nonasymptotic and applicable to the general case where the univariate component functions belong to a generic reproducing kernel Hilbert space. Unlike the estimation theory, the minimax separation rate reveals a nontrivial interaction between sparsity and the choice of function space. We also investigate adaptation to sparsity and establish an adaptive testing rate for a generic function space; adaptation is possible in some spaces while others impose an unavoidable cost. Finally, adaptation to both sparsity and smoothness is studied in the setting of Sobolev space, and we correct some existing claims in the literature.
翻訳日:2023-04-20 15:38:57 公開日:2023-04-19
# 量子光メモリによる絡み合い分布

Quantum Optical Memory for Entanglement Distribution ( http://arxiv.org/abs/2304.09397v1 )

ライセンス: Link先を確認
Yisheng Lei, Faezeh Kimiaee Asadi, Tian Zhong, Alexander Kuzmich, Christoph Simon, and Mahdi Hosseini(参考訳) 光光子は量子情報の強力なキャリアであり、衛星によって自由空間で、あるいは長距離で地上の繊維で供給することができる。 長距離の量子状態の絡み合いによって、量子コンピューティング、量子通信、量子センシングが促進される。 量子光学記憶は量子状態の保存と操作を効果的に行うことができ、将来の長距離量子ネットワークにおいて必要不可欠な要素となる。 過去20年にわたり、高い忠実性、高い効率、長い記憶時間、そして有望な多重化能力を持つ量子光学記憶が、特に単一光子レベルで開発されてきた。 本稿では、一般的に使用される量子メモリプロトコルの動作原理を紹介し、量子メモリ実証の最近の進歩を概説する。 また、遠距離での絡み合い分布を可能にする将来の量子光メモリデバイスに対するビジョンも提供する。

Optical photons are powerful carriers of quantum information, which can be delivered in free space by satellites or in fibers on the ground over long distances. Entanglement of quantum states over long distances can empower quantum computing, quantum communications, and quantum sensing. Quantum optical memories can effectively store and manipulate quantum states, which makes them indispensable elements in future long-distance quantum networks. Over the past two decades, quantum optical memories with high fidelity, high efficiencies, long storage times, and promising multiplexing capabilities have been developed, especially at the single photon level. In this review, we introduce the working principles of commonly used quantum memory protocols and summarize the recent advances in quantum memory demonstrations. We also offer a vision for future quantum optical memory devices that may enable entanglement distribution over long distances.
翻訳日:2023-04-20 15:38:46 公開日:2023-04-19
# H-TSP: 大規模トラベルセールスマン問題の階層的解決

H-TSP: Hierarchically Solving the Large-Scale Travelling Salesman Problem ( http://arxiv.org/abs/2304.09395v1 )

ライセンス: Link先を確認
Xuanhao Pan, Yan Jin, Yuandong Ding, Mingxiao Feng, Li Zhao, Lei Song, Jiang Bian(参考訳) 本稿では,大規模トラベリングセールスマン問題(TSP)に対する階層的強化学習(H-TSP)に基づくエンドツーエンド学習フレームワークを提案する。 提案したH-TSPは、2つのコンポーネントに依存するスクラッチから始まるTSPインスタンスのソリューションを構築する: 上位レベルポリシーは、トラバースされる全てのノードから、最小200個のノードの小さなサブセットを選択し、下位レベルポリシーは選択されたノードを入力として、それらを既存の部分ルート(当初はデポのみを含む)に接続するツアーを出力する。 提案手法は,上位と下位のポリシを共同でトレーニングすることで,時間を要する検索手順に頼ることなく,与えられたTSPインスタンスのソリューションを直接生成することができる。 提案手法の有効性を示すため,ノード数が異なるランダムに生成されたTSPインスタンスについて広範な実験を行った。 以上より,h-tsp は sota の検索方式と同等の結果 (gap 3.42% 対 7.32%) が得られ,さらに2桁のマグニチュード (3.32s 対 395.85s) を削減できることを示した。 私たちの知る限りでは、H-TSPは、最大10000ノードのTSPインスタンスにスケール可能な、最初のエンドツーエンドの深層強化学習アプローチです。 ソリューションの品質に関してはまだSOTAの結果にギャップがあるが、H-TSPは実用的なアプリケーション、特にオンコールルーティングや配車サービスなど、時間に敏感なアプリケーションに有用であると考えている。

We propose an end-to-end learning framework based on hierarchical reinforcement learning, called H-TSP, for addressing the large-scale Travelling Salesman Problem (TSP). The proposed H-TSP constructs a solution of a TSP instance starting from the scratch relying on two components: the upper-level policy chooses a small subset of nodes (up to 200 in our experiment) from all nodes that are to be traversed, while the lower-level policy takes the chosen nodes as input and outputs a tour connecting them to the existing partial route (initially only containing the depot). After jointly training the upper-level and lower-level policies, our approach can directly generate solutions for the given TSP instances without relying on any time-consuming search procedures. To demonstrate effectiveness of the proposed approach, we have conducted extensive experiments on randomly generated TSP instances with different numbers of nodes. We show that H-TSP can achieve comparable results (gap 3.42% vs. 7.32%) as SOTA search-based approaches, and more importantly, we reduce the time consumption up to two orders of magnitude (3.32s vs. 395.85s). To the best of our knowledge, H-TSP is the first end-to-end deep reinforcement learning approach that can scale to TSP instances of up to 10000 nodes. Although there are still gaps to SOTA results with respect to solution quality, we believe that H-TSP will be useful for practical applications, particularly those that are time-sensitive e.g., on-call routing and ride hailing service.
翻訳日:2023-04-20 15:38:34 公開日:2023-04-19
# 知識グラフとマルチスケールデータ統合による高レベルの地理概念推定:C字型建物パターン認識を事例として

Inferring High-level Geographical Concepts via Knowledge Graph and Multi-scale Data Integration: A Case Study of C-shaped Building Pattern Recognition ( http://arxiv.org/abs/2304.09391v1 )

ライセンス: Link先を確認
Zhiwei Wei, Yi Xiao, Wenjia Xu, Mi Shu, Lu Cheng, Yang Wang, Chunbo Liu(参考訳) 効果的な建築パターン認識は,都市形態の理解,地図の一般化の自動化,3次元都市モデルの可視化に重要である。 既存の研究の多くは、視覚知覚規則と近接グラフモデルに基づくオブジェクト非依存の手法を用いてパターンを抽出している。 しかしながら、人間の視覚は部分ベースのシステムであるため、パターン認識には部品に分割したり、クラスタにグループ化したりする必要がある。 既存の手法では、すべての視覚的認識パターンを認識できず、近接グラフモデルは非効率である。 効率と有効性を向上させるために,c字型建築パターンの認識に着目し,知識グラフを用いたマルチスケールデータの統合を行った。 まず,C字型建物パターン認識に係わる様々な規模における建物間の関係を表現するために,特性グラフを用いた。 次に、この知識グラフをグラフデータベースに格納し、C字型パターン認識と強化のルールをクエリ条件に変換する。 最後に、構築した知識グラフのルールに基づく推論を用いて、C字型ビルディングパターンを認識し、強化する。 ガオドマップから3レベルの詳細(LOD)を収集したマルチスケールデータを用いて,本手法の有効性を検証する。 その結果, LOD1は26.4%, LOD2は20.0%, LOD3は9.1%のリコール率を得た。 また,0.91倍,1.37倍,9.35倍の認識効率向上を実現した。

Effective building pattern recognition is critical for understanding urban form, automating map generalization, and visualizing 3D city models. Most existing studies use object-independent methods based on visual perception rules and proximity graph models to extract patterns. However, because human vision is a part-based system, pattern recognition may require decomposing shapes into parts or grouping them into clusters. Existing methods may not recognize all visually aware patterns, and the proximity graph model can be inefficient. To improve efficiency and effectiveness, we integrate multi-scale data using a knowledge graph, focusing on the recognition of C-shaped building patterns. First, we use a property graph to represent the relationships between buildings within and across different scales involved in C-shaped building pattern recognition. Next, we store this knowledge graph in a graph database and convert the rules for C-shaped pattern recognition and enrichment into query conditions. Finally, we recognize and enrich C-shaped building patterns using rule-based reasoning in the built knowledge graph. We verify the effectiveness of our method using multi-scale data with three levels of detail (LODs) collected from the Gaode Map. Our results show that our method achieves a higher recall rate of 26.4% for LOD1, 20.0% for LOD2, and 9.1% for LOD3 compared to existing approaches. We also achieve recognition efficiency improvements of 0.91, 1.37, and 9.35 times, respectively.
翻訳日:2023-04-20 15:37:54 公開日:2023-04-19
# 多言語ニューラルマシン翻訳モデル圧縮における知識蒸留の活用に関する実証的研究

An Empirical Study of Leveraging Knowledge Distillation for Compressing Multilingual Neural Machine Translation Models ( http://arxiv.org/abs/2304.09388v1 )

ライセンス: Link先を確認
Varun Gumma, Raj Dabre, Pratyush Kumar(参考訳) 知識蒸留(KD)は、ニューラルネットワークを圧縮する方法としてよく知られている。 しかし、MNMTの人気と優位性にもかかわらず、大規模な多言語ニューラルネットワーク翻訳(MNMT)モデルからより小さなモデルへの知識の蒸留に焦点をあてる作業は事実上存在しない。 本稿では,MNMTモデル圧縮における知識蒸留の実証的研究により,このギャップを埋める。 英語訳の指標をケーススタディとして,一般的に使用される言語非依存・言語対応のkdアプローチが,4~5倍小さく,最大3.5 bleuのパフォーマンス低下に苦しむモデルをもたらすことを実証した。 これを緩和するために、より浅いモデルと深いモデル、重いパラメータ共有、多段階トレーニング、アダプタといった設計上の考慮を実験します。 より深いコンパクトモデルは、より浅い非コンパクトモデルと同程度に良く、高品質サブセット上で蒸留されたモデルを微調整することで、翻訳品質がわずかに向上する。 全体として、KDによるMNMTモデルの圧縮は困難であり、さらなる研究の膨大な範囲が示唆されている。

Knowledge distillation (KD) is a well-known method for compressing neural models. However, works focusing on distilling knowledge from large multilingual neural machine translation (MNMT) models into smaller ones are practically nonexistent, despite the popularity and superiority of MNMT. This paper bridges this gap by presenting an empirical investigation of knowledge distillation for compressing MNMT models. We take Indic to English translation as a case study and demonstrate that commonly used language-agnostic and language-aware KD approaches yield models that are 4-5x smaller but also suffer from performance drops of up to 3.5 BLEU. To mitigate this, we then experiment with design considerations such as shallower versus deeper models, heavy parameter sharing, multi-stage training, and adapters. We observe that deeper compact models tend to be as good as shallower non-compact ones, and that fine-tuning a distilled model on a High-Quality subset slightly boosts translation quality. Overall, we conclude that compressing MNMT models via KD is challenging, indicating immense scope for further research.
翻訳日:2023-04-20 15:37:09 公開日:2023-04-19
# 情報幾何学的に一般化された共変量シフト適応

Information Geometrically Generalized Covariate Shift Adaptation ( http://arxiv.org/abs/2304.09387v1 )

ライセンス: Link先を確認
Masanari Kimura and Hideitsu Hino(参考訳) 多くの機械学習手法は、トレーニングとテストデータが同じ分布に従うと仮定する。 しかし、現実の世界では、この仮定はしばしば違反している。 特に、データの変化の限界分布が共変量シフト(covariate shift)と呼ばれる現象は、機械学習における最も重要な研究トピックの1つである。 共変量シフト適応手法の有名なファミリーは情報幾何学の枠組みで統一されていることを示す。 さらに,幾何学的に一般化された共変量シフト適応手法のパラメータ探索を効率的に行うことができることを示す。 数値実験により、我々の一般化は既存の手法よりも優れた性能が得られることが示された。

Many machine learning methods assume that the training and test data follow the same distribution. However, in the real world, this assumption is very often violated. In particular, the phenomenon that the marginal distribution of the data changes is called covariate shift, one of the most important research topics in machine learning. We show that the well-known family of covariate shift adaptation methods is unified in the framework of information geometry. Furthermore, we show that parameter search for geometrically generalized covariate shift adaptation method can be achieved efficiently. Numerical experiments show that our generalization can achieve better performance than the existing methods it encompasses.
翻訳日:2023-04-20 15:36:40 公開日:2023-04-19
# GPUシミュレータにおける非凸物体の効率的なシミュレーションのための局所物体衝突ネットワーク

Local object crop collision network for efficient simulation of non-convex objects in GPU-based simulators ( http://arxiv.org/abs/2304.09439v1 )

ライセンス: Link先を確認
Dongwon Son and Beomjoon Kim(参考訳) 本研究の目的は,非凸物体の大規模gpuシミュレーションのための効率的な接触検出アルゴリズムの開発である。 現在のGPUベースのシミュレータであるIsaacGymやBraxは、非凸オブジェクトをシミュレートする際に、忠実さ、一般性、あるいは両方で速度をトレードオフしなければならない。 GJK(Gilbert-Johnson-Keerthi)のような既存のCDアルゴリズムは、非凸物体同士の衝突数が増加するにつれて、その計算速度を精度でトレードオフしなければならない。 本稿では,オンライン計算時間よりもオフラインデータセットの品質と量にのみ依存するcdのためのデータ駆動手法を提案する。 gjkとは異なり、本手法は一様計算フローを持ち、xla (accelerated linear algebra) のような高度なコンパイラに基づく効率的なgpu利用を容易にする。 さらに,学習が難しいグローバルな物体ではなく,局所的な作物の形状を衝突させるパターンを学習することで,データ効率の高いソリューションを提供する。 提案手法は, 既存のCD手法の効率を, 比較精度の高い非凸オブジェクトに対して5-10倍に向上することを示した。 従来のニューラルネットワークベースのコンタクト検出器の接触分解能に関する研究から,我々のCDアルゴリズムをオープンソースGPUベースのシミュレータであるBraxに統合し,IsaacGymよりも効率を向上し,標準Braxよりも汎用性を向上できることを示す。 補充材料に含まれるシミュレータの動画を強く推奨する。

Our goal is to develop an efficient contact detection algorithm for large-scale GPU-based simulation of non-convex objects. Current GPU-based simulators such as IsaacGym and Brax must trade-off speed with fidelity, generality, or both when simulating non-convex objects. Their main issue lies in contact detection (CD): existing CD algorithms, such as Gilbert-Johnson-Keerthi (GJK), must trade off their computational speed with accuracy which becomes expensive as the number of collisions among non-convex objects increases. We propose a data-driven approach for CD, whose accuracy depends only on the quality and quantity of offline dataset rather than online computation time. Unlike GJK, our method inherently has a uniform computational flow, which facilitates efficient GPU usage based on advanced compilers such as XLA (Accelerated Linear Algebra). Further, we offer a data-efficient solution by learning the patterns of colliding local crop object shapes, rather than global object shapes which are harder to learn. We demonstrate our approach improves the efficiency of existing CD methods by a factor of 5-10 for non-convex objects with comparable accuracy. Using the previous work on contact resolution for a neural-network-based contact detector, we integrate our CD algorithm into the open-source GPU-based simulator, Brax, and show that we can improve the efficiency over IsaacGym and generality over standard Brax. We highly recommend the videos of our simulator included in the supplementary materials.
翻訳日:2023-04-20 15:30:39 公開日:2023-04-19
# 不均一データレイクの構造ビュー生成のための簡易システムを実現する言語モデル

Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes ( http://arxiv.org/abs/2304.09433v1 )

ライセンス: Link先を確認
Simran Arora and Brandon Yang and Sabri Eyuboglu and Avanika Narayan and Andrew Hojel and Immanuel Trummer and Christopher R\'e(参考訳) データ管理コミュニティの長年の目標は、半構造化ドキュメントを取り込み、人間の努力やドメイン固有のカスタマイズなしにクエリ可能なテーブルを出力する一般的な自動化システムを開発することである。 さまざまな潜在的なドキュメントを考えると、最先端のアートシステムは仮定を単純化し、ドメイン固有のトレーニングを使用します。 本研究では,大規模言語モデル(LLM)を用いて汎用性を維持できるかどうかを問う。 幅広いデータで事前トレーニングされたllmは、自然言語タスク記述に基づいて単純にさまざまな下流タスクを実行することができる。 LLMを用いた簡易プロトタイプシステムEVAPORATEを提案し評価する。 本システムを実装するための基本的な戦略は, LLMに文書から直接値を取り出すように促すか, LLMに抽出を実行するコードを合成させるかの2つである。 この2つのアプローチの間には,コスト品質のトレードオフがある。 コード合成は安価だが、LSMで各文書を直接処理するよりもはるかに正確ではない。 コストを抑えつつ品質を向上させるために,直接抽出よりも優れた品質を実現する拡張コード合成実装EVAPORATE-CODE+を提案する。 我々の重要な洞察は、多くの候補関数を生成し、弱い監督力を使って抽出を組み立てることである。 EVAPORATE-CODE+は最先端技術システムよりも優れるだけでなく、LCMでドキュメントをサブ線形パスする。 これは、LLMが処理しなければならないトークンの数を110倍に減らし、それぞれの10kドキュメントの16の実際の評価設定で平均化している。

A long standing goal of the data management community is to develop general, automated systems that ingest semi-structured documents and output queryable tables without human effort or domain specific customization. Given the sheer variety of potential documents, state-of-the art systems make simplifying assumptions and use domain specific training. In this work, we ask whether we can maintain generality by using large language models (LLMs). LLMs, which are pretrained on broad data, can perform diverse downstream tasks simply conditioned on natural language task descriptions. We propose and evaluate EVAPORATE, a simple, prototype system powered by LLMs. We identify two fundamentally different strategies for implementing this system: prompt the LLM to directly extract values from documents or prompt the LLM to synthesize code that performs the extraction. Our evaluations show a cost-quality tradeoff between these two approaches. Code synthesis is cheap, but far less accurate than directly processing each document with the LLM. To improve quality while maintaining low cost, we propose an extended code synthesis implementation, EVAPORATE-CODE+, which achieves better quality than direct extraction. Our key insight is to generate many candidate functions and ensemble their extractions using weak supervision. EVAPORATE-CODE+ not only outperforms the state-of-the art systems, but does so using a sublinear pass over the documents with the LLM. This equates to a 110x reduction in the number of tokens the LLM needs to process, averaged across 16 real-world evaluation settings of 10k documents each.
翻訳日:2023-04-20 15:30:14 公開日:2023-04-19
# martingale後発神経過程

Martingale Posterior Neural Processes ( http://arxiv.org/abs/2304.09431v1 )

ライセンス: Link先を確認
Hyungi Lee, Eunggu Yun, Giung Nam, Edwin Fong, Juho Lee(参考訳) ニューラル・プロセス(NP)は、ガウス・プロセスのような既に知られている事前指定よりも、データストリームが与えられたニューラルネットワークで暗黙的に定義された確率過程を推定する。 理想的なNPは、誘導バイアスのないデータからすべてを学習するが、実際には、推定を容易にするために確率過程のクラスを制限することが多い。 そのような制限の一つは、NPから引き出された関数の不確かさを考慮に入れた有限次元潜在変数を使うことである。 最近の研究によって、ブートストラップのような不確実性のより"データ駆動"なソースで改善できることが示された。 本研究では,最近開発されたベイズ推定の代替法であるmartingale posteriorに基づいて,異なるアプローチをとる。 martingale後方では、事前の類似ペアを指定する代わりに、将来のデータの予測分布を指定する。 予測分布の特定の条件下では、生成された将来のデータにおける不確実性は、暗黙的に定義されたベイズ後方の不確実性に対応することが示されている。 この結果に基づき、潜伏変数の任意の形式を仮定する代わりに、ニューラルネットワークで暗黙的に定義された予測分布をNPに装備し、それに対応するマーチンゲール後部を不確実性の原因とする。 結果,Martingale Posterior Neural Process (MPNP) は,様々なタスクにおいて,ベースラインよりも優れていることを示した。

A Neural Process (NP) estimates a stochastic process implicitly defined with neural networks given a stream of data, rather than pre-specifying priors already known, such as Gaussian processes. An ideal NP would learn everything from data without any inductive biases, but in practice, we often restrict the class of stochastic processes for the ease of estimation. One such restriction is the use of a finite-dimensional latent variable accounting for the uncertainty in the functions drawn from NPs. Some recent works show that this can be improved with more "data-driven" source of uncertainty such as bootstrapping. In this work, we take a different approach based on the martingale posterior, a recently developed alternative to Bayesian inference. For the martingale posterior, instead of specifying prior-likelihood pairs, a predictive distribution for future data is specified. Under specific conditions on the predictive distribution, it can be shown that the uncertainty in the generated future data actually corresponds to the uncertainty of the implicitly defined Bayesian posteriors. Based on this result, instead of assuming any form of the latent variables, we equip a NP with a predictive distribution implicitly defined with neural networks and use the corresponding martingale posteriors as the source of uncertainty. The resulting model, which we name as Martingale Posterior Neural Process (MPNP), is demonstrated to outperform baselines on various tasks.
翻訳日:2023-04-20 15:29:50 公開日:2023-04-19
# セマンティック境界によるセマンティックセグメンテーションの促進

Boosting Semantic Segmentation with Semantic Boundaries ( http://arxiv.org/abs/2304.09427v1 )

ライセンス: Link先を確認
Haruya Ishikawa and Yoshimitsu Aoki(参考訳) 本稿では,セマンティック境界条件付きバックボーン(SBCB)フレームワークを提案する。 近年のセマンティクスセグメンテーションの改善において,境界を補助タスクとして組み込むことにより,セマンティクス境界検出(sbd)を補助タスクとして用いるマルチタスクフレームワークを提案する。 SBCBフレームワークは、セグメンテーションヘッドのバックボーンを改善するためにセグメンテーションを補完するSBDタスクの性質を利用する。 バックボーンのマルチスケール機能を利用するSBDヘッドを適用し,モデルが早期の低レベル特徴を学習し,後期の高レベル意味理解を行う。 このヘッドは、後段の特徴が分類に使用される一般的なセマンティックセグメンテーションアーキテクチャを完全に補完する。 バックボーンを条件付けするだけで、推論中に追加パラメータなしでセマンティックセグメンテーションモデルを改善することができる。 本研究では,Cityscapesデータセットにおいて,各種のセグメンテーションヘッドとバックボーンを0.5%~3.0%改善し,境界Fスコアが1.6%~4.1%向上したSBCBフレームワークの有効性を示す。 また、このフレームワークをカスタマイズされたバックボーンと新たなビジョントランスフォーマーモデルに適用し、sbcbフレームワークの有効性を示す。

In this paper, we present the Semantic Boundary Conditioned Backbone (SBCB) framework, a simple yet effective training framework that is model-agnostic and boosts segmentation performance, especially around the boundaries. Motivated by the recent development in improving semantic segmentation by incorporating boundaries as auxiliary tasks, we propose a multi-task framework that uses semantic boundary detection (SBD) as an auxiliary task. The SBCB framework utilizes the nature of the SBD task, which is complementary to semantic segmentation, to improve the backbone of the segmentation head. We apply an SBD head that exploits the multi-scale features from the backbone, where the model learns low-level features in the earlier stages, and high-level semantic understanding in the later stages. This head perfectly complements the common semantic segmentation architectures where the features from the later stages are used for classification. We can improve semantic segmentation models without additional parameters during inference by only conditioning the backbone. Through extensive evaluations, we show the effectiveness of the SBCB framework by improving various popular segmentation heads and backbones by 0.5% ~ 3.0% IoU on the Cityscapes dataset and gains 1.6% ~ 4.1% in boundary Fscores. We also apply this framework on customized backbones and the emerging vision transformer models and show the effectiveness of the SBCB framework.
翻訳日:2023-04-20 15:29:22 公開日:2023-04-19
# 確率表現を用いたロングテール分類のための分離学習

Decoupled Training for Long-Tailed Classification With Stochastic Representations ( http://arxiv.org/abs/2304.09426v1 )

ライセンス: Link先を確認
Giung Nam, Sunguk Jang, Juho Lee(参考訳) 表現学習と分類器学習の分離は,長期データを用いた分類に有効であることが示されている。 分離学習体系の構築には2つの主な要素がある。 1)表現学習のための特徴抽出器の訓練方法 2) 長期データにおけるクラス不均衡を扱い、適切な決定境界を構築する分類器を再訓練する方法。 本研究では、まず、ディープニューラルネットワークの一般化を改善する最適化手法であるStochastic Weight Averaging(SWA)を適用し、長い尾の分類のためのより優れた一般化特徴抽出器を得る。 次に,swa-gaussian,gaussian perturbed swaから得られた確率的表現と,不確実性推定に基づく多様な確率的表現を活用し,より頑健な分類器を構築する自己蒸留戦略に基づく新しい分類器再訓練アルゴリズムを提案する。 CIFAR10/100-LT, ImageNet-LT, iNaturalist-2018ベンチマークの大規模な実験により, 提案手法は予測精度と不確実性評価の両面において, 従来手法よりも優れていることが示された。

Decoupling representation learning and classifier learning has been shown to be effective in classification with long-tailed data. There are two main ingredients in constructing a decoupled learning scheme; 1) how to train the feature extractor for representation learning so that it provides generalizable representations and 2) how to re-train the classifier that constructs proper decision boundaries by handling class imbalances in long-tailed data. In this work, we first apply Stochastic Weight Averaging (SWA), an optimization technique for improving the generalization of deep neural networks, to obtain better generalizing feature extractors for long-tailed classification. We then propose a novel classifier re-training algorithm based on stochastic representation obtained from the SWA-Gaussian, a Gaussian perturbed SWA, and a self-distillation strategy that can harness the diverse stochastic representations based on uncertainty estimates to build more robust classifiers. Extensive experiments on CIFAR10/100-LT, ImageNet-LT, and iNaturalist-2018 benchmarks show that our proposed method improves upon previous methods both in terms of prediction accuracy and uncertainty estimation.
翻訳日:2023-04-20 15:28:55 公開日:2023-04-19
# ロス最小化による大規模ニューラルネットワークの多重校正

Loss minimization yields multicalibration for large neural networks ( http://arxiv.org/abs/2304.09424v1 )

ライセンス: Link先を確認
Jaros{\l}aw B{\l}asiok, Parikshit Gopalan, Lunjia Hu, Adam Tauman Kalai, Preetum Nakkiran(参考訳) マルチカリブレーション(multicalibration)は、多数のグループにまたがって正確な予測を提供することを目的としているフェアネス(fairness)の概念である。 多重校正は損失最小化とは異なる目標であることが知られており、線形関数のような単純な予測器にも当てはまる。 本稿では、(ほとんど)大きなニューラルネットワークサイズの場合、二乗誤差を最適に最小化することは多重校正につながることを示す。 結果はニューラルネットワークの表現的側面についてであり,アルゴリズム的あるいはサンプル的複雑性は考慮していない。 これまでの結果は、ほぼベイズ最適であり、従って表現独立である予測者のみに知られていた。 我々は、SGDのようなニューラルネットワークを最適化するための特定のアルゴリズムには適用できないことを強調し、これらは「フェーネスはニューラルネットワークを最適化することから解放される」と解釈するべきではない。

Multicalibration is a notion of fairness that aims to provide accurate predictions across a large set of groups. Multicalibration is known to be a different goal than loss minimization, even for simple predictors such as linear functions. In this note, we show that for (almost all) large neural network sizes, optimally minimizing squared error leads to multicalibration. Our results are about representational aspects of neural networks, and not about algorithmic or sample complexity considerations. Previous such results were known only for predictors that were nearly Bayes-optimal and were therefore representation independent. We emphasize that our results do not apply to specific algorithms for optimizing neural networks, such as SGD, and they should not be interpreted as "fairness comes for free from optimizing neural networks".
翻訳日:2023-04-20 15:28:33 公開日:2023-04-19
# ASM:高画質3次元顔モデリングのための適応スキニングモデル

ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling ( http://arxiv.org/abs/2304.09423v1 )

ライセンス: Link先を確認
Kai Yang, Hong Shang, Tianyang Shi, Xinghan Chen, Jingkai Zhou, Zhongqian Sun and Wei Yang(参考訳) パラメトリック顔モデルと3次元顔再構成の研究分野を幅広く研究している。 しかし、重要な疑問が残る: 特定の再構成設定のために顔モデルをどう調整するか。 マルチビュー・アンキャリブレーション画像による再構成は,より強力なキャパシティを持つ新しいモデルを必要とする。 本研究では,データ依存型3次元形態モデル(3DMM)から人体設計スキンモデルへ注目を移す。 本稿では,よりコンパクトで完全に調整可能なパラメータでスキンモデルを再定義する適応スキンモデル(asm)を提案する。 大規模な実験により, ASMは3DMMよりも大幅に向上し, モデルサイズと新しいトポロジーの実装が容易になった。 フィレンツェMICCクープベンチマークにおける多視点再構成のためのASMによる最先端性能を実現する。 定量的解析により,多視点入力からの豊富な情報を十分に活用するための高容量モデルの重要性が示された。 さらに,本モデルでは,ゲーム内アバター生成などの実世界のアプリケーションに直接利用することができる。 その結果,パラメトリックフェースモデル研究の新たな方向性が開かれ,多視点再構築の今後の研究が促進される。

The research fields of parametric face models and 3D face reconstruction have been extensively studied. However, a critical question remains unanswered: how to tailor the face model for specific reconstruction settings. We argue that reconstruction with multi-view uncalibrated images demands a new model with stronger capacity. Our study shifts attention from data-dependent 3D Morphable Models (3DMM) to an understudied human-designed skinning model. We propose Adaptive Skinning Model (ASM), which redefines the skinning model with more compact and fully tunable parameters. With extensive experiments, we demonstrate that ASM achieves significantly improved capacity than 3DMM, with the additional advantage of model size and easy implementation for new topology. We achieve state-of-the-art performance with ASM for multi-view reconstruction on the Florence MICC Coop benchmark. Our quantitative analysis demonstrates the importance of a high-capacity model for fully exploiting abundant information from multi-view input in reconstruction. Furthermore, our model with physical-semantic parameters can be directly utilized for real-world applications, such as in-game avatar creation. As a result, our work opens up new research directions for the parametric face models and facilitates future research on multi-view reconstruction.
翻訳日:2023-04-20 15:28:20 公開日:2023-04-19
# TieFake: タイトルテキストの類似性と感情認識型フェイクニュース検出

TieFake: Title-Text Similarity and Emotion-Aware Fake News Detection ( http://arxiv.org/abs/2304.09421v1 )

ライセンス: Link先を確認
Quanjiang Guo, Zhao Kang, Ling Tian, Zhouguo Chen(参考訳) フェイクニュース検出は、ソーシャルメディアプラットフォーム上で広く拡散するフェイクニュースを検出することを目的としている。 ニュース画像、テキスト、ビデオなどの関連情報を活用するために多くの手法が開発されている。 しかし,これらの手法は,(1)著者の主観的意図を含まないことから有益であるニュースの本質的な感情情報を無視すること,(2)読者の注意を引くためにしばしば無関係なタイトルを用いるニュース記事の題名とテキスト情報との関係(類似性)にはほとんど注意を払わない,といった制約に悩まされる。 そこで本研究では,マルチモーダルな文脈情報と著者の感情を統一した枠組みで共同でモデル化し,新しいテキスト類似性と感情認識型フェイクニュース検出手法を提案する。 具体的には,BERT と ResNeSt を用いてテキストや画像の表現を学習し,出版者感情抽出器を用いてニュースコンテンツ中の著者の主観的感情を抽出する。 また、タイトル機能とテキスト機能との類似性を捉えるためのスケールドット製品アテンション機構を提案する。 提案手法が偽ニュース検出の性能を著しく向上できることを実証し, 公開可能な2つのマルチモーダルデータセットを用いて実験を行った。 私たちのコードはhttps://github.com/UESTC-GQJ/TieFake.comで利用可能です。

Fake news detection aims to detect fake news widely spreading on social media platforms, which can negatively influence the public and the government. Many approaches have been developed to exploit relevant information from news images, text, or videos. However, these methods may suffer from the following limitations: (1) ignore the inherent emotional information of the news, which could be beneficial since it contains the subjective intentions of the authors; (2) pay little attention to the relation (similarity) between the title and textual information in news articles, which often use irrelevant title to attract reader' attention. To this end, we propose a novel Title-Text similarity and emotion-aware Fake news detection (TieFake) method by jointly modeling the multi-modal context information and the author sentiment in a unified framework. Specifically, we respectively employ BERT and ResNeSt to learn the representations for text and images, and utilize publisher emotion extractor to capture the author's subjective emotion in the news content. We also propose a scale-dot product attention mechanism to capture the similarity between title features and textual features. Experiments are conducted on two publicly available multi-modal datasets, and the results demonstrate that our proposed method can significantly improve the performance of fake news detection. Our code is available at https://github.com/UESTC-GQJ/TieFake.
翻訳日:2023-04-20 15:28:01 公開日:2023-04-19
# ソーシャルメディア時代における画像操作検出の有効性について

On the Effectiveness of Image Manipulation Detection in the Age of Social Media ( http://arxiv.org/abs/2304.09414v1 )

ライセンス: Link先を確認
Rosaura G. VidalMata and Priscila Saboia and Daniel Moreira and Grant Jensen and Jason Schlessman and Walter J. Scheirer(参考訳) 局所異常を識別するために設計された画像操作検出アルゴリズムは、画像内の他の領域とは異なる操作領域である`sufficiently''に依存することが多い。 しかし、このような異常は高品質な操作では容易に特定できない可能性があり、特定の画像現象が特定の編集ツールの使用と関連しているという仮定に基づくことが多い。 これにより、最先端の検出器が限られた数の操作タイプしか検出できないため、検出の操作が難しくなる。 さらに重要なことに、異常な仮定が持たない場合、非操作画像における偽陽性の検出は深刻な問題となる。 操作検出の現状を理解するために,ディープラーニングと学習フリーの手法を深く分析し,改ざんされたサンプルと非タンパリング標本を含む異なるベンチマークデータセットでの性能を評価する。 我々は、異なる操作を検出するための適合性と、非タンパーデータで示されるときの頑健性について包括的に研究する。 さらに,操作領域に存在する異常を強調し,様々な操作検出手法により識別しやすくする,深層学習に基づく新しい前処理手法を提案する。 この目的のために,残差アーキテクチャで使用する場合,非操作データに偽陽性を最小に導入することで,異なる検出アルゴリズムの性能を向上させる異常拡張損失を導入する。 最後に,多数の標準検出アルゴリズムを含むオープンソースの操作検出ツールキットを提案する。

Image manipulation detection algorithms designed to identify local anomalies often rely on the manipulated regions being ``sufficiently'' different from the rest of the non-tampered regions in the image. However, such anomalies might not be easily identifiable in high-quality manipulations, and their use is often based on the assumption that certain image phenomena are associated with the use of specific editing tools. This makes the task of manipulation detection hard in and of itself, with state-of-the-art detectors only being able to detect a limited number of manipulation types. More importantly, in cases where the anomaly assumption does not hold, the detection of false positives in otherwise non-manipulated images becomes a serious problem. To understand the current state of manipulation detection, we present an in-depth analysis of deep learning-based and learning-free methods, assessing their performance on different benchmark datasets containing tampered and non-tampered samples. We provide a comprehensive study of their suitability for detecting different manipulations as well as their robustness when presented with non-tampered data. Furthermore, we propose a novel deep learning-based pre-processing technique that accentuates the anomalies present in manipulated regions to make them more identifiable by a variety of manipulation detection methods. To this end, we introduce an anomaly enhancement loss that, when used with a residual architecture, improves the performance of different detection algorithms with a minimal introduction of false positives on the non-manipulated data. Lastly, we introduce an open-source manipulation detection toolkit comprising a number of standard detection algorithms.
翻訳日:2023-04-20 15:27:35 公開日:2023-04-19
# Pointerformer: トラベリングセールスマン問題のためのディープ強化マルチポインタートランス

Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem ( http://arxiv.org/abs/2304.09407v1 )

ライセンス: Link先を確認
Yan Jin, Yuandong Ding, Xuanhao Pan, Kun He, Li Zhao, Tao Qin, Lei Song, Jiang Bian(参考訳) トラベリングセールスマン問題(TSP)は、もともと輸送と物流の領域で発生する古典的な経路最適化問題であり、製造業や生物学など幅広い分野において重要な課題となっている。 近年,高い推論効率のため,深層強化学習(DRL)がTSPの解法として採用されている。 それでも、既存のエンドツーエンドのDRLアルゴリズムは、小さなTSPインスタンスでしかうまく動作せず、メモリ消費が劇的に増加し、計算時間が増大すると共に、大規模に一般化することができない。 本稿では,多点変換器をベースとした新しいエンドツーエンドDRL手法であるPointerformerを提案する。 特に、pointerformerはエンコーダの可逆的残差ネットワークとデコーダのマルチポイントネットワークの両方を採用し、エンコーダ-デコーダアーキテクチャのメモリ消費を効果的に抑えている。 TSPソリューションの性能をさらに向上するため、Pointerformerでは、トレーニングと推論の段階でTSPの対称性を探求する機能拡張手法と、クエリにより包括的なコンテキスト情報を含む拡張されたコンテキスト埋め込みアプローチの両方を採用している。 ランダムに生成されたベンチマークと公開ベンチマークの大規模な実験により、SOTA DRLアプローチと同様に、ほとんどの小規模TSPインスタンスで比較結果が得られたが、Pointerformerは大規模TSPにもうまく一般化できることを示した。

Traveling Salesman Problem (TSP), as a classic routing optimization problem originally arising in the domain of transportation and logistics, has become a critical task in broader domains, such as manufacturing and biology. Recently, Deep Reinforcement Learning (DRL) has been increasingly employed to solve TSP due to its high inference efficiency. Nevertheless, most of existing end-to-end DRL algorithms only perform well on small TSP instances and can hardly generalize to large scale because of the drastically soaring memory consumption and computation time along with the enlarging problem scale. In this paper, we propose a novel end-to-end DRL approach, referred to as Pointerformer, based on multi-pointer Transformer. Particularly, Pointerformer adopts both reversible residual network in the encoder and multi-pointer network in the decoder to effectively contain memory consumption of the encoder-decoder architecture. To further improve the performance of TSP solutions, Pointerformer employs both a feature augmentation method to explore the symmetries of TSP at both training and inference stages as well as an enhanced context embedding approach to include more comprehensive context information in the query. Extensive experiments on a randomly generated benchmark and a public benchmark have shown that, while achieving comparative results on most small-scale TSP instances as SOTA DRL approaches do, Pointerformer can also well generalize to large-scale TSPs.
翻訳日:2023-04-20 15:27:13 公開日:2023-04-19
# 一様静電場によって誘起される水素原子に関する教育的再訪

A pedagogical revisit on the hydrogen atom induced by a uniform static electric field ( http://arxiv.org/abs/2304.09480v1 )

ライセンス: Link先を確認
Tran Duong Anh-Tai, Le Minh Khang, Nguyen Duy Vy, and Vinh N. T. Pham(参考訳) 本稿では、一様静電場によって誘起される水素原子のスターク効果を教育的に再検討する。 特に、関連するラゲール多項式の積分の一般公式は、研究(Anh-Tai T.D. et al., 2021 AIP Advances \textbf{11} 085310]で提案された次数nのエルミート多項式の方法を適用することによって導出された。 二次スターク効果は、この式と時間に依存しない非退化摂動理論を水素に適用することによって得られる。 Siegert State法を用いて数値計算を行い,ベンチマークデータとして機能する。 比較は、水素の基底状態といくつかの高励起状態について示され、同等の性質を持つ他の原子に対する二次スターク効果式の適用限界と精度を洞察的に示す。

In this article, we pedagogically revisit the Stark effect of hydrogen atom induced by a uniform static electric field. In particular, a general formula for the integral of associated Laguerre polynomials was derived by applying the method for Hermite polynomials of degree n proposed in the work [Anh-Tai T.D. et al., 2021 AIP Advances \textbf{11} 085310]. The quadratic Stark effect is obtained by applying this formula and the time-independent non-degenerate perturbation theory to hydrogen. Using the Siegert State method, numerical calculations are performed and serve as data for benchmarking. The comparisons are then illustrated for the ground state and some highly excited states of hydrogen to provide an insightful look at the applicable limit and precision of the quadratic Stark effect formula for other atoms with comparable properties.
翻訳日:2023-04-20 15:21:41 公開日:2023-04-19
# DiFaReli : 拡散面のリライティング

DiFaReli : Diffusion Face Relighting ( http://arxiv.org/abs/2304.09479v1 )

ライセンス: Link先を確認
Puntawat Ponglertnapakorn, Nontawat Tritrong, Supasorn Suwajanakorn(参考訳) 野生での単眼の顔のリライティングに新しいアプローチを提案する。 グローバル照明やキャストシャドウなどの非拡散効果を扱うことは、長い間、顔を照らすことの難題だった。 以前の研究では、ランバート面、簡易照明モデル、あるいは3次元形状、アルベド、シャドウマップを推定するものだった。 しかし、この推定は誤りやすいため、十分な一般化のために多くの訓練例が必要となる。 本研究は,内在的成分を正確に推定する必要性を回避し,光ステージデータや多視点画像,あるいは地上の真理を照らすことなく2d画像のみを訓練できる。 我々のキーとなるアイデアは、拡散暗黙モデル(DDIM)を用いて、オフザシェルフ推定器から推定される3次元形状と顔の同一性に関連する他のエンコーディングと共に、歪んだ光符号化を復号することである。 また,ddimを空間的に変調するレンダリングシェーディング参照を用いて,光と幾何学の複雑な相互作用のモデル化を容易にする新しい条件付け手法を提案する。 我々は,標準ベンチマークマルチパイで最先端のパフォーマンスを実現し,実写画像のフォトリアリスティックなリライトを実現する。 https://diffusion-face-relighting.github.io

We present a novel approach to single-view face relighting in the wild. Handling non-diffuse effects, such as global illumination or cast shadows, has long been a challenge in face relighting. Prior work often assumes Lambertian surfaces, simplified lighting models or involves estimating 3D shape, albedo, or a shadow map. This estimation, however, is error-prone and requires many training examples with lighting ground truth to generalize well. Our work bypasses the need for accurate estimation of intrinsic components and can be trained solely on 2D images without any light stage data, multi-view images, or lighting ground truth. Our key idea is to leverage a conditional diffusion implicit model (DDIM) for decoding a disentangled light encoding along with other encodings related to 3D shape and facial identity inferred from off-the-shelf estimators. We also propose a novel conditioning technique that eases the modeling of the complex interaction between light and geometry by using a rendered shading reference to spatially modulate the DDIM. We achieve state-of-the-art performance on standard benchmark Multi-PIE and can photorealistically relight in-the-wild images. Please visit our page: https://diffusion-face-relighting.github.io
翻訳日:2023-04-20 15:21:25 公開日:2023-04-19
# Anchor-Guided Clustering と Spatio-Temporal Consistency ID Re Assignment によるマルチカメラ人物追跡の強化

Enhancing Multi-Camera People Tracking with Anchor-Guided Clustering and Spatio-Temporal Consistency ID Re-Assignment ( http://arxiv.org/abs/2304.09471v1 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Cheng-Yen Yang, Zhongyu Jiang, Pyong-Kun Kim, Kyoungoh Lee, Kwangju Kim, Samartha Ramkumar, Chaitanya Mullapudi, In-Su Jang, Chung-I Huang, Jenq-Neng Hwang(参考訳) マルチカメラの多人数追跡は、特に小売、医療センター、交通ハブなどの環境において、正確で効率的な屋内人物追跡システムへの需要が高まり、研究の重要領域になりつつある。 我々は、アンカー誘導クラスタリングを用いて、幾何学に基づくクロスカメラIDの再割り当てのための、クロスカメラの再識別と時空間整合性を実現する、新しいマルチカメラ多人数追跡手法を提案する。 本研究の目的は,各個人に特有の特徴を識別し,カメラ間の視界の重なりを利用して,実際のカメラパラメータを必要とせずに正確な軌跡の予測を行うことにより,トラッキングの精度を向上させることである。 本手法は合成データと実世界のデータの両方を扱う際のロバスト性と有効性を示している。 提案手法はCVPR AI City Challenge 2023データセットで評価され,95.36%のIDF1を達成し,第1位となった。 コードはhttps://github.com/ipl-uw/AIC23_Track1_UWIPL_ETRIで公開されている。

Multi-camera multiple people tracking has become an increasingly important area of research due to the growing demand for accurate and efficient indoor people tracking systems, particularly in settings such as retail, healthcare centers, and transit hubs. We proposed a novel multi-camera multiple people tracking method that uses anchor-guided clustering for cross-camera re-identification and spatio-temporal consistency for geometry-based cross-camera ID reassigning. Our approach aims to improve the accuracy of tracking by identifying key features that are unique to every individual and utilizing the overlap of views between cameras to predict accurate trajectories without needing the actual camera parameters. The method has demonstrated robustness and effectiveness in handling both synthetic and real-world data. The proposed method is evaluated on CVPR AI City Challenge 2023 dataset, achieving IDF1 of 95.36% with the first-place ranking in the challenge. The code is available at: https://github.com/ipl-uw/AIC23_Track1_UWIPL_ETRI.
翻訳日:2023-04-20 15:21:06 公開日:2023-04-19
# baybayin文字インスタンス検出

Baybayin Character Instance Detection ( http://arxiv.org/abs/2304.09469v1 )

ライセンス: Link先を確認
Adriel Isaiah V. Amoguis, Gian Joseph B. Madrid, Benito Miguel D. Flores IV, Macario O. Cordel II(参考訳) フィリピン政府は最近、フィリピンのテキストにbaybayinを使用することを促進する「national writing system act」を可決した。 ベイバインの活用を促進するために,ベイバインのスクリプトを読めない個人を支援するコンピュータビジョンシステムを提案する。 本稿では,コンピュータビジョンと機械学習技術を用いたBaybayinスクリプトの同定手法について検討し,その機能と限界について考察する。 さらに,画像中のBaybayin文字インスタンスを検出し,その画像中の各文字インスタンスのラテンアルファベット対応を出力する,最先端の畳み込みニューラルネットワーク(CNN)を用いたBaybayin光文字インスタンス分割分類モデルを提案する。 既存のシステムの多くは文字レベルの画像分類に限られており、しばしばダイアクリティカルな文字を誤分類するか、ネイティブにサポートしていない。 さらに、これらの既存のモデルは特定の入力要求を持ち、ベイバインのテキストを、明瞭さやコントラストの制限など、制御された設定で分類することに制限することが多い。 提案手法はBaybayinの最初のエンドツーエンド文字検出モデルであり,mAP50スコアは93.30%,mAP50-95スコアは80.50%,F1スコアは84.84%である。

The Philippine Government recently passed the "National Writing System Act," which promotes using Baybayin in Philippine texts. In support of this effort to promote the use of Baybayin, we present a computer vision system which can aid individuals who cannot easily read Baybayin script. In this paper, we survey the existing methods of identifying Baybayin scripts using computer vision and machine learning techniques and discuss their capabilities and limitations. Further, we propose a Baybayin Optical Character Instance Segmentation and Classification model using state-of-the-art Convolutional Neural Networks (CNNs) that detect Baybayin character instances in an image then outputs the Latin alphabet counterparts of each character instance in the image. Most existing systems are limited to character-level image classification and often misclassify or not natively support characters with diacritics. In addition, these existing models often have specific input requirements that limit it to classifying Baybayin text in a controlled setting, such as limitations in clarity and contrast, among others. To our knowledge, our proposed method is the first end-to-end character instance detection model for Baybayin, achieving a mAP50 score of 93.30%, mAP50-95 score of 80.50%, and F1-Score of 84.84%.
翻訳日:2023-04-20 15:20:48 公開日:2023-04-19
# MAMAF-Net:ストローク診断のためのモーションアウェア・マルチアテンション融合ネットワーク

MAMAF-Net: Motion-Aware and Multi-Attention Fusion Network for Stroke Diagnosis ( http://arxiv.org/abs/2304.09466v1 )

ライセンス: Link先を確認
Aysen Degerli, Pekka Jakala, Juha Pajula, and Miguel Bordallo Lopez(参考訳) ストロークは世界中で死亡率と障害の主な原因であり、そのうち4人に1人が生涯で死亡する恐れがある。 脳卒中前の評価は、脳卒中患者を正確に同定し、病院でのさらなる検査と治療を促進する上で重要な役割を果たす。 そのため、National Institutes of Health Stroke Scale (NIHSS)、Cincinnati Pre-Hospital Stroke Scale (CPSS)、Face Arm Speed Time (F.A.S.T.)は世界中で知られている脳卒中評価試験である。 しかし、これらの検査の有効性は神経学者の欠如に懐疑的である。 そこで本研究では,マルチモーダル検査ビデオからストロークを検出できる動き認識・マルチアテンション融合ネットワーク(MAMAF-Net)を提案する。 ビデオ解析による脳卒中検出に関する他の研究とは対照的に,本研究では,脳卒中,一過性虚血発作(TIA)および健康管理をカプセル化したデータセットを用いて,各被験者の複数のビデオ記録からエンドツーエンドのソリューションを提案する。 提案するMAMAF-Netは,患者の動きを感知する動き認識モジュールと,多入力映像データを融合する注意モジュールと,注意ベース抽出特徴から診断する3次元畳み込み層から構成される。 収集されたStrokeDATAデータセットに対する実験の結果、提案されたMAMAF-Netは93.62%の感度と95.33%のAUCスコアで脳卒中の検出に成功した。

Stroke is a major cause of mortality and disability worldwide from which one in four people are in danger of incurring in their lifetime. The pre-hospital stroke assessment plays a vital role in identifying stroke patients accurately to accelerate further examination and treatment in hospitals. Accordingly, the National Institutes of Health Stroke Scale (NIHSS), Cincinnati Pre-hospital Stroke Scale (CPSS) and Face Arm Speed Time (F.A.S.T.) are globally known tests for stroke assessment. However, the validity of these tests is skeptical in the absence of neurologists. Therefore, in this study, we propose a motion-aware and multi-attention fusion network (MAMAF-Net) that can detect stroke from multimodal examination videos. Contrary to other studies on stroke detection from video analysis, our study for the first time proposes an end-to-end solution from multiple video recordings of each subject with a dataset encapsulating stroke, transient ischemic attack (TIA), and healthy controls. The proposed MAMAF-Net consists of motion-aware modules to sense the mobility of patients, attention modules to fuse the multi-input video data, and 3D convolutional layers to perform diagnosis from the attention-based extracted features. Experimental results over the collected StrokeDATA dataset show that the proposed MAMAF-Net achieves a successful detection of stroke with 93.62% sensitivity and 95.33% AUC score.
翻訳日:2023-04-20 15:20:24 公開日:2023-04-19
# hyperstyle3d:ハイパーネットワークによるテキストガイド付き3dポートレートスタイライゼーション

HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks ( http://arxiv.org/abs/2304.09463v1 )

ライセンス: Link先を確認
Zhuo Chen, Xudong Xu, Yichao Yan, Ye Pan, Wenhan Zhu, Wayne Wu, Bo Dai and Xiaokang Yang(参考訳) ポートレートのスタイリゼーションは、幅広いアプリケーションを可能にする長期にわたるタスクである。 2Dベースの手法は近年大きな進歩を遂げているが、メタバースやゲームのような現実世界の応用では3Dコンテンツが要求されることが多い。 一方,取得にコストがかかる3次元データの要求は,3次元ポートレートスタイリング手法の開発を著しく阻害する。 本稿では,3d画像の中間表現として,3dフィールドと3dドメインを橋渡しする3d認識gansの成功に触発されて,3d認識gansを用いた3dポートレートスタイライゼーション手法であるhyperstyle3dを提案する。 提案手法の核心は,1回のフォワードパスで生成器のパラメータを操作することを学ぶハイパーネットワークである。 単一のモデルで複数のスタイルを扱うための強力な能力を提供するだけでなく、彫刻のテクスチャ、形状、ローカル部分だけに影響を及ぼす柔軟なきめ細かなスタイリングを可能にする。 3D 対応 GAN の使用は 3D データの要求を回避しているが,CLIP モデルによるスタイル画像の必要性をさらに緩和する。 我々は,スタイル,属性,形状の広範な実験を行い,その一方で3次元の一貫性を計測した。 これらの実験は、3D一貫性のある画像を様々なスタイルでレンダリングし、顔の形を変形させ、様々な属性を編集するHyperStyle3Dモデルの優れた能力を実証している。

Portrait stylization is a long-standing task enabling extensive applications. Although 2D-based methods have made great progress in recent years, real-world applications such as metaverse and games often demand 3D content. On the other hand, the requirement of 3D data, which is costly to acquire, significantly impedes the development of 3D portrait stylization methods. In this paper, inspired by the success of 3D-aware GANs that bridge 2D and 3D domains with 3D fields as the intermediate representation for rendering 2D images, we propose a novel method, dubbed HyperStyle3D, based on 3D-aware GANs for 3D portrait stylization. At the core of our method is a hyper-network learned to manipulate the parameters of the generator in a single forward pass. It not only offers a strong capacity to handle multiple styles with a single model, but also enables flexible fine-grained stylization that affects only texture, shape, or local part of the portrait. While the use of 3D-aware GANs bypasses the requirement of 3D data, we further alleviate the necessity of style images with the CLIP model being the stylization guidance. We conduct an extensive set of experiments across the style, attribute, and shape, and meanwhile, measure the 3D consistency. These experiments demonstrate the superior capability of our HyperStyle3D model in rendering 3D-consistent images in diverse styles, deforming the face shape, and editing various attributes.
翻訳日:2023-04-20 15:19:53 公開日:2023-04-19
# ネットワークプルーニング空間

Network Pruning Spaces ( http://arxiv.org/abs/2304.09453v1 )

ライセンス: Link先を確認
Xuanyu He, Yu-I Yang, Ran Song, Jiachen Pu, Conggang Hu, Feijun Jiang, Wei Zhang, Huanghao Ding(参考訳) 重み付きプルーニングやフィルタのプルーニングを含むネットワークプルーニング技術は、ほとんどの最先端のニューラルネットワークが大幅なパフォーマンス低下なしに高速化できることを示している。 本研究は,市販のディープラーニングライブラリとハードウェアで推論を高速化するフィルタプルーニングに焦点を当てている。 本稿では,サブネットワークアーキテクチャの個体群をパラメトリズする \emph{network pruning spaces} の概念を提案する。 この概念に基づき、異なるプルーニングレジームにおける精度の損失を最小限に抑えるサブネットワークの構造的側面を探索し、サブネットワーク分布の比較により一連の観察に到達する。 我々は, プルーニング方式において, 元のネットワークの設計に関連する最適フロップ-パラメータ-バケット比が存在することを実験的に予測する。 統計的には、勝利するサブネットワークの構造は、このレジームにおける近似最適比を保証する。 我々の予想では、優れたサブネットワークアーキテクチャを探索するコストを削減するために、初期プルーニング空間をさらに洗練する。 ImageNetにおける実験結果から, FLOP に匹敵する最先端プルーニング法よりも, サブネットワークの方が優れていることがわかった。

Network pruning techniques, including weight pruning and filter pruning, reveal that most state-of-the-art neural networks can be accelerated without a significant performance drop. This work focuses on filter pruning which enables accelerated inference with any off-the-shelf deep learning library and hardware. We propose the concept of \emph{network pruning spaces} that parametrize populations of subnetwork architectures. Based on this concept, we explore the structure aspect of subnetworks that result in minimal loss of accuracy in different pruning regimes and arrive at a series of observations by comparing subnetwork distributions. We conjecture through empirical studies that there exists an optimal FLOPs-to-parameter-bucket ratio related to the design of original network in a pruning regime. Statistically, the structure of a winning subnetwork guarantees an approximately optimal ratio in this regime. Upon our conjectures, we further refine the initial pruning space to reduce the cost of searching a good subnetwork architecture. Our experimental results on ImageNet show that the subnetwork we found is superior to those from the state-of-the-art pruning methods under comparable FLOPs.
翻訳日:2023-04-20 15:19:28 公開日:2023-04-19
# EC^2: 身体制御のための創発的コミュニケーション

EC^2: Emergent Communication for Embodied Control ( http://arxiv.org/abs/2304.09448v1 )

ライセンス: Link先を確認
Yao Mu, Shunyu Yao, Mingyu Ding, Ping Luo, Chuang Gan(参考訳) エージェントはマルチモーダル・プレトレーニングを利用して、低レベルな知覚と制御に必要な視覚的および運動的詳細を含む新しい環境での行動の仕方を学ぶ必要があり、言語命令は抽象的で象徴的な構造による一般化をサポートする。 近年のアプローチでは,2つのモダリティ間のアライメントにコントラスト学習を適用しているが,それらの相補的な差異のモデル化が,下流適応のより全体論的表現につながると仮定している。 そこで,本研究では,映像言語表現を事前学習する新手法であるembodied control (ec^2) のための創発的コミュニケーションを提案する。 重要なアイデアは、ビデオの詳細と自然言語の構造の意味を橋渡しする創発的コミュニケーションを通じて、教師なしのビデオの「言語」を学ぶことである。 本稿では,映像トラジェクトリ,創発言語,自然言語の具体的表現を言語モデルを用いて学習し,下流制御のための軽量ポリシーネットワークを微調整する。 Metaworld と Franka Kitchen のベンチマークによる広範な実験により、EC^2 はタスク入力としてビデオとテキストの両方に対する従来のコントラスト学習手法を一貫して上回ることを示した。 さらに、ビデオと言語学習の両方に有益であり、事前訓練されたビデオキャプションを使用するよりもはるかに優れている創発的言語の重要性を確認する。 また,創発的言語を定量的に定性的に分析し,具体的タスクにおける創発的コミュニケーションの理解と活用に向けた今後の方向性について議論する。

Embodied control requires agents to leverage multi-modal pre-training to quickly learn how to act in new environments, where video demonstrations contain visual and motion details needed for low-level perception and control, and language instructions support generalization with abstract, symbolic structures. While recent approaches apply contrastive learning to force alignment between the two modalities, we hypothesize better modeling their complementary differences can lead to more holistic representations for downstream adaption. To this end, we propose Emergent Communication for Embodied Control (EC^2), a novel scheme to pre-train video-language representations for few-shot embodied control. The key idea is to learn an unsupervised "language" of videos via emergent communication, which bridges the semantics of video details and structures of natural language. We learn embodied representations of video trajectories, emergent language, and natural language using a language model, which is then used to finetune a lightweight policy network for downstream control. Through extensive experiments in Metaworld and Franka Kitchen embodied benchmarks, EC^2 is shown to consistently outperform previous contrastive learning methods for both videos and texts as task inputs. Further ablations confirm the importance of the emergent language, which is beneficial for both video and language learning, and significantly superior to using pre-trained video captions. We also present a quantitative and qualitative analysis of the emergent language and discuss future directions toward better understanding and leveraging emergent communication in embodied tasks.
翻訳日:2023-04-20 15:19:13 公開日:2023-04-19
# 密度不感な非教師付き領域適応による3次元物体検出

Density-Insensitive Unsupervised Domain Adaption on 3D Object Detection ( http://arxiv.org/abs/2304.09446v1 )

ライセンス: Link先を確認
Qianjiang Hu, Daizong Liu, Wei Hu(参考訳) ポイントクラウドからの3Dオブジェクト検出は、安全クリティカルな自動運転において不可欠である。 多くの研究がこのタスクに多大な努力を払って大きな進歩を遂げてきたが、その多くはドメインギャップのため、高価なアノテーションコストと未知のデータへの転送性に悩まされている。 近年、オブジェクトのドメイン間ギャップに取り組む試みは少ないが、2つのドメイン間の異なるビーム密度のギャップに適応できず、lidarコレクタの特性の違いを緩和することが重要である。 そこで,我々は密度に敏感なドメイン適応フレームワークを提案し,密度に誘発されるドメインギャップに対処する。 特に,光源領域で訓練された3次元検出器のロバスト性を高めるために,まずランダムビーム再サンプリング(rbrs)を導入する。 そして、この事前学習された検出器をバックボーンモデルとし、未ラベルのターゲットドメインデータを、その高品質な擬似ラベルを予測するために新しく設計されたタスク特化教師学生フレームワークに供給する。 対象領域に密度非感受性の特性を更に適応させるため,教師と学生の枝に異なる密度のサンプルを供給し,2つの枝の間に2つのオブジェクトグラフを構築するためのオブジェクトグラフアライメント(OGA)モジュールを提案する。 3つの広く採用されている3次元オブジェクト検出データセットによる実験結果から,提案手法が最先端の手法,特に密度データよりも優れていることが示された。 コードはhttps://github.com/WoodwindHu/DTS}{https://github.com/WoodwindHu/DTSで入手できる。

3D object detection from point clouds is crucial in safety-critical autonomous driving. Although many works have made great efforts and achieved significant progress on this task, most of them suffer from expensive annotation cost and poor transferability to unknown data due to the domain gap. Recently, few works attempt to tackle the domain gap in objects, but still fail to adapt to the gap of varying beam-densities between two domains, which is critical to mitigate the characteristic differences of the LiDAR collectors. To this end, we make the attempt to propose a density-insensitive domain adaption framework to address the density-induced domain gap. In particular, we first introduce Random Beam Re-Sampling (RBRS) to enhance the robustness of 3D detectors trained on the source domain to the varying beam-density. Then, we take this pre-trained detector as the backbone model, and feed the unlabeled target domain data into our newly designed task-specific teacher-student framework for predicting its high-quality pseudo labels. To further adapt the property of density-insensitivity into the target domain, we feed the teacher and student branches with the same sample of different densities, and propose an Object Graph Alignment (OGA) module to construct two object-graphs between the two branches for enforcing the consistency in both the attribute and relation of cross-density objects. Experimental results on three widely adopted 3D object detection datasets demonstrate that our proposed domain adaption method outperforms the state-of-the-art methods, especially over varying-density data. Code is available at https://github.com/WoodwindHu/DTS}{https://github.com/WoodwindHu/DTS.
翻訳日:2023-04-20 15:18:45 公開日:2023-04-19
# 高次元多目的問題に対するランクベース学習と局所モデルに基づく進化的アルゴリズム

Rank-Based Learning and Local Model Based Evolutionary Algorithm for High-Dimensional Expensive Multi-Objective Problems ( http://arxiv.org/abs/2304.09444v1 )

ライセンス: Link先を確認
Guodong Chen, Jiu Jimmy Jiao, Xiaoming Xue, Xin Luo and Zhongzheng Wang(参考訳) 近年,複雑で計算コストのかかる多目的最適化問題を解くためにサロゲート支援進化アルゴリズムが広く開発されている。 しかし、高次元最適化問題を扱う場合、これらのサロゲート支援多目的進化アルゴリズムの性能は大幅に低下する。 本研究では,高次元高コスト多目的最適化問題に対して,新しい分類器支援のランクベース学習と局所モデルに基づく多目的進化アルゴリズム(CLMEA)を提案する。 提案アルゴリズムは,分類子支援のランクベース学習,ハイパーボリュームベース非支配探索,比較的少ない対象空間での局所探索の3つの部分からなる。 具体的には、確率論的ニューラルネットワークを分類器として構築し、子孫を複数のランクに分割する。 異なる階級の子孫はランクベースの学習戦略を用いて、実機能評価のためのより有望で有意義な候補を生成する。 次に、対象関数を近似する代理として放射基底関数ネットワークを構築する。 サーロゲートモデルに支援された非優位解を探索した後、高体積改善候補を実評価に選定する。 その後、溶液の多様性を維持するため、群集距離で測定した非支配溶液からの最も不確定なサンプルポイントを誘導親として選択し、前線の不確実領域にさらに侵入する。 地熱貯留層熱抽出最適化におけるベンチマーク問題と実世界の応用の実験結果から,提案アルゴリズムは現状のサロゲート支援多目的進化アルゴリズムと比較して優れた性能を示した。 この作業のソースコードはhttps://github.com/jellychen7/clmeaで入手できる。

Surrogate-assisted evolutionary algorithms have been widely developed to solve complex and computationally expensive multi-objective optimization problems in recent years. However, when dealing with high-dimensional optimization problems, the performance of these surrogate-assisted multi-objective evolutionary algorithms deteriorate drastically. In this work, a novel Classifier-assisted rank-based learning and Local Model based multi-objective Evolutionary Algorithm (CLMEA) is proposed for high-dimensional expensive multi-objective optimization problems. The proposed algorithm consists of three parts: classifier-assisted rank-based learning, hypervolume-based non-dominated search, and local search in the relatively sparse objective space. Specifically, a probabilistic neural network is built as classifier to divide the offspring into a number of ranks. The offspring in different ranks uses rank-based learning strategy to generate more promising and informative candidates for real function evaluations. Then, radial basis function networks are built as surrogates to approximate the objective functions. After searching non-dominated solutions assisted by the surrogate model, the candidates with higher hypervolume improvement are selected for real evaluations. Subsequently, in order to maintain the diversity of solutions, the most uncertain sample point from the non-dominated solutions measured by the crowding distance is selected as the guided parent to further infill in the uncertain region of the front. The experimental results of benchmark problems and a real-world application on geothermal reservoir heat extraction optimization demonstrate that the proposed algorithm shows superior performance compared with the state-of-the-art surrogate-assisted multi-objective evolutionary algorithms. The source code for this work is available at https://github.com/JellyChen7/CLMEA.
翻訳日:2023-04-20 15:18:16 公開日:2023-04-19
# NetGPT: ネットワークトラフィックのための生成事前学習トランス

NetGPT: Generative Pretrained Transformer for Network Traffic ( http://arxiv.org/abs/2304.09513v1 )

ライセンス: Link先を確認
Xuying Meng, Chungang Lin, Yequan Wang, Yujun Zhang(参考訳) ネットワークトラフィックのための事前トレーニングされたモデルは、大規模生データを使用してネットワークトラフィックの本質的特性を学習し、特定の下流タスクを考慮せずに入力トラフィックの識別可能な結果を生成することができる。 効果的な事前学習モデルは、トラフィック分類、攻撃検出、リソーススケジューリング、プロトコル分析、トラフィック生成などの下流タスクのトレーニング効率と効率を著しく最適化することができる。 自然言語処理における事前学習の成功にもかかわらず、ネットワーク分野における作業は行われていない。 ネットワークトラフィックとネットワークタスクの多様な要求と特性を考慮すると、ネットワークトラフィックのための事前訓練されたモデルを構築するのは簡単ではありません。 これらの課題に取り組むため,本稿では,トラヒック理解と生成タスクの両方に対して生成的事前学習モデルを提供することを初めて試みる。 本稿では,統一テキスト入力を構築し,トラヒック理解と生成タスクの両方をサポートするマルチパターンネットワークトラヒックモデリングを提案する。 さらに、ヘッダフィールドをシャッフルし、フロー内のパケットをセグメンテーションし、プロンプトで様々なタスクラベルを組み込むことにより、プリトレーニングされたモデルのタスクへの適応効果をさらに最適化する。 膨大な実験により、トラフィック理解および生成タスクにおけるNetGPTの有効性を実証し、最先端のベースラインを幅広いマージンで上回ります。

Pretrained models for network traffic can utilize large-scale raw data to learn the essential characteristics of network traffic, and generate distinguishable results for input traffic without considering specific downstream tasks. Effective pretrained models can significantly optimize the training efficiency and effectiveness of downstream tasks, such as traffic classification, attack detection, resource scheduling, protocol analysis, and traffic generation. Despite the great success of pretraining in natural language processing, there is no work in the network field. Considering the diverse demands and characteristics of network traffic and network tasks, it is non-trivial to build a pretrained model for network traffic and we face various challenges, especially the heterogeneous headers and payloads in the multi-pattern network traffic and the different dependencies for contexts of diverse downstream network tasks. To tackle these challenges, in this paper, we make the first attempt to provide a generative pretrained model for both traffic understanding and generation tasks. We propose the multi-pattern network traffic modeling to construct unified text inputs and support both traffic understanding and generation tasks. We further optimize the adaptation effect of the pretrained model to diversified tasks by shuffling header fields, segmenting packets in flows, and incorporating diverse task labels with prompts. Expensive experiments demonstrate the effectiveness of our NetGPT in a range of traffic understanding and generation tasks, and outperform state-of-the-art baselines by a wide margin.
翻訳日:2023-04-20 15:11:16 公開日:2023-04-19
# KNNに基づく修正メドイドシフトを用いたコミュニティ検出

Community Detection Using Revised Medoid-Shift Based on KNN ( http://arxiv.org/abs/2304.09512v1 )

ライセンス: Link先を確認
Jie Hou, Jiakang Li, Xiaokang Peng, Wei Ke, Yonggang Lu(参考訳) コミュニティ検出は、ソーシャルネットワークのブームにおいて重要な問題となる。 平均シフトは座標付きデータしか扱えないが、コミュニティ検出問題のデータは距離行列(または類似行列)を持つデータとして扱うことができるグラフで表されるため、優れたクラスタリングアルゴリズムとして、平均シフトはコミュニティ検出に直接適用できない。 幸いにもmedoid-shiftと呼ばれる新しいクラスタリングアルゴリズムが提案されている。 Medoid-Shiftアルゴリズムは平均シフトの利点を保ち、コミュニティ検出のような距離行列に基づく問題に適用できる。 メドイドシフトアルゴリズムの欠点の1つは、距離パラメータによって定義される近傍領域にデータポイントが存在しないことである。 そこで本研究では, コミュニティ検出問題をよりよく扱うために, 改良型メドロイドシフト (rms) と呼ばれる新しいアルゴリズムを提案する。 次のメドイドを見つける過程において、RMSアルゴリズムはKNNで定義された近傍に基づいており、元のメドイドシフトは距離パラメータで定義された近傍に基づいている。 knnによって定義される近傍は、近傍内のデータポイント数の観点から距離パラメータによって定義される近傍よりも安定であるため、rmsアルゴリズムはよりスムーズに収束することができる。 RMS法では、各データポイントは、KNNで定義された近傍のメドロイドに移動される。 反復的なシフト処理の後、各データポイントがクラスタセンタに収束し、同じセンタに集約されたデータポイントが同じクラスタにグループ化される。

Community detection becomes an important problem with the booming of social networks. As an excellent clustering algorithm, Mean-Shift can not be applied directly to community detection, since Mean-Shift can only handle data with coordinates, while the data in the community detection problem is mostly represented by a graph that can be treated as data with a distance matrix (or similarity matrix). Fortunately, a new clustering algorithm called Medoid-Shift is proposed. The Medoid-Shift algorithm preserves the benefits of Mean-Shift and can be applied to problems based on distance matrix, such as community detection. One drawback of the Medoid-Shift algorithm is that there may be no data points within the neighborhood region defined by a distance parameter. To deal with the community detection problem better, a new algorithm called Revised Medoid-Shift (RMS) in this work is thus proposed. During the process of finding the next medoid, the RMS algorithm is based on a neighborhood defined by KNN, while the original Medoid-Shift is based on a neighborhood defined by a distance parameter. Since the neighborhood defined by KNN is more stable than the one defined by the distance parameter in terms of the number of data points within the neighborhood, the RMS algorithm may converge more smoothly. In the RMS method, each of the data points is shifted towards a medoid within the neighborhood defined by KNN. After the iterative process of shifting, each of the data point converges into a cluster center, and the data points converging into the same center are grouped into the same cluster.
翻訳日:2023-04-20 15:10:50 公開日:2023-04-19
# ダウンサンプリング不分散損失と条件付きブラインドスポットネットワークを用いた自己教師あり画像の雑音化

Self-supervised Image Denoising with Downsampled Invariance Loss and Conditional Blind-Spot Network ( http://arxiv.org/abs/2304.09507v1 )

ライセンス: Link先を確認
Yeong Il Jang, Keuntek Lee, Gu Yong Park, Seyun Kim, Nam Ik Cho(参考訳) ディープニューラルネットワークを用いた画像デノイザは数多く存在し、従来のモデルベース手法を大きなマージンで上回っている。 近年,教師付き訓練のための大規模実雑音データセットの構築が大きな負担となるため,自己監督手法が注目されている。 最も代表的な自己監督型デノイザは、受信フィールドの中心ピクセルを除外する盲点ネットワークに基づいている。 しかし、入力画素を除くと、特に対応する出力位置の入力画素が除外された場合、いくつかの情報を捨てる。 さらに、標準的な盲点ネットワークは、ノイズのピクセルワイド相関による実際のカメラノイズを低減できないが、独立に分散された合成ノイズを除去することに成功した。 そこで,より実用的なデノイザーを実現するために,実雑音を除去できる新しい自己教師付き学習フレームワークを提案する。 このために、ネットワークがダウンサンプリングされたブラインド出力によって誘導される教師付き損失の理論上上限を導出する。 また,ネットワークの盲点を選択的に制御して中心画素情報を使用する条件付きブラインドスポットネットワーク(c-bsn)を設計する。 さらに,無作為なサブサンプラーを用いて雑音を空間的にデコレーションし,C-BSNはダウンサンプル方式でよく見られる視覚的アーティファクトを含まないようにした。 大規模な実験により、提案したC-BSNは、自己教師付きデノイザとして現実のデータセット上での最先端のパフォーマンスを達成し、後処理や改善なしに質的に満足な結果を示す。

There have been many image denoisers using deep neural networks, which outperform conventional model-based methods by large margins. Recently, self-supervised methods have attracted attention because constructing a large real noise dataset for supervised training is an enormous burden. The most representative self-supervised denoisers are based on blind-spot networks, which exclude the receptive field's center pixel. However, excluding any input pixel is abandoning some information, especially when the input pixel at the corresponding output position is excluded. In addition, a standard blind-spot network fails to reduce real camera noise due to the pixel-wise correlation of noise, though it successfully removes independently distributed synthetic noise. Hence, to realize a more practical denoiser, we propose a novel self-supervised training framework that can remove real noise. For this, we derive the theoretic upper bound of a supervised loss where the network is guided by the downsampled blinded output. Also, we design a conditional blind-spot network (C-BSN), which selectively controls the blindness of the network to use the center pixel information. Furthermore, we exploit a random subsampler to decorrelate noise spatially, making the C-BSN free of visual artifacts that were often seen in downsample-based methods. Extensive experiments show that the proposed C-BSN achieves state-of-the-art performance on real-world datasets as a self-supervised denoiser and shows qualitatively pleasing results without any post-processing or refinement.
翻訳日:2023-04-20 15:10:25 公開日:2023-04-19
# サンプリングは重要:ポイント誘導型3Dメッシュ再構築

Sampling is Matter: Point-guided 3D Human Mesh Reconstruction ( http://arxiv.org/abs/2304.09502v1 )

ライセンス: Link先を確認
Jeonghwan Kim (1), Mi-Gyeong Gwon (1), Hyunwoo Park (1), Hyukmin Kwon (2), Gi-Mun Um (2), Wonjun Kim (1) ((1) Konkuk University, (2) Electronics and Telecommunications Research Institute)(参考訳) 本稿では,1枚のRGB画像から3次元メッシュを再構築する簡単な手法を提案する。 直近では、メッシュ頂点全体の非局所的相互作用はトランスフォーマにおいて効果的に推定され、ボディ部分間の関係もグラフモデルによって処理され始めている。 これらのアプローチは3次元メッシュ再構成の著しい進歩を示しているが、2次元入力画像から符号化された特徴と各頂点の3次元座標との関係を直接推測することは困難である。 この問題を解決するために,簡単な特徴サンプリング方式を提案する。 重要なアイデアは、3dメッシュ頂点(すなわち基底真理)の投影結果として推定される点のガイドに従って、埋め込み空間の特徴をサンプリングすることだ。 これにより、モデルは2次元空間における頂点関連の特徴に集中し、自然の人間のポーズを再構築する。 さらに,高度閉塞下においても頂点間の局所的相互作用を正確に推定するために,プログレッシブアテンションマスキングを適用した。 評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。 コードとモデルは、https://github.com/DCVL-3D/PointHMR_release.comで公開されている。

This paper presents a simple yet powerful method for 3D human mesh reconstruction from a single RGB image. Most recently, the non-local interactions of the whole mesh vertices have been effectively estimated in the transformer while the relationship between body parts also has begun to be handled via the graph model. Even though those approaches have shown the remarkable progress in 3D human mesh reconstruction, it is still difficult to directly infer the relationship between features, which are encoded from the 2D input image, and 3D coordinates of each vertex. To resolve this problem, we propose to design a simple feature sampling scheme. The key idea is to sample features in the embedded space by following the guide of points, which are estimated as projection results of 3D mesh vertices (i.e., ground truth). This helps the model to concentrate more on vertex-relevant features in the 2D space, thus leading to the reconstruction of the natural human pose. Furthermore, we apply progressive attention masking to precisely estimate local interactions between vertices even under severe occlusions. Experimental results on benchmark datasets show that the proposed method efficiently improves the performance of 3D human mesh reconstruction. The code and model are publicly available at: https://github.com/DCVL-3D/PointHMR_release.
翻訳日:2023-04-20 15:09:56 公開日:2023-04-19
# スパイクニューラルネットワークのための逆知識蒸留による生体インスパイア構造学習

Biologically inspired structure learning with reverse knowledge distillation for spiking neural networks ( http://arxiv.org/abs/2304.09500v1 )

ライセンス: Link先を確認
Qi Xu, Yaxin Li, Xuanye Fang, Jiangrong Shen, Jian K. Liu, Huajin Tang, Gang Pan(参考訳) スパイキングニューラルネットワーク(SNN)は、その生物学的妥当性から感覚情報認識タスクにおいて非常に優れた特徴を持つ。 しかし、現在のスパイクベースモデルの性能は、完全に接続された構造か深すぎる構造かによって制限されている。 この接続とニューロンの冗長性は、SNNの実用化を妨げる重要な要素の1つである。 この問題に対処するためにいくつかのプルーニング法が提案されたが、彼らは通常、人間の脳の神経トポロジーを動的に調整できるという事実を無視した。 そこで本稿では,より合理的なsns構築のための進化に基づく構造構築手法を提案する。 知識蒸留法と接続切断法を統合することにより、SNNのシナプス接続を動的に最適化して最適な状態にすることができる。 その結果、SNNの構造は教師モデルから知識を吸収するだけでなく、深いが疎いネットワークトポロジーも探すことができた。 CIFAR100 と DVS-Gesture の実験結果から,提案手法は接続冗長性を低減しつつ,高い性能が得られることが示された。 提案手法は,深層学習とバイオインスパイアされた神経力学のギャップを埋めるために橋を架けるSNNにおいて,スクラッチから構造学習を行う新しい動的手法を探索する。

Spiking neural networks (SNNs) have superb characteristics in sensory information recognition tasks due to their biological plausibility. However, the performance of some current spiking-based models is limited by their structures which means either fully connected or too-deep structures bring too much redundancy. This redundancy from both connection and neurons is one of the key factors hindering the practical application of SNNs. Although Some pruning methods were proposed to tackle this problem, they normally ignored the fact the neural topology in the human brain could be adjusted dynamically. Inspired by this, this paper proposed an evolutionary-based structure construction method for constructing more reasonable SNNs. By integrating the knowledge distillation and connection pruning method, the synaptic connections in SNNs can be optimized dynamically to reach an optimal state. As a result, the structure of SNNs could not only absorb knowledge from the teacher model but also search for deep but sparse network topology. Experimental results on CIFAR100 and DVS-Gesture show that the proposed structure learning method can get pretty well performance while reducing the connection redundancy. The proposed method explores a novel dynamical way for structure learning from scratch in SNNs which could build a bridge to close the gap between deep learning and bio-inspired neural dynamics.
翻訳日:2023-04-20 15:09:37 公開日:2023-04-19
# 非順序目標を持つニューラルネットワークにおける責任問題

The Responsibility Problem in Neural Networks with Unordered Targets ( http://arxiv.org/abs/2304.09499v1 )

ライセンス: Link先を確認
Ben Hayes, Charalampos Saitis, Gy\"orgy Fazekas(参考訳) 我々は、未順序オブジェクトを固定置換のニューラルネットワーク出力にマッピングする際に生じる不連続性(責任問題)について論じる。 以前の研究は、単一の不連続を識別することで問題の存在を証明した。 ここでは,そのようなモデルの下での不連続性は不可分無限であり,非順序データに対するニューラルネットワークの研究が促進されることを示した。

We discuss the discontinuities that arise when mapping unordered objects to neural network outputs of fixed permutation, referred to as the responsibility problem. Prior work has proved the existence of the issue by identifying a single discontinuity. Here, we show that discontinuities under such models are uncountably infinite, motivating further research into neural networks for unordered data.
翻訳日:2023-04-20 15:09:15 公開日:2023-04-19
# 一般化可能な人物再識別のためのロバストなビジュアルセマンティック埋め込みの学習

Learning Robust Visual-Semantic Embedding for Generalizable Person Re-identification ( http://arxiv.org/abs/2304.09498v1 )

ライセンス: Link先を確認
Suncheng Xiang, Jingsheng Gao, Mengyuan Guan, Jiacheng Ruan, Chengfeng Zhou, Ting Liu, Dahong Qian, Yuzhuo Fu(参考訳) 一般個人再識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックであり、公共のセキュリティやビデオ監視における様々な応用のために、現実的なシナリオにおいて重要な役割を果たす。 しかし,従来の手法は主に視覚的表現学習に重点を置いていたが,学習中の意味的特徴の可能性を探求することは行わず,新しい領域に適応する際の一般化能力の低下につながる。 本稿では,視覚タスク,テキストタスク,視覚タスクにおいてより頑健な視覚意味埋め込み学習を実現するために,mmetと呼ばれるマルチモーダル等価トランスフォーマを提案する。 トランスフォーマタの文脈におけるロバストな特徴学習をさらに強化するため、画像パッチとテキストトークンの両方をマスクするために、マスキングマルチモーダルモデリング戦略(mmm)と呼ばれる動的マスキング機構が導入され、マルチモーダルデータやユニモーダルデータと協調して動作し、一般的なパーソナライズ可能なパーソンリidのパフォーマンスを大幅に向上させる。 ベンチマークデータセットの大規模な実験により,従来の手法に比べて,提案手法の競合性能が示された。 この手法が視覚・視覚表現学習への研究を前進させることを期待する。 ソースコードはhttps://github.com/JeremyXSC/MMETでも公開されています。

Generalizable person re-identification (Re-ID) is a very hot research topic in machine learning and computer vision, which plays a significant role in realistic scenarios due to its various applications in public security and video surveillance. However, previous methods mainly focus on the visual representation learning, while neglect to explore the potential of semantic features during training, which easily leads to poor generalization capability when adapted to the new domain. In this paper, we propose a Multi-Modal Equivalent Transformer called MMET for more robust visual-semantic embedding learning on visual, textual and visual-textual tasks respectively. To further enhance the robust feature learning in the context of transformer, a dynamic masking mechanism called Masked Multimodal Modeling strategy (MMM) is introduced to mask both the image patches and the text tokens, which can jointly works on multimodal or unimodal data and significantly boost the performance of generalizable person Re-ID. Extensive experiments on benchmark datasets demonstrate the competitive performance of our method over previous approaches. We hope this method could advance the research towards visual-semantic representation learning. Our source code is also publicly available at https://github.com/JeremyXSC/MMET.
翻訳日:2023-04-20 15:09:08 公開日:2023-04-19
# ソーシャルメディアによる精神疾患検出のための感情融合:調査

Emotion fusion for mental illness detection from social media: A survey ( http://arxiv.org/abs/2304.09493v1 )

ライセンス: Link先を確認
Tianlin Zhang and Kailai Yang and Shaoxiong Ji and Sophia Ananiadou(参考訳) 精神疾患は世界中で最も一般的な公衆衛生問題の一つであり、人々の生活や社会の健康に悪影響を及ぼす。 ソーシャルメディアの普及に伴い、ソーシャルメディア上でユーザーが生成した投稿を分析して精神疾患の早期発見への関心が高まっている。 感情と精神疾患の相関関係から,感情情報の活用と融合が重要な研究トピックに発展してきた。 本稿では,感情融合を取り入れたソーシャルメディアにおける精神疾患検出のアプローチに関する包括的調査を行う。 まずは、異なる融合戦略と、その利点と欠点をレビューすることから始めます。 次に,この領域で働く研究者が直面する課題として,データセットの可用性や品質,アルゴリズムの性能,解釈可能性などについて論じる。 また,今後の研究の方向性についても提案する。

Mental illnesses are one of the most prevalent public health problems worldwide, which negatively influence people's lives and society's health. With the increasing popularity of social media, there has been a growing research interest in the early detection of mental illness by analysing user-generated posts on social media. According to the correlation between emotions and mental illness, leveraging and fusing emotion information has developed into a valuable research topic. In this article, we provide a comprehensive survey of approaches to mental illness detection in social media that incorporate emotion fusion. We begin by reviewing different fusion strategies, along with their advantages and disadvantages. Subsequently, we discuss the major challenges faced by researchers working in this area, including issues surrounding the availability and quality of datasets, the performance of algorithms and interpretability. We additionally suggest some potential directions for future research.
翻訳日:2023-04-20 15:08:43 公開日:2023-04-19
# Deep Deterministic Policy Gradientsを用いた高優先度ユーザによるリソーススケジューリングの学習

Learning Resource Scheduling with High Priority Users using Deep Deterministic Policy Gradients ( http://arxiv.org/abs/2304.09488v1 )

ライセンス: Link先を確認
Steffen Gracla, Edgar Beck, Carsten Bockelmann, Armin Dekorsy(参考訳) モバイルコミュニケーション能力の進歩は、病院前および病院内ケアプロセスの緊密な統合の扉を開く。 例えば、医療専門家は現場の救急隊員をガイドすることができ、その代わりに生のバイタルや視覚を提供することができる。 このようなパフォーマンスクリティカルなアプリケーションと非常に複雑なモバイル通信の動作を統合するには、信頼性と効率の両立が必要だが、既存のシステムとの統合は容易である。 本稿では,通信資源スケジューリングアルゴリズムを優先的に学習するためのDeep Deterministic Policy Gradient~(\ddpg)手法の適用について検討する。 一般的なディープqネットワーク法とは異なり、 \ddpgは連続値出力を生成することができる。 軽量な後処理により、結果のスケジューラはフレキシブルな和ユーティリティゴールで高いパフォーマンスを達成することができる。

Advances in mobile communication capabilities open the door for closer integration of pre-hospital and in-hospital care processes. For example, medical specialists can be enabled to guide on-site paramedics and can, in turn, be supplied with live vitals or visuals. Consolidating such performance-critical applications with the highly complex workings of mobile communications requires solutions both reliable and efficient, yet easy to integrate with existing systems. This paper explores the application of Deep Deterministic Policy Gradient~(\ddpg) methods for learning a communications resource scheduling algorithm with special regards to priority users. Unlike the popular Deep-Q-Network methods, the \ddpg is able to produce continuous-valued output. With light post-processing, the resulting scheduler is able to achieve high performance on a flexible sum-utility goal.
翻訳日:2023-04-20 15:08:33 公開日:2023-04-19
# 音声アシスタントアプリケーションにおけるセキュリティとプライバシー問題:調査

Security and Privacy Problems in Voice Assistant Applications: A Survey ( http://arxiv.org/abs/2304.09486v1 )

ライセンス: Link先を確認
Jingjin Li, Chao chen, Lei Pan, Mostafa Rahimi Azghadi, Hossein Ghodosi, Jun Zhang(参考訳) 音声アシスタントのアプリケーションは最近全能化している。 現実のアプリケーション(Google Home、Amazon Alexa、Siriなど)に最も重要な機能を提供する2つのモデルは、自動音声認識(ASR)モデルと話者識別(SI)モデルである。 最近の研究によると、IoT(Internet of Things)の急速な発展に伴い、セキュリティとプライバシの脅威も現れた。 研究されているセキュリティ問題は、機械学習モデルや、音声アシスタントアプリケーションで広く使われているハードウェアコンポーネントに対する攻撃技術である。 プライバシーの問題は、技術的な情報盗難とポリシー的なプライバシー侵害だ。 音声アシスタントアプリケーションは毎年着実に市場シェアを伸ばしているが、プライバシーとセキュリティの問題は大きな経済的損失を招き、ユーザーの個人情報を危険にさらすことは決してない。 したがって、音声アシスタントアプリケーションのセキュリティおよびプライバシー問題に関する現在の研究の分類を概観する総合的な調査を行うことが重要である。 本稿では,サイバーセキュリティと音声ドメインに関するトップレベルのカンファレンスにおいて,5種類のセキュリティ攻撃と3種類のプライバシ脅威を結論付け,評価する。

Voice assistant applications have become omniscient nowadays. Two models that provide the two most important functions for real-life applications (i.e., Google Home, Amazon Alexa, Siri, etc.) are Automatic Speech Recognition (ASR) models and Speaker Identification (SI) models. According to recent studies, security and privacy threats have also emerged with the rapid development of the Internet of Things (IoT). The security issues researched include attack techniques toward machine learning models and other hardware components widely used in voice assistant applications. The privacy issues include technical-wise information stealing and policy-wise privacy breaches. The voice assistant application takes a steadily growing market share every year, but their privacy and security issues never stopped causing huge economic losses and endangering users' personal sensitive information. Thus, it is important to have a comprehensive survey to outline the categorization of the current research regarding the security and privacy problems of voice assistant applications. This paper concludes and assesses five kinds of security attacks and three types of privacy threats in the papers published in the top-tier conferences of cyber security and voice domain.
翻訳日:2023-04-20 15:08:20 公開日:2023-04-19
# ボース・アインシュタイン凝縮の普遍性とクエンチド形成ダイナミクス

Universality of Bose-Einstein Condensation and Quenched Formation Dynamics ( http://arxiv.org/abs/2304.09541v1 )

ライセンス: Link先を確認
Nick P. Proukakis(参考訳) 多体量子系におけるマクロコヒーレンスの発生は、異なる物理系やスケールにわたるユビキタス現象である。 本章では、そのような系(相関関数、凝縮、準凝縮)を特徴づける重要な概念を概説し、そのような高整合状態への動的経路における新しい非平衡特徴の研究に適用する:特に、保守的および開量子系の力学における新しい普遍的特徴、その平衡あるいは非平衡の性質、そしてこれらが量子気体の現在の実験で観測できる程度に重点を置いている。 特筆すべき例としては、キブル・ズレック機構における対称性の破れ、粗大化と位相秩序運動学、非熱的固定点の周りの普遍的時空間スケーリング、カルダル・パリ・張方程式の文脈などがあり、この章は宇宙におけるダークマターの大規模分布のモデル化におけるこれらの概念の潜在的な関連性について簡単なレビューで結論付けている。

The emergence of macroscopic coherence in a many-body quantum system is a ubiquitous phenomenon across different physical systems and scales. This Chapter reviews key concepts characterizing such systems (correlation functions, condensation, quasi-condensation) and applies them to the study of emerging non-equilibrium features in the dynamical path towards such a highly-coherent state: particular emphasis is placed on emerging universal features in the dynamics of conservative and open quantum systems, their equilibrium or non-equilibrium nature, and the extent that these can be observed in current experiments with quantum gases. Characteristic examples include symmetry-breaking in the Kibble-Zurek mechanism, coarsening and phase-ordering kinetics, and universal spatiotemporal scalings around non-thermal fixed points and in the context of the Kardar- Parisi-Zhang equation; the Chapter concludes with a brief review of the potential relevance of some of these concepts in modelling the large-scale distribution of dark matter in the universe.
翻訳日:2023-04-20 15:02:24 公開日:2023-04-19
# 階層構造概念の学習 II: 重なり合う概念とフィードバックによるネットワーク

Learning Hierarchically-Structured Concepts II: Overlapping Concepts, and Networks With Feedback ( http://arxiv.org/abs/2304.09540v1 )

ライセンス: Link先を確認
Nancy Lynch and Frederik Mallmann-Trenn(参考訳) Lynch と Mallmann-Trenn (Neural Networks, 2021) による研究を継続し、階層構造を持つ概念が脳のようなニューラルネットワークでどのように表現されるか、これらの表現が概念の認識にどのように使用されるか、そしてこれらの表現がどのように学習されるかについて研究する。 lynch and mallmann-trenn (neural networks, 2021) では,単純な木構造概念とフィードフォワード層ネットワークを検討した。 ここではモデルを2つの方法で拡張する: 異なる概念を持つ子供たちの間のオーバーラップを制限し、ネットワークがフィードバックのエッジを含むようにする。 より一般的なケースでは、認識のためのアルゴリズムと学習のためのアルゴリズムを記述し分析する。

We continue our study from Lynch and Mallmann-Trenn (Neural Networks, 2021), of how concepts that have hierarchical structure might be represented in brain-like neural networks, how these representations might be used to recognize the concepts, and how these representations might be learned. In Lynch and Mallmann-Trenn (Neural Networks, 2021), we considered simple tree-structured concepts and feed-forward layered networks. Here we extend the model in two ways: we allow limited overlap between children of different concepts, and we allow networks to include feedback edges. For these more general cases, we describe and analyze algorithms for recognition and algorithms for learning.
翻訳日:2023-04-20 15:02:04 公開日:2023-04-19
# カオス的挙動追跡によるデカダル温度予測

Decadal Temperature Prediction via Chaotic Behavior Tracking ( http://arxiv.org/abs/2304.09536v1 )

ライセンス: Link先を確認
Jinfu Ren, Yang Liu and Jiming Liu(参考訳) 遅延温度予測は将来の気候変動の影響を定量化するための重要な情報を提供し、様々な領域における戦略的計画と意思決定を通知する。 しかし, 温度変動のカオス性から, 長期予測は非常に困難である。 また、初期シミュレーションや予測誤差が時間とともに指数関数的に増加するため、既存のシミュレーションベースおよび機械学習ベース手法の有用性は限られている。 この課題に対処するために,現在の予測に基づいて次のステップの予測誤差に対する確率的フィードバックを提供することにより,予測段階における温度変動を追跡し適応することを目的とした情報追跡機構を含む新しい予測手法を考案する。 モデル校正器と見なすことのできるこの情報追跡機構を本手法の目的関数に統合し,誤差の蓄積を回避するために必要な補正を求める。 以上の結果から,グローバルな地表面温度をデカダル範囲で正確に予測できることが示唆された。 さらに,本手法を用いて予測した温度は,大陸間および大陸間におけるよく知られた相互接続を説明するのに有用であることを示す。

Decadal temperature prediction provides crucial information for quantifying the expected effects of future climate changes and thus informs strategic planning and decision-making in various domains. However, such long-term predictions are extremely challenging, due to the chaotic nature of temperature variations. Moreover, the usefulness of existing simulation-based and machine learning-based methods for this task is limited because initial simulation or prediction errors increase exponentially over time. To address this challenging task, we devise a novel prediction method involving an information tracking mechanism that aims to track and adapt to changes in temperature dynamics during the prediction phase by providing probabilistic feedback on the prediction error of the next step based on the current prediction. We integrate this information tracking mechanism, which can be considered as a model calibrator, into the objective function of our method to obtain the corrections needed to avoid error accumulation. Our results show the ability of our method to accurately predict global land-surface temperatures over a decadal range. Furthermore, we demonstrate that our results are meaningful in a real-world context: the temperatures predicted using our method are consistent with and can be used to explain the well-known teleconnections within and between different continents.
翻訳日:2023-04-20 15:01:49 公開日:2023-04-19
# 病理組織学におけるロバスト画像分割のためのリアルデータエンリッチメント

Realistic Data Enrichment for Robust Image Segmentation in Histopathology ( http://arxiv.org/abs/2304.09534v1 )

ライセンス: Link先を確認
Sarah Cechnicka, James Ball, Callum Arthurs, Candice Roufosse, and Bernhard Kainz(参考訳) 病理組織学的全スライド画像(WSI)における定量的解析の貧弱さは臨床的に重要な障害である。 大規模なWSIを手動でアノテートすることは要求と時間を要する作業であり、完全に教師付き学習システムで使用すると期待される結果が得られそうにない。 稀に観察される疾患パターンと物体のスケールの大きな違いは、従来の患者摂取を通してモデル化することが困難である。 以前の手法では、画像ごとのいくつかの要因のみを学習する直接的な疾患分類や、大多数の観察に偏っている平均的な画像分割性能を報告する必要がある。 幾何学的画像拡張は、平均ケース予測のロバスト性を改善し、限られたデータセットを豊かにするためによく用いられる。 今のところ、画像内の不均衡なオブジェクトのセグメンテーションなど、安定性を改善するために現実的な後方分布をサンプリングする手法は提供されていない。 そこで,本研究では拡散モデルに基づく新しい手法を提案する。 本手法は,機械学習パイプラインの訓練に適した限られた臨床データセットを拡張し,実際の患者と区別できない病理像を生成するための解釈可能なヒト制御可能な方法を提供する。 以上の結果は,パブリックドメインと腎移植研究の2つのデータセットで検証した。

Poor performance of quantitative analysis in histopathological Whole Slide Images (WSI) has been a significant obstacle in clinical practice. Annotating large-scale WSIs manually is a demanding and time-consuming task, unlikely to yield the expected results when used for fully supervised learning systems. Rarely observed disease patterns and large differences in object scales are difficult to model through conventional patient intake. Prior methods either fall back to direct disease classification, which only requires learning a few factors per image, or report on average image segmentation performance, which is highly biased towards majority observations. Geometric image augmentation is commonly used to improve robustness for average case predictions and to enrich limited datasets. So far no method provided sampling of a realistic posterior distribution to improve stability, e.g. for the segmentation of imbalanced objects within images. Therefore, we propose a new approach, based on diffusion models, which can enrich an imbalanced dataset with plausible examples from underrepresented groups by conditioning on segmentation maps. Our method can simply expand limited clinical datasets making them suitable to train machine learning pipelines, and provides an interpretable and human-controllable way of generating histopathology images that are indistinguishable from real ones to human experts. We validate our findings on two datasets, one from the public domain and one from a Kidney Transplant study.
翻訳日:2023-04-20 15:01:31 公開日:2023-04-19
# 自己指導型アクティブラーニングに基づく個人化活動認識

SelfAct: Personalized Activity Recognition based on Self-Supervised and Active Learning ( http://arxiv.org/abs/2304.09530v1 )

ライセンス: Link先を確認
Luca Arrotta, Gabriele Civitarese, Samuele Valente, Claudio Bettini(参考訳) Supervised Deep Learning (DL)モデルは現在、ウェアラブルとモバイルデバイスにおけるセンサベースのヒューマンアクティビティ認識(HAR)の主要なアプローチである。 しかし、トレーニングには大量のラベル付きデータが必要であり、収集には時間がかかり、コストがかかり、エラーが発生しやすい。 同時に、アクティビティ実行のイントラおよびインターバリアビリティのため、アクティビティモデルは各ユーザごとにパーソナライズされるべきである。 本研究では,自己教師型学習とアクティブ学習を組み合わせたHARのための新しいフレームワークであるSelfActを提案する。 selfactは、センサデータの有意義で効率的な潜在表現を学習することを目的として、多くのユーザから収集されたラベルなしデータの大規模なプールを活用して、dlモデルを自己スーパービジョンする。 その結果得られた事前学習されたモデルは、新しいユーザがローカルに使用することができ、新しい教師なしのアクティブラーニング戦略によって微調整される。 公開されている2つのHARデータセットに対する実験により、SelfActは、少数のアクティブな学習クエリで完全に教師されたアプローチに近い、あるいはそれ以上に優れた結果が得られることを示した。

Supervised Deep Learning (DL) models are currently the leading approach for sensor-based Human Activity Recognition (HAR) on wearable and mobile devices. However, training them requires large amounts of labeled data whose collection is often time-consuming, expensive, and error-prone. At the same time, due to the intra- and inter-variability of activity execution, activity models should be personalized for each user. In this work, we propose SelfAct: a novel framework for HAR combining self-supervised and active learning to mitigate these problems. SelfAct leverages a large pool of unlabeled data collected from many users to pre-train through self-supervision a DL model, with the goal of learning a meaningful and efficient latent representation of sensor data. The resulting pre-trained model can be locally used by new users, which will fine-tune it thanks to a novel unsupervised active learning strategy. Our experiments on two publicly available HAR datasets demonstrate that SelfAct achieves results that are close to or even better than the ones of fully supervised approaches with a small number of active learning queries.
翻訳日:2023-04-20 15:01:06 公開日:2023-04-19
# Pseudo-Stereoを用いた単視点ビュー合成

Single-View View Synthesis with Self-Rectified Pseudo-Stereo ( http://arxiv.org/abs/2304.09527v1 )

ライセンス: Link先を確認
Zhou Yang, Wu Hanjie, Liu Wenxi, Xiong Zheng, Qin Jing, He Shengfeng(参考訳) 単一のビューイメージから新しいビューを合成することは、非常に不適切な問題である。 シングルビュービュー合成問題を多視点設定に拡張することにより,学習のあいまいさを軽減する効果的な解を見出す。 具体的には、3次元空間を構成する補助入力として機能する擬似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。 このようにして、挑戦的な新しいビュー合成プロセスは、ステレオ合成と3次元再構成の2つのより単純な問題に分解される。 構造的に正確で精細に保存されたステレオ画像を合成するために,誤り領域を識別・再現する自己再現ステレオ合成を提案する。 トレーニングが困難で不正確なワーピングサンプルが2つの戦略によって最初に発見された。 1)低信頼の予測を明らかにするためにネットワークを切断し, 2) ステレオ画像間の双方向マッチングにより不適切なマッピングの発見が可能となる。 これらの領域は、最後に擬似ステレオを形成するために塗装される。 この余分な入力によって、好ましい3D再構成が容易に得られ、任意の3D表現で作業することができる。 広範な実験により,本手法は最先端の単視点映像合成法やステレオ合成法よりも優れていることが示された。

Synthesizing novel views from a single view image is a highly ill-posed problem. We discover an effective solution to reduce the learning ambiguity by expanding the single-view view synthesis problem to a multi-view setting. Specifically, we leverage the reliable and explicit stereo prior to generate a pseudo-stereo viewpoint, which serves as an auxiliary input to construct the 3D space. In this way, the challenging novel view synthesis process is decoupled into two simpler problems of stereo synthesis and 3D reconstruction. In order to synthesize a structurally correct and detail-preserved stereo image, we propose a self-rectified stereo synthesis to amend erroneous regions in an identify-rectify manner. Hard-to-train and incorrect warping samples are first discovered by two strategies, 1) pruning the network to reveal low-confident predictions; and 2) bidirectionally matching between stereo images to allow the discovery of improper mapping. These regions are then inpainted to form the final pseudo-stereo. With the aid of this extra input, a preferable 3D reconstruction can be easily obtained, and our method can work with arbitrary 3D representations. Extensive experiments show that our method outperforms state-of-the-art single-view view synthesis methods and stereo synthesis methods.
翻訳日:2023-04-20 15:00:45 公開日:2023-04-19
# モジュラー微分進化

Modular Differential Evolution ( http://arxiv.org/abs/2304.09524v1 )

ライセンス: Link先を確認
Diederick Vermetten, Fabio Caraffini, Anna V. Kononova, Thomas B\"ack(参考訳) 反復最適化ヒューリスティックの分野における新しい貢献はしばしば反復的に行われる。 新たなアルゴリズムのアイデアは独立して提案されるのではなく、通常既存のアルゴリズムの拡張として提案される。 これらの貢献はしばしば基本アルゴリズムと比較されるが、大きなアルゴリズムの変種間で公平な比較を行うことは困難である。 これは、実験的な設定やパラメータ設定、実装の詳細が小さな変更であっても、結果が相容れないためである。 モジュラーアルゴリズムはこれらの課題を克服する方法を提供する。 共通のフレームワークにアルゴリズムの修正を実装することで、すべてのバージョンで実装の詳細が一致することを保証しながら、多くのアルゴリズムのバリエーションを比較することができる。 本研究では,一般的な微分進化(DE)アルゴリズムのためのモジュラーフレームワークのバージョンを提案する。 このモジュラーアプローチが比較の助けとなるだけでなく、より詳細なDEM変種空間の探索を可能にすることも示している。 これは、modular deの設定のチューニングが、フレームワークで再作成されている一般的なdeバージョンを大幅に上回っていることを示していることで示されています。 次に,調整されたアルゴリズムを詳細に検討し,モジュールと特定の問題に対する性能の関係を強調する。

New contributions in the field of iterative optimisation heuristics are often made in an iterative manner. Novel algorithmic ideas are not proposed in isolation, but usually as an extension of a preexisting algorithm. Although these contributions are often compared to the base algorithm, it is challenging to make fair comparisons between larger sets of algorithm variants. This happens because even small changes in the experimental setup, parameter settings, or implementation details can cause results to become incomparable. Modular algorithms offer a way to overcome these challenges. By implementing the algorithmic modifications into a common framework, many algorithm variants can be compared, while ensuring that implementation details match in all versions. In this work, we propose a version of a modular framework for the popular Differential Evolution (DE) algorithm. We show that this modular approach not only aids in comparison, but also allows for a much more detailed exploration of the space of possible DE variants. This is illustrated by showing that tuning the settings of modular DE vastly outperforms a set of commonly used DE versions which have been recreated in our framework. We then investigate these tuned algorithms in detail, highlighting the relation between modules and performance on particular problems.
翻訳日:2023-04-20 15:00:29 公開日:2023-04-19
# 量子周波数変換器の校正非依存認証

Calibration-Independent Certification of a Quantum Frequency Converter ( http://arxiv.org/abs/2304.09517v1 )

ライセンス: Link先を確認
Matthias Bock, Pavel Sekatski, Jean-Daniel Bancal, Stephan Kucera, Tobias Bauer, Nicolas Sangouard, Christoph Becher, J\"urgen Eschner(参考訳) 本稿では,認証プロセス全体にわたる校正を信頼する必要のない情報源・測定装置の助けを借りて,一元的操作を認証する手法について報告する。 デバイス非依存パラダイムと同様に、認証方法はベルテストに依存しますが、非検出イベントが測定設定から独立しているという1つの追加の仮定を含めることで、高い検出効率の必要性を取り除きます。 提案手法の妥当性を量子周波数変換器の認証により実験的に検証した。 この実験は、1つの$^{40}$ca$^+$イオンと854$\,$nm光子の間で最大に絡み合う2量子ビット状態のヘラルド化から始まる。 その後、サニャック干渉計に埋め込まれた非線形導波路により、通信帯域への絡み合い保存周波数変換を実現する。 得られたイオン−テレコム光子絡み状態は、周波数変換の質を定量化するベル−CHSH試験により特徴づけられる。 平均的な認証忠実度が$\geq 84\,\%$で、効率が$\geq 3.1\times 10^{-6}$で、信頼度が$99\,\%$で、周波数変換が成功した。 これにより、信頼性の高いキャラクタリゼーション手順から量子ネットワークにおける積分変換器の適合性が保証される。

We report on a method to certify a unitary operation with the help of source and measurement apparatuses whose calibration throughout the certification process needs not be trusted. As in the device-independent paradigm our certification method relies on a Bell test, but it removes the need for high detection efficiencies by including the single additional assumption that non-detected events are independent of the measurement settings. The relevance of the proposed method is demonstrated experimentally with the certification of a quantum frequency converter. The experiment starts with the heralded creation of a maximally entangled two-qubit state between a single $^{40}$Ca$^+$ ion and a 854$\,$nm photon. Entanglement preserving frequency conversion to the telecom band is then realized with a non-linear waveguide embedded in a Sagnac interferometer. The resulting ion-telecom photon entangled state is characterized by means of a Bell-CHSH test from which the quality of the frequency conversion is quantified. We demonstrate the successful frequency conversion with an average certified fidelity of $\geq 84\,\%$ and an efficiency $\geq 3.1\times 10^{-6}$ at a confidence level of $99\,\%$. This ensures the suitability of the converter for integration in quantum networks from a trustful characterization procedure.
翻訳日:2023-04-20 15:00:14 公開日:2023-04-19
# テキスト生成におけるキーワードとその位置制御

Controlling keywords and their positions in text generation ( http://arxiv.org/abs/2304.09516v1 )

ライセンス: Link先を確認
Yuichi Sasazawa, Terufumi Morishita, Hiroaki Ozaki, Osamu Imaichi, Yasuhiro Sogawa(参考訳) テキスト生成の課題の1つは、ユーザが意図した生成を制御することである。 従来の研究では、生成されたテキストに含まれるべきキーワードを指定することが提案されている。 しかし、これはユーザの意図を反映したテキストを生成するには不十分である。 例えば、テキストの重要なキーワードを配置することは読者の注意を引くのに役立つが、既存のメソッドではそのような柔軟な制御ができない。 本稿では,テキスト生成におけるキーワードだけでなく,各キーワードの位置も制御する新しい課題に取り組む。 この目的のために,特殊トークンを用いた手法がキーワードの相対位置を制御可能であることを示す。 要約とストーリー生成タスクの実験結果は,提案手法がキーワードとその位置を制御できることを示す。 また,キーワード位置を制御することで,ベースラインよりもユーザの意図に近い要約テキストを生成することも実証した。 コードをリリースします。

One of the challenges in text generation is to control generation as intended by a user. Previous studies have proposed to specify the keywords that should be included in the generated text. However, this is insufficient to generate text which reflect the user intent. For example, placing the important keyword beginning of the text would helps attract the reader's attention, but existing methods do not enable such flexible control. In this paper, we tackle a novel task of controlling not only keywords but also the position of each keyword in the text generation. To this end, we show that a method using special tokens can control the relative position of keywords. Experimental results on summarization and story generation tasks show that the proposed method can control keywords and their positions. We also demonstrate that controlling the keyword positions can generate summary texts that are closer to the user's intent than baseline. We release our code.
翻訳日:2023-04-20 14:59:52 公開日:2023-04-19
# プロパティ推論、データ再構成、特徴空間ハイジャック攻撃に対するセキュアな分割学習

Secure Split Learning against Property Inference, Data Reconstruction, and Feature Space Hijacking Attacks ( http://arxiv.org/abs/2304.09515v1 )

ライセンス: Link先を確認
Yunlong Mao, Zexi Xin, Zhenyu Li, Jue Hong, Qingyou Yang, Sheng Zhong(参考訳) ディープニューラルネットワーク(SplitNN)の分割学習は、ゲストとホストの相互関心のために共同で学習するための有望なソリューションを提供する。 しかし、SplitNNは敵の参加者に対して新たな攻撃面を作成し、現実の世界での使用を控える。 プロパティ推論やデータ再構成,機能ハイジャック攻撃など,高度に脅かされる攻撃の敵意的影響を調査することにより,splitnnの基盤となる脆弱性を特定し,対策を提案する。 潜在的な脅威を防止し、SplitNNの学習保証を確保するため、ゲストとホスト間の情報交換のためのプライバシー保護トンネルを設計する。 その直感は、制御可能な統一解で各方向の知識の伝播を摂動させることである。 そこで本研究では,非破壊データと部分損失をそれぞれ前方および後方伝播のランダム化応答に伝達する,r3eluという新たな活性化関数を提案する。 我々は,3つの脅迫攻撃に対する分割学習を確保する最初の試みを行い,きめ細かいプライバシー予算配分方式を提案する。 分析の結果、私たちのプライバシを保存できるsplitnnソリューションは、厳密なプライバシー予算を提供し、実験の結果、私たちのソリューションは、ほとんどの場合、既存のソリューションよりも優れたパフォーマンスを示し、防御とモデルユーザビリティの間の良好なトレードオフを実現しています。

Split learning of deep neural networks (SplitNN) has provided a promising solution to learning jointly for the mutual interest of a guest and a host, which may come from different backgrounds, holding features partitioned vertically. However, SplitNN creates a new attack surface for the adversarial participant, holding back its practical use in the real world. By investigating the adversarial effects of highly threatening attacks, including property inference, data reconstruction, and feature hijacking attacks, we identify the underlying vulnerability of SplitNN and propose a countermeasure. To prevent potential threats and ensure the learning guarantees of SplitNN, we design a privacy-preserving tunnel for information exchange between the guest and the host. The intuition is to perturb the propagation of knowledge in each direction with a controllable unified solution. To this end, we propose a new activation function named R3eLU, transferring private smashed data and partial loss into randomized responses in forward and backward propagations, respectively. We give the first attempt to secure split learning against three threatening attacks and present a fine-grained privacy budget allocation scheme. The analysis proves that our privacy-preserving SplitNN solution provides a tight privacy budget, while the experimental results show that our solution performs better than existing solutions in most cases and achieves a good tradeoff between defense and model usability.
翻訳日:2023-04-20 14:59:39 公開日:2023-04-19
# IoT,ビッグデータ,機械学習を用いた大気汚染モニタリング・予測システムの現状

The State-of-the-Art in Air Pollution Monitoring and Forecasting Systems using IoT, Big Data, and Machine Learning ( http://arxiv.org/abs/2304.09574v1 )

ライセンス: Link先を確認
Amisha Gangwar, Sudhakar Singh, Richa Mishra, Shiv Prakash(参考訳) 空気の質は人間、プランテーション、野生動物の生活の質と密接に関連している。 継続的に監視・保存する必要がある。 輸送、産業、建設現場、発電機、花火、廃棄物の燃焼は空気の質を低下させる大きな要因である。 これらのソースは安全かつ制御された方法で使用する必要がある。 従来の実験室分析や、数マイルごとにかさばる高価なモデルをインストールすることは、もはや効率的ではない。 空気データの収集と分析にはスマートデバイスが必要である。 空気の質は、場所、交通量、時間など様々な要因に依存する。 最近の研究は、機械学習アルゴリズム、ビッグデータ技術、モノのインターネットを使って、前述の目的のために安定的で効率的なモデルを提案している。 本稿では、この分野での最近の研究を研究・編纂することに焦点を当て、データソース、モニタリング、予測モデルを強調する。 本研究の目的は, 大気汚染モデルにおける様々な側面を改善するため, 研究の適性を提供することである。 さらに、様々な研究課題や課題にも光を当てている。

The quality of air is closely linked with the life quality of humans, plantations, and wildlife. It needs to be monitored and preserved continuously. Transportations, industries, construction sites, generators, fireworks, and waste burning have a major percentage in degrading the air quality. These sources are required to be used in a safe and controlled manner. Using traditional laboratory analysis or installing bulk and expensive models every few miles is no longer efficient. Smart devices are needed for collecting and analyzing air data. The quality of air depends on various factors, including location, traffic, and time. Recent researches are using machine learning algorithms, big data technologies, and the Internet of Things to propose a stable and efficient model for the stated purpose. This review paper focuses on studying and compiling recent research in this field and emphasizes the Data sources, Monitoring, and Forecasting models. The main objective of this paper is to provide the astuteness of the researches happening to improve the various aspects of air polluting models. Further, it casts light on the various research issues and challenges also.
翻訳日:2023-04-20 14:52:39 公開日:2023-04-19
# 個人知識グラフのためのエコシステム:調査と研究のロードマップ

An Ecosystem for Personal Knowledge Graphs: A Survey and Research Roadmap ( http://arxiv.org/abs/2304.09572v1 )

ライセンス: Link先を確認
Martin G. Skj{\ae}veland and Krisztian Balog and Nolwenn Bernard and Weronika Lajewska and Trond Linjordet(参考訳) 本稿では,個人に関連するエンティティや属性,それらの関係に関する構造化情報の資源として一般的に定義されるPKG(Personal Knowledge Graphs)のエコシステムについて述べる。 PKGは、セキュアで洗練された個人データ管理とパーソナライズサービスを実現する重要な手段である。 しかし、pkgが広く採用される前に対処しなければならない課題がある。 基本的な課題の1つは、この用語の複数の解釈が存在するため、PKGを構成するものの定義である。 我々は,(1)個人によるデータ所有の側面と(2)パーソナライズされたサービスの提供を第一目的として強調し,pkgの独自定義を提案する。 また,pkgがデータサービスやデータソースに対する明確なインターフェースを持つ,より大きなエコシステムの一部であるpkgsの統一フレームワークを提案する。 既存の研究の総合的な調査と合成を行い、調査された成果を統合されたエコシステムにマッピングする。 最後に, 生態系全体, 人口, 代表, 管理, 利用を含むpkgの具体的側面について, オープンな課題と研究機会を明らかにする。

This paper presents an ecosystem for personal knowledge graphs (PKG), commonly defined as resources of structured information about entities related to an individual, their attributes, and the relations between them. PKGs are a key enabler of secure and sophisticated personal data management and personalized services. However, there are challenges that need to be addressed before PKGs can achieve widespread adoption. One of the fundamental challenges is the very definition of what constitutes a PKG, as there are multiple interpretations of the term. We propose our own definition of a PKG, emphasizing the aspects of (1) data ownership by a single individual and (2) the delivery of personalized services as the primary purpose. We further argue that a holistic view of PKGs is needed to unlock their full potential, and propose a unified framework for PKGs, where the PKG is a part of a larger ecosystem with clear interfaces towards data services and data sources. A comprehensive survey and synthesis of existing work is conducted, with a mapping of the surveyed work into the proposed unified ecosystem. Finally, we identify open challenges and research opportunities for the ecosystem as a whole, as well as for the specific aspects of PKGs, which include population, representation and management, and utilization.
翻訳日:2023-04-20 14:52:23 公開日:2023-04-19
# SLIC:学習画像圧縮のための大規模受容場を持つ自己整合適応変換

SLIC: Self-Conditioned Adaptive Transform with Large-Scale Receptive Fields for Learned Image Compression ( http://arxiv.org/abs/2304.09571v1 )

ライセンス: Link先を確認
Wei Jiang, Peirong Ning and Ronggang Wang(参考訳) 学習された画像圧縮は素晴らしい性能を達成した。 TransformはRDのパフォーマンス向上に重要な役割を果たします。 解析変換は入力画像をコンパクトな潜在表現に変換する。 潜在表現がコンパクトであるほど、圧縮するために必要なビットは少なくなります。 より良いトランスフォーメーションを設計する際、以前の作品ではSwin-Transformerを採用していた。 画像圧縮におけるスウィン変換器の成功は、動的重みと大きな受容場に起因する可能性があるが、トランスフォーマーで採用されている層ノルムは画像圧縮には適していない。 CNNベースのモジュールはGDN/IGDNでも動作する。 CNNベースのモジュールを動的にするために、入力機能に条件付けされたカーネルの重みを生成する。 我々は、より大きな受容体のために各カーネルのサイズを拡大する。 複雑性を低減するため、CNNモジュールをチャネルワイズで接続する。 このモジュールをDynamic Depth-wise convolutionと呼びます。 自己付着モジュールを動的深さ方向畳み込みに置き換え, 埋め込み層を非線形性のための深さ方向残差ボトルネックに置き換え, ffn層を逆残差ボトルネックに置き換え, 空間領域内の相互作用を増やす。 ダイナミックディープワイド畳み込みのチャネル間の相互作用は限られている。 動的深度方向の畳み込みをチャネルアテンションに置き換える他のブロックを設計する。 提案するモジュールを解析・合成変換に装備し,よりコンパクトな潜在表現を受け取り,学習画像圧縮のための大規模受容場を有する自己条件適応変換であるlearned image compression model slicを提案する。 提案したトランスフォーメーションモジュールにより,提案したSLICは,コダックデータセット上のPSNRで測定された場合,VVCよりも6.35%のBDレートの低減を実現している。

Learned image compression has achieved remarkable performance. Transform, plays an important role in boosting the RD performance. Analysis transform converts the input image to a compact latent representation. The more compact the latent representation is, the fewer bits we need to compress it. When designing better transform, some previous works adopt Swin-Transformer. The success of the Swin-Transformer in image compression can be attributed to the dynamic weights and large receptive field.However,the LayerNorm adopted in transformers is not suitable for image compression.We find CNN-based modules can also be dynamic and have large receptive-fields. The CNN-based modules can also work with GDN/IGDN. To make the CNN-based modules dynamic, we generate the weights of kernels conditioned on the input feature. We scale up the size of each kernel for larger receptive fields. To reduce complexity, we make the CNN-module channel-wise connected. We call this module Dynamic Depth-wise convolution. We replace the self-attention module with the proposed Dynamic Depth-wise convolution, replace the embedding layer with a depth-wise residual bottleneck for non-linearity and replace the FFN layer with an inverted residual bottleneck for more interactions in the spatial domain. The interactions among channels of dynamic depth-wise convolution are limited. We design the other block, which replaces the dynamic depth-wise convolution with channel attention. We equip the proposed modules in the analysis and synthesis transform and receive a more compact latent representation and propose the learned image compression model SLIC, meaning Self-Conditioned Adaptive Transform with Large-Scale Receptive Fields for Learned Image Compression Learned Image Compression. Thanks to the proposed transform modules, our proposed SLIC achieves 6.35% BD-rate reduction over VVC when measured in PSNR on Kodak dataset.
翻訳日:2023-04-20 14:52:05 公開日:2023-04-19
# 三重ウェルポテンシャルにおけるライドバーグの服を着たボソンの量子カオスのシグネチャ

Signatures of quantum chaos of Rydberg dressed bosons in a triple-well potential ( http://arxiv.org/abs/2304.09565v1 )

ライセンス: Link先を確認
Tianyi Yan (1), Matthew Colllins (1), Rejish Nath (3), Weibin Li (1 and 2) ((1) School of Physics and Astronomy, University of Nottingham, Nottingham, NG7 2RD, UK, (2) Centre for the Mathematics and Theoretical Physics of Quantum Non-equilibrium Systems, University of Nottingham, Nottingham, NG7 2RD, UK, (3) Department of Physics, Indian Institute of Science Education and Research, Dr. Homi Bhabha Road, Pune-411008, Maharashtra, India)(参考訳) 我々は1次元の3重井戸ポテンシャルで保持されたライドベルク型ボソニック原子の力学における量子カオスのシグネチャを研究する。 レーザードレッシング原子によって強く相互作用するリドベルク状態に誘導される長距離近傍と次のアレスト近傍の相互作用は、極端に平均場と量子多体ダイナミクスに影響を及ぼす。 平均場動力学を解析することにより、正および大きなリャプノフ指数を持つ古典的カオス領域を、潜在的に傾いたり、服装した相互作用の関数として同定する。 量子系では、ライプノフ指数が大きい場合、固有エネルギーの準統計量はウィグナー・ダイソン分布となり、強い量子カオスのシグネチャが生じることが判明した。 時間平均エンタングルメントエントロピーと初期状態の生存確率の両方が、量子カオス状態において顕著に大きな値を持つことがわかった。 さらに, 量子カオスの出現を示す指標として, 集団分散が利用できることを示した。 これは、個々のポテンシャル井戸の人口動態を分析することによって、量子カオスダイナミクスを直接探究する方法となるかもしれない。

We study signatures of quantum chaos in dynamics of Rydberg dressed bosonic atoms held in a one dimensional triple-well potential. Long-range nearest-neighbor and next-nearest-neighbor interactions, induced by laser dressing atoms to strongly interacting Rydberg states, affect drastically mean field and quantum many-body dynamics. By analyzing the mean field dynamics, classical chaos regions with positive and large Lyapunov exponents are identified as a function of the potential well tilting and dressed interactions. In the quantum regime, it is found that level statistics of the eigen-energies gains a Wigner-Dyson distribution when the Lyapunov exponents are large, giving rise to signatures of strong quantum chaos. We find that both the time averaged entanglement entropy and survival probability of the initial state have distinctively large values in the quantum chaos regime. We further show that population variances could be used as an indicator of the emergence of quantum chaos. This might provide a way to directly probe quantum chaotic dynamics through analyzing population dynamics in individual potential wells.
翻訳日:2023-04-20 14:51:38 公開日:2023-04-19
# アスペクトに基づく知覚分析のロバスト性について:モデル、データ、トレーニングを再考する

On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training ( http://arxiv.org/abs/2304.09563v1 )

ライセンス: Link先を確認
Hao Fei, Tat-Seng Chua, Chenliang Li, Donghong Ji, Meishan Zhang, Yafeng Ren(参考訳) アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情極性を自動的に推論することを目的としている。 2010年代初め以降、ABSAは様々な深部神経モデルを用いて極めて高い精度を達成している。 しかし、社内性能の強い既存のABSAモデルは、コンテキストが可変である、すなわち現実世界環境に対するロバスト性が低いいくつかの難題に一般化できない可能性がある。 本研究では,モデル,データ,トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することにより,ABSAの堅牢性を高めることを提案する。 まず,よりリッチな外部構文依存とアスペクト付きラベルと,ユニバーサル・シンタクスグラフ畳み込みネットワークを同時に組み込むことにより,現在のベストロバスト構文認識モデルを強化する。 コーパスの観点からは,様々なタイプの高品質合成学習データを自動的に導入し,モデルに十分な帰納バイアスを学習させ,ロバスト性を高めることを提案する。 最後に, 文脈摂動に対する抵抗を高めるために, 対人訓練を行い, 対照的な感情を持つインスタンスの表現を強化するために, コントラスト学習を用いる。 広範な堅牢性評価が行われる。 その結果,拡張された構文認識モデルは,すべての最先端ベースラインよりもロバスト性が向上した。 合成コーパスを組み込むことで、ロバストなテスト結果が約10%の精度でプッシュされ、高度なトレーニング戦略をインストールすることでさらに改善されます。 ABSAのロバスト性に影響を与える要因を明らかにするために詳細な分析を行った。

Aspect-based sentiment analysis (ABSA) aims at automatically inferring the specific sentiment polarities toward certain aspects of products or services behind the social media texts or reviews, which has been a fundamental application to the real-world society. Since the early 2010s, ABSA has achieved extraordinarily high accuracy with various deep neural models. However, existing ABSA models with strong in-house performances may fail to generalize to some challenging cases where the contexts are variable, i.e., low robustness to real-world environments. In this study, we propose to enhance the ABSA robustness by systematically rethinking the bottlenecks from all possible angles, including model, data, and training. First, we strengthen the current best-robust syntax-aware models by further incorporating the rich external syntactic dependencies and the labels with aspect simultaneously with a universal-syntax graph convolutional network. In the corpus perspective, we propose to automatically induce high-quality synthetic training data with various types, allowing models to learn sufficient inductive bias for better robustness. Last, we based on the rich pseudo data perform adversarial training to enhance the resistance to the context perturbation and meanwhile employ contrastive learning to reinforce the representations of instances with contrastive sentiments. Extensive robustness evaluations are conducted. The results demonstrate that our enhanced syntax-aware model achieves better robustness performances than all the state-of-the-art baselines. By additionally incorporating our synthetic corpus, the robust testing results are pushed with around 10% accuracy, which are then further improved by installing the advanced training strategies. In-depth analyses are presented for revealing the factors influencing the ABSA robustness.
翻訳日:2023-04-20 14:51:20 公開日:2023-04-19
# 資源エンジン

Resource engines ( http://arxiv.org/abs/2304.09559v1 )

ライセンス: Link先を確認
Hanna Wojew\'odka-\'Sci\k{a}\.zko, Zbigniew Pucha{\l}a and Kamil Korzekwa(参考訳) 本稿では、熱力学と量子資源理論の類似性をさらに一歩押し上げることを目的とする。 以前の着想は、単一の熱浴のシナリオに関する熱力学的考察に基づいており、異なる温度で2つの風呂の間を運転する熱エンジンを研究する熱力学の重要な部分を無視していた。 本稿では,異なる温度での2つの熱浴へのアクセスを,状態変換の2つの任意制約により置き換える資源エンジンの性能について検討する。 このアイデアは、2ストロークのヒートエンジンの動作を模倣し、システムは2つのエージェント(アリスとボブ)に交互に送られ、制約された自由操作セットを使って変換される。 我々は、リソースエンジンが完全な量子演算や可能な状態変換を生成できるかどうか、それに必要なストローク数など、いくつかの疑問を提起し、解決する。 また、2つ以上の資源理論を融合させる自然な方法として、熱力学の2つの資源理論と2つの異なる温度との融合、および2つの異なる基底に対するコヒーレンスに関する2つの資源理論について詳細に論じる。

In this paper we aim to push the analogy between thermodynamics and quantum resource theories one step further. Previous inspirations were based on thermodynamic considerations concerning scenarios with a single heat bath, neglecting an important part of thermodynamics that studies heat engines operating between two baths at different temperatures. Here, we investigate the performance of resource engines, which replace the access to two heat baths at different temperatures with two arbitrary constraints on state transformations. The idea is to imitate the action of a two--stroke heat engine, where the system is sent to two agents (Alice and Bob) in turns, and they can transform it using their constrained sets of free operations. We raise and address several questions, including whether or not a resource engine can generate a full set of quantum operations or all possible state transformations, and how many strokes are needed for that. We also explain how the resource engine picture provides a natural way to fuse two or more resource theories, and we discuss in detail the fusion of two resource theories of thermodynamics with two different temperatures, and two resource theories of coherence with respect to two different bases.
翻訳日:2023-04-20 14:50:51 公開日:2023-04-19
# 推論コサイン類似性:効率的な表現学習のための理論駆動アプローチ

Denoising Cosine Similarity: A Theory-Driven Approach for Efficient Representation Learning ( http://arxiv.org/abs/2304.09552v1 )

ライセンス: Link先を確認
Takumi Nakagawa, Yutaro Sanada, Hiroki Waida, Yuhui Zhang, Yuichiro Wada, K\=osaku Takanashi, Tomonori Yamada, Takafumi Kanamori(参考訳) 表現学習は、さまざまな下流タスクに効率的に適用可能な表現を学習できるため、機械学習の研究と実践に影響を与えている。 しかし、近年の研究では、表現学習の段階で使用される実世界のデータセットが一般的にノイズによって汚染されているという事実にはほとんど注意が払われていない。 本稿では,生データセットにおける雑音に対するロバスト表現を学習する。 そこで,近年の表現学習におけるコサイン相似性に基づく客観的関数の成功に触発されたコサイン相似性(dcs)損失を提案する。 このdCS損失はコサイン類似性損失の修正であり, 理論的, 経験的双方の知見を裏付ける認知特性を取り入れたものである。 また, dCS損失の統計的保証を伴って, dCS損失の推定器を構築した。 最後に,視覚領域と音声領域におけるベースライン目的関数に対するdCS損失の効率を実証的に示す。

Representation learning has been increasing its impact on the research and practice of machine learning, since it enables to learn representations that can apply to various downstream tasks efficiently. However, recent works pay little attention to the fact that real-world datasets used during the stage of representation learning are commonly contaminated by noise, which can degrade the quality of learned representations. This paper tackles the problem to learn robust representations against noise in a raw dataset. To this end, inspired by recent works on denoising and the success of the cosine-similarity-based objective functions in representation learning, we propose the denoising Cosine-Similarity (dCS) loss. The dCS loss is a modified cosine-similarity loss and incorporates a denoising property, which is supported by both our theoretical and empirical findings. To make the dCS loss implementable, we also construct the estimators of the dCS loss with statistical guarantees. Finally, we empirically show the efficiency of the dCS loss over the baseline objective functions in vision and speech domains.
翻訳日:2023-04-20 14:50:32 公開日:2023-04-19
# SemEval 2023 Task 6: LegalEval -- 法的テキストを理解する

SemEval 2023 Task 6: LegalEval -- Understanding Legal Texts ( http://arxiv.org/abs/2304.09548v1 )

ライセンス: Link先を確認
Ashutosh Modi and Prathamesh Kalamkar and Saurabh Karn and Aman Tiwari and Abhinav Joshi and Sai Kiran Tanikella and Shouvik Kumar Guha and Sachin Malhan and Vivek Raghavan(参考訳) 人口の多い国では、保留中の訴訟が急増している。 法律文書の処理と自動理解のためのNLPベースの技術を開発する必要がある。 法律NLP分野の研究を促進するため,SemEval 2023において,法律テキストの理解に関する共有タスクを組織した。 Task-A (Rhetorical Roles Labeling) は、法的文書を意味的に一貫性のある単位に自動的に構造化することを目的としており、Task-B (Legal Named Entity Recognition) は、法的文書の中の関連エンティティを識別することを扱う。 合計26チーム(約100人の参加者)がシステム論文を提出した。 各サブタスクでは、提案されたシステムがベースラインを上回っているが、改善の余地は多い。 本稿では,タスクを記述し,様々なチームが提案する手法を分析する。

In populous countries, pending legal cases have been growing exponentially. There is a need for developing NLP-based techniques for processing and automatically understanding legal documents. To promote research in the area of Legal NLP we organized the shared task LegalEval - Understanding Legal Texts at SemEval 2023. LegalEval task has three sub-tasks: Task-A (Rhetorical Roles Labeling) is about automatically structuring legal documents into semantically coherent units, Task-B (Legal Named Entity Recognition) deals with identifying relevant entities in a legal document and Task-C (Court Judgement Prediction with Explanation) explores the possibility of automatically predicting the outcome of a legal case along with providing an explanation for the prediction. In total 26 teams (approx. 100 participants spread across the world) submitted systems paper. In each of the sub-tasks, the proposed systems outperformed the baselines; however, there is a lot of scope for improvement. This paper describes the tasks, and analyzes techniques proposed by various teams.
翻訳日:2023-04-20 14:50:12 公開日:2023-04-19
# 効果的なマルチエージェントQ-Learningのためのグラフ探索

Graph Exploration for Effective Multi-agent Q-Learning ( http://arxiv.org/abs/2304.09547v1 )

ライセンス: Link先を確認
Ainur Zhaikhan and Ali H. Sayed(参考訳) 本稿では,エージェント間のグラフベース通信を用いたマルチエージェント強化学習(MARL)の探索手法を提案する。 エージェントが受信した個々の報酬は、他のエージェントのアクションとは独立であり、そのポリシーは結合されていると仮定します。 提案手法では, 隣接エージェントが協調して, より効率的な探索行動を実現するために, 状態-動作空間に関する不確かさを推定する。 既存の研究と異なり、提案アルゴリズムはカウント機構を必要とせず、複雑な変換手法を必要とせずに連続状態環境に適用できる。 さらに,提案方式では,エージェントが情報交換を最小限に抑えながら,完全に分散した方法で通信できる。 そして、連続状態のシナリオでは、各エージェントは単一のパラメータベクトルのみを交換する必要がある。 アルゴリズムの性能は、離散状態シナリオの理論結果と連続状態シナリオの実験によって検証される。

This paper proposes an exploration technique for multi-agent reinforcement learning (MARL) with graph-based communication among agents. We assume the individual rewards received by the agents are independent of the actions by the other agents, while their policies are coupled. In the proposed framework, neighbouring agents collaborate to estimate the uncertainty about the state-action space in order to execute more efficient explorative behaviour. Different from existing works, the proposed algorithm does not require counting mechanisms and can be applied to continuous-state environments without requiring complex conversion techniques. Moreover, the proposed scheme allows agents to communicate in a fully decentralized manner with minimal information exchange. And for continuous-state scenarios, each agent needs to exchange only a single parameter vector. The performance of the algorithm is verified with theoretical results for discrete-state scenarios and with experiments for continuous ones.
翻訳日:2023-04-20 14:49:54 公開日:2023-04-19
# chatgptは検索が得意か? Re-Ranking Agentとしての大規模言語モデルの検討

Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent ( http://arxiv.org/abs/2304.09542v1 )

ライセンス: Link先を確認
Weiwei Sun, Lingyong Yan, Xinyu Ma, Pengjie Ren, Dawei Yin, Zhaochun Ren(参考訳) 大規模言語モデル(LLM)は、ゼロショットを様々な言語関連タスクに一般化する驚くべき能力を示している。 本稿では,ChatGPT や GPT-4 などのジェネレーティブ LLM を探索し,情報検索(IR)における関連付けについて検討する。 驚いたことに、我々の実験は、ChatGPTとGPT-4を適切に指示することで、一般的なIRベンチマークの教師付き手法よりも、競争力のある結果が得られることを示した。 特に、gpt-4は、ms marcoのmonot5-3bを、tracデータセットで平均2.7 ndcg、beirデータセットで平均2.3 ndcg、低リソース言語で平均2.7 ndcgで上回っている。 その後、ChatGPTのランキング能力を特別なモデルに抽出する可能性を探る。 10K ChatGPTでトレーニングした小型特殊モデルでは,400Kの注釈付きMS MARCOデータをBEIR上でトレーニングした monoT5 よりも優れていた。 結果を再現するコードはwww.github.com/sunnweiwei/RankGPTで入手できる。

Large Language Models (LLMs) have demonstrated a remarkable ability to generalize zero-shot to various language-related tasks. This paper focuses on the study of exploring generative LLMs such as ChatGPT and GPT-4 for relevance ranking in Information Retrieval (IR). Surprisingly, our experiments reveal that properly instructed ChatGPT and GPT-4 can deliver competitive, even superior results than supervised methods on popular IR benchmarks. Notably, GPT-4 outperforms the fully fine-tuned monoT5-3B on MS MARCO by an average of 2.7 nDCG on TREC datasets, an average of 2.3 nDCG on eight BEIR datasets, and an average of 2.7 nDCG on ten low-resource languages Mr.TyDi. Subsequently, we delve into the potential for distilling the ranking capabilities of ChatGPT into a specialized model. Our small specialized model that trained on 10K ChatGPT generated data outperforms monoT5 trained on 400K annotated MS MARCO data on BEIR. The code to reproduce our results is available at www.github.com/sunnweiwei/RankGPT
翻訳日:2023-04-20 14:49:41 公開日:2023-04-19
# ベルの定理による量子伝送の実験的証明

Experimental Certification of Quantum Transmission via Bell's Theorem ( http://arxiv.org/abs/2304.09605v1 )

ライセンス: Link先を確認
Simon Neves, Laura dos Santos Martins, Verena Yacoub, Pascal Lefebvre, Ivan Supic, Damian Markham, and Eleni Diamanti(参考訳) 量子伝送リンクは本質的に全ての量子情報プロトコルの実装において中心的な要素である。 このようなリンクを含む量子技術の進歩には、適切な認証ツールが伴わなければならない。 敵対的なシナリオでは、基盤となるシステムに信頼が多すぎると、認証手法は攻撃に対して脆弱になる可能性がある。 本稿では,認証設定の機能に関する仮定が最小限のシナリオにおいて,実用的な量子伝送リンクの認証を可能にする,デバイス独立フレームワークにおけるプロトコルを提案する。 特に、リンクを完全に正のトレース減少マップとしてモデル化することで、避けられない送信損失を考慮に入れます。 また,本研究では,非対角的設定と相容れない独立分布と同一分布の標本の仮定を取り除いた。 最後に、後続のアプリケーションで認証された送信状態を使用することから、当社のプロトコルは、送信された状態自体の品質を推定できるように、チャネルの認証を超えています。 現在利用可能な技術でプロトコルの実用的妥当性と実現可能性を説明するために,サニャック構成における最先端偏光束束光子対源に基づく実験的な実装を提供し,現実的な損失と誤りに対するロバスト性を分析する。

Quantum transmission links are central elements in essentially all implementations of quantum information protocols. Emerging progress in quantum technologies involving such links needs to be accompanied by appropriate certification tools. In adversarial scenarios, a certification method can be vulnerable to attacks if too much trust is placed on the underlying system. Here, we propose a protocol in a device independent framework, which allows for the certification of practical quantum transmission links in scenarios where minimal assumptions are made about the functioning of the certification setup. In particular, we take unavoidable transmission losses into account by modeling the link as a completely-positive trace-decreasing map. We also, crucially, remove the assumption of independent and identically distributed samples, which is known to be incompatible with adversarial settings. Finally, in view of the use of the certified transmitted states for follow-up applications, our protocol moves beyond certification of the channel to allow us to estimate the quality of the transmitted state itself. To illustrate the practical relevance and the feasibility of our protocol with currently available technology we provide an experimental implementation based on a state-of-the-art polarization entangled photon pair source in a Sagnac configuration and analyze its robustness for realistic losses and errors.
翻訳日:2023-04-20 14:43:16 公開日:2023-04-19
# BioTrak: ブロックチェーンベースのフードチェーンロジスティクストレーサビリティプラットフォーム

BioTrak: A Blockchain-based Platform for Food Chain Logistics Traceability ( http://arxiv.org/abs/2304.09601v1 )

ライセンス: Link先を確認
A. Spitalleri, I. Kavasidis, V. Cartelli, R. Mineo, S. Palazzo, C. Spampinato, D. Giordano(参考訳) グローバリゼーションに伴い、食品サプライチェーンは非常に複雑になっている。 このような複雑さは、中間製品と最終製品の品質に悪影響を及ぼす要因をもたらす。 維持温度や輸送時間などのパラメータに関する厳格な制約を尊重し、最高品質を確保し、公衆衛生への有害な影響を最小限に抑える必要がある。 これは多要素の努力であり、関与するすべての利害関係者は可能な限りの成果を達成するためにロジスティクスの負担を受け入れ、管理しなければならない。 しかし、こうした負担は、データストレージ、ビジネスプロセス管理、企業固有の標準運用手順に関する追加の複雑さやコストと結びつき、そのような侵入的操作の影響を軽減するために自動化方法を考案する必要がある。 以上の理由から,本論文では,原料原料から最終製品が消費者に届くまで,食品成分の冷チェーンロジスティクスの監視を含む,トランスフォーメーションおよび輸送プロセスの全チェーンを登録・可視化できるプラットフォームであるBioTrakについて述べる。 プラットフォームには、フードサプライチェーンのステークホルダーがプロセスの最適化を支援するBusiness Process Modellingメソッドと、データの整合性、透明性、説明責任を保証するブロックチェーンの統合が含まれている。

The food supply chain, following its globalization, has become very complex. Such complexities, introduce factors that influence adversely the quality of intermediate and final products. Strict constraints regarding parameters such as maintenance temperatures and transportation times must be respected in order to ensure top quality and reduce to a minimum the detrimental effects to public health. This is a multi-factorial endeavor and all of the involved stakeholders must accept and manage the logistics burden to achieve the best possible results. However, such burden comes together with additional complexities and costs regarding data storage, business process management and company specific standard operating procedures and as such, automated methods must be devised to reduce the impact of such intrusive operations. For the above reasons, in this paper we present BioTrak: a platform capable of registering and visualizing the whole chain of transformation and transportation processes including the monitoring of cold chain logistics of food ingredients starting from the raw material producers until the final product arrives to the end-consumer. The platform includes Business Process Modelling methods to aid food supply chain stakeholders to optimize their processes and also integrates a blockchain for guaranteeing the integrity, transparency and accountability of the data.
翻訳日:2023-04-20 14:42:57 公開日:2023-04-19
# LEA: 学習最適化戦略による進化的アルゴリズムを超えて

LEA: Beyond Evolutionary Algorithms via Learned Optimization Strategy ( http://arxiv.org/abs/2304.09599v1 )

ライセンス: Link先を確認
Kai Wu, Penghui Liu, Jing Liu(参考訳) 進化的アルゴリズム(EA)は高価なブラックボックス最適化のための強力なフレームワークとして登場した。 ブラックボックス最適化には計算コストの削減によるより良いソリューションの実現が不可欠である。 最も重要な障害は、ターゲットのタスク情報を効果的に利用して効率的な最適化戦略を構築する方法を見つけることである。 しかし、最適化戦略の貧弱な表現と最適化戦略と目標タスクの間の非効率な相互作用により、現在の手法は弱い。 上記の制限を克服するために,我々は,手作り最適化戦略から学習最適化戦略への移行を実現するための学習ea(lea)を設計した。 従来のEAとは異なり、LEAは目的のタスクに高い適応性を持ち、計算コストの少ないより良いソリューションを得ることができる。 LEAはまた、目標タスクの低忠実度情報を有効活用して効率的な最適化戦略を構築することができる。 CEC 2013と2つの実世界のケースの実験結果は、人間の設計したベースラインよりも学習された最適化戦略の利点を示している。 さらに、LEAはグラフィックス処理ユニットが提供する加速度に親しみがあり、32の個体群を進化させると、それぞれ6400人の個体を含む非加速EAの102倍の速度で動作する。

Evolutionary algorithms (EAs) have emerged as a powerful framework for expensive black-box optimization. Obtaining better solutions with less computational cost is essential and challenging for black-box optimization. The most critical obstacle is figuring out how to effectively use the target task information to form an efficient optimization strategy. However, current methods are weak due to the poor representation of the optimization strategy and the inefficient interaction between the optimization strategy and the target task. To overcome the above limitations, we design a learned EA (LEA) to realize the move from hand-designed optimization strategies to learned optimization strategies, including not only hyperparameters but also update rules. Unlike traditional EAs, LEA has high adaptability to the target task and can obtain better solutions with less computational cost. LEA is also able to effectively utilize the low-fidelity information of the target task to form an efficient optimization strategy. The experimental results on one synthetic case, CEC 2013, and two real-world cases show the advantages of learned optimization strategies over human-designed baselines. In addition, LEA is friendly to the acceleration provided by Graphics Processing Units and runs 102 times faster than unaccelerated EA when evolving 32 populations, each containing 6400 individuals.
翻訳日:2023-04-20 14:42:36 公開日:2023-04-19
# AdapterGNN: グラフニューラルネットワークの一般化能力を改善する効率的なデルタチューニング

AdapterGNN: Efficient Delta Tuning Improves Generalization Ability in Graph Neural Networks ( http://arxiv.org/abs/2304.09595v1 )

ライセンス: Link先を確認
Shengrui Li, Xueting Han, Jing Bai(参考訳) 微調整された事前学習モデルは最近、グラフニューラルネットワーク(gnns)のパフォーマンス向上をもたらした。 自然言語分野における最新の研究に触発された事前学習技術に加えて、近年ではパラメータ効率のチューニング(デルタチューニング)のような効果的な微調整アプローチへと移行している。 しかし、GNNとトランスフォーマーベースモデルとの大きな違いを考えると、そのようなアプローチをGNNに直接適用することは効果が低かった。 本稿では,GNNのデルタチューニング手法を網羅的に比較し,GNN向けに設計された新しいデルタチューニング手法であるAdapterGNNを提案する。 adaptergnnは、事前学習された大規模モデルの知識を保存し、いくつかのパラメータで効果的に下流タスクに適応できるgnn用の高度に表現力のあるアダプタを活用し、下流タスクでのモデルの一般化能力を向上させる。 広範囲な実験により、AdapterGNNは、完全な微調整よりも高い評価性能(化学領域と生物学領域でそれぞれ1.4%と5.5%、パラメータの5%しか調整されていない)と低い一般化ギャップを達成することが示された。 さらに,より大規模なGNNモデルは,大規模言語モデルで見られる傾向と異なる,より悪い一般化能力を持つことを示す。 また、デルタチューニングの理論的正当化により、一般化境界を適用することにより、GNNの一般化能力を向上させることができる。

Fine-tuning pre-trained models has recently yielded remarkable performance gains in graph neural networks (GNNs). In addition to pre-training techniques, inspired by the latest work in the natural language fields, more recent work has shifted towards applying effective fine-tuning approaches, such as parameter-efficient tuning (delta tuning). However, given the substantial differences between GNNs and transformer-based models, applying such approaches directly to GNNs proved to be less effective. In this paper, we present a comprehensive comparison of delta tuning techniques for GNNs and propose a novel delta tuning method specifically designed for GNNs, called AdapterGNN. AdapterGNN preserves the knowledge of the large pre-trained model and leverages highly expressive adapters for GNNs, which can adapt to downstream tasks effectively with only a few parameters, while also improving the model's generalization ability on the downstream tasks. Extensive experiments show that AdapterGNN achieves higher evaluation performance (outperforming full fine-tuning by 1.4% and 5.5% in the chemistry and biology domains respectively, with only 5% of its parameters tuned) and lower generalization gaps compared to full fine-tuning. Moreover, we empirically show that a larger GNN model can have a worse generalization ability, which differs from the trend observed in large language models. We have also provided a theoretical justification for delta tuning can improve the generalization ability of GNNs by applying generalization bounds.
翻訳日:2023-04-20 14:42:15 公開日:2023-04-19
# Golangにおける並列ニューラルネットワーク

Parallel Neural Networks in Golang ( http://arxiv.org/abs/2304.09590v1 )

ライセンス: Link先を確認
Daniela Kalwarowskyj and Erich Schikuta(参考訳) 本稿では,並列ニューラルネットワーク(PNN)と新しいプログラミング言語Golangの設計と実装について述べる。 我々は、PNNが複数のシーケンシャルニューラルネットワークで構成され、トレーニングデータセットの比率でトレーニングされる古典的なシングルプログラム多重データ(SPMD)モデルに従う。 この目的のために、手書き桁のバイナリ画像を含むMNISTデータセットを使用した。 分析は,確率的勾配と重みとバイアスの初期化という形で,異なる活性化関数と最適化に焦点を当てた。 我々は,ネットワーク構成と異なる性能因子を解析し,解釈する性能解析を行う。 Golangとその固有の並列化サポートは、並列ニューラルネットワークシミュレーションにおいて、シーケンシャルなバリエーションに比べて処理時間が大幅に短縮されていることが証明された。

This paper describes the design and implementation of parallel neural networks (PNNs) with the novel programming language Golang. We follow in our approach the classical Single-Program Multiple-Data (SPMD) model where a PNN is composed of several sequential neural networks, which are trained with a proportional share of the training dataset. We used for this purpose the MNIST dataset, which contains binary images of handwritten digits. Our analysis focusses on different activation functions and optimizations in the form of stochastic gradients and initialization of weights and biases. We conduct a thorough performance analysis, where network configurations and different performance factors are analyzed and interpreted. Golang and its inherent parallelization support proved very well for parallel neural network simulation by considerable decreased processing times compared to sequential variants.
翻訳日:2023-04-20 14:41:50 公開日:2023-04-19
# DADFNet:ビデオエンパワー・インテリジェントトランスポートのためのデュアルアテンションとデュアル周波数誘導型デハージングネットワーク

DADFNet: Dual Attention and Dual Frequency-Guided Dehazing Network for Video-Empowered Intelligent Transportation ( http://arxiv.org/abs/2304.09588v1 )

ライセンス: Link先を確認
Yu Guo, Ryan Wen Liu, Jiangtian Nie, Lingjuan Lyu, Zehui Xiong, Jiawen Kang, Han Yu, Dusit Niyato(参考訳) 視覚監視技術は、高度な交通管理システムにおいて必須の機能である。 オブジェクト検出、追跡、認識などのトラフィック監視タスクを実行するために適用されている。 しかし、霧、霧、霧などの悪天候は、ビデオベースの交通監視に深刻な課題をもたらす。 悪天候の影響をなくすため,リアルタイム視認性向上のための2つの注意と2つの周波数誘導デハジングネットワーク(dadfnet)を提案する。 DAM(Double attention module)とHLFN(High-low frequency-guided sub-net)から構成されており、注意と周波数マッピングを共同で考慮し、ヘイズフリーシーン再構築を誘導する。 合成画像と実世界の画像の広汎な実験により、DADFNetは最先端の手法よりも可視性の向上と検出精度の向上の観点から優れていることが示された。 さらに、DADFNetは、2080 Ti GPU上で1,920 * 1,080の画像を処理するためにわずか6.3$msしか必要とせず、インテリジェントな輸送システムへの展開に非常に効率的である。

Visual surveillance technology is an indispensable functional component of advanced traffic management systems. It has been applied to perform traffic supervision tasks, such as object detection, tracking and recognition. However, adverse weather conditions, e.g., fog, haze and mist, pose severe challenges for video-based transportation surveillance. To eliminate the influences of adverse weather conditions, we propose a dual attention and dual frequency-guided dehazing network (termed DADFNet) for real-time visibility enhancement. It consists of a dual attention module (DAM) and a high-low frequency-guided sub-net (HLFN) to jointly consider the attention and frequency mapping to guide haze-free scene reconstruction. Extensive experiments on both synthetic and real-world images demonstrate the superiority of DADFNet over state-of-the-art methods in terms of visibility enhancement and improvement in detection accuracy. Furthermore, DADFNet only takes $6.3$ ms to process a 1,920 * 1,080 image on the 2080 Ti GPU, making it highly efficient for deployment in intelligent transportation systems.
翻訳日:2023-04-20 14:41:39 公開日:2023-04-19
# 分子tavis-cummingsモデルにおける暗黒状態結合に対するデファッシングの役割

The role of dephasing for dark state coupling in a molecular Tavis-Cummings model ( http://arxiv.org/abs/2304.09583v1 )

ライセンス: Link先を確認
Eric Davidsson, Markus Kowalewski(参考訳) 光場への粒子の集合結合は、一般にTavis-Cummingsモデルによって記述される。 このモデルは、光学的に明るい偏光子状態から分離された多くの固有状態を含む。 これらの暗黒状態にアクセスするには、対応するハミルトニアンの対称性を破る必要がある。 本稿では,非単元過程が分子Tavis-Cummingsモデルにおける暗黒状態ダイナミクスに与える影響について検討する。 この系は、環境との弱い相互作用や光子崩壊によって引き起こされるような純粋な脱落を含むリンドブラッド方程式でモデル化されている。 シミュレーションの結果,純度低下と粒子数の増加は暗黒状態の個体数に有意な影響を与えていることがわかった。

Collective coupling of an ensemble of particles to a light field is commonly described by the Tavis--Cummings model. This model includes numerous eigenstates which are optically decoupled from the optically bright polariton states. To access these dark states requires breaking the symmetry in the corresponding Hamiltonian. In this paper, we investigate the influence of non-unitary processes on the dark state dynamics in molecular Tavis--Cummings model. The system is modelled with a Lindblad equation that includes pure dephasing, as they would be caused by weak interactions with an environment, and photon decay. Our simulations show that the rate of the pure dephasing, as well as the number of particles, has a significant influence on the dark state population.
翻訳日:2023-04-20 14:41:19 公開日:2023-04-19
# ChatGPTは感情対話機能を備えているか?

Is ChatGPT Equipped with Emotional Dialogue Capabilities? ( http://arxiv.org/abs/2304.09582v1 )

ライセンス: Link先を確認
Weixiang Zhao, Yanyan Zhao, Xin Lu, Shilong Wang, Yanpeng Tong, Bing Qin(参考訳) 本稿では,openaiが開発した高度な言語モデルであるchatgptの感情対話能力について検討する。 本研究は、複数の下流課題における一連の実験を通して、感情的対話理解と生成におけるChatGPTの性能を評価する。 以上の結果から,chatgptの感情的対話理解能力は教師付きモデルに及ばないが,感情的反応を生じさせる有望な結果を示すことが示唆された。 さらに,本研究は今後の研究の道筋を示唆している。

This report presents a study on the emotional dialogue capability of ChatGPT, an advanced language model developed by OpenAI. The study evaluates the performance of ChatGPT on emotional dialogue understanding and generation through a series of experiments on several downstream tasks. Our findings indicate that while ChatGPT's performance on emotional dialogue understanding may still lag behind that of supervised models, it exhibits promising results in generating emotional responses. Furthermore, the study suggests potential avenues for future research directions.
翻訳日:2023-04-20 14:41:09 公開日:2023-04-19
# ニューラルネットワークの収束を実証する2つの時間スケール体制の活用

Leveraging the two timescale regime to demonstrate convergence of neural networks ( http://arxiv.org/abs/2304.09576v1 )

ライセンス: Link先を確認
Pierre Marion and Rapha\"el Berthier(参考訳) 本研究では, 浅層ニューラルネットワークのトレーニングダイナミクスを, 内部層へのステップズが外側層よりもずっと小さい2時間スケールで検討した。 本研究では,非凸最適化問題の大域的最適化に勾配流の収束を簡易な単変量条件で証明する。 ニューロンの数を漸近的に増加させる必要はなく、神経接核や平均場レジームのような最近の一般的なアプローチと区別する。 実験例では, 確率勾配降下は勾配流の記述に従って挙動し, 2時間体制における大域的最適度に収束するが, この体制の外では失敗する可能性があることを示す。

We study the training dynamics of shallow neural networks, in a two-timescale regime in which the stepsizes for the inner layer are much smaller than those for the outer layer. In this regime, we prove convergence of the gradient flow to a global optimum of the non-convex optimization problem in a simple univariate setting. The number of neurons need not be asymptotically large for our result to hold, distinguishing our result from popular recent approaches such as the neural tangent kernel or mean-field regimes. Experimental illustration is provided, showing that the stochastic gradient descent behaves according to our description of the gradient flow and thus converges to a global optimum in the two-timescale regime, but can fail outside of this regime.
翻訳日:2023-04-20 14:41:00 公開日:2023-04-19
# 安全強化ニューラルネットワークを用いた近似非線形モデル予測制御

Approximate non-linear model predictive control with safety-augmented neural networks ( http://arxiv.org/abs/2304.09575v1 )

ライセンス: Link先を確認
Henrik Hose and Johannes K\"ohler and Melanie N. Zeilinger and Sebastian Trimpe(参考訳) モデル予測制御(mpc)は一般的な非線形システムの安定性と制約満足度を実現するが、計算コストの高いオンライン最適化を必要とする。 本稿では、ニューラルネットワーク(NN)によるMPCコントローラの近似を行い、高速なオンライン評価を実現する。 我々は,不正確さの近似にもかかわらず,収束と制約満足度の決定論的保証をもたらす安全性拡張を提案する。 我々は、MPCの入力シーケンス全体をNNで近似し、MPC問題に対する実現可能な解決策であるかどうかをオンラインで検証する。 我々は、NNソリューションを標準のMPC技術に基づく安全な候補に置き換える。 提案手法では,NNの単一評価と入力シーケンスの前方統合が必要であり,資源制約システム上での計算が高速である。 提案する制御フレームワークは,オンライン最適化よりも計算速度が桁違いに高い3つの非線形MPCベンチマークで示される。 この例では、安全強化されたNNを用いて決定論的安全性を達成する。

Model predictive control (MPC) achieves stability and constraint satisfaction for general nonlinear systems, but requires computationally expensive online optimization. This paper studies approximations of such MPC controllers via neural networks (NNs) to achieve fast online evaluation. We propose safety augmentation that yields deterministic guarantees for convergence and constraint satisfaction despite approximation inaccuracies. We approximate the entire input sequence of the MPC with NNs, which allows us to verify online if it is a feasible solution to the MPC problem. We replace the NN solution by a safe candidate based on standard MPC techniques whenever it is infeasible or has worse cost. Our method requires a single evaluation of the NN and forward integration of the input sequence online, which is fast to compute on resource-constrained systems. The proposed control framework is illustrated on three non-linear MPC benchmarks of different complexity, demonstrating computational speedups orders of magnitudes higher than online optimization. In the examples, we achieve deterministic safety through the safety-augmented NNs, where naive NN implementation fails.
翻訳日:2023-04-20 14:40:48 公開日:2023-04-19
# 容量型車両経路問題に対する量子支援解経路

Quantum-Assisted Solution Paths for the Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2304.09629v1 )

ライセンス: Link先を確認
Lilly Palackal, Benedikt Poggel, Matthias Wulff, Hans Ehm, Jeanette Miriam Lorenz, Christian B. Mendl(参考訳) 産業環境における多くの関連する問題は、CVRP(Capacitated Vehicle Routing Problem)やTSP(Travelling Salesperson Problem)といったNPハード最適化の問題をもたらす。 今日の最も強力な古典的アルゴリズムでさえ、CVRPは古典的解決が難しい。 量子コンピューティングは解法を改善する方法を提供するかもしれないが、ノイズ中間スケール量子(NISQ)デバイスが古典的ヒューリスティックよりも実用的な優位性が得られるかどうかについては未解決のままである。 NISQ時代の組合せ最適化問題を解くために提案された最も顕著なアルゴリズムは、量子近似最適化アルゴリズム(QAOA)とより一般的な変分量子固有解法(VQE)である。 しかし、おもちゃの例であっても、高品質なソリューションを確実に提供する方法で実装することは難しい。 本稿では,CVRPの分解と定式化について論じ,ソリューションの品質を計測するアプリケーション駆動手法を提案する。 現在のハードウェア制約を考慮すると、CVRPをクラスタリングフェーズとTSPのセットに還元する。 TSPでは、QAOAとVQEの両方を広範囲にテストし、古典的なオプティマイザ選択や制約ペナライゼーションの強度など、様々なハイパーパラメータの影響について検討する。 QAOAの結果は、再帰的、ウォームスタート、制約保存ミキサーQAOAといった様々な拡張を考慮しても、アルゴリズムが実現可能なTSPソリューションのエネルギーしきい値に達しないため、一般的に限られた品質である。 一方、VQEはエネルギー閾値に達し、より良い性能を示す。 本研究は,実世界の最適化問題に対する量子支援解への障害を概説し,その克服方法についての展望を提案する。

Many relevant problems in industrial settings result in NP-hard optimization problems, such as the Capacitated Vehicle Routing Problem (CVRP) or its reduced variant, the Travelling Salesperson Problem (TSP). Even with today's most powerful classical algorithms, the CVRP is challenging to solve classically. Quantum computing may offer a way to improve the time to solution, although the question remains open as to whether Noisy Intermediate-Scale Quantum (NISQ) devices can achieve a practical advantage compared to classical heuristics. The most prominent algorithms proposed to solve combinatorial optimization problems in the NISQ era are the Quantum Approximate Optimization Algorithm (QAOA) and the more general Variational Quantum Eigensolver (VQE). However, implementing them in a way that reliably provides high-quality solutions is challenging, even for toy examples. In this work, we discuss decomposition and formulation aspects of the CVRP and propose an application-driven way to measure solution quality. Considering current hardware constraints, we reduce the CVRP to a clustering phase and a set of TSPs. For the TSP, we extensively test both QAOA and VQE and investigate the influence of various hyperparameters, such as the classical optimizer choice and strength of constraint penalization. Results of QAOA are generally of limited quality because the algorithm does not reach the energy threshold for feasible TSP solutions, even when considering various extensions such as recursive, warm-start and constraint-preserving mixer QAOA. On the other hand, the VQE reaches the energy threshold and shows a better performance. Our work outlines the obstacles to quantum-assisted solutions for real-world optimization problems and proposes perspectives on how to overcome them.
翻訳日:2023-04-20 14:33:26 公開日:2023-04-19
# フォトニック結晶のバンドギャップにおける非相反性超強マグノン-光子カップリング

Nonreciprocal ultrastrong magnon-photon coupling in the bandgap of photonic crystals ( http://arxiv.org/abs/2304.09627v1 )

ライセンス: Link先を確認
Chi Zhang, Zhenhui Hao, Yongzhang Shi, Changjun Jiang, C. K. Ong and Guozhi Chai(参考訳) 単結晶YIGシリンダーを銅フォトニック結晶空洞に導入することにより,フォトニック結晶のバンドギャップにおける超強磁性マグノン光子カップリングを観察した。 結合強度は1.18GHzに達し、光子エネルギーの約10.9%を占め、光子周波数は約10.8GHzである。 結合がバンドギャップ全体の一方向信号伝送を実現することは興味深い。 本研究は、フォトニック結晶の構造を操作することで非相反性マグノン-光子カップリングを制御する可能性を示し、マイクロ波信号伝送における磁気点欠陥の影響を調べる新しい方法を提供する。

We observe a nonreciprocal ultrastrong magnon-photon coupling in the bandgap of photonic crystals by introducing a single crystal YIG cylinder into copper photonic crystals cavity as a point defect. The coupling strength reaches up to 1.18 GHz, which constitutes about 10.9% of the photon energy compared to the photon frequency around 10.8 GHz. It is fascinating that the coupling achieves unidirectional signal transmission in the whole bandgap. This study demonstrates the possibility of controlling nonreciprocal magnon-photon coupling by manipulating the structure of photonic crystals, providing new methods to investigate the influence of magnetic point defects on microwave signal transmission.
翻訳日:2023-04-20 14:32:54 公開日:2023-04-19
# StyleDEM:テランのオーサリングのためのVersatile Model

StyleDEM: a Versatile Model for Authoring Terrains ( http://arxiv.org/abs/2304.09626v1 )

ライセンス: Link先を確認
Simon Perche, Adrien Peytavie, Bedrich Benes, Eric Galin and Eric Gu\'erin(参考訳) 過去数十年間、多くの地形モデリング手法が提案され、効率的でしばしばインタラクティブなオーサリングツールを提供している。 しかし、一般的にはスタイルの概念は含まず、エンターテイメント業界のデザイナーにとって重要な側面である。 本稿では,地形合成とオーサリングのための新たな生成的逆ネットワーク手法であるstyledemを紹介し,スタイルを用いたオーサリング手法の汎用ツールボックスを提案する。 この方法は入力スケッチや既存の地形から始まります。 インタラクティブなブラシを使って作成でき、スタイル操作や超解像度といった追加ツールで拡張できる機能を備えた地形を出力する。 私たちのアプローチの強みは、ツールボックスの汎用性と相互運用性にあります。

Many terrain modelling methods have been proposed for the past decades, providing efficient and often interactive authoring tools. However, they generally do not include any notion of style, which is a critical aspect for designers in the entertainment industry. We introduce StyleDEM, a new generative adversarial network method for terrain synthesis and authoring, with a versatile toolbox of authoring methods with style. This method starts from an input sketch or an existing terrain. It outputs a terrain with features that can be authored using interactive brushes and enhanced with additional tools such as style manipulation or super-resolution. The strength of our approach resides in the versatility and interoperability of the toolbox.
翻訳日:2023-04-20 14:32:41 公開日:2023-04-19
# CHATTY: Unsupervised Domain Adaptation の利益と正反対の輸送用語の結合

CHATTY: Coupled Holistic Adversarial Transport Terms with Yield for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2304.09623v1 )

ライセンス: Link先を確認
Chirag P, Mukta Wagle, Ravi Kant Gupta, Pranav Jeevan P, Amit Sethi(参考訳) 非教師なしドメイン適応のための収率を持つ包括的逆移動項を結合したchattyと呼ばれる新しい手法を提案する。 ニューラルネットワークの特徴抽出器層をトレーニングするために、ドメイン識別器ヘッドからの勾配を反転させることで、ドメイン不変表現の学習に一般的に使用される。 本研究は, 対向頭部, 訓練目標, 分類器頭部の大幅な修正を提案する。 クラス混同を減らすことを目的としたサブネットワークを導入し,ソースと対象ドメインの分類器出力を学習可能な方法で置き換える。 私たちは、クラスクラスタを互いに遠ざける新しいトランスポートロスを使用してこの動きを制御し、分類器がソースドメインとターゲットドメインの両方の決定バウンダリを見つけやすくします。 この新たな損失を事前提案された損失の慎重な選択に追加した結果、従来のベンチマークデータセットの最先端手法と比較して、UDA結果が改善される。 アブレーション研究と表現空間における対象領域の移動の可視化を用いて,提案する損失項の重要性を示す。

We propose a new technique called CHATTY: Coupled Holistic Adversarial Transport Terms with Yield for Unsupervised Domain Adaptation. Adversarial training is commonly used for learning domain-invariant representations by reversing the gradients from a domain discriminator head to train the feature extractor layers of a neural network. We propose significant modifications to the adversarial head, its training objective, and the classifier head. With the aim of reducing class confusion, we introduce a sub-network which displaces the classifier outputs of the source and target domain samples in a learnable manner. We control this movement using a novel transport loss that spreads class clusters away from each other and makes it easier for the classifier to find the decision boundaries for both the source and target domains. The results of adding this new loss to a careful selection of previously proposed losses leads to improvement in UDA results compared to the previous state-of-the-art methods on benchmark datasets. We show the importance of the proposed loss term using ablation studies and visualization of the movement of target domain sample in representation space.
翻訳日:2023-04-20 14:32:30 公開日:2023-04-19
# 単一光子用資源効率低損失4チャンネルアクティブデマルチプレクサ

Resource-efficient low-loss four-channel active demultiplexer for single photons ( http://arxiv.org/abs/2304.09622v1 )

ライセンス: Link先を確認
M. Dryazov, Yu. Biriukov, I. Dyakonov, K. Taratorin, A. Korneev, M. Rakhlin, A. Galimov, G. Klimko, S. Sorokin, M. Kulagina, Yu. Zadiranov, A. Toropov, F. Bergmann, S. Straupe, S. Kulik(参考訳) 本稿では,1チャネルあたり39.7%の効率で,識別不能光子を4個生成する資源効率の高い空間デマルチプレクサの設計と実装について報告する。 この方式は4光子を蓄積し、単一のポッケルスセルを用いて偏光回転を制御して放出する自由空間ストレージ/デレー線に基づいている。

We report a design and implementation of a resource-efficient spatial demultiplexer which produces 4 indistinguishable photons with efficiency of 39.7% per channel. Our scheme is based on a free-space storage/delay line which accumulates 4 photons and releases them by a controlled polarization rotation using a single Pockels cell.
翻訳日:2023-04-20 14:32:12 公開日:2023-04-19
# モードペア量子鍵分布の簡易セキュリティ証明

Simple Security Proof of Mode-Pairing Quantum Key Distribution ( http://arxiv.org/abs/2304.09621v1 )

ライセンス: Link先を確認
Yi-Fei Lu, Yang Wang, Hong-Wei Li, Mu-Sheng Jiang, Xiao-Xu Zhang, Ying-Ying Zhang, Yu Zhou, Xiao-Lei Jiang, Chun Zhou, Wan-Su Bao(参考訳) モードペアリング(MP)量子鍵分布(QKD)は、相ロックと位相トラッキングの要件を、QKDの基本速度依存性限界を超えながら、ツインフィールド(TF)のQKDと比較する。 実験的な実装の複雑さは低減され、効率も保証される。 MP-QKDのセキュリティは、MP-QKDと固定ペアリングスキームとの整合性を、Eveの可能な全ての干渉の下で詳細に調べることによって厳密に証明される。 本稿では,mp-qkdの情報理論的セキュリティを簡易かつ容易に証明する手法を提案する。 具体的には,MP-QKDの絡み合い方式を提案し,その安全性を絡み合い浄化を用いて証明する。 そして、MP-QKDのアンタングル化スキームと、MP-QKDの準備・対策スキームの等価性により、MP-QKDのセキュリティを保証できる。 このアプローチでは,MP-QKDの性能とセキュリティを分析し,理解することが重要である。 本稿では,MP-QKDとMDI-QKDの主な相違点である第三者による測定結果によって,MP-QKDのペアリングラウンドが分離・決定できる理由を説明する。 さらに,MP-QKDのセキュリティを,秘密鍵レートに重要な最適ペアリング戦略を用いて,集団的かつ一貫性のある攻撃下で解析する。

Mode-pairing (MP) quantum key distribution (QKD) eliminates the requirements of phase locking and phase tracking compared with twin-field (TF) QKD while still surpassing the fundamental rate-distance limit of QKD. The complexity of the experimental implementation is reduced while the efficiency is also guaranteed. The security of MP-QKD is proved rigorously by examining the consistency of the states detailly between MP-QKD and the fixed-pairing scheme under all of Eve's possible interference, where the latter is equivalent to measurement-device-independent (MDI) QKD. Here we propose a simple and straightforward method to prove the information-theoretic security of MP-QKD. Specifically, an entanglement scheme for MP-QKD is proposed and its security is proved using entanglement purification. Then the security of MP-QKD can be guaranteed with the equivalence of the entanglement scheme and prepare-and-measure scheme for MP-QKD. With this approach, it is beneficial to analyze and understand the performance and security of MP-QKD. We explain why the pairing rounds in MP-QKD can be decoupled and determined by the measurement results announced by a third party, which is the key difference between MP-QKD and MDI-QKD. Moreover, we analyze the security of MP-QKD with the allowed optimal pairing strategy, which is significant for the secret key rate, under collective and coherent attacks.
翻訳日:2023-04-20 14:32:04 公開日:2023-04-19
# dcelanm-net:学習者によるdual channel efficient layer aggregation networkに基づく医用画像セグメンテーション

DCELANM-Net:Medical Image Segmentation based on Dual Channel Efficient Layer Aggregation Network with Learner ( http://arxiv.org/abs/2304.09620v1 )

ライセンス: Link先を確認
Chengzhun Lu, Zhangrun Xia, Krzysztof Przystupa, Orest Kochan, Jun Su(参考訳) DCELANM-Net構造は、DCELAN(Dual Channel Efficient Layer Aggregation Network)とMicro Masked Autoencoder(Micro-MAE)を巧みに組み合わせたモデルである。 一方、DCELANでは、ネットワーク構造を深くすることで、より効果的に機能を取り付けることができ、より深いネットワークで、より正確に局所的な特徴情報を見つけ出すことができ、ネットワーク構造と残余接続を広げることで、チャネルの各層の利用をより効果的に向上させることができる。 モデルの学習者にはMicro-MAEを採用した。 方法論の単純さに加えて、モデルに驚くほどスケール可能なメリットを持つ自己教師付き学習方法も提供する。

The DCELANM-Net structure, which this article offers, is a model that ingeniously combines a Dual Channel Efficient Layer Aggregation Network (DCELAN) and a Micro Masked Autoencoder (Micro-MAE). On the one hand, for the DCELAN, the features are more effectively fitted by deepening the network structure; the deeper network can successfully learn and fuse the features, which can more accurately locate the local feature information; and the utilization of each layer of channels is more effectively improved by widening the network structure and residual connections. We adopted Micro-MAE as the learner of the model. In addition to being straightforward in its methodology, it also offers a self-supervised learning method, which has the benefit of being incredibly scaleable for the model.
翻訳日:2023-04-20 14:31:36 公開日:2023-04-19
# 自然言語処理と心理言語学:バスク語とスペイン語における意味的類似性と関連性データセット

Bridging Natural Language Processing and Psycholinguistics: computationally grounded semantic similarity and relatedness datasets for Basque and Spanish ( http://arxiv.org/abs/2304.09616v1 )

ライセンス: Link先を確認
J. Goikoetxea, M. Arantzeta, I. San Martin(参考訳) 本稿では,テキストコーパスと知識ベースという2つの有名な自然言語処理資源に基づく,計算的な単語類似度データセットを提案する。 このデータセットは、語彙処理において重要な役割を果たす変数によって制御される一連の名詞対において、意味的類似性の様々な定量化を提供することによって、精神言語学研究のギャップを埋めることを目的としている。 データセットの作成には3つのステップがあります。 1) 各名詞の4つの重要な精神言語的特徴,具体性,頻度,意味,音韻的近傍密度の計算 2) これら4つの変数にまたがるペア名詞 3)各名詞対に対して3種類の単語類似度測定を割り当て,テキスト,Wordnet,ハイブリッド埋め込みを計算した。 現在のデータセットには、バスク語とヨーロッパスペイン語の名詞ペアの情報が含まれているが、さらに多くの言語に拡張される予定である。

We present a computationally-grounded word similarity dataset based on two well-known Natural Language Processing resources; text corpora and knowledge bases. This dataset aims to fulfil a gap in psycholinguistic research by providing a variety of quantifications of semantic similarity in an extensive set of noun pairs controlled by variables that play a significant role in lexical processing. The dataset creation has consisted in three steps, 1) computing four key psycholinguistic features for each noun; concreteness, frequency, semantic and phonological neighbourhood density; 2) pairing nouns across these four variables; 3) for each noun pair, assigning three types of word similarity measurements, computed out of text, Wordnet and hybrid embeddings. The present dataset includes noun pairs' information in Basque and European Spanish, but further work intends to extend it to more languages.
翻訳日:2023-04-20 14:31:21 公開日:2023-04-19
# MMDR:自律システムのための特徴量融合物体検出手法

MMDR: A Result Feature Fusion Object Detection Approach for Autonomous System ( http://arxiv.org/abs/2304.09609v1 )

ライセンス: Link先を確認
Wendong Zhang(参考訳) 近年、物体検出は2次元と3次元の両方の物体検出を含む自律システムで広く利用されている。 本稿では,近年のマルチモーダル・フュージョン・アプローチを中心に,結果特徴量融合に基づくマルチモーダル・フュージョン・アプローチを提案する。 本手法では,単一モダリティ源から生成した結果特徴を下流タスクに融合し,単一モダリティ結果を特徴として利用するマルチモダリティ物体検出のための新しいポストファンディングネットワークを提案する。 提案手法は,MMDR (Multi-Modal Detector based based Result features) と呼ばれ,2次元と3次元の両方のオブジェクト検出タスクで動作するように設計されている。 従来のマルチモーダルモデルと比較して,本論文で提案するアプローチは後段の機能融合を行い,単一モダリティ源の深層特徴をよりよく表現することを可能にする。 さらにmmdrモデルは、機能融合の段階で浅いグローバル機能を取り入れ、背景情報や全体的な入力を知覚する機能をモデルに内在させ、ミス検出などの問題を回避している。

Object detection has been extensively utilized in autonomous systems in recent years, encompassing both 2D and 3D object detection. Recent research in this field has primarily centered around multimodal approaches for addressing this issue.In this paper, a multimodal fusion approach based on result feature-level fusion is proposed. This method utilizes the outcome features generated from single modality sources, and fuses them for downstream tasks.Based on this method, a new post-fusing network is proposed for multimodal object detection, which leverages the single modality outcomes as features. The proposed approach, called Multi-Modal Detector based on Result features (MMDR), is designed to work for both 2D and 3D object detection tasks. Compared to previous multimodal models, the proposed approach in this paper performs feature fusion at a later stage, enabling better representation of the deep-level features of single modality sources. Additionally, the MMDR model incorporates shallow global features during the feature fusion stage, endowing the model with the ability to perceive background information and the overall input, thereby avoiding issues such as missed detections.
翻訳日:2023-04-20 14:31:08 公開日:2023-04-19
# CB-Conformer: バイアス付き単語認識のためのコンテキストバイアス変換器

CB-Conformer: Contextual biasing Conformer for biased word recognition ( http://arxiv.org/abs/2304.09607v1 )

ライセンス: Link先を確認
Yaoxun Xu and Baiji Liu and Qiaochu Huang and, Xingchen Song and Zhiyong Wu and Shiyin Kang and Helen Meng(参考訳) ソース領域とターゲット領域のミスマッチにより、偏りのある単語情報をうまく利用して、ターゲット領域における自動音声認識モデルの性能を向上させる方法が、ホットな研究テーマとなる。 以前のアプローチでは、固定された外部言語モデルでデコードするか、サイズの大きいバイアスモジュールを導入していた。 本研究では,文脈バイアスモジュールと自己適応型言語モデルを導入してバイアス付き単語認識を改善するcb-conformerを提案する。 コンテキストバイアスモジュールは、オーディオフラグメントとコンテキスト情報を組み合わせたもので、オリジナルのコンフォーメータのモデルパラメータはわずか0.2%である。 自己適応言語モデル(Self-Adaptive Language Model)は、そのリコールと精度に基づいてバイアス付き単語の内部重みを修正し、バイアス付き単語に焦点を合わせ、標準の固定言語モデルよりも自動音声認識モデルとの統合を成功させる。 さらに,wenetspeechに基づくオープンソースmandarinbiased-wordデータセットを構築し,公開する。 実験の結果,提案手法では文字誤り率を15.34%削減し,14.13%の単語リコール,6.80%の単語F1スコアがベースコンバータに比べて増加した。

Due to the mismatch between the source and target domains, how to better utilize the biased word information to improve the performance of the automatic speech recognition model in the target domain becomes a hot research topic. Previous approaches either decode with a fixed external language model or introduce a sizeable biasing module, which leads to poor adaptability and slow inference. In this work, we propose CB-Conformer to improve biased word recognition by introducing the Contextual Biasing Module and the Self-Adaptive Language Model to vanilla Conformer. The Contextual Biasing Module combines audio fragments and contextual information, with only 0.2% model parameters of the original Conformer. The Self-Adaptive Language Model modifies the internal weights of biased words based on their recall and precision, resulting in a greater focus on biased words and more successful integration with the automatic speech recognition model than the standard fixed language model. In addition, we construct and release an open-source Mandarin biased-word dataset based on WenetSpeech. Experiments indicate that our proposed method brings a 15.34% character error rate reduction, a 14.13% biased word recall increase, and a 6.80% biased word F1-score increase compared with the base Conformer.
翻訳日:2023-04-20 14:30:48 公開日:2023-04-19
# マイクロインサイトハイブリダイゼーション画像の解析と分類のためのオートエンコーダの最適化

Optimizations of Autoencoders for Analysis and Classification of Microscopic In Situ Hybridization Images ( http://arxiv.org/abs/2304.09656v1 )

ライセンス: Link先を確認
Aleksandar A. Yanev, Galina D. Momcheva, Stoyan P. Pavlov(参考訳) 現在、顕微鏡によるInsituハイブリダイゼーション画像の解析は専門家によって手作業で行われている。 このような顕微鏡画像の精密な評価と分類は専門家の作業を容易にし、データに関するさらなる洞察を明らかにすることができる。 本研究では,顕微鏡画像の領域を類似のレベルの遺伝子発現で検出・分類するディープラーニングフレームワークを提案する。 分析するデータには教師なしの学習モデルが必要で、それは一種の人工ニューラルネットワーク(ディープラーニングオートエンコーダ)を使っています。 モデルの性能は、潜在層の長さと複雑さと微調整ハイパーパラメータのバランスをとることで最適化される。 結果は,平均二乗誤差(MSE)測定値に適応し,専門家の評価と比較することによって検証される。

Currently, analysis of microscopic In Situ Hybridization images is done manually by experts. Precise evaluation and classification of such microscopic images can ease experts' work and reveal further insights about the data. In this work, we propose a deep-learning framework to detect and classify areas of microscopic images with similar levels of gene expression. The data we analyze requires an unsupervised learning model for which we employ a type of Artificial Neural Network - Deep Learning Autoencoders. The model's performance is optimized by balancing the latent layers' length and complexity and fine-tuning hyperparameters. The results are validated by adapting the mean-squared error (MSE) metric, and comparison to expert's evaluation.
翻訳日:2023-04-20 14:24:47 公開日:2023-04-19
# reelframer: 生成aiを使ったソーシャルメディア上のニュースリール

ReelFramer: Co-creating News Reels on Social Media with Generative AI ( http://arxiv.org/abs/2304.09653v1 )

ライセンス: Link先を確認
Sitong Wang, Samia Menon, Tao Long, Keren Henderson, Dingzeyu Li, Kevin Crowston, Mark Hansen, Jeffrey V. Nickerson, Lydia B. Chilton(参考訳) ソーシャルメディア上の短いビデオは、多くの若者がコンテンツを見つけて消費する主要な方法だ。 ニュースメディアはニュースリールを通じてオーディエンスにリーチしたいと思うが、今のところ、従来のジャーナリストのフォーマットを、プラットフォームのスタイルにマッチする短い楽しいビデオに変換するのに苦労している。 ニュースにまつわるリールスタイルの物語を作るには多くの方法があり、その物語を選ぶことは難しい。 異なるニュース記事は異なるフレーミングを求め、エンターテイメントと情報の間に異なるトレードオフを必要とする。 ReelFramerと呼ばれるシステムは、ジャーナリストがストーリーのための複数の物語のフレーミングを探索し、それを編集し反復できるスクリプト、キャラクタボード、ストーリーボードを生成するのに、テキストと画像生成を利用する。 ジャーナリズム関連分野の5人の大学院生を対象にしたユーザスタディでは、文章をリールに変換する際の負担を大幅に軽減し、正しいストーリーを見つけるためのフレーミングは報奨プロセスであることがわかった。

Short videos on social media are a prime way many young people find and consume content. News outlets would like to reach audiences through news reels, but currently struggle to translate traditional journalistic formats into the short, entertaining videos that match the style of the platform. There are many ways to frame a reel-style narrative around a news story, and selecting one is a challenge. Different news stories call for different framings, and require a different trade-off between entertainment and information. We present a system called ReelFramer that uses text and image generation to help journalists explore multiple narrative framings for a story, then generate scripts, character boards and storyboards they can edit and iterate on. A user study of five graduate students in journalism-related fields found the system greatly eased the burden of transforming a written story into a reel, and that exploring framings to find the right one was a rewarding process.
翻訳日:2023-04-20 14:24:35 公開日:2023-04-19
# BRENT:ノルウェーの双方向検索機能強化トランス

BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer ( http://arxiv.org/abs/2304.09649v1 )

ライセンス: Link先を確認
Lucas Georges Gabriel Charpentier, Sondre Wold, David Samuel and Egil R{\o}nningstad(参考訳) 検索ベースの言語モデルは、質問応答タスクにますます採用されている。 これらのモデルは、すべての事実知識をパラメータに格納する代わりに、関連する情報のための文書のコーパスで検索し、効率性、透明性、適応性を高める。 我々はREALMフレームワークを適用し,様々なタスクで評価することで,ノルウェー初の検索モデルを開発した。 また、学習後、読み手と呼ばれる言語モデルをレトリバーコンポーネントから分離し、一連の下流タスクで微調整できることを示します。 以上の結果から,検索強化言語モデリングは,抽出された質問応答における読者のパフォーマンスを向上し,言語モデルのコンテキスト使用能力を向上させるとともに,音声のタグ付けや依存性解析,名前付きエンティティ認識,補題化といった他の能力を犠牲にすることなく,このような訓練が実施されることが示唆された。 コード、トレーニングされたモデル、データは公開されています。

Retrieval-based language models are increasingly employed in question-answering tasks. These models search in a corpus of documents for relevant information instead of having all factual knowledge stored in its parameters, thereby enhancing efficiency, transparency, and adaptability. We develop the first Norwegian retrieval-based model by adapting the REALM framework and evaluating it on various tasks. After training, we also separate the language model, which we call the reader, from the retriever components, and show that this can be fine-tuned on a range of downstream tasks. Results show that retrieval augmented language modeling improves the reader's performance on extractive question-answering, suggesting that this type of training improves language models' general ability to use context and that this does not happen at the expense of other abilities such as part-of-speech tagging, dependency parsing, named entity recognition, and lemmatization. Code, trained models, and data are made publicly available.
翻訳日:2023-04-20 14:24:17 公開日:2023-04-19
# 分散優先体験再生による量子深度Q学習

Quantum deep Q learning with distributed prioritized experience replay ( http://arxiv.org/abs/2304.09648v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen(参考訳) 本稿では,QDQN-DPERフレームワークを導入し,逐次決定課題の解法における量子強化学習(QRL)の効率を向上させる。 このフレームワークは、優先度の高いエクスペリエンスリプレイと非同期トレーニングをトレーニングアルゴリズムに組み込んで、サンプリングの複雑さを低減します。 数値シミュレーションにより、QDQN-DPERは、同じモデルアーキテクチャでベースライン分散量子Q学習より優れていた。 提案するフレームワークは、トレーニング効率を維持しながら、より複雑なタスクの可能性を秘めている。

This paper introduces the QDQN-DPER framework to enhance the efficiency of quantum reinforcement learning (QRL) in solving sequential decision tasks. The framework incorporates prioritized experience replay and asynchronous training into the training algorithm to reduce the high sampling complexities. Numerical simulations demonstrate that QDQN-DPER outperforms the baseline distributed quantum Q learning with the same model architecture. The proposed framework holds potential for more complex tasks while maintaining training efficiency.
翻訳日:2023-04-20 14:23:59 公開日:2023-04-19
# 量子力学の(文字通り)解釈に対する新しい分割的アプローチ

The new partitional approach to (literally) interpreting quantum mechanics ( http://arxiv.org/abs/2304.09644v1 )

ライセンス: Link先を確認
David Ellerman(参考訳) 本稿では,標準量子力学(QM)の理解と解釈に新たな「部分的」アプローチを提案する。 QM の数学(物理学ではない)は集合上の分割の数学のヒルベルト空間バージョンであり、逆に分割の数学は QM の数学の骨格化された集合レベルバージョンである。 集合レベルでは、分割は区別や不定性(あるいは不定性や不定性)を表す数学的ツールであるので、このアプローチは、(「波」の和と見なすのとは対照的に)定値な選択肢の間の(客観的な)不定性の観点から、重ね合わせの鍵となる非古典的なQM概念を解釈する方法を示す。 したがって、この分割的アプローチは、目的の不定値解釈と呼ばれるものや、abner shimony氏がqmの文字通りの解釈と呼ぶものを明確にする。

This paper presents a new `partitional' approach to understanding or interpreting standard quantum mechanics (QM). The thesis is that the mathematics (not the physics) of QM is the Hilbert space version of the math of partitions on a set and, conversely, the math of partitions is a skeletonized set level version of the math of QM. Since at the set level, partitions are the mathematical tool to represent distinctions and indistinctions (or definiteness and indefiniteness), this approach shows how to interpret the key non-classical QM notion of superposition in terms of (objective) indefiniteness between definite alternatives (as opposed to seeing it as the sum of `waves'). Hence this partitional approach substantiates what might be called the Objective Indefiniteness Interpretation or what Abner Shimony called the Literal Interpretation of QM.
翻訳日:2023-04-20 14:23:50 公開日:2023-04-19
# 量子敵に対するブロックminエントロピー源の有限デバイス非依存抽出

Finite Device-Independent Extraction of a Block Min-Entropy Source against Quantum Adversaries ( http://arxiv.org/abs/2304.09643v1 )

ライセンス: Link先を確認
Ravishankar Ramanathan(参考訳) 弱ランダム種子からのランダム性の抽出は、複数の応用において重要な問題である。 デバイスに依存しない設定では、量子ランダム性増幅の問題はサンサ・ヴァジラニ型の特定の弱い源に主に制限されているが、一般的なミンエントロピー源からの抽出には非実用的な多くの分離された装置が必要であった。 本稿では,空間的に分離された2つの成分からなる装置を用いて,単一のミンエントロピー源(十分高いミンエントロピーの2つのブロックからなる)を増幅するためのデバイス非依存プロトコルを提案する。

The extraction of randomness from weakly random seeds is a problem of central importance with multiple applications. In the device-independent setting, this problem of quantum randomness amplification has been mainly restricted to specific weak sources of Santha-Vazirani type, while extraction from the general min-entropy sources has required a large number of separated devices which is impractical. In this paper, we present a device-independent protocol for amplification of a single min-entropy source (consisting of two blocks of sufficiently high min-entropy) using a device consisting of two spatially separated components and show a proof of its security against general quantum adversaries.
翻訳日:2023-04-20 14:23:20 公開日:2023-04-19
# 集団崩壊を伴う散逸スピン系の不連続相転移から連続相転移への変化

Changeover from the discontinuous to continuous phase transitions in dissipative spin system with collective decay ( http://arxiv.org/abs/2304.09640v1 )

ライセンス: Link先を確認
Linyu Song and Jiasen Jin(参考訳) 環境を考慮した全横フィールドイジングモデルにおける定常相転移について検討する。 モデルは2つの成分ハミルトニアンから構成される。 スピン相互作用に垂直な外部場の向きは、各成分のハミルトニアンにおいて$x$-direction または $z$-direction に沿って調整できるが、散逸は常に$z$-direction にスピンを反転させる傾向がある。 平均場近似により、準連続定常相転移は定常解の2つの分枝が融合した結果であることがわかった。 不安定性の出現は、リウヴィリアスペクトルによっても明らかにされる有限サイズの系の集合の定常挙動を分析することによって確認される。

We investigate the steady-state phase transitions in an all-to-all transverse-field Ising model subjected to an environment. The considered model is composed of two ingredient Hamiltonians. The orientation of the external field, which is perpendicular to the spin interaction, can be tuned to be along either $x$-direction or $z$-direction in each ingredient Hamiltonian while the dissipations always tend to flip the spins down to the $z$-direction. By means of mean-field approximation, we find that the quasi continuous steady-state phase transition is presented as a consequence of the merging of two branches of steady-state solutions. The emergence of bistability is confirmed by analyzing the steady-state behaviors of a set of finite-size systems which is also revealed by the Liouvillian spectrum.
翻訳日:2023-04-20 14:22:59 公開日:2023-04-19
# Krohn-Rhodes論理

The Krohn-Rhodes Logics ( http://arxiv.org/abs/2304.09639v1 )

ライセンス: Link先を確認
Alessandro Ronca(参考訳) 我々は,過去におけるモーダル時間論理の新たな族を,Krohn と Rhodes による自動カスケードの理論に基づくテンポラル作用素のリッチな集合による past LTL を拡張して得られる。 理論によれば、全てのオートマトンは素オートマトンと呼ばれる基本的なオートマトンのカスケードとして表現できる。 これらはすべてのオートマトンの構成要素であり、すべての自然数の構成要素である素数と類似している。 過去のltlはflip-flopsと呼ばれる1種類の素オートマタのカスケードに対応している。 特に、過去LTLの時間演算子はフリップフロップによって捕捉され、他の素数オートマトンを捕捉することはできず、星のない正規言語での表現性を補う。 我々は,他の素オートマトンを捕捉し,それゆえ過去のltlの表現性を拡張できる新しい時間演算子を提案する。 そのような作用素は無限多量であり、正規言語の無限個の異なる断片をキャプチャする無限個の論理を生成する。 その結果は、まだ探索されていない過去LTLの拡張の風景であり、Krohn-Rhodes Logics と呼び、それぞれが特定のアプリケーションで要求される表現性に一致する可能性がある。

We present a new family of modal temporal logics of the past, obtained by extending Past LTL with a rich set of temporal operators based on the theory by Krohn and Rhodes for automata cascades. The theory says that every automaton can be expressed as a cascade of some basic automata called prime automata. They are the building blocks of all automata, analogously to prime numbers being the building blocks of all natural numbers. We show that Past LTL corresponds to cascades of one kind of prime automata called flip-flops. In particular, the temporal operators of Past LTL are captured by flip-flops, and they cannot capture any other prime automaton, confining the expressivity within the star-free regular languages. We propose novel temporal operators that can capture other prime automata, and hence extend the expressivity of Past LTL. Such operators are infinitely-many, and they yield an infinite number of logics capturing an infinite number of distinct fragments of the regular languages. The result is a yet unexplored landscape of extensions of Past LTL, that we call Krohn-Rhodes Logics, each of them with the potential of matching the expressivity required by specific applications.
翻訳日:2023-04-20 14:22:37 公開日:2023-04-19
# 拡散複雑性の時間発展と量子クエンチェにおける仕事の統計

Time evolution of spread complexity and statistics of work done in quantum quenches ( http://arxiv.org/abs/2304.09636v1 )

ライセンス: Link先を確認
Kuntal Pal, Kunal Pal, Ankit Gill, Tapobrata Sarkar(参考訳) 本研究では,突然のクエンチ下での統計システム上での作業の確率分布を,ポストクエンチ・ハミルトニアンの下での進化に対応するランチョス係数に関連付ける。 確率分布のモーメントと累積との一般的な関係を用いて、ランツォス係数は分布に関連する物理量、例えば、システム上で行った平均的な作業、その分散、および高次累積と同一視できることを示す。 ある意味で、これは実験的に測定可能な量の観点からランツォ係数の解釈を与える。 これらの関係を2つの例で説明する。 1つ目は、周期的境界条件と最も近い隣り合う相互作用を持つ調和鎖上でのクエンチである。 第二の例として、大系の大きさの極限における$d$空間次元における自由ボゾン場理論における質量クエンチを考える。 いずれの場合においても,クエンチ後の拡散複雑性の経時的変化を見いだし,ランチョス係数とシステム上での作業の累積分布との関係を明らかにした。

We relate the probability distribution of the work done on a statistical system under a sudden quench to the Lanczos coefficients corresponding to evolution under the post-quench Hamiltonian. Using the general relation between the moments and the cumulants of the probability distribution, we show that the Lanczos coefficients can be identified with physical quantities associated with the distribution, e.g., the average work done on the system, its variance, as well as the higher order cumulants. In a sense this gives an interpretation of the Lanczos coefficients in terms of experimentally measurable quantities. We illustrate these relations with two examples. The first one involves quench done on a harmonic chain with periodic boundary conditions and with nearest neighbour interactions. As a second example, we consider mass quench in a free bosonic field theory in $d$ spatial dimensions in the limit of large system size. In both cases, we find out the time evolution of the spread complexity after the quench, and relate the Lanczos coefficients with the cumulants of the distribution of the work done on the system.
翻訳日:2023-04-20 14:22:08 公開日:2023-04-19
# 医用画像分割用クロスリファレンス変換器

Cross-Reference Transformer for Few-shot Medical Image Segmentation ( http://arxiv.org/abs/2304.09630v1 )

ライセンス: Link先を確認
Yao Huang and Jianming Liu(参考訳) 医用画像処理の矛盾、すなわち医用画像の応用はますます広くなり、医用画像の制限はラベル付けが難しいため、医療用画像処理の分野では、少ないショット学習技術がより注目され始めている。 本稿では,既存のクロスリファレンスサポートイメージとクエリイメージとの相互作用の欠如に対処する医療画像セグメンテーションのためのクロスリファレンストランスフォーマを提案する。 高次元チャネルでサポート機能やクエリ機能に類似した部分のマイニングと強化が可能である。 実験の結果,CTデータセットとMRIデータセットの両方で良好な結果が得られた。

Due to the contradiction of medical image processing, that is, the application of medical images is more and more widely and the limitation of medical images is difficult to label, few-shot learning technology has begun to receive more attention in the field of medical image processing. This paper proposes a Cross-Reference Transformer for medical image segmentation, which addresses the lack of interaction between the existing Cross-Reference support image and the query image. It can better mine and enhance the similar parts of support features and query features in high-dimensional channels. Experimental results show that the proposed model achieves good results on both CT dataset and MRI dataset.
翻訳日:2023-04-20 14:21:50 公開日:2023-04-19
# クロスフュージョン:ノイズ耐性3次元物体検出のためのクロスモーダル補間

CrossFusion: Interleaving Cross-modal Complementation for Noise-resistant 3D Object Detection ( http://arxiv.org/abs/2304.09694v1 )

ライセンス: Link先を確認
Yang Yang, Weijie Ma, Hao Chen, Linlin Ou and Xinyi Yu(参考訳) lidarとカメラのモダリティの組み合わせは、3dオブジェクト検出に必要であり、最近の研究によれば典型的なものである。 既存の融合戦略は、カメラセンサーからの豊富なセマンティクスを活用するLiDARモダルを本質的に過度に依存する傾向にある。 しかし、LiDARの特徴の破損が大きなドメインギャップをもたらすため、既存の手法は他のモダリティの情報に頼ることはできない。 そこで,提案するクロスフュージョンは,カメラとライダーの機能を完全に活用し,クロスモーダル補間戦略を考案した,より堅牢で耐雑音性の高い手法である。 実験の結果,提案手法は付加的な深度推定ネットワークを導入することなく,また,5.2\%のmAPと2.4\%のNDSを増大させることで,特定の故障シナリオに対する再学習を伴わずに,モデルの耐雑音性を示す。

The combination of LiDAR and camera modalities is proven to be necessary and typical for 3D object detection according to recent studies. Existing fusion strategies tend to overly rely on the LiDAR modal in essence, which exploits the abundant semantics from the camera sensor insufficiently. However, existing methods cannot rely on information from other modalities because the corruption of LiDAR features results in a large domain gap. Following this, we propose CrossFusion, a more robust and noise-resistant scheme that makes full use of the camera and LiDAR features with the designed cross-modal complementation strategy. Extensive experiments we conducted show that our method not only outperforms the state-of-the-art methods under the setting without introducing an extra depth estimation network but also demonstrates our model's noise resistance without re-training for the specific malfunction scenarios by increasing 5.2\% mAP and 2.4\% NDS.
翻訳日:2023-04-20 14:15:44 公開日:2023-04-19
# darswin:歪みを考慮したラジアルスウィン変圧器

DarSwin: Distortion Aware Radial Swin Transformer ( http://arxiv.org/abs/2304.09691v1 )

ライセンス: Link先を確認
Akshaya Athwale, Arman Afrasiyabi, Justin Lague, Ichrak Shili, Ola Ahmad and Jean-Francois Lalonde(参考訳) 広角レンズは広い視野を必要とする知覚タスクで一般的に使用される。 残念ながら、これらのレンズは、広角画像に適応できない歪み効果を無視する従来のモデルに顕著な歪みをもたらす。 本稿では,広角レンズの歪みに自動的に適応する変圧器モデルを提案する。 我々は、放射歪プロファイルによって解析的に定義されるようなレンズの物理的特性を利用して、歪みを意識した放射歪変換器(DarSwin)を開発する。 従来の変圧器ベースのアーキテクチャとは対照的に、darswinはラジアルパッチパーティショニングと、トークン埋め込みを作成するための歪みベースのサンプリング技術と、ラジアルパッチマージのための極性位置エンコーディングを備えている。 本研究では,合成歪画像ネットデータを用いて分類課題の検証を行い,darswin が異なる広角レンズの非知覚歪みに対してゼロショット適応できることを示す。 他のベースラインと比較すると、DarSwinは(Top-1と-5の精度で)分配中のデータでテストすると、中(高い)歪みレベルにおいてTop-1の精度がほぼ2%(6%)向上し、低い歪みレベルと非常に低い歪みレベルの最先端に匹敵する結果が得られる。

Wide-angle lenses are commonly used in perception tasks requiring a large field of view. Unfortunately, these lenses produce significant distortions making conventional models that ignore the distortion effects unable to adapt to wide-angle images. In this paper, we present a novel transformer-based model that automatically adapts to the distortion produced by wide-angle lenses. We leverage the physical characteristics of such lenses, which are analytically defined by the radial distortion profile (assumed to be known), to develop a distortion aware radial swin transformer (DarSwin). In contrast to conventional transformer-based architectures, DarSwin comprises a radial patch partitioning, a distortion-based sampling technique for creating token embeddings, and a polar position encoding for radial patch merging. We validate our method on classification tasks using synthetically distorted ImageNet data and show through extensive experiments that DarSwin can perform zero-shot adaptation to unseen distortions of different wide-angle lenses. Compared to other baselines, DarSwin achieves the best results (in terms of Top-1 and -5 accuracy), when tested on in-distribution data, with almost 2% (6%) gain in Top-1 accuracy under medium (high) distortion levels, and comparable to the state-of-the-art under low and very low distortion levels (perspective-like images).
翻訳日:2023-04-20 14:15:26 公開日:2023-04-19
# 人口多様性の平衡状態の解析

Analysing Equilibrium States for Population Diversity ( http://arxiv.org/abs/2304.09690v1 )

ライセンス: Link先を確認
Johannes Lengler and Andre Opris and Dirk Sudholt(参考訳) 人口の多様性は、グローバルな探索とクロスオーバーの利用を促進するため、進化的アルゴリズムにおいて不可欠である。 人口多様性の利点を示す多くのランタイム分析にもかかわらず、時間の経過とともに多様性がどのように進化するかを明確には示していない。 ペアワイズハミング距離の和によって測定された$(\mu+1)$アルゴリズムの集団多様性が、適合性ニュートラルな環境でどのように進化するかを検討する。 人口多様性の漂流の正確な公式を与え、それが平衡状態に向かっていることを示す。 さらに, 平衡状態に近づくための期待時間を制限した。 平衡の場所を含むこれらの力学は、驚くほど多くのアルゴリズム選択に影響されないことが分かる。 同じ数のビットフリップを持つ全ての非バイアス突然変異作用素は、期待される多様性に同じ影響を及ぼす。 多くのクロスオーバー作用素は、すべてのバイナリ非バイアスで尊敬すべき作用素を含む全く効果を持たない。 文献からのクロスオーバー演算子をレビューし、多様性とそうでないクロスオーバーの進化に対して中立なクロスオーバーを識別する。

Population diversity is crucial in evolutionary algorithms as it helps with global exploration and facilitates the use of crossover. Despite many runtime analyses showing advantages of population diversity, we have no clear picture of how diversity evolves over time. We study how population diversity of $(\mu+1)$ algorithms, measured by the sum of pairwise Hamming distances, evolves in a fitness-neutral environment. We give an exact formula for the drift of population diversity and show that it is driven towards an equilibrium state. Moreover, we bound the expected time for getting close to the equilibrium state. We find that these dynamics, including the location of the equilibrium, are unaffected by surprisingly many algorithmic choices. All unbiased mutation operators with the same expected number of bit flips have the same effect on the expected diversity. Many crossover operators have no effect at all, including all binary unbiased, respectful operators. We review crossover operators from the literature and identify crossovers that are neutral towards the evolution of diversity and crossovers that are not.
翻訳日:2023-04-20 14:14:56 公開日:2023-04-19
# 参照誘導制御可能なニューラルラジアンスフィールドの塗装

Reference-guided Controllable Inpainting of Neural Radiance Fields ( http://arxiv.org/abs/2304.09677v1 )

ライセンス: Link先を確認
Ashkan Mirzaei, Tristan Aumentado-Armstrong, Marcus A. Brubaker, Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor Gilitschenski(参考訳) ビュー合成におけるNeRF(Neural Radiance Fields)の人気は、NeRF編集ツールへの欲求につながっている。 ここでは、表示に一貫性があり、制御可能な領域に焦点をあてる。 各ビューにおいて望ましくない領域を規定する典型的なNeRF入力とマスクに加えて、シーンの1つの塗装されたビュー、すなわち参照ビューしか必要としない。 単眼深度推定器を用いて, 塗装された視界を3D位置へバックプロジェクションする。 そして、新規なレンダリング技術により、二者解決者は、非参照ビューにおけるビュー依存効果を構築でき、塗装された領域が任意のビューから一貫して見えるようにする。 単一の参照ビューで教師できない非参照非排除領域に対しては,画像のインペインターに基づく手法を考案し,形状と外観の両方をガイドする。 提案手法は,1つのインペイント画像で生成したシーンをユーザが制御できるというアドバンテージにより,nerfインペイントベースラインよりも優れた性能を示す。 プロジェクトページ: https://ashmrz.github.io/reference-guided-3d

The popularity of Neural Radiance Fields (NeRFs) for view synthesis has led to a desire for NeRF editing tools. Here, we focus on inpainting regions in a view-consistent and controllable manner. In addition to the typical NeRF inputs and masks delineating the unwanted region in each view, we require only a single inpainted view of the scene, i.e., a reference view. We use monocular depth estimators to back-project the inpainted view to the correct 3D positions. Then, via a novel rendering technique, a bilateral solver can construct view-dependent effects in non-reference views, making the inpainted region appear consistent from any view. For non-reference disoccluded regions, which cannot be supervised by the single reference view, we devise a method based on image inpainters to guide both the geometry and appearance. Our approach shows superior performance to NeRF inpainting baselines, with the additional advantage that a user can control the generated scene via a single inpainted image. Project page: https://ashmrz.github.io/reference-guided-3d
翻訳日:2023-04-20 14:14:42 公開日:2023-04-19
# cmid:リモートセンシング画像理解のための統合自己教師付き学習フレームワーク

CMID: A Unified Self-Supervised Learning Framework for Remote Sensing Image Understanding ( http://arxiv.org/abs/2304.09670v1 )

ライセンス: Link先を確認
Dilxat Muhtar, Xueliang Zhang, Pengfeng Xiao, Zhenshi Li, Feng Gu(参考訳) リモートセンシング(RS)と地球観測(EO)のコミュニティでは,人称ラベルなしでタスク非依存の表現を学習する能力により,SSLが注目されている。 それでも、既存のRS SSLメソッドのほとんどは、グローバルな意味分離可能または局所的な空間認識可能な表現を学ぶことに限定されている。 異なるrsダウンストリームタスクに必要な表現は多種多様で複雑であるため、この学習戦略はrsの領域では最適ではないと主張する。 本研究では,RS画像表現学習に適した統合SSLフレームワークを提案する。 提案するSSLフレームワークであるContrastive Mask Image Distillation (CMID)は,コントラスト学習(CL)とマスク画像モデリング(MIM)を自己蒸留方式で組み合わせることで,大域的意味分離性と局所空間認識性の両方で表現を学習することができる。 さらに、我々のCMID学習フレームワークはアーキテクチャに依存しないため、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方と互換性があり、CMIDを様々なディープラーニング(DL)アプリケーションに容易に適用することができる。 4つの下流タスク(シーン分類、セマンティックセグメンテーション、オブジェクト検出、変更検出)に対して総合的な実験を行い、CMIDを用いて事前訓練したモデルが、複数の下流タスクにおける他の最先端SSLメソッドよりも優れた性能を達成することを示した。 コードと事前トレーニングされたモデルはhttps://github.com/nju-lhrs/official-cmidで利用可能で、ssl研究を促進し、rsイメージdlアプリケーションの開発をスピードアップする。

Self-supervised learning (SSL) has gained widespread attention in the remote sensing (RS) and earth observation (EO) communities owing to its ability to learn task-agnostic representations without human-annotated labels. Nevertheless, most existing RS SSL methods are limited to learning either global semantic separable or local spatial perceptible representations. We argue that this learning strategy is suboptimal in the realm of RS, since the required representations for different RS downstream tasks are often varied and complex. In this study, we proposed a unified SSL framework that is better suited for RS images representation learning. The proposed SSL framework, Contrastive Mask Image Distillation (CMID), is capable of learning representations with both global semantic separability and local spatial perceptibility by combining contrastive learning (CL) with masked image modeling (MIM) in a self-distillation way. Furthermore, our CMID learning framework is architecture-agnostic, which is compatible with both convolutional neural networks (CNN) and vision transformers (ViT), allowing CMID to be easily adapted to a variety of deep learning (DL) applications for RS understanding. Comprehensive experiments have been carried out on four downstream tasks (i.e. scene classification, semantic segmentation, object-detection, and change detection) and the results show that models pre-trained using CMID achieve better performance than other state-of-the-art SSL methods on multiple downstream tasks. The code and pre-trained models will be made available at https://github.com/NJU-LHRS/official-CMID to facilitate SSL research and speed up the development of RS images DL applications.
翻訳日:2023-04-20 14:14:24 公開日:2023-04-19
# beyond visual range air combatのための自律エージェント:深層強化学習アプローチ

Autonomous Agent for Beyond Visual Range Air Combat: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2304.09669v1 )

ライセンス: Link先を確認
Joao P. A. Dantas, Marcos R. O. A. Maximo, Takashi Yoneyama(参考訳) 本研究は,bvr(beyond visual range)航空戦闘シミュレーション環境において動作可能な深層強化学習に基づくエージェントの開発に寄与する。 本稿では,実測値から算出した報酬に基づいて,bvr戦闘におけるその役割を学習し,改善できる高性能戦闘機のエージェントの構築について概説する。 また、セルフプレイ実験を通じて、これまで見たことのない新しい空戦戦術を生み出すことも期待しています。 最後に、仮想シミュレーションを用いて、訓練されたエージェントと同一環境で対話し、それらのパフォーマンスを比較する実際のパイロットの能力について検討する。 本研究は、実際のパイロットと対話し、航空防衛任務におけるパフォーマンスを改善するエージェントを開発することで、航空戦闘訓練の文脈に寄与する。

This work contributes to developing an agent based on deep reinforcement learning capable of acting in a beyond visual range (BVR) air combat simulation environment. The paper presents an overview of building an agent representing a high-performance fighter aircraft that can learn and improve its role in BVR combat over time based on rewards calculated using operational metrics. Also, through self-play experiments, it expects to generate new air combat tactics never seen before. Finally, we hope to examine a real pilot's ability, using virtual simulation, to interact in the same environment with the trained agent and compare their performances. This research will contribute to the air combat training context by developing agents that can interact with real pilots to improve their performances in air defense missions.
翻訳日:2023-04-20 14:13:42 公開日:2023-04-19
# GeneGPT: NCBI Web APIを使うための大規模言語モデルを教える

GeneGPT: Teaching Large Language Models to Use NCBI Web APIs ( http://arxiv.org/abs/2304.09667v1 )

ライセンス: Link先を確認
Qiao Jin, Yifan Yang, Qingyu Chen, Zhiyong Lu(参考訳) 本稿では,National Center for Biotechnology Information (NCBI) の Web Application Programming Interfaces (API) を利用した大規模言語モデル (LLM) を教える新しい手法であるGeneGPTを提案する。 具体的には、Codex (code-davinci-002) に、NCBI API呼び出しのわずかなURLリクエストでGeneTuringテストを解決するよう促す。 推論中、呼び出し要求が検出されるとデコードを停止し、生成されたURLでAPIコールします。 次に、ncbi apiが返した生の実行結果を生成テキストに追加し、回答が見つかったり、別のapi呼び出しが検出されるまで生成を継続します。 予備実験の結果から,genegptは4つのゼロショットタスクのうち3つと5つのゼロショットタスクのうち4つで最先端の結果を得ることができた。 全体として、GeneGPTのマクロ平均スコアは0.76で、New Bing (0.44)、BioMedLM (0.08)、BioGPT (0.04)、GPT-3 (0.16)、ChatGPT (0.12)のような検索拡張LDMよりもはるかに高い。

In this paper, we present GeneGPT, a novel method for teaching large language models (LLMs) to use the Web Application Programming Interfaces (APIs) of the National Center for Biotechnology Information (NCBI) and answer genomics questions. Specifically, we prompt Codex (code-davinci-002) to solve the GeneTuring tests with few-shot URL requests of NCBI API calls as demonstrations for in-context learning. During inference, we stop the decoding once a call request is detected and make the API call with the generated URL. We then append the raw execution results returned by NCBI APIs to the generated texts and continue the generation until the answer is found or another API call is detected. Our preliminary results show that GeneGPT achieves state-of-the-art results on three out of four one-shot tasks and four out of five zero-shot tasks in the GeneTuring dataset. Overall, GeneGPT achieves a macro-average score of 0.76, which is much higher than retrieval-augmented LLMs such as the New Bing (0.44), biomedical LLMs such as BioMedLM (0.08) and BioGPT (0.04), as well as other LLMs such as GPT-3 (0.16) and ChatGPT (0.12).
翻訳日:2023-04-20 14:13:29 公開日:2023-04-19
# 最適輸送と投射探索による時間依存密度の生成モデル

Generative Modeling of Time-Dependent Densities via Optimal Transport and Projection Pursuit ( http://arxiv.org/abs/2304.09663v1 )

ライセンス: Link先を確認
Jonah Botvinick-Greenhouse, Yunan Yang, Romit Maulik(参考訳) 一般のディープラーニングアルゴリズムによる時間密度生成モデルによる計算の難しさに動機づけられ,高次元問題に対して最小のハイパーパラメータチューニングとスケールを必要とする安価な代替案を提案する。 特に,プロジェクションに基づく最適輸送解法 [meng et al., 2019] を用いて連続したサンプルを結合し,その後に輸送スプライン [chewi et al., 2020] を用いて発展する密度を補間する。 サンプリング周波数が十分に高い場合、最適な写像は同一性に近く、計算効率が良い。 さらに、最適写像は独立であり同時に学習できるため、トレーニングプロセスは高度に並列化可能である。 最後に、このアプローチは非凸対象関数を最小化するのではなく、数値線形代数のみに基づいており、容易にアルゴリズムを解析し制御することができる。 提案手法の有効性を実証するために,合成および実世界の両方のデータセットに関する数値実験を行った。 特に, 提案手法は, 様々な次元にまたがる時間条件を満たした数値正規化流に比べ, 高い競合性を示す。

Motivated by the computational difficulties incurred by popular deep learning algorithms for the generative modeling of temporal densities, we propose a cheap alternative which requires minimal hyperparameter tuning and scales favorably to high dimensional problems. In particular, we use a projection-based optimal transport solver [Meng et al., 2019] to join successive samples and subsequently use transport splines [Chewi et al., 2020] to interpolate the evolving density. When the sampling frequency is sufficiently high, the optimal maps are close to the identity and are thus computationally efficient to compute. Moreover, the training process is highly parallelizable as all optimal maps are independent and can thus be learned simultaneously. Finally, the approach is based solely on numerical linear algebra rather than minimizing a nonconvex objective function, allowing us to easily analyze and control the algorithm. We present several numerical experiments on both synthetic and real-world datasets to demonstrate the efficiency of our method. In particular, these experiments show that the proposed approach is highly competitive compared with state-of-the-art normalizing flows conditioned on time across a wide range of dimensionalities.
翻訳日:2023-04-20 14:13:01 公開日:2023-04-19
# MPMQA: プロダクトマニュアルに関するマルチモーダルな質問

MPMQA: Multimodal Question Answering on Product Manuals ( http://arxiv.org/abs/2304.09660v1 )

ライセンス: Link先を確認
Liang Zhang, Anwen Hu, Jing Zhang, Shuo Hu, Qin Jin(参考訳) イラストや画像などのビジュアルコンテンツは、製品のマニュアル理解において大きな役割を果たす。 既存の製品マニュアル質問応答(pmqa)データセットは、視覚コンテンツを無視してテキスト部分のみを保持する傾向がある。 本稿では,マルチモーダルコンテンツの重要性を強調するために,MPMQA(Multimodal Product Manual Question Answering)タスクを提案する。 各質問に対してmpmqaは、マルチモーダルなコンテンツを処理するだけでなく、マルチモーダルな回答を提供するモデルを要求する。 MPMQAをサポートするために、大規模なデータセットPM209は、よく知られた27の消費者電子ブランドの209の製品マニュアルを含む、人間のアノテーションで構築されている。 人間のアノテーションには、手動コンテンツ用の6種類の意味領域と22,021対の質問と回答が含まれる。 特に、各回答はマニュアルからテキスト文と関連する視覚領域から構成される。 製品マニュアルの長さと質問が常に少数のページと関連しているという事実を考慮して、MPMQAは自然に2つのサブタスクに分けることができる。 さらに,これら2つのサブタスクをまとめて実行し,複数のタスク固有モデルで同等の性能を実現する統一モデルを提案する。 PM209データセットはhttps://github.com/AIM3-RUC/MPMQAで公開されている。

Visual contents, such as illustrations and images, play a big role in product manual understanding. Existing Product Manual Question Answering (PMQA) datasets tend to ignore visual contents and only retain textual parts. In this work, to emphasize the importance of multimodal contents, we propose a Multimodal Product Manual Question Answering (MPMQA) task. For each question, MPMQA requires the model not only to process multimodal contents but also to provide multimodal answers. To support MPMQA, a large-scale dataset PM209 is constructed with human annotations, which contains 209 product manuals from 27 well-known consumer electronic brands. Human annotations include 6 types of semantic regions for manual contents and 22,021 pairs of question and answer. Especially, each answer consists of a textual sentence and related visual regions from manuals. Taking into account the length of product manuals and the fact that a question is always related to a small number of pages, MPMQA can be naturally split into two subtasks: retrieving most related pages and then generating multimodal answers. We further propose a unified model that can perform these two subtasks all together and achieve comparable performance with multiple task-specific models. The PM209 dataset is available at https://github.com/AIM3-RUC/MPMQA.
翻訳日:2023-04-20 14:12:41 公開日:2023-04-19
# ラベルなしビデオデータに基づくパターン付き孤立種の自動識別

Automatic Individual Identification of Patterned Solitary Species Based on Unlabeled Video Data ( http://arxiv.org/abs/2304.09657v1 )

ライセンス: Link先を確認
Vanessa Suessle, Mimi Arandjelovic, Ammie K. Kalan, Anthony Agbor, Christophe Boesch, Gregory Brazzola, Tobias Deschner, Paula Dieguez, Anne-C\'eline Granjon, Hjalmar Kuehl, Anja Landsmann, Juan Lapuente, Nuria Maldonado, Amelia Meier, Zuzana Rockaiova, Erin G. Wessling, Roman M. Wittig, Colleen T. Downs, Andreas Weinmann, Elke Hergenroether(参考訳) カメラトラップからの動画の手動処理と分析は時間がかかり、偽のトリガ映像のフィルタリングから個人を識別し再識別する段階まで、いくつかの段階を含む。 本研究では,手動操作を必要とせずに,カメラトラップからの映像を自動的に分析して個人を特定するパイプラインを開発した。 このパイプラインはヒョウ(panthera pardus)のような独特な毛皮のパターンと単独の行動を持つ動物種に適用される。 我々は、同じ人物が1つのトリガビデオシーケンスを通して見られたと仮定した。 この仮定では、事前にラベル付けすることなく、初期データベースのフィリングのために複数のイメージを個人に割り当てることができる。 このパイプラインは、コンピュータビジョンとディープラーニング、特に畳み込みニューラルネットワーク(CNN)とスケール不変機能変換(SIFT)の機能から確立されたコンポーネントに基づいている。 必要な人的相互作用を置き換えるために追加のコンポーネントを実装することで、この基盤を拡張しました。 ビデオ素材のフレーム間の類似性に基づき,未知の総人口のオープンセット問題を回避した個人を表すクラスタが形成された。 パイプラインはPan African Programme: The Cultured Chimpanzee (PanAf)によって収集されたヒョウのビデオのデータセットでテストされ、これまで知らなかった個人間の正確なマッチングで83%以上の成功率を達成した。 提案するパイプラインは,カメラトラップデータに基づく将来の保全プロジェクトにおいて有用なツールとなり,ラベル付きデータが利用できない場合の個人識別のための手作業の作業を削減することができる。

The manual processing and analysis of videos from camera traps is time-consuming and includes several steps, ranging from the filtering of falsely triggered footage to identifying and re-identifying individuals. In this study, we developed a pipeline to automatically analyze videos from camera traps to identify individuals without requiring manual interaction. This pipeline applies to animal species with uniquely identifiable fur patterns and solitary behavior, such as leopards (Panthera pardus). We assumed that the same individual was seen throughout one triggered video sequence. With this assumption, multiple images could be assigned to an individual for the initial database filling without pre-labeling. The pipeline was based on well-established components from computer vision and deep learning, particularly convolutional neural networks (CNNs) and scale-invariant feature transform (SIFT) features. We augmented this basis by implementing additional components to substitute otherwise required human interactions. Based on the similarity between frames from the video material, clusters were formed that represented individuals bypassing the open set problem of the unknown total population. The pipeline was tested on a dataset of leopard videos collected by the Pan African Programme: The Cultured Chimpanzee (PanAf) and achieved a success rate of over 83% for correct matches between previously unknown individuals. The proposed pipeline can become a valuable tool for future conservation projects based on camera trap data, reducing the work of manual analysis for individual identification, when labeled data is unavailable.
翻訳日:2023-04-20 14:12:19 公開日:2023-04-19
# サブスペース学習に基づく1クラス分類によるハイパースペクトル画像解析

Hyperspectral Image Analysis with Subspace Learning-based One-Class Classification ( http://arxiv.org/abs/2304.09730v1 )

ライセンス: Link先を確認
Sertac Kilickaya, Mete Ahishali, Fahad Sohrab, Turker Ince, Moncef Gabbouj(参考訳) ハイパースペクトル画像分類(hsi)は,環境モニタリング,医用画像,土地利用・土地被覆(lulc)分類など,多くの応用において重要な課題である。 近年のHSIセンサによるスペクトル情報の量が多いため,従来の機械学習(ML)手法では画像解析が困難である。 周波数帯域の数が増加するにつれて、要求されるトレーニングサンプルの数は指数関数的に増加し、合理的な分類精度を達成する。 したがって、hsiデータ上で任意の分類タスクを行う前に、分離した帯域選択や次元縮小手法が適用されることが多い。 本研究では最近,一クラス分類(OCC)のためのサブスペース学習手法を提案する。 これらの手法は,高次元データを一階分類に最適化した低次元特徴空間にマッピングする。 このようにして、提案する分類フレームワークでは、個別の次元削減や特徴選択が不要となる。 さらに、1つのクラス分類器は、1つのクラスのカテゴリのみからデータ記述を学ぶことができる。 LULC分類問題とリッチスペクトル情報(高次元)の不均衡ラベルを考えると,提案手法はHSIデータに適している。 全体として、HSIデータのサブスペース学習に基づく一クラス分類に焦点を当てた先駆的な研究である。 提案したパイプラインにおけるサブスペース学習1クラス分類器の性能を解析する。 提案手法は,HSIデータの不均衡性とともに,次元の呪いに対処する上で有効であることを示す。

Hyperspectral image (HSI) classification is an important task in many applications, such as environmental monitoring, medical imaging, and land use/land cover (LULC) classification. Due to the significant amount of spectral information from recent HSI sensors, analyzing the acquired images is challenging using traditional Machine Learning (ML) methods. As the number of frequency bands increases, the required number of training samples increases exponentially to achieve a reasonable classification accuracy, also known as the curse of dimensionality. Therefore, separate band selection or dimensionality reduction techniques are often applied before performing any classification task over HSI data. In this study, we investigate recently proposed subspace learning methods for one-class classification (OCC). These methods map high-dimensional data to a lower-dimensional feature space that is optimized for one-class classification. In this way, there is no separate dimensionality reduction or feature selection procedure needed in the proposed classification framework. Moreover, one-class classifiers have the ability to learn a data description from the category of a single class only. Considering the imbalanced labels of the LULC classification problem and rich spectral information (high number of dimensions), the proposed classification approach is well-suited for HSI data. Overall, this is a pioneer study focusing on subspace learning-based one-class classification for HSI data. We analyze the performance of the proposed subspace learning one-class classifiers in the proposed pipeline. Our experiments validate that the proposed approach helps tackle the curse of dimensionality along with the imbalanced nature of HSI data.
翻訳日:2023-04-20 14:06:13 公開日:2023-04-19
# Any-to-Anyスタイルの転送

Any-to-Any Style Transfer ( http://arxiv.org/abs/2304.09728v1 )

ライセンス: Link先を確認
Songhua Liu, Jingwen Ye, Xinchao Wang(参考訳) スタイル転送は、ある画像のスタイルを他の画像のスタイル参照にレンダリングすることを目的としており、芸術的生成や画像編集において広く採用されている。 既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルに適用するか、あるいはスタイルイメージのローカルカラーやテクスチャを、事前に定義された方法でコンテントに移行している。 いずれの場合も、特定のコンテンツとスタイルイメージに対して1つの結果しか生成できないため、柔軟性がなく、異なる好みのユーザを満足させるのが困難である。 そこで本稿では,この欠点に対処するために,任意のスタイル転送と呼ばれる新しい戦略を提案する。 このように、パーソナライズ可能なスタイル転送は人間とコンピュータのインタラクションによって実現される。 提案手法の核心となるのは,(1) 画像のクリックや描画のみによる領域選択を支援するセグメンテーションモジュール,(2) ユーザからの入力をスタイル転送モデルの信号に変換するアテンション融合モジュールである。 実験は、パーソナライズ可能なスタイル転送の有効性を示す。 特に,任意のスタイル転送方式に移植可能なプラグアンドプレイ方式で動作し,制御能力を向上させる。 私たちのコードは href{https://github.com/Huage001/Transfer-Any-Style}{here} で利用可能です。

Style transfer aims to render the style of a given image for style reference to another given image for content reference, and has been widely adopted in artistic generation and image editing. Existing approaches either apply the holistic style of the style image in a global manner, or migrate local colors and textures of the style image to the content counterparts in a pre-defined way. In either case, only one result can be generated for a specific pair of content and style images, which therefore lacks flexibility and is hard to satisfy different users with different preferences. We propose here a novel strategy termed Any-to-Any Style Transfer to address this drawback, which enables users to interactively select styles of regions in the style image and apply them to the prescribed content regions. In this way, personalizable style transfer is achieved through human-computer interaction. At the heart of our approach lies in (1) a region segmentation module based on Segment Anything, which supports region selection with only some clicks or drawing on images and thus takes user inputs conveniently and flexibly; (2) and an attention fusion module, which converts inputs from users to controlling signals for the style transfer model. Experiments demonstrate their effectiveness for personalizable style transfer. Notably, our approach performs in a plug-and-play manner portable to any style transfer method and enhance the controllablity. Our code is available \href{https://github.com/Huage001/Transfer-Any-Style}{here}.
翻訳日:2023-04-20 14:05:51 公開日:2023-04-19
# 運用用Uネットを用いたアクティブ火災検知の改善

Improved Active Fire Detection using Operational U-Nets ( http://arxiv.org/abs/2304.09721v1 )

ライセンス: Link先を確認
Ozer Can Devecioglu, Mete Ahishali, Fahad Sohrab, Turker Ince, Moncef Gabbouj(参考訳) 地球温暖化と気候変動の結果、世界中の多くの地域で山火事のリスクと程度が増加している。 暖房の温度と乾燥した条件は、火災が急速に広がり、制御が困難になるため、アクティブな火災の早期発見と正確な位置決めが環境監視に不可欠である。 森林や公共の土地の管理には、衛星画像による活動的な火災の監視と検出が不可欠である。 従来の統計に基づく手法や、より最近のディープラーニング技術が活発な火災検知のために提案されている。 本研究では,アクティブな火災を早期に検出するためのオペレーションU-Netsという新しい手法を提案する。 提案手法は,コンパクトなU-Netアーキテクチャで自己組織型オペレーショナルニューラルネットワーク(Self-ONN)層を利用する。 予備実験の結果, 運用用u-netは検出性能に優れるだけでなく, 計算量を大幅に削減できることがわかった。

As a consequence of global warming and climate change, the risk and extent of wildfires have been increasing in many areas worldwide. Warmer temperatures and drier conditions can cause quickly spreading fires and make them harder to control; therefore, early detection and accurate locating of active fires are crucial in environmental monitoring. Using satellite imagery to monitor and detect active fires has been critical for managing forests and public land. Many traditional statistical-based methods and more recent deep-learning techniques have been proposed for active fire detection. In this study, we propose a novel approach called Operational U-Nets for the improved early detection of active fires. The proposed approach utilizes Self-Organized Operational Neural Network (Self-ONN) layers in a compact U-Net architecture. The preliminary experimental results demonstrate that Operational U-Nets not only achieve superior detection performance but can also significantly reduce computational complexity.
翻訳日:2023-04-20 14:05:26 公開日:2023-04-19
# スリランカ・グルデニヤサービスゾーンにおける配水網の最適設計のための遺伝的アルゴリズムに基づく組合せ最適化

Genetic Algorithm Based Combinatorial Optimization for the Optimal Design of Water Distribution Network of Gurudeniya Service Zone, Sri Lanka ( http://arxiv.org/abs/2304.09720v1 )

ライセンス: Link先を確認
K. H. M. R. N. Senavirathna and C. K. Walgampaya(参考訳) 本稿では,スリランカのグルデニヤサービスゾーンの配水網(wdn)の最適設計に使用する,詳細な遺伝的アルゴリズム(ga)に基づく組合せ最適化手法を提案する。 遺伝的アルゴリズム(GA)は、探索プロセスを開発するのに最も適した自然原理の生存を模倣する。 方法論は管径のファジィな組み合わせを用いて、コスト効率の良い最適設計ソリューションと見なすための適合性をチェックする。 さらに,グローバル最適解に到達するために,GA内部で油圧制約を暗黙的に評価した。 分析すると、このアプローチの結果は満足できる設計結果をもたらしました。 さらに,Honey Bee Mating Optimization (HBMO)アルゴリズムにインスパイアされた以前の研究結果とGAに基づくアプローチの結果との比較により,スリランカのグルデニヤサービスゾーンにおける配水網の最適設計におけるGAの有効性が証明された。

This paper brings an in detail Genetic Algorithm (GA) based combinatorial optimization method used for the optimal design of the water distribution network (WDN) of Gurudeniya Service Zone, Sri Lanka. Genetic Algorithm (GA) mimics the survival of the fittest principle of nature to develop a search process. Methodology employs fuzzy combinations of pipe diameters to check their suitability to be considered as the cost effective optimal design solutions. Furthermore, the hydraulic constraints were implicitly evaluated within the GA itself in its aim to reaching the global optimum solution. Upon analysis, the results of this approach delivered agreeable design outputs. In addition, the comparison made between the results obtained by a previous study inspired by the Honey Bee Mating Optimization (HBMO) Algorithm and results obtained by the GA based approach, proves competency of GA for the optimal design of water distribution network in Gurudeniya Service Zone, Sri Lanka.
翻訳日:2023-04-20 14:05:12 公開日:2023-04-19
# 量子制御のためのサンプル効率モデルベース強化学習

Sample-efficient Model-based Reinforcement Learning for Quantum Control ( http://arxiv.org/abs/2304.09718v1 )

ライセンス: Link先を確認
Irtaza Khalid, Carrie A. Weidner, Edmond A. Jonckheere, Sophie G. Shermer, Frank C. Langbein(参考訳) モデルフリーなRLに対するサンプル複雑性を改善した,ノイズの多い時間依存ゲート最適化のためのモデルベース強化学習(RL)手法を提案する。 サンプル複雑性は、物理システムとのコントローラインタラクションの数である。 ニューラル常微分方程式(ODE)の最近の進歩に触発された帰納バイアスを利用して、学習可能なハミルトンアンサッツによってパラメトリされた自己微分可能なODEを用いて、制御を含む時間依存部分が完全に知られている環境を近似するモデルを表現する。 連続時間非依存パラメータのハミルトン学習を伴う制御は、システムとの相互作用によって解決される。 実数値実験において, 単一ショット計測, 任意のヒルベルト空間切断, ハミルトンパラメータの不確かさを組み込んだ実数値実験において, 標準モデルフリー rl に対する本手法のサンプル複雑性における1桁の利点を実証した。 また、学習したハミルトニアンは、GRAPEのような既存の制御手法によって、RLが初期化として見いだした制御器によるさらなる勾配に基づく最適化に活用することができる。 本稿では,窒素空孔(NV)中心とトランスモンに応用したアルゴリズムについて述べる。

We propose a model-based reinforcement learning (RL) approach for noisy time-dependent gate optimization with improved sample complexity over model-free RL. Sample complexity is the number of controller interactions with the physical system. Leveraging an inductive bias, inspired by recent advances in neural ordinary differential equations (ODEs), we use an auto-differentiable ODE parametrised by a learnable Hamiltonian ansatz to represent the model approximating the environment whose time-dependent part, including the control, is fully known. Control alongside Hamiltonian learning of continuous time-independent parameters is addressed through interactions with the system. We demonstrate an order of magnitude advantage in the sample complexity of our method over standard model-free RL in preparing some standard unitary gates with closed and open system dynamics, in realistic numerical experiments incorporating single shot measurements, arbitrary Hilbert space truncations and uncertainty in Hamiltonian parameters. Also, the learned Hamiltonian can be leveraged by existing control methods like GRAPE for further gradient-based optimization with the controllers found by RL as initializations. Our algorithm that we apply on nitrogen vacancy (NV) centers and transmons in this paper is well suited for controlling partially characterised one and two qubit systems.
翻訳日:2023-04-20 14:04:55 公開日:2023-04-19
# UniCal:カメラ対LiDAR校正と検証のための単分岐変換器モデル

UniCal: a Single-Branch Transformer-Based Model for Camera-to-LiDAR Calibration and Validation ( http://arxiv.org/abs/2304.09715v1 )

ライセンス: Link先を確認
Mathieu Cocheteux, Aaron Low, Marius Bruehlmeier(参考訳) センサ間の6自由度(DoF)相対変換を推定するために,トランスフォーマーベースのバックボーンネットワークを介して自己保持機構を活用する,カメラ対LiDAR(C2L)外部キャリブレーションのための新しいアーキテクチャであるUniCalを導入する。 従来の方法とは異なり、UniCalはカメラ画像チャネルとLiDARマッピングを多チャンネル統一表現に集約し、入力カメラとLiDARデータの早期融合を行い、それらを単一ブランチアーキテクチャと組み合わせて抽出する。 このシングルブランチアーキテクチャは、自律運転のような制限されたリソースを持つアプリケーションで望ましい、unical lightweightとなる。 実験により、UniCalは既存の手法と比較して最先端の結果が得られることを示す。 また, 伝達学習により, キャリブレーションタスクで学習した重みを, バックボーンを再トレーニングすることなくキャリブレーション検証タスクに適用できることを示した。

We introduce a novel architecture, UniCal, for Camera-to-LiDAR (C2L) extrinsic calibration which leverages self-attention mechanisms through a Transformer-based backbone network to infer the 6-degree of freedom (DoF) relative transformation between the sensors. Unlike previous methods, UniCal performs an early fusion of the input camera and LiDAR data by aggregating camera image channels and LiDAR mappings into a multi-channel unified representation before extracting their features jointly with a single-branch architecture. This single-branch architecture makes UniCal lightweight, which is desirable in applications with restrained resources such as autonomous driving. Through experiments, we show that UniCal achieves state-of-the-art results compared to existing methods. We also show that through transfer learning, weights learned on the calibration task can be applied to a calibration validation task without re-training the backbone.
翻訳日:2023-04-20 14:04:34 公開日:2023-04-19
# ランダム植込みオプティマを用いたOneMaxにおけるコマ選択性能の向上

Comma Selection Outperforms Plus Selection on OneMax with Randomly Planted Optima ( http://arxiv.org/abs/2304.09712v1 )

ライセンス: Link先を確認
Joost Jorritsma, Johannes Lengler, Dirk Sudholt(参考訳) 進化的アルゴリズムにおけるコマの選択が局所最適化から逃れるのにどう役立つのか、議論が続いている。 そこで我々は,コマ選択の利点を検討するための新しいベンチマーク関数を提案する。 このベンチマークでは、コマ選択($(1,\lambda)$ EA)は、固定ターゲットシナリオにおいて、このベンチマークでの選択($(1+\lambda)$ EA)よりも高速であり、両方のアルゴリズムが異なる振る舞いをする子孫サイズ$\lambda$であることを示す。 あるパラメータに対して、$(1,\lambda)$ EAは、高い確率(w.h.p.)を持つ$\Theta(n \ln n)$評価においてターゲットを見つけ、$(1+\lambda)$ EA.p.は、ほぼ$\Theta((n\ln n)^2)$評価を必要とする。 w.h.p. comma selection は、最も合理的なパラメータ選択に対して$O(n \ln n)$ の係数で、選択よりも優れる。 凍結音を解析するための新しい手法を開発し、独立性のある尾境界を持つ強力で一般的な固定目標値を与える。

It is an ongoing debate whether and how comma selection in evolutionary algorithms helps to escape local optima. We propose a new benchmark function to investigate the benefits of comma selection: OneMax with randomly planted local optima, generated by frozen noise. We show that comma selection (the $(1,\lambda)$ EA) is faster than plus selection (the $(1+\lambda)$ EA) on this benchmark, in a fixed-target scenario, and for offspring population sizes $\lambda$ for which both algorithms behave differently. For certain parameters, the $(1,\lambda)$ EA finds the target in $\Theta(n \ln n)$ evaluations, with high probability (w.h.p.), while the $(1+\lambda)$ EA) w.h.p. requires almost $\Theta((n\ln n)^2)$ evaluations. We further show that the advantage of comma selection is not arbitrarily large: w.h.p. comma selection outperforms plus selection at most by a factor of $O(n \ln n)$ for most reasonable parameter choices. We develop novel methods for analysing frozen noise and give powerful and general fixed-target results with tail bounds that are of independent interest.
翻訳日:2023-04-20 14:04:17 公開日:2023-04-19
# 概念ベクトルによるニューロン表現の分離

Disentangling Neuron Representations with Concept Vectors ( http://arxiv.org/abs/2304.09707v1 )

ライセンス: Link先を確認
Laura O'Mahony, Vincent Andrearczyk, Henning Muller, Mara Graziani(参考訳) 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークを解釈可能な単位に分解することで、モデルが表現を格納する方法を理解することを目的としている。 しかし、複数の無関係な特徴に反応する多核ニューロン、またはニューロンの発生は、個々のニューロンの解釈を困難にする。 これにより、個々のニューロンではなく、活性化空間における概念ベクトル(concept vector)と呼ばれる意味のあるベクトルの探索に繋がる。 本研究の主な貢献は、異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングルする方法である。 提案手法は,ユーザの希望する概念分離レベルに応じて,きめ細かい概念を探索することができる。 解析により、多節性ニューロンは、線形結合からなる方向へと切り離すことができることが示された。 評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。

Mechanistic interpretability aims to understand how models store representations by breaking down neural networks into interpretable units. However, the occurrence of polysemantic neurons, or neurons that respond to multiple unrelated features, makes interpreting individual neurons challenging. This has led to the search for meaningful vectors, known as concept vectors, in activation space instead of individual neurons. The main contribution of this paper is a method to disentangle polysemantic neurons into concept vectors encapsulating distinct features. Our method can search for fine-grained concepts according to the user's desired level of concept separation. The analysis shows that polysemantic neurons can be disentangled into directions consisting of linear combinations of neurons. Our evaluations show that the concept vectors found encode coherent, human-understandable features.
翻訳日:2023-04-20 14:03:46 公開日:2023-04-19
# learnable earth parser: 空中スキャンで3dプロトタイプを見つける

Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans ( http://arxiv.org/abs/2304.09704v1 )

ライセンス: Link先を確認
Romain Loiseau and Elliot Vincent and Mathieu Aubry and Loic Landrieu(参考訳) 本研究では,実世界のシーンの大規模な3dスキャンを解釈可能な部分に分割するための教師なし手法を提案する。 我々のゴールは、アプリケーション固有のユーザアノテーションに頼ることなく、空中測量やマッピングの文脈でユニークな特徴を持つ3Dシーンを解析するための実用的なツールを提供することである。 提案手法は,入力3次元点雲を学習したプロトタイプ形状の小さな集合に分解する確率的再構成モデルに基づく。 本モデルは複雑なシーンの解釈可能な再構成を提供し,関連するインスタンスと意味セグメンテーションに導く。 本研究の有用性を示すために,7種類の航空LiDARスキャンの新たなデータセットを提案する。 本手法は,視覚的に解釈可能なままの分解精度において,最先端の教師なし手法よりも優れていることを示す。 本手法は,手動のアノテーションを一切必要とせず,現実的かつ効率的な3次元シーン解析ツールであるため,既存の手法に比べて大きな利点がある。 私たちのコードとデータセットはhttps://imagine.enpc.fr/~loiseaur/learnable-earth-parserで利用可能です。

We propose an unsupervised method for parsing large 3D scans of real-world scenes into interpretable parts. Our goal is to provide a practical tool for analyzing 3D scenes with unique characteristics in the context of aerial surveying and mapping, without relying on application-specific user annotations. Our approach is based on a probabilistic reconstruction model that decomposes an input 3D point cloud into a small set of learned prototypical shapes. Our model provides an interpretable reconstruction of complex scenes and leads to relevant instance and semantic segmentations. To demonstrate the usefulness of our results, we introduce a novel dataset of seven diverse aerial LiDAR scans. We show that our method outperforms state-of-the-art unsupervised methods in terms of decomposition accuracy while remaining visually interpretable. Our method offers significant advantage over existing approaches, as it does not require any manual annotations, making it a practical and efficient tool for 3D scene analysis. Our code and dataset are available at https://imagine.enpc.fr/~loiseaur/learnable-earth-parser
翻訳日:2023-04-20 14:03:34 公開日:2023-04-19
# 低消費電力ニアサブスレッショルドプロセッサ上の大小適応ニューラルネットワーク

Big-Little Adaptive Neural Networks on Low-Power Near-Subthreshold Processors ( http://arxiv.org/abs/2304.09695v1 )

ライセンス: Link先を確認
Zichao Shen, Neil Howard and Jose Nunez-Yanez(参考訳) 本稿では,ニアサブスレッショルドプロセッサがエッジaiアプリケーションで得る省エネについて検討し,アプリケーションの精度を維持しつつその改善策を提案する。 選択されたプロセッサは、実行時にプロセッサコアの周波数および電圧レベルが決定される適応電圧スケーリング手法を展開する。 これらのシステムでは、内蔵RAMとフラッシュメモリサイズは通常、電力節約のために1MB未満に制限される。 この制限されたメモリは、これらのデバイスにマップできるニューラルネットワークモデルの複雑さと、精度とバッテリー寿命の間のトレードオフを制限します。 これらの問題に対処するために,予測精度を維持しつつ,バッテリ寿命を改善するために,代替の「大小」ニューラルネットワーク戦略を提案し,評価する。 本手法は, 元々のネットワークと比較して, 80%のエネルギー削減と推定精度を維持しつつ, 最良構成のエネルギー削減が得られることを示す, 実証者として選択されたヒューマンアクティビティ認識アプリケーションに適用する。

This paper investigates the energy savings that near-subthreshold processors can obtain in edge AI applications and proposes strategies to improve them while maintaining the accuracy of the application. The selected processors deploy adaptive voltage scaling techniques in which the frequency and voltage levels of the processor core are determined at the run-time. In these systems, embedded RAM and flash memory size is typically limited to less than 1 megabyte to save power. This limited memory imposes restrictions on the complexity of the neural networks model that can be mapped to these devices and the required trade-offs between accuracy and battery life. To address these issues, we propose and evaluate alternative 'big-little' neural network strategies to improve battery life while maintaining prediction accuracy. The strategies are applied to a human activity recognition application selected as a demonstrator that shows that compared to the original network, the best configurations obtain an energy reduction measured at 80% while maintaining the original level of inference accuracy.
翻訳日:2023-04-20 14:03:17 公開日:2023-04-19
# 無限遠の1原子または2原子配列に対する光カップリングの強度効果

Intensity effects of light coupling to one- or two-atom arrays of infinite extent ( http://arxiv.org/abs/2304.09740v1 )

ライセンス: Link先を確認
F. Robicheaux and Deepak A. Suresh(参考訳) ほぼ共鳴光で照らされた無限原子配列の挙動を理論的・計算的に研究する。 我々は高次平均場方程式を用いて、単一アレイおよび一対のアレイからの光子のコヒーレント反射と透過と非コヒーレント散乱をラビ周波数の異なる値の復調関数として研究する。 単一アレイの場合、光強度の増加がこれらの異なるプロセスの確率をいかに変化させるかを示す。 例えば、非コヒーレント散乱確率は、最初は高い値で減少する前に光強度によって増加する。 ほぼ共鳴分離時の1対の並列アレイの場合、光強度の増加による影響は驚くほど低い強度の光で明らかになる。 さらに、これらの無限配列に対して、有限個の方程式で評価できる表現を与える高次平均場方程式を導出する。

We theoretically and computationally investigate the behavior of infinite atom arrays when illuminated by nearly resonant light. We use higher order mean field equations to investigate the coherent reflection and transmission and incoherent scattering of photons from a single array and from a pair of arrays as a function of detuning for different values of the Rabi frequency. For the single array case, we show how increasing the light intensity changes the probabilities for these different processes. For example, the incoherent scattering probability initially increases with light intensity before decreasing at higher values. For a pair of parallel arrays at near resonant separation, the effects from increasing light intensity can become apparent with incredibly low intensity light. In addition, we derive the higher order mean field equations for these infinite arrays giving a representation that can be evaluated with a finite number of equations.
翻訳日:2023-04-20 13:54:07 公開日:2023-04-19
# 骨格体関節を用いたリハビリテーション運動の反復分節と計数

Rehabilitation Exercise Repetition Segmentation and Counting using Skeletal Body Joints ( http://arxiv.org/abs/2304.09735v1 )

ライセンス: Link先を確認
Ali Abedi, Paritosh Bisht, Riddhi Chatterjee, Rachit Agrawal, Vyom Sharma, Dinesh Babu Jayagopi, Shehroz S. Khan(参考訳) 身体運動は、生活の質を改善し、死亡率と再病院化率を低下させるリハビリテーションプログラムの重要な要素である。 AIによる仮想リハビリテーションプログラムでは、患者は自宅で個別に運動を終え、AIアルゴリズムは運動データを分析して患者にフィードバックを与え、臨床医に進捗を報告する。 運動データを分析する最初のステップは、連続した繰り返しに分割することだ。 生のビデオデータを用いて、健康な個人の繰り返し活動のセグメンテーションとカウントについて、かなりの量の研究が行われており、プライバシーへの懸念が高まり、計算的に集中している。 複数のウェアラブルセンサーが収集したデータによるリハビリテーション運動のセグメンテーションに関するこれまでの研究は、リハビリテーション患者が自宅で使うのが困難であった。 健康な人に比べ、不規則な反復期間と反復の変動のため、患者の運動繰り返しのセグメンテーションと計数はより困難である。 本稿では,患者の骨格関節に基づいてリハビリテーション運動の繰り返しをセグメンテーションし,計数する新しいアプローチを提案する。 骨格の関節は、深度カメラまたは患者のrgbビデオに適用されるコンピュータビジョン技術によって取得することができる。 様々なシーケンシャルニューラルネットワークは、骨格体関節の配列を分析し、繰り返しセグメンテーションとカウントを行うように設計されている。 KIMORE, UI-PRMD, IntelliRehabDS の3つの公用リハビリテーション訓練データセットに対する大規模な実験により,提案手法が従来の方法と比較して優れていることを示す。 提案手法は,プライバシを保ちながら正確な運動分析を可能にし,仮想リハビリテーションプログラムの効果的な配信を容易にする。

Physical exercise is an essential component of rehabilitation programs that improve quality of life and reduce mortality and re-hospitalization rates. In AI-driven virtual rehabilitation programs, patients complete their exercises independently at home, while AI algorithms analyze the exercise data to provide feedback to patients and report their progress to clinicians. To analyze exercise data, the first step is to segment it into consecutive repetitions. There has been a significant amount of research performed on segmenting and counting the repetitive activities of healthy individuals using raw video data, which raises concerns regarding privacy and is computationally intensive. Previous research on patients' rehabilitation exercise segmentation relied on data collected by multiple wearable sensors, which are difficult to use at home by rehabilitation patients. Compared to healthy individuals, segmenting and counting exercise repetitions in patients is more challenging because of the irregular repetition duration and the variation between repetitions. This paper presents a novel approach for segmenting and counting the repetitions of rehabilitation exercises performed by patients, based on their skeletal body joints. Skeletal body joints can be acquired through depth cameras or computer vision techniques applied to RGB videos of patients. Various sequential neural networks are designed to analyze the sequences of skeletal body joints and perform repetition segmentation and counting. Extensive experiments on three publicly available rehabilitation exercise datasets, KIMORE, UI-PRMD, and IntelliRehabDS, demonstrate the superiority of the proposed method compared to previous methods. The proposed method enables accurate exercise analysis while preserving privacy, facilitating the effective delivery of virtual rehabilitation programs.
翻訳日:2023-04-20 13:53:53 公開日:2023-04-19
# moir\'e $\rm{WS}_2$/$\rm{WSe}_2$ヘテロビレイヤーのボース-フェルミ-ハッバード系における励起モット絶縁体

Excitonic Mott insulator in a Bose-Fermi-Hubbard system of moir\'e $\rm{WS}_2$/$\rm{WSe}_2$ heterobilayer ( http://arxiv.org/abs/2304.09731v1 )

ライセンス: Link先を確認
Beini Gao, Daniel G. Su\'arez-Forero, Supratik Sarkar, Tsung-Sheng Huang, Deric Session, Mahmoud Jalali Mehrabad, Ruihao Ni, Ming Xie, Jonathan Vannucci, Sunil Mittal, Kenji Watanabe, Takashi Taniguchi, Atac Imamoglu, You Zhou and Mohammad Hafezi(参考訳) ハバードモデルを理解することは様々な量子多体状態の研究に不可欠であり、そのフェルミオンバージョンとボソニックバージョンは独立して実現されてきた。 近年,遷移金属ジアルコゲナイドヘテロ二層膜がハバードモデルのリッチ物理をシミュレートするための有望なプラットフォームとして出現している。 本研究では,このハイブリッド粒子密度をホストする$\rm{ws}_2$/$\rm{wse}_2$ヘテロ二層デバイスを用いて,フェルミオン集団とボソニック集団の相互作用を考察する。 我々は電子ドーピングと電子-ホール対の光注入によってそれぞれフェルミオンとボゾンの集団を独立に調整する。 これにより、発光スペクトルの大きなエネルギーギャップに現れる強く相互作用する励起子を形成することができる。 励起子の非圧縮性は、ボソンの弱い相互作用を持つ気体の期待する挙動とは対照的に、ポンプ強度の増加に一定である励起子拡散を測定することでさらに相関し、ボゾンモット絶縁体の形成が示唆される。 位相空間充填を含む2バンドモデルを用いて観測を行った。 本システムは、一般化されたボース・フェルミ・ハバード模型における量子多体効果の探索に制御可能なアプローチを提供する。

Understanding the Hubbard model is crucial for investigating various quantum many-body states and its fermionic and bosonic versions have been largely realized separately. Recently, transition metal dichalcogenides heterobilayers have emerged as a promising platform for simulating the rich physics of the Hubbard model. In this work, we explore the interplay between fermionic and bosonic populations, using a $\rm{WS}_2$/$\rm{WSe}_2$ heterobilayer device that hosts this hybrid particle density. We independently tune the fermionic and bosonic populations by electronic doping and optical injection of electron-hole pairs, respectively. This enables us to form strongly interacting excitons that are manifested in a large energy gap in the photoluminescence spectrum. The incompressibility of excitons is further corroborated by measuring exciton diffusion, which remains constant upon increasing pumping intensity, as opposed to the expected behavior of a weakly interacting gas of bosons, suggesting the formation of a bosonic Mott insulator. We explain our observations using a two-band model including phase space filling. Our system provides a controllable approach to the exploration of quantum many-body effects in the generalized Bose-Fermi-Hubbard model.
翻訳日:2023-04-20 13:53:25 公開日:2023-04-19
# NeuralField-LDM:階層的潜在拡散モデルを用いたシーン生成

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models ( http://arxiv.org/abs/2304.09787v1 )

ライセンス: Link先を確認
Seung Wook Kim, Bradley Brown, Kangxue Yin, Karsten Kreis, Katja Schwarz, Daiqing Li, Robin Rombach, Antonio Torralba, Sanja Fidler(参考訳) 高品質な現実世界の3Dシーンを自動生成することは、仮想現実やロボットシミュレーションのようなアプリケーションにとって大きな関心事である。 本研究では,複雑な3次元環境を合成可能な生成モデルneuralfield-ldmを提案する。 我々は,高品質な2dコンテンツ作成に有効な潜在拡散モデルを用いている。 まず,シーンの自動エンコーダを訓練し,画像の組とポーズペアをニューラルネットワークとして表現し,密度として表現し,シーンの新たな視点を投影可能なボクセルグリッドを特徴とする。 この表現をさらに圧縮するために、ボクセルグリッドを潜在表現の集合にマッピングする潜在オートエンコーダを訓練する。 階層的拡散モデルは、シーン生成パイプラインを完了するために潜在子に適合する。 我々は,既存の最先端シーン生成モデルに対する大幅な改善を実現する。 さらに,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションにNeuralField-LDMをどのように利用できるかを示す。

Automatically generating high-quality real world 3D scenes is of enormous interest for applications such as virtual reality and robotics simulation. Towards this goal, we introduce NeuralField-LDM, a generative model capable of synthesizing complex 3D environments. We leverage Latent Diffusion Models that have been successfully utilized for efficient high-quality 2D content creation. We first train a scene auto-encoder to express a set of image and pose pairs as a neural field, represented as density and feature voxel grids that can be projected to produce novel views of the scene. To further compress this representation, we train a latent-autoencoder that maps the voxel grids to a set of latent representations. A hierarchical diffusion model is then fit to the latents to complete the scene generation pipeline. We achieve a substantial improvement over existing state-of-the-art scene generation models. Additionally, we show how NeuralField-LDM can be used for a variety of 3D content creation applications, including conditional scene generation, scene inpainting and scene style manipulation.
翻訳日:2023-04-20 13:47:23 公開日:2023-04-19
# 物体検出のための後処理量子化

Post-Training Quantization for Object Detection ( http://arxiv.org/abs/2304.09785v1 )

ライセンス: Link先を確認
Lin Niu, Jiawei Liu, Zhihang Yuan, Dawei Yang, Xinggang Wang, Wenyu Liu(参考訳) オブジェクト検出ネットワークの効率的な推論は、エッジデバイスにおいて大きな課題である。 完全精度モデルを直接低ビット幅に変換するPTQ(Post-Training Quantization)は、モデル推論の複雑さを減らすための効果的で便利なアプローチである。 しかし、オブジェクト検出などの複雑なタスクに適用すると、かなり精度が低下する。 PTQは量子化パラメータを異なるメトリクスで最適化し、量子化の摂動を最小化する。 量子化前後の特徴写像のp-ノルム距離 Lp は摂動を評価する計量として広く用いられている。 対象検出ネットワークの特殊性について,lpメトリックのパラメータpが量子化性能に大きく影響することを示す。 固定ハイパーパラメータpは最適量子化性能を達成できないことを示す。 この問題を軽減するため,我々は,オブジェクト検出のタスク損失を表す object detection output loss (odol) を用いて,異なるレイヤを定量化するための異なる p 値を割り当てるフレームワーク detptq を提案する。 DetPTQは最適な量子化パラメータを選択するためにODOLベースの適応Lpメトリックを使用する。 実験の結果,DetPTQは2次元と3次元の両方の物体検出器において,最先端のPTQ法よりも優れていた。 例えば、RetinaNet-ResNet18上では、31.1/31.7(量子化/フル精度)のmAPを4ビットの重みと4ビットの活性化で達成する。

Efficient inference for object detection networks is a major challenge on edge devices. Post-Training Quantization (PTQ), which transforms a full-precision model into low bit-width directly, is an effective and convenient approach to reduce model inference complexity. But it suffers severe accuracy drop when applied to complex tasks such as object detection. PTQ optimizes the quantization parameters by different metrics to minimize the perturbation of quantization. The p-norm distance of feature maps before and after quantization, Lp, is widely used as the metric to evaluate perturbation. For the specialty of object detection network, we observe that the parameter p in Lp metric will significantly influence its quantization performance. We indicate that using a fixed hyper-parameter p does not achieve optimal quantization performance. To mitigate this problem, we propose a framework, DetPTQ, to assign different p values for quantizing different layers using an Object Detection Output Loss (ODOL), which represents the task loss of object detection. DetPTQ employs the ODOL-based adaptive Lp metric to select the optimal quantization parameters. Experiments show that our DetPTQ outperforms the state-of-the-art PTQ methods by a significant margin on both 2D and 3D object detectors. For example, we achieve 31.1/31.7(quantization/full-precision) mAP on RetinaNet-ResNet18 with 4-bit weight and 4-bit activation.
翻訳日:2023-04-20 13:47:04 公開日:2023-04-19
# ホモモルフィック・コミット・スキームを用いたゼロ知識MIP

Zero-Knowledge MIPs using Homomorphic Commitment Schemes ( http://arxiv.org/abs/2304.09784v1 )

ライセンス: Link先を確認
Claude Cr\'epeau and John Stuart(参考訳) Zero-Knowledge Protocol (ZKP) は、ある当事者が別の当事者に事実を納得させることを可能にし、事実の有効性以外の追加の知識を開示しない。 例えば、顧客は個人識別番号などの個人情報を渡すことなく、潜在的に悪意のある銀行機に自分の身元を証明できる。 このようにして、悪意のある銀行マシンがインタラクション中に得た知識は、後でクライアントの銀行口座を侵害するために使用できない。 多くのZKPにおいて重要なツールはビットコミットメントであり、基本的には送信者がメッセージをロックボックスに配置し、ロックし、受信機に送信するデジタル方法である。 その後、鍵が受信者に送られてロックボックスを開き、メッセージを読む。 このようにして、メッセージはキーを受け取るまで受信側から隠され、送信側はロックボックスを送信した後に心を変えることができない。 本稿では, NP-Compe 問題に対する多項式時間 ZKP を, サブセット Sum 問題と 3SAT という2つの問題に対して解くために, 特定のマルチパーティのコミットメントスキームの同型性を利用する。 これらのZKPは、共有量子絡み合いであっても、プローバーに計算上の制限を伴わずに安全である。 効率の面では、Subset Sum ZKPは文学における他の実用的な量子セキュアなZKPと競合し、ラウンドは少なく、計算量も少ない。

A Zero-Knowledge Protocol (ZKP) allows one party to convince another party of a fact without disclosing any extra knowledge except the validity of the fact. For example, it could be used to allow a customer to prove their identity to a potentially malicious bank machine without giving away private information such as a personal identification number. This way, any knowledge gained by a malicious bank machine during an interaction cannot be used later to compromise the client's banking account. An important tool in many ZKPs is bit commitment, which is essentially a digital way for a sender to put a message in a lock-box, lock it, and send it to the receiver. Later, the key is sent for the receiver to open the lock box and read the message. This way, the message is hidden from the receiver until they receive the key, and the sender is unable to change their mind after sending the lock box. In this paper, the homomorphic properties of a particular multi-party commitment scheme are exploited to allow the receiver to perform operations on commitments, resulting in polynomial time ZKPs for two NP-Complete problems: the Subset Sum Problem and 3SAT. These ZKPs are secure with no computational restrictions on the provers, even with shared quantum entanglement. In terms of efficiency, the Subset Sum ZKP is competitive with other practical quantum-secure ZKPs in the literature, with less rounds required, and fewer computations.
翻訳日:2023-04-20 13:46:45 公開日:2023-04-19
# 注意に基づくシームズ複合ニューラルネットワークの医用画像認識への応用

Application of attention-based Siamese composite neural network in medical image recognition ( http://arxiv.org/abs/2304.09783v1 )

ライセンス: Link先を確認
Zihao Huang, Xia Chen, Yue Wang, Weixing Xin, Xingtong Lin, Huizhen Li(参考訳) 医療画像認識は、しばしば実用上のデータ不足の問題に直面している。 少ない撮影条件下での画像認識と処理は、過剰フィッティング、低い認識精度、低い信頼性、不十分なロバスト性をもたらす。 特徴の違いが微妙であり、認識は視点、背景、咬合、その他の要因に影響され、認識の難しさが増すことが多い。 さらに,細粒度画像では,写真中の有用な特徴情報に不足が生じている。 本研究は,数発画像および細粒画像の認識特性を考慮し,注意とシャムニューラルネットに基づく認識モデルを構築した。 数発のサンプルの問題を考慮し,分類モデルに適したシームズニューラルネットワークを提案する。 注意に基づくニューラルネットワークは、分類効果を改善するためにメインネットワークとして使用される。 このモデルをテストするために、covid-19の肺サンプルが選ばれた。 その結果、画像サンプルの数が少ないほど、通常のニューラルネットワークよりも利点が明らかになることがわかった。

Medical image recognition often faces the problem of insufficient data in practical applications. Image recognition and processing under few-shot conditions will produce overfitting, low recognition accuracy, low reliability and insufficient robustness. It is often the case that the difference of characteristics is subtle, and the recognition is affected by perspectives, background, occlusion and other factors, which increases the difficulty of recognition. Furthermore, in fine-grained images, the few-shot problem leads to insufficient useful feature information in the images. Considering the characteristics of few-shot and fine-grained image recognition, this study has established a recognition model based on attention and Siamese neural network. Aiming at the problem of few-shot samples, a Siamese neural network suitable for classification model is proposed. The Attention-Based neural network is used as the main network to improve the classification effect. Covid- 19 lung samples have been selected for testing the model. The results show that the less the number of image samples are, the more obvious the advantage shows than the ordinary neural network.
翻訳日:2023-04-20 13:46:18 公開日:2023-04-19
# 量子重畳状態:スピングラスと絡み合い

Quantum Superposition States: Spin Glasses and Entanglement ( http://arxiv.org/abs/2304.09782v1 )

ライセンス: Link先を確認
Asl{\i} Tuncer (1) and Serhat C. Kad{\i}o\u{g}lu (1) ((1) Ko\c{c} University)(参考訳) スピングラス (sg) は興味深いシステムであり、その興味深い性質と様々な研究分野における意味から注目を浴びている。 スピングラスの重要な特徴の1つは、無作為な障害を含み、非常に近い確率で発生する系の多くの可能性状態を引き起こすことである。 電子配置の可能な等質なSSであるスピングラス重ね合わせ状態(SS)の概念について検討する。 edward-anderson (ea)型sgオーダーパラメータ$q_{ea}$と磁化を用いて、これらのsssがsg, (anti)ferromagnetic (fm) およびparamagnetic (pm) 相のような磁気秩序(不規則)の区別への寄与に基づいて分類できることを実証する。 また,これらの重ね合わせ状態をシステムサイズに基づいて一般化し,これら相ベースSSの絡み合いを負性測定を用いて検討する。 sgオーダーパラメータは、磁気秩序(不規則)相の絡み合い、またはその逆を、磁気秩序を表すネガティリティで決定するために利用できることを示す。 我々の研究は、量子SSの性質とSGと量子磁石との関係についてさらなる知見を提供する。 これらは、凝縮物質物理学を含む様々な分野に意味を持ち、sgsは乱れたシステムの原型的な例である。 また、ニューラルネットワークや最適化問題、情報ストレージなど、乱雑な振る舞いを持つ複雑なシステムが大いに関心を持つ他の分野にも関係している。 全体として、SGsの挙動と量子SSsの性質についてより深く理解し、様々な分野に応用できる可能性がある。

Spin-glass (SG) is a fascinating system that has garnered significant attention due to its intriguing properties and implications for various research fields. One of the key characteristics of spin glasses is that they contain random disorder, which leads to many possible states of the system occurring with very close probabilities. We explore the concept of spin-glass superposition states (SSs), which are equiprobable SSs of possible electronic configurations. Using the Edward-Anderson (EA) type SG order parameter $q_{EA}$ and magnetization, we demonstrate that these SSs can be classified based on their contribution to distinguishing magnetic order (disorder), such as SG, (anti)ferromagnetic (FM), and paramagnetic (PM) phases. We also generalize these superposition states based on the system size and investigate the entanglement of these phase-based SSs using the negativity measure. We show that the SG order parameter can be utilized to determine the entanglement of magnetically ordered (disordered) phases, or vice versa, with negativity signifying magnetic order. Our findings provide further insight into the nature of quantum SSs and their relevance to SGs and quantum magnets. They have implications for various fields, including condensed matter physics, where SGs are a prototypical example of disordered systems. They are also relevant for other fields, such as neural networks, optimization problems, and information storage, where complex systems with random disorder behavior are greatly interested. Overall, our study provides a deeper understanding of the behavior of SGs and the nature of quantum SSs, with potential applications in various fields.
翻訳日:2023-04-20 13:46:02 公開日:2023-04-19
# 等化オッドは等化個性オッドではない:グループと個性のための後処理

Equalised Odds is not Equal Individual Odds: Post-processing for Group and Individual Fairness ( http://arxiv.org/abs/2304.09779v1 )

ライセンス: Link先を確認
Edward A. Small, Kacper Sokol, Daniel Manning, Flora D. Salim, Jeffrey Chan(参考訳) グループフェアネスは保護されたサブ人口間の予測分布を等しくすることで達成される。 しかし、これらの2つの目的は、不連続確率関数を通じてスコアリングモデルが校正される場合、個人が固定確率によって決定された結果をランダムに割り当てることができる場合、互換性がない。 この手順は、異なる分類の確率を持つ同じ保護グループの2つの類似した個人を提供する可能性がある。 それぞれの保護されたサブ人口にユニークな確率を割り当てることで、あるサブ人口のメンバーが別の集団に同じ確率でプラスの結果を得るのを防ぐこともできる。 我々は、リプシッツ定数によって制約される群閾値間の連続確率関数を構築することにより、これらすべてを解消する。 我々のソリューションは、グループの公平性を確保しつつ、モデルの予測力、個々人の公平性、堅牢性を維持します。

Group fairness is achieved by equalising prediction distributions between protected sub-populations; individual fairness requires treating similar individuals alike. These two objectives, however, are incompatible when a scoring model is calibrated through discontinuous probability functions, where individuals can be randomly assigned an outcome determined by a fixed probability. This procedure may provide two similar individuals from the same protected group with classification odds that are disparately different -- a clear violation of individual fairness. Assigning unique odds to each protected sub-population may also prevent members of one sub-population from ever receiving equal chances of a positive outcome to another, which we argue is another type of unfairness called individual odds. We reconcile all this by constructing continuous probability functions between group thresholds that are constrained by their Lipschitz constant. Our solution preserves the model's predictive power, individual fairness and robustness while ensuring group fairness.
翻訳日:2023-04-20 13:45:32 公開日:2023-04-19
# 不連続物体の受動超解像イメージング

Passive superresolution imaging of incoherent objects ( http://arxiv.org/abs/2304.09773v1 )

ライセンス: Link先を確認
Jernej Frank, Alexander Duplinskiy, Kaden Bearne, A. I. Lvovsky(参考訳) サブレイリー系における複雑な2次元不整合物体に対する新しいパッシブ超解像法であるHermite Gaussian Imaging (HGI)について検討する。 この方法は、ヘルマイト・ガウシアンモードとその重ね合わせに基づいて画像平面内の領域の空間モード成分を測定し、その後深層ニューラルネットワークを用いてこれらの測定から物体を再構築する。 ダイレクトイメージングより3次元解像度が向上した。 我々のHGI再構成は、同じニューラルネットワークを用いて直接撮像の解像度を向上しても、その優位性を維持する。 この優位性はショットノイズの存在下でも維持される。 蛍光顕微鏡と天文学における受動的超解像法への第一歩である。

We investigate Hermite Gaussian Imaging (HGI) -- a novel passive super-resolution technique -- for complex 2D incoherent objects in the sub-Rayleigh regime. The method consists of measuring the field's spatial mode components in the image plane in the overcomplete basis of Hermite-Gaussian modes and their superpositions and subsequently using a deep neural network to reconstruct the object from these measurements. We show a three-fold resolution improvement over direct imaging. Our HGI reconstruction retains its superiority even if the same neural network is applied to improve the resolution of direct imaging. This superiority is also preserved in the presence of shot noise. Our findings are the first step towards passive super-resolution imaging protocols in fluorescent microscopy and astronomy.
翻訳日:2023-04-20 13:45:15 公開日:2023-04-19
# POMDPと説明可能なエージェントのエンドツーエンドポリシー勾配法

End-to-End Policy Gradient Method for POMDPs and Explainable Agents ( http://arxiv.org/abs/2304.09769v1 )

ライセンス: Link先を確認
Soichiro Nishimori, Sotetsu Koyamada and Shin Ishii(参考訳) 実世界の意思決定問題は部分的に観測可能であり、その多くは部分観測可能なマルコフ決定プロセス(POMDP)として定式化することができる。 PMDPに強化学習(RL)アルゴリズムを適用すると、隠れた状態の合理的な推定が問題の解決に役立ちます。 さらに、自動運転車などの実世界のタスクへの応用を考えると、説明可能な意思決定が望ましい。 エンド・ツー・エンドのトレーニングにより隠れた状態を推定し、状態遷移グラフとして推定を可視化するrlアルゴリズムを提案する。 実験により,提案アルゴリズムは単純なPOMDP問題を解くことができ,可視化によってエージェントの動作が人間に解釈可能であることを示した。

Real-world decision-making problems are often partially observable, and many can be formulated as a Partially Observable Markov Decision Process (POMDP). When we apply reinforcement learning (RL) algorithms to the POMDP, reasonable estimation of the hidden states can help solve the problems. Furthermore, explainable decision-making is preferable, considering their application to real-world tasks such as autonomous driving cars. We proposed an RL algorithm that estimates the hidden states by end-to-end training, and visualize the estimation as a state-transition graph. Experimental results demonstrated that the proposed algorithm can solve simple POMDP problems and that the visualization makes the agent's behavior interpretable to humans.
翻訳日:2023-04-20 13:45:03 公開日:2023-04-19
# 終端車両軌道予測フレームワーク

An End-to-End Vehicle Trajcetory Prediction Framework ( http://arxiv.org/abs/2304.09764v1 )

ライセンス: Link先を確認
Fuad Hasan and Hailong Huang(参考訳) 近隣の車両の動きを予測することは、特に交通渋滞の激しい高速道路では破滅的な衝突を引き起こす可能性がある。 将来の軌道の正確な予測は、以前の軌道に依存するだけでなく、近くの他の車両間の複雑な相互作用のシミュレーションにも依存する。 この問題に対処するために構築されたほとんどの最先端のネットワークは、すぐに過去の軌跡をたどることができると仮定している。 本稿では,生のビデオ入力を取り込み,将来の軌跡予測を出力する新しいエンドツーエンドアーキテクチャを提案する。 まず、近接する車両の3d位置をマルチヘッドの注意に基づく回帰ネットワークと非線形最適化によって抽出し追跡する。 これにより、車両間の複雑な相互依存性をモデル化し、周辺車両の将来の軌跡の正確な予測を可能にする、注意に基づくLSTMエンコーダ・デコーダアーキテクチャからなる軌道予測アルゴリズムに入力される過去の軌道点を提供する。 提案モデルは大規模BLVDデータセット上で評価され,CARLAにも実装されている。 実験の結果,本手法は最先端モデルよりも優れていることがわかった。

Anticipating the motion of neighboring vehicles is crucial for autonomous driving, especially on congested highways where even slight motion variations can result in catastrophic collisions. An accurate prediction of a future trajectory does not just rely on the previous trajectory, but also, more importantly, a simulation of the complex interactions between other vehicles nearby. Most state-of-the-art networks built to tackle the problem assume readily available past trajectory points, hence lacking a full end-to-end pipeline with direct video-to-output mechanism. In this article, we thus propose a novel end-to-end architecture that takes raw video inputs and outputs future trajectory predictions. It first extracts and tracks the 3D location of the nearby vehicles via multi-head attention-based regression networks as well as non-linear optimization. This provides the past trajectory points which then feeds into the trajectory prediction algorithm consisting of an attention-based LSTM encoder-decoder architecture, which allows it to model the complicated interdependence between the vehicles and make an accurate prediction of the future trajectory points of the surrounding vehicles. The proposed model is evaluated on the large-scale BLVD dataset, and has also been implemented on CARLA. The experimental results demonstrate that our approach outperforms various state-of-the-art models.
翻訳日:2023-04-20 13:44:50 公開日:2023-04-19
# VMA: 大規模運転シーンのための分枝ベクトル化マップアノテーションシステム

VMA: Divide-and-Conquer Vectorized Map Annotation System for Large-Scale Driving Scene ( http://arxiv.org/abs/2304.09807v1 )

ライセンス: Link先を確認
Shaoyu Chen, Yunchi Zhang, Bencheng Liao, Jiafeng Xie, Tianheng Cheng, Wei Sui, Qian Zhang, Chang Huang, Wenyu Liu, Xinggang Wang(参考訳) ハイデフィニション(HD)マップは、自動運転の基盤となる。 本研究では,大規模運転シーンのHDマップを効率的に生成するシステムベクトル化マップアノテーションフレームワーク(VMA)を構築した。 本研究では,hdマップ生成の空間拡張性問題を解決するための分割・分割アノテーションスキームと,様々な幾何学的パターンを持つ抽象マップ要素を,運転シーンのほとんどのマップ要素に拡張可能な統一ポイントシーケンス表現として設計する。 VMAは非常に効率的で拡張性があり、人間の努力を無視し、空間スケールや要素タイプの観点から柔軟である。 実際の都市や高速道路のシーンにおけるアノテーション性能と,NYC Planimetric Databaseを定量的に定性的に検証した。 VMAはマップ生成効率を大幅に改善し、人間の努力をほとんど必要としない。 平均的なVMAでは、数百メートルの範囲でシーンに注釈を付けるのに160分かかり、人件費の52.3%を削減し、アプリケーションの価値が高い。

High-definition (HD) map serves as the essential infrastructure of autonomous driving. In this work, we build up a systematic vectorized map annotation framework (termed VMA) for efficiently generating HD map of large-scale driving scene. We design a divide-and-conquer annotation scheme to solve the spatial extensibility problem of HD map generation, and abstract map elements with a variety of geometric patterns as unified point sequence representation, which can be extended to most map elements in the driving scene. VMA is highly efficient and extensible, requiring negligible human effort, and flexible in terms of spatial scale and element type. We quantitatively and qualitatively validate the annotation performance on real-world urban and highway scenes, as well as NYC Planimetric Database. VMA can significantly improve map generation efficiency and require little human effort. On average VMA takes 160min for annotating a scene with a range of hundreds of meters, and reduces 52.3% of the human cost, showing great application value.
翻訳日:2023-04-20 13:37:34 公開日:2023-04-19
# ゲルマン語低資源言語と方言のコーパス調査

A Survey of Corpora for Germanic Low-Resource Languages and Dialects ( http://arxiv.org/abs/2304.09805v1 )

ライセンス: Link先を確認
Verena Blaschke, Hinrich Sch\"utze, Barbara Plank(参考訳) 近年の進歩にもかかわらず、自然言語処理(NLP)における作業の大部分は、多くの話者を持つ標準言語で行われている。 この作業では、代わりに低リソース言語、特に非標準低リソース言語にフォーカスします。 しばしばよく研究されていると思われる主要言語ファミリーの分野においても、利用可能なリソースの範囲と種類、そしてこれらの言語品種にとってのNLPの主な課題についてはほとんど分かっていない。 この状況に対処する最初のステップは、利用可能なコーパス(最も重要なのは、特にNLP研究に有用な注釈付きコーパス)の体系的な調査である。 本稿では,ゲルマン語の低リソース言語に焦点をあてて,そのような調査を行う。 位置情報(話者や文書を除く)を除いて、手動で注釈付けされた言語資源は希少であり、もし存在するならば、ほとんどは形態素構文をカバーしている。 このような資源の不足にもかかわらず、この分野への関心は高まっている:活発な開発と研究コミュニティが成長している。 研究を容易にするため,80以上のコーパスの概要を公開している。 この概要のWebサイトはhttps://github.com/mainlp/germanic-lrl-corporaで共有しています。

Despite much progress in recent years, the vast majority of work in natural language processing (NLP) is on standard languages with many speakers. In this work, we instead focus on low-resource languages and in particular non-standardized low-resource languages. Even within branches of major language families, often considered well-researched, little is known about the extent and type of available resources and what the major NLP challenges are for these language varieties. The first step to address this situation is a systematic survey of available corpora (most importantly, annotated corpora, which are particularly valuable for NLP research). Focusing on Germanic low-resource language varieties, we provide such a survey in this paper. Except for geolocation (origin of speaker or document), we find that manually annotated linguistic resources are sparse and, if they exist, mostly cover morphosyntax. Despite this lack of resources, we observe that interest in this area is increasing: there is active development and a growing research community. To facilitate research, we make our overview of over 80 corpora publicly available. We share a companion website of this overview at https://github.com/mainlp/germanic-lrl-corpora .
翻訳日:2023-04-20 13:37:15 公開日:2023-04-19
# 難易度の知覚について:人間とAIの差異

On the Perception of Difficulty: Differences between Humans and AI ( http://arxiv.org/abs/2304.09803v1 )

ライセンス: Link先を確認
Philipp Spitzer, Joshua Holstein, Michael V\"ossing, Niklas K\"uhl(参考訳) 産業や社会における人工知能(AI)の普及に伴い、効果的な人間とAIのインタラクションシステムがますます重要になっている。 人間とAIの相互作用における中心的な課題は、人間のエージェントとAIエージェントの単一タスクインスタンスの困難さを推定することであり、これらの推定は各エージェントの能力を評価するために不可欠であり、それによって効果的なコラボレーションを促進するために必要となる。 これまで、人間とAIの相互作用の分野での研究は、人間とAIの認識の難しさを互いに独立して推定してきた。 しかしながら、人間とAIエージェントの効果的な相互作用は、価値ある結果を達成する上で各エージェントが認識する困難を正確に反映する指標に依存する。 これまでの研究は、人間とAIの認識の難しさの違いを十分に検証していない。 そこで本研究では,人間とAIの相互作用において認識される困難さと,各エージェントが認識する困難さ(例えば,同じ前提条件)を一貫して比較する要因について,最近の研究をレビューする。 さらに,両エージェントの認識の難しさを徹底的に検証し,そのようなシステムの設計の理解を深めるための実験的設計を提案する。

With the increased adoption of artificial intelligence (AI) in industry and society, effective human-AI interaction systems are becoming increasingly important. A central challenge in the interaction of humans with AI is the estimation of difficulty for human and AI agents for single task instances.These estimations are crucial to evaluate each agent's capabilities and, thus, required to facilitate effective collaboration. So far, research in the field of human-AI interaction estimates the perceived difficulty of humans and AI independently from each other. However, the effective interaction of human and AI agents depends on metrics that accurately reflect each agent's perceived difficulty in achieving valuable outcomes. Research to date has not yet adequately examined the differences in the perceived difficulty of humans and AI. Thus, this work reviews recent research on the perceived difficulty in human-AI interaction and contributing factors to consistently compare each agent's perceived difficulty, e.g., creating the same prerequisites. Furthermore, we present an experimental design to thoroughly examine the perceived difficulty of both agents and contribute to a better understanding of the design of such systems.
翻訳日:2023-04-20 13:36:56 公開日:2023-04-19
# モデルベースニューラルネットワークの一般化と推定誤差境界

Generalization and Estimation Error Bounds for Model-based Neural Networks ( http://arxiv.org/abs/2304.09802v1 )

ライセンス: Link先を確認
Avner Shultzman, Eyar Azar, Miguel R. D. Rodrigues, Yonina C. Eldar(参考訳) モデルベースのニューラルネットワークは、スパースコーディングや圧縮センシング問題など、さまざまなタスクに対して並列性のないパフォーマンスを提供する。 センシングモデルとの強いつながりのため、これらのネットワークは解釈可能であり、問題の事前構造を継承する。 実際に、モデルベースニューラルネットワークは、ReLUニューラルネットワークよりも高い一般化能力を示す。 しかし、この現象は理論的には解決されなかった。 本稿では,モデルベースネットワークの一般化と推定誤差の上限を提供するため,グローバルおよびローカルラデマッハの複雑度を含む複雑性尺度を活用する。 モデルベースネットワークのsparse recoveryの一般化能力は,通常のreluネットワークよりも優れており,高一般化が保証されたモデルベースネットワークの構築を可能にする実用的な設計ルールを導出している。 我々は、ISTAとADMMネットワークがReLUネットワークよりも高い一般化能力(特に少数のトレーニングサンプル)を示すという事実を含む、実際に経験したいくつかの行動に、我々の理論的洞察が光を当てていることを一連の実験を通して実証した。

Model-based neural networks provide unparalleled performance for various tasks, such as sparse coding and compressed sensing problems. Due to the strong connection with the sensing model, these networks are interpretable and inherit prior structure of the problem. In practice, model-based neural networks exhibit higher generalization capability compared to ReLU neural networks. However, this phenomenon was not addressed theoretically. Here, we leverage complexity measures including the global and local Rademacher complexities, in order to provide upper bounds on the generalization and estimation errors of model-based networks. We show that the generalization abilities of model-based networks for sparse recovery outperform those of regular ReLU networks, and derive practical design rules that allow to construct model-based networks with guaranteed high generalization. We demonstrate through a series of experiments that our theoretical insights shed light on a few behaviours experienced in practice, including the fact that ISTA and ADMM networks exhibit higher generalization abilities (especially for small number of training samples), compared to ReLU networks.
翻訳日:2023-04-20 13:36:37 公開日:2023-04-19
# MetaBEV:BEV検出とマップセグメンテーションのためのセンサ障害の解決

MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation ( http://arxiv.org/abs/2304.09801v1 )

ライセンス: Link先を確認
Chongjian Ge, Junsong Chen, Enze Xie, Zhongdao Wang, Lanqing Hong, Huchuan Lu, Zhenguo Li, and Ping Luo(参考訳) 現代の自動運転車の認識システムは、LiDARやカメラなどの補完的なマルチモーダルセンサーから入力を受け取るのが一般的である。 しかし、現実世界のアプリケーションでは、センサーの破損と障害によりパフォーマンスが低下し、自律的な安全性が損なわれる。 本稿では,6つのセンサ破損と2つの極端センサ欠落状況を含む,極端な現実世界環境に対処する,MetaBEVと呼ばれる堅牢なフレームワークを提案する。 metabevでは、複数のセンサーからの信号が最初にモーダル固有のエンコーダによって処理される。 その後、一連の高密度なBEVクエリが初期化され、メタBEVと呼ばれる。 これらのクエリは、BEV-Evolvingデコーダによって反復的に処理され、LiDAR、カメラ、または両方のモダリティから深い特徴を選択的に集約する。 更新されたBEV表現は、複数の3D予測タスクにさらに活用される。 さらに,マルチタスク共同学習における個別タスクの性能低下を軽減するため,新しいM2oE構造を導入する。 最後に、MetaBEVは3Dオブジェクト検出とBEVマップセグメンテーションタスクを備えたnuScenesデータセットで評価される。 実験では、MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術を上回っている。 例えば、LiDAR信号が欠落した場合、MetaBEVはバニラのBEVFusionモデルで35.5%のNDSと17.7%のセグメンテーションmIoUを改良し、カメラ信号が不在時には69.2%のNDSと53.7%のmIoUを達成している。 さらにMetaBEVは、標準的な知覚とマルチタスクの学習設定の両方において、以前の手法とかなり比較し、70.4% mIoUで最先端のBEVマップセグメンテーションをリフレッシュする。

Perception systems in modern autonomous driving vehicles typically take inputs from complementary multi-modal sensors, e.g., LiDAR and cameras. However, in real-world applications, sensor corruptions and failures lead to inferior performances, thus compromising autonomous safety. In this paper, we propose a robust framework, called MetaBEV, to address extreme real-world environments involving overall six sensor corruptions and two extreme sensor-missing situations. In MetaBEV, signals from multiple sensors are first processed by modal-specific encoders. Subsequently, a set of dense BEV queries are initialized, termed meta-BEV. These queries are then processed iteratively by a BEV-Evolving decoder, which selectively aggregates deep features from either LiDAR, cameras, or both modalities. The updated BEV representations are further leveraged for multiple 3D prediction tasks. Additionally, we introduce a new M2oE structure to alleviate the performance drop on distinct tasks in multi-task joint learning. Finally, MetaBEV is evaluated on the nuScenes dataset with 3D object detection and BEV map segmentation tasks. Experiments show MetaBEV outperforms prior arts by a large margin on both full and corrupted modalities. For instance, when the LiDAR signal is missing, MetaBEV improves 35.5% detection NDS and 17.7% segmentation mIoU upon the vanilla BEVFusion model; and when the camera signal is absent, MetaBEV still achieves 69.2% NDS and 53.7% mIoU, which is even higher than previous works that perform on full-modalities. Moreover, MetaBEV performs fairly against previous methods in both canonical perception and multi-task learning settings, refreshing state-of-the-art nuScenes BEV map segmentation with 70.4% mIoU.
翻訳日:2023-04-20 13:36:20 公開日:2023-04-19
# Progressive-Hint Promptingは大規模言語モデルの推論を改善する

Progressive-Hint Prompting Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2304.09797v1 )

ライセンス: Link先を確認
Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li(参考訳) 推論タスクにおける大規模言語モデル(llm)のパフォーマンスは、プロンプトデザインに大きく依存しており、chain-of-thought (cot) と self-consistency はこの能力を高める重要な方法である。 しかし、これらの手法はLLMが生成した回答を十分に活用していない。 本稿では,これまで生成した回答をヒントとして,ユーザとLLMの対話を自動的に行うためのプロンプトプロンプト手法であるプログレッシブ・ヒント・プロンプト(PHP)を提案する。 PHPはCoTと自己整合性に直交しているため、最新技術と組み合わせてパフォーマンスをさらに向上することができる。 提案手法の有効性を実証するため,広範かつ包括的な評価を行った。 6つのベンチマーク実験の結果,CoTとPHPの自己整合性の組み合わせは高い効率を維持しながら精度を著しく向上させることがわかった。 例えば、text-davinci-003では、複雑なCoTに比べてGSM8Kが4.2%向上し、自己整合性のあるサンプルパスが46.17%減少した。 GPT-4とPHPでは、SVAMP(91.9%)、GSM8K(95.5%)、AQuA(79.9%)の最先端のパフォーマンスを実現している。

The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted an extensive and comprehensive evaluation to demonstrate the effectiveness of the proposed method. Our experimental results on six benchmarks show that combining CoT and self-consistency with PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (91.9%), GSM8K (95.5%) and AQuA (79.9%).
翻訳日:2023-04-20 13:35:46 公開日:2023-04-19
# イベントベースの同時ローカライゼーションとマッピング:総合的な調査

Event-based Simultaneous Localization and Mapping: A Comprehensive Survey ( http://arxiv.org/abs/2304.09793v1 )

ライセンス: Link先を確認
Kunping Huang, Sen Zhang, Jing Zhang, and Dacheng Tao(参考訳) 近年,視覚的同時ローカライゼーションとマッピング (vSLAM) が学術と産業の両方において大きな関心を集めている。 カメラの動きを推定し、移動ロボットの視覚センサーを用いて環境を同時に再構築する。 しかし、従来のカメラは動きのぼやけや低ダイナミックレンジを含むハードウェアによって制限されており、高速モーションや高ダイナミックレンジ照明といった難易度シナリオでは性能に悪影響を及ぼす可能性がある。 近年の研究では、バイオインスパイアされた新しい視覚センサであるイベントカメラが、高時間分解能、ダイナミックレンジ、低消費電力、低レイテンシなどの利点を提供していることが示されている。 本稿では、非同期および不規則なイベントストリームによるローカライズおよびマッピングタスクの利点を利用するイベントベースvSLAMアルゴリズムのタイムリーかつ包括的なレビューを行う。 本報告では,イベントカメラの動作原理とイベントデータの事前処理に関する各種イベント表現について述べる。 また、イベントベースのvSLAMメソッドを、機能ベース、ダイレクト、モーション補償、ディープラーニングの4つのカテゴリに分類し、それぞれのアプローチに関する詳細な議論と実践的なガイダンスを提供する。 さらに,様々なベンチマークにおける最先端手法の評価を行い,この新興研究分野における課題と今後の可能性を明らかにする。 この分野の急速な発展を追跡するために、パブリックリポジトリは、 {\url{https://github.com/kun150kun/eslam-survey}} で維持される。

In recent decades, visual simultaneous localization and mapping (vSLAM) has gained significant interest in both academia and industry. It estimates camera motion and reconstructs the environment concurrently using visual sensors on a moving robot. However, conventional cameras are limited by hardware, including motion blur and low dynamic range, which can negatively impact performance in challenging scenarios like high-speed motion and high dynamic range illumination. Recent studies have demonstrated that event cameras, a new type of bio-inspired visual sensor, offer advantages such as high temporal resolution, dynamic range, low power consumption, and low latency. This paper presents a timely and comprehensive review of event-based vSLAM algorithms that exploit the benefits of asynchronous and irregular event streams for localization and mapping tasks. The review covers the working principle of event cameras and various event representations for preprocessing event data. It also categorizes event-based vSLAM methods into four main categories: feature-based, direct, motion-compensation, and deep learning methods, with detailed discussions and practical guidance for each approach. Furthermore, the paper evaluates the state-of-the-art methods on various benchmarks, highlighting current challenges and future opportunities in this emerging research area. A public repository will be maintained to keep track of the rapid developments in this field at {\url{https://github.com/kun150kun/ESLAM-survey}}.
翻訳日:2023-04-20 13:35:18 公開日:2023-04-19
# AMT:効率的なフレーム補間のための全ペアマルチフィールド変換

AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation ( http://arxiv.org/abs/2304.09790v1 )

ライセンス: Link先を確認
Zhen Li, Zuo-Liang Zhu, Ling-Hao Han, Qibin Hou, Chun-Le Guo, Ming-Ming Cheng(参考訳) ビデオフレーム補間のための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。 2つの基本設計に基づいている。 まず,全画素対の双方向相関ボリュームを構築し,予測した双方向フローを用いて,フローと補間コンテンツ機能の両方を更新する相関関係を検索する。 第2に, 1組の更新粗い流れから細粒度流れの複数の群を導出し, 入力フレームを別々に逆回転させる。 これら2つの設計を組み合わせることで、有望なタスク指向フローを生成し、フレーム補間時の大きな動きのモデル化や隠蔽領域の処理の難しさを軽減することができる。 これらの品質は,様々なベンチマークにおける最先端のパフォーマンスを高効率で達成するモデルを促進する。 さらに, コンボリューションモデルとトランスフォーマーモデルでは, 精度と効率の面で有利に競合している。 私たちのコードはhttps://github.com/mcg-nku/amtで利用可能です。

We present All-Pairs Multi-Field Transforms (AMT), a new network architecture for video frame interpolation. It is based on two essential designs. First, we build bidirectional correlation volumes for all pairs of pixels, and use the predicted bilateral flows to retrieve correlations for updating both flows and the interpolated content feature. Second, we derive multiple groups of fine-grained flow fields from one pair of updated coarse flows for performing backward warping on the input frames separately. Combining these two designs enables us to generate promising task-oriented flows and reduce the difficulties in modeling large motions and handling occluded areas during frame interpolation. These qualities promote our model to achieve state-of-the-art performance on various benchmarks with high efficiency. Moreover, our convolution-based model competes favorably compared to Transformer-based models in terms of accuracy and efficiency. Our code is available at https://github.com/MCG-NKU/AMT.
翻訳日:2023-04-20 13:34:55 公開日:2023-04-19
# 人間の手動デモ映像からの自動インタラクションとアクティビティ認識と異常検出への応用

Automatic Interaction and Activity Recognition from Videos of Human Manual Demonstrations with Application to Anomaly Detection ( http://arxiv.org/abs/2304.09789v1 )

ライセンス: Link先を確認
Elena Merlo (1, 2), Marta Lagomarsino (1, 3), Edoardo Lamon (1), Arash Ajoudani (1) ((1) Human-Robot Interfaces and Interaction Laboratory, Istituto Italiano di Tecnologia, Genoa, Italy, (2) Dept. of Informatics, Bioengineering, Robotics, and Systems Engineering, University of Genoa, Genoa, Italy, (3) Dept. of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy)(参考訳) 本稿では,手動作業のビデオデモにおけるインタラクションと活動の両方を認識するために,物体と手動の時空間関係を記述する新しい手法を提案する。 このアプローチはシーングラフを利用して、画像シーケンスから重要なインタラクション特徴を抽出し、同時に動きパターンとコンテキストをエンコードする。 さらに、同様のイベントをグループ化できるイベントベースの自動ビデオセグメンテーションとクラスタリングを導入し、監視されたアクティビティが正しく実行された場合、オンザフライで検出する。 本手法の有効性は,2つの多目的実験において実証され,活動の事前知識を必要とせず,対象物と対象物との相互作用を認識・クラスタリングする能力と,異なる被験者が行う同一の活動とが一致した。

This paper presents a new method to describe spatio-temporal relations between objects and hands, to recognize both interactions and activities within video demonstrations of manual tasks. The approach exploits Scene Graphs to extract key interaction features from image sequences, encoding at the same time motion patterns and context. Additionally, the method introduces an event-based automatic video segmentation and clustering, which allows to group similar events, detecting also on the fly if a monitored activity is executed correctly. The effectiveness of the approach was demonstrated in two multi-subject experiments, showing the ability to recognize and cluster hand-object and object-object interactions without prior knowledge of the activity, as well as matching the same activity performed by different subjects.
翻訳日:2023-04-20 13:34:40 公開日:2023-04-19
# ソーシャルネットワーク理論を用いた回帰課題における概念ドリフト検出の進歩

Advances on Concept Drift Detection in Regression Tasks using Social Networks Theory ( http://arxiv.org/abs/2304.09788v1 )

ライセンス: Link先を確認
Jean Paul Barddal and Heitor Murilo Gomes and Fabr\'icio Enembreck(参考訳) データストリームのマイニングは、多くの知識分野に適用されているため、機械学習分野における主要な研究の1つです。 データストリームのマイニングにおいて大きな課題の1つはコンセプトドリフトであり、これは学習者が現在の概念を捨てて新しい概念に適応する必要がある。 アンサンブルに基づくドリフト検出アルゴリズムは、分類作業に成功しているが、通常、処理時間とメモリに不必要に費やすリスクを負う学習者の固定サイズアンサンブルを維持する。 本稿では,ネットワーク理論を用いた動的アンサンブルに基づく回帰手法であるスケールフリーネットワーク回帰器(SFNR)の改良について述べる。 コンセプトを検出するために、SFNRはAdaptive Window (ADWIN)アルゴリズムを使用している。 その結果、特にコンセプトドリフトの状況では精度が向上し、実データと合成データの両方における他の最先端アルゴリズムと比較して性能が向上した。

Mining data streams is one of the main studies in machine learning area due to its application in many knowledge areas. One of the major challenges on mining data streams is concept drift, which requires the learner to discard the current concept and adapt to a new one. Ensemble-based drift detection algorithms have been used successfully to the classification task but usually maintain a fixed size ensemble of learners running the risk of needlessly spending processing time and memory. In this paper we present improvements to the Scale-free Network Regressor (SFNR), a dynamic ensemble-based method for regression that employs social networks theory. In order to detect concept drifts SFNR uses the Adaptive Window (ADWIN) algorithm. Results show improvements in accuracy, especially in concept drift situations and better performance compared to other state-of-the-art algorithms in both real and synthetic data.
翻訳日:2023-04-20 13:34:24 公開日:2023-04-19
# 経験の伝達によるアジャイルロコモーションスキルの学習と適応

Learning and Adapting Agile Locomotion Skills by Transferring Experience ( http://arxiv.org/abs/2304.09834v1 )

ライセンス: Link先を確認
Laura Smith, J. Chase Kew, Tianyu Li, Linda Luu, Xue Bin Peng, Sehoon Ha, Jie Tan, Sergey Levine(参考訳) 脚のあるロボットは、非構造な地形の航行から高速走行まで、その能力に膨大な可能性がある。 しかし、高度にアジャイルな動的動きのためのロバストなコントローラーを設計することはロボット工学者にとって大きな課題である。 Reinforcement Learning (RL)は、そのようなコントローラを自動的にトレーニングするための有望なデータ駆動型アプローチを提供する。 しかし、これらの高次元で低機能なシステムでの探索は、脚のあるロボットがパフォーマンス、自然主義、そして多用途な俊敏性スキルを学ぶための大きなハードルである。 既存のコントローラから新しいタスクをジャンプスタートするために経験を移し、複雑なロボットスキルをトレーニングするためのフレームワークを提案する。 実際に取得できるコントローラを活用するために、我々はこのフレームワークを、ソースの観点から柔軟に設計する。つまり、コントローラは異なるダイナミクスの下で異なる目的のために最適化されたり、あるいは周囲の異なる知識を必要とするかもしれない。 提案手法は,複雑なアジャイルジャンプ行動の学習,後足歩行時の目標位置へのナビゲート,新たな環境への適応を可能にする。 また、この方法で学んだアジャイルの振る舞いは、現実世界にデプロイできるほど優雅で安全なものであることも示しています。

Legged robots have enormous potential in their range of capabilities, from navigating unstructured terrains to high-speed running. However, designing robust controllers for highly agile dynamic motions remains a substantial challenge for roboticists. Reinforcement learning (RL) offers a promising data-driven approach for automatically training such controllers. However, exploration in these high-dimensional, underactuated systems remains a significant hurdle for enabling legged robots to learn performant, naturalistic, and versatile agility skills. We propose a framework for training complex robotic skills by transferring experience from existing controllers to jumpstart learning new tasks. To leverage controllers we can acquire in practice, we design this framework to be flexible in terms of their source -- that is, the controllers may have been optimized for a different objective under different dynamics, or may require different knowledge of the surroundings -- and thus may be highly suboptimal for the target task. We show that our method enables learning complex agile jumping behaviors, navigating to goal locations while walking on hind legs, and adapting to new environments. We also demonstrate that the agile behaviors learned in this way are graceful and safe enough to deploy in the real world.
翻訳日:2023-04-20 13:28:43 公開日:2023-04-19
# チューナブルレンジ量子回路における動的遷移としてのスクランブルの開始

Onset of scrambling as a dynamical transition in tunable-range quantum circuit ( http://arxiv.org/abs/2304.09833v1 )

ライセンス: Link先を確認
Sridevi Kuriyattil, Tomohiro Hashizume, Gregory Bentsen, and Andrew J. Daley(参考訳) 高速スクランブル多体量子システムでは、情報の拡散と絡み合いがシステムサイズと対数的に増加する時間スケールに基づいて構築される。 これは、多体システムの力学を理解することや、絡み合ったリソース状態やエラー訂正符号を効率的に生成することに対する基本的な関心である。 本研究では,長距離接続のレベルが異なる量子回路におけるスクランブルの開始点を示す動的遷移を同定する。 特に,異なる構造の回路の相互作用範囲の関数として,三成分相互情報は,異なる動的挙動の2つの明確に定義された領域間の遷移点付近のスケーリング崩壊を示す。 従来のパワー-ロー相互作用を持つシステムに加えて、中性原子配列を用いた実験で実現可能な決定論的スパース回路における同じ現象を同定する。

In a fast scrambling many-body quantum system, information is spread and entanglement is built up on a timescale that grows logarithmically with the system size. This is of fundamental interest in understanding the dynamics of many-body systems, as well as in efficiently producing entangled resource states and error correcting codes. In this work, we identify a dynamical transition marking the onset of scrambling in quantum circuits with different levels of long-range connectivity. In particular, we show that as a function of the interaction range for circuits of different structures, the tripartite mutual information exhibits a scaling collapse around a transition point between two clearly defined regimes of different dynamical behaviour. In addition to systems with conventional power-law interactions, we identify the same phenomenon in deterministic, sparse circuits that can be realised in experiments with neutral atom arrays.
翻訳日:2023-04-20 13:28:22 公開日:2023-04-19
# FastRLAP:Deep RLと自動運転による高速運転学習システム

FastRLAP: A System for Learning High-Speed Driving via Deep RL and Autonomous Practicing ( http://arxiv.org/abs/2304.09831v1 )

ライセンス: Link先を確認
Kyle Stachowicz, Dhruv Shah, Arjun Bhorkar, Ilya Kostrikov, Sergey Levine(参考訳) 本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚観察から積極的に駆動するシステムを提案する。 我々のシステムであるFastRLAPは、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。 我々は,RLポリシーと値関数の表現を,他の環境(低速で)をナビゲートする他のロボットの大きなデータセットから初期化し,ナビゲーション関連表現を提供する。 サンプル効率の高いオンラインRL法では,所望の走行経路を決定するために,低速ユーザが提供する1つのデモを使用して,一連のナビゲーションチェックポイントを抽出し,これらのチェックポイントを自律的に走行し,衝突や故障時に自動的にリセットする。 意外なことに、アルゴリズムの適切な初期化と選択によって、私たちのシステムは、オンライントレーニングを20分未満で、さまざまなレースコースを走らせることができる。 結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。

We present a system that enables an autonomous small-scale RC car to drive aggressively from visual observations using reinforcement learning (RL). Our system, FastRLAP (faster lap), trains autonomously in the real world, without human interventions, and without requiring any simulation or expert demonstrations. Our system integrates a number of important components to make this possible: we initialize the representations for the RL policy and value function from a large prior dataset of other robots navigating in other environments (at low speed), which provides a navigation-relevant representation. From here, a sample-efficient online RL method uses a single low-speed user-provided demonstration to determine the desired driving course, extracts a set of navigational checkpoints, and autonomously practices driving through these checkpoints, resetting automatically on collision or failure. Perhaps surprisingly, we find that with appropriate initialization and choice of algorithm, our system can learn to drive over a variety of racing courses with less than 20 minutes of online training. The resulting policies exhibit emergent aggressive driving skills, such as timing braking and acceleration around turns and avoiding areas which impede the robot's motion, approaching the performance of a human driver using a similar first-person interface over the course of training.
翻訳日:2023-04-20 13:28:08 公開日:2023-04-19
# リジェクションサンプリングによる早期フォールトトレラント量子コンピュータの高速基底状態エネルギー推定

Faster ground state energy estimation on early fault-tolerant quantum computers via rejection sampling ( http://arxiv.org/abs/2304.09827v1 )

ライセンス: Link先を確認
Guoming Wang, Daniel Stilck Fran\c{c}a, Gumaro Rendon, Peter D. Johnson(参考訳) 過去10年間の量子アルゴリズム開発における大きな推進力は、量子アルゴリズムの探索であり、まずは実用的な量子的優位性を提供する。 今日の量子コンピュータや初期のフォールトトレラント量子コンピュータは、回路ごとに実装できる演算数に制限がある。 この設計制約を満たす基底状態エネルギー推定(GSEE)のための量子アルゴリズムを導入する。 第1報では, 基底状態のエネルギーを推定し, 基底状態のオーバーラップパラメータを, その他の方法と比較して2次的に改善した。 第2の証明は、推定基底状態エネルギーが真の基底状態エネルギーの特定の誤差許容範囲内にあることを証明し、いくつかの基底状態準備とエネルギー推定アルゴリズムを導くギャップ推定の問題に対処する。 しかし、この認証手法のスケーリングは、残念ながらGSEEアルゴリズムのスケーリングよりも悪いことに留意する。 これらのアルゴリズムは、拒絶サンプリングを容易にするために量子コンピュータの新しい利用に基づいている。 古典的なコンピュータでサンプルを描画した後、量子コンピュータはサンプルを受理または拒否するために使用される。 受け入れられたサンプルのセットは、ターゲット分布からのドローに対応する。 我々はこの手法を地中エネルギー推定に利用するが、より広い応用が考えられる。 我々の研究は、操作制限のある量子コンピュータができることの境界を押し上げ、量子アドバンテージのターゲットを現在に近づける。

A major thrust in quantum algorithm development over the past decade has been the search for the quantum algorithms that will deliver practical quantum advantage first. Today's quantum computers and even early fault-tolerant quantum computers will be limited in the number of operations they can implement per circuit. We introduce quantum algorithms for ground state energy estimation (GSEE) that accommodate this design constraint. The first estimates ground state energies and has a quadratic improvement on the ground state overlap parameter compared to other methods in this regime. The second certifies that the estimated ground state energy is within a specified error tolerance of the true ground state energy, addressing the issue of gap estimation that beleaguers several ground state preparation and energy estimation algorithms. We note, however, that the scaling of this certification technique is, unfortunately, worse than that of the GSEE algorithm. These algorithms are based on a novel use of the quantum computer to facilitate rejection sampling. After a classical computer is used to draw samples, the quantum computer is used to accept or reject the samples. The set of accepted samples correspond to draws from a target distribution. While we use this technique for ground state energy estimation, it may find broader application. Our work pushes the boundaries of what operation-limited quantum computers are capable of and thus brings the target of quantum advantage closer to the present.
翻訳日:2023-04-20 13:27:45 公開日:2023-04-19
# LipsFormer: ビジョントランスフォーマーへのリプシッツ連続性の導入

LipsFormer: Introducing Lipschitz Continuity to Vision Transformers ( http://arxiv.org/abs/2304.09856v1 )

ライセンス: Link先を確認
Xianbiao Qi, Jianan Wang, Yihao Chen, Yukai Shi, Lei Zhang(参考訳) リプシッツ連続変圧器(lipschitz continuous transformer, lipsformer)を提案する。 学習率ウォームアップ,層正規化,注意定式化,重み初期化によるトレーニング不安定に対処する従来の実践的手法とは対照的に,リプシッツ連続性はトレーニング安定性を確保する上でより不可欠な性質であることを示す。 LipsFormerでは、不安定なTransformer成分加群をLayerNormの代わりにCenterNorm、Xavierの初期化の代わりにスペクトル初期化、ドット積の注意の代わりにコサイン類似性注意を拡大、そして余分なショートカットに置き換える。 これらの導入加群がリプシッツ連続であり、リプシッツ定数の上界を導出することを証明する。 実験の結果,LipsFormerは,ウォームアップなどの注意深い学習率チューニングを必要とせず,より高速な収束と一般化を実現することができることがわかった。 その結果、imagenet 1kデータセットでは、300エポックのスウィントランストレーニングに基づくlipsformer-swin-tinyが学習率ウォームアップなしで82.7\%を得ることができる。 さらに、cswinに基づくlipsformer-cswin-tinyでは、300エポックのトレーニングが4.7gフロップと24mパラメータを持つ83.5\%のtop-1精度を達成している。 コードは \url{https://github.com/IDEA-Research/LipsFormer} でリリースされる。

We present a Lipschitz continuous Transformer, called LipsFormer, to pursue training stability both theoretically and empirically for Transformer-based models. In contrast to previous practical tricks that address training instability by learning rate warmup, layer normalization, attention formulation, and weight initialization, we show that Lipschitz continuity is a more essential property to ensure training stability. In LipsFormer, we replace unstable Transformer component modules with Lipschitz continuous counterparts: CenterNorm instead of LayerNorm, spectral initialization instead of Xavier initialization, scaled cosine similarity attention instead of dot-product attention, and weighted residual shortcut. We prove that these introduced modules are Lipschitz continuous and derive an upper bound on the Lipschitz constant of LipsFormer. Our experiments show that LipsFormer allows stable training of deep Transformer architectures without the need of careful learning rate tuning such as warmup, yielding a faster convergence and better generalization. As a result, on the ImageNet 1K dataset, LipsFormer-Swin-Tiny based on Swin Transformer training for 300 epochs can obtain 82.7\% without any learning rate warmup. Moreover, LipsFormer-CSwin-Tiny, based on CSwin, training for 300 epochs achieves a top-1 accuracy of 83.5\% with 4.7G FLOPs and 24M parameters. The code will be released at \url{https://github.com/IDEA-Research/LipsFormer}.
翻訳日:2023-04-20 13:18:29 公開日:2023-04-19
# 変圧器を用いた視覚セグメンテーション:調査

Transformer-Based Visual Segmentation: A Survey ( http://arxiv.org/abs/2304.09854v1 )

ライセンス: Link先を確認
Xiangtai Li, Henghui Ding, Wenwei Zhang, Haobo Yuan, Jiangmiao Pang, Guangliang Cheng, Kai Chen, Ziwei Liu, Chen Change Loy(参考訳) ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。 この技術には、自動運転、画像編集、ロボットセンシング、医療分析など、多くの現実世界の応用がある。 過去10年間、ディープラーニングベースの手法がこの分野で顕著な進歩を遂げてきた。 近年,自然言語処理用に設計された自己認識に基づくニューラルネットワークであるtransformersが,様々な視覚処理タスクにおける従来の畳み込みや再帰的アプローチを大きく上回っている。 具体的には、視覚トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。 本調査は、トランスフォーマティブに基づく視覚セグメンテーションの概観を提供し、最近の進歩を要約する。 まず、問題定義、データセット、および事前畳み込みメソッドを含む背景をレビューする。 次に、最近のトランスフォーマーベースのアプローチをすべて統合したメタアーキテクチャを要約する。 このメタアーキテクチャに基づき、メタアーキテクチャおよび関連するアプリケーションの変更を含む様々なメソッド設計について検討する。 また、3dポイントクラウドセグメンテーション、ファンデーションモデルチューニング、ドメイン認識セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、密接に関連する設定も提示する。 さらに、いくつかの確立されたデータセットでレビューされたメソッドをコンパイルし、再評価します。 最後に,この分野でのオープンな課題を特定し,今後の研究の方向性を提案する。 プロジェクトページはhttps://github.com/lxtgh/awesome-segmenation-with-transformerにある。 この急速に発展する分野での開発も継続的に監視します。

Visual segmentation seeks to partition images, video frames, or point clouds into multiple segments or groups. This technique has numerous real-world applications, such as autonomous driving, image editing, robot sensing, and medical analysis. Over the past decade, deep learning-based methods have made remarkable strides in this area. Recently, transformers, a type of neural network based on self-attention originally designed for natural language processing, have considerably surpassed previous convolutional or recurrent approaches in various vision processing tasks. Specifically, vision transformers offer robust, unified, and even simpler solutions for various segmentation tasks. This survey provides a thorough overview of transformer-based visual segmentation, summarizing recent advancements. We first review the background, encompassing problem definitions, datasets, and prior convolutional methods. Next, we summarize a meta-architecture that unifies all recent transformer-based approaches. Based on this meta-architecture, we examine various method designs, including modifications to the meta-architecture and associated applications. We also present several closely related settings, including 3D point cloud segmentation, foundation model tuning, domain-aware segmentation, efficient segmentation, and medical segmentation. Additionally, we compile and re-evaluate the reviewed methods on several well-established datasets. Finally, we identify open challenges in this field and propose directions for future research. The project page can be found at https://github.com/lxtGH/Awesome-Segmenation-With-Transformer. We will also continually monitor developments in this rapidly evolving field.
翻訳日:2023-04-20 13:17:59 公開日:2023-04-19
# 有効水平波を用いたブリッジングRL理論と実践

Bridging RL Theory and Practice with the Effective Horizon ( http://arxiv.org/abs/2304.09853v1 )

ライセンス: Link先を確認
Cassidy Laidlaw and Stuart Russell and Anca Dragan(参考訳) 深層強化学習(Deep reinforcement Learning, RL)は、いくつかの環境で顕著に機能し、他の環境で破滅的に失敗する。 理想的には、RL理論はなぜこれが実際のパフォーマンスを予測できる境界であるのかを理解できなければならない。 残念ながら、現在の理論はこの能力を持っていない。 我々は,新しいデータセットBRIDGEを導入することで,標準の深部RLアルゴリズムと事前のサンプル複雑性との比較を行った。 一般的なRLベンチマークからの155のMDPと、対応する表表現で構成されており、インスタンス依存境界を正確に計算することができる。 先行境界は、深いRLが成功するか失敗するかは相関しないが、驚くべき性質を発見する。 ランダムポリシーの下で最も高いQ値を持つアクションが最適ポリシーの下で最も高いQ値を持つ場合、深いRLは成功する傾向にあり、そうでない場合、深いRLは失敗する傾向にある。 我々はこの特性をMDPの新たな複雑性尺度に一般化し、葉ノードをランダムなロールアウトで評価する際の次の最適な行動を特定するために、どのようにルックアヘッド探索を行うかにほぼ一致する。 BRIDGEを用いて,PPOとDQNの実証的な性能は,4つの指標にまたがる事前サンプルの複雑さよりも,有効地平線に基づく境界がより深く反映されていることを示す。 また,既存の境界とは異なり,効果的な地平線は報酬シェーピングや事前学習による探索政策の効果を予測できることを示した。

Deep reinforcement learning (RL) works impressively in some environments and fails catastrophically in others. Ideally, RL theory should be able to provide an understanding of why this is, i.e. bounds predictive of practical performance. Unfortunately, current theory does not quite have this ability. We compare standard deep RL algorithms to prior sample complexity prior bounds by introducing a new dataset, BRIDGE. It consists of 155 MDPs from common deep RL benchmarks, along with their corresponding tabular representations, which enables us to exactly compute instance-dependent bounds. We find that prior bounds do not correlate well with when deep RL succeeds vs. fails, but discover a surprising property that does. When actions with the highest Q-values under the random policy also have the highest Q-values under the optimal policy, deep RL tends to succeed; when they don't, deep RL tends to fail. We generalize this property into a new complexity measure of an MDP that we call the effective horizon, which roughly corresponds to how many steps of lookahead search are needed in order to identify the next optimal action when leaf nodes are evaluated with random rollouts. Using BRIDGE, we show that the effective horizon-based bounds are more closely reflective of the empirical performance of PPO and DQN than prior sample complexity bounds across four metrics. We also show that, unlike existing bounds, the effective horizon can predict the effects of using reward shaping or a pre-trained exploration policy.
翻訳日:2023-04-20 13:17:38 公開日:2023-04-19
# 生成検索エンジンにおける検証可能性の評価

Evaluating Verifiability in Generative Search Engines ( http://arxiv.org/abs/2304.09848v1 )

ライセンス: Link先を確認
Nelson F. Liu and Tianyi Zhang and Percy Liang(参考訳) 生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。 信頼できる生成検索エンジンの前提条件は、総合的に引用すべきシステム(高い引用リコール、全ての文は引用によって完全に支持される)と正確に引用すべきシステム(高い引用精度、全ての引用が関連するステートメントをサポートする)である。 Bing Chat、NeevaAI、perplexity.ai、YouChatの4つの一般的な生成検索エンジンを、さまざまなソースからのさまざまなクエリ(例えば、過去のGoogleユーザクエリ、Redditで動的にコンパイルされたオープンエンド質問など)で評価する。 既存の生成検索エンジンからの応答は、流動的で情報的に見えるが、しばしばサポートされていない文や不正確な引用を含む: 平均して、生成された文の51.5%は引用によって完全に支持され、引用の74.5%のみが関連する文をサポートする。 これらの結果は、情報検索ユーザーにとって主要なツールとなる可能性のあるシステム、特に信頼性のファサードを考えると、かなり低いと我々は信じている。 この結果が、信頼性の高い生成型検索エンジンの開発をさらに動機付け、研究者やユーザが既存の商用システムの欠点を理解するのに役立つことを願っています。

Generative search engines directly generate responses to user queries, along with in-line citations. A prerequisite trait of a trustworthy generative search engine is verifiability, i.e., systems should cite comprehensively (high citation recall; all statements are fully supported by citations) and accurately (high citation precision; every cite supports its associated statement). We conduct human evaluation to audit four popular generative search engines -- Bing Chat, NeevaAI, perplexity.ai, and YouChat -- across a diverse set of queries from a variety of sources (e.g., historical Google user queries, dynamically-collected open-ended questions on Reddit, etc.). We find that responses from existing generative search engines are fluent and appear informative, but frequently contain unsupported statements and inaccurate citations: on average, a mere 51.5% of generated sentences are fully supported by citations and only 74.5% of citations support their associated sentence. We believe that these results are concerningly low for systems that may serve as a primary tool for information-seeking users, especially given their facade of trustworthiness. We hope that our results further motivate the development of trustworthy generative search engines and help researchers and users better understand the shortcomings of existing commercial systems.
翻訳日:2023-04-20 13:17:11 公開日:2023-04-19
# 公衆の確認可能な削除のためのウィークニング・アセスメント

Weakening Assumptions for Publicly-Verifiable Deletion ( http://arxiv.org/abs/2304.09846v1 )

ライセンス: Link先を確認
James Bartusek and Dakshita Khurana and Giulio Malavolta and Alexander Poremba and Michael Walter(参考訳) 我々は,様々な暗号システムに公開検証可能な削除を汎用的に付加するシンプルなコンパイラを開発した。 私たちのコンパイラは、一方通行の関数(または、公開検証キーを量子化することを許せば、一方通行のステートジェネレータ)のみを使用します。 以前は、類似のコンパイラは区別不能な難読化(Bartusek et. al., ePrint:2023/265)や、ほぼ規則的な片方向関数(Bartusek, Khurana, Poremba, arXiv:2303.08676)に頼っていた。

We develop a simple compiler that generically adds publicly-verifiable deletion to a variety of cryptosystems. Our compiler only makes use of one-way functions (or one-way state generators, if we allow the public verification key to be quantum). Previously, similar compilers either relied on the use of indistinguishability obfuscation (Bartusek et. al., ePrint:2023/265) or almost-regular one-way functions (Bartusek, Khurana and Poremba, arXiv:2303.08676).
翻訳日:2023-04-20 13:16:49 公開日:2023-04-19
# Chameleon: 大きな言語モデルによるプラグインとプレイの合成推論

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models ( http://arxiv.org/abs/2304.09842v1 )

ライセンス: Link先を確認
Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao(参考訳) 大規模言語モデル(llm)は、創発的な能力を持つ様々な自然言語処理タスクにおいて著しく進歩した。 しかしそれらは、最新の情報にアクセスできない、外部ツールを使用する、正確な数学的推論を行うといった、固有の制限に直面している。 本稿では,これらの課題に対処するためにLLMを拡張した,プラグアンドプレイの合成推論フレームワークChameleonを紹介する。 chameleonは、llmモデル、市販のビジョンモデル、web検索エンジン、python関数、ルールベースのモジュールなど、さまざまなツールを構成するプログラムを合成する。 自然言語プランナーとしてllm上に構築されたchameleonは、最終的なレスポンスを生成するために、組み立てて実行する適切なツールシーケンスを推論する。 本稿では,ScienceQAとTabMWPの2つの課題に対するChameleonの適応性と有効性を示す。 特に、gpt-4によるchameleonは、scienceqaにおいて86.54%の精度を達成し、出版されている最善のマイノショットモデルを11.37%向上させ、基礎となるllmとしてgpt-4を使用することで、最先端モデルよりも17.8%の精度向上を達成し、tabmwpの全体的な精度は98.78%となった。 さらなる研究により、GPT-4をプランナーとして使用すると、より一貫性があり合理的なツール選択が示され、ChatGPTのような他のLLMと比較して、命令によって潜在的な制約を推測できることが示唆された。

Large language models (LLMs) have achieved remarkable progress in various natural language processing tasks with emergent abilities. However, they face inherent limitations, such as an inability to access up-to-date information, utilize external tools, or perform precise mathematical reasoning. In this paper, we introduce Chameleon, a plug-and-play compositional reasoning framework that augments LLMs to help address these challenges. Chameleon synthesizes programs to compose various tools, including LLM models, off-the-shelf vision models, web search engines, Python functions, and rule-based modules tailored to user interests. Built on top of an LLM as a natural language planner, Chameleon infers the appropriate sequence of tools to compose and execute in order to generate a final response. We showcase the adaptability and effectiveness of Chameleon on two tasks: ScienceQA and TabMWP. Notably, Chameleon with GPT-4 achieves an 86.54% accuracy on ScienceQA, significantly improving upon the best published few-shot model by 11.37%; using GPT-4 as the underlying LLM, Chameleon achieves a 17.8% increase over the state-of-the-art model, leading to a 98.78% overall accuracy on TabMWP. Further studies suggest that using GPT-4 as a planner exhibits more consistent and rational tool selection and is able to infer potential constraints given the instructions, compared to other LLMs like ChatGPT.
翻訳日:2023-04-20 13:16:33 公開日:2023-04-19
# ランダムニューラルネットワークによる関数の非線形性のポイント

Points of non-linearity of functions generated by random neural networks ( http://arxiv.org/abs/2304.09837v1 )

ライセンス: Link先を確認
David Holmes(参考訳) 実数から実数への関数を考える。1つの隠れ活性化層、任意の幅、およびreluアクティベーション関数を持つニューラルネットワークによって出力される。 ニューラルネットワークのパラメータは、様々な確率分布に対してランダムに選択され、非線形の点の期待分布を計算すると仮定する。 これらの結果を用いて、ネットワークがより単純な幾何学で関数の出力に偏っている理由と、情報理論の複雑さが低い特定の関数がニューラルネットワークに近似することが難しい理由を説明する。

We consider functions from the real numbers to the real numbers, output by a neural network with 1 hidden activation layer, arbitrary width, and ReLU activation function. We assume that the parameters of the neural network are chosen uniformly at random with respect to various probability distributions, and compute the expected distribution of the points of non-linearity. We use these results to explain why the network may be biased towards outputting functions with simpler geometry, and why certain functions with low information-theoretic complexity are nonetheless hard for a neural network to approximate.
翻訳日:2023-04-20 13:15:48 公開日:2023-04-19
# 多変量確率予測の評価における信頼性領域

Regions of Reliability in the Evaluation of Multivariate Probabilistic Forecasts ( http://arxiv.org/abs/2304.09836v1 )

ライセンス: Link先を確認
\'Etienne Marcotte, Valentina Zantedeschi, Alexandre Drouin, Nicolas Chapados(参考訳) 多変量確率時系列予測は、適切なスコアリング規則、すなわち地上分布への期待を最小にする関数によって一般的に評価される。 しかし、この性質は非漸近的体制における良質な差別を保証するには不十分である。 本稿では,時系列予測評価のための適切なスコアリングルールの体系的有限サンプル実験を行う。 パワー分析により、スコアリングルールの「信頼性の領域」、すなわち予測誤差の特定に頼り得る実用的な条件の集合を同定する。 我々は,地上分布と予測分布のいくつかの重要な差異を具体的にテストするために設計された総合的ベンチマークの分析を行い,電気生産問題に適用した実世界課題に対する実験結果の一般化可能性を評価する。 本研究は,多変量確率予測の評価における批判的欠点を明らかにしている。

Multivariate probabilistic time series forecasts are commonly evaluated via proper scoring rules, i.e., functions that are minimal in expectation for the ground-truth distribution. However, this property is not sufficient to guarantee good discrimination in the non-asymptotic regime. In this paper, we provide the first systematic finite-sample study of proper scoring rules for time-series forecasting evaluation. Through a power analysis, we identify the "region of reliability" of a scoring rule, i.e., the set of practical conditions where it can be relied on to identify forecasting errors. We carry out our analysis on a comprehensive synthetic benchmark, specifically designed to test several key discrepancies between ground-truth and forecast distributions, and we gauge the generalizability of our findings to real-world tasks with an application to an electricity production problem. Our results reveal critical shortcomings in the evaluation of multivariate probabilistic forecasts as commonly performed in the literature.
翻訳日:2023-04-20 13:15:39 公開日:2023-04-19
# 透明でロバストなデータ駆動風力タービンパワーカーブモデルに向けて

Towards transparent and robust data-driven wind turbine power curve models ( http://arxiv.org/abs/2304.09835v1 )

ライセンス: Link先を確認
Simon Letzgus and Klaus-Robert M\"uller(参考訳) 風力タービン動力曲線モデルは周囲の条件をタービン出力に変換する。 これらはエネルギー収量予測とタービン性能監視に不可欠である。 近年、データ駆動機械学習手法はパラメトリック、物理インフォームドアプローチよりも優れている。 しかし、風力タービンが直面するような不安定な環境での頑健さに懸念を抱く不透明な「黒い箱」であるとしばしば批判される。 そこで我々は,データ駆動型パワーカーブモデルにより得られた戦略をSCADAデータから検証し,検証するために,説明可能な人工知能(XAI)フレームワークを導入する。 ドメイン固有の考慮事項とShapley Valuesと、XAIによる回帰に関する最新の知見を組み合わせる。 結果から,学習戦略は検証やテストセットエラーよりもモデルの堅牢性を示す指標となる可能性が示唆された。 さらに、非常に複雑で最先端のMLモデルは、物理的に理解できない戦略を学ぶ傾向があることを観察する。 その結果、物理的に合理的なモデル行動を保証するために、いくつかの尺度を比較した。 最後に, 風車性能モニタリングにおけるxaiの利用について, 期待される水車出力から逸脱する環境・技術的影響を解消して検討する。 私たちの研究は、より透明で堅牢なデータ駆動型風力タービンパワーカーブモデルを訓練し、選択する領域の専門家を導くことを願っています。

Wind turbine power curve models translate ambient conditions into turbine power output. They are essential for energy yield prediction and turbine performance monitoring. In recent years, data-driven machine learning methods have outperformed parametric, physics-informed approaches. However, they are often criticised for being opaque "black boxes" which raises concerns regarding their robustness in non-stationary environments, such as faced by wind turbines. We, therefore, introduce an explainable artificial intelligence (XAI) framework to investigate and validate strategies learned by data-driven power curve models from operational SCADA data. It combines domain-specific considerations with Shapley Values and the latest findings from XAI for regression. Our results suggest, that learned strategies can be better indicators for model robustness than validation or test set errors. Moreover, we observe that highly complex, state-of-the-art ML models are prone to learn physically implausible strategies. Consequently, we compare several measures to ensure physically reasonable model behaviour. Lastly, we propose the utilization of XAI in the context of wind turbine performance monitoring, by disentangling environmental and technical effects that cause deviations from an expected turbine output. We hope, our work can guide domain experts towards training and selecting more transparent and robust data-driven wind turbine power curve models.
翻訳日:2023-04-20 13:15:24 公開日:2023-04-19
# InferEM:共感的対話生成のための話者意図の推測

InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation ( http://arxiv.org/abs/2212.06373v5 )

ライセンス: Link先を確認
Guoqing Lv, Jiang Li, Xiaoping Wang, Zhigang Zeng(参考訳) 共感応答生成に対する現在のアプローチは、一般的に対話履歴全体をエンコードし、出力をデコーダに入れてフレンドリーなフィードバックを生成する。 これらの手法は文脈情報のモデル化に焦点をあてるが、話者の直接の意図を捉えることは無視する。 我々は,対話の最後の発声が話者の意図を実証的に伝えることを主張する。 そこで本研究では,共感応答生成のための新しいモデルInferEMを提案する。 我々は,最後の発話を別々に符号化し,多面的注意に基づく意図融合モジュールを通して対話全体と融合し,話者の意図を捉える。 さらに,先行した発話を用いて最後の発話を予測し,人間の心理をシミュレートし,対話者が事前に何を話すのかを推測する。 発話予測と応答生成の最適化率のバランスをとるために,InferEMのためのマルチタスク学習戦略を設計する。 実験の結果,inferemの共感性発現改善における可能性と妥当性が示された。

Current approaches to empathetic response generation typically encode the entire dialogue history directly and put the output into a decoder to generate friendly feedback. These methods focus on modelling contextual information but neglect capturing the direct intention of the speaker. We argue that the last utterance in the dialogue empirically conveys the intention of the speaker. Consequently, we propose a novel model named InferEM for empathetic response generation. We separately encode the last utterance and fuse it with the entire dialogue through the multi-head attention based intention fusion module to capture the speaker's intention. Besides, we utilize previous utterances to predict the last utterance, which simulates human's psychology to guess what the interlocutor may speak in advance. To balance the optimizing rates of the utterance prediction and response generation, a multi-task learning strategy is designed for InferEM. Experimental results demonstrate the plausibility and validity of InferEM in improving empathetic expression.
翻訳日:2023-04-20 10:44:53 公開日:2023-04-19
# PMC-Patients: 患者サプリメントの大規模データセットと検索型臨床診断支援システムのベンチマーク

PMC-Patients: A Large-scale Dataset of Patient Summaries and Relations for Benchmarking Retrieval-based Clinical Decision Support Systems ( http://arxiv.org/abs/2202.13876v4 )

ライセンス: Link先を確認
Zhengyun Zhao, Qiao Jin, Fangyuan Chen, Tuorui Peng, Sheng Yu(参考訳) 目的: Retrieval-based Clinical Decision Support (ReCDS) は、特定の患者に関連文献や類似の患者を提供することで、臨床ワークフローを支援することができる。 しかし, ReCDS システムの開発は, 多様な患者コレクションの欠如と, 大規模患者レベルのアノテーションデータセットの公開により, 著しく阻害されている。 本稿では, PMC-Patients と呼ばれる新しいデータセットを用いて, ReCDS-PAR (Patent-to-Patient Retrieval) と ReCDS-PPR (Patent-to-Patient Retrieval) の2つのタスクを定義し, ベンチマークすることを目的とする。 方法: 単純ヒューリスティックスを用いてPubMed Centralの論文から患者要約を抽出し, PubMed citation graphを用いて患者-関節関係と患者-患者の類似性を定義する。 PMC-Patientsベンチマークでは,スパースレトリバー,高密度レトリバー,近隣レトリバーなど,いくつかのReCDSシステムを実装・評価している。 PMC-Patientsの臨床的有用性を示すためにいくつかの症例研究を行った。 結果:pmc患者は患者関連アノテーション3.1mと患者類似性アノテーション293kの167kのサマリーを持ち,recdの最大のリソースであり,患者のコレクションとしては最大である。 PMC-Patientsは高品質なアノテーションを備えた多様なデータセットである。 様々なReCDSシステムの評価は、PMC-Patientsベンチマークが困難であることを示し、さらなる研究を求めている。 結論:我々は,大規模で多様で広く利用可能な患者概要データセットであるpmc患者について紹介する。 PMC-Patientsに基づいて、ReCDSシステムのための2つのベンチマークタスクを正式に定義し、既存の検索手法を評価する。 PMC-Patientsは、ReCDSシステムの方法論研究を大いに促進し、現実の臨床的有用性を示す。

Objective: Retrieval-based Clinical Decision Support (ReCDS) can aid clinical workflow by providing relevant literature and similar patients for a given patient. However, the development of ReCDS systems has been severely obstructed by the lack of diverse patient collections and publicly available large-scale patient-level annotation datasets. In this paper, we aim to define and benchmark two ReCDS tasks: Patient-to-Article Retrieval (ReCDS-PAR) and Patient-to-Patient Retrieval (ReCDS-PPR) using a novel dataset called PMC-Patients. Methods: We extract patient summaries from PubMed Central articles using simple heuristics and utilize the PubMed citation graph to define patient-article relevance and patient-patient similarity. We also implement and evaluate several ReCDS systems on the PMC-Patients benchmarks, including sparse retrievers, dense retrievers, and nearest neighbor retrievers. We conduct several case studies to show the clinical utility of PMC-Patients. Results: PMC-Patients contains 167k patient summaries with 3.1M patient-article relevance annotations and 293k patient-patient similarity annotations, which is the largest-scale resource for ReCDS and also one of the largest patient collections. Human evaluation and analysis show that PMC-Patients is a diverse dataset with high-quality annotations. The evaluation of various ReCDS systems shows that the PMC-Patients benchmark is challenging and calls for further research. Conclusion: We present PMC-Patients, a large-scale, diverse, and publicly available patient summary dataset with the largest-scale patient-level relation annotations. Based on PMC-Patients, we formally define two benchmark tasks for ReCDS systems and evaluate various existing retrieval methods. PMC-Patients can largely facilitate methodology research on ReCDS systems and shows real-world clinical utility.
翻訳日:2023-04-20 10:44:37 公開日:2023-04-19
# SAMはセグメンテーションに失敗したか? --SAM-Adapter:未演奏シーンにおけるSAMの適応:カモフラージュ、シャドウなど

SAM Fails to Segment Anything? -- SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, and More ( http://arxiv.org/abs/2304.09148v2 )

ライセンス: Link先を確認
Tianrun Chen, Lanyun Zhu, Chaotao Ding, Runlong Cao, Yan Wang, Zejian Li, Lingyun Sun, Papa Mao, Ying Zang(参考訳) ファンデーションモデルとしても知られる大型モデルの出現は、AI研究に大きな進歩をもたらした。 そのようなモデルの1つは、イメージセグメンテーションタスク用に設計されたSegment Anything (SAM)である。 しかし,他の基礎モデルと同様に,影検出や擬似物体検出 (concealed object detection) などの特定のセグメンテーションタスクではSAMが故障したり,動作不良となる可能性が示唆された。 本研究は,SAMが不十分な状況であっても,まず,大規模な訓練済み画像分割モデルSAMを下流タスクに適用する方法について検討する。 SAM ネットワークを微調整する代わりに,ドメイン固有情報や視覚的プロンプトを,単純かつ効果的なアダプタを用いてセグメント化ネットワークに組み込んだ \textbf{SAM-Adapter} を提案する。 広範な実験により,SAM-Adapterは課題におけるSAMの性能を大幅に向上させることができ,また,タスク固有のネットワークモデルよりも優れ,テストしたタスクにおいて最先端のパフォーマンスを達成できることがわかった。 医療画像処理,農業,リモートセンシングなど,さまざまな分野に適用可能な,下流作業におけるSAM活用の機会が開けていると考えています。

The emergence of large models, also known as foundation models, has brought significant advancements to AI research. One such model is Segment Anything (SAM), which is designed for image segmentation tasks. However, as with other foundation models, our experimental findings suggest that SAM may fail or perform poorly in certain segmentation tasks, such as shadow detection and camouflaged object detection (concealed object detection). This study first paves the way for applying the large pre-trained image segmentation model SAM to these downstream tasks, even in situations where SAM performs poorly. Rather than fine-tuning the SAM network, we propose \textbf{SAM-Adapter}, which incorporates domain-specific information or visual prompts into the segmentation network by using simple yet effective adapters. Our extensive experiments show that SAM-Adapter can significantly elevate the performance of SAM in challenging tasks and we can even outperform task-specific network models and achieve state-of-the-art performance in the task we tested: camouflaged object detection and shadow detection. We believe our work opens up opportunities for utilizing SAM in downstream tasks, with potential applications in various fields, including medical image processing, agriculture, remote sensing, and more.
翻訳日:2023-04-20 10:37:22 公開日:2023-04-19
# 軌道自由準密度汎関数論

Orbital-Free Quasi-Density Functional Theory ( http://arxiv.org/abs/2304.09056v2 )

ライセンス: Link先を確認
Carlos L. Benavides-Riveros(参考訳) ウィグナー関数は、マクロ世界における非古典的効果を探索するために広く用いられる。 ここでは,フェルミオン系とボソニック系の1体ウィグナー準確率を計算するための軌道自由関数フレームワークを開発した。 鍵変数は準密度であるため、この理論はパウリポテンシャルの発見や軌道自由密度汎関数理論の運動エネルギー近似の問題を回避するのに特に適している。 原理の証明として、光学格子のビルディングブロックに対する普遍汎関数は、1-ボディ還元密度行列の対応する汎関数の変換、縮小、および回転によって生じることを見出し、これらの汎関数理論間の強い結合を示す。 さらに Wigner negativity と $v$-representability の概念を関連付け、負の Wigner 関数を持つ基底状態の多様体を求める。

Wigner functions are broadly used to probe non-classical effects in the macroscopic world. Here we develop an orbital-free functional framework to compute the 1-body Wigner quasi-probability for both fermionic and bosonic systems. Since the key variable is a quasi-density, this theory is particularly well suited to circumvent the problem of finding the Pauli potential or approximating the kinetic energy in orbital-free density functional theory. As proof of principle, we find that the universal functional for the building block of optical lattices results from a translation, a contraction, and a rotation of the corresponding functional of the 1-body reduced density matrix, indicating a strong connection between these functional theories. Furthermore, we relate the concepts of Wigner negativity and $v$-representability, and find a manifold of ground states with negative Wigner functions.
翻訳日:2023-04-20 10:36:58 公開日:2023-04-19
# cf-vae: vaeと因果フローを用いた因果的不等角表現学習

CF-VAE: Causal Disentangled Representation Learning with VAE and Causal Flows ( http://arxiv.org/abs/2304.09010v2 )

ライセンス: Link先を確認
Di Fan, Yannian Kou and Chuanhou Gao(参考訳) ディスタングル表現の学習は表現学習において重要であり、各次元が1つの基礎となる生成因子に対応するデータの低次元表現を学ぶことを目的としている。 生成要因間の因果関係の可能性から,因果関係の対立表現学習が広く注目されている。 本稿ではまず,因果構造情報をモデルに組み込む新しい流れ,すなわち因果フローを提案する。 分散表現学習によく用いられる変分オートエンコーダ(VAE)に基づいて,因果フローを利用してVAEエンコーダのアンタングル化能力を高める新しいモデルCF-VAEを設計する。 地中構造因子の監視をさらに導入することにより,モデルの絡み合いの識別可能性を示す。 合成データと実データの両方の実験結果から,CF-VAEは因果解離を達成し,介入実験を行うことができることが示された。 さらに、CF-VAEは下流タスクに優れた性能を示し、要因間の因果構造を学習する可能性がある。

Learning disentangled representations is important in representation learning, aiming to learn a low dimensional representation of data where each dimension corresponds to one underlying generative factor. Due to the possibility of causal relationships between generative factors, causal disentangled representation learning has received widespread attention. In this paper, we first propose new flows that can incorporate causal structure information into the model, called causal flows. Based on the variational autoencoders(VAE) commonly used in disentangled representation learning, we design a new model, CF-VAE, which enhances the disentanglement ability of the VAE encoder by utilizing the causal flows. By further introducing the supervision of ground-truth factors, we demonstrate the disentanglement identifiability of our model. Experimental results on both synthetic and real datasets show that CF-VAE can achieve causal disentanglement and perform intervention experiments. Moreover, CF-VAE exhibits outstanding performance on downstream tasks and has the potential to learn causal structure among factors.
翻訳日:2023-04-20 10:36:36 公開日:2023-04-19
# STAR-RIS支援MIMO-NOMAネットワークの省エネルギー設計

Energy-Efficient Design of STAR-RIS Aided MIMO-NOMA Networks ( http://arxiv.org/abs/2304.08996v2 )

ライセンス: Link先を確認
Fang Fang, Bibo Wu, Shu Fu, Zhiguo Ding and Xianbin Wang(参考訳) 同時送信および反射再構成可能なインテリジェントサーフェス(STAR-RIS)は、従来の反射のみのRISと比較して範囲を広げることができる。 本稿では,Multiple-input and multiple-output (MIMO) による非直交多重アクセス (NOMA) システムにおけるSTAR-RISのエネルギー効率向上の可能性を利用する。 具体的には、主に、STAR-RIS支援NOMAネットワークにおけるMIMO技術を用いたエネルギー効率の高い資源割り当てに焦点を当てる。 システムエネルギー効率を最大化するために,STAR-RIS上の送信ビームフォーミングと低コスト受動素子の位相を収束まで最適化するアルゴリズムを提案する。 具体的には,形式化されたエネルギー効率問題をビームフォーミング問題と位相シフト最適化問題に分解する。 非凸ビームフォーミング最適化問題に効率よく対処するため,MIMO-NOMAチャネルを単一アンテナNOMAチャネルに分解するために,各ユーザペアにおける信号アライメントとゼロ強制プリコーディング手法を利用する。 次に、ディンケルバッハ法と双対分解を用いてビームフォーミングベクトルを最適化する。 非凸位相シフト最適化問題を解くために,STAR-RISの最適化位相シフトを効率的に得るために,逐次凸近似(SCA)に基づく手法を提案する。 シミュレーションの結果,NOMA技術を用いたアルゴリズムは直交多重アクセス(OMA)方式やランダム位相シフト方式よりも優れたエネルギー効率性能が得られることが示された。

Simultaneous transmission and reflection-reconfigurable intelligent surface (STAR-RIS) can provide expanded coverage compared with the conventional reflection-only RIS. This paper exploits the energy efficient potential of STAR-RIS in a multiple-input and multiple-output (MIMO) enabled non-orthogonal multiple access (NOMA) system. Specifically, we mainly focus on energy-efficient resource allocation with MIMO technology in the STAR-RIS assisted NOMA network. To maximize the system energy efficiency, we propose an algorithm to optimize the transmit beamforming and the phases of the low-cost passive elements on the STAR-RIS alternatively until the convergence. Specifically, we first decompose the formulated energy efficiency problem into beamforming and phase shift optimization problems. To efficiently address the non-convex beamforming optimization problem, we exploit signal alignment and zero-forcing precoding methods in each user pair to decompose MIMO-NOMA channels into single-antenna NOMA channels. Then, the Dinkelbach approach and dual decomposition are utilized to optimize the beamforming vectors. In order to solve non-convex phase shift optimization problem, we propose a successive convex approximation (SCA) based method to efficiently obtain the optimized phase shift of STAR-RIS. Simulation results demonstrate that the proposed algorithm with NOMA technology can yield superior energy efficiency performance over the orthogonal multiple access (OMA) scheme and the random phase shift scheme.
翻訳日:2023-04-20 10:36:18 公開日:2023-04-19
# ベストカウンタ引数検索における類似性と相違性の役割の再考

Revisiting the Role of Similarity and Dissimilarity in Best Counter Argument Retrieval ( http://arxiv.org/abs/2304.08807v2 )

ライセンス: Link先を確認
Hongguang Shi, Shuirong Cao, Cam-Tu Nguyen(参考訳) 本稿では,入力引数が与える最善の対置検索の課題について検討する。 最善の対置法が入力引数と同じ側面に対処し、反対の立場をとりながら、相似性と相似性指標に基づいて対置法をスコアリングする効率的かつ効果的なモデルを開発することを目的とする。 まず,従来のラーニング・トゥ・ランク(ltr)や近年のニューラルスコアリングモデルなど,利用可能なスコアリング手法の有効性を実験的に検討した。 次に,同時類似性と相似性の最適表現を学習するための新しいbertモデルであるbipolar-encoderを提案する。 実験の結果,提案手法は49.04\%の精度を実現できることがわかった。 適切なキャッシュ技術と組み合わせると、Bipolar-Encoderは予測時に可視的に効率が良い。

This paper studies the task of best counter-argument retrieval given an input argument. Following the definition that the best counter-argument addresses the same aspects as the input argument while having the opposite stance, we aim to develop an efficient and effective model for scoring counter-arguments based on similarity and dissimilarity metrics. We first conduct an experimental study on the effectiveness of available scoring methods, including traditional Learning-To-Rank (LTR) and recent neural scoring models. We then propose Bipolar-encoder, a novel BERT-based model to learn an optimal representation for simultaneous similarity and dissimilarity. Experimental results show that our proposed method can achieve the accuracy@1 of 49.04\%, which significantly outperforms other baselines by a large margin. When combined with an appropriate caching technique, Bipolar-encoder is comparably efficient at prediction time.
翻訳日:2023-04-20 10:35:53 公開日:2023-04-19
# ベイズ的ロボットグルーピングのためのリーマン幾何学と入射表現先行

Implicit representation priors meet Riemannian geometry for Bayesian robotic grasping ( http://arxiv.org/abs/2304.08805v2 )

ライセンス: Link先を確認
Norman Marlier, Julien Gustin, Olivier Br\"uls, Gilles Louppe(参考訳) 騒音の多い環境でのロボットの把握は、特にシーンに関する事前知識が限られている複雑な課題を示す。 特に,2つの理由から,ベイズ推論による適切な把握姿勢の特定が困難となる。 一 不正な先行データからデータを生成することが非効率であることを証明し、 i) 後辺はしばしばリーマン多様体上で定義される複素分布を含む。 本研究では,暗黙表現を用いてシーン依存の事前構造を構築することにより,非構造化環境での把持ポーズの判断に効率的なシミュレーションに基づくベイズ推論アルゴリズムを応用することを検討する。 シミュレーションと物理ベンチマークの結果は、このアプローチの成功率と有望な可能性を示している。

Robotic grasping in highly noisy environments presents complex challenges, especially with limited prior knowledge about the scene. In particular, identifying good grasping poses with Bayesian inference becomes difficult due to two reasons: i) generating data from uninformative priors proves to be inefficient, and ii) the posterior often entails a complex distribution defined on a Riemannian manifold. In this study, we explore the use of implicit representations to construct scene-dependent priors, thereby enabling the application of efficient simulation-based Bayesian inference algorithms for determining successful grasp poses in unstructured environments. Results from both simulation and physical benchmarks showcase the high success rate and promising potential of this approach.
翻訳日:2023-04-20 10:35:38 公開日:2023-04-19
# 多人数会話における話者プロファイリング

Speaker Profiling in Multiparty Conversations ( http://arxiv.org/abs/2304.08801v2 )

ライセンス: Link先を確認
Shivani Kumar, Rishabh Gupta, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 会話環境では、個人は独特な行動を示し、対話エージェントによる応答を生成するのに不適格なアプローチを提示する。 過去の研究は、話者ペルソナ情報を用いたパーソナライズされた対話エージェントを作成することを目的としていたが、既に話者ペルソナが提供されているという仮定に依存している。 しかし、特に銀行、ホテル予約、航空会社予約などの産業で使われるチャットボットに関しては、この仮定が常に有効であるとは限らない。 本研究の目的は,会話における話者プロファイリング(SPC)の課題を探求することで,このギャップを埋めることである。 SPCの主な目的は、対話に存在する各話者のペルソナ特性の要約を作成することである。 そこで我々は,課題をペルソナ発見,ペルソナ型識別,ペルソナ値抽出という3つのサブタスクに分割した。 最初のサブタスクは、ペルソナ情報を含むすべての発話を識別することを目的としている。 次に、第2のタスクは、これらの発話を評価し、保持するペルソナ情報の種類を識別し、第3のサブタスクは、識別された各タイプの特定のペルソナ値を識別する。 SPCの課題に対処するため、私たちはSPICEという名前の新しいデータセットをキュレートしました。 我々は、このデータセットの様々なベースラインを評価し、新しいニューラルモデルSPOTでベンチマークを行い、本論文で紹介する。 さらに,SPOTの包括的解析を行い,各モジュールの制約を定量的かつ質的に検討する。

In conversational settings, individuals exhibit unique behaviors, rendering a one-size-fits-all approach insufficient for generating responses by dialogue agents. Although past studies have aimed to create personalized dialogue agents using speaker persona information, they have relied on the assumption that the speaker's persona is already provided. However, this assumption is not always valid, especially when it comes to chatbots utilized in industries like banking, hotel reservations, and airline bookings. This research paper aims to fill this gap by exploring the task of Speaker Profiling in Conversations (SPC). The primary objective of SPC is to produce a summary of persona characteristics for each individual speaker present in a dialogue. To accomplish this, we have divided the task into three subtasks: persona discovery, persona-type identification, and persona-value extraction. Given a dialogue, the first subtask aims to identify all utterances that contain persona information. Subsequently, the second task evaluates these utterances to identify the type of persona information they contain, while the third subtask identifies the specific persona values for each identified type. To address the task of SPC, we have curated a new dataset named SPICE, which comes with specific labels. We have evaluated various baselines on this dataset and benchmarked it with a new neural model, SPOT, which we introduce in this paper. Furthermore, we present a comprehensive analysis of SPOT, examining the limitations of individual modules both quantitatively and qualitatively.
翻訳日:2023-04-20 10:35:27 公開日:2023-04-19
# スケルトンクラウドカラー化による自己教師付き3次元行動表現学習

Self-Supervised 3D Action Representation Learning with Skeleton Cloud Colorization ( http://arxiv.org/abs/2304.08799v2 )

ライセンス: Link先を確認
Siyuan Yang, Jun Liu, Shijian Lu, Er Meng Hwa, Yongjian Hu, Alex C. Kot(参考訳) 3dスケルトンに基づく人間の行動認識は近年注目を集めている。 既存の作業の多くは教師あり学習に重点を置いており、大量のラベル付けされたアクションシーケンスを必要とする。 本稿では骨格に基づく行動認識のための自己教師型3次元行動表現学習について述べる。 自己教師あり表現学習と,ラベルなしスケルトンシーケンスデータから空間的および時間的スケルトン表現を学習できる新しいスケルトンクラウドカラー化手法の設計について検討した。 我々は3次元スケルトン雲として骨格行動シーケンスを表現し、元の(注釈のない)スケルトンシーケンスの時間的および空間的順序に従って雲の各点を着色する。 色付きスケルトン点雲を活用することで、スケルトン関節の人工色ラベルから空間的特徴を効果的に学習できる自動エンコーダフレームワークを設計する。 具体的には,細粒度と粗粒度を生かした2次元事前学習ネットワークをデザインし,マルチスケール空間-時間的特徴を学習する。 さらに、設計した自動エンコーダフレームワークを事前訓練して情報表現を学習できるMasked Skeleton Cloud Repaintingタスクを設計する。 我々は,教師なし,半教師なし,完全教師なし,転送学習設定を含む,異なる構成でトレーニングされた線形分類器を用いて,スケルトンクラウドカラー化アプローチを評価した。 NTU RGB+D, NTU RGB+D 120, PKU-MMD, NW-UCLA, UWA3Dデータセットの大規模な実験により, 提案手法は既存の教師なしおよび半教師付き3D動作認識手法よりも大きなマージンで優れており, 教師付き3D動作認識における競争性能も向上していることが示された。

3D Skeleton-based human action recognition has attracted increasing attention in recent years. Most of the existing work focuses on supervised learning which requires a large number of labeled action sequences that are often expensive and time-consuming to annotate. In this paper, we address self-supervised 3D action representation learning for skeleton-based action recognition. We investigate self-supervised representation learning and design a novel skeleton cloud colorization technique that is capable of learning spatial and temporal skeleton representations from unlabeled skeleton sequence data. We represent a skeleton action sequence as a 3D skeleton cloud and colorize each point in the cloud according to its temporal and spatial orders in the original (unannotated) skeleton sequence. Leveraging the colorized skeleton point cloud, we design an auto-encoder framework that can learn spatial-temporal features from the artificial color labels of skeleton joints effectively. Specifically, we design a two-steam pretraining network that leverages fine-grained and coarse-grained colorization to learn multi-scale spatial-temporal features. In addition, we design a Masked Skeleton Cloud Repainting task that can pretrain the designed auto-encoder framework to learn informative representations. We evaluate our skeleton cloud colorization approach with linear classifiers trained under different configurations, including unsupervised, semi-supervised, fully-supervised, and transfer learning settings. Extensive experiments on NTU RGB+D, NTU RGB+D 120, PKU-MMD, NW-UCLA, and UWA3D datasets show that the proposed method outperforms existing unsupervised and semi-supervised 3D action recognition methods by large margins and achieves competitive performance in supervised 3D action recognition as well.
翻訳日:2023-04-20 10:35:00 公開日:2023-04-19
# マスキング言語モデルに基づくテキスト逆例検出

Masked Language Model Based Textual Adversarial Example Detection ( http://arxiv.org/abs/2304.08767v2 )

ライセンス: Link先を確認
Xiaomei Zhang, Zhaoxi Zhang, Qi Zhong, Xufei Zheng, Yanjun Zhang, Shengshan Hu, Leo Yu Zhang(参考訳) 敵攻撃は、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。 入力をわずかに修正することで、電流モデルを誤って予測することができる。 近年、多くの研究が、逆例は通常の例のデータ多様体から逸脱する傾向を示し、一方、事前学習されたマスキング言語モデルは通常のNLPデータの多様体に適合することを示した。 マスク付き言語モデルを用いた対向検出手法を提案するために,マスク付き言語モデルによって誘導される多様体の変化を探索することにより,正規例と対向例とを明確に区別可能な信号を生成できる,新しいテキスト対向的サンプル検出手法であるMasked Language Model-based Detection (MLMD)を提案する。 MLMDは、敵防衛のためのプラグ・アンド・プレイの使用法(すなわち、犠牲者モデルを再訓練する必要がない)を備えており、分類タスク、犠牲者モデルのアーキテクチャ、そして防御された攻撃方法には依存しない。 我々は、様々なベンチマークテキストデータセット、広く研究された機械学習モデル、および最先端(sota)敵対的攻撃(合計3*4*4 = 48$設定)でmlmdを評価する。 実験の結果, MLMDはAG-NEWS, IMDB, SST-2データセット上で, 0.984, 0.967, 0.901の検出精度で高い性能が得られることがわかった。 さらに、MLMDは、検出精度およびF1スコアにおけるSOTA検出防御よりも優れているか、少なくとも同等である。 逆例のオフマンフォールドの仮定に基づく多くの防衛の中で、この研究は多様体の変化を捉えるための新しい角度を提供する。 この作業のコードは \url{https://github.com/mlmddetection/mlmddetection} で公開されている。

Adversarial attacks are a serious threat to the reliable deployment of machine learning models in safety-critical applications. They can misguide current models to predict incorrectly by slightly modifying the inputs. Recently, substantial work has shown that adversarial examples tend to deviate from the underlying data manifold of normal examples, whereas pre-trained masked language models can fit the manifold of normal NLP data. To explore how to use the masked language model in adversarial detection, we propose a novel textual adversarial example detection method, namely Masked Language Model-based Detection (MLMD), which can produce clearly distinguishable signals between normal examples and adversarial examples by exploring the changes in manifolds induced by the masked language model. MLMD features a plug and play usage (i.e., no need to retrain the victim model) for adversarial defense and it is agnostic to classification tasks, victim model's architectures, and to-be-defended attack methods. We evaluate MLMD on various benchmark textual datasets, widely studied machine learning models, and state-of-the-art (SOTA) adversarial attacks (in total $3*4*4 = 48$ settings). Experimental results show that MLMD can achieve strong performance, with detection accuracy up to 0.984, 0.967, and 0.901 on AG-NEWS, IMDB, and SST-2 datasets, respectively. Additionally, MLMD is superior, or at least comparable to, the SOTA detection defenses in detection accuracy and F1 score. Among many defenses based on the off-manifold assumption of adversarial examples, this work offers a new angle for capturing the manifold change. The code for this work is openly accessible at \url{https://github.com/mlmddetection/MLMDdetection}.
翻訳日:2023-04-20 10:34:25 公開日:2023-04-19
# Open World Weakly Supervised Object Localization

Open-World Weakly-Supervised Object Localization ( http://arxiv.org/abs/2304.08271v2 )

ライセンス: Link先を確認
Jinheng Xie and Zhaochuan Luo and Yuexiang Li and Haozhe Liu and Linlin Shen and Mike Zheng Shou(参考訳) 弱い教師付きオブジェクトローカライゼーション(WSOL)では顕著な成功を収めているが、現在のフレームワークでは、オープンワールド設定で新しいカテゴリのオブジェクトを特定できない。 この問題に対処するため,我々はowsol(open-world weak-supervised object localization)と呼ばれる新しい弱教師付きオブジェクトローカライゼーションタスクを導入する。 トレーニング中、ラベル付きデータはすべて既知のカテゴリから得られ、ラベルなしデータには既知のカテゴリと新しいカテゴリの両方が存在する。 このようなデータを扱うために、ラベル付きデータとラベルなしデータの両方を用いたコントラスト表現協調学習のパラダイムを提案し、境界ボックスアノテーションを必要とせず、オブジェクトローカライゼーションのための完全なG-CAM(Generalized Class Activation Map)を生成する。 非ラベルデータにはクラスラベルがないため、フルトレーニングセット上でクラスタリングを行い、表現学習のための新しいセマンティックセントロイド駆動のコントラスト損失を設計する。 imagenet-1k と inatloc500 という2つのデータセットを再編成し,owsol の評価ベンチマークとして openimages150 を提案する。 大規模な実験により,提案手法は全ベースラインを大きなマージンで越えることができた。 この作業は、クローズセットのローカライゼーションをオープンワールド設定にシフトさせ、その後の作業の基盤となることができると考えています。 コードはhttps://github.com/ryylcc/OWSOLでリリースされる。

While remarkable success has been achieved in weakly-supervised object localization (WSOL), current frameworks are not capable of locating objects of novel categories in open-world settings. To address this issue, we are the first to introduce a new weakly-supervised object localization task called OWSOL (Open-World Weakly-Supervised Object Localization). During training, all labeled data comes from known categories and, both known and novel categories exist in the unlabeled data. To handle such data, we propose a novel paradigm of contrastive representation co-learning using both labeled and unlabeled data to generate a complete G-CAM (Generalized Class Activation Map) for object localization, without the requirement of bounding box annotation. As no class label is available for the unlabelled data, we conduct clustering over the full training set and design a novel multiple semantic centroids-driven contrastive loss for representation learning. We re-organize two widely used datasets, i.e., ImageNet-1K and iNatLoc500, and propose OpenImages150 to serve as evaluation benchmarks for OWSOL. Extensive experiments demonstrate that the proposed method can surpass all baselines by a large margin. We believe that this work can shift the close-set localization towards the open-world setting and serve as a foundation for subsequent works. Code will be released at https://github.com/ryylcc/OWSOL.
翻訳日:2023-04-20 10:33:51 公開日:2023-04-19