このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230424となっている論文です。

PDF登録状況(公開日: 20230424)

TitleAuthorsAbstract論文公表日・翻訳日
# 脳波信号からの微妙な依存関係抽出のための時間遅延多機能相関解析

Time delay multi-feature correlation analysis to extract subtle dependencies from EEG signals ( http://arxiv.org/abs/2305.09478v1 )

ライセンス: Link先を確認
Jarek Duda(参考訳) 脳波(EEG)信号は、非常に複雑な脳活動の結果である。 この隠れた力学のいくつかの詳細は、例えば結合分布$\rho_{\Delta t}$のような様々な時間遅延によってシフトした電極対の信号を通してアクセスすることができる(lag $\Delta t$)。 標準的なアプローチでは、ピアソン相関(あるいは相互情報)のような単一のジョイント分布の評価を監視しており、これは比較的興味を示さない結果となり、通常はゼロ遅延とほぼ対称な遅延のピークがある。 対照的に、そのような複雑な信号は、複数の種類の統計的依存関係で構成されているかもしれない。 具体的には,すべてのラグ依存を推定する多項式として,そのような関節分布をモデル化し,PCA次元の縮小により支配的な依存方向を$f_v$とする。 このようにして、いくつかの遅延依存機能が得られる: $a_i(\delta t)$ 既知の貢献の独立した支配的統計依存性: $\rho_{\delta t}(y,z)\approx \sum_{i=1}^r a_i(\delta t)\, f_{v_i}(y,z)$。 このような特徴はピアソンの相関を補完し、例えば情報伝達の方向に関連する非対称性、特性遅延を示唆するエクストリーム、周期性を示す発振挙動などの隠れた複雑な振る舞いを抽出する。 この初期の論文は初期の基礎研究であるが、将来は皮質の隠れたダイナミクスの理解、てんかんのような病理の診断、正確な電極位置の決定、脳-コンピューターインターフェイスの構築などに役立つかもしれない。

Electroencephalography (EEG) signals are resultants of extremely complex brain activity. Some details of this hidden dynamics might be accessible through e.g. joint distributions $\rho_{\Delta t}$ of signals of pairs of electrodes shifted by various time delays (lag $\Delta t$). A standard approach is monitoring a single evaluation of such joint distributions, like Pearson correlation (or mutual information), which turns out relatively uninteresting - as expected, there is usually a small peak for zero delay and nearly symmetric drop with delay. In contrast, such a complex signal might be composed of multiple types of statistical dependencies - this article proposes approach to automatically decompose and extract them. Specifically, we model such joint distributions as polynomials estimated for all considered lag dependencies, then with PCA dimensionality reduction find dominant dependency directions $f_v$. This way we get a few lag dependent features $a_i(\Delta t)$ describing separate dominating statistical dependencies of known contributions: $\rho_{\Delta t}(y,z)\approx \sum_{i=1}^r a_i(\Delta t)\, f_{v_i}(y,z)$. Such features complement Pearson correlation, extracting hidden more complex behavior, e.g. with asymmetry which might be related with direction of information transfer, extrema suggesting characteristic delays, or oscillatory behavior suggesting some periodicity. While this early article is initial fundamental research, in future it might help e.g. with understanding of cortex hidden dynamics, diagnosis of pathologies like epilepsy, determination of precise electrode position, or building brain-computer interface.
翻訳日:2023-05-21 11:05:22 公開日:2023-04-24
# あなたのアイデンティティはあなたの行動 - マシンラーニングとタッチダイナミクスに基づく継続的ユーザ認証

Your Identity is Your Behavior -- Continuous User Authentication based on Machine Learning and Touch Dynamics ( http://arxiv.org/abs/2305.09482v1 )

ライセンス: Link先を確認
Brendan Pelto, Mounika Vanamala, Rushit Dave(参考訳) 本研究の目的は,ニューラルネットワーク, Extreme Gradient Boosting, Support Vector Machineという3つの異なるアルゴリズムを用いて, 移動体タッチダイナミックスを用いた連続認証の利用を検討することである。 現在、スマートフォンのサブスクリプション数は60億を超えている。 モバイルタッチダイナミクスは、ユーザがモバイルデバイスとどのように対話するかという、異なるパターンを指しており、これは、タッチ圧力、スワイプ速度、タッチ持続時間などの要素を含んでいる。 継続的認証とは、初期ログインだけでなく、デバイスを使用しているときにユーザーのアイデンティティを継続的に検証するプロセスを指す。 本研究は,LG V30+を用いた40名の被験者から収集したタッチダイナミクスのデータセットを用いた。 参加者は4つのモバイルゲーム、PUBG、Diep.io、Slither、Minecraftをそれぞれ10分間プレイした。 抽出したデータセット上で3つのアルゴリズムを訓練し,その性能を精度,精度,偽陰性率,偽陽性率などの指標に基づいて評価した。 研究の結果,3つのアルゴリズムはいずれも,個々のタッチダイナミクスに基づいて,80%から95%の精度でユーザを効果的に分類することができた。 ニューラルネットワークアルゴリズムは最高の精度と精度を達成し、その後にXGBoostとSVCが続いた。 このデータから,モバイルタッチダイナミクスを用いた連続認証は,セキュリティの向上と個人デバイスへの不正アクセスのリスク低減に有効な手段である可能性が示唆された。 この研究は、特定のタスクに応じて異なるアルゴリズムが様々なパフォーマンスレベルを持つ可能性があるため、与えられたデータセットとユースケースに対して正しいアルゴリズムを選択することの重要性も指摘している。

The aim of this research paper is to look into the use of continuous authentication with mobile touch dynamics, using three different algorithms: Neural Network, Extreme Gradient Boosting, and Support Vector Machine. Mobile devices are constantly increasing in popularity in the world, today smartphone subscriptions have surpassed 6 billion. Mobile touch dynamics refer to the distinct patterns of how a user interacts with their mobile device, this includes factors such as touch pressure, swipe speed, and touch duration. Continuous authentication refers to the process of continuously verifying a user's identity while they are using a device, rather than just at the initial login. This research used a dataset of touch dynamics collected from 40 subjects using the LG V30+. The participants played four mobile games, PUBG, Diep.io, Slither, and Minecraft, for 10 minutes each game. The three algorithms were trained and tested on the extracted dataset, and their performance was evaluated based on metrics such as accuracy, precision, false negative rate, and false positive rate. The results of the research showed that all three algorithms were able to effectively classify users based on their individual touch dynamics, with accuracy ranging from 80% to 95%. The Neural Network algorithm performed the best, achieving the highest accuracy and precision scores, followed closely by XGBoost and SVC. The data shows that continuous authentication using mobile touch dynamics has the potential to be a useful method for enhancing security and reducing the risk of unauthorized access to personal devices. This research also notes the importance of choosing the correct algorithm for a given dataset and use case, as different algorithms may have varying levels of performance depending on the specific task.
翻訳日:2023-05-21 10:54:14 公開日:2023-04-24
# コンテクストエンリッチな分子表現は、少量の薬物発見を改善する

Context-enriched molecule representations improve few-shot drug discovery ( http://arxiv.org/abs/2305.09481v1 )

ライセンス: Link先を確認
Johannes Schimunek, Philipp Seidl, Lukas Friedrich, Daniel Kuhn, Friedrich Rippmann, Sepp Hochreiter, and G\"unter Klambauer(参考訳) 計算薬物発見における中心的な課題は、既知の活性分子からモデルを構築し、その後のスクリーニングのためにさらに有望な分子を見つけることである。 しかし、通常、活性分子はほとんど知られていない。 したがって, 創薬過程におけるこの臨界相の有効性を, 数少ない学習方法が改善する可能性が示唆された。 数発の薬物発見のための新しい方法を提案する。 その主な考え方は、既知の文脈や参照分子に関する知識によって分子の表現を強化することである。 分子表現エンリッチメントの新たな概念は、サポートセットとクエリセットの両方の分子をモダンホップフィールドネットワークを通じて参照(コンテキスト)分子の集合に関連付けることである。 直感的には、この濃縮段階は、特定の分子と、その性質が知られている親しみやすい分子を関連付ける人間の専門家に類似している。 エンリッチメントステップは、データの共分散構造を強化し、増幅するとともに、分子の装飾から生じるスプリアス相関も同時に除去する。 この手法はfs-molベンチマークデータセット上での薬物発見のための他の数少ない手法と比較される。 fs-molでは,提案手法は比較法を上回っており,創薬における新技術が確立されている。 アブレーション研究により,本手法の富化ステップが予測品質向上の鍵であることが示唆された。 ドメインシフト実験では,提案手法の堅牢性をさらに実証する。 コードはhttps://github.com/ml-jku/mhnfsで入手できる。

A central task in computational drug discovery is to construct models from known active molecules to find further promising molecules for subsequent screening. However, typically only very few active molecules are known. Therefore, few-shot learning methods have the potential to improve the effectiveness of this critical phase of the drug discovery process. We introduce a new method for few-shot drug discovery. Its main idea is to enrich a molecule representation by knowledge about known context or reference molecules. Our novel concept for molecule representation enrichment is to associate molecules from both the support set and the query set with a large set of reference (context) molecules through a Modern Hopfield Network. Intuitively, this enrichment step is analogous to a human expert who would associate a given molecule with familiar molecules whose properties are known. The enrichment step reinforces and amplifies the covariance structure of the data, while simultaneously removing spurious correlations arising from the decoration of molecules. Our approach is compared with other few-shot methods for drug discovery on the FS-Mol benchmark dataset. On FS-Mol, our approach outperforms all compared methods and therefore sets a new state-of-the art for few-shot learning in drug discovery. An ablation study shows that the enrichment step of our method is the key to improve the predictive quality. In a domain shift experiment, we further demonstrate the robustness of our method. Code is available at https://github.com/ml-jku/MHNfs.
翻訳日:2023-05-21 10:53:46 公開日:2023-04-24
# 機械学習相互作用電位を用いたリチウム金属の大規模表面および有限温度バルク特性

Accurate Surface and Finite Temperature Bulk Properties of Lithium Metal at Large Scales using Machine Learning Interaction Potentials ( http://arxiv.org/abs/2305.06925v1 )

ライセンス: Link先を確認
Mgcini Keith Phuthi and Archie Mingze Yao and Simon Batzner and Albert Musaelian and Boris Kozinsky and Ekin Dogus Cubuk and Venkatasubramanian Viswanathan(参考訳) リチウム金属の特性はリチウムイオンとリチウム金属電池の設計における重要なパラメータである。 リチウムの高反応性と融点の低いリチウムと、リチウムが強化された電池に存在している顕微鏡スケールにより、デンドライト抑制戦略に影響を及ぼすため、実験的に探究することは困難である。 計算学的には、すべての特性に対して一貫した量的精度を持つ経験的ポテンシャルの欠如があり、ab-initio計算は高価すぎる。 本研究では,密度汎関数理論(dft)データを用いた機械学習インタラクションポテンシャル(mlips)を,実験およびab-initio結果の再現における最先端精度に訓練し,大規模・時間的シミュレーションを行った。 DFTを用いて, 熱力学特性, フォノンスペクトル, 弾性定数の温度依存性および各種表面特性を正確に予測する。 我々は,高ミラー指数面に対する自己吸着エネルギーと最小表面拡散障壁を関連付けるベル・エヴァンス・ポラニ関係が存在することを見出した。

The properties of lithium metal are key parameters in the design of lithium ion and lithium metal batteries. They are difficult to probe experimentally due to the high reactivity and low melting point of lithium as well as the microscopic scales at which lithium exists in batteries where it is found to have enhanced strength, with implications for dendrite suppression strategies. Computationally, there is a lack of empirical potentials that are consistently quantitatively accurate across all properties and ab-initio calculations are too costly. In this work, we train Machine Learning Interaction Potentials (MLIPs) on Density Functional Theory (DFT) data to state-of-the-art accuracy in reproducing experimental and ab-initio results across a wide range of simulations at large length and time scales. We accurately predict thermodynamic properties, phonon spectra, temperature dependence of elastic constants and various surface properties inaccessible using DFT. We establish that there exists a Bell-Evans-Polanyi relation correlating the self-adsorption energy and the minimum surface diffusion barrier for high Miller index facets.
翻訳日:2023-05-14 20:48:44 公開日:2023-04-24
# 深層学習を用いたパイルアップ信号からの原信号の復元

Restoring Original Signal From Pile-up Signal using Deep Learning ( http://arxiv.org/abs/2304.14496v1 )

ライセンス: Link先を確認
C. H. Kim, S. Ahn, K. Y. Chae, J. Hooker, G. V. Rogachev(参考訳) パイルアップ信号は実験物理学でしばしば生成される。 不確実性の高い不正確な物理データを作成し、様々な問題を引き起こす。 そのため、信号の積み上げに対する補正が不可欠である。 本研究では,重ね合わせ信号から元の信号を復元する深層学習手法を実装した。 深層学習モデルでは, 重ね上げ波形から元の信号波形を正確に再現できることが分かった。 モデルによって予測された元の信号で積み上げ信号に代えて、データのエネルギーとタイミングの解像度を顕著に向上させる。 モデル実装により粒子識別プロットと粒子トラックの品質が大幅に向上した。 この方法は、複数の信号の分離や、他の種類のノイズや背景による積み上げ信号の補正など、同様の問題に適用できる。

Pile-up signals are frequently produced in experimental physics. They create inaccurate physics data with high uncertainty and cause various problems. Therefore, the correction to pile-up signals is crucially required. In this study, we implemented a deep learning method to restore the original signals from the pile-up signals. We showed that a deep learning model could accurately reconstruct the original signal waveforms from the pile-up waveforms. By substituting the pile-up signals with the original signals predicted by the model, the energy and timing resolutions of the data are notably enhanced. The model implementation significantly improved the quality of the particle identification plot and particle tracks. This method is applicable to similar problems, such as separating multiple signals or correcting pile-up signals with other types of noises and backgrounds.
翻訳日:2023-05-07 16:22:11 公開日:2023-04-24
# 脳波発作予測のための教師付き・教師なしディープラーニングアプローチ

Supervised and Unsupervised Deep Learning Approaches for EEG Seizure Prediction ( http://arxiv.org/abs/2304.14922v1 )

ライセンス: Link先を確認
Zakary Georgis-Yap, Milos R. Popovic, Shehroz S. Khan(参考訳) てんかんは全世界で5000万人以上の人々に影響を与え、世界有数の神経疾患となっている。 てんかんの主な症状は発作であり、突然発生し、重傷や死を引き起こすことがある。 てんかん発作の発生を予測する能力は、多くのリスクを軽減し、てんかんの顔を持つ人々にストレスを与える。 これまでの研究のほとんどは発作検出に焦点を当てており、我々は発作予測問題に焦点をあてている。 入射前発作の前兆として, 正常脳波(preictal, pre-seizure)を検出する問題を定式化する。 そこで我々は,脳波から前頭前頭脳波を同定するための教師付き深層学習モデルを開発した。 さらに,通常の脳波のみを学習するための新しい教師なし深層学習手法を開発し,異常事象である前脳波を検出する。 これらの深層学習モデルは、個人固有の方法で2つの大きな脳波発作データセットで訓練され評価された。 我々は,教師付きアプローチと教師なしアプローチの両方が実現可能であることを見出したが,その性能は患者,アプローチ,アーキテクチャによって異なる。 この新たな研究は、治療介入を開発し、人間の命を救う可能性がある。

Epilepsy affects more than 50 million people worldwide, making it one of the world's most prevalent neurological diseases. The main symptom of epilepsy is seizures, which occur abruptly and can cause serious injury or death. The ability to predict the occurrence of an epileptic seizure could alleviate many risks and stresses people with epilepsy face. Most of the previous work is focused at seizure detection, we pivot our focus to seizure prediction problem. We formulate the problem of detecting preictal (or pre-seizure) with reference to normal EEG as a precursor to incoming seizure. To this end, we developed several supervised deep learning approaches model to identify preictal EEG from normal EEG. We further develop novel unsupervised deep learning approaches to train the models on only normal EEG, and detecting pre-seizure EEG as an anomalous event. These deep learning models were trained and evaluated on two large EEG seizure datasets in a person-specific manner. We found that both supervised and unsupervised approaches are feasible; however, their performance varies depending on the patient, approach and architecture. This new line of research has the potential to develop therapeutic interventions and save human lives.
翻訳日:2023-05-07 16:15:17 公開日:2023-04-24
# 単一チャネル源分離のための逆生成nmf

Adversarial Generative NMF for Single Channel Source Separation ( http://arxiv.org/abs/2305.01758v1 )

ライセンス: Link先を確認
Martin Ludvigsen and Markus Grasmair(参考訳) 正規化関数の逆学習という考え方は、最近逆問題のより広い文脈で導入されている。 この手法の背景にある直観は、自分が表現したい信号のクラスを構成する基本的な特徴を学ぶだけでなく、表現において避けるべき特徴、あるいはそれ以上のことを学ぶ必要があるという認識である。 本稿では,非負行列分解(NMF)による音源分離問題に本手法を適用し,NMFベースに対する対角的学習法を提案する。 画像と音声を分離する数値実験では、特に強い監視データがほとんど、あるいは全くない場合には、再構成信号が明らかに改善されることが示されている。

The idea of adversarial learning of regularization functionals has recently been introduced in the wider context of inverse problems. The intuition behind this method is the realization that it is not only necessary to learn the basic features that make up a class of signals one wants to represent, but also, or even more so, which features to avoid in the representation. In this paper, we will apply this approach to the problem of source separation by means of non-negative matrix factorization (NMF) and present a new method for the adversarial training of NMF bases. We show in numerical experiments, both for image and audio separation, that this leads to a clear improvement of the reconstructed signals, in particular in the case where little or no strong supervision data is available.
翻訳日:2023-05-07 15:54:04 公開日:2023-04-24
# 命令調整llmと潜在拡散モデルを用いたテキスト音声生成

Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model ( http://arxiv.org/abs/2304.13731v1 )

ライセンス: Link先を確認
Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria(参考訳) 近年の大規模言語モデル(LLM)の大規模化により、命令やチェーン・オブ・シンクベースの微調整など、多くの自然言語処理(NLP)タスクにおいてゼロ・ショットのパフォーマンスが大幅に向上した多くの興味深い特性が実現されている。 このような成功に触発されて、テキスト・トゥ・オーディオ(TTA)生成のためのテキストエンコーダとして、このような命令付きLLM Flan-T5を採用しました。 TTAの以前の作業では、ジョイントテキストオーディオエンコーダを事前訓練するか、T5のような命令なしモデルを使用していた。 その結果、我々の潜在拡散モデル(LDM)ベースのアプローチであるTANGOは、ほとんどのメトリクスにおいて最先端のAudioLDMよりも優れており、63倍のデータセットでLDMをトレーニングし、テキストエンコーダを凍結し続けるにもかかわらず、AudioCapsテストセットでそれと同等である。 この改善は、トレーニングセットの強化にオーディオプレッシャーレベルベースのサウンドミキシングが採用されていることによるものでもあり得る。

The immense scale of the recent large language models (LLM) allows many interesting properties, such as, instruction- and chain-of-thought-based fine-tuning, that has significantly improved zero- and few-shot performance in many natural language processing (NLP) tasks. Inspired by such successes, we adopt such an instruction-tuned LLM Flan-T5 as the text encoder for text-to-audio (TTA) generation -- a task where the goal is to generate an audio from its textual description. The prior works on TTA either pre-trained a joint text-audio encoder or used a non-instruction-tuned model, such as, T5. Consequently, our latent diffusion model (LDM)-based approach TANGO outperforms the state-of-the-art AudioLDM on most metrics and stays comparable on the rest on AudioCaps test set, despite training the LDM on a 63 times smaller dataset and keeping the text encoder frozen. This improvement might also be attributed to the adoption of audio pressure level-based sound mixing for training set augmentation, whereas the prior methods take a random mix.
翻訳日:2023-04-28 15:39:27 公開日:2023-04-24
# AI, write an essay for me: A Large-scale comparison of human-written vs ChatGPT- generated essays

AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays ( http://arxiv.org/abs/2304.14276v1 )

ライセンス: Link先を確認
Steffen Herbold, Annette Hautli-Janisz, Ute Heuer, Zlata Kikteva, Alexander Trautsch(参考訳) 背景: 最近、ChatGPTや同様の生成AIモデルが、数億人のユーザーを引きつけ、公衆の議論の一部となった。 このようなモデルは社会を混乱させ、将来教育システムと情報生成に大きな変化をもたらすと多くの人が信じている。 これまでのところ、この信念は、モデル所有者の口語的証拠またはベンチマークに基づくもので、どちらも科学的厳密さを欠いている。 目的:人間書きとChatGPT生成の議論的学生エッセイを比較し,AI生成コンテンツの品質を体系的に評価する。 方法:多数のエッセイのコーパスが、多数の人間専門家(教師)によって標準基準を用いて評価された。 生成されたエッセイの言語的特徴を考慮した分析を強化する。 結果: この結果から,ChatGPTは人文エッセイよりも高い評価のエッセイを生成することが示された。 aiモデルの文体は、人間の書いたエッセイとは異なる言語的特徴を示しており、例えば、より少ない談話と認識マーカーによって特徴付けられるが、より名指し化と語彙の多様性が特徴である。 結論: この結果は、ChatGPTのようなモデルが、議論的なエッセイを生成する上で人間より優れていることを明らかに示しています。 誰でも利用できる技術なので、教育者はすぐに行動しなければならない。 私たちは宿題を再発明し、数学が電卓を使ったのと同じ方法でこれらのAIモデルを利用する教育概念を開発しなければなりません。

Background: Recently, ChatGPT and similar generative AI models have attracted hundreds of millions of users and become part of the public discourse. Many believe that such models will disrupt society and will result in a significant change in the education system and information generation in the future. So far, this belief is based on either colloquial evidence or benchmarks from the owners of the models -- both lack scientific rigour. Objective: Through a large-scale study comparing human-written versus ChatGPT-generated argumentative student essays, we systematically assess the quality of the AI-generated content. Methods: A large corpus of essays was rated using standard criteria by a large number of human experts (teachers). We augment the analysis with a consideration of the linguistic characteristics of the generated essays. Results: Our results demonstrate that ChatGPT generates essays that are rated higher for quality than human-written essays. The writing style of the AI models exhibits linguistic characteristics that are different from those of the human-written essays, e.g., it is characterized by fewer discourse and epistemic markers, but more nominalizations and greater lexical diversity. Conclusions: Our results clearly demonstrate that models like ChatGPT outperform humans in generating argumentative essays. Since the technology is readily available for anyone to use, educators must act immediately. We must re-invent homework and develop teaching concepts that utilize these AI models in the same way as math utilized the calculator: teach the general concepts first and then use AI tools to free up time for other learning objectives.
翻訳日:2023-04-28 13:02:43 公開日:2023-04-24
# 非可換空間における分離性のチューニング

Tuning the separability in noncommutative space ( http://arxiv.org/abs/2304.13035v1 )

ライセンス: Link先を確認
Pinaki Patra(参考訳) 二次元ガウス状態に対する一般化されたペレス・ホロデツキ分離性基準(サイモンの条件)の助けを借りて、非可換空間(NCS)座標自由度の分離性について研究した。 通常の可換空間と NCS の間の変換の非シンプレクティックな性質は、NCS におけるサイモン条件の直接的な使用を制限する。 我々は NCS システムを、ボップシフトを通じて可換空間における等価ハミルトニアンに変換し、分離性基準の利用を可能にした。 NC空間における双極子状態の分離性に対するパラメータの影響を比較的一般的なものにするために、時間依存(TD)パラメータを持つ双線型ハミルトニアンと、フィールドモードにおける線形なTD外部相互作用を考察した。 システムは(sp(4,\mathbb{r})$)内在的なシンプレクティック構造を保ち続ける正準形式に変換される。 td-schr\"{o}dinger方程式の解はlewis-riesenfeld invariant method (lrim) の助けを借りて得られる。 観測変数(共分散行列)の期待値は、LRIMから得られた状態から構成される。 発振器における異方性の存在は状態の分離性を決定することが判明した。 特に等方振動子の場合、二部状態は常に分離可能であるが、特定の異方性パラメータ値は分離性を停止することができる。 したがって、パラメータ値を調整することで、状態の分離性を破壊または再現することができる。 玩具モデルの助けを借りて,TD-NCSパラメータのチューニングが分離性に与える影響を実証した。

With the help of the generalized Peres-Horodecki separability criterion (Simon's condition) for a bipartite Gaussian state, we have studied the separability of the noncommutative space (NCS) coordinate degrees of freedom. Non-symplectic nature of the transformation between the usual commutative space and NCS restricts the straightforward use of Simon's condition in NCS. We have transformed the NCS system to an equivalent Hamiltonian in commutative space through the Bopp shift, which enables the utilization of the separability criterion. To make our study fairly general and to analyze the effect of parameters on the separability of bipartite state in NC-space, we have considered a bilinear Hamiltonian with time-dependent (TD) parameters, along with a TD external interaction, which is linear in field modes. The system is transformed ($Sp(4,\mathbb{R})$) into canonical form keeping the intrinsic symplectic structure intact. The solution of the TD-Schr\"{o}dinger equation is obtained with the help of the Lewis-Riesenfeld invariant method (LRIM). Expectation values of the observables (thus the covariance matrix ) are constructed from the states obtained from LRIM. It turns out that the existence of the anisotropy in the oscillator determines the separability of the states. In particular, for an isotropic oscillator, the bipartite states are always separable, whereas particular anisotropic parameter values may cease the separability. Thus tuning the parameter values, one can destroy or recreate the separability of states. With the help of a toy model, we have demonstrated how the tuning of a TD- NCS parameter affects the separability.
翻訳日:2023-04-27 17:03:22 公開日:2023-04-24
# 添加加工品の表面粗さ予測のための量子機械学習アプローチ

Quantum Machine Learning Approach for the Prediction of Surface Roughness in Additive Manufactured Specimens ( http://arxiv.org/abs/2304.13142v1 )

ライセンス: Link先を確認
Akshansh Mishra, Vijaykumar S. Jatti(参考訳) 表面粗さは、添加物製造部品の性能と機能に影響を与える重要な要因である。 表面粗さの正確な予測は製造工程の最適化と最終製品の品質確保に不可欠である。 量子コンピューティングは最近、複雑な問題に取り組み、正確な予測モデルを作成する潜在的な解決策として注目を集めている。 本稿では,3つの量子アルゴリズム,すなわち量子ニューラルネットワーク (qnn) ,量子フォレスト (q-forest) および変分量子分類器 (vqc) の詳細な比較を行った。 我々は,平均二乗誤差(MSE),平均絶対誤差(MAE),説明可変スコア(EVS)を評価指標として,アルゴリズムの性能を評価する。 その結果,Q-Forestアルゴリズムは他のアルゴリズムを上回り,MSEは56.905,MAEは7.479,EVSは0.2957であった。 対照的に、QNNアルゴリズムは60.840、MAEは7.671で、負のEVSは-0.444であり、この応用では表面粗さを予測できない可能性がある。 VQCは回帰に適応しており、MSEは59.121、MAEは7.597、ESVは0.0106であり、Q-Forestアルゴリズムよりも性能が劣っていることを示している。

Surface roughness is a crucial factor influencing the performance and functionality of additive manufactured components. Accurate prediction of surface roughness is vital for optimizing manufacturing processes and ensuring the quality of the final product. Quantum computing has recently gained attention as a potential solution for tackling complex problems and creating precise predictive models. In this research paper, we conduct an in-depth comparison of three quantum algorithms i.e. the Quantum Neural Network (QNN), Quantum Forest (Q-Forest), and Variational Quantum Classifier (VQC) adapted for regression for predicting surface roughness in additive manufactured specimens for the first time. We assess the algorithms performance using Mean Squared Error (MSE), Mean Absolute Error (MAE), and Explained Variance Score (EVS) as evaluation metrics. Our findings show that the Q-Forest algorithm surpasses the other algorithms, achieving an MSE of 56.905, MAE of 7.479, and an EVS of 0.2957. In contrast, the QNN algorithm displays a higher MSE of 60.840 and MAE of 7.671, coupled with a negative EVS of -0.444, indicating that it may not be appropriate for predicting surface roughness in this application. The VQC adapted for regression exhibits an MSE of 59.121, MAE of 7.597, and an EVS of -0.0106, suggesting its performance is also inferior to the Q-Forest algorithm.
翻訳日:2023-04-27 16:22:28 公開日:2023-04-24
# 抽象要約における抽象性と事実性のトレードオフの評価

Evaluating the Tradeoff Between Abstractiveness and Factuality in Abstractive Summarization ( http://arxiv.org/abs/2108.02859v2 )

ライセンス: Link先を確認
Markus Dreyer, Mengwen Liu, Feng Nan, Sandeep Atluri, Sujith Ravi(参考訳) 抽象的な要約のためのニューラルモデルでは、入力文書に関して意味的な忠実さや事実性を欠いた、流動的で整然とした出力を生成する傾向がある。 本稿では,複数のデータセットやモデルにまたがって生成した要約の抽象性と事実性のトレードオフを分析する。 分析では,デコード制約を用いて抽象性を徐々に増加させるにつれて,現実性の変化率を可視化し,抽象性の増加は一般的に事実性の低下につながるが,事実性の減衰率は,システムが訓練したデータなどの要因に依存することを示した。 1つは体系的に異なる抽象度を持つ10.2kの要約、もう1つは5つの異なる要約モデルから4.2kの要約を含む。 我々は,抽象性の度合いを調節する新しい事実度指標を提案し,それらを用いて,過去の要約作業の抽象性調整事実度を比較し,今後の作業のベースラインを提供する。

Neural models for abstractive summarization tend to generate output that is fluent and well-formed but lacks semantic faithfulness, or factuality, with respect to the input documents. In this paper, we analyze the tradeoff between abstractiveness and factuality of generated summaries across multiple datasets and models, using extensive human evaluations of factuality. In our analysis, we visualize the rates of change in factuality as we gradually increase abstractiveness using a decoding constraint, and we observe that, while increased abstractiveness generally leads to a drop in factuality, the rate of factuality decay depends on factors such as the data that the system was trained on. We introduce two datasets with human factuality judgements; one containing 10.2k generated summaries with systematically varied degrees of abstractiveness; the other containing 4.2k summaries from five different summarization models. We propose new factuality metrics that adjust for the degree of abstractiveness, and we use them to compare the abstractiveness-adjusted factuality of previous summarization works, providing baselines for future work.
翻訳日:2023-04-27 04:14:01 公開日:2023-04-24
# モデルに依存しないメタラーニングと個人化フェデレーション学習のためのメモリベース最適化手法

Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and Personalized Federated Learning ( http://arxiv.org/abs/2106.04911v4 )

ライセンス: Link先を確認
Bokun Wang, Zhuoning Yuan, Yiming Ying, Tianbao Yang(参考訳) 近年,モデルに依存しないメタラーニング(MAML)が普及している。 しかし,MAMLの確率的最適化はまだ未開発である。 既存のMAMLアルゴリズムは、いくつかのタスクとデータポイントをサンプリングして各イテレーションでメタモデルを更新することで、‘episode’というアイデアに依存している。 それでもこれらのアルゴリズムは、一定のミニバッチサイズでの収束を保証できないか、あるいはイテレーション毎に多数のタスクを処理する必要がある。 これらの問題に対処するために,MAMLのメモリベースの確率的アルゴリズムを提案する。 提案アルゴリズムでは,反復毎に一定数のタスクとデータサンプルをサンプリングする必要があるため,連続的な学習シナリオに適している。 さらに,クロスデバイス(クライアントサンプリングなし)およびクロスサイロ(クライアントサンプリングなし)設定における個人化フェデレーション学習のための通信効率の高いメモリベースMAMLアルゴリズムを提案する。 理論的解析によりMAMLの最適化理論が改善し,実験結果が理論的知見の裏付けとなる。 興味のある読者は、 \url{https://github.com/bokun-wang/moml}でコードにアクセスできます。

In recent years, model-agnostic meta-learning (MAML) has become a popular research area. However, the stochastic optimization of MAML is still underdeveloped. Existing MAML algorithms rely on the ``episode'' idea by sampling a few tasks and data points to update the meta-model at each iteration. Nonetheless, these algorithms either fail to guarantee convergence with a constant mini-batch size or require processing a large number of tasks at every iteration, which is unsuitable for continual learning or cross-device federated learning where only a small number of tasks are available per iteration or per round. To address these issues, this paper proposes memory-based stochastic algorithms for MAML that converge with vanishing error. The proposed algorithms require sampling a constant number of tasks and data samples per iteration, making them suitable for the continual learning scenario. Moreover, we introduce a communication-efficient memory-based MAML algorithm for personalized federated learning in cross-device (with client sampling) and cross-silo (without client sampling) settings. Our theoretical analysis improves the optimization theory for MAML, and our empirical results corroborate our theoretical findings. Interested readers can access our code at \url{https://github.com/bokun-wang/moml}.
翻訳日:2023-04-27 04:13:24 公開日:2023-04-24
# パウリ分解によるk量子演算子の学習

Learning k-qubit Quantum Operators via Pauli Decomposition ( http://arxiv.org/abs/2102.05209v4 )

ライセンス: Link先を確認
Mohsen Heidari and Wojciech Szpankowski(参考訳) 現在の量子システムの限られた量子ビット容量に動機づけられ、k$-qubit 量子演算子の量子サンプル複雑性、すなわち$d$ qubits から$k$ にしか適用できない操作について研究する。 この問題は、非閉包、状態崩壊、測定不整合といった量子力学的法則に依拠する量子的おそらくほぼ正(QPAC)モデルに基づいて研究される。 量子サンプルのデリカシーと量子演算の豊かさにより、量子サンプルの複雑さは大幅に大きくなると期待できる。 この論文は逆を証明します。 我々は、$k$-qubit量子演算の量子サンプル複雑性が、少なくとも$\frac{k}{d}\ll 1$のときの古典的なサンプル複雑性(ユンタス)に匹敵することを示した。 これは、特にサンプル複製が禁止され、測定の不整合性が標準法で指数関数的に大きなサンプル複雑性をもたらすため、驚くべきことである。 提案手法は,量子演算子のパウリ分解とQSS(Quantum Shadow Sampling)と呼ばれる手法に基づいて,サンプルの複雑性を指数関数的に低減する。 結果は開発によって証明されます (i)学習損失とポーリ分解の関係 (ii)ポーリ係数を推定するためのスケーラブルなqss回路 (iii)サンプル複雑性$O(\frac{k4^k}{\epsilon^2}\log d)$で$k$-qubit演算子を学習するための量子アルゴリズム。

Motivated by the limited qubit capacity of current quantum systems, we study the quantum sample complexity of $k$-qubit quantum operators, i.e., operations applicable on only $k$ out of $d$ qubits. The problem is studied according to the quantum probably approximately correct (QPAC) model abiding by quantum mechanical laws such as no-cloning, state collapse, and measurement incompatibility. With the delicacy of quantum samples and the richness of quantum operations, one expects a significantly larger quantum sample complexity. This paper proves the contrary. We show that the quantum sample complexity of $k$-qubit quantum operations is comparable to the classical sample complexity of their counterparts (juntas), at least when $\frac{k}{d}\ll 1$. This is surprising, especially since sample duplication is prohibited, and measurement incompatibility would lead to an exponentially larger sample complexity with standard methods. Our approach is based on the Pauli decomposition of quantum operators and a technique that we name Quantum Shadow Sampling (QSS) to reduce the sample complexity exponentially. The results are proved by developing (i) a connection between the learning loss and the Pauli decomposition; (ii) a scalable QSS circuit for estimating the Pauli coefficients; and (iii) a quantum algorithm for learning $k$-qubit operators with sample complexity $O(\frac{k4^k}{\epsilon^2}\log d)$.
翻訳日:2023-04-27 04:13:03 公開日:2023-04-24
# 魚の零点とカオス系のスペクトル形成係数の変動

Fisher zeroes and the fluctuations of the spectral form factor of chaotic systems ( http://arxiv.org/abs/2207.02473v2 )

ライセンス: Link先を確認
Guy Bunin, Laura Foini, Jorge Kurchan(参考訳) 量子カオス系のスペクトル形式因子は、よく知られた 'ramp $+$ plateau' 形式を持つ。 半古典的あるいは熱力学的な限界におけるその形を決定する技術は、どちらの場合もエネルギー範囲やシステムのアンサンブルの平均に基づいて考案されている。 単一の例では、揺らぎは大きいが、限界を逸脱せず、アンサンブル自体の要素に依存しているため、全体の手順に疑問を呈しているように見える。 複素逆温度 $\beta_r+i\beta_i$ (\beta_i \equiv \tau$ the time) における分割関数のモジュラーとして、スペクトル係数は複素温度平面のヤン・リー零点の類似であるフィッシャー零点の領域を持つ。 スペクトル係数の大きなスパイクは、実際にはこれらの零点に対して$\beta_i$ でパラメトリズされた線の近差の結果である。 最大のスパイクは細部に対して非常に敏感だが、指数的に稀で指数関数的に薄い。 このことに動機づけられたDerridaのランダムエネルギーモデルの研究にインスパイアされ、ここでは、レベル反発を導入したランダムエネルギーレベルの修正モデルについて研究する。 また,SYKモデルでは,スパイク発生機構が同一であることも確認した。

The spectral form factor of quantum chaotic systems has the familiar `ramp $+$ plateau' form. Techniques to determine its form in the semiclassical or the thermodynamic limit have been devised, in both cases based on the average over an energy range or an ensemble of systems. For a single instance, fluctuations are large, do not go away in the limit, and depend on the element of the ensemble itself, thus seeming to question the whole procedure. Considered as the modulus of a partition function in complex inverse temperature $\beta_R+i\beta_I$ ($\beta_I \equiv \tau$ the time), the spectral factor has regions of Fisher zeroes, the analogue of Yang-Lee zeroes for the complex temperature plane. The large spikes in the spectral factor are in fact a consequence of near-misses of the line parametrized by $\beta_I$ to these zeroes. The largest spikes are indeed extensive and extremely sensitive to details, but we show that they are both exponentially rare and exponentially thin. Motivated by this, and inspired by the work of Derrida on the Random Energy Model, we study here a modified model of random energy levels in which we introduce level repulsion. We also check that the mechanism giving rise to spikes is the same in the SYK model.
翻訳日:2023-04-27 04:06:13 公開日:2023-04-24
# convolutional generative adversarial networkを用いたノイズ時系列のデータ駆動モデリング

Data-Driven Modeling of Noise Time Series with Convolutional Generative Adversarial Networks ( http://arxiv.org/abs/2207.01110v2 )

ライセンス: Link先を確認
Adam Wunderlich, Jack Sklar(参考訳) 物理過程から生じるランダムノイズは測定の固有の特性であり、ほとんどの信号処理やデータ解析タスクの制限要因である。 データ駆動型モデリングにおけるGAN(Generative Adversarial Network)に対する近年の関心を考えると、GANがターゲットデータセットのノイズを忠実に再現できる範囲を決定することが重要である。 本稿では,この問題を時系列で解明することを目的とした実証的な調査を行う。 すなわち、一般的な深層畳み込みGAN(DCGAN)アーキテクチャ、直接時系列モデル、短時間フーリエ変換(STFT)データ表現を用いた画像ベースモデルに基づく時系列用汎用GANを2つ評価する。 GANモデルは、既知の地絡パラメータを持つ模擬ノイズ時系列の分布を用いて、訓練および定量的評価を行う。 ターゲットの時系列分布には、帯域制限熱ノイズ、電力法ノイズ、ショットノイズ、衝動ノイズなど、物理測定、電子機器、通信システムで一般的に見られる幅広い種類のノイズが含まれる。 ganは、多くのノイズタイプを学習できるが、ganアーキテクチャがノイズのいくつかの側面、例えば、極端な異常値を持つ衝動時系列に適していない場合、予測的に苦労する。 本研究は, 時系列GANに対する現在のアプローチの能力と潜在的な限界に関する知見と, 今後の研究分野のハイライトを提供するものである。 さらに,テストのバッテリは時系列の深部生成モデルの開発に役立つ有用なベンチマークを提供する。

Random noise arising from physical processes is an inherent characteristic of measurements and a limiting factor for most signal processing and data analysis tasks. Given the recent interest in generative adversarial networks (GANs) for data-driven modeling, it is important to determine to what extent GANs can faithfully reproduce noise in target data sets. In this paper, we present an empirical investigation that aims to shed light on this issue for time series. Namely, we assess two general-purpose GANs for time series that are based on the popular deep convolutional GAN (DCGAN) architecture, a direct time-series model and an image-based model that uses a short-time Fourier transform (STFT) data representation. The GAN models are trained and quantitatively evaluated using distributions of simulated noise time series with known ground-truth parameters. Target time series distributions include a broad range of noise types commonly encountered in physical measurements, electronics, and communication systems: band-limited thermal noise, power law noise, shot noise, and impulsive noise. We find that GANs are capable of learning many noise types, although they predictably struggle when the GAN architecture is not well suited to some aspects of the noise, e.g., impulsive time-series with extreme outliers. Our findings provide insights into the capabilities and potential limitations of current approaches to time-series GANs and highlight areas for further research. In addition, our battery of tests provides a useful benchmark to aid the development of deep generative models for time series.
翻訳日:2023-04-27 04:05:48 公開日:2023-04-24
# コンピュータグラフィックスとビジョンにおけるより良いユーザー研究を目指して

Towards Better User Studies in Computer Graphics and Vision ( http://arxiv.org/abs/2206.11461v3 )

ライセンス: Link先を確認
Zoya Bylinskii, Laura Herman, Aaron Hertzmann, Stefanie Hutka, Yile Zhang(参考訳) オンラインのクラウドソーシングプラットフォームは、"AとBはどちらが良いのか?"といった調査質問によって、アルゴリズムのアウトプットの評価をますます容易にし、ビジョンやグラフィック研究論文の増大につながっている。 これらの研究の結果は、しばしば論文の貢献を支持する定量的証拠として用いられる。 他方では、急ぎで後から考えると、そのような研究は非形式的かつ潜在的に誤解を招く結論の増大につながると論じている。 一方,これらのコミュニティでは,プロジェクト方向性の推進やユーザニーズの予測にはユーザリサーチの活用が不十分である。 我々は,(1)再現性の向上,(2)プロジェクト方向性の改善に向けて,コンピュータビジョンとグラフィック論文におけるユーザ研究の設計と報告の両方に注目を喚起する。 ユーザエクスペリエンス研究(UXR)、ヒューマン・コンピュータインタラクション(HCI)、そして、利用可能な方法論やベストプラクティスへの露出を高めるために応用された認識の方法の概要を提供する。 本稿では,現在コンピュータビジョンやグラフィック研究では利用されていない基本的ユーザリサーチ手法(例えば,ニーズフィンディング)について論じる。 我々は、他のUXR方法論を探求することに興味のある読者のために、文献へのさらなる注記を提供する。 最後に,研究コミュニティに対する幅広いオープンイシューとレコメンデーションについて述べる。

Online crowdsourcing platforms have made it increasingly easy to perform evaluations of algorithm outputs with survey questions like "which image is better, A or B?", leading to their proliferation in vision and graphics research papers. Results of these studies are often used as quantitative evidence in support of a paper's contributions. On the one hand we argue that, when conducted hastily as an afterthought, such studies lead to an increase of uninformative, and, potentially, misleading conclusions. On the other hand, in these same communities, user research is underutilized in driving project direction and forecasting user needs and reception. We call for increased attention to both the design and reporting of user studies in computer vision and graphics papers towards (1) improved replicability and (2) improved project direction. Together with this call, we offer an overview of methodologies from user experience research (UXR), human-computer interaction (HCI), and applied perception to increase exposure to the available methodologies and best practices. We discuss foundational user research methods (e.g., needfinding) that are presently underutilized in computer vision and graphics research, but can provide valuable project direction. We provide further pointers to the literature for readers interested in exploring other UXR methodologies. Finally, we describe broader open issues and recommendations for the research community.
翻訳日:2023-04-27 04:05:22 公開日:2023-04-24
# 一般化性と安定性のためのパレート最適アクター臨界アルゴリズムの進化

Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and Stability ( http://arxiv.org/abs/2204.04292v3 )

ライセンス: Link先を確認
Juan Jose Garau-Luis, Yingjie Miao, John D. Co-Reyes, Aaron Parisi, Jie Tan, Esteban Real, Aleksandra Faust(参考訳) 汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な目的である。 これらの目的を最適化するRLアルゴリズムの設計には、コストと手間がかかる。 本稿では,アクター批判損失関数の自動設計法であるMetaPGを提案する。 MetaPGは、一般化性とパフォーマンスを明示的に最適化し、両方のメトリクスの安定性を暗黙的に最適化する。 我々は,SAC(Soft Actor-Critic)を用いて損失関数群を初期化し,単一タスク性能を符号化した適合度測定値を用いて多目的最適化を行う。 実世界のrlベンチマークスイートから得られた一連の連続制御タスクにおいて,本手法は進化中の単一環境を用いて,sacの性能と一般化性を改善するアルゴリズムをそれぞれ4%,20%改善し,不安定度を67%まで低減することを見出した。 次に、brax物理シミュレータからより複雑な環境にスケールアップし、摩擦係数の異なるような実用的な設定で遭遇する一般化可能性試験を再現する。 MetaPGは、同じメタトレーニング環境でパフォーマンスを損なうことなく10%優れた一般化性を得るアルゴリズムを進化させ、他のBrax環境でクロスドメイン評価を行う際に、SACと同様の結果を得る。 最良のアルゴリズムの構造を分析することによって、批評家の損失の正規化用語のような特定の目的を最適化するのに役立つ要素を識別する。

Generalizability and stability are two key objectives for operating reinforcement learning (RL) agents in the real world. Designing RL algorithms that optimize these objectives can be a costly and painstaking process. This paper presents MetaPG, an evolutionary method for automated design of actor-critic loss functions. MetaPG explicitly optimizes for generalizability and performance, and implicitly optimizes the stability of both metrics. We initialize our loss function population with Soft Actor-Critic (SAC) and perform multi-objective optimization using fitness metrics encoding single-task performance, zero-shot generalizability to unseen environment configurations, and stability across independent runs with different random seeds. On a set of continuous control tasks from the Real-World RL Benchmark Suite, we find that our method, using a single environment during evolution, evolves algorithms that improve upon SAC's performance and generalizability by 4% and 20%, respectively, and reduce instability up to 67%. Then, we scale up to more complex environments from the Brax physics simulator and replicate generalizability tests encountered in practical settings, such as different friction coefficients. MetaPG evolves algorithms that can obtain 10% better generalizability without loss of performance within the same meta-training environment and obtain similar results to SAC when doing cross-domain evaluations in other Brax environments. The evolution results are interpretable; by analyzing the structure of the best algorithms we identify elements that help optimizing certain objectives, such as regularization terms for the critic loss.
翻訳日:2023-04-27 04:04:04 公開日:2023-04-24
# セキュリティを強化した量子セキュリティシングルピクセルイメージング

Quantum-secured single-pixel imaging with enhanced security ( http://arxiv.org/abs/2209.06365v2 )

ライセンス: Link先を確認
Jaesung Heo, Junghyun Kim, Taek Jeong, Yong Sup Ihn, Duk Y. Kim, Zaeill Kim, Yonggi Jo(参考訳) 本稿では,光子対の非古典的相関を利用した,量子セキュアな単一画素イメージング手法を提案する。 本手法は,光子対の非古典的相関を利用して,光子ヘラルディングによる強いカオス光照明を拒絶することで,それを欺こうとする試みを検出できる。 偏光相関に基づくセキュリティ解析を行い,既存の量子セキュアイメージングに比べてセキュリティが向上したことを示す。 また,本手法の実証実験と,セキュリティ解析を用いて再構成した信頼性の高い画像も提供する。 提案手法は, 量子セキュア通信における成熟した技術を用いて開発することができ, セキュアイメージングの実用化に有望な方向を与えることができる。

In this paper, we propose a novel quantum-secured single-pixel imaging method that utilizes non-classical correlations of a photon pair. Our method can detect any attempts to deceive it by exploiting the non-classical correlation of the photon pairs, while rejecting strong chaotic light illumination through photon heralding. A security analysis based on polarization-correlation has been conducted, demonstrating that our method has improved security compared to existing quantum-secured imaging. We also provide proof-of-principle demonstrations of our method and trustworthy images reconstructed using our security analysis. Our proposed method can be developed using matured techniques used in quantum secure communication, thus offering a promising direction for practical applications in secure imaging.
翻訳日:2023-04-27 03:55:21 公開日:2023-04-24
# オープンセット認識を改善するための人間の知覚の測定

Measuring Human Perception to Improve Open Set Recognition ( http://arxiv.org/abs/2209.03519v4 )

ライセンス: Link先を確認
Jin Huang, Derek Prijatelj, Justin Dulay and Walter Scheirer(参考訳) 対象が特定のビジョンタスクに属するかどうかを認識する人間の能力は、すべてのオープンセット認識アルゴリズムを上回っている。 心理学からの視覚的精神物理学の手法と手順によって測定される人間の知覚は、新規性を管理するアルゴリズムのための追加のデータストリームを提供する。 例えば、被験者から測定された反応時間は、クラスサンプルが既知のものや新しいものとは異なるクラスと混同される傾向にあるかどうかについての洞察を与えることができる。 本研究では,物体認識に関連する20万以上の反応時間測定を収集した大規模行動実験を考案し,実施した。 抽出された反応時間は、サンプルレベルのオブジェクト間で有意義に変化する。 そこで我々は,異なる画像に対して異なる反応時間を示す深層ネットワークにおいて,人間の行動と整合性を示す新しい精神物理学的損失関数を設計した。 バイオビジョンと同様に、このアプローチはラベル付きトレーニングデータに制限のあるレジームにおいて、優れたオープンセット認識性能を達成することができる。 ImageNetのデータを用いた実験により、マルチスケールDenseNetsのトレーニングでは、この新定式化により、トップ1の検証精度が6.02%、既知のサンプルでトップ1のテスト精度が9.81%、未知のサンプルでトップ1のテスト精度が33.18%向上した。 提案手法を文献から10個のオープンセット認識手法と比較し,複数の指標で比較した。

The human ability to recognize when an object belongs or does not belong to a particular vision task outperforms all open set recognition algorithms. Human perception as measured by the methods and procedures of visual psychophysics from psychology provides an additional data stream for algorithms that need to manage novelty. For instance, measured reaction time from human subjects can offer insight as to whether a class sample is prone to be confused with a different class -- known or novel. In this work, we designed and performed a large-scale behavioral experiment that collected over 200,000 human reaction time measurements associated with object recognition. The data collected indicated reaction time varies meaningfully across objects at the sample-level. We therefore designed a new psychophysical loss function that enforces consistency with human behavior in deep networks which exhibit variable reaction time for different images. As in biological vision, this approach allows us to achieve good open set recognition performance in regimes with limited labeled training data. Through experiments using data from ImageNet, significant improvement is observed when training Multi-Scale DenseNets with this new formulation: it significantly improved top-1 validation accuracy by 6.02%, top-1 test accuracy on known samples by 9.81%, and top-1 test accuracy on unknown samples by 33.18%. We compared our method to 10 open set recognition methods from the literature, which were all outperformed on multiple metrics.
翻訳日:2023-04-27 03:55:08 公開日:2023-04-24
# 特異ウッドベリーと擬決定行列の同一性とガウス過程回帰への応用

A Singular Woodbury and Pseudo-Determinant Matrix Identities and Application to Gaussian Process Regression ( http://arxiv.org/abs/2207.08038v3 )

ライセンス: Link先を確認
Siavash Ameli, Shawn C. Shadden(参考訳) 我々はウッドベリー行列の恒等式(英語版)の特異な形から生じる行列を研究する。 本稿では,この行列に対する一般化された逆行列と擬決定行列の同一性を示し,ガウス過程の回帰,特にその確率表現と精度行列について直接適用する。 精度行列の定義を共分散行列のボット・ダフィン逆数に拡張し、条件独立性、条件精度、限界精度に関する特性を保存する。 また,提案する行列式に対する効率的なアルゴリズムと数値解析を行い,ガウス過程回帰の帰納関数における対数決定項の計算に関する条件下での利点を示す。

We study a matrix that arises from a singular form of the Woodbury matrix identity. We present generalized inverse and pseudo-determinant identities for this matrix, which have direct applications for Gaussian process regression, specifically its likelihood representation and precision matrix. We extend the definition of the precision matrix to the Bott-Duffin inverse of the covariance matrix, preserving properties related to conditional independence, conditional precision, and marginal precision. We also provide an efficient algorithm and numerical analysis for the presented determinant identities and demonstrate their advantages under specific conditions relevant to computing log-determinant terms in likelihood functions of Gaussian process regression.
翻訳日:2023-04-27 03:53:36 公開日:2023-04-24
# 自由干渉理論における周期的因果構造と時空との整合性

Compatibility of Cyclic Causal Structures with Spacetime in General Theories with Free Interventions ( http://arxiv.org/abs/2211.03593v3 )

ライセンス: Link先を確認
Maarten Grothus(参考訳) イベントを関連付け、順序付けすることで、因果関係は世界の重要な特徴となります。 一方、エージェントの情報処理能力の観点から定義される因果関係の情報理論的概念があり、一方、時空に関連する因果関係の相対論的概念が存在する。 本稿では,これらの概念を接続するためのPRA, 106, 032204 (2022) とPRL, 129, 110401 (2022) で, V. Vilasini と R. Colbeck が導入したフレームワークを改善した。 まず、高次(HO)の概念が関係に影響を及ぼす情報理論の観点から、周期的・微調整的・非古典的因果的影響の存在下でのシグナリングの一般化モデルを提案する。 HOの新たな性質は関係に影響を与え、因果構造を推測するために応用する。 次に、HOの集合から因果ループを検出する完全で建設的な方法が関係に影響を及ぼすことを示す。 第2部では,情報理論的因果構造の部分的に順序付けられた時空への埋め込みについて検討する。 我々は,無符号(相対論的未来外)の原理だけでは排除できない操作的に検出可能なループのクラスを除外するために,時空埋め込みの安定性条件を提案する。 次に、d \geq 2$空間次元を持つミンコフスキー時空に持つと仮定する新しい順序論的性質を提案する。 これは、(1+1)-ミンコフスキー時空とは対照的に、高次元では、無符号原理はこのループのクラスを除外するのに十分であることを意味する。 最後に,シグナリング関係の欠如に関する知識を通じて因果推論を可能にする関係を導入し,それを新しい時空の順序論的特徴に関連付ける。

By relating and ordering events, causality constitutes a pivotal feature of our world. On the one hand, there are information-theoretic notions of causality defined in terms of the information processing ability of agents and on the other hand, there are relativistic notions of causality tied to a spacetime. In this thesis, we improve upon a framework introduced by V. Vilasini and R. Colbeck in PRA, 106, 032204 (2022) and PRL, 129, 110401 (2022) for connecting these notions, where the possibility of operationally detectable causal loops embedded in (1+1)-Minkowski spacetime without superluminal signalling was demonstrated. In the first part, we take the information-theoretic point of view, where the concept of higher-order (HO) affects relations was proposed to generically model signalling in the presence of cyclic, fine-tuned and non-classical causal influences. We establish new properties of HO affects relations and apply them to infer causal structures. We then demonstrate a complete and constructive way to detect causal loops from a set of HO affects relations. In the second part, we study the embedding of information-theoretic causal structures into partially ordered spacetimes. We propose stability conditions on the spacetime embedding to rule out a class of operationally detectable loops that cannot be ruled out by the principle of no-signalling (outside the relativistic future) alone. We then propose novel order-theoretic properties that we conjecture to hold in Minkowski spacetime with $d \geq 2$ spatial dimensions. This would imply that in contrast to (1+1)-Minkowski spacetime, in higher dimensions, the no-signalling principle is indeed sufficient for ruling out this class of loops. Finally, we introduce a relation which allows for causal inference through knowledge about the absence of signalling relations and we relate it to novel order-theoretic features of spacetime.
翻訳日:2023-04-27 03:48:01 公開日:2023-04-24
# 拡張Hong-Ou-Mandel多様体と同一マイクロリング共振器の線形鎖の数値

Enhanced Hong-Ou-Mandel Manifolds and figures of merit for linear chains of identical micro-ring resonators ( http://arxiv.org/abs/2209.14837v2 )

ライセンス: Link先を確認
Peter L. Kaulfuss, Paul M. Alsing, A. Matthew Smith, Joseph Monteleone III and Edwin E. Hach III(参考訳) 線形鎖内の任意の同一マイクロリング共振器(MRR)に対して,Hong-Ou-Mandel曲線の正確な解析式を示す。 我々はこのHOM曲線の極端な安定性について検討し、MRRの線形アレイにおけるHOM効果が極めて強いことを示す。 さらに、この式を用いて、MRRの線形鎖のHOM曲線の3つの数値を導出する: 最小タウ値(\tau_{c}$)、曲率(\bar{\xi}_N$)、タウ値(\delta\tau_{N}$)。 MRRの様々な線形鎖の長所と短所を特徴付けるためにこれらの指標を推進し、設計と製造を通知する。

We present an exact analytic expression for the Hong-Ou-Mandel (HOM) curve for any number of identical Micro-Ring Resonators (MRRs) in a linear chain. We investigate the extreme stability of this HOM curve, showing that the HOM effect in linear arrays of MRRs is highly robust. We further use this expression to derive three figures of merit for the HOM curve of linear chains of MRRs: the minimum tau value ($\tau_{c}$), the curvature ($\bar{\xi}_N$), and the $5\%$ tolerance in tau ($\delta\tau_{N}$). We promote these metrics to characterize the pros and cons of various linear chains of MRRs and inform design and fabrication.
翻訳日:2023-04-27 03:45:06 公開日:2023-04-24
# 部分対象データに基づく技術領域における欠陥のクロスドメイン転送

Cross-domain Transfer of defect features in technical domains based on partial target data ( http://arxiv.org/abs/2211.13662v2 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Tim Scheurenbrand(参考訳) ターゲットドメインデータを逐次追加する現実世界の分類シナリオにおける一般的な課題は、トレーニングフェーズにおけるデータセットの不足である。 したがって、従来のディープラーニングや転校学習分類器は、特に個々のクラスが表現されていない場合や、そもそも過小評価されている場合には適用されない。 しかし、多くの技術領域では、欠陥や不十分な表現が不十分なrejectクラスのみであり、非defectクラスは最初から利用可能であることが多い。 提案手法は,CNNエンコーダをベースとして,そのような条件に対処する。 対照的な学習アプローチに従って、2つのデータセットを使用して修正三重項損失関数をトレーニングする: 非欠陥対象ドメインクラス 1stデータセットに加えて、関連する製造エラーや欠陥など、関連性の高いクラスを含む最先端のラベル付きソースドメインデータセットが使用されるが、異なる製品、材料、外観など、非常に異なるドメインに由来する。 このアプローチは、ソースドメインデータセットから分類特徴を学習すると同時に、ソースとターゲットドメインの違いを単一のトレーニングステップで学習し、関連する機能をターゲットドメインに転送することを目的としている。 分類器は分類機能に敏感になり、高度にドメイン固有のコンテキストに対して堅牢なアーキテクチャとなる。 このアプローチは技術的および非技術的領域でベンチマークされ、合理的な分類結果を示す。 特に、提案するアーキテクチャにより、ドメインの一般化能力と分類結果が改善され、ソースドメインとターゲットドメインの間のより広いドメインシフトが可能になることが示されている。

A common challenge in real world classification scenarios with sequentially appending target domain data is insufficient training datasets during the training phase. Therefore, conventional deep learning and transfer learning classifiers are not applicable especially when individual classes are not represented or are severely underrepresented at the outset. In many technical domains, however, it is only the defect or worn reject classes that are insufficiently represented, while the non-defect class is often available from the beginning. The proposed classification approach addresses such conditions and is based on a CNN encoder. Following a contrastive learning approach, it is trained with a modified triplet loss function using two datasets: Besides the non-defective target domain class 1st dataset, a state-of-the-art labeled source domain dataset that contains highly related classes e.g., a related manufacturing error or wear defect but originates from a highly different domain e.g., different product, material, or appearance = 2nd dataset is utilized. The approach learns the classification features from the source domain dataset while at the same time learning the differences between the source and the target domain in a single training step, aiming to transfer the relevant features to the target domain. The classifier becomes sensitive to the classification features and by architecture robust against the highly domain-specific context. The approach is benchmarked in a technical and a non-technical domain and shows convincing classification results. In particular, it is shown that the domain generalization capabilities and classification results are improved by the proposed architecture, allowing for larger domain shifts between source and target domains.
翻訳日:2023-04-27 03:37:25 公開日:2023-04-24
# EEG-Fest:脳波信号を用いた運転者の視線推定のためのFew-shotベースの注意ネットワーク

EEG-Fest: Few-shot based Attention Network for Driver's Vigilance Estimation with EEG Signals ( http://arxiv.org/abs/2211.03878v2 )

ライセンス: Link先を確認
Ning Ding, Ce Zhang, Azim Eskandarian(参考訳) 運転士の警戒の欠如は、ほとんどの車両事故の主な原因である。 脳電図(EEG)は、運転者の眠気推定のための信頼性と効率的なツールである。 従来の研究では、正確で堅牢なドライバーの警戒検出アルゴリズムが開発されていたが、これらの手法は以下の領域で課題に直面している。 (a)小規模サンプルサイズの訓練。 (b)異常信号検出、及び (c)主観非依存分類 本稿では,上記の欠点を改善するために,脳波フェストという一般化された少数ショットモデルを提案する。 EEG-Festモデル (a)クエリサンプルの眠気をいくつかのサンプルで分類する。 (b)クエリサンプルが異常信号であるか否かを識別する、 (c)主観的独立分類を達成する。 提案アルゴリズムは,SEED-VIGデータセットとSADTデータセットの最先端結果を実現する。 ドローシークラスの精度は、SEED-VIGデータセットで1ショットと5ショットのサポートサンプルで92%と94%、SADTデータセットで1ショットと5ショットのサポートサンプルで62%と78%となる。

A lack of driver's vigilance is the main cause of most vehicle crashes. Electroencephalography(EEG) has been reliable and efficient tool for drivers' drowsiness estimation. Even though previous studies have developed accurate and robust driver's vigilance detection algorithms, these methods are still facing challenges on following areas: (a) small sample size training, (b) anomaly signal detection, and (c) subject-independent classification. In this paper, we propose a generalized few-shot model, namely EEG-Fest, to improve aforementioned drawbacks. The EEG-Fest model can (a) classify the query sample's drowsiness with a few samples, (b) identify whether a query sample is anomaly signals or not, and (c) achieve subject independent classification. The proposed algorithm achieves state-of-the-art results on the SEED-VIG dataset and the SADT dataset. The accuracy of the drowsy class achieves 92% and 94% for 1-shot and 5-shot support samples in the SEED-VIG dataset, and 62% and 78% for 1-shot and 5-shot support samples in the SADT dataset.
翻訳日:2023-04-27 03:35:49 公開日:2023-04-24
# ガウスボソンサンプリングを用いたグラフ問題の解法

Solving Graph Problems Using Gaussian Boson Sampling ( http://arxiv.org/abs/2302.00936v2 )

ライセンス: Link先を確認
Yu-Hao Deng, Si-Qiu Gong, Yi-Chao Gu, Zhi-Jiong Zhang, Hua-Liang Liu, Hao Su, Hao-Yang Tang, Jia-Min Xu, Meng-Hao Jia, Ming-Cheng Chen, Han-Sen Zhong, Hui Wang, Jiarong Yan, Yi Hu, Jia Huang, Wei-Jun Zhang, Hao Li, Xiao Jiang, Lixing You, Zhen Wang, Li Li, Nai-Le Liu, Chao-Yang Lu, Jian-Wei Pan(参考訳) ガウス・ボーソンサンプリング(英: gaussian boson sampling、gbs)は、量子計算の利点を示すためのプロトコルであるだけでなく、特定のグラフや量子化学の問題と数学的に関連付けられる。 特に、GBSから生成されたサンプルを用いて、グラフの特徴を探索する際の古典確率アルゴリズムを強化することが提案されている。 ここでは、ノイズの多い中間スケール量子コンピュータであるJuzhangを用いてグラフ問題を解く。 サンプルは144モードのフル接続フォトニックプロセッサから生成され、量子計算の利点は最大80光子クリックである。 我々は,従来の確率的アルゴリズムに対するGBSの強化が,計算学的に興味深い状況下でノイズの多い量子デバイス上でのシステムサイズの増加とともに持続するか否かという,オープンな疑問について検討する。 我々は,大きな光子クリック数を持つGBS増強の存在と,特定の雑音下での強化の頑健さを実験的に観察した。 我々の研究は、既存のノイズの多い中間スケールの量子コンピュータを使って現実世界の問題をテストするためのステップであり、より効率的な古典的および量子に着想を得たアルゴリズムの開発を促進することを目指している。

Gaussian boson sampling (GBS) is not only a feasible protocol for demonstrating quantum computational advantage, but also mathematically associated with certain graph-related and quantum chemistry problems. In particular, it is proposed that the generated samples from the GBS could be harnessed to enhance the classical stochastic algorithms in searching some graph features. Here, we use Jiuzhang, a noisy intermediate-scale quantum computer, to solve graph problems. The samples are generated from a 144-mode fully-connected photonic processor, with photon-click up to 80 in the quantum computational advantage regime. We investigate the open question of whether the GBS enhancement over the classical stochastic algorithms persists -- and how it scales -- with an increasing system size on noisy quantum devices in the computationally interesting regime. We experimentally observe the presence of GBS enhancement with large photon-click number and a robustness of the enhancement under certain noise. Our work is a step toward testing real-world problems using the existing noisy intermediate-scale quantum computers, and hopes to stimulate the development of more efficient classical and quantum-inspired algorithms.
翻訳日:2023-04-27 03:28:23 公開日:2023-04-24
# 量子セルオートマトンにおけるスクランブル

Scrambling in quantum cellular automata ( http://arxiv.org/abs/2301.07722v3 )

ライセンス: Link先を確認
Brian Kent, Sarah Racz, Sanjit Shashi(参考訳) スクランブルは多体系上の量子情報の非局在化であり、全ての量子カオス力学の基礎となる。 離散量子セルオートマトンを古典的シミュレート可能なスクランブルの玩具モデルとして採用する。 これらのオートマトンがエルゴード性、すなわち量子スカーリングを損なうのを観察する。 また、スクランブルの時間スケールは局所ヒルベルト空間次元と一致し、特定の組合せパターンに従うことが分かる。 次に,半古典的カオス系がよりエルゴード的であることを証明し,半古典的限界においてスカーリングがほとんど抑制されることを示す。

Scrambling is the delocalization of quantum information over a many-body system and underlies all quantum-chaotic dynamics. We employ discrete quantum cellular automata as classically simulable toy models of scrambling. We observe that these automata break ergodicity, i.e. they exhibit quantum scarring. We also find that the time-scale of scrambling rises with the local Hilbert-space dimension and obeys a specific combinatorial pattern. We then show that scarring is mostly suppressed in a semiclassical limit, demonstrating that semiclassical-chaotic systems are more ergodic.
翻訳日:2023-04-27 03:27:47 公開日:2023-04-24
# MetaCLUE: 総合的なビジュアルメタファー研究を目指して

MetaCLUE: Towards Comprehensive Visual Metaphors Research ( http://arxiv.org/abs/2212.09898v2 )

ライセンス: Link先を確認
Arjun R. Akula, Brendan Driscoll, Pradyumna Narayana, Soravit Changpinyo, Zhiwei Jia, Suyash Damle, Garima Pruthi, Sugato Basu, Leonidas Guibas, William T. Freeman, Yuanzhen Li, Varun Jampani(参考訳) 創造性は人間の認知に欠かせない部分であり、世界を理解する方法の本質的な部分でもある。 メタフォリカル抽象は、感情のような抽象概念間のニュアンスな関係を通して創造的なアイデアを伝えるのに基本的である。 コンピュータビジョンのベンチマークとアプローチは画像のリテラル解釈の理解と生成に重点を置いているが、画像の比喩的理解はいまだに解明されていない。 この目的に向けて,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。 また、これらのタスクの評価を容易にするデータセットが存在しないため、高品質でリッチなメタファアノテーション(抽象オブジェクト、概念、関係、対応するオブジェクトボックス)も収集します。 我々は,視覚と言語における最先端モデルの総合的な分析を行い,視覚メタファ分類,局所化,理解(リトライバル,質問応答,キャプション),生成(テキスト対画像合成)タスクにおける現在のアプローチの強みと弱みを強調する。 この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。

Creativity is an indispensable part of human cognition and also an inherent part of how we make sense of the world. Metaphorical abstraction is fundamental in communicating creative ideas through nuanced relationships between abstract concepts such as feelings. While computer vision benchmarks and approaches predominantly focus on understanding and generating literal interpretations of images, metaphorical comprehension of images remains relatively unexplored. Towards this goal, we introduce MetaCLUE, a set of vision tasks on visual metaphor. We also collect high-quality and rich metaphor annotations (abstract objects, concepts, relationships along with their corresponding object boxes) as there do not exist any datasets that facilitate the evaluation of these tasks. We perform a comprehensive analysis of state-of-the-art models in vision and language based on our annotations, highlighting strengths and weaknesses of current approaches in visual metaphor Classification, Localization, Understanding (retrieval, question answering, captioning) and gEneration (text-to-image synthesis) tasks. We hope this work provides a concrete step towards developing AI systems with human-like creative capabilities.
翻訳日:2023-04-27 03:26:49 公開日:2023-04-24
# フロッケ駆動光格子における相互作用物質波の不安定性

Instabilities of interacting matter waves in optical lattices with Floquet driving ( http://arxiv.org/abs/2303.06092v2 )

ライセンス: Link先を確認
Andrea Di Carli, Robbie Cruickshank, Matthew Mitchell, Arthur La Rooij, Stefan Kuhr, Charles E. Creffield, Elmar Haller(参考訳) 周期駆動を受ける光1次元格子内の反発相互作用を伴う量子気体の安定性を実験的に検討した。 最も低い格子帯におけるガスの励起は、完全な安定性図、遅いから速い駆動周波数、弱いから強い駆動強度までにわたって分析される。 その結果を解釈するために、パラメトリック不安定性に基づく確立された解析を変調不安定性を含むように拡張する。 静的システムから周期的に駆動されるシステムへの変調不安定性の概念の拡張は、静的システムの安定性を遅くて高速な運転の場合に便利にマッピングする。 中間駆動周波数では、変調不安定性とパラメトリック不安定性の興味深い競合が観察される。 駆動システムにおける両種類の不安定性の存在を実験的に確認し,その特性を調査する。 Floquet 運転の将来の応用において, 加熱の最小化のために, 安定かつ不安定なパラメータ領域を予測できる。

We experimentally investigate the stability of a quantum gas with repulsive interactions in an optical 1D lattice subjected to periodic driving. Excitations of the gas in the lowest lattice band are analyzed across the complete stability diagram, from slow to fast driving frequencies and from weak to strong driving strengths. To interpret our results, we expand the established analysis based on parametric instabilities to include modulational instabilities. Extending the concept of modulational instabilities from static to periodically driven systems provides a convenient mapping of the stability in a static system to the cases of slow and fast driving. At intermediate driving frequencies, we observe an interesting competition between modulational and parametric instabilities. We experimentally confirm the existence of both types of instabilities in driven systems and probe their properties. Our results allow us to predict stable and unstable parameter regions for the minimization of heating in future applications of Floquet driving.
翻訳日:2023-04-27 03:17:46 公開日:2023-04-24
# 古典的情報幾何学から量子情報幾何学へ

From Classical to Quantum Information Geometry, an Introductory Guide ( http://arxiv.org/abs/2302.13515v2 )

ライセンス: Link先を確認
J. Lambert, E. S. S{\o}rensen(参考訳) 近年,量子情報の幾何学的側面が注目されている。 特に、量子フィッシャー情報は、Cram\'er-Rao境界を通した量子センシングの分野におけるその有用性で有名になった。 量子分散や共分散、密度感受性、絡み合いエントロピー、ベリー曲率といった密接に関連する概念も広く研究されている。 古典情報幾何学は1950年代後半から数学統計学のサブフィールドとして発展してきたが、凝縮物質物理学の分野においてより限定的な影響があった。 それにもかかわらず、量子力学を包含する情報幾何学の一般化は、上記のすべての概念を統一的に理解するための自然な枠組みを提供する。 古典情報幾何学とシャノン情報入門から,古典的結果の量子ケースへの一般化の難しさを議論し,量子情報幾何学への教育的ガイドを提案する。 現在の広範な文献を徹底的にレビューするのではなく、異なる概念に関する統一的な枠組みを強調し、量子センシングへの適用性、忠実性感受性による量子臨界性の検出、基底状態多様体の位相的性質の理解を議論することを目的としている。 量子フィッシャー情報と応答関数の一般関係が導出され、量子強化メトロロジーに関連する境界とともにスケーリング関係が議論される。 単純な 1 と 2 つの qubit システムに対するいくつかの例がある。

Recently, geometrical aspects of quantum information have attracted considerable attention due to their applicability in promising new quantum technologies. In particular, the quantum Fisher information has gained prominence for its utility within the field of quantum sensing through the Cram\'er-Rao bound. Closely related concepts, such as quantum variance and co-variance, fidelity susceptibility, entanglement entropy and Berry curvature have also been extensively studied. While classical information geometry has been developed as a sub-field of mathematical statistics since the late 1950s, it has had a more limited impact within the field of condensed matter physics. Despite this, the generalization of information geometry to incorporate quantum mechanics provides a natural framework for understanding all the above concepts in a unified manner. Starting from an introduction to classical information geometry and Shannon information, we discuss the difficulties in generalizing the classical results to the quantum case and present a pedagogical guide to quantum information geometry. Rather than a thorough review of the by now extensive literature, the intention is to emphasize the unifying framework relating the different concepts and to discuss their applicability to quantum sensing, as well as to the detection of quantum criticality via fidelity susceptibility, and to the understanding of topological properties of ground state manifolds. General relations between the quantum Fisher information and response functions are derived, and scaling relations are discussed, along with bounds relevant to quantum enhanced metrology. Several examples are given for simple one and two qubit systems.
翻訳日:2023-04-27 03:17:22 公開日:2023-04-24
# 古典的一方向関数からの量子トラップドア関数

Quantum trapdoor functions from classical one-way functions ( http://arxiv.org/abs/2302.12821v2 )

ライセンス: Link先を確認
Andrea Coladangelo(参考訳) 我々は量子トラップドア関数の概念を形式化し、研究する。 これは「公」量子状態と古典的な文字列$x$を入力として、量子状態を出力する効率的な計算可能なユニタリである。 この地図はそのようなものです (i)出力状態(および公開状態の多くのコピー)が与えられた場合、x$を回収することが困難であるという意味で、反転することは困難である。 (ii)効率的な逆転を可能にする古典的なトラップドアがある。 量子トラップドア関数は任意の量子セキュアな一方向関数から構築できることを示す。 この結果の直接的な結論は、量子セキュアな一方向関数の存在を仮定すると、(純粋な)量子公開鍵を持つ公開鍵暗号スキームが存在することである。

We formalize and study the notion of a quantum trapdoor function. This is an efficiently computable unitary that takes as input a "public" quantum state and a classical string $x$, and outputs a quantum state. This map is such that (i) it is hard to invert, in the sense that it is hard to recover $x$ given the output state (and many copies of the public state), and (ii) there is a classical trapdoor that allows efficient inversion. We show that a quantum trapdoor function can be constructed from any quantum-secure one-way function. A direct consequence of this result is that, assuming just the existence of quantum-secure one-way functions, there exists a public-key encryption scheme with a (pure) quantum public key.
翻訳日:2023-04-27 03:16:58 公開日:2023-04-24
# コンテキスト内学習にはいくつのデモが必要か?

How Many Demonstrations Do You Need for In-context Learning? ( http://arxiv.org/abs/2303.08119v3 )

ライセンス: Link先を確認
Jiuhai Chen, Lichang Chen, Chen Zhu, Tianyi Zhou(参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)によっていくつかのインプット・アウトプット・デモ(デム)が提供されると複雑な推論を行うことができ、デモの中間的推論ステップ(CoT)が与えられるとより強力になる。 ICLでマルチデモを使う必要はあるか? 本稿では,<wei2022chain} のタスクにおける各テストクエリのデモを減らして ICL について検討する。 驚いたことに、ランダムに選択されたデモのみを使用する場合、大きな劣化は観察されない。 この現象を研究するために、各テストクエリに対して、デモを"正しいデモ"に分類し、正しい回答を導き、"間違ったデモ"を誤った回答に導く。 私たちの分析では、これらの広く研究されているデータセットに固有のバイアスが示されています。ほとんどのデモは、テストクエリの大部分に対して正しいものです。 さらに、ICL(with and w/o CoT)は1つの正しいデモのみを使用しており、これまでのほとんどの研究で採用されていた全デモICLよりも大幅に優れており、バイアス付きデータセットでは評価が難しい入力クエリの正しいデモ(s)を見つける際のLCMの弱点を示している。 さらに,より正確なデモを行うと,その正確性が低下(改善)するマルチデモを用いて,iclの直観に反する行動が観察される。 これは、iclがデモとそれらのスプリアス相関の間の干渉によって容易に誤解されることを意味する。 我々の分析では、LLMのトレーニング、ICL、ベンチマーク設計で対処する必要があるいくつかの基本的な課題を取り上げている。

Large language models (LLMs) are capable to perform complex reasoning by in-context learning (ICL) when provided with a few input-output demonstrations (demos) and more powerful when intermediate reasoning steps ("chain of thoughts (CoT)") of the demos are given. Is it necessary to use multi-demo in ICL? In this paper, we study ICL using fewer demos for each test query on the tasks in~\cite{wei2022chain}. Surprisingly, we do not observe significant degradation when using only one randomly chosen demo. To study this phenomenon, for each test query, we categorize demos into "correct demos" leading to the correct answer, and "wrong demos" resulting in wrong answers. Our analysis reveals an inherent bias in those widely studied datasets: most demos are correct for a majority of test queries, which explains the good performance of using one random demo. Moreover, ICL (with and w/o CoT) using only one correct demo significantly outperforms all-demo ICL adopted by most previous works, indicating the weakness of LLMs in finding correct demo(s) for input queries, which is difficult to evaluate on the biased datasets. Furthermore, we observe a counterintuitive behavior of ICL using multi-demo, i.e., its accuracy degrades(improves) when given more correct(wrong) demos. This implies that ICL can be easily misguided by interference among demos and their spurious correlations. Our analyses highlight several fundamental challenges that need to be addressed in LLMs training, ICL, and benchmark design.
翻訳日:2023-04-27 03:07:50 公開日:2023-04-24
# MIPI 2023 RGBW核融合への挑戦:方法と結果

MIPI 2023 Challenge on RGBW Fusion: Methods and Results ( http://arxiv.org/abs/2304.10089v2 )

ライセンス: Link先を確認
Qianhui Sun, Qingyu Yang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Yuekun Dai, Wenxiu Sun, Qingpeng Zhu, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータの欠如と、産業や学界からの深い見解交換の機会は、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 第1回MIPIワークショップ@ECCV 2022の成功により、新しい画像センサと撮像アルゴリズムに焦点を当てた4つのトラックを含む第2回MIPIチャレンジを紹介した。 本稿では,MIPI 2023上でのRGBW Joint Fusion and Denoiseのトラックを要約し,レビューする。 合計69人の参加者が登録され、4チームが最終テストフェーズで結果を提出した。 最終結果は、PSNR、SSIM、LPIPS、KLDなどの客観的指標を用いて評価される。 本論文では,本課題で開発された上位3モデルについて詳述する。 この課題の詳細とデータセットへのリンクはhttps://mipi-challenge.org/MIPI2023/で確認できる。

Developing and integrating advanced image sensors with novel algorithms in camera systems are prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for an in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). With the success of the 1st MIPI Workshop@ECCV 2022, we introduce the second MIPI challenge, including four tracks focusing on novel image sensors and imaging algorithms. This paper summarizes and reviews the RGBW Joint Fusion and Denoise track on MIPI 2023. In total, 69 participants were successfully registered, and 4 teams submitted results in the final testing phase. The final results are evaluated using objective metrics, including PSNR, SSIM, LPIPS, and KLD. A detailed description of the top three models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://mipi-challenge.org/MIPI2023/.
翻訳日:2023-04-27 02:59:56 公開日:2023-04-24
# 量子チャネル空間における伝送距離

Transmission distance in the space of quantum channels ( http://arxiv.org/abs/2304.08403v2 )

ライセンス: Link先を確認
Diego G. Bussandri, Pedro W. Lamberti and Karol \.Zyczkowski(参考訳) 密度作用素の空間における真の距離を形成する量子jensen-shannon発散の平方根を用いて、量子写像間の識別可能性測度を得る2つの方法を分析する。 発生手段は、量子チャネルとエントロピーチャネルのばらつきの間の伝送距離である。 我々は,それらの数学的性質を調査し,物理的意味について考察する。 さらに、エントロピーチャネルの分岐の連鎖則を定め、量子チャネルと逆境界の判別の分野における潜在的な応用と関連する結果であるアモータイズ崩壊を示唆する。 最後に,与えられた2つのパウリチャネルの識別性を解析し,デコヒーレンス下でのハミルトニアンダイナミクスの研究を行った。

We analyze two ways to obtain distinguishability measures between quantum maps by employing the square root of the quantum Jensen-Shannon divergence, which forms a true distance in the space of density operators. The arising measures are the transmission distance between quantum channels and the entropic channel divergence. We investigate their mathematical properties and discuss their physical meaning. Additionally, we establish a chain rule for the entropic channel divergence, which implies the amortization collapse, a relevant result with potential applications in the field of discrimination of quantum channels and converse bounds. Finally, we analyze the distinguishability between two given Pauli channels and study exemplary Hamiltonian dynamics under decoherence.
翻訳日:2023-04-27 02:58:31 公開日:2023-04-24
# プロパティによるエンティティタイプ認識

Recognizing Entity Types via Properties ( http://arxiv.org/abs/2304.07910v2 )

ライセンス: Link先を確認
Daqian Shi, Fausto Giunchiglia(参考訳) オントロジーの発展における主要なアプローチは、異なる情報を符号化するオントロジーの融合であり、そこでは、不均一性がオントロジーの融合を動機付け、高品質なマージ性能を制限している。 したがって、エンティティタイプ(etype)認識タスクは、オントロジに符号化された情報を利用してエンティティとetypeのクラスを推論することを目的として、そのような異種性を扱うために提案される。 本稿では,e型を定義に使用するプロパティに基づいて認識するプロパティベースアプローチを提案する。 認識論的観点から見ると、実体や型を特徴づける性質であり、この定義はそれらを定義するために使われる特定のラベルや階層スキーマとは独立である。 主なコントリビューションは、etypeとエンティティ間のコンテキスト的類似度を測定するプロパティベースのメトリクスセットと、提案した類似度メトリクスを利用する機械学習ベースのetype認識アルゴリズムで構成される。 実験結果は,最先端技術と比較すると,類似度指標の有効性と,提案した固有型認識アルゴリズムの優位性を示す。

The mainstream approach to the development of ontologies is merging ontologies encoding different information, where one of the major difficulties is that the heterogeneity motivates the ontology merging but also limits high-quality merging performance. Thus, the entity type (etype) recognition task is proposed to deal with such heterogeneity, aiming to infer the class of entities and etypes by exploiting the information encoded in ontologies. In this paper, we introduce a property-based approach that allows recognizing etypes on the basis of the properties used to define them. From an epistemological point of view, it is in fact properties that characterize entities and etypes, and this definition is independent of the specific labels and hierarchical schemas used to define them. The main contribution consists of a set of property-based metrics for measuring the contextual similarity between etypes and entities, and a machine learning-based etype recognition algorithm exploiting the proposed similarity metrics. Compared with the state-of-the-art, the experimental results show the validity of the similarity metrics and the superiority of the proposed etype recognition algorithm.
翻訳日:2023-04-27 02:58:19 公開日:2023-04-24
# 散逸性量子ギブズサンプリング

Dissipative Quantum Gibbs Sampling ( http://arxiv.org/abs/2304.04526v2 )

ライセンス: Link先を確認
Daniel Zhang, Jan Lukas Bosse, Toby Cubitt(参考訳) 非零温度の熱平衡系はギブス状態によって記述される。 古典的な多体系では、メトロポリス・ハstingsアルゴリズムは、ギブス分布からサンプリングされる局所更新規則を持つマルコフ過程を与える。 量子系では、ギブス状態からのサンプリングははるかに困難である。 多くのアルゴリズムが提案されているが、これは従来のメトロポリスサンプリングの単純な局所的な更新規則よりも複雑であり、位相推定のような非自明な量子アルゴリズムを必要とする。 ここでは、単純で局所的な更新規則を持つ散逸的量子アルゴリズムが、量子ギブス状態からサンプリング可能であることを示す。 古典的な場合とは対照的に、量子ギブス状態はマルコフ過程の不動点に収束することで生成されるのではなく、条件付き停止過程の停止時に生成される状態によって生成される。 これはメトロポリスサンプリングの長い後続の量子アナログに対する新しい答えを与える。 従来の量子ギブスサンプリングアルゴリズムと比較して、プロセスの局所更新ルールは単純な実装であり、適切な量子ハードウェア上での短期的実装に適している可能性がある。 この散逸的なギブスサンプルは、その性質の仮定や知識なしに任意の量子ハミルトニアンに対して作用し、証明可能な精度と実行時境界を持つ。

Systems in thermal equilibrium at non-zero temperature are described by their Gibbs state. For classical many-body systems, the Metropolis-Hastings algorithm gives a Markov process with a local update rule that samples from the Gibbs distribution. For quantum systems, sampling from the Gibbs state is significantly more challenging. Many algorithms have been proposed, but these are more complex than the simple local update rule of classical Metropolis sampling, requiring non-trivial quantum algorithms such as phase estimation as a subroutine. Here, we show that a dissipative quantum algorithm with a simple, local update rule is able to sample from the quantum Gibbs state. In contrast to the classical case, the quantum Gibbs state is not generated by converging to the fixed point of a Markov process, but by the states generated at the stopping time of a conditionally stopped process. This gives a new answer to the long-sought-after quantum analogue of Metropolis sampling. Compared to previous quantum Gibbs sampling algorithms, the local update rule of the process has a simple implementation, which may make it more amenable to near-term implementation on suitable quantum hardware. This dissipative Gibbs sampler works for arbitrary quantum Hamiltonians, without any assumptions on or knowledge of its properties, and comes with certifiable precision and run-time bounds.
翻訳日:2023-04-27 02:57:31 公開日:2023-04-24
# 意識に基づくインタラクショングラフを用いた意識認識ロボットの群集ナビゲーション

Intention Aware Robot Crowd Navigation with Attention-Based Interaction Graph ( http://arxiv.org/abs/2203.01821v4 )

ライセンス: Link先を確認
Shuijing Liu, Peixin Chang, Zhe Huang, Neeloy Chakraborty, Kaiwen Hong, Weihang Liang, D. Livingston McPherson, Junyi Geng, and Katherine Driggs-Campbell(参考訳) 本研究では,高密度で対話的な群集における安全かつ意図的なロボットナビゲーションの問題について検討する。 従来の強化学習(RL)に基づくほとんどの手法は、すべてのエージェント間の異なるタイプの相互作用を考慮できなかったり、人々の意図を無視したりせず、結果としてパフォーマンスが低下する。 安全かつ効率的なロボットポリシーを学習するために、空間と時間を通してエージェント間の異種相互作用を捕捉する注意機構を備えた新しいグラフニューラルネットワークを提案する。 ロボットの行動の長期化を促すために, ロボットの動作を予測し, 動的エージェントの意図を推算する。 予測はモデルフリーのrlフレームワークに組み込まれ、ロボットが他のエージェントの意図した経路に侵入することを防ぐ。 本手法は,群集ナビゲーションのシナリオにおいて,ロボットが優れたナビゲーション性能と非侵襲性を達成できることを実証する。 シミュレーションで学んだ方針を実世界のタートルボット2iに移すことに成功した。 私たちのコードとビデオはhttps://sites.google.com/view/intention-aware-crowdnav/homeで閲覧できます。

We study the problem of safe and intention-aware robot navigation in dense and interactive crowds. Most previous reinforcement learning (RL) based methods fail to consider different types of interactions among all agents or ignore the intentions of people, which results in performance degradation. To learn a safe and efficient robot policy, we propose a novel recurrent graph neural network with attention mechanisms to capture heterogeneous interactions among agents through space and time. To encourage longsighted robot behaviors, we infer the intentions of dynamic agents by predicting their future trajectories for several timesteps. The predictions are incorporated into a model-free RL framework to prevent the robot from intruding into the intended paths of other agents. We demonstrate that our method enables the robot to achieve good navigation performance and non-invasiveness in challenging crowd navigation scenarios. We successfully transfer the policy learned in simulation to a real-world TurtleBot 2i. Our code and videos are available at https://sites.google.com/view/intention-aware-crowdnav/home.
翻訳日:2023-04-27 00:21:09 公開日:2023-04-24
# 決定依存分布をもつ学習におけるアトラクションの近似領域

Approximate Regions of Attraction in Learning with Decision-Dependent Distributions ( http://arxiv.org/abs/2107.00055v4 )

ライセンス: Link先を確認
Roy Dong and Heling Zhang and Lillian J. Ratliff(参考訳) データ駆動型メソッドが現実の環境にデプロイされると、観察されたデータを生成するプロセスが学習者の決定に反応することが多い。 例えば、データソースは、特定のラベル(例えば、銀行ローンの承認)を提供し、それに従って機能を操作するアルゴリズムに何らかのインセンティブを与えることができる。 戦略的分類と意思決定依存分布の研究は,分類器が基礎となるデータ分布に与える影響を明示的に考慮し,学習アルゴリズムのクローズドループ動作を特徴付けようとしている。 より最近では、性能予測の研究は、明示的な形式ではなく、分類器からデータ分布へのマッピングの一般的な性質を考慮し、閉ループの挙動を分類しようとする。 そこで本研究では, この概念に基づき, 繰り返し発生するリスク最小化を, リスク最小化の勾配流の摂動軌跡として分析する。 システムの長期的行動に初期条件が大きな影響を与える可能性がある状況に動機づけられて,実行リスクの局所的最小化が複数存在する場合を考える。 この設定で種々の平衡のアトラクション領域を特徴付けるのに十分な条件を提供する。 さらに, 反復的リスク最小化の収束に関する幾何学的条件を, 実行的リスク最小化器に与えた実行的アライメントの概念を導入する。

As data-driven methods are deployed in real-world settings, the processes that generate the observed data will often react to the decisions of the learner. For example, a data source may have some incentive for the algorithm to provide a particular label (e.g. approve a bank loan), and manipulate their features accordingly. Work in strategic classification and decision-dependent distributions seeks to characterize the closed-loop behavior of deploying learning algorithms by explicitly considering the effect of the classifier on the underlying data distribution. More recently, works in performative prediction seek to classify the closed-loop behavior by considering general properties of the mapping from classifier to data distribution, rather than an explicit form. Building on this notion, we analyze repeated risk minimization as the perturbed trajectories of the gradient flows of performative risk minimization. We consider the case where there may be multiple local minimizers of performative risk, motivated by situations where the initial conditions may have significant impact on the long-term behavior of the system. We provide sufficient conditions to characterize the region of attraction for the various equilibria in this settings. Additionally, we introduce the notion of performative alignment, which provides a geometric condition on the convergence of repeated risk minimization to performative risk minimizers.
翻訳日:2023-04-27 00:19:40 公開日:2023-04-24
# グラフガウス過程による多様体の最適化

Optimization on Manifolds via Graph Gaussian Processes ( http://arxiv.org/abs/2210.10962v2 )

ライセンス: Link先を確認
Hwanwoo Kim, Daniel Sanz-Alonso, and Ruiyi Yang(参考訳) 本稿では,多様体上の目的関数を最適化するために,<emph{Gaussian process upper confidence bound} アルゴリズム内に多様体学習技術を統合する。 我々のアプローチは、多様体の完全な表現が得られず、目的を問うのが高価であるアプリケーションによって動機付けられている。 目的のためのグラフガウス過程代理モデルを定義するために、多様体サンプルの点雲を利用する。 クエリポイントは、以前の全てのクエリに対してサロゲートモデルの後方分布を用いて順次選択される。 クエリの数とポイントクラウドのサイズに関して、後悔すべき境界を定めています。 いくつかの数値的な例がこの理論を補完し、本手法の性能を示す。

This paper integrates manifold learning techniques within a \emph{Gaussian process upper confidence bound} algorithm to optimize an objective function on a manifold. Our approach is motivated by applications where a full representation of the manifold is not available and querying the objective is expensive. We rely on a point cloud of manifold samples to define a graph Gaussian process surrogate model for the objective. Query points are sequentially chosen using the posterior distribution of the surrogate model given all previous queries. We establish regret bounds in terms of the number of queries and the size of the point cloud. Several numerical examples complement the theory and illustrate the performance of our method.
翻訳日:2023-04-27 00:00:59 公開日:2023-04-24
# AIO-P: 画像分類を超えてニューラルネットワークのパフォーマンス予測を拡張

AIO-P: Expanding Neural Performance Predictors Beyond Image Classification ( http://arxiv.org/abs/2211.17228v2 )

ライセンス: Link先を確認
Keith G. Mills, Di Niu, Mohammad Salameh, Weichen Qiu, Fred X. Han, Puyuan Liu, Jialin Zhang, Wei Lu, Shangling Jui(参考訳) ニューラルネットワークの性能評価は、ディープニューラルネットワークの設計には不可欠であるが、コストのかかる手順である。 ニューラルネットワーク予測器は、アーキテクチャをサンプルとして扱い、与えられたタスクでパフォーマンスを見積もるために学習することで、効率的なソリューションを提供する。 しかし、既存の予測子はタスク依存であり、主に画像分類ベンチマークでニューラルネットワークのパフォーマンスを推定する。 それぞれの予測子は、事前に定義されたトポロジと操作セットを持つ特定のアーキテクチャ検索空間の予測を行うように設計されている。 本稿では,複数のコンピュータビジョン(CV)タスクドメインと複数のアーキテクチャ空間からニューラルネットワーク予測器を事前学習し,未知の下流CVタスクやニューラルアーキテクチャに移行することを目的とした,新しいAll-in-One Predictor(AIO-P)を提案する。 本稿では,汎用グラフ表現,効率的な予測事前学習,知識注入技術,下流タスク/スペースへの転送手法について述べる。 AIO-Pが平均絶対誤差 (MAE) とスピアマンランク相関 (SRCC) をそれぞれ1%以下, 0.5以上で達成できることを示す実験結果が得られた。 さらに、AIO-Pはトレーニング中に見えない新しいアーキテクチャへ直接移行でき、FLOPを減らしながら性能を維持するために設計されたアルゴリズムと組み合わせることで、それらを正確にランク付けし、効果的な性能推定器として機能する。

Evaluating neural network performance is critical to deep neural network design but a costly procedure. Neural predictors provide an efficient solution by treating architectures as samples and learning to estimate their performance on a given task. However, existing predictors are task-dependent, predominantly estimating neural network performance on image classification benchmarks. They are also search-space dependent; each predictor is designed to make predictions for a specific architecture search space with predefined topologies and set of operations. In this paper, we propose a novel All-in-One Predictor (AIO-P), which aims to pretrain neural predictors on architecture examples from multiple, separate computer vision (CV) task domains and multiple architecture spaces, and then transfer to unseen downstream CV tasks or neural architectures. We describe our proposed techniques for general graph representation, efficient predictor pretraining and knowledge infusion techniques, as well as methods to transfer to downstream tasks/spaces. Extensive experimental results show that AIO-P can achieve Mean Absolute Error (MAE) and Spearman's Rank Correlation (SRCC) below 1% and above 0.5, respectively, on a breadth of target downstream CV tasks with or without fine-tuning, outperforming a number of baselines. Moreover, AIO-P can directly transfer to new architectures not seen during training, accurately rank them and serve as an effective performance estimator when paired with an algorithm designed to preserve performance while reducing FLOPs.
翻訳日:2023-04-26 23:51:23 公開日:2023-04-24
# GENNAPE: 汎用ニューラルアーキテクチャ性能推定器を目指して

GENNAPE: Towards Generalized Neural Architecture Performance Estimators ( http://arxiv.org/abs/2211.17226v2 )

ライセンス: Link先を確認
Keith G. Mills, Fred X. Han, Jialin Zhang, Fabian Chudak, Ali Safari Mamaghani, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu(参考訳) ニューラルアーキテクチャのパフォーマンスを予測することは難しい課題であり、ニューラルアーキテクチャの設計と探索に不可欠である。 既存のアプローチは、特定の演算子と接続ルールを含む事前定義された設計空間におけるアーキテクチャのモデリングに限られるニューラルパフォーマンス予測器に依存しており、目に見えないアーキテクチャに一般化できないか、常に正確ではないゼロコストプロキシに頼っている。 本稿では,ネットワーク表現,コントラスト事前学習,ファジィクラスタリングに基づく予測器アンサンブルの複合的なイノベーションを通じて,完全に未知のアーキテクチャに一般化することを目的として,open neural architecture benchmarksで事前学習された汎用的なニューラルネットワーク性能推定器gennapeを提案する。 特に、gennapeは任意のアーキテクチャをモデル化できる原子操作の計算グラフ(cg)として与えられたニューラルネットワークを表現する。 まず、Contrastive Learningを通じてグラフエンコーダを学び、トポロジカルな特徴によるネットワーク分離を促進し、その後、ニューラルネットワークのファジィメンバシップに応じてソフトアグリゲーションされた複数の予測ヘッドをトレーニングする。 実験により、NAS-Bench-101で事前訓練されたGENNAPEは、NAS-Bench-201、NAS-Bench-301、MobileNet、ResNetファミリーを含む5つの公開ニューラルネットワークベンチマークへの、最小あるいは最小限の微調整で、優れた転送性を実現することが示されている。 さらに、狭い精度範囲に集中できるHiAML、Inception、Two-Pathという、新たにラベル付けされたニューラルネットワークベンチマークを3つ導入する。 大規模な実験により、GENNAPEはこれらのファミリーの高性能アーキテクチャを正しく識別できることが示されている。 最後に、検索アルゴリズムと組み合わせると、GENNAPEは3つのファミリーのFLOPを削減しながら精度を向上させるアーキテクチャを見つけることができる。

Predicting neural architecture performance is a challenging task and is crucial to neural architecture design and search. Existing approaches either rely on neural performance predictors which are limited to modeling architectures in a predefined design space involving specific sets of operators and connection rules, and cannot generalize to unseen architectures, or resort to zero-cost proxies which are not always accurate. In this paper, we propose GENNAPE, a Generalized Neural Architecture Performance Estimator, which is pretrained on open neural architecture benchmarks, and aims to generalize to completely unseen architectures through combined innovations in network representation, contrastive pretraining, and fuzzy clustering-based predictor ensemble. Specifically, GENNAPE represents a given neural network as a Computation Graph (CG) of atomic operations which can model an arbitrary architecture. It first learns a graph encoder via Contrastive Learning to encourage network separation by topological features, and then trains multiple predictor heads, which are soft-aggregated according to the fuzzy membership of a neural network. Experiments show that GENNAPE pretrained on NAS-Bench-101 can achieve superior transferability to 5 different public neural network benchmarks, including NAS-Bench-201, NAS-Bench-301, MobileNet and ResNet families under no or minimum fine-tuning. We further introduce 3 challenging newly labelled neural network benchmarks: HiAML, Inception and Two-Path, which can concentrate in narrow accuracy ranges. Extensive experiments show that GENNAPE can correctly discern high-performance architectures in these families. Finally, when paired with a search algorithm, GENNAPE can find architectures that improve accuracy while reducing FLOPs on three families.
翻訳日:2023-04-26 23:50:56 公開日:2023-04-24
# モジュラリニアライズメントによる自己回帰的nlpタスクの改善

Improving Autoregressive NLP Tasks via Modular Linearized Attention ( http://arxiv.org/abs/2304.08453v2 )

ライセンス: Link先を確認
Victor Agostinelli, Lizhong Chen(参考訳) 様々な自然言語処理(NLP)タスクは、エッジや他のリソース制約のある環境における究極の応用に基づいて、効率的で小さなモデルを必要とする。 先行研究はこれらのモデルのサイズを縮小したが、特に自己回帰的なタスクでは、かなりのパフォーマンスへの影響を伴わない計算効率の向上は困難である。 本稿では,cosFormerを含む複数の効率的な注意機構を組み合わせることで,予測品質を最大化するとともに,顕著な高速化を実現した。 本手法は,音声からテキストへのニューラルマシン翻訳(S2T NMT),音声からテキストへの同時翻訳(SimulST),自動回帰テキスト・トゥ・スペクトログラムなどの自己回帰NLPタスクにおいて,TTSの効率向上と,トレーニングおよび推論中のNMTとSimulSTの競合性能を示す。

Various natural language processing (NLP) tasks necessitate models that are efficient and small based on their ultimate application at the edge or in other resource-constrained environments. While prior research has reduced the size of these models, increasing computational efficiency without considerable performance impacts remains difficult, especially for autoregressive tasks. This paper proposes {modular linearized attention (MLA), which combines multiple efficient attention mechanisms, including cosFormer, to maximize inference quality while achieving notable speedups. We validate this approach on several autoregressive NLP tasks, including speech-to-text neural machine translation (S2T NMT), speech-to-text simultaneous translation (SimulST), and autoregressive text-to-spectrogram, noting efficiency gains on TTS and competitive performance for NMT and SimulST during training and inference.
翻訳日:2023-04-26 23:33:29 公開日:2023-04-24
# 並列ブートストラップに基づく連続流制御用オンライン深部強化学習

Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications ( http://arxiv.org/abs/2304.12330v1 )

ライセンス: Link先を確認
J. Viquerat and E. Hachem(参考訳) 近年, 深部強化学習と数値流制御問題との結合が注目され, 画期的な結果が得られ, ドメインに対する新たな視点が開かれた。 流体力学ソルバの計算コストが通常高いため、学習過程における並列環境の使用は、合理的な時間で効率的な制御を実現するための重要な要素である。 しかし、フロー制御のための深層強化学習文献のほとんどは、超並列トランジッションコレクションが理論上の前提を破り、サブ最適制御モデルに繋がるオンポリシーアルゴリズムに依存している。 この問題を克服するため,我々は,戻りブートストラップステップで終了する部分トラックバッファに依存する並列化パターンを提案し,更新のオンポリシティを維持しつつ,並列環境を柔軟に利用できるようにする。 このアプローチは、文献からのCPU集約型連続フロー制御問題に説明される。

The coupling of deep reinforcement learning to numerical flow control problems has recently received a considerable attention, leading to groundbreaking results and opening new perspectives for the domain. Due to the usually high computational cost of fluid dynamics solvers, the use of parallel environments during the learning process represents an essential ingredient to attain efficient control in a reasonable time. Yet, most of the deep reinforcement learning literature for flow control relies on on-policy algorithms, for which the massively parallel transition collection may break theoretical assumptions and lead to suboptimal control models. To overcome this issue, we propose a parallelism pattern relying on partial-trajectory buffers terminated by a return bootstrapping step, allowing a flexible use of parallel environments while preserving the on-policiness of the updates. This approach is illustrated on a CPU-intensive continuous flow control problem from the literature.
翻訳日:2023-04-26 23:15:25 公開日:2023-04-24
# エンティティ解決のための事前トレーニングされた埋め込み:実験分析 [実験, 解析, ベンチマーク]

Pre-trained Embeddings for Entity Resolution: An Experimental Analysis [Experiment, Analysis & Benchmark] ( http://arxiv.org/abs/2304.12329v1 )

ライセンス: Link先を確認
Alexandros Zeakis, George Papadakis, Dimitrios Skoutas, Manolis Koubarakis(参考訳) エンティティ解決(ER)に関する最近の多くの研究は、言語モデルを含むディープラーニング技術を活用して、効率を向上させる。 これは、ERの主なステップ、すなわちブロッキングとマッチングの両方に適用される。 いくつかの事前トレーニング済みの埋め込みがテストされており、最も人気のあるのはfastTextとBERTモデルの亜種である。 しかし、その長所や短所の詳細な分析は行われていない。 このギャップを埋めるため、17の確立したベンチマークデータセット上の12のポピュラー言語モデルの徹底的な実験分析を行う。 まず、全ての入力エンティティを高密度埋め込みベクトルに変換するためのベクトル化オーバーヘッドを評価する。 第2に,ブロッキング性能を調査し,詳細なスケーラビリティ解析を行い,最先端のディープラーニングベースのブロッキング法と比較する。 第3に、教師付きマッチングと教師なしマッチングの両方に対する相対的なパフォーマンスで締めくくります。 我々の実験結果は、主要な言語モデルの長所と短所に関する新たな洞察を与え、研究者や実践者が実際に最も適したものを選ぶのに役立つ。

Many recent works on Entity Resolution (ER) leverage Deep Learning techniques involving language models to improve effectiveness. This is applied to both main steps of ER, i.e., blocking and matching. Several pre-trained embeddings have been tested, with the most popular ones being fastText and variants of the BERT model. However, there is no detailed analysis of their pros and cons. To cover this gap, we perform a thorough experimental analysis of 12 popular language models over 17 established benchmark datasets. First, we assess their vectorization overhead for converting all input entities into dense embeddings vectors. Second, we investigate their blocking performance, performing a detailed scalability analysis, and comparing them with the state-of-the-art deep learning-based blocking method. Third, we conclude with their relative performance for both supervised and unsupervised matching. Our experimental results provide novel insights into the strengths and weaknesses of the main language models, facilitating researchers and practitioners to select the most suitable ones in practice.
翻訳日:2023-04-26 23:15:10 公開日:2023-04-24
# Virus2Vec: 機械学習を用いたウイルス配列分類

Virus2Vec: Viral Sequence Classification Using Machine Learning ( http://arxiv.org/abs/2304.12328v1 )

ライセンス: Link先を確認
Sarwan Ali, Babatunde Bello, Prakash Chourasia, Ria Thazhe Punathil, Pin-Yu Chen, Imdad Ullah Khan, Murray Patterson(参考訳) 異なるウイルスファミリーの宿主特異性を理解することは、SARS-CoV-2、狂犬病、その他の動物病原体の起源に光を当てる。 疫学者、医療専門家、政策立案者が既存の流行を抑え、将来の流行を早急に防ぐことができる。 コロナウイルス科(sars-cov-2が属する)では、スパイクタンパク質がウイルスと宿主細胞膜との接触点であることが知られている。 一方、伝統的な哺乳動物であるcarnivora(肉食動物)とchiroptera(コウモリ)の2種は、狂犬病ライサウイルス(rabv)の維持と拡散の責任があると認識されている。 virus2vecは、ウイルス(ヌクレオチドまたはアミノ酸)配列のための特徴ベクトル表現であり、ベクタースペースベースの機械学習モデルがウイルスホストを識別できるようにする。 virus2vecはアンアライメントシーケンスのための数値的特徴ベクトルを生成し、パイプラインから計算コストの高いシーケンスアライメントステップを先取りできます。 Virus2Vec は \emph{minimizer} と位置重み行列 (PWM) の両方のパワーを利用してコンパクトな特徴ベクトルを生成する。 複数の分類器を用いて,本種と狂犬病ウイルスのスパイク配列に基づくウイルス2vecを実験的に評価し,宿主を予測した。 以上の結果から, Virus2Vecはベースラインおよび最先端手法の予測精度よりも優れていた。

Understanding the host-specificity of different families of viruses sheds light on the origin of, e.g., SARS-CoV-2, rabies, and other such zoonotic pathogens in humans. It enables epidemiologists, medical professionals, and policymakers to curb existing epidemics and prevent future ones promptly. In the family Coronaviridae (of which SARS-CoV-2 is a member), it is well-known that the spike protein is the point of contact between the virus and the host cell membrane. On the other hand, the two traditional mammalian orders, Carnivora (carnivores) and Chiroptera (bats) are recognized to be responsible for maintaining and spreading the Rabies Lyssavirus (RABV). We propose Virus2Vec, a feature-vector representation for viral (nucleotide or amino acid) sequences that enable vector-space-based machine learning models to identify viral hosts. Virus2Vec generates numerical feature vectors for unaligned sequences, allowing us to forego the computationally expensive sequence alignment step from the pipeline. Virus2Vec leverages the power of both the \emph{minimizer} and position weight matrix (PWM) to generate compact feature vectors. Using several classifiers, we empirically evaluate Virus2Vec on real-world spike sequences of Coronaviridae and rabies virus sequence data to predict the host (identifying the reservoirs of infection). Our results demonstrate that Virus2Vec outperforms the predictive accuracies of baseline and state-of-the-art methods.
翻訳日:2023-04-26 23:14:56 公開日:2023-04-24
# Pointersect: クラウド線切断によるニューラルレンダリング

Pointersect: Neural Rendering with Cloud-Ray Intersection ( http://arxiv.org/abs/2304.12390v1 )

ライセンス: Link先を確認
Jen-Hao Rick Chang, Wei-Yu Chen, Anurag Ranjan, Kwang Moo Yi, Oncel Tuzel(参考訳) 本研究では,点雲を表面のように描画する新しい手法を提案する。 提案手法は微分可能であり,シーン固有の最適化は不要である。 このユニークな機能は、アウトオブボックス、サーフェスノーマル推定、ルームスケールのポイントクラウドのレンダリング、逆レンダリング、グローバル照明によるレイトレーシングを可能にする。 点雲を他の表現(例えば、曲面や暗黙の関数)に変換することに焦点を当てた既存の研究とは異なり、鍵となるアイデアは、光線と所定の点雲で表される基底面との交差を直接推測することである。 具体的には、光線に沿った少数の局所的な近傍点を与えられたとき、この光線の結果を表すために使用される交差点、表面正規値、物質混合重みを与えるセットトランスを訓練する。 問題を小さな地区にローカライズすることで、48メッシュのモデルをトレーニングし、目に見えない点の雲に適用することができます。 本モデルは,3つのテストセット上での最先端表面再構成およびポイントクラウドレンダリング手法よりも高い推定精度を実現する。 室内スケールの点雲に適用した場合、シーン固有の最適化なしに、このモデルは最先端のノベルビューレンダリング手法と競合する品質を達成する。 さらに,照明制御や物体挿入などのLidar走査点雲をレンダリングし,操作する能力を示す。

We propose a novel method that renders point clouds as if they are surfaces. The proposed method is differentiable and requires no scene-specific optimization. This unique capability enables, out-of-the-box, surface normal estimation, rendering room-scale point clouds, inverse rendering, and ray tracing with global illumination. Unlike existing work that focuses on converting point clouds to other representations--e.g., surfaces or implicit functions--our key idea is to directly infer the intersection of a light ray with the underlying surface represented by the given point cloud. Specifically, we train a set transformer that, given a small number of local neighbor points along a light ray, provides the intersection point, the surface normal, and the material blending weights, which are used to render the outcome of this light ray. Localizing the problem into small neighborhoods enables us to train a model with only 48 meshes and apply it to unseen point clouds. Our model achieves higher estimation accuracy than state-of-the-art surface reconstruction and point-cloud rendering methods on three test sets. When applied to room-scale point clouds, without any scene-specific optimization, the model achieves competitive quality with the state-of-the-art novel-view rendering methods. Moreover, we demonstrate ability to render and manipulate Lidar-scanned point clouds such as lighting control and object insertion.
翻訳日:2023-04-26 23:05:56 公開日:2023-04-24
# ピクセルを超えて:輝度と色温度予測のための光量調整hdrデータセット

Beyond the Pixel: a Photometrically Calibrated HDR Dataset for Luminance and Color Temperature Prediction ( http://arxiv.org/abs/2304.12372v1 )

ライセンス: Link先を確認
Christophe Bolduc, Justine Giroux, Marc H\'ebert, Claude Demers, and Jean-Fran\c{c}ois Lalonde(参考訳) 光は人間の幸福に重要な役割を果たす。 しかし、ほとんどのコンピュータビジョンタスクは物理的輝度との関係を考慮せずにピクセルを扱う。 この欠点に対処するために,高ダイナミックレンジの\ang{360}パノラマを用いた,最初の大規模測光データセットを提案する。 私たちの重要な貢献は、既存のキャリブレーションされていないHDRデータセットの校正です。 プロの測光装置(クロマメータ)と同時に、さまざまな照明条件において、生のブラケット露光を正確に捉えて撮影する。 得られた測定値を用いて,HDR画像に適用するキャリブレーション係数を確立する。 得られたデータセットは、広い範囲の照度と色温度、様々な種類の光源を表示する、屋内シーンの豊かな表現である。 本研究では,1枚の入力画像から1画素あたりの輝度,1画素あたりの温度,平面照度を予測できる3つの新しいタスクを導入した。 最後に、商用の\ang{360}カメラでさらに小さな校正データセットをキャプチャして、カメラ間の一般化を実験します。 私たちは、データセットと関連するコードのリリースが、コミュニティ内の物理的に正確な光の推定に関心を惹きつけると楽観的です。

Light plays an important role in human well-being. However, most computer vision tasks treat pixels without considering their relationship to physical luminance. To address this shortcoming, we present the first large-scale photometrically calibrated dataset of high dynamic range \ang{360} panoramas. Our key contribution is the calibration of an existing, uncalibrated HDR Dataset. We do so by accurately capturing RAW bracketed exposures simultaneously with a professional photometric measurement device (chroma meter) for multiple scenes across a variety of lighting conditions. Using the resulting measurements, we establish the calibration coefficients to be applied to the HDR images. The resulting dataset is a rich representation of indoor scenes which displays a wide range of illuminance and color temperature, and varied types of light sources. We exploit the dataset to introduce three novel tasks: where per-pixel luminance, per-pixel temperature and planar illuminance can be predicted from a single input image. Finally, we also capture another smaller calibrated dataset with a commercial \ang{360} camera, to experiment on generalization across cameras. We are optimistic that the release of our datasets and associated code will spark interest in physically accurate light estimation within the community.
翻訳日:2023-04-26 23:05:33 公開日:2023-04-24
# 予算上のより良い質問応答モデル

Better Question-Answering Models on a Budget ( http://arxiv.org/abs/2304.12370v1 )

ライセンス: Link先を確認
Yudhanjaya Wijeratne, Ishan Marikar(参考訳) 低ランク適応(LoRA)と大規模言語モデルからの質問応答データセットにより、より小さなモデルの方がより洗練された会話能力を示すように微調整が容易になった。 本稿では、Stanford Alpacaデータセットを使用して、FacebookのOPT 1.3B、2.7B、6.7Bモデルの能力を大幅に改善したLoRAモデルのファミリーであるEluwaを紹介する。 我々はこれらのモデルを複数の方法でベンチマークし、GPT-4は一般的な知識、書き方、プログラミング、その他のタスクにまたがる解答を判断する。 ここで、より小さいモデルは3倍大きなモデルと同じパフォーマンスに微調整可能であることを示しています。

Low-rank adaptation (LoRA) and question-answer datasets from large language models have made it much easier for much smaller models to be finetuned to the point where they display sophisticated conversational abilities. In this paper, we present Eluwa, a family of LoRA models that use the Stanford Alpaca dataset and massively improve the capabilities of Facebook's OPT 1.3B, 2.7B and 6.7B models. We benchmark these models in multiple ways, including letting GPT-4 judge their answers to prompts that span general knowledge, writing, programming and other tasks. We show that smaller models here can be fine-tuned to be as performant as models 3x larger - all for as little as 40 USD in compute.
翻訳日:2023-04-26 23:05:12 公開日:2023-04-24
# 雑音受動線形光学を用いた量子最適情報符号化

Quantum-optimal information encoding using noisy passive linear optics ( http://arxiv.org/abs/2304.12365v1 )

ライセンス: Link先を確認
Andrew Tanggara, Ranjith Nair, Syed Assad, Varun Narasimhachar, Spyros Tserkis, Jayne Thompson, Ping Koy Lam, Mile Gu(参考訳) ノイズチャネルが伝達できる情報の量は、情報理論における主要な関心事の1つとなっている。 本研究では,外部エネルギー源を使わずに実現可能な光量子チャネルの一群について考察する。 有限エネルギーの資源状態において、これらのチャネルが適用した減衰や位相シフトの情報を符号化する手順よりも、ホレボ情報を最適化する。 任意の入力状態と環境温度に対して、チャネルの位相シフトパラメータを均一に分配する符号化手順によって最大ホールボ情報が得られることを示す。 さらに、入力状態の大きな族に対して、任意の最大符号化スキームは有限数のチャネル減衰値を持ち、符号語を出力位相空間の原点付近の有限個の環に単純化する。 上記の結果と数値的な証拠は、この性質が全ての資源状態に対して成り立つことを示唆している。 この結果は, 環境熱雑音の存在下での光メモリの量子読み取りに直接適用できる。

The amount of information that a noisy channel can transmit has been one of the primary subjects of interest in information theory. In this work we consider a practically-motivated family of optical quantum channels that can be implemented without an external energy source. We optimize the Holevo information over procedures that encode information in attenuations and phase-shifts applied by these channels on a resource state of finite energy. It is shown that for any given input state and environment temperature, the maximum Holevo information can be achieved by an encoding procedure that uniformly distributes the channel's phase-shift parameter. Moreover for large families of input states, any maximizing encoding scheme has a finite number of channel attenuation values, simplifying the codewords to a finite number of rings around the origin in the output phase space. The above results and numerical evidence suggests that this property holds for all resource states. Our results are directly applicable to the quantum reading of an optical memory in the presence of environmental thermal noise.
翻訳日:2023-04-26 23:04:58 公開日:2023-04-24
# 中心質量保存を伴う長距離相互作用系の流体力学

Hydrodynamics in long-range interacting systems with center-of-mass conservation ( http://arxiv.org/abs/2304.12354v1 )

ライセンス: Link先を確認
Alan Morningstar, Nicholas O'Dea, and Jonas Richter(参考訳) 保存密度を持つ系では、質量中心(双極子モーメント)のさらなる保存が、関連する流体力学を遅くすることが示されている。 同時に、長距離相互作用は一般的により高速な輸送と情報伝達をもたらす。 ここでは,これら2つの効果の競合を探求し,長距離質量保存系に対する流体力学理論を展開する。 これらの系は, 連続的に変化する動的指数を持つ部分拡散的, 拡散的, 超拡散的挙動を含む, 豊かな動的相図を示すことができることを示す。 創発的流体力学がこれらの現象を示す量子格子モデルを研究することによって、我々の理論を裏付ける。

In systems with a conserved density, the additional conservation of the center of mass (dipole moment) has been shown to slow down the associated hydrodynamics. At the same time, long-range interactions generally lead to faster transport and information propagation. Here, we explore the competition of these two effects and develop a hydrodynamic theory for long-range center-of-mass-conserving systems. We demonstrate that these systems can exhibit a rich dynamical phase diagram containing subdiffusive, diffusive, and superdiffusive behaviors, with continuously varying dynamical exponents. We corroborate our theory by studying quantum lattice models whose emergent hydrodynamics exhibit these phenomena.
翻訳日:2023-04-26 23:04:44 公開日:2023-04-24
# ブラックホール内部の非等尺符号 : 基礎と有効動力学から

Non-isometric codes for the black hole interior from fundamental and effective dynamics ( http://arxiv.org/abs/2304.12345v1 )

ライセンス: Link先を確認
Oliver DeWolfe and Kenneth Higginbotham(参考訳) 基礎力学と有効力学の両方を含むブラックホール内部を符号化するための新しいホログラフマップを導入する。 このホログラフィックマップは、ブラックホールの外に自由度を引き出すのに間に合うように、内部の効果的な半古典的な重力記述の状態を進化させ、基本記述に間に合わせることによって構築される。 この ``backwards-forwards'' 写像は akers, engelhardt, harlow, penington, vardhan によって導入された型の後選択写像と等価であり、自明な実効的相互作用の場合、それらの相互作用が非自明であるときに適切な一般化を提供する。 この写像は時間発展に関して同値であり、ブラックホールの外側の任意の相互作用とは無関係である。 この構成は、ブラックホールの進化のユニタリティを正確に保ち、超ポリノミカルな計算複雑性を許さない方法で、インボーダーとの相互作用を含む。

We introduce a new holographic map for encoding black hole interiors by including both fundamental and effective dynamics. This holographic map is constructed by evolving a state in the effective, semiclassical gravity description of the interior backwards in time to pull the degrees of freedom outside the black hole, before evolving forwards in time in the fundamental description. We show this ``backwards-forwards'' map is equivalent to a post-selection map of the type introduced by Akers, Engelhardt, Harlow, Penington, and Vardhan, and in the case of trivial effective interactions reduces to their model, while providing a suitable generalization when those interactions are nontrivial. We show the map is equivariant with respect to time evolution, and independent of any interactions outside the black hole. This construction includes interactions with an infaller in a way that preserves the unitarity of black hole evolution exactly and does not allow for superpolynomial computational complexity.
翻訳日:2023-04-26 23:04:33 公開日:2023-04-24
# 長距離多極系における階層的流体力学

Hierarchical hydrodynamics in long-range multipole-conserving systems ( http://arxiv.org/abs/2304.12342v1 )

ライセンス: Link先を確認
Jacopo Gliozzi, Julian May-Mann, Taylor L. Hughes, Giuseppe De Tomasi(参考訳) 本研究は,長距離相互作用を持つ双極子および高モーメント保存系の平衡外ダイナミクスを調査し,強傾斜電位における捕捉イオン実験から着想を得たものである。 本稿では, パワーロー減衰結合を特徴とするマルチポール保存モデルの階層列を提案する。 モーメントは常にグローバルに保存されるが、カップリングのパワーロー指数を調整することで、多重極モーメントのサブセットのみが局所的に保存される様々なレギュレーションを誘導する。 従来の拡散, L'evy 飛行を含む豊富な動的相図を, 有効な古典的枠組みを用いて解析および数値的に検討した。 その結果、モーメントのサブセットのみが局所保存されるマルチポール保存システムにおいて、水力学のネスト階層を捉えた解析的相互関係が統一される。 さらに, 電荷密度の低い系において, より高次元に知見を拡張し, 熱前構造を想起する長時間スケールの出現を探索する。 最後に,完全量子長距離双極子保存システムの最先端数値シミュレーションを行い,閉じ込められたイオンの実験的セットアップとの関連性について考察する。

This work investigates the out-of-equilibrium dynamics of dipole and higher-moment conserving systems with long-range interactions, drawing inspiration from trapped ion experiments in strongly tilted potentials. We introduce a hierarchical sequence of multipole-conserving models characterized by power-law decaying couplings. Although the moments are always globally conserved, adjusting the power-law exponents of the couplings induces various regimes in which only a subset of multipole moments are effectively locally conserved. We examine the late-time hydrodynamics analytically and numerically using an effective classical framework, uncovering a rich dynamical phase diagram that includes subdiffusion, conventional diffusion, and L\'evy flights. Our results are unified in an analytic reciprocal relationship that captures the nested hierarchy of hydrodynamics in multipole conserving systems where only a subset of the moments are locally conserved. Moreover, we extend our findings to higher dimensions and explore the emergence of long-time scales, reminiscent of pre-thermal regimes, in systems with low charge density. Lastly, we corroborate our results through state-of-the-art numerical simulations of a fully quantum long-range dipole-conserving system and discuss their relevance to trapped-ion experimental setups.
翻訳日:2023-04-26 23:04:11 公開日:2023-04-24
# 二元系ボースの抽出溶液:液蒸気共存と臨界点

Attractive solution of binary Bose mixtures: Liquid-vapor coexistence and critical point ( http://arxiv.org/abs/2304.12334v1 )

ライセンス: Link先を確認
G. Spada, S. Pilati and S. Giorgini(参考訳) 完全経路積分モンテカルロ法を用いた魅力的な二成分ボース混合物の熱力学的挙動について検討した。 我々は, 基底状態が自己結合性液相にある種間相互作用の制御に焦点をあて, 平均場効果を超えて安定化する。 我々はアトラクション強度の異なる値に対して圧力対密度面の等温曲線を計算し、マックスウェル構造を用いて液体と蒸気の共存領域の面積を推定する。 特に、共存領域内では、ボース=アインシュタイン凝縮は、密度が通常の気体から超流動液相に上昇するにつれて不連続的に起こる。 さらに,一階遷移線が終端する臨界点を決定し,その近傍の密度不連続性の挙動について検討する。 また, この遷移における密度不連続性は, トラップ内の混合実験で観測できることも指摘した。

We study the thermodynamic behavior of attractive binary Bose mixtures using exact path-integral Monte-Carlo methods. Our focus is on the regime of interspecies interactions where the ground state is in a self-bound liquid phase, stabilized by beyond mean-field effects. We calculate the isothermal curves in the pressure vs density plane for different values of the attraction strength and establish the extent of the coexistence region between liquid and vapor using the Maxwell construction. Notably, within the coexistence region, Bose-Einstein condensation occurs in a discontinuous way as the density jumps from the normal gas to the superfluid liquid phase. Furthermore, we determine the critical point where the line of first-order transition ends and investigate the behavior of the density discontinuity in its vicinity. We also point out that the density discontinuity at the transition could be observed in experiments of mixtures in traps.
翻訳日:2023-04-26 23:03:49 公開日:2023-04-24
# Rパッケージctsfeaturesを用いたカテゴリー時系列解析

Analyzing categorical time series with the R package ctsfeatures ( http://arxiv.org/abs/2304.12332v1 )

ライセンス: Link先を確認
\'Angel L\'opez Oriona and Jos\'e Antonio Vilar Fern\'andez(参考訳) 現在、時系列データはユビキタスである。 この話題に関する文献の多くは実価値のある時系列を扱うが、分類的時系列はそれほど注目されていない。 しかし,近年,このようなデータマイニング技術の発展が顕著に進んでいる。 Rパッケージctsfeaturesは、分類時系列を分析するための便利なツールセットを提供する。 特に、よく知られた統計的特徴の抽出を可能にするいくつかの関数と、そのパッケージに基礎となる時間パターンを記述する図式グラフが提供されている。 いくつかの関数の出力は、クラスタリング、分類、外れ値検出など、従来の機械学習タスクの実行に使用することができる。 このパッケージには、クラスタリングのために文献に導入された2つの生物学的配列のデータセットと、3つの興味深い合成データベースも含まれている。 本研究では,パッケージの主な特徴を述べ,その用途を様々な例を通して示す。 さまざまな分野の実践者は、ctsfeaturesが提供する貴重なツールの恩恵を受けることができる。

Time series data are ubiquitous nowadays. Whereas most of the literature on the topic deals with real-valued time series, categorical time series have received much less attention. However, the development of data mining techniques for this kind of data has substantially increased in recent years. The R package ctsfeatures offers users a set of useful tools for analyzing categorical time series. In particular, several functions allowing the extraction of well-known statistical features and the construction of illustrative graphs describing underlying temporal patterns are provided in the package. The output of some functions can be employed to perform traditional machine learning tasks including clustering, classification and outlier detection. The package also includes two datasets of biological sequences introduced in the literature for clustering purposes, as well as three interesting synthetic databases. In this work, the main characteristics of the package are described and its use is illustrated through various examples. Practitioners from a wide variety of fields could benefit from the valuable tools provided by ctsfeatures.
翻訳日:2023-04-26 23:03:34 公開日:2023-04-24
# USTEP: Structuration des logs en flux gr{\^a}ce {\`a} un arbre de recherche {\'e}volutif

USTEP: Structuration des logs en flux gr{\^a}ce {\`a} un arbre de recherche {\'e}volutif ( http://arxiv.org/abs/2304.12331v1 )

ライセンス: Link先を確認
Arthur Vervaet (ISEP), Raja Chiky (ISEP), Mar Callau-Zori(参考訳) ログは実行時に貴重なシステム情報を記録する。 これらは、開発と監視のためにデータ駆動アプローチによって広く使われている。 ログメッセージを解析してフォーマットを構成することは、ログマイニングタスクの古典的な予備ステップである。 上流に現れるように、解析操作は下流アプリケーションの処理時間ボトルネックになる可能性がある。 解析の質も、その効率に直接的な影響を与えている。 本稿では,進化する木構造に基づくオンラインログ解析手法USTEPを提案する。 異なる実世界のシステムから得られた幅広いデータセットの評価結果は、他のオンライン手法と比較して、有効性と堅牢性の両方の観点からUSTEPの優位性を示している。

Logs record valuable system information at runtime. They are widely used by data-driven approaches for development and monitoring purposes. Parsing log messages to structure their format is a classic preliminary step for log-mining tasks. As they appear upstream, parsing operations can become a processing time bottleneck for downstream applications. The quality of parsing also has a direct influence on their efficiency. Here, we propose USTEP, an online log parsing method based on an evolving tree structure. Evaluation results on a wide panel of datasets coming from different real-world systems demonstrate USTEP superiority in terms of both effectiveness and robustness when compared to other online methods.
翻訳日:2023-04-26 23:03:20 公開日:2023-04-24
# サンプル効率とサーロゲートに基づく水中車体の設計最適化

Sample-Efficient and Surrogate-Based Design Optimization of Underwater Vehicle Hulls ( http://arxiv.org/abs/2304.12420v1 )

ライセンス: Link先を確認
Harsh Vardhan, David Hyde, Umesh Timalsina, Peter Volgyesi, Janos Sztipanovits(参考訳) 物理シミュレーションはコンピュータ支援設計(CAD)最適化プロセスにおける計算ボトルネックである。 したがって、設計最適化に使用できる正確な(計算コストがかかる)シミュレーションを実現するためには、ロングランニングシミュレーションのために、サンプル効率の高い最適化フレームワークか、高速データ駆動プロキシ(サーロゲートモデル)が必要である。 本研究は、最適化と人工知能(ai)の最近の進歩を活用して、最適な無人水中機(uuv)を設計するという文脈で、これらの2つの潜在的なソリューションに対処する。 まず、最適化手法のサンプル効率と収束挙動を、最適化ループにおける標準計算流体力学(CFD)解法と比較した。 そこで我々は、CFDソルバを用いた直接数値シミュレーションにより計算されるドラグフォースを近似するディープニューラルネットワーク(DNN)に基づく代理モデルを開発した。 シュロゲートモデルは船体設計の最適化ループで使用される。 本研究は,ベイズ最適化下条件境界(BO LCB)アルゴリズムが最もサンプリング効率の良い最適化フレームワークであり,最も収束性が高いことを示す。 その後,本モデルでは,cfdシミュレーションと密に一致したテストデータに対する抗力予測を行い,平均絶対パーセンテージ誤差(mape)を1.85%とした。 これらの結果を組み合わせることで,サロゲートモデルを用いた場合の設計最適化プロセスの2次速度向上(同等の精度)を実証する。 我々の知る限り、これはベイズ最適化とDNNに基づくサロゲートモデリングをUUV設計の最適化問題に適用した最初の研究であり、我々の開発成果をオープンソースソフトウェアとして共有する。

Physics simulations are a computational bottleneck in computer-aided design (CAD) optimization processes. Hence, in order to make accurate (computationally expensive) simulations feasible for use in design optimization, one requires either an optimization framework that is highly sample-efficient or fast data-driven proxies (surrogate models) for long running simulations. In this work, we leverage recent advances in optimization and artificial intelligence (AI) to address both of these potential solutions, in the context of designing an optimal unmanned underwater vehicle (UUV). We first investigate and compare the sample efficiency and convergence behavior of different optimization techniques with a standard computational fluid dynamics (CFD) solver in the optimization loop. We then develop a deep neural network (DNN) based surrogate model to approximate drag forces that would otherwise be computed via direct numerical simulation with the CFD solver. The surrogate model is in turn used in the optimization loop of the hull design. Our study finds that the Bayesian Optimization Lower Condition Bound (BO LCB) algorithm is the most sample-efficient optimization framework and has the best convergence behavior of those considered. Subsequently, we show that our DNN-based surrogate model predicts drag force on test data in tight agreement with CFD simulations, with a mean absolute percentage error (MAPE) of 1.85%. Combining these results, we demonstrate a two-orders-of-magnitude speedup (with comparable accuracy) for the design optimization process when the surrogate model is used. To our knowledge, this is the first study applying Bayesian optimization and DNN-based surrogate modeling to the problem of UUV design optimization, and we share our developments as open-source software.
翻訳日:2023-04-26 22:57:07 公開日:2023-04-24
# 単一二層イオンの例外点における超量子相関の観測

Observing super-quantum correlations across the exceptional point in a single, two-level trapped ion ( http://arxiv.org/abs/2304.12413v1 )

ライセンス: Link先を確認
Alexander Quinn, Jeremy Metzner, Jacob E. Muldoon, Isam Daniel Moore, Sean Brudney, Sourin Das, David T.C. Allcock, and Yogesh N. Joglekar(参考訳) 量子論は微視的な世界の大部分を支配する規則を提供し、その直観に反する結果には局所的な古典的理論の境界を超える相関がある。 2段階の量子システムでは、量子力学は理論的にこれらの時空間的量子相関をベル・クラウザー・ホーン・シモニー・ホルトあるいはレゲット・ガルグの不等式に制限し、それぞれ$2\sqrt{2}$ または 1.5 に制限する。 最先端の量子ビットを用いた実験は、空間的、ベルと時間的、レゲット=ガルグ量子相関境界に近づいた。 ここで、2段階の非エルミートハミルトニアンによって制御される散逸した$^{40}$ca$^+$ イオンを用いて、レゲット・ガーグパラメータ $k_3$ に対して 1.703(4) までの時間相関値を観測し、ヒッヘルト非可逆 l\"{u}der のバウンド 1.5 を明らかに上回っている。 これらの超過は、キュービットの非ユニタリでコヒーレントな力学に責任を持つパリティ時間対称ハミルトンの例外点を越えて起こる。 量子速度制限に基づくトランジット時間に対して$\tau_{\textrm{qsl}}$という統一された(mendelstam-tammまたはmargolus-levitin)値に違反する反基数量子ビット状態の異なる進化速度は、広いパラメータの範囲で観測される超量子量 $k_3$ となる。 その結果,非エルミート・ハミルトニアンのポスト選択されたコヒーレントダイナミクスは,一元的あるいは散逸的ダイナミクスに基づくプロトコルを超える量子相関の強化への道を開いた。

Quantum theory provides rules governing much of the microscopic world, and among its counter-intuitive consequences are correlations that exceed the bounds from local, classical theories. In two-level quantum systems - qubits - unitary dynamics theoretically limit these spatiotemporal quantum correlations, called Bell/Clauser-Horn-Shimony-Holt or Leggett-Garg inequalities, to $2\sqrt{2}$ or 1.5 respectively. Experiments with state-of-the-art qubits have approached the spatial, Bell and temporal, Leggett-Garg quantum correlation bounds. Here, using a dissipative, trapped $^{40}$Ca$^+$ ion governed by a two-level, non-Hermitian Hamiltonian, we observe temporal correlation values up to 1.703(4) for the Leggett-Garg parameter $K_3$, clearly exceeding the hitherto inviolable L\"{u}der's bound of 1.5. These excesses occur across the exceptional point of the parity-time symmetric Hamiltonian responsible for the qubit's non-unitary, coherent dynamics. Distinct evolution speeds for antipodal qubit states, which violate the unified (Mendelstam-Tamm or Margolus-Levitin) bound $\tau_{\textrm{QSL}}$ for the transit time based on quantum speed limit, result in the super-quantum $K_3$ values observed over a wide parameter range. Our results demonstrate that post-selected, coherent dynamics of non-Hermitian Hamiltonians pave the way for enhanced quantum correlations that exceed protocols based on unitary or dissipative dynamics.
翻訳日:2023-04-26 22:56:37 公開日:2023-04-24
# 自動運転車のエンドツーエンドlidarカメラ自己校正

End-to-End Lidar-Camera Self-Calibration for Autonomous Vehicles ( http://arxiv.org/abs/2304.12412v1 )

ライセンス: Link先を確認
Arya Rachman, J\"urgen Seiler, and Andr\'e Kaup(参考訳) 自動運転車には、安全運転を可能にするマルチモーダルセンサーが搭載されている。 このような知覚センサの初期校正は高度に成熟したトピックであり、自動化された工場環境で定期的に行われる。 しかし、興味深い疑問は、車両の運転期間を通してキャリブレーションの品質を維持する方法である。 もうひとつの課題は、複数のセンサを共同で校正することで、システムエラーの伝播を防止できることだ。 本稿では,ピンホールカメラとライダーの自動校正問題に対処する,エンドツーエンドの自己校正ネットワークであるCaLiCaを提案する。 我々は,カメラ画像とLidar点雲の特徴相関を回帰することにより,カメラ内在パラメータ(焦点長と歪み)とLidar-Camera外在パラメータ(回転と変換)を共同で予測する。 ネットワークはsiamese-twin構造に配置され、ネットワークの特徴をポイントクラウドとカメラの両方の共有機能(ライダーカメラの制約)に制限する。 KITTIデータセットを用いて評価した結果,1パスの推測で0.028ピクセルの再投影誤差で0.154 {\deg} と0.059mの精度が得られた。 また,我々のエンドツーエンド学習アーキテクチャが,孤立キャリブレーションに比べて端末損失(回転損失の21%減少)を低く抑える方法についても検討した。

Autonomous vehicles are equipped with a multi-modal sensor setup to enable the car to drive safely. The initial calibration of such perception sensors is a highly matured topic and is routinely done in an automated factory environment. However, an intriguing question arises on how to maintain the calibration quality throughout the vehicle's operating duration. Another challenge is to calibrate multiple sensors jointly to ensure no propagation of systemic errors. In this paper, we propose CaLiCa, an end-to-end deep self-calibration network which addresses the automatic calibration problem for pinhole camera and Lidar. We jointly predict the camera intrinsic parameters (focal length and distortion) as well as Lidar-Camera extrinsic parameters (rotation and translation), by regressing feature correlation between the camera image and the Lidar point cloud. The network is arranged in a Siamese-twin structure to constrain the network features learning to a mutually shared feature in both point cloud and camera (Lidar-camera constraint). Evaluation using KITTI datasets shows that we achieve 0.154 {\deg} and 0.059 m accuracy with a reprojection error of 0.028 pixel with a single-pass inference. We also provide an ablative study of how our end-to-end learning architecture offers lower terminal loss (21% decrease in rotation loss) compared to isolated calibration
翻訳日:2023-04-26 22:55:55 公開日:2023-04-24
# PEFT-Ref:パラメータ効率の良いファインタニングのためのモジュール参照アーキテクチャとタイポロジー

PEFT-Ref: A Modular Reference Architecture and Typology for Parameter-Efficient Finetuning Techniques ( http://arxiv.org/abs/2304.12410v1 )

ライセンス: Link先を確認
Mohammed Sabry, Anya Belz(参考訳) 近年のPEFT技術は, 大規模事前学習言語モデル(PLM)の完全微調整に要するかなりのコストに対して, 改良を図っている。 異なるPEFT技術が普及するにつれて、特にその比較が困難になっている。 i) PLMに付加される構造と機能 (二 異なる種類及び効率改善の度合い (iii)異なる下流課題における性能、及び (4) 構造と機能の違いが効率とタスクパフォーマンスにどのように関係しているか。 このような比較を容易にするため,本論文では,異なるpeft技術で共有されるアスペクトを標準化するとともに,特定の場所や標準コンポーネントとのインタラクションの違いを分離した参照フレームワークを提案する。 違いを標準化し、分離するプロセスを通じて、PEFT技法のモジュラビューが登場し、異なる技術とそれらの効率とタスク性能を直接比較するだけでなく、異なる種類の微調整モジュールの再利用性と構成性について体系的に調査する。 我々は,peft技術の性質と相対的利点を理解するためにリファレンスフレームワークをどのように適用できるかを実証し,特定のタスクに対する技術の選択と新しいpeft技術の設計選択を知らせる。

Recent parameter-efficient finetuning (PEFT) techniques aim to improve over the considerable cost of fully finetuning large pretrained language models (PLM). As different PEFT techniques proliferate, it is becoming difficult to compare them, in particular in terms of (i) the structure and functionality they add to the PLM, (ii) the different types and degrees of efficiency improvements achieved, (iii) performance at different downstream tasks, and (iv) how differences in structure and functionality relate to efficiency and task performance. To facilitate such comparisons, this paper presents a reference framework which standardises aspects shared by different PEFT techniques, while isolating differences to specific locations and interactions with the standard components. Through this process of standardising and isolating differences, a modular view of PEFT techniques emerges, supporting not only direct comparison of different techniques and their efficiency and task performance, but also systematic exploration of reusability and composability of the different types of finetuned modules. We demonstrate how the reference framework can be applied to understand properties and relative advantages of PEFT techniques, hence to inform selection of techniques for specific tasks, and design choices for new PEFT techniques.
翻訳日:2023-04-26 22:55:35 公開日:2023-04-24
# AutoFocusFormer: グリッドからのイメージセグメンテーション

AutoFocusFormer: Image Segmentation off the Grid ( http://arxiv.org/abs/2304.12406v1 )

ライセンス: Link先を確認
Chen Ziwen, Kaushik Patnaik, Shuangfei Zhai, Alvin Wan, Zhile Ren, Alex Schwing, Alex Colburn, Li Fuxin(参考訳) 現実世界の画像は、しばしば高度に不均衡なコンテンツ密度を持つ。 いくつかの地域は、例えば青い空の大きなパッチのような非常に均一であり、他の地域は多くの小さな物体で散らばっている。 しかし、畳み込み深層ネットワークにおけるグリッドダウンサンプリング戦略は、全ての領域を等しく扱う。 したがって、小さな物体はごくわずかな空間的位置で表現され、セグメンテーションのようなタスクが悪化する。 直感的には、ダウンサンプリング中に小さなオブジェクトを表すピクセルを多く保持することは重要な情報を保存するのに役立つ。 そこで本研究では,タスクの最も重要な画素を保持することを学習し,適応型ダウンサンプリングを行うローカル・アテンショントランスフォーマ画像認識バックボーンであるautofocusformer(aff)を提案する。 適応的なダウンサンプリングは画像平面上に不規則に分布する画素集合を生成するため、従来のグリッド構造は放棄する。 代わりに、バランスのとれたクラスタリングモジュールと学習可能な近傍マージモジュールによって容易になる、新しいポイントベースのローカルアテンションブロックを開発し、ポイントベースのセグメンテーションヘッドの表現を得る。 実験の結果、AutoFocusFormer(AFF)は類似サイズのベースラインモデルよりも大幅に改善されていることがわかった。

Real world images often have highly imbalanced content density. Some areas are very uniform, e.g., large patches of blue sky, while other areas are scattered with many small objects. Yet, the commonly used successive grid downsampling strategy in convolutional deep networks treats all areas equally. Hence, small objects are represented in very few spatial locations, leading to worse results in tasks such as segmentation. Intuitively, retaining more pixels representing small objects during downsampling helps to preserve important information. To achieve this, we propose AutoFocusFormer (AFF), a local-attention transformer image recognition backbone, which performs adaptive downsampling by learning to retain the most important pixels for the task. Since adaptive downsampling generates a set of pixels irregularly distributed on the image plane, we abandon the classic grid structure. Instead, we develop a novel point-based local attention block, facilitated by a balanced clustering module and a learnable neighborhood merging module, which yields representations for our point-based versions of state-of-the-art segmentation heads. Experiments show that our AutoFocusFormer (AFF) improves significantly over baseline models of similar sizes.
翻訳日:2023-04-26 22:55:16 公開日:2023-04-24
# 最小二乗最適化による非線形系に対する安定還元次ビズモータポリシの合成

Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear Systems via Sums-of-Squares Optimization ( http://arxiv.org/abs/2304.12405v1 )

ライセンス: Link先を確認
Glen Chou, Russ Tedrake(参考訳) フィードバック制御ループにおける視覚的観察と学習知覚モジュールを用いた場合、目標状態に対する実行時の安定性を保証する制御-アフィン非線形系に対する動的で低次出力-フィードバック多項式制御ポリシーの合成法を提案する。 我々は、リアプノフ分析を利用して、そのようなポリシーを合成する問題を定式化する。 この問題は、ポリシーの安定性を証明するために使われるポリシーパラメータとリアプノフ関数の非凸である。 この問題を解決するために,まず二乗和最適化問題の列を解き,構成によって確実に安定できる方針を反復的に改善し,また,次は多項式政策のパラメータに対して勾配に基づく最適化を行い,その閉ループ安定性を後続的に検証する。 我々は,学習知覚モジュールの誤りにより現実的に発生する観測ノイズの存在下での安定性保証を提供するためのアプローチを拡張した。 我々は,pendula や quadrotor などいくつかの非定常非線形システムに対する我々のアプローチを評価し,画像からシステムを制御する際の経験的安定性が保証されることを示した。

We present a method for synthesizing dynamic, reduced-order output-feedback polynomial control policies for control-affine nonlinear systems which guarantees runtime stability to a goal state, when using visual observations and a learned perception module in the feedback control loop. We leverage Lyapunov analysis to formulate the problem of synthesizing such policies. This problem is nonconvex in the policy parameters and the Lyapunov function that is used to prove the stability of the policy. To solve this problem approximately, we propose two approaches: the first solves a sequence of sum-of-squares optimization problems to iteratively improve a policy which is provably-stable by construction, while the second directly performs gradient-based optimization on the parameters of the polynomial policy, and its closed-loop stability is verified a posteriori. We extend our approach to provide stability guarantees in the presence of observation noise, which realistically arises due to errors in the learned perception module. We evaluate our approach on several underactuated nonlinear systems, including pendula and quadrotors, showing that our guarantees translate to empirical stability when controlling these systems from images, while baseline approaches can fail to reliably stabilize the system.
翻訳日:2023-04-26 22:54:55 公開日:2023-04-24
# 拡張自然言語処理のための意味トークン化

Semantic Tokenizer for Enhanced Natural Language Processing ( http://arxiv.org/abs/2304.12404v1 )

ライセンス: Link先を確認
Sandeep Mehta, Darpan Shah, Ravindra Kulkarni, Cornelia Caragea(参考訳) 従来、nlpのパフォーマンス改善はモデルの改善とモデルパラメータ数の増加に重点を置いてきた。 NLP語彙構成は、サブワード正規化によって表現される単語の数を最大化することに集中している。 本稿では,セマンティクスを用いて語彙構成を行う新しいトークン化手法を提案する。 トークン化装置は、サブワード形成の強化にステーミングを使用するトレーナーを含む。 さらに最適化と適応を行い、符号化できない単語の数を最小化する。 エンコーダはトレーナーと統合するために更新される。 トークン化装置は、文片トークン化器のドロップイン代替として実装される。 新しいトークン化子は、語彙で表されるワードフォームの数を2倍以上にする。 拡張語彙はNLPモデルの収束を著しく改善し、単語と文の埋め込みの品質を向上する。 実験の結果,BERTベースを用いた2つのGlueタスクの上位性能を示し,50倍以上のモデルで改善した。

Traditionally, NLP performance improvement has been focused on improving models and increasing the number of model parameters. NLP vocabulary construction has remained focused on maximizing the number of words represented through subword regularization. We present a novel tokenizer that uses semantics to drive vocabulary construction. The tokenizer includes a trainer that uses stemming to enhance subword formation. Further optimizations and adaptations are implemented to minimize the number of words that cannot be encoded. The encoder is updated to integrate with the trainer. The tokenizer is implemented as a drop-in replacement for the SentencePiece tokenizer. The new tokenizer more than doubles the number of wordforms represented in the vocabulary. The enhanced vocabulary significantly improves NLP model convergence, and improves quality of word and sentence embeddings. Our experimental results show top performance on two Glue tasks using BERT-base, improving on models more than 50X in size.
翻訳日:2023-04-26 22:54:33 公開日:2023-04-24
# HDCC:組み込みシステムと高性能コンピューティングの分類のための超次元計算コンパイラ

HDCC: A Hyperdimensional Computing compiler for classification on embedded systems and high-performance computing ( http://arxiv.org/abs/2304.12398v1 )

ライセンス: Link先を確認
Pere Verg\'es, Mike Heddes, Igor Nunes, Tony Givargis, Alexandru Nicolau(参考訳) 超次元コンピューティング(HDC)はバイオインスパイアされたコンピューティングフレームワークであり、特に機械学習(ML)に対するより効率的なアプローチとして注目を集めている。 これは、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである。 コンパイラが生成するコードには,組み込みシステムと高性能コンピューティングの3つの主な特徴がある。(1)自己完結型であり,ライブラリやプラットフォームに依存しない,(2)c組み込みを用いたマルチスレッドおよびシングル命令マルチデータ(simd)命令をサポートする,(3)最大パフォーマンスとメモリ使用量に最適化されている。 \name{}は現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。 これにより \name{} は、組み込みシステムや高性能コンピューティング上の分類タスクのための HDC を探索する研究やアプリケーションにとって貴重なツールとなる。 これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。 実験は、異なるハイパーパラメータ構成を含む4つの異なるマシンで実行され、PyTorch上に構築された一般的なプロトタイピングライブラリと比較された。 その結果、トレーニングと推論のスピードアップが最大132倍になり、すべてのデータセットとマシン平均25倍になった。 メモリ使用量については,10240次元ハイパーベクターを用いて平均5倍,最大14倍となった。 64次元のベクトルを考慮すると、平均減算は85倍となり、最大で158倍のメモリ使用率となった。

Hyperdimensional Computing (HDC) is a bio-inspired computing framework that has gained increasing attention, especially as a more efficient approach to machine learning (ML). This work introduces the \name{} compiler, the first open-source compiler that translates high-level descriptions of HDC classification methods into optimized C code. The code generated by the proposed compiler has three main features for embedded systems and High-Performance Computing: (1) it is self-contained and has no library or platform dependencies; (2) it supports multithreading and single instruction multiple data (SIMD) instructions using C intrinsics; (3) it is optimized for maximum performance and minimal memory usage. \name{} is designed like a modern compiler, featuring an intuitive and descriptive input language, an intermediate representation (IR), and a retargetable backend. This makes \name{} a valuable tool for research and applications exploring HDC for classification tasks on embedded systems and High-Performance Computing. To substantiate these claims, we conducted experiments with HDCC on several of the most popular datasets in the HDC literature. The experiments were run on four different machines, including different hyperparameter configurations, and the results were compared to a popular prototyping library built on PyTorch. The results show a training and inference speedup of up to 132x, averaging 25x across all datasets and machines. Regarding memory usage, using 10240-dimensional hypervectors, the average reduction was 5x, reaching up to 14x. When considering vectors of 64 dimensions, the average reduction was 85x, with a maximum of 158x less memory utilization.
翻訳日:2023-04-26 22:54:20 公開日:2023-04-24
# 研究における毒性評価のためのブラックボックスAPI利用の課題

On the Challenges of Using Black-Box APIs for Toxicity Evaluation in Research ( http://arxiv.org/abs/2304.12397v1 )

ライセンス: Link先を確認
Luiza Pozzobon, Beyza Ermis, Patrick Lewis, Sara Hooker(参考訳) 毒性の知覚は時間とともに進化し、地理と文化の背景とはしばしば異なる。 同様に、パースペクティブAPIのような毒性を検出するブラックボックスの商用APIは静的ではないが、意図しない弱点やバイアスに対処するために頻繁に再訓練される。 本研究は,これらの変化が,毒性抑制を目的としたモデルと手法の相対的メリットと比較した結果の再現性に与える影響を評価する。 モデルと手法を比較するための遺伝毒性スコアに依存する研究が不正確な結果をもたらした可能性が示唆された。 広く尊敬されている生きたベンチマークであるHELMのすべてのモデルを、最新バージョンのAPIと毒性のために再現することで、広く使用されている基盤モデルの異なるランク付けにつながった。 本研究では, リンゴとアプライズの比較を研究に適用し, 時間とともに毒性を評価するためのより構造化されたアプローチを提案する。 コードとデータはhttps://github.com/for-ai/black-box-api-challengesで入手できる。

Perception of toxicity evolves over time and often differs between geographies and cultural backgrounds. Similarly, black-box commercially available APIs for detecting toxicity, such as the Perspective API, are not static, but frequently retrained to address any unattended weaknesses and biases. We evaluate the implications of these changes on the reproducibility of findings that compare the relative merits of models and methods that aim to curb toxicity. Our findings suggest that research that relied on inherited automatic toxicity scores to compare models and techniques may have resulted in inaccurate findings. Rescoring all models from HELM, a widely respected living benchmark, for toxicity with the recent version of the API led to a different ranking of widely used foundation models. We suggest caution in applying apples-to-apples comparisons between studies and lay recommendations for a more structured approach to evaluating toxicity over time. Code and data are available at https://github.com/for-ai/black-box-api-challenges.
翻訳日:2023-04-26 22:53:50 公開日:2023-04-24
# 質問応答における回答型予測の極端分類

Extreme Classification for Answer Type Prediction in Question Answering ( http://arxiv.org/abs/2304.12395v1 )

ライセンス: Link先を確認
Vinay Setty(参考訳) 意味的回答型予測(SMART)は、効果的な質問応答(QA)システムへの有用なステップとして知られている。 SMARTタスクは、与えられた自然言語の質問に対して、上位$kの知識グラフ(KG)型を予測する。 これは、KGの多数の型のため、難しい。 本稿では,質問文に基づく構造的特徴と意味的特徴を用いたKG型のクラスタリングにより,トランスフォーマーモデル(XBERT)を用いた極端なマルチラベル分類を提案する。 KGsから得られたテキストおよび構造的特徴を用いて,XBERTパイプラインのクラスタリングステージを具体的に改善する。 これらの特徴により,SMARTタスクのエンドツーエンド性能が向上し,最先端の結果が得られることを示す。

Semantic answer type prediction (SMART) is known to be a useful step towards effective question answering (QA) systems. The SMART task involves predicting the top-$k$ knowledge graph (KG) types for a given natural language question. This is challenging due to the large number of types in KGs. In this paper, we propose use of extreme multi-label classification using Transformer models (XBERT) by clustering KG types using structural and semantic features based on question text. We specifically improve the clustering stage of the XBERT pipeline using textual and structural features derived from KGs. We show that these features can improve end-to-end performance for the SMART task, and yield state-of-the-art results.
翻訳日:2023-04-26 22:53:35 公開日:2023-04-24
# 教師なし半教師付きマニフォールド学習のためのランクフロー埋め込み

Rank Flow Embedding for Unsupervised and Semi-Supervised Manifold Learning ( http://arxiv.org/abs/2304.12448v1 )

ライセンス: Link先を確認
Lucas Pascotti Valem, Daniel Carlos Guimar\~aes Pedronette, Longin Jan Latecki(参考訳) 買収と共有技術の素晴らしい進歩により、マルチメディアコレクションとそのアプリケーションはほぼ無制限に成長した。 しかし、そのようなデータはしばしば高価で取得に時間がかかるため、教師付きトレーニングに必要なラベル付きデータの可用性については逆である。 効果的な検索・分類手法の開発が求められている一方で、教師付きアプローチが直面する困難さは、ラベル付きデータの少ない、あるいは全くない操作が可能な手法の関連性を浮き彫りにしている。 本研究では,教師なしおよび半教師付きシナリオに対するランクフロー埋め込み (RFE) という新しい多様体学習アルゴリズムを提案する。 提案手法は,最近,ハイパーグラフ,デカルト積,連結成分など,多様体学習手法によって活用された概念に基づいている。 このアルゴリズムは、ランクベースの処理フローに従って洗練されたコンテキストセンシティブ埋め込みを計算し、補完的なコンテクスト情報を組み込む。 生成された埋め込みは、グラフ畳み込みネットワークに基づくより効果的な教師なし検索や半教師なし分類に利用できる。 10種類のコレクションで実験を行った。 最近の畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)モデルで得られたものなど、さまざまな特徴が考慮された。 提案手法は, 教師なし画像検索, 半教師付き分類, 人物のRe-IDなど, 様々なタスクにおける有効性を示す。 その結果、RFEは様々な評価シナリオにおける最先端技術よりも競争力があるか優れていることが示された。

Impressive advances in acquisition and sharing technologies have made the growth of multimedia collections and their applications almost unlimited. However, the opposite is true for the availability of labeled data, which is needed for supervised training, since such data is often expensive and time-consuming to obtain. While there is a pressing need for the development of effective retrieval and classification methods, the difficulties faced by supervised approaches highlight the relevance of methods capable of operating with few or no labeled data. In this work, we propose a novel manifold learning algorithm named Rank Flow Embedding (RFE) for unsupervised and semi-supervised scenarios. The proposed method is based on ideas recently exploited by manifold learning approaches, which include hypergraphs, Cartesian products, and connected components. The algorithm computes context-sensitive embeddings, which are refined following a rank-based processing flow, while complementary contextual information is incorporated. The generated embeddings can be exploited for more effective unsupervised retrieval or semi-supervised classification based on Graph Convolutional Networks. Experimental results were conducted on 10 different collections. Various features were considered, including the ones obtained with recent Convolutional Neural Networks (CNN) and Vision Transformer (ViT) models. High effective results demonstrate the effectiveness of the proposed method on different tasks: unsupervised image retrieval, semi-supervised classification, and person Re-ID. The results demonstrate that RFE is competitive or superior to the state-of-the-art in diverse evaluated scenarios.
翻訳日:2023-04-26 22:48:18 公開日:2023-04-24
# 機械学習を用いた心電図による肺高血圧の予測

Predicting Pulmonary Hypertension by Electrocardiograms Using Machine Learning ( http://arxiv.org/abs/2304.12447v1 )

ライセンス: Link先を確認
Eashan Kosaraju, Praveen Kumar Pandian Shanmuganathan(参考訳) 肺高血圧症(きゅうがいかん、英: lung hypertension, PH)は、肺と心臓の右側の動脈に影響を及ぼす高血圧の病態である(Mayo Clinical, 2017)。 25 mmHg以上の平均肺動脈圧は肺高血圧と定義される。 肺高血圧症と診断された時点での5年間の生存率は、治療なしでは57%であり、右心不全患者は治療なしで約1年間生存している(benza et al., 2012)。 疾患の未熟な性質を考えると、phの早期検出は治療の遅れにつながる課題である。 心エコー図は現在、ph診断のためのスクリーニングツールとして利用されているが、心電図よりアクセスしやすく、使用が簡単で、費用対効果が高い心電図(ecg)は、心電図より研究が進んでいない。本プロジェクトの目標は、心電図信号を処理し、信頼性確率でphの存在を検出できるニューラルネットワークモデルを作成することである。 私は、利用可能なトレーニングサンプルに対して98%の精度で高密度ニューラルネットワーク(DNN)モデルを作成しました。 将来のステップでは、現在のモデルは時系列データに適したモデルで更新される。 データセットと適切なトレーニングサンプルのバランスをとるため、データ拡張技術を使用して追加データを生成します。 PHなどの病態の早期かつ正確な検出を通じて、慢性的な生命を脅かす健康状態の検出における革新のスペクトルを広げ、関連する死亡率と死亡率の低減を図る。

Pulmonary hypertension (PH) is a condition of high blood pressure that affects the arteries in the lungs and the right side of the heart (Mayo Clinic, 2017). A mean pulmonary artery pressure greater than 25 mmHg is defined as Pulmonary hypertension. The estimated 5-year survival rate from the time of diagnosis of pulmonary hypertension is only 57% without therapy and patients with right heart failure only survive for approximately 1 year without treatment (Benza et al., 2012). Given the indolent nature of the disease, early detection of PH remains a challenge leading to delays in therapy. Echocardiography is currently used as a screening tool for diagnosing PH. However, electrocardiography (ECG), a more accessible, simple to use, and cost-effective tool compared to echocardiography, is less studied and explored for screening at-risk patients for PH. The goal of this project is to create a neural network model which can process an ECG signal and detect the presence of PH with a confidence probability. I created a dense neural network (DNN) model that has an accuracy of 98% over the available training sample. For future steps, the current model will be updated with a model suited for time-series data. To balance the dataset with proper training samples, I will generate additional data using data augmentation techniques. Through early and accurate detection of conditions such as PH, we widen the spectrum of innovation in detecting chronic life-threatening health conditions and reduce associated mortality and morbidity.
翻訳日:2023-04-26 22:47:52 公開日:2023-04-24
# 自然言語推論における人間のラベル変異の理解と予測

Understanding and Predicting Human Label Variation in Natural Language Inference through Explanation ( http://arxiv.org/abs/2304.12443v1 )

ライセンス: Link先を確認
Nan-Jiang Jiang, Chenhao Tan, Marie-Catherine de Marneffe(参考訳) ヒトのラベルの変異(plank 2022)またはアノテーションの不一致は多くの自然言語処理(nlp)タスクに存在する。 堅牢で信頼できるためには、NLPモデルはそのようなバリエーションを特定し、それを説明できる必要がある。 そこで我々は,多様な推論を用いた生態学的に有効な説明データセットLiveNLIを開発した。 LiveNLIには、アノテータのハイライトと、少なくとも10のアノテーションを持つ122の英語自然言語推論項目のラベルに関する自由テキストの説明が含まれている。 その説明を思考連鎖プロンプトに用いた結果,gpt-3の文脈内学習によるラベル分布予測能力にはまだ改善の余地があることが分かった。

Human label variation (Plank 2022), or annotation disagreement, exists in many natural language processing (NLP) tasks. To be robust and trusted, NLP models need to identify such variation and be able to explain it. To this end, we created the first ecologically valid explanation dataset with diverse reasoning, LiveNLI. LiveNLI contains annotators' highlights and free-text explanations for the label(s) of their choice for 122 English Natural Language Inference items, each with at least 10 annotations. We used its explanations for chain-of-thought prompting, and found there is still room for improvement in GPT-3's ability to predict label distribution with in-context learning.
翻訳日:2023-04-26 22:47:25 公開日:2023-04-24
# TextMesh: テキストプロンプトからリアルな3Dメッシュを生成する

TextMesh: Generation of Realistic 3D Meshes From Text Prompts ( http://arxiv.org/abs/2304.12439v1 )

ライセンス: Link先を確認
Christina Tsalicoglou and Fabian Manhardt and Alessio Tonioni and Michael Niemeyer and Federico Tombari(参考訳) テキストプロンプトから非常にリアルな2d画像を生成する能力は、画像拡散モデルの出現により、最近、スピードと品質の面で大きな進歩を遂げている。 自然に、このようなテキストプロンプトから3Dコンテンツを生成する際にも、これが達成できるかどうかが問題となる。 この目的のために、2dイメージで訓練された拡散モデルを利用して、ビュー依存プロンプトを用いた3dモデル生成を監督する新しい手法が最近登場した。 しかし、素晴らしい結果を得る一方で、これらの手法には2つの大きな欠点がある。 まず、一般的な3Dメッシュではなく、NeRF(Neural Radiance Field)を生成し、ほとんどの実アプリケーションでは実用的ではない。 第二に、これらのアプローチは過飽和モデルを生成する傾向があり、出力はマンガ的な効果を与える。 そこで本研究では,高度にリアルな3Dメッシュを生成する新しい手法を提案する。 この目的のために、NeRFをSDFバックボーンに拡張し、3Dメッシュ抽出を改善した。 さらに, メッシュテクスチャを微調整し, 高飽和の影響を除去し, 出力3Dメッシュの詳細を改善する新しい手法を提案する。

The ability to generate highly realistic 2D images from mere text prompts has recently made huge progress in terms of speed and quality, thanks to the advent of image diffusion models. Naturally, the question arises if this can be also achieved in the generation of 3D content from such text prompts. To this end, a new line of methods recently emerged trying to harness diffusion models, trained on 2D images, for supervision of 3D model generation using view dependent prompts. While achieving impressive results, these methods, however, have two major drawbacks. First, rather than commonly used 3D meshes, they instead generate neural radiance fields (NeRFs), making them impractical for most real applications. Second, these approaches tend to produce over-saturated models, giving the output a cartoonish looking effect. Therefore, in this work we propose a novel method for generation of highly realistic-looking 3D meshes. To this end, we extend NeRF to employ an SDF backbone, leading to improved 3D mesh extraction. In addition, we propose a novel way to finetune the mesh texture, removing the effect of high saturation and improving the details of the output 3D mesh.
翻訳日:2023-04-26 22:47:11 公開日:2023-04-24
# データ駆動需要予測を用いたエネルギーハブの確率的mpc

Stochastic MPC for energy hubs using data driven demand forecasting ( http://arxiv.org/abs/2304.12438v1 )

ライセンス: Link先を確認
Francesco Micheli, Varsha Behrunani, Jonas Mehr, Philipp Heer, John Lygeros(参考訳) エネルギーハブは、様々なエネルギー入力を複数の変換および貯蔵コンポーネントを通して組み合わせてエネルギー資源を変換および分配する。 エネルギーハブの最適操作は、その柔軟性を利用してエネルギー効率を高め、運用コストを削減する。 しかし、需要の不確実性はエネルギーハブ最適化の課題をもたらす。 本稿では,不確実な電力需要と熱需要に対するリスク制約を用いて,エネルギーコストを最小化する確率的MPCコントローラを提案する。 歴史的データはガウス過程に基づく需要予測モデルを構築し、将来の電力需要と熱需要の予測を生成するために使用される。 導出予測モデルから多段階要求軌跡をサンプリングすることにより、確率最適化問題をシナリオアプローチで解く。 提案する予測器と確率制御器の性能を実建物からの需要データとシミュレーションしたエネルギーハブモデルで検証する。

Energy hubs convert and distribute energy resources by combining different energy inputs through multiple conversion and storage components. The optimal operation of the energy hub exploits its flexibility to increase the energy efficiency and reduce the operational costs. However, uncertainties in the demand present challenges to energy hub optimization. In this paper, we propose a stochastic MPC controller to minimize energy costs using chance constraints for the uncertain electricity and thermal demands. Historical data is used to build a demand prediction model based on Gaussian processes to generate a forecast of the future electricity and heat demands. The stochastic optimization problem is solved via the Scenario Approach by sampling multi-step demand trajectories from the derived prediction model. The performance of the proposed predictor and of the stochastic controller is verified on a simulated energy hub model and demand data from a real building.
翻訳日:2023-04-26 22:46:53 公開日:2023-04-24
# Sparse Private LASSO Logistic Regression

Sparse Private LASSO Logistic Regression ( http://arxiv.org/abs/2304.12429v1 )

ライセンス: Link先を確認
Amol Khanna, Fred Lu, Edward Raff(参考訳) LASSOの正規化ロジスティック回帰は、特に組み込みの機能選択に有用であり、配置から係数を除去し、疎解を生成することができる。 LASSOロジスティック回帰の異なるプライベートバージョンが開発されているが、一般に密度の高い解が生成され、LASSOペナルティの本質的な有用性が低下する。 本稿では,硬零点を維持できる分散ロジスティック回帰のための微分プライベート法を提案する。 我々の重要な洞察は、まず非プライベートラッソロジスティック回帰モデルを訓練し、最終モデル選択に使用する非零係数の民営化数を決定することである。 提案手法の性能を示すため,合成および実世界のデータセットを用いた実験を行った。

LASSO regularized logistic regression is particularly useful for its built-in feature selection, allowing coefficients to be removed from deployment and producing sparse solutions. Differentially private versions of LASSO logistic regression have been developed, but generally produce dense solutions, reducing the intrinsic utility of the LASSO penalty. In this paper, we present a differentially private method for sparse logistic regression that maintains hard zeros. Our key insight is to first train a non-private LASSO logistic regression model to determine an appropriate privatized number of non-zero coefficients to use in final model selection. To demonstrate our method's performance, we run experiments on synthetic and real-world datasets.
翻訳日:2023-04-26 22:46:39 公開日:2023-04-24
# TIGTEC : Token Importance Guided TExt Counterfactuals

TIGTEC : Token Importance Guided TExt Counterfactuals ( http://arxiv.org/abs/2304.12425v1 )

ライセンス: Link先を確認
Milan Bhan and Jean-Noel Vittaut and Nicolas Chesneau and Marie-Jeanne Lesot(参考訳) counterfactualの例では、分類子の結果をひっくり返すインスタンスの変更を強調することで予測を説明する。 本稿では,テキストデータに対して,スパース,可塑性,多種多様な反実的説明を生成するための,効率的かつモジュール化されたTIGTECを提案する。 TIGTECはテキスト編集ヒューリスティックであり、局所的特徴量を用いて高いコントリビューションで単語をターゲット・修正する。 新しい注意に基づくローカル機能の重要性について提案する。 解空間をビーム探索方式で効率的に探索しながら、意味距離を統合するコスト関数を用いて反事実候補を生成して評価する。 実験の結果,TIGTECは成功率,疎度,多様性,妥当性との関連性を示した。 この方法は、モデル固有またはモデル非依存の方法で使用することができ、反実的説明を生成するのに非常に便利である。

Counterfactual examples explain a prediction by highlighting changes of instance that flip the outcome of a classifier. This paper proposes TIGTEC, an efficient and modular method for generating sparse, plausible and diverse counterfactual explanations for textual data. TIGTEC is a text editing heuristic that targets and modifies words with high contribution using local feature importance. A new attention-based local feature importance is proposed. Counterfactual candidates are generated and assessed with a cost function integrating semantic distance, while the solution space is efficiently explored in a beam search fashion. The conducted experiments show the relevance of TIGTEC in terms of success rate, sparsity, diversity and plausibility. This method can be used in both model-specific or model-agnostic way, which makes it very convenient for generating counterfactual explanations.
翻訳日:2023-04-26 22:46:23 公開日:2023-04-24
# バイオマーカーを用いた病理組織像検索

Immunohistochemistry Biomarkers-Guided Image Search for Histopathology ( http://arxiv.org/abs/2304.12424v1 )

ライセンス: Link先を確認
Abubakr Shafique, Morteza Babaie, Ricardo Gonzalez, H.R. Tizhoosh(参考訳) 医療従事者は、信頼できる診断を行うために多くの診断試験を使用する。 伝統的に、HaematoxylinとEosin(H&E)染色ガラススライドは、がんの診断と腫瘍検出に用いられている。 しかし,近年の免疫組織化学(IHC)染色スライスでは,H&Eスライスのみを用いることが困難である場合,腫瘍の亜型を決定するための診断と診断が求められている。 近年、深層学習(DL)は、画像検索エンジンが組織領域から特徴を引き出すのに多くの関心を集めている。 このアプローチは通常、病理画像の悪性または異常な内容に対応するハイレベルなパターンを捉えることができない。 そこで本研究では,複数のihcバイオマーカー画像から得られる情報を利用する病理学者のワークフローに触発された画像検索手法を提案する。 これらのIHC画像はアライメントされ、フィルタリングされ、結合されて複合バイオマーカー画像(CBI)を生成することができ、最終的には、検索エンジンをローカライズされた検索のために誘導するアテンションマップを生成することができる。 実験の結果,IHC誘導画像検索エンジンは従来の(H&Eのみの)検索エンジンよりも正確な関連データを検索できることがわかった。 さらに、このようなエンジンは多数票でサブタイプを正確に結論付けることもできる。

Medical practitioners use a number of diagnostic tests to make a reliable diagnosis. Traditionally, Haematoxylin and Eosin (H&E) stained glass slides have been used for cancer diagnosis and tumor detection. However, recently a variety of immunohistochemistry (IHC) stained slides can be requested by pathologists to examine and confirm diagnoses for determining the subtype of a tumor when this is difficult using H&E slides only. Deep learning (DL) has received a lot of interest recently for image search engines to extract features from tissue regions, which may or may not be the target region for diagnosis. This approach generally fails to capture high-level patterns corresponding to the malignant or abnormal content of histopathology images. In this work, we are proposing a targeted image search approach, inspired by the pathologists workflow, which may use information from multiple IHC biomarker images when available. These IHC images could be aligned, filtered, and merged together to generate a composite biomarker image (CBI) that could eventually be used to generate an attention map to guide the search engine for localized search. In our experiments, we observed that an IHC-guided image search engine can retrieve relevant data more accurately than a conventional (i.e., H&E-only) search engine without IHC guidance. Moreover, such engines are also able to accurately conclude the subtypes through majority votes.
翻訳日:2023-04-26 22:46:07 公開日:2023-04-24
# 複合バイオマーカー画像による病理組織学の高度可視化

Composite Biomarker Image for Advanced Visualization in Histopathology ( http://arxiv.org/abs/2304.12423v1 )

ライセンス: Link先を確認
Abubakr Shafique, Morteza Babaie, Ricardo Gonzalez, Adrian Batten, Soma Sikdar, H.R. Tizhoosh(参考訳) 免疫組織化学(IHC)バイオマーカーは、癌診断とサブタイプに必須のツールである。 IHCおよびヘマトキシリンおよびエオシン(H&E)スライドの全スライド画像(WSI)のクロスステイン比較が必要である。 現在、病理学者は、IHCおよびH&Eガラススライドの視覚的共局在領域を最終診断のために調査している。 さらに,局所的コプレッションを解析するために異なるIHCスライドを前後に視認することは,経験豊富な病理医が行った場合であっても,本質的に主観的であり,誤りを生じやすい。 本稿では,デジタル病理学に基づき,複合バイオマーカー画像(cbi)を提案する。 cbiは、異なるフィルター付きihcバイオマーカー画像を使用して構成できる単一の画像である。 そこで本研究では,2段階に分けて生成したCBI画像を用いて,より視覚化し,より効率的な臨床ワークフローを提案する。 最初のステップでは、IHCバイオマーカー画像は、1つの座標系と向きを使ってH&E画像と整列する。 第2ステップでは、各バイオマーカー画像(病理医推薦に基づく)からの正または負のIHC領域を、ファジィ推論システムを用いて1つの画像にフィルタリングして結合する。 評価のために,提案システムから得られたCBI画像は,専門家病理学者によって質的に評価された。 CBIの概念は、病理学者が疑わしい標的組織をより容易に識別し、同一の疑わしい領域で実際のWSIを調べることでさらに評価することができる。

Immunohistochemistry (IHC) biomarkers are essential tools for reliable cancer diagnosis and subtyping. It requires cross-staining comparison among Whole Slide Images (WSIs) of IHCs and hematoxylin and eosin (H&E) slides. Currently, pathologists examine the visually co-localized areas across IHC and H&E glass slides for a final diagnosis, which is a tedious and challenging task. Moreover, visually inspecting different IHC slides back and forth to analyze local co-expressions is inherently subjective and prone to error, even when carried out by experienced pathologists. Relying on digital pathology, we propose Composite Biomarker Image (CBI) in this work. CBI is a single image that can be composed using different filtered IHC biomarker images for better visualization. We present a CBI image produced in two steps by the proposed solution for better visualization and hence more efficient clinical workflow. In the first step, IHC biomarker images are aligned with the H&E images using one coordinate system and orientation. In the second step, the positive or negative IHC regions from each biomarker image (based on the pathologists recommendation) are filtered and combined into one image using a fuzzy inference system. For evaluation, the resulting CBI images, from the proposed system, were evaluated qualitatively by the expert pathologists. The CBI concept helps the pathologists to identify the suspected target tissues more easily, which could be further assessed by examining the actual WSIs at the same suspected regions.
翻訳日:2023-04-26 22:45:40 公開日:2023-04-24
# 多目的分散ドメイン適応へのマルチソース

Multi-Source to Multi-Target Decentralized Federated Domain Adaptation ( http://arxiv.org/abs/2304.12422v1 )

ライセンス: Link先を確認
Su Wang, Seyyedali Hosseinalipour, Christopher G. Brinton(参考訳) 連合学習(fl)におけるデバイス間の不均一性は、一般に統計(例えば、非i.i.d.データ分布)と資源(例えば、通信帯域幅)の次元を指す。 本稿では,デバイス間でラベル付きおよびラベルなしデータの量/分布の異なる,あまり注目されていない別の重要な次元に焦点を当てる。 すべてのデータを活用するために,高品質なラベル付きデータ(ソースと呼ばれる)を持つデバイスから,低品質またはラベル付きデータ(ターゲットと呼ばれる)を持つデバイスへのmlモデルの転送を検討する分散フェデレーションドメイン適応手法を開発した。 我々の手法であるst-lf(source-target determination and link formation)は両者を最適化する (i) 装置のソース及びターゲットへの分類及び (ii) mlモデルの精度と通信エネルギー効率とのトレードオフを考慮したソース・ターゲットリンクの形成。 具体的目的関数を得るためには、ソース・ターゲット仮説の偏差とデータ分布のばらつきを推定する測定可能な一般化誤差を導出する。 結果として得られる最適化問題は、NPハード問題のクラスである混合整数シグナミカルプログラムであり、連続凸近似に基づくアルゴリズムを開発し、その解法を巧みに行う。 その後のST-LFの数値評価は、最先端のベースラインよりも分類精度とエネルギー効率を向上させることを示した。

Heterogeneity across devices in federated learning (FL) typically refers to statistical (e.g., non-i.i.d. data distributions) and resource (e.g., communication bandwidth) dimensions. In this paper, we focus on another important dimension that has received less attention: varying quantities/distributions of labeled and unlabeled data across devices. In order to leverage all data, we develop a decentralized federated domain adaptation methodology which considers the transfer of ML models from devices with high quality labeled data (called sources) to devices with low quality or unlabeled data (called targets). Our methodology, Source-Target Determination and Link Formation (ST-LF), optimizes both (i) classification of devices into sources and targets and (ii) source-target link formation, in a manner that considers the trade-off between ML model accuracy and communication energy efficiency. To obtain a concrete objective function, we derive a measurable generalization error bound that accounts for estimates of source-target hypothesis deviations and divergences between data distributions. The resulting optimization problem is a mixed-integer signomial program, a class of NP-hard problems, for which we develop an algorithm based on successive convex approximations to solve it tractably. Subsequent numerical evaluations of ST-LF demonstrate that it improves classification accuracy and energy efficiency over state-of-the-art baselines.
翻訳日:2023-04-26 22:44:55 公開日:2023-04-24
# 静的リスク測度の動的プログラム分解について

On Dynamic Program Decompositions of Static Risk Measures ( http://arxiv.org/abs/2304.12477v1 )

ライセンス: Link先を確認
Jia Lin Hau, Erick Delage, Mohammad Ghavamzadeh, Marek Petrik(参考訳) マルコフ決定プロセスにおける静的リスク回避目標の最適化は、動的プログラミングの分解を容易に認めないため難しい。 従来の研究では、拡張状態空間上での動的プログラムの定式化に役立つリスク対策の動的分解が提案されている。 本論文は, 既存の分解が本質的不正確であることを示し, 文献における複数の主張と矛盾する。 特に,CVaRとEVaRのリスク対策の一般的な分解が,真のリスク値の厳密な過大評価であることを示す例を示す。 しかし、VaRの正確な分解が可能であり、VaRとCVaRの動的プログラミング特性の根本的な違いを示す単純な証明を与える。

Optimizing static risk-averse objectives in Markov decision processes is challenging because they do not readily admit dynamic programming decompositions. Prior work has proposed to use a dynamic decomposition of risk measures that help to formulate dynamic programs on an augmented state space. This paper shows that several existing decompositions are inherently inexact, contradicting several claims in the literature. In particular, we give examples that show that popular decompositions for CVaR and EVaR risk measures are strict overestimates of the true risk values. However, an exact decomposition is possible for VaR, and we give a simple proof that illustrates the fundamental difference between VaR and CVaR dynamic programming properties.
翻訳日:2023-04-26 22:38:01 公開日:2023-04-24
# FPGAを用いた高性能コンピューティングのための設計最適化

Design optimization for high-performance computing using FPGA ( http://arxiv.org/abs/2304.12474v1 )

ライセンス: Link先を確認
Murat Isik, Kayode Inadagbo, Hakan Aktas(参考訳) Field Programmable Gate Arrays (FPGA) のような再構成可能なアーキテクチャは、柔軟性、性能、電力効率の独特な組み合わせにより、いくつかの領域での計算の高速化に使用されている。 しかしFPGAは、プログラミングの複雑さと性能最適化の難しさから、高性能コンピューティングには広く使われていない。 本稿では,CIFARでトレーニングしたResNet20を用いて,Tensil AIのオープンソース推論アクセラレータを最大性能に最適化し,FPGAの高性能コンピューティングへの応用について考察する。 本稿では,ハードウェア設計の改善,Xilinx Ultra RAMの使用,およびコンパイラ戦略の高度化により,推論性能が向上することを示す。 また、CIFARテストデータセットの実行は、元の32ビット浮動小数点からラウンドダウンする際の精度低下がほとんどないことを示した。 当社のプラットフォームにおけるヘテロジニアス・コンピューティング・モデルは、cifarを用いてトレーニングされたresnet20上でフレームレート293.58フレーム/秒(fps)と%90の精度を達成することができる。 実験の結果,提案した加速器のスループットは21.12ギガ/秒(GOP/s)であり,消費電力は5.21Wで100MHzであることがわかった。 既製デバイスと最近の最先端実装との比較結果から,提案する加速器はエネルギー効率の面で明らかなアドバンテージを持つことがわかった。

Reconfigurable architectures like Field Programmable Gate Arrays (FPGAs) have been used for accelerating computations in several domains because of their unique combination of flexibility, performance, and power efficiency. However, FPGAs have not been widely used for high-performance computing, primarily because of their programming complexity and difficulties in optimizing performance. We optimize Tensil AI's open-source inference accelerator for maximum performance using ResNet20 trained on CIFAR in this paper in order to gain insight into the use of FPGAs for high-performance computing. In this paper, we show how improving hardware design, using Xilinx Ultra RAM, and using advanced compiler strategies can lead to improved inference performance. We also demonstrate that running the CIFAR test data set shows very little accuracy drop when rounding down from the original 32-bit floating point. The heterogeneous computing model in our platform allows us to achieve a frame rate of 293.58 frames per second (FPS) and a %90 accuracy on a ResNet20 trained using CIFAR. The experimental results show that the proposed accelerator achieves a throughput of 21.12 Giga-Operations Per Second (GOP/s) with a 5.21 W on-chip power consumption at 100 MHz. The comparison results with off-the-shelf devices and recent state-of-the-art implementations illustrate that the proposed accelerator has obvious advantages in terms of energy efficiency.
翻訳日:2023-04-26 22:37:49 公開日:2023-04-24
# 認知訓練セッションにおける視覚による疲労・エンゲージメント推定のためのリカレントトランスフォーマーエンコーダ

Recurrent Transformer Encoders for Vision-based Estimation of Fatigue and Engagement in Cognitive Training Sessions ( http://arxiv.org/abs/2304.12470v1 )

ライセンス: Link先を確認
Yanchen Wang, Yunlong Xu, Feng Vankee Lin, Ehsan Adeli(参考訳) 認知症の認知低下と脳老化を遅らせるコンピュータ認知トレーニングの有効性は、トレーニング参加者の関与によって制限されることが多い。 注意、モチベーション、影響の領域における高齢者のリアルタイムエンゲージメントのモニタリングは、こうしたトレーニングの全体的な効果を理解する上で重要である。 本稿では,高齢者の認知障害(MCI)の認知訓練セッション中におけるユーザの注意力,モチベーション,影響を,リアルタイムの映像記録による顔のジェスチャーをモニタリングすることで評価し,心的疲労測定によって定量化したエンゲージメントを予測することを提案する。 この目的を達成するために,コンピュータビジョンを用いて5秒毎にビデオフレームを分析し,情報保持とデータサイズとのバランスを最適化し,新しいリカレントビデオトランスフォーマ(rvt)を開発した。 我々のRVTモデルは、クリップワイドトランスフォーマーエンコーダモジュールとセッションワイドリカレントニューラルネットワーク(RNN)分類器を組み合わせることで、精神疲労・解離症例(バイナリ分類)の検出と精神疲労のレベルの評価(マルチクラス分類)において、他の最先端モデルと比較して高いバランス精度、F1スコア、精度を達成した。 rvtモデルは、動的時間的情報を活用することによって、コンピュータ化された認知訓練ユーザの関与を正確に予測する可能性を実証する。 コードはリリースされます。

The effectiveness of computerized cognitive training in slowing cognitive decline and brain aging in dementia is often limited by the engagement of participants in the training. Monitoring older users' real-time engagement in domains of attention, motivation, and affect is crucial to understanding the overall effectiveness of such training. In this paper, we propose to predict engagement, quantified via an established mental fatigue measure assessing users' perceived attention, motivation, and affect throughout computerized cognitive training sessions, in older adults with mild cognitive impairment (MCI), by monitoring their real-time video-recorded facial gestures in training sessions. To achieve the goal, we used computer vision, analyzing video frames every 5 seconds to optimize the balance between information retention and data size, and developed a novel Recurrent Video Transformer (RVT). Our RVT model, which combines a clip-wise transformer encoder module and a session-wise Recurrent Neural Network (RNN) classifier, achieved the highest balanced accuracy, F1 score, and precision compared to other state-of-the-art models for both detecting mental fatigue/disengagement cases (binary classification) and rating the level of mental fatigue (multi-class classification). By leveraging dynamic temporal information, the RVT model demonstrates the potential to accurately predict engagement among computerized cognitive training users, which lays the foundation for future work to modulate the level of engagement in computerized cognitive training interventions. The code will be released.
翻訳日:2023-04-26 22:37:28 公開日:2023-04-24
# 対話的意思決定におけるインスタンス最適性:非漸近理論に向けて

Instance-Optimality in Interactive Decision Making: Toward a Non-Asymptotic Theory ( http://arxiv.org/abs/2304.12466v1 )

ライセンス: Link先を確認
Andrew Wagenmaker, Dylan J. Foster(参考訳) 我々は,対話型意思決定(帯域,強化学習など)のための適応型インスタンス依存アルゴリズムの開発を検討する。 適応性の強い概念であるインスタンス最適化を目指しており、どの問題の場合であっても、検討中のアルゴリズムは全ての一貫したアルゴリズムより優れていると主張する。 インスタンス最適性は \citet{lai 1985asymptotically,graves1997asymptotically} の業績に由来する豊富な漸近理論を享受するが、非漸近的保証は特定の特別な場合以外でも解明されていない。 テーブル型強化学習のような単純な問題であっても、既存のアルゴリズムは、インタラクションのラウンド数が2倍に指数関数的になるまでインスタンス最適化性能を達成できない。 本稿では,一般関数近似を用いてインスタンス最適決定の非漸近理論を開発するための第一歩を踏み出す。 本稿では,新しい複雑性尺度である割り当て推定係数(aec)を導入し,aecが制御するレートで非漸近的なインスタンス最適性能を実現する新しいアルゴリズムである$\mathsf{ae}^2$を提案する。 本結果は,有限武器や線形包帯などのよく研究されている問題に対する保証を回復し,表型強化学習に特化すれば,全ての問題パラメータに対する多項式依存による最初のインスタンス最適後悔境界を達成でき,先行作業よりも指数関数的に改善される。 これらの結果を下限で補うことで 一 統計複雑性の既存の概念は、非漸近的保証を導出することができないこと、及び 二 特定の技術的条件の下では、AECの有界性は、有限時間以内に、決定のインスタンス最適配分を学習するために必要である。

We consider the development of adaptive, instance-dependent algorithms for interactive decision making (bandits, reinforcement learning, and beyond) that, rather than only performing well in the worst case, adapt to favorable properties of real-world instances for improved performance. We aim for instance-optimality, a strong notion of adaptivity which asserts that, on any particular problem instance, the algorithm under consideration outperforms all consistent algorithms. Instance-optimality enjoys a rich asymptotic theory originating from the work of \citet{lai1985asymptotically,graves1997asymptotically}, but non-asymptotic guarantees have remained elusive outside of certain special cases. Even for problems as simple as tabular reinforcement learning, existing algorithms do not attain instance-optimal performance until the number of rounds of interaction is doubly exponential in the number of states. In this paper, we take the first step toward developing a non-asymptotic theory of instance-optimal decision making with general function approximation. We introduce a new complexity measure, the Allocation-Estimation Coefficient (AEC), and provide a new algorithm, $\mathsf{AE}^2$, which attains non-asymptotic instance-optimal performance at a rate controlled by the AEC. Our results recover the best known guarantees for well-studied problems such as finite-armed and linear bandits and, when specialized to tabular reinforcement learning, attain the first instance-optimal regret bounds with polynomial dependence on all problem parameters, improving over prior work exponentially. We complement these results with lower bounds that show that i) existing notions of statistical complexity are insufficient to derive non-asymptotic guarantees, and ii) under certain technical conditions, boundedness of the AEC is necessary to learn an instance-optimal allocation of decisions in finite time.
翻訳日:2023-04-26 22:36:58 公開日:2023-04-24
# カーネルリッジ回帰のためのロバスト・ランダム化プレコンディショニング

Robust, randomized preconditioning for kernel ridge regression ( http://arxiv.org/abs/2304.12465v1 )

ライセンス: Link先を確認
Mateo D\'iaz, Ethan N. Epperly, Zachary Frangella, Joel A. Tropp, and Robert J. Webber(参考訳) 本稿では,カーネルリッジ回帰(KRR)問題を中~多量のデータポイント(10^4 \leq N \leq 10^7$)で頑健に解くための2つのランダム化プレコンディショニング手法を提案する。 最初の方法であるRPCholeskyプレコンディショニングは、カーネル行列固有値の十分速い多項式減衰を仮定して、$O(N^2)$算術演算で全データKRR問題を正確に解くことができる。 2つ目の方法、KRILLプリコンディショニングは、$k \ll N$選択されたデータセンターを$O((N + k^2) k \log k)の演算で制限されたバージョンのKRR問題に対する正確な解決策を提供する。 提案手法は,様々なKRR問題を解くとともに,従来のKRRプリコンディショナーの故障モードを克服し,実用化に最適である。

This paper introduces two randomized preconditioning techniques for robustly solving kernel ridge regression (KRR) problems with a medium to large number of data points ($10^4 \leq N \leq 10^7$). The first method, RPCholesky preconditioning, is capable of accurately solving the full-data KRR problem in $O(N^2)$ arithmetic operations, assuming sufficiently rapid polynomial decay of the kernel matrix eigenvalues. The second method, KRILL preconditioning, offers an accurate solution to a restricted version of the KRR problem involving $k \ll N$ selected data centers at a cost of $O((N + k^2) k \log k)$ operations. The proposed methods solve a broad range of KRR problems and overcome the failure modes of previous KRR preconditioners, making them ideal for practical applications.
翻訳日:2023-04-26 22:36:24 公開日:2023-04-24
# 機械学習のための合成データのリアリズム改善に関する研究

A Study on Improving Realism of Synthetic Data for Machine Learning ( http://arxiv.org/abs/2304.12463v1 )

ライセンス: Link先を確認
Tingwei Shen, Ganning Zhao, Suya You(参考訳) 生成的対角学習を用いた合成-実データ変換は、合成データを改善するために大きな成功を収めた。 しかし、機械学習のための汎用合成データに対する敵対的訓練の深い評価と比較に焦点を当てた研究は限られている。 本研究の目的は、合成レンダリングを、ラベルのない実世界のデータで条件付けられた汎用データセット上でより現実的なスタイルに変換する合成から現実への生成モデルを訓練し、評価することである。 定性的および定量的な測定値と、定義された下流知覚タスクを用いて、広範囲な性能評価と比較を行った。

Synthetic-to-real data translation using generative adversarial learning has achieved significant success to improve synthetic data. Yet, there are limited studies focusing on deep evaluation and comparison of adversarial training on general-purpose synthetic data for machine learning. This work aims to train and evaluate a synthetic-to-real generative model that transforms the synthetic renderings into more realistic styles on general-purpose datasets conditioned with unlabeled real-world data. Extensive performance evaluation and comparison have been conducted through qualitative and quantitative metrics, and a defined downstream perception task.
翻訳日:2023-04-26 22:36:11 公開日:2023-04-24
# tensoir:テンソル逆レンダリング

TensoIR: Tensorial Inverse Rendering ( http://arxiv.org/abs/2304.12461v1 )

ライセンス: Link先を確認
Haian Jin, Isabella Liu, Peijia Xu, Xiaoshuai Zhang, Songfang Han, Sai Bi, Xiaowei Zhou, Zexiang Xu, Hao Su(参考訳) テンソル因子分解と神経場に基づく新しい逆レンダリング手法であるtensoirを提案する。 純粋にMLPベースのニューラルフィールドを使用する従来の研究とは異なり、低容量で計算コストが高いため、照度場モデリングのための最先端のアプローチであるTensoRFを拡張して、未知の照明条件下で撮影された多視点画像からシーン形状、表面反射、環境照明を推定する。 本手法は,放射光場再構成と物理モデル推定を共同で実現し,フォトリアリスティックな新しいビュー合成とリライト結果をもたらす。 テンソRF表現の効率性と拡張性から,本手法は2次シェーディング効果(影や間接照明など)を正確にモデル化し,単一あるいは複数の未知の照明条件下での入力画像の撮影を支援する。 低ランクテンソル表現は、高速かつコンパクトな再構成を実現するだけでなく、任意の数の撮影照明条件下で共有情報を利用することができる。 本手法は,様々な難解な合成シーンと実世界のシーンにおいて,質的かつ定量的にベースライン手法に優れていることを示す。

We propose TensoIR, a novel inverse rendering approach based on tensor factorization and neural fields. Unlike previous works that use purely MLP-based neural fields, thus suffering from low capacity and high computation costs, we extend TensoRF, a state-of-the-art approach for radiance field modeling, to estimate scene geometry, surface reflectance, and environment illumination from multi-view images captured under unknown lighting conditions. Our approach jointly achieves radiance field reconstruction and physically-based model estimation, leading to photo-realistic novel view synthesis and relighting results. Benefiting from the efficiency and extensibility of the TensoRF-based representation, our method can accurately model secondary shading effects (like shadows and indirect lighting) and generally support input images captured under single or multiple unknown lighting conditions. The low-rank tensor representation allows us to not only achieve fast and compact reconstruction but also better exploit shared information under an arbitrary number of capturing lighting conditions. We demonstrate the superiority of our method to baseline methods qualitatively and quantitatively on various challenging synthetic and real-world scenes.
翻訳日:2023-04-26 22:36:03 公開日:2023-04-24
# 確率エージェントドロップアウト下におけるマルチエージェントmdpのモデルフリー学習と最適ポリシー設計

Model-Free Learning and Optimal Policy Design in Multi-Agent MDPs Under Probabilistic Agent Dropout ( http://arxiv.org/abs/2304.12458v1 )

ライセンス: Link先を確認
Carmel Fiscko, Soummya Kar, Bruno Sinopoli(参考訳) 本研究では,エージェントドロップアウトを行うマルチエージェントマルコフ決定プロセス(MDP)と,事前ドロップアウトシステムの制御とサンプリングに基づくポストドロップアウトシステムのポリシーの計算について検討する。 コントローラの目的は、エージェントのドロップアウト確率の事前知識により、期待されるシステムの価値を最大化する最適なポリシーを見つけることである。 特定のドロップアウト実現のための最適なポリシーを見つけることは、この問題の特別な場合である。 特定の遷移独立性と報酬分離性構造を持つMDPに対して、システムからエージェントを取り除くことは、新しい状態と行動空間を持つ残りのエージェントと、除去されたエージェントを疎外する遷移ダイナミクスと、除去されたエージェントとは独立な報酬からなる新しいMDPを形成すると仮定する。 この「ロバストmdp」は、システムの全2^n$実現度を評価する必要をなくし、そこでは$n$がエージェント数を表す。 さらに,モデルフリーの文脈では,事前ドロップアウトシステムによって生成されたサンプルを用いてロバストなmdp値を推定できること,つまり,ドロップアウトが発生する前にロバストなポリシを発見できることが示されている。 この事実は、ドロップアウトシナリオに対するポリシー評価を行うための政策重要サンプリング(IS)ルーチンの提案に利用され、既存のシステムを適切なドロップアウトポリシーで制御する。 ポリシーISルーチンは、堅牢なMDPと特定のドロップアウトシステムの実現の両方に対して値推定を生成し、指数的信頼境界で正当化される。 最後に、このアプローチの有用性をシミュレーションで検証し、エージェントドロップアウトの構造特性が、ドロップアウトが起こる前にコントローラが適切なドロップアウトポリシーを見つけるのにどのように役立つかを示す。

This work studies a multi-agent Markov decision process (MDP) that can undergo agent dropout and the computation of policies for the post-dropout system based on control and sampling of the pre-dropout system. The controller's objective is to find an optimal policy that maximizes the value of the expected system given a priori knowledge of the agents' dropout probabilities. Finding an optimal policy for any specific dropout realization is a special case of this problem. For MDPs with a certain transition independence and reward separability structure, we assume that removing agents from the system forms a new MDP comprised of the remaining agents with new state and action spaces, transition dynamics that marginalize the removed agents, and rewards that are independent of the removed agents. We first show that under these assumptions, the value of the expected post-dropout system can be represented by a single MDP; this "robust MDP" eliminates the need to evaluate all $2^N$ realizations of the system, where $N$ denotes the number of agents. More significantly, in a model-free context, it is shown that the robust MDP value can be estimated with samples generated by the pre-dropout system, meaning that robust policies can be found before dropout occurs. This fact is used to propose a policy importance sampling (IS) routine that performs policy evaluation for dropout scenarios while controlling the existing system with good pre-dropout policies. The policy IS routine produces value estimates for both the robust MDP and specific post-dropout system realizations and is justified with exponential confidence bounds. Finally, the utility of this approach is verified in simulation, showing how structural properties of agent dropout can help a controller find good post-dropout policies before dropout occurs.
翻訳日:2023-04-26 22:35:44 公開日:2023-04-24
# 教師なしスタイルに基づく単一画像からの3次元顔再構成

Unsupervised Style-based Explicit 3D Face Reconstruction from Single Image ( http://arxiv.org/abs/2304.12455v1 )

ライセンス: Link先を確認
Heng Yu, Zoltan A. Milacski, Laszlo A. Jeni(参考訳) 1枚の画像から3dオブジェクト構造を推測することは、深さの曖昧さと閉塞のために不適切な作業である。 典型的には、2次元または3次元の基底真理を教師あり学習に利用したり、手作りの対称性の先行を示唆したり、暗黙の表現を使って教師なしの手法に新しい視点を幻覚させる。 本研究では,Unsupervised 2D to Explicit 3D Style Transfer (UE3DST) を解くための汎用逆学習フレームワークを提案する。 具体的には、2つのアーキテクチャをマージする: Wu et al.の教師なし明示的な3D再構成ネットワーク。 The Generative Adversarial Network (GAN) は StarGAN-v2 と命名された。 3つの顔データセット(basel face model, 3dfaw, celeba-hq)で実験を行い, 3次元再構築における depthnet や条件付きスタイル転送における pix2nerf といった確立されたソリューションよりも, 個々のモデルコンポーネントの寄与をアブレーションによって正当化できることを示した。 上記のベースラインとは対照的に、このスキームは、下流タスクで操作および活用できる明示的な3dレンダリング機能を生成する。

Inferring 3D object structures from a single image is an ill-posed task due to depth ambiguity and occlusion. Typical resolutions in the literature include leveraging 2D or 3D ground truth for supervised learning, as well as imposing hand-crafted symmetry priors or using an implicit representation to hallucinate novel viewpoints for unsupervised methods. In this work, we propose a general adversarial learning framework for solving Unsupervised 2D to Explicit 3D Style Transfer (UE3DST). Specifically, we merge two architectures: the unsupervised explicit 3D reconstruction network of Wu et al.\ and the Generative Adversarial Network (GAN) named StarGAN-v2. We experiment across three facial datasets (Basel Face Model, 3DFAW and CelebA-HQ) and show that our solution is able to outperform well established solutions such as DepthNet in 3D reconstruction and Pix2NeRF in conditional style transfer, while we also justify the individual contributions of our model components via ablation. In contrast to the aforementioned baselines, our scheme produces features for explicit 3D rendering, which can be manipulated and utilized in downstream tasks.
翻訳日:2023-04-26 22:35:12 公開日:2023-04-24
# 不確実領域に適用される品質多様性のベンチマークタスク

Benchmark tasks for Quality-Diversity applied to Uncertain domains ( http://arxiv.org/abs/2304.12454v1 )

ライセンス: Link先を確認
Flageat Manon and Grillotti Luca and Cully Antoine(参考訳) 最適化の標準的なアプローチは、単一のハイパフォーマンスなソリューションを作ることに重点を置いているが、Quality-Diversity (QD)アルゴリズムは、そのようなソリューションの多様なコレクションを見つけることができる。 もしQDが様々な領域で有望であると証明されたとしても、パフォーマンスと多様性の定量化が非決定論的である不確実な領域に直面するときはまだ苦労している。 Uncertain Quality-Diversity (UQD) における以前の研究は、そのような不確実な領域のために設計された方法とメトリクスを提案している。 本稿では,uqdアルゴリズムの性能を解析・推定するベンチマークタスクの第一セットを提案する。 我々はuqdベンチマークタスクを簡単に定義するための重要な不確実性特性(不確実性位置、分布の種類、パラメータ)を特定する。 これらの重要なUQDコンポーネントの性質を変えることで、実装が容易で軽量な8つのタスクセットを導入し、3つの主要なカテゴリに分けます。 すべてのタスクは冗長なarm上に構築されています – 軽量で簡単に複製可能な,一般的なqd環境です。 これらのタスクのそれぞれが、UQDドメインを考える際に生じる1つの特定の制限を強調している。 この最初のベンチマークでは、後続のUQDの進歩を促進したいと思っています。

While standard approaches to optimisation focus on producing a single high-performing solution, Quality-Diversity (QD) algorithms allow large diverse collections of such solutions to be found. If QD has proven promising across a large variety of domains, it still struggles when faced with uncertain domains, where quantification of performance and diversity are non-deterministic. Previous work in Uncertain Quality-Diversity (UQD) has proposed methods and metrics designed for such uncertain domains. In this paper, we propose a first set of benchmark tasks to analyse and estimate the performance of UQD algorithms. We identify the key uncertainty properties to easily define UQD benchmark tasks: the uncertainty location, the type of distribution and its parameters. By varying the nature of those key UQD components, we introduce a set of 8 easy-to-implement and lightweight tasks, split into 3 main categories. All our tasks build on the Redundant Arm: a common QD environment that is lightweight and easily replicable. Each one of these tasks highlights one specific limitation that arises when considering UQD domains. With this first benchmark, we hope to facilitate later advances in UQD.
翻訳日:2023-04-26 22:34:49 公開日:2023-04-24
# 半スーパービジョン画像分類のためのマニフォールド学習に基づくグラフ畳み込みネットワーク

Graph Convolutional Networks based on Manifold Learning for Semi-Supervised Image Classification ( http://arxiv.org/abs/2304.12492v1 )

ライセンス: Link先を確認
Lucas Pascotti Valem, Daniel Carlos Guimar\~aes Pedronette, Longin Jan Latecki(参考訳) 多くのドメインに大量の情報があるため、分類法の必要性は極めて高い。 多くの進歩にもかかわらず、ほとんどのアプローチは大量のラベル付きデータを必要とするが、手動ラベリングプロセスのコストと困難のため、しばしば利用できない。 このシナリオでは、教師なしおよび半教師なしのアプローチが注目されている。 GCN(Graph Convolutional Neural Networks)は、周辺情報をエンコードし、ラベル付きデータに制限のあるシナリオで最先端の結果を得たため、将来性のあるソリューションである。 しかし、gcnsはグラフ構造データを必要とするため、半教師あり画像分類の使用は文献上はまだ少ない。 本稿では, 半教師付き画像分類のためのGCNに基づく新しい手法であるManifold-GCNを提案する。 本論文の主な仮説は,グラフ構造をモデル化するための多様体学習を用いることで,GCN分類をさらに改善できるというものである。 我々の知る限りでは、画像分類のための異なる種類の多様体学習アプローチとGCNの組み合わせを可能にする最初のフレームワークである。 全ての多様体学習アルゴリズムは完全に教師なしであり、ラベル付きデータの可用性が懸念されるシナリオでは特に有用である。 5つのGCNモデル,3つの多様体学習アプローチ,3つの画像データセット,5つの深い特徴を考慮した実験を行った。 その結果,本手法は従来の最先端手法よりも精度が高く,トレーニングとテストの両面で非常に効率的な実行時間が得られることがわかった。

Due to a huge volume of information in many domains, the need for classification methods is imperious. In spite of many advances, most of the approaches require a large amount of labeled data, which is often not available, due to costs and difficulties of manual labeling processes. In this scenario, unsupervised and semi-supervised approaches have been gaining increasing attention. The GCNs (Graph Convolutional Neural Networks) represent a promising solution since they encode the neighborhood information and have achieved state-of-the-art results on scenarios with limited labeled data. However, since GCNs require graph-structured data, their use for semi-supervised image classification is still scarce in the literature. In this work, we propose a novel approach, the Manifold-GCN, based on GCNs for semi-supervised image classification. The main hypothesis of this paper is that the use of manifold learning to model the graph structure can further improve the GCN classification. To the best of our knowledge, this is the first framework that allows the combination of GCNs with different types of manifold learning approaches for image classification. All manifold learning algorithms employed are completely unsupervised, which is especially useful for scenarios where the availability of labeled data is a concern. A broad experimental evaluation was conducted considering 5 GCN models, 3 manifold learning approaches, 3 image datasets, and 5 deep features. The results reveal that our approach presents better accuracy than traditional and recent state-of-the-art methods with very efficient run times for both training and testing.
翻訳日:2023-04-26 22:27:30 公開日:2023-04-24
# 先行偽造知識を超えて--顔偽造検出のための重要な手がかりのマイニング

Beyond the Prior Forgery Knowledge: Mining Critical Clues for General Face Forgery Detection ( http://arxiv.org/abs/2304.12489v1 )

ライセンス: Link先を確認
Anwei Luo, Chenqi Kong, Jiwu Huang, Yongjian Hu, Xiangui Kang and Alex C. Kot(参考訳) 悪意のあるデジタル顔攻撃と戦うためには、顔偽造検出が不可欠である。 従来の手法は主に、ノイズパターン、ブレンディング境界、周波数アーティファクトといった特定の偽の手がかりを捉えるための専門知識に依存していた。 しかし、これらの手法は局所最適に閉じ込められやすいため、ロバスト性や一般化能力は制限される。 これらの問題に対処するために,我々は,その一般化と堅牢性向上のために,様々なバックボーンを柔軟に組み立てることのできる,新しい批判的偽造マイニング(cfm)フレームワークを提案する。 具体的には,まず三重項の微細化と,事前知識に依存しないデータ拡張による特定の偽の痕跡の抑制を行う。 続いて, 偽造の重要情報を抽出し, 局所的類似性を考慮した損失を抽出する, 微粒な関係学習プロトタイプを提案する。 さらに,モデルが主特徴成分に焦点を合わせるための新しいプログレッシブ・ラーニング・コントローラを設計し,より粗い方法で重要な偽造特徴を学習できるようにする。 提案手法は,様々な評価条件下での最先端の偽造検出性能を実現する。

Face forgery detection is essential in combating malicious digital face attacks. Previous methods mainly rely on prior expert knowledge to capture specific forgery clues, such as noise patterns, blending boundaries, and frequency artifacts. However, these methods tend to get trapped in local optima, resulting in limited robustness and generalization capability. To address these issues, we propose a novel Critical Forgery Mining (CFM) framework, which can be flexibly assembled with various backbones to boost their generalization and robustness performance. Specifically, we first build a fine-grained triplet and suppress specific forgery traces through prior knowledge-agnostic data augmentation. Subsequently, we propose a fine-grained relation learning prototype to mine critical information in forgeries through instance and local similarity-aware losses. Moreover, we design a novel progressive learning controller to guide the model to focus on principal feature components, enabling it to learn critical forgery features in a coarse-to-fine manner. The proposed method achieves state-of-the-art forgery detection performance under various challenging evaluation settings.
翻訳日:2023-04-26 22:27:07 公開日:2023-04-24
# 文書画像分類における逆ロバスト性の評価

Evaluating Adversarial Robustness on Document Image Classification ( http://arxiv.org/abs/2304.12486v1 )

ライセンス: Link先を確認
Timoth\'ee Fronteau, Arnaud Paran and Aymen Shabou(参考訳) 近年、敵の攻撃や防衛はコンピュータビジョンシステムへの関心が高まっているが、今日ではほとんどの調査は画像に限られている。 しかし、多くの人工知能モデルは、実世界の画像とは大きく異なるドキュメンタリーデータを扱う。 そこで,本研究では,敵攻撃の考え方をドキュメンタリーや自然データに適用し,そのような攻撃に対してモデルを保護する。 本研究では,ResNet50とEfficientNetB0モデルアーキテクチャのロバスト性に対する,非目標の勾配ベース,転送ベース,スコアベースの攻撃に焦点をあて,敵のトレーニング,JPEG入力圧縮,グレースケール入力変換の影響を評価する。 私たちの知る限り、これらの攻撃が文書画像分類タスクに与える影響を研究するため、コミュニティによるそのような作業は行われていません。

Adversarial attacks and defenses have gained increasing interest on computer vision systems in recent years, but as of today, most investigations are limited to images. However, many artificial intelligence models actually handle documentary data, which is very different from real world images. Hence, in this work, we try to apply the adversarial attack philosophy on documentary and natural data and to protect models against such attacks. We focus our work on untargeted gradient-based, transfer-based and score-based attacks and evaluate the impact of adversarial training, JPEG input compression and grey-scale input transformation on the robustness of ResNet50 and EfficientNetB0 model architectures. To the best of our knowledge, no such work has been conducted by the community in order to study the impact of these attacks on the document image classification task.
翻訳日:2023-04-26 22:26:50 公開日:2023-04-24
# DocParser: Visually Rich DocumentsからエンドツーエンドのOCRフリー情報抽出

DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents ( http://arxiv.org/abs/2304.12484v1 )

ライセンス: Link先を確認
Mohamed Dhouib, Ghassen Bettaieb and Aymen Shabou(参考訳) 視覚的にリッチな文書からの情報抽出は、いくつかの文書制御ベースのアプリケーションの重要性と、その広範な商業的価値から、近年多くの注目を集めている課題である。 このトピックでこれまで行われた研究の大部分は、2段階のパイプラインに従っている。 まず、オフザシェルフ光学文字認識(OCR)エンジンを用いてテキストを読み、得られたテキストから関心領域を抽出する。 これらの手法の主な欠点は外部のOCRシステムに依存しており、性能と計算速度の両方に悪影響を及ぼす可能性がある。 従来の問題に対処するため,近年のOCRフリー手法が提案されている。 本稿では, DocParser と呼ばれる OCR フリーなエンドツーエンド情報抽出モデルを提案する。 識別的特徴をよりよく抽出できるという点で、従来のエンドツーエンドアプローチと異なる。 DocParserは、さまざまなデータセットで最先端の結果を達成すると同時に、以前の作業よりも高速である。

Information Extraction from visually rich documents is a challenging task that has gained a lot of attention in recent years due to its importance in several document-control based applications and its widespread commercial value. The majority of the research work conducted on this topic to date follow a two-step pipeline. First, they read the text using an off-the-shelf Optical Character Recognition (OCR) engine, then, they extract the fields of interest from the obtained text. The main drawback of these approaches is their dependence on an external OCR system, which can negatively impact both performance and computational speed. Recent OCR-free methods were proposed to address the previous issues. Inspired by their promising results, we propose in this paper an OCR-free end-to-end information extraction model named DocParser. It differs from prior end-to-end approaches by its ability to better extract discriminative character features. DocParser achieves state-of-the-art results on various datasets, while still being faster than previous works.
翻訳日:2023-04-26 22:26:35 公開日:2023-04-24
# 3次元顔モデルの実現に向けて

Towards Realistic Generative 3D Face Models ( http://arxiv.org/abs/2304.12483v1 )

ライセンス: Link先を確認
Aashish Rai, Hiresh Gupta, Ayush Pandey, Francisco Vicente Carrasco, Shingo Jason Takagi, Amaury Aubel, Daeil Kim, Aayush Prakash, Fernando de la Torre(参考訳) 近年,アニメーション,合成データ生成,デジタルアバターなどの応用によって2次元顔モデルが大幅に進歩している。 しかし、3D情報がないため、これらの2Dモデルは、ポーズ、表情、照明といった顔の特徴を正確に切り離すのに苦労し、編集能力を制限します。 そこで本稿では,既存の2次元生成モデルを用いて高品質なアルベドと高精度な3次元形状を実現するための3次元制御可能な生成顔モデルを提案する。 2次元顔生成モデルとセマンティック顔操作を組み合わせることで、詳細な3次元顔の編集を可能にする。 提案手法は形状とアルベドの交互降下最適化手法を用いる。 異なるレンダリングは高品質な形状とアルベドを3D監督なしで訓練するために使われる。 さらに、この手法は、形状再構成のためのよく知られたNoWベンチマークにおいて、最先端のSOTA法よりも優れている。 また、新しいポーズでレンダリングされた顔のアイデンティティを平均10%の精度で復元する際に、SOTA再構成モデルよりも優れている。 さらに, 3次元顔のテキスト編集につながる潜在空間を利用して, 3次元顔における表現の直接制御を示す。

In recent years, there has been significant progress in 2D generative face models fueled by applications such as animation, synthetic data generation, and digital avatars. However, due to the absence of 3D information, these 2D models often struggle to accurately disentangle facial attributes like pose, expression, and illumination, limiting their editing capabilities. To address this limitation, this paper proposes a 3D controllable generative face model to produce high-quality albedo and precise 3D shape leveraging existing 2D generative models. By combining 2D face generative models with semantic face manipulation, this method enables editing of detailed 3D rendered faces. The proposed framework utilizes an alternating descent optimization approach over shape and albedo. Differentiable rendering is used to train high-quality shapes and albedo without 3D supervision. Moreover, this approach outperforms the state-of-the-art (SOTA) methods in the well-known NoW benchmark for shape reconstruction. It also outperforms the SOTA reconstruction models in recovering rendered faces' identities across novel poses by an average of 10%. Additionally, the paper demonstrates direct control of expressions in 3D faces by exploiting latent space leading to text-based editing of 3D faces.
翻訳日:2023-04-26 22:26:19 公開日:2023-04-24
# 教育のための人工知能(agi)

Artificial General Intelligence (AGI) for Education ( http://arxiv.org/abs/2304.12479v1 )

ライセンス: Link先を確認
Ehsan Latif, Gengchen Mai, Matthew Nyaaba, Xuansheng Wu, Ninghao Liu, Guoyu Lu, Sheng Li, Tianming Liu, and Xiaoming Zhai(参考訳) 人工知能 (AGI) は, GPT-4 や ChatGPT といった大規模言語モデルやチャットボットの出現により, 将来の技術としてグローバルに認識されるようになった。 agiは、教育分野に革命を起こす可能性のある重要な技術の1つであるコンピュータシステムを通じて、人間の知能を再現することを目指している。 通常、限られた範囲のタスク用に設計された従来のaiモデルと比較すると、トレーニングのためにかなりの量のドメイン固有のデータを必要とし、教育における複雑な対人ダイナミクスを考えるとは限らない。 最近の大規模な事前学習モデルによって駆動されるAGIは、推論、問題解決、意思決定、さらには人間の感情や社会的相互作用を理解することなど、人間レベルの知性を必要とするタスクを実行する機械の能力において、大きな飛躍を示している。 この研究は、AGIの教育目標の設定、教育とカリキュラムの設計、評価の実行など、将来の教育における重要な概念、能力、範囲、潜在能力についてレビューする。 また、AGIが直面する教育における様々な倫理的問題や、AGIが人間の教育者に与える影響について、豊富な議論を行っている。 AGIの開発は、研究と応用活動を進めるために、教育者とAIエンジニアの学際的なコラボレーションを必要とする。

Artificial general intelligence (AGI) has gained global recognition as a future technology due to the emergence of breakthrough large language models and chatbots such as GPT-4 and ChatGPT, respectively. AGI aims to replicate human intelligence through computer systems, which is one of the critical technologies having the potential to revolutionize the field of education. Compared to conventional AI models, typically designed for a limited range of tasks, demand significant amounts of domain-specific data for training and may not always consider intricate interpersonal dynamics in education. AGI, driven by the recent large pre-trained models, represents a significant leap in the capability of machines to perform tasks that require human-level intelligence, such as reasoning, problem-solving, decision-making, and even understanding human emotions and social interactions. This work reviews AGI's key concepts, capabilities, scope, and potential within future education, including setting educational goals, designing pedagogy and curriculum, and performing assessments. We also provide rich discussions over various ethical issues in education faced by AGI and how AGI will affect human educators. The development of AGI necessitates interdisciplinary collaborations between educators and AI engineers to advance research and application efforts.
翻訳日:2023-04-26 22:26:04 公開日:2023-04-24
# Constraining Chaos: リカレントニューラルネットワークのトレーニングにおける動的不変性の強化

Constraining Chaos: Enforcing dynamical invariants in the training of recurrent neural networks ( http://arxiv.org/abs/2304.12865v1 )

ライセンス: Link先を確認
Jason A. Platt and Stephen G. Penny and Timothy A. Smith and Tse-Chun Chen and Henry D. I. Abarbanel(参考訳) エルゴード理論に基づいて,カオス力学系における機械学習に基づく予測手法の新しいトレーニング手法を提案する。 この訓練は、リヤプノフ指数スペクトルやフラクタル次元のような動的不変量を適用し、限られたデータで操作する場合、より長くより安定した予測を可能にする。 この手法は貯水池コンピューティングの繰り返しニューラルネットワークアーキテクチャを用いて詳細に実証されている。 lorenz 1996chaotic dynamical systemとspectrum pseudo-geostrophic modelはいずれも数値気象予測のための典型的なテストケースである。

Drawing on ergodic theory, we introduce a novel training method for machine learning based forecasting methods for chaotic dynamical systems. The training enforces dynamical invariants--such as the Lyapunov exponent spectrum and fractal dimension--in the systems of interest, enabling longer and more stable forecasts when operating with limited data. The technique is demonstrated in detail using the recurrent neural network architecture of reservoir computing. Results are given for the Lorenz 1996 chaotic dynamical system and a spectral quasi-geostrophic model, both typical test cases for numerical weather prediction.
翻訳日:2023-04-26 20:13:54 公開日:2023-04-24
# 境界感度を用いた神経陰影形状編集

Neural Implicit Shape Editing using Boundary Sensitivity ( http://arxiv.org/abs/2304.12951v1 )

ライセンス: Link先を確認
Arturs Berzins, Moritz Ibing, Leif Kobbelt(参考訳) ニューラルネットワークは、詳細に滑らかな形状をコンパクトに保存し、トポロジカルな変化を容易に受けられるため、幾何学的表現として注目されている。 しかし、従来の幾何学的表現と比較すると、ニューラル表現はユーザーが形状を直感的に制御できない。 これにより, パラメータの摂動が形状境界をどう移動するかを表現するために境界感度を利用する。 これにより、各学習可能なパラメータの効果を解釈し、達成可能な変形を研究することができる。 これにより,グローバルに定められた変形を最もよく近似するパラメータ更新を見つけることで,幾何学的な編集を行う。 変形を局所的にのみ記述することで、他の形状は、セマンティクスや変形剛性など、何らかの事前に変化させることができる。 本手法はトレーニング対象のモデルに非依存であり,NNをその場で更新する。 さらに,境界感度が,メッシュなどの他の表現に変換することなく計算が困難である対象(表面積や体積など)の最適化と制約にどのように役立つかを示す。

Neural fields are receiving increased attention as a geometric representation due to their ability to compactly store detailed and smooth shapes and easily undergo topological changes. Compared to classic geometry representations, however, neural representations do not allow the user to exert intuitive control over the shape. Motivated by this, we leverage boundary sensitivity to express how perturbations in parameters move the shape boundary. This allows to interpret the effect of each learnable parameter and study achievable deformations. With this, we perform geometric editing: finding a parameter update that best approximates a globally prescribed deformation. Prescribing the deformation only locally allows the rest of the shape to change according to some prior, such as semantics or deformation rigidity. Our method is agnostic to the model its training and updates the NN in-place. Furthermore, we show how boundary sensitivity helps to optimize and constrain objectives (such as surface area and volume), which are difficult to compute without first converting to another representation, such as a mesh.
翻訳日:2023-04-26 19:57:42 公開日:2023-04-24
# 堅牢な反事実的説明の生成

Generating robust counterfactual explanations ( http://arxiv.org/abs/2304.12943v1 )

ライセンス: Link先を確認
Victor Guyomard, Fran\c{c}oise Fessant, Thomas Guyet, Tassadit Bouadi, Alexandre Termier(参考訳) 事実的説明はXAI分野の主流となっている。 この特に直感的なステートメントは、モデル予測を変更するために、ユーザがどのような小さな変更が必要なのかを理解することを可能にする。 カウンターファクトの質は、現実主義、行動可能性、妥当性、堅牢性など、いくつかの基準に依存する。 本稿では,反事実の堅牢性の概念に関心を持つ。 より正確には、対実的な入力変更に対する堅牢性に焦点を当てます。 この形式のロバスト性は、反事実のロバスト性と説明すべき例との近さとのトレードオフを伴うため、特に困難である。 我々は,このトレードオフを効果的に管理し,ユーザに対して最小限の堅牢性を保証するとともに,ロバストなデファクトを生成する新しいフレームワークであるCROCOを提案する。 表付きデータセットの実証評価により,本手法の有効性と有効性が確認された。

Counterfactual explanations have become a mainstay of the XAI field. This particularly intuitive statement allows the user to understand what small but necessary changes would have to be made to a given situation in order to change a model prediction. The quality of a counterfactual depends on several criteria: realism, actionability, validity, robustness, etc. In this paper, we are interested in the notion of robustness of a counterfactual. More precisely, we focus on robustness to counterfactual input changes. This form of robustness is particularly challenging as it involves a trade-off between the robustness of the counterfactual and the proximity with the example to explain. We propose a new framework, CROCO, that generates robust counterfactuals while managing effectively this trade-off, and guarantees the user a minimal robustness. An empirical evaluation on tabular datasets confirms the relevance and effectiveness of our approach.
翻訳日:2023-04-26 19:56:37 公開日:2023-04-24
# 意味ネットワークのトポロジ的性質と組織原理

Topological properties and organizing principles of semantic networks ( http://arxiv.org/abs/2304.12940v1 )

ライセンス: Link先を確認
Gabriel Budel, Ying Jin, Piet Van Mieghem, Maksim Kitsak(参考訳) 自然言語の解釈は、構造化されていないテキストデータの増加により、コンピュータアルゴリズムにおいてますます重要なタスクとなっている。 自然言語処理(NLP)アプリケーションは構造化知識表現のための意味ネットワークに依存している。 意味ネットワークの基本特性はnlpアルゴリズムを設計する際に考慮する必要があるが、構造的に検討されている。 11の異なる言語から7つの意味関係によって定義されるconceptnetから意味ネットワークの性質について検討する。 セマンティックネットワークには普遍的な基本的特性があり、疎結合で、クラスタ化され、かつ、法則度分布を示す。 その結果,ネットワークのほとんどがスケールフリーであることが判明した。 例えば、ラテン語、ドイツ語、フランス語、スペイン語といった高度に屈折した言語からのネットワークは、力の法則から逸脱する程度分布のピークを示す。 意味的関係型と言語によっては、意味的ネットワークにおけるリンク形成は異なる原則によって導かれることが分かる。 一部のネットワークでは接続は類似性に基づくが、他のネットワークでは接続は相補性に基づくものである。 最後に、セマンティックネットワークにおける類似性と相補性に関する知識がリンク推論の欠如においてNLPアルゴリズムをいかに改善するかを示す。

Interpreting natural language is an increasingly important task in computer algorithms due to the growing availability of unstructured textual data. Natural Language Processing (NLP) applications rely on semantic networks for structured knowledge representation. The fundamental properties of semantic networks must be taken into account when designing NLP algorithms, yet they remain to be structurally investigated. We study the properties of semantic networks from ConceptNet, defined by 7 semantic relations from 11 different languages. We find that semantic networks have universal basic properties: they are sparse, highly clustered, and exhibit power-law degree distributions. Our findings show that the majority of the considered networks are scale-free. Some networks exhibit language-specific properties determined by grammatical rules, for example networks from highly inflected languages, such as e.g. Latin, German, French and Spanish, show peaks in the degree distribution that deviate from a power law. We find that depending on the semantic relation type and the language, the link formation in semantic networks is guided by different principles. In some networks the connections are similarity-based, while in others the connections are more complementarity-based. Finally, we demonstrate how knowledge of similarity and complementarity in semantic networks can improve NLP algorithms in missing link inference.
翻訳日:2023-04-26 19:56:24 公開日:2023-04-24
# 進化する3次元(3次元)抽象芸術:言語による概念の適合

Evolving Three Dimension (3D) Abstract Art: Fitting Concepts by Language ( http://arxiv.org/abs/2304.12932v1 )

ライセンス: Link先を確認
Yingtao Tian(参考訳) コンピュータ・クリエイティビティは現代における抽象芸術に大きく貢献し、高いコントロール性と表現性を持つ高品質な2次元(2D)アートをアーティストが作成できるようになった。 しかし、具体的な3Dアートを作る上で有望な結果をもたらす計算的アプローチであっても、高品質で制御性の高い抽象的な3Dアートに計算的に対処することは未解決の問題である。 このギャップを埋めるために,シーンのカスタマイズ可能なパラメータ化により,進化戦略(ES)と3次元レンダリングをブリッジすることで抽象的な3Dアートを作る際の計算的創造性を検討することを提案する。 提案手法は,特定の角度から見ると,自然言語で表現されたアーティストの仕様に類似した映画をレンダリングする,半透明な三角形を3dシーンに配置できることを実証する。 これにより、抽象的な3Dアートのためのクリエイティビティのアイデアを簡単に表現できる。 https://es3dart.github.io/ 追加資料には、コード、すべての図形のアニメーション、さらに多くの例が含まれている。

Computational creativity has contributed heavily to abstract art in modern era, allowing artists to create high quality, abstract two dimension (2D) arts with a high level of controllability and expressibility. However, even with computational approaches that have promising result in making concrete 3D art, computationally addressing abstract 3D art with high-quality and controllability remains an open question. To fill this gap, we propose to explore computational creativity in making abstract 3D art by bridging evolution strategies (ES) and 3D rendering through customizable parameterization of scenes. We demonstrate that our approach is capable of placing semi-transparent triangles in 3D scenes that, when viewed from specified angles, render into films that look like artists' specification expressed in natural language. This provides a new way for the artist to easily express creativity ideas for abstract 3D art. The supplementary material, which contains code, animation for all figures, and more examples, is here: https://es3dart.github.io/
翻訳日:2023-04-26 19:56:05 公開日:2023-04-24
# Awesome-META+:メタ学習研究・学習プラットフォーム

Awesome-META+: Meta-Learning Research and Learning Platform ( http://arxiv.org/abs/2304.12921v1 )

ライセンス: Link先を確認
Jingyao Wang, Chuyuan Zhang, Ye Ding, Yuxuan Yang(参考訳) 人工知能技術はすでに経済、産業、教育といった様々な分野で大きな影響を与えているが、まだ限られている。 メタ学習(メタラーニング)は、一般的な人工知能の機会を提供するもので、現在のAIボトルネックを突破することができる。 しかしメタ学習は遅くから始まり、CVやNLPなどと比較するプロジェクトは少ない。 各デプロイメントには、環境の設定やコードのデバッグ、書き直しなど、多くの経験が必要で、フレームワークは分離されています。 さらに、現在、メタラーニングのみに焦点を当てたプラットフォームや、閾値が比較的高い初心者向けの学習教材を提供するプラットフォームは少ない。 上記の問題を解決し、完全かつ信頼性の高いメタラーニングフレームワークアプリケーションおよび学習プラットフォームを提供するために、メタラーニングフレームワーク統合および学習プラットフォームであるawesome-meta+が提案されている。 このプロジェクトは、メタラーニングの発展とコミュニティの拡大を促進することを目的としており、以下の機能に限らない。 1) 目標検出,画像分類,強化学習などの多分野タスクに適応できる完全かつ信頼性の高いメタ学習フレームワーク。 2)メタラーニングの閾値を低くし、効率を向上させるための、便利なメタラーニング転送方法と利用方法を提供する、便利で簡単なモデル展開方式。 3)学習のための総合的な研究。 4)客観的かつ信頼性の高い性能分析と思考。

Artificial intelligence technology has already had a profound impact in various fields such as economy, industry, and education, but still limited. Meta-learning, also known as "learning to learn", provides an opportunity for general artificial intelligence, which can break through the current AI bottleneck. However, meta learning started late and there are fewer projects compare with CV, NLP etc. Each deployment requires a lot of experience to configure the environment, debug code or even rewrite, and the frameworks are isolated. Moreover, there are currently few platforms that focus exclusively on meta-learning, or provide learning materials for novices, for which the threshold is relatively high. Based on this, Awesome-META+, a meta-learning framework integration and learning platform is proposed to solve the above problems and provide a complete and reliable meta-learning framework application and learning platform. The project aims to promote the development of meta-learning and the expansion of the community, including but not limited to the following functions: 1) Complete and reliable meta-learning framework, which can adapt to multi-field tasks such as target detection, image classification, and reinforcement learning. 2) Convenient and simple model deployment scheme which provide convenient meta-learning transfer methods and usage methods to lower the threshold of meta-learning and improve efficiency. 3) Comprehensive researches for learning. 4) Objective and credible performance analysis and thinking.
翻訳日:2023-04-26 19:55:08 公開日:2023-04-24
# ChatLLM Network: より多くの脳と知性

ChatLLM Network: More brains, More intelligence ( http://arxiv.org/abs/2304.12998v1 )

ライセンス: Link先を確認
Rui Hao, Linmei Hu, Weijian Qi, Qingliu Wu, Yirui Zhang, Liqiang Nie(参考訳) 対話ベースの言語モデルは、ユーザーと対話する素晴らしい能力と、カスタマイズされた指示によって引き起こされる挑戦的なタスクによって、人工知能の分野で大きなマイルストーンとなる。 しかし、ChatGPTのような一般的な大規模対話型言語モデルには、質問に対する不安定な応答や、人間のように協調的に考えることができないなど、改善の余地がある。 会話における対話型言語モデルの能力と思考における固有のランダム性を考慮して,複数の対話型言語モデルが対話し,フィードバックを提供し,一緒に考えることができるChatLLMネットワークを提案する。 我々はChatGPTに基づいてChatLLMのネットワークを設計する。 具体的には、ChatGPTの個々のインスタンスは、同じ問題に対する異なる視点を持ち、ChatGPTを別途統合することで、ChatLLMネットワークシステムはより客観的かつ包括的な意思決定を行うことができる。 さらに、バックプロパゲーションに匹敵する言語ベースのフィードバックメカニズムを考案し、ネットワーク内のChatGPTを更新する。 2つのデータセットの実験により、ネットワークは問題解決の大幅な改善を達成し、各メンバの観測可能な進歩につながった。

Dialogue-based language models mark a huge milestone in the field of artificial intelligence, by their impressive ability to interact with users, as well as a series of challenging tasks prompted by customized instructions. However, the prevalent large-scale dialogue-based language models like ChatGPT still have room for improvement, such as unstable responses to questions and the inability to think cooperatively like humans. Considering the ability of dialogue-based language models in conversation and their inherent randomness in thinking, we propose ChatLLM network that allows multiple dialogue-based language models to interact, provide feedback, and think together. We design the network of ChatLLMs based on ChatGPT. Specifically, individual instances of ChatGPT may possess distinct perspectives towards the same problem, and by consolidating these diverse viewpoints via a separate ChatGPT, the ChatLLM network system can conduct decision-making more objectively and comprehensively. In addition, a language-based feedback mechanism comparable to backpropagation is devised to update the ChatGPTs within the network. Experiments on two datasets demonstrate that our network attains significant improvements in problem-solving, leading to observable progress amongst each member.
翻訳日:2023-04-26 19:39:10 公開日:2023-04-24
# 効率的な深層ネットワーク学習のためのシーンテキスト合成

Scene Text Synthesis for Efficient and Effective Deep Network Training ( http://arxiv.org/abs/1901.09193v3 )

ライセンス: Link先を確認
Changgong Zhang, Fangneng Zhan, Hongyuan Zhu, Shijian Lu(参考訳) 高精度でロバストな深層ネットワークモデルのトレーニングには,大量のアノテートトレーニング画像が重要であるが,大量のアノテートトレーニング画像の収集には時間がかかり,コストがかかることが多い。 画像合成は、最近のディープラーニング研究に注目が集まっている機械による注釈付きトレーニング画像の自動生成によって、この制約を緩和する。 本研究では,前景オブジェクト(OOI)を背景画像にリアルに埋め込み,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。 提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。 ひとつはコンテキストアウェアなセマンティックコヒーレンスで、背景イメージ内の意味的にコヒーレントな領域にooiが配置されることを保証する。 2つ目は調和的な外観適応であり、埋め込みooiが幾何アライメントと外観リアリズムの両方から周囲の背景に適合することを保証する。 提案手法は,シーンテキスト検出とシーンテキスト認識という,関連するが全く異なる2つのコンピュータビジョン課題に対して評価されている。 深層ネットワークトレーニングにおける合成画像の使用は、実画像と比較して、シーンテキストの検出とシーンテキスト認識性能を類似またはそれ以上に向上させることができる。

A large amount of annotated training images is critical for training accurate and robust deep network models but the collection of a large amount of annotated training images is often time-consuming and costly. Image synthesis alleviates this constraint by generating annotated training images automatically by machines which has attracted increasing interest in the recent deep learning research. We develop an innovative image synthesis technique that composes annotated training images by realistically embedding foreground objects of interest (OOI) into background images. The proposed technique consists of two key components that in principle boost the usefulness of the synthesized images in deep network training. The first is context-aware semantic coherence which ensures that the OOI are placed around semantically coherent regions within the background image. The second is harmonious appearance adaptation which ensures that the embedded OOI are agreeable to the surrounding background from both geometry alignment and appearance realism. The proposed technique has been evaluated over two related but very different computer vision challenges, namely, scene text detection and scene text recognition. Experiments over a number of public datasets demonstrate the effectiveness of our proposed image synthesis technique - the use of our synthesized images in deep network training is capable of achieving similar or even better scene text detection and scene text recognition performance as compared with using real images.
翻訳日:2023-04-26 02:06:16 公開日:2023-04-24
# シーン分析に用いる均質イジングモデルにおける高速近似

Fast approximations in the homogeneous Ising model for use in scene analysis ( http://arxiv.org/abs/1712.02195v3 )

ライセンス: Link先を確認
Alejandro Murua-Sazo and Ranjan Maitra(参考訳) イジングモデルは、多くの応用において統計モデリングや推論において重要であるが、その正規化定数、有効頂点数、平均スピン相互作用は計算に難解である。 等質な場合において、これらの量を数値計算できる正確な近似を提供する。 シミュレーション研究はマルコフ連鎖モンテカルロ法と比較し、それらの確率的アプローチによって取られる時間のほんの一部で、良好な性能を示す。 この近似値は,機能的磁気共鳴イメージング活性化検出実験においてベイズ推定を行うことや,ピスタチオ樹収率の年々増加の空間パターンにおける異方性の確率比試験において示される。

The Ising model is important in statistical modeling and inference in many applications, however its normalizing constant, mean number of active vertices and mean spin interaction are intractable to compute. We provide accurate approximations that make it possible to numerically calculate these quantities in the homogeneous case. Simulation studies indicate good performance when compared to Markov Chain Monte Carlo methods and at a tiny fraction of the time taken by those stochastic approaches. The value of our approximations is illustrated in performing Bayesian inference in a functional Magnetic Resonance Imaging activation detection experiment, and also in likelihood ratio testing for anisotropy in the spatial patterns of yearly increases in pistachio tree yields.
翻訳日:2023-04-26 02:05:37 公開日:2023-04-24
# ピタゴラス(560-479bc)とマチューの方程式(1868年)の導出と相関:マチューと修正マチューの方程式のスペクトル性

Derivation and Correlation between Pythagorus (560-479BC) and Mathieu's (1868) equation: Spectral nature between Mathieu's and Modified Mathieu's equation ( http://arxiv.org/abs/1501.06161v3 )

ライセンス: Link先を確認
Biswanath Rath(参考訳) ピタゴラスの定理を導出する。 ピタゴラスの定理から、マチューの方程式を修正したマチューの方程式も導出する。 修正マチューの方程式とマチューの方程式の間にスペクトル共振器が実施された。 これとは別に、量子矩形モデルポテンシャルの修正されたマチュー方程式に対応する離散境界状態も提示する。

We derive Pythagoras theorem. From the Pythagoras theorem, we also derive Mathieu's equation via modified Mathieu's equation. A spectral com- parison has been carried out between modified Mathieu's equation and Mathieu's equation. Apart from this, we also present discrete bound states corresponding to modified Mathieu's equation of a quantum rectangular type of model potential.
翻訳日:2023-04-26 02:04:03 公開日:2023-04-24
# ビューアライメントによるリアルな3d埋め込みに向けて

Towards Realistic 3D Embedding via View Alignment ( http://arxiv.org/abs/2007.07066v3 )

ライセンス: Link先を確認
Changgong Zhang, Fangneng Zhan, Shijian Lu, Feiying Ma and Xuansong Xie(参考訳) 近年のGAN(Generative Adversarial Network)の進歩は,対象物を自動的に背景画像に埋め込み,新たな画像を生成する自動画像合成において大きな成功を収めている。 一方、既存の作品の多くは2次元(2d)画像で前景オブジェクトを扱うが、3次元(3d)モデルの前景オブジェクトは360度自由度でより柔軟である。 本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動で埋め込み,新たな画像を構成する革新的なビューアライメントGAN(VA-GAN)を提案する。 VA-GANはテクスチャジェネレータと、相互接続およびエンドツーエンドのトレーニングが可能なディファレンシャル・差別化器から構成される。 差分判別器は、背景画像から幾何学的変換を学習し、合成された3次元モデルをリアルなポーズとビューで背景画像と整合させることができる。 テクスチャ生成装置は、推定ビューの下で3次元モデルの正確なオブジェクトテクスチャを生成するための新しいビュー符号化機構を採用する。 2つの合成タスク(KITTIによる自動車合成とCityscapesによる歩行者合成)に対する広範囲な実験により、VA-GANは最先端生成手法と比較して質的かつ定量的に高忠実な合成を実現することが示された。

Recent advances in generative adversarial networks (GANs) have achieved great success in automated image composition that generates new images by embedding interested foreground objects into background images automatically. On the other hand, most existing works deal with foreground objects in two-dimensional (2D) images though foreground objects in three-dimensional (3D) models are more flexible with 360-degree view freedom. This paper presents an innovative View Alignment GAN (VA-GAN) that composes new images by embedding 3D models into 2D background images realistically and automatically. VA-GAN consists of a texture generator and a differential discriminator that are inter-connected and end-to-end trainable. The differential discriminator guides to learn geometric transformation from background images so that the composed 3D models can be aligned with the background images with realistic poses and views. The texture generator adopts a novel view encoding mechanism for generating accurate object textures for the 3D models under the estimated views. Extensive experiments over two synthesis tasks (car synthesis with KITTI and pedestrian synthesis with Cityscapes) show that VA-GAN achieves high-fidelity composition qualitatively and quantitatively as compared with state-of-the-art generation methods.
翻訳日:2023-04-26 01:57:55 公開日:2023-04-24
# 再帰、進化、意識

Recursion, evolution and conscious self ( http://arxiv.org/abs/2001.11825v4 )

ライセンス: Link先を確認
A.D. Arvanitakis(参考訳) 自己参照の潜在的な計算現象(すなわち、そのプログラムを入力として持つアルゴリズムの潜在的な能力)に基づいて、大まかに自動的な学習理論、すなわち、初期プログラミングの最小の必要のない学習理論を導入し、研究する。 結論は生物学と神経科学の両方の科学的知見と一致し、進化に関する(ダーウィン主義と合わせて)多くの説明と、人間の脳の機能と学習能力の両方を提供する。

We introduce and study a learning theory which is roughly automatic, that is, it does not require but a minimum of initial programming, and is based on the potential computational phenomenon of self-reference, (i.e. the potential ability of an algorithm to have its program as an input). The conclusions agree with scientific findings in both biology and neuroscience and provide a plethora of explanations both (in conjunction with Darwinism) about evolution, as well as for the functionality and learning capabilities of human brain, (most importantly), as we perceive them in ourselves.
翻訳日:2023-04-26 01:57:08 公開日:2023-04-24
# NISQ量子コンピュータにおける波動関数位相のロバスト測定

Robust measurement of wave function topology on NISQ quantum computers ( http://arxiv.org/abs/2101.07283v6 )

ライセンス: Link先を確認
Xiao Xiao, J. K. Freericks and A. F. Kemper(参考訳) 量子材料のトポロジカル量子相は、そのトポロジカル不変量によって定義される。 これらの位相不変量は、量子波動関数の大域的幾何学的性質を特徴づける量であり、したがって局所雑音に免疫する。 ここでは、量子コンピュータ上の位相不変量を測定するための戦略を示す。 我々の戦略は変分量子固有解器(VQE)と容易に統合でき、現在の量子ハードウェア上での汎用量子多体状態の位相特性を特徴付けることができる。 非相互作用モデルと相互作用モデルの両方のトポロジ的不変量を測定し、量子シミュレータとIBM量子ハードウェア上で相互作用する量子位相図をマップアウトすることで、この手法の堅牢性を示す。

Topological quantum phases of quantum materials are defined through their topological invariants. These topological invariants are quantities that characterize the global geometrical properties of the quantum wave functions and thus are immune to local noise. Here, we present a strategy to measure topological invariants on quantum computers. We show that our strategy can be easily integrated with the variational quantum eigensolver (VQE) so that the topological properties of generic quantum many-body states can be characterized on current quantum hardware. We demonstrate the robust nature of the method by measuring topological invariants for both non-interacting and interacting models, and map out interacting quantum phase diagrams on quantum simulators and IBM quantum hardware.
翻訳日:2023-04-26 01:22:39 公開日:2023-04-24
# Auto-NBA: ネットワーク、ビット幅、加速器の結合空間を効率よく効果的に検索する

Auto-NBA: Efficient and Effective Search Over the Joint Space of Networks, Bitwidths, and Accelerators ( http://arxiv.org/abs/2106.06575v2 )

ライセンス: Link先を確認
Yonggan Fu, Yongan Zhang, Yang Zhang, David Cox, Yingyan Lin(参考訳) ディープニューラルネットワーク(DNN)の加速効率を最大化するためには、ネットワーク、ビット幅、加速器を含む3つの異なる高度に結合した側面の合同サーチ/設計が必要であるが、そのような共同サーチに関する課題はまだ十分に理解されておらず、対処されていない。 The key challenges include (1) the dilemma of whether to explode the memory consumption due to the huge joint space or achieve sub-optimal designs, (2) the discrete nature of the accelerator design space that is coupled yet different from that of the networks and bitwidths, and (3) the chicken and egg problem associated with network-accelerator co-search, i.e., co-search requires operation-wise hardware cost, which is lacking during search as the optimal accelerator depending on the whole network is still unknown during search. DNN加速器の最適かつ迅速な開発に向けたこれらの難題に対処するために、ターゲットデータセットとアクセラレーション仕様の巨大な共同設計空間内で最適な設計を効率よくローカライズし、ネットワーク、ビット幅、加速器を共同で検索できるAuto-NBAというフレームワークを提案する。 我々のAuto-NBAは、メモリ消費を一定に抑えた非バイアス探索を実現するための異種サンプリング戦略と、一般化可能なアクセルサーチエンジンを備えた新しい共同探索パイプラインを統合した。 大規模な実験とアブレーション研究により、Auto-NBAが生成したネットワークとアクセラレータは、探索時間、タスク精度、アクセル効率の点で、最先端の設計(共同調査/探索技術、ハードウェア対応NASメソッド、DNNアクセラレータなど)を一貫して上回っていることが検証された。 私たちのコードは、https://github.com/RICE-EIC/Auto-NBA.comで利用可能です。

While maximizing deep neural networks' (DNNs') acceleration efficiency requires a joint search/design of three different yet highly coupled aspects, including the networks, bitwidths, and accelerators, the challenges associated with such a joint search have not yet been fully understood and addressed. The key challenges include (1) the dilemma of whether to explode the memory consumption due to the huge joint space or achieve sub-optimal designs, (2) the discrete nature of the accelerator design space that is coupled yet different from that of the networks and bitwidths, and (3) the chicken and egg problem associated with network-accelerator co-search, i.e., co-search requires operation-wise hardware cost, which is lacking during search as the optimal accelerator depending on the whole network is still unknown during search. To tackle these daunting challenges towards optimal and fast development of DNN accelerators, we propose a framework dubbed Auto-NBA to enable jointly searching for the Networks, Bitwidths, and Accelerators, by efficiently localizing the optimal design within the huge joint design space for each target dataset and acceleration specification. Our Auto-NBA integrates a heterogeneous sampling strategy to achieve unbiased search with constant memory consumption, and a novel joint-search pipeline equipped with a generic differentiable accelerator search engine. Extensive experiments and ablation studies validate that both Auto-NBA generated networks and accelerators consistently outperform state-of-the-art designs (including co-search/exploration techniques, hardware-aware NAS methods, and DNN accelerators), in terms of search time, task accuracy, and accelerator efficiency. Our codes are available at: https://github.com/RICE-EIC/Auto-NBA.
翻訳日:2023-04-26 01:13:41 公開日:2023-04-24
# 非線形最適レギュレータのモデルフリー再設計のための2段階強化学習

Two-step reinforcement learning for model-free redesign of nonlinear optimal regulator ( http://arxiv.org/abs/2103.03808v3 )

ライセンス: Link先を確認
Mei Minami, Yuka Masumoto, Yoshihiro Okawa, Tomotake Sasaki, Yutaka Hori(参考訳) 多くの実用的な制御応用において、クローズドループシステムの性能は植物特性の変化により経時的に低下する。 したがって、システムモデリングプロセスを通過することなくコントローラを再設計する必要性が強く、クローズドループシステムではしばしば困難である。 強化学習(rl)は、閉ループ系の測定のみに基づいた非線形力学系の最適制御系のモデルフリー再設計を可能にする有望なアプローチの一つである。 しかしながら、RLの学習プロセスは通常、植物に摩耗を蓄積する制御の不十分なシステムを用いて、かなりの数の試行錯誤実験を必要とする。 この限界を克服するために,未知非線形システムの最適レギュレータ再設計問題において,rlの過渡学習性能を向上させるモデルフリーな2段階設計手法を提案する。 具体的には,まずモデルフリーである程度の制御性能を達成する線形制御則を設計,次に設計した線形制御則を並行してオンラインrlを用いて非線形最適制御則を訓練する。 線形制御法則の設計のためのオフラインRLアルゴリズムを導入し、理論上は軽微な仮定の下でLQRコントローラへの収束を保証する。 数値シミュレーションにより,提案手法はRLのハイパーパラメータチューニングにおける過渡学習性能と効率を向上させることを示した。

In many practical control applications, the performance level of a closed-loop system degrades over time due to the change of plant characteristics. Thus, there is a strong need for redesigning a controller without going through the system modeling process, which is often difficult for closed-loop systems. Reinforcement learning (RL) is one of the promising approaches that enable model-free redesign of optimal controllers for nonlinear dynamical systems based only on the measurement of the closed-loop system. However, the learning process of RL usually requires a considerable number of trial-and-error experiments using the poorly controlled system that may accumulate wear on the plant. To overcome this limitation, we propose a model-free two-step design approach that improves the transient learning performance of RL in an optimal regulator redesign problem for unknown nonlinear systems. Specifically, we first design a linear control law that attains some degree of control performance in a model-free manner, and then, train the nonlinear optimal control law with online RL by using the designed linear control law in parallel. We introduce an offline RL algorithm for the design of the linear control law and theoretically guarantee its convergence to the LQR controller under mild assumptions. Numerical simulations show that the proposed approach improves the transient learning performance and efficiency in hyperparameter tuning of RL.
翻訳日:2023-04-26 01:11:41 公開日:2023-04-24
# ドクター・イミメータ:イミメーティング・スコーリング法による手指X線撮影による骨年齢評価

Doctor Imitator: Hand-Radiography-based Bone Age Assessment by Imitating Scoring Methods ( http://arxiv.org/abs/2102.05424v3 )

ライセンス: Link先を確認
Jintai Chen, Bohan Yu, Biwen Lei, Ruiwei Feng, Danny Z. Chen, Jian Wu(参考訳) 骨年齢評価は, 複雑な骨年齢評価プロセスにより, 臨床実践において困難である。 現在の骨年齢自動評価法は診断ロジスティクスの稀な考慮のもとに設計されており、特定の解釈不能な隠れた状態と出力をもたらす可能性がある。 その結果、モデル予測の正しさを確認することは困難であるため、医師はそのようなモデルと調和することが困難である。 本研究では,手指のX線写真を用いた骨年齢評価のための新しいグラフベースディープラーニングフレームワーク,Doctor Imitator (DI)を提案する。 DIのアーキテクチャは、骨年齢評価のためのスコアリング手法(例えば、Tanner-Whitehouse法)を用いて医師の診断ロジスティクスを学ぶように設計されている。 具体的には、DIの畳み込みは、手形写真における解剖学的興味領域(ROI)の局所的特徴を捉え、骨年齢予測のために提案した解剖学的グループ畳み込みによってROIスコアを予測する。 さらに、患者固有のROI特徴に対する注意度とROIスコアに対する文脈注意度を計算するための、新しいデュアルグラフベースのアテンションモジュールを開発した。 我々の知る限り、DIは完全教師付き手X線写真のないスコアリング法に続く最初の自動骨年齢評価フレームワークである。 骨年齢のみのx線写真による実験は、diがスパースパラメータで優れた性能を達成でき、より解釈性を提供できることを検証している。

Bone age assessment is challenging in clinical practice due to the complicated bone age assessment process. Current automatic bone age assessment methods were designed with rare consideration of the diagnostic logistics and thus may yield certain uninterpretable hidden states and outputs. Consequently, doctors can find it hard to cooperate with such models harmoniously because it is difficult to check the correctness of the model predictions. In this work, we propose a new graph-based deep learning framework for bone age assessment with hand radiographs, called Doctor Imitator (DI). The architecture of DI is designed to learn the diagnostic logistics of doctors using the scoring methods (e.g., the Tanner-Whitehouse method) for bone age assessment. Specifically, the convolutions of DI capture the local features of the anatomical regions of interest (ROIs) on hand radiographs and predict the ROI scores by our proposed Anatomy-based Group Convolution, summing up for bone age prediction. Besides, we develop a novel Dual Graph-based Attention module to compute patient-specific attention for ROI features and context attention for ROI scores. As far as we know, DI is the first automatic bone age assessment framework following the scoring methods without fully supervised hand radiographs. Experiments on hand radiographs with only bone age supervision verify that DI can achieve excellent performance with sparse parameters and provide more interpretability.
翻訳日:2023-04-26 01:11:19 公開日:2023-04-24
# ソフトマックス回帰を用いた制限ボルツマンマシンによる一般スピン-S$システムの繰り返し

Repesentation of general spin-$S$ systems using a Restricted Boltzmann Machine with Softmax Regression ( http://arxiv.org/abs/2109.10651v2 )

ライセンス: Link先を確認
Abhiroop Lahiri, Shazia Janwari and Swapan K Pati(参考訳) 本稿では,トレーニングデータの確率分布に従うソフトマックス回帰(srbm)を有する制限ボルツマン機械を用いて,一般スピン系を表現する新しい手法を提案する。 多くの身体波関数の近似表現を見つけるために,確率的再構成法を用いてSRBMトレーニングを行う。 提案手法は, srbm法が非常によく機能し, 実験波関数を数値的に効率良く実現できることを示し, 理論予測とよく一致している。 SRBMによる実験波動関数の予測は,隠れユニットの数が増えるにつれて精度が向上することを示した。 本手法は,厳密な対角化(ed)によく適合するソフトマックスrbmを用いてスピン1/2量子系を解析し,その精度を評価した。 また、いくつかのスピン乗数($1, 3/2$, $2$)のスピン鎖のエネルギーをEDおよびDMRGの結果と比較した。

Here, we propose a novel method for representation of general spin systems using Restricted Boltzmann Machine with Softmax Regression (SRBM) that follows the probability distribution of the training data. SRBM training is performed using stochastic reconfiguration method to find approximate representation of many body wave functions. We have shown that proposed SRBM technique performs very well and achieves the trial wave function, in a numerically more efficient way, which is in good agreement with the theoretical prediction. We demonstrated that the prediction of the trial wave function through SRBM becomes more accurate as one increases the number of hidden units. We evaluated the accuracy of our method by studying the spin-1/2 quantum systems with softmax RBM which shows good accordance with the Exact Diagonalization(ED). We have also compared the energies of spin chains of a few spin multiplicities($1, 3/2$ and $2$) with ED and DMRG results.
翻訳日:2023-04-26 01:02:59 公開日:2023-04-24
# ストリーミングデータに対する確率近似アルゴリズムの非漸近解析

Non-Asymptotic Analysis of Stochastic Approximation Algorithms for Streaming Data ( http://arxiv.org/abs/2109.07117v7 )

ライセンス: Link先を確認
Antoine Godichon-Baggioni (LPSM (UMR\_8001)), Nicklas Werge (LPSM (UMR\_8001)), Olivier Wintenberger (LPSM (UMR\_8001))(参考訳) 本稿では,確率近似/最適化問題を解析するためのストリーミングフレームワークを提案する。 このストリーミングフレームワークは、シーケンシャルに到着するタイムバリアリングなミニバッチを使用して最適化問題を解決するのに似ています。 我々は、様々な勾配に基づくアルゴリズムの漸近収束速度を提供し、有名な確率勾配(SG)降下(Robins-Monroアルゴリズム)、ミニバッチSG、時間変化のミニバッチSGアルゴリズム、反復平均(Polyak-Ruppert averaging)を含む。 展示 一 時間変動するミニバッチに応じて学習率を選べば収束を加速させる方法 二 ポリアク=ルッパート平均値がクラー=ラオ下界の達成という点で最適な収束を達成すること、及び 三 時間変化したミニバッチをPolyak-Ruppert平均値と組み合わせることで、分散の低減と収束の促進を同時に実現し、オンライン、シーケンシャル、大規模学習といった多くの学習問題に有利である。 さらに,様々な時間変化のミニバッチに対して,これらの効果を示す。

We introduce a streaming framework for analyzing stochastic approximation/optimization problems. This streaming framework is analogous to solving optimization problems using time-varying mini-batches that arrive sequentially. We provide non-asymptotic convergence rates of various gradient-based algorithms; this includes the famous Stochastic Gradient (SG) descent (a.k.a. Robbins-Monro algorithm), mini-batch SG and time-varying mini-batch SG algorithms, as well as their iterated averages (a.k.a. Polyak-Ruppert averaging). We show i) how to accelerate convergence by choosing the learning rate according to the time-varying mini-batches, ii) that Polyak-Ruppert averaging achieves optimal convergence in terms of attaining the Cramer-Rao lower bound, and iii) how time-varying mini-batches together with Polyak-Ruppert averaging can provide variance reduction and accelerate convergence simultaneously, which is advantageous for many learning problems, such as online, sequential, and large-scale learning. We further demonstrate these favorable effects for various time-varying mini-batches.
翻訳日:2023-04-26 01:02:44 公開日:2023-04-24
# 経済予測に関するfomc議事録文書におけるアスペクトベース感情分析

Aspect-based Sentiment Analysis in Document -- FOMC Meeting Minutes on Economic Projection ( http://arxiv.org/abs/2108.04080v2 )

ライセンス: Link先を確認
Sarah-Yifei-Wang(参考訳) 連邦準備制度内の連邦公開市場委員会はインフレを管理し、雇用を最大化し、金利を安定化させる責任がある。 ミーティングの時間が市場の動きに重要な役割を果たすのは、この経済的な複雑さがいつまでも改善されているか、鳥の視点を提供するからだ。 そのため、経済予測のための大規模な財務資料から様々な側面の感情を分析し抽出することへの関心が高まっている。 しかし、大きなラベル付きデータセットがないため、財務データではアスペクトベースの感情分析は広く使われていない。 本稿では、弱い監督下での財務文書のABSA訓練モデルを提案し、様々なマクロ経済指標の予測力を解析する。

The Federal Open Market Committee within the Federal Reserve System is responsible for managing inflation, maximizing employment, and stabilizing interest rates. Meeting minutes play an important role for market movements because they provide the birds eye view of how this economic complexity is constantly re-weighed. Therefore, There has been growing interest in analyzing and extracting sentiments on various aspects from large financial texts for economic projection. However, Aspect-based Sentiment Analysis is not widely used on financial data due to the lack of large labeled dataset. In this paper, I propose a model to train ABSA on financial documents under weak supervision and analyze its predictive power on various macroeconomic indicators.
翻訳日:2023-04-26 01:01:44 公開日:2023-04-24
# mrcpy:minimaxリスク分類のためのライブラリ

MRCpy: A Library for Minimax Risk Classifiers ( http://arxiv.org/abs/2108.01952v2 )

ライセンス: Link先を確認
Kartheek Bondugula, Veronica Alvarez, Jos\'e I. Segovia-Mart\'in, Aritz P\'erez, Santiago Mazuelas(参考訳) 教師付き分類のための既存のライブラリは、経験的リスク最小化に基づいて、代理損失を利用する手法を実装している。 MRCpyライブラリは,ロバストリスク最小化に基づいて,0-1-lossを利用できるMRCを実装している。 このような手法は、期待される損失に厳密な境界を与えることのできる分類方法の多様体を生み出す。 MRCpyは、MRCの異なる変種に対する統一インターフェースを提供し、人気のあるPythonライブラリの標準に従っている。 上述のライブラリはまた、L1正規化ロジスティック回帰、ゼロワン逆数、最大エントロピーマシンなどのMRCとして見られるような一般的なテクニックの実装も提供する。 さらに、MRCpyはFourier、ReLU、しきい値といった最近の機能マッピングを実装している。 このライブラリは、共同作業者やユーザを支援するオブジェクト指向アプローチで設計されている。

Existing libraries for supervised classification implement techniques that are based on empirical risk minimization and utilize surrogate losses. We present MRCpy library that implements minimax risk classifiers (MRCs) that are based on robust risk minimization and can utilize 0-1-loss. Such techniques give rise to a manifold of classification methods that can provide tight bounds on the expected loss. MRCpy provides a unified interface for different variants of MRCs and follows the standards of popular Python libraries. The presented library also provides implementation for popular techniques that can be seen as MRCs such as L1-regularized logistic regression, zero-one adversarial, and maximum entropy machines. In addition, MRCpy implements recent feature mappings such as Fourier, ReLU, and threshold features. The library is designed with an object-oriented approach that facilitates collaborators and users.
翻訳日:2023-04-26 01:01:04 公開日:2023-04-24
# 自動医療コーディングのための深層学習の統一的レビュー

A Unified Review of Deep Learning for Automated Medical Coding ( http://arxiv.org/abs/2201.02797v3 )

ライセンス: Link先を確認
Shaoxiong Ji and Wei Sun and Xiaobo Li and Hang Dong and Ara Taalas and Yijia Zhang and Honghan Wu and Esa Pitk\"anen and Pekka Marttinen(参考訳) 医療の運用と提供に不可欠な医療コードの自動作成は、臨床文書から医療コードを予測することによって、構造化されていないデータを管理可能にする。 近年のディープラーニングと自然言語処理の進歩がこの課題に広く応用されている。 しかし、ディープラーニングベースの医療コーディングには、ニューラルネットワークアーキテクチャの設計の統一的なビューがない。 本稿では,医学的コーディングモデルの構築ブロックを総合的に理解するための統一的なフレームワークを提案し,提案フレームワークに基づく最近の高度なモデルを要約する。 統合されたフレームワークは、テキスト特徴抽出のためのエンコーダモジュール、ディープエンコーダアーキテクチャを構築するためのメカニズム、隠れた表現を医療コードに変換するデコーダモジュール、補助情報の使用の4つの主要コンポーネントに分解する。 最後に、ベンチマークと実世界の利用を紹介し、重要な研究課題と今後の方向性について論じる。

Automated medical coding, an essential task for healthcare operation and delivery, makes unstructured data manageable by predicting medical codes from clinical documents. Recent advances in deep learning and natural language processing have been widely applied to this task. However, deep learning-based medical coding lacks a unified view of the design of neural network architectures. This review proposes a unified framework to provide a general understanding of the building blocks of medical coding models and summarizes recent advanced models under the proposed framework. Our unified framework decomposes medical coding into four main components, i.e., encoder modules for text feature extraction, mechanisms for building deep encoder architectures, decoder modules for transforming hidden representations into medical codes, and the usage of auxiliary information. Finally, we introduce the benchmarks and real-world usage and discuss key research challenges and future directions.
翻訳日:2023-04-26 00:55:16 公開日:2023-04-24
# マルチモーダル画像合成と編集:調査

Multimodal Image Synthesis and Editing: A Survey ( http://arxiv.org/abs/2112.13592v4 )

ライセンス: Link先を確認
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu, Lingjie Liu, Adam Kortylewski, Christian Theobalt, Eric Xing(参考訳) 実世界の様々なモダリティに情報が存在するため、コンピュータビジョンやディープラーニング研究において、マルチモーダル情報間の効果的な相互作用と融合がマルチモーダルデータの生成と認識に重要な役割を果たしている。 マルチモーダル情報間の相互作用をモデル化するスーパーパワーにより、近年はマルチモーダル画像合成と編集がホットな研究トピックとなっている。 ネットワークトレーニングのための明確なガイダンスを提供する代わりに、マルチモーダルガイダンスは直感的で柔軟な画像合成と編集の手段を提供する。 一方で,マルチモーダルな特徴のアライメント,高解像度画像の合成,忠実な評価指標など,いくつかの課題に直面している。 本研究では,近年のマルチモーダル画像合成・編集・分類学の進歩を,データモダリティやモデルタイプに応じて包括的に把握する。 まず、画像合成と編集における異なるガイダンスモダリティの紹介から始め、そのモデルタイプに応じて多モード画像合成と編集アプローチを広範囲に記述する。 その後、ベンチマークデータセットと評価メトリクスおよび対応する実験結果について述べる。 最後に,現在の研究課題と今後の研究の方向性について考察する。 この調査に関連するプロジェクトはhttps://github.com/fnzhan/mise.comで入手できる。

As information exists in various modalities in real world, effective interaction and fusion among multimodal information plays a key role for the creation and perception of multimodal data in computer vision and deep learning research. With superb power in modeling the interaction among multimodal information, multimodal image synthesis and editing has become a hot research topic in recent years. Instead of providing explicit guidance for network training, multimodal guidance offers intuitive and flexible means for image synthesis and editing. On the other hand, this field is also facing several challenges in alignment of multimodal features, synthesis of high-resolution images, faithful evaluation metrics, etc. In this survey, we comprehensively contextualize the advance of the recent multimodal image synthesis and editing and formulate taxonomies according to data modalities and model types. We start with an introduction to different guidance modalities in image synthesis and editing, and then describe multimodal image synthesis and editing approaches extensively according to their model types. After that, we describe benchmark datasets and evaluation metrics as well as corresponding experimental results. Finally, we provide insights about the current research challenges and possible directions for future research. A project associated with this survey is available at https://github.com/fnzhan/MISE.
翻訳日:2023-04-26 00:54:38 公開日:2023-04-24
# 実演インフォームド仕様検索

Demonstration Informed Specification Search ( http://arxiv.org/abs/2112.10807v4 )

ライセンス: Link先を確認
Marcell Vazquez-Chanlatte, Ameesh Shah, Gil Lederman, Sanjit A. Seshia(参考訳) 本稿では,専門家による実演から時間的タスク仕様(オートマトンや時間的論理など)を学習する問題を考察する。 タスク仕様はスパースメモリの拡張報酬のクラスであり、時間とブールの構成を明確にサポートする。 3つの特徴は時間的タスク仕様の学習を困難にしている。(1) 考慮中の無限のタスク数、(2) タスクをエンコードするために必要なメモリのプリオリな無知、(3) 離散的なソリューション空間(通常は(ブルートフォース)列挙によって対処される)。 これらのハードルを克服するために,提案するDemonstration Informed Specification Search (DISS): ラベル付き例から最大エントロピープランナーとタスクサンプリング器へのブラックボックスアクセスのみを必要とするアルゴリズム群を提案する。 DISSは、ラベル付き例を推論することで、提供されたデモンストレーションの驚きを和らげ、推測されたラベル付き例と整合したタスクをサンプリングする。 本研究では,決定論的有限オートマタによって記述されたタスクの文脈におけるDISの具体的実装について述べるとともに,DESが1つないし2つの専門家によるデモンストレーションからタスクを効率的に識別できることを示す。

This paper considers the problem of learning temporal task specifications, e.g. automata and temporal logic, from expert demonstrations. Task specifications are a class of sparse memory augmented rewards with explicit support for temporal and Boolean composition. Three features make learning temporal task specifications difficult: (1) the (countably) infinite number of tasks under consideration; (2) an a-priori ignorance of what memory is needed to encode the task; and (3) the discrete solution space - typically addressed by (brute force) enumeration. To overcome these hurdles, we propose Demonstration Informed Specification Search (DISS): a family of algorithms requiring only black box access to a maximum entropy planner and a task sampler from labeled examples. DISS then works by alternating between conjecturing labeled examples to make the provided demonstrations less surprising and sampling tasks consistent with the conjectured labeled examples. We provide a concrete implementation of DISS in the context of tasks described by Deterministic Finite Automata, and show that DISS is able to efficiently identify tasks from only one or two expert demonstrations.
翻訳日:2023-04-26 00:53:57 公開日:2023-04-24
# 非視覚マーカーを用いた持続的動物識別

Persistent Animal Identification Leveraging Non-Visual Markers ( http://arxiv.org/abs/2112.06809v6 )

ライセンス: Link先を確認
Michael P. J. Camilleri and Li Zhang and Rasneer S. Bains and Andrew Zisserman and Christopher K. I. Williams(参考訳) 本研究の目的は, 生物学的研究における自動行動認識の先駆けとして, 乱雑なホームケージ環境における各マウスの識別と識別を提供することである。 これは非常に難しい問題です。 (i)各マウスの視覚的特徴の区別の欠如 (ii)一定の閉塞を伴うシーンの閉じた領域は、標準的な視覚追跡アプローチが使用不可能となる。 しかし、各マウスの位置の粗い推定は独自のRFIDインプラントから可能であるため、(弱)追跡情報と身元に関する粗い情報とを最適に組み合わせることが可能である。 目的を達成するために、私たちは以下の重要な貢献をします。 (a)代入問題としてのオブジェクト識別問題の定式化(整数線形計画法を用いて解決) b)トラックレットとRFIDデータの親和性に関する新しい確率モデル。 後者は、粗い局所化が与えられた物体検出の原則的確率的処理を提供するため、モデルの重要な部分である。 本手法は, 動物識別の精度を77%向上し, 動物が隠れているときの急激な検出を拒否できる。

Our objective is to locate and provide a unique identifier for each mouse in a cluttered home-cage environment through time, as a precursor to automated behaviour recognition for biological research. This is a very challenging problem due to (i) the lack of distinguishing visual features for each mouse, and (ii) the close confines of the scene with constant occlusion, making standard visual tracking approaches unusable. However, a coarse estimate of each mouse's location is available from a unique RFID implant, so there is the potential to optimally combine information from (weak) tracking with coarse information on identity. To achieve our objective, we make the following key contributions: (a) the formulation of the object identification problem as an assignment problem (solved using Integer Linear Programming), and (b) a novel probabilistic model of the affinity between tracklets and RFID data. The latter is a crucial part of the model, as it provides a principled probabilistic treatment of object detections given coarse localisation. Our approach achieves 77% accuracy on this animal identification problem, and is able to reject spurious detections when the animals are hidden.
翻訳日:2023-04-26 00:53:34 公開日:2023-04-24
# StratDef:MLによるマルウェア検出における敵攻撃に対する戦略的防御

StratDef: Strategic Defense Against Adversarial Attacks in ML-based Malware Detection ( http://arxiv.org/abs/2202.07568v6 )

ライセンス: Link先を確認
Aqib Rashid, Jose Such(参考訳) 長年にわたり、機械学習モデルに対する敵対的攻撃に対する防御に向けた研究は、画像認識領域で行われている。 MLベースのマルウェア検出ドメインは、重要性にもかかわらずあまり注目されていない。 さらに、これらの防御を探求するほとんどの作業は、いくつかの方法に焦点を当てているが、それを適用するための戦略はない。 本稿では,移動目標防衛アプローチに基づく戦略防衛システムであるStratDefを紹介する。 我々は,モデルの体系的構築,選択,戦略的利用に関する課題を克服し,敵意の強固さを最大化する。 StratDefは攻撃者の不確実性を高めるための最良のモデルを動的かつ戦略的に選択すると同時に、攻撃の転送可能性などの敵MLドメインにおける重要な側面を最小限にする。 我々は、マルウェア検出のための機械学習に対する敵攻撃に対する防御を包括的に評価し、脅威モデルは異なるレベルの脅威、攻撃者の知識、能力、攻撃強度を探索する。 我々は,StratDefが最強の敵の脅威に直面しても,他の防御よりも優れた性能を示すことを示す。 また,既存の防御策の1つとして,バニラモデルのみを用いたモデルに比べて防御性が大幅に向上しているモデルもいくつかあるが,stratdefに勝っていることも示している。

Over the years, most research towards defenses against adversarial attacks on machine learning models has been in the image recognition domain. The ML-based malware detection domain has received less attention despite its importance. Moreover, most work exploring these defenses has focused on several methods but with no strategy when applying them. In this paper, we introduce StratDef, which is a strategic defense system based on a moving target defense approach. We overcome challenges related to the systematic construction, selection, and strategic use of models to maximize adversarial robustness. StratDef dynamically and strategically chooses the best models to increase the uncertainty for the attacker while minimizing critical aspects in the adversarial ML domain, like attack transferability. We provide the first comprehensive evaluation of defenses against adversarial attacks on machine learning for malware detection, where our threat model explores different levels of threat, attacker knowledge, capabilities, and attack intensities. We show that StratDef performs better than other defenses even when facing the peak adversarial threat. We also show that, of the existing defenses, only a few adversarially-trained models provide substantially better protection than just using vanilla models but are still outperformed by StratDef.
翻訳日:2023-04-26 00:43:52 公開日:2023-04-24
# Amortized Optimization に関するチュートリアル

Tutorial on amortized optimization ( http://arxiv.org/abs/2202.00665v3 )

ライセンス: Link先を確認
Brandon Amos(参考訳) 最適化はユビキタスなモデリングツールであり、しばしば同じ問題を繰り返し解決する設定にデプロイされる。 償却最適化手法は、学習を使ってこれらの設定における問題に対する解決策を予測し、同様の問題インスタンス間の共有構造を利用する。 これらの手法は変分推論や強化学習において重要であり、償却を使用しない従来の最適化手法よりも数桁早く最適化問題を解くことができる。 このチュートリアルでは、これらの進歩の背後にある償却最適化基盤を紹介し、それらの応用を変動推論、スパースコーディング、勾配に基づくメタラーニング、制御、強化学習、凸最適化、最適輸送、深い平衡ネットワークで概説する。 このチュートリアルのソースコードはhttps://github.com/facebookresearch/amortized-optimization-tutorialで入手できる。

Optimization is a ubiquitous modeling tool and is often deployed in settings which repeatedly solve similar instances of the same problem. Amortized optimization methods use learning to predict the solutions to problems in these settings, exploiting the shared structure between similar problem instances. These methods have been crucial in variational inference and reinforcement learning and are capable of solving optimization problems many orders of magnitudes times faster than traditional optimization methods that do not use amortization. This tutorial presents an introduction to the amortized optimization foundations behind these advancements and overviews their applications in variational inference, sparse coding, gradient-based meta-learning, control, reinforcement learning, convex optimization, optimal transport, and deep equilibrium networks. The source code for this tutorial is available at https://github.com/facebookresearch/amortized-optimization-tutorial.
翻訳日:2023-04-26 00:43:33 公開日:2023-04-24
# 階層的埋め込みベイズ加法回帰木

Hierarchical Embedded Bayesian Additive Regression Trees ( http://arxiv.org/abs/2204.07207v2 )

ライセンス: Link先を確認
Bruna Wundervald, Andrew Parnell, Katarina Domijan(参考訳) 本稿では,階層型埋め込みBART (HE-BART) と呼ばれるベイジアン付加回帰木の単純かつ強力な拡張を提案する。 このモデルでは、回帰木の集合の終端ノードレベルにランダム効果を含めることができるため、HE-BARTを混合効果モデルの非パラメトリックな代替品とし、標準BARTの予測と不確実な校正特性を維持しつつ、ユーザがモデル内のランダム効果の構造を特定することを避ける。 シミュレーションおよび実世界の例を用いて、この新しい拡張は標準的な混合効果モデルのサンプルデータセットの多くに対して優れた予測をもたらすことを実証するが、それでもランダム効果のばらつきを一貫して推定する。 本論文の今後のバージョンでは,より大規模で高度なデータセットと構造での利用について概説する。

We propose a simple yet powerful extension of Bayesian Additive Regression Trees which we name Hierarchical Embedded BART (HE-BART). The model allows for random effects to be included at the terminal node level of a set of regression trees, making HE-BART a non-parametric alternative to mixed effects models which avoids the need for the user to specify the structure of the random effects in the model, whilst maintaining the prediction and uncertainty calibration properties of standard BART. Using simulated and real-world examples, we demonstrate that this new extension yields superior predictions for many of the standard mixed effects models' example data sets, and yet still provides consistent estimates of the random effect variances. In a future version of this paper, we outline its use in larger, more advanced data sets and structures.
翻訳日:2023-04-26 00:36:00 公開日:2023-04-24
# 証明ブロック問題に対する効率的なフィードバックと部分信用格付け

Efficient Feedback and Partial Credit Grading for Proof Blocks Problems ( http://arxiv.org/abs/2204.04196v2 )

ライセンス: Link先を確認
Seth Poulsen, Shubhang Kulkarni, Geoffrey Herman, and Matthew West(参考訳) Proof Blocksは、学生がスクラッチから証明を書く代わりに線をドラッグ&ドロップすることで数学的証明を書くことができるソフトウェアツールである。 Proof Blocksは、学生に部分クレジットを割り当て、ソリューションの品質フィードバックを提供する。 これは、あらかじめ定義されたソリューションのセットへの学生の提出から編集距離を計算することによって行われる。 本研究では,検索空間全体にわたって徹底的に列挙するベースライン手順を大幅に上回る編集距離問題に対するアルゴリズムを提案する。 我々のアルゴリズムは最小頂点被覆問題への還元に依存する。 提案アルゴリズムは,複数コースから提出した数千の学生を対象にベンチマークを行い,ベースラインアルゴリズムが難解であり,提案アルゴリズムが教室の展開に不可欠であることを示した。 我々の新しいアルゴリズムは、他の多くの領域において、解空間をDAGとしてモデル化できるが、コードの記述にはパーソンズ問題に限らない問題、ネットワークプロトコルにおけるパケット順序の理解、物理問題に対する解決手順のスケッチを支援するために使われている。 このアルゴリズムは、複数の学習管理システムに統合され、毎年何千人もの学生にサービスを提供する。

Proof Blocks is a software tool that allows students to practice writing mathematical proofs by dragging and dropping lines instead of writing proofs from scratch. Proof Blocks offers the capability of assigning partial credit and providing solution quality feedback to students. This is done by computing the edit distance from a student's submission to some predefined set of solutions. In this work, we propose an algorithm for the edit distance problem that significantly outperforms the baseline procedure of exhaustively enumerating over the entire search space. Our algorithm relies on a reduction to the minimum vertex cover problem. We benchmark our algorithm on thousands of student submissions from multiple courses, showing that the baseline algorithm is intractable, and that our proposed algorithm is critical to enable classroom deployment. Our new algorithm has also been used for problems in many other domains where the solution space can be modeled as a DAG, including but not limited to Parsons Problems for writing code, helping students understand packet ordering in networking protocols, and helping students sketch solution steps for physics problems. Integrated into multiple learning management systems, the algorithm serves thousands of students each year.
翻訳日:2023-04-26 00:35:08 公開日:2023-04-24
# 構成ゼロショット学習のためのソフトプロンプトの構成学習

Learning to Compose Soft Prompts for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2204.03574v3 )

ライセンス: Link先を確認
Nihal V. Nayak, Peilin Yu, Stephen H. Bach(参考訳) CLIPのような大規模事前学習型視覚言語モデル(VLM)のゼロショット合成性を改善するために,パラメータ効率のよい学習手法であるコンポジションソフトプロンプト(CSP)を導入する。 我々は,無知覚属性-対象合成(例えば,老猫と若トラ)の予測タスクである構成的ゼロショット学習のためのcspを開発した。 VLMは、任意のクラスを自然言語のプロンプトとして表現できるフレキシブルなテキストエンコーダを持つが、合成ゼロショットベンチマークデータセット上でタスク固有のアーキテクチャを過小評価することが多い。 cspは、クラスを語彙の学習可能なトークンとして定義する属性とオブジェクトを扱う。 訓練中、語彙は複数の方法でトークンを構成するクラス(例えば、古猫と白猫)を認識するように調整される。 テスト時に,学習した属性オブジェクトの語彙を新しい組み合わせに分解し,新しいクラスを認識する。 CSPがベンチマークデータセットのCLIPを平均10.9ポイント上回っていることを示す。 cspはまた、プレフィックスコンテキストトークンをaucで平均5.8パーセンテージで微調整するソフトプロンプトメソッドであるcoopを上回っている。 cspが高次属性属性属性オブジェクト合成(例えば、オールド・ホワイト・キャット)と事前訓練された属性と微調整されたオブジェクトの組み合わせへの一般化を改善することを示す追加実験を行う。 コードはhttps://github.com/batsresearch/cspで入手できる。

We introduce compositional soft prompting (CSP), a parameter-efficient learning technique to improve the zero-shot compositionality of large-scale pretrained vision-language models (VLMs) like CLIP. We develop CSP for compositional zero-shot learning, the task of predicting unseen attribute-object compositions (e.g., old cat and young tiger). VLMs have a flexible text encoder that can represent arbitrary classes as natural language prompts but they often underperform task-specific architectures on the compositional zero-shot benchmark datasets. CSP treats the attributes and objects that define classes as learnable tokens of vocabulary. During training, the vocabulary is tuned to recognize classes that compose tokens in multiple ways (e.g., old cat and white cat). At test time, we recompose the learned attribute-object vocabulary in new combinations to recognize novel classes. We show that CSP outperforms the CLIP on benchmark datasets by an average of 10.9 percentage points on AUC. CSP also outperforms CoOp, a soft prompting method that fine-tunes the prefix context tokens, by an average of 5.8 percentage points on AUC. We perform additional experiments to show that CSP improves generalization to higher-order attribute-attribute-object compositions (e.g., old white cat) and combinations of pretrained attributes and fine-tuned objects. The code is available at https://github.com/BatsResearch/csp.
翻訳日:2023-04-26 00:34:47 公開日:2023-04-24
# 広範囲欠落データの存在下でのガウス過程3次元形状モデリングの確率的登録

Probabilistic Registration for Gaussian Process 3D shape modelling in the presence of extensive missing data ( http://arxiv.org/abs/2203.14113v2 )

ライセンス: Link先を確認
Filipa Valdeira and Ricardo Ferreira and Alessandra Micheletti and Cl\'audia Soares(参考訳) 本稿では,ガウス過程の定式化に基づく形状適合/登録手法を提案する。 ガウス過程は、形状モデリングとフィッティングの統一的な設定を提供するので、証明された強力なツールである。 この領域における既存の手法は、人間の頭部の一般的な場合ではうまく機能するが、より詳細で変形したデータを見ると、耳のような欠落したデータが多く、結果が満足できない。 これを解決するために,マルチアノテータのガウス過程回帰として形状適合問題を定式化し,標準確率登録と並列性を確立する。 得られたsfgp法では,最先端の登録法や既存形状モデルによる登録方法と比較して,欠落データの広範囲な領域を扱う場合の性能が向上する。 様々な変換を持つ2次元の小さなデータセットと耳の3次元データセットの両方で実験が行われる。

We propose a shape fitting/registration method based on a Gaussian Processes formulation, suitable for shapes with extensive regions of missing data. Gaussian Processes are a proven powerful tool, as they provide a unified setting for shape modelling and fitting. While the existing methods in this area prove to work well for the general case of the human head, when looking at more detailed and deformed data, with a high prevalence of missing data, such as the ears, the results are not satisfactory. In order to overcome this, we formulate the shape fitting problem as a multi-annotator Gaussian Process Regression and establish a parallel with the standard probabilistic registration. The achieved method SFGP shows better performance when dealing with extensive areas of missing data when compared to a state-of-the-art registration method and current approaches for registration with pre-existing shape models. Experiments are conducted both for a 2D small dataset with diverse transformations and a 3D dataset of ears.
翻訳日:2023-04-26 00:33:58 公開日:2023-04-24
# バルク境界対応による統一速度限界、熱力学的不確実性関係およびハイゼンベルク原理

Unifying speed limit, thermodynamic uncertainty relation and Heisenberg principle via bulk-boundary correspondence ( http://arxiv.org/abs/2203.12421v5 )

ライセンス: Link先を確認
Yoshihiko Hasegawa(参考訳) バルク境界対応は、強相関系と結合系に取り組むための指針となる。 本研究では、古典的および量子マルコフ過程によって記述された熱力学的境界に対するバルク境界対応の概念を適用する。 連続行列積状態を用いて、マルコフ過程を量子場に変換し、マルコフ過程におけるジャンプイベントを量子場における粒子の生成によって表現する。 連続行列積状態の時間発展を導入することで、その時間発展に幾何学的境界を適用する。 幾何学的境界は、系量の観点から境界を表すとき速度極限関係に還元されるのに対し、同じ境界は量子場の量に基づいて表されるときの熱力学的不確かさ関係に還元される。 以上の結果から, 速度限界と熱力学的不確実性の関係は同じ幾何学的境界の2つの側面であることがわかった。

The bulk-boundary correspondence provides a guiding principle for tackling strongly correlated and coupled systems. In the present work, we apply the concept of the bulk-boundary correspondence to thermodynamic bounds described by classical and quantum Markov processes. Using the continuous matrix product state, we convert a Markov process to a quantum field, such that jump events in the Markov process are represented by the creation of particles in the quantum field. Introducing the time evolution of the continuous matrix product state, we apply the geometric bound to its time evolution. We find that the geometric bound reduces to the speed limit relation when we represent the bound in terms of the system quantity, whereas the same bound reduces to the thermodynamic uncertainty relation when expressed based on quantities of the quantum field. Our results show that the speed limit and thermodynamic uncertainty relations are two aspects of the same geometric bound.
翻訳日:2023-04-26 00:33:39 公開日:2023-04-24
# 単一量子エミッタと線形光学を用いた任意のフォトニックグラフ状態の準決定論的ハイブリッド生成

Near-deterministic hybrid generation of arbitrary photonic graph states using a single quantum emitter and linear optics ( http://arxiv.org/abs/2205.09750v4 )

ライセンス: Link先を確認
Paul Hilaire, Leonid Vidro, Hagai S. Eisenberg, Sophia E. Economou(参考訳) 線形光学二光子ゲートは本質的に確率的であるため、測定に基づく実装は特にフォトニックプラットフォームに適している。 したがって、これらのグラフ状態を生成することが課題である。 相互作用する量子エミッタまたは効率的なスピン光子界面を利用するいくつかの生成手順が、これらのフォトニックグラフ状態を決定論的に生成するために提案されている。 しかし、これらの解は、最先端が線形グラフ状態の生成であるため、まだ実験的には到達できない。 本稿では,現在の量子エミッタ機能を用いたグラフ状態生成のための近似決定論的解を提案する。 本稿では,全光子融合ゲートを用いた量子エミッタグラフ状態生成手法を提案する。 その結果、計測に基づく量子通信や量子コンピューティングを含む、資源効率の高い量子情報処理の実践的実装への道が開けるべきである。

Since linear-optical two-photon gates are inherently probabilistic, measurement-based implementations are particularly well suited for photonic platforms: a large highly-entangled photonic resource state, called a graph state, is consumed through measurements to perform a computation. The challenge is thus to produce these graph states. Several generation procedures, which use either interacting quantum emitters or efficient spin-photon interface, have been proposed to create these photonic graph states deterministically. Yet, these solutions are still out of reach experimentally since the state-of-the-art is the generation of a linear graph state. Here, we introduce near-deterministic solutions for the generation of graph states using the current quantum emitter capabilities. We propose hybridizing quantum-emitter-based graph state generation with all-photonic fusion gates to produce graph states of complex topology near-deterministically. Our results should pave the way towards the practical implementation of resource-efficient quantum information processing, including measurement-based quantum communication and quantum computing.
翻訳日:2023-04-26 00:25:06 公開日:2023-04-24
# 重み付きグラフ学習のための等価量子回路

Equivariant quantum circuits for learning on weighted graphs ( http://arxiv.org/abs/2205.06109v2 )

ライセンス: Link先を確認
Andrea Skolik, Michele Cattelan, Sheir Yarkoni, Thomas B\"ack, Vedran Dunjko(参考訳) 変分量子アルゴリズムは、短期量子ハードウェアの利点の第一候補である。 この設定でパラメータ化された量子回路をトレーニングし、特定の問題を解決する際に、アルゴリズムのトレーニング可能性と性能を決定する最も重要な要素の1つである。 しかし、量子機械学習(qml)では、トレーニングデータ構造によって動機づけられたアンサtzeに関する文献は少ない。 本稿では,重み付きグラフのタスクを学習するためのアンサッツについて紹介する。 複雑な学習課題,すなわちニューラルコンビネータ最適化において,このアンザッツの性能を評価し,そのモデルを用いて組合せ最適化問題に対するヒューリスティックを学習する。 我々は, モデルの性能を解析的, 数値的に研究し, この結果から, 対称性保存アンサテイズがQMLの成功の鍵であるという考えが強まった。

Variational quantum algorithms are the leading candidate for advantage on near-term quantum hardware. When training a parametrized quantum circuit in this setting to solve a specific problem, the choice of ansatz is one of the most important factors that determines the trainability and performance of the algorithm. In quantum machine learning (QML), however, the literature on ansatzes that are motivated by the training data structure is scarce. In this work, we introduce an ansatz for learning tasks on weighted graphs that respects an important graph symmetry, namely equivariance under node permutations. We evaluate the performance of this ansatz on a complex learning task, namely neural combinatorial optimization, where a machine learning model is used to learn a heuristic for a combinatorial optimization problem. We analytically and numerically study the performance of our model, and our results strengthen the notion that symmetry-preserving ansatzes are a key to success in QML.
翻訳日:2023-04-26 00:24:49 公開日:2023-04-24
# 連続時間におけるq-learning

q-Learning in Continuous Time ( http://arxiv.org/abs/2207.00713v3 )

ライセンス: Link先を確認
Yanwei Jia and Xun Yu Zhou(参考訳) wang et al. (2020) によって導入されたエントロピー正規化探索拡散過程定式化の下での強化学習(rl)のためのq-learningの連続時間対応について検討した。 従来の(大きな)q-関数は連続時間に崩壊するので、その一階近似を考え、``(little) q-関数という用語をつくりだす。この関数は、ハミルトニアンと同様に瞬時有利率関数と関係している。我々は、時間離散化とは無関係なq-函数の「q-ラーニング」理論を展開する。 確率的政策が与えられた場合、ある確率的過程のマーチンゲール条件によって関連するq-関数と値関数を、オン・ポリティクスとオフ・ポリティクスの両方で共同で特徴付ける。 次に, q関数から生成するギブス測度の密度関数を明示的に計算できるか否かに応じて, 基礎となるrl問題を解決するための異なるアクター-批判アルゴリズムを考案する理論を適用する。 我々のアルゴリズムの1つは、よく知られたQ-ラーニングアルゴリズムSARSAを解釈し、もう1つは、Jia と Zhou (2022b) で提案されたポリシー勾配に基づく連続時間アルゴリズムを復元する。 最後に,Jia と Zhou (2022b) の PG に基づくアルゴリズムと,従来のQ-ラーニングアルゴリズムを時間差で比較するシミュレーション実験を行った。

We study the continuous-time counterpart of Q-learning for reinforcement learning (RL) under the entropy-regularized, exploratory diffusion process formulation introduced by Wang et al. (2020). As the conventional (big) Q-function collapses in continuous time, we consider its first-order approximation and coin the term ``(little) q-function". This function is related to the instantaneous advantage rate function as well as the Hamiltonian. We develop a ``q-learning" theory around the q-function that is independent of time discretization. Given a stochastic policy, we jointly characterize the associated q-function and value function by martingale conditions of certain stochastic processes, in both on-policy and off-policy settings. We then apply the theory to devise different actor-critic algorithms for solving underlying RL problems, depending on whether or not the density function of the Gibbs measure generated from the q-function can be computed explicitly. One of our algorithms interprets the well-known Q-learning algorithm SARSA, and another recovers a policy gradient (PG) based continuous-time algorithm proposed in Jia and Zhou (2022b). Finally, we conduct simulation experiments to compare the performance of our algorithms with those of PG-based algorithms in Jia and Zhou (2022b) and time-discretized conventional Q-learning algorithms.
翻訳日:2023-04-26 00:17:46 公開日:2023-04-24
# AIシステムの設計・開発における認知アーキテクチャによるアンチブラックネスの検討

Using a Cognitive Architecture to consider antiblackness in design and development of AI systems ( http://arxiv.org/abs/2207.00644v2 )

ライセンス: Link先を確認
Christopher L. Dancy(参考訳) 認知モデリングを使って、アンチブラックネスや人種差別がaiシステムの設計と開発にどのように影響するかを考えることができるだろうか? 私たちはこの質問に対する回答に向けた議論と例を提示します。 ACT-R/{\Phi}認知アーキテクチャと既存の知識グラフシステムであるConceptNetを用いて、認知的・社会文化的観点からだけでなく、生理学的観点からもこの問題を考察する。 認知モデリングをaiシステム(特にソフトウェア工学の観点から)の設計と開発においてアンチブラックネスがどのように現れるかを調べる手段として用いることに加えて、アンチブラックネス、人間、計算認知モデリングの関連も導入する。 認知アーキテクチャや認知モデリングにおける社会文化的プロセスや知識構造の典型的な展開は、認知モデリングに対するカラーブレンドアプローチを暗黙的に促進し、人間の行動に常に存在し認知プロセスに影響を与える社会文化的コンテキストを隠蔽する。

How might we use cognitive modeling to consider the ways in which antiblackness, and racism more broadly, impact the design and development of AI systems? We provide a discussion and an example towards an answer to this question. We use the ACT-R/{\Phi} cognitive architecture and an existing knowledge graph system, ConceptNet, to consider this question not only from a cognitive and sociocultural perspective, but also from a physiological perspective. In addition to using a cognitive modeling as a means to explore how antiblackness may manifest in the design and development of AI systems (particularly from a software engineering perspective), we also introduce connections between antiblackness, the Human, and computational cognitive modeling. We argue that the typical eschewing of sociocultural processes and knowledge structures in cognitive architectures and cognitive modeling implicitly furthers a colorblind approach to cognitive modeling and hides sociocultural context that is always present in human behavior and affects cognitive processes.
翻訳日:2023-04-26 00:17:18 公開日:2023-04-24
# 凸低レベル問題を用いた単純二値最適化のための条件勾配法

A Conditional Gradient-based Method for Simple Bilevel Optimization with Convex Lower-level Problem ( http://arxiv.org/abs/2206.08868v3 )

ライセンス: Link先を確認
Ruichen Jiang, Nazanin Abolfazli, Aryan Mokhtari, Erfan Yazdandoost Hamedani(参考訳) 本稿では,他の凸制約最適化問題の最適解集合上の滑らかな目的関数を最小化する,単純二値最適化(Simple bilevel optimization)のクラスについて検討する。 この問題に対処するための反復的な手法がいくつか開発されている。 残念なことに、それらの収束保証は上層目標に対して漸近的であるか、収束率が遅く、準最適である。 この問題に対処するため,本稿では,下層問題の解集合を切削面を介して局所的に近似し,条件付き勾配更新を実行して上層目標を減少させる,新しい二層最適化手法を提案する。 上層目標が凸である場合、上層目標に対して$\epsilon_f$-optimal、下層目標に対して$\epsilon_g$-optimalの解を見つけるためには${\mathcal{O}}(\max\{1/\epsilon_f,1/\epsilon_g\})$反復が必要である。 さらに、上層目標が非凸である場合、我々の方法は${\mathcal{O}}(\max\{1/\epsilon_f^2,1/(\epsilon_f\epsilon_g)\})$の反復を必要とする。 また、低レベル問題に対するh\"olderian error bound assumptionの下でのより強い収束保証も証明する。 我々の知識を最大限に活用するために,本手法は二段階問題のクラスにおいて最もよく知られた反復複雑性を実現する。

In this paper, we study a class of bilevel optimization problems, also known as simple bilevel optimization, where we minimize a smooth objective function over the optimal solution set of another convex constrained optimization problem. Several iterative methods have been developed for tackling this class of problems. Alas, their convergence guarantees are either asymptotic for the upper-level objective, or the convergence rates are slow and sub-optimal. To address this issue, in this paper, we introduce a novel bilevel optimization method that locally approximates the solution set of the lower-level problem via a cutting plane, and then runs a conditional gradient update to decrease the upper-level objective. When the upper-level objective is convex, we show that our method requires ${\mathcal{O}}(\max\{1/\epsilon_f,1/\epsilon_g\})$ iterations to find a solution that is $\epsilon_f$-optimal for the upper-level objective and $\epsilon_g$-optimal for the lower-level objective. Moreover, when the upper-level objective is non-convex, our method requires ${\mathcal{O}}(\max\{1/\epsilon_f^2,1/(\epsilon_f\epsilon_g)\})$ iterations to find an $(\epsilon_f,\epsilon_g)$-optimal solution. We also prove stronger convergence guarantees under the H\"olderian error bound assumption on the lower-level problem. To the best of our knowledge, our method achieves the best-known iteration complexity for the considered class of bilevel problems.
翻訳日:2023-04-26 00:15:53 公開日:2023-04-24
# acmp:素粒子相転移を有するグラフニューラルネットワークのためのアレン-カーンメッセージパッシング

ACMP: Allen-Cahn Message Passing for Graph Neural Networks with Particle Phase Transition ( http://arxiv.org/abs/2206.05437v3 )

ライセンス: Link先を確認
Yuelin Wang, Kai Yi, Xinliang Liu, Yu Guang Wang, Shi Jin(参考訳) ニューラルメッセージパッシングは、ある層から次の層へのネットワーク伝搬における隣接ノードの特徴を考慮したグラフ構造化データの基本的特徴抽出ユニットである。 相転移のモデル化において生じるアレン・カーン力と引力を有する相互作用粒子系を用いて, この過程をモデル化する。 系のダイナミクスは反応拡散過程であり、吹き飛ばすことなく粒子を分離できる。 これにより、粒子系解の数値イテレーションがメッセージパッシング伝搬を構成するグラフニューラルネットワークのアレン・カーンメッセージパッシング(ACMP)が誘導される。 ニューラルODEソルバによる単純な実装を持つACMPは、理論上はディリクレエネルギーの厳密に正の低い境界を持つ100層までのネットワーク深さを伝搬することができる。 これにより、GNNのオーバースムーシング問題を回避するための深いモデルを提供する。 ACMPを持つGNNは、同好的および異好的なデータセット上の実世界のノード分類タスクにおける技術性能の状態を達成している。

Neural message passing is a basic feature extraction unit for graph-structured data considering neighboring node features in network propagation from one layer to the next. We model such process by an interacting particle system with attractive and repulsive forces and the Allen-Cahn force arising in the modeling of phase transition. The dynamics of the system is a reaction-diffusion process which can separate particles without blowing up. This induces an Allen-Cahn message passing (ACMP) for graph neural networks where the numerical iteration for the particle system solution constitutes the message passing propagation. ACMP which has a simple implementation with a neural ODE solver can propel the network depth up to one hundred of layers with theoretically proven strictly positive lower bound of the Dirichlet energy. It thus provides a deep model of GNNs circumventing the common GNN problem of oversmoothing. GNNs with ACMP achieve state of the art performance for real-world node classification tasks on both homophilic and heterophilic datasets.
翻訳日:2023-04-26 00:14:53 公開日:2023-04-24
# ランダム信号の線形推定のための識別学習と生成学習 [講義ノート]

Discriminative and Generative Learning for Linear Estimation of Random Signals [Lecture Notes] ( http://arxiv.org/abs/2206.04432v2 )

ライセンス: Link先を確認
Nir Shlezinger and Tirza Routtenberg(参考訳) 信号処理における推論タスクは、しばしばインスタンス固有のパラメータが欠けている信頼できる統計モデルが利用可能であることによって特徴づけられる。 従来のアプローチでは、データを使用してこれらの欠落パラメータを推定し、推定モデルに基づいて推論する。 あるいは、データを活用して、エンドツーエンドの推論マッピングを直接学習することもできる。 部分的に知られた統計モデルと推論データを組み合わせるこれらのアプローチは、機械学習文学で使用される生成的および識別的モデルの概念(典型的には分類器の文脈で考慮される)に関連している。 この講義の目的は、部分的に知られている統計モデルを用いて推論のための生成的および判別的学習の概念を導入することである。 機械学習システムは、従来の信号処理手法の解釈可能性に欠けることが多いが、我々は、信号処理の読者にとってアクセシブルな方法で、アプローチを解釈し比較できる簡単な設定に焦点を当てている。 特に,平均二乗誤差(mse)目標,すなわち線形推定設定を併用したガウス環境におけるベイズ信号推定の課題に対するアプローチを例示する。

Inference tasks in signal processing are often characterized by the availability of reliable statistical modeling with some missing instance-specific parameters. One conventional approach uses data to estimate these missing parameters and then infers based on the estimated model. Alternatively, data can also be leveraged to directly learn the inference mapping end-to-end. These approaches for combining partially-known statistical models and data in inference are related to the notions of generative and discriminative models used in the machine learning literature, typically considered in the context of classifiers. The goal of this lecture note is to introduce the concepts of generative and discriminative learning for inference with a partially-known statistical model. While machine learning systems often lack the interpretability of traditional signal processing methods, we focus on a simple setting where one can interpret and compare the approaches in a tractable manner that is accessible and relevant to signal processing readers. In particular, we exemplify the approaches for the task of Bayesian signal estimation in a jointly Gaussian setting with the mean-squared error (MSE) objective, i.e., a linear estimation setting.
翻訳日:2023-04-26 00:14:36 公開日:2023-04-24
# Kupczynski の文脈局所因果確率モデルはベルの定理によって制約される

Kupczynski's Contextual Locally Causal Probabilistic Models are constrained by Bell's theorem ( http://arxiv.org/abs/2208.09930v6 )

ライセンス: Link先を確認
Richard D. Gill and Justo Pastor Lambare(参考訳) マリアン・クプシンスキーは一連の論文で、ベルの定理は測定器を記述する文脈的設定依存パラメータを正しく考慮すれば回避できると主張した。 これは事実ではないことを示す。 初期の出現にもかかわらず、クプシンキの文脈的局所因果確率モデルの概念は数学的にはベル局所隠れ変数モデルの特別な場合である。 したがって、たとえ彼が提案した方法で文脈性を考慮するとしても、ベル-CHSHの不等式は導出可能である。 量子力学と局所実在論(クプチンスキーの主張による概念の拡大を含む)は互いに相容れない。 さらなる検査の結果、クプチンスキーは実際に検出の抜け穴に落ちていることがわかった。 2015年以降、ベル・チェシュの不等式に違反する多くの抜け穴のない実験が行われており、そのような実験の他の不完全さにもかかわらず、クプチンスキーの局所実在論への脱出ルートは入手できない。

In a sequence of papers, Marian Kupczynski has argued that Bell's theorem can be circumvented if one takes correct account of contextual setting-dependent parameters describing measuring instruments. We show that this is not true. Despite first appearances, Kupczynksi's concept of a contextual locally causal probabilistic model is mathematically a special case of a Bell local hidden variables model. Thus, even if one takes account of contextuality in the way he suggests, the Bell-CHSH inequality can still be derived. Violation thereof by quantum mechanics cannot be easily explained away: quantum mechanics and local realism (including Kupczynski's claimed enlargement of the concept) are not compatible with one another. Further inspection shows that Kupczynski is actually falling back on the detection loophole. Since 2015, numerous loophole-free experiments have been performed, in which the Bell-CHSH inequality is violated, so despite any other possible imperfections of such experiments, Kupczynski's escape route for local realism is not available
翻訳日:2023-04-26 00:07:39 公開日:2023-04-24
# GraphCFC:マルチモーダル会話感情認識のための直接グラフに基づくクロスモーダル特徴補完手法

GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition ( http://arxiv.org/abs/2207.12261v3 )

ライセンス: Link先を確認
Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng(参考訳) Emotion Recognition in Conversation (ERC) は人間とコンピュータのインタラクション(HCI)システムにおいて重要な役割を果たす。 マルチモーダルERCはユニモーダルアプローチの欠点を軽減することができる。 近年、グラフニューラルネットワーク(GNN)は、関係モデリングにおける優れた性能のため、様々な分野で広く利用されている。 マルチモーダルERCでは、GNNは長距離コンテキスト情報とモーダル間対話情報の両方を抽出することができる。 残念なことに、MMGCNのような既存のメソッドが直接複数のモダリティを融合するため、冗長な情報が生成され、多様な情報が失われる可能性がある。 本稿では,コンテキスト情報やインタラクティブな情報を効率的にモデル化できる有向グラフ型クロスモーダル機能補完(graphcfc)モジュールを提案する。 graphcfcは、複数の部分空間抽出器とペアワイズクロスモーダル補完(paircc)戦略を利用して、マルチモーダル融合における異種ギャップの問題を緩和する。 構築したグラフから様々なエッジを抽出してエンコードすることで、gnnがメッセージパッシングを行う際に重要な文脈的およびインタラクティブな情報をより正確に抽出することができる。 さらに,GAT-MLPと呼ばれるGNN構造を設計し,マルチモーダル学習のための新しいネットワークフレームワークを提供する。 2つのベンチマークデータセットの実験結果は、GraphCFCが最先端(SOTA)アプローチより優れていることを示している。

Emotion Recognition in Conversation (ERC) plays a significant part in Human-Computer Interaction (HCI) systems since it can provide empathetic services. Multimodal ERC can mitigate the drawbacks of uni-modal approaches. Recently, Graph Neural Networks (GNNs) have been widely used in a variety of fields due to their superior performance in relation modeling. In multimodal ERC, GNNs are capable of extracting both long-distance contextual information and inter-modal interactive information. Unfortunately, since existing methods such as MMGCN directly fuse multiple modalities, redundant information may be generated and diverse information may be lost. In this work, we present a directed Graph based Cross-modal Feature Complementation (GraphCFC) module that can efficiently model contextual and interactive information. GraphCFC alleviates the problem of heterogeneity gap in multimodal fusion by utilizing multiple subspace extractors and Pair-wise Cross-modal Complementary (PairCC) strategy. We extract various types of edges from the constructed graph for encoding, thus enabling GNNs to extract crucial contextual and interactive information more accurately when performing message passing. Furthermore, we design a GNN structure called GAT-MLP, which can provide a new unified network framework for multimodal learning. The experimental results on two benchmark datasets show that our GraphCFC outperforms the state-of-the-art (SOTA) approaches.
翻訳日:2023-04-26 00:07:01 公開日:2023-04-24
# 1つのRydberg原子によってスイッチングされるサブ波長原子配列

A subwavelength atomic array switched by a single Rydberg atom ( http://arxiv.org/abs/2207.09383v2 )

ライセンス: Link先を確認
Kritsana Srakaew, Pascal Weckesser, Simon Hollerith, David Wei, Daniel Adler, Immanuel Bloch, Johannes Zeiher(参考訳) 単一量子のレベルでの光・物質結合の強化は、量子科学における多くの応用に不可欠である。 サブ波長原子配列の協調光学応答は、光場の複数の空間モードへのアクセスを同時に提供しながら、そのような強い光-物質結合のための新しい経路を開くことが判明した。 このようなアレイへの効率的な単一モード自由空間結合が報告されているが、出射光場のモードに対する空間制御はいまだ解明されていない。 ここでは、リドベルク状態に励起された単一制御アンシラ原子を用いて、自由空間における原子のサブ波長配列によって形成される原子的に薄いミラーの光学応答に対するそのような空間的制御を示す。 スイッチング挙動は、小さなリドベルク分画の原子鏡への混合によって制御され、その結果、アンシラとの強い双極子リドベルク相互作用が引き起こされる。 ラビ振動をancilla原子上で駆動することにより,アレーの透過と反射のコヒーレント制御を実証する。 これらの結果は、量子コヒーレントな準曲面の実現、制御された原子-光子エンタングルメントの実証、および光の量子状態の決定論的工学への一歩である。

Enhancing light-matter coupling at the level of single quanta is essential for numerous applications in quantum science. The cooperative optical response of subwavelength atomic arrays has been found to open new pathways for such strong light-matter couplings, while simultaneously offering access to multiple spatial modes of the light field. Efficient single-mode free-space coupling to such arrays has been reported, but the spatial control over the modes of outgoing light fields has remained elusive. Here, we demonstrate such spatial control over the optical response of an atomically thin mirror formed by a subwavelength array of atoms in free space using a single controlled ancilla atom excited to a Rydberg state. The switching behavior is controlled by the admixture of a small Rydberg fraction to the atomic mirror, and consequently strong dipolar Rydberg interactions with the ancilla. Driving Rabi oscillations on the ancilla atom, we demonstrate coherent control of the transmission and reflection of the array. These results represent a step towards the realization of quantum coherent metasurfaces, the demonstration of controlled atom-photon entanglement and deterministic engineering of quantum states of light.
翻訳日:2023-04-26 00:06:21 公開日:2023-04-24
# コンパイラ表現によるコード翻訳

Code Translation with Compiler Representations ( http://arxiv.org/abs/2207.03578v5 )

ライセンス: Link先を確認
Marc Szafraniec, Baptiste Roziere, Hugh Leather, Francois Charton, Patrick Labatut, Gabriel Synnaeve(参考訳) 本稿では、低レベルコンパイラ中間表現(IR)を利用してコード翻訳を改善する。 従来のトランスパイラは構文情報と手作りのルールに依存しており、適用性が制限され、不自然なコードを生成する。 コードへのニューラルマシン翻訳(NMT)アプローチの適用は、自然な翻訳を得られる一連のプログラムをうまく拡張した。 しかし、彼らはコードをテキストトークンのシーケンスとして扱い、異なる言語で異なる意味を持つ類似のコードと十分に区別できない。 その結果、低品質翻訳が実現され、NMTの実用性が低下し、その精度を大幅に向上させるアプローチの必要性が強調された。 ここでは、C++、Java、Rust、Go言語に関する結果とともに、IR、特にLLVM IRによるコード翻訳を強化することを提案する。 我々の手法は教師なしのコード翻訳技術の現状を改善し、平均して11%の正しい翻訳数が増加し、Java -> Rust ペアのgreedyデコーディングが 79% になった。 数百のGoとRust関数を追加することで、コード翻訳の以前のテストセットを拡張しました。 さらに、IR復号化問題、IRからのプログラミングソースコードの生成、IRを中間ピボットとして用いた研究等において、高い性能のモデルを訓練する。

In this paper, we leverage low-level compiler intermediate representations (IR) to improve code translation. Traditional transpilers rely on syntactic information and handcrafted rules, which limits their applicability and produces unnatural-looking code. Applying neural machine translation (NMT) approaches to code has successfully broadened the set of programs on which one can get a natural-looking translation. However, they treat the code as sequences of text tokens, and still do not differentiate well enough between similar pieces of code which have different semantics in different languages. The consequence is low quality translation, reducing the practicality of NMT, and stressing the need for an approach significantly increasing its accuracy. Here we propose to augment code translation with IRs, specifically LLVM IR, with results on the C++, Java, Rust, and Go languages. Our method improves upon the state of the art for unsupervised code translation, increasing the number of correct translations by 11% on average, and up to 79% for the Java -> Rust pair with greedy decoding. We extend previous test sets for code translation, by adding hundreds of Go and Rust functions. Additionally, we train models with high performance on the problem of IR decompilation, generating programming source code from IR, and study using IRs as intermediary pivot for translation.
翻訳日:2023-04-26 00:05:26 公開日:2023-04-24
# ディープラーニング学習のためのGPU上のコロケーションの解析

An Analysis of Collocation on GPUs for Deep Learning Training ( http://arxiv.org/abs/2209.06018v3 )

ライセンス: Link先を確認
Ties Robroek, Ehsan Yousefzadeh-Asl-Miandoab, P{\i}nar T\"oz\"un(参考訳) ディープラーニングトレーニングはGPUを多用する高価なプロセスだが、すべてのモデルトレーニングが最新の強力なGPUを飽和させるわけではない。 マルチインスタンスGPU(MIG)は、NVIDIAが導入した新しい技術で、完全なGPUのメモリと計算リソースをすべて必要としない、優れたワークロードにGPUを分割することができる。 本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。 我々は、MIGの利点をGPU上の古いワークロードのコロケーション手法と対比する:na\\ 強制的に同じGPU上に複数のプロセスを送信し、MPS(Multi-Process Service)を利用する。 以上の結果から,複数のモデルトレーニング実行のコロケーションが大きなメリットをもたらす可能性が示唆された。 あるケースでは、エポック時間の増加にもかかわらず、トレーニングスループットを最大4倍にすることができる。 一方、並列にトレーニングされたモデルの総メモリフットプリントと計算ニーズは、GPUの利用可能なメモリと計算リソースに適合する必要がある。 MIGは干渉のないパーティショニング、特にモデルのサイズがMIGパーティショニングオプションと一致した場合に有効である。 しかしながら、migの厳格なパーティショニングは、よりダイナミックな混合ワークロードに最適化されたgpu利用をもたらす可能性がある。 一般に,1人のユーザがトレーニングジョブを提出するモデルトレーニングにおいて,MPSを最高のパフォーマンスで柔軟なコロケーションとして推奨する。

Deep learning training is an expensive process that extensively uses GPUs, but not all model training saturates modern powerful GPUs. Multi-Instance GPU (MIG) is a new technology introduced by NVIDIA that can partition a GPU to better-fit workloads that do not require all the memory and compute resources of a full GPU. In this paper, we examine the performance of a MIG-enabled A100 GPU under deep learning workloads containing various sizes and combinations of models. We contrast the benefits of MIG to older workload collocation methods on GPUs: na\"ively submitting multiple processes on the same GPU and utilizing Multi-Process Service (MPS). Our results demonstrate that collocating multiple model training runs may yield significant benefits. In certain cases, it can lead up to four times training throughput despite increased epoch time. On the other hand, the aggregate memory footprint and compute needs of the models trained in parallel must fit the available memory and compute resources of the GPU. MIG can be beneficial thanks to its interference-free partitioning, especially when the sizes of the models align with the MIG partitioning options. MIG's rigid partitioning, however, may create sub-optimal GPU utilization for more dynamic mixed workloads. In general, we recommend MPS as the best performing and most flexible form of collocation for model training for a single user submitting training jobs.
翻訳日:2023-04-25 23:58:31 公開日:2023-04-24
# mm-pcqa:クラウド品質評価のためのマルチモーダル学習

MM-PCQA: Multi-Modal Learning for No-reference Point Cloud Quality Assessment ( http://arxiv.org/abs/2209.00244v2 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Xiongkuo Min, Quan Zhou, Jun He, Qiyuan Wang, and Guangtao Zhai(参考訳) ポイントクラウドの視覚的品質は、ますます増加する3Dビジョンアプリケーションが、ユーザにとってコスト効率と高品質なエクスペリエンスを提供すると予想されて以来、大幅に強調されてきた。 ポイントクラウド品質評価法(PCQA)の開発を振り返ると、視覚的品質は通常、単一のモーダル情報、すなわち2Dプロジェクションから抽出されるか、3Dポイントクラウドを用いて評価される。 2Dプロジェクションは豊かなテクスチャとセマンティック情報を含んでいるが、3Dポイントの雲は幾何学的歪みに敏感であり、視点に不変である。 そこで我々は,点雲と投影画像モダリティの両方の利点を活用するために,マルチモーダル方式で新しい非参照点雲質評価(NR-PCQA)指標を提案する。 具体的には、点雲を部分モデルに分割し、点シフトやダウンサンプリングのような局所的な幾何学的歪みを表す。 次に、点雲を2次元画像投影に描画してテクスチャ特徴抽出を行う。 目標を達成するために、サブモデルと投影された画像は、ポイントベースおよびイメージベースニューラルネットワークで符号化される。 最後に,マルチモーダル品質認識情報を融合するために対称的なクロスモーダル注意が用いられる。 実験の結果,提案手法は従来のNR-PCQA法よりもはるかに優れており,提案手法の有効性が示された。 コードはhttps://github.com/zzc-1998/MM-PCQAで公開されている。

The visual quality of point clouds has been greatly emphasized since the ever-increasing 3D vision applications are expected to provide cost-effective and high-quality experiences for users. Looking back on the development of point cloud quality assessment (PCQA) methods, the visual quality is usually evaluated by utilizing single-modal information, i.e., either extracted from the 2D projections or 3D point cloud. The 2D projections contain rich texture and semantic information but are highly dependent on viewpoints, while the 3D point clouds are more sensitive to geometry distortions and invariant to viewpoints. Therefore, to leverage the advantages of both point cloud and projected image modalities, we propose a novel no-reference point cloud quality assessment (NR-PCQA) metric in a multi-modal fashion. In specific, we split the point clouds into sub-models to represent local geometry distortions such as point shift and down-sampling. Then we render the point clouds into 2D image projections for texture feature extraction. To achieve the goals, the sub-models and projected images are encoded with point-based and image-based neural networks. Finally, symmetric cross-modal attention is employed to fuse multi-modal quality-aware information. Experimental results show that our approach outperforms all compared state-of-the-art methods and is far ahead of previous NR-PCQA methods, which highlights the effectiveness of the proposed method. The code is available at https://github.com/zzc-1998/MM-PCQA.
翻訳日:2023-04-25 23:57:23 公開日:2023-04-24
# タスク固有の概念知識をスクリプト学習に組み込む

Incorporating Task-specific Concept Knowledge into Script Learning ( http://arxiv.org/abs/2209.00068v3 )

ライセンス: Link先を確認
Chenkai Sun, Tie Xu, ChengXiang Zhai, Heng Ji(参考訳) 本稿では,Goal-Oriented Script Completionの新しいタスクであるTetrisを紹介する。 以前の作業とは異なり、よりリアルで一般的な設定であり、入力には目標だけでなく、好みや履歴を含む追加のユーザコンテキストが含まれる。 この問題に対処するために,本研究では,(1) 概念の促進と(2) 段階反復と幻覚の問題に対処するスクリプト指向のコントラスト学習という,2つの手法を用いた新しい手法を提案する。 WikiHowベースのデータセットでは、どちらの手法もパフォーマンスを改善している。 データセット、リポジトリ、モデルが公開され、この新しいタスクに関するさらなる研究が促進される。

In this paper, we present Tetris, a new task of Goal-Oriented Script Completion. Unlike previous work, it considers a more realistic and general setting, where the input includes not only the goal but also additional user context, including preferences and history. To address this problem, we propose a novel approach, which uses two techniques to improve performance: (1) concept prompting, and (2) script-oriented contrastive learning that addresses step repetition and hallucination problems. On our WikiHow-based dataset, we find that both methods improve performance. The dataset, repository, and models will be publicly available to facilitate further research on this new task.
翻訳日:2023-04-25 23:56:57 公開日:2023-04-24
# LANIT: ラベルなしデータのための言語駆動型画像変換

LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data ( http://arxiv.org/abs/2208.14889v4 )

ライセンス: Link先を確認
Jihye Park, Sunwoo Kim, Soohyun Kim, Seokju Cho, Jaejun Yoo, Youngjung Uh, Seungryong Kim(参考訳) 既存の画像から画像への翻訳技術は、サンプル単位のドメインアノテーションへの依存度と、画像ごとに複数の属性を扱うことができないという2つの重大な問題に悩まされている。 最近の真に教師のない手法は、サンプル単位のワンホットドメインラベルを容易に提供するためのクラスタリングアプローチを採用している。 しかし、それらは現実世界の設定を説明できない:あるサンプルは複数の属性を持つかもしれない。 加えて、クラスタのセマンティクスは人間の理解と簡単には結合されない。 これらを克服するために、LANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。 画像と属性の類似性は、サンプル毎のドメインラベルを示しています。 この定式化は自然にマルチホットラベルを可能にするので、ユーザは言語内の属性のセットでターゲットドメインを指定することができる。 初期プロンプトが不正確である場合を考慮して,プロンプト学習も提示する。 さらに,翻訳画像の対応領域へのマッピングを強制する領域正規化損失についても述べる。 いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。

Existing techniques for image-to-image translation commonly have suffered from two critical problems: heavy reliance on per-sample domain annotation and/or inability of handling multiple attributes per image. Recent truly-unsupervised methods adopt clustering approaches to easily provide per-sample one-hot domain labels. However, they cannot account for the real-world setting: one sample may have multiple attributes. In addition, the semantics of the clusters are not easily coupled to the human understanding. To overcome these, we present a LANguage-driven Image-to-image Translation model, dubbed LANIT. We leverage easy-to-obtain candidate attributes given in texts for a dataset: the similarity between images and attributes indicates per-sample domain labels. This formulation naturally enables multi-hot label so that users can specify the target domain with a set of attributes in language. To account for the case that the initial prompts are inaccurate, we also present prompt learning. We further present domain regularization loss that enforces translated images be mapped to the corresponding domain. Experiments on several standard benchmarks demonstrate that LANIT achieves comparable or superior performance to existing models.
翻訳日:2023-04-25 23:56:45 公開日:2023-04-24
# 深層シンボリックラーニング : 認識からシンボルとルールを発見する

Deep Symbolic Learning: Discovering Symbols and Rules from Perceptions ( http://arxiv.org/abs/2208.11561v2 )

ライセンス: Link先を確認
Alessandro Daniele and Tommaso Campari and Sagar Malhotra and Luciano Serafini(参考訳) Neuro-Symbolic(NeSy)統合は、認識と推論を必要とするタスクに対して、シンボリック推論とニューラルネットワーク(NN)を組み合わせる。 多くのNeSyシステムは論理的知識の継続的な緩和に依存しており、モデルパイプライン内で決定的な決定は行われない。 さらに、これらの方法は象徴的な規則が与えられると仮定する。 本稿では,連続データを離散記号にマッピングする(一連の)知覚関数と記号集合上の記号関数の組み合わせを学習するnesyシステムであるdeep symbolic learning (dsl)を提案する。 DSLは、その構成(NeSy-function)に基づいてのみ訓練されながら、知覚と記号関数を同時に学習する。 DSLの目新しいところは、内部(解釈可能な)シンボル表現を作成し、異なるNN学習パイプライン内の知覚入力にマッピングできることです。 生成されたシンボルは自動的に選択され、データを最もよく説明するシンボル関数を生成する。 本稿では,認識と記号関数の同時学習におけるDSLの有効性を実証する実験分析を行う。

Neuro-Symbolic (NeSy) integration combines symbolic reasoning with Neural Networks (NNs) for tasks requiring perception and reasoning. Most NeSy systems rely on continuous relaxation of logical knowledge, and no discrete decisions are made within the model pipeline. Furthermore, these methods assume that the symbolic rules are given. In this paper, we propose Deep Symbolic Learning (DSL), a NeSy system that learns NeSy-functions, i.e., the composition of a (set of) perception functions which map continuous data to discrete symbols, and a symbolic function over the set of symbols. DSL learns simultaneously the perception and symbolic functions while being trained only on their composition (NeSy-function). The key novelty of DSL is that it can create internal (interpretable) symbolic representations and map them to perception inputs within a differentiable NN learning pipeline. The created symbols are automatically selected to generate symbolic functions that best explain the data. We provide experimental analysis to substantiate the efficacy of DSL in simultaneously learning perception and symbolic functions.
翻訳日:2023-04-25 23:56:13 公開日:2023-04-24
# 検索に基づく制御可能な分子生成

Retrieval-based Controllable Molecule Generation ( http://arxiv.org/abs/2208.11126v3 )

ライセンス: Link先を確認
Zichao Wang, Weili Nie, Zhuoran Qiao, Chaowei Xiao, Richard Baraniuk, Anima Anandkumar(参考訳) 生成モデルによる特定の化学的および生物学的性質を持つ新規分子の生成は、薬物発見の有望な方向として現れている。 しかし、既存の手法では大規模なデータセットで広範なトレーニング/微調整が必要で、実世界の生成タスクでは利用できないことが多い。 本研究では,制御可能な分子生成のための新しい検索ベースフレームワークを提案する。 設計基準を満たす分子の小さな集合、すなわち(部分的に)設計基準を満たす分子を用いて、与えられた設計基準を満たす分子の合成に向けて事前訓練された生成モデルを操る。 入力分子を抽出・融合する検索機構を設計し, 入力分子に最も近い近傍を予測できる新たな自己制御的目的によって訓練する。 また, 生成分子と検索データベースを動的に更新し, さらなる一般化を実現するための反復的改良プロセスを提案する。 提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。 簡単な設計基準からSARS-CoV-2主プロテアーゼに結合する鉛化合物を設計するための挑戦的な現実シナリオまで、様々なタスクにおいて、本手法は検索データベースをはるかに超越し、従来の手法よりも優れた性能と適用性を実現する。 コードはhttps://github.com/NVlabs/RetMol.comで入手できる。

Generating new molecules with specified chemical and biological properties via generative models has emerged as a promising direction for drug discovery. However, existing methods require extensive training/fine-tuning with a large dataset, often unavailable in real-world generation tasks. In this work, we propose a new retrieval-based framework for controllable molecule generation. We use a small set of exemplar molecules, i.e., those that (partially) satisfy the design criteria, to steer the pre-trained generative model towards synthesizing molecules that satisfy the given design criteria. We design a retrieval mechanism that retrieves and fuses the exemplar molecules with the input molecule, which is trained by a new self-supervised objective that predicts the nearest neighbor of the input molecule. We also propose an iterative refinement process to dynamically update the generated molecules and retrieval database for better generalization. Our approach is agnostic to the choice of generative models and requires no task-specific fine-tuning. On various tasks ranging from simple design criteria to a challenging real-world scenario for designing lead compounds that bind to the SARS-CoV-2 main protease, we demonstrate our approach extrapolates well beyond the retrieval database, and achieves better performance and wider applicability than previous methods. Code is available at https://github.com/NVlabs/RetMol.
翻訳日:2023-04-25 23:55:39 公開日:2023-04-24
# 画像キャプションのための視覚言語ニューラルモジュールのコロケーション学習

Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning ( http://arxiv.org/abs/2210.01338v2 )

ライセンス: Link先を確認
Xu Yang and Hanwang Zhang and Chongyang Gao and Jianfei Cai(参考訳) 人間は、文章を \textsc{sth do sth at someplace} のような異なる部分に分解し、各部分を特定の内容で満たす傾向がある。 これに触発されて、我々は新しい画像キャプションを提案するために \textit{principle of modular design} に従う: 視覚言語的ニューラルモジュール(cvlnm)のコロケーションを学ぶ。 言語 (\ie, question) が完全に可観測である vqa の \re{widely used} ニューラルモジュールネットワークとは異なり、\re{the task of collocating visual-linguistic modules はより困難である。 これは、画像キャプションのプロセス中にモジュールを動的にコロケーションする必要があるため、言語が部分的に可観測性があるためです。 まとめると、CVLNMの設計と訓練に以下の技術貢献をする。 1) \textit{distinguishable module design} -- \re{four modules in the encoder} 関数語のための1つの言語モジュールと、異なるコンテンツ語(\ie、名詞、形容詞、動詞)のための3つの視覚モジュールと、コモンセンス推論のためのデコーダ内の他の言語モジュールを含む。 2) 視覚的推論を堅牢化するための自己注意に基づく \textit{module controller} 3) CVLNMのトレーニングをさらに規則化するためにモジュールコントローラに課される部分音声ベースの‘textit{syntax loss’。 MS-COCOデータセットの大規模な実験によると、CVLNMはより効果的で、新しい最先端の129.5 CIDEr-Dを達成し、より堅牢で、データセットバイアスに過度に適合せず、トレーニングサンプルが少ない場合の苦痛も少なくなります。 コードは \url{https://github.com/GCYZSL/CVLMN} で入手できる。

Humans tend to decompose a sentence into different parts like \textsc{sth do sth at someplace} and then fill each part with certain content. Inspired by this, we follow the \textit{principle of modular design} to propose a novel image captioner: learning to Collocate Visual-Linguistic Neural Modules (CVLNM). Unlike the \re{widely used} neural module networks in VQA, where the language (\ie, question) is fully observable, \re{the task of collocating visual-linguistic modules is more challenging.} This is because the language is only partially observable, for which we need to dynamically collocate the modules during the process of image captioning. To sum up, we make the following technical contributions to design and train our CVLNM: 1) \textit{distinguishable module design} -- \re{four modules in the encoder} including one linguistic module for function words and three visual modules for different content words (\ie, noun, adjective, and verb) and another linguistic one in the decoder for commonsense reasoning, 2) a self-attention based \textit{module controller} for robustifying the visual reasoning, 3) a part-of-speech based \textit{syntax loss} imposed on the module controller for further regularizing the training of our CVLNM. Extensive experiments on the MS-COCO dataset show that our CVLNM is more effective, \eg, achieving a new state-of-the-art 129.5 CIDEr-D, and more robust, \eg, being less likely to overfit to dataset bias and suffering less when fewer training samples are available. Codes are available at \url{https://github.com/GCYZSL/CVLMN}
翻訳日:2023-04-25 23:48:05 公開日:2023-04-24
# PAC-Bayesによるスーパーマリンタレスによる重機損失の一般化

PAC-Bayes Generalisation Bounds for Heavy-Tailed Losses through Supermartingales ( http://arxiv.org/abs/2210.00928v2 )

ライセンス: Link先を確認
Maxime Haddouche and Benjamin Guedj(参考訳) PAC-Bayesは現在、軽傷の学習フレームワークとして確立されている(例えば、準ガウス的、亜専門的)が、重傷のケースへの拡張は、ほとんど達成されていないままであり、近年は関心が高まりつつある。 我々は,損失関数の有界分散を前提に,重み付き損失に対するPAC-Bayesの一般化に寄与する。 この仮定の下では、以前の結果を \citet{kuzborskij2019efron} から拡張する。 我々の重要な技術的貢献は、マルコフの不等式をスーパーマーチンガレットに利用することである。 我々の証明手法は,未限定のマルチンゲールに対する境界と,重み付き損失を伴うバッチおよびオンライン学習のための境界を提供することにより,様々なpac-ベイズフレームワークを統一し拡張する。

While PAC-Bayes is now an established learning framework for light-tailed losses (\emph{e.g.}, subgaussian or subexponential), its extension to the case of heavy-tailed losses remains largely uncharted and has attracted a growing interest in recent years. We contribute PAC-Bayes generalisation bounds for heavy-tailed losses under the sole assumption of bounded variance of the loss function. Under that assumption, we extend previous results from \citet{kuzborskij2019efron}. Our key technical contribution is exploiting an extention of Markov's inequality for supermartingales. Our proof technique unifies and extends different PAC-Bayesian frameworks by providing bounds for unbounded martingales as well as bounds for batch and online learning with heavy-tailed losses.
翻訳日:2023-04-25 23:47:23 公開日:2023-04-24
# EDA:3次元視覚グラウンドのためのテキストデカップリングとディエンスアライメント

EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding ( http://arxiv.org/abs/2209.14941v3 )

ライセンス: Link先を確認
Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, Jian Zhang(参考訳) 3dビジュアルグラウンドは、リッチな意味的手がかりを持つ自由形式の自然言語記述で言及されるポイントクラウド内でオブジェクトを見つけることを目的としている。 しかし、既存の方法では、すべての単語を結合する文レベルの特徴を抽出するか、オブジェクト名にもっと焦点を合わせるか、単語レベルの情報を失うか、他の属性を無視するかのいずれかである。 これらの問題を緩和するため,文中のテキスト属性を明示的に分離し,細粒度言語と点クラウドオブジェクト間のDense Alignmentを実行するEDAを提案する。 具体的には、まずテキストデカップリングモジュールを提案し、各セマンティックコンポーネントのテキスト機能を生成する。 次に、位置アライメント損失と意味アライメント損失の2つのモード間の密マッチングを監督する2つの損失を設計する。 さらに,オブジェクト名のないオブジェクトを探索し,モデルの密集したアライメントキャパシティを徹底的に評価する,新たなビジュアルグラウンドタスクも導入した。 実験により,ScanRefer と SR3D/NR3D の2つの広義の視覚的グラウンドデータセット上での最先端のパフォーマンスを実現し,新たに提案したタスクにおける絶対的リーダーシップを得る。 ソースコードはhttps://github.com/yanmin-wu/edaで入手できる。

3D visual grounding aims to find the object within point clouds mentioned by free-form natural language descriptions with rich semantic cues. However, existing methods either extract the sentence-level features coupling all words or focus more on object names, which would lose the word-level information or neglect other attributes. To alleviate these issues, we present EDA that Explicitly Decouples the textual attributes in a sentence and conducts Dense Alignment between such fine-grained language and point cloud objects. Specifically, we first propose a text decoupling module to produce textual features for every semantic component. Then, we design two losses to supervise the dense matching between two modalities: position alignment loss and semantic alignment loss. On top of that, we further introduce a new visual grounding task, locating objects without object names, which can thoroughly evaluate the model's dense alignment capacity. Through experiments, we achieve state-of-the-art performance on two widely-adopted 3D visual grounding datasets, ScanRefer and SR3D/NR3D, and obtain absolute leadership on our newly-proposed task. The source code is available at https://github.com/yanmin-wu/EDA.
翻訳日:2023-04-25 23:46:48 公開日:2023-04-24
# 正確なモビリティエッジとロバストフラットバンドを持つ2次元頂点装飾リーブ格子

Two dimensional vertex-decorated Lieb lattice with exact mobility edges and robust flat bands ( http://arxiv.org/abs/2209.14741v4 )

ライセンス: Link先を確認
Yucheng Wang, Long Zhang, Yuhao Wan, Yu He, and Yongjian Wang(参考訳) エネルギー分離と局所状態を示す移動端(ME)は、乱れや準周期ポテンシャルによって誘導される金属絶縁体遷移を理解するための中心概念である。 mesは3次元障害系と1次元準周期系で広く研究されている。 しかし、2次元(2D)系におけるMEの研究は稀である。 ここでは、(拡張)リーブ格子の頂点にのみ作用する準周期ポテンシャルを持つ2次元頂点装飾リーブ格子モデルのクラスを提案する。 これらのモデルを2D Aubry-Andr\'{e} モデルにマッピングすることにより、MEs の正確な表現と局所状態の局所化長を求め、さらに平坦なバンドが準周期ポテンシャルの影響を受けないことを示す。 最後に,量子ドットアレイ上で実験的にモデルを実現するための実現可能性の高いスキームを提案する。 2dシステムにおける正確な mes とロバストなフラットバンドの研究と実現への扉を開く。

The mobility edge (ME) that marks the energy separating extended and localized states is a central concept in understanding the metal-insulator transition induced by disordered or quasiperiodic potentials. MEs have been extensively studied in three dimensional disorder systems and one-dimensional quasiperiodic systems. However, the studies of MEs in two dimensional (2D) systems are rare. Here we propose a class of 2D vertex-decorated Lieb lattice models with quasiperiodic potentials only acting on the vertices of a (extended) Lieb lattice. By mapping these models to the 2D Aubry-Andr\'{e} model, we obtain exact expressions of MEs and the localization lengths of localized states, and further demonstrate that the flat bands remain unaffected by the quasiperiodic potentials. Finally, we propose a highly feasible scheme to experimentally realize our model in a quantum dot array. Our results open the door to studying and realizing exact MEs and robust flat bands in 2D systems.
翻訳日:2023-04-25 23:46:24 公開日:2023-04-24
# リプシッツ連続勾配を持つ局所強凸関数上の(1+1)-進化戦略の収束率とその単調変換

Convergence rate of the (1+1)-evolution strategy on locally strongly convex functions with lipschitz continuous gradient and their monotonic transformations ( http://arxiv.org/abs/2209.12467v3 )

ライセンス: Link先を確認
Daiki Morinaga, Kazuto Fukuchi, Jun Sakuma, and Youhei Akimoto(参考訳) 進化戦略(ES)は、ブラックボックス連続最適化のための有望なアルゴリズムの1つである。 応用において広く成功したにもかかわらず、収束速度の理論解析は凸二次函数とその単調変換に限られる。 本研究では、u$-リプシッツ連続勾配を持つ局所的l$-強凸関数上の(1+1)-esの線形収束率の上限と下限をそれぞれ$\exp\left(-\omega_{d\to\infty}\left(\frac{l}{d\cdot u}\right)\right)$および$\exp\left(-\frac1d\right)$として導出する。 特に、リプシッツ定数のような目的関数の数学的性質に関する事前知識はアルゴリズムには与えられないが、既存の微分自由最適化アルゴリズムの分析にはそれらが必要である。

Evolution strategy (ES) is one of promising classes of algorithms for black-box continuous optimization. Despite its broad successes in applications, theoretical analysis on the speed of its convergence is limited on convex quadratic functions and their monotonic transformation. In this study, an upper bound and a lower bound of the rate of linear convergence of the (1+1)-ES on locally $L$-strongly convex functions with $U$-Lipschitz continuous gradient are derived as $\exp\left(-\Omega_{d\to\infty}\left(\frac{L}{d\cdot U}\right)\right)$ and $\exp\left(-\frac1d\right)$, respectively. Notably, any prior knowledge on the mathematical properties of the objective function such as Lipschitz constant is not given to the algorithm, whereas the existing analyses of derivative-free optimization algorithms require them.
翻訳日:2023-04-25 23:46:07 公開日:2023-04-24
# 脳デコードにおける自己学習の利点について

On the benefits of self-taught learning for brain decoding ( http://arxiv.org/abs/2209.10099v4 )

ライセンス: Link先を確認
Elodie Germani (EMPENN, LACODAM), Elisa Fromont (LACODAM, IUF), Camille Maumet (EMPENN)(参考訳) コンテキスト。 我々は,fMRI統計図からなる大規模公開神経画像データベースを,新しいタスクにおける脳のデコードを改善するための自己学習フレームワークで活用することの利点について検討した。 まず、NeuroVaultデータベースを利用して、関連する統計マップの選択に基づいて、畳み込みオートエンコーダを使ってこれらのマップを再構築する。 次に、このトレーニングされたエンコーダを用いて、教師付き畳み込みニューラルネットワークを初期化し、NeuroVaultデータベースの大規模なコレクションから見えない統計マップのタスクまたは認知過程を分類する。 結果だ このような自己学習プロセスは、常に分類器の性能を向上させるが、利点の大きさは、モデルの事前学習と微調整の両方で利用可能なサンプル数と、対象とする下流タスクの複雑さに大きく依存する。 結論だ 事前訓練されたモデルは、分類性能を改善し、より一般化可能な特徴を示し、個人差に敏感でない。

Context. We study the benefits of using a large public neuroimaging database composed of fMRI statistic maps, in a self-taught learning framework, for improving brain decoding on new tasks. First, we leverage the NeuroVault database to train, on a selection of relevant statistic maps, a convolutional autoencoder to reconstruct these maps. Then, we use this trained encoder to initialize a supervised convolutional neural network to classify tasks or cognitive processes of unseen statistic maps from large collections of the NeuroVault database. Results. We show that such a self-taught learning process always improves the performance of the classifiers but the magnitude of the benefits strongly depends on the number of samples available both for pre-training and finetuning the models and on the complexity of the targeted downstream task. Conclusion. The pre-trained model improves the classification performance and displays more generalizable features, less sensitive to individual differences.
翻訳日:2023-04-25 23:45:51 公開日:2023-04-24
# 非局所相互作用系における情報スクランブルと絡み合いとオペレータダイナミクスの対応

Information Scrambling and the Correspondence of Entanglement- and Operator Dynamics in Systems with Nonlocal Interactions ( http://arxiv.org/abs/2209.09065v2 )

ライセンス: Link先を確認
Darvin Wanisch, Juan Diego Arias Espinoza and Stephan Fritzsche(参考訳) 量子情報がいかに速くスクランブルし、局所プローブによってアクセス不能になるかは、様々な分野の中心であることが判明した。 非局所相互作用を持つスピン系に関する最近の研究に触発され、Isingモデルの異なる変種にまたがる情報を研究する。 本研究は,非局所的な相互作用が,時間外相関子(otocs)によって正確に捉えられない演算子ダイナミクスを誘導できることを明らかにする。 特に、作用素のサイズは、非常に非線形な光錐にもかかわらず、一般的なパワーロー相互作用を持つ系の減速を示す。 近年提案された高速スクランブルの微視的モデルでは、ユニタリ進化の下での局所作用素と量子クエンチによる絡み合いエントロピーとの相似性が明らかになっていない。 我々の研究は、現在の量子シミュレーションプラットフォームに到達したシステムのスクランブル特性に関する新たな洞察を与え、実験室における量子重力の特徴の観測結果を補完する。

How fast quantum information scrambles such that it becomes inaccessible by local probes turns out to be central to various fields. Motivated by recent works on spin systems with nonlocal interactions, we study information scrambling in different variants of the Ising model. Our work reveals that nonlocal interactions can induce operator dynamics not precisely captured by out-of-time-order correlators (OTOCs). In particular, the operator size exhibits a slowdown in systems with generic powerlaw interactions despite a highly nonlinear lightcone. A recently proposed microscopic model for fast scrambling does not show this slowdown, which uncovers a distinct analogy between a local operator under unitary evolution and the entanglement entropy following a quantum quench. Our work gives new insights on scrambling properties of systems in reach of current quantum simulation platforms and complements results on possibly observing features of quantum gravity in the laboratory.
翻訳日:2023-04-25 23:45:36 公開日:2023-04-24
# トーラス上の量子気体

Quantum gases on a torus ( http://arxiv.org/abs/2209.08017v2 )

ライセンス: Link先を確認
A. A. Ara\'ujo Filho, J. A. A. S. Reis, and Subir Ghosh(参考訳) この写本はトーラスに閉じ込められた量子気体の熱力学的性質の研究を目的としている。 そのために、大カノニカルアンサンブル形式の中での \textit{noninteracting} 気体を考える。 この文脈では、フェルモインとボソンを考慮に入れ、その計算を解析的および数値的に適切に行う。 特に、システムは、考慮中のトポロジカルパラメータ、すなわち巻数に敏感であることが判明した。 さらに、量子気体の<textit{interacting>を考慮したモデルも導出する。 その結果を裏付けるために,リングとトーラスという2つの異なるシナリオに対して,そのような手法を実装した。

This manuscript is aimed at studying the thermodynamic properties of quantum gases confined to a torus. To do that, we consider \textit{noninteracting} gases within the grand canonical ensemble formalism. In this context, fermoins and bosons are taken into account and the calculations are properly provided in both analytical and numerical manners. In particular, the system turns out to be sensitive to the topological parameter under consideration: the winding number. Furthermore, we also derive a model in order to take into account \textit{interacting} quantum gases. To corroborate our results, we implement such a method for two different scenarios: a ring and a torus.
翻訳日:2023-04-25 23:45:20 公開日:2023-04-24
# エンティティメモリを備えた統一エンコーダデコーダフレームワーク

A Unified Encoder-Decoder Framework with Entity Memory ( http://arxiv.org/abs/2210.03273v3 )

ライセンス: Link先を確認
Zhihan Zhang, Wenhao Yu, Chenguang Zhu, Meng Jiang(参考訳) 実世界の知識の重要なキャリアであるエンティティは、多くのNLPタスクにおいて重要な役割を果たす。 我々は情報テキスト生成のためのエンコーダ・デコーダフレームワークにエンティティ知識を組み込むことに集中する。 既存のアプローチでは、外部文書を証拠としてインデックスし、検索し、読み取ろうとしたが、大きな計算オーバーヘッドに苦しんだ。 本研究では,エンティティメモリ,すなわちEDMemを備えたエンコーダデコーダフレームワークを提案する。 エンティティ知識は遅延表現としてメモリに格納され、メモリはエンコーダ-デコーダパラメータとともにWikipediaで事前トレーニングされる。 エンティティ名を正確に生成するために,メモリ内のエンティティをリンクすることでエンティティ生成を制約する3つのデコード手法を設計する。 EDMemは、様々なエンティティ集約的な質問応答および生成タスクで使用できる統一されたフレームワークである。 EDMemはメモリベースオートエンコーダモデルと非メモリエンコーダデコーダモデルの両方に優れていた。

Entities, as important carriers of real-world knowledge, play a key role in many NLP tasks. We focus on incorporating entity knowledge into an encoder-decoder framework for informative text generation. Existing approaches tried to index, retrieve, and read external documents as evidence, but they suffered from a large computational overhead. In this work, we propose an encoder-decoder framework with an entity memory, namely EDMem. The entity knowledge is stored in the memory as latent representations, and the memory is pre-trained on Wikipedia along with encoder-decoder parameters. To precisely generate entity names, we design three decoding methods to constrain entity generation by linking entities in the memory. EDMem is a unified framework that can be used on various entity-intensive question answering and generation tasks. Extensive experimental results show that EDMem outperforms both memory-based auto-encoder models and non-memory encoder-decoder models.
翻訳日:2023-04-25 23:36:48 公開日:2023-04-24
# 最適化層における交互微分

Alternating Differentiation for Optimization Layers ( http://arxiv.org/abs/2210.01802v2 )

ライセンス: Link先を確認
Haixiang Sun, Ye Shi, Jingya Wang, Hoang Duong Tuan, H. Vincent Poor, and Dacheng Tao(参考訳) 近年では、制約や帰納的優先順位を符号化する最適化層として、ディープニューラルネットワークに最適化問題を組み込むアイデアが定着している。 既存の手法のほとんどは、遅くてメモリ集約的なヤコビ行列上の高価な計算を必要とする方法でKKT条件を暗黙的に微分することに焦点を当てている。 本稿では,最適化問題(特に多面体制約を伴う凸最適化問題)を高速かつ再帰的に区別する,交互微分(alt-diff)という新しい枠組みを開発した。 Alt-Diffは、分化手順を原始更新と二重更新に交互に分離する。 したがって、Alt-Diffは特に大規模制約を伴う最適化のためにヤコビ行列の次元を著しく減少させ、暗黙の微分の計算速度を増大させる。 alt-diffにより得られた勾配はkkt条件の微分によって得られた勾配と一致することを示す。 さらに,Alt-Diffを切断して計算速度をさらに高速化することを提案する。 いくつかの標準的な仮定の下では、勾配のトランケーション誤差は変数の推定誤差の同じ順序で上界であることが示される。 したがって、Alt-Diffは精度を犠牲にすることなく計算速度をさらに向上させることができる。 一連の総合的な実験は、Alt-Diffの優越性を検証した。

The idea of embedding optimization problems into deep neural networks as optimization layers to encode constraints and inductive priors has taken hold in recent years. Most existing methods focus on implicitly differentiating Karush-Kuhn-Tucker (KKT) conditions in a way that requires expensive computations on the Jacobian matrix, which can be slow and memory-intensive. In this paper, we developed a new framework, named Alternating Differentiation (Alt-Diff), that differentiates optimization problems (here, specifically in the form of convex optimization problems with polyhedral constraints) in a fast and recursive way. Alt-Diff decouples the differentiation procedure into a primal update and a dual update in an alternating way. Accordingly, Alt-Diff substantially decreases the dimensions of the Jacobian matrix especially for optimization with large-scale constraints and thus increases the computational speed of implicit differentiation. We show that the gradients obtained by Alt-Diff are consistent with those obtained by differentiating KKT conditions. In addition, we propose to truncate Alt-Diff to further accelerate the computational speed. Under some standard assumptions, we show that the truncation error of gradients is upper bounded by the same order of variables' estimation error. Therefore, Alt-Diff can be truncated to further increase computational speed without sacrificing much accuracy. A series of comprehensive experiments validate the superiority of Alt-Diff.
翻訳日:2023-04-25 23:36:32 公開日:2023-04-24
# 分散連合学習 : 基礎,最新技術,フレームワーク,トレンド,課題

Decentralized Federated Learning: Fundamentals, State-of-the-art, Frameworks, Trends, and Challenges ( http://arxiv.org/abs/2211.08413v2 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an, Mario Quiles P\'erez, Pedro Miguel S\'anchez S\'anchez, Sergio L\'opez Bernal, G\'er\^ome Bovet, Manuel Gil P\'erez, Gregorio Mart\'inez P\'erez, Alberto Huertas Celdr\'an(参考訳) 過去10年間で、フェデレートラーニング(FL)は、機密データを共有せずにコラボレーティブモデルのトレーニングに関連がある。 中央集権FL(CFL)は、その誕生以来、中央の実体が大域的なモデルを作成する文学において最も一般的なアプローチである。 しかしながら、集中的なアプローチはボトルネックによるレイテンシの増加、システムの障害に対する脆弱性の増大、グローバルモデル作成に責任を持つエンティティに対する信頼性の懸念などにつながります。 DFL(Decentralized Federated Learning)は、分散モデルの集約を促進し、集中型アーキテクチャへの依存を最小限にすることで、これらの問題に対処するために登場した。 しかし、DFLでの作業にもかかわらず、文献は残っていない。 (i)DFLとCFLを区別する主な側面の研究。 (二)新しいソリューションを作成し評価するためのDFLフレームワークの分析、及び 3)DFLを用いたアプリケーションシナリオのレビュー。 本稿では,フェデレーションアーキテクチャ,トポロジ,通信機構,セキュリティアプローチ,主要なパフォーマンス指標といった観点から,dflの主な基礎を特定し,分析する。 さらに、論文は重要なdflの基本を最適化するための既存のメカニズムを探求している。 次に、現在のdflフレームワークの最も関連するフィーチャをレビューして比較する。 その後、最もよく使われるDFLアプリケーションシナリオを分析し、以前定義された基本とフレームワークに基づいたソリューションを特定します。 最後に、既存のDFLソリューションの進化について研究し、トレンド、学んだ教訓、オープンな課題のリストを提供する。

In the last decade, Federated Learning (FL) has gained relevance in training collaborative models without sharing sensitive data. Since its birth, Centralized FL (CFL) has been the most common approach in the literature, where a central entity creates a global model. However, a centralized approach leads to increased latency due to bottlenecks, heightened vulnerability to system failures, and trustworthiness concerns affecting the entity responsible for the global model creation. Decentralized Federated Learning (DFL) emerged to address these concerns by promoting decentralized model aggregation and minimizing reliance on centralized architectures. However, despite the work done in DFL, the literature has not (i) studied the main aspects differentiating DFL and CFL; (ii) analyzed DFL frameworks to create and evaluate new solutions; and (iii) reviewed application scenarios using DFL. Thus, this article identifies and analyzes the main fundamentals of DFL in terms of federation architectures, topologies, communication mechanisms, security approaches, and key performance indicators. Additionally, the paper at hand explores existing mechanisms to optimize critical DFL fundamentals. Then, the most relevant features of the current DFL frameworks are reviewed and compared. After that, it analyzes the most used DFL application scenarios, identifying solutions based on the fundamentals and frameworks previously defined. Finally, the evolution of existing DFL solutions is studied to provide a list of trends, lessons learned, and open challenges.
翻訳日:2023-04-25 23:29:24 公開日:2023-04-24
# MMD-B-Fair:統計的テストによる公正表現の学習

MMD-B-Fair: Learning Fair Representations with Statistical Testing ( http://arxiv.org/abs/2211.07907v2 )

ライセンス: Link先を確認
Namrata Deka and Danica J. Sutherland(参考訳) 本稿では,カーネル2サンプルテストによるデータの公平な表現を学習するためのMDD-B-Fairを提案する。 最大平均不一致(mmd)テストでは、対象属性に関する情報を保存しつつ、異なる感度グループの表現を区別できないような、データのニューラルな特徴を見出す。 mmdテストのパワーを最小化することは、テストしきい値の複雑な振る舞いを単純に無視できないため、(以前の作業のように)最大化するよりも難しい。 本手法は, ブロックテスト方式の単純な漸近を利用して, 複雑な対角最適化や生成的モデリング方式を必要とせずに, 公正表現を効率的に見つける。 提案手法を各種データセット上で評価し, 重要属性に関する情報を「隠蔽」する機能, 下流転送における有効性を示す。

We introduce a method, MMD-B-Fair, to learn fair representations of data via kernel two-sample testing. We find neural features of our data where a maximum mean discrepancy (MMD) test cannot distinguish between representations of different sensitive groups, while preserving information about the target attributes. Minimizing the power of an MMD test is more difficult than maximizing it (as done in previous work), because the test threshold's complex behavior cannot be simply ignored. Our method exploits the simple asymptotics of block testing schemes to efficiently find fair representations without requiring complex adversarial optimization or generative modelling schemes widely used by existing work on fair representation learning. We evaluate our approach on various datasets, showing its ability to ``hide'' information about sensitive attributes, and its effectiveness in downstream transfer tasks.
翻訳日:2023-04-25 23:29:02 公開日:2023-04-24
# 教育ツールとしての封筒理論

The envelope theory as a pedagogical tool ( http://arxiv.org/abs/2211.06306v2 )

ライセンス: Link先を確認
Claude Semay, Maud Balcaen(参考訳) エンベロープ理論は時間独立なschr\"odinger様方程式(固有値と固有ベクトル)を解くための信頼性と実装の容易な方法である。 計算コストは粒子の数から独立しているため、多くの体系を解くのに特に有用である。 本論文の目的は2つある。 まず、おそらくあまり使われていないメソッドを知っておきたい。 第二に、この手法は、単純さと信頼性の高い結果を得ることで、教育ツールとして利用できることも示したい。 これらの目標を達成するために、エンベロープ理論は1次元の単純な問題、ソフトクーロンポテンシャル $-k/\sqrt{x^2+d^2}$ に適用される。 このような相互作用は、2つの電荷が2つの異なる1次元領域(量子線)で分離される電子-ホール境界対の研究に使用される。 物理的な興味に加えて、この体系は封筒理論で扱われることはなかった。

The envelope theory is a reliable and easy to implement method to solve time independent Schr\"odinger-like equations (eigenvalues and eigenvectors). It is particularly useful to solve many-body systems since the computational cost is independent from the number of particles. The purpose of this paper is twofold. First, we want to make known a method that is probably too little used. Second, we also want to show that this method can be used as a pedagogical tool, thanks to its simplicity and the reliable results that can be obtained. To reach these goals, the envelope theory is applied to a simple problem in one dimension, the soft-Coulomb potential $-k/\sqrt{x^2+d^2}$, characterised by a bias distance $d$. Such interaction is used for the study of excitons, electron-hole bound pairs where the two charges are kept separated in two different one-dimensional regions (quantum wires). In addition to its physical interest, this system has never been treated with the envelope theory.
翻訳日:2023-04-25 23:28:48 公開日:2023-04-24
# 問題とコミットに対するリンク予測モデルのデータの漏洩と一般化に関する実証的研究

An Empirical Study on Data Leakage and Generalizability of Link Prediction Models for Issues and Commits ( http://arxiv.org/abs/2211.00381v2 )

ライセンス: Link先を確認
Maliheh Izadi, Pooya Rostami Mazrae, Tom Mens, Arie van Deursen(参考訳) ドキュメントとメンテナンスのプラクティスを強化するため、開発者は従来、関連するソフトウェアアーティファクト間のリンクを手動で確立する。 実証的な研究により、開発者はこのプラクティスをしばしば見落とし、重大な情報を失うことが判明した。 この問題に対処するため,自動リンクリカバリ手法が提案されている。 しかし、これらの手法は主にランダムに分割されたデータセットの予測精度の改善に重点を置いており、データ漏洩の影響や予測モデルの一般化可能性に制限がある。 LinkFormerはこれらの制限に対処しようとしている。 提案手法は,既存の予測の精度を保存・改善するだけでなく,実環境設定との整合性や一般化性を向上させる。 まず,コンテクスト情報をより効果的に活用するために,問題やコミットのテキスト情報とメタデータ情報の両方にトランスフォーマアーキテクチャと事前学習された複数のモデルを用いる。 次に,モデル性能に及ぼす時間の影響を計測するために,トレーニングとテストの両面で,ランダムおよび時分割データセットという2つの分割ポリシを採用する。 最後に、さまざまなプロジェクトにわたってハイパフォーマンスを実証できる汎用モデルを追求するため、2つの異なるトランスファー学習設定内でLinkFormerを微調整する。 実世界のシナリオを効果的にシミュレートするために、研究者はトレーニングモデルにおけるデータの時間的フローを維持する必要がある。 さらに,linkformerは既存手法をかなり上回っており,プロジェクトベースでf1測定値が48%向上した。 最後に、プロジェクト横断設定におけるLinkFormerのパフォーマンスは、プロジェクトベースのシナリオにおける平均パフォーマンスに匹敵する。

To enhance documentation and maintenance practices, developers conventionally establish links between related software artifacts manually. Empirical research has revealed that developers frequently overlook this practice, resulting in significant information loss. To address this issue, automatic link recovery techniques have been proposed. However, these approaches primarily focused on improving prediction accuracy on randomly-split datasets, with limited attention given to the impact of data leakage and the generalizability of the predictive models. LinkFormer seeks to address these limitations. Our approach not only preserves and improves the accuracy of existing predictions but also enhances their alignment with real-world settings and their generalizability. First, to better utilize contextual information for prediction, we employ the Transformer architecture and fine-tune multiple pre-trained models on both textual and metadata information of issues and commits. Next, to gauge the effect of time on model performance, we employ two splitting policies during both the training and testing phases; randomly- and temporally-split datasets. Finally, in pursuit of a generic model that can demonstrate high performance across a range of projects, we undertake additional fine-tuning of LinkFormer within two distinct transfer-learning settings. Our findings support that to simulate real-world scenarios effectively, researchers must maintain the temporal flow of data when training models. Furthermore, the results demonstrate that LinkFormer outperforms existing methodologies by a significant margin, achieving a 48% improvement in F1-measure within a project-based setting. Finally, the performance of LinkFormer in the cross-project setting is comparable to its average performance within the project-based scenario.
翻訳日:2023-04-25 23:28:16 公開日:2023-04-24
# 探索・探索トレードオフのバランスによる動的スパーストレーニング

Dynamic Sparse Training via Balancing the Exploration-Exploitation Trade-off ( http://arxiv.org/abs/2211.16667v3 )

ライセンス: Link先を確認
Shaoyi Huang, Bowen Lei, Dongkuan Xu, Hongwu Peng, Yue Sun, Mimi Xie, Caiwen Ding(参考訳) ディープニューラルネットワーク(DNN)のオーバーパラメータ化は、多くのアプリケーションに対して高い予測精度を示している。 有効ではあるが、多くのパラメータはリソース制限されたデバイスでの人気を阻害し、環境への影響を大きくする。 スパーストレーニング(各イテレーションで一定数の非ゼロ重みを使用する)は、モデルサイズを小さくすることでトレーニングコストを大幅に削減することができる。 しかし、既存のスパーストレーニング手法は主にランダムベースまたはグリーディベースのドロップ・アンド・グロウ戦略を使用しており、局所的な最小化と精度の低下をもたらした。 本研究では,動的スパーストレーニングを疎結合探索問題として捉え,局所視眼点や鞍点から逃れるための搾取・探索獲得関数を設計する。 さらに, 獲得関数を設計し, 提案手法の理論的保証を提供し, その収束性を明らかにする。 実験の結果,提案手法により得られたスパースモデル(最大98.%のスパース)は,多種多様な深層学習課題において,SOTAスパース訓練法より優れていることがわかった。 VGG-19/CIFAR-100,ResNet-50/CIFAR-10,ResNet-50/CIFAR-100では,高密度モデルよりも精度が高い。 ResNet-50 / ImageNetでは,SOTAスパース訓練法と比較して最大8.2\%の精度向上を実現している。

Over-parameterization of deep neural networks (DNNs) has shown high prediction accuracy for many applications. Although effective, the large number of parameters hinders its popularity on resource-limited devices and has an outsize environmental impact. Sparse training (using a fixed number of nonzero weights in each iteration) could significantly mitigate the training costs by reducing the model size. However, existing sparse training methods mainly use either random-based or greedy-based drop-and-grow strategies, resulting in local minimal and low accuracy. In this work, we consider the dynamic sparse training as a sparse connectivity search problem and design an exploitation and exploration acquisition function to escape from local optima and saddle points. We further design an acquisition function and provide the theoretical guarantees for the proposed method and clarify its convergence property. Experimental results show that sparse models (up to 98\% sparsity) obtained by our proposed method outperform the SOTA sparse training methods on a wide variety of deep learning tasks. On VGG-19 / CIFAR-100, ResNet-50 / CIFAR-10, ResNet-50 / CIFAR-100, our method has even higher accuracy than dense models. On ResNet-50 / ImageNet, the proposed method has up to 8.2\% accuracy improvement compared to SOTA sparse training methods.
翻訳日:2023-04-25 23:21:01 公開日:2023-04-24
# DAMO-YOLO : リアルタイム物体検出設計報告

DAMO-YOLO : A Report on Real-Time Object Detection Design ( http://arxiv.org/abs/2211.15444v4 )

ライセンス: Link先を確認
Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun(参考訳) 本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。 DAMO-YOLOは、Neural Architecture Search (NAS)、効率的なReparameterized Generalized-FPN (RepGFPN)、AlignedOTAラベルを割り当てた軽量ヘッド、蒸留強化など、YOLOから拡張されている。 特に、最大エントロピーの原理を導いたmae-nasを用いて、低レイテンシと高性能の制約下で検出バックボーンを探索し、空間ピラミッドプールとフォーカスモジュールを備えたresnet/cspライクな構造を生成する。 首と頭の設計では、「大首、小頭」という規則に従っている。 我々は,加速queen-fusionでgeneralized-fpnをインポートして検出器ネックを構築し,効率的な層凝集ネットワーク(elan)と再パラメータ化によりcspnetをアップグレードする。 次に, 検出ヘッドサイズが検出性能にどのように影響するかを調査し, 1つのタスクプロジェクション層のみを持つ重いネックがより良い結果をもたらすことを確認し, さらにラベル割り当てにおける不正調整問題を解くためにAlignedOTAを提案する。 また, 蒸留方式を導入し, 高い性能向上を図る。 これらの新しい技術に基づいて、さまざまなシナリオのニーズを満たすために、さまざまなスケールのモデルスイートを構築します。 一般産業要件として,DAMO-YOLO-T/S/M/Lを提案する。 彼らはそれぞれT4 GPU上で2.78/3.83/5.62/7.95msのレイテンシで、COCO上で43.6/47.7/50.2/51.9mAPを達成できる。 また,計算能力に限界があるエッジデバイスに対しては,DAMO-YOLO-Ns/Nm/Nl軽量モデルも提案している。 彼らは、X86-CPU上で4.08/5.05/6.69msのレイテンシで、COCO上で32.3/38.2/40.5mAPを達成できる。 提案する汎用モデルと軽量モデルは,アプリケーションシナリオにおいて,他のYOLOシリーズモデルよりも優れている。

In this report, we present a fast and accurate object detection method dubbed DAMO-YOLO, which achieves higher performance than the state-of-the-art YOLO series. DAMO-YOLO is extended from YOLO with some new technologies, including Neural Architecture Search (NAS), efficient Reparameterized Generalized-FPN (RepGFPN), a lightweight head with AlignedOTA label assignment, and distillation enhancement. In particular, we use MAE-NAS, a method guided by the principle of maximum entropy, to search our detection backbone under the constraints of low latency and high performance, producing ResNet/CSP-like structures with spatial pyramid pooling and focus modules. In the design of necks and heads, we follow the rule of ``large neck, small head''.We import Generalized-FPN with accelerated queen-fusion to build the detector neck and upgrade its CSPNet with efficient layer aggregation networks (ELAN) and reparameterization. Then we investigate how detector head size affects detection performance and find that a heavy neck with only one task projection layer would yield better results.In addition, AlignedOTA is proposed to solve the misalignment problem in label assignment. And a distillation schema is introduced to improve performance to a higher level. Based on these new techs, we build a suite of models at various scales to meet the needs of different scenarios. For general industry requirements, we propose DAMO-YOLO-T/S/M/L. They can achieve 43.6/47.7/50.2/51.9 mAPs on COCO with the latency of 2.78/3.83/5.62/7.95 ms on T4 GPUs respectively. Additionally, for edge devices with limited computing power, we have also proposed DAMO-YOLO-Ns/Nm/Nl lightweight models. They can achieve 32.3/38.2/40.5 mAPs on COCO with the latency of 4.08/5.05/6.69 ms on X86-CPU. Our proposed general and lightweight models have outperformed other YOLO series models in their respective application scenarios.
翻訳日:2023-04-25 23:20:20 公開日:2023-04-24
# ラベルノイズに頑健なニューラルネットワークの確立

Establishment of Neural Networks Robust to Label Noise ( http://arxiv.org/abs/2211.15279v3 )

ライセンス: Link先を確認
Pengwei Yang, Chongyangzi Teng and Jack George Mangos(参考訳) ラベルノイズはディープラーニングモデルのトレーニングにおいて重要な障害である。 これは画像分類モデル、特にディープニューラルネットワークの性能に大きな影響を与える可能性がある。 本稿では,関連ラベルノイズ手法の基本概念について検討した。 遷移行列推定器が作成され、実際の遷移行列に対する効果が実証されている。 さらに,2つの畳み込みニューラルネットワーク分類器のラベル雑音耐性をLeNetとAlexNetの設計を用いて検討した。 2つのFashionMINISTデータセットは、両方のモデルの堅牢性を明らかにしている。 我々は、時間と計算資源の制約により複雑な畳み込みニューラルネットワークモデルを正しく調整できないため、遷移行列ノイズ補正が堅牢性向上に与える影響を効率的に示すことができない。 今後の研究において、ニューラルネットワークモデルを微調整し、推定遷移モデルの精度を探求する追加の努力が必要である。

Label noise is a significant obstacle in deep learning model training. It can have a considerable impact on the performance of image classification models, particularly deep neural networks, which are especially susceptible because they have a strong propensity to memorise noisy labels. In this paper, we have examined the fundamental concept underlying related label noise approaches. A transition matrix estimator has been created, and its effectiveness against the actual transition matrix has been demonstrated. In addition, we examined the label noise robustness of two convolutional neural network classifiers with LeNet and AlexNet designs. The two FashionMINIST datasets have revealed the robustness of both models. We are not efficiently able to demonstrate the influence of the transition matrix noise correction on robustness enhancements due to our inability to correctly tune the complex convolutional neural network model due to time and computing resource constraints. There is a need for additional effort to fine-tune the neural network model and explore the precision of the estimated transition model in future research.
翻訳日:2023-04-25 23:19:47 公開日:2023-04-24
# Pot 2.0 の融解

Melting Pot 2.0 ( http://arxiv.org/abs/2211.13746v5 )

ライセンス: Link先を確認
John P. Agapiou, Alexander Sasha Vezhnevets, Edgar A. Du\'e\~nez-Guzm\'an, Jayd Matyas, Yiran Mao, Peter Sunehag, Raphael K\"oster, Udari Madhushani, Kavya Kopparapu, Ramona Comanescu, DJ Strouse, Michael B. Johanson, Sukhdeep Singh, Julia Haas, Igor Mordatch, Dean Mobbs, Joel Z. Leibo(参考訳) マルチエージェント人工知能研究は、エージェント間の相互作用を考慮しない「ソリピシズム」アプローチによって生み出されるものよりも、人間らしく、より人間と互換性のあるインテリジェントな技術を開発することを約束する。 Melting Potは、マルチエージェント人工知能の開発を促進するために開発された研究ツールであり、一連の標準的なテストシナリオにおいて、新しいソーシャルパートナーへの一般化を測定する評価プロトコルを提供する。 それぞれのシナリオは物理的環境("サブストラテト")と共同プレイヤーのリファレンスセット("バックグラウンド人口")を組み合わせることで、関係する個人間の実質的な相互依存を持った社会的状況を作り出す。 例えば、いくつかのシナリオは、自然資源管理と公益のジレンマに関する制度的経済的な説明にインスパイアされた。 進化生物学、ゲーム理論、人工生命から着想を得た者もいた。 Melting Potは、最も多様な相互依存とインセンティブをカバーすることを目指している。 完全競争的(ゼロサム)モチベーションと完全協力的(共有的)モチベーションの、一般的に研究されている極端なケースを含んでいるが、それらでは止まらない。 現実のように、鍋を溶かすシナリオのほとんどが混合インセンティブを持っている。 純粋に競争的でも純粋に協力的でもないので、成功したエージェントは結果の曖昧さをナビゲートできる。 ここでは、Melt Pot 2.0について説明する。 また、非対称な役割を持つシナリオのサポートを導入し、それらを評価プロトコルに統合する方法を説明します。 1)全ての基質とシナリオの詳細、(2)全てのベースラインアルゴリズムと結果の完全な記述を含む。 私たちの意図は、Melt Pot 2.0を使った研究者の参考になることです。

Multi-agent artificial intelligence research promises a path to develop intelligent technologies that are more human-like and more human-compatible than those produced by "solipsistic" approaches, which do not consider interactions between agents. Melting Pot is a research tool developed to facilitate work on multi-agent artificial intelligence, and provides an evaluation protocol that measures generalization to novel social partners in a set of canonical test scenarios. Each scenario pairs a physical environment (a "substrate") with a reference set of co-players (a "background population"), to create a social situation with substantial interdependence between the individuals involved. For instance, some scenarios were inspired by institutional-economics-based accounts of natural resource management and public-good-provision dilemmas. Others were inspired by considerations from evolutionary biology, game theory, and artificial life. Melting Pot aims to cover a maximally diverse set of interdependencies and incentives. It includes the commonly-studied extreme cases of perfectly-competitive (zero-sum) motivations and perfectly-cooperative (shared-reward) motivations, but does not stop with them. As in real-life, a clear majority of scenarios in Melting Pot have mixed incentives. They are neither purely competitive nor purely cooperative and thus demand successful agents be able to navigate the resulting ambiguity. Here we describe Melting Pot 2.0, which revises and expands on Melting Pot. We also introduce support for scenarios with asymmetric roles, and explain how to integrate them into the evaluation protocol. This report also contains: (1) details of all substrates and scenarios; (2) a complete description of all baseline algorithms and results. Our intention is for it to serve as a reference for researchers using Melting Pot 2.0.
翻訳日:2023-04-25 23:19:28 公開日:2023-04-24
# DynIBaR: ニューラルネットワークによる動的画像ベースレンダリング

DynIBaR: Neural Dynamic Image-Based Rendering ( http://arxiv.org/abs/2211.11082v3 )

ライセンス: Link先を確認
Zhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker, Noah Snavely(参考訳) 複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。 時間的に変化する神経放射場(dynamic nerfs)に基づく最先端の手法は、この課題に対する印象的な結果を示している。 しかし、複雑な物体の動きや制御されていないカメラ軌道を持つ長いビデオの場合、これらの手法はぼやけや不正確なレンダリングを生成し、現実世界のアプリケーションでの使用を妨げる。 MLPの重みの中に動的シーン全体をエンコードする代わりに、シーン・モーション・アウェアな方法で近くのビューから特徴を集約することで新しい視点を合成するボリューム画像ベースのレンダリング・フレームワークを採用することにより、これらの制限に対処する新しいアプローチを提案する。 本システムでは,複雑なシーンやビュー依存のエフェクトをモデル化できるという従来の手法の利点を保ちつつ,複雑なシーンのダイナミックスを特徴とする長編ビデオからフォトリアリスティックなノベルビューを合成することができる。 動的シーンデータセットにおける最先端手法の大幅な改善を示すとともに,従来の手法では高品質なレンダリングが得られなかったカメラや物体の動きに挑戦した映像にアプローチを適用した。 プロジェクトのWebページはdynibar.github.ioにあります。

We address the problem of synthesizing novel views from a monocular video depicting a complex dynamic scene. State-of-the-art methods based on temporally varying Neural Radiance Fields (aka dynamic NeRFs) have shown impressive results on this task. However, for long videos with complex object motions and uncontrolled camera trajectories, these methods can produce blurry or inaccurate renderings, hampering their use in real-world applications. Instead of encoding the entire dynamic scene within the weights of MLPs, we present a new approach that addresses these limitations by adopting a volumetric image-based rendering framework that synthesizes new viewpoints by aggregating features from nearby views in a scene-motion-aware manner. Our system retains the advantages of prior methods in its ability to model complex scenes and view-dependent effects, but also enables synthesizing photo-realistic novel views from long videos featuring complex scene dynamics with unconstrained camera trajectories. We demonstrate significant improvements over state-of-the-art methods on dynamic scene datasets, and also apply our approach to in-the-wild videos with challenging camera and object motion, where prior methods fail to produce high-quality renderings. Our project webpage is at dynibar.github.io.
翻訳日:2023-04-25 23:19:01 公開日:2023-04-24
# 最適分類林への数学的プログラミング手法

A Mathematical Programming Approach to Optimal Classification Forests ( http://arxiv.org/abs/2211.10502v2 )

ライセンス: Link先を確認
V\'ictor Blanco, Alberto Jap\'on, Justo Puerto, Peter Zhang(参考訳) 本稿では,決定木の最適なアンサンブルを利用して,正確かつ解釈可能な分類器を導出する新しい分類器群である最適分類用森林について紹介する。 与えられた木を同時に構築し,それぞれが特徴空間における観測の予測クラスを提供する,数学的最適化に基づく新しい手法を提案する。 分類規則は、森林の樹木の中で最も頻繁に予測される分類に割り当てることによって導かれる。 この問題に対する混合整数線形計画式を提供する。 提案手法は,最先端のツリーベース分類法と同等あるいは優れた性能を有すると結論づける計算実験の結果を報告する。 さらに重要なことは、例えば、ランダムな森林よりも桁違いに少ない木で高い予測精度を達成することである。 また,本手法が解釈可能性に関して非常に興味深い意味を持っていることを示す実世界のケーススタディを3つ提示する。

In this paper, we introduce Optimal Classification Forests, a new family of classifiers that takes advantage of an optimal ensemble of decision trees to derive accurate and interpretable classifiers. We propose a novel mathematical optimization-based methodology in which a given number of trees are simultaneously constructed, each of them providing a predicted class for the observations in the feature space. The classification rule is derived by assigning to each observation its most frequently predicted class among the trees in the forest. We provide a mixed integer linear programming formulation for the problem. We report the results of our computational experiments, from which we conclude that our proposed method has equal or superior performance compared with state-of-the-art tree-based classification methods. More importantly, it achieves high prediction accuracy with, for example, orders of magnitude fewer trees than random forests. We also present three real-world case studies showing that our methodology has very interesting implications in terms of interpretability.
翻訳日:2023-04-25 23:18:39 公開日:2023-04-24
# 共鳴ハロスコープの量子電磁力学に対する感度

Sensitivity of Resonant Axion Haloscopes to Quantum Electromagnetodynamics ( http://arxiv.org/abs/2211.09637v2 )

ライセンス: Link先を確認
Michael E. Tobar, Catriona A. Thomson, Benjamin T. McAllister, Maxim Goryachev, Anton Sokolov, Andreas Ringwald(参考訳) 近年,二者[arxiv:2205.02605[hep-ph]]により,陽子と磁性モノポールの相互作用が再検討されている。 これらの相互作用により従来の軸索電力学に重要な変化が生じることが示されており、軸索-光子結合パラメータ空間は1つのパラメータ$g_{a\gamma\gamma}$から3$(g_{a\gamma\gamma},g_{aAB},g_{aBB})$へと拡張される。 我々は、共鳴ハロスコープを用いて、$g_{aAB}$ および $g_{aBB}$ に対する感度を示す方法を決定するために、ポインティング定理を実装し、新しい手法で軸を探索し、磁化物質が存在するかどうかを間接的に決定することができる。

Recently interactions between putative axions and magnetic monopoles have been revisited by two of us [arXiv:2205.02605 [hep-ph]]. It has been shown that significant modifications to conventional axion electrodynamics arise due to these interactions, so that the axion-photon coupling parameter space is expanded from one parameter $g_{a\gamma\gamma}$ to three $(g_{a\gamma\gamma},g_{aAB},g_{aBB})$. We implement Poynting theorem to determine how to exhibit sensitivity to $g_{aAB}$ and $g_{aBB}$ using resonant haloscopes, allowing new techniques to search for axions and a possible indirect way to determine if magnetically charged matter exists.
翻訳日:2023-04-25 23:17:59 公開日:2023-04-24
# 広帯域ジョセフソンパラメトリックアイソレータ

Wideband Josephson Parametric Isolator ( http://arxiv.org/abs/2212.08563v2 )

ライセンス: Link先を確認
M. A. Beck, M. Selvanayagam, A. Carniol, S. Cairns, C. P. Mancini(参考訳) 超伝導量子ビットベースの量子コンピュータを構築するために必要な低温ハードウェアは、様々なマイクロ波部品を必要とする。 これらの要素にはマイクロ波カプラ、フィルタ、増幅器、循環器/アイソレータが含まれる。 従来の離散的なコンポーネントとして実装されたこの周辺ハードウェアの統合は、全体のフットプリント、熱負荷、ノイズの追加を削減し、量子ビット数が100以上の量子プロセッサをスケールアップする上で重要な課題である。 Ferrite--based microwave isolators, generally employed in the readout chain to decouple qubits and resonators from readout electronics, persist as one of the volumetrically largest devices still utilized as discrete components. Here we present an alternative two--port isolating integrated circuit derived from the DC Superconducting Quantum Interference Device (DC--SQUID). Non--reciprocal transmission is achieved using the three--wave microwave mixing properties of a flux-modulated DC--SQUID. We show that when multiple DC--SQUIDs are embedded in a multi--pole admittance inverting filter structure, the three--wave mixing derived from the flux pumping of the DC--SQUIDs can provide directional microwave power flow. For a three--pole filter device, we experimentally demonstrate a directionality greater than 15 dB over a 600 MHz bandwidth.

The cryogenic hardware required to build a superconducting qubit based quantum computer demands a variety of microwave components. These elements include microwave couplers, filters, amplifiers, and circulators/isolators. Traditionally implemented as discrete components, integration of this peripheral hardware, in an effort to reduce overall footprint, thermal load, and added noise, is a key challenge to scaling modern quantum processors with qubit counts climbing over the 100+ mark. Ferrite--based microwave isolators, generally employed in the readout chain to decouple qubits and resonators from readout electronics, persist as one of the volumetrically largest devices still utilized as discrete components. Here we present an alternative two--port isolating integrated circuit derived from the DC Superconducting Quantum Interference Device (DC--SQUID). Non--reciprocal transmission is achieved using the three--wave microwave mixing properties of a flux-modulated DC--SQUID. We show that when multiple DC--SQUIDs are embedded in a multi--pole admittance inverting filter structure, the three--wave mixing derived from the flux pumping of the DC--SQUIDs can provide directional microwave power flow. For a three--pole filter device, we experimentally demonstrate a directionality greater than 15 dB over a 600 MHz bandwidth.
翻訳日:2023-04-25 23:09:23 公開日:2023-04-24
# 光路変調を用いた表面音波の定量的光学画像化法

Quantitative optical imaging method for surface acoustic waves using optical path modulation ( http://arxiv.org/abs/2212.07369v6 )

ライセンス: Link先を確認
Ryusuke Hisatomi, Kotaro Taga, Ryo Sasaki, Yoichi Shiota, Takahiro Moriyama, Teruo Ono(参考訳) レイリー型表面音響波(SAW)は、その表面局在化、高電気制御性、低伝搬損失により、古典的および量子情報キャリアとして様々な分野で用いられている。 SAWと他の物理系、例えば磁化、電子電荷、電子スピンとの結合とハイブリダイゼーションは、最近のフォノニクスやスピントロニクスの焦点である。 表面波振幅の正確な測定は、結合強度を議論するためにしばしば必要となる。 しかし、そのような測定技術はごくわずかであり、概してかなり複雑な分析を必要とする。 そこで我々は,SAWを定量的に特徴付ける簡単な測定手法を開発し,実証する。 この技術は、光路変調により、コヒーレント駆動SAWによる表面の揺動を光学的に検出する。 また、ショットノイズ制限状態で測定システムが動作した場合、光路変調信号から光スポットの表面傾斜及び変位を導出することができる。 我々の実証技術は,SAW関連研究にとって重要なツールとなる。

A Rayleigh-type surface acoustic wave (SAW) is used in various fields as classical and quantum information carriers because of its surface localization, high electrical controllability, and low propagation loss. Coupling and hybridization between the SAW and other physical systems such as magnetization, electron charge, and electron spin are the recent focuses in phononics and spintronics. A precise measurement of the surface wave amplitude is often necessary to discuss the coupling strengths. However, there are only a few such measurement techniques and they generally require a rather complex analysis. Here we develop and demonstrate a straightforward measurement technique that can quantitatively characterize the SAW. The technique optically detects the surface waving due to the coherently driven SAW by the optical path modulation. Furthermore, when the measurement system operates in the shot-noise-limited regime, the surface slope and displacement at the optical spot can be deduced from the optical path modulation signal. Our demonstrated technique will be an important tool for SAW-related research.
翻訳日:2023-04-25 23:09:06 公開日:2023-04-24
# PyGFI: ハードウェアエラーに対するグラフニューラルネットワークのロバスト性の解析と向上

PyGFI: Analyzing and Enhancing Robustness of Graph Neural Networks Against Hardware Errors ( http://arxiv.org/abs/2212.03475v2 )

ライセンス: Link先を確認
Ruixuan Wang, Fred Lin, Daniel Moore, Sriram Sankar, Xun Jiao(参考訳) グラフニューラルネットワーク(GNN)は近年,グラフ構造化データの学習において有望な学習パラダイムとして登場し,レコメンデーションシステムやソーシャルネットワーク,電子設計自動化(EDA)など,さまざまな領域で広く成功している。 他のディープラーニング(DL)メソッドと同様に、GNNは高度なハードウェアシステムや専用のアクセラレータにデプロイされている。 しかし、GNNの人気と近年のハードウェアへのGNN導入の取り組みにもかかわらず、GNNのフォールトトレランスとレジリエンスは概して見過ごされている。 本論文は, DL手法のアルゴリズム的レジリエンスに着想を得て, ハードウェア欠陥とGNN精度の関係を理解することを目的とした, GNNレジリエンスの大規模かつ実証的研究を行う。 PyTorch上にカスタマイズされたフォールトインジェクションツールを開発することで、さまざまなGNNモデルやアプリケーションデータセットに対して広範なフォールトインジェクション実験を行う。 我々は,GNNモデルの誤差レジリエンスが,異なるモデルやアプリケーションデータセットに対して桁違いに変化することを観察した。 さらに,gnnのレジリエンス向上のために,低コストなエラー緩和機構を検討する。 このGNNレジリエンス研究は、将来のGNNアクセラレータ設計とアーキテクチャ最適化のための新たな方向性と機会を開くことを目的としている。

Graph neural networks (GNNs) have recently emerged as a promising learning paradigm in learning graph-structured data and have demonstrated wide success across various domains such as recommendation systems, social networks, and electronic design automation (EDA). Like other deep learning (DL) methods, GNNs are being deployed in sophisticated modern hardware systems, as well as dedicated accelerators. However, despite the popularity of GNNs and the recent efforts of bringing GNNs to hardware, the fault tolerance and resilience of GNNs have generally been overlooked. Inspired by the inherent algorithmic resilience of DL methods, this paper conducts, for the first time, a large-scale and empirical study of GNN resilience, aiming to understand the relationship between hardware faults and GNN accuracy. By developing a customized fault injection tool on top of PyTorch, we perform extensive fault injection experiments on various GNN models and application datasets. We observe that the error resilience of GNN models varies by orders of magnitude with respect to different models and application datasets. Further, we explore a low-cost error mitigation mechanism for GNN to enhance its resilience. This GNN resilience study aims to open up new directions and opportunities for future GNN accelerator design and architectural optimization.
翻訳日:2023-04-25 23:08:21 公開日:2023-04-24
# ClipFace: テキストガイドによる3Dモデル編集

ClipFace: Text-guided Editing of Textured 3D Morphable Models ( http://arxiv.org/abs/2212.01406v2 )

ライセンス: Link先を確認
Shivangi Aneja, Justus Thies, Angela Dai, Matthias Nie{\ss}ner(参考訳) ClipFaceはテクスチャ化された顔の3次元形態素モデルのテキスト誘導編集のための新しい自己教師型アプローチである。 具体的には,ユーザフレンドリーな言語プロンプトを用いて,表情の制御と3d顔の出現を可能にする。 制御性やテクスチャの表現性に制限がある3次元形態素モデルの幾何学的表現性を生かし,表現的,テクスチャ的,明瞭な顔を3次元で合成する自己教師付き生成モデルを開発した。 我々は,実RGB画像のコレクションに対する差別化レンダリングによって誘導される,対向的な自己指導訓練により,3次元顔の質の高いテクスチャ生成を可能にする。 制御可能な編集と操作は、3D形態素モデルのテクスチャと表現を適応させる言語プロンプトによって与えられる。 この目的のために,形態素モデルのテクスチャと表現潜在符号の両方を予測するニューラルネットワークを提案する。 我々のモデルは、事前訓練されたCLIPモデルに基づいて、差別化可能なレンダリングと損失を利用して、自己教師型で訓練される。 トレーニング後、我々のモデルはUV空間における顔のテクスチャと、表情の幾何学的変化とテクスチャ的変化を1つの前方通過で捉えるための表現パラメータを共同で予測する。 さらに,与えられたアニメーションシーケンスに対して,時間変化するテクスチャを生成する手法の適用性を示す。

We propose ClipFace, a novel self-supervised approach for text-guided editing of textured 3D morphable model of faces. Specifically, we employ user-friendly language prompts to enable control of the expressions as well as appearance of 3D faces. We leverage the geometric expressiveness of 3D morphable models, which inherently possess limited controllability and texture expressivity, and develop a self-supervised generative model to jointly synthesize expressive, textured, and articulated faces in 3D. We enable high-quality texture generation for 3D faces by adversarial self-supervised training, guided by differentiable rendering against collections of real RGB images. Controllable editing and manipulation are given by language prompts to adapt texture and expression of the 3D morphable model. To this end, we propose a neural network that predicts both texture and expression latent codes of the morphable model. Our model is trained in a self-supervised fashion by exploiting differentiable rendering and losses based on a pre-trained CLIP model. Once trained, our model jointly predicts face textures in UV-space, along with expression parameters to capture both geometry and texture changes in facial expressions in a single forward pass. We further show the applicability of our method to generate temporally changing textures for a given animation sequence.
翻訳日:2023-04-25 23:07:46 公開日:2023-04-24
# リカレント推論マシンを用いた重力レンズシステムにおける前景密度と背景輝度の画素再構成

Pixelated Reconstruction of Foreground Density and Background Surface Brightness in Gravitational Lensing Systems using Recurrent Inference Machines ( http://arxiv.org/abs/2301.04168v2 )

ライセンス: Link先を確認
Alexandre Adam, Laurence Perreault-Levasseur, Yashar Hezaveh and Max Welling(参考訳) 背景画像の歪みを定量化し,前景レンズの質量密度を再構築するために,強い重力レンズをモデル化することは困難であった。 重力レンズ画像の品質が高まるにつれて、その情報を完全に活用する作業は計算的にもアルゴリズム的にも困難になる。 本研究では,リカレント推論マシン(rim)に基づくニューラルネットワークを用いて,背景音源の未修正画像とレンズ質量密度分布を同時に画素マップとして再構成する。 本発明の方法は、物理モデル(レイトレーシングシミュレーション)を用いてデータを与えられた確率を最適化する過程を学習し、トレーニングデータを介してニューラルネットワークによって暗黙的に学習された事前のモデルパラメータ(ソースの画像及び画素密度マップ)を反復的に再構成する。 従来のパラメトリックモデルと比較すると,提案手法はより表現力が高く,複雑な質量分布を再構成することができる。

Modeling strong gravitational lenses in order to quantify the distortions in the images of background sources and to reconstruct the mass density in the foreground lenses has been a difficult computational challenge. As the quality of gravitational lens images increases, the task of fully exploiting the information they contain becomes computationally and algorithmically more difficult. In this work, we use a neural network based on the Recurrent Inference Machine (RIM) to simultaneously reconstruct an undistorted image of the background source and the lens mass density distribution as pixelated maps. The method iteratively reconstructs the model parameters (the image of the source and a pixelated density map) by learning the process of optimizing the likelihood given the data using the physical model (a ray-tracing simulation), regularized by a prior implicitly learned by the neural network through its training data. When compared to more traditional parametric models, the proposed method is significantly more expressive and can reconstruct complex mass distributions, which we demonstrate by using realistic lensing galaxies taken from the IllustrisTNG cosmological hydrodynamic simulation.
翻訳日:2023-04-25 21:28:00 公開日:2023-04-24
# 熱力学的相関不等式

Thermodynamic correlation inequality ( http://arxiv.org/abs/2301.03060v2 )

ライセンス: Link先を確認
Yoshihiko Hasegawa(参考訳) 不確実性関係は、物理システムが実行できる操作に基本的な限界を与える。 このレターは、古典マルコフ過程において、システムの現在の状態と将来の状態の関係を測定する相関関数を束縛する不確実性関係を示す。 得られた境界は熱力学的相関不等式と呼ばれ、相関関数の変化は力学活性からなる上界を持ち、マルコフ過程の活性の尺度である。 さらに, 得られた関係を線形応答関数に適用することにより, 摂動の効果が動的活動を構成する境界を持つことを示した。

Uncertainty relations place fundamental limits on the operations that physical systems can perform. This Letter presents uncertainty relations that bound the correlation function, which measures the relationship between a system's current and future states, in classical Markov processes. The obtained bounds, referred to as thermodynamic correlation inequalities, state that the change in the correlation function has an upper bound comprising the dynamical activity, a measure of the activity of a Markov process. Moreover, by applying the obtained relation to a linear response function, it is demonstrated that the effect of perturbation has a bound comprising the dynamical activity.
翻訳日:2023-04-25 21:27:41 公開日:2023-04-24
# 有限要素インスパイアされたハイパーグラフニューラルネットワーク : 流体力学シミュレーションへの応用

A Finite Element-Inspired Hypergraph Neural Network: Application to Fluid Dynamics Simulations ( http://arxiv.org/abs/2212.14545v2 )

ライセンス: Link先を確認
Rui Gao, Indu Kant Deo, Rajeev K. Jaiman(参考訳) ディープラーニング研究の新たなトレンドは、メッシュベースの連続体力学シミュレーションへのグラフニューラルネットワーク(GNN)の適用に焦点を当てている。 これらの学習フレームワークのほとんどは、各エッジが2つのノードを接続するグラフで動作する。 有限要素法におけるデータ接続に着想を得て,ノードをエッジではなく要素で接続してハイパーグラフを構築する手法を提案する。 ハイパーグラフメッセージパッシングネットワークは、局所剛性行列の計算過程を模倣するノード要素ハイパーグラフ上で定義される。 本稿では,この手法を有限要素インスパイアされたハイパーグラフニューラルネットワーク(FEIH($\phi$)-GNN)と呼ぶ。 さらに,提案するネットワークに回転等分散を付与し,非定常流動系のモデリング能力について検討する。 ネットワークの有効性は、円柱周りの流体の流れと翼配置という2つの一般的なベンチマーク問題で実証される。 補間レイノルズ数範囲内の$\phi$-GNNフレームワークを用いて、安定化された正確な時間的ロールアウト予測が得られる。 ネットワークはまた、訓練範囲から高いレイノルズ数領域に向かって適度に外挿することができる。

An emerging trend in deep learning research focuses on the applications of graph neural networks (GNNs) for mesh-based continuum mechanics simulations. Most of these learning frameworks operate on graphs wherein each edge connects two nodes. Inspired by the data connectivity in the finite element method, we present a method to construct a hypergraph by connecting the nodes by elements rather than edges. A hypergraph message-passing network is defined on such a node-element hypergraph that mimics the calculation process of local stiffness matrices. We term this method a finite element-inspired hypergraph neural network, in short FEIH($\phi$)-GNN. We further equip the proposed network with rotation equivariance, and explore its capability for modeling unsteady fluid flow systems. The effectiveness of the network is demonstrated on two common benchmark problems, namely the fluid flow around a circular cylinder and airfoil configurations. Stabilized and accurate temporal roll-out predictions can be obtained using the $\phi$-GNN framework within the interpolation Reynolds number range. The network is also able to extrapolate moderately towards higher Reynolds number domain out of the training range.
翻訳日:2023-04-25 21:27:14 公開日:2023-04-24
# 特徴空間におけるマルチモーダルデータ拡張の学習

Learning Multimodal Data Augmentation in Feature Space ( http://arxiv.org/abs/2212.14453v2 )

ライセンス: Link先を確認
Zichang Liu, Zhiqiang Tang, Xingjian Shi, Aston Zhang, Mu Li, Anshumali Shrivastava, Andrew Gordon Wilson(参考訳) テキスト、オーディオ、視覚データなどの複数のモードから共同で学習する能力は、インテリジェントシステムの決定的な特徴である。 マルチモーダルデータを活用するニューラルネットワークの設計には有望な進歩があるが、データ拡張の膨大な成功は、画像分類のような単一モーダルタスクに限られている。 実際、データの全体的な意味構造を保ちながら、各モダリティを増大させることは特に困難である。例えば、キャプションは、翻訳のような標準的な拡張が適用された後、画像の適切な記述にならないかもしれない。 さらに、特定のモダリティに適合しない合理的な変換を指定することは困難である。 本稿では,特徴空間におけるマルチモーダルデータの共用性を学習し,モダリティの同一性やモダリティ間の関係に制約を加えることなく,マルチモーダルデータを自動的に拡張する手法であるLearning Multimodal Data Augmentationを紹介する。 我々は,(1)マルチモーダルなディープラーニングアーキテクチャの性能を著しく向上させることができること,(2)これまで検討されていないモダリティの組み合わせに適用可能であること,(3)画像,テキスト,表データからなる幅広いアプリケーションに対して,最先端の成果が得られること,を示す。

The ability to jointly learn from multiple modalities, such as text, audio, and visual data, is a defining feature of intelligent systems. While there have been promising advances in designing neural networks to harness multimodal data, the enormous success of data augmentation currently remains limited to single-modality tasks like image classification. Indeed, it is particularly difficult to augment each modality while preserving the overall semantic structure of the data; for example, a caption may no longer be a good description of an image after standard augmentations have been applied, such as translation. Moreover, it is challenging to specify reasonable transformations that are not tailored to a particular modality. In this paper, we introduce LeMDA, Learning Multimodal Data Augmentation, an easy-to-use method that automatically learns to jointly augment multimodal data in feature space, with no constraints on the identities of the modalities or the relationship between modalities. We show that LeMDA can (1) profoundly improve the performance of multimodal deep learning architectures, (2) apply to combinations of modalities that have not been previously considered, and (3) achieve state-of-the-art results on a wide range of applications comprised of image, text, and tabular data.
翻訳日:2023-04-25 21:26:59 公開日:2023-04-24
# ツイスト量子ウォーク、一般化ディラック方程式、フェルミオン二重化

Twisted quantum walks, generalised Dirac equation and Fermion doubling ( http://arxiv.org/abs/2212.13859v3 )

ライセンス: Link先を確認
Nicolas Jolly and Giuseppe Di Molfetta(参考訳) 量子離散時間ウォーカーは、導入以来、アルゴリズムおよび幅広い輸送現象のモデリングおよびシミュレーションにおける応用を実証してきた。 これらは長い間、ディラック方程式の離散時間および離散空間の類似と見なされ、内部対称性のいくつかのため、量子場理論を正確にシミュレートするためにプリミティブとして用いられてきた。 本稿では、分散項を備えた一般化されたディラック作用素を連続極限として認める、ツイストドという新しい量子ウォークの族を紹介する。 さらに、エネルギースペクトルにおけるこの二次項は有効質量として作用し、よく知られたフェルミオン二重問題の正規化につながる。

Quantum discrete-time walkers have, since their introduction, demonstrated applications in algorithmic and in modeling and simulating a wide range of transport phenomena. They have long been considered the discrete-time and discrete space analogue of the Dirac equation and have been used as a primitive to simulate quantum field theories precisely because of some of their internal symmetries. In this paper we introduce a new family of quantum walks, said twisted, which admits, as continuous limit, a generalized Dirac operator equipped with a dispersion term. Moreover, this quadratic term in the energy spectrum acts as an effective mass, leading to a regularization of the well known Fermion doubling problem.
翻訳日:2023-04-25 21:26:17 公開日:2023-04-24
# 量子ホール液滴の断熱変形

Adiabatic Deformations of Quantum Hall Droplets ( http://arxiv.org/abs/2212.12935v2 )

ライセンス: Link先を確認
Blagoje Oblak and Benoit Estienne(参考訳) 平面の面積保存変形を、基礎となる計量と収束ポテンシャルの両方を変える「量子同相」を通して電子波動関数に作用すると考える。 このような変換の断熱的な配列はベリー相を生じさせ、相互作用の存在下でも多体流と密度の項で閉じた形で書けることを示した。 シーリングとせん断を一般化する大きな種類の変形に対して、位相の先頭は熱力学極限における超過渡的なアハロノフ・ボーム項(N 電子に対して N$^2$ に比例する)である。 ゲージ不変なサブリーディングパートナーは、強磁場の限界におけるエッジでのジャンプから位相への支配的な寄与が生じる電流のみを測定する。 この結果、単位面積当たりのベリー曲率は有限となり、ホール粘度を連想させる。 後者は我々の形式に含まれており、トーラス上の標準導出を回避し、量子シミュレータで観測するための現実的な実験的な設定を提案している。

We consider area-preserving deformations of the plane, acting on electronic wavefunctions through "quantomorphisms" that change both the underlying metric and the confining potential. We show that adiabatic sequences of such transformations produce Berry phases that can be written in closed form in terms of the many-body current and density, even in the presence of interactions. For a large class of deformations that generalize squeezing and shearing, the leading piece of the phase is a super-extensive Aharonov-Bohm term (proportional to N$^2$ for N electrons) in the thermodynamic limit. Its gauge-invariant subleading partner only measures the current, whose dominant contribution to the phase stems from a jump at the edge in the limit of strong magnetic fields. This results in a finite Berry curvature per unit area, reminiscent of the Hall viscosity. We show that the latter is in fact included in our formalism, bypassing its standard derivation on a torus and suggesting realistic experimental setups for its observation in quantum simulators.
翻訳日:2023-04-25 21:25:43 公開日:2023-04-24
# Baggingが見積もり不要の安定性を提供

Bagging Provides Assumption-free Stability ( http://arxiv.org/abs/2301.12600v2 )

ライセンス: Link先を確認
Jake A. Soloff, Rina Foygel Barber, Rebecca Willett(参考訳) バギングは機械学習モデルを安定化するための重要なテクニックである。 本稿では,任意のモデルに対するバギングの安定性に関する有限サンプル保証を導出する。 この結果から,データの分布,基本アルゴリズムの特性,あるいは共変数の次元性に関する仮定は得られない。 我々の保証は多くの種類の袋に当てはまり、定数まで最適である。 実験の結果,バグングは極めて不安定なベースアルゴリズムの安定化に有効であった。

Bagging is an important technique for stabilizing machine learning models. In this paper, we derive a finite-sample guarantee on the stability of bagging for any model. Our result places no assumptions on the distribution of the data, on the properties of the base algorithm, or on the dimensionality of the covariates. Our guarantee applies to many variants of bagging and is optimal up to a constant. Empirical results validate our findings, showing that bagging successfully stabilizes even highly unstable base algorithms.
翻訳日:2023-04-25 21:17:41 公開日:2023-04-24
# 電力(ネット)負荷の適応確率予測

Adaptive Probabilistic Forecasting of Electricity (Net-)Load ( http://arxiv.org/abs/2301.10090v2 )

ライセンス: Link先を確認
Joseph de Vilmarest, Jethro Browell, Matteo Fasiolo, Yannig Goude (EDF R\&D), Olivier Wintenberger (SU)(参考訳) 電力負荷予測は電力運用者と電力市場参加者にとって必要な能力である。 電力負荷の基本要因は, 局所的な発電, 需要応答, 熱・輸送の電化によって変化し, 負荷モデリングや予測の複雑さが増している。 我々はこの課題を2つの方法で解決する。 私たちのモデルは、利用可能な最新の観測結果を考慮して、基礎となるプロセスの変更に自動的に対応可能な予測戦略を作成します。 第2に,ポイント予測よりも確率論を考える。実際,電気システムの効率的かつ確実に運用するためには,不確実性定量化が必要である。 提案手法はkalmanフィルタを応用し,適応点負荷予測に有効である。 確率的予測は、点予測モデルの残差の量的回帰によって得られる。 我々は,オンライン勾配勾配勾配を用いた適応的分位回帰を実現する。複数の学習率と専門家の集約を考慮した勾配ステップサイズの選択は避ける。 本手法を,イギリスにおける地域ネット負荷と米国7大都市の需要の2つのデータセットに適用する。 適応的手法は、点予測と確率予測の両方のユースケースにおいて、予測性能を大幅に改善する。

Electricity load forecasting is a necessary capability for power system operators and electricity market participants. The proliferation of local generation, demand response, and electrification of heat and transport are changing the fundamental drivers of electricity load and increasing the complexity of load modelling and forecasting. We address this challenge in two ways. First, our setting is adaptive; our models take into account the most recent observations available, yielding a forecasting strategy able to automatically respond to changes in the underlying process. Second, we consider probabilistic rather than point forecasting; indeed, uncertainty quantification is required to operate electricity systems efficiently and reliably. Our methodology relies on the Kalman filter, previously used successfully for adaptive point load forecasting. The probabilistic forecasts are obtained by quantile regressions on the residuals of the point forecasting model. We achieve adaptive quantile regressions using the online gradient descent; we avoid the choice of the gradient step size considering multiple learning rates and aggregation of experts. We apply the method to two data sets: the regional net-load in Great Britain and the demand of seven large cities in the United States. Adaptive procedures improve forecast performance substantially in both use cases for both point and probabilistic forecasting.
翻訳日:2023-04-25 21:17:34 公開日:2023-04-24
# 自動対称性検出によるハミルトンニューラルネットワーク

Hamiltonian Neural Networks with Automatic Symmetry Detection ( http://arxiv.org/abs/2301.07928v2 )

ライセンス: Link先を確認
Eva Dierkes and Christian Offen and Sina Ober-Bl\"obaum and Kathrin Fla{\ss}kamp(参考訳) 近年、ハミルトニアンニューラルネットワーク (HNN) が導入され、ハミルトニアン系の力学方程式の学習に先立つ物理知識が取り入れられている。 これにより、データ駆動モデリングアプローチにもかかわらずシンプレクティックシステム構造が保存される。 しかし、対称性の保存にはさらなる注意が必要である。 本研究では,ニューラルネットワークに対称性を検出し,組み込むために,Lie代数フレームワークを用いてHNNを拡張した。 このアプローチは、システムの対称性群作用と総エネルギーを同時に学習することができる。 例として、カート上の振り子と天体力学からの2体問題を考える。

Recently, Hamiltonian neural networks (HNN) have been introduced to incorporate prior physical knowledge when learning the dynamical equations of Hamiltonian systems. Hereby, the symplectic system structure is preserved despite the data-driven modeling approach. However, preserving symmetries requires additional attention. In this research, we enhance HNN with a Lie algebra framework to detect and embed symmetries in the neural network. This approach allows to simultaneously learn the symmetry group action and the total energy of the system. As illustrating examples, a pendulum on a cart and a two-body problem from astrodynamics are considered.
翻訳日:2023-04-25 21:17:18 公開日:2023-04-24
# 絡み合い証人と多成分量子状態識別

Entanglement witness and multipartite quantum state discrimination ( http://arxiv.org/abs/2301.05420v2 )

ライセンス: Link先を確認
Donghoon Ha, Jeong San Kim(参考訳) マルチパーティの量子状態判別を考察し、分離可能な測定による最小エラー判別が絡み合いの証人の概念と密接に関連していることを示す。 絡み合い証人の特性に基づき, 分離可能な測定により, 最小誤差識別に必要な条件および/又は十分な条件を定めている。 また, 最大成功確率の上限の条件を, あらゆる分離可能な測定値に対して提示する。 この結果は多次元多部量子状態の例によって示される。 最後に、エンタングルメント証人の観点から体系的な方法を提供し、状態識別における非局所性を示す多成分量子状態アンサンブルを構築する。

We consider multipartite quantum state discrimination and show that the minimum-error discrimination by separable measurements is closely related to the concept of entanglement witness. Based on the properties of entanglement witness, we establish some necessary and/or sufficient conditions on minimum-error discrimination by separable measurements. We also provide some conditions on the upper bound of the maximum success probability over all possible separable measurements. Our results are illustrated by examples of multidimensional multipartite quantum states. Finally, we provide a systematic way in terms of the entanglement witness to construct multipartite quantum state ensembles showing nonlocality in state discrimination.
翻訳日:2023-04-25 21:16:36 公開日:2023-04-24
# リーマンゼータ関数の高次SUSY-QM、量子XPモデルおよび零点

High-Order SUSY-QM, the Quantum XP Model and zeroes of the Riemann Zeta function ( http://arxiv.org/abs/2301.05360v2 )

ライセンス: Link先を確認
Juan D Garc\'ia-Mu\~noz, A Raya and Y Concha-S(参考訳) 超対称量子力学(susy-qm)の一階と二階のアルゴリズムを用いて、スペクトルがリーマンゼータ関数 $\zeta(s)$ の零点と関係している量子力学的ハミルトニアンを構成する。 Das と Kalauni (DK) のモデルに触発され、0<Re[s]<1$ のこの関数に対応し、分解エネルギーを 0 に等し、波動関数 $|x|^{-S}$, $S\in\mathbb{C}$ をアルゴリズムのシード解として、XP のような作用素を得る。 したがって、ゼロエネルギーモードが複素平面の臨界線 $Re[s]=1/2$ に沿って$\zeta(s)$ の非自明な零点とちょうど一致するような SUSY-QM パートナーハミルトニアンを構成する。 さらに、SUSY-QMパートナーポテンシャルが自由粒子に対応するDKの場合とは異なり、我々のパートナーポテンシャルは複素結合を持つ逆2乗距離ポテンシャルの族に属する。

Making use of the first- and second-order algorithms of supersymmetric quantum mechanics (SUSY-QM), we construct quantum mechanical Hamiltonians whose spectra are related to the zeroes of the Riemann Zeta function $\zeta(s)$. Inspired by the model of Das and Kalauni (DK), which corresponds to this function in the strip $0<Re[s]<1$, and taking the factorization energy equal to zero, we use the wave function $|x|^{-S}$, $S\in\mathbb{C}$, as a seed solution for our algorithms, obtaining XP-like operators. Thus, we construct SUSY-QM partner Hamiltonians whose zero energy mode locates exactly the nontrivial zeroes of $\zeta(s)$ along the critical line $Re[s]=1/2$ in the complex plane. We further find that unlike the DK case, where the SUSY-QM partner potentials correspond to free particles, our partner potentials belong to the family of inverse squared distance potentials with complex couplings.
翻訳日:2023-04-25 21:16:27 公開日:2023-04-24
# VITR:クロスモーダル情報検索のための関係焦点学習による視覚変換器の拡張

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval ( http://arxiv.org/abs/2302.06350v2 )

ライセンス: Link先を確認
Yan Gong and Georgina Cosma(参考訳) リレーショナルなクロスモーダルな情報検索は,ユーザクエリで表現された関係に基づく情報検索に重点を置いており,情報検索アプリケーションや次世代検索エンジンでは特に重要である。 Contrastive Language-Image Pre-Training (CLIP) のような事前訓練されたネットワークは、クロスモーダル学習タスクにおいて最先端のパフォーマンスを達成したが、これらのネットワークで使用されるビジョントランスフォーマー(ViT)は、画像領域の関係にフォーカスする能力に制限がある。 特に、vitは、画像領域と記述のアライメントを考慮せずに、画像とグローバルレベルでの関連記述とをマッチングするように訓練される。 本稿では、ローカルエンコーダに基づく画像領域関係の抽出と推論により、ViTを強化する新しいネットワークであるVITRを紹介する。 VITRは、画像中の領域関係を抽出し、推論するためのViTベースのクロスモーダルネットワークの機能を拡張すること、および、画像と記述間の類似度スコアを予測するために、グローバル知識を用いて推論結果を集約すること、の2つの主要なコンポーネントから構成される。 Flickr30K, RefCOCOg, CLEVRデータセット上の相互モーダル情報検索タスクに提案したネットワークを適用して実験を行った。 その結果、vtrネットワークはclip、vse$\infty$、vsrn++など、画像間およびテキスト間クロスモーダル情報検索タスクにおいて、他の最先端ネットワークよりも優れていた。

Relation-focused cross-modal information retrieval focuses on retrieving information based on relations expressed in user queries, and it is particularly important in information retrieval applications and next-generation search engines. While pre-trained networks like Contrastive Language-Image Pre-training (CLIP) have achieved state-of-the-art performance in cross-modal learning tasks, the Vision Transformer (ViT) used in these networks is limited in its ability to focus on image region relations. Specifically, ViT is trained to match images with relevant descriptions at the global level, without considering the alignment between image regions and descriptions. This paper introduces VITR, a novel network that enhances ViT by extracting and reasoning about image region relations based on a Local encoder. VITR comprises two main components: (1) extending the capabilities of ViT-based cross-modal networks to extract and reason with region relations in images; and (2) aggregating the reasoned results with the global knowledge to predict the similarity scores between images and descriptions. Experiments were carried out by applying the proposed network to relation-focused cross-modal information retrieval tasks on the Flickr30K, RefCOCOg, and CLEVR datasets. The results revealed that the proposed VITR network outperformed various other state-of-the-art networks including CLIP, VSE$\infty$, and VSRN++ on both image-to-text and text-to-image cross-modal information retrieval tasks.
翻訳日:2023-04-25 21:08:45 公開日:2023-04-24
# 適応サンプリング点雲で定義される多様体上のゲントルスト昇華ダイナミクス

Gentlest ascent dynamics on manifolds defined by adaptively sampled point-clouds ( http://arxiv.org/abs/2302.04426v2 )

ライセンス: Link先を確認
Juan M. Bello-Rivas, Anastasia Georgiou, Hannes Vandecasteele, and Ioannis G. Kevrekidis(参考訳) 力学系の鞍点を見つけることは分子系の希少事象の研究のような実用的な応用において重要な問題である。 Gentlest Ascent dynamics (GAD) は、力学系においてサドル点を見つけようとする多くのアルゴリズムの1つである。 これは、元のシステムの鞍点が安定平衡となる新しい力学系を導出することで機能する。 GADは最近、等式制約によって記述され、外在的な定式化で与えられる多様体(微分代数方程式)上の力学系の研究に一般化された。 本稿では,内在的視点を用いて定式化された点雲で定義される多様体へのGADの拡張について述べる。 これらの点雲は、初期配座(典型的には安定平衡近傍)からサドル点へとシステムを駆動する反復過程の間に適応的にサンプリングされる。 我々の手法は反応器(初期コンフォーメーション)を必要とし、明示的な制約方程式を指定する必要はなく、純粋にデータ駆動である。

Finding saddle points of dynamical systems is an important problem in practical applications such as the study of rare events of molecular systems. Gentlest ascent dynamics (GAD) is one of a number of algorithms in existence that attempt to find saddle points in dynamical systems. It works by deriving a new dynamical system in which saddle points of the original system become stable equilibria. GAD has been recently generalized to the study of dynamical systems on manifolds (differential algebraic equations) described by equality constraints and given in an extrinsic formulation. In this paper, we present an extension of GAD to manifolds defined by point-clouds, formulated using the intrinsic viewpoint. These point-clouds are adaptively sampled during an iterative process that drives the system from the initial conformation (typically in the neighborhood of a stable equilibrium) to a saddle point. Our method requires the reactant (initial conformation), does not require the explicit constraint equations to be specified, and is purely data-driven.
翻訳日:2023-04-25 21:07:36 公開日:2023-04-24
# 自動運転のための幾何学的ディープラーニング - CommonRoad-Geometricでグラフニューラルネットワークのパワーを解き放つ

Geometric Deep Learning for Autonomous Driving: Unlocking the Power of Graph Neural Networks With CommonRoad-Geometric ( http://arxiv.org/abs/2302.01259v2 )

ライセンス: Link先を確認
Eivind Meyer, Maurice Brenner, Bowen Zhang, Max Schickert, Bilal Musani, and Matthias Althoff(参考訳) ヘテロジニアスグラフは、さまざまなトラフィック参加者と基盤となる道路インフラストラクチャ間の複雑なインタラクション効果をモデル化できるため、トラフィックに対して強力なデータ表現を提供する。 ディープラーニングフレームワークとしてグラフニューラルネットワーク(gnns)が最近登場し、グラフ構造を軌道予測などのさまざまな機械学習アプリケーションで効率的に活用できるようになった。 最初に提案したPythonフレームワークは、トラフィックシナリオから標準化されたグラフデータセットを抽出する、使いやすく、完全にカスタマイズ可能なデータ処理パイプラインを提供する。 GNNベースの自動運転研究のためのプラットフォームを提供することで、アプローチ間の互換性を改善し、研究者はデータセットキュレーションではなくモデル実装に集中することができる。

Heterogeneous graphs offer powerful data representations for traffic, given their ability to model the complex interaction effects among a varying number of traffic participants and the underlying road infrastructure. With the recent advent of graph neural networks (GNNs) as the accompanying deep learning framework, the graph structure can be efficiently leveraged for various machine learning applications such as trajectory prediction. As a first of its kind, our proposed Python framework offers an easy-to-use and fully customizable data processing pipeline to extract standardized graph datasets from traffic scenarios. Providing a platform for GNN-based autonomous driving research, it improves comparability between approaches and allows researchers to focus on model implementation instead of dataset curation.
翻訳日:2023-04-25 21:07:14 公開日:2023-04-24
# 位置依存有効質量を持つ半圧高調波振動子モデルのウィグナー関数

The Wigner function of a semiconfined harmonic oscillator model with a position-dependent effective mass ( http://arxiv.org/abs/2302.12673v3 )

ライセンス: Link先を確認
S.M. Nagiyev, A.M. Jafarova and E.I. Jafarov(参考訳) 我々は、量子調和振動子モデルに対するウィグナー関数の観点から位相空間表現の概念を開発し、その位置によって変化する質量を通して半収束効果を示す。 このような半閉じ込め量子系に対するウィグナー分布関数の解析計算に新たな手法を適用した。 この方法では、量子分布関数の定義における積分のばらつきを抑えることができ、半収束振動子モデルの定常状態に対する解析式の計算に繋がる。 この量子系に対する応用外等質場の存在と欠如の両方のケースについて研究した。 得られたウィグナー分布関数の正確な表現は、第一種およびラゲール多項式のベッセル関数を介して表現される。 さらに、いくつかの特殊な事例と限界を詳細に論じる。

We develop a phase-space representation concept in terms of the Wigner function for a quantum harmonic oscillator model that exhibits the semiconfinement effect through its mass varying with the position. The new method is applied for the analytical computation of the Wigner distribution function for such a semiconfinement quantum system. The method allows for suppression of the divergence of the integrand in the definition of the quantum distribution function and leads to the computation of its analytical expressions for the stationary states of the semiconfined oscillator model. Both cases of the presence and absence of the applied external homogeneous field for this quantum system are studied. Obtained exact expressions of the Wigner distribution function are expressed through the Bessel function of the first kind and Laguerre polynomials. Further, some of the special cases and limits are discussed in detail.
翻訳日:2023-04-25 20:59:47 公開日:2023-04-24
# 高解像度リモートセンシング画像を用いた旧地すべり検出のための反復分類とセマンティックセグメンテーションネットワーク

An Iterative Classification and Semantic Segmentation Network for Old Landslide Detection Using High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2302.12420v2 )

ライセンス: Link先を確認
Zili Lu, Yuexing Peng, Wei Li, Junchuan Yu, Daqing Ge, Wei Xiang(参考訳) 古い地すべり検出には、その形態的特徴が長期間にわたって部分的にあるいは強固に変化し、周囲とはほとんど違いがないため、大きな課題が存在する。 さらに、小さなサンプル問題も深層学習を制限する。 本稿では,2つのネットワークで共有される特徴抽出器を反復的にアップグレードすることにより,オブジェクトレベルの分類性能と画素レベルの分類性能を大幅に向上させるイテレーティブな分類とセマンティックセマンティックセマンティクスネットワーク(ICSSN)を開発した。 対象レベルのコントラスト学習(OCL)戦略は,大域的な特徴抽出を実現するためのシアメネットワークを備えたオブジェクト分類サブネットワークにおいて採用され,セマンティックセグメンテーションサブネットワークではサブオブジェクトレベルのコントラスト学習(SOCL)パラダイムが設計され,地すべりの境界から健全な特徴を効率的に抽出する。 さらに、オブジェクトレベルとピクセルレベルの両方の分類性能が改善されるように、セマンティック空間における特徴を融合する反復的トレーニング戦略を詳しく検討する。 提案したICSSNは実地すべりデータセットに基づいて評価され,実験結果から旧地すべり検出の分類とセグメンテーション精度を大幅に向上できることが示された。 セマンティクスセグメンテーションタスクでは,ベースラインと比較して,f1スコアが0.5054から0.5448に,miouが0.6405から0.6610に,地すべりiouが0.3381から0.3743に,旧地すべりの物体レベル検出精度が0.55から0.9に向上した。 対象分類タスクでは、F1スコアは0.8846から0.9230に増加し、精度スコアは0.8375から0.8875に上昇する。

Huge challenges exist for old landslide detection because their morphology features have been partially or strongly transformed over a long time and have little difference from their surrounding. Besides, small-sample problem also restrict in-depth learning. In this paper, an iterative classification and semantic segmentation network (ICSSN) is developed, which can greatly enhance both object-level and pixel-level classification performance by iteratively upgrading the feature extractor shared by two network. An object-level contrastive learning (OCL) strategy is employed in the object classification sub-network featuring a siamese network to realize the global features extraction, and a sub-object-level contrastive learning (SOCL) paradigm is designed in the semantic segmentation sub-network to efficiently extract salient features from boundaries of landslides. Moreover, an iterative training strategy is elaborated to fuse features in semantic space such that both object-level and pixel-level classification performance are improved. The proposed ICSSN is evaluated on the real landslide data set, and the experimental results show that ICSSN can greatly improve the classification and segmentation accuracy of old landslide detection. For the semantic segmentation task, compared to the baseline, the F1 score increases from 0.5054 to 0.5448, the mIoU improves from 0.6405 to 0.6610, the landslide IoU improved from 0.3381 to 0.3743, and the object-level detection accuracy of old landslides is enhanced from 0.55 to 0.9. For the object classification task, the F1 score increases from 0.8846 to 0.9230, and the accuracy score is up from 0.8375 to 0.8875.
翻訳日:2023-04-25 20:59:36 公開日:2023-04-24
# 深層学習における最適化手法 -総括-

Optimization Methods in Deep Learning: A Comprehensive Overview ( http://arxiv.org/abs/2302.09566v2 )

ライセンス: Link先を確認
David Shulman(参考訳) 近年,画像認識,自然言語処理,音声認識などの分野において,ディープラーニングは大きな成功を収めている。 ディープラーニングの有効性は、ディープニューラルネットワークのトレーニングに使用される最適化方法に大きく依存する。 本稿では,Stochastic Gradient Descent,Adagrad,Adadelta,RMSpropといった一階最適化手法の概要と,NesterovAccelered gradient,Adam,Nadam,AdaMax,AMSGradといった最近の運動量に基づく適応勾配法について述べる。 また,深層学習における最適化に伴う課題を議論し,重み初期化,バッチ正規化,レイヤ正規化など,これらの課題に対処する手法を検討する。 最後に、異なるディープラーニングタスクとデータセットの最適化方法を選択するための推奨事項を提供する。 本論文は,深層学習における最適化手法の包括的ガイドであり,この分野の研究者や実践者の参考として利用できる。

In recent years, deep learning has achieved remarkable success in various fields such as image recognition, natural language processing, and speech recognition. The effectiveness of deep learning largely depends on the optimization methods used to train deep neural networks. In this paper, we provide an overview of first-order optimization methods such as Stochastic Gradient Descent, Adagrad, Adadelta, and RMSprop, as well as recent momentum-based and adaptive gradient methods such as Nesterov accelerated gradient, Adam, Nadam, AdaMax, and AMSGrad. We also discuss the challenges associated with optimization in deep learning and explore techniques for addressing these challenges, including weight initialization, batch normalization, and layer normalization. Finally, we provide recommendations for selecting optimization methods for different deep learning tasks and datasets. This paper serves as a comprehensive guide to optimization methods in deep learning and can be used as a reference for researchers and practitioners in the field.
翻訳日:2023-04-25 20:58:57 公開日:2023-04-24
# AfriSenti: アフリカの言語に対するTwitterの感情分析ベンチマーク

AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages ( http://arxiv.org/abs/2302.08956v3 )

ライセンス: Link先を確認
Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, Nedjma Ousidhoum, David Ifeoluwa Adelani, Seid Muhie Yimam, Ibrahim Sa'id Ahmad, Meriem Beloucif, Saif M. Mohammad, Sebastian Ruder, Oumaima Hourrane, Pavel Brazdil, Felermino D\'ario M\'ario Ant\'onio Ali, Davis David, Salomey Osei, Bello Shehu Bello, Falalu Ibrahim, Tajuddeen Gwadabe, Samuel Rutunda, Tadesse Belay, Wendimu Baye Messelle, Hailu Beshada Balcha, Sisay Adugna Chala, Hagos Tesfahun Gebremichael, Bernard Opoku, Steven Arthur(参考訳) アフリカには6つの言語族から2000以上の言語があり、全大陸で最も言語多様性が高い。 これには75の言語があり、それぞれ100万以上の話者がいる。 しかし、アフリカ語に関するNLP研究はほとんど行われていない。 このような研究を可能にする上で重要なのは、高品質な注釈付きデータセットの可用性だ。 本稿では,14のアフリカ語(アムハラ語,アルジェリア語,ハウサ語,イボ語,キニャルワンダ語,モロッコ語,モザンビーク語,ポルトガル語,ナイジェリア・ピジン語,オロモ語,スワヒリ語,ティグリニャ語,twi,xitsonga,yor\`ub\'a)における110,000以上のツイートの14の感情データセットからなるafrisentiを紹介する。 データは、最初のAfro中心のSemEval共有タスクであるSemEval 2023 Task 12で使用される。 データ収集手法、アノテーションプロセス、および各データセットをキュレートする際の関連する課題について述べる。 感情分類基準の異なる実験を行い,その有用性について考察する。 afrisentiが低表現言語で新しい作業を可能にすることを願っています。 データセットはhttps://github.com/afrisenti-semeval/afrisent-semeval-2023で利用可能であり、hughingfaceデータセットとしてロードすることもできる(https://huggingface.co/datasets/shmuhammad/afrisenti)。

Africa is home to over 2000 languages from over six language families and has the highest linguistic diversity among all continents. This includes 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial in enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, which consists of 14 sentiment datasets of 110,000+ tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\'a) from four language families annotated by native speakers. The data is used in SemEval 2023 Task 12, the first Afro-centric SemEval shared task. We describe the data collection methodology, annotation process, and related challenges when curating each of the datasets. We conduct experiments with different sentiment classification baselines and discuss their usefulness. We hope AfriSenti enables new work on under-represented languages. The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023 and can also be loaded as a huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti).
翻訳日:2023-04-25 20:57:42 公開日:2023-04-24
# Fourier Analysisがランタイム分析に到達 - プラトー上の精密ランタイム

Fourier Analysis Meets Runtime Analysis: Precise Runtimes on Plateaus ( http://arxiv.org/abs/2302.08021v2 )

ライセンス: Link先を確認
Benjamin Doerr, Andrew James Kelley(参考訳) 本研究では, 離散フーリエ解析に基づく新しい手法を提案し, 進化的アルゴリズムがプラトーに費やす時間を解析する。 これはすぐに、garnier, kallel, schoenauer (1999) による針問題に対する$(1+1)$進化アルゴリズムの期待実行時間の古典的な推定の簡潔な証明を与える。 また、この手法を用いて、$(1+1)$の進化的アルゴリズムのランタイムを、$n/\ell$の有効サイズの2^\ell-1$からなる新しいベンチマークで解析する。 そこで,本手法では,静的および適合度に依存した変異率を推定する。 また、漸近的に最適な静的および適合依存的な突然変異率も決定する。 $\ell = o(n)$の場合、最適な静的突然変異率はおよそ1.59/n$である。 最初の$k$の適合ビットが見つかったとき、最適な適合依存突然変異率は漸近的に1/(k+1)$である。 これらの結果は、これまでのところ、シングルインスタンス問題のLeadingOnesでのみ証明されている。 LeadingOnesの他の重要な結果に対して、同様の拡張が真であると期待しています。 また、フーリエ解析アプローチが他の高原問題にも適用可能であることも楽観的です。

We propose a new method based on discrete Fourier analysis to analyze the time evolutionary algorithms spend on plateaus. This immediately gives a concise proof of the classic estimate of the expected runtime of the $(1+1)$ evolutionary algorithm on the Needle problem due to Garnier, Kallel, and Schoenauer (1999). We also use this method to analyze the runtime of the $(1+1)$ evolutionary algorithm on a new benchmark consisting of $n/\ell$ plateaus of effective size $2^\ell-1$ which have to be optimized sequentially in a LeadingOnes fashion. Using our new method, we determine the precise expected runtime both for static and fitness-dependent mutation rates. We also determine the asymptotically optimal static and fitness-dependent mutation rates. For $\ell = o(n)$, the optimal static mutation rate is approximately $1.59/n$. The optimal fitness dependent mutation rate, when the first $k$ fitness-relevant bits have been found, is asymptotically $1/(k+1)$. These results, so far only proven for the single-instance problem LeadingOnes, are thus true in a much broader respect. We expect similar extensions to be true for other important results on LeadingOnes. We are also optimistic that our Fourier analysis approach can be applied to other plateau problems as well.
翻訳日:2023-04-25 20:57:11 公開日:2023-04-24
# SILOP:オブジェクト周辺をベースとした画像ラベルを用いたセマンティックセグメンテーション自動化フレームワーク

SILOP: An Automated Framework for Semantic Segmentation Using Image Labels Based on Object Perimeters ( http://arxiv.org/abs/2303.07892v2 )

ライセンス: Link先を確認
Erik Ostrowski and Bharath Srinivas Prabakaran and Muhammad Shafique(参考訳) 画像レベルラベルのみを使用して高品質な意味セグメンテーション予測を実現することで、新しいレベルの現実世界の適用性が実現される。 最先端のネットワークは信頼性の高い予測を提供するが、これらの結果を実現するための手作りのピクセルワイドアノテーションの量は、現実の多くのアプリケーションでは実現不可能である。 そのため、クラスアクティベーションマップ~\cite{CAM} (CAMs)のような分類器ベースのネットワークをベースとして、いくつかの研究がすでにこのボトルネックをターゲットにしている。 CAMのファジィ境界の弱点と不完全な予測に対処するために、最先端のアプローチは、分類器の損失に規則を追加することや、その後にピクセル類似性に基づく改善を使用することにのみ依存する。 本稿では,サリエンシ向上のためにオブジェクト周辺計を用いた追加モジュールを導入するフレームワークを提案する。 オブジェクトと背景を分離する行として、オブジェクト周辺情報を定義します。 我々の新しいPerimeterFitモジュールは、ピクセル類似性に基づくネットワークを使用する前に、CAM予測を事前に再定義する。 このようにして、我々のPerimeterFitは、偽陰率を同時に改善しながら、CAM予測の品質を向上させる。 我々は,最先端の非教師付きセマンティックセグメンテーションネットワークとエッジ検出手法を幅広く検討し,よりシャープな周辺空間で物体の位置を予測できるようにした。 perimeterfitモジュールを使わずにフレームワークを1.5%改善しました。 画像レベルのセマンティクスセグメンテーションのための既存の最先端フレームワークをsilopが強化することを示すために,徹底的な分析を行う。 フレームワークはオープンソースで、https://github.com/ErikOstrowski/SILOP.comでオンラインでアクセス可能である。

Achieving high-quality semantic segmentation predictions using only image-level labels enables a new level of real-world applicability. Although state-of-the-art networks deliver reliable predictions, the amount of handcrafted pixel-wise annotations to enable these results are not feasible in many real-world applications. Hence, several works have already targeted this bottleneck, using classifier-based networks like Class Activation Maps~\cite{CAM} (CAMs) as a base. Addressing CAM's weaknesses of fuzzy borders and incomplete predictions, state-of-the-art approaches rely only on adding regulations to the classifier loss or using pixel-similarity-based refinement after the fact. We propose a framework that introduces an additional module using object perimeters for improved saliency. We define object perimeter information as the line separating the object and background. Our new PerimeterFit module will be applied to pre-refine the CAM predictions before using the pixel-similarity-based network. In this way, our PerimeterFit increases the quality of the CAM prediction while simultaneously improving the false negative rate. We investigated a wide range of state-of-the-art unsupervised semantic segmentation networks and edge detection techniques to create useful perimeter maps, which enable our framework to predict object locations with sharper perimeters. We achieved up to 1.5% improvement over frameworks without our PerimeterFit module. We conduct an exhaustive analysis to illustrate that SILOP enhances existing state-of-the-art frameworks for image-level-based semantic segmentation. The framework is open-source and accessible online at https://github.com/ErikOstrowski/SILOP.
翻訳日:2023-04-25 20:51:39 公開日:2023-04-24
# バッチスタイル標準化による自己指導型学習におけるドメイン不変性の改善

Improving Domain-Invariance in Self-Supervised Learning via Batch Styles Standardization ( http://arxiv.org/abs/2303.06088v3 )

ライセンス: Link先を確認
Marin Scalbert and Maria Vakalopoulou and Florent Couzini\'e-Devy(参考訳) 近年の自己教師付き学習(ssl)の台頭は、限定されたラベル付きデータで学習するための推奨戦略の1つであり、豊富なラベル付きデータによってこれらのモデルが広く使われるようになった。 それらは通常、事前訓練され、微調整され、同じデータ分布、すなわち、分配内設定で評価される。 しかし、Unsupervised Domain Generalization (UDG)が解決しようとしている課題である、アウト・オブ・ディストリビューション評価のシナリオでは、うまく機能しない傾向にある。 本稿では,画像のスタイルをバッチで標準化する新しい手法を提案する。 バッチスタイルの標準化は、フーリエベースの拡張に依存しており、スプリアスな相関が機能に漏れることを防ぐためにsslのドメイン不変性を促進する。 バッチスタイルの標準化とよく知られたコントラストベースのメソッドSimCLRの組み合わせは、CLaSSy$\textbf{C}$ontrastive $\textbf{L}$e$\textbf{a}$rning with $\textbf{S}$tandardized $\textbf{S}$t$\textbf{y}$lesという新しいUDGメソッドにつながる。 CLaSSyは、ドメインラベルに依存しておらず、多数のドメインを扱うためにスケーラブルであるため、以前のメソッドよりも大きなアドバンテージを提供する。 様々なUDGデータセットの実験結果から,既存のUDG法と比較してCLaSSyの優れた性能を示した。 最後に、異なるバックボーンアーキテクチャ(畳み込みベース、トランスフォーマーベース)を考慮して、コントラストベースと非コントラストベースのSSLメソッドであるSWaVとMSNをそれぞれ拡張することで、バッチスタイルの標準化の汎用性を実証する。

The recent rise of Self-Supervised Learning (SSL) as one of the preferred strategies for learning with limited labeled data, and abundant unlabeled data has led to the widespread use of these models. They are usually pretrained, finetuned, and evaluated on the same data distribution, i.e., within an in-distribution setting. However, they tend to perform poorly in out-of-distribution evaluation scenarios, a challenge that Unsupervised Domain Generalization (UDG) seeks to address. This paper introduces a novel method to standardize the styles of images in a batch. Batch styles standardization, relying on Fourier-based augmentations, promotes domain invariance in SSL by preventing spurious correlations from leaking into the features. The combination of batch styles standardization with the well-known contrastive-based method SimCLR leads to a novel UDG method named CLaSSy ($\textbf{C}$ontrastive $\textbf{L}$e$\textbf{a}$rning with $\textbf{S}$tandardized $\textbf{S}$t$\textbf{y}$les). CLaSSy offers serious advantages over prior methods, as it does not rely on domain labels and is scalable to handle a large number of domains. Experimental results on various UDG datasets demonstrate the superior performance of CLaSSy compared to existing UDG methods. Finally, the versatility of the proposed batch styles standardization is demonstrated by extending respectively the contrastive-based and non-contrastive-based SSL methods, SWaV and MSN, while considering different backbone architectures (convolutional-based, transformers-based).
翻訳日:2023-04-25 20:51:08 公開日:2023-04-24
# 量子真空の偏りによるマクロ確率分布の制御

Biasing the quantum vacuum to control macroscopic probability distributions ( http://arxiv.org/abs/2303.03455v2 )

ライセンス: Link先を確認
Charles Roques-Carmes, Yannick Salamin, Jamison Sloan, Seou Choi, Gustavo Velez, Ethan Koskas, Nicholas Rivera, Steven E. Kooi, John D. Joannopoulos, Marin Soljacic(参考訳) 量子場理論の最も重要な洞察の1つは、電磁場は変動しなければならないということである。 真空状態においても、電場と磁場は非零分散を持ち、自発的放出、ラムシフト、カシミール効果などのユビキタスな効果をもたらす。 これらの「真空ゆらぎ」は完全なランダムネスの源としても利用され、例えば完全なランダムなフォトニックビットを生成する。 これらの成果にもかかわらず、確率計算のような分野における量子ランダム性は、フォトニックプラットフォームではまだ実現されていない制御可能な確率分布に依存する。 本研究では、真空レベルの「バイアス」場を多安定光学系に注入することで「バイアス」量子ランダム性の制御可能な源が得られることを示す。 我々はこの概念を光パラメトリック発振器(OPO)で実証する。 通常、基底状態から開始されるOPOは、同じ確率で2つの退化相状態 (0 と $\pi$) の1つの信号場を開発する。 平均的に1光子未満のバイアスパルスを注入することにより、2つの出力状態に関連する確率を制御し、初めて制御可能なフォトニック確率ビット(p-bit)を得る。 我々は、この過程の背後にある物理学に光を当て、理論と実験の間の定量的な一致を示した。 最後に,本システムは単一光子レベルよりはるかに低いバイアス場パルスの時間的形状に敏感であることを示すことにより,サブ光子レベル場を検知する手法の可能性を示す。 非線形駆動散逸系における確率的量子力学の研究のための新しいプラットフォームが提案され、超高速フォトニック確率計算への応用や、非常に弱い場の検出が期待できる。

One of the most important insights of quantum field theory is that electromagnetic fields must fluctuate. Even in the vacuum state, the electric and magnetic fields have a nonzero variance, leading to ubiquitous effects such as spontaneous emission, the Lamb shift, the Casimir effect, and more. These "vacuum fluctuations" have also been harnessed as a source of perfect randomness, for example to generate perfectly random photonic bits. Despite these achievements, many potential applications of quantum randomness in fields such as probabilistic computing rely on controllable probability distributions, which have not yet been realized on photonic platforms. In this work, we show that the injection of vacuum-level "bias" fields into a multi-stable optical system enables a controllable source of "biased" quantum randomness. We demonstrate this concept in an optical parametric oscillator (OPO). Ordinarily, an OPO initiated from the ground state develops a signal field in one of two degenerate phase states (0 and $\pi$) with equal probability. By injecting bias pulses which contain less than one photon on average, we control the probabilities associated with the two output states, leading to the first controllable photonic probabilistic bit (p-bit). We shed light on the physics behind this process, showing quantitative agreement between theory and experiment. Finally, we demonstrate the potential of our approach for sensing sub-photon level fields by showing that our system is sensitive to the temporal shape of bias field pulses far below the single photon level. Our results suggest a new platform for the study of stochastic quantum dynamics in nonlinear driven-dissipative systems, and point toward possible applications in ultrafast photonic probabilistic computing, as well as the sensing of extremely weak fields.
翻訳日:2023-04-25 20:50:18 公開日:2023-04-24
# SemEval-2023タスク11におけるLon-ea:ソフトおよびハードラベル予測のための活性化関数の比較

Lon-ea at SemEval-2023 Task 11: A Comparison of Activation Functions for Soft and Hard Label Prediction ( http://arxiv.org/abs/2303.02468v3 )

ライセンス: Link先を確認
Peyman Hosseini, Mehran Hosseini, Sana Sabah Al-Azzawi, Marcus Liwicki, Ignacio Castro, Matthew Purver(参考訳) 深層ニューラルネットワークモデルの出力層における異なるアクティベーション関数の影響について,不一致タスクの学習におけるソフトラベルとハードラベルの予測について検討した。 このタスクでは、ソフトラベルの予測を通じて不一致の量を定量化することが目標です。 ソフトラベルの予測にはbertベースのプリプロセッサとエンコーダを使用し、他のパラメータを一定に保ちながら出力層で使用されるアクティベーション関数を変化させる。 ソフトラベルはハードラベル予測に使用される。 検討した活性化関数はsgmoidであり、トレーニング後のモデルに追加されるステップ関数と、本論文で初めて導入された正弦波活性化関数である。

We study the influence of different activation functions in the output layer of deep neural network models for soft and hard label prediction in the learning with disagreement task. In this task, the goal is to quantify the amount of disagreement via predicting soft labels. To predict the soft labels, we use BERT-based preprocessors and encoders and vary the activation function used in the output layer, while keeping other parameters constant. The soft labels are then used for the hard label prediction. The activation functions considered are sigmoid as well as a step-function that is added to the model post-training and a sinusoidal activation function, which is introduced for the first time in this paper.
翻訳日:2023-04-25 20:49:51 公開日:2023-04-24
# zero-shot オブジェクトのカウント

Zero-shot Object Counting ( http://arxiv.org/abs/2303.02001v2 )

ライセンス: Link先を確認
Jingyi Xu, Hieu Le, Vu Nguyen, Viresh Ranjan, and Dimitris Samaras(参考訳) クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。 難しいが、多くの潜在的なアプリケーションを可能にする。 現在の方法は、新しいカテゴリー、特に自律システムでは利用できない入力として、人間に注釈を付けた例を必要とする。 そこで本研究では,テスト期間中にクラス名のみを設定できるゼロショットオブジェクトカウント(zsc)を提案する。 このようなカウントシステムは、ループ内の人間のアノテータを必要とせず、自動的に動作する。 クラス名から始めると、最適なパッチを正確に識別できる手法を提案し、それを例に数えることができる。 具体的には、最初にクラスプロトタイプを構築し、関心のあるオブジェクト、すなわちクラス関連パッチを含む可能性のあるパッチを選択する。 さらに,任意のパッチがカウント例としてどの程度適しているかを定量的に測定できるモデルを提案する。 このモデルをすべての候補パッチに適用することにより、カウントの例として最も適切なパッチを選択することができる。 最近のクラス非依存計数データセットであるfsc-147の実験結果は,本手法の有効性を検証する。 コードはhttps://github.com/cvlab-stonybrook/zero-shot-countingで入手できる。

Class-agnostic object counting aims to count object instances of an arbitrary class at test time. It is challenging but also enables many potential applications. Current methods require human-annotated exemplars as inputs which are often unavailable for novel categories, especially for autonomous systems. Thus, we propose zero-shot object counting (ZSC), a new setting where only the class name is available during test time. Such a counting system does not require human annotators in the loop and can operate automatically. Starting from a class name, we propose a method that can accurately identify the optimal patches which can then be used as counting exemplars. Specifically, we first construct a class prototype to select the patches that are likely to contain the objects of interest, namely class-relevant patches. Furthermore, we introduce a model that can quantitatively measure how suitable an arbitrary patch is as a counting exemplar. By applying this model to all the candidate patches, we can select the most suitable patches as exemplars for counting. Experimental results on a recent class-agnostic counting dataset, FSC-147, validate the effectiveness of our method. Code is available at https://github.com/cvlab-stonybrook/zero-shot-counting
翻訳日:2023-04-25 20:49:10 公開日:2023-04-24
# 不完全なオンラインデモによるガード付き政策最適化

Guarded Policy Optimization with Imperfect Online Demonstrations ( http://arxiv.org/abs/2303.01728v2 )

ライセンス: Link先を確認
Zhenghai Xue, Zhenghao Peng, Quanyi Li, Zhihan Liu, Bolei Zhou(参考訳) teacher-sudent framework (tsf) は、教師エージェントが学生エージェントのトレーニングを、オンラインデモの参加と提供によって保護する強化学習設定である。 最適と仮定すると、教師方針は学生エージェントの学習過程に介入する完璧なタイミングと能力を持ち、安全保証と探索指導を提供する。 しかし、現実の多くの環境では、高いか、あるいは優れた教師の政策を得ることができない。 本研究では,優れた教師の仮定を緩和し,任意の教師方針を質素あるいは劣悪なパフォーマンスで組み込む新しい手法を開発する。 我々は,ts2cと呼ばれる,軌道に基づく価値推定に基づく教師の介入を組み込んだオフ・ポリシー強化学習アルゴリズムをインスタンス化する。 理論解析により,TS2Cアルゴリズムは教師自身のパフォーマンスに影響されずに,効率的な探索と実質的な安全保証を実現することが検証された。 各種連続制御タスクにおける実験により, 学習コストを低く抑えつつ, 異なるパフォーマンスレベルにおける教員方針を活用できることを示した。 さらに, 学生政策は, 不完全な教員政策を, ホールドアウトテスト環境において, 高蓄積報酬の観点から超越している。 コードはhttps://metadriverse.github.io/TS2Cで入手できる。

The Teacher-Student Framework (TSF) is a reinforcement learning setting where a teacher agent guards the training of a student agent by intervening and providing online demonstrations. Assuming optimal, the teacher policy has the perfect timing and capability to intervene in the learning process of the student agent, providing safety guarantee and exploration guidance. Nevertheless, in many real-world settings it is expensive or even impossible to obtain a well-performing teacher policy. In this work, we relax the assumption of a well-performing teacher and develop a new method that can incorporate arbitrary teacher policies with modest or inferior performance. We instantiate an Off-Policy Reinforcement Learning algorithm, termed Teacher-Student Shared Control (TS2C), which incorporates teacher intervention based on trajectory-based value estimation. Theoretical analysis validates that the proposed TS2C algorithm attains efficient exploration and substantial safety guarantee without being affected by the teacher's own performance. Experiments on various continuous control tasks show that our method can exploit teacher policies at different performance levels while maintaining a low training cost. Moreover, the student policy surpasses the imperfect teacher policy in terms of higher accumulated reward in held-out testing environments. Code is available at https://metadriverse.github.io/TS2C.
翻訳日:2023-04-25 20:48:52 公開日:2023-04-24
# UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data Generation for Cross-Lingual Learning in Tweet Intimacy Prediction (特集:情報ネットワーク)

UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data Generation for Cross-Lingual Learning in Tweet Intimacy Prediction ( http://arxiv.org/abs/2303.01194v2 )

ライセンス: Link先を確認
Andrianos Michail, Stefanos Konstantinou, Simon Clematide(参考訳) 本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。 公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。 我々の言語間移動学習アプローチでは,まず回帰ヘッドパラメータのみを更新し,学習率の低下で事前学習したトランスフォーマーエンコーダパラメータを更新するヘッドファーストファインタニング法(HeFiT)の利点を探索する。 さらに,人間ラベル付きデータが利用できない低リソース環境において,少数の自動生成例(この場合,ChatGPT)を使用することによる影響について検討した。 本研究は、HeFiTがトレーニングを安定させ、ツイートへのドメイン適応に欠ける事前学習モデルの結果を継続的に改善することを示す。 また, 合成データを用いた場合, 言語間学習のパフォーマンスが著しく向上し, ゼロショットベースライン結果の改善に現在のテキスト生成システムの有用性を確認した。 最後に,アノテートデータの不整合が言語間干渉問題にどのように寄与するかを検討する。

This paper describes the submission of UZH_CLyp for the SemEval 2023 Task 9 "Multilingual Tweet Intimacy Analysis". We achieved second-best results in all 10 languages according to the official Pearson's correlation regression evaluation measure. Our cross-lingual transfer learning approach explores the benefits of using a Head-First Fine-Tuning method (HeFiT) that first updates only the regression head parameters and then also updates the pre-trained transformer encoder parameters at a reduced learning rate. Additionally, we study the impact of using a small set of automatically generated examples (in our case, from ChatGPT) for low-resource settings where no human-labeled data is available. Our study shows that HeFiT stabilizes training and consistently improves results for pre-trained models that lack domain adaptation to tweets. Our study also shows a noticeable performance increase in cross-lingual learning when synthetic data is used, confirming the usefulness of current text generation systems to improve zero-shot baseline results. Finally, we examine how possible inconsistencies in the annotated data contribute to cross-lingual interference issues.
翻訳日:2023-04-25 20:48:23 公開日:2023-04-24
# 対話からのマルチビューゼロショットオープンインテント誘導:マルチドメインバッチとプロキシグラディエント転送

Multi-View Zero-Shot Open Intent Induction from Dialogues: Multi Domain Batch and Proxy Gradient Transfer ( http://arxiv.org/abs/2303.13099v2 )

ライセンス: Link先を確認
Hyukhun Koh, Haesung Pyun, Nakyeong Yang, Kyomin Jung(参考訳) タスク指向対話(TOD)システムでは,新たな意図の検出と誘導が,実世界でシステムを適用する上で大きな課題である。 本稿では,(1)一般埋め込み(GE)のためのSBERT,(2)対話ドメイン知識のためのMultiple Domain Batch(MDB)、(3)クラスタ特定セマンティックのためのPGT(Proxy Gradient Transfer)という2つの課題を解決するためのセマンティックマルチビューモデルを提案する。 MDBは多様な対話データセットをモデルに一度に供給し、複数のドメイン知識を学習することで、マルチドメイン問題に取り組む。 本稿では,クラスタリング手法でモデルを微調整するために,Siameseネットワークを利用した新しいPGTを提案する。 実験の結果,mdbとpgtを用いたマルチビューモデルは,ベースラインシステムに比べてオープンインテント誘導性能が著しく向上することがわかった。

In Task Oriented Dialogue (TOD) system, detecting and inducing new intents are two main challenges to apply the system in the real world. In this paper, we suggest the semantic multi-view model to resolve these two challenges: (1) SBERT for General Embedding (GE), (2) Multi Domain Batch (MDB) for dialogue domain knowledge, and (3) Proxy Gradient Transfer (PGT) for cluster-specialized semantic. MDB feeds diverse dialogue datasets to the model at once to tackle the multi-domain problem by learning the multiple domain knowledge. We introduce a novel method PGT, which employs the Siamese network to fine-tune the model with a clustering method directly.Our model can learn how to cluster dialogue utterances by using PGT. Experimental results demonstrate that our multi-view model with MDB and PGT significantly improves the Open Intent Induction performance compared to baseline systems.
翻訳日:2023-04-25 20:40:06 公開日:2023-04-24
# 限定サンプリングアクセスによるマルコフ決定過程の戦略合成

Strategy Synthesis in Markov Decision Processes Under Limited Sampling Access ( http://arxiv.org/abs/2303.12718v2 )

ライセンス: Link先を確認
Christel Baier, Clemens Dubslaff, Patrick Wienh\"oft, Stefan J. Kiebel(参考訳) 制御理論、人工知能、および形式的手法における中心的なタスクは、部分的に未知の環境で動作するエージェントに対する報酬最大化戦略を合成することである。 グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境においては、エージェントの動作の影響は後継状態の点で知られているが、関連する確率は知られていない。 本稿では,区間MDPを内部モデルとして用いた強化学習により,グレーボックスMDPの戦略合成アルゴリズムを考案する。 強化学習における限定的なサンプリングアクセスと競合するために,我々は,確率的保証と最適性よりも,迅速かつ成功した学習に焦点を当てた2つの新しい概念をアルゴリズムに取り入れている。 我々は,AIや形式的手法コミュニティの例に応用したプロトタイプ実装を用いて,アルゴリズムの利点を説明する。

A central task in control theory, artificial intelligence, and formal methods is to synthesize reward-maximizing strategies for agents that operate in partially unknown environments. In environments modeled by gray-box Markov decision processes (MDPs), the impact of the agents' actions are known in terms of successor states but not the stochastics involved. In this paper, we devise a strategy synthesis algorithm for gray-box MDPs via reinforcement learning that utilizes interval MDPs as internal model. To compete with limited sampling access in reinforcement learning, we incorporate two novel concepts into our algorithm, focusing on rapid and successful learning rather than on stochastic guarantees and optimality: lower confidence bound exploration reinforces variants of already learned practical strategies and action scoping reduces the learning action space to promising actions. We illustrate benefits of our algorithms by means of a prototypical implementation applied on examples from the AI and formal methods communities.
翻訳日:2023-04-25 20:39:48 公開日:2023-04-24
# EPiC:ロバスト分類のための部分点雲の集合

EPiC: Ensemble of Partial Point Clouds for Robust Classification ( http://arxiv.org/abs/2303.11419v2 )

ライセンス: Link先を確認
Meir Yossef Levi and Guy Gilboa(参考訳) コンシューマー型3Dセンサーは、様々なアーティファクトによって劣化する部分的かつノイズの多いデータを生成することが多いため、現実のアプリケーションにはロバストポイントクラウド分類が不可欠である。 本研究では,部分点クラウドサンプリングに基づく一般的なアンサンブルフレームワークを提案する。 各アンサンブル部材は、部分入力データのみに露出する。 3つのサンプリング戦略、パッチと曲線に基づく2つのローカル戦略、ランダムサンプリングのグローバル戦略が共同で使用される。 局所的および大域的劣化に対する本手法の堅牢性を示す。 本研究の枠組みは,上位分類網の頑健性を大幅に向上することを示す。 実験ではRenらが最近導入したModelNet-Cデータベースを使用しました。 [24] 未拡張データと拡張データの両方でSOTAに到達します。 推定平均腐敗誤差(mce)は0.64(現在のsotaは0.86)であり、拡張データ(現在のsotaは0.57)は0.50である。 多様性分析によってこれらの顕著な結果を解析し、説明する。 私たちのコードは、https://github.com/yossilevii100/EPiCで利用可能です。

Robust point cloud classification is crucial for real-world applications, as consumer-type 3D sensors often yield partial and noisy data, degraded by various artifacts. In this work we propose a general ensemble framework, based on partial point cloud sampling. Each ensemble member is exposed to only partial input data. Three sampling strategies are used jointly, two local ones, based on patches and curves, and a global one of random sampling. We demonstrate the robustness of our method to various local and global degradations. We show that our framework significantly improves the robustness of top classification netowrks by a large margin. Our experimental setting uses the recently introduced ModelNet-C database by Ren et al.[24], where we reach SOTA both on unaugmented and on augmented data. Our unaugmented mean Corruption Error (mCE) is 0.64 (current SOTA is 0.86) and 0.50 for augmented data (current SOTA is 0.57). We analyze and explain these remarkable results through diversity analysis. Our code is available at: https://github.com/yossilevii100/EPiC
翻訳日:2023-04-25 20:39:15 公開日:2023-04-24
# 最適凸近似に基づく確率的状態合成

Probabilistic state synthesis based on optimal convex approximation ( http://arxiv.org/abs/2303.10860v2 )

ライセンス: Link先を確認
Seiseki Akibue, Go Kato, Seiichiro Tani(参考訳) 量子回路を用いて純粋状態を作成する場合、各ユニタリゲートがフォールトトレラント実装による離散コヒーレントエラーに悩まされるため、必然的にコヒーレントエラーが発生する。 最近提案された確率的状態合成(probabilistic state synthesis)と呼ばれる手法では、回路を確率的にサンプリングしてコヒーレントな誤差を不整合にし、従来の決定論的合成と比較して近似誤差の順序を小さくすることができる。 本稿では,最適確率合成がトレース距離に対する近似誤差を2次的に減少させることを示す。 また, 決定論的合成アルゴリズムを確率的アルゴリズムに効率的に変換し, 二次誤差低減を実現することを示す。 誤差低減が回路サイズを減少させる方法を推定するために、確率的符号化は古典ビット列の長さを漸近的に減少させ、回路サイズに一般的な下限を与える。 これらの結果を導出するために、量子状態の制限された部分集合を用いて、量子状態の最適凸近似に関する一般的な定理を証明する。 定理の別の応用として、絡み合う状態と分離可能な状態の集合の間の最小トレース距離に関する正確な公式と、絡み合い測度とコヒーレンス測度の間の最近同定された一致に関する代替証明を提供する。

When preparing a pure state with a quantum circuit, there is an inevitable coherent error since each unitary gate suffers from the discretized coherent error due to fault-tolerant implementation. A recently proposed approach called probabilistic state synthesis, where the circuit is probabilistically sampled to turn such coherent errors into incoherent ones, is able to reduce the order of the approximation error compared to conventional deterministic synthesis. In this paper, we demonstrate that the optimal probabilistic synthesis quadratically reduces the approximation error with respect to the trace distance. We also show that a deterministic synthesis algorithm can be efficiently converted into a probabilistic one to achieve quadratic error reduction. To estimate how the error reduction reduces the circuit size, we show that probabilistic encoding asymptotically halves the length of the classical bit string, which provides a general lower bound on the circuit size, required to approximately encode a pure state. To derive these results, we prove general theorems about the optimal convex approximation of a quantum state by using a restricted subset of quantum states. As another application of our theorem, we provide exact formulas for the minimum trace distance between an entangled state and the set of separable states and alternate proof about a recently identified coincidence between an entanglement measure and a coherence measure.
翻訳日:2023-04-25 20:38:58 公開日:2023-04-24
# TOT:マルチモーダルヘイト検出のためのトポロジーを考慮した最適輸送

TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection ( http://arxiv.org/abs/2303.09314v2 )

ライセンス: Link先を確認
Linhao Zhang, Li Jin, Xian Sun, Guangluan Xu, Zequn Zhang, Xiaoyu Li, Nayu Liu, Qing Liu, Shiyao Yan(参考訳) ミームなどの有害なコンテンツを特定することを目的としたマルチモーダルヘイト検出は、インターネット環境全体の構築に不可欠である。 これまでの研究は、露骨な憎しみの発言を検出するための啓蒙的な探求をしてきた。 しかし、これらのアプローチのほとんどは暗黙の害の分析を無視しており、明示的なテキストマーカーや人口統計学的手がかりがしばしばねじれや欠落しているため、特に難しい。 レバレッジド・クロスモーダル・アテンション機構は分布のモダリティギャップに悩まされ、論理的解釈性に欠ける。 これらの意味的ギャップに対処するために,我々は,最適輸送計画の解としてクロスモーダル整列問題を定式化したミームシナリオにおける暗黙的危害を解くトポロジー対応最適輸送フレームワークtotを提案する。 具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。 カーネル埋め込みは、カーネルヒルベルト空間(英語版)(rkhs)を再現する非線形変換能力を提供する。 さらに,2部グラフの経路推論を行うために,アライメント表現に基づくトポロジ情報を知覚する。 公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスと、さらなるビジュアル分析は、暗黙的なクロスモーダルアライメントのキャプチャにおけるTOTの優位性を実証している。

Multimodal hate detection, which aims to identify harmful content online such as memes, is crucial for building a wholesome internet environment. Previous work has made enlightening exploration in detecting explicit hate remarks. However, most of their approaches neglect the analysis of implicit harm, which is particularly challenging as explicit text markers and demographic visual cues are often twisted or missing. The leveraged cross-modal attention mechanisms also suffer from the distributional modality gap and lack logical interpretability. To address these semantic gaps issues, we propose TOT: a topology-aware optimal transport framework to decipher the implicit harm in memes scenario, which formulates the cross-modal aligning problem as solutions for optimal transportation plans. Specifically, we leverage an optimal transport kernel method to capture complementary information from multiple modalities. The kernel embedding provides a non-linear transformation ability to reproduce a kernel Hilbert space (RKHS), which reflects significance for eliminating the distributional modality gap. Moreover, we perceive the topology information based on aligned representations to conduct bipartite graph path reasoning. The newly achieved state-of-the-art performance on two publicly available benchmark datasets, together with further visual analysis, demonstrate the superiority of TOT in capturing implicit cross-modal alignment.
翻訳日:2023-04-25 20:38:32 公開日:2023-04-24
# DeltaScore: 摂動によるストーリ評価

DeltaScore: Story Evaluation with Perturbations ( http://arxiv.org/abs/2303.08991v2 )

ライセンス: Link先を確認
Zhuohan Xie, Miao Li, Trevor Cohn and Jey Han Lau(参考訳) 自然言語生成タスクには様々な評価指標が存在するが、一般に人間の判断とよく相関せず、流感や関連性などのきめ細かいストーリーの側面を評価するように設計されていないため、ストーリー生成には限界がある。 本稿では,きめ細かなストーリーの側面を評価するために摂動を利用したアプローチであるdeltascoreを提案する。 私たちの中核的な考え方は、ストーリーが特定の側面(例えば、流感)でより良く働くと、それが特定の摂動(例えば、タイポの導入)に影響されるという仮説に基づいている。 影響を測定するために,大規模な事前学習言語モデルを用いて,事前摂動と後摂動の確率差を算出する。 2つのストーリー領域にわたる最新モデルベースおよび従来の類似度に基づくメトリクスに対するデルタスコアの評価を行い、その5つのきめ細かいストーリー側面における人間の判断との相関について検討した。 その結果,deltascoreアプローチは複雑なストーリーの側面を評価する上で非常に優れた性能を示すことがわかった。 実験で予期せぬ発見が行われ、そこでは1つの摂動法がこれらの側面の大部分を効果的に捉えていることがわかった。

Various evaluation metrics exist for natural language generation tasks, but they have limited utility for story generation since they generally do not correlate well with human judgments and are not designed to evaluate fine-grained story aspects, such as fluency and relatedness. In this paper, we propose deltascore, an approach that utilizes perturbation to evaluate fine-grained story aspects. Our core idea is based on the hypothesis that the better the story performs in a specific aspect (e.g., fluency), the more it will be affected by a particular perturbation (e.g., introducing typos). To measure the impact, we calculate the likelihood difference between the pre- and post-perturbation stories using large pre-trained language models. We evaluate deltascore against state-of-the-art model-based and traditional similarity-based metrics across two story domains, and investigate its correlation with human judgments on five fine-grained story aspects: fluency, coherence, relatedness, logicality, and interestingness. The findings of our study indicate that the deltascore approach exhibits exceptional performance in evaluating intricate story aspects. An unexpected discovery was made in our experiment, where a single perturbation method was found to effectively capture a majority of these aspects.
翻訳日:2023-04-25 20:38:07 公開日:2023-04-24
# Einstein-Podolsky-Rosen-Bohm実験:離散データ駆動アプローチ

Einstein-Podolsky-Rosen-Bohm experiments: a discrete data driven approach ( http://arxiv.org/abs/2304.03962v2 )

ライセンス: Link先を確認
Hans De Raedt, Mikhail I. Katsnelson, Manpreet S. Jattana, Vrinda Mehta, Madita Willsch, Dennis Willsch, Kristel Michielsen, Fengping Jin(参考訳) 我々は、実験データから数学モデルへの一方的な橋渡しを構築することは、後者で使われる記号に意味を付けることによって引き起こされる論争を回避できるという観点から考える。 特に、アインシュタイン-ポドルスキー-ローゼン=ボーム実験の結果を解釈するための数学的モデルを構築する上で、この考え方を採用することが新しい視点をもたらすことを示す。 まず, アインシュタイン-ポドルスキー-ローゼン-ボーム実験により得られた4つの相関の値に制約を与えるベル型不等式を4つの異なる条件で証明する。 証明は ``model-free' であり、データの生成を想像する数学的モデルに言及しないという意味では '`model-free' である。 制約は、相関値を変更することなく、4つのデータセットでデータを再シャッフルすることで得られる四足数にのみ依存する。 これらの新しい不等式は、既知のベル型不等式(英語版)のモデルフリーバージョンに還元される。 モデルフリーであることから、実験データによる後者の違反は、4つのデータセットのすべてのデータが4重に書き換えられるわけではないことを意味する。 さらに、モデルのない不等式であるため、実験データによる後者の違反は、このデータを生成すると仮定される数学的モデルが適用されないことを意味する。 Einstein-Podolsky-Rosen-Bohm実験によって得られたデータから、これらのデータの主な特徴を記述する数学的モデルを仮定する代わりに構築する。 合理的推論の数学的枠組みは再現可能で堅牢なデータに適用され、一重項状態の2つのスピン1/2オブジェクトの系に対する相関式である量子論のいかなる概念も使わずに得られる。 (ここで詳述)

We take the point of view that building a one-way bridge from experimental data to mathematical models instead of the other way around avoids running into controversies resulting from attaching meaning to the symbols used in the latter. In particular, we show that adopting this view offers new perspectives for constructing mathematical models for and interpreting the results of Einstein-Podolsky-Rosen-Bohm experiments. We first prove new Bell-type inequalities constraining the values of the four correlations obtained by performing Einstein-Podolsky-Rosen-Bohm experiments under four different conditions. The proof is ``model-free'' in the sense that it does not refer to any mathematical model that one imagines to have produced the data. The constraints only depend on the number of quadruples obtained by reshuffling the data in the four data sets without changing the values of the correlations. These new inequalities reduce to model-free versions of the well-known Bell-type inequalities if the maximum fraction of quadruples is equal to one. Being model-free, a violation of the latter by experimental data implies that not all the data in the four data sets can be reshuffled to form quadruples. Furthermore, being model-free inequalities, a violation of the latter by experimental data only implies that any mathematical model assumed to produce this data does not apply. Starting from the data obtained by performing Einstein-Podolsky-Rosen-Bohm experiments, we construct instead of postulate mathematical models that describe the main features of these data. The mathematical framework of plausible reasoning is applied to reproducible and robust data, yielding without using any concept of quantum theory, the expression of the correlation for a system of two spin-1/2 objects in the singlet state. (truncated here)
翻訳日:2023-04-25 20:33:00 公開日:2023-04-24
# CoReFusion: 誘導熱超解法のための対照的な正則核融合

CoReFusion: Contrastive Regularized Fusion for Guided Thermal Super-Resolution ( http://arxiv.org/abs/2304.01243v2 )

ライセンス: Link先を確認
Aditya Kasliwal, Pratinav Seth, Sriya Rallabandi and Sanchit Singhal(参考訳) 低照度環境ではよく機能するため、通常の可視域撮像に比べて多くの利点がある。 超解像アプローチは、低コスト・低解像熱センサによる測定を用いて正確な高解像熱画像の再現により、その有用性を広げることができる。 画像間のスペクトル範囲ミスマッチのため、可視範囲画像を用いた熱画像の誘導超解像は困難である。 しかし、可視範囲画像のキャプチャに失敗した場合、重要な領域でのアプリケーションの動作を防止できる。 熱画像のガイド超解像のための新しいデータ融合フレームワークと正規化手法を提案する。 提案するアーキテクチャは,高分解能rgb画像や低分解能熱画像の1つが欠落しているにも関わらず,性能を維持できるとともに,計算能力に優れ,軽量であり,欠落データの存在下では堅牢に設計されている。 提案手法は,実世界のシナリオにおいてしばしば発生する欠落モダリティ問題に対する有望な解決法である。 コードはhttps://github.com/Kasliwal17/CoReFusionで入手できる。

Thermal imaging has numerous advantages over regular visible-range imaging since it performs well in low-light circumstances. Super-Resolution approaches can broaden their usefulness by replicating accurate high-resolution thermal pictures using measurements from low-cost, low-resolution thermal sensors. Because of the spectral range mismatch between the images, Guided Super-Resolution of thermal images utilizing visible range images is difficult. However, In case of failure to capture Visible Range Images can prevent the operations of applications in critical areas. We present a novel data fusion framework and regularization technique for Guided Super Resolution of Thermal images. The proposed architecture is computationally in-expensive and lightweight with the ability to maintain performance despite missing one of the modalities, i.e., high-resolution RGB image or the lower-resolution thermal image, and is designed to be robust in the presence of missing data. The proposed method presents a promising solution to the frequently occurring problem of missing modalities in a real-world scenario. Code is available at https://github.com/Kasliwal17/CoReFusion .
翻訳日:2023-04-25 20:31:55 公開日:2023-04-24
# ソース不要のドメイン適応に必要な微調整は少ない

Few-shot Fine-tuning is All You Need for Source-free Domain Adaptation ( http://arxiv.org/abs/2304.00792v2 )

ライセンス: Link先を確認
Suho Lee, Seungwon Seo, Jihyo Kim, Yejin Lee, Sangheum Hwang(参考訳) 近年、ラベル付きソースデータが常にアクセス可能であると仮定するアン教師なしドメイン適応(UDA)と比較して、ソースフリーなアン教師なしドメイン適応(SFUDA)が実用的で実現可能なアプローチとして出現している。 しかし、SFUDAアプローチに関連する重要な制限はしばしば見過ごされ、現実のアプリケーションにおける実用性を制限する。 これらの制限には、最適なハイパーパラメータを決定するための原則的な方法の欠如と、未ラベルのターゲットデータが、ソースデータに対するクローズドセットや同一ラベルの分布のような特定の要件を満たすことができない場合のパフォーマンス劣化が含まれる。 これらの制限はすべて、SFUDAが完全にラベルのないターゲットデータに依存しているという事実に由来する。 実世界のシナリオにおける既存のsfudaメソッドの限界を実証し、対象データへの分散やラベルの分散シフトを実証し、これらの方法が現実世界の設定に安全に適用できないことを検証した。 実験結果から,SFUDAの限界を回避するために,ラベル付きデータ(例:1-または3-shot)で事前訓練したソースモデルを微調整することが,実用的で信頼性の高いソリューションであると主張している。 一般的な信念とは対照的に、注意深い微調整モデルでは、ラベル付きデータのみをトレーニングしても過度な適合に悩まされず、サンプリングバイアスによるパフォーマンスの変化もほとんどない。 様々なドメイン適応ベンチマークにおける実験結果から, マイナショットの微調整手法は標準sfuda設定で比較し, 現実的なシナリオで比較手法を上回った。 私たちのコードはhttps://github.com/daintlab/fewshot-SFDAで利用可能です。

Recently, source-free unsupervised domain adaptation (SFUDA) has emerged as a more practical and feasible approach compared to unsupervised domain adaptation (UDA) which assumes that labeled source data are always accessible. However, significant limitations associated with SFUDA approaches are often overlooked, which limits their practicality in real-world applications. These limitations include a lack of principled ways to determine optimal hyperparameters and performance degradation when the unlabeled target data fail to meet certain requirements such as a closed-set and identical label distribution to the source data. All these limitations stem from the fact that SFUDA entirely relies on unlabeled target data. We empirically demonstrate the limitations of existing SFUDA methods in real-world scenarios including out-of-distribution and label distribution shifts in target data, and verify that none of these methods can be safely applied to real-world settings. Based on our experimental results, we claim that fine-tuning a source pretrained model with a few labeled data (e.g., 1- or 3-shot) is a practical and reliable solution to circumvent the limitations of SFUDA. Contrary to common belief, we find that carefully fine-tuned models do not suffer from overfitting even when trained with only a few labeled data, and also show little change in performance due to sampling bias. Our experimental results on various domain adaptation benchmarks demonstrate that the few-shot fine-tuning approach performs comparatively under the standard SFUDA settings, and outperforms comparison methods under realistic scenarios. Our code is available at https://github.com/daintlab/fewshot-SFDA .
翻訳日:2023-04-25 20:31:39 公開日:2023-04-24
# 大規模言語モデルに関する調査

A Survey of Large Language Models ( http://arxiv.org/abs/2303.18223v6 )

ライセンス: Link先を確認
Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie and Ji-Rong Wen(参考訳) 言語は基本的に、文法規則によって支配される人間の表現の複雑な複雑な体系である。 言語を理解・把握するための有能なaiアルゴリズムを開発することは大きな課題となる。 主要なアプローチとして、言語モデリングは過去20年間、言語理解と生成のために広く研究され、統計的言語モデルから神経言語モデルへと進化してきた。 近年,大規模コーパス上でのトランスフォーマモデルによる事前学習言語モデル (plms) が提案されている。 モデルスケーリングがパフォーマンス改善につながることを研究者は発見しているので、モデルサイズをさらに大きくすることで、スケーリング効果をさらに研究している。 興味深いことに、パラメータスケールが一定のレベルを超えると、これらの拡張言語モデルは大幅な性能向上を達成するだけでなく、小規模な言語モデルには存在しない特別な能力を示す。 パラメータスケールの違いを識別するために、研究コミュニティは、大きなサイズのplmに対して、大言語モデル(llm)という用語を生み出した。 近年、LLMの研究は学術と産業の両方で大きく進歩しており、ChatGPTの立ち上げが目覚ましい進歩であり、社会から広く注目を集めている。 LLMの技術的な進化は、AIアルゴリズムの開発と使用方法に革命をもたらすような、AIコミュニティ全体に重要な影響を与えています。 本稿では, LLMの最近の進歩について, 背景, 重要な発見, 主流技術を紹介して概観する。 特に,事前トレーニング,適応チューニング,利用,キャパシティ評価という,llmの主な4つの側面に注目した。 さらに,llm開発のための利用可能なリソースを要約するとともに,今後の課題についても論じる。

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.
翻訳日:2023-04-25 20:30:42 公開日:2023-04-24
# $\varepsilon$ K\'U <MASK>:Yor\`ub\'a文化挨拶を機械翻訳に統合する

$\varepsilon$ K\'U <MASK>: Integrating Yor\`ub\'a cultural greetings into machine translation ( http://arxiv.org/abs/2303.17972v2 )

ライセンス: Link先を確認
Idris Akinade, Jesujoba Alabi, David Adelani, Clement Odoje and Dietrich Klakow(参考訳) 本稿では,Yor\`ub\'a 言語と文化の重要な部分である Yor\`ub\'a 挨拶 (\varepsilon$ k\'u [MASK]) を英語に翻訳する際の多言語ニューラルマシン翻訳 (NMT) システムの性能について検討する。 これらのモデルを評価するために、IkiniYor\`ub\'a, Yor\`ub\'a- English translation data with some Yor\`ub\'a greetings, and sample use caseを示す。 Google や NLLB などの多言語 NMT システムの性能を分析し,これらのモデルがYor\ub\'a の挨拶を正確に英語に翻訳するのに苦労していることを示す。 さらに、既存のnmtモデルをikiniyor\`ub\'aのトレーニング分割に微調整することで、yor\`ub\'a- englishモデルをトレーニングし、大量のデータでトレーニングしたにもかかわらず、事前訓練された多言語nmtモデルと比較して優れた性能を得た。

This paper investigates the performance of massively multilingual neural machine translation (NMT) systems in translating Yor\`ub\'a greetings ($\varepsilon$ k\'u [MASK]), which are a big part of Yor\`ub\'a language and culture, into English. To evaluate these models, we present IkiniYor\`ub\'a, a Yor\`ub\'a-English translation dataset containing some Yor\`ub\'a greetings, and sample use cases. We analysed the performance of different multilingual NMT systems including Google and NLLB and show that these models struggle to accurately translate Yor\`ub\'a greetings into English. In addition, we trained a Yor\`ub\'a-English model by finetuning an existing NMT model on the training split of IkiniYor\`ub\'a and this achieved better performance when compared to the pre-trained multilingual NMT models, although they were trained on a large volume of data.
翻訳日:2023-04-25 20:30:13 公開日:2023-04-24
# パーソナライズしたの? リサンプリングを用いたオンライン強化学習アルゴリズムによるパーソナライズ評価

Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling ( http://arxiv.org/abs/2304.05365v3 )

ライセンス: Link先を確認
Susobhan Ghosh, Raphael Kim, Prasidh Chhabria, Raaz Dwivedi, Predrag Klasnja, Peng Liao, Kelly Zhang, Susan Murphy(参考訳) デジタルヘルスにおける治療の順序をパーソナライズするために強化学習(RL)を使うことへの関心が高まっている。 このようなシーケンシャルな意思決定の問題は、ユーザのコンテキスト(例えば、以前のアクティビティレベル、位置など)に基づいて、いつ扱うか、どのように扱うかという決定を含む。 オンラインRLは、ユーザの過去の反応に基づいて学習し、その知識を使って意思決定をパーソナライズする、この問題に対する有望なデータ駆動アプローチである。 しかし,RLアルゴリズムが実際の展開のために ‘optimized' の介入に含めるべきかどうかを判断するためには,RLアルゴリズムが実際にユーザに対して治療をパーソナライズしていることを示すデータエビデンスを評価する必要がある。 RLアルゴリズムの確率性のため、特定の状態で学習し、この学習を用いて特定の治療を行っているという誤った印象を受けることがある。 パーソナライゼーションの動作定義を用いて、RLアルゴリズムが示すパーソナライゼーションがRLアルゴリズムの確率性の人工物であるかどうかを調べるリサンプリングベースの方法論を導入する。 本研究は,オンラインrlアルゴリズムを応用したheartstepsと呼ばれる身体活動臨床試験のデータを解析し,本手法をケーススタディで示す。 我々は,このアプローチがアルゴリズムのパーソナライズを,全ユーザと特定のユーザの両方に対して,データ駆動型真理広告の効果を高めることを実証する。

There is a growing interest in using reinforcement learning (RL) to personalize sequences of treatments in digital health to support users in adopting healthier behaviors. Such sequential decision-making problems involve decisions about when to treat and how to treat based on the user's context (e.g., prior activity level, location, etc.). Online RL is a promising data-driven approach for this problem as it learns based on each user's historical responses and uses that knowledge to personalize these decisions. However, to decide whether the RL algorithm should be included in an ``optimized'' intervention for real-world deployment, we must assess the data evidence indicating that the RL algorithm is actually personalizing the treatments to its users. Due to the stochasticity in the RL algorithm, one may get a false impression that it is learning in certain states and using this learning to provide specific treatments. We use a working definition of personalization and introduce a resampling-based methodology for investigating whether the personalization exhibited by the RL algorithm is an artifact of the RL algorithm stochasticity. We illustrate our methodology with a case study by analyzing the data from a physical activity clinical trial called HeartSteps, which included the use of an online RL algorithm. We demonstrate how our approach enhances data-driven truth-in-advertising of algorithm personalization both across all users as well as within specific users in the study.
翻訳日:2023-04-25 20:23:27 公開日:2023-04-24
# グラフに基づく軌道予測のための差動モデルの評価

Evaluation of Differentially Constrained Motion Models for Graph-Based Trajectory Prediction ( http://arxiv.org/abs/2304.05116v2 )

ライセンス: Link先を確認
Theodor Westny, Joel Oskarsson, Bj\"orn Olofsson and Erik Frisk(参考訳) その柔軟性と向上性から、ディープラーニングモデルは自動運転における動き予測の標準になりつつある。 しかし、柔軟性は解釈可能性の欠如と物理的制約の違反が伴う。 物理的に実現可能な軌道を提供するために、これらのデータ駆動方式を差分制約された運動モデルに適合させることは、将来有望な方向である。 この研究の基礎は、以前導入されたグラフニューラルネットワークベースのモデル、MTP-GOである。 ニューラルネットワークは、基礎となる運動モデルへの入力を計算し、物理的に実現可能な軌道を提供する。 本研究では,予測課題に対する数値解法と組み合わせた各種動作モデルの性能について検討する。 この研究は、低次積分器モデルのような単純なモデルは、正確な予測を達成するために、例えば運動モデルのようなより複雑なモデルよりも好まれることを示している。 さらに、数値解法は性能に大きな影響を与え、オイラーフォワードのような一般的な一階法に対して助言することができる。 代わりに、ヒューンのような二階法が予測を大幅に改善することができる。

Given their flexibility and encouraging performance, deep-learning models are becoming standard for motion prediction in autonomous driving. However, with great flexibility comes a lack of interpretability and possible violations of physical constraints. Accompanying these data-driven methods with differentially-constrained motion models to provide physically feasible trajectories is a promising future direction. The foundation for this work is a previously introduced graph-neural-network-based model, MTP-GO. The neural network learns to compute the inputs to an underlying motion model to provide physically feasible trajectories. This research investigates the performance of various motion models in combination with numerical solvers for the prediction task. The study shows that simpler models, such as low-order integrator models, are preferred over more complex, e.g., kinematic models, to achieve accurate predictions. Further, the numerical solver can have a substantial impact on performance, advising against commonly used first-order methods like Euler forward. Instead, a second-order method like Heun's can greatly improve predictions.
翻訳日:2023-04-25 20:22:59 公開日:2023-04-24
# Hist2RNA:乳がん組織像から遺伝子発現を予測するための効率的なディープラーニングアーキテクチャ

hist2RNA: An efficient deep learning architecture to predict gene expression from breast cancer histopathology images ( http://arxiv.org/abs/2304.04507v2 )

ライセンス: Link先を確認
Raktim Kumar Mondol, Ewan K.A. Millar, Peter H Graham, Lois Browne, Arcot Sowmya, Erik Meijering(参考訳) 遺伝子発現は、通常の免疫組織化学(ihc)による再発リスクと治療応答性の予測を改善した乳癌のサブタイプに使用できる。 しかし、このクリニックでは、分子プロファイリングは主にER+がんに使われ、費用がかかり、組織が破壊され、特別なプラットフォームが必要で、結果を得るために数週間かかる。 深層学習アルゴリズムは、デジタル組織病理画像の形態的パターンを効果的に抽出し、分子表現型を迅速かつ費用効率良く予測することができる。 ヘマトキシリンおよびエオシン(H&E)染色スライディング画像(WSIs)からの光性PAM50サブタイプを含む138遺伝子(市販の分子プロファイリングテスト6種を組み込んだ)の発現を予測するため,バルクRNAシークエンシング技術に触発された新しい計算効率の高いhist2RNAを提案する。 トレーニングフェーズは、The Cancer Genome Atlas (TCGA, n=335)の注釈付きH&E画像を用いて、患者レベルでの遺伝子発現を予測する事前訓練モデルから抽出された各患者の特徴の集約を含む。 維持試験セット(n=160, corr=0.82, corr=0.29, corr=0.29)で遺伝子予測を成功させ, IHCおよび生存情報を含む外部組織マイクロアレイ(TMA)データセット(n=498)で探索分析を行った。 c-index=0.56, ハザード比=2.16 (95% ci 1.12-3.06), p<5x10-3), 標準臨床病理学的変数 (c-index=0.65), ハザード比=1.85 (95% ci 1.30-2.68), p<5x10-3) を組み込んだ多変量解析における独立な意味を持つtmaデータセットにおける遺伝子発現と発光pam50サブタイプ (luminal a とluminal b) の予測が可能である。

Gene expression can be used to subtype breast cancer with improved prediction of risk of recurrence and treatment responsiveness over that obtained using routine immunohistochemistry (IHC). However, in the clinic, molecular profiling is primarily used for ER+ cancer and is costly and tissue destructive, requires specialized platforms and takes several weeks to obtain a result. Deep learning algorithms can effectively extract morphological patterns in digital histopathology images to predict molecular phenotypes quickly and cost-effectively. We propose a new, computationally efficient approach called hist2RNA inspired by bulk RNA-sequencing techniques to predict the expression of 138 genes (incorporated from six commercially available molecular profiling tests), including luminal PAM50 subtype, from hematoxylin and eosin (H&E) stained whole slide images (WSIs). The training phase involves the aggregation of extracted features for each patient from a pretrained model to predict gene expression at the patient level using annotated H&E images from The Cancer Genome Atlas (TCGA, n=335). We demonstrate successful gene prediction on a held-out test set (n=160, corr=0.82 across patients, corr=0.29 across genes) and perform exploratory analysis on an external tissue microarray (TMA) dataset (n=498) with known IHC and survival information. Our model is able to predict gene expression and luminal PAM50 subtype (Luminal A versus Luminal B) on the TMA dataset with prognostic significance for overall survival in univariate analysis (c-index=0.56, hazard ratio=2.16 (95% CI 1.12-3.06), p<5x10-3), and independent significance in multivariate analysis incorporating standard clinicopathological variables (c-index=0.65, hazard ratio=1.85 (95% CI 1.30-2.68), p<5x10-3).
翻訳日:2023-04-25 20:21:32 公開日:2023-04-24
# Sparse Interactive Guidance を用いた地域対応画像修正

Region-Aware Portrait Retouching with Sparse Interactive Guidance ( http://arxiv.org/abs/2304.04017v2 )

ライセンス: Link先を確認
Huimin Zeng, Jie Huang, Jiacheng Li, Zhiwei Xiong(参考訳) ポートレートリタッチは、入力されたポートレート写真の美的品質を向上させることを目的としている。 深層学習に基づく手法は、主に修正効率を高め、有望な修正結果を提供する。 しかし、既存のポートレートリタッチ手法は、すべての人間領域を均等に扱う自動リタッチに焦点を当てており、特定の個人に対するユーザの好みを無視しているため、対話的なシナリオでは柔軟性が制限されている。 本稿では,ユーザの意図の重要性を強調し,インタラクティブなポートレートリタッチ作業について検討する。 具体的には,自動ブランチと対話型ブランチの2つのブランチを持つ地域対応リタッチフレームワークを提案する。 自動分岐は、領域候補を検索し、ユーザーガイダンスなしで自動領域認識更新を行うエンコーディング復号処理を含む。 インタラクティブブランチは、スパースユーザガイダンスを優先条件ベクトルにエンコードし、領域選択モジュールで潜在特徴を変調し、ユーザ特定領域をさらに強調する。 実験の結果,対話型ブランチはユーザの意図を効果的に捉え,ユーザ誘導のスパースで見当たらないシーンを一般化するが,自動ブランチは領域認識性の向上により最先端のリタッチ手法を上回っていることがわかった。

Portrait retouching aims to improve the aesthetic quality of input portrait photos and especially requires human-region priority. The deep learning-based methods largely elevate the retouching efficiency and provide promising retouched results. However, existing portrait retouching methods focus on automatic retouching, which treats all human-regions equally and ignores users' preferences for specific individuals, thus suffering from limited flexibility in interactive scenarios. In this work, we emphasize the importance of users' intents and explore the interactive portrait retouching task. Specifically, we propose a region-aware retouching framework with two branches: an automatic branch and an interactive branch. The automatic branch involves an encoding-decoding process, which searches region candidates and performs automatic region-aware retouching without user guidance. The interactive branch encodes sparse user guidance into a priority condition vector and modulates latent features with a region selection module to further emphasize the user-specified regions. Experimental results show that our interactive branch effectively captures users' intents and generalizes well to unseen scenes with sparse user guidance, while our automatic branch also outperforms the state-of-the-art retouching methods due to improved region-awareness.
翻訳日:2023-04-25 20:19:37 公開日:2023-04-24
# SemEval 2023 Task 6: LegalEval -- 法的テキストを理解する

SemEval 2023 Task 6: LegalEval -- Understanding Legal Texts ( http://arxiv.org/abs/2304.09548v2 )

ライセンス: Link先を確認
Ashutosh Modi and Prathamesh Kalamkar and Saurabh Karn and Aman Tiwari and Abhinav Joshi and Sai Kiran Tanikella and Shouvik Kumar Guha and Sachin Malhan and Vivek Raghavan(参考訳) 人口の多い国では、保留中の訴訟が急増している。 法律文書の処理と自動理解のためのNLPベースの技術を開発する必要がある。 法律NLP分野の研究を促進するため,SemEval 2023において,法律テキストの理解に関する共有タスクを組織した。 Task-A (Rhetorical Roles Labeling) は、法的文書を意味的に一貫性のある単位に自動的に構造化することを目的としており、Task-B (Legal Named Entity Recognition) は、法的文書の中の関連エンティティを識別することを扱う。 合計26チーム(約100人の参加者)がシステム論文を提出した。 各サブタスクでは、提案されたシステムがベースラインを上回っているが、改善の余地は多い。 本稿では,タスクを記述し,様々なチームが提案する手法を分析する。

In populous countries, pending legal cases have been growing exponentially. There is a need for developing NLP-based techniques for processing and automatically understanding legal documents. To promote research in the area of Legal NLP we organized the shared task LegalEval - Understanding Legal Texts at SemEval 2023. LegalEval task has three sub-tasks: Task-A (Rhetorical Roles Labeling) is about automatically structuring legal documents into semantically coherent units, Task-B (Legal Named Entity Recognition) deals with identifying relevant entities in a legal document and Task-C (Court Judgement Prediction with Explanation) explores the possibility of automatically predicting the outcome of a legal case along with providing an explanation for the prediction. In total 26 teams (approx. 100 participants spread across the world) submitted systems paper. In each of the sub-tasks, the proposed systems outperformed the baselines; however, there is a lot of scope for improvement. This paper describes the tasks, and analyzes techniques proposed by various teams.
翻訳日:2023-04-25 20:13:25 公開日:2023-04-24
# Swin3D:3D屋内シーン理解のためのトランスフォーマーバックボーン

Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding ( http://arxiv.org/abs/2304.06906v2 )

ライセンス: Link先を確認
Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo(参考訳) 微調整された事前学習されたバックボーンは、2dビジョンや自然言語処理タスクに広く採用されており、タスク固有のネットワークに大きなアドバンテージを示している。 本稿では,下流の3d室内シーン理解タスクにおいて,最先端の手法をすべて上回る3dバックボーンであるswain3dを提案する。 我々のバックボーンネットワークは,3次元スウィントランスをベースとし,線形記憶複雑性を持つスパースボクセル上での自己アテンションを効率的に行い,一般化された文脈的相対位置埋め込みによる点信号の不規則さを捉えるように,慎重に設計されている。 このバックボーン設計に基づいて,scannetデータセットの10倍の大きさの合成構造化3dデータセット上でswain3dモデルを事前学習し,下流の様々な室内環境理解タスクにおいて事前学習したモデルを微調整した。 S3DIS Area5と6倍のセマンティックセグメンテーションにおける2.1 mIoU, ScanNet segmentation (val), +1.9 mAP@0.5, S3DIS Detectionにおける8.1 mAP@0.5, S3DIS Detectionにおける2.1 mIoU, +2.1 mIoU, S3DISにおける2.3 mIoU, +2.1 mAP@0.5の微調整後, 実際の3Dポイントデータセット上でのダウンストリームセグメンテーションと検出の両面で優れた一般性を示した。 本手法は,3次元理解タスクの微調整による3次元バックボーンの事前学習の可能性を示す。 コードとモデルはhttps://github.com/microsoft/swin3dで入手できる。

Pretrained backbones with fine-tuning have been widely adopted in 2D vision and natural language processing tasks and demonstrated significant advantages to task-specific networks. In this paper, we present a pretrained 3D backbone, named Swin3D, which first outperforms all state-of-the-art methods in downstream 3D indoor scene understanding tasks. Our backbone network is based on a 3D Swin transformer and carefully designed to efficiently conduct self-attention on sparse voxels with linear memory complexity and capture the irregularity of point signals via generalized contextual relative positional embedding. Based on this backbone design, we pretrained a large Swin3D model on a synthetic Structured3D dataset that is 10 times larger than the ScanNet dataset and fine-tuned the pretrained model in various downstream real-world indoor scene understanding tasks. The results demonstrate that our model pretrained on the synthetic dataset not only exhibits good generality in both downstream segmentation and detection on real 3D point datasets, but also surpasses the state-of-the-art methods on downstream tasks after fine-tuning with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation, +2.1 mIoU on ScanNet segmentation (val), +1.9 mAP@0.5 on ScanNet detection, +8.1 mAP@0.5 on S3DIS detection. Our method demonstrates the great potential of pretrained 3D backbones with fine-tuning for 3D understanding tasks. The code and models are available at https://github.com/microsoft/Swin3D .
翻訳日:2023-04-25 20:11:24 公開日:2023-04-24
# PDFVQA:PDFドキュメント上の実世界のVQAのための新しいデータセット

PDFVQA: A New Dataset for Real-World VQA on PDF Documents ( http://arxiv.org/abs/2304.06447v4 )

ライセンス: Link先を確認
Yihao Ding, Siwen Luo, Hyunsuk Chung, Soyeon Caren Han(参考訳) 文書ベースの視覚的質問応答は、自然言語質問の条件下で文書画像の文書理解を調べる。 文書要素認識,文書レイアウト構造理解,コンテキスト理解,キー情報抽出など,さまざまな側面から文書理解を包括的に検討するための文書ベースVQAデータセットであるPDF-VQAを提案する。 我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。 また、異なる文書要素間の空間的・階層的構造関係を明示的に統合し、文書構造理解を促進するグラフベースの新しいVQAモデルを提案する。 パフォーマンスは、異なる質問タイプ上のいくつかのベースラインと比較され、tasks\footnote{the full datasetは、紙の受け入れ後にリリースされる。

Document-based Visual Question Answering examines the document understanding of document images in conditions of natural language questions. We proposed a new document-based VQA dataset, PDF-VQA, to comprehensively examine the document understanding from various aspects, including document element recognition, document layout structural understanding as well as contextual understanding and key information extraction. Our PDF-VQA dataset extends the current scale of document understanding that limits on the single document page to the new scale that asks questions over the full document of multiple pages. We also propose a new graph-based VQA model that explicitly integrates the spatial and hierarchically structural relationships between different document elements to boost the document structural understanding. The performances are compared with several baselines over different question types and tasks\footnote{The full dataset will be released after paper acceptance.
翻訳日:2023-04-25 20:10:43 公開日:2023-04-24
# graph-toolformer: chatgpt によるプロンプト拡張による llm のグラフ推論能力強化

Graph-ToolFormer: To Empower LLMs with Graph Reasoning Ability via Prompt Augmented by ChatGPT ( http://arxiv.org/abs/2304.11116v2 )

ライセンス: Link先を確認
Jiawei Zhang(参考訳) 本稿では,複雑なグラフデータに対する推論能力を備えた大規模言語モデル(llm)の開発を目指している。 現在、LLMは様々な自然言語学習タスクにおいて非常に優れた性能を発揮しており、その拡張もマルチモーダルデータによる視覚タスクの研究に応用されている。 しかし、グラフ学習のタスクに関しては、既存のLLMは、空間的および時間的要因について、複数の継承された弱点である {multi-step logic reasoning}, {precise mathematical calculation}, {perception about the spatial and temporal factors} を実行するために、非常に深刻な欠陥を呈している。 このような課題に対処するため,本稿では,既存のLCMをグラフ推論能力で強化する原理,方法論,アルゴリズムについて検討する。 最新のChatGPTおよびToolformerモデルにインスパイアされた我々は、Graph-ToolFormer(Graph Reasoning oriented Toolformer)フレームワークを提案する。 具体的には,1)単純なグラフの順序やサイズから,グラフの直径や周辺まで,グラフ特性の推論タスクと,(2)書誌ネットワークやタンパク質分子,シーケンシャルレコメンデータシステム,ソーシャルネットワーク,ナレッジグラフといった,現実的なグラフデータに対するより高度な推論タスクの両方を含む,グラフデータ推論タスクの処理をGraph-ToolFormerに教えることについて検討する。 Graph-ToolFormerの有効性を実証するため、さまざまなグラフ推論データセットとタスクについて予備実験を行い、様々なグラフ推論機能を備えたLLMデモをオンラインで開始する。

In this paper, we aim to develop a large language model (LLM) with the reasoning ability on complex graph data. Currently, LLMs have achieved very impressive performance on various natural language learning tasks, extensions of which have also been applied to study the vision tasks with multi-modal data. However, when it comes to the graph learning tasks, existing LLMs present very serious flaws due to their several inherited weaknesses in performing {multi-step logic reasoning}, {precise mathematical calculation} and {perception about the spatial and temporal factors}. To address such challenges, in this paper, we will investigate the principles, methodologies and algorithms to empower existing LLMs with graph reasoning ability, which will have tremendous impacts on the current research of both LLMs and graph learning. Inspired by the latest ChatGPT and Toolformer models, we propose the Graph-ToolFormer (Graph Reasoning oriented Toolformer) framework to teach LLMs themselves with prompts augmented by ChatGPT to use external graph reasoning API tools. Specifically, we will investigate to teach Graph-ToolFormer to handle various graph data reasoning tasks in this paper, including both (1) very basic graph data loading and graph property reasoning tasks, ranging from simple graph order and size to the graph diameter and periphery, and (2) more advanced reasoning tasks on real-world graph data, such as bibliographic networks, protein molecules, sequential recommender systems, social networks and knowledge graphs. To demonstrate the effectiveness of Graph-ToolFormer, we conduct some preliminary experimental studies on various graph reasoning datasets and tasks, and will launch a LLM demo online with various graph reasoning abilities.
翻訳日:2023-04-25 20:01:36 公開日:2023-04-24
# 大規模言語モデルにおける創発能力の潜在空間理論

A Latent Space Theory for Emergent Abilities in Large Language Models ( http://arxiv.org/abs/2304.09960v2 )

ライセンス: Link先を確認
Hui Jiang(参考訳) 言語はランダムに作られるのではなく、情報を伝える。 言語とその根底にある意味の間には強い関連があり、その結果、それらの相関によってピークを極める疎結合分布となる。 さらに、これらのピーク値は、スパーシリティによる言語の限界分布と一致します。 ビッグデータと大規模モデルで訓練されたllmの出現により、言語の限界分布を正確に評価することができ、効果的な推論のためにジョイント分布のスパース構造を探索する便利な手段を提供する。 本稿では,言語理解,文脈内学習,思考の連鎖的促進,効果的な命令の微調整などllmの創発的能力が,言語の疎結合分布に対するベイズ推定に起因していることを示すために,言語を曖昧あるいは不明瞭に分類し,定量的な結果を示す。

Languages are not created randomly but rather to communicate information. There is a strong association between languages and their underlying meanings, resulting in a sparse joint distribution that is heavily peaked according to their correlations. Moreover, these peak values happen to match with the marginal distribution of languages due to the sparsity. With the advent of LLMs trained on big data and large models, we can now precisely assess the marginal distribution of languages, providing a convenient means of exploring the sparse structures in the joint distribution for effective inferences. In this paper, we categorize languages as either unambiguous or {\epsilon}-ambiguous and present quantitative results to demonstrate that the emergent abilities of LLMs, such as language understanding, in-context learning, chain-of-thought prompting, and effective instruction fine-tuning, can all be attributed to Bayesian inference on the sparse joint distribution of languages.
翻訳日:2023-04-25 20:01:00 公開日:2023-04-24
# 分散確率的ミニマックス最適化アルゴリズムは有限サム非凸非凸問題に対して線形収束できるか?

Can Decentralized Stochastic Minimax Optimization Algorithms Converge Linearly for Finite-Sum Nonconvex-Nonconcave Problems? ( http://arxiv.org/abs/2304.11788v1 )

ライセンス: Link先を確認
Yihan Zhang, Wenhao Jiang, Feng Zheng, Chiu C. Tan, Xinghua Shi, Hongchang Gao(参考訳) 分散ミニマックス最適化は、近年、幅広い機械学習モデルに応用されているため、積極的に研究されている。 しかし、現在の収束率の理論的理解は、既存の研究が非凸強凸問題のみに焦点を当てているため、満足にはほど遠い。 これは非凸非凸問題に対する分散ミニマックス最適化アルゴリズムの研究を動機付ける。 本研究では,polyak-{\l}ojasiewicz (pl) 条件を満たす有限サム非凸非凸問題に対する2つの分散確率分散勾配勾配降下法を開発した。 特に, 局所的な更新を行い, 線形収束率を達成するための通信を行う方法について理論的解析を行った。 我々の知る限りでは、これは分散非凸非凸問題に対する線形収束率を達成する最初の仕事である。 最後に、合成データセットと実世界のデータセットの両方でアルゴリズムの性能を検証する。 実験結果からアルゴリズムの有効性を確認した。

Decentralized minimax optimization has been actively studied in the past few years due to its application in a wide range of machine learning models. However, the current theoretical understanding of its convergence rate is far from satisfactory since existing works only focus on the nonconvex-strongly-concave problem. This motivates us to study decentralized minimax optimization algorithms for the nonconvex-nonconcave problem. To this end, we develop two novel decentralized stochastic variance-reduced gradient descent ascent algorithms for the finite-sum nonconvex-nonconcave problem that satisfies the Polyak-{\L}ojasiewicz (PL) condition. In particular, our theoretical analyses demonstrate how to conduct local updates and perform communication to achieve the linear convergence rate. To the best of our knowledge, this is the first work achieving linear convergence rates for decentralized nonconvex-nonconcave problems. Finally, we verify the performance of our algorithms on both synthetic and real-world datasets. The experimental results confirm the efficacy of our algorithms.
翻訳日:2023-04-25 16:29:19 公開日:2023-04-24
# B2Opt: 少ない予算でブラックボックス最適化を最適化する学習

B2Opt: Learning to Optimize Black-box Optimization with Little Budget ( http://arxiv.org/abs/2304.11787v1 )

ライセンス: Link先を確認
Xiaobin Li, Kai Wu, Xiaoyu Zhang, Handing Wang, Jing Liu(参考訳) learning to optimize (l2o) は black-box optimization (bbo) の強力なフレームワークとして登場した。 L2Oは人間の介入なしに目標タスクから最適化戦略を自動的に学習する。 本稿では,ブラックボックス最適化の課題である機能評価コストの少ない高次元高コストBBOの処理における性能向上に焦点をあてる。 しかし、現在のL2O法は、トレーニング中の高価なブラックボックス関数に対する多くの評価と最適化戦略の貧弱な表現のために弱い。 これを達成するために 1) 最適化戦略の設計を導くために, 対象タスクの安価なサロゲート機能を利用する。 2)進化的アルゴリズム(EA)のメカニズムに基づき,最適化戦略のより強力な表現であるB2Optという新しいフレームワークを提案する。 BBOのベースラインと比較して、B2Optは機能評価コストを抑えて3~10^6ドルのパフォーマンス向上を達成できる。 この提案を高次元合成関数と実世界の2つの応用で検証する。 また、深部B2Optは浅いものよりも優れていることもわかりました。

Learning to optimize (L2O) has emerged as a powerful framework for black-box optimization (BBO). L2O learns the optimization strategies from the target task automatically without human intervention. This paper focuses on obtaining better performance when handling high-dimensional and expensive BBO with little function evaluation cost, which is the core challenge of black-box optimization. However, current L2O-based methods are weak for this due to a large number of evaluations on expensive black-box functions during training and poor representation of optimization strategy. To achieve this, 1) we utilize the cheap surrogate functions of the target task to guide the design of the optimization strategies; 2) drawing on the mechanism of evolutionary algorithm (EA), we propose a novel framework called B2Opt, which has a stronger representation of optimization strategies. Compared to the BBO baselines, B2Opt can achieve 3 to $10^6$ times performance improvement with less function evaluation cost. We test our proposal in high-dimensional synthetic functions and two real-world applications. We also find that deep B2Opt performs better than shallow ones.
翻訳日:2023-04-25 16:29:06 公開日:2023-04-24
# 固定周波数マルチレベル超伝導量子ビットのための全マイクロ波および低コストラムシフトエンジニアリング

All-microwave and low-cost Lamb shift engineering for a fixed frequency multi-level superconducting qubit ( http://arxiv.org/abs/2304.11782v1 )

ライセンス: Link先を確認
Byoung-moo Ann, and Gary A. Steele(参考訳) 電磁真空の量子的性質が、量子電磁力学(QED)において重要な現象であるラムシフトの原因であることが知られている。 qed回路では、分散結合された読み出しまたはバス共振器は、元のブロードバンドケースよりもはるかに大きなラムシフトを引き起こす可能性がある。 しかし,本研究は,回路設計における回路qed需要のオーバーヘッドや固有値の非摂動的再正規化におけるラムシフトを制御するための従来のアプローチや提案であり,本研究は固定周波数トランスモンのラムシフトを効果的かつ費用効率良く制御する手法を提案するものである。 トランスモンと共振器間の駆動誘起縦結合を用いる。 共振器周波数付近の非共振単色駆動を用いることで、上記課題に直面することなく、ラムシフトを32MHzから-30MHzに制御できる。 我々の研究は、電磁真空の基本効果を効率的に設計する方法を確立し、マルチレベルシステムの非パラメトリック周波数制御においてより柔軟性を提供する。

It is known that the quantum nature of the electromagnetic vacuum is responsible for the Lamb shift, which is a crucial phenomenon in quantum electrodynamics (QED). In circuit QED, the readout or bus resonators that are dispersively coupled can result in a significant Lamb shift, much larger than that in the original broadband cases. However, previous approaches or proposals for controlling the Lamb shift in circuit QED demand overheads in circuit designs or non-perturbative renormalization of the system's eigenbases, which can impose formidable limitations.In this work, we propose and demonstrate an efficient and cost-effective method for controlling the Lamb shift of fixed-frequency transmons. We employ the drive-induced longitudinal coupling between the transmon and resonator. By simply using an off-resonant monochromatic driving near the resonator frequency, we can regulate the Lamb shift from 32 to -30 MHz without facing the aforementioned challenges. Our work establishes an efficient way of engineering the fundamental effects of the electromagnetic vacuum and provides greater flexibility in non-parametric frequency controls of multilevel systems.
翻訳日:2023-04-25 16:28:50 公開日:2023-04-24
# 部分閉塞に対するロバストなアプローチは

Now You See Me: Robust approach to Partial Occlusions ( http://arxiv.org/abs/2304.11779v1 )

ライセンス: Link先を確認
Karthick Prasad Gunasekaran, Nikita Jaiman(参考訳) オブジェクトの排除はコンピュータビジョンにおいて不可欠である問題の1つである。 畳み込みニューラルネットワークス(CNN)は、正規画像分類のための様々な手法を提供するが、部分閉塞画像の分類には効果がないことが証明されている。 部分閉塞(partial occlusion)は、オブジェクトが他のオブジェクト/スペースによって部分的に閉塞されるシナリオである。 この問題が解決されると、さまざまなシナリオを促進する大きな可能性を秘めます。 特に私たちは、自動運転のシナリオとその影響に関心を持っています。 自動運転車の研究は、この10年でもっともホットな話題の1つであり、運転標識や人や物体を異なる角度で隠蔽する状況が数多くある。 犯罪の処理、様々なグループの所得水準の予測など、交通データのビデオ分析にさらに拡張できる状況において、その重要さを考えると、多くの面で活用される可能性がある。 本稿では,Stanford Car Datasetを応用し,さまざまなサイズと性質のオクルージョンを付加することで,私たち独自の合成データセットを導入する。 作成したデータセットでは,VGG-19,ResNet 50/101,GoogleNet,DenseNet 121などのアートCNNモデルのさまざまな状態を用いて総合解析を行った。 さらに,これらをスクラッチから微調整し,データセットにトレーニングすることにより,これらのモデルの性能に及ぼす咬合比率と性質の変化の影響を深く研究し,異なるシナリオでトレーニングした場合,すなわち,オクルード画像と未オクルード画像を用いたトレーニング時のパフォーマンスが,部分的オクルージョンに対してより頑健なものになるかについて検討した。

Occlusions of objects is one of the indispensable problems in Computer vision. While Convolutional Neural Net-works (CNNs) provide various state of the art approaches for regular image classification, they however, prove to be not as effective for the classification of images with partial occlusions. Partial occlusion is scenario where an object is occluded partially by some other object/space. This problem when solved,holds tremendous potential to facilitate various scenarios. We in particular are interested in autonomous driving scenario and its implications in the same. Autonomous vehicle research is one of the hot topics of this decade, there are ample situations of partial occlusions of a driving sign or a person or other objects at different angles. Considering its prime importance in situations which can be further extended to video analytics of traffic data to handle crimes, anticipate income levels of various groups etc.,this holds the potential to be exploited in many ways. In this paper, we introduce our own synthetically created dataset by utilising Stanford Car Dataset and adding occlusions of various sizes and nature to it. On this created dataset, we conducted a comprehensive analysis using various state of the art CNN models such as VGG-19, ResNet 50/101, GoogleNet, DenseNet 121. We further in depth study the effect of varying occlusion proportions and nature on the performance of these models by fine tuning and training these from scratch on dataset and how is it likely to perform when trained in different scenarios, i.e., performance when training with occluded images and unoccluded images, which model is more robust to partial occlusions and soon.
翻訳日:2023-04-25 16:28:30 公開日:2023-04-24
# 二次ハミルトニアンの開ループ線形制御とその応用

Open loop linear control of quadratic Hamiltonians with applications ( http://arxiv.org/abs/2304.11776v1 )

ライセンス: Link先を確認
Mattias T. Johnsson and Daniel Burgarth(参考訳) 量子調和振動子は物理学における最も基本的な天体の1つである。 任意の数モードに拡張され、消滅と生成演算子で双線型となるすべての可能な項を含む場合を考え、それらの作用素において線型である任意の時間依存駆動項を持つと仮定する。 このようなハミルトニアンは非常に一般的で、量子光学、超伝導回路qed、量子誤差補正符号、ボース=アインシュタイン凝縮、原子波パケット輸送、断熱限界を超える多くのシステムをカバーする。 我々は、この状況を量子制御の観点から検討し、最適制御理論を用いて、制御が任意であるときとコスト関数を最小化する必要があるときの両方で何が達成できるかを決定する。 特に、分析パルスのクラスを開発します。 次に,本理論をいくつかの特定の物理系に適用し,その利用例を示し,連続駆動条件付き変位ゲートを含む明示的な制御機能を提供する。

The quantum harmonic oscillator is one of the most fundamental objects in physics. We consider the case where it is extended to an arbitrary number modes and includes all possible terms that are bilinear in the annihilation and creation operators, and assume we also have an arbitrary time-dependent drive term that is linear in those operators. Such a Hamiltonian is very general, covering a broad range of systems including quantum optics, superconducting circuit QED, quantum error correcting codes, Bose-Einstein condensates, atomic wave packet transport beyond the adiabatic limit and many others. We examine this situation from the point of view of quantum control, making use of optimal control theory to determine what can be accomplished, both when the controls are arbitrary and when they must minimize some cost function. In particular we develop a class of analytical pulses. We then apply our theory to a number of specific topical physical systems to illustrate its use and provide explicit control functions, including the case of the continuously driven conditional displacement gate.
翻訳日:2023-04-25 16:28:03 公開日:2023-04-24
# Master: コントロール可能なゼロショットおよびFewショットアートスタイルトランスのためのメタスタイルトランスフォーマー

Master: Meta Style Transformer for Controllable Zero-Shot and Few-Shot Artistic Style Transfer ( http://arxiv.org/abs/2304.11818v1 )

ライセンス: Link先を確認
Hao Tang, Songhua Liu, Tianwei Lin, Shaoli Huang, Fu Li, Dongliang He, Xinchao Wang(参考訳) 変圧器型モデルは最近、グローバルレセプティブフィールドと強力なマルチヘッド/レイヤーアテンション操作により、芸術的スタイル転送において良好な性能を達成している。 それにもかかわらず、オーバーパラメライズされた多層構造はパラメータを著しく増加させ、トレーニングに重荷を負う。 また、スタイル転送のタスクでは、残差接続によってコンテンツとスタイル特徴を融合させるバニラトランスは、コンテンツ単位で歪む傾向が強い。 本稿では,スタイル転送に特化した新しいトランスフォーマーモデルである \emph{master} を考案する。 一方,提案モデルでは,(1)パラメータの総数を減らし,(2)より堅牢なトレーニングコンバージェンスを実現し,(3)推論中に積み重ねられたレイヤの数を自由に調整することで,スタイリゼーションの度合いを制御できる。 一方、バニラ版と異なり、コンテンツスタイルの機能相互作用の前にコンテンツ機能に学習可能なスケーリング操作を導入し、コンテンツ機能間のオリジナルの類似性を保ちつつ、スタイリング品質を確保している。 また,提案モデルに対して,トランスフォーマーエンコーダ層を1つの特定のスタイルで微調整することによって,任意のスタイル転送の典型的な設定だけでなく,少数の設定にも適応できるように,新しいメタ学習方式を提案する。 テキストガイドによる数ショットスタイルの転送は、まず提案したフレームワークで実現される。 大規模な実験は、ゼロショットと少数ショットスタイルの転送設定の両方でMasterの優位性を示す。

Transformer-based models achieve favorable performance in artistic style transfer recently thanks to its global receptive field and powerful multi-head/layer attention operations. Nevertheless, the over-paramerized multi-layer structure increases parameters significantly and thus presents a heavy burden for training. Moreover, for the task of style transfer, vanilla Transformer that fuses content and style features by residual connections is prone to content-wise distortion. In this paper, we devise a novel Transformer model termed as \emph{Master} specifically for style transfer. On the one hand, in the proposed model, different Transformer layers share a common group of parameters, which (1) reduces the total number of parameters, (2) leads to more robust training convergence, and (3) is readily to control the degree of stylization via tuning the number of stacked layers freely during inference. On the other hand, different from the vanilla version, we adopt a learnable scaling operation on content features before content-style feature interaction, which better preserves the original similarity between a pair of content features while ensuring the stylization quality. We also propose a novel meta learning scheme for the proposed model so that it can not only work in the typical setting of arbitrary style transfer, but also adaptable to the few-shot setting, by only fine-tuning the Transformer encoder layer in the few-shot stage for one specific style. Text-guided few-shot style transfer is firstly achieved with the proposed framework. Extensive experiments demonstrate the superiority of Master under both zero-shot and few-shot style transfer settings.
翻訳日:2023-04-25 16:19:11 公開日:2023-04-24
# マイクロMLプラットフォームのためのマルチプライアレスインフィルタコンピューティング

Multiplierless In-filter Computing for tinyML Platforms ( http://arxiv.org/abs/2304.11816v1 )

ライセンス: Link先を確認
Abhishek Ramdas Nair, Pallab Kumar Nath, Shantanu Chakrabartty, Chetan Singh Thakur(参考訳) 環境因子の連続モニタリングと大量のセンサデータを生成するバイオメディカル分類を用いた野生生物保護は,遠隔監視において帯域幅が限られているため課題である。 データの生成場所を分類することが重要になり、監視に使用されるのは機密データのみである。 本稿では,低消費電力のエッジデバイスで使用されるマージン伝搬(mp)近似を用いたフィルタ内音響分類のための新しいマルチプライバレスフレームワークを提案する。 この分類フレームワークの設計全体は、機能抽出と推論を含むテンプレートベースのカーネルマシンに基づいており、ハードウェア実装には追加/減算、シフト、コンパレータ操作といった基本的なプリミティブを使用する。 従来の分類の完全精度トレーニング法とは異なり, バックプロパゲーションによる近似誤差の軽減など, 訓練にはmpベース近似を用いる。 提案手法は音響分類に十分適している。 しかし,Field Programmable Gate Array (FPGA) に最適化されたカーネルマシン分類器に並列有限インパルス応答(FIR)フィルタバンクを実装することで,このフレームワークのハードウェアフレンドリさを実証する。 FIRフィルタは、MP近似とダウンサンプリング法を用いて実装されたカーネルマシンの機能抽出器および非線形カーネルとして機能し、フィルタの順序を小さくする。 Spartan 7のFPGA実装は、MP-approximated in-filterカーネルマシンが1Kスライス未満の従来の分類フレームワークよりも効率的であることを示している。

Wildlife conservation using continuous monitoring of environmental factors and biomedical classification, which generate a vast amount of sensor data, is a challenge due to limited bandwidth in the case of remote monitoring. It becomes critical to have classification where data is generated, and only classified data is used for monitoring. We present a novel multiplierless framework for in-filter acoustic classification using Margin Propagation (MP) approximation used in low-power edge devices deployable in remote areas with limited connectivity. The entire design of this classification framework is based on template-based kernel machine, which include feature extraction and inference, and uses basic primitives like addition/subtraction, shift, and comparator operations, for hardware implementation. Unlike full precision training methods for traditional classification, we use MP-based approximation for training, including backpropagation mitigating approximation errors. The proposed framework is general enough for acoustic classification. However, we demonstrate the hardware friendliness of this framework by implementing a parallel Finite Impulse Response (FIR) filter bank in a kernel machine classifier optimized for a Field Programmable Gate Array (FPGA). The FIR filter acts as the feature extractor and non-linear kernel for the kernel machine implemented using MP approximation and a downsampling method to reduce the order of the filters. The FPGA implementation on Spartan 7 shows that the MP-approximated in-filter kernel machine is more efficient than traditional classification frameworks with just less than 1K slices.
翻訳日:2023-04-25 16:18:43 公開日:2023-04-24
# noisetrans: トランスフォーマーによるポイントクラウド

NoiseTrans: Point Cloud Denoising with Transformers ( http://arxiv.org/abs/2304.11812v1 )

ライセンス: Link先を確認
Guangzhe Hou, Guihe Qin, Minghui Sun, Yanhua Liang, Jie Yan, Zhonghan Zhang(参考訳) 捕獲装置や3次元復元技術から得られる点雲は、しばしば騒がしく下流タスクに干渉する。 この論文は、ノイズ点雲の底面を回復することを目的としている。 我々は,変圧器エンコーダアーキテクチャを用いた新しいモデルである noisetrans を設計した。 具体的には,変圧器のコア・セルフ・アテンション機構を利用して点ベースの点雲の構造的類似性を得る。 ノイズの多い点雲を非順序ベクトルの集合として表現することにより、点雲を点埋め込みに変換し、トランスフォーマーを用いてクリーンな点雲を生成する。 ポイントクラウドを検知する際、Transformerが詳細を保存するために、ポイントクラウドの過度なスムース化を防ぐために、ローカルポイントアテンションを設計する。 さらに,トランスフォーマーがポイントクラウドの構造的関係をよりよく認識し,ノイズ発生性能を向上させるためのスパース符号化も提案する。 実験により,本モデルが各種データセットや騒音環境における最先端手法より優れていることが示された。

Point clouds obtained from capture devices or 3D reconstruction techniques are often noisy and interfere with downstream tasks. The paper aims to recover the underlying surface of noisy point clouds. We design a novel model, NoiseTrans, which uses transformer encoder architecture for point cloud denoising. Specifically, we obtain structural similarity of point-based point clouds with the assistance of the transformer's core self-attention mechanism. By expressing the noisy point cloud as a set of unordered vectors, we convert point clouds into point embeddings and employ Transformer to generate clean point clouds. To make the Transformer preserve details when sensing the point cloud, we design the Local Point Attention to prevent the point cloud from being over-smooth. In addition, we also propose sparse encoding, which enables the Transformer to better perceive the structural relationships of the point cloud and improve the denoising performance. Experiments show that our model outperforms state-of-the-art methods in various datasets and noise environments.
翻訳日:2023-04-25 16:18:21 公開日:2023-04-24
# PARAGRAPH2GRAPH:レイアウト段落解析のためのGNNベースのフレームワーク

PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis ( http://arxiv.org/abs/2304.11810v1 )

ライセンス: Link先を確認
Shu Wei and Nuo Xu(参考訳) ドキュメントレイアウト分析は、さまざまなドメイン、言語、ビジネスシナリオに幅広い要件を持っています。 しかし、現在の最先端アルゴリズムのほとんどは言語に依存しており、機能抽出にはトランスフォーマエンコーダやbertなどの言語固有のテキストエンコーダに依存する。 これらのアプローチは、入力シーケンス長の制約により非常に長いドキュメントを扱う能力に制限されており、言語固有のトークン化器と密接に結びついている。 さらに、プライバシーを考慮したラベル付き多言語文書データセットがないため、言語間のテキストエンコーダのトレーニングが難しい場合がある。 さらに、いくつかのレイアウトタスクでは、オーバーラップなく異なるレイアウトコンポーネントをきれいに分離する必要があるため、画像分割ベースのアルゴリズムでは達成が困難である。 本稿では,言語に依存しないグラフニューラルネットワーク(gnn)ベースのモデルである paragraph2graph について述べる。 たった1995万のパラメータで、我々のモデルは産業アプリケーション、特に多言語シナリオに適している。

Document layout analysis has a wide range of requirements across various domains, languages, and business scenarios. However, most current state-of-the-art algorithms are language-dependent, with architectures that rely on transformer encoders or language-specific text encoders, such as BERT, for feature extraction. These approaches are limited in their ability to handle very long documents due to input sequence length constraints and are closely tied to language-specific tokenizers. Additionally, training a cross-language text encoder can be challenging due to the lack of labeled multilingual document datasets that consider privacy. Furthermore, some layout tasks require a clean separation between different layout components without overlap, which can be difficult for image segmentation-based algorithms to achieve. In this paper, we present Paragraph2Graph, a language-independent graph neural network (GNN)-based model that achieves competitive results on common document layout datasets while being adaptable to business scenarios with strict separation. With only 19.95 million parameters, our model is suitable for industrial applications, particularly in multi-language scenarios.
翻訳日:2023-04-25 16:18:07 公開日:2023-04-24
# ogmn:uav画像における物体検出のための咬合誘導マルチタスクネットワーク

OGMN: Occlusion-guided Multi-task Network for Object Detection in UAV Images ( http://arxiv.org/abs/2304.11805v1 )

ライセンス: Link先を確認
Xuexue Li, Wenhui Diao, Yongqiang Mao, Peng Gao, Xiuhua Mao, Xinming Li and Xian Sun(参考訳) 物体間の衝突は、UAV画像における物体検出の課題の1つである。 UAVの高度と角度の変動により、UAV画像の閉塞は自然の場面よりも頻繁に起こる。 自然のシーン画像の閉塞と比較して、UAV画像の閉塞は特徴的混乱問題と局所的な凝集特性を伴う。 その結果,物体間の咬合の抽出や局所化は,検出者がこの問題に取り組む上で有用であることがわかった。 この結果から, 対象検出タスクと合わせてオクルージョン誘導マルチタスクネットワーク(ogmn)を構成するオクルージョン局在化タスクが導入された。 OGMNはオクルージョンの局在と2つのオクルージョン誘導マルチタスク相互作用を含んでいる。 詳しくは、オクルージョン推定モジュール(OEM)を提案し、オクルージョンを正確にローカライズする。 次に、ogmnは2つのマルチタスクインタラクションによる咬合誘導検出を実現するために咬合定位結果を利用する。 このガイドの1つの相互作用は、2つのタスクデコーダの間で特徴混乱問題に対処し、一般的な検出ヘッドを置き換えるためにオクルージョンデカップリングヘッド(ODH)を提案することである。 また, 局所凝集特性による検出過程において, ガイドの別の相互作用を設計し, 検出過程を最適化するために2相進行処理(TPP)を提案する。 visdroneおよびuavdtデータセットに対する我々のogmnの有効性を広範な実験により実証した。 特に、我々のOGMNは、Visdroneデータセットで35.0% mAPを獲得し、ベースラインを5.3%上回っている。 また,我々のogmnは正確な咬合定位に関する新たな知見を提供し,競合検出性能を実現する。

Occlusion between objects is one of the overlooked challenges for object detection in UAV images. Due to the variable altitude and angle of UAVs, occlusion in UAV images happens more frequently than that in natural scenes. Compared to occlusion in natural scene images, occlusion in UAV images happens with feature confusion problem and local aggregation characteristic. And we found that extracting or localizing occlusion between objects is beneficial for the detector to address this challenge. According to this finding, the occlusion localization task is introduced, which together with the object detection task constitutes our occlusion-guided multi-task network (OGMN). The OGMN contains the localization of occlusion and two occlusion-guided multi-task interactions. In detail, an occlusion estimation module (OEM) is proposed to precisely localize occlusion. Then the OGMN utilizes the occlusion localization results to implement occlusion-guided detection with two multi-task interactions. One interaction for the guide is between two task decoders to address the feature confusion problem, and an occlusion decoupling head (ODH) is proposed to replace the general detection head. Another interaction for guide is designed in the detection process according to local aggregation characteristic, and a two-phase progressive refinement process (TPP) is proposed to optimize the detection process. Extensive experiments demonstrate the effectiveness of our OGMN on the Visdrone and UAVDT datasets. In particular, our OGMN achieves 35.0% mAP on the Visdrone dataset and outperforms the baseline by 5.3%. And our OGMN provides a new insight for accurate occlusion localization and achieves competitive detection performance.
翻訳日:2023-04-25 16:17:50 公開日:2023-04-24
# 量子科学とアクシオンダークマターの探索

Quantum Science and the Search for Axion Dark Matter ( http://arxiv.org/abs/2304.11797v1 )

ライセンス: Link先を確認
Alexander O. Sushkov(参考訳) ダークマターパズルは現代の物理学において最も重要なオープン問題の一つである。 超光軸は、量子色力学の強いCP問題を解くために考案された、よく動機付けられたダークマター候補である。 多数の精密な実験がアクシオン様ダークマターの3つの非重力相互作用を探索している。 一部の検索は、感度の基本的な量子限界に近づいている。 このパースペクティブは、量子工学を用いてこれらの限界を回避するいくつかのアプローチを記述する。 スクイーズと単光子計数により、軸-光子相互作用の探索が促進される。 量子スピンアンサンブル特性の最適化は、陽子ダークマターの電子双極子運動のスピンベース探索と勾配相互作用の完全なポテンシャルを実現するために必要である。 量子情報科学の分野で開発されたいくつかのメトロロジーおよびセンシング技術は、実験基礎物理学の分野で自然に応用されている。

The dark matter puzzle is one of the most important open problems in modern physics. The ultra-light axion is a well-motivated dark matter candidate, conceived to resolve the strong-CP problem of quantum chromodynamics. Numerous precision experiments are searching for the three non-gravitational interactions of axion-like dark matter. Some of the searches are approaching fundamental quantum limits on their sensitivity. This Perspective describes several approaches that use quantum engineering to circumvent these limits. Squeezing and single-photon counting can enhance searches for the axion-photon interaction. Optimization of quantum spin ensemble properties is needed to realize the full potential of spin-based searches for the electric-dipole-moment and the gradient interactions of axion dark matter. Several metrological and sensing techniques, developed in the field of quantum information science, are finding natural applications in this area of experimental fundamental physics.
翻訳日:2023-04-25 16:17:24 公開日:2023-04-24
# FineEHR: 死亡予測を改善するための臨床ノートのリファイン化

FineEHR: Refine Clinical Note Representations to Improve Mortality Prediction ( http://arxiv.org/abs/2304.11794v1 )

ライセンス: Link先を確認
Jun Wu, Xuesong Ye, Chengjie Mou and Weinan Dai(参考訳) ICU患者の健康状態のモニタリングは、より良いケアと治療を提供する上で重要である。 大量の電子健康記録(EHR)は、機械学習モデルに正確な予測を行うための、より多くの臨床テキストと重要な兆候を与える。 現在、臨床ノート分析のために多くの高度なNLPモデルが出現している。 しかし, テキスト構造が複雑であり, 生臨床データにノイズが伴うため, ドメイン固有の精細化を伴わない粗い埋め込み手法では精度の向上が制限される。 そこで本研究では, メートル法学習と微調整を含む2つの表現学習技術を用いて, 異なる健康状態と音符カテゴリの内的相関を利用して, 臨床ノート埋め込みを洗練するシステムである fineehr を提案する。 実世界のMIMIC IIIデータセットを用いて、AUCとAUC-PRの2つの指標を用いてFINEEHRの性能を評価する。 実験の結果,両手法とも予測精度が向上し,その組み合わせが最良の結果を示すことがわかった。 AUCの10%以上の改善を達成し、AUCの平均96.04%、AUC-PRの平均96.48%を様々な分類器で達成した。

Monitoring the health status of patients in the ICU is crucial for providing them with better care and treatment. Massive raw electronic health records (EHR) give machine learning models more clinical texts and vital signs to make accurate predictions. Currently, many advanced NLP models have emerged for clinical note analysis. However, due to the complicated textual structure and noise in raw clinical data, coarse embedding approaches without domain-specific refining limit the accuracy improvement. To address this issue, we propose FINEEHR, a system adopting two representation learning techniques, including metric learning and fine-tuning, to refine clinical note embeddings, utilizing the inner correlation among different health statuses and note categories. We evaluate the performance of FINEEHR using two metrics, AUC and AUC-PR, on a real-world MIMIC III dataset. Our experimental results demonstrate that both refining approaches can improve prediction accuracy, and their combination presents the best results. It outperforms previous works, achieving an AUC improvement of over 10%, with an average AUC of 96.04% and an average AUC-PR of 96.48% across various classifiers.
翻訳日:2023-04-25 16:17:11 公開日:2023-04-24
# カモフラージュの共進化

Coevolution of Camouflage ( http://arxiv.org/abs/2304.11793v1 )

ライセンス: Link先を確認
Craig Reynolds(参考訳) 自然界のカモフラージュは捕食者と獲物との競争から生じているようである。 生き残るためには捕食者は獲物を見つけなければならず、獲物は発見されないようにしなければならない。 この研究は、その敵対関係の抽象モデルをシミュレートする。 進化する捕食者視覚と競合して、獲物の迷彩パターン(色のテクスチャ)を進化させ、クライプシを見る。 その「終生」捕食者は、カモフラージュした獲物をよりよく見つけることを学ぶ。 この2Dシミュレーションの環境は、通常、自然のシーンの一連の写真によって提供される。 このモデルは、獲物と捕食者の2つの進化した個体群に基づいている。 これらの集団間の相互の対立は、効果的な捕食カモフラージュと「破壊」カモフラージュに熟練した捕食者の両方を生み出すことができる。 その結果、自然のカモフラージュや、カモフラージュの知覚現象をより一般的に研究するための、オープンソースの人工生命モデルが生まれました。

Camouflage in nature seems to arise from competition between predator and prey. To survive, predators must find prey, and prey must avoid being found. This work simulates an abstract model of that adversarial relationship. It looks at crypsis through evolving prey camouflage patterns (as color textures) in competition with evolving predator vision. During their "lifetime" predators learn to better locate camouflaged prey. The environment for this 2D simulation is provided by a set of photographs, typically of natural scenes. This model is based on two evolving populations, one of prey and another of predators. Mutual conflict between these populations can produce both effective prey camouflage and predators skilled at "breaking" camouflage. The result is an open source artificial life model to help study camouflage in nature, and the perceptual phenomenon of camouflage more generally.
翻訳日:2023-04-25 16:16:47 公開日:2023-04-24
# 高品質非自己回帰テキスト生成のための非循環変換器事前学習

Directed Acyclic Transformer Pre-training for High-quality Non-autoregressive Text Generation ( http://arxiv.org/abs/2304.11791v1 )

ライセンス: Link先を確認
Fei Huang, Pei Ke, Minlie Huang(参考訳) 非AutoRegressive (NAR)テキスト生成モデルは、デコード速度が大幅に速く、機械翻訳の質が良いため、多くの注目を集めている。 しかし、幅広いテキスト生成タスクにおいて、既存のNARモデルは適切な事前学習を欠いているため、事前訓練された自己回帰モデルよりもはるかに遅れている。 本稿では,NAR生成における予測整合性を促進するために,事前学習型非巡回変圧器(PreDAT)と新たな事前学習タスクを提案する。 5つのテキスト生成タスクの実験によると、PreDATは既存のトレーニング済みNARモデル(平均4.2スコア)を著しく上回り、n-gramベースのメトリクスのトレーニング済みの自己回帰ベースラインよりも優れた結果が得られる。 さらなる分析により、predatは自己回帰生成におけるエラー蓄積問題を緩和する偏りのない予測順序の恩恵を受けることを示し、nar生成の利点に対する新たな洞察を与える。

Non-AutoRegressive (NAR) text generation models have drawn much attention because of their significantly faster decoding speed and good generation quality in machine translation. However, in a wider range of text generation tasks, existing NAR models lack proper pre-training, making them still far behind the pre-trained autoregressive models. In this paper, we propose Pre-trained Directed Acyclic Transformer (PreDAT) and a novel pre-training task to promote prediction consistency in NAR generation. Experiments on five text generation tasks show that our PreDAT remarkably outperforms existing pre-trained NAR models (+4.2 scores on average) and even achieves better results than pre-trained autoregressive baselines in n-gram-based metrics, along with 17 times speedup in throughput. Further analysis shows that PreDAT benefits from the unbiased prediction order that alleviates the error accumulation problem in autoregressive generation, which provides new insights into the advantages of NAR generation.
翻訳日:2023-04-25 16:16:34 公開日:2023-04-24
# アダプティブ飽和rnn: 不安定さの少ないもっと思い出す

Adaptive-saturated RNN: Remember more with less instability ( http://arxiv.org/abs/2304.11790v1 )

ライセンス: Link先を確認
Khoi Minh Nguyen-Duy, Quang Pham, Binh T. Nguyen(参考訳) 直交パラメータ化は、リカレントニューラルネットワーク(RNN)における消滅勾配問題(VGP)に対する説得力のある解である。 直交パラメータと非飽和活性化関数により、そのようなモデルの勾配は単位ノルムに制約される。 一方、従来のバニラRNNはメモリ容量が高いが、VGPに悩まされ、多くのアプリケーションで性能が悪くなっている。 本稿では,2つのアプローチ間の飽和度を動的に調整する適応飽和RNN(asRNN)を提案する。 その結果、asRNNはバニラRNNの能力と直交RNNの訓練安定性の両方を享受している。 我々の実験は、いくつかの強力な競合相手と比較して、挑戦的なシーケンス学習ベンチマークにおけるasRNNの結果を奨励することを示した。 研究コードはhttps://github.com/ndminhkhoi46/asrnn/からアクセスできる。

Orthogonal parameterization is a compelling solution to the vanishing gradient problem (VGP) in recurrent neural networks (RNNs). With orthogonal parameters and non-saturated activation functions, gradients in such models are constrained to unit norms. On the other hand, although the traditional vanilla RNNs are seen to have higher memory capacity, they suffer from the VGP and perform badly in many applications. This work proposes Adaptive-Saturated RNNs (asRNN), a variant that dynamically adjusts its saturation level between the two mentioned approaches. Consequently, asRNN enjoys both the capacity of a vanilla RNN and the training stability of orthogonal RNNs. Our experiments show encouraging results of asRNN on challenging sequence learning benchmarks compared to several strong competitors. The research code is accessible at https://github.com/ndminhkhoi46/asRNN/.
翻訳日:2023-04-25 16:16:02 公開日:2023-04-24
# 超伝導トランスモンquditにおけるsu($d$)演算とルーディメンタリーアルゴリズムの$d=3$および$d=4$

Performing SU($d$) operations and rudimentary algorithms in a superconducting transmon qudit for $d=3$ and $d=4$ ( http://arxiv.org/abs/2304.11841v1 )

ライセンス: Link先を確認
Pei Liu, Ruixia Wang, Jing-Ning Zhang, Yingshan Zhang, Xiaoxia Cai, Huikai Xu, Zhiyuan Li, Jiaxiu Han, Xuegang Li, Guangming Xue, Weiyang Liu, Li You, Yirong Jin, and Haifeng Yu(参考訳) $d$レベルのシステムに基づく量子計算アーキテクチャ(qudits)は、最近ヒルベルト空間の拡大により注目されている。 量子計算と量子情報処理のアルゴリズムとベンチマーク技術に関する広範な理論的および実験的研究が行われている。 本稿では,超伝導トランスモンに最大4つの埋め込みレベルを持つquditを物理的に実現し,高忠実度初期化,操作,同時多レベル読み出しを示す。 量子状態トモグラフィー、量子プロセストモグラフィー、ランダム化ベンチマーク等のためのSU($d$)演算とベンチマークプロトコルの構築に加えて、これらの演算を$d=3$と$d=4$で実験的に実施する。 さらに,確率型量子アルゴリズムを実行し,期待値と一致した結果を観測する。 我々の研究は、クォーディットを持つ量子プロセッサの操作プロトコルと効率的な応用の開発に対するさらなる研究の関心を刺激することを期待している。

Quantum computation architecture based on $d$-level systems, or qudits, has attracted considerable attention recently due to their enlarged Hilbert space. Extensive theoretical and experimental studies have addressed aspects of algorithms and benchmarking techniques for qudit-based quantum computation and quantum information processing. Here, we report a physical realization of qudit with upto 4 embedded levels in a superconducting transmon, demonstrating high-fidelity initialization, manipulation, and simultaneous multi-level readout. In addition to constructing SU($d$) operations and benchmarking protocols for quantum state tomography, quantum process tomography, and randomized benchmarking etc, we experimentally carry out these operations for $d=3$ and $d=4$. Moreover, we perform prototypical quantum algorithms and observe outcomes consistent with expectations. Our work will hopefully stimulate further research interest in developing manipulation protocols and efficient applications for quantum processors with qudits.
翻訳日:2023-04-25 16:10:13 公開日:2023-04-24
# ビデオオブジェクト分割のためのロバストかつ効率的なメモリネットワーク

Robust and Efficient Memory Network for Video Object Segmentation ( http://arxiv.org/abs/2304.11840v1 )

ライセンス: Link先を確認
Yadang Chen, Dingwei Zhang, Zhi-xin Yang, Enhua Wu(参考訳) 本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワークREMNを提案する。 メモリベースの手法は、最近、クエリとメモリ間の非局所的な画素ワイドマッチングを実行することで、優れたVOS性能を実現している。 しかし、これらの方法には2つの制限がある。 1)非局所マッチングは,背景の乱れオブジェクトを誤ったセグメント化させる可能性がある。 2) 時間的冗長性が高いメモリ機能は、重要な計算資源を消費する。 限界1では,前景物体の特徴を前景マスクで高めることにより,背景の気晴らしに対処できる局所注意機構を導入する。 制限2の場合、まず前景オブジェクトの変動に応じてメモリ特徴を更新するかどうかを適応的に決定し、時間的冗長性を低減する。 第二に、動的メモリバンクを用いており、これは軽量で微分可能なソフト変調ゲートを用いて、時間次元においてメモリの特徴をいくつ取り除かなければならないかを決定する。 実験によると、我々のREMNはDAVIS 2017の最先端の結果を、$\mathcal{J\&F}$スコア86.3%、YouTube-VOS 2018の$\mathcal{G}$平均85.5%で達成している。 さらに,本ネットワークは25FPS以上の推論速度を示し,比較的少ない計算資源を使用する。

This paper proposes a Robust and Efficient Memory Network, referred to as REMN, for studying semi-supervised video object segmentation (VOS). Memory-based methods have recently achieved outstanding VOS performance by performing non-local pixel-wise matching between the query and memory. However, these methods have two limitations. 1) Non-local matching could cause distractor objects in the background to be incorrectly segmented. 2) Memory features with high temporal redundancy consume significant computing resources. For limitation 1, we introduce a local attention mechanism that tackles the background distraction by enhancing the features of foreground objects with the previous mask. For limitation 2, we first adaptively decide whether to update the memory features depending on the variation of foreground objects to reduce temporal redundancy. Second, we employ a dynamic memory bank, which uses a lightweight and differentiable soft modulation gate to decide how many memory features need to be removed in the temporal dimension. Experiments demonstrate that our REMN achieves state-of-the-art results on DAVIS 2017, with a $\mathcal{J\&F}$ score of 86.3% and on YouTube-VOS 2018, with a $\mathcal{G}$ over mean of 85.5%. Furthermore, our network shows a high inference speed of 25+ FPS and uses relatively few computing resources.
翻訳日:2023-04-25 16:09:56 公開日:2023-04-24
# 局所エネルギー分布に基づく確率的アニーリングのハイパーパラメータ決定

Local Energy Distribution Based Hyperparameter Determination for Stochastic Simulated Annealing ( http://arxiv.org/abs/2304.11839v1 )

ライセンス: Link先を確認
Naoya Onizawa, Kyo Kuroki, Duckgyu Shin, Takahiro Hanyu(参考訳) 本稿では,局所エネルギー分布に基づく確率的模擬焼鈍(SSA)のためのハイパーパラメータ決定法を提案する。 SSAは、一般的な模擬焼鈍(SA)よりも高速に組合せ最適化問題を解くことができるが、時間を要するハイパーパラメーター探索が必要である。 提案手法はスピン(確率ビット)の局所エネルギー分布に基づいてハイパーパラメータを決定する。 スピンはSSAの基本計算要素であり、その重みで他のスピンとグラフィカルに接続されている。 局所エネルギーの分布は中心極限定理(CLT)に基づいて推定できる。 CLTに基づく正規分布は、従来の手法のO(n^3)からO(1)へのハイパーパラメータ探索の時間的複雑さを低減するために用いられる。 最大カット問題に対するGsetおよびK2000ベンチマークにおいて,決定されたハイパーパラメータを用いたSSAの性能を評価する。 その結果,提案手法は最もよく知られたカット値の約98%の平均カット値が得られることがわかった。

This paper presents a local energy distribution based hyperparameter determination for stochastic simulated annealing (SSA). SSA is capable of solving combinatorial optimization problems faster than typical simulated annealing (SA), but requires a time-consuming hyperparameter search. The proposed method determines hyperparameters based on the local energy distributions of spins (probabilistic bits). The spin is a basic computing element of SSA and is graphically connected to other spins with its weights. The distribution of the local energy can be estimated based on the central limit theorem (CLT). The CLT-based normal distribution is used to determine the hyperparameters, which reduces the time complexity for hyperparameter search from O(n^3) of the conventional method to O(1). The performance of SSA with the determined hyperparameters is evaluated on the Gset and K2000 benchmarks for maximum-cut problems. The results show that the proposed method achieves mean cut values of approximately 98% of the best-known cut values.
翻訳日:2023-04-25 16:09:33 公開日:2023-04-24
# Auto-CARD: リアルタイムモバイルテレプレゼンスのための効率的でロバストなコーデックアバター運転

Auto-CARD: Efficient and Robust Codec Avatar Driving for Real-time Mobile Telepresence ( http://arxiv.org/abs/2304.11835v1 )

ライセンス: Link先を確認
Yonggan Fu, Yuecheng Li, Chenghui Li, Jason Saragih, Peizhao Zhang, Xiaoliang Dai, Yingyan Lin(参考訳) AR/VRにおけるテレプレゼンスのためのリアルタイムで堅牢なフォトリアリスティックアバターは、没入型フォトリアリスティックテレプレゼンスを実現するために非常に望まれている。 しかし、ヘッドセットに搭載されたカメラから捉えた表情を正確に推測するために必要なかなりの計算コストは、アバターの人間の外観の現実性に匹敵する品質レベルである。 そこで我々は,デバイス上でのみのコンピューティングリソースを使用する場合,初めてCodec Avatarのリアルタイムかつ堅牢な運転を可能にするAuto-CARDというフレームワークを提案する。 これは2つの冗長性の源を最小化する。 まず、AR/VRにおけるアバターエンコーディングのためのAVE-NASと呼ばれる専用ニューラルネットワークサーチ手法を開発し、極端な表情の存在下での検索されたアーキテクチャの堅牢性と、急速に進化するAR/VRヘッドセットに対するハードウェアフレンドリさの両方を明確に促進する。 第2に,連続レンダリング中の画像の時間的冗長性を利用して,冗長フレームの計算を省略するLATEXと呼ばれる機構を開発する。 具体的には,まずアバターデコーダによって導かれる潜在空間の線形性から機会を特定し,冗長フレームに対する適応的潜在外挿を行うことを提案する。 評価のために、リアルタイムのCodec Avatar駆動設定におけるAuto-CARDフレームワークの有効性を実証し、Meta Quest 2における5.05倍のスピードアップを実現し、最先端のアバターエンコーダ設計と同等あるいはそれ以上のアニメーション品質を維持した。

Real-time and robust photorealistic avatars for telepresence in AR/VR have been highly desired for enabling immersive photorealistic telepresence. However, there still exists one key bottleneck: the considerable computational expense needed to accurately infer facial expressions captured from headset-mounted cameras with a quality level that can match the realism of the avatar's human appearance. To this end, we propose a framework called Auto-CARD, which for the first time enables real-time and robust driving of Codec Avatars when exclusively using merely on-device computing resources. This is achieved by minimizing two sources of redundancy. First, we develop a dedicated neural architecture search technique called AVE-NAS for avatar encoding in AR/VR, which explicitly boosts both the searched architectures' robustness in the presence of extreme facial expressions and hardware friendliness on fast evolving AR/VR headsets. Second, we leverage the temporal redundancy in consecutively captured images during continuous rendering and develop a mechanism dubbed LATEX to skip the computation of redundant frames. Specifically, we first identify an opportunity from the linearity of the latent space derived by the avatar decoder and then propose to perform adaptive latent extrapolation for redundant frames. For evaluation, we demonstrate the efficacy of our Auto-CARD framework in real-time Codec Avatar driving settings, where we achieve a 5.05x speed-up on Meta Quest 2 while maintaining a comparable or even better animation quality than state-of-the-art avatar encoder designs.
翻訳日:2023-04-25 16:09:17 公開日:2023-04-24
# ロバストなチケットはよりよく転送できる:転送学習で転送可能なサブネットワークを描く

Robust Tickets Can Transfer Better: Drawing More Transferable Subnetworks in Transfer Learning ( http://arxiv.org/abs/2304.11834v1 )

ライセンス: Link先を確認
Yonggan Fu, Ye Yuan, Shang Wu, Jiayi Yuan, Yingyan Lin(参考訳) Transfer Learningは、ソースタスクとリッチデータで事前訓練されたディープニューラルネットワーク(DNN)の機能表現を活用して、下流タスクの効果的な微調整を可能にする。 しかしながら、事前訓練されたモデルは、一般化可能な表現を提供するために、しばしば禁止的に大きい。 このギャップを埋めるために,我々は,ロバストチケットがよりよく転送可能であること,すなわち,適切に誘導された敵対的ロバスト性で描画されたサブネットワークがバニラ抽選チケットサブネットワークよりも転送性が向上することを活用する,新しいトランスファー学習パイプラインを提案する。 大規模な実験とアブレーション研究により,提案したトランスファー学習パイプラインは,多様な下流タスクとスパーシティパターンの両方にわたる精度・スパーシティトレードオフを達成でき,さらに抽選チケット仮説をさらに強化できることを確認した。

Transfer learning leverages feature representations of deep neural networks (DNNs) pretrained on source tasks with rich data to empower effective finetuning on downstream tasks. However, the pretrained models are often prohibitively large for delivering generalizable representations, which limits their deployment on edge devices with constrained resources. To close this gap, we propose a new transfer learning pipeline, which leverages our finding that robust tickets can transfer better, i.e., subnetworks drawn with properly induced adversarial robustness can win better transferability over vanilla lottery ticket subnetworks. Extensive experiments and ablation studies validate that our proposed transfer learning pipeline can achieve enhanced accuracy-sparsity trade-offs across both diverse downstream tasks and sparsity patterns, further enriching the lottery ticket hypothesis.
翻訳日:2023-04-25 16:08:46 公開日:2023-04-24
# 機能整合型特徴蒸留

Function-Consistent Feature Distillation ( http://arxiv.org/abs/2304.11832v1 )

ライセンス: Link先を確認
Dongyang Liu, Meina Kan, Shiguang Shan, Xilin Chen(参考訳) 特徴蒸留は生徒を先生の中間的特徴を模倣させる。 既存のほとんど全ての特徴蒸留法は、教師と学生の特徴間の距離メートル法としてL2距離またはそのわずかな変種を用いる。 しかし、L2距離はすべての次元の等方性であるのに対し、ニューラルネットワークの異なる次元での操作は通常異方性であり、すなわち、同じ2ノルムの摂動を持つが、中間的特徴の異なる次元の摂動は、大まかに異なる最終的な出力の変化をもたらす。 これを踏まえて、教師と生徒の特徴の類似性は、単にその外観(L2距離)に基づいて測定されるべきではなく、その機能の違い、すなわち、後のネットワーク層がどのように読み、デコードされ、処理されるかによって測定されるべきである。 そこで我々は,教師と生徒の機能的類似性を明示的に最適化するFCFD(Function-Consistent Feature Distillation)を提案する。 FCFDの中核となる考え方は、教師と生徒の機能を数値的に類似させるだけでなく、同じネットワークの後半に供給されたときに同様の出力を生成することである。 FCFDでは、生徒は教師をより忠実に模倣し、教師からより多くのことを学ぶ。 画像分類と物体検出に関する大規模な実験は、既存の方法よりもFCFDの方が優れていることを示す。 さらに,fcfdと既存の手法を組み合わせることで,精度を高めることができる。 私たちのコードはhttps://github.com/liudongyang6/fcfdで利用可能です。

Feature distillation makes the student mimic the intermediate features of the teacher. Nearly all existing feature-distillation methods use L2 distance or its slight variants as the distance metric between teacher and student features. However, while L2 distance is isotropic w.r.t. all dimensions, the neural network's operation on different dimensions is usually anisotropic, i.e., perturbations with the same 2-norm but in different dimensions of intermediate features lead to changes in the final output with largely different magnitude. Considering this, we argue that the similarity between teacher and student features should not be measured merely based on their appearance (i.e., L2 distance), but should, more importantly, be measured by their difference in function, namely how later layers of the network will read, decode, and process them. Therefore, we propose Function-Consistent Feature Distillation (FCFD), which explicitly optimizes the functional similarity between teacher and student features. The core idea of FCFD is to make teacher and student features not only numerically similar, but more importantly produce similar outputs when fed to the later part of the same network. With FCFD, the student mimics the teacher more faithfully and learns more from the teacher. Extensive experiments on image classification and object detection demonstrate the superiority of FCFD to existing methods. Furthermore, we can combine FCFD with many existing methods to obtain even higher accuracy. Our codes are available at https://github.com/LiuDongyang6/FCFD.
翻訳日:2023-04-25 16:08:26 公開日:2023-04-24
# 階層拡散オートエンコーダと異方性画像操作

Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation ( http://arxiv.org/abs/2304.11829v1 )

ライセンス: Link先を確認
Zeyu Lu, Chengyue Wu, Xinyuan Chen, Yaohui Wang, Yu Qiao, Xihui Liu(参考訳) 拡散モデルは画像合成のための印象的な視覚品質を達成している。 しかし、拡散モデルの潜在空間を解釈し、操作する方法は広く研究されていない。 以前の作業の拡散オートエンコーダは、セマンティック表現をセマンティックな潜在コードにエンコードする。 これらの制限を緩和するために,拡散モデルの潜在空間に対して,細粒度と低レベルの特徴階層を利用する階層型拡散オートエンコーダ(HDAE)を提案する。 HDAEの階層的潜在空間は本質的に異なる抽象的な意味論のレベルを符号化し、より包括的な意味表現を提供する。 さらに,不連続画像操作のための切断特徴に基づくアプローチを提案する。 提案手法の有効性を,画像再構成,スタイル混合,制御可能な補間,ディテール保存・アンタングル画像操作,マルチモーダル・セマンティック画像合成に応用して検証した。

Diffusion models have attained impressive visual quality for image synthesis. However, how to interpret and manipulate the latent space of diffusion models has not been extensively explored. Prior work diffusion autoencoders encode the semantic representations into a semantic latent code, which fails to reflect the rich information of details and the intrinsic feature hierarchy. To mitigate those limitations, we propose Hierarchical Diffusion Autoencoders (HDAE) that exploit the fine-grained-to-abstract and lowlevel-to-high-level feature hierarchy for the latent space of diffusion models. The hierarchical latent space of HDAE inherently encodes different abstract levels of semantics and provides more comprehensive semantic representations. In addition, we propose a truncated-feature-based approach for disentangled image manipulation. We demonstrate the effectiveness of our proposed approach with extensive experiments and applications on image reconstruction, style mixing, controllable interpolation, detail-preserving and disentangled image manipulation, and multi-modal semantic image synthesis.
翻訳日:2023-04-25 16:08:01 公開日:2023-04-24
# ランゲル天体の知覚と操作のための制御照明

Controlled illumination for perception and manipulation of Lambertian objects ( http://arxiv.org/abs/2304.11824v1 )

ライセンス: Link先を確認
Arkadeep Narayan Chaudhury and Christopher G. Atkeson(参考訳) 照明の制御は、低計算コストで物体表面の正規性や深さの不連続性に関する高品質な情報を生成することができる。 本研究では、ロボット操作のためのテーブルトップスケールオブジェクトの高品質な情報を生成するロボットワークスペーススケール制御照明手法を実証する。 入射方向照明アプローチの低い角度では、ランベルト天体の表面正規と深さの不連続性を正確に捉えることができる。 ロボット操作におけるアプローチのユースケースを3つ紹介する。 私たちはそれを示します 1) 取得した情報を用いて, 単一点真空グリッパーを用いて汎用的な把持を行うことができる。 2)既知の物体の変形を視覚的に測定し, 3)既知の物体のポーズを推定し,ロボットの作業空間内の未知物体を追跡することができる。 この成果のさらなるデモンストレーションは、プロジェクトwebページhttps://anonymousprojectsite.github.io/で見ることができる。

Controlling illumination can generate high quality information about object surface normals and depth discontinuities at a low computational cost. In this work we demonstrate a robot workspace-scaled controlled illumination approach that generates high quality information for table top scale objects for robotic manipulation. With our low angle of incidence directional illumination approach we can precisely capture surface normals and depth discontinuities of Lambertian objects. We demonstrate three use cases of our approach for robotic manipulation. We show that 1) by using the captured information we can perform general purpose grasping with a single point vacuum gripper, 2) we can visually measure the deformation of known objects, and 3) we can estimate pose of known objects and track unknown objects in the robot's workspace. Additional demonstrations of the results presented in the work can be viewed on the project webpage https://anonymousprojectsite.github.io/.
翻訳日:2023-04-25 16:07:42 公開日:2023-04-24
# シャープネス最小化によるファインチューニング型バックドアディフェンスの強化

Enhancing Fine-Tuning Based Backdoor Defense with Sharpness-Aware Minimization ( http://arxiv.org/abs/2304.11823v1 )

ライセンス: Link先を確認
Mingli Zhu, Shaokui Wei, Li Shen, Yanbo Fan, Baoyuan Wu(参考訳) 攻撃者が引き起こす悪質なトリガーを検知または緩和することを目的としたバックドアディフェンスは、機械学習のセキュリティと整合性にとってますます重要になっている。 良性データに基づく微調整は、バックドアモデルにおけるバックドア効果を削除する自然な防御である。 しかし,近年の研究では,バニラ微調整による防御性能の低下が報告されている。 本研究では、ニューロンの観点からバックドアモデルの微調整に関する深い研究を行い、その微調整過程においてバックドア関連ニューロンが局所的な極小さから逃れられていないことを発見した。 バックドア関連ニューロンは、しばしばより大きなノルムを持つという観察に触発されて、我々は、シャープネスを認識できる最小化と微調整を組み込むことでバックドア関連ニューロンのノルムを縮小することを目的とした新しいバックドア防御パラダイムであるftsamを提案する。 いくつかのベンチマークデータセットとネットワークアーキテクチャにおいて,本手法の有効性を実証し,現状の防御性能を実現する。 全体として、我々の研究は、バックドア攻撃に対する機械学習モデルの堅牢性を改善するための有望な道を提供する。

Backdoor defense, which aims to detect or mitigate the effect of malicious triggers introduced by attackers, is becoming increasingly critical for machine learning security and integrity. Fine-tuning based on benign data is a natural defense to erase the backdoor effect in a backdoored model. However, recent studies show that, given limited benign data, vanilla fine-tuning has poor defense performance. In this work, we provide a deep study of fine-tuning the backdoored model from the neuron perspective and find that backdoorrelated neurons fail to escape the local minimum in the fine-tuning process. Inspired by observing that the backdoorrelated neurons often have larger norms, we propose FTSAM, a novel backdoor defense paradigm that aims to shrink the norms of backdoor-related neurons by incorporating sharpness-aware minimization with fine-tuning. We demonstrate the effectiveness of our method on several benchmark datasets and network architectures, where it achieves state-of-the-art defense performance. Overall, our work provides a promising avenue for improving the robustness of machine learning models against backdoor attacks.
翻訳日:2023-04-25 16:07:30 公開日:2023-04-24
# V2X通信支援自律運転における中断型協調認識

Interruption-Aware Cooperative Perception for V2X Communication-Aided Autonomous Driving ( http://arxiv.org/abs/2304.11821v1 )

ライセンス: Link先を確認
Shunli Ren, Zixing Lei, Zi Wang, Mehrdad Dianati, Yafei Wang, Siheng Chen, Wenjun Zhang(参考訳) v2x通信技術によって実現される協調認知は、個々の車両の認識能力の制限以上の自動運転車の認識性能を著しく向上させることができるため、インテリジェント輸送システムにおける自律運転の安全性と効率を向上させることができる。 しかし、実際に協調的知覚の利点を完全に享受するためには、コミュニケーションエラーや破壊といった不完全なV2Xコミュニケーションの影響を理解し、その悪影響を軽減するために効果的な治療法を開発する必要がある。 そこで本研究では,V2X通信支援型自律運転のための新しいインタプション対応ロバストな協調知覚(V2X-INCOP)ソリューションを提案する。 包括的回復を実現するため,V2X通信条件に基づいて多スケールの時空間特徴を抽出する通信適応型時空間予測モデルを設計し,不足情報の予測に最も重要な情報を取得する。 回復性能をより向上させるために,予測モデルに直接的な監督を与える知識蒸留フレームワークと,モデルのトレーニングを安定させるカリキュラム学習戦略を採用した。 3つの公的な協調認識データセットを用いた実験により,コミュニケーション中断が協調知覚に与える影響を緩和する効果が示された。

Cooperative perception enabled by V2X Communication technologies can significantly improve the perception performance of autonomous vehicles beyond the limited perception ability of the individual vehicles, therefore, improving the safety and efficiency of autonomous driving in intelligent transportation systems. However, in order to fully reap the benefits of cooperative perception in practice, the impacts of imperfect V2X communication, i.e., communication errors and disruptions, need to be understood and effective remedies need to be developed to alleviate their adverse impacts. Motivated by this need, we propose a novel INterruption-aware robust COoperative Perception (V2X-INCOP) solution for V2X communication-aided autonomous driving, which leverages historical information to recover missing information due to interruption. To achieve comprehensive recovery, we design a communication adaptive multi-scale spatial-temporal prediction model to extract multi-scale spatial-temporal features based on V2X communication conditions and capture the most significant information for the prediction of the missing information. To further improve recovery performance, we adopt a knowledge distillation framework to give direct supervision to the prediction model and a curriculum learning strategy to stabilize the training of the model. Our experiments on three public cooperative perception datasets demonstrate that our proposed method is effective in alleviating the impacts of communication interruption on cooperative perception.
翻訳日:2023-04-25 16:07:10 公開日:2023-04-24
# 圧縮的注意マッチングによるユニバーサルドメイン適応

Universal Domain Adaptation via Compressive Attention Matching ( http://arxiv.org/abs/2304.11862v1 )

ライセンス: Link先を確認
Didi Zhu, Yincuan Li, Junkun Yuan, Zexi Li, Yunfeng Shao, Kun Kuang and Chao Wu(参考訳) ユニバーサルドメイン適応(UniDA)は、ラベルセットに関する事前の知識なしで、ソースドメインからターゲットドメインに知識を転送することを目的としている。 課題は、ターゲットサンプルが共通のカテゴリに属するかどうかを決定する方法にある。 主流の手法はサンプルの特徴に基づいて判断を行うが、これは画像内の最も重要な局所オブジェクトを無視しながらグローバル情報を過度に強調し、精度が制限される。 この問題を解決するために,視覚変換器の自己注意機構を利用して重要な対象情報を捕捉するユニバーサルアテンションマッチング(UniAM)フレームワークを提案する。 提案フレームワークは,注目度を圧縮的に表現することでコア情報を探究する,新しい圧縮的注意マッチング(CAM)手法を提案する。 さらに、CAMはサンプルの共通性を決定するために残留測定を組み込んでいる。 この測定を利用して、UniAMはドメインワイドおよびカテゴリワイド共通特徴調整(CFA)とターゲットクラス分離(TCS)を達成する。 特に、UniAMは視覚変換器の注意を利用して分類タスクを実行する最初の方法である。 広範な実験により、uniamは様々なベンチマークデータセットで現在の最先端のメソッドよりも優れています。

Universal domain adaptation (UniDA) aims to transfer knowledge from the source domain to the target domain without any prior knowledge about the label set. The challenge lies in how to determine whether the target samples belong to common categories. The mainstream methods make judgments based on the sample features, which overemphasizes global information while ignoring the most crucial local objects in the image, resulting in limited accuracy. To address this issue, we propose a Universal Attention Matching (UniAM) framework by exploiting the self-attention mechanism in vision transformer to capture the crucial object information. The proposed framework introduces a novel Compressive Attention Matching (CAM) approach to explore the core information by compressively representing attentions. Furthermore, CAM incorporates a residual-based measurement to determine the sample commonness. By utilizing the measurement, UniAM achieves domain-wise and category-wise Common Feature Alignment (CFA) and Target Class Separation (TCS). Notably, UniAM is the first method utilizing the attention in vision transformer directly to perform classification tasks. Extensive experiments show that UniAM outperforms the current state-of-the-art methods on various benchmark datasets.
翻訳日:2023-04-25 16:00:15 公開日:2023-04-24
# 説明可能なAIにおける異文化倫理の実践に向けて

Towards a Praxis for Intercultural Ethics in Explainable AI ( http://arxiv.org/abs/2304.11861v1 )

ライセンス: Link先を確認
Chinasa T. Okolo(参考訳) 説明可能なAI(XAI)は、機械学習モデルがどのように機能し、予測を生成するかを理解するのに役立つというアイデアで、しばしば推奨される。 それでも、これらのメリットのほとんどは、マシンラーニング開発者など、専門的なドメイン知識を持つ人たちに限られています。 最近の研究は、AIを説明可能なものにすることは、特にグローバル・サウスの低リソース領域において、現実の文脈でAIをより便利にするための実行可能な方法である、と論じている。 AIは国境を越えたが、限られた作業は説明可能なAIの概念を「大国」に民主化することに集中しており、文化的、社会的に異なる領域のユーザーのニーズを満たす新しいアプローチを探求し開発する余地が残っている。 本稿では,文化間倫理アプローチの概念について紹介する。 文化的ニュアンスがテクノロジの採用と利用にどのように影響するか、aiのような技術的概念がいかに説明されるかを妨げる要因、そしてxaiの開発における文化間倫理アプローチの統合がユーザ理解を改善し、これらの手法の効率的な利用を促進するかを検討する。

Explainable AI (XAI) is often promoted with the idea of helping users understand how machine learning models function and produce predictions. Still, most of these benefits are reserved for those with specialized domain knowledge, such as machine learning developers. Recent research has argued that making AI explainable can be a viable way of making AI more useful in real-world contexts, especially within low-resource domains in the Global South. While AI has transcended borders, a limited amount of work focuses on democratizing the concept of explainable AI to the "majority world", leaving much room to explore and develop new approaches within this space that cater to the distinct needs of users within culturally and socially-diverse regions. This article introduces the concept of an intercultural ethics approach to AI explainability. It examines how cultural nuances impact the adoption and use of technology, the factors that impede how technical concepts such as AI are explained, and how integrating an intercultural ethics approach in the development of XAI can improve user understanding and facilitate efficient usage of these methods.
翻訳日:2023-04-25 15:59:54 公開日:2023-04-24
# 複数のアトラクタを有する力学系の昇降と再構成について

On the lifting and reconstruction of dynamical systems with multiple attractors ( http://arxiv.org/abs/2304.11860v1 )

ライセンス: Link先を確認
Shaowu Pan and Karthik Duraisamy(参考訳) クープマン作用素(koopman operator)は、不変部分空間における可観測性の進化に焦点をあてることで、非線形ダイナミクスに関する線型視点を与える。 可観測性は通常、クープマン固有関数から線形に再構成される。 ここ数年でクープマン作用素が広く使われてきたが、クープマン作用素が1つ以上の固定点を持つ力学系に適用可能であるという誤解がある。 本研究では,複数の誘引子を持つ力学系のクープマン作用素の昇降機構について説明する。 ダフィング発振器の例を考えると、アトラクション盆地間の固有対称性を利用して、クープマン可観測空間における3次元の自由度を持つ線形再構成は、システムをグローバルに線形化するのに十分であることを示す。

The Koopman operator provides a linear perspective on non-linear dynamics by focusing on the evolution of observables in an invariant subspace. Observables of interest are typically linearly reconstructed from the Koopman eigenfunctions. Despite the broad use of Koopman operators over the past few years, there exist some misconceptions about the applicability of Koopman operators to dynamical systems with more than one fixed point. In this work, an explanation is provided for the mechanism of lifting for the Koopman operator of a dynamical system with multiple attractors. Considering the example of the Duffing oscillator, we show that by exploiting the inherent symmetry between the basins of attraction, a linear reconstruction with three degrees of freedom in the Koopman observable space is sufficient to globally linearize the system.
翻訳日:2023-04-25 15:59:36 公開日:2023-04-24
# 虹彩透視像の時間系列を用いた適合度分類

Fitness-for-Duty Classification using Temporal Sequences of Iris Periocular images ( http://arxiv.org/abs/2304.11858v1 )

ライセンス: Link先を確認
Pamela C. Zurita, Daniel P. Benalcazar, Juan E. Tapia(参考訳) Fitness for Duty (FFD) 技術は、被験者が安全に仕事を遂行するためにフィットしているかどうかを検知する。 ヒトの虹彩行動は、瞳孔と虹彩の動きが中枢神経系によって制御され、照明、疲労、アルコール、薬物の影響を受け、FFDを予測する貴重な情報を提供する。 本研究の目的は,8枚の虹彩画像のシーケンスを用いてffdを分類し,畳み込みニューラルネットワーク(cnn)と長期記憶ネットワーク(lstm)を用いて空間情報と時間情報を抽出することである。 その結果, フィットと不フィットの予測では, 81.4\%, 96.9\%の精度が得られた。 結果は、ある被験者がアルコール、薬物、眠気状態にあるかどうかを判断することも可能であることも示している。 眠気は判断するのが最も難しい状態と判断できる。 このシステムは虹彩生体計測応用に関する異なる知見を開放する。

Fitness for Duty (FFD) techniques detects whether a subject is Fit to perform their work safely, which means no reduced alertness condition and security, or if they are Unfit, which means alertness condition reduced by sleepiness or consumption of alcohol and drugs. Human iris behaviour provides valuable information to predict FFD since pupil and iris movements are controlled by the central nervous system and are influenced by illumination, fatigue, alcohol, and drugs. This work aims to classify FFD using sequences of 8 iris images and to extract spatial and temporal information using Convolutional Neural Networks (CNN) and Long Short Term Memory Networks (LSTM). Our results achieved a precision of 81.4\% and 96.9\% for the prediction of Fit and Unfit subjects, respectively. The results also show that it is possible to determine if a subject is under alcohol, drug, and sleepiness conditions. Sleepiness can be identified as the most difficult condition to be determined. This system opens a different insight into iris biometric applications.
翻訳日:2023-04-25 15:59:22 公開日:2023-04-24
# Adaptive Spiking Encoder-Decoder Network を用いた高精度かつ効率的なイベントベースセマンティックセマンティックセグメンテーション

Accurate and Efficient Event-based Semantic Segmentation Using Adaptive Spiking Encoder-Decoder Network ( http://arxiv.org/abs/2304.11857v1 )

ライセンス: Link先を確認
Rui Zhang, Luziwei Leng, Kaiwei Che, Hu Zhang, Jie Cheng, Qinghai Guo, Jiangxing Liao and Ran Cheng(参考訳) 低消費電力のイベント駆動計算と固有の時間ダイナミクスは、イベントベースのセンサーから高ダイナミックで非同期な信号を処理するためのスパイクニューラルネットワーク(SNN)の理想的な候補をレンダリングする。 しかし、トレーニングやアーキテクチャ設計の制約により、人工知能(ANN)と比較して、イベントベースの高密度予測においてSNNの競合するデモが不足している。 本研究では,大規模イベントベースセマンティックセマンティックセグメンテーションタスクのための効率的なスパイキングエンコーダデコーダネットワークを構築し,階層探索によるエンコーダの最適化を行う。 高ダイナミックなイベントストリームからの学習を改善するために、スパイキングニューロンの固有適応閾値を利用してネットワーク活性化を調節する。 さらに、スパースイベントの表現を向上し、ネットワーク性能を大幅に向上させるために、デュアルパススパイキング空間適応変調(SSAM)ブロックを開発した。 我々のネットワークは、DDD17データセット上での平均的結合(MIoU)を72.57%、新しく提案されたDSEC-Semanticデータセットで57.22%のMIoUを達成し、計算コストを大幅に削減しつつ、現在のANNを4%上回っている。 私たちの知る限りでは、イベントベースのセマンティックセグメンテーションタスクにおいて、SNNがANNよりも優れており、イベントベースのビジョンにおいてその潜在能力を示す最初の事例です。 私たちのコードは公開されます。

Low-power event-driven computation and inherent temporal dynamics render spiking neural networks (SNNs) ideal candidates for processing highly dynamic and asynchronous signals from event-based sensors. However, due to the challenges in training and architectural design constraints, there is a scarcity of competitive demonstrations of SNNs in event-based dense prediction compared to artificial neural networks (ANNs). In this work, we construct an efficient spiking encoder-decoder network for large-scale event-based semantic segmentation tasks, optimizing the encoder with hierarchical search. To improve learning from highly dynamic event streams, we exploit the intrinsic adaptive threshold of spiking neurons to modulate network activation. Additionally, we develop a dual-path spiking spatially-adaptive modulation (SSAM) block to enhance the representation of sparse events, significantly improving network performance. Our network achieves 72.57% mean intersection over union (MIoU) on the DDD17 dataset and 57.22% MIoU on the newly proposed larger DSEC-Semantic dataset, surpassing current record ANNs by 4% while utilizing much lower computation costs. To the best of our knowledge, this is the first instance of SNNs outperforming ANNs in challenging event-based semantic segmentation tasks, demonstrating their immense potential in event-based vision. Our code will be publicly available.
翻訳日:2023-04-25 15:59:03 公開日:2023-04-24
# マイナショットオープンセット認識のためのglocal energy-based learning

Glocal Energy-based Learning for Few-Shot Open-Set Recognition ( http://arxiv.org/abs/2304.11855v1 )

ライセンス: Link先を確認
Haoyu Wang, Guansong Pang, Peng Wang, Lei Zhang, Wei Wei, Yanning Zhang(参考訳) FSOR(Few-shot Open-set Recognition)は、非常に実用的なタスクである。 サンプルを、いくつかの例で示される事前定義されたクローズドセットクラスの1つに分類し、未知のクラスからサンプルを拒絶することを目的としている。 本研究では,新しいエネルギーベースハイブリッドモデルを提案することにより,FSORタスクにアプローチする。 このモデルは2つの分岐から成り、分類分岐は標本を閉集合の1つに分類するために計量を学び、エネルギー分岐は開集合確率を明示的に推定する。 オープンセット標本の包括的検出を実現するために,本モデルは,クラス毎とピクセル毎の両方の機能を活用して,glocal energy-based scoreを学習し,クラス毎の特徴を用いてグローバルエネルギースコアを学習し,ピクセル毎の特徴を用いてローカルエネルギースコアを学習する。 このモデルは、クラスワイド特徴またはピクセルワイド特徴の少数例から逸脱したサンプルに大きなエネルギースコアを割り当て、それ以外は小さなエネルギースコアを割り当てるように強制される。 3つの標準FSORデータセットの実験は、我々のモデルの優れた性能を示している。

Few-shot open-set recognition (FSOR) is a challenging task of great practical value. It aims to categorize a sample to one of the pre-defined, closed-set classes illustrated by few examples while being able to reject the sample from unknown classes. In this work, we approach the FSOR task by proposing a novel energy-based hybrid model. The model is composed of two branches, where a classification branch learns a metric to classify a sample to one of closed-set classes and the energy branch explicitly estimates the open-set probability. To achieve holistic detection of open-set samples, our model leverages both class-wise and pixel-wise features to learn a glocal energy-based score, in which a global energy score is learned using the class-wise features, while a local energy score is learned using the pixel-wise features. The model is enforced to assign large energy scores to samples that are deviated from the few-shot examples in either the class-wise features or the pixel-wise features, and to assign small energy scores otherwise. Experiments on three standard FSOR datasets show the superior performance of our model.
翻訳日:2023-04-25 15:58:35 公開日:2023-04-24
# 属性推定に対する防御としての人間の直感

Human intuition as a defense against attribute inference ( http://arxiv.org/abs/2304.11853v1 )

ライセンス: Link先を確認
Marcin Waniek, Navya Suri, Abdullah Zameek, Bedoor AlShebli, Talal Rahwan(参考訳) 属性推論 - 隠された情報を明らかにするために公開データを解析するプロセス - は、最近の機械学習の技術的飛躍を考えると、プライバシに対する大きな脅威となっている。 この脅威に対処するひとつの方法は、属性推論からプライベート情報を隠蔽するために、公開データを戦略的に修正することだ。 我々は、このタスクを実行する人々の能力を評価し、この目的のために設計されたアルゴリズムと比較する。 我々は、テキストの著者の性別、一連の写真が撮影された国、ソーシャルネットワークから欠落したリンクの3つの属性に焦点を当てた。 これらの属性のそれぞれについて、特に問題となる属性を隠蔽する場合には、AIのそれよりも人々の効率性が劣っていることが分かる。 さらに、これらの属性を隠すために公開情報を変更するように求められた場合、aiと比較して高いインパクトを持つ修正を行う可能性は低い。 これは、推論アルゴリズムに不可欠なデータの側面を認識することができないことを示唆している。 分析の結果は、AI時代のプライバシーを守るために人間の直感に頼ることの限界を強調し、属性推論から個人情報を保護するためのアルゴリズムサポートの必要性を強調した。

Attribute inference - the process of analyzing publicly available data in order to uncover hidden information - has become a major threat to privacy, given the recent technological leap in machine learning. One way to tackle this threat is to strategically modify one's publicly available data in order to keep one's private information hidden from attribute inference. We evaluate people's ability to perform this task, and compare it against algorithms designed for this purpose. We focus on three attributes: the gender of the author of a piece of text, the country in which a set of photos was taken, and the link missing from a social network. For each of these attributes, we find that people's effectiveness is inferior to that of AI, especially when it comes to hiding the attribute in question. Moreover, when people are asked to modify the publicly available information in order to hide these attributes, they are less likely to make high-impact modifications compared to AI. This suggests that people are unable to recognize the aspects of the data that are critical to an inference algorithm. Taken together, our findings highlight the limitations of relying on human intuition to protect privacy in the age of AI, and emphasize the need for algorithmic support to protect private information from attribute inference.
翻訳日:2023-04-25 15:58:14 公開日:2023-04-24
# チャットボットは信用できますか? 正確性,再現性,トレーサビリティ : レオナルド・ダ・ヴィンチの天文学への貢献を事例として

Can we Trust Chatbots for now? Accuracy, reproducibility, traceability; a Case Study on Leonardo da Vinci's Contribution to Astronomy ( http://arxiv.org/abs/2304.11852v1 )

ライセンス: Link先を確認
Didier El Baz (LAAS-CDA)(参考訳) 大規模言語モデル(LLM)が研究されている。 チャットボットや教育への応用も検討されている。 レオナルドの天文学への貢献に関するケーススタディが提示されている。 ChatGPT, GPT-4, BLOOM, Google Bardの精度, 再現性, トレーサビリティに関する大きな問題が報告されている。 問題の原因が議論され、いくつかの解決策が提案されている。

Large Language Models (LLM) are studied. Applications to chatbots and education are considered. A case study on Leonardo's contribution to astronomy is presented. Major problems with accuracy, reproducibility and traceability of answers are reported for ChatGPT, GPT-4, BLOOM and Google Bard. Possible reasons for problems are discussed and some solutions are proposed.
翻訳日:2023-04-25 15:57:54 公開日:2023-04-24
# Grad-PU: 学習距離関数付き勾配Descentによる任意スケールポイントクラウドアップサンプリング

Grad-PU: Arbitrary-Scale Point Cloud Upsampling via Gradient Descent with Learned Distance Functions ( http://arxiv.org/abs/2304.11846v1 )

ライセンス: Link先を確認
Yun He and Danhang Tang and Yinda Zhang and Xiangyang Xue and Yanwei Fu(参考訳) 既存のポイントクラウドアップサンプリング手法のほとんどが、機能抽出、機能拡張、および3d座標予測の3つのステップを持っている。 しかし,(1)ワンタイムトレーニング後のアップサンプリングレートは,各アップサンプリングレートごとに特徴拡張ユニットがカスタマイズされているため,(2)3次元座標やアップサンプリングポイントの残差を正確に予測できないことによるアウトリアーティファクトや縮小アーティファクトが問題となっている。 そこで我々は,任意のアップサンプリングレートをサポートする,正確なポイントクラウドアップサンプリングのための新しいフレームワークを提案する。 提案手法は,まず所定のアップサンプリング率に応じて低解像度の雲を補間する。 そして、現在点雲と高精細目標との差を推定する訓練されたモデルによって導かれる反復最適化プロセスによって補間点の位置を洗練する。 ベンチマークや下流タスクにおける定量的および定性的な結果から,本手法が最先端の精度と効率を達成することを示す。

Most existing point cloud upsampling methods have roughly three steps: feature extraction, feature expansion and 3D coordinate prediction. However,they usually suffer from two critical issues: (1)fixed upsampling rate after one-time training, since the feature expansion unit is customized for each upsampling rate; (2)outliers or shrinkage artifact caused by the difficulty of precisely predicting 3D coordinates or residuals of upsampled points. To adress them, we propose a new framework for accurate point cloud upsampling that supports arbitrary upsampling rates. Our method first interpolates the low-res point cloud according to a given upsampling rate. And then refine the positions of the interpolated points with an iterative optimization process, guided by a trained model estimating the difference between the current point cloud and the high-res target. Extensive quantitative and qualitative results on benchmarks and downstream tasks demonstrate that our method achieves the state-of-the-art accuracy and efficiency.
翻訳日:2023-04-25 15:57:48 公開日:2023-04-24
# Gen-NeRF:アルゴリズム・ハードウエア共同設計による効率的で一般化可能なニューラルラジアンス場

Gen-NeRF: Efficient and Generalizable Neural Radiance Fields via Algorithm-Hardware Co-Design ( http://arxiv.org/abs/2304.11842v1 )

ライセンス: Link先を確認
Yonggan Fu, Zhifan Ye, Jiayi Yuan, Shunyao Zhang, Sixu Li, Haoran You, Yingyan (Celine) Lin(参考訳) 新しいビュー合成は、様々な拡張現実および仮想現実(AR/VR)アプリケーションにおいて没入型体験を可能にするために不可欠な機能であり、そのクロスシーンの一般化能力により、一般化可能なニューラルレイディアンス場(NeRF)が人気を博している。 それらの約束にもかかわらず、一般化可能なNeRFの実際のデバイス展開は、シーン機能を取得するために大量のメモリアクセスを必要とするため、その禁止的な複雑さによってボトルネックになり、レイマーチングプロセスはメモリバウンドになる。 この目的のために,提案するGen-NeRFは,リアルタイムに一般化可能なNeRFを初めて実現可能な,一般化可能なNeRFアクセラレーション専用のアルゴリズムハードウェアの共同設計フレームワークである。 アルゴリズム側では、gen-nerfは3dシーンの異なる領域がレンダリングされたピクセルに異なる貢献をするという事実を利用して、粗く効果的なサンプリング戦略を統合する。 ハードウェア面では、Gen-NeRFは、そのエピポーラ幾何学的関係を利用して、異なる光線間でのデータ再利用機会を最大化するアクセラレーターマイクロアーキテクチャを強調している。 さらに、Gen-NeRFアクセラレータは、ポイント・ツー・ハードウエアマッピング時のデータの局所性を向上するカスタマイズされたデータフローと、メモリバンク競合を最小限に抑える最適化されたシーン特徴記憶戦略を備えている。 提案するGen-NeRFフレームワークがリアルタイムかつ一般化可能な新規ビュー合成に有効であることを示す。

Novel view synthesis is an essential functionality for enabling immersive experiences in various Augmented- and Virtual-Reality (AR/VR) applications, for which generalizable Neural Radiance Fields (NeRFs) have gained increasing popularity thanks to their cross-scene generalization capability. Despite their promise, the real-device deployment of generalizable NeRFs is bottlenecked by their prohibitive complexity due to the required massive memory accesses to acquire scene features, causing their ray marching process to be memory-bounded. To this end, we propose Gen-NeRF, an algorithm-hardware co-design framework dedicated to generalizable NeRF acceleration, which for the first time enables real-time generalizable NeRFs. On the algorithm side, Gen-NeRF integrates a coarse-then-focus sampling strategy, leveraging the fact that different regions of a 3D scene contribute differently to the rendered pixel, to enable sparse yet effective sampling. On the hardware side, Gen-NeRF highlights an accelerator micro-architecture to maximize the data reuse opportunities among different rays by making use of their epipolar geometric relationship. Furthermore, our Gen-NeRF accelerator features a customized dataflow to enhance data locality during point-to-hardware mapping and an optimized scene feature storage strategy to minimize memory bank conflicts. Extensive experiments validate the effectiveness of our proposed Gen-NeRF framework in enabling real-time and generalizable novel view synthesis.
翻訳日:2023-04-25 15:57:30 公開日:2023-04-24
# 深層学習のためのデータ駆動型知識融合

Data-driven Knowledge Fusion for Deep Multi-instance Learning ( http://arxiv.org/abs/2304.11905v1 )

ライセンス: Link先を確認
Yu-Xuan Zhang, Zhengchun Zhou, Xingxing He, Avik Ranjan Adhikary, and Bapi Dutta(参考訳) MIL(Multi-Instance Learning)は、複雑なデータ構造を含む実用アプリケーションにおいて広く応用されている技術である。 MILは、伝統的な手法とディープラーニングに基づく方法の2つのタイプに大別できる。 これらのアプローチは、特に問題解決戦略や実験的な検証に関して重要な結果をもたらし、MIL分野の研究者に貴重な洞察を与えている。 しかし、かなりの量の知識がアルゴリズムの中に閉じ込められ、その後のMILアルゴリズムは、ラベルのないサンプルを予測するために、モデルのデータにのみ依存する。 これにより、知識が大幅に失われ、よりインテリジェントなモデルの開発が妨げられる。 本稿では,DKMIL(Deep Multi-instance Learning)アルゴリズムのための新しいデータ駆動型知識融合を提案する。 DKMILは、データセット(データ駆動)におけるキーサンプルの決定を解析し、これらのサンプルから貴重な情報を抽出してモデルのトレーニングを支援するために設計された知識融合モジュールを使用することで、既存のディープMILメソッドとは全く異なる考え方を採用する。 言い換えれば、このモジュールはデータとモデルの間の新しいインターフェースとして機能し、強力なスケーラビリティを提供し、既存のアルゴリズムから事前知識を使用することでモデルの学習能力を高めることができる。 さらに,モデルの下流モジュールをデータ駆動型知識融合モジュールから抽出したより知識エンリッチな特徴に適応させるために,サンプルの浅層および深層の特徴を徐々に学習し,より効果的な分類を実現する2レベルアテンションモジュールを提案する。 6つのカテゴリにまたがる38のデータセットについて実験を行い,提案アーキテクチャの有効性を検証するとともに,知識融合モジュールのスケーラビリティを実証する。

Multi-instance learning (MIL) is a widely-applied technique in practical applications that involve complex data structures. MIL can be broadly categorized into two types: traditional methods and those based on deep learning. These approaches have yielded significant results, especially with regards to their problem-solving strategies and experimental validation, providing valuable insights for researchers in the MIL field. However, a considerable amount of knowledge is often trapped within the algorithm, leading to subsequent MIL algorithms that solely rely on the model's data fitting to predict unlabeled samples. This results in a significant loss of knowledge and impedes the development of more intelligent models. In this paper, we propose a novel data-driven knowledge fusion for deep multi-instance learning (DKMIL) algorithm. DKMIL adopts a completely different idea from existing deep MIL methods by analyzing the decision-making of key samples in the data set (referred to as the data-driven) and using the knowledge fusion module designed to extract valuable information from these samples to assist the model's training. In other words, this module serves as a new interface between data and the model, providing strong scalability and enabling the use of prior knowledge from existing algorithms to enhance the learning ability of the model. Furthermore, to adapt the downstream modules of the model to more knowledge-enriched features extracted from the data-driven knowledge fusion module, we propose a two-level attention module that gradually learns shallow- and deep-level features of the samples to achieve more effective classification. We will prove the scalability of the knowledge fusion module while also verifying the efficacy of the proposed architecture by conducting experiments on 38 data sets across 6 categories.
翻訳日:2023-04-25 15:51:58 公開日:2023-04-24
# 周期的超構造における波の閉じ込めを分類する教師なし機械学習

Unsupervised Machine Learning to Classify the Confinement of Waves in Periodic Superstructures ( http://arxiv.org/abs/2304.11901v1 )

ライセンス: Link先を確認
Marek Kozo\v{n}, Rutger Schrijver, Matthias Schlottbom, Jaap J.W. van der Vegt, and Willem L. Vos(参考訳) 我々は,最近提示した波動閉じ込め解析のスケーリング手法の精度を高めるために教師なし機械学習を用いる。 %) スケール法の精度は小さいシステムでは低下するが, 実験的にも計算的にも最も興味深いシステムである。 標準のk-means++アルゴリズムと独自のモデルベースアルゴリズムを採用しています。 本稿では,クラスタリングアルゴリズムの入力として使用する閉じ込め次元の正しい数を求める手段として,クラスタ妥当性指標について検討する。 その後,クラスタリングを行わないスケーリング手法の直接適用と比較して,2つのクラスタリングアルゴリズムの性能を解析した。 クラスタリング手法はより物理的に意味のある結果をもたらすが、正しい閉じ込め次元の集合を特定するのに苦労する可能性がある。 より正確な結果を得るには,まず直接スケーリングを適用して,正しい閉じ込め次元の集合を求め,次にクラスタリングを用いて結果を改良する。 さらに、モデルベースアルゴリズムは、標準のk-means++クラスタリングよりも優れています。

We employ unsupervised machine learning to enhance the accuracy of our recently presented scaling method for wave confinement analysis [1]. %The accuracy of the scaling method decreases for systems of small size, which are however the most interesting ones both experimentally and computationally. We employ the standard k-means++ algorithm as well as our own model-based algorithm. We investigate cluster validity indices as a means to find the correct number of confinement dimensionalities to be used as an input to the clustering algorithms. Subsequently, we analyze the performance of the two clustering algorithms when compared to the direct application of the scaling method without clustering. We find that the clustering approach provides more physically meaningful results, but may struggle with identifying the correct set of confinement dimensionalities. We conclude that the most accurate outcome is obtained by first applying the direct scaling to find the correct set of confinement dimensionalities and subsequently employing clustering to refine the results. Moreover, our model-based algorithm outperforms the standard k-means++ clustering.
翻訳日:2023-04-25 15:51:32 公開日:2023-04-24
# 詳細な3次元再構成とリライティングのための学習可視界

Learning Visibility Field for Detailed 3D Human Reconstruction and Relighting ( http://arxiv.org/abs/2304.11900v1 )

ライセンス: Link先を確認
Ruichen Zheng and Peng Li and Haoqian Wang and Tao Yu(参考訳) デジタル人間の詳細な3次元再構成とフォトリアリスティックなリライトは様々な用途に不可欠である。 そこで本研究では,多視点特徴集合におけるオクルージョンあいまいさを解消するだけでなく,自己シャドーライトのための光減衰の評価にも利用できる,新たなスパースビュー3次元ヒューマンリコンストラクションフレームワークを提案する。 トレーニングの有効性と効率性を高めるため,固定されたサンプル方向の視認性を識別し,幾何学的3次元深度特徴と局所的な2次元画像特徴とを併用して供給する。 さらに,視認性と占有領域の調整を暗黙的に実施し,エンドツーエンドの合同訓練を可能にする,新しいレンダリングインスパイアされた損失,すなわちtransferlossを提案する。 結果と広範な実験により,レイトレースされた地上真理の再現性が両立し,再現精度の面では最先端を上回っており,提案手法の有効性が実証された。

Detailed 3D reconstruction and photo-realistic relighting of digital humans are essential for various applications. To this end, we propose a novel sparse-view 3d human reconstruction framework that closely incorporates the occupancy field and albedo field with an additional visibility field--it not only resolves occlusion ambiguity in multiview feature aggregation, but can also be used to evaluate light attenuation for self-shadowed relighting. To enhance its training viability and efficiency, we discretize visibility onto a fixed set of sample directions and supply it with coupled geometric 3D depth feature and local 2D image feature. We further propose a novel rendering-inspired loss, namely TransferLoss, to implicitly enforce the alignment between visibility and occupancy field, enabling end-to-end joint training. Results and extensive experiments demonstrate the effectiveness of the proposed method, as it surpasses state-of-the-art in terms of reconstruction accuracy while achieving comparably accurate relighting to ray-traced ground truth.
翻訳日:2023-04-25 15:51:17 公開日:2023-04-24
# イタリアにおける公衆医療のためのAIプラットフォームの設計と実装 : セマンティックスと相互運用性について

The Design and Implementation of a National AI Platform for Public Healthcare in Italy: Implications for Semantics and Interoperability ( http://arxiv.org/abs/2304.11893v1 )

ライセンス: Link先を確認
Roberto Reale, Elisabetta Biasin, Alessandro Scardovi, Stefano Toro(参考訳) イタリアの国民保健サービスは、その技術機関を通じて人工知能を採用しており、診断と治療の支援と促進を2倍の目的としている。 このような広大なプログラムは、知識ドメインの形式化、ドメイン固有のデータ空間の活用、相互運用性の観点からのデータガバナンスの問題への対処に特別な注意が必要である。 医療データガバナンスと相互運用の法的枠組みは、異なる法律の相互運用によって特徴づけられる。 データ法は、適切な説明を受ける最初のものである。 主にGDPR、データガバナンス法、オープンデータディレクティブを含む。 また、データ法と欧州健康データ空間の提案は、健康データ共有に影響を与え、それ故に考慮する必要がある。 イタリアのNHLが開発したプラットフォームは、すでに医療システムで使われているシステムと、医療専門家が使用するデジタル資産(データとソフトウェア)と調和して統合されなければならない。 aiが患者、開業医、健康システムに与える影響、そしてその潜在的なリスクについて疑問が持ち上がっているため、関連するすべての当事者は、人々の生活の質を改善するという2つの目的に基づいて共通の見解を表明し、医療システム全体を社会全体に持続的に維持することに同意しなければならない。

The Italian National Health Service is adopting Artificial Intelligence through its technical agencies, with the twofold objective of supporting and facilitating the diagnosis and treatment. Such a vast programme requires special care in formalising the knowledge domain, leveraging domain-specific data spaces and addressing data governance issues from an interoperability perspective. The healthcare data governance and interoperability legal framework is characterised by the interplay of different pieces of legislation. Data law is the first to be taken into proper account. It primarily includes the GDPR, the Data Governance Act, and the Open Data Directive. Also, the Data Act and the European Health Data Space proposals will have an impact on health data sharing and therefore must be considered as well. The platform developed by the Italian NHL will have to be integrated in a harmonised manner with the systems already used in the healthcare system and with the digital assets (data and software) used by healthcare professionals. Questions have been raised about the impact that AI could have on patients, practitioners, and health systems, as well as about its potential risks; therefore, all the parties involved are called to agree upon to express a common view based on the dual purpose of improving people's quality of life and keeping the whole healthcare system sustainable for society as a whole.
翻訳日:2023-04-25 15:50:53 公開日:2023-04-24
# 高周波金融データに基づくホークスモデルのパラメータ推定に基づくリカレントニューラルネットワーク

Recurrent neural network based parameter estimation of Hawkes model on high-frequency financial data ( http://arxiv.org/abs/2304.11883v1 )

ライセンス: Link先を確認
Kyungsub Lee(参考訳) 本研究では,高頻度財務データに基づくホークスモデルのパラメータ推定に繰り返しニューラルネットワークを用い,その後,ボラティリティの計算を行う。 ニューラルネットワークは様々な分野で有望な成果を示しており、金融への関心も高まっている。 提案手法は,従来手法に比べて計算性能が大幅に向上し,シミュレーションと経験的研究で同等の精度が得られることを示した。 さらに,本手法をリアルタイム変動度測定に応用し,新たな価格データが市場から流れ続ける中,金融変動度を連続的に推定できることを示す。

This study examines the use of a recurrent neural network for estimating the parameters of a Hawkes model based on high-frequency financial data, and subsequently, for computing volatility. Neural networks have shown promising results in various fields, and interest in finance is also growing. Our approach demonstrates significantly faster computational performance compared to traditional maximum likelihood estimation methods while yielding comparable accuracy in both simulation and empirical studies. Furthermore, we demonstrate the application of this method for real-time volatility measurement, enabling the continuous estimation of financial volatility as new price data keeps coming from the market.
翻訳日:2023-04-25 15:50:16 公開日:2023-04-24
# 人工知能と溶存ガス分析による変圧器故障診断技術の現状:文献のレビュー

The State of the Art in transformer fault diagnosis with artificial intelligence and Dissolved Gas Analysis: A Review of the Literature ( http://arxiv.org/abs/2304.11880v1 )

ライセンス: Link先を確認
Yuyan Li(参考訳) 変圧器故障診断(TFD)は電力系統の保守管理において重要な側面である。 本稿では,人工知能(AI)と溶存ガス分析(DGA)を用いたTFDにおける技術の現状を概観する。 本稿では、ディープラーニングアルゴリズムと高度なデータ分析技術の利用、そしてTFDと電力産業全体に対する潜在的な影響など、この分野における最近の進歩について分析する。 レビューではまた、ルールベースのシステム、エキスパートシステム、ニューラルネットワーク、マシンラーニングアルゴリズムなど、さまざまなアプローチによる障害診断のメリットと制限を強調している。 本総説は,電力系統の信頼性確保におけるTFDの重要性とAIの役割に関する貴重な知見を提供することを目的としている。

Transformer fault diagnosis (TFD) is a critical aspect of power system maintenance and management. This review paper provides a comprehensive overview of the current state of the art in TFD using artificial intelligence (AI) and dissolved gas analysis (DGA). The paper presents an analysis of recent advancements in this field, including the use of deep learning algorithms and advanced data analytics techniques, and their potential impact on TFD and the power industry as a whole. The review also highlights the benefits and limitations of different approaches to transformer fault diagnosis, including rule-based systems, expert systems, neural networks, and machine learning algorithms. Overall, this review aims to provide valuable insights into the importance of TFD and the role of AI in ensuring the reliable operation of power systems.
翻訳日:2023-04-25 15:49:58 公開日:2023-04-24
# SASと移設光学SAS画像を組み合わせた水中物体分類

Underwater object classification combining SAS and transferred optical-to-SAS Imagery ( http://arxiv.org/abs/2304.11875v1 )

ライセンス: Link先を確認
Avi Abu and Roee Diamant(参考訳) 合成開口ソナー(SAS)画像と水中物体分類のための光学画像を組み合わせることで、水明度、光学画像解析プラットフォームの安定性、ソナー分類のための海底からの強い反射といった課題を克服する可能性がある。 本研究では,人工目標と岩やごみなどの対象物とを識別するマルチモーダルの組み合わせを提案する。 本稿では,2つのモード間の強度差と物体形成差を克服する新しい分類アルゴリズムを提案する。 この目的のために,物体の影とハイライトの幾何学的関係を考慮した幾何学的形状記述子を新たに開発した。 海洋実験で収集した7,052対のSASと光学画像の結果,異なる種類の水中物体の識別において,最先端技術と比較して分類性能が向上した。 再現性のため、データベースを共有します。

Combining synthetic aperture sonar (SAS) imagery with optical images for underwater object classification has the potential to overcome challenges such as water clarity, the stability of the optical image analysis platform, and strong reflections from the seabed for sonar-based classification. In this work, we propose this type of multi-modal combination to discriminate between man-made targets and objects such as rocks or litter. We offer a novel classification algorithm that overcomes the problem of intensity and object formation differences between the two modalities. To this end, we develop a novel set of geometrical shape descriptors that takes into account the geometrical relation between the objects shadow and highlight. Results from 7,052 pairs of SAS and optical images collected during several sea experiments show improved classification performance compared to the state-of-the-art for better discrimination between different types of underwater objects. For reproducibility, we share our database.
翻訳日:2023-04-25 15:49:35 公開日:2023-04-24
# インストラクションチューニングGPTを用いたゼロショットテキスト分類のためのジェネレーション駆動コントラスト自己学習

Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-tuned GPT ( http://arxiv.org/abs/2304.11872v1 )

ライセンス: Link先を確認
Ruohong Zhang, Yau-Shian Wang, Yiming Yang(参考訳) さらに、GPTベースのゼロショット分類モデルでは、テストインスタンスに対して独立した予測を行う傾向があり、インスタンス相関や対象空間における決定境界が無視されるため、サブ最適となる。 このような困難や制約に対処するために,GPTの強靭な生成力を活用して,より小さく,適応性が高く,かつ効率的な文エンコーダ分類器の訓練を支援する,ゼロショットテキスト分類法である‘ourmodelshort’を提案する。 具体的には、GenCoはGPTを2つの方法で適用する: まず、入力インスタンス毎に複数の拡張テキストを生成し、インスタンスのセマンティック埋め込みを強化し、関連するラベルへのマッピングを改善する。 我々の実験では、GenCoは、ドメイン内テキストデータに制限がある場合でも、複数のベンチマークデータセット上で従来の最先端メソッドよりも優れています。

Moreover, GPT-based zero-shot classification models tend to make independent predictions over test instances, which can be sub-optimal as the instance correlations and the decision boundaries in the target space are ignored. To address these difficulties and limitations, we propose a new approach to zero-shot text classification, namely \ourmodelshort, which leverages the strong generative power of GPT to assist in training a smaller, more adaptable, and efficient sentence encoder classifier with contrastive self-training. Specifically, GenCo applies GPT in two ways: firstly, it generates multiple augmented texts for each input instance to enhance the semantic embedding of the instance and improve the mapping to relevant labels; secondly, it generates augmented texts conditioned on the predicted label during self-training, which makes the generative process tailored to the decision boundaries in the target space. In our experiments, GenCo outperforms previous state-of-the-art methods on multiple benchmark datasets, even when only limited in-domain text data is available.
翻訳日:2023-04-25 15:49:21 公開日:2023-04-24
# 機械学習モデルに専門家の判断を組み込む

Incorporating Experts' Judgment into Machine Learning Models ( http://arxiv.org/abs/2304.11870v1 )

ライセンス: Link先を確認
Hogun Park and Aly Megahed and Peifeng Yin and Yuya Ong and Pravar Mahajan and Pei Guo(参考訳) 機械学習(ML)モデルは、多くのアプリケーションで結果を予測することに成功している。 しかし、場合によっては、ドメインの専門家はMLモデルの予測と矛盾する可能性のある期待された結果について判断するかもしれない。 この主な理由は、トレーニングデータが完全に人口を表すものではないかもしれないためである。 本稿では,専門家の判断を活かして紛争を緩和することを目的とした新しい枠組みを提案する。 私たちのフレームワークの背後にある基本的な考え方は、トレーニングデータ内のラベルのないデータポイントの表現度を、生成的な敵ネットワークを用いて最初に決定することです。 そして,そのような度合いに基づいて,上記の表現度が高いほど,補正された出力に付加する専門家の直感に重みが小さいほど,その逆であるとする専門家の判断を組み込むことで,「textcolor{black}{machine learning}」モデルの予測を補正する。 我々は,合成データと実世界のケーススタディ(ITサービス産業と金融産業のケーススタディ)について,複数の数値実験を行った。 その結果,複数の基準法と比較して,予測精度の犠牲を最小限に抑えながら,専門家の判断に非常に近い精度が得られることがわかった。 また,予測精度と専門家の判断の近接性を組み合わせた新しい評価指標を開発した。 我々のフレームワークは、そのメトリックで評価すると統計的に有意な結果をもたらす。

Machine learning (ML) models have been quite successful in predicting outcomes in many applications. However, in some cases, domain experts might have a judgment about the expected outcome that might conflict with the prediction of ML models. One main reason for this is that the training data might not be totally representative of the population. In this paper, we present a novel framework that aims at leveraging experts' judgment to mitigate the conflict. The underlying idea behind our framework is that we first determine, using a generative adversarial network, the degree of representation of an unlabeled data point in the training data. Then, based on such degree, we correct the \textcolor{black}{machine learning} model's prediction by incorporating the experts' judgment into it, where the higher that aforementioned degree of representation, the less the weight we put on the expert intuition that we add to our corrected output, and vice-versa. We perform multiple numerical experiments on synthetic data as well as two real-world case studies (one from the IT services industry and the other from the financial industry). All results show the effectiveness of our framework; it yields much higher closeness to the experts' judgment with minimal sacrifice in the prediction accuracy, when compared to multiple baseline methods. We also develop a new evaluation metric that combines prediction accuracy with the closeness to experts' judgment. Our framework yields statistically significant results when evaluated on that metric.
翻訳日:2023-04-25 15:49:02 公開日:2023-04-24
# ビデオストリームからのミスイベント検出近傍のクローズパスのベンチマーク

A Benchmark for Cycling Close Pass Near Miss Event Detection from Video Streams ( http://arxiv.org/abs/2304.11868v1 )

ライセンス: Link先を確認
Mingjie Li, Tharindu Rathnayake, Ben Beck, Lingheng Meng, Zijue Chen, Akansel Cosgun, Xiaojun Chang, Dana Kuli\'c(参考訳) サイクリングは健全で持続可能な交通手段である。 しかし、自動車との相互作用はサイクリング参加の増加にとって重要な障壁である。 on-bike sensingから潜在的に危険なインタラクションを検出する能力は、ライダーや政策立案者に重要な情報を提供する。 このように、サイクリストとドライバーの衝突の自動検出は、コンピュータビジョンと道路安全コミュニティの両方の研究者を惹きつけている。 本稿では,ビデオストリームからのミスイベント検出近傍のクローズパスをサイクリングするための新しいベンチマークcyc-cpを提案する。 まず、このタスクをシーンレベルとインスタンスレベルに分割します。 シーンレベルの検出は、入力されたビデオクリップにミスイベントの近くに近接パスがあるかどうかをアルゴリズムに予測する。 インスタンスレベルの検出は、シーン内のどの車両がミスに近い近接パスを発生させるかを検出することを目的としている。 これら2つの問題に対するディープラーニング技術に基づくベンチマークモデルを提案する。 これらのモデルをトレーニングし、テストするために、合成データセットを構築し、実世界のデータセットを収集します。 我々のモデルは実世界のデータセットでそれぞれ88.13%と84.60%の精度を達成できる。 我々は,このベンチマークを,道路安全,インテリジェント交通システム,人工知能の分野間の相互作用を促進するためのテストベッドとして想定している。 ベンチマークデータセットと検出モデルの両方がhttps://github.com/SustainableMobility/cyc-cpで利用可能になる。

Cycling is a healthy and sustainable mode of transport. However, interactions with motor vehicles remain a key barrier to increased cycling participation. The ability to detect potentially dangerous interactions from on-bike sensing could provide important information to riders and policy makers. Thus, automated detection of conflict between cyclists and drivers has attracted researchers from both computer vision and road safety communities. In this paper, we introduce a novel benchmark, called Cyc-CP, towards cycling close pass near miss event detection from video streams. We first divide this task into scene-level and instance-level problems. Scene-level detection asks an algorithm to predict whether there is a close pass near miss event in the input video clip. Instance-level detection aims to detect which vehicle in the scene gives rise to a close pass near miss. We propose two benchmark models based on deep learning techniques for these two problems. For training and testing those models, we construct a synthetic dataset and also collect a real-world dataset. Our models can achieve 88.13% and 84.60% accuracy on the real-world dataset, respectively. We envision this benchmark as a test-bed to accelerate cycling close pass near miss detection and facilitate interaction between the fields of road safety, intelligent transportation systems and artificial intelligence. Both the benchmark datasets and detection models will be available at https://github.com/SustainableMobility/cyc-cp to facilitate experimental reproducibility and encourage more in-depth research in the field.
翻訳日:2023-04-25 15:48:40 公開日:2023-04-24
# 物理制約深層学習によるモジュラー化核検出器のラベルフリータイミング解析

Label-free timing analysis of modularized nuclear detectors with physics-constrained deep learning ( http://arxiv.org/abs/2304.11930v1 )

ライセンス: Link先を確認
Pengcheng Ai, Le Xiao, Zhi Deng, Yi Wang, Xiangming Sun, Guangming Huang, Dong Wang, Yulei Li, Xinchi Ran(参考訳) パルスタイミングは核実験において重要な話題であり、高エネルギー物理学から放射線イメージングまで幅広い応用がある。 高速アナログ-デジタルコンバータはますます発展し、アクセスしやすくなっているが、核検出器信号処理におけるその潜在的な用途とメリットは、部分的には十分に理解され、利用されていないタイミングアルゴリズムのため、まだ不明である。 本稿では,イベントデータのラベル付けを必要とせず,モジュール型核検出器のタイミング解析を行うための深層学習に基づく新しい手法を提案する。 個々の検出器の内部時間相関を利用して、特別に設計された正規化器を用いたラベルフリー損失関数を形成し、ニューラルネットワークの有意義かつ正確なマッピング関数へのトレーニングを監督する。 本手法が求める最適関数の存在を数学的に証明し,モデルの学習と校正のための体系的アルゴリズムを与える。 提案手法は2つの実験データセット上で検証される。 玩具実験では、ニューラルネットワークモデルは8.8 psの単一チャネル時間分解能を達成し、データセットのコンセプトドリフトに対して堅牢性を示す。 電磁カロリメータ実験では、いくつかのニューラルネットワークモデル(fc、cnn、lstm)が基礎となる物理的制約への適合性を示し、従来の手法に対する性能を判定するためにテストされている。 総じて,提案手法は理想的あるいはうるさい実験条件において良好に動作し,波形サンプルからの時間情報を良好かつ正確に回収する。

Pulse timing is an important topic in nuclear instrumentation, with far-reaching applications from high energy physics to radiation imaging. While high-speed analog-to-digital converters become more and more developed and accessible, their potential uses and merits in nuclear detector signal processing are still uncertain, partially due to associated timing algorithms which are not fully understood and utilized. In this paper, we propose a novel method based on deep learning for timing analysis of modularized nuclear detectors without explicit needs of labelling event data. By taking advantage of the inner time correlation of individual detectors, a label-free loss function with a specially designed regularizer is formed to supervise the training of neural networks towards a meaningful and accurate mapping function. We mathematically demonstrate the existence of the optimal function desired by the method, and give a systematic algorithm for training and calibration of the model. The proposed method is validated on two experimental datasets. In the toy experiment, the neural network model achieves the single-channel time resolution of 8.8 ps and exhibits robustness against concept drift in the dataset. In the electromagnetic calorimeter experiment, several neural network models (FC, CNN and LSTM) are tested to show their conformance to the underlying physical constraint and to judge their performance against traditional methods. In total, the proposed method works well in either ideal or noisy experimental condition and recovers the time information from waveform samples successfully and precisely.
翻訳日:2023-04-25 15:41:47 公開日:2023-04-24
# 自動走行における視覚知覚のためのセマンティックセグメンテーションのための教師なし領域適応に関する調査

Survey on Unsupervised Domain Adaptation for Semantic Segmentation for Visual Perception in Automated Driving ( http://arxiv.org/abs/2304.11928v1 )

ライセンス: Link先を確認
Manuel Schwonberg, Joshua Niemeijer, Jan-Aike Term\"ohlen, J\"org P. Sch\"afer, Nico M. Schmidt, Hanno Gottschalk, Tim Fingscheidt(参考訳) ディープニューラルネットワーク(DNN)は、ロボット工学や自動運転など、過去数年間で多くの分野でその能力を証明しており、技術的ブレークスルーを可能にしている。 DNNは、自動走行の困難な適用のために環境認識において重要な役割を果たし、検出、セマンティックセグメンテーション、センサー融合といったタスクに使用される。 この進歩と膨大な研究努力にもかかわらず、自動運転におけるDNNの適用性を制限するいくつかの問題に対処する必要がある。 新しいドメインへのDNNの悪い一般化は、特にセマンティックセグメンテーションにおいて、新しいドメインのマニュアルアノテーションが高価であるため、安全で大規模なアプリケーションへの道のりにおける大きな問題である。 そのため、ラベル付けをせずにDNNを新しいドメインに適応させる方法が求められている。 これらの手法が解決しようとするタスクをunsupervised domain adaptation(uda)と呼ぶ。 いくつかの異なるドメインシフトがDNNに挑戦する可能性があるが、合成データと実際のデータのシフトは、DNNトレーニングにシミュレーション環境を使用することができるため、自動運転において特に重要である。 本稿では,本研究における美術の現状について概観する。 UDAの異なるアプローチを分類し、説明する。 検討された出版物の数は、他のどの調査よりも多い。 この調査の範囲は、UDAの現状の説明をはるかに超えています。 当社の大規模データと知識ベースに基づいて、アプローチの定量的比較を行い、観測結果を用いて、この分野の最新動向を指摘する。 以下に、現状を批判的に分析し、将来有望な研究の方向性を明らかにする。 本調査では,UDA研究をさらに促進し,新たな研究の方向性を活かしてDNNの一般化を促進することを目的としている。

Deep neural networks (DNNs) have proven their capabilities in many areas in the past years, such as robotics, or automated driving, enabling technological breakthroughs. DNNs play a significant role in environment perception for the challenging application of automated driving and are employed for tasks such as detection, semantic segmentation, and sensor fusion. Despite this progress and tremendous research efforts, several issues still need to be addressed that limit the applicability of DNNs in automated driving. The bad generalization of DNNs to new, unseen domains is a major problem on the way to a safe, large-scale application, because manual annotation of new domains is costly, particularly for semantic segmentation. For this reason, methods are required to adapt DNNs to new domains without labeling effort. The task, which these methods aim to solve is termed unsupervised domain adaptation (UDA). While several different domain shifts can challenge DNNs, the shift between synthetic and real data is of particular importance for automated driving, as it allows the use of simulation environments for DNN training. In this work, we present an overview of the current state of the art in this field of research. We categorize and explain the different approaches for UDA. The number of considered publications is larger than any other survey on this topic. The scope of this survey goes far beyond the description of the UDA state-of-the-art. Based on our large data and knowledge base, we present a quantitative comparison of the approaches and use the observations to point out the latest trends in this field. In the following, we conduct a critical analysis of the state-of-the-art and highlight promising future research directions. With this survey, we aim to facilitate UDA research further and encourage scientists to exploit novel research directions to generalize DNNs better.
翻訳日:2023-04-25 15:41:23 公開日:2023-04-24
# ニューラルネットワーク, 拡散マップ, クープマン演算子を用いたデータ駆動型脳活動モデリング

Data-driven modelling of brain activity using neural networks, Diffusion Maps, and the Koopman operator ( http://arxiv.org/abs/2304.11925v1 )

ライセンス: Link先を確認
Ioannis K. Gallos, Daniel Lehmberg, Felix Dietrich, Constantinos Siettos(参考訳) タスク依存型fMRIデータから脳活動の長期外ダイナミクスをモデル化するための機械学習手法を提案する。 私たちのアプローチは3段階です。 まず、Diffusion map(DM)を用いて、創発的な高次元fMRI時系列が進化する低次元多様体をパラメータ化する変数の集合を発見する。 次に、FNN(Feedforward Neural Networks)とクープマン演算子(Koopman operator)の2つの手法を用いて、組込み多様体上に低次モデル(ROM)を構築する。 最後に、周囲fMRI空間における脳活動の長期的ダイナミクスを予測するために、FNNとクープマンモードをそれぞれ使用する場合、画像前問題DMと幾何高調波(GH)を結合するDMを解く。 本稿では,バイスオモータタスク中の記録を伴うベンチマークfMRIデータセットを用いて,提案手法の性能評価を行った。 その結果、高次元fmri時系列の(特定のタスクに対して)数個の(5つの)非線形座標が脳活動のモデリングとアウト・オブ・サンプル予測に適していることが示唆された。 さらに,提案手法は,提案手法とは対照的に,前段階における信号の知識に依存した,有意なランダムウォークモデルの1段階先行予測よりも優れていることを示す。 重要なことは、提案したクープマン作用素アプローチが、FNN-GHアプローチと等価な実用的な目的のために、非線型写像をトレーニングし、GHを用いて周囲のfMRI空間の予測を外挿する必要性を回避し、代わりにL^2-可積分関数のDMs関数空間の低周波トランケーションを用いて、fMRI空間における座標関数のリスト全体を予測し、前画像問題の解決を可能にすることである。

We propose a machine-learning approach to model long-term out-of-sample dynamics of brain activity from task-dependent fMRI data. Our approach is a three stage one. First, we exploit Diffusion maps (DMs) to discover a set of variables that parametrize the low-dimensional manifold on which the emergent high-dimensional fMRI time series evolve. Then, we construct reduced-order-models (ROMs) on the embedded manifold via two techniques: Feedforward Neural Networks (FNNs) and the Koopman operator. Finally, for predicting the out-of-sample long-term dynamics of brain activity in the ambient fMRI space, we solve the pre-image problem coupling DMs with Geometric Harmonics (GH) when using FNNs and the Koopman modes per se. For our illustrations, we have assessed the performance of the two proposed schemes using a benchmark fMRI dataset with recordings during a visuo-motor task. The results suggest that just a few (for the particular task, five) non-linear coordinates of the high-dimensional fMRI time series provide a good basis for modelling and out-of-sample prediction of the brain activity. Furthermore, we show that the proposed approaches outperform the one-step ahead predictions of the naive random walk model, which, in contrast to our scheme, relies on the knowledge of the signals in the previous time step. Importantly, we show that the proposed Koopman operator approach provides, for any practical purposes, equivalent results to the FNN-GH approach, thus bypassing the need to train a non-linear map and to use GH to extrapolate predictions in the ambient fMRI space; one can use instead the low-frequency truncation of the DMs function space of L^2-integrable functions, to predict the entire list of coordinate functions in the fMRI space and to solve the pre-image problem.
翻訳日:2023-04-25 15:40:54 公開日:2023-04-24
# KInITVeraAI at SemEval-2023 Task 3: Simple And Powerful Multilingual Fine-Tuning for Persuasion Techniques Detection

KInITVeraAI at SemEval-2023 Task 3: Simple yet Powerful Multilingual Fine-Tuning for Persuasion Techniques Detection ( http://arxiv.org/abs/2304.11924v1 )

ライセンス: Link先を確認
Timo Hromadka, Timotej Smolen, Tomas Remis, Branislav Pecher, Ivan Srba(参考訳) 本稿では,サブタスク3のSemEval 2023タスク3に対して,説得技術検出専用の最適解を提案する。 入力データの多言語的特徴と,23の予測ラベル(ラベル付きデータの欠如を考慮に入れた言語ラベルの組み合わせ)の多言語化により,事前学習したトランスフォーマベース言語モデルを微調整した。 複数の実験を行ない、大きな多言語モデル(XLM-RoBERTa large)が全ての入力データに対して共同で訓練され、視覚言語とサプライズ言語を別々に分類する。 最終システムは9言語中6言語(サプライズ言語を含む)で最善を尽くし、残りの3言語で高い競争力を発揮しました。

This paper presents the best-performing solution to the SemEval 2023 Task 3 on the subtask 3 dedicated to persuasion techniques detection. Due to a high multilingual character of the input data and a large number of 23 predicted labels (causing a lack of labelled data for some language-label combinations), we opted for fine-tuning pre-trained transformer-based language models. Conducting multiple experiments, we find the best configuration, which consists of large multilingual model (XLM-RoBERTa large) trained jointly on all input data, with carefully calibrated confidence thresholds for seen and surprise languages separately. Our final system performed the best on 6 out of 9 languages (including two surprise languages) and achieved highly competitive results on the remaining three languages.
翻訳日:2023-04-25 15:40:18 公開日:2023-04-24
# 学習能力の伝達による知識蒸留の改善

Improving Knowledge Distillation Via Transferring Learning Ability ( http://arxiv.org/abs/2304.11923v1 )

ライセンス: Link先を確認
Long Liu, Tong Li, Hui Cheng(参考訳) 既存の知識蒸留法では、一般的に、生徒ネットワークが訓練された教師からのみ学習する教師・生徒のアプローチを用いる。 しかし,本手法は,教師と生徒のネットワーク間の学習能力に固有の違いを見落とし,能力ギャップの問題を引き起こす。 この制限に対処するため,SLKDと呼ばれる新しい手法を提案する。

Existing knowledge distillation methods generally use a teacher-student approach, where the student network solely learns from a well-trained teacher. However, this approach overlooks the inherent differences in learning abilities between the teacher and student networks, thus causing the capacity-gap problem. To address this limitation, we propose a novel method called SLKD.
翻訳日:2023-04-25 15:40:01 公開日:2023-04-24
# 科学論文を用いた科学概念のトピックページの作成

Generating Topic Pages for Scientific Concepts Using Scientific Publications ( http://arxiv.org/abs/2304.11922v1 )

ライセンス: Link先を確認
Hosein Azarbonyad, Zubair Afzal, George Tsatsaronis(参考訳) 本稿では,学術論文や雑誌のコレクションから抽出した,科学的概念と周辺情報の目録であるトピックページについて述べる。 トピックページの主な目的は、科学分野の学術的内容を読みながら、彼らが出会った科学的概念を理解するために必要な情報をすべて読者に提供することである。 トピックページは、NLPとMLを使用して自動生成された情報ページのコレクションであり、それぞれが科学的概念に対応する。 各ページには、定義、関連する概念、そして最も関連するスニペットの3つの情報が含まれている。 本稿では,これら各要素を抽出するためのコンポーネントの詳細について述べる。 生産中のページのコレクションには、20の科学分野にまたがる36万ページ以上のトピックページが含まれており、月間平均2300万のユニーク訪問者がある。

In this paper, we describe Topic Pages, an inventory of scientific concepts and information around them extracted from a large collection of scientific books and journals. The main aim of Topic Pages is to provide all the necessary information to the readers to understand scientific concepts they come across while reading scholarly content in any scientific domain. Topic Pages are a collection of automatically generated information pages using NLP and ML, each corresponding to a scientific concept. Each page contains three pieces of information: a definition, related concepts, and the most relevant snippets, all extracted from scientific peer-reviewed publications. In this paper, we discuss the details of different components to extract each of these elements. The collection of pages in production contains over 360,000 Topic Pages across 20 different scientific domains with an average of 23 million unique visits per month, constituting it a popular source for scientific information.
翻訳日:2023-04-25 15:39:55 公開日:2023-04-24
# 人間-aiチームにおける統計的プロアクティブダイアログモデリングのための信頼度対応ユーザシミュレータの開発

Development of a Trust-Aware User Simulator for Statistical Proactive Dialog Modeling in Human-AI Teams ( http://arxiv.org/abs/2304.11913v1 )

ライセンス: Link先を確認
Matthias Kraus, Ron Riekenbrauck, Wolfgang Minker(参考訳) 近年,人間-AIチームという概念が注目されている。 人間とAIチームメイトとの効果的なコラボレーションのためには、緊密な協調と効果的なコミュニケーションには、積極的活動が不可欠である。 しかしながら、人間をサポートするAIベースのシステムのための適切な能動性の設計は、まだオープンな問題であり、課題である。 本稿では,プロアクティブダイアログポリシーのトレーニングとテストのためのコーパスベースユーザシミュレータの開発について述べる。 このシミュレータは、プロアクティブダイアログとそのユーザ信頼への影響に関するインフォームド知識を取り入れ、社会デポグラフィ的特徴やパーソナリティ特性を含むユーザの行動や個人情報をシミュレートする。 2つの異なるシミュレーション手法を比較し、タスクステップベースの手法により、逐次依存関係のモデリングの強化により、全体的な結果が改善された。 本研究では,人間-AIチーム改善のための対話ゲーム設定において,適切なプロアクティブ戦略を探索し,評価するための有望な方法を提案する。

The concept of a Human-AI team has gained increasing attention in recent years. For effective collaboration between humans and AI teammates, proactivity is crucial for close coordination and effective communication. However, the design of adequate proactivity for AI-based systems to support humans is still an open question and a challenging topic. In this paper, we present the development of a corpus-based user simulator for training and testing proactive dialog policies. The simulator incorporates informed knowledge about proactive dialog and its effect on user trust and simulates user behavior and personal information, including socio-demographic features and personality traits. Two different simulation approaches were compared, and a task-step-based approach yielded better overall results due to enhanced modeling of sequential dependencies. This research presents a promising avenue for exploring and evaluating appropriate proactive strategies in a dialog game setting for improving Human-AI teams.
翻訳日:2023-04-25 15:39:40 公開日:2023-04-24
# 運用管理における流通変化への対応--カスタマイズ生産における注文充足の場合

Addressing distributional shifts in operations management: The case of order fulfillment in customized production ( http://arxiv.org/abs/2304.11910v1 )

ライセンス: Link先を確認
Julian Senoner and Bernhard Kratzwald and Milan Kuzmanovic and Torbj{\o}rn H. Netland and Stefan Feuerriegel(参考訳) 受注目標を満たすため、メーカーは生産スケジュールを最適化しようとしている。 機械学習は、注文仕様に従って生産ラインでスループット時間を予測することで、この目標をサポートすることができる。 しかし、メーカーがカスタマイズした製品を生産する場合、これは困難である。なぜなら、カスタマイズはしばしば運用データの確率分布(いわゆる分布シフト)の変化をもたらすからだ。 分散シフトは、将来の顧客注文に新しい仕様でデプロイした場合、予測モデルのパフォーマンスを損なう可能性がある。 この文献は、そのような分散シフトがオペレーション管理においてどのように対処できるかについて限定的なアドバイスを提供している。 本稿では,製品カスタマイズ度の高い製造環境における分散シフトを考慮できる,逆学習とジョブショップスケジューリングに基づくデータ駆動アプローチを提案する。 我々は,大規模金属部品を石油プラットフォーム建設工場に供給する工場生産の実際のデータを用いて,提案手法を実証的に検証した。 様々な数値実験を通して、我々の対角学習アプローチは共通のベースラインを上回っていることがわかった。 全体として,生産マネージャが流通シフト下で意思決定をいかに改善できるかを示す。

To meet order fulfillment targets, manufacturers seek to optimize production schedules. Machine learning can support this objective by predicting throughput times on production lines given order specifications. However, this is challenging when manufacturers produce customized products because customization often leads to changes in the probability distribution of operational data -- so-called distributional shifts. Distributional shifts can harm the performance of predictive models when deployed to future customer orders with new specifications. The literature provides limited advice on how such distributional shifts can be addressed in operations management. Here, we propose a data-driven approach based on adversarial learning and job shop scheduling, which allows us to account for distributional shifts in manufacturing settings with high degrees of product customization. We empirically validate our proposed approach using real-world data from a job shop production that supplies large metal components to an oil platform construction yard. Across an extensive series of numerical experiments, we find that our adversarial learning approach outperforms common baselines. Overall, this paper shows how production managers can improve their decision-making under distributional shifts.
翻訳日:2023-04-25 15:39:25 公開日:2023-04-24
# 適応データプルーニングと滑らか性誘導正規化による水中音響目標認識の促進

Advancing underwater acoustic target recognition via adaptive data pruning and smoothness-inducing regularization ( http://arxiv.org/abs/2304.11907v1 )

ライセンス: Link先を確認
Yuan Xie, Tianyu Chen and Ji Xu(参考訳) 船舶放射線信号に対する水中音響認識は、非視線目標を認識できるため、実用的価値が高い。 しかし、データ取得が困難であるため、収集された信号量は少なく、主に機械的周期ノイズで構成されている。 実験によると、周期的信号の反復性は二重日光現象につながり、反復的なサンプルに対する局所的な偏りが顕著である。 この問題に対処するために,訓練データに過剰に類似したセグメントをプルーンするクロスエントロピーに基づく戦略を提案する。 さらに、トレーニングデータの削減を補うために、ノイズの多いサンプルを生成し、KL分散に基づくスムーズネス誘導正規化を適用し、オーバーフィッティングを緩和する。 実験により、提案したデータプルーニングと正規化戦略が安定した利益をもたらし、低リソースシナリオにおける最先端のフレームワークを著しく上回ります。

Underwater acoustic recognition for ship-radiated signals has high practical application value due to the ability to recognize non-line-of-sight targets. However, due to the difficulty of data acquisition, the collected signals are scarce in quantity and mainly composed of mechanical periodic noise. According to the experiments, we observe that the repeatability of periodic signals leads to a double-descent phenomenon, which indicates a significant local bias toward repeated samples. To address this issue, we propose a strategy based on cross-entropy to prune excessively similar segments in training data. Furthermore, to compensate for the reduction of training data, we generate noisy samples and apply smoothness-inducing regularization based on KL divergence to mitigate overfitting. Experiments show that our proposed data pruning and regularization strategy can bring stable benefits and our framework significantly outperforms the state-of-the-art in low-resource scenarios.
翻訳日:2023-04-25 15:39:09 公開日:2023-04-24
# トランスフォーマーを用いた両眼画像からの立体物体検出

Transformer-based stereo-aware 3D object detection from binocular images ( http://arxiv.org/abs/2304.11906v1 )

ライセンス: Link先を確認
Hanqing Sun, Yanwei Pang, Jiale Cao, Jin Xie, Xuelong Li(参考訳) 視覚変換器は、モノクロ2D/3D検出やサラウンドビュー3D検出など、様々な物体検出タスクにおいて有望な進歩を示している。 しかし、本質的および古典的ステレオ3dオブジェクト検出で使用される場合、これらのサラウンドビュートランスフォーマーを直接採用すると、収束が遅くなり、精度が大幅に低下する。 この欠陥の原因の1つは、サラウンドビュートランスフォーマーがステレオ特有の画像対応情報を考慮していないことである。 サラウンドビューシステムでは、重なり合う領域は小さいため、対応性は主要な問題ではない。 本稿では,ステレオ3次元物体検出における視覚トランスフォーマーのモデル設計について検討し,タスク固有画像対応情報の抽出と符号化に着目した。 この目的を達成するために,トランスフォーマーをベースとしたステレオ3Dオブジェクト検出器TS3Dを提案する。 TS3Dでは、画像対応情報をステレオ特徴に埋め込むために、DAPE(Disparity-Aware Positional Encoding)モデルを提案する。 対応を正規化不一致として符号化し、正弦波2D位置符号化と併用して、3Dシーンの位置情報を提供する。 拡張された多スケールステレオ特徴を抽出するために,ステレオ保存機能ピラミッドネットワーク (srfpn) を提案する。 SRFPNは、インタースケールとアグリゲートするクロススケールステレオ特徴を融合させながら、対応情報を予約するように設計されている。 提案するts3dは,kittiテストセットにおける中程度の車検出平均精度を41.29%達成し,各双眼鏡画像ペアから物体を検出するのに88msを要した。 精度と推論速度の両面で、高度な競合相手と競合する。

Vision Transformers have shown promising progress in various object detection tasks, including monocular 2D/3D detection and surround-view 3D detection. However, when used in essential and classic stereo 3D object detection, directly adopting those surround-view Transformers leads to slow convergence and significant precision drops. We argue that one of the causes of this defect is that the surround-view Transformers do not consider the stereo-specific image correspondence information. In a surround-view system, the overlapping areas are small, and thus correspondence is not a primary issue. In this paper, we explore the model design of vision Transformers in stereo 3D object detection, focusing particularly on extracting and encoding the task-specific image correspondence information. To achieve this goal, we present TS3D, a Transformer-based Stereo-aware 3D object detector. In the TS3D, a Disparity-Aware Positional Encoding (DAPE) model is proposed to embed the image correspondence information into stereo features. The correspondence is encoded as normalized disparity and is used in conjunction with sinusoidal 2D positional encoding to provide the location information of the 3D scene. To extract enriched multi-scale stereo features, we propose a Stereo Reserving Feature Pyramid Network (SRFPN). The SRFPN is designed to reserve the correspondence information while fusing intra-scale and aggregating cross-scale stereo features. Our proposed TS3D achieves a 41.29% Moderate Car detection average precision on the KITTI test set and takes 88 ms to detect objects from each binocular image pair. It is competitive with advanced counterparts in terms of both precision and inference speed.
翻訳日:2023-04-25 15:38:53 公開日:2023-04-24
# threatcrawl:サイバーセキュリティドメインのためのbertベースの集中クローラ

ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain ( http://arxiv.org/abs/2304.11960v1 )

ライセンス: Link先を確認
Philipp Kuehn, Mike Schmidt, Christian Reuter(参考訳) 公開情報にはサイバー脅威情報(CTI)の貴重な情報が含まれている。 これは、他のシステムですでに発生した攻撃を防ぐために使用できる。 理想的には、最初の攻撃のみが成功し、その後全ての攻撃が検出され停止される。 しかし、この情報交換にはさまざまな基準があるが、多くは記事やブログ投稿で標準化されていない方法で共有されている。 手動で複数のオンラインポータルやニュースページをスキャンして新しい脅威を発見し、それらを抽出するのは時間がかかります。 このスキャンプロセスの一部を自動化するために,複数の論文が自然言語処理(NLP)を用いて文書から妥協の指標(IOC)を抽出する抽出器を提案する。 しかし、これは文書から情報を抽出する問題を既に解決しているが、これらの文書を検索することはめったにない。 本稿では,変換器を用いた双方向エンコーダ表現(BERT)モデルを用いて文書の分類とクローリングパスの動的適応を行うThreatCrawlを提案する。 ThreatCrawlは、IOCコンテンツなどのテキストで名前付けられた特定のタイプのオープンソースインテリジェンス(OSINT)を分類するのは難しいが、関連する文書を見つけ、それに従って修正することができる。 収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。

Publicly available information contains valuable information for Cyber Threat Intelligence (CTI). This can be used to prevent attacks that have already taken place on other systems. Ideally, only the initial attack succeeds and all subsequent ones are detected and stopped. But while there are different standards to exchange this information, a lot of it is shared in articles or blog posts in non-standardized ways. Manually scanning through multiple online portals and news pages to discover new threats and extracting them is a time-consuming task. To automize parts of this scanning process, multiple papers propose extractors that use Natural Language Processing (NLP) to extract Indicators of Compromise (IOCs) from documents. However, while this already solves the problem of extracting the information out of documents, the search for these documents is rarely considered. In this paper, a new focused crawler is proposed called ThreatCrawl, which uses Bidirectional Encoder Representations from Transformers (BERT)-based models to classify documents and adapt its crawling path dynamically. While ThreatCrawl has difficulties to classify the specific type of Open Source Intelligence (OSINT) named in texts, e.g., IOC content, it can successfully find relevant documents and modify its path accordingly. It yields harvest rates of up to 52%, which are, to the best of our knowledge, better than the current state of the art.
翻訳日:2023-04-25 15:33:22 公開日:2023-04-24
# クラスインクリメンタル・ピル認識

Few-shot Class-incremental Pill Recognition ( http://arxiv.org/abs/2304.11959v1 )

ライセンス: Link先を確認
Jinghua Zhang, Li Liu, Kai Gao, and Dewen Hu(参考訳) 自動錠剤認識システムは、病院の効率を向上し、視覚障害のある人を助け、クロス感染を避けるために非常に重要である。 しかし、ディープラーニングに基づく既存の錠剤認識システムでは、学習した錠剤カテゴリーの錠剤分類を十分な訓練データで行うだけでよい。 実際には、データアノテーションの高価なコストと新しい錠剤のカテゴリが継続的に増加するため、数発のクラスインクリメンタルな錠剤認識システムを開発する意味がある。 本稿では,表現と分類器の分離学習戦略を取り入れた,最初の数発のクラスインクリメンタル・ピル認識システムを開発する。 学習表現では,クラス内コンパクト性とクラス間分離性を促進する新しい中心三重項損失関数を提案する。 学習分類器では,グラフ注意ネットワークを訓練して適応モデルを得るための擬似ピル画像構築戦略を提案する。 さらに,数ショットのクラス増分学習のための2つの新しいピル画像データセットを構築した。 実験の結果,我々のフレームワークは最先端の手法よりも優れていた。

The automatic pill recognition system is of great significance in improving the efficiency of the hospital, helping people with visual impairment, and avoiding cross-infection. However, most existing pill recognition systems based on deep learning can merely perform pill classification on the learned pill categories with sufficient training data. In practice, the expensive cost of data annotation and the continuously increasing categories of new pills make it meaningful to develop a few-shot class-incremental pill recognition system. In this paper, we develop the first few-shot class-incremental pill recognition system, which adopts decoupled learning strategy of representations and classifiers. In learning representations, we propose the novel Center-Triplet loss function, which can promote intra-class compactness and inter-class separability. In learning classifiers, we propose a specialized pseudo pill image construction strategy to train the Graph Attention Network to obtain the adaptation model. Moreover, we construct two new pill image datasets for few-shot class-incremental learning. The experimental results show that our framework outperforms the state-of-the-art methods.
翻訳日:2023-04-25 15:33:00 公開日:2023-04-24
# l$-subexponential covariates におけるスパース線形回帰係数の推定

Estimation of sparse linear regression coefficients under $L$-subexponential covariates ( http://arxiv.org/abs/2304.11958v1 )

ライセンス: Link先を確認
Takeyuki Sasai(参考訳) ガウス確率ベクトルよりも重いテールを持つ分布のクラスに属する$l$-subexponential random vectorから共変数を引き出すとき、線形回帰におけるスパース係数を推定するタスクに対処する。 以前の研究は、共変数が$l$-subexponential random vectorから引き出され、ガウス確率ベクトルに導かれるものと類似した誤差境界を持つと仮定することでこの問題に取り組んできた。 しかし、これらの従来の手法はガウスのランダムベクトルよりも強い条件で誤差境界を導出する必要がある。 本稿では,ガウス確率ベクトルに対して得られた値と同一の誤差を,$L$-subexponentialランダムベクトルから共変量を引き出す場合であっても,より強い条件を必要とせず,定数因子まで有する。 興味深いことに、我々は$\ell_1$-penalized Huberレグレッションを利用しており、これは共変量ではなく重み付きランダムノイズに対するロバストさで認識されている。 本稿では,$\ell_1$-penalized Huberレグレッションの新たな側面を明らかにする。

We address a task of estimating sparse coefficients in linear regression when the covariates are drawn from an $L$-subexponential random vector, which belongs to a class of distributions having heavier tails than a Gaussian random vector. Prior works have tackled this issue by assuming that the covariates are drawn from an $L$-subexponential random vector and have established error bounds that resemble those derived for Gaussian random vectors. However, these previous methods require stronger conditions to derive error bounds than those employed for Gaussian random vectors. In the present paper, we present an error bound identical to that obtained for Gaussian random vectors, up to constant factors, without requiring stronger conditions, even when the covariates are drawn from an $L$-subexponential random vector. Somewhat interestingly, we utilize an $\ell_1$-penalized Huber regression, that is recognized for its robustness to heavy-tailed random noises, not covariates. We believe that the present paper reveals a new aspect of the $\ell_1$-penalized Huber regression.
翻訳日:2023-04-25 15:32:44 公開日:2023-04-24
# chatgpt-4 on acr radiation oncology in-training examination (txit): 放射線腫瘍学におけるai支援医療教育と意思決定の可能性と課題

Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training Exam (TXIT): Potentials and Challenges for AI-Assisted Medical Education and Decision Making in Radiation Oncology ( http://arxiv.org/abs/2304.11957v1 )

ライセンス: Link先を確認
Yixing Huang, Ahmed Gomaa, Thomas Weissmann, Johanna Grigo, Hassen Ben Tkhayat, Benjamin Frey, Udo S. Gaipl, Luitpold V. Distel, Andreas Maier, Rainer Fietkau, Christoph Bert, and Florian Putz(参考訳) 教育と意思決定のための医学における大規模言語モデルの可能性は、米国医療ライセンス試験(usmle)やメダカ試験などの医学試験で十分なスコアを得られることから証明されている。 The 38th American College of Radiology (ACR) radiation oncology in-training exam (TXIT) を用いて, 放射線腫瘍学専門分野におけるChatGPT-3.5およびChatGPT-4の性能評価を行った。 ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%を獲得し、最新のChatGPT-4の利点を強調している。 TXIT試験に基づき、ChatGPT-4の放射線腫瘍学における強弱領域をある程度同定した。 具体的には、ChatGPT-4は統計学、CNS & Eye、小児科、生物学、物理学の知識をよく示しているが、ACR知識ドメインと同様に骨・軟組織・婦人科に制限がある。 治療経路に関して、chatgpt-4は診断、予後、毒性に優れるが、ブラキセラピーや線量測定に関するトピックや臨床試験からの深い質問において、熟練度を欠いている。 ChatGPT-4は放射線腫瘍学の臨床的決定にはまだ適していないが、一般市民およびがん患者の医学教育を支援する可能性がある。 さらなる微調整により、最新のガイドラインと既存のグレーゾーンデータベースに基づいて、臨床患者に対する治療決定を推奨する放射線腫瘍学者を支援することができる。

The potential of large language models in medicine for education and decision making purposes has been demonstrated as they achieve decent scores on medical exams such as the United States Medical Licensing Exam (USMLE) and the MedQA exam. In this work, we evaluate the performance of ChatGPT-3.5 and ChatGPT-4 in the specialized field of radiation oncology using the 38th American College of Radiology (ACR) radiation oncology in-training exam (TXIT). ChatGPT-3.5 and ChatGPT-4 have achieved the scores of 63.65% and 74.57%, respectively, highlighting the advantage of the latest ChatGPT-4 model. Based on the TXIT exam, ChatGPT-4's strong and weak areas in radiation oncology are identified to some extent. Specifically, ChatGPT-4 demonstrates good knowledge of statistics, CNS & eye, pediatrics, biology, and physics but has limitations in bone & soft tissue and gynecology, as per the ACR knowledge domain. Regarding clinical care paths, ChatGPT-4 performs well in diagnosis, prognosis, and toxicity but lacks proficiency in topics related to brachytherapy and dosimetry, as well as in-depth questions from clinical trials. While ChatGPT-4 is not yet suitable for clinical decision making in radiation oncology, it has the potential to assist in medical education for the general public and cancer patients. With further fine-tuning, it could assist radiation oncologists in recommending treatment decisions for challenging clinical cases based on the latest guidelines and the existing gray zone database.
翻訳日:2023-04-25 15:32:24 公開日:2023-04-24
# UTSGAN: トランジッションを意識した画像から画像への変換のためのGAN

UTSGAN: Unseen Transition Suss GAN for Transition-Aware Image-to-image Translation ( http://arxiv.org/abs/2304.11955v1 )

ライセンス: Link先を確認
Yaxin Shi, Xiaowei Zhou, Ping Liu, Ivor W. Tsang(参考訳) 画像から画像への変換(i2i)の分野では、入力画像と翻訳結果の一貫性を確保することが、高品質で望ましい出力を生成する上で重要な要件である。 従来のI2I手法は、この目標を達成するために、翻訳結果と基底真理出力の一貫性を強制する結果整合性に依存していた。 しかし、結果整合性は翻訳タスクの複雑な属性変更や見当たらない属性変更を扱う能力に制限がある。 この問題に対処するため、I2I翻訳において、データ変換マッピングをトランジション変数で明示的にパラメータ化し、未知のトランジションによって引き起こされる未観測翻訳のモデリングを可能にする。 さらに, 遷移変数に定義された遷移整合性を用いて, 従来は省略されていた未観測翻訳における整合性の正規化を実現する。 これらの知見に基づき、確率的遷移エンコーダを用いて遷移のための多様体を構築するための生成フレームワークである Unseen Transition Suss GAN (UTSGAN) を提示する。 4つの異なるi2iタスクを5つの異なるデータセットで広範囲に実験した結果,提案するutsganの有効性が示された。

In the field of Image-to-Image (I2I) translation, ensuring consistency between input images and their translated results is a key requirement for producing high-quality and desirable outputs. Previous I2I methods have relied on result consistency, which enforces consistency between the translated results and the ground truth output, to achieve this goal. However, result consistency is limited in its ability to handle complex and unseen attribute changes in translation tasks. To address this issue, we introduce a transition-aware approach to I2I translation, where the data translation mapping is explicitly parameterized with a transition variable, allowing for the modelling of unobserved translations triggered by unseen transitions. Furthermore, we propose the use of transition consistency, defined on the transition variable, to enable regularization of consistency on unobserved translations, which is omitted in previous works. Based on these insights, we present Unseen Transition Suss GAN (UTSGAN), a generative framework that constructs a manifold for the transition with a stochastic transition encoder and coherently regularizes and generalizes result consistency and transition consistency on both training and unobserved translations with tailor-designed constraints. Extensive experiments on four different I2I tasks performed on five different datasets demonstrate the efficacy of our proposed UTSGAN in performing consistent translations.
翻訳日:2023-04-25 15:31:54 公開日:2023-04-24
# Spikingformer: トランスフォーマーに基づくスパイクニューラルネットワークのためのスパイク駆動残差学習

Spikingformer: Spike-driven Residual Learning for Transformer-based Spiking Neural Network ( http://arxiv.org/abs/2304.11954v1 )

ライセンス: Link先を確認
Chenlin Zhou, Liutao Yu, Zhaokun Zhou, Han Zhang, Zhengyu Ma, Huihui Zhou, Yonghong Tian(参考訳) スパイキングニューラルネットワーク(SNN)は、イベント駆動のスパイキング計算のために、人工ニューラルネットワークに代わる有望なエネルギー効率を提供する。 しかし、現在最先端の深層SNN(SpikformerやSEW ResNetなど)は、その残余接続構造に起因する非スパイク計算(整数-フロート乗法)に悩まされている。 これらの非スパイク計算はSNNの消費電力を増大させ、スパイク操作のみをサポートする主流のニューロモルフィックハードウェアへの展開に適さないものにする。 本稿では,非スパイク計算を回避するため,SNNのためのハードウェアフレンドリーなスパイク駆動残差学習アーキテクチャを提案する。 この残差設計に基づき、純粋なトランスベースのスパイキングニューラルネットワークであるspikingformerを開発した。 我々は、ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128 Gestureデータセット上でSpkingformerを評価し、Spkingformerが、新しい高度なバックボーンとして、直接訓練された純粋なSNNの最先端技術よりも優れていることを示した。 さらに,Spykingformer が非スパイク計算を効果的に回避し,ImageNet の Spikformer と比較してエネルギー消費量を 60.34$\% 削減できることを確認した。 私たちの知る限りでは、純粋なイベント駆動トランスフォーマーベースのSNNが開発されたのは今回が初めてです。

Spiking neural networks (SNNs) offer a promising energy-efficient alternative to artificial neural networks, due to their event-driven spiking computation. However, state-of-the-art deep SNNs (including Spikformer and SEW ResNet) suffer from non-spike computations (integer-float multiplications) caused by the structure of their residual connection. These non-spike computations increase SNNs' power consumption and make them unsuitable for deployment on mainstream neuromorphic hardware, which only supports spike operations. In this paper, we propose a hardware-friendly spike-driven residual learning architecture for SNNs to avoid non-spike computations. Based on this residual design, we develop Spikingformer, a pure transformer-based spiking neural network. We evaluate Spikingformer on ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS and DVS128 Gesture datasets, and demonstrated that Spikingformer outperforms the state-of-the-art in directly trained pure SNNs as a novel advanced backbone (74.79$\%$ top-1 accuracy on ImageNet, + 1.41$\%$ compared with Spikformer). Furthermore, our experiments verify that Spikingformer effectively avoids non-spike computations and reduces energy consumption by 60.34$\%$ compared with Spikformer on ImageNet. To our best knowledge, this is the first time that a pure event-driven transformer-based SNN has been developed.
翻訳日:2023-04-25 15:31:28 公開日:2023-04-24
# 幾何学的関係埋め込み:調査

Geometric Relational Embeddings: A Survey ( http://arxiv.org/abs/2304.11949v1 )

ライセンス: Link先を確認
Bo Xiong, Mojtaba Nayyeri, Ming Jin, Yunjie He, Michael Cochez, Shirui Pan, Steffen Staab(参考訳) 幾何学的リレーショナル埋め込みは、機械学習に適したベクトル情報と構造的/関係的推論のための構造化/関係的情報を組み合わせた幾何学的オブジェクトとしてマッピングする。 それらの関係構造の保存とその魅力と解釈性は、知識グラフの完成、オントロジーと階層的推論、論理的クエリ応答、階層的マルチラベル分類といったタスクの獲得につながった。 幾何的関係埋め込みを下方から調査し,それに基づいて分類する。 (i)データを表わすのに使用される埋め込みジオメトリ、 (ii)改善を目指す関係推論タスク。 埋め込みの各種類の所望の特性(すなわち帰納バイアス)を特定し、潜在的な将来の研究について議論する。

Geometric relational embeddings map relational data as geometric objects that combine vector information suitable for machine learning and structured/relational information for structured/relational reasoning, typically in low dimensions. Their preservation of relational structures and their appealing properties and interpretability have led to their uptake for tasks such as knowledge graph completion, ontology and hierarchy reasoning, logical query answering, and hierarchical multi-label classification. We survey methods that underly geometric relational embeddings and categorize them based on (i) the embedding geometries that are used to represent the data; and (ii) the relational reasoning tasks that they aim to improve. We identify the desired properties (i.e., inductive biases) of each kind of embedding and discuss some potential future work.
翻訳日:2023-04-25 15:30:53 公開日:2023-04-24
# 効率的な高密度検索のための木質指標の構築

Constructing Tree-based Index for Efficient and Effective Dense Retrieval ( http://arxiv.org/abs/2304.11943v1 )

ライセンス: Link先を確認
Haitao Li, Qingyao Ai, Jingtao Zhan, Jiaxin Mao, Yiqun Liu, Zheng Liu, Zhao Cao(参考訳) 近年の研究では、Dense Retrieval(DR)技術はIRシステムにおける第1段階検索の性能を大幅に向上させることができることが示されている。 実験的な効果にもかかわらず、DRの応用はまだ限られている。 高効率な逆インデックスソリューションに依存する統計検索モデルとは対照的に、DRモデルは既存のほとんどの検索インデックスシステムで事前処理が難しい密な埋め込みを構築する。 ブルートフォース探索の費用のかかるコストを避けるため、近似近接近傍(ann)アルゴリズムと対応するインデックスは、drモデルの推論プロセスを高速化するために広く適用されている。 残念なことに、ANNはDRモデルの効率を改善することができるが、通常、検索性能にかなりの価格がつく。 この問題を解決するために,TRee ベースのインデックスとクエリエンコーディングの協調最適化のための JTR を提案する。 具体的には、木ベースのインデックスとクエリエンコーダをエンドツーエンドでトレーニングするために、新しい統合コントラスト学習損失を設計する。 木を最大ヒープ特性にするために木に基づく負のサンプリング戦略が適用され、ビーム探索の有効性が向上した。 さらに,重複クラスタリングを可能にする木ベースのインデックスを更新するために,クラスタ割り当てを最適化問題として扱う。 JTRを多くの検索ベンチマークで評価する。 実験結果から,JTRは広く吸収されたベースラインに比べて高いシステム効率を維持しつつ,検索性能が向上することが示された。 ニューラル検索システム設計における効率性と効率性のバランスをとるための潜在的なソリューションを提供する。

Recent studies have shown that Dense Retrieval (DR) techniques can significantly improve the performance of first-stage retrieval in IR systems. Despite its empirical effectiveness, the application of DR is still limited. In contrast to statistic retrieval models that rely on highly efficient inverted index solutions, DR models build dense embeddings that are difficult to be pre-processed with most existing search indexing systems. To avoid the expensive cost of brute-force search, the Approximate Nearest Neighbor (ANN) algorithm and corresponding indexes are widely applied to speed up the inference process of DR models. Unfortunately, while ANN can improve the efficiency of DR models, it usually comes with a significant price on retrieval performance. To solve this issue, we propose JTR, which stands for Joint optimization of TRee-based index and query encoding. Specifically, we design a new unified contrastive learning loss to train tree-based index and query encoder in an end-to-end manner. The tree-based negative sampling strategy is applied to make the tree have the maximum heap property, which supports the effectiveness of beam search well. Moreover, we treat the cluster assignment as an optimization problem to update the tree-based index that allows overlapped clustering. We evaluate JTR on numerous popular retrieval benchmarks. Experimental results show that JTR achieves better retrieval performance while retaining high system efficiency compared with widely-adopted baselines. It provides a potential solution to balance efficiency and effectiveness in neural retrieval system designs.
翻訳日:2023-04-25 15:30:41 公開日:2023-04-24
# MoniLog: クラウドコンピューティングインフラストラクチャのためのログベースの自動異常検出システム

MoniLog: An Automated Log-Based Anomaly Detection System for Cloud Computing Infrastructures ( http://arxiv.org/abs/2304.11940v1 )

ライセンス: Link先を確認
Arthur Vervaet(参考訳) 今日の大規模システムでは、1つの異常が数百万のユーザに影響を与える可能性がある。 このようなイベントをリアルタイムで検出することは、サービスの品質を維持する上で不可欠です。 監視チームは、障害の影響を予防または軽減することができる。 ログは、実行時に詳細な情報を記録することで、ソフトウェア開発とメンテナンスのコア部分である。 このようなログデータは、ほぼ全てのコンピュータシステムで利用可能である。 これにより、開発者はシステムメンテナだけでなく、異常なイベントを監視および検出することができる。 クラウドコンピューティング企業や大規模オンラインプラットフォームにとって、成長はスケーリングの可能性に関連している。 異常検出プロセスの自動化は、現代のシステムによって生成されるログの量の増加に関する監視能力のスケーラビリティを確保するための有望な方法である。 本稿では,大規模環境におけるリアルタイム異常を検出する分散手法であるMoniLogを紹介する。 マルチソースログストリーム内のシーケンシャルかつ定量的な異常を検出することを目的としている。 MoniLogはログストリームを構成し、異常シーケンスの監視を実行するように設計されている。 出力分類器は、異常の臨界レベルをラベル付けし評価するために管理者のアクションから学習する。

Within today's large-scale systems, one anomaly can impact millions of users. Detecting such events in real-time is essential to maintain the quality of services. It allows the monitoring team to prevent or diminish the impact of a failure. Logs are a core part of software development and maintenance, by recording detailed information at runtime. Such log data are universally available in nearly all computer systems. They enable developers as well as system maintainers to monitor and dissect anomalous events. For Cloud computing companies and large online platforms in general, growth is linked to the scaling potential. Automatizing the anomaly detection process is a promising way to ensure the scalability of monitoring capacities regarding the increasing volume of logs generated by modern systems. In this paper, we will introduce MoniLog, a distributed approach to detect real-time anomalies within large-scale environments. It aims to detect sequential and quantitative anomalies within a multi-source log stream. MoniLog is designed to structure a log stream and perform the monitoring of anomalous sequences. Its output classifier learns from the administrator's actions to label and evaluate the criticality level of anomalies.
翻訳日:2023-04-25 15:30:15 公開日:2023-04-24
# ChatGPTは究極のプログラミングアシスタントか?

Is ChatGPT the Ultimate Programming Assistant -- How far is it? ( http://arxiv.org/abs/2304.11938v1 )

ライセンス: Link先を確認
Haoye Tian, Weiqi Lu, Tsz On Li, Xunzhu Tang, Shing-Chi Cheung, Jacques Klein, Tegawend\'e F. Bissyand\'e(参考訳) 生成型ai技術の最近の進歩はソフトウェア工学に大きな影響を与えており、ai駆動の手法は、記述からのコード合成、プログラムの修復、既存のプログラムの自然言語要約など、一般的な開発者課題に対処している。 OpenAIのCodexのような大規模言語モデル(LLM)は、AI駆動のソフトウェアエンジニアリングでますます採用されている。 もうひとつのllmであるchatgptは、ソースコードの議論、変更の提案、説明の提供、コード生成のためのボットとして、かなりの注目を集めている。 プログラミングアシスタントボットとしてのLCMの実用性を評価するためには,未確認問題や各種タスクにおいて,その性能を検討することが不可欠である。 本稿では,ChatGPTの完全自動プログラミングアシスタントとしての可能性を実証的に分析し,コード生成,プログラム修復,コード要約を重視した。 本研究では,ChatGPTの性能を共通プログラミング問題で評価し,2つのベンチマークを用いて最先端の手法と比較する。 我々の研究は、ChatGPTが典型的なプログラミング課題を効果的に扱うことを示唆している。 包括的な説明は、chatgptの焦点を制限し、その広範な知識を問題解決に活用する能力を妨げる可能性がある。 驚いたことに、ChatGPTの誤ったコードに関する要約は、開発者の元々の意図に関する貴重な洞察を与えてくれる。 この洞察は、オラクル問題に対処する将来の仕事の基礎として機能する。 本研究は,プログラミング支援のためのllmの開発,特にプロンプトエンジニアリングの意義を強調し,chatgptのソフトウェア工学における実用的応用の理解を深める上で,貴重な視点を提供する。

The recent progress in generative AI techniques has significantly influenced software engineering, as AI-driven methods tackle common developer challenges such as code synthesis from descriptions, program repair, and natural language summaries for existing programs. Large-scale language models (LLMs), like OpenAI's Codex, are increasingly adopted in AI-driven software engineering. ChatGPT, another LLM, has gained considerable attention for its potential as a bot for discussing source code, suggesting changes, providing descriptions, and generating code. To evaluate the practicality of LLMs as programming assistant bots, it is essential to examine their performance on unseen problems and various tasks. In our paper, we conduct an empirical analysis of ChatGPT's potential as a fully automated programming assistant, emphasizing code generation, program repair, and code summarization. Our study assesses ChatGPT's performance on common programming problems and compares it to state-of-the-art approaches using two benchmarks. Our research indicates that ChatGPT effectively handles typical programming challenges. However, we also discover the limitations in its attention span: comprehensive descriptions can restrict ChatGPT's focus and impede its ability to utilize its extensive knowledge for problem-solving. Surprisingly, we find that ChatGPT's summary explanations of incorrect code provide valuable insights into the developer's original intentions. This insight can be served as a foundation for future work addressing the oracle problem. Our study offers valuable perspectives on the development of LLMs for programming assistance, specifically by highlighting the significance of prompt engineering and enhancing our comprehension of ChatGPT's practical applications in software engineering.
翻訳日:2023-04-25 15:30:02 公開日:2023-04-24
# 融合型グラフ状態生成のグラフ理論的最適化

Graph-theoretical optimization of fusion-based graph state generation ( http://arxiv.org/abs/2304.11988v1 )

ライセンス: Link先を確認
Seok-Hyung Lee and Hyunseok Jeong(参考訳) グラフ状態は、測定ベースの量子コンピューティングや量子リピータなど、様々な量子情報処理タスクのための汎用的なリソースである。 タイプII融合ゲートは、小さなグラフ状態を組み合わせることで全光学的なグラフ状態の生成を可能にするが、その非決定論的性質は大きなグラフ状態の効率的な生成を妨げる。 本稿では,Python パッケージ OptGraphState とともに,任意のグラフ状態の融合ベースの生成を効果的に最適化するグラフ理論戦略を提案する。 我々の戦略は、対象のグラフ状態を単純化し、融合ネットワークを構築し、融合の順序を決定する3つの段階からなる。 提案手法を用いることで,ランダムグラフとよく知られたグラフの資源オーバーヘッドを評価する。 われわれの戦略とソフトウェアは、フォトニックグラフ状態を用いた実験可能なスキームの開発と評価を支援することを期待している。

Graph states are versatile resources for various quantum information processing tasks, including measurement-based quantum computing and quantum repeaters. Although the type-II fusion gate enables all-optical generation of graph states by combining small graph states, its non-deterministic nature hinders the efficient generation of large graph states. In this work, we present a graph-theoretical strategy to effectively optimize fusion-based generation of any given graph state, along with a Python package OptGraphState. Our strategy comprises three stages: simplifying the target graph state, building a fusion network, and determining the order of fusions. Utilizing this proposed method, we evaluate the resource overheads of random graphs and various well-known graphs. We expect that our strategy and software will assist researchers in developing and assessing experimentally viable schemes that use photonic graph states.
翻訳日:2023-04-25 15:22:32 公開日:2023-04-24
# データフローシステムにおける因果断層定位

Causal fault localisation in dataflow systems ( http://arxiv.org/abs/2304.11987v1 )

ライセンス: Link先を確認
Andrei Paleyes and Neil D. Lawrence(参考訳) データフローコンピューティングは、システム工学の複数のニッチに多大な利点をもたらし、データ駆動アプリケーション開発の汎用パラダイムとなる可能性を秘めている。 データフローコンピューティングの特徴の1つは、システム全体のデータフローグラフへの自然なアクセスである。 近年,これらのデータフローグラフは完全なグラフィカル因果モデルとして扱うことができ,因果推論手法をデータフローシステムに適用する機会が開かれた。 本論文は, 因果断層の局所化に着目した最初の実用的検証を行うことを目的としている。 我々は,最新の3つのデータフローエンジンを備えた複数のシナリオにおいて,因果推論を用いてソフトウェアバグやデータシフトを検出する方法を示す。

Dataflow computing was shown to bring significant benefits to multiple niches of systems engineering and has the potential to become a general-purpose paradigm of choice for data-driven application development. One of the characteristic features of dataflow computing is the natural access to the dataflow graph of the entire system. Recently it has been observed that these dataflow graphs can be treated as complete graphical causal models, opening opportunities to apply causal inference techniques to dataflow systems. In this demonstration paper we aim to provide the first practical validation of this idea with a particular focus on causal fault localisation. We provide multiple demonstrations of how causal inference can be used to detect software bugs and data shifts in multiple scenarios with three modern dataflow engines.
翻訳日:2023-04-25 15:22:19 公開日:2023-04-24
# 自己教師型音声表現モデルを用いたゼロショット音声合成

Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model ( http://arxiv.org/abs/2304.11976v1 )

ライセンス: Link先を確認
Kenichi Fujita, Takanori Ashihara, Hiroki Kanagawa, Takafumi Moriya, Yusuke Ijima(参考訳) 本稿では、自己教師付き学習(SSL)により得られた自己教師型音声表現モデルを用いて、ゼロショット音声合成(TTS)を提案する。 xベクトルやグローバルスタイルのトークンからベクトルを埋め込む従来の手法は、まだ目に見えない話者の話者特性を再現する際のギャップがある。 提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。 また,音響特徴の分離条件と音素長予測器を導入し,リズムに基づく話者特性と音響特徴に基づく音素の組込みについて検討した。 この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が可能となる。 目的的および主観的評価により,提案手法は類似度が向上した音声を合成し,音声リズム伝達を実現することができた。

This paper proposes a zero-shot text-to-speech (TTS) conditioned by a self-supervised speech-representation model acquired through self-supervised learning (SSL). Conventional methods with embedding vectors from x-vector or global style tokens still have a gap in reproducing the speaker characteristics of unseen speakers. A novel point of the proposed method is the direct use of the SSL model to obtain embedding vectors from speech representations trained with a large amount of data. We also introduce the separate conditioning of acoustic features and a phoneme duration predictor to obtain the disentangled embeddings between rhythm-based speaker characteristics and acoustic-feature-based ones. The disentangled embeddings will enable us to achieve better reproduction performance for unseen speakers and rhythm transfer conditioned by different speeches. Objective and subjective evaluations showed that the proposed method can synthesize speech with improved similarity and achieve speech-rhythm transfer.
翻訳日:2023-04-25 15:22:06 公開日:2023-04-24
# MRSN:ビデオ行動検出のためのマルチリレーション支援ネットワーク

MRSN: Multi-Relation Support Network for Video Action Detection ( http://arxiv.org/abs/2304.11975v1 )

ライセンス: Link先を確認
Yin-Dong Zheng, Guo Chen, Minglei Yuan, Tong Lu(参考訳) アクション検出は、時空間と相互作用の関係のモデリングを必要とするビデオ理解タスクである。 現在の手法は通常、アクタ-アクタとアクタ-コンテキストの関係を別々にモデル化し、それらの相補性と相互サポートを無視している。 そこで我々はMRSN(Multi-Relation Support Network)と呼ばれる新しいネットワークを提案する。 MRSNでは、アクター-コンテキスト関係エンコーダ(ACRE)とアクター-アクター関係エンコーダ(AARE)は、アクター-コンテキストとアクター-アクター関係を別々にモデル化する。 次に、RSE(Relation Support Encoder)は、2つの関係の間のサポートを計算し、関係レベル相互作用を実行する。 最後に、リレーショナル・コンセンサス・モジュール(RCM)は、長期関係銀行(LRB)の長期関係と2つの関係を強化し、合意を得る。 実験により,AVA と UCF101-24 の2つの挑戦的ビデオデータセットにおいて,関係関係を個別にモデル化し,関係レベルの相互作用を実行することにより,最先端の成果が得られることを示した。

Action detection is a challenging video understanding task, requiring modeling spatio-temporal and interaction relations. Current methods usually model actor-actor and actor-context relations separately, ignoring their complementarity and mutual support. To solve this problem, we propose a novel network called Multi-Relation Support Network (MRSN). In MRSN, Actor-Context Relation Encoder (ACRE) and Actor-Actor Relation Encoder (AARE) model the actor-context and actor-actor relation separately. Then Relation Support Encoder (RSE) computes the supports between the two relations and performs relation-level interactions. Finally, Relation Consensus Module (RCM) enhances two relations with the long-term relations from the Long-term Relation Bank (LRB) and yields a consensus. Our experiments demonstrate that modeling relations separately and performing relation-level interactions can achieve and outperformer state-of-the-art results on two challenging video datasets: AVA and UCF101-24.
翻訳日:2023-04-25 15:21:51 公開日:2023-04-24
# gsdf:3次元ハンドオブジェクト再構成のための幾何駆動符号付き距離関数

gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction ( http://arxiv.org/abs/2304.11970v1 )

ライセンス: Link先を確認
Zerui Chen, Shizhe Chen, Cordelia Schmid, Ivan Laptev(参考訳) 符号付き距離関数(SDF)は、画像から3次元形状を復元する有望な結果を最近示した魅力的なフレームワークである。 SDFは異なる形状の分解やトポロジーにシームレスに一般化するが、基礎となる3次元幾何学の明確なモデリングは欠如している。 本研究では手の構造を利用してSDFによる形状復元の指導を行う。 特に,単眼のRGB画像から手と操作対象の再構成に対処する。 この目的のために,手と物体のポーズを推定し,これらを用いて3次元再構築のガイドを行う。 より具体的には、ポーズ変換のキネマティック連鎖を予測し、SDFを高調波ハンドポーズと整列する。 形状アライメントによる3次元点の視覚特性を改善し,さらに時間情報を活用して咬合や動きのぼやきに対するロバスト性を高める。 我々は,obman および dexycb ベンチマークの難解性について広範な実験を行い,提案手法の最先端に対する有意な改善を示す。

Signed distance functions (SDFs) is an attractive framework that has recently shown promising results for 3D shape reconstruction from images. SDFs seamlessly generalize to different shape resolutions and topologies but lack explicit modelling of the underlying 3D geometry. In this work, we exploit the hand structure and use it as guidance for SDF-based shape reconstruction. In particular, we address reconstruction of hands and manipulated objects from monocular RGB images. To this end, we estimate poses of hands and objects and use them to guide 3D reconstruction. More specifically, we predict kinematic chains of pose transformations and align SDFs with highly-articulated hand poses. We improve the visual features of 3D points with geometry alignment and further leverage temporal information to enhance the robustness to occlusion and motion blurs. We conduct extensive experiments on the challenging ObMan and DexYCB benchmarks and demonstrate significant improvements of the proposed method over the state of the art.
翻訳日:2023-04-25 15:21:29 公開日:2023-04-24
# 変分オートエンコーダとフロントドア基準による因果効果の推定

Causal Effect Estimation with Variational AutoEncoder and the Front Door Criterion ( http://arxiv.org/abs/2304.11969v1 )

ライセンス: Link先を確認
Ziqi Xu, Debo Cheng, Jiuyong Li, Jixue Liu, Lin Liu, Kui Yu(参考訳) 因果推論における重要な問題は、観測データから因果効果を推定することである。 この問題は、監視されていない共同ファウンダーの存在によってより困難になる。 監視されていない共同創設者がいる場合、一般的に使用されるバックドア調整は適用されない。 計器変数(IV)法は、保存されていない共同創設者に対処できるが、治療が結果に直接影響を与え、治療と結果の間に仲介者が存在しないとみなす。 本稿は,未保存の共同設立者と仲介者の存在下での課題に対処するために,フロントドアの基準を用いることを目的とする。 実際には、データから正面調整に使用する変数の集合を特定することはしばしば困難である。 表現学習における深層生成モデルの能力を生かしたFDVAEを提案し,前庭調整のための変数の集合を探索する代わりに,変分オートエンコーダを用いたフロントドア調整セットの表現を学習する。 合成データセットに関する大規模な実験は、FDVAEの有効性と既存の方法よりも優れていることを検証する。 また、fdvaeの性能は、観察されていない共同創設者の因果強度に敏感ではなく、学習表現と基底真理との次元的ミスマッチの場合には実現可能であることを示した。 さらに,本手法を実世界の3つのデータセットに適用し,その可能性を示す。

An essential problem in causal inference is estimating causal effects from observational data. The problem becomes more challenging with the presence of unobserved confounders. When there are unobserved confounders, the commonly used back-door adjustment is not applicable. Although the instrumental variable (IV) methods can deal with unobserved confounders, they all assume that the treatment directly affects the outcome, and there is no mediator between the treatment and the outcome. This paper aims to use the front-door criterion to address the challenging problem with the presence of unobserved confounders and mediators. In practice, it is often difficult to identify the set of variables used for front-door adjustment from data. By leveraging the ability of deep generative models in representation learning, we propose FDVAE to learn the representation of a Front-Door adjustment set with a Variational AutoEncoder, instead of trying to search for a set of variables for front-door adjustment. Extensive experiments on synthetic datasets validate the effectiveness of FDVAE and its superiority over existing methods. The experiments also show that the performance of FDVAE is not sensitive to the causal strength of unobserved confounders and is feasible in the case of dimensionality mismatch between learned representations and the ground truth. We further apply the method to three real-world datasets to demonstrate its potential applications.
翻訳日:2023-04-25 15:21:14 公開日:2023-04-24
# Segment Anythingがビデオと出会う(動画あり)

Track Anything: Segment Anything Meets Videos ( http://arxiv.org/abs/2304.11968v1 )

ライセンス: Link先を確認
Jinyu Yang, Mingqi Gao, Zhe Li, Shang Gao, Fangjing Wang, Feng Zheng(参考訳) 近年,画像上のセグメンテーション性能により,SAM(Segment Anything Model)が急速に注目されている。 画像のセグメンテーションにおける強い能力と異なるプロンプトによる高い対話性について,ビデオ内の一貫したセグメンテーションでは不十分であることが判明した。 そこで本報告では,ビデオの対話的追跡とセグメンテーションを高速に行うTrack Anything Model (TAM)を提案する。 詳しくは、ビデオシーケンスを考慮すれば、人間の参加はほとんどなく、いくつかのクリックで興味のあるものを追跡でき、ワンパス推論で満足な結果が得られる。 追加のトレーニングがなければ、このようなインタラクティブなデザインは、ビデオオブジェクトのトラッキングとセグメンテーションに素晴らしい効果を発揮する。 すべてのリソースは \url{https://github.com/gaomingqi/Track-Anything} で利用可能である。 この研究が関連研究を促進できることを願っています。

Recently, the Segment Anything Model (SAM) gains lots of attention rapidly due to its impressive segmentation performance on images. Regarding its strong ability on image segmentation and high interactivity with different prompts, we found that it performs poorly on consistent segmentation in videos. Therefore, in this report, we propose Track Anything Model (TAM), which achieves high-performance interactive tracking and segmentation in videos. To be detailed, given a video sequence, only with very little human participation, \textit{i.e.}, several clicks, people can track anything they are interested in, and get satisfactory results in one-pass inference. Without additional training, such an interactive design performs impressively on video object tracking and segmentation. All resources are available on \url{https://github.com/gaomingqi/Track-Anything}. We hope this work can facilitate related research.
翻訳日:2023-04-25 15:20:54 公開日:2023-04-24
# icdar 2023 シールタイトルの読みに関するコンペティション

ICDAR 2023 Competition on Reading the Seal Title ( http://arxiv.org/abs/2304.11966v1 )

ライセンス: Link先を確認
Wenwen Yu, Mingyu Liu, Mingrui Chen, Ning Lu, Yinlong Wen, Yuliang Liu, Dimosthenis Karatzas, Xiang Bai(参考訳) アザラシのタイトルテキストを読むことは、アザラシの形状、湾曲したテキスト、背景雑音、重複したテキストなどによって難しい課題である。 しかし、この重要な要素は、公的・財政的なシナリオでよく見られ、OCR技術の分野では注目に値するものではない。 この分野での研究を促進するために,シールタイトル検出(Task1)とエンド・ツー・エンドシールタイトル認識(Task2)の2つのタスクを含むシールタイトル(ReST)の読解に関するICDAR 2023コンペティションを組織した。 1万の実際のシールデータのデータセットを構築し、最も一般的なシールクラスをカバーし、すべてのシールタイトルテキストにテキストポリゴンとテキストコンテンツのラベルを付けました。 大会は2022年12月30日に開かれ、2023年3月20日に閉幕した。 このコンペには、第1タスクへの28の応募と第2タスクへの25の応募を含む、学界や産業界から53人の参加者が集まった。 本報告では,組織,課題,成果を含む競争の概要について述べる。 データセットとタスクを説明し,提案と評価結果を要約する。 その結果,字幕読解の分野では大きな進展がみられ,この競争がocr技術の重要な分野におけるさらなる研究開発に拍車をかけることを期待している。

Reading seal title text is a challenging task due to the variable shapes of seals, curved text, background noise, and overlapped text. However, this important element is commonly found in official and financial scenarios, and has not received the attention it deserves in the field of OCR technology. To promote research in this area, we organized ICDAR 2023 competition on reading the seal title (ReST), which included two tasks: seal title text detection (Task 1) and end-to-end seal title recognition (Task 2). We constructed a dataset of 10,000 real seal data, covering the most common classes of seals, and labeled all seal title texts with text polygons and text contents. The competition opened on 30th December, 2022 and closed on 20th March, 2023. The competition attracted 53 participants from academia and industry including 28 submissions for Task 1 and 25 submissions for Task 2, which demonstrated significant interest in this challenging task. In this report, we present an overview of the competition, including the organization, challenges, and results. We describe the dataset and tasks, and summarize the submissions and evaluation results. The results show that significant progress has been made in the field of seal title text reading, and we hope that this competition will inspire further research and development in this important area of OCR technology.
翻訳日:2023-04-25 15:20:41 公開日:2023-04-24
# meta ai video similarity challengeの3位ソリューション

3rd Place Solution to Meta AI Video Similarity Challenge ( http://arxiv.org/abs/2304.11964v1 )

ライセンス: Link先を確認
Shuhei Yokoo, Peifei Zhu, Junki Ishikawa, Rintaro Hasegawa(参考訳) 本稿では,ビデオコピーの検出を目的としたコンペティションとして,Descriptor Track and Matching Track of the Meta AI Video similarity Challenge (VSC2022)の3位ソリューションを提案する。 提案手法は既存の画像コピー検出技術に基づいており,ビデオデータの性質を活用するためのいくつかの戦略が組み込まれている。 提案手法を用いることで,ベースライン結果と比較して精度が大幅に向上した(ディスクリプタトラック: 41%改善,マッチングトラック: 76%改善)。 私たちのコードはここで公開されている。 https://github.com/line/meta-ai-video- similarity-challenge-3rd-place-solution

This paper presents our 3rd place solution in both Descriptor Track and Matching Track of the Meta AI Video Similarity Challenge (VSC2022), a competition aimed at detecting video copies. Our approach builds upon existing image copy detection techniques and incorporates several strategies to exploit on the properties of video data, resulting in a simple yet powerful solution. By employing our proposed method, we achieved substantial improvements in accuracy compared to the baseline results (Descriptor Track: 41% improvement, Matching Track: 76% improvement). Our code is publicly available here: https://github.com/line/Meta-AI-Video-Similarity-Challenge-3rd-Place-Solution
翻訳日:2023-04-25 15:20:16 公開日:2023-04-24
# 多様性重みによる生成モデルのモードバランス

Towards Mode Balancing of Generative Models via Diversity Weights ( http://arxiv.org/abs/2304.11961v1 )

ライセンス: Link先を確認
Sebastian Berns, Simon Colton, Christian Guckelsberger(参考訳) 大規模なデータ駆動画像モデルは、創造的および芸術的な作業をサポートするために広く使われている。 現在支配的な分布適合パラダイムの下では、データセットは可能な限り密接に近似される基底真理として扱われる。 しかし、多くのクリエイティブアプリケーションは多様な出力を必要としており、クリエーターは与えられたデータ分布から積極的に分岐しようと努力する。 純モードカバレッジからモードバランスへのモデリング対象の調整は、より高い出力多様性の目標を満たすために必要である、と我々は主張する。 本稿では,トレーニングデータセットのモードのバランスをとることで,モデルの出力多様性を高めるトレーニング手法であるdiversity weightsを提案する。 制御された環境での最初の実験は,本手法の可能性を実証した。 生成機械学習におけるバイアス、公平性、表現に関するより広範な議論の中で、多様性への貢献を文脈的にまとめて結論付ける。

Large data-driven image models are extensively used to support creative and artistic work. Under the currently predominant distribution-fitting paradigm, a dataset is treated as ground truth to be approximated as closely as possible. Yet, many creative applications demand a diverse range of output, and creators often strive to actively diverge from a given data distribution. We argue that an adjustment of modelling objectives, from pure mode coverage towards mode balancing, is necessary to accommodate the goal of higher output diversity. We present diversity weights, a training scheme that increases a model's output diversity by balancing the modes in the training dataset. First experiments in a controlled setting demonstrate the potential of our method. We conclude by contextualising our contribution to diversity within the wider debate on bias, fairness and representation in generative machine learning.
翻訳日:2023-04-25 15:20:03 公開日:2023-04-24
# Fed-BioMed: 実際の医療アプリケーションのためのオープンで透明で信頼できるフェデレーションラーニング

Fed-BioMed: Open, Transparent and Trusted Federated Learning for Real-world Healthcare Applications ( http://arxiv.org/abs/2304.12012v1 )

ライセンス: Link先を確認
Francesco Cremonesi, Marc Vesin, Sergen Cansiz, Yannick Bouillard, Irene Balelli, Lucia Innocenti, Santiago Silva, Samy-Safwan Ayed, Riccardo Taiello, Laetita Kameni, Richard Vidal, Fanny Orlhac, Christophe Nioche, Nathan Lapel, Bastien Houis, Romain Modzelewski, Olivier Humbert, Melek \"Onen, and Marco Lorenzi(参考訳) フェデレーション学習の現実世界の実装は複雑であり、データサイエンス、ソフトウェアプログラミング、ネットワーク、セキュリティなど、さまざまな分野のクロスロードにおける研究開発活動が必要である。 現在、いくつかのFLライブラリがデータサイエンティストやユーザ向けに提案されているが、これらのフレームワークのほとんどは、医療データや病院のインフラを扱うという特定の課題と要求のために、医療ユースケースにおけるシームレスなアプリケーションを見つけるように設計されていない。 さらに、これらのフレームワークのガバナンス、設計原則、セキュリティ仮定は一般的に明確に示されていないため、センシティブなアプリケーションの採用が妨げられている。 医療におけるFLの現在の技術状況に触発されたこの文書では、Fed-BioMedについて紹介する。これは、Fed-BioMedは、Fed-BioMed(Fed-BioMed)を現実の医学研究アプリケーションに翻訳することを目的とした研究・開発イニシアチブである。 設計空間、ターゲットユーザ、ドメイン制約、そしてこれらの要因が我々の現在および将来のソフトウェアアーキテクチャに与える影響について説明する。

The real-world implementation of federated learning is complex and requires research and development actions at the crossroad between different domains ranging from data science, to software programming, networking, and security. While today several FL libraries are proposed to data scientists and users, most of these frameworks are not designed to find seamless application in medical use-cases, due to the specific challenges and requirements of working with medical data and hospital infrastructures. Moreover, governance, design principles, and security assumptions of these frameworks are generally not clearly illustrated, thus preventing the adoption in sensitive applications. Motivated by the current technological landscape of FL in healthcare, in this document we present Fed-BioMed: a research and development initiative aiming at translating federated learning (FL) into real-world medical research applications. We describe our design space, targeted users, domain constraints, and how these factors affect our current and future software architecture.
翻訳日:2023-04-25 15:14:00 公開日:2023-04-24
# トランスフォーマーモデルを用いた統一量子状態トモグラフィとハミルトン学習--量子システムに対する言語翻訳的アプローチ

Unified Quantum State Tomography and Hamiltonian Learning Using Transformer Models: A Language-Translation-Like Approach for Quantum Systems ( http://arxiv.org/abs/2304.12010v1 )

ライセンス: Link先を確認
Zheng An, Jiahui Wu, Muchun Yang, D. L. Zhou, Bei Zeng(参考訳) schr\"odinger's equation は量子系を特徴づける基本的な要素であり、量子状態トモグラフィーとハミルトン学習の両方が量子系の理解と解釈に寄与する。 状態トモグラフィーとハミルトニアンを個別に学習する技術は数多く存在するが、これらの2つの側面を組み合わせる方法が開発されていない。 本研究では, 量子状態トモグラフィとハミルトン学習を効果的に融合するために, トランスフォーマーモデルにおける注意機構を用いた新しい手法を提案する。 トレーニングデータの選択と準備を慎重に行うことで,モデルのアーキテクチャを変更することなく,両方のタスクを統合することにより,量子状態とハミルトニアンの複雑な関係を効果的に学習することができる。 また、単純な2量子ビットの場合からより複雑な2次元反強磁性ハイゼンベルク構造まで、様々な量子系におけるアプローチの有効性を示す。 データ収集プロセスは、状態トモグラフィから始まる一方向生成プロセスのみを必要とするため、合理化される。 さらに,本手法のスケーラビリティと少数ショット学習能力は,量子システムの特徴付けと最適化に必要な資源を最小化する可能性がある。 本研究は、ハミルトニアン構造と量子系の挙動との関係に関する貴重な知見を提供し、量子システムと量子計算および関連する技術のさらなる研究の機会を創出する。

Schr\"odinger's equation serves as a fundamental component in characterizing quantum systems, wherein both quantum state tomography and Hamiltonian learning are instrumental in comprehending and interpreting quantum systems. While numerous techniques exist for carrying out state tomography and learning Hamiltonians individually, no method has been developed to combine these two aspects. In this study, we introduce a new approach that employs the attention mechanism in transformer models to effectively merge quantum state tomography and Hamiltonian learning. By carefully choosing and preparing the training data, our method integrates both tasks without altering the model's architecture, allowing the model to effectively learn the intricate relationships between quantum states and Hamiltonian. We also demonstrate the effectiveness of our approach across various quantum systems, ranging from simple 2-qubit cases to more involved 2D antiferromagnetic Heisenberg structures. The data collection process is streamlined, as it only necessitates a one-way generation process beginning with state tomography. Furthermore, the scalability and few-shot learning capabilities of our method could potentially minimize the resources required for characterizing and optimizing quantum systems. Our research provides valuable insights into the relationship between Hamiltonian structure and quantum system behavior, fostering opportunities for additional studies on quantum systems and the advancement of quantum computation and associated technologies.
翻訳日:2023-04-25 15:13:43 公開日:2023-04-24
# CHEAT: ChatGPT-writtEn AbsTractsを検出する大規模データセット

CHEAT: A Large-scale Dataset for Detecting ChatGPT-writtEn AbsTracts ( http://arxiv.org/abs/2304.12008v1 )

ライセンス: Link先を確認
Peipeng Yu, Jiahan Chen, Xuan Feng, Zhihua Xia(参考訳) ChatGPTの強力な能力は、学術界で広く関心を集めている。 悪意のあるユーザはChatGPTを通じてダミーな学術コンテンツを合成することができる。 ChatGPTで書かれたコンテンツ検出アルゴリズムを開発するためには、大規模なデータセットが必要である。 本稿ではまず,ChatGPTが学界に与える影響について検討し,大規模なCHatGPT-writtEn AbsTractデータセット(CHEAT)を用いて検出アルゴリズムの開発を支援する。 特に、ChatGPTで書かれた抽象データセットは、ジェネレーション、ポーランド、ミックスを代表とする35,304の合成抽象化を含んでいる。 これらのデータに基づいて,既存のテキスト合成検出アルゴリズムの徹底的な解析を行う。 また,チャットgptによる要約は検出可能であり,人間の関与により検出困難度が増加することを示した。

The powerful ability of ChatGPT has caused widespread concern in the academic community. Malicious users could synthesize dummy academic content through ChatGPT, which is extremely harmful to academic rigor and originality. The need to develop ChatGPT-written content detection algorithms call for large-scale datasets. In this paper, we initially investigate the possible negative impact of ChatGPT on academia,and present a large-scale CHatGPT-writtEn AbsTract dataset (CHEAT) to support the development of detection algorithms. In particular, the ChatGPT-written abstract dataset contains 35,304 synthetic abstracts, with Generation, Polish, and Mix as prominent representatives. Based on these data, we perform a thorough analysis of the existing text synthesis detection algorithms. We show that ChatGPT-written abstracts are detectable, while the detection difficulty increases with human involvement.
翻訳日:2023-04-25 15:13:19 公開日:2023-04-24
# BIGハイプアルゴリズムを用いた交通ルーティングのための最適パーソナライズインセンティブの設計

Designing Optimal Personalized Incentive for Traffic Routing using BIG Hype algorithm ( http://arxiv.org/abs/2304.12004v1 )

ライセンス: Link先を確認
Panagiotis D. Grontas, Carlo Cenedese, Marta Fochesato, Giuseppe Belgioioso, John Lygeros, Florian D\"orfler(参考訳) 都市レベルでプラグイン電気自動車や従来型燃料電池を最適にルーティングする問題について検討する。 本モデルでは, 通勤者は, 所要時間から所望の目的地までの所要時間と, 市役所, 駐車場, サービスステーションを利用する費用を最小化することを目的としている。 交通当局は、パーキングチケットのパーソナライズ割引やサービスステーションのエネルギー価格によって、通勤者の好みの経路選択に影響を与えることができる。 都市施設の有限容量とインセンティブ予算により,両レベルで制約が発生する大規模二段階ゲームとして,これらのインセンティブを最適に設計する問題を定式化する。 そこで我々は,最近提案された階層型ゲームのための高次アルゴリズムであるBIG Hypeに基づく収束保証付き効率的な分散解法を開発した。 最後に, anaheimのネットワーク上での数値シミュレーションによるモデル検証を行い, 提案手法が交通渋滞の観点で合理的な結果をもたらすことを示し, 48000変数以上, 110000制約を満たした数分で解くことができることを示した。

We study the problem of optimally routing plug-in electric and conventional fuel vehicles on a city level. In our model, commuters selfishly aim to minimize a local cost that combines travel time, from a fixed origin to a desired destination, and the monetary cost of using city facilities, parking or service stations. The traffic authority can influence the commuters' preferred routing choice by means of personalized discounts on parking tickets and on the energy price at service stations. We formalize the problem of designing these monetary incentives optimally as a large-scale bilevel game, where constraints arise at both levels due to the finite capacities of city facilities and incentives budget. Then, we develop an efficient decentralized solution scheme with convergence guarantees based on BIG Hype, a recently-proposed hypergradient-based algorithm for hierarchical games. Finally, we validate our model via numerical simulations over the Anaheim's network, and show that the proposed approach produces sensible results in terms of traffic decongestion and it is able to solve in minutes problems with more than 48000 variables and 110000 constraints.
翻訳日:2023-04-25 15:13:07 公開日:2023-04-24
# 糖尿病性足の潰瘍グランドチャレンジ2022の概要

Diabetic Foot Ulcer Grand Challenge 2022 Summary ( http://arxiv.org/abs/2304.12001v1 )

ライセンス: Link先を確認
Connah Kendrick, Bill Cassidy, Neil D. Reeves, Joseph M. Pappachan, Claire O'Shea, Vishnu Chandrabalan, Moi Hoon Yap(参考訳) 2022年の糖尿病性足潰瘍チャレンジでは、糖尿病性足潰瘍セグメンテーションの課題に焦点が当てられた。 この課題は,全眼的足部潰瘍像の4000画像と,それに対応する潰瘍領域の描出を示した。 本稿では,課題の概要,課題参加者が提案した手法の概要,各手法から得られた結果,課題結果の比較について述べる。 最高性能のネットワークは改良型のHarDNet-MSEGで、Diceスコアは0.7287である。

The Diabetic Foot Ulcer Challenge 2022 focused on the task of diabetic foot ulcer segmentation, based on the work completed in previous DFU challenges. The challenge provided 4000 images of full-view foot ulcer images together with corresponding delineation of ulcer regions. This paper provides an overview of the challenge, a summary of the methods proposed by the challenge participants, the results obtained from each technique, and a comparison of the challenge results. The best-performing network was a modified HarDNet-MSEG, with a Dice score of 0.7287.
翻訳日:2023-04-25 15:12:45 公開日:2023-04-24
# 構造情報原理に基づく階層的状態抽象化

Hierarchical State Abstraction Based on Structural Information Principles ( http://arxiv.org/abs/2304.12000v1 )

ライセンス: Link先を確認
Xianghua Zeng, Hao Peng, Angsheng Li, Chunyang Liu, Lifang He, Philip S. Yu(参考訳) 状態抽象化は、豊かな観察を伴う強化学習において無関係な環境情報を無視して意思決定を最適化する。 それにもかかわらず、近年のアプローチでは、適切な表現能力に焦点が当てられ、重要な情報損失をもたらし、課題タスクのパフォーマンスに影響を与えている。 本稿では,情報理論の観点から,新しい数学的構造情報原理に基づく状態抽象化フレームワークであるsisaを提案する。 具体的には、手動の補助を必要としない教師なし適応階層的状態クラスタリング法を示し、一方、最適な符号化木を生成する。 各非ルート木ノード上では,階層的状態抽象化を実現するために,新しい集約関数と条件構造エントロピーが設計され,状態抽象化におけるサンプリングによる本質的情報損失を補償する。 視覚グリッドワールド領域と6つの連続制御ベンチマークに関する実証的な評価は、5つのSOTA状態抽象化アプローチと比較して、SISAは平均エピソード報酬とサンプル効率をそれぞれ18.98と44.44%に改善していることを示している。 さらに,SISAは様々な表現学習目標と柔軟に統合し,パフォーマンスをさらに向上する汎用フレームワークであることを実験的に示す。

State abstraction optimizes decision-making by ignoring irrelevant environmental information in reinforcement learning with rich observations. Nevertheless, recent approaches focus on adequate representational capacities resulting in essential information loss, affecting their performances on challenging tasks. In this article, we propose a novel mathematical Structural Information principles-based State Abstraction framework, namely SISA, from the information-theoretic perspective. Specifically, an unsupervised, adaptive hierarchical state clustering method without requiring manual assistance is presented, and meanwhile, an optimal encoding tree is generated. On each non-root tree node, a new aggregation function and condition structural entropy are designed to achieve hierarchical state abstraction and compensate for sampling-induced essential information loss in state abstraction. Empirical evaluations on a visual gridworld domain and six continuous control benchmarks demonstrate that, compared with five SOTA state abstraction approaches, SISA significantly improves mean episode reward and sample efficiency up to 18.98 and 44.44%, respectively. Besides, we experimentally show that SISA is a general framework that can be flexibly integrated with different representation-learning objectives to improve their performances further.
翻訳日:2023-04-25 15:12:37 公開日:2023-04-24
# 複数の単一光子の時間と周波数を直接測定したハイゼンベルク限界付近の高速分光計

Fast spectrometer near the Heisenberg limit with direct measurement of time and frequency for multiple single photons ( http://arxiv.org/abs/2304.11999v1 )

ライセンス: Link先を確認
Jakub Jirsa, Sergei Kulkov, Raphael A. Abrahao, Jesse Crawford, Aaron Mueninghoff, Ermanno Bernasconi, Claudio Bruschini, Samuel Burri, Stephen Vintskevich, Michal Marcisovsky, Edoardo Charbon and Andrei Nomerotski(参考訳) 我々は、0.04nmのスペクトルと40psの時間分解能を持つ512個の単光子アバランシェダイオードの線形アレイに基づく単光子感度分光計を提案する。 我々は、同時単一光子の時間と周波数を直接測定できる高速なデータ駆動演算を用いる。 優れた時間分解能とスペクトル分解能を組み合わせることで、実験装置の単純さにもかかわらず、hbar/2 の Heisenberg Uncertainty Principle limit よりも10倍高い値となる。 この研究は量子フォトニクスにおける多くの応用、特に単一光子のスペクトル特性と時間特性の両方を利用した場合に開放される。

We present a single-photon-sensitive spectrometer, based on a linear array of 512 single-photon avalanche diodes, with 0.04 nm spectral and 40 ps temporal resolutions. We employ a fast data-driven operation that allows direct measurement of time and frequency for simultaneous single photons. Combining excellent temporal and spectral resolution, our result is only a factor of ten above the Heisenberg Uncertainty Principle limit of hbar/2 for energy and time, despite the simplicity of our experimental setup. This work opens numerous applications in quantum photonics, especially when both spectral and temporal properties of single photons are exploited.
翻訳日:2023-04-25 15:12:15 公開日:2023-04-24
# 2次元 $\pm J$ Ising モデルの非平衡臨界ダイナミクス

Nonequilibrium critical dynamics of the bi-dimensional $\pm J$ Ising model ( http://arxiv.org/abs/2304.11997v1 )

ライセンス: Link先を確認
Ramgopal Agrawal, Leticia F. Cugliandolo, Lara Faoro, Lev B. Ioffe, and Marco Picco(参考訳) $\pm J$ Ising モデルは単純なフラストレーションのスピンモデルであり、交換結合は独立に確率$p$の離散値 $-J$ と確率$-p$の $+J$ を取る。 量子誤り訂正符号との接続により特に魅力的である。 本稿では,二次元$\pm j$ isingモデルの非平衡臨界挙動を,初期条件の異なる点から常磁性強磁性(pf)遷移線上の臨界点$t_c(p)$へのクエンチ後の非平衡臨界挙動,特に,多臨界西森点(np)以下について検討する。 動的臨界指数 $z_c$ は、NP の反発的固定点による漸近前特徴として同定される NP の上下のクエンチの非普遍的挙動を示すようである。 一方、NPに直接クエンチすると、このダイナミクスは、z_c \simeq 6.02(6)$で漸近状態に達する。 また、臨界ダイナミクス中に(スピンサインのように)幾何学的なスピンクラスターを考える。 PFライン上の各普遍性クラスは、対応するパラメータ $\kappa$ を持つ確率ローナー進化(SLE)によって特徴付けられる。 さらに, パラ磁性相からの臨界クエンチに対しては, フラストレーションによらず, 大規模スケールにおいて創発的な臨界パーコレーショントポロジーを示す。

The $\pm J$ Ising model is a simple frustrated spin model, where the exchange couplings independently take the discrete value $-J$ with probability $p$ and $+J$ with probability $1-p$. It is especially appealing due to its connection to quantum error correcting codes. Here, we investigate the nonequilibrium critical behavior of the bi-dimensional $\pm J$ Ising model, after a quench from different initial conditions to a critical point $T_c(p)$ on the paramagnetic-ferromagnetic (PF) transition line, especially, above, below and at the multicritical Nishimori point (NP). The dynamical critical exponent $z_c$ seems to exhibit non-universal behavior for quenches above and below the NP, which is identified as a pre-asymptotic feature due to the repulsive fixed point at the NP. Whereas, for a quench directly to the NP, the dynamics reaches the asymptotic regime with $z_c \simeq 6.02(6)$. We also consider the geometrical spin clusters (of like spin signs) during the critical dynamics. Each universality class on the PF line is uniquely characterized by the stochastic Loewner evolution (SLE) with corresponding parameter $\kappa$. Moreover, for the critical quenches from the paramagnetic phase, the model, irrespective of the frustration, exhibits an emergent critical percolation topology at the large length scales.
翻訳日:2023-04-25 15:12:01 公開日:2023-04-24
# MMC:テキスト記述を用いた画像のマルチモーダルカラー化

MMC: Multi-Modal Colorization of Images using Textual Descriptions ( http://arxiv.org/abs/2304.11993v1 )

ライセンス: Link先を確認
Subhankar Ghosh, Prasun Roy, Saumik Bhattacharya, Umapada Pal, and Michael Blumenstein(参考訳) 異なる色でさまざまなオブジェクトを扱うことは、画像のカラー化技術にとって大きな課題である。 したがって、複雑な現実世界のシーンでは、既存のカラー化アルゴリズムは色の一貫性を保たないことが多い。 本研究では,カラー化されるグレースケール画像とともに,補助条件としてテキスト記述を統合することにより,カラー化プロセスの忠実性を向上させる。 そこで我々は,2つの入力(grayscale imageと各エンコードされたテキスト記述)を取り込んで,関連する色成分の予測を試みるディープネットワークを提案する。 また、画像内の各オブジェクトを予測し、それぞれの記述で色付けし、それぞれの属性を色化プロセスに組み込む。 その後、融合モデルがすべての画像オブジェクト(セグメント)を融合して最終的な色付け画像を生成する。 各テキスト記述には画像に存在するオブジェクトの色情報が含まれているため、テキストエンコーディングは予測された色の全体的な品質を改善するのに役立つ。 提案手法は,LPIPS,PSNR,SSIMの指標を用いて,既存のカラー化手法よりも優れた性能を示す。

Handling various objects with different colors is a significant challenge for image colorization techniques. Thus, for complex real-world scenes, the existing image colorization algorithms often fail to maintain color consistency. In this work, we attempt to integrate textual descriptions as an auxiliary condition, along with the grayscale image that is to be colorized, to improve the fidelity of the colorization process. To do so, we have proposed a deep network that takes two inputs (grayscale image and the respective encoded text description) and tries to predict the relevant color components. Also, we have predicted each object in the image and have colorized them with their individual description to incorporate their specific attributes in the colorization process. After that, a fusion model fuses all the image objects (segments) to generate the final colorized image. As the respective textual descriptions contain color information of the objects present in the image, text encoding helps to improve the overall quality of predicted colors. In terms of performance, the proposed method outperforms existing colorization techniques in terms of LPIPS, PSNR and SSIM metrics.
翻訳日:2023-04-25 15:11:36 公開日:2023-04-24
# グラフ上の報酬指向アクティブラーニングのための生成フローネットワーク

Generative Flow Networks for Precise Reward-Oriented Active Learning on Graphs ( http://arxiv.org/abs/2304.11989v1 )

ライセンス: Link先を確認
Yinchuan Li, Zhigang Li, Wenqian Li, Yunfeng Shao, Yan Zheng and Jianye Hao(参考訳) 多くのスコアベースのアクティブラーニング手法がグラフ構造化データに適用され、ラベル数を減らし、予め定義されたスコア関数に基づいたグラフニューラルネットワークの性能向上を目指している。 しかし,これらのアルゴリズムは報酬に比例し,限られた探索能力を有する政策分布の学習に苦慮している。 本稿では,グラフ能動学習問題を生成過程として,GFlowGNN(G FlowGNN)を革新的に定式化した。 さらに,生成フローネットワークに基づくグラフを効率的にモデル化するためのフローノードとフロー特徴の概念を提案し,ポリシーネットワークを特別に設計された報酬で訓練する。 実データセットに関する広範囲な実験により、提案手法は、様々な最先端手法よりも優れた探索能力と転送性を有することが示された。

Many score-based active learning methods have been successfully applied to graph-structured data, aiming to reduce the number of labels and achieve better performance of graph neural networks based on predefined score functions. However, these algorithms struggle to learn policy distributions that are proportional to rewards and have limited exploration capabilities. In this paper, we innovatively formulate the graph active learning problem as a generative process, named GFlowGNN, which generates various samples through sequential actions with probabilities precisely proportional to a predefined reward function. Furthermore, we propose the concept of flow nodes and flow features to efficiently model graphs as flows based on generative flow networks, where the policy network is trained with specially designed rewards. Extensive experiments on real datasets show that the proposed approach has good exploration capability and transferability, outperforming various state-of-the-art methods.
翻訳日:2023-04-25 15:11:20 公開日:2023-04-24
# クロスコンセプト設定における合成画像検出の改善

Improving Synthetically Generated Image Detection in Cross-Concept Settings ( http://arxiv.org/abs/2304.12053v1 )

ライセンス: Link先を確認
Pantelis Dogoulis, Giorgos Kordopatis-Zilos, Ioannis Kompatsiaris, Symeon Papadopoulos(参考訳) 合成画像の検出のための新たな進歩は、生成AIモデルの能力が継続的に進化し、前例のないスケールとスピードで超現実的な合成画像を生み出すため、偽情報と戦うために重要である。 本稿では,人間の顔に検知器を訓練し,合成動物像を検査するなど,さまざまな概念クラスにまたがって一般化することの課題に焦点を当て,生成した画像をランダムにサンプリングしてモデルを訓練する既存のアプローチの非効率性を強調する。 そこで,提案手法では,確率的品質推定モデルに基づいて,その品質スコアに基づいて選択されたリアルな合成画像に対して学習することで,検出器の頑健性を高めることができるという前提に基づくアプローチを提案する。 提案手法は,2つの独創的アーキテクチャ,stylegan2 と latent diffusion から生成した画像を用いて実験を行い,それぞれ3つの異なる概念を用いて,概念横断的一般化能力を測定することにより,その効果を実証する。 提案手法は, ほぼすべての概念に対して高い検出性能を達成し, 合成画像検出器の全体的な有効性を向上させる。

New advancements for the detection of synthetic images are critical for fighting disinformation, as the capabilities of generative AI models continuously evolve and can lead to hyper-realistic synthetic imagery at unprecedented scale and speed. In this paper, we focus on the challenge of generalizing across different concept classes, e.g., when training a detector on human faces and testing on synthetic animal images - highlighting the ineffectiveness of existing approaches that randomly sample generated images to train their models. By contrast, we propose an approach based on the premise that the robustness of the detector can be enhanced by training it on realistic synthetic images that are selected based on their quality scores according to a probabilistic quality estimation model. We demonstrate the effectiveness of the proposed approach by conducting experiments with generated images from two seminal architectures, StyleGAN2 and Latent Diffusion, and using three different concepts for each, so as to measure the cross-concept generalization ability. Our results show that our quality-based sampling method leads to higher detection performance for nearly all concepts, improving the overall effectiveness of the synthetic image detectors.
翻訳日:2023-04-25 15:05:11 公開日:2023-04-24
# 没入型テレプレゼンスアバターのためのvr顔アニメーション

VR Facial Animation for Immersive Telepresence Avatars ( http://arxiv.org/abs/2304.12051v1 )

ライセンス: Link先を確認
Andre Rochow, Max Schwarz, Michael Schreiber, Sven Behnke(参考訳) VRヘッドセットが装着されている場合でも、顔の鮮明な視界を必要とするアプリケーションには、VR顔アニメーションが必要である。 本稿では,ロボットアバターシステムを制御する操作者の顔をアニメーション化することを目的とする。 特定の演算子に非常に高速に適応したリアルタイムなパイプラインを提案する。 簡単な登録ステップで、重要なオペレータ固有の外観情報を含むvrヘッドセットなしでオペレータからのソースイメージのシーケンスをキャプチャする。 推測の際には,マウスカメラと2台のアイカメラから抽出した操作者キーポイント情報を用いて,対象の表情と頭部ポーズを推定し,ソース静止画像の外観をマッピングする。 口頭表現精度を向上させるため,キャプチャしたシーケンスから補助表現フレームを動的に選択する。 この選択は、現在の口のキーポイントをソースカメラ空間に変換することを学び、アライメントを正確に決定することができる。 さらに,1分未満でトレーニング可能なアイトラッキングパイプライン,完全な顔のみを含むデータセットを与えられたパイプライン全体のトレーニングに要する時間効率のよい方法を示し,本手法による模範的な結果を示し,anaアバターxprizeセミファイナルにおけるパフォーマンスについて議論する。

VR Facial Animation is necessary in applications requiring clear view of the face, even though a VR headset is worn. In our case, we aim to animate the face of an operator who is controlling our robotic avatar system. We propose a real-time capable pipeline with very fast adaptation for specific operators. In a quick enrollment step, we capture a sequence of source images from the operator without the VR headset which contain all the important operator-specific appearance information. During inference, we then use the operator keypoint information extracted from a mouth camera and two eye cameras to estimate the target expression and head pose, to which we map the appearance of a source still image. In order to enhance the mouth expression accuracy, we dynamically select an auxiliary expression frame from the captured sequence. This selection is done by learning to transform the current mouth keypoints into the source camera space, where the alignment can be determined accurately. We, furthermore, demonstrate an eye tracking pipeline that can be trained in less than a minute, a time efficient way to train the whole pipeline given a dataset that includes only complete faces, show exemplary results generated by our method, and discuss performance at the ANA Avatar XPRIZE semifinals.
翻訳日:2023-04-25 15:04:49 公開日:2023-04-24
# MixPro: MaskMixによるデータ拡張とビジョントランスのためのプログレッシブアテンションラベリング

MixPro: Data Augmentation with MaskMix and Progressive Attention Labeling for Vision Transformer ( http://arxiv.org/abs/2304.12043v1 )

ライセンス: Link先を確認
Qihao Zhao and Yangyu Huang and Wei Hu and Fan Zhang and Jun Liu(参考訳) 最近提案されたデータ拡張TransMixは、視覚変換器(ViT)の堅牢性と性能向上を支援するためにアテンションラベルを使用している。 しかし、TransMixには2つの側面がある。 1)TransMixの画像トリミング法は視覚変換器には適さない可能性がある。 2)トレーニングの初期段階では,モデルは信頼できない注意マップを生成する。 TransMixは信頼できないアテンションマップを使用して、モデルに影響を与える可能性のある混合アテンションラベルを計算する。 上記の課題に対処するため,画像空間とラベル空間におけるMaskMixとProgressive Attention Labeling(PAL)を提案する。 詳細は、画像空間の観点から、パッチのようなグリッドマスクに基づく2つの画像の混合であるMaskMixを設計する。 特に、各マスクパッチのサイズは調整可能であり、画像パッチサイズの倍である。 ラベル空間の観点からPALを設計し, 混合注目ラベルの注意重みを動的に重み付けするプログレッシブファクターを設計する。 最後に、MaskMixとProgressive Attention LabelingをMixProという新しいデータ拡張メソッドとして組み合わせます。 本手法は,画像ネット分類のスケールで様々なvitモデルを改善することができる(deit-tに基づくtop-1精度は300エポック)。 ImageNet上でMixProで事前トレーニングされた後、ViTベースのモデルはセマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションへのより良い転送可能性を示す。 さらに、transmixと比較すると、mixproはいくつかのベンチマークで強い堅牢性を示している。 コードはhttps://github.com/fistyee/mixproでリリースされる。

The recently proposed data augmentation TransMix employs attention labels to help visual transformers (ViT) achieve better robustness and performance. However, TransMix is deficient in two aspects: 1) The image cropping method of TransMix may not be suitable for vision transformer. 2) At the early stage of training, the model produces unreliable attention maps. TransMix uses unreliable attention maps to compute mixed attention labels that can affect the model. To address the aforementioned issues, we propose MaskMix and Progressive Attention Labeling (PAL) in image and label space, respectively. In detail, from the perspective of image space, we design MaskMix, which mixes two images based on a patch-like grid mask. In particular, the size of each mask patch is adjustable and is a multiple of the image patch size, which ensures each image patch comes from only one image and contains more global contents. From the perspective of label space, we design PAL, which utilizes a progressive factor to dynamically re-weight the attention weights of the mixed attention label. Finally, we combine MaskMix and Progressive Attention Labeling as our new data augmentation method, named MixPro. The experimental results show that our method can improve various ViT-based models at scales on ImageNet classification (73.8\% top-1 accuracy based on DeiT-T for 300 epochs). After being pre-trained with MixPro on ImageNet, the ViT-based models also demonstrate better transferability to semantic segmentation, object detection, and instance segmentation. Furthermore, compared to TransMix, MixPro also shows stronger robustness on several benchmarks. The code will be released at https://github.com/fistyee/MixPro.
翻訳日:2023-04-25 15:04:28 公開日:2023-04-24
# 重要ノードのブリッジネス同定によるスキップグラムに基づくノード埋め込みのポストホック説明の生成

Generating Post-hoc Explanations for Skip-gram-based Node Embeddings by Identifying Important Nodes with Bridgeness ( http://arxiv.org/abs/2304.12036v1 )

ライセンス: Link先を確認
Hogun Park and Jennifer Neville(参考訳) ネットワーク内のノード表現学習は、ネットワーク固有の特性と構造を保持しながら、連続ベクトル空間内の関係情報を符号化する重要な機械学習技術である。 近年、Skip-gramモデルからDeepWalk \citep{deepwalk}, LINE \citep{line}, struc2vec \citep{struc2vec}, PTE \citep{pte}, UserItem2vec \citep{wu2020multi}, RWJBG \citep{li2021random} などのノード埋め込み手法が登場し、ノード分類やリンク予測などの下流タスクにおいて、既存の関係モデルよりも優れたパフォーマンスを実現している。 しかし, 埋込法や理論研究が欠如していることから, 埋込法に関するポストホックな説明は難しい問題である。 本稿では,Skip-gramをベースとした埋め込みのグローバルな説明は,スペクトルクラスタを意識した局所摂動下での演算によって得られることを示す。 さらに,学習グラフ埋め込みベクトルに関するトップ$q$大域的説明をより効率的に行うために,グラフェンwgdと呼ばれる新しいグラデーションベース説明法を提案する。 実験により、graph-wgdを用いたスコアによるノードのランキングは、真の \textit{bridgeness}スコアと高い相関性を示す。 また, Graph-wGD が選択したノードレベルのトップ$q は, 5 つの実世界のグラフを用いて選択したノードと比較して, 乱れ時のクラスラベル予測の精度が高く, また, クラスラベル予測の精度も向上している。

Node representation learning in a network is an important machine learning technique for encoding relational information in a continuous vector space while preserving the inherent properties and structures of the network. Recently, \textit{unsupervised} node embedding methods such as DeepWalk \citep{deepwalk}, LINE \citep{line}, struc2vec \citep{struc2vec}, PTE \citep{pte}, UserItem2vec \citep{wu2020multi}, and RWJBG \citep{li2021random} have emerged from the Skip-gram model \citep{word2vec} and perform better performance in several downstream tasks such as node classification and link prediction than the existing relational models. However, providing post-hoc explanations of Skip-gram-based embeddings remains a challenging problem because of the lack of explanation methods and theoretical studies applicable for embeddings. In this paper, we first show that global explanations to the Skip-gram-based embeddings can be found by computing \textit{bridgeness} under a spectral cluster-aware local perturbation. Moreover, a novel gradient-based explanation method, which we call GRAPH-wGD, is proposed that allows the top-$q$ global explanations about learned graph embedding vectors more efficiently. Experiments show that the ranking of nodes by scores using GRAPH-wGD is highly correlated with true \textit{bridgeness} scores. We also observe that the top-$q$ node-level explanations selected by GRAPH-wGD have higher importance scores and produce more changes in class label prediction when perturbed, compared with the nodes selected by recent alternatives, using five real-world graphs.
翻訳日:2023-04-25 15:04:02 公開日:2023-04-24
# GRIG:残像の残像のインペインティング

GRIG: Few-Shot Generative Residual Image Inpainting ( http://arxiv.org/abs/2304.12035v1 )

ライセンス: Link先を確認
Wanglong Lu, Xianta Jiang, Xiaogang Jin, Yong-Liang Yang, Minglun Gong, Tao Wang, Kaijie Shi, and Hanli Zhao(参考訳) イメージインペインティング(image inpainting)とは、画像の欠落した領域を意味的に意味のある内容で埋め込む作業である。 近年,大規模欠落領域の処理が大幅に改善されている。 しかしながら、これらの手法は通常、十分な結果を得るために大規模なトレーニングデータセットを必要とし、少数のサンプルでこれらのモデルをトレーニングする研究は限られている。 そこで本研究では, 高品質な塗装結果を生成する, 新規な少数ショット生成残像塗装法を提案する。 核となるアイデアは、画像レベルおよびパッチレベルの判別器とともに、生成的敵ネットワーク内のグローバル推論のための特徴抽出とトランスフォーマーのために畳み込みニューラルネットワーク(cnns)を組み込んだ反復的残差推論手法を提案することである。 また,忠実なテクスチャと詳細な外観を作り出すために,新しいフォージェリー・パッチ・アドバーサリー・トレーニング戦略を提案する。 広範に評価した結果,本手法は定量的,質的にも従来手法よりも優れていることがわかった。

Image inpainting is the task of filling in missing or masked region of an image with semantically meaningful contents. Recent methods have shown significant improvement in dealing with large-scale missing regions. However, these methods usually require large training datasets to achieve satisfactory results and there has been limited research into training these models on a small number of samples. To address this, we present a novel few-shot generative residual image inpainting method that produces high-quality inpainting results. The core idea is to propose an iterative residual reasoning method that incorporates Convolutional Neural Networks (CNNs) for feature extraction and Transformers for global reasoning within generative adversarial networks, along with image-level and patch-level discriminators. We also propose a novel forgery-patch adversarial training strategy to create faithful textures and detailed appearances. Extensive evaluations show that our method outperforms previous methods on the few-shot image inpainting task, both quantitatively and qualitatively.
翻訳日:2023-04-25 15:03:22 公開日:2023-04-24
# D2NT:高性能深度-Normalトランスレータ

D2NT: A High-Performing Depth-to-Normal Translator ( http://arxiv.org/abs/2304.12031v1 )

ライセンス: Link先を確認
Yi Feng, Bohuan Xue, Ming Liu, Qijun Chen, Rui Fan(参考訳) 表面正常は視覚環境知覚において重要な意味を持ち、リッチな幾何学的情報の源となっている。 しかし、最先端(SoTA)表面の正規推定器(SNE)は、効率と精度の間に不満足なトレードオフがある。 このジレンマを解決するために、まず3次元座標を計算せずに深度画像を表面正規写像に変換する超高速深度-正規変換器(D2NT)を提案する。 次に,勾配畳み込み核を適応的に生成し,深さ勾配推定を改善するdagフィルタを提案する。 最後に,任意の深度〜正規SNEに容易に統合できる表面正規化モジュールを提案し,表面正規化精度を大幅に向上させる。 提案アルゴリズムは,既存の実時間SNEの中で最高の精度を示し,効率と精度のトレードオフを実現する。

Surface normal holds significant importance in visual environmental perception, serving as a source of rich geometric information. However, the state-of-the-art (SoTA) surface normal estimators (SNEs) generally suffer from an unsatisfactory trade-off between efficiency and accuracy. To resolve this dilemma, this paper first presents a superfast depth-to-normal translator (D2NT), which can directly translate depth images into surface normal maps without calculating 3D coordinates. We then propose a discontinuity-aware gradient (DAG) filter, which adaptively generates gradient convolution kernels to improve depth gradient estimation. Finally, we propose a surface normal refinement module that can easily be integrated into any depth-to-normal SNEs, substantially improving the surface normal estimation accuracy. Our proposed algorithm demonstrates the best accuracy among all other existing real-time SNEs and achieves the SoTA trade-off between efficiency and accuracy.
翻訳日:2023-04-25 15:03:01 公開日:2023-04-24
# SocialDial: ソーシャルな対話システムのためのベンチマーク

SocialDial: A Benchmark for Socially-Aware Dialogue Systems ( http://arxiv.org/abs/2304.12026v1 )

ライセンス: Link先を確認
Haolan Zhan and Zhuang Li and Yufei Wang and Linhao Luo and Tao Feng and Xiaoxi Kang and Yuncheng Hua and Lizhen Qu and Lay-Ki Soon and Suraj Sharma and Ingrid Zukerman and Zhaleh Semnani-Azad and Gholamreza Haffari(参考訳) 対話システムは様々なシナリオで広く適用されており、現在ではこれまで以上に強力でユビキタスである。 大規模なニューラルモデルと膨大なデータによって、現在の対話システムは、人生で誰よりも多くの知識にアクセスできる。 しかし、現在の対話システムは人間レベルでは機能しない。 会話エージェントと人間の間の大きなギャップの1つは、社会的規範を認識する能力にある。 社会的に認識された対話システムの開発は資源不足により妨げられている。 本稿では,中国社会文化に基づく最初の社会認識対話コーパスであるsocialdialを提案する。 SocialDialは2つの部分から構成される:2人の話者間の1,563のマルチターン対話と、ChatGPTによって生成された4,870の合成会話である。 人間のコーパスには5つの社会的規範があり、合計14のサブカテゴリがある。 具体的には、社会的関係、文脈、社会的距離、社会的規範を含む社会的要因のアノテーションを含む。 しかし、十分な社会的な対話の収集には費用がかかる。 そこで我々はchatgptのパワーを活用し,オントロジベースの合成データ生成フレームワークを考案する。 このフレームワークは大規模に合成データを生成することができる。 合成対話の品質を確保するために,データ収集中の品質制御機構をいくつか設計する。 最後に,BERTやRoBERTaなどの事前学習モデルを用いて,データセットの評価を行った。 最先端のニューラルモデルに基づく包括的実証結果は、対話システムのための社会規範のモデリングが有望な研究方向であることを示している。 私たちの知る限りでは、socialdialは、複数の社会的要因をカバーし、きめ細かいラベルを持つ、社会的に認識された最初の対話データセットです。

Dialogue systems have been widely applied in many scenarios and are now more powerful and ubiquitous than ever before. With large neural models and massive available data, current dialogue systems have access to more knowledge than any people in their life. However, current dialogue systems still do not perform at a human level. One major gap between conversational agents and humans lies in their abilities to be aware of social norms. The development of socially-aware dialogue systems is impeded due to the lack of resources. In this paper, we present the first socially-aware dialogue corpus - SocialDial, based on Chinese social culture. SocialDial consists of two parts: 1,563 multi-turn dialogues between two human speakers with fine-grained labels, and 4,870 synthetic conversations generated by ChatGPT. The human corpus covers five categories of social norms, which have 14 sub-categories in total. Specifically, it contains social factor annotations including social relation, context, social distance, and social norms. However, collecting sufficient socially-aware dialogues is costly. Thus, we harness the power of ChatGPT and devise an ontology-based synthetic data generation framework. This framework is able to generate synthetic data at scale. To ensure the quality of synthetic dialogues, we design several mechanisms for quality control during data collection. Finally, we evaluate our dataset using several pre-trained models, such as BERT and RoBERTa. Comprehensive empirical results based on state-of-the-art neural models demonstrate that modeling of social norms for dialogue systems is a promising research direction. To the best of our knowledge, SocialDial is the first socially-aware dialogue dataset that covers multiple social factors and has fine-grained labels.
翻訳日:2023-04-25 15:02:46 公開日:2023-04-24
# 量子宇宙論における非特異経路の和

Summing over Non-singular Paths in Quantum Cosmology ( http://arxiv.org/abs/2304.12024v1 )

ライセンス: Link先を確認
Hiroki Matsui(参考訳) 本稿では,量子重力の経路積分定式化を用いた量子宇宙論におけるデウィットプロパゲータとその波動関数について述べる。 デウィット境界条件は、宇宙の波動関数がビッグバンの近くで消えることを示すことによってビッグバン特異点を避ける方法として導入された。 しかし、経路積分の定式化において、DeWitt境界条件の明確な定義は存在しない。 この問題に対処するために、無限ポテンシャルの禁じられた領域の特異経路を排除し、パス積分のBatalin-Fradkin-Vilkoviskyの定式化とPicard-Lefschetz理論に基づく量子宇宙論にこの手法を適用する。 画像法の有効性について検討し、具体的には、この手法はポテンシャルが境界に関して対称性を示す場合にのみ適切であることを示す。 次に,画像法から導出したデウィット伝播関数とデウィット波動関数は,量子宇宙論の特定のモデルに対するウィーラー・デウィット方程式の解と一致することを示す。

In this paper, we provide the DeWitt propagator and its wave function in quantum cosmology using the path integral formulation of quantum gravity. The DeWitt boundary condition is introduced as a way of avoiding the Big Bang singularity by positing that the wave function of the universe vanishes near the Big Bang. However, there is currently no clear definition of the DeWitt boundary condition in the path integral formulation. To address this issue, we employ the image method, which eliminates singular paths in the forbidden region of an infinite potential and apply this method to quantum cosmology based on the Batalin-Fradkin-Vilkovisky formulation of the path integral and Picard-Lefschetz theory. We investigate the validity of the image method, and specifically, find that this method is appropriate only when the potential exhibits symmetry with respect to the boundary. Then, we show that the DeWitt propagator and the DeWitt wave function derived the image method are consistent with solutions of the Wheeler-DeWitt equation for specific models of quantum cosmology.
翻訳日:2023-04-25 15:02:23 公開日:2023-04-24
# 空間選択的深部非線形フィルタを用いたマルチチャネル音声分離

Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters ( http://arxiv.org/abs/2304.12023v1 )

ライセンス: Link先を確認
Kristina Tesch and Timo Gerkmann(参考訳) 複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。 音声信号の異なるスペクトル時間特性に依存する単一チャネルアプローチとは対照的に、特に音源数が増えると、複数のチャネルアプローチは音源の異なる空間的位置をより強力な分離のために利用すべきである。 マルチチャネルソース分離シナリオにおける空間処理を強化するため,本研究では,対象方向の繰り返しニューラルネットワーク層を初期化することにより,空間的にステアリングして興味のある話者を抽出できるディープニューラルネットワーク(DNN)に基づく空間選択的フィルタ(SSF)を提案する。 提案したSSFと、空間フィルタリングのみを暗黙的に学習する発話単位の置換不変トレーニング(PIT)を用いて訓練された共通エンドツーエンド直接分離(DS)アプローチを比較した。 SSF は,2人以上の話者が混在している場合,同じネットワークアーキテクチャを持つ DS アプローチに対して明らかな優位性を持つことを示す。 さらに、SSFはトレーニング中に見られなかった付加的なノイズ源に対して、はるかに良く一般化していることがわかった。

In a multi-channel separation task with multiple speakers, we aim to recover all individual speech signals from the mixture. In contrast to single-channel approaches, which rely on the different spectro-temporal characteristics of the speech signals, multi-channel approaches should additionally utilize the different spatial locations of the sources for a more powerful separation especially when the number of sources increases. To enhance the spatial processing in a multi-channel source separation scenario, in this work, we propose a deep neural network (DNN) based spatially selective filter (SSF) that can be spatially steered to extract the speaker of interest by initializing a recurrent neural network layer with the target direction. We compare the proposed SSF with a common end-to-end direct separation (DS) approach trained using utterance-wise permutation invariant training (PIT), which only implicitly learns to perform spatial filtering. We show that the SSF has a clear advantage over a DS approach with the same underlying network architecture when there are more than two speakers in the mixture, which can be attributed to a better use of the spatial information. Furthermore, we find that the SSF generalizes much better to additional noise sources that were not seen during training.
翻訳日:2023-04-25 15:01:58 公開日:2023-04-24
# 古典計画としての量子回路の最適レイアウト合成

Optimal Layout Synthesis for Quantum Circuits as Classical Planning ( http://arxiv.org/abs/2304.12014v1 )

ライセンス: Link先を確認
Irfansha Shaik and Jaco van de Pol(参考訳) レイアウト合成において、量子回路の論理量子ビットは、与えられた量子ハードウェアプラットフォームの物理量子ビットにマッピングされ、物理量子ビットの接続性を考慮する。 これは、操作が遠いキュービットに適用される前にSWAPゲートを挿入することを含む。 SWAPゲートの数の最小化は、量子回路を実行する際のエラー率を直接緩和する。 近年,スワップ挿入を最小化する手法がいくつか提案されている。 提案した正確なアプローチは、少数の量子ビットにしかスケールできない。 スワップ挿入が最適であることを証明することは、近似最適写像を生成するよりもはるかに難しい。 本稿では,古典的計画問題として最適レイアウト合成のための2つの符号化を提案する。 最適な古典的プランナーを用いて標準ベンチマークの最適レイアウトを合成する。 その結果,これまでの先行アプローチと比較して,アプローチのスケーラビリティが示された。 7量子ビットの回路を16量子ビットのプラットフォームに最適にマッピングできるが、正確な方法では処理できなかった。

In Layout Synthesis, the logical qubits of a quantum circuit are mapped to the physical qubits of a given quantum hardware platform, taking into account the connectivity of physical qubits. This involves inserting SWAP gates before an operation is applied on distant qubits. Optimal Layout Synthesis is crucial for practical Quantum Computing on current error-prone hardware: Minimizing the number of SWAP gates directly mitigates the error rates when running quantum circuits. In recent years, several approaches have been proposed for minimizing the required SWAP insertions. The proposed exact approaches can only scale to a small number of qubits. Proving that a number of swap insertions is optimal is much harder than producing near optimal mappings. In this paper, we provide two encodings for Optimal Layout Synthesis as a classical planning problem. We use optimal classical planners to synthesize the optimal layout for a standard set of benchmarks. Our results show the scalability of our approach compared to previous leading approaches. We can optimally map circuits with 7 qubits onto a 16 qubit platform, which could not be handled before by exact methods.
翻訳日:2023-04-25 15:01:20 公開日:2023-04-24
# ComGAN:複数のサンプルをデプロイするGANに向けて

ComGAN: Toward GANs Exploiting Multiple Samples ( http://arxiv.org/abs/2304.12098v1 )

ライセンス: Link先を確認
Haeone Lee(参考訳) 本稿では,比較サンプル(実データなど)のセマンティクスを比較で参照できるComGAN(ComparativeGAN)を提案する。 ComGAN は任意のアーキテクチャを用いて相対論的 GAN を一般化し、単純な入力結合アーキテクチャでは相対論的 GAN よりも優れる。 また,comganにおける判別子を訓練するために,同等の実または偽のサンプルに対して,識別子を中立ラベルに適合させる等式正規化を提案する。 平等正則化は、既存の正則化と比較して非常に単純でありながら、WGANを含むComGANの性能を著しく向上させる。 最後に,相対論的ganにおける実データに対する比較サンプルを一般化し,その目的が理論と実践の両方において健全であることを示す。 本実験は, 一般のGANと相対論的GANに対して, 8例中7例中7例で最高のFIDを達成し, 高い性能を示すものである。

In this paper, we propose ComGAN(ComparativeGAN) which allows the generator in GANs to refer to the semantics of comparative samples(e.g. real data) by comparison. ComGAN generalizes relativistic GANs by using arbitrary architecture and mostly outperforms relativistic GANs in simple input-concatenation architecture. To train the discriminator in ComGAN, we also propose equality regularization, which fits the discriminator to a neutral label for equally real or fake samples. Equality regularization highly boosts the performance of ComGAN including WGAN while being exceptionally simple compared to existing regularizations. Finally, we generalize comparative samples fixed to real data in relativistic GANs toward fake data and show that such objectives are sound in both theory and practice. Our experiments demonstrate superior performances of ComGAN and equality regularization, achieving the best FIDs in 7 out of 8 cases of different losses and data against ordinary GANs and relativistic GANs.
翻訳日:2023-04-25 14:55:00 公開日:2023-04-24
# 知識表現と推論による強化学習 : 簡単な調査

Reinforcement Learning with Knowledge Representation and Reasoning: A Brief Survey ( http://arxiv.org/abs/2304.12090v1 )

ライセンス: Link先を確認
Chao Yu, Xuejing Zheng, Hankz Hankui Zhuo, Hai Wan, Weilin Luo(参考訳) 強化学習(RL)は近年,システム一般化の貧弱さ,サンプル効率の低さ,安全性や解釈可能性の問題など,複雑な現実問題に対処する上で大きな障害に直面している。 このようなジレンマの根底にある主な理由は、ほとんどの作業が、報酬、状態、行動などの原子成分を記述する表現モデルを用いて、価値関数やポリシーの計算的な側面に焦点を合わせており、その結果、より高度な宣言的ドメインの知識を無視しているという事実である。 近年,論理言語を用いた知識表現と推論(KRR)手法の利用への関心が急速に高まり,より抽象的な表現とRLの効率的な学習が可能になった。 本稿では,krrの強みを活かしてrlの様々な問題を解決するための取り組みについて予備的な概要を述べるとともに,この分野における今後の課題と今後の課題の方向性について考察する。

Reinforcement Learning(RL) has achieved tremendous development in recent years, but still faces significant obstacles in addressing complex real-life problems due to the issues of poor system generalization, low sample efficiency as well as safety and interpretability concerns. The core reason underlying such dilemmas can be attributed to the fact that most of the work has focused on the computational aspect of value functions or policies using a representational model to describe atomic components of rewards, states and actions etc, thus neglecting the rich high-level declarative domain knowledge of facts, relations and rules that can be either provided a priori or acquired through reasoning over time. Recently, there has been a rapidly growing interest in the use of Knowledge Representation and Reasoning(KRR) methods, usually using logical languages, to enable more abstract representation and efficient learning in RL. In this survey, we provide a preliminary overview on these endeavors that leverage the strengths of KRR to help solving various problems in RL, and discuss the challenging open problems and possible directions for future work in this area.
翻訳日:2023-04-25 14:54:45 公開日:2023-04-24
# ダイナミックスアウェアとリセットフリー学習による物理ロボットの品質・多様性の最適化

Quality-Diversity Optimisation on a Physical Robot Through Dynamics-Aware and Reset-Free Learning ( http://arxiv.org/abs/2304.12080v1 )

ライセンス: Link先を確認
Sim\'on C. Smith, Bryan Lim, Hannah Janmohamed, Antoine Cully(参考訳) QD(Quality-Diversity)のような学習アルゴリズムは、多様なロボティクススキルのレパートリーを取得するために使用できる。 この学習は、多くの評価を必要とするため、コンピュータシミュレーションによって一般的に行われる。 しかし,仮想環境におけるトレーニングはシミュレーションと現実のギャップを生じさせる。 ここでは、リセット自由QD(RF-QD)アルゴリズムを用いて、物理ロボット上でコントローラを直接学習する。 この方法は,ロボットと環境の相互作用から学習したダイナミクスモデルを用いて,ロボットの挙動を予測し,サンプル効率を向上させる。 行動選択ポリシーは、モデルによって予測される不関心または安全でないポリシーをフィルタリングする。 RF-QDには、ロボットが外に出たときに安全なゾーンに戻すリカバリポリシーも含まれている。 本研究では,身体的四足歩行ロボットが人間の監督なしに2時間以内に行動のレパートリーを学習できることを実証する。 我々はmazeナビゲーションタスクを用いてソリューションレパートリーのテストに成功しました。 最後に,MAP-Elitesアルゴリズムとの比較を行った。 最適なアーカイブ生成のための物理ロボットのトレーニングには,動的認識と回復ポリシーが必要であることを示す。 https://youtu.be/BgGNvIsRh7Q

Learning algorithms, like Quality-Diversity (QD), can be used to acquire repertoires of diverse robotics skills. This learning is commonly done via computer simulation due to the large number of evaluations required. However, training in a virtual environment generates a gap between simulation and reality. Here, we build upon the Reset-Free QD (RF-QD) algorithm to learn controllers directly on a physical robot. This method uses a dynamics model, learned from interactions between the robot and the environment, to predict the robot's behaviour and improve sample efficiency. A behaviour selection policy filters out uninteresting or unsafe policies predicted by the model. RF-QD also includes a recovery policy that returns the robot to a safe zone when it has walked outside of it, allowing continuous learning. We demonstrate that our method enables a physical quadruped robot to learn a repertoire of behaviours in two hours without human supervision. We successfully test the solution repertoire using a maze navigation task. Finally, we compare our approach to the MAP-Elites algorithm. We show that dynamics awareness and a recovery policy are required for training on a physical robot for optimal archive generation. Video available at https://youtu.be/BgGNvIsRh7Q
翻訳日:2023-04-25 14:54:24 公開日:2023-04-24
# 条件付き拡散モデルに基づく電力顧客のためのカスタマイズ負荷プロファイル合成

Customized Load Profiles Synthesis for Electricity Customers Based on Conditional Diffusion Models ( http://arxiv.org/abs/2304.12076v1 )

ライセンス: Link先を確認
Zhenyi Wang, Hongcai Zhang(参考訳) 顧客のロードプロファイルは、現代の電力システムでデータ分析アプリケーションをサポートするための重要なリソースである。 しかし、収集コストとデータプライバシの問題のため、データ分析には歴史的負荷プロファイルが不十分であることが多い。 このようなデータ不足問題に対処するために、ロードプロファイル合成は、顧客が高性能なデータ駆動モデルを構築するための合成トレーニングデータを提供する効果的な技術である。 それでも、顧客負荷の多様性が高いため、各顧客データによって訓練された生成モデルを用いて、各顧客に対する高品質な負荷プロファイルを合成することは依然として困難である。 本論文では,異種顧客を対象とした条件付き拡散モデルに基づく新しい負荷プロファイル合成手法を提案する。 具体的には、まず、カスタマイズされた合成を条件付きデータ生成問題に変換する。 次に,従来の拡散モデルを条件拡散モデルに拡張し,条件データ生成を実現し,顧客の負荷特性とアプリケーション要求に応じて,各顧客専用の負荷プロファイルを合成する。 さらに,条件拡散モデルを実装するために,残差層を積み重ねた雑音推定モデルを設計し,スキップ接続を用いて生成性能を向上させる。 また,負荷プロファイルの複雑な時間依存性をよりよく抽出するために注意機構を利用する。 最後に,提案手法の有効性と優位性を検証するために,公開データセットに基づく数値ケーススタディを行った。

Customers' load profiles are critical resources to support data analytics applications in modern power systems. However, there are usually insufficient historical load profiles for data analysis, due to the collection cost and data privacy issues. To address such data shortage problems, load profiles synthesis is an effective technique that provides synthetic training data for customers to build high-performance data-driven models. Nonetheless, it is still challenging to synthesize high-quality load profiles for each customer using generation models trained by the respective customer's data owing to the high heterogeneity of customer load. In this paper, we propose a novel customized load profiles synthesis method based on conditional diffusion models for heterogeneous customers. Specifically, we first convert the customized synthesis into a conditional data generation issue. We then extend traditional diffusion models to conditional diffusion models to realize conditional data generation, which can synthesize exclusive load profiles for each customer according to the customer's load characteristics and application demands. In addition, to implement conditional diffusion models, we design a noise estimation model with stacked residual layers, which improves the generation performance by using skip connections. The attention mechanism is also utilized to better extract the complex temporal dependency of load profiles. Finally, numerical case studies based on a public dataset are conducted to validate the effectiveness and superiority of the proposed method.
翻訳日:2023-04-25 14:54:09 公開日:2023-04-24
# 極厚六方晶窒化ホウ素の光学活性スピン欠陥

Optically-active spin defects in few-layer thick hexagonal boron nitride ( http://arxiv.org/abs/2304.12071v1 )

ライセンス: Link先を確認
A. Durand, T. Clua-Provost, F. Fabre, P. Kumar, J. Li, J. H. Edgar, P. Udvarhelyi, A. Gali, X. Marie, C. Robert, J. M. G\'erard, B. Gil, G. Cassabois, and V. Jacques(参考訳) 六方晶窒化ホウ素(hBN)の光学活性スピン欠陥は、試料に最適に近接する2次元量子センシングユニットの設計に期待できる量子システムである。 本研究は, ホウ素空洞中心(v$__\text{b}^-$)の電子スピン共鳴周波数を, 結晶表面のナノスケールの近接にもかかわらず, 数原子層厚のhbnフレークの限界で光学的に検出できることを最初に証明した。 次に、集中したhBN厚のV$_\text{B}^-$中心の電子スピン特性の変化を分析する。 (i)ゼロフィールド分割パラメータ。 (ii)光誘起スピン偏光率及び (iii)縦スピン緩和時間。 本研究は,超薄型hbnフレークに埋め込まれたv$_\text{b}^-$センターの特性に関する重要な知見を提供する。

Optically-active spin defects in hexagonal boron nitride (hBN) are promising quantum systems for the design of two-dimensional quantum sensing units offering optimal proximity to the sample being probed. In this work, we first demonstrate that the electron spin resonance frequencies of boron vacancy centres (V$_\text{B}^-$) can be detected optically in the limit of few-atomic-layer thick hBN flakes despite the nanoscale proximity of the crystal surface that often leads to a degradation of the stability of solid-state spin defects. We then analyze the variations of the electronic spin properties of V$_\text{B}^-$ centres with the hBN thickness with a focus on (i) the zero-field splitting parameters, (ii) the optically-induced spin polarization rate and (iii) the longitudinal spin relaxation time. This work provides important insights into the properties of V$_\text{B}^-$ centres embedded in ultrathin hBN flakes, which are valuable for future developments of foil-based quantum sensing technologies.
翻訳日:2023-04-25 14:53:50 公開日:2023-04-24
# StridedPoseGraphFormerによる咬合ロバスト3次元人物位置推定とデータ拡張

Occlusion Robust 3D Human Pose Estimation with StridedPoseGraphFormer and Data Augmentation ( http://arxiv.org/abs/2304.12069v1 )

ライセンス: Link先を確認
Soubarna Banik, Patricia Gscho{\ss}mann, Alejandro Mendoza Garcia, Alois Knoll(参考訳) 咬合は3次元ポーズ推定(hpe)における全能的課題である。 3D HPEを専門とする多くの研究にもかかわらず、排他的排他的問題に対処する研究は限られている。 このギャップを埋めるために, 咬合処理における時空間的特徴の活用と合成咬合増強を組み合わせることを提案する。 この目的のために,グラフ畳み込みとトランスフォーマーに基づく時空間3次元HPEモデルStridedPoseGraphFormerを構築し,オクルージョン拡張を用いて学習する。 限定閉塞試験のみを行う既存の閉塞認識法と異なり, 閉塞度の変化について広範囲に評価した。 本稿では,提案手法を最先端技術(SoA)と比較する。 また, 閉塞処理機構が存在しない場合には, SoA 3D HPE法の性能が著しく低下することが明らかとなった。

Occlusion is an omnipresent challenge in 3D human pose estimation (HPE). In spite of the large amount of research dedicated to 3D HPE, only a limited number of studies address the problem of occlusion explicitly. To fill this gap, we propose to combine exploitation of spatio-temporal features with synthetic occlusion augmentation during training to deal with occlusion. To this end, we build a spatio-temporal 3D HPE model, StridedPoseGraphFormer based on graph convolution and transformers, and train it using occlusion augmentation. Unlike the existing occlusion-aware methods, that are only tested for limited occlusion, we extensively evaluate our method for varying degrees of occlusion. We show that our proposed method compares favorably with the state-of-the-art (SoA). Our experimental results also reveal that in the absence of any occlusion handling mechanism, the performance of SoA 3D HPE methods degrades significantly when they encounter occlusion.
翻訳日:2023-04-25 14:53:31 公開日:2023-04-24
# Renate: 実世界の継続的な学習のためのライブラリ

Renate: A Library for Real-World Continual Learning ( http://arxiv.org/abs/2304.12067v1 )

ライセンス: Link先を確認
Martin Wistuba and Martin Ferianc and Lukas Balles and Cedric Archambeau and Giovanni Zappella(参考訳) 連続学習は、非定常データストリーム上での機械学習モデルのインクリメンタルなトレーニングを可能にする。そのトピックに対する学術的な関心は高いが、実用的な機械学習展開における最先端の連続学習アルゴリズムの使用の兆候はほとんどない。 本稿では,PyTorchモデルのリアルタイム更新パイプラインを構築するために設計された連続学習ライブラリであるRenateを提案する。 本稿では,Renateの設計原則を導出した連続学習アルゴリズムの実践的利用要件について論じる。 ライブラリコンポーネントとインターフェースの高レベルな説明をします。 最後に,実験結果を示し,図書館の強みを示す。 Renateはhttps://github.com/awslabs/renateで見ることができる。

Continual learning enables the incremental training of machine learning models on non-stationary data streams.While academic interest in the topic is high, there is little indication of the use of state-of-the-art continual learning algorithms in practical machine learning deployment. This paper presents Renate, a continual learning library designed to build real-world updating pipelines for PyTorch models. We discuss requirements for the use of continual learning algorithms in practice, from which we derive design principles for Renate. We give a high-level description of the library components and interfaces. Finally, we showcase the strengths of the library by presenting experimental results. Renate may be found at https://github.com/awslabs/renate.
翻訳日:2023-04-25 14:53:14 公開日:2023-04-24
# フルパッシブ双フィールド量子鍵分布

Fully-Passive Twin-Field Quantum Key Distribution ( http://arxiv.org/abs/2304.12062v1 )

ライセンス: Link先を確認
Wenyuan Wang, Rong Wang, Hoi-Kwong Lo(参考訳) 基本選択,デコイ状態生成,エンコーディングはすべて,アクティブな変調を伴わないポストプロセッシングによって実装されるフルパッシブ双フィールド量子鍵分布 (qkd) 構成を提案する。 我々のプロトコルは、ソース変調器と検出器の両方から潜在的なサイドチャネルを取り除き、また、ツインフィールドQKDが提供する高いキーレートの利点を保ち、実装のセキュリティと優れた性能を提供する。 また,不一致位相スライスを用いた後処理戦略を提案し,シフティングの効果を最小化する。 数値シミュレーションにより,新しいプロトコルがリピータレスバウンドを上回ることができ,キーレートが満足できることを示す。

We propose a fully-passive twin-field quantum key distribution (QKD) setup where basis choice, decoy-state preparation and encoding are all implemented entirely by post-processing without any active modulation. Our protocol can remove the potential side-channels from both source modulators and detectors, and additionally retain the high key rate advantage offered by twin-field QKD, thus offering great implementation security and good performance. Importantly, we also propose a post-processing strategy that uses mismatched phase slices and minimizes the effect of sifting. We show with numerical simulation that the new protocol can still beat the repeaterless bound and provide satisfactory key rate.
翻訳日:2023-04-25 14:53:02 公開日:2023-04-24
# マルチパーティト凸分割による量子放送チャネルシミュレーション

Quantum Broadcast Channel Simulation via Multipartite Convex Splitting ( http://arxiv.org/abs/2304.12056v1 )

ライセンス: Link先を確認
Hao-Chung Cheng, Li Gao, Mario Berta(参考訳) 送信者と受信者の自由絡み合い支援下での量子放送チャネルシミュレーションの通信コストは、チャネルの多部的相互情報の観点から、効率的に計算可能なシングルレター式によって漸近的に特徴付けられることを示す。 我々のコアコントリビューションは、マルチパーティイト量子状態分割のための新しいワンショット達成性結果である。 このことの一部として、任意に重複する境界を持つ量子ジョイント典型問題の一般的な例に直面している。 この困難を補う上で重要な技術的要素は概念的に新しい平均ゼロ分解補間であり、最近導入されたR'enyiの分岐体に対する複雑な補間技術も取り入れている。 さらに,通信コストがキャパシティ領域の内部にある場合,シミュレーション誤差の指数収束性を確立する。 コストが適度にキャパシティ領域の境界に近づくと、誤差が漸近的に消えることが示される。

We show that the communication cost of quantum broadcast channel simulation under free entanglement assistance between the sender and the receivers is asymptotically characterized by an efficiently computable single-letter formula in terms of the channel's multipartite mutual information. Our core contribution is a new one-shot achievability result for multipartite quantum state splitting via multipartite convex splitting. As part of this, we face a general instance of the quantum joint typicality problem with arbitrarily overlapping marginals. The crucial technical ingredient to sidestep this difficulty is a conceptually novel multipartite mean-zero decomposition lemma, together with employing recently introduced complex interpolation techniques for sandwiched R\'enyi divergences. Moreover, we establish an exponential convergence of the simulation error when the communication costs are within the interior of the capacity region. As the costs approach the boundary of the capacity region moderately quickly, we show that the error still vanishes asymptotically.
翻訳日:2023-04-25 14:52:50 公開日:2023-04-24
# 対流分裂のタイトワンショット解析と量子情報理論への応用

Tight One-Shot Analysis for Convex Splitting with Applications in Quantum Information Theory ( http://arxiv.org/abs/2304.12055v1 )

ライセンス: Link先を確認
Hao-Chung Cheng, Li Gao(参考訳) 凸分割は、量子状態の再分配や量子ネットワークチャネル符号化といった多くの情報処理プロトコルの達成可能性を証明するために使用される量子情報理論において強力な技術である。 本研究では1ショット誤差指数と1ショット強い逆を,誤差基準としてトレース距離で分割する凸に対して確立する。 その結果、導出誤差指数(強い逆指数)が正であることと、その確率が達成可能な領域内(外側)であることが分かる。 これにより、量子無線通信、秘密鍵蒸留、ワンウェイ量子メッセージ圧縮、量子計測シミュレーション、送信機側情報による量子チャネル符号化など、様々なタスクにおける新しいワンショット指数が導かれる。 また,2次漸近現象に一致した凸分割における試料の複雑さをほぼ最適に評価した。 これにより、多くの量子情報理論タスクにおいてより強力なワンショット解析がもたらされる。

Convex splitting is a powerful technique in quantum information theory used in proving the achievability of numerous information-processing protocols such as quantum state redistribution and quantum network channel coding. In this work, we establish a one-shot error exponent and a one-shot strong converse for convex splitting with trace distance as an error criterion. Our results show that the derived error exponent (strong converse exponent) is positive if and only if the rate is in (outside) the achievable region. This leads to new one-shot exponent results in various tasks such as communication over quantum wiretap channels, secret key distillation, one-way quantum message compression, quantum measurement simulation, and quantum channel coding with side information at the transmitter. We also establish a near-optimal one-shot characterization of the sample complexity for convex splitting, which yields matched second-order asymptotics. This then leads to stronger one-shot analysis in many quantum information-theoretic tasks.
翻訳日:2023-04-25 14:52:35 公開日:2023-04-24
# エンドツーエンドの深層学習のための共有メモリアーキテクチャの探索

Exploring shared memory architectures for end-to-end gigapixel deep learning ( http://arxiv.org/abs/2304.12149v1 )

ライセンス: Link先を確認
Lucas W. Remedios, Leon Y. Cai, Samuel W. Remedios, Karthik Ramadass, Aravind Krishnan, Ruining Deng, Can Cui, Shunxing Bao, Lori A. Coburn, Yuankai Huo, Bennett A. Landman(参考訳) ディープラーニングは、GPUのハードウェア進歩によって実現された、医療画像において大きな進歩を遂げた。 新しいモデルを開発する上での大きな制約のひとつは、トレーニング中のGPUメモリリソースの飽和である。 これは、画像が定期的に10億ピクセル以上を含む計算病理学において特に当てはまる。 これらの病理画像は、ハードウェアの制限によってディープラーニングを可能にするために、伝統的に小さなパッチに分割されている。 そこで本研究では,Apple が最近リリースした M1 Ultra System-on-a-chip (SoC) 上でのGPU/CPUメモリの共有アーキテクチャが,ソリューションを提供するかどうかを考察する。 これらの安価なシステム(5,000ドル未満)は、128gbの統一メモリ(mac studio with m1 ultra soc)にアクセスできる。 ギガピクセル深層学習の概念実証として,全スライド画像(wsis)からギガピクセル領域の背景から組織を同定した。 このモデルは、大きなカーネルと高いストライドを利用する改良されたU-Net (4492パラメータ) である。 m1 ultra socは、tensorflow 2/kerasで1バッチあたり1分21秒という平均速度で、100gb以上の統一メモリを使用したバッチサイズで、ギガピクセルイメージ(16000$\times$64000ピクセル、1.024億ピクセル)でモデルを直接トレーニングすることができた。 予想通り、モデルは高Diceスコア0.989$\pm$0.005で収束した。 この時点でのトレーニングには111時間24分を要し、4940歩を超えた。 NVIDIA A100(80GB、$\sim$\$15000)のような他のハイRAMGPUは、まだ広く利用できない(Amazon Web Services上の一部のリージョンのプレビューでは、8人のグループで40.96/hourである)。 この研究は、一般的なネットワークアーキテクチャを用いたWSIのエンドツーエンドディープラーニングに向けた有望なステップである。

Deep learning has made great strides in medical imaging, enabled by hardware advances in GPUs. One major constraint for the development of new models has been the saturation of GPU memory resources during training. This is especially true in computational pathology, where images regularly contain more than 1 billion pixels. These pathological images are traditionally divided into small patches to enable deep learning due to hardware limitations. In this work, we explore whether the shared GPU/CPU memory architecture on the M1 Ultra systems-on-a-chip (SoCs) recently released by Apple, Inc. may provide a solution. These affordable systems (less than \$5000) provide access to 128 GB of unified memory (Mac Studio with M1 Ultra SoC). As a proof of concept for gigapixel deep learning, we identified tissue from background on gigapixel areas from whole slide images (WSIs). The model was a modified U-Net (4492 parameters) leveraging large kernels and high stride. The M1 Ultra SoC was able to train the model directly on gigapixel images (16000$\times$64000 pixels, 1.024 billion pixels) with a batch size of 1 using over 100 GB of unified memory for the process at an average speed of 1 minute and 21 seconds per batch with Tensorflow 2/Keras. As expected, the model converged with a high Dice score of 0.989 $\pm$ 0.005. Training up until this point took 111 hours and 24 minutes over 4940 steps. Other high RAM GPUs like the NVIDIA A100 (largest commercially accessible at 80 GB, $\sim$\$15000) are not yet widely available (in preview for select regions on Amazon Web Services at \$40.96/hour as a group of 8). This study is a promising step towards WSI-wise end-to-end deep learning with prevalent network architectures.
翻訳日:2023-04-25 14:45:47 公開日:2023-04-24
# 重み付き頂点彩色におけるモンテカルロ木探索とヒューリスティック探索の組み合わせ

Combining Monte Carlo Tree Search and Heuristic Search for Weighted Vertex Coloring ( http://arxiv.org/abs/2304.12146v1 )

ライセンス: Link先を確認
Cyril Grelier and Olivier Goudet and Jin-Kao Hao(参考訳) 本研究はモンテカルロ木探索法(MCTS)と重み付き頂点色問題の解法のための専用ヒューリスティックスを組み合わせたものである。 基本MCTSアルゴリズムに加えて,従来の乱数シミュレーションをグリードや局所探索ヒューリスティックなど他のシミュレーション手法に置き換えたいくつかのMCTS変種について検討する。 我々は、これらの組み合わせMCTS変異を評価するために、よく知られたベンチマークインスタンスの実験を行う。 我々は各シミュレーション戦略の利点と限界を明らかにするための実証的な証拠を提供する。 これはevocop2022で発表されたgrelierとal.の仕事の拡張である。

This work investigates the Monte Carlo Tree Search (MCTS) method combined with dedicated heuristics for solving the Weighted Vertex Coloring Problem. In addition to the basic MCTS algorithm, we study several MCTS variants where the conventional random simulation is replaced by other simulation strategies including greedy and local search heuristics. We conduct experiments on well-known benchmark instances to assess these combined MCTS variants. We provide empirical evidence to shed light on the advantages and limits of each simulation strategy. This is an extension of the work of Grelier and al. presented at EvoCOP2022.
翻訳日:2023-04-25 14:45:20 公開日:2023-04-24
# 変分拡散オートエンコーダ:非条件拡散前の深部潜時変動モデル

Variational Diffusion Auto-encoder: Deep Latent Variable Model with Unconditional Diffusion Prior ( http://arxiv.org/abs/2304.12141v1 )

ライセンス: Link先を確認
Georgios Batzolis, Jan Stanczuk, Carola-Bibiane Sch\"onlieb(参考訳) 変分自動エンコーダ(VAE)は、深部生成モデリングにおける最も一般的なアプローチの一つである。 その成功にもかかわらず、vaesによって生成された画像は、条件付きデータ分布 $ p(\textbf{x} | \textbf{z})$ が等方ガウスとして近似できるという非常に非現実的なモデリングの仮定により、ぼやけに苦しむことが知られている。 本研究では、拡散モデルを組み込んだ条件付きデータ分布 $p(\textbf{x} | \textbf{z})$ をモデル化する原理的アプローチを導入する。 我々は、$ p(\textbf{x} | \textbf{z}) $ あるいはデコーダネットワークをトレーニングすることなく、VAEのような深い潜伏変数モデルを作成することができることを示す。 訓練されたエンコーダと無条件拡散モデルは、スコア関数に対するベイズの規則によって結合され、$ p(\textbf{x} | \textbf{z})$ の表現モデルが得られる。 我々のアプローチは、$ p(\textbf{x} | \textbf{z}) $ のパラメトリック形式に対する強い仮定を避けるため、VAE の性能を大幅に改善することができる。

Variational auto-encoders (VAEs) are one of the most popular approaches to deep generative modeling. Despite their success, images generated by VAEs are known to suffer from blurriness, due to a highly unrealistic modeling assumption that the conditional data distribution $ p(\textbf{x} | \textbf{z})$ can be approximated as an isotropic Gaussian. In this work we introduce a principled approach to modeling the conditional data distribution $p(\textbf{x} | \textbf{z})$ by incorporating a diffusion model. We show that it is possible to create a VAE-like deep latent variable model without making the Gaussian assumption on $ p(\textbf{x} | \textbf{z}) $ or even training a decoder network. A trained encoder and an unconditional diffusion model can be combined via Bayes' rule for score functions to obtain an expressive model for $ p(\textbf{x} | \textbf{z}) $. Our approach avoids making strong assumptions on the parametric form of $ p(\textbf{x} | \textbf{z}) $, and thus allows to significantly improve the performance of VAEs.
翻訳日:2023-04-25 14:45:11 公開日:2023-04-24
# 物理学を意識した時空間ダイナミクスとテストタイムリファインメントによる乱流の再構成

Reconstructing Turbulent Flows Using Physics-Aware Spatio-Temporal Dynamics and Test-Time Refinement ( http://arxiv.org/abs/2304.12130v1 )

ライセンス: Link先を確認
Shengyu Chen, Tianshu Bao, Peyman Givi, Can Zheng, Xiaowei Jia(参考訳) 乱流のシミュレーションは、航空宇宙工学、環境科学、エネルギー産業、バイオメディシンにおける多くの社会的重要な応用にとって重要である。 大規模な渦シミュレーション(les)は、計算コストの低減により、乱流をシミュレートするための直接数値シミュレーション(dns)の代替として広く用いられている。 しかし、LESは乱流輸送の全てのスケールを正確に捉えることができない。 低分解能LESからDNSを再構成することは、多くの科学・工学分野において重要であるが、乱流の時空間的複雑さのために既存の超解像法に多くの課題をもたらす。 本研究では,低分解能LESデータからシーケンシャルDNSを再構成する物理誘導型ニューラルネットワークを提案する。 提案手法は,時空間モデル設計における流れの力学を基礎とする偏微分方程式を利用する。 また, 物理的制約を強制し, 長期にわたって蓄積した復元誤差を更に低減するために, 劣化に基づく改良法も開発されている。 2種類の乱流データから,高分解能DNSデータの再構成および流動輸送の物理的特性の保存において,提案手法の優位性を確認した。

Simulating turbulence is critical for many societally important applications in aerospace engineering, environmental science, the energy industry, and biomedicine. Large eddy simulation (LES) has been widely used as an alternative to direct numerical simulation (DNS) for simulating turbulent flows due to its reduced computational cost. However, LES is unable to capture all of the scales of turbulent transport accurately. Reconstructing DNS from low-resolution LES is critical for many scientific and engineering disciplines, but it poses many challenges to existing super-resolution methods due to the spatio-temporal complexity of turbulent flows. In this work, we propose a new physics-guided neural network for reconstructing the sequential DNS from low-resolution LES data. The proposed method leverages the partial differential equation that underlies the flow dynamics in the design of spatio-temporal model architecture. A degradation-based refinement method is also developed to enforce physical constraints and further reduce the accumulated reconstruction errors over long periods. The results on two different types of turbulent flow data confirm the superiority of the proposed method in reconstructing the high-resolution DNS data and preserving the physical characteristics of flow transport.
翻訳日:2023-04-25 14:44:45 公開日:2023-04-24
# 拡張型セマンティックセグメンテーションのためのドメイン一般化

Augmentation-based Domain Generalization for Semantic Segmentation ( http://arxiv.org/abs/2304.12122v1 )

ライセンス: Link先を確認
Manuel Schwonberg, Fadoua El Bouazati, Nico M. Schmidt, Hanno Gottschalk(参考訳) unsupervised domain adaptation (uda) と domain generalization (dg) の2つの研究領域は、未知の領域に対するディープニューラルネットワーク(dnn)の一般化の欠如に対処することを目的としている。 UDAメソッドはラベルなしのターゲット画像にアクセスするが、ドメインの一般化にはターゲットデータが含まれず、ソースドメインからのみ一般化された特徴を学習する。 イメージスタイルのランダム化や拡張は、ターゲットドメインにアクセスせずにネットワークの一般化を改善する一般的なアプローチである。 領域外一般化のための単純な画像拡張の可能性を無視する複雑な手法がしばしば提案される。 そこで我々は,ボケやノイズ,カラージッタなど,単純でルールベースの画像拡張の領域外一般化機能を体系的に研究する。 実験設計の完全な因子設計に基づいて,拡張とその相互作用の体系的統計的評価を行う。 我々の分析は予期せぬ結果と予期せぬ結果の両方を提供する。 我々の実験は、複数の異なる拡張の組み合わせが単一の拡張よりも優れているという共通の科学的標準を裏付けているからです。 予期せぬ、組み合わせた拡張は最先端のドメイン一般化アプローチと競合するが、非常に単純であり、訓練のオーバーヘッドも伴わない。 シンシアとシティスケープの間の挑戦的な合成と現実のドメインシフトでは、過去最高の40.9%のmIoUに比べて39.5%のmIoUに達した。 最新のビジョントランスフォーマーアーキテクチャ DAFormer を採用すると、44.2% mIoU のパフォーマンスでこれらのベンチマークを上回っます。

Unsupervised Domain Adaptation (UDA) and domain generalization (DG) are two research areas that aim to tackle the lack of generalization of Deep Neural Networks (DNNs) towards unseen domains. While UDA methods have access to unlabeled target images, domain generalization does not involve any target data and only learns generalized features from a source domain. Image-style randomization or augmentation is a popular approach to improve network generalization without access to the target domain. Complex methods are often proposed that disregard the potential of simple image augmentations for out-of-domain generalization. For this reason, we systematically study the in- and out-of-domain generalization capabilities of simple, rule-based image augmentations like blur, noise, color jitter and many more. Based on a full factorial design of experiment design we provide a systematic statistical evaluation of augmentations and their interactions. Our analysis provides both, expected and unexpected, outcomes. Expected, because our experiments confirm the common scientific standard that combination of multiple different augmentations out-performs single augmentations. Unexpected, because combined augmentations perform competitive to state-of-the-art domain generalization approaches, while being significantly simpler and without training overhead. On the challenging synthetic-to-real domain shift between Synthia and Cityscapes we reach 39.5% mIoU compared to 40.9% mIoU of the best previous work. When additionally employing the recent vision transformer architecture DAFormer we outperform these benchmarks with a performance of 44.2% mIoU
翻訳日:2023-04-25 14:44:25 公開日:2023-04-24
# FedPIDAvg:フェデレートラーニングのためのPID制御によるアグリゲーション手法

FedPIDAvg: A PID controller inspired aggregation method for Federated Learning ( http://arxiv.org/abs/2304.12117v1 )

ライセンス: Link先を確認
Leon M\"achler, Ivan Ezhov, Suprosanna Shit, and Johannes C. Paetzold(参考訳) 本稿では,Federated tumor Segmentation Challenge 2022(FETS22)の受賞申請であるFedPIDAvgについて述べる。 FETS21への貢献であるFedCostWAvgにインスパイアされた私たちは、フェデレーションと協調学習のための改善された集約戦略に貢献します。 FedCostWAvgは、各クラスタのトレーニングサンプル数だけでなく、前回のフェデレーションラウンドにおける各コスト関数のドロップサイズも考慮した重み付き平均化手法である。 これはpidコントローラ(proportional-integral-derivative controller)の派生部分として解釈できる。 FedPIDAvgでは、欠落した積分項を追加します。 もうひとつの大きな課題は、中心あたりのデータサンプルのサイズが大幅に異なることだ。 私たちは、データセンターのサイズをPoissonディストリビューションに従ってモデル化し、センター毎にトレーニングイテレーションを選択することで、この問題に対処しました。 我々の方法は他のすべての提案を上回った。

This paper presents FedPIDAvg, the winning submission to the Federated Tumor Segmentation Challenge 2022 (FETS22). Inspired by FedCostWAvg, our winning contribution to FETS21, we contribute an improved aggregation strategy for federated and collaborative learning. FedCostWAvg is a weighted averaging method that not only considers the number of training samples of each cluster but also the size of the drop of the respective cost function in the last federated round. This can be interpreted as the derivative part of a PID controller (proportional-integral-derivative controller). In FedPIDAvg, we further add the missing integral term. Another key challenge was the vastly varying size of data samples per center. We addressed this by modeling the data center sizes as following a Poisson distribution and choosing the training iterations per center accordingly. Our method outperformed all other submissions.
翻訳日:2023-04-25 14:43:58 公開日:2023-04-24
# MLを用いたSQLi検出:データソースの観点から

SQLi Detection with ML: A data-source perspective ( http://arxiv.org/abs/2304.12115v1 )

ライセンス: Link先を確認
Balazs Pejo and Nikolett Kapui(参考訳) SQLの発明から50年近く経った今でも、インジェクション攻撃は現在のICTシステムの最上位の脆弱性である。 その結果、sqli検出は現在も活発な研究領域であり、最新の研究で提案されたソリューションに機械学習技術が組み込まれている。 本稿では,評価手法,モデルパラメータの最適化,使用済みデータセットの分布,特徴選択という4つの側面に注目した,これまでのmlに基づく結果の欠点を強調する。 これらすべての側面を十分に調査するひとつの研究はないので、このギャップを埋め、深い総合的な経験分析を提供する。 さらに、他の分布のデータを用いて、トレーニングされたモデルを相互に検証する。 MLモデルのこの側面(SQLi検出のために訓練された)は、決して研究されなかった。 しかし、これに対するモデルの性能の敏感さは、実際のデプロイには不可欠である。 最後に、実世界の産業用sqliデータセットで結果を検証する。

Almost 50 years after the invention of SQL, injection attacks are still top-tier vulnerabilities of today's ICT systems. Consequently, SQLi detection is still an active area of research, where the most recent works incorporate machine learning techniques into the proposed solutions. In this work, we highlight the shortcomings of the previous ML-based results focusing on four aspects: the evaluation methods, the optimization of the model parameters, the distribution of utilized datasets, and the feature selection. Since no single work explored all of these aspects satisfactorily, we fill this gap and provide an in-depth and comprehensive empirical analysis. Moreover, we cross-validate the trained models by using data from other distributions. This aspect of ML models (trained for SQLi detection) was never studied. Yet, the sensitivity of the model's performance to this is crucial for any real-life deployment. Finally, we validate our findings on a real-world industrial SQLi dataset.
翻訳日:2023-04-25 14:43:45 公開日:2023-04-24
# 同時平滑化のない局所ランダムユニタリによるデカップリングとマルチユーザ量子情報タスクへの応用

Decoupling by local random unitaries without simultaneous smoothing, and applications to multi-user quantum information tasks ( http://arxiv.org/abs/2304.12114v1 )

ライセンス: Link先を確認
Pau Colomer Saus and Andreas Winter(参考訳) 単純なテレスコップサムトリックと、三角不等式と、ランダムチャネルの期待収縮係数のテンソル化特性を組み合わせることで、複数のユーザに対して、局所的なアクションによる汎用的同時分離を実現することができることを示す。 古い[Dupuis et al. Commun. Math. Phys. 328:251-284 (2014)] と新しい方法 [Dupuis, arXiv:2105.05342] の両方を用いることで、滑らかな min-エントロピーや R'enyi エントロピーの観点からの有限ブロック長の設定において、理想的デカップリングから期待される偏差の有界を得る。 これらの境界は本質的に最適であり、同時に平滑化予想は解決されない。 これにより、複数のパーティの局所ランダム性抽出、マルチパーティの絡み合い集中、マルチパーティの量子状態のマージ、量子多重アクセスチャネルの量子コーディングなど、量子シャノン理論のいくつかのタスクにおいて、ワンショット、有限ブロック長、漸近的実現可能性が得られる。 プロトコルのワンショット的な性質のため、時間的共有を必要とせずに達成可能な結果が得られるが、同時に漸近的符号化定理の証明も容易である。 複数ユーザによるランダム性抽出,マルチパーティイト状態のマージ,および複合環境での量子多重アクセスチャネル通信,すなわち,部分的な情報源やチャネルに対してのみ達成可能なレート(これまで予想されていた)が得られることを示す。

We show that a simple telescoping sum trick, together with the triangle inequality and a tensorisation property of expected-contractive coefficients of random channels, allow us to achieve general simultaneous decoupling for multiple users via local actions. Employing both old [Dupuis et al. Commun. Math. Phys. 328:251-284 (2014)] and new methods [Dupuis, arXiv:2105.05342], we obtain bounds on the expected deviation from ideal decoupling either in the one-shot setting in terms of smooth min-entropies, or the finite block length setting in terms of R\'enyi entropies. These bounds are essentially optimal without the need to address the simultaneous smoothing conjecture, which remains unresolved. This leads to one-shot, finite block length, and asymptotic achievability results for several tasks in quantum Shannon theory, including local randomness extraction of multiple parties, multi-party assisted entanglement concentration, multi-party quantum state merging, and quantum coding for the quantum multiple access channel. Because of the one-shot nature of our protocols, we obtain achievability results without the need for time-sharing, which at the same time leads to easy proofs of the asymptotic coding theorems. We show that our one-shot decoupling bounds furthermore yield achievable rates (so far only conjectured) for multi-user randomness extraction, multipartite state merging and quantum multiple access channel communication in compound settings, that is for only partially known i.i.d. source or channel.
翻訳日:2023-04-25 14:43:33 公開日:2023-04-24
# LLMのアンロック制約:自己情報に基づくコンテンツフィルタリングによるLLMのコンテキスト効率向上

Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering ( http://arxiv.org/abs/2304.12102v1 )

ライセンス: Link先を確認
Yucheng Li(参考訳) 大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを達成することで大きな注目を集めている。 しかし、その固定されたコンテキスト長は、長いドキュメントの処理や会話の延長に困難をもたらす。 本稿では, 自己情報を用いて, 情報量の少ないコンテンツのフィルタリングを行い, コンテキスト長の固定化に寄与する手法である \textit{selective context} を提案する。 本稿では,学術論文,ニュース記事,会話書き起こしなど,さまざまなデータソースにまたがる要約と質問応答のタスクに対するアプローチの有効性を示す。

Large language models (LLMs) have received significant attention by achieving remarkable performance across various tasks. However, their fixed context length poses challenges when processing long documents or maintaining extended conversations. This paper proposes a method called \textit{Selective Context} that employs self-information to filter out less informative content, thereby enhancing the efficiency of the fixed context length. We demonstrate the effectiveness of our approach on tasks of summarisation and question answering across different data sources, including academic papers, news articles, and conversation transcripts.
翻訳日:2023-04-25 14:42:56 公開日:2023-04-24
# 分散量子古典ハイブリッドショールアルゴリズム

Distributed Quantum-classical Hybrid Shor's Algorithm ( http://arxiv.org/abs/2304.12100v1 )

ライセンス: Link先を確認
Ligang Xiao, Daowen Qiu, Le Luo, Paulo Mateus(参考訳) peter shor (proceeds of the 35th annual symposium on foundations of computer science, 1994, pp. 124--134) によって提唱されたshorのアルゴリズムは、最も重要な量子アルゴリズムの一つであると考えられている。 ショアのアルゴリズムは多項式時間で成功する確率で大きな整数を分解することができる。 しかし、Shor のアルゴリズムは NISQ (Noisy Intermediate-scale Quantum) 時代において、相当量の量子ビットと回路深さを必要とする。 shorのアルゴリズムに必要なリソースを減らすために、shorのアルゴリズムのための新しい分散量子古典ハイブリッド順序探索アルゴリズムを提案する。 従来の順序探索アルゴリズムは、$\dfrac{s}{r}$ の推定値を得る必要があり、ここで $r$ は ``order'' と $s\in\{0,1,\cdots,r-1\}$ である。 分散アルゴリズムでは、$k$コンピュータを用いて、$\dfrac{s}{r}$の部分ビットを別々に推定する。 これらのコンピュータの計測結果の誤差を低減するために,従来のプログラムを用いて,各コンピュータの計測結果のある程度の補正を行う。 従来のショアのアルゴリズムと比較して、我々のアルゴリズムは1-\dfrac{1}{k})L-\log_2k$ qubits を約 1-\dfrac{1}{k}) に還元する。 また,本アルゴリズムはゲートの複雑度と回路深度をコンピュータ毎にある程度低減する。 我々のアルゴリズムの通信複雑性は$O(kL)$である。

Shor's algorithm, which was proposed by Peter Shor [Proceedings of the 35th Annual Symposium on Foundations of Computer Science, 1994, pp. 124--134], is considered as one of the most significant quantum algorithms. Shor's algorithm can factor large integers with a certain probability of success in polynomial time. However, Shor's algorithm requires an unbearable amount of qubits and circuit depth in the NISQ (Noisy Intermediate-scale Quantum) era. To reduce the resources required for Shor's algorithm, we propose a new distributed quantum-classical hybrid order-finding algorithm for Shor's algorithm. The traditional order-finding algorithm needs to obtain an estimation of some $\dfrac{s}{r}$, where $r$ is the ``order'' and $s\in\{0,1,\cdots,r-1\}$. In our distributed algorithm, we use $k$ computers to estimate partial bits of $\dfrac{s}{r}$ separately. In order to reduce the errors of measuring results of these computers, we use classical programs to correct the measuring results of each computer to a certain extent. Compared with the traditional Shor's algorithm, our algorithm reduces nearly $(1-\dfrac{1}{k})L-\log_2k$ qubits for each computer when factoring an $L$-bit integer. Also, our algorithm reduces gate complexity and circuit depth to some extent for each computer. The communication complexity of our algorithm is $O(kL)$.
翻訳日:2023-04-25 14:42:46 公開日:2023-04-24
# {\Pi}-ML:大気表面層における光乱流の次元解析に基づく機械学習パラメータ化

{\Pi}-ML: A dimensional analysis-based machine learning parameterization of optical turbulence in the atmospheric surface layer ( http://arxiv.org/abs/2304.12177v1 )

ライセンス: Link先を確認
Maximilian Pierzyna and Rudolf Saathof and Sukanta Basu(参考訳) いわゆる光乱流と呼ばれる大気屈折率の乱流変動は、レーザービームを著しく歪ませることができる。 したがって、これらのゆらぎ(c_n^2$)の強さのモデル化は、将来の自由空間光通信リンクの開発と展開の成功に非常に関係している。 本稿では,次元解析と勾配向上に基づく物理インフォームド・機械学習(ML)手法である$\Pi$-MLを提案し,C_n^2$を推定する。 系統的特徴量解析により, ポテンシャル温度の正規化分散を乱流強度の予測のための支配的特徴と同定した。 統計ロバスト性については,r^2=0.958\pm0.001$のサンプルデータに対して高いパフォーマンスをもたらすモデルのアンサンブルを訓練する。

Turbulent fluctuations of the atmospheric refraction index, so-called optical turbulence, can significantly distort propagating laser beams. Therefore, modeling the strength of these fluctuations ($C_n^2$) is highly relevant for the successful development and deployment of future free-space optical communication links. In this letter, we propose a physics-informed machine learning (ML) methodology, $\Pi$-ML, based on dimensional analysis and gradient boosting to estimate $C_n^2$. Through a systematic feature importance analysis, we identify the normalized variance of potential temperature as the dominating feature for predicting turbulence strength. For statistical robustness, we train an ensemble of models which yields high performance on the out-of-sample data of $R^2=0.958\pm0.001$.
翻訳日:2023-04-25 14:36:17 公開日:2023-04-24
# 低エネルギー自由電子ラビ発振とその応用

Low-energy Free-electron Rabi oscillation and its applications ( http://arxiv.org/abs/2304.12174v1 )

ライセンス: Link先を確認
Yiming Pan, Bin Zhang, Daniel Podolsky(参考訳) レーザーにより誘導される合成エネルギー空間に孤立した2レベル系を構築することで,自由電子ラビ振動を提案する。 合成ラビ力学における {\pi}/2パルスと {\pi}パルスは自由電子干渉法で「ビームスプリッター」や「ミラー」として機能し、局所電磁場やプラズモニック励起を検出することができる。 カップリング場が量子化されると、2レベル電子の量子と真空のラビ振動が観測され、光励起と電子-光子絡みの量子統計を調べるのに使用できる。 電子顕微鏡と分光器のレーザー制御の最近の進歩は、人工ラビ振動の実験的検出を可能にする。 しかし、電子の量子ラビ振動の観測は依然として困難である。 我々の研究は、低エネルギー電子と準光の間の共鳴光-物質相互作用の様々な基礎と応用を前進させる可能性がある。

We propose free-electron Rabi oscillation by creating an isolated two-level system in a synthetic energy space induced by laser. The {\pi}/2-pulse and {\pi}-pulse in synthetic Rabi dynamics can function as 'beam splitters' and 'mirrors' for free-electron interferometry, allowing us to detect local electromagnetic fields and plasmonic excitations. When the coupling field is quantized, we can observe quantum and vacuum Rabi oscillations of the two-level electron, which can be used to investigate the quantum statistics of optical excitations and electron-photon entanglement. Recent advances in laser control of electron microscopes and spectroscopes makes the experimental detection of synthetic Rabi oscillations possible. However, observing the quantum Rabi oscillation of electrons remains challenging. Our work has the potential to advance various fundamentals and applications of resonant light-matter interactions between low-energy electrons and quatum light.
翻訳日:2023-04-25 14:36:02 公開日:2023-04-24
# 反復学習を用いた観測器追跡によるパルスレベル自動校正

Automatic pulse-level calibration by tracking observables using iterative learning ( http://arxiv.org/abs/2304.12166v1 )

ライセンス: Link先を確認
Andy J. Goldschmidt and Frederic T. Chong(参考訳) モデルに基づく量子最適制御は、単一の柔軟なフレームワーク内で幅広い臨界量子技術問題を解決することを約束する。 最適化された制御が量子技術者が設定した正確な要求を満たすためには、高精度なモデルが必要である。 実用的な代替手段は、デバイスデータを取得し、成功までチューニングすることで、制御パラメータを直接調整することである。 量子コンピューティングでは、制御がいくつかの(通常は手作業で設計される)パラメータに制限されている場合、不正確なモデルによるゲート誤差を効率的に洗練することができるが、最適な制御によって返される複雑な波形の効率的な校正を可能にするための代替ツールセットが必要である。 本稿では,量子最適制御のキャリブレーションのためのモデルベースフレームワークである learning iteratively を提案する。 LIFTは、量子可観測物の実現可能な軌道を正確に追跡することで、寄生的モデルの違いにもかかわらず高忠実度制御を実現する。 ブラックボックス最適制御とバイリニア動的モード分解を組み合わせることで、効果的ハミルトニアンのモデルをロールアウトデータから直接発見する物理インフォームド回帰フレームワークを設定できる。 追従するロールアウトデータにモデルベースでノルム最適反復学習制御を適用することにより、残りのトラッキングエラーを非因果的に排除する。 我々は、モデル差はあるものの、LIFTが高忠実度最適制御波形の校正を可能にすることを示すために、qubitゲート合成の数値実験を用いる。

Model-based quantum optimal control promises to solve a wide range of critical quantum technology problems within a single, flexible framework. The catch is that highly-accurate models are needed if the optimized controls are to meet the exacting demands set by quantum engineers. A practical alternative is to directly calibrate control parameters by taking device data and tuning until success is achieved. In quantum computing, gate errors due to inaccurate models can be efficiently polished if the control is limited to a few (usually hand-designed) parameters; however, an alternative tool set is required to enable efficient calibration of the complicated waveforms potentially returned by optimal control. We propose an automated model-based framework for calibrating quantum optimal controls called Learning Iteratively for Feasible Tracking (LIFT). LIFT achieves high-fidelity controls despite parasitic model discrepancies by precisely tracking feasible trajectories of quantum observables. Feasible trajectories are set by combining black-box optimal control and the bilinear dynamic mode decomposition, a physics-informed regression framework for discovering effective Hamiltonian models directly from rollout data. Any remaining tracking errors are eliminated in a non-causal way by applying model-based, norm-optimal iterative learning control to subsequent rollout data. We use numerical experiments of qubit gate synthesis to demonstrate how LIFT enables calibration of high-fidelity optimal control waveforms in spite of model discrepancies.
翻訳日:2023-04-25 14:35:48 公開日:2023-04-24
# usa-net: ロボットメモリのための統一意味表現とアフォーアンス表現

USA-Net: Unified Semantic and Affordance Representations for Robot Memory ( http://arxiv.org/abs/2304.12164v1 )

ライセンス: Link先を確認
Benjamin Bolte, Austin Wang, Jimmy Yang, Mustafa Mukadam, Mrinal Kalakrishnan, Chris Paxton(参考訳) ロボットが「シンクの上に茶色のキャビネットを開く」といったオープンエンドの指示に従うためには、シーンの幾何学と環境の意味の両方を理解する必要がある。 ロボットシステムは、しばしばこれらを別々のパイプラインを通して処理し、しばしば非常に異なる表現空間を使用する。 本稿では,シーンの意味と空間的余裕の両方を微分可能なマップにエンコードする,世界表現を構築するためのシンプルな手法である"method"を提案する。 これにより、オープンエンド語彙を用いて指定されたシーンの場所をナビゲートできる勾配ベースのプランナーを構築することができる。 私たちは、このプランナーを使って、勾配情報を利用していないグリッドベースのプランナーのパスよりも、CLIP埋め込みスペースのゴールクエリよりも10-30%短い5-10%短いトラジェクトリを生成します。 私たちの知る限り、これは1つの暗黙のマップで意味論と余裕の両方を最適化する最初のエンドツーエンドの微分可能なプランナーです。 コードとビジュアルは、私たちのウェブサイトで利用可能です。

In order for robots to follow open-ended instructions like "go open the brown cabinet over the sink", they require an understanding of both the scene geometry and the semantics of their environment. Robotic systems often handle these through separate pipelines, sometimes using very different representation spaces, which can be suboptimal when the two objectives conflict. In this work, we present "method", a simple method for constructing a world representation that encodes both the semantics and spatial affordances of a scene in a differentiable map. This allows us to build a gradient-based planner which can navigate to locations in the scene specified using open-ended vocabulary. We use this planner to consistently generate trajectories which are both shorter 5-10% shorter and 10-30% closer to our goal query in CLIP embedding space than paths from comparable grid-based planners which don't leverage gradient information. To our knowledge, this is the first end-to-end differentiable planner optimizes for both semantics and affordance in a single implicit map. Code and visuals are available at our website: https://usa.bolte.cc/
翻訳日:2023-04-25 14:35:22 公開日:2023-04-24
# ファウショット物体検出のためのメタチューニング損失関数とデータ拡張

Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection ( http://arxiv.org/abs/2304.12161v1 )

ライセンス: Link先を確認
Berkan Demirel, Orhun Bu\u{g}ra Baran, Ramazan Gokberk Cinbis(参考訳) 少ないトレーニングインスタンスで新しいオブジェクト検出カテゴリをモデル化する問題である、少数ショットオブジェクト検出は、少数ショット学習とオブジェクト検出の分野において、新たなトピックである。 現代技術は、微調整に基づくアプローチとメタ学習に基づくアプローチの2つのグループに分けられる。 メタラーニングアプローチは、サンプルを新しいクラスモデルにマッピングするための専用のメタモデルを学ぶことを目的としているが、微調整アプローチは、勾配に基づく最適化を通じて、新しいクラスに検出モデルを適用することによって、より単純な方法で少数ショット検出に取り組む。 そのシンプルさにもかかわらず、微調整ベースのアプローチは一般的に競合検出結果をもたらす。 本研究は, 微調整プロセスの推進力としての損失関数と増強の役割に着目し, メタラーニングの原則を通したダイナミクスの調整を提案する。 したがって、提案手法は、微調整に基づくアプローチの利点を保ちつつ、少数ショット検出を促進する帰納バイアスの学習を可能にする。 さらに,提案手法は,高パラメトリックかつ複雑なショットメタモデルとは対照的に,解釈可能な損失関数を導出する。 提案手法の利点は,ベンチマークパスカルVOCおよびMS-COCOデータセットをベースとした高精細度数ショット検出ベースラインよりも,標準および一般化数ショット性能指標の両方の観点から,大幅に改善されている。

Few-shot object detection, the problem of modelling novel object detection categories with few training instances, is an emerging topic in the area of few-shot learning and object detection. Contemporary techniques can be divided into two groups: fine-tuning based and meta-learning based approaches. While meta-learning approaches aim to learn dedicated meta-models for mapping samples to novel class models, fine-tuning approaches tackle few-shot detection in a simpler manner, by adapting the detection model to novel classes through gradient based optimization. Despite their simplicity, fine-tuning based approaches typically yield competitive detection results. Based on this observation, we focus on the role of loss functions and augmentations as the force driving the fine-tuning process, and propose to tune their dynamics through meta-learning principles. The proposed training scheme, therefore, allows learning inductive biases that can boost few-shot detection, while keeping the advantages of fine-tuning based approaches. In addition, the proposed approach yields interpretable loss functions, as opposed to highly parametric and complex few-shot meta-models. The experimental results highlight the merits of the proposed scheme, with significant improvements over the strong fine-tuning based few-shot detection baselines on benchmark Pascal VOC and MS-COCO datasets, in terms of both standard and generalized few-shot performance metrics.
翻訳日:2023-04-25 14:35:05 公開日:2023-04-24
# ビデオトランスフォーマによるエンドツーエンド時空間行動局所化

End-to-End Spatio-Temporal Action Localisation with Video Transformers ( http://arxiv.org/abs/2304.12160v1 )

ライセンス: Link先を確認
Alexey Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani, Chen Sun, Mario Lu\v{c}i\'c, Cordelia Schmid, Anurag Arnab(参考訳) 最もパフォーマンスの高い時空間行動ローカライゼーションモデルは、外部人物の提案と複雑な外部メモリバンクを使用する。 本稿では、入力ビデオを直接取り込み、各フレームにおける境界ボックスとアクションクラスのシーケンスであるチューブレットを出力する完全エンドツーエンドの純粋変換器ベースモデルを提案する。 フレキシブルモデルでは、個々のフレームの疎境界管理や、フルチューブレットアノテーションでトレーニングすることができます。 いずれの場合も、コヒーレントなチューブレットを出力として予測する。 さらに、エンドツーエンドモデルでは、提案の形で追加の前処理や、最大化抑制の観点からの後処理を必要としない。 我々は広範囲なアブレーション実験を行い,4つの異なる時空間的行動局所化ベンチマークにおいて,希薄なキーフレームと完全なチューブレットアノテーションを併用した最新結果を著しく改善した。

The most performant spatio-temporal action localisation models use external person proposals and complex external memory banks. We propose a fully end-to-end, purely-transformer based model that directly ingests an input video, and outputs tubelets -- a sequence of bounding boxes and the action classes at each frame. Our flexible model can be trained with either sparse bounding-box supervision on individual frames, or full tubelet annotations. And in both cases, it predicts coherent tubelets as the output. Moreover, our end-to-end model requires no additional pre-processing in the form of proposals, or post-processing in terms of non-maximal suppression. We perform extensive ablation experiments, and significantly advance the state-of-the-art results on four different spatio-temporal action localisation benchmarks with both sparse keyframes and full tubelet annotations.
翻訳日:2023-04-25 14:34:41 公開日:2023-04-24
# 記号計算のための説明可能なAI視点:筒状代数分解の変数順序選択の一事例

Explainable AI Insights for Symbolic Computation: A case study on selecting the variable ordering for cylindrical algebraic decomposition ( http://arxiv.org/abs/2304.12154v1 )

ライセンス: Link先を確認
Lynn Pickering, Tereso Del Rio Almajano, Matthew England and Kelly Cohen(参考訳) 近年,アルゴリズムの最適化や選択に安全に適用可能な記号計算など,数学における機械学習(ML)技術の利用が増加している。 本稿では、このようなMLモデルに説明可能なAI(XAI)技術を用いることで、AIツールを直接呼び出さないコンピュータ代数システムにおける新しい実装を刺激する、シンボリックな計算の新しい洞察が得られるかどうかを考察する。 本稿では、円筒代数分解の変数順序付けをMLを用いて選択するケーススタディを提案する。 MLがうまく選択できることはすでに実証されているが、ここでは、SHAPツールが、現在シンボリック計算でよく使われている人間設計のヒューリスティックと同じような、サイズと複雑さの新たなヒューリスティックにどのように役立つかを示す。

In recent years there has been increased use of machine learning (ML) techniques within mathematics, including symbolic computation where it may be applied safely to optimise or select algorithms. This paper explores whether using explainable AI (XAI) techniques on such ML models can offer new insight for symbolic computation, inspiring new implementations within computer algebra systems that do not directly call upon AI tools. We present a case study on the use of ML to select the variable ordering for cylindrical algebraic decomposition. It has already been demonstrated that ML can make the choice well, but here we show how the SHAP tool for explainability can be used to inform new heuristics of a size and complexity similar to those human-designed heuristics currently commonly used in symbolic computation.
翻訳日:2023-04-25 14:34:29 公開日:2023-04-24
# 深層強化学習による効率的ハーフトンニング

Efficient Halftoning via Deep Reinforcement Learning ( http://arxiv.org/abs/2304.12152v1 )

ライセンス: Link先を確認
Haitian Jiang, Dongliang Xiong, Xiaowen Jiang, Li Ding, Liang Chen, Kai Huang(参考訳) ハーフトニングは、2つの離散レベルに制限された画素で連続トーン画像を再現することを目的としている。 この技術はすべてのプリンタに実装されており、その大半は高速な方法(例えば、順序付きディザリング、エラー拡散)を採用しており、構造的な詳細をレンダリングできず、ハーフトンの品質を決定する。 反対に、最適なハーフトーン解を探索することで視覚的快楽を追求する他の以前の方法は、高い計算コストに苦しむ。 本稿では,データ駆動アプローチによる高速で構造に配慮したハーフトンニング手法を提案する。 具体的には、各バイナリピクセルの値が共有完全畳み込みニューラルネットワーク(CNN)ポリシを持つ仮想エージェントによって選択されたアクションとみなされる強化学習問題としてハーフトニングを定式化する。 オフライン段階では、有効勾配推定器を用いて、1つの作用ステップで高品質なハーフトンを生産するエージェントを訓練する。 すると、半音は1つの高速CNN推論によってオンラインで生成できる。 また, 損失関数を抑制する新しい異方性を提案し, 所望の青色ノイズ特性をもたらす。 最後に、SSIMの最適化は平坦な領域に穴を開ける可能性があり、コントーンのコントラストマップで計量を重み付けすることで避けることができる。 実験により,従来の構造認識手法の15倍高速である軽量cnnを効果的に訓練し,良好な視覚品質を有する青色半音を生成することができた。 また,本手法の拡張性を示すために,deep multitoningのプロトタイプを提案する。

Halftoning aims to reproduce a continuous-tone image with pixels whose intensities are constrained to two discrete levels. This technique has been deployed on every printer, and the majority of them adopt fast methods (e.g., ordered dithering, error diffusion) that fail to render structural details, which determine halftone's quality. Other prior methods of pursuing visual pleasure by searching for the optimal halftone solution, on the contrary, suffer from their high computational cost. In this paper, we propose a fast and structure-aware halftoning method via a data-driven approach. Specifically, we formulate halftoning as a reinforcement learning problem, in which each binary pixel's value is regarded as an action chosen by a virtual agent with a shared fully convolutional neural network (CNN) policy. In the offline phase, an effective gradient estimator is utilized to train the agents in producing high-quality halftones in one action step. Then, halftones can be generated online by one fast CNN inference. Besides, we propose a novel anisotropy suppressing loss function, which brings the desirable blue-noise property. Finally, we find that optimizing SSIM could result in holes in flat areas, which can be avoided by weighting the metric with the contone's contrast map. Experiments show that our framework can effectively train a light-weight CNN, which is 15x faster than previous structure-aware methods, to generate blue-noise halftones with satisfactory visual quality. We also present a prototype of deep multitoning to demonstrate the extensibility of our method.
翻訳日:2023-04-25 14:34:13 公開日:2023-04-24
# 強化学習における環境中毒攻撃に対する政策レジリエンス

Policy Resilience to Environment Poisoning Attacks on Reinforcement Learning ( http://arxiv.org/abs/2304.12151v1 )

ライセンス: Link先を確認
Hang Xu, Xinghua Qu, Zinovi Rabinovich(参考訳) 本稿では,RL政策の展開性能を回復させることを目的として,強化学習(RL)政策に対する訓練環境汚染攻撃に対する政策レジリエンスについて検討する。 ポリシーレジリエンスがRLアルゴリズムのアドバンテージであるという事実から、RLアルゴリズムの性能を損なうことなく、リソース効率、時間保存、広く適用できるべきである。 本稿では,知識共有の考え方に基づく政策レジリエンス機構を提案する。 政策のレジリエンスは, 準備, 診断, 回復の3段階にまとめる。 具体的には,この機構をメタラーニング手法と組み合わせたフェデレートアーキテクチャとして設計し,環境知識の効率的な抽出と共有を追求する。 共用知識により、有毒エージェントは、配置条件を迅速に識別し、ポリシー性能を回復することができる。 我々は,モデルベースおよびモデルフリーのrlアルゴリズムのレジリエンスメカニズムを実証的に評価し,有毒なポリシーの展開性能を回復する上での有効性と効率を示した。

This paper investigates policy resilience to training-environment poisoning attacks on reinforcement learning (RL) policies, with the goal of recovering the deployment performance of a poisoned RL policy. Due to the fact that the policy resilience is an add-on concern to RL algorithms, it should be resource-efficient, time-conserving, and widely applicable without compromising the performance of RL algorithms. This paper proposes such a policy-resilience mechanism based on an idea of knowledge sharing. We summarize the policy resilience as three stages: preparation, diagnosis, recovery. Specifically, we design the mechanism as a federated architecture coupled with a meta-learning manner, pursuing an efficient extraction and sharing of the environment knowledge. With the shared knowledge, a poisoned agent can quickly identify the deployment condition and accordingly recover its policy performance. We empirically evaluate the resilience mechanism for both model-based and model-free RL algorithms, showing its effectiveness and efficiency in restoring the deployment performance of a poisoned policy.
翻訳日:2023-04-25 14:33:47 公開日:2023-04-24
# 自動運転のための合成データセット:調査

Synthetic Datasets for Autonomous Driving: A Survey ( http://arxiv.org/abs/2304.12205v1 )

ライセンス: Link先を確認
Zhihang Song, Zimin He, Xingyu Li, Qiming Ma, Ruibo Ming, Zhiqi Mao, Huaxin Pei, Lihui Peng, Jianming Hu, Danya Yao, Yi Zhang(参考訳) 自動運転技術は近年盛んになりつつあり、大量の高品質なデータを欲しがっている。 しかし、実世界のデータセットが、高価で時間のかかる実験やラベル付けコストのため、要件変更のペースに追随するのは困難である。 そのため、より多くの研究者が、現実世界の効果的な補足としてリッチで変更可能なデータを容易に生成し、アルゴリズムのパフォーマンスを向上させるために、合成データセットに目を向けている。 本稿では, 合成データセット生成手法の進化を概説し, 自律運転研究における単一およびマルチタスクカテゴリに関連する合成データセットの現在までの成果を概説する。 また,人工データセットが自律運転関連アルゴリズムテストにおける評価,ギャップテスト,肯定的効果,特に信頼性と安全性において果たす役割について論じる。 最後に、一般的な傾向と開発方向について論じる。 私たちの知る限りでは、自動運転における合成データセットの適用に焦点を当てた初めての調査である。 この調査はまた、自動運転技術の現実的な展開の問題への意識を高め、研究者に可能な解決策を提供する。

Autonomous driving techniques have been flourishing in recent years while thirsting for huge amounts of high-quality data. However, it is difficult for real-world datasets to keep up with the pace of changing requirements due to their expensive and time-consuming experimental and labeling costs. Therefore, more and more researchers are turning to synthetic datasets to easily generate rich and changeable data as an effective complement to the real world and to improve the performance of algorithms. In this paper, we summarize the evolution of synthetic dataset generation methods and review the work to date in synthetic datasets related to single and multi-task categories for to autonomous driving study. We also discuss the role that synthetic dataset plays the evaluation, gap test, and positive effect in autonomous driving related algorithm testing, especially on trustworthiness and safety aspects. Finally, we discuss general trends and possible development directions. To the best of our knowledge, this is the first survey focusing on the application of synthetic datasets in autonomous driving. This survey also raises awareness of the problems of real-world deployment of autonomous driving technology and provides researchers with a possible solution.
翻訳日:2023-04-25 14:27:04 公開日:2023-04-24
# パルスモードと周波数ビンのハイパー絡み合い

Hyper-entanglement between pulse modes and frequency bins ( http://arxiv.org/abs/2304.12195v1 )

ライセンス: Link先を確認
Fabrizio Chiriano, Joseph Ho, Christopher L. Morrison, Jonathan W. Webb, Alexander Pickston, Francesco Graffitti and Alessandro Fedrizzi(参考訳) 2つ以上の自由度(dof)間のハイパーエンタングルメントは、各dofが最適なタスクを実行可能にすることにより、新しい量子プロトコルを強化し、有効化することができる。 ここでは、パルスモードと周波数ビンの間でハイパー絡み合った光子対の生成を示す。 パルスモードはドメイン工学結晶のパラメトリックダウンコンバージョンによって生成され、その後スペクトルマッピング技術により2つの周波数ビンに絡み合う。 結果として生じる超エンタングル状態は、その結合スペクトル強度およびスペクトル位相を推定する非古典的2光子干渉パターンの測定によって特徴づけられ、検証される。 このプロトコルは、損失に対するロバスト性、本質的な高次元性、およびエネルギー時間DOFの標準的な光ファイバーネットワークとの互換性と、量子チャネルの容量と効率を高めるための超絡み合いの能力を組み合わせる。

Hyper-entanglement between two or more photonic degrees of freedom (DOF) can enhance and enable new quantum protocols by allowing each DOF to perform the task it is optimally suited for. Here we demonstrate the generation of photon pairs hyper-entangled between pulse modes and frequency bins. The pulse modes are generated via parametric downconversion in a domain-engineered crystal and subsequently entangled to two frequency bins via a spectral mapping technique. The resulting hyper-entangled state is characterized and verified via measurement of its joint spectral intensity and non-classical two-photon interference patterns from which we infer its spectral phase. The protocol combines the robustness to loss, intrinsic high dimensionality and compatibility with standard fiber-optic networks of the energy-time DOF with the ability of hyper-entanglement to increase the capacity and efficiency of the quantum channel, already exploited in recent experimental applications in both quantum information and quantum computation.
翻訳日:2023-04-25 14:25:59 公開日:2023-04-24
# 移動原理:ユークリッドの普遍近似器による距離空間間の普遍近似器

A Transfer Principle: Universal Approximators Between Metric Spaces From Euclidean Universal Approximators ( http://arxiv.org/abs/2304.12231v1 )

ライセンス: Link先を確認
Anastasis Kratsios, Chong Liu, Matti Lassas, Maarten V. de Hoop, Ivan Dokmani\'c(参考訳) 任意のポーランド計量空間 $\mathcal{X}$ と $\mathcal{Y}$ の間の連続写像の普遍近似器をユークリッド空間間の普遍近似器を用いて構築する。 初期の結果は出力空間 $\mathcal{Y}$ が位相ベクトル空間であると仮定した。 近似器は$\mathcal{Y}$に対して離散確率測度を出力する。 もし$\mathcal{x}$ と $\mathcal{y}$ が追加構造なしでポーランドであるなら、非常に一般的な定性的保証を証明し、それらが適切な組合せ構造を持つとき、有限グラフ間の写像、ある種のカルノ群間の粗微分方程式に対する解作用素、逆問題で生じるバナッハ空間の間の連続的非線形作用素を含む h\"older-like map の量的保証を証明する。 特に、必要なディラック測度の数が $\mathcal{x}$ と $\mathcal{y}$ の組合せ構造によって決定されることを示す。 バナッハ空間、$\mathbb{R}$-ツリー、アダマール多様体、ポーランド計量空間上のワッサーシュタイン空間を含む、偏心$\mathcal{Y}$に対して、近似器は$\mathcal{Y}$-値関数に還元される。 ユークリッド近似器がニューラルネットワークである場合、我々はトランスフォーマーネットワークを一般化し、幾何学的深層学習の新しい確率論的視点を提供する。

We build universal approximators of continuous maps between arbitrary Polish metric spaces $\mathcal{X}$ and $\mathcal{Y}$ using universal approximators between Euclidean spaces as building blocks. Earlier results assume that the output space $\mathcal{Y}$ is a topological vector space. We overcome this limitation by "randomization": our approximators output discrete probability measures over $\mathcal{Y}$. When $\mathcal{X}$ and $\mathcal{Y}$ are Polish without additional structure, we prove very general qualitative guarantees; when they have suitable combinatorial structure, we prove quantitative guarantees for H\"older-like maps, including maps between finite graphs, solution operators to rough differential equations between certain Carnot groups, and continuous non-linear operators between Banach spaces arising in inverse problems. In particular, we show that the required number of Dirac measures is determined by the combinatorial structure of $\mathcal{X}$ and $\mathcal{Y}$. For barycentric $\mathcal{Y}$, including Banach spaces, $\mathbb{R}$-trees, Hadamard manifolds, or Wasserstein spaces on Polish metric spaces, our approximators reduce to $\mathcal{Y}$-valued functions. When the Euclidean approximators are neural networks, our constructions generalize transformer networks, providing a new probabilistic viewpoint of geometric deep learning.
翻訳日:2023-04-25 14:18:51 公開日:2023-04-24
# 階層型コントラスト学習による不均一グラフニューラルネットワーク

Hierarchical Contrastive Learning Enhanced Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2304.12228v1 )

ライセンス: Link先を確認
Nian Liu, Xiao Wang, Hui Han, Chuan Shi(参考訳) 新興技術としてのヘテロジニアスグラフニューラルネットワーク(hgnn)は、ヘテロジニアス情報ネットワーク(hin)を扱う能力が優れていることを示している。 しかし、ほとんどのhgnnは半教師あり学習法に従っており、ラベルは通常実際のアプリケーションでは使用できないため、現実の広い使用範囲を制限している。 近年,自己指導型学習は最もエキサイティングな学習パラダイムの1つとなり,ラベルがない場合に大きな可能性を示す。 本稿では,自己教師型HGNNの問題点を考察し,HGNNのための新しいコントラスト学習機構であるHeCoを提案する。 正と負のサンプルのみに焦点を当てた従来のコントラスト学習とは異なり、HeCoはクロスビューコントラストメカニズムを採用している。 具体的には、ノード埋め込みを学習するために、HIN(ネットワークスキーマとメタパスビュー)の2つのビューを提案し、局所構造と高次構造の両方を同時にキャプチャする。 そこで,2つの視点から肯定的,否定的な埋め込みを抽出できる,クロスビューコントラスト学習とビューマスク機構を提案する。 これにより、2つのビューが相互に監督し、最終的にハイレベルなノード埋め込みを学ぶことができる。 さらに,hecoの性能をさらに高めるため,より硬い負の試料を高品質で生成する手法を2つ追加した。 不変要素の他に、ビュー固有の要因は、最終埋め込みに含めるべき異なるノード間の多様な構造情報を補完的に提供します。 したがって、各ビューを独立して探索し、HeCo++と呼ばれる修正モデルを提案する必要があります。 特に、heco++は、クロスビューやイントラビューコントラストを含む階層的コントラスト学習を行い、それぞれの構造のマイニングを強化することを目的としている。

Heterogeneous graph neural networks (HGNNs) as an emerging technique have shown superior capacity of dealing with heterogeneous information network (HIN). However, most HGNNs follow a semi-supervised learning manner, which notably limits their wide use in reality since labels are usually scarce in real applications. Recently, contrastive learning, a self-supervised method, becomes one of the most exciting learning paradigms and shows great potential when there are no labels. In this paper, we study the problem of self-supervised HGNNs and propose a novel co-contrastive learning mechanism for HGNNs, named HeCo. Different from traditional contrastive learning which only focuses on contrasting positive and negative samples, HeCo employs cross-view contrastive mechanism. Specifically, two views of a HIN (network schema and meta-path views) are proposed to learn node embeddings, so as to capture both of local and high-order structures simultaneously. Then the cross-view contrastive learning, as well as a view mask mechanism, is proposed, which is able to extract the positive and negative embeddings from two views. This enables the two views to collaboratively supervise each other and finally learn high-level node embeddings. Moreover, to further boost the performance of HeCo, two additional methods are designed to generate harder negative samples with high quality. Besides the invariant factors, view-specific factors complementally provide the diverse structure information between different nodes, which also should be contained into the final embeddings. Therefore, we need to further explore each view independently and propose a modified model, called HeCo++. Specifically, HeCo++ conducts hierarchical contrastive learning, including cross-view and intra-view contrasts, which aims to enhance the mining of respective structures.
翻訳日:2023-04-25 14:18:17 公開日:2023-04-24
# 3次元画像分割のための位相認識焦点損失

Topology-Aware Focal Loss for 3D Image Segmentation ( http://arxiv.org/abs/2304.12223v1 )

ライセンス: Link先を確認
Andac Demir, Elie Massaad, Bulent Kiziltan(参考訳) セグメンテーションアルゴリズムの有効性は、重複する領域、切断された接続、空白などの位相誤差によってしばしば損なわれる。 この問題に対処するために,従来の音声損失を,地上の真実と予測セグメンテーションマスクの永続図とのワッサーシュタイン距離に基づく位相的制約項に組み込んだ新しい損失関数,Topology-Aware Focal Loss (TAFL)を導入する。 基底の真実と同一の位相を強制することにより、位相的制約はトポロジカルな誤りを効果的に解決し、フォカル・ロスはクラス不均衡に取り組む。 まず、基底真理のフィルターされた立方体錯体と予測セグメンテーションマスクから永続図を構築する。 次に,Sinkhorn-Knoppアルゴリズムを用いて2つの永続化ダイアグラム間の最適輸送計画を決定する。 結果として生じる輸送計画は、質量をある分布から他方へ輸送するコストを最小化し、2つの永続化図の点間のマッピングを提供する。 次に、この旅行計画に基づいてワッサーシュタイン距離を計算し、基底真理と予測マスクの間の位相的相似性を測定する。 我々は, 悪性脳腫瘍の正確な同定と追跡のために, 3次元MRIスキャンの正確なセグメンテーションを必要とする, MICCAI Brain tumor Segmentation (BraTS) Challenge Validationデータセットを用いて3D U-Netをトレーニングすることにより, アプローチを評価する。 次に,局所的制約をペナルティ項として加えることにより,局所的損失を正則化し,セグメンテーション性能の質を高めることを実証する。

The efficacy of segmentation algorithms is frequently compromised by topological errors like overlapping regions, disrupted connections, and voids. To tackle this problem, we introduce a novel loss function, namely Topology-Aware Focal Loss (TAFL), that incorporates the conventional Focal Loss with a topological constraint term based on the Wasserstein distance between the ground truth and predicted segmentation masks' persistence diagrams. By enforcing identical topology as the ground truth, the topological constraint can effectively resolve topological errors, while Focal Loss tackles class imbalance. We begin by constructing persistence diagrams from filtered cubical complexes of the ground truth and predicted segmentation masks. We subsequently utilize the Sinkhorn-Knopp algorithm to determine the optimal transport plan between the two persistence diagrams. The resultant transport plan minimizes the cost of transporting mass from one distribution to the other and provides a mapping between the points in the two persistence diagrams. We then compute the Wasserstein distance based on this travel plan to measure the topological dissimilarity between the ground truth and predicted masks. We evaluate our approach by training a 3D U-Net with the MICCAI Brain Tumor Segmentation (BraTS) challenge validation dataset, which requires accurate segmentation of 3D MRI scans that integrate various modalities for the precise identification and tracking of malignant brain tumors. Then, we demonstrate that the quality of segmentation performance is enhanced by regularizing the focal loss through the addition of a topological constraint as a penalty term.
翻訳日:2023-04-25 14:17:48 公開日:2023-04-24
# 環境のバウンド情報:環境が明らかにするよりも多くを学ぶ

Bound information in the environment: Environment learns more than it will reveal ( http://arxiv.org/abs/2304.12222v1 )

ライセンス: Link先を確認
Tae-Hun Lee and Jaros{\l}aw K. Korbicz(参考訳) 量子システムは、環境に漏れる情報により、その特性を緩める。 一方,我々は環境を通じて外界を知覚する。 ここで、環境にリークするものとそれから抽出できるものとの間にはギャップがあることを示す。 このギャップをカルデイラ・レゲットモデル(caldeira-leggett model)の顕著な例を用いて定量化し、情報抽出は識別性長さと呼ばれる独自の長さスケールで制限され、定評ある熱ドブロイの波長よりも大きく、デコヒーレンスを制御できることを示した。 また、量子フィッシャー情報カーネル(Quantum Fisher Information kernel)と呼ばれる新しい積分カーネルを導入し、よく知られた散逸とノイズカーネルを補完し、有名なゆらぎ・散逸の関係と同様、外乱情報ゲインのトレードオフを示す。 その結果、量子コヒーレンスと間接観測の破壊は2つの異なるスケールで起こり、その間に「グレーゾーン」が存在することが示された。 これは間接観測能力に固有の制限を与える。

Quantum systems loose their properties due to information leaking into environment. On the other hand, we perceive the outer world through the environment. We show here that there is a gap between what leaks into the environment and what can be extracted from it. We quantify this gap, using the prominent example of the Caldeira-Leggett model, by demonstrating that information extraction is limited by its own lengthscale, called distinguishability length, larger than the celebrated thermal de Broglie wavelength, governing the decoherence. We also introduce a new integral kernel, called Quantum Fisher Information kernel, complementing the well-known dissipation and noise kernels, and show a type of disturbance-information gain trade-off, similar to the famous fluctuation-dissipation relation. Our results show that the destruction of quantum coherences and indirect observations happen at two different scales with a "gray zone" in between. This puts intrinsic limitations on capabilities of indirect observations.
翻訳日:2023-04-25 14:17:19 公開日:2023-04-24
# 自己引用グラフを用いたインパクト指向文脈学者のプロファイリング

Impact-Oriented Contextual Scholar Profiling using Self-Citation Graphs ( http://arxiv.org/abs/2304.12217v1 )

ライセンス: Link先を確認
Yuankai Luo, Lei Shi, Mufan Xu, Yuwen Ji, Fengli Xiao, Chunming Hu, Zhiguang Shan(参考訳) 研究者の科学的影響を定量的にプロファイリングすることは、現代研究社会にとって重要である。 現代の文献指標(h-indexなど)やリスト、ネットワークの実践は、学者のランキングではよく機能するが、プロファイル推論や理解のような学者中心の分析的なタスクには構造化された文脈を提供していない。 本稿では,構造化コンテキスト,研究者中心,進化に富む3つの必須要件を満たす,グラフベースの新たな学術プロファイルのスイートであるgeneticflow(gf)を提案する。 何百万人もの学者による大規模学術データソース上でGFを計算するためのフレームワークを提案する。 このフレームワークは、新しい教師なしアドバイザ・アドバイザ検出アルゴリズム、解釈可能な特徴を用いたよく設計された引用型分類器、微調整されたグラフニューラルネットワーク(GNN)モデルを含んでいる。 科学賞推理の実際の課題について評価を行う。 実験の結果,ベストgfプロファイルのf1スコアは,検討した6つのコンピュータサイエンス分野において,インパクトインジケータや書誌ネットワークの代替手法を有意に上回っていることがわかった。 さらに、63.6%-66.5%のノードと12.5%-29.9%のエッジを持つコアgfプロファイルは、6つのフィールドのうち5つで既存の方法を大きく上回っている。 GFプロファイリングの結果の可視化は、高インパクト研究者のための人間の説明可能なパターンも明らかにする。

Quantitatively profiling a scholar's scientific impact is important to modern research society. Current practices with bibliometric indicators (e.g., h-index), lists, and networks perform well at scholar ranking, but do not provide structured context for scholar-centric, analytical tasks such as profile reasoning and understanding. This work presents GeneticFlow (GF), a suite of novel graph-based scholar profiles that fulfill three essential requirements: structured-context, scholar-centric, and evolution-rich. We propose a framework to compute GF over large-scale academic data sources with millions of scholars. The framework encompasses a new unsupervised advisor-advisee detection algorithm, a well-engineered citation type classifier using interpretable features, and a fine-tuned graph neural network (GNN) model. Evaluations are conducted on the real-world task of scientific award inference. Experiment outcomes show that the F1 score of best GF profile significantly outperforms alternative methods of impact indicators and bibliometric networks in all the 6 computer science fields considered. Moreover, the core GF profiles, with 63.6%-66.5% nodes and 12.5%-29.9% edges of the full profile, still significantly outrun existing methods in 5 out of 6 fields studied. Visualization of GF profiling result also reveals human explainable patterns for high-impact scholars.
翻訳日:2023-04-25 14:17:00 公開日:2023-04-24
# フェデレーション学習におけるより小さな一般化誤差によるコミュニケーションの効果

More Communication Does Not Result in Smaller Generalization Error in Federated Learning ( http://arxiv.org/abs/2304.12216v1 )

ライセンス: Link先を確認
Romain Chor, Milad Sefidgaran and Abdellatif Zaidi(参考訳) フェデレートラーニング(FL)における統計的学習モデルの一般化誤差について検討する。 具体的には、デバイスまたはクライアントが$Kで、それぞれ独立して$n$のデータセットを持っている。 Stochastic Gradient Descentを通じてローカルに学習された個々のモデルは、中央サーバによって集約(平均化)され、グローバルモデルに変換され、デバイスに返される。 モデル集約の複数ラウンド(例えば、$r \in \mathbb n^*$)を検討し、最終集約モデルの一般化誤差に対する$r$の影響について検討する。 私たちは、r$の影響を明示的に考慮した一般化エラーの上限を設定します(参加デバイスの数は$k$、データセットサイズは$n$です)。 固定 $(n, k)$ の場合、バウンドは $r$ となり、そのような学習アルゴリズムの一般化はパラメータサーバーとのより頻繁な通信によって負の影響を受けることが示されている。 しかし、経験的リスクが一般に$R$のより大きな値に対して減少するという事実と組み合わせると、$R$はFLアルゴリズムの集団リスクを低減するためのパラメータである可能性がある。 また,不均一なデータ設定に直感的に拡張した本論文の結果を数値例で示す。

We study the generalization error of statistical learning models in a Federated Learning (FL) setting. Specifically, there are $K$ devices or clients, each holding an independent own dataset of size $n$. Individual models, learned locally via Stochastic Gradient Descent, are aggregated (averaged) by a central server into a global model and then sent back to the devices. We consider multiple (say $R \in \mathbb N^*$) rounds of model aggregation and study the effect of $R$ on the generalization error of the final aggregated model. We establish an upper bound on the generalization error that accounts explicitly for the effect of $R$ (in addition to the number of participating devices $K$ and dataset size $n$). It is observed that, for fixed $(n, K)$, the bound increases with $R$, suggesting that the generalization of such learning algorithms is negatively affected by more frequent communication with the parameter server. Combined with the fact that the empirical risk, however, generally decreases for larger values of $R$, this indicates that $R$ might be a parameter to optimize to reduce the population risk of FL algorithms. The results of this paper, which extend straightforwardly to the heterogeneous data setting, are also illustrated through numerical examples.
翻訳日:2023-04-25 14:16:36 公開日:2023-04-24
# 神経新生ダイナミクスによるスパイクニューラルネットワークトレーニング加速

Neurogenesis Dynamics-inspired Spiking Neural Network Training Acceleration ( http://arxiv.org/abs/2304.12214v1 )

ライセンス: Link先を確認
Shaoyi Huang, Haowen Fang, Kaleel Mahmood, Bowen Lei, Nuo Xu, Bin Lei, Yue Sun, Dongkuan Xu, Wujie Wen, Caiwen Ding(参考訳) 生物学的にインスパイアされたスパイクニューラルネットワーク(snn)は、イベント駆動操作とスパースアクティビティを通じて極めてエネルギー効率のよいマシンインテリジェンスを提供する能力で注目を集めている。 人工知能(AI)がますます民主化されるにつれて、エッジデバイス上でSNNモデルを実行する必要性が高まっている。 既存の作業では、SNNモデルのサイズを減らし、推論を加速するためにウェイトプルーニングを採用している。 しかし,これらの手法は主に,効率的な推論のためのスパースモデルを得る方法に焦点を当てている。 本稿では,これらの欠点を克服するために,神経発生ダイナミクスに触発されたスパイキングニューラルネットワーク学習促進フレームワークndsnnを提案する。 我々のフレームワークは計算効率が高く、モデルの忠実さを犠牲にすることなく、スクラッチから動的間隔でモデルを訓練する。 具体的には,非ゼロ重量の削減を図り,極端に高い空間性と高い精度を維持するために,新しいドロップ・アンド・グロー戦略を設計する。 我々は,CIFAR-10,CIFAR-100,TinyImageNet上で,VGG-16とResNet-19を用いてNDSNNを評価する。 実験結果によると、NDSNNは、他のSOTA法(例えば、Lottery Ticket hypothesis (LTH)、SET-SNN、RigL-SNN)と比較して、ResNet-19(99\%)を用いて、Tiny-ImageNet上で最大20.52\%の精度向上を実現している。 さらに、ndsnnのトレーニングコストは、resnet-19のlthトレーニングコストの40.89\%、cifar-10のvgg-16のlthトレーニングコストの31.35\%である。

Biologically inspired Spiking Neural Networks (SNNs) have attracted significant attention for their ability to provide extremely energy-efficient machine intelligence through event-driven operation and sparse activities. As artificial intelligence (AI) becomes ever more democratized, there is an increasing need to execute SNN models on edge devices. Existing works adopt weight pruning to reduce SNN model size and accelerate inference. However, these methods mainly focus on how to obtain a sparse model for efficient inference, rather than training efficiency. To overcome these drawbacks, in this paper, we propose a Neurogenesis Dynamics-inspired Spiking Neural Network training acceleration framework, NDSNN. Our framework is computational efficient and trains a model from scratch with dynamic sparsity without sacrificing model fidelity. Specifically, we design a new drop-and-grow strategy with decreasing number of non-zero weights, to maintain extreme high sparsity and high accuracy. We evaluate NDSNN using VGG-16 and ResNet-19 on CIFAR-10, CIFAR-100 and TinyImageNet. Experimental results show that NDSNN achieves up to 20.52\% improvement in accuracy on Tiny-ImageNet using ResNet-19 (with a sparsity of 99\%) as compared to other SOTA methods (e.g., Lottery Ticket Hypothesis (LTH), SET-SNN, RigL-SNN). In addition, the training cost of NDSNN is only 40.89\% of the LTH training cost on ResNet-19 and 31.35\% of the LTH training cost on VGG-16 on CIFAR-10.
翻訳日:2023-04-25 14:16:13 公開日:2023-04-24
# 自己指導型学習のクックブック

A Cookbook of Self-Supervised Learning ( http://arxiv.org/abs/2304.12210v1 )

ライセンス: Link先を確認
Randall Balestriero, Mark Ibrahim, Vlad Sobal, Ari Morcos, Shashank Shekhar, Tom Goldstein, Florian Bordes, Adrien Bardes, Gregoire Mialon, Yuandong Tian, Avi Schwarzschild, Andrew Gordon Wilson, Jonas Geiping, Quentin Garrido, Pierre Fernandez, Amir Bar, Hamed Pirsiavash, Yann LeCun and Micah Goldblum(参考訳) 人工知能のダークマターと呼ばれる自己教師型学習は、機械学習を進めるための有望な道である。 しかし、料理と同様にSSLメソッドのトレーニングは、参入障壁の高い繊細なテクニックである。 多くのコンポーネントは慣れ親しんでいるが、SSLメソッドをうまくトレーニングするには、プリテキストタスクからハイパーパラメータのトレーニングまで、一連の選択をめちゃくちゃにする必要がある。 私たちのゴールは、基本と最新のSSLレシピをクックブックのスタイルで配置することで、SSL研究への参入障壁を低くすることにあります。 興味のある研究者がメソッドの地形をナビゲートし、さまざまなノブの役割を理解し、SSLがいかに美味しいかを探求するために必要なノウハウを得ることを期待しています。

Self-supervised learning, dubbed the dark matter of intelligence, is a promising path to advance machine learning. Yet, much like cooking, training SSL methods is a delicate art with a high barrier to entry. While many components are familiar, successfully training a SSL method involves a dizzying set of choices from the pretext tasks to training hyper-parameters. Our goal is to lower the barrier to entry into SSL research by laying the foundations and latest SSL recipes in the style of a cookbook. We hope to empower the curious researcher to navigate the terrain of methods, understand the role of the various knobs, and gain the know-how required to explore how delicious SSL can be.
翻訳日:2023-04-25 14:15:40 公開日:2023-04-24
# PAXQA: トレーニング尺度における言語横断質問応答例の生成

PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale ( http://arxiv.org/abs/2304.12206v1 )

ライセンス: Link先を確認
Bryan Li and Chris Callison-Burch(参考訳) 既存の質問応答(QA)システムは、その成功の大部分を、大規模で高品質なトレーニングデータに負っている。 このようなアノテーションの取り組みは費用がかかり、言語横断設定の難易度が高まる。 そのため、従来の言語間QA作業では、評価データセットをリリースし、ゼロショットメソッドをベースラインとして適用することに重点を置いている。 本研究では,既存の並列コーパスからの間接的監視を利用する言語間QAのための合成データ生成手法を提案する。 本手法はPAXQA ({P}rojecting {a}nnotations for cross-lingual ({x}) QA) を2段階に分解する。 第一段階では、質問生成モデル(QG)を英語側に適用する。 第2段階では、疑問と答えの両方を翻訳するためにアノテーションプロジェクションを適用する。 質問をよりよく翻訳するために、並列ビットから制約されたエンティティを抽出する語彙制約付き機械翻訳の新規な利用を提案する。 4つの言語にわたる言語間QAデータセットをリリースしました。 次に、これらのデータセットに基づいて微調整された抽出QAモデルが、ゼロショットおよび以前の合成データ生成モデルより優れていることを示す。 最大のパフォーマンス向上は、非英語の質問や英語のコンテキストを交互に行うことにある。 アブレーション研究では,自動単語アライメントによる雑音に対して,データセット生成法が比較的頑健であることが示されている。

Existing question answering (QA) systems owe much of their success to large, high-quality training data. Such annotation efforts are costly, and the difficulty compounds in the cross-lingual setting. Therefore, prior cross-lingual QA work has focused on releasing evaluation datasets, and then applying zero-shot methods as baselines. In this work, we propose a synthetic data generation method for cross-lingual QA which leverages indirect supervision from existing parallel corpora. Our method termed PAXQA ({P}rojecting {a}nnotations for cross-lingual ({x}) QA) decomposes cross-lingual QA into two stages. In the first stage, we apply a question generation (QG) model to the English side. In the second stage, we apply annotation projection to translate both the questions and answers. To better translate questions, we propose a novel use of lexically-constrained machine translation, in which constrained entities are extracted from the parallel bitexts. We release cross-lingual QA datasets across 4 languages, totaling 662K QA examples. We then show that extractive QA models fine-tuned on these datasets outperform both zero-shot and prior synthetic data generation models, showing the sufficient quality of our generations. We find that the largest performance gains are for cross-lingual directions with non-English questions and English contexts. Ablation studies show that our dataset generation method is relatively robust to noise from automatic word alignments.
翻訳日:2023-04-25 14:15:25 公開日:2023-04-24
# 微調整事前学習言語モデルを用いたAMR解析

AMR Parsing with Instruction Fine-tuned Pre-trained Language Models ( http://arxiv.org/abs/2304.12272v1 )

ライセンス: Link先を確認
Young-Suk Lee, Ram\'on Fernandez Astudillo, Radu Florian, Tahira Naseem, Salim Roukos(参考訳) インストラクションアノテートデータセット(flan)の集合上のインストラクション微調整言語モデル(インストラクション微調整言語モデル)は、モデルの性能向上と未認識タスクの一般化に非常に効果的であることが示されている。 しかしながら、抽象的意味表現(AMR)、普遍的依存(UD)、意味的役割ラベル付け(SRL)といった標準的な構文解析タスクの大部分は、モデルトレーニングと評価の両方のためにFLANコレクションから除外されている。 本稿では,flan-t5などの事前学習型言語モデルを用いてamr解析を行う。 AMR2.0、AMR3.0、BioAMRを含む様々なAMR解析タスクに関する広範な実験は、FLAN-T5微調整モデルが全てのタスクにおいて過去の最先端モデルより優れていることを示している。 さらに、完全な微調整とパラメータ効率の良い微調整(LoRA)によりモデル性能が向上し、Smatch on AMR2.0 (86.4)、AMR3.0 (84.9)、BioAMR (82.3)に新たな最先端技術が設定された。

Instruction fine-tuned language models on a collection of instruction annotated datasets (FLAN) have shown highly effective to improve model performance and generalization to unseen tasks. However, a majority of standard parsing tasks including abstract meaning representation (AMR), universal dependency (UD), semantic role labeling (SRL) has been excluded from the FLAN collections for both model training and evaluations. In this paper, we take one of such instruction fine-tuned pre-trained language models, i.e. FLAN-T5, and fine-tune them for AMR parsing. Our extensive experiments on various AMR parsing tasks including AMR2.0, AMR3.0 and BioAMR indicate that FLAN-T5 fine-tuned models out-perform previous state-of-the-art models across all tasks. In addition, full fine-tuning followed by the parameter efficient fine-tuning, LoRA, further improves the model performances, setting new state-of-the-arts in Smatch on AMR2.0 (86.4), AMR3.0 (84.9) and BioAMR (82.3).
翻訳日:2023-04-25 14:08:35 公開日:2023-04-24
# コード補完モデルのための文脈データによるソースコードの拡張:実証的研究

Enriching Source Code with Contextual Data for Code Completion Models: An Empirical Study ( http://arxiv.org/abs/2304.12269v1 )

ライセンス: Link先を確認
Tim van Dam, Maliheh Izadi, Arie van Deursen(参考訳) トランスフォーマティブベースの事前学習モデルは最近、開発者ツールキットの主力である自動コード補完を含む、多くのソフトウェアエンジニアリングタスクの解決で大きな成果を上げている。 多くの人はそのようなモデルのコード理解能力を改善する努力をしてきたが、その逆 -- 理解しやすくする -- は適切に調査されていない。 本研究では,コンテクストデータを用いてコードを理解しやすくすることで,事前学習したコード言語モデルの性能が向上するか否かを問う。 型アノテーションとコメントは、開発者がよりよくコードを理解するのに役立つ2つの一般的なコンテキスト情報であると考えています。 実験では,トークンと行補完という2つの粒度のコード補完について検討し,UniXcoder,CodeGPT,InCoderの3つの最近の大規模言語モデルと5つの評価指標を用いた。 最後にWilcoxon Signed Rank testを実行し、重要度を測定し、効果の大きさを測定する。 期待に反して、型アノテーションが削除された場合(効果のサイズは小さいが)、すべてのモデルはより良く機能します。 コメントについては、モデルがマルチラインコメント(効果サイズが小さい場合)の存在下でパフォーマンスがよいことが分かりました。 当社の観察に基づいて、トレーニングや微調整、あるいは意図したデータやアプリケーションからモデルを選択する場合に、適切な設計上の選択を行うことを推奨します。 さらに, 自動補完の実用性や精度を向上させるために, より良い評価やマルチモーダル手法も検討できる。

Transformer-based pre-trained models have recently achieved great results in solving many software engineering tasks including automatic code completion which is a staple in a developer's toolkit. While many have striven to improve the code-understanding abilities of such models, the opposite -- making the code easier to understand -- has not been properly investigated. In this study, we aim to answer whether making code easier to understand through using contextual data improves the performance of pre-trained code language models for the task of code completion. We consider type annotations and comments as two common forms of additional contextual information that often help developers understand code better. For the experiments, we study code completion in two granularity levels; token and line completion and take three recent and large-scale language models for source code: UniXcoder, CodeGPT, and InCoder with five evaluation metrics. Finally, we perform the Wilcoxon Signed Rank test to gauge significance and measure the effect size. Contrary to our expectations, all models perform better if type annotations are removed (albeit the effect sizes are small). For comments, we find that the models perform better in the presence of multi-line comments (again with small effect sizes). Based on our observations, we recommend making proper design choices when training, fine-tuning, or simply selecting such models given the intended data and application. Better evaluations and multi-modal techniques can also be further investigated to improve the practicality and accuracy of auto-completions.
翻訳日:2023-04-25 14:08:13 公開日:2023-04-24
# 電気ネットワークの幾何学的記述とFaddeev-Jackiw量子化

Geometrical description and Faddeev-Jackiw quantization of electrical networks ( http://arxiv.org/abs/2304.12252v1 )

ライセンス: Link先を確認
A. Parra-Rodriguez and I. L. Egusquiza(参考訳) ランプ素子電気回路理論では、媒体の存在下でマクスウェルの方程式を解く問題は2つの方程式に還元される。 制限エネルギー密度の局所力学、構成方程式、局所幾何学とダイナミクスのカプセル化、および我々が位相的に表現するより大きなスケールでの電荷とエネルギーの保存を強制するもの、キルヒホフ方程式。 一貫した幾何学的記述に続いて、ラグランジアンおよびレイリー散逸関数から導出される1次微分方程式として一般ランプ素子電気回路の力学を記述する新しい体系的方法を開発した。 faddeev-jackiw法を用いて,一般ネットワークのハミルトニアン記述の探索において生じるすべての特異点を同定し,分類する。 さらに, 超伝導回路の正準量子化において鍵となる問題である特異点を体系的に解く方法を提案する。 この解の核は、回路状態が表現可能な縮小多様体(例えば、コンパクト多様体の存在を含む、磁束と電荷次数の混合)の正しい同定に依存している。 純粋ノード流束やループチャージ変数を始点構成空間として使用する場合,非線形回路や非逆回路のハミルトニアン記述を得るために,完全プログラマブルな手法を適用した。 この研究は、電気ネットワーク理論の多様な幾何学的イメージを統一し、例えば超伝導量子チップの正確なハミルトニアン記述の計算を自動化できることを証明している。

In lumped-element electrical circuit theory, the problem of solving Maxwell's equations in the presence of media is reduced to two sets of equations. Those addressing the local dynamics of a confined energy density, the constitutive equations, encapsulating local geometry and dynamics, and those that enforce the conservation of charge and energy in a larger scale that we express topologically, the Kirchhoff equations. Following a consistent geometrical description, we develop a new and systematic way to write the dynamics of general lumped-element electrical circuits as first order differential equations derivable from a Lagrangian and a Rayleigh dissipation function. Leveraging the Faddeev-Jackiw method, we identify and classify all singularities that arise in the search for Hamiltonian descriptions of general networks. Furthermore we provide systematics to solve those singularities, which is a key problem in the context of canonical quantization of superconducting circuits. The core of our solution relies on the correct identification of the reduced manifold in which the circuit state is expressible, e.g., a mix of flux and charge degrees of freedom, including the presence of compact ones. We apply the fully programmable method to obtain (canonically quantizable) Hamiltonian descriptions of nonlinear and nonreciprocal circuits which would be cumbersome/singular if pure node-flux or loop-charge variables are used as a starting configuration space. This work unifies diverse existent geometrical pictures of electrical network theory, and will prove useful, for instance, to automatize the computation of exact Hamiltonian descriptions of superconducting quantum chips.
翻訳日:2023-04-25 14:07:48 公開日:2023-04-24
# Rパッケージotsfeaturesを用いた標準時系列解析

Ordinal time series analysis with the R package otsfeatures ( http://arxiv.org/abs/2304.12251v1 )

ライセンス: Link先を確認
\'Angel L\'opez Oriona and Jos\'e Antonio Vilar Fern\'andez(参考訳) 21世紀は時系列データ分析への関心が高まっている。 この話題に関する文献のほとんどは実価値のある時系列を扱うが、通常、通常の時系列はより少ない注意を払っている。 しかし,近年,後者の分析ツールの開発が著しく進んでいる。 Rパッケージotsfeaturesは順序時系列を解析するための単純な関数セットを提供しようとする。 特に、よく知られた統計特徴の抽出と推論タスクの実行を可能にするコマンドがユーザによって提供されている。 いくつかの関数の出力は、クラスタリング、分類、または外れ値検出などの従来の機械学習タスクの実行に使用することができる。 otsfeaturesはまた、クラスタリングのために文献で使用された2つの金融時系列データセットと、3つの興味深い合成データベースも組み込んでいる。 パッケージの主な特性を説明し、いくつかの例を通してその使用例を示す。 様々な分野の研究者は、otsfeaturesが提供する強力なツールの恩恵を受けることができる。

The 21st century has witnessed a growing interest in the analysis of time series data. Whereas most of the literature on the topic deals with real-valued time series, ordinal time series have typically received much less attention. However, the development of specific analytical tools for the latter objects has substantially increased in recent years. The R package otsfeatures attempts to provide a set of simple functions for analyzing ordinal time series. In particular, several commands allowing the extraction of well-known statistical features and the execution of inferential tasks are available for the user. The output of several functions can be employed to perform traditional machine learning tasks including clustering, classification or outlier detection. otsfeatures also incorporates two datasets of financial time series which were used in the literature for clustering purposes, as well as three interesting synthetic databases. The main properties of the package are described and its use is illustrated through several examples. Researchers from a broad variety of disciplines could benefit from the powerful tools provided by otsfeatures.
翻訳日:2023-04-25 14:07:21 公開日:2023-04-24
# 2つの新しい距離と経済応用に基づく順序時系列のファジィクラスタリング

Fuzzy clustering of ordinal time series based on two novel distances with economic applications ( http://arxiv.org/abs/2304.12249v1 )

ライセンス: Link先を確認
\'Angel L\'opez Oriona, Christian Weiss and Jos\'e Antonio Vilar(参考訳) 時系列クラスタリングは、多くの分野におけるアプリケーションの中心的な機械学習タスクである。 手法の大半は実数値時系列に焦点をあてるが、離散応答を持つ時系列を考える研究はほとんどない。 本稿では,順序時系列のクラスタリングの問題に対処する。 この目的のために、順序時間列間の2つの新しい距離を導入し、ファジィクラスタリング手順を構築する。 どちらの指標も推定累積確率の関数であり、系列の範囲に固有の順序を自動的に利用することができる。 結果のクラスタリングアルゴリズムは計算効率が良く、類似の確率過程から生成される系列をグループ化でき、様々なモデルから得られるにもかかわらず正確な結果が得られる。 時系列のダイナミクスは時間とともに変化する可能性があるため、ファジィアプローチを採用し、各系列を異なる会員度を持つ複数のクラスタに配置することができる。 シミュレーション実験により,提案手法はいくつかの方法より優れていることが示された。 クラスタリングアルゴリズムの重み付けバージョンも提示され、元の手法に関してその利点が議論されている。 経済時系列を含む2つの特定の応用は,提案手法の有用性を示している。

Time series clustering is a central machine learning task with applications in many fields. While the majority of the methods focus on real-valued time series, very few works consider series with discrete response. In this paper, the problem of clustering ordinal time series is addressed. To this aim, two novel distances between ordinal time series are introduced and used to construct fuzzy clustering procedures. Both metrics are functions of the estimated cumulative probabilities, thus automatically taking advantage of the ordering inherent to the series' range. The resulting clustering algorithms are computationally efficient and able to group series generated from similar stochastic processes, reaching accurate results even though the series come from a wide variety of models. Since the dynamic of the series may vary over the time, we adopt a fuzzy approach, thus enabling the procedures to locate each series into several clusters with different membership degrees. An extensive simulation study shows that the proposed methods outperform several alternative procedures. Weighted versions of the clustering algorithms are also presented and their advantages with respect to the original methods are discussed. Two specific applications involving economic time series illustrate the usefulness of the proposed approaches.
翻訳日:2023-04-25 14:07:07 公開日:2023-04-24
# トラップイオン量子系を用いた偏光電子移動の量子シミュレーション

Quantum Simulation of Polarized Light-induced Electron Transfer with A Trapped-ion Qutrit System ( http://arxiv.org/abs/2304.12247v1 )

ライセンス: Link先を確認
Ke Sun, Chao Fang, Mingyu Kang, Zhendian Zhang, Peng Zhang, David N. Beratan, Kenneth R. Brown, Jungsang Kim(参考訳) 分子間の電子移動は化学、生化学、エネルギー科学において重要である。 本研究では、2分子間の電子移動に対する光偏光の影響を調べる量子シミュレーション法について述べる。 閉じ込められた原子イオンの量子状態の精密かつコヒーレントな制御を実装することで、分子の電子移動ダイナミクスを模倣する量子力学を誘導することができる。 従来の2レベルシステム(量子ビット)よりも3ドルレベルのシステム(量子ビット)を用いてシミュレーション効率を高め、電子移動ダイナミクスの高忠実度シミュレーションを実現する。 2つの縮退励起状態を持つドナーからの電子カップリング経路間の量子干渉をアクセプターに処理し、転送効率を解析する。 また、量子シミュレーションに入る潜在的な誤差源についても検討する。 閉じ込められたイオン系は、古典的コンピュータに比べてシステムサイズのスケーリングが良好であり、電子移動シミュレーションへのアクセスを約束している。

Electron transfer within and between molecules is crucial in chemistry, biochemistry, and energy science. This study describes a quantum simulation method that explores the influence of light polarization on the electron transfer between two molecules. By implementing precise and coherent control among the quantum states of trapped atomic ions, we can induce quantum dynamics that mimic the electron transfer dynamics in molecules. We use $3$-level systems (qutrits), rather than traditional two-level systems (qubits) to enhance the simulation efficiency and realize high-fidelity simulations of electron transfer dynamics. We treat the quantum interference between the electron coupling pathways from a donor with two degenerate excited states to an acceptor and analyze the transfer efficiency. We also examine the potential error sources that enter the quantum simulations. The trapped ion systems have favorable scalings with system size compared to those of classical computers, promising access to electron-transfer simulations of increasing richness.
翻訳日:2023-04-25 14:06:50 公開日:2023-04-24
# wizardlm: 大きな言語モデルに複雑な命令に従う権限を与える

WizardLM: Empowering Large Language Models to Follow Complex Instructions ( http://arxiv.org/abs/2304.12244v1 )

ライセンス: Link先を確認
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang(参考訳) 大規模言語モデル(LLM)をオープンドメイン命令でトレーニングすることは、巨大な成功をもたらす。 しかし、手動でこのような命令データを作成するのは非常に時間がかかり、労力がかかる。 さらに、人間は複雑な指示を出すのに苦労する。 本稿では,人間の代わりにLSMを用いて,様々なレベルの複雑さを持つ大量の命令データを生成する方法を示す。 最初の命令セットから始めると、提案するevol-instructを使ってステップバイステップでより複雑な命令に書き直す。 次に、生成されたすべての命令データを微調整LLaMAに混合する。 結果のモデルをWizardLMと呼びます。 複雑性バランステストベッド上での人間評価は、Evol-Instructからの指示が人間が作ったものよりも優れていることを示している。 高複雑性部の人体評価結果を解析することにより,OpenAI ChatGPTの出力よりもWizardLMモデルの出力の方が好ましいことを示す。 WizardLMはまだChatGPTに遅れを取っているが、我々の発見は、AIに進化した命令による微調整が、大きな言語モデルを強化するための有望な方向であることを示唆している。 私たちのコードと生成されたデータはhttps://github.com/nlpxucan/WizardLMで公開されています。

Training large language models (LLM) with open-domain instruction following data brings colossal success. However, manually creating such instruction data is very time-consuming and labor-intensive. Moreover, humans may struggle to produce high-complexity instructions. In this paper, we show an avenue for creating large amounts of instruction data with varying levels of complexity using LLM instead of humans. Starting with an initial set of instructions, we use our proposed Evol-Instruct to rewrite them step by step into more complex instructions. Then, we mix all generated instruction data to fine-tune LLaMA. We call the resulting model WizardLM. Human evaluations on a complexity-balanced test bed show that instructions from Evol-Instruct are superior to human-created ones. By analyzing the human evaluation results of the high complexity part, we demonstrate that outputs from our WizardLM model are preferred to outputs from OpenAI ChatGPT. Even though WizardLM still lags behind ChatGPT in some aspects, our findings suggest that fine-tuning with AI-evolved instructions is a promising direction for enhancing large language models. Our codes and generated data are public at https://github.com/nlpxucan/WizardLM
翻訳日:2023-04-25 14:06:34 公開日:2023-04-24
# Pseudo-Photon-Number Resolving DetectorとQuantum Computational Advantageを用いたガウスボソンサンプリング

Gaussian Boson Sampling with Pseudo-Photon-Number Resolving Detectors and Quantum Computational Advantage ( http://arxiv.org/abs/2304.12240v1 )

ライセンス: Link先を確認
Yu-Hao Deng, Yi-Chao Gu, Hua-Liang Liu, Si-Qiu Gong, Hao Su, Zhi-Jiong Zhang, Hao-Yang Tang, Meng-Hao Jia, Jia-Min Xu, Ming-Cheng Chen, Han-Sen Zhong, Jian Qin, Hui Wang, Li-Chao Peng, Jiarong Yan, Yi Hu, Jia Huang, Hao Li, Yuxuan Li, Yaojian Chen, Xiao Jiang, Lin Gan, Guangwen Yang, Lixing You, Li Li, Nai-Le Liu, Jelmer J. Renema, Chao-Yang Lu, Jian-Wei Pan(参考訳) 擬似光子数分解検出を用いた新しいガウス粒子サンプリング実験を行い,最大255個の光子クリックイベントを登録した。 部分光子識別性について考察し,ノイズの多いガウス粒子サンプリングのためのより完全なモデルを構築した。 量子計算優位系では、ベイズテストと相関関数解析を用いて、現在のすべての古典的モックアップに対するサンプルの検証を行う。 これまでで最高の古典的アルゴリズムで推定すると、スーパーコンピュータのフロンティア上の同じ分布から1つの理想的なサンプルを生成するのに600年程度かかるが、我々の量子コンピュータであるJijuhang 3.0はサンプルを作成するのに1.27時間しかかからない。 正確なアルゴリズムを用いて実験から最も厳しいサンプルを生成するにはフロンティアから3.1*10^10年かかる。

We report new Gaussian boson sampling experiments with pseudo-photon-number-resolving detection, which register up to 255 photon-click events. We consider partial photon distinguishability and develop a more complete model for characterization of the noisy Gaussian boson sampling. In the quantum computational advantage regime, we use Bayesian tests and correlation function analysis to validate the samples against all current classical mockups. Estimating with the best classical algorithms to date, generating a single ideal sample from the same distribution on the supercomputer Frontier would take ~ 600 years using exact methods, whereas our quantum computer, Jiuzhang 3.0, takes only 1.27 us to produce a sample. Generating the hardest sample from the experiment using an exact algorithm would take Frontier ~ 3.1*10^10 years.
翻訳日:2023-04-25 14:06:15 公開日:2023-04-24
# Uni-QSAR: 分子特性予測のための自動MLツール

Uni-QSAR: an Auto-ML Tool for Molecular Property Prediction ( http://arxiv.org/abs/2304.12239v1 )

ライセンス: Link先を確認
Zhifeng Gao, Xiaohong Ji, Guojiang Zhao, Hongshuai Wang, Hang Zheng, Guolin Ke, Linfeng Zhang(参考訳) 近年, 深層学習に基づく量的構造活性関係(qsar)モデルが, 従来の薬物発見における特性予測タスクよりも高い性能を示している。 しかし、ほとんどのDLベースのQSARモデルは、より良い性能を得るためにラベル付きデータに制限されており、モデルスケールやハイパーパラメータにも敏感である。 本稿では,分子特性予測タスクのための強力なオートMLツールUni-QSARを提案する。 Uni-QSARは、1Dシーケンシャルトークンの分子表現学習(MRL)、2Dトポロジーグラフと3Dコンバータを事前学習モデルと組み合わせて、大規模未ラベルデータからのリッチ表現を活用する。 手作業による微調整やモデル選択がなければ、Uni-QSARは、設計された並列ワークフロー下でのTDC(Therapeutic Data Commons)ベンチマークの21/22タスクでSOTAよりパフォーマンスが良く、平均パフォーマンスは6.09\%向上する。 さらに, 医薬品発見領域におけるUni-QSARの有用性を実証した。

Recently deep learning based quantitative structure-activity relationship (QSAR) models has shown surpassing performance than traditional methods for property prediction tasks in drug discovery. However, most DL based QSAR models are restricted to limited labeled data to achieve better performance, and also are sensitive to model scale and hyper-parameters. In this paper, we propose Uni-QSAR, a powerful Auto-ML tool for molecule property prediction tasks. Uni-QSAR combines molecular representation learning (MRL) of 1D sequential tokens, 2D topology graphs, and 3D conformers with pretraining models to leverage rich representation from large-scale unlabeled data. Without any manual fine-tuning or model selection, Uni-QSAR outperforms SOTA in 21/22 tasks of the Therapeutic Data Commons (TDC) benchmark under designed parallel workflow, with an average performance improvement of 6.09\%. Furthermore, we demonstrate the practical usefulness of Uni-QSAR in drug discovery domains.
翻訳日:2023-04-25 14:06:00 公開日:2023-04-24
# 教師なし画像間翻訳のためのマルチクロップコントラスト学習

Multi-crop Contrastive Learning for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2304.12235v1 )

ライセンス: Link先を確認
Chen Zhao, Wei-Ling Cai, Zheng Yuan, Cheng-Wei Hu(参考訳) 近年,コントラスト学習に基づく画像から画像への翻訳手法が多くの課題で成果を上げている。 しかし、負は前の作業の入力特徴空間からサンプリングされるため、負は多様性を欠いている。 さらに、埋め込みの潜在空間では、前の手法では生成された画像と対象ドメインの実画像とのドメイン一貫性を無視する。 本稿では,MCCUTと呼ばれる画像間翻訳のための新しいコントラスト学習フレームワークを提案する。 マルチクロップビューを用いて、中心クロップとランダムクロップを介して負を生成することにより、負の多様性を向上し、一方、負の質を向上させることができる。 深い特徴空間への埋め込みを制約するために、生成された画像が同じ領域の埋め込み空間内の実画像に近付くように促す新しいドメイン一貫性損失関数を定式化する。 さらに、位置情報をSENetに埋め込み、DCSEモジュールと呼ばれる2つの座標チャネルアテンションネットワークを提案する。 我々はジェネレータの設計にDCSEモジュールを使用し、ジェネレータはより重みのあるチャネルにより多くの注意を払っている。 多くの画像と画像の翻訳タスクにおいて,本手法は最先端の成果を達成し,その利点は広範囲な比較実験とアブレーション研究によって証明されている。

Recently, image-to-image translation methods based on contrastive learning achieved state-of-the-art results in many tasks. However, the negatives are sampled from the input feature spaces in the previous work, which makes the negatives lack diversity. Moreover, in the latent space of the embedings,the previous methods ignore domain consistency between the generated image and the real images of target domain. In this paper, we propose a novel contrastive learning framework for unpaired image-to-image translation, called MCCUT. We utilize the multi-crop views to generate the negatives via the center-crop and the random-crop, which can improve the diversity of negatives and meanwhile increase the quality of negatives. To constrain the embedings in the deep feature space,, we formulate a new domain consistency loss function, which encourages the generated images to be close to the real images in the embedding space of same domain. Furthermore, we present a dual coordinate channel attention network by embedding positional information into SENet, which called DCSE module. We employ the DCSE module in the design of generator, which makes the generator pays more attention to channels with greater weight. In many image-to-image translation tasks, our method achieves state-of-the-art results, and the advantages of our method have been proved through extensive comparison experiments and ablation research.
翻訳日:2023-04-25 14:05:41 公開日:2023-04-24
# インバータブルニューラルネットワークを用いた大容量フレキシブルビデオステガノグラフィ

Large-capacity and Flexible Video Steganography via Invertible Neural Network ( http://arxiv.org/abs/2304.12300v1 )

ライセンス: Link先を確認
Chong Mou, Youmin Xu, Jiechong Song, Chen Zhao, Bernard Ghanem, Jian Zhang(参考訳) ビデオステガノグラフィ(英: video steganography)とは、秘密データを隠して、受信側端の復号プロトコルを介して秘密データを復元する技術である。 いくつかの試みがなされているが、そのほとんどは低容量と固定ステガノグラフィーに限られている。 本稿では,これらの弱点を正すため,大容量で柔軟なビデオステガノグラフィーネットワーク(lf-vsn)を提案する。 大容量のために、単一の可逆ニューラルネットワーク(INN)を介して複数のビデオの隠蔽と回復を行う可逆パイプラインを提案する。 提案手法は、7本の秘密映像を1枚のカバービデオに隠蔽・復元できる。 柔軟性のために,異なる受信者が同一のカバービデオから特定のキーを通じて特定の秘密映像を復元できるキー制御方式を提案する。 さらに、複数のビデオの隠蔽において、単一のモデルと単一のトレーニングセッションで、様々な数の秘密映像を隠蔽できるスケーラブルな戦略を提案することにより、柔軟性をさらに向上する。 ビデオステガノグラフィー性能の大幅な向上により,提案したLF-VSNは高いセキュリティ,大規模な隠蔽能力,柔軟性を有することが示された。 ソースコードはhttps://github.com/MC-E/LF-VSN.comで入手できる。

Video steganography is the art of unobtrusively concealing secret data in a cover video and then recovering the secret data through a decoding protocol at the receiver end. Although several attempts have been made, most of them are limited to low-capacity and fixed steganography. To rectify these weaknesses, we propose a Large-capacity and Flexible Video Steganography Network (LF-VSN) in this paper. For large-capacity, we present a reversible pipeline to perform multiple videos hiding and recovering through a single invertible neural network (INN). Our method can hide/recover 7 secret videos in/from 1 cover video with promising performance. For flexibility, we propose a key-controllable scheme, enabling different receivers to recover particular secret videos from the same cover video through specific keys. Moreover, we further improve the flexibility by proposing a scalable strategy in multiple videos hiding, which can hide variable numbers of secret videos in a cover video with a single model and a single training session. Extensive experiments demonstrate that with the significant improvement of the video steganography performance, our proposed LF-VSN has high security, large hiding capacity, and flexibility. The source code is available at https://github.com/MC-E/LF-VSN.
翻訳日:2023-04-25 13:59:27 公開日:2023-04-24
# 3次元偏波空間モードを持つ高次元量子鍵分布の逆設計による可変ベクトルビームデコーダ

Tunable vector beam decoder by inverse design for high-dimensional quantum key distribution with 3D polarized spatial modes ( http://arxiv.org/abs/2304.12296v1 )

ライセンス: Link先を確認
Eileen Otte (1), Alexander D. White (2), Nicholas A. G\"usken (1), Jelena Vu\v{c}kovi\'c (2), Mark L. Brongersma (1) ((1) Geballe Laboratory for Advance Materials, Stanford University, Stanford, CA, USA, (2) E. L. Ginzton Laboratory, Stanford University, Stanford, CA, USA)(参考訳) 光の空間モードは次元を増やすために非常に魅力的になり、量子鍵分布(QKD)におけるセキュリティと情報容量が増大している。 これまでは横電界成分のみが検討されてきたが、縦偏光成分は無視されている。 本稿では,qkdにおける電界振動の3つの空間次元を,波長可変なオン・ア・チップベクトルビームデコーダ(vbd)を実装して包含する手法を提案する。 この逆設計装置は、高次元(HD)QKDに対する3次元偏光非偏光基底状態の「準備」と「測定」を開拓し、多機能オンチップフォトニクスプラットフォームにおける空間モードとHD QKDの統合の道を開く。

Spatial modes of light have become highly attractive to increase the dimension and, thereby, security and information capacity in quantum key distribution (QKD). So far, only transverse electric field components have been considered, while longitudinal polarization components have remained neglected. Here, we present an approach to include all three spatial dimensions of electric field oscillation in QKD by implementing our tunable, on-a-chip vector beam decoder (VBD). This inversely designed device pioneers the "preparation" and "measurement" of three-dimensionally polarized mutually unbiased basis states for high-dimensional (HD) QKD and paves the way for the integration of HD QKD with spatial modes in multifunctional on-a-chip photonics platforms.
翻訳日:2023-04-25 13:59:08 公開日:2023-04-24
# 一般化可能なニューラルラジアンスフィールドのための明示的対応マッチング

Explicit Correspondence Matching for Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2304.12294v1 )

ライセンス: Link先を確認
Yuedong Chen, Haofei Xu, Qianyi Wu, Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai(参考訳) 本稿では,未発見のシナリオに直接一般化し,2つのソースビューで新規なビュー合成を行うことのできる,新しい一般化可能なnerf法を提案する。 提案手法の鍵となるのは、NeRF色とボリュームレンダリングの密度の予測に先立って幾何を提供するために、明示的にモデル化された対応情報である。 明示的対応マッチングは、異なるビュー上の3dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化され、表面幾何学に関する信頼できる手がかりを提供することができる。 画像特徴を各ビューごとに独立に抽出する従来の手法とは異なり、トランスフォーマーのクロスアテンションによるクロスビューインタラクションをモデル化し、特徴マッチングの品質を大幅に改善する。 本手法は,学習したコサイン特徴の類似度と体積密度との間に強い相関関係を示し,提案手法の有効性と優越性を示す。 コードはhttps://github.com/donydchen/matchnerfにある。

We present a new generalizable NeRF method that is able to directly generalize to new unseen scenarios and perform novel view synthesis with as few as two source views. The key to our approach lies in the explicitly modeled correspondence matching information, so as to provide the geometry prior to the prediction of NeRF color and density for volume rendering. The explicit correspondence matching is quantified with the cosine similarity between image features sampled at the 2D projections of a 3D point on different views, which is able to provide reliable cues about the surface geometry. Unlike previous methods where image features are extracted independently for each view, we consider modeling the cross-view interactions via Transformer cross-attention, which greatly improves the feature matching quality. Our method achieves state-of-the-art results on different evaluation settings, with the experiments showing a strong correlation between our learned cosine feature similarity and volume density, demonstrating the effectiveness and superiority of our proposed method. Code is at https://github.com/donydchen/matchnerf
翻訳日:2023-04-25 13:58:50 公開日:2023-04-24
# 共通ランダム化測定による量子特性の高次推定

Enhanced estimation of quantum properties with common randomized measurements ( http://arxiv.org/abs/2304.12292v1 )

ライセンス: Link先を確認
Beno\^it Vermersch, Aniket Rath, Bharathan Sundar, Cyril Branciard, John Preskill, Andreas Elben(参考訳) 本稿では、関心の量子状態に関するおよその事前知識を取り入れて、量子状態特性の推定を向上させる手法を提案する。 この方法は、量子プロセッサ上でランダム化測定を行い、量子状態の近似を記憶する古典的なコンピュータから得られた結果と比較することを含む。 マルチコピーオブザーバの期待値に対するバイアスのない推定器を提供し、従来の知識精度に依存する分散境界の観点から性能保証を行う。 数値実験により,フォン・ノイマンエントロピーと量子状態ファイバーの多項式近似を推定し,本手法の有効性を示す。

We present a technique for enhancing the estimation of quantum state properties by incorporating approximate prior knowledge about the quantum state of interest. This method involves performing randomized measurements on a quantum processor and comparing the results with those obtained from a classical computer that stores an approximation of the quantum state. We provide unbiased estimators for expectation values of multi-copy observables and present performance guarantees in terms of variance bounds which depend on the prior knowledge accuracy. We demonstrate the effectiveness of our approach through numerical experiments estimating polynomial approximations of the von Neumann entropy and quantum state fidelities.
翻訳日:2023-04-25 13:58:32 公開日:2023-04-24
# 後方移動による前方移動:アクションセマンティックスに対するアクションインパクトの埋め込み

Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics ( http://arxiv.org/abs/2304.12289v1 )

ライセンス: Link先を確認
Kuo-Hao Zeng, Luca Weihs, Roozbeh Mottaghi, Ali Farhadi(参考訳) 例えば、"Move ahead"アクションを実行すると、エージェントは常に一定の距離を移動し、おそらく少数のアクチュエータが引き起こしたノイズでエージェントを前進させる。 この仮定は限定的であり、エージェントはアクションの影響を劇的に変化させる設定に遭遇する可能性がある:濡れた床で前進するアクションはエージェントを予想の2倍の速さで送り、車輪が壊れた場合と同じアクションを使用すると、期待される変換が回転に変換される。 動作の影響が,その事前定義された意味的意味を安定的に反映する代わりに,潜在埋め込みを用いたオンザフライ動作の影響をモデル化することを提案する。 これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、AAP(Action Adaptive Policy)を設計する。 我々はAI2-THOR環境とHabitat環境における2つの困難な視覚ナビゲーションタスクについてAAPを評価し、AAPが直面するときでも、動作不足と、これまで見えなかった乱れのあるアクション空間において、推論時に高いパフォーマンスを示す。 さらに,実世界のシナリオでの評価において,これらの行動に対する堅牢性に大きな改善が見られた。

A common assumption when training embodied agents is that the impact of taking an action is stable; for instance, executing the "move ahead" action will always move the agent forward by a fixed distance, perhaps with some small amount of actuator-induced noise. This assumption is limiting; an agent may encounter settings that dramatically alter the impact of actions: a move ahead action on a wet floor may send the agent twice as far as it expects and using the same action with a broken wheel might transform the expected translation into a rotation. Instead of relying that the impact of an action stably reflects its pre-defined semantic meaning, we propose to model the impact of actions on-the-fly using latent embeddings. By combining these latent action embeddings with a novel, transformer-based, policy head, we design an Action Adaptive Policy (AAP). We evaluate our AAP on two challenging visual navigation tasks in the AI2-THOR and Habitat environments and show that our AAP is highly performant even when faced, at inference-time with missing actions and, previously unseen, perturbed action space. Moreover, we observe significant improvement in robustness against these actions when evaluating in real-world scenarios.
翻訳日:2023-04-25 13:58:25 公開日:2023-04-24
# Synthpop++: 国規模の合成人口を生成するためのハイブリッドフレームワーク

Synthpop++: A Hybrid Framework for Generating A Country-scale Synthetic Population ( http://arxiv.org/abs/2304.12284v1 )

ライセンス: Link先を確認
Bhavesh Neekhra, Kshitij Kapoor, Debayan Gupta(参考訳) 人口調査は公共政策決定に不可欠である。 それらは、人的資源、デモグラフィ、文化、経済構造について、地域、地域、国レベルでの洞察を提供する。 しかし、こうした調査は非常に高価で(特にインドのような人口の多い低所得国や中所得国では)、時間を要するため、収集されたデータの種類によってプライバシー上の懸念も高まる可能性がある。 これらの問題を踏まえて、我々はSynthPop++という新しいハイブリッドフレームワークを紹介します。これは、複数の現実世界のサーベイ(属性の異なる部分的な重なり合うセット)のデータを組み合わせて、人間の実スケールの合成人口を生成することができるものです。 批判的に、我々の人口は人口動態、社会経済、健康、位置情報の属性を持つ個人からなる家族構造を維持している。 このようなデータは,インドにおける感染症のエージェント・ベース・モデリングという,さまざまな目的で利用することができる。 人工人口の質を評価するために、機械学習と統計メトリクスの両方を使用します。 実験の結果, 人工人口はインドの様々な行政単位の人口を現実的にシミュレートし, 都市から地域, 州に至るまで, 望まれるズームレベルの詳細なデータを生成し, 最終的に国規模の人工人口を形成することができた。

Population censuses are vital to public policy decision-making. They provide insight into human resources, demography, culture, and economic structure at local, regional, and national levels. However, such surveys are very expensive (especially for low and middle-income countries with high populations, such as India), time-consuming, and may also raise privacy concerns, depending upon the kinds of data collected. In light of these issues, we introduce SynthPop++, a novel hybrid framework, which can combine data from multiple real-world surveys (with different, partially overlapping sets of attributes) to produce a real-scale synthetic population of humans. Critically, our population maintains family structures comprising individuals with demographic, socioeconomic, health, and geolocation attributes: this means that our ``fake'' people live in realistic locations, have realistic families, etc. Such data can be used for a variety of purposes: we explore one such use case, Agent-based modelling of infectious disease in India. To gauge the quality of our synthetic population, we use both machine learning and statistical metrics. Our experimental results show that synthetic population can realistically simulate the population for various administrative units of India, producing real-scale, detailed data at the desired level of zoom -- from cities, to districts, to states, eventually combining to form a country-scale synthetic population.
翻訳日:2023-04-25 13:58:02 公開日:2023-04-24
# HOSNeRF:シングルビデオからの動的人間-物体-シーンニューラルラジアンス場

HOSNeRF: Dynamic Human-Object-Scene Neural Radiance Fields from a Single Video ( http://arxiv.org/abs/2304.12281v1 )

ライセンス: Link先を確認
Jia-Wei Liu, Yan-Pei Cao, Tianyuan Yang, Eric Zhongcong Xu, Jussi Keppo, Ying Shan, Xiaohu Qie, Mike Zheng Shou(参考訳) HOSNeRFは、単一のモノクラーインザワイルドビデオから動的人間オブジェクトシーンのための神経放射場を再構成する、新しい360{\deg}自由視点レンダリング手法である。 本手法は,任意のフレームで映像をパージングし,任意の視点からシーンの詳細(人間,物体,背景)をレンダリングする。 この課題の最初の課題は、人間と物体の相互作用における複雑な物体の動きであり、従来の人間の骨格構造に新しい物体骨を導入し、動的物体モデルにおける大きな物体の変形を効果的に推定する。 第2の課題は、人間が異なる時間に異なるオブジェクトと対話することであり、そこでは、人間のオブジェクト表現とシーン表現を学ぶための条件として使用できる2つの学習可能なオブジェクト状態埋め込みを導入します。 大規模な実験により、HOSNeRFは2つの挑戦的データセットに対するSOTAアプローチをLPIPSの40%~50%で大幅に上回った。 360{\deg}のフリービューポイントレンダリングのコード、データ、説得力のある例がhttps://showlab.github.io/hosnerfで公開される。

We introduce HOSNeRF, a novel 360{\deg} free-viewpoint rendering method that reconstructs neural radiance fields for dynamic human-object-scene from a single monocular in-the-wild video. Our method enables pausing the video at any frame and rendering all scene details (dynamic humans, objects, and backgrounds) from arbitrary viewpoints. The first challenge in this task is the complex object motions in human-object interactions, which we tackle by introducing the new object bones into the conventional human skeleton hierarchy to effectively estimate large object deformations in our dynamic human-object model. The second challenge is that humans interact with different objects at different times, for which we introduce two new learnable object state embeddings that can be used as conditions for learning our human-object representation and scene representation, respectively. Extensive experiments show that HOSNeRF significantly outperforms SOTA approaches on two challenging datasets by a large margin of 40% ~ 50% in terms of LPIPS. The code, data, and compelling examples of 360{\deg} free-viewpoint renderings from single videos will be released in https://showlab.github.io/HOSNeRF.
翻訳日:2023-04-25 13:57:36 公開日:2023-04-24
# Stubborn: インセンティブのあるエージェント間のスタバボーン性を評価する環境

Stubborn: An Environment for Evaluating Stubbornness between Agents with Aligned Incentives ( http://arxiv.org/abs/2304.12280v1 )

ライセンス: Link先を確認
Ram Rachum, Yonatan Nakar, Reuth Mirsky(参考訳) マルチエージェント強化学習(MARL)の最近の研究は、社会的行動と協調の学習に成功している。 混合サム設定におけるエージェント間の社会的ジレンマは広く研究されているが、他のエージェントの費用で報酬を得る見込みのない完全協調環境での社会的ジレンマについてはほとんど研究されていない。 完全一致の利益はエージェント間の協力に寄与するが、彼らはそれを保証しない。 我々は,その名称を冠する人間の社会的行動を捉えようとするエージェント間の「頑固さ」の尺度を提案し,その不一致は徐々にエスカレートし,潜在的に悲惨なものになる可能性がある。 エージェントの頑固な傾向、対応するエージェントの反応、結果として生じる社会的ダイナミクスについて、研究を進めたいと思います。 本稿では,完全一致するインセンティブを有するエージェント間の頑固さを評価するための環境であるstubbornを提案する。 予備的な結果から, エージェントは, パートナーの頑固さを, 環境における選択性を改善するシグナルとして利用することを学ぶ。

Recent research in multi-agent reinforcement learning (MARL) has shown success in learning social behavior and cooperation. Social dilemmas between agents in mixed-sum settings have been studied extensively, but there is little research into social dilemmas in fullycooperative settings, where agents have no prospect of gaining reward at another agent's expense. While fully-aligned interests are conducive to cooperation between agents, they do not guarantee it. We propose a measure of "stubbornness" between agents that aims to capture the human social behavior from which it takes its name: a disagreement that is gradually escalating and potentially disastrous. We would like to promote research into the tendency of agents to be stubborn, the reactions of counterpart agents, and the resulting social dynamics. In this paper we present Stubborn, an environment for evaluating stubbornness between agents with fully-aligned incentives. In our preliminary results, the agents learn to use their partner's stubbornness as a signal for improving the choices that they make in the environment.
翻訳日:2023-04-25 13:57:19 公開日:2023-04-24
# ブラックホール放射における重力の揺らぎ力の無関係について

On the irrelevance of the scrambling power of gravity for black hole radiation ( http://arxiv.org/abs/2304.12278v1 )

ライセンス: Link先を確認
Xuan-Lin Su, Alioscia Hamma and Antonino Marciano(参考訳) ブラックホールは、事象の地平線に特徴付けられる一般相対性理論の予測であり、そこから情報は逃れられない。 量子力学のレンズを通して観察すると、質量と地平線半径に対して一定の温度で放射することができる。 ホーキング放射は、ブラックホールから散乱する粒子を考慮し、スペクトルが計算され、それらの中に落下する情報の損失のパラドックスと結びついている。 情報は揺るぎなくなりかねない。 平坦な時空間におけるソフトな放射散乱は、スクランブル情報も行う。 この目的のために、ブラックホールからの散乱過程における三成分相互情報を介して情報のスクランブルを計算し、平坦な時空アナログと比較する。 ブラックホールの重力場の揺らぎ力は、平坦な時空の揺らぎ力に対して無視可能であることを示す。

Black holes are a recently observed theoretical prediction of General Relativity, characterized by event horizons, from which information cannot escape. Examined through the lenses of quantum mechanics, they can radiate at a definite temperature inverse to their mass and horizon radius. Hawking radiation, whose spectrum was calculated considering particles scattering off black holes, is connected to the paradox of the loss of information falling into them. Information can become non-fungible, due to scrambling. We demonstrate this feature not to be restricted to curved space-times: soft radiation scattering in a flat space-time does scramble information as well. To this end, we compute the scrambling of information through the tripartite mutual information in a scattering process off a black hole and compare it with the flat space-time analog. We show that the scrambling power of the gravitational field of a black hole is negligible with respect to the scrambling power of flat space-time.
翻訳日:2023-04-25 13:57:03 公開日:2023-04-24
# ソフト光子のスクランブルパワー

Scrambling Power of Soft Photons ( http://arxiv.org/abs/2304.12277v1 )

ライセンス: Link先を確認
Xuan-Lin Su, Alioscia Hamma and Antonino Marciano(参考訳) 可観測散乱過程は軟質光子の発光吸収を伴う。 これらの自由度が検出されないと、いくつかの情報は失われる。 この情報の一部が硬質光子の観測で回収できるかどうかは、情報のスクランブルの実際のパターンに依存する。 2-renyiエントロピーの観点から3部共役情報による光子散乱の情報スクランブルを計算し,有限量のスクランブルが存在することを確認する。 開発された手法は、ブラックホール情報損失パラドックスに新しい光を当て、スクランブルは、完全に一元的な過程におけるソフト光子の放出吸収のため、散乱系が環境との相互作用において達成した非一貫性の副産物であることを示した。

Observable scattering processes entail emission-absorption of soft photons. As these degrees of freedom go undetected, some information is lost. Whether some of this information can be recovered in the observation of the hard photons, depends of the actual pattern of the scrambling of information. We compute the information scrambling of photon scattering by the tripartite mutual information in terms of the 2-Renyi entropy, and find a finite amount of scrambling is present. The developed procedure thus sheds novel light on the black hole information loss paradox, showing that scrambling is a byproduct of decoherence achieved by the scattering system in its interaction with the environment, due to the emission-absorption of soft photons in fully unitary processes.
翻訳日:2023-04-25 13:56:49 公開日:2023-04-24
# ボディードビュー合成のための変形可能なシーン再構成

Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis ( http://arxiv.org/abs/2304.12317v1 )

ライセンス: Link先を確認
Chonghyuk Song, Gengshan Yang, Kangle Deng, Jun-Yan Zhu, Deva Ramanan(参考訳) 変形可能なシーンのモノクロ映像から映像合成を具体化する作業について検討する。 ペットと対話する人の1分間のrgbd映像を撮ると、俳優のシーンの動きから得られた新しいカメラの軌跡から、(1)ターゲット俳優の視点をシミュレートするエゴセントリックカメラ、(2)俳優に追随する3人のカメラのシーンを描き出す。 このようなシステムを構築するには、シーン内の各アクターの根体と関節の動きを再構築し、自由視点合成をサポートするシーン表現が必要である。 より長いビデオは、さまざまな視点からシーンを捉え(再構成を助ける)が、より大きな動きを含む(再構成を複雑にする)傾向も高い。 そこで本研究では,長大のrgbdビデオから変形可能なシーンをフォトリアリスティックに再構成する最初の手法であるtotal-reconを提案する。 要は,長いビデオにスケールするために,シーンの動きを各物体の動作に階層的に分解し,その動作自体を大域的な根体運動と局所的な調音に分解する。 このような「野生内」の再構成とビューの合成を定量化するため、特殊なステレオrgbdキャプチャリグから地上データを収集し、11のチャレンジ映像を収集した。 コード、ビデオ、データはhttps://andrewsonga.github.io/totalreconで見ることができる。

We explore the task of embodied view synthesis from monocular videos of deformable scenes. Given a minute-long RGBD video of people interacting with their pets, we render the scene from novel camera trajectories derived from in-scene motion of actors: (1) egocentric cameras that simulate the point of view of a target actor and (2) 3rd-person cameras that follow the actor. Building such a system requires reconstructing the root-body and articulated motion of each actor in the scene, as well as a scene representation that supports free-viewpoint synthesis. Longer videos are more likely to capture the scene from diverse viewpoints (which helps reconstruction) but are also more likely to contain larger motions (which complicates reconstruction). To address these challenges, we present Total-Recon, the first method to photorealistically reconstruct deformable scenes from long monocular RGBD videos. Crucially, to scale to long videos, our method hierarchically decomposes the scene motion into the motion of each object, which itself is decomposed into global root-body motion and local articulations. To quantify such "in-the-wild" reconstruction and view synthesis, we collect ground-truth data from a specialized stereo RGBD capture rig for 11 challenging videos, significantly outperforming prior art. Code, videos, and data can be found at https://andrewsonga.github.io/totalrecon .
翻訳日:2023-04-25 13:50:47 公開日:2023-04-24
# ひとたび検知されると、Never Lost:オフラインLiDARによる3Dオブジェクト検出における人的パフォーマンスの回避

Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection ( http://arxiv.org/abs/2304.12315v1 )

ライセンス: Link先を確認
Lue Fan, Yuxue Yang, Yiming Mao, Feng Wang, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang(参考訳) 本稿では,高性能なオフラインLiDARによる3Dオブジェクト検出を実現することを目的とする。 まず、経験豊富な人間のアノテーションが、トラック中心の観点からオブジェクトに注釈を付けることを観察する。 彼らはまず、トラックに明確な形状のオブジェクトをラベル付けし、その後、時間的コヒーレンスを利用して不明瞭なオブジェクトのアノテーションを推測する。 そこで我々は,従来の物体中心の視点ではなく,トラック中心の視点で高性能なオフライン検出器を提案する。 本手法は,双方向トラッキングモジュールとトラック中心学習モジュールを備える。 このような設計により、物体が特定の瞬間に検出されると、検出者が完全な軌道を推測し、精査することができる。 この特徴を「onCe detecTed, neveR Lost」と呼び、提案するシステムCTRLを命名する。 モデルアンサンブルを伴わない高度競争力のあるWaymo Open Datasetにおいて,人間レベルのアノテート精度と従来の最先端手法を上回り,本手法の顕著な性能を示す実験を行った。 コードはhttps://github.com/tusen-ai/SSTで公開される。

This paper aims for high-performance offline LiDAR-based 3D object detection. We first observe that experienced human annotators annotate objects from a track-centric perspective. They first label the objects with clear shapes in a track, and then leverage the temporal coherence to infer the annotations of obscure objects. Drawing inspiration from this, we propose a high-performance offline detector in a track-centric perspective instead of the conventional object-centric perspective. Our method features a bidirectional tracking module and a track-centric learning module. Such a design allows our detector to infer and refine a complete track once the object is detected at a certain moment. We refer to this characteristic as "onCe detecTed, neveR Lost" and name the proposed system CTRL. Extensive experiments demonstrate the remarkable performance of our method, surpassing the human-level annotating accuracy and the previous state-of-the-art methods in the highly competitive Waymo Open Dataset without model ensemble. The code will be made publicly available at https://github.com/tusen-ai/SST.
翻訳日:2023-04-25 13:50:21 公開日:2023-04-24
# 予算の移動学習における類似課題からの蒸留

Distilling from Similar Tasks for Transfer Learning on a Budget ( http://arxiv.org/abs/2304.12314v1 )

ライセンス: Link先を確認
Kenneth Borup, Cheng Perng Phoo and Bharath Hariharan(参考訳) ラベルを限定した効率的かつ正確な認識システムを実現するという課題に対処する。 認識モデルはモデルサイズとデータ量によって改善されるが、コンピュータビジョンの専門的な応用の多くは、トレーニングと推論の両方において厳しい資源制約を持っている。 転送学習は、ラベルの少ないトレーニングに有効なソリューションであるが、大きなベースモデルの計算的にコストのかかる微調整を犠牲にすることがしばしばある。 本稿では,多種多様な原料モデルから半教師付きクロスドメイン蒸留により,計算と精度との不快なトレードオフを軽減することを提案する。 はじめに、タスク類似度メトリクスを使用して、蒸留に適した1つのソースモデルを選択する方法を示し、適切な選択プロセスが、ターゲットモデルの適切な下流パフォーマンスに不可欠であることを示す。 このアプローチはDistillNearestをダブしています。 DistillNearestは効果的だが、単一のソースモデルがターゲットのタスクと一致していると仮定する。 そこで本研究では, 異なる領域で訓練された複数の原料モデルを, 目的とするタスクに重み付けして, 単一の効率的なモデルに蒸留する重み付け多元蒸留法を提案する。 我々のメソッドはソースデータへのアクセスを必要とせず、単にソースモデルのフィーチャと擬似ラベルを必要とします。 目的が計算上の制約の下での正確な認識である場合、distillnearestとdistillweightedの両方のアプローチは、強力なimagenet初期化からの転送学習とfixmatchのような最先端のセミ教師付き技術の両方よりも優れている。 私たちのマルチソースメソッドは、平均8つ以上の多様なターゲットタスクでベースラインを5.6%ポイントと4.5%ポイントで上回ります。

We address the challenge of getting efficient yet accurate recognition systems with limited labels. While recognition models improve with model size and amount of data, many specialized applications of computer vision have severe resource constraints both during training and inference. Transfer learning is an effective solution for training with few labels, however often at the expense of a computationally costly fine-tuning of large base models. We propose to mitigate this unpleasant trade-off between compute and accuracy via semi-supervised cross-domain distillation from a set of diverse source models. Initially, we show how to use task similarity metrics to select a single suitable source model to distill from, and that a good selection process is imperative for good downstream performance of a target model. We dub this approach DistillNearest. Though effective, DistillNearest assumes a single source model matches the target task, which is not always the case. To alleviate this, we propose a weighted multi-source distillation method to distill multiple source models trained on different domains weighted by their relevance for the target task into a single efficient model (named DistillWeighted). Our methods need no access to source data, and merely need features and pseudo-labels of the source models. When the goal is accurate recognition under computational constraints, both DistillNearest and DistillWeighted approaches outperform both transfer learning from strong ImageNet initializations as well as state-of-the-art semi-supervised techniques such as FixMatch. Averaged over 8 diverse target tasks our multi-source method outperforms the baselines by 5.6%-points and 4.5%-points, respectively.
翻訳日:2023-04-25 13:50:01 公開日:2023-04-24
# ExCalibR: 勧告の校正を期待

ExCalibR: Expected Calibration of Recommendations ( http://arxiv.org/abs/2304.12311v1 )

ライセンス: Link先を確認
Pannagadatta Shivaswamy(参考訳) 多くのレコメンデータシステムや検索問題では、高度に関連性の高いコンテンツの提供に加えて、バランスのとれた結果のセットを提示することが重要な目標となる。 例えば、映画のレコメンデーションシステムでは、異なるジャンルの特定のバランスを達成するのに役立つかもしれないし、非常に人気の高い番組と高いパーソナライズされた番組のバランスをとることが重要であるかもしれない。 このようなバランスは、多くのカテゴリで考えることができ、ユーザエクスペリエンスの向上、ビジネス上の考慮、公正な目標などに必要な可能性がある。 本稿では,アイテム上の任意のカテゴリについて,キャリブレーションの問題を考える。 線形プログラミング最適化問題を用いて,2つの確率行列を学習し,期待値の最適バランスを実現することにより,妥当性とキャリブレーションのトレードオフをバランスさせる手法を提案する。 次に,二重確率行列のbirkhoff-von neumann分解を用いて学習方針を実現する。 提案手法を高速化するための最適化がいくつか検討されている。 実験により,提案された定式化は,他の多くのベースラインよりもはるかに優れたトレードオフが得られることが示された。 本論文は,(ジャンルなど)応用を普遍的に校正するための厳密な分類を定めていない。 これはおそらく特定のタスクやビジネスの目的に依存します。 本論文の主な貢献は,様々な問題に適用可能なフレームワークを提案し,いくつかのユースケースを用いて提案手法の有効性を実証することである。

In many recommender systems and search problems, presenting a well balanced set of results can be an important goal in addition to serving highly relevant content. For example, in a movie recommendation system, it may be helpful to achieve a certain balance of different genres, likewise, it may be important to balance between highly popular versus highly personalized shows. Such balances could be thought across many categories and may be required for enhanced user experience, business considerations, fairness objectives etc. In this paper, we consider the problem of calibrating with respect to any given categories over items. We propose a way to balance a trade-off between relevance and calibration via a Linear Programming optimization problem where we learn a doubly stochastic matrix to achieve optimal balance in expectation. We then realize the learned policy using the Birkhoff-von Neumann decomposition of a doubly stochastic matrix. Several optimizations are considered over the proposed basic approach to make it fast. The experiments show that the proposed formulation can achieve a much better trade-off compared to many other baselines. This paper does not prescribe the exact categories to calibrate over (such as genres) universally for applications. This is likely dependent on the particular task or business objective. The main contribution of the paper is that it proposes a framework that can be applied to a variety of problems and demonstrates the efficacy of the proposed method using a few use-cases.
翻訳日:2023-04-25 13:49:35 公開日:2023-04-24
# 3次元物体検出のための完全スパース融合

Fully Sparse Fusion for 3D Object Detection ( http://arxiv.org/abs/2304.12310v1 )

ライセンス: Link先を確認
Yingyan Li, Lue Fan, Yang Liu, Zehao Huang, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang and Tieniu Tan(参考訳) 現在一般的なマルチモーダル3d検出手法は、通常高密度バードズ・アイビュー(bev)特徴マップを使用するlidarベースの検出器上に構築されている。 しかし、このようなBEV特徴マップのコストは検出範囲に2次的であるため、長距離検出には適さない。 完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため注目されている。 本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。 特にインスタンスクエリを利用することで,十分に研究された2dインスタンスセグメンテーションをlidar側に統合し,完全なスパース検出器内の3dインスタンスセグメンテーション部分と並列化する。 この設計は,完全スパース特性を維持しつつ,2次元と3次元の両面に均一なクエリベースの融合フレームワークを実現する。 広範な実験では、広く使われているnuscenesデータセットとlong-range argoverse 2データセットの最先端の結果が示されている。 特に、長距離LiDAR認識設定における提案手法の推論速度は、他の最先端マルチモーダル3D検出方法よりも2.7$\times$である。 コードは \url{https://github.com/BraveGroup/FullySparseFusion} でリリースされる。

Currently prevalent multimodal 3D detection methods are built upon LiDAR-based detectors that usually use dense Bird's-Eye-View (BEV) feature maps. However, the cost of such BEV feature maps is quadratic to the detection range, making it not suitable for long-range detection. Fully sparse architecture is gaining attention as they are highly efficient in long-range perception. In this paper, we study how to effectively leverage image modality in the emerging fully sparse architecture. Particularly, utilizing instance queries, our framework integrates the well-studied 2D instance segmentation into the LiDAR side, which is parallel to the 3D instance segmentation part in the fully sparse detector. This design achieves a uniform query-based fusion framework in both the 2D and 3D sides while maintaining the fully sparse characteristic. Extensive experiments showcase state-of-the-art results on the widely used nuScenes dataset and the long-range Argoverse 2 dataset. Notably, the inference speed of the proposed method under the long-range LiDAR perception setting is 2.7 $\times$ faster than that of other state-of-the-art multimodal 3D detection methods. Code will be released at \url{https://github.com/BraveGroup/FullySparseFusion}.
翻訳日:2023-04-25 13:49:12 公開日:2023-04-24
# NeRFによる3次元のセグメンテーション

Segment Anything in 3D with NeRFs ( http://arxiv.org/abs/2304.12308v1 )

ライセンス: Link先を確認
Jiazhong Cen, Zanwei Zhou, Jiemin Fang, Wei Shen, Lingxi Xie, Xiaopeng Zhang, Qi Tian(参考訳) segment anything model (sam) は、様々な2d画像における任意のオブジェクト/パーツのセグメント化に有効性を示しているが、3dの能力は十分に検討されていない。 現実世界は多くの3Dシーンとオブジェクトで構成されています。 アクセス可能な3Dデータの不足と、その取得とアノテーションの高コストのため、SAMを3Dに持ち上げることは、難しいが価値のある研究道である。 これを念頭に、我々はSA3Dという3Dのセグメンテーションのための新しいフレームワークを提案する。 neural radiance field(nerf)モデルが与えられた場合、sa3dは、単一のレンダリングビューでプロンプトするワンショットマニュアルだけで、任意のターゲットオブジェクトの3dセグメンテーション結果を得ることができる。 入力プロンプトによって、samは、そのビューからターゲットオブジェクトを除外する。 得られた2dセグメンテーションマスクは密度誘導逆レンダリングにより3dマスクグリッドに投影される。 他のビューからの2Dマスクはレンダリングされ、ほとんど未完成だが、SAMに再び入力するためにクロスビューのセルフプロンプトとして使用される。 完全なマスクは、マスクグリッド上で取得および投影することができる。 この手順は反復的に行われ、正確な3dマスクは最終的に学べる。 SA3Dは、追加の再設計なしに、様々な放射場に効果的に適応することができる。 セグメンテーションプロセス全体は、エンジニアリング最適化なしで約2分で完了することができる。 実験では, 異なる場面におけるSA3Dの有効性を実証し, 3次元シーン知覚におけるSAMの可能性を強調した。 プロジェクトページはhttps://jumpat.github.io/SA3D/。

The Segment Anything Model (SAM) has demonstrated its effectiveness in segmenting any object/part in various 2D images, yet its ability for 3D has not been fully explored. The real world is composed of numerous 3D scenes and objects. Due to the scarcity of accessible 3D data and high cost of its acquisition and annotation, lifting SAM to 3D is a challenging but valuable research avenue. With this in mind, we propose a novel framework to Segment Anything in 3D, named SA3D. Given a neural radiance field (NeRF) model, SA3D allows users to obtain the 3D segmentation result of any target object via only one-shot manual prompting in a single rendered view. With input prompts, SAM cuts out the target object from the according view. The obtained 2D segmentation mask is projected onto 3D mask grids via density-guided inverse rendering. 2D masks from other views are then rendered, which are mostly uncompleted but used as cross-view self-prompts to be fed into SAM again. Complete masks can be obtained and projected onto mask grids. This procedure is executed via an iterative manner while accurate 3D masks can be finally learned. SA3D can adapt to various radiance fields effectively without any additional redesigning. The entire segmentation process can be completed in approximately two minutes without any engineering optimization. Our experiments demonstrate the effectiveness of SA3D in different scenes, highlighting the potential of SAM in 3D scene perception. The project page is at https://jumpat.github.io/SA3D/.
翻訳日:2023-04-25 13:48:49 公開日:2023-04-24
# テンソルトレインと量子コンピューティングによる化学ミキサー設計の最適化

Optimization of chemical mixers design via tensor trains and quantum computing ( http://arxiv.org/abs/2304.12307v1 )

ライセンス: Link先を確認
Nikita Belokonev, Artem Melnikov, Maninadh Podapaka, Karan Pinto, Markus Pflitsch, and Michael Perelshtein(参考訳) 化学成分設計は、しばしば反復的な数値モデリングと真の実験テストを伴う計算上困難な手順である。 流体のY字型混合器に着目した部品形状最適化のための新しい最適化手法であるTensor Train Optimization (TetraOpt) を実証する。 高い並列化とより広範なグローバル検索のため、TetraOptは精度と実行時のベイズ最適化技術に優れる。 さらに,本手法は一般の物理設計問題の解決に有効であり,複雑な化学成分に高い関連性を持つ最適化パラメータの数に線形複雑度を有する。 さらに、量子コンピューティングへのこのアプローチの拡張について論じ、それによってより効率的なアプローチがもたらされる可能性がある。

Chemical component design is a computationally challenging procedure that often entails iterative numerical modeling and authentic experimental testing. We demonstrate a novel optimization method, Tensor train Optimization (TetraOpt), for the shape optimization of components focusing on a Y-shaped mixer of fluids. Due to its high parallelization and more extensive global search, TetraOpt outperforms commonly used Bayesian optimization techniques in accuracy and runtime. Besides, our approach can be used to solve general physical design problems and has linear complexity in the number of optimized parameters, which is highly relevant for complex chemical components. Furthermore, we discuss the extension of this approach to quantum computing, which potentially yields a more efficient approach.
翻訳日:2023-04-25 13:48:03 公開日:2023-04-24
# 医用画像におけるセグメンテーション

Segment Anything in Medical Images ( http://arxiv.org/abs/2304.12306v1 )

ライセンス: Link先を確認
Jun Ma and Bo Wang(参考訳) Segment Any Model (SAM) は自然画像のセグメンテーションに革命をもたらしたが、医療画像のパフォーマンスは限られている。 この研究は、SAMの成功を医療画像に拡張する最初の試みであるMedSAMを紹介し、様々な医学的目標のセグメンテーションのための普遍的なツールを作成することを目的としている。 具体的には、11つの異なるモードにわたる20万以上のマスクを含む、大規模な医療画像データセットを最初にキュレートする。 次に,samを一般医用画像セグメンテーションに適用するための簡易な微調整法を開発した。 21の3Dセグメンテーションタスクと9の2Dセグメンテーションタスクに関する総合的な実験により、MedSAMは3Dセグメンテーションタスクでそれぞれ22.5%と17.6%の平均的なDice similarity Coefficient(DSC)でデフォルトSAMモデルより優れていることが示された。 コードとトレーニングされたモデルは、 \url{https://github.com/bowang-lab/MedSAM}で公開されている。

Segment anything model (SAM) has revolutionized natural image segmentation, but its performance on medical images is limited. This work presents MedSAM, the first attempt at extending the success of SAM to medical images, with the goal of creating a universal tool for the segmentation of various medical targets. Specifically, we first curate a large-scale medical image dataset, encompassing over 200,000 masks across 11 different modalities. Then, we develop a simple fine-tuning method to adapt SAM to general medical image segmentation. Comprehensive experiments on 21 3D segmentation tasks and 9 2D segmentation tasks demonstrate that MedSAM outperforms the default SAM model with an average Dice Similarity Coefficient (DSC) of 22.5% and 17.6% on 3D and 2D segmentation tasks, respectively. The code and trained model are publicly available at \url{https://github.com/bowang-lab/MedSAM}.
翻訳日:2023-04-25 13:47:51 公開日:2023-04-24
# スマート環境におけるマルチレジデント活動認識に関する調査

A Survey on Multi-Resident Activity Recognition in Smart Environments ( http://arxiv.org/abs/2304.12304v1 )

ライセンス: Link先を確認
Farhad MortezaPour Shiri, Thinagaran Perumal, Norwati Mustapha, Raihani Mohamed, Mohd Anuaruddin Bin Ahmadon, and Shingo Yamaguchi(参考訳) HAR(Human Activity Recognition)は、スマートデバイス、センサー、アルゴリズムを利用して、特定の環境内の個人の行動を自動的に分類し識別する、急速に成長する分野である。 これらのシステムには、ケアタスクの支援、セキュリティの向上、エネルギー効率の向上など、幅広い応用がある。 しかし, マルチレジデント環境において, HARシステムを効果的に活用するには, 課題がいくつかある。 重要な課題の1つは、センサーの観察と関係者のアイデンティティを正確に関連付けることであり、住民が複雑で協調的な活動に従事している場合、特に困難である。 本稿では,harシステムの設計と実装の概要について概説するとともに,様々なデータ収集装置とヒューマンアクティビティ同定のためのアプローチについて概説する。 また、マルチレジデント環境におけるこれらのシステムの利用に関する以前の研究をレビューし、この分野における技術の現状について結論を提供する。

Human activity recognition (HAR) is a rapidly growing field that utilizes smart devices, sensors, and algorithms to automatically classify and identify the actions of individuals within a given environment. These systems have a wide range of applications, including assisting with caring tasks, increasing security, and improving energy efficiency. However, there are several challenges that must be addressed in order to effectively utilize HAR systems in multi-resident environments. One of the key challenges is accurately associating sensor observations with the identities of the individuals involved, which can be particularly difficult when residents are engaging in complex and collaborative activities. This paper provides a brief overview of the design and implementation of HAR systems, including a summary of the various data collection devices and approaches used for human activity identification. It also reviews previous research on the use of these systems in multi-resident environments and offers conclusions on the current state of the art in the field.
翻訳日:2023-04-25 13:47:35 公開日:2023-04-24
# AssemblyHands: 3Dハンドポース推定によるエゴセントリックな活動理解を目指して

AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose Estimation ( http://arxiv.org/abs/2304.12301v1 )

ライセンス: Link先を確認
Takehiko Ohkawa, Kun He, Fadime Sener, Tomas Hodan, Luan Tran, Cem Keskin(参考訳) 本研究では,3dハンドポーズの正確なアノテーションを用いた大規模ベンチマークデータセットであるassemblyhandsを提案する。 データセットには、最近のassembly101データセットからサンプリングされた、エゴセントリックおよびexocentricイメージの同期が含まれており、参加者はテイク・アパルトイを組み立てて分解する。 エゴセントリックなイメージのための高品質な3dハンドポーズアノテーションを得るため、我々は効率的なパイプラインを開発し、最初の手動アノテーションセットを使用してモデルのトレーニングを行い、さらに大きなデータセットに自動アノテートします。 アノテーションモデルでは,マルチビュー機能融合と反復改良方式を用い,平均キーポイント誤差は4.20mmであり,アセンブラ101のアノテーションの誤りよりも85%低い。 AssemblyHandsは490Kのエゴセントリックなイメージを含む3.0Mの注釈付きイメージを提供しており、エゴセントリックな3Dポーズ推定のための最大のベンチマークデータセットとなっている。 このデータを用いて,自我中心画像からの3次元手ポーズ推定の強力な単視点ベースラインを開発した。 さらに,予測した3次元手指ポーズを評価するための新しい行動分類タスクを設計する。 本研究は,高品位な手を持つことが,行動を認識する能力を直接向上させることを示す。

We present AssemblyHands, a large-scale benchmark dataset with accurate 3D hand pose annotations, to facilitate the study of egocentric activities with challenging hand-object interactions. The dataset includes synchronized egocentric and exocentric images sampled from the recent Assembly101 dataset, in which participants assemble and disassemble take-apart toys. To obtain high-quality 3D hand pose annotations for the egocentric images, we develop an efficient pipeline, where we use an initial set of manual annotations to train a model to automatically annotate a much larger dataset. Our annotation model uses multi-view feature fusion and an iterative refinement scheme, and achieves an average keypoint error of 4.20 mm, which is 85% lower than the error of the original annotations in Assembly101. AssemblyHands provides 3.0M annotated images, including 490K egocentric images, making it the largest existing benchmark dataset for egocentric 3D hand pose estimation. Using this data, we develop a strong single-view baseline of 3D hand pose estimation from egocentric images. Furthermore, we design a novel action classification task to evaluate predicted 3D hand poses. Our study shows that having higher-quality hand poses directly improves the ability to recognize actions.
翻訳日:2023-04-25 13:47:19 公開日:2023-04-24
# 急速回転する量子気体中のキラルエッジ輸送の観測

Observation of chiral edge transport in a rapidly-rotating quantum gas ( http://arxiv.org/abs/2304.10468v2 )

ライセンス: Link先を確認
Ruixiao Yao, Sungjae Chi, Biswaroop Mukherjee, Airlia Shaffer, Martin Zwierlein, and Richard J. Fletcher(参考訳) トポロジカル物質の境界における粒子の摩擦のない方向伝播は、輸送において最も顕著な現象の1つである。 これらのキラルエッジモードは整数と分数量子ホール効果の中心にあり、ノイズや障害に対する異常な堅牢性はホールの伝導率の量子化を反映している。 その中心的重要性にもかかわらず、エッジモードの制御可能な注入と、その伝播、構造、ダイナミクスの直接イメージングは困難である。 ここでは,光学境界に閉じ込められた急速回転するボゾン超流動層における個々のキラルエッジ状態の蒸留を実証する。 壁のシャープネスを調整し, 伝播速度が壁の急勾配に比例する軟壁挙動と, キラルフリー粒子を呈する硬壁構造との円滑な交差関係を明らかにする。 境界に沿った原子のスキップ運動から、地上と第1の励起エッジバンドの間のエネルギーギャップを分光的に推測し、その進化を、ソフト境界のために分割されたバルクランダウ準位から硬壁限界まで明らかにする。

The frictionless, directional propagation of particles at the boundary of topological materials is one of the most striking phenomena in transport. These chiral edge modes lie at the heart of the integer and fractional quantum Hall effects, and their extraordinary robustness against noise and disorder reflects the quantization of Hall conductivity in these systems. Despite their central importance, controllable injection of edge modes, and direct imaging of their propagation, structure, and dynamics, is challenging. Here, we demonstrate the distillation of individual chiral edge states in a rapidly-rotating bosonic superfluid confined by an optical boundary. Tuning the wall sharpness, we reveal the smooth crossover between soft wall behaviour in which the propagation speed is proportional to wall steepness, and the hard wall regime exhibiting chiral free particles. From the skipping motion of atoms along the boundary, we spectroscopically infer the energy gap between the ground and first excited edge bands, and reveal its evolution from the bulk Landau level splitting for a soft boundary, to the hard wall limit.
翻訳日:2023-04-25 11:22:08 公開日:2023-04-24
# 軽量画像超解像のための全アグリゲーションネットワーク

Omni Aggregation Networks for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2304.10244v2 )

ライセンス: Link先を確認
Hang Wang, Xuanhong Chen, Bingbing Ni, Yutian Liu, Jinfan Liu(参考訳) 軽量なViTフレームワークは画像超解像を著しく進歩させてきたが、その一次元の自己認識モデリングは、同質のアグリゲーションスキームと同様に、その有効受容場(ERF)を空間次元とチャネル次元の両方からより包括的な相互作用を含むように制限している。 これらの欠点に対処するため、新しいOmni-SRアーキテクチャの下で2つの拡張されたコンポーネントを提案する。 まず,空間次元とチャネル次元の両方からピクセル相互作用を同時にモデル化し,全軸(すなわち空間とチャネル)間のポテンシャル相関をマイニングする,密接な相互作用原理に基づく全自己着(osa)ブロックを提案する。 メインストリームのウィンドウ分割戦略と組み合わせることで、OSAは魅力的な計算予算で優れたパフォーマンスを達成することができる。 第二に, 浅層モデルにおける準最適erf(即ち早期飽和)を緩和し, 局所伝播とメソ/グローバル相互作用を容易にし, 全規模集約構築ブロックを作成するマルチスケールインタラクションスキームを提案する。 大規模な実験により、Omni-SRは軽量超高解像度ベンチマーク(例: 26.95 dB@Urban100 $\times 4$、パラメータは792K)で最高性能を達成した。 我々のコードは \url{https://github.com/Francis0625/Omni-SR} で入手できる。

While lightweight ViT framework has made tremendous progress in image super-resolution, its uni-dimensional self-attention modeling, as well as homogeneous aggregation scheme, limit its effective receptive field (ERF) to include more comprehensive interactions from both spatial and channel dimensions. To tackle these drawbacks, this work proposes two enhanced components under a new Omni-SR architecture. First, an Omni Self-Attention (OSA) block is proposed based on dense interaction principle, which can simultaneously model pixel-interaction from both spatial and channel dimensions, mining the potential correlations across omni-axis (i.e., spatial and channel). Coupling with mainstream window partitioning strategies, OSA can achieve superior performance with compelling computational budgets. Second, a multi-scale interaction scheme is proposed to mitigate sub-optimal ERF (i.e., premature saturation) in shallow models, which facilitates local propagation and meso-/global-scale interactions, rendering an omni-scale aggregation building block. Extensive experiments demonstrate that Omni-SR achieves record-high performance on lightweight super-resolution benchmarks (e.g., 26.95 dB@Urban100 $\times 4$ with only 792K parameters). Our code is available at \url{https://github.com/Francis0625/Omni-SR}.
翻訳日:2023-04-25 11:21:31 公開日:2023-04-24
# ai革命が資産管理に与える影響

The impact of the AI revolution on asset management ( http://arxiv.org/abs/2304.10212v2 )

ライセンス: Link先を確認
Michael Kopp(参考訳) 機械学習の特殊な形態であるディープラーニングの最近の進歩は、機械に与えられた驚くべき能力に繋がった: フリーフローのテキストを読み、理解したり、人間との理性や交渉をしたり、言語間でテキストを翻訳したり、決定を下す方法を学び、ある結果の最大化など。 今日、機械は癌の検出、タンパク質構造の予測、薬物の設計、核融合炉の制御などに革命をもたらした。 これらの能力はまだ初期段階にあるが、その継続的な洗練と応用が人間の活動のほとんど全ての社会的、経済的領域に技術的影響をもたらすことは明らかである。 本稿では、aiがアセットマネージメント全般にどのように影響するかについて、私の見解を共有します。そして、あるファンドがディープラーニングを実際にどの程度活用しているか、そして深層学習による大きなディスラプションリスクが存在するかどうかを評価するための簡単な基準を読者に提供するためのメンタルフレームワークを提供します。

Recent progress in deep learning, a special form of machine learning, has led to remarkable capabilities machines can now be endowed with: they can read and understand free flowing text, reason and bargain with human counterparts, translate texts between languages, learn how to take decisions to maximize certain outcomes, etc. Today, machines have revolutionized the detection of cancer, the prediction of protein structures, the design of drugs, the control of nuclear fusion reactors etc. Although these capabilities are still in their infancy, it seems clear that their continued refinement and application will result in a technological impact on nearly all social and economic areas of human activity, the likes of which we have not seen before. In this article, I will share my view as to how AI will likely impact asset management in general and I will provide a mental framework that will equip readers with a simple criterion to assess whether and to what degree a given fund really exploits deep learning and whether a large disruption risk from deep learning exist.
翻訳日:2023-04-25 11:21:01 公開日:2023-04-24
# scoda: 実スキャンのためのドメイン適応形状補完

SCoDA: Domain Adaptive Shape Completion for Real Scans ( http://arxiv.org/abs/2304.10179v2 )

ライセンス: Link先を確認
Yushuang Wu, Zizheng Yan, Ce Chen, Lai Wei, Xiao Li, Guanbin Li, Yihao Li, Shuguang Cui, Xiaoguang Han(参考訳) 点雲からの3D形状の完成は、特に現実世界のオブジェクトのスキャンによる難しい作業である。 実スキャンのための3d形状基底真理のpaucityを考えると、既存の研究は主に3dコンピュータ支援設計モデルのような合成データにこのタスクをベンチマークすることに焦点を当てている。 しかし、合成データと実データの間の領域ギャップは、これらの方法の一般化可能性を制限する。 そこで本研究では,合成データから実スキャン形状完了の領域適応のための新しいタスクであるSCoDAを提案する。 新しいデータセットであるScanSalonには、熟練アーティストがスキャンに基づいて作成する精巧な3Dモデルが多数含まれている。 この課題に対処するために,知識伝達のための新しいクロスドメイン特徴融合法と,実データから頑健な学習を行うための新しいボリューム整合自己学習フレームワークを提案する。 広範な実験により,本手法は6%~7%のmiou改善に有効であることを証明した。

3D shape completion from point clouds is a challenging task, especially from scans of real-world objects. Considering the paucity of 3D shape ground truths for real scans, existing works mainly focus on benchmarking this task on synthetic data, e.g. 3D computer-aided design models. However, the domain gap between synthetic and real data limits the generalizability of these methods. Thus, we propose a new task, SCoDA, for the domain adaptation of real scan shape completion from synthetic data. A new dataset, ScanSalon, is contributed with a bunch of elaborate 3D models created by skillful artists according to scans. To address this new task, we propose a novel cross-domain feature fusion method for knowledge transfer and a novel volume-consistent self-training framework for robust learning from real data. Extensive experiments prove our method is effective to bring an improvement of 6%~7% mIoU.
翻訳日:2023-04-25 11:20:41 公開日:2023-04-24
# 予測・学習・一様収束・スケール感応次元

Prediction, Learning, Uniform Convergence, and Scale-sensitive Dimensions ( http://arxiv.org/abs/2304.11059v2 )

ライセンス: Link先を確認
Peter L. Bartlett and Philip M. Long(参考訳) 予測モデルの一般化における$[0,1]$値関数のクラスを学習するための新しい汎用アルゴリズムを提案し、Alon, Ben-David, Cesa-Bianchi, Hausslerによって提案されたVapnik次元のスケール敏感な一般化の観点から、このアルゴリズムの予測絶対誤差の一般上限を証明した。 下限を与えるということは、上限は一般に定数因子以上では改善できないことを意味する。 この結果とハウスラーとベネデックとイタイによる手法を併用して、このスケールに敏感な次元の概念を用いて、荷造り数上の新たな上限を求める。 異なる手法を用いて、カーンズとシャファイアの脂肪散乱関数の観点から、パッキング数に関する新しい境界を求める。 そこで本研究では,パッキン境界とパッキング境界の両方を適用し,無知学習のサンプル複雑性に対する一般境界の改善について述べる。 それぞれの $\epsilon > 0$ に対して、$[0,1]$-valued 関数が $\epsilon$ 内で不可知的に学習され、$\epsilon$-uniform Glivenko-Cantelli クラスとなるために、より弱くより強い必要条件を確立する。 これはjcssが修正とともに受け入れた写本である。

We present a new general-purpose algorithm for learning classes of $[0,1]$-valued functions in a generalization of the prediction model, and prove a general upper bound on the expected absolute error of this algorithm in terms of a scale-sensitive generalization of the Vapnik dimension proposed by Alon, Ben-David, Cesa-Bianchi and Haussler. We give lower bounds implying that our upper bounds cannot be improved by more than a constant factor in general. We apply this result, together with techniques due to Haussler and to Benedek and Itai, to obtain new upper bounds on packing numbers in terms of this scale-sensitive notion of dimension. Using a different technique, we obtain new bounds on packing numbers in terms of Kearns and Schapire's fat-shattering function. We show how to apply both packing bounds to obtain improved general bounds on the sample complexity of agnostic learning. For each $\epsilon > 0$, we establish weaker sufficient and stronger necessary conditions for a class of $[0,1]$-valued functions to be agnostically learnable to within $\epsilon$, and to be an $\epsilon$-uniform Glivenko-Cantelli class. This is a manuscript that was accepted by JCSS, together with a correction.
翻訳日:2023-04-25 11:12:18 公開日:2023-04-24
# 予測における外因性データ: FARM -- 関連性評価の新しい尺度

Exogenous Data in Forecasting: FARM -- A New Measure for Relevance Evaluation ( http://arxiv.org/abs/2304.11028v2 )

ライセンス: Link先を確認
Ram\'on Christen and Luca Mazzola and Alexander Denzler and Edy Portmann(参考訳) 予測アルゴリズムの予測能力を改善する第一歩は,外部データ系列の妥当性を評価することである。 時系列の類似性に関する既存のメトリクスにヒントを得て、FARM - Forward Aligned Relevance Metricという新しいアプローチを導入しました。 我々のフォワード法では,後続のデータポイントの変化を比較し,時系列を効率的に調整する角測度に依存する。 提案アルゴリズムは, 局所的および大域的尺度を組み合わせることで, バランスの取れた妥当性指標を提供する。 これにより、部分的な中間一致も外因性データ系列の意義を示す指標として考慮される。 第1の検証ステップとして,合成的だが代表的信号に対するファームアプローチの適用について述べる。 既存のアプローチに関して改善された能力を示す一方で、私たちのアイデアの既存の制約や制限についても議論する。

Evaluating the relevance of an exogenous data series is the first step in improving the prediction capabilities of a forecast algorithm. Inspired by existing metrics for time series similarity, we introduce a new approach named FARM - Forward Aligned Relevance Metric. Our forward method relies on an angular measure that compares changes in subsequent data points to align time-warped series in an efficient way. The proposed algorithm combines local and global measures to provide a balanced relevance metric. This results in considering also partial, intermediate matches as relevant indicators for exogenous data series significance. As a first validation step, we present the application of our FARM approach to synthetic but representative signals. While demonstrating the improved capabilities with respect to existing approaches, we also discuss existing constraints and limitations of our idea.
翻訳日:2023-04-25 11:11:50 公開日:2023-04-24
# GPT-4はニューラルネットワーク検索を実現できるか?

Can GPT-4 Perform Neural Architecture Search? ( http://arxiv.org/abs/2304.10970v2 )

ライセンス: Link先を確認
Mingkai Zheng, Xiu Su, Shan You, Fei Wang, Chen Qian, Chang Xu, Samuel Albanie(参考訳) gpt-4~\cite{gpt4}のニューラルネットワーク探索(nas)を行う可能性について検討した。 提案手法である \textbf{g}pt-4 \textbf{e}nhanced \textbf{n}eural arch\textbf{i}tect\textbf{u}re \textbf{s}earch (genius) では,gpt-4 の生成能力をブラックボックスオプティマイザとして活用し,アーキテクチャ探索空間をすばやくナビゲートし,有望な候補をピンポイントし,これらの候補を反復的に洗練してパフォーマンスを向上させる。 我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。 最先端のパフォーマンスを目標とするのではなく、比較的限定的なドメイン専門知識を必要とする単純なプロンプトスキームを通じて、gpt-4の技術的問題の研究を支援する可能性を強調します。 }. より広範に、我々の予備的な結果は、多種多様な最適化タスクに汎用言語モデルを活用する将来の研究を指すと信じている。 また、研究における重要な制限を強調し、AIの安全性に影響を及ぼす点にも注目します。

We investigate the potential of GPT-4~\cite{gpt4} to perform Neural Architecture Search (NAS) -- the task of designing effective neural architectures. Our proposed approach, \textbf{G}PT-4 \textbf{E}nhanced \textbf{N}eural arch\textbf{I}tect\textbf{U}re \textbf{S}earch (GENIUS), leverages the generative capabilities of GPT-4 as a black-box optimiser to quickly navigate the architecture search space, pinpoint promising candidates, and iteratively refine these candidates to improve performance. We assess GENIUS across several benchmarks, comparing it with existing state-of-the-art NAS techniques to illustrate its effectiveness. Rather than targeting state-of-the-art performance, our objective is to highlight GPT-4's potential to assist research on a challenging technical problem through a simple prompting scheme that requires relatively limited domain expertise\footnote{Code available at \href{https://github.com/mingkai-zheng/GENIUS}{https://github.com/mingkai-zheng/GENIUS}.}. More broadly, we believe our preliminary results point to future research that harnesses general purpose language models for diverse optimisation tasks. We also highlight important limitations to our study, and note implications for AI safety.
翻訳日:2023-04-25 11:11:38 公開日:2023-04-24
# 推論サービスシステムの高精度、コスト効率、低レイテンシの調整

Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems ( http://arxiv.org/abs/2304.10892v2 )

ライセンス: Link先を確認
Mehran Salmani (1), Saeid Ghafouri (2 and 4), Alireza Sanaee (2), Kamran Razavi (3), Max M\"uhlh\"auser (3), Joseph Doyle (2), Pooyan Jamshidi (4), Mohsen Sharifi (1) ((1) Iran University of Science and Technology, (2) Queen Mary University of London, (3) Technical University of Darmstadt, (4) University of South Carolina)(参考訳) さまざまなアプリケーションに対する機械学習(ML)推論の利用は、急速に増加している。 ML推論サービスは、ユーザに直接関与し、迅速かつ正確な応答を必要とする。 さらに、これらのサービスは要求の動的ワークロードに直面し、コンピューティングリソースの変更を暗示します。 適切なサイズのコンピューティングリソースに失敗すると、レイテンシサービスレベル目標(SLO)違反または無駄なコンピューティングリソースが発生します。 正確性、レイテンシ、リソースコストのすべての柱を考慮した動的ワークロードへの適応は困難である。 InfAdapterは、そのリソース割り当てでMLモデルの変種を積極的に選択してレイテンシSLOを満たすとともに、精度とコストからなる目的関数を最大化する。 InfAdapterは、人気の業界オートスケーラ(Kubernetes Vertical Pod Autoscaler)と比較して、SLO違反を減らし、それぞれ65%と33%のコストを削減している。

The use of machine learning (ML) inference for various applications is growing drastically. ML inference services engage with users directly, requiring fast and accurate responses. Moreover, these services face dynamic workloads of requests, imposing changes in their computing resources. Failing to right-size computing resources results in either latency service level objectives (SLOs) violations or wasted computing resources. Adapting to dynamic workloads considering all the pillars of accuracy, latency, and resource cost is challenging. In response to these challenges, we propose InfAdapter, which proactively selects a set of ML model variants with their resource allocations to meet latency SLO while maximizing an objective function composed of accuracy and cost. InfAdapter decreases SLO violation and costs up to 65% and 33%, respectively, compared to a popular industry autoscaler (Kubernetes Vertical Pod Autoscaler).
翻訳日:2023-04-25 11:11:06 公開日:2023-04-24
# Ultra Sharp : Residual Dense Network を用いた単一画像超解像の検討

Ultra Sharp : Study of Single Image Super Resolution using Residual Dense Network ( http://arxiv.org/abs/2304.10870v2 )

ライセンス: Link先を確認
Karthick Prasad Gunasekaran(参考訳) 長い間、Single Image Super Resolution(SISR)はコンピュータビジョンにおける興味深い問題であり、未解決の問題であった。 従来の超解像(SR)イメージングアプローチには補間、再構成、学習に基づく手法が含まれる。 補間メソッドは高速で計算に複雑ではないが、正確で信頼性に欠ける。 レコンストラクションに基づく手法は補間法よりも優れているが,スケーリングの増加に伴って時間と品質が低下する。 マルコフランダムチェインのような学習ベースの手法は、以前の方法よりもはるかに優れているが、SISRのディープラーニングモデルのパフォーマンスと一致しない。 本研究は、yhangらによって提案された残差密度ネットワークアーキテクチャを考察する。 【17】成分の重要性を分析して分析する。 このアーキテクチャは、元の低解像度(LR)画像から階層的特徴を活用することにより、4つの主ブロックからなるネットワーク構造をコアとして、優れた性能を実現する。 種々の損失指標を用いた各ブロックの調査と分析を通じて、アーキテクチャの有効性を評価し、アーキテクチャとコンポーネントの両方で異なる他の最先端モデルと比較する。

For years, Single Image Super Resolution (SISR) has been an interesting and ill-posed problem in computer vision. The traditional super-resolution (SR) imaging approaches involve interpolation, reconstruction, and learning-based methods. Interpolation methods are fast and uncomplicated to compute, but they are not so accurate and reliable. Reconstruction-based methods are better compared with interpolation methods, but they are time-consuming and the quality degrades as the scaling increases. Even though learning-based methods like Markov random chains are far better than all the previous ones, they are unable to match the performance of deep learning models for SISR. This study examines the Residual Dense Networks architecture proposed by Yhang et al. [17] and analyzes the importance of its components. By leveraging hierarchical features from original low-resolution (LR) images, this architecture achieves superior performance, with a network structure comprising four main blocks, including the residual dense block (RDB) as the core. Through investigations of each block and analyses using various loss metrics, the study evaluates the effectiveness of the architecture and compares it to other state-of-the-art models that differ in both architecture and components.
翻訳日:2023-04-25 11:10:50 公開日:2023-04-24
# text2time:transformerベースの記事時間予測

Text2Time: Transformer-based Article Time Period Prediction ( http://arxiv.org/abs/2304.10859v2 )

ライセンス: Link先を確認
Karthick Prasad Gunasekaran, B Chase Babrich, Saurabh Shirodkar, Hee Hwang(参考訳) ニュース記事などのテキスト文書の出版時期を予測するタスクは、自然言語処理の分野において重要であるが、あまり研究されていない問題である。 ニュース記事の年を予測することは、歴史研究、感情分析、メディア監視といった様々な文脈で有用である。 本研究では,テキストの内容に基づいて,テキスト文書,特にニュース記事の出版時期を予測する問題について検討する。 そのために私たちは、New York Timesが60年以上にわたって発行した35万以上のニュース記事のラベル付きデータセットを作りました。 提案手法では,テキスト分類のタスク,特に時間予測のタスクに,事前学習したBERTモデルを用いており,このモデルが期待を超越し,ニュース記事の正確な分類方法として,非常に印象的な結果をもたらす。 その結果は、テキストからの時間予測の比較的未検討なタスクに対して、ベースラインモデルのパフォーマンスを上回った。

The task of predicting the publication period of text documents, such as news articles, is an important but less studied problem in the field of natural language processing. Predicting the year of a news article can be useful in various contexts, such as historical research, sentiment analysis, and media monitoring. In this work, we investigate the problem of predicting the publication period of a text document, specifically a news article, based on its textual content. In order to do so, we created our own extensive labeled dataset of over 350,000 news articles published by The New York Times over six decades. In our approach, we use a pretrained BERT model fine-tuned for the task of text classification, specifically for time period prediction.This model exceeds our expectations and provides some very impressive results in terms of accurately classifying news articles into their respective publication decades. The results beat the performance of the baseline model for this relatively unexplored task of time prediction from text.
翻訳日:2023-04-25 11:10:32 公開日:2023-04-24
# 間接コミュニケーションフェデレーション学習のための共同顧客割り当てとUAV経路計画

Joint Client Assignment and UAV Route Planning for Indirect-Communication Federated Learning ( http://arxiv.org/abs/2304.10744v2 )

ライセンス: Link先を確認
Jieming Bian, Cong Shen, Jie Xu(参考訳) フェデレーション学習(federated learning, fl)は、強力なアプリケーションのための共有モデルの作成と、デバイス上でのデータ保持を可能にする、マシンラーニングのアプローチである。 このアプローチは、データプライバシの改善、セキュリティ、レイテンシ低減といったメリットを提供する。 しかし、一部のシステムでは、適切な通信インフラのない遠隔地など、クライアントとサーバ間の直接通信ができない場合がある。 この課題を克服するため、FedEx (Federated Learning via Model Express Delivery)と呼ばれる新しいフレームワークが提案されている。 このフレームワークは、UAVのような移動体トランスポーターを使用して、サーバとクライアント間の間接的な通信チャネルを確立する。 これらのトランスポーターは仲介役となり、モデル情報交換を可能にする。 間接通信の利用は,グローバルモデルの普及と局所モデル収集の両面において,トランスポーターの動きによる遅延が問題となるため,収束解析と最適化に新たな課題をもたらす。 これを解決するために,FedEx-SyncとFedEx-Asyncという2つのアルゴリズムを提案する。 さらに,クライアント割当と経路計画の問題を解くために,biレベル最適化アルゴリズムを提案する。 シミュレーションネットワークにおける2つの公開データセットを用いた実験的検証により,fedexの有効性が実証された。

Federated Learning (FL) is a machine learning approach that enables the creation of shared models for powerful applications while allowing data to remain on devices. This approach provides benefits such as improved data privacy, security, and reduced latency. However, in some systems, direct communication between clients and servers may not be possible, such as remote areas without proper communication infrastructure. To overcome this challenge, a new framework called FedEx (Federated Learning via Model Express Delivery) is proposed. This framework employs mobile transporters, such as UAVs, to establish indirect communication channels between the server and clients. These transporters act as intermediaries and allow for model information exchange. The use of indirect communication presents new challenges for convergence analysis and optimization, as the delay introduced by the transporters' movement creates issues for both global model dissemination and local model collection. To address this, two algorithms, FedEx-Sync and FedEx-Async, are proposed for synchronized and asynchronized learning at the transporter level. Additionally, a bi-level optimization algorithm is proposed to solve the joint client assignment and route planning problem. Experimental validation using two public datasets in a simulated network demonstrates consistent results with the theory, proving the efficacy of FedEx.
翻訳日:2023-04-25 11:10:17 公開日:2023-04-24
# IXA/Cogcomp at SemEval-2023 Task 2: 知識ベースを用いたコンテキスト強化多言語名前付きエンティティ認識

IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named Entity Recognition using Knowledge Bases ( http://arxiv.org/abs/2304.10637v2 )

ライセンス: Link先を確認
Iker Garc\'ia-Ferrero, Jon Ander Campos, Oscar Sainz, Ander Salaberria, Dan Roth(参考訳) 名前付きエンティティ認識(NER)は、訓練済みの言語モデルが顕著なパフォーマンスを示す中核的な自然言語処理タスクである。 しかし、conll 2003のような標準ベンチマークは、新興または複雑なエンティティを細かな方法で分類する必要など、nerシステムが直面する多くの課題に対処していない。 本稿では,入力文中の候補エンティティを識別する,各候補を既存の知識ベースにリンクする,各エンティティ候補の細かなカテゴリを予測する,という3つのステップからなる新しいnerカスケード手法を提案する。 我々は,外部知識基盤が,細粒度と新興度を正確に分類する上での意義を実証的に示す。 本システムでは,高リソース言語の知識ベースを活用する低リソース言語設定においても,MultiCoNER2共有タスクにおいて堅牢な性能を示す。

Named Entity Recognition (NER) is a core natural language processing task in which pre-trained language models have shown remarkable performance. However, standard benchmarks like CoNLL 2003 do not address many of the challenges that deployed NER systems face, such as having to classify emerging or complex entities in a fine-grained way. In this paper we present a novel NER cascade approach comprising three steps: first, identifying candidate entities in the input sentence; second, linking the each candidate to an existing knowledge base; third, predicting the fine-grained category for each entity candidate. We empirically demonstrate the significance of external knowledge bases in accurately classifying fine-grained and emerging entities. Our system exhibits robust performance in the MultiCoNER2 shared task, even in the low-resource language setting where we leverage knowledge bases of high-resource languages.
翻訳日:2023-04-25 11:09:55 公開日:2023-04-24
# Z3を用いたFNNグローバルロバストネスの形式的モデリングと検証

Using Z3 for Formal Modeling and Verification of FNN Global Robustness ( http://arxiv.org/abs/2304.10558v2 )

ライセンス: Link先を確認
Yihao Zhang, Zeming Wei, Xiyue Zhang, Meng Sun(参考訳) feedforward neural networks(fnn)は様々なタスクで顕著な成功を収めているが、敵の例に弱い。 fnnの逆ロバスト性を検証するためにいくつかの技術が開発されているが、そのほとんどは単一のデータポイントの局所摂動近傍に対するロバスト性検証に焦点を当てている。 グローバルロバストネス分析には依然として大きな研究ギャップがある。 グローバル・ロバスト性検証フレームワークであるDeepGlobalは、テストセット内のデータサンプルに限らず、FNNのAdversarial Dangerous Region(ADR)を識別するために提案されている。 本稿では,より明示的な定義のためにSMTソルバZ3を用いたDeepGlobalの完全な仕様と実装を提案し,より効率的な検証のためにDeepGlobalのいくつかの改良を提案する。 実装の有効性と改善性を評価するため、ベンチマークデータセットのセットに対して広範な実験を行う。 実験結果の可視化は,提案手法の有効性と有効性を示している。

While Feedforward Neural Networks (FNNs) have achieved remarkable success in various tasks, they are vulnerable to adversarial examples. Several techniques have been developed to verify the adversarial robustness of FNNs, but most of them focus on robustness verification against the local perturbation neighborhood of a single data point. There is still a large research gap in global robustness analysis. The global-robustness verifiable framework DeepGlobal has been proposed to identify \textit{all} possible Adversarial Dangerous Regions (ADRs) of FNNs, not limited to data samples in a test set. In this paper, we propose a complete specification and implementation of DeepGlobal utilizing the SMT solver Z3 for more explicit definition, and propose several improvements to DeepGlobal for more efficient verification. To evaluate the effectiveness of our implementation and improvements, we conduct extensive experiments on a set of benchmark datasets. Visualization of our experiment results shows the validity and effectiveness of the approach.
翻訳日:2023-04-25 11:09:37 公開日:2023-04-24
# 変圧器入門

An Introduction to Transformers ( http://arxiv.org/abs/2304.10557v2 )

ライセンス: Link先を確認
Richard E. Turner(参考訳) トランスはニューラルネットワークコンポーネントであり、シーケンスやデータポイントの集合の有用な表現を学ぶのに使用できる。 この変換器は、自然言語処理、コンピュータビジョン、時空間モデリングの最近の進歩を推し進めている。 トランスフォーマーの紹介は数多く存在するが、ほとんどはアーキテクチャの正確な数学的記述を含んでおらず、設計の選択の背後にある直観も欠落している。 さらに、研究が曲がりくねった経路を辿ると、変圧器の部品の説明は慣用的にできる。 本論では, 数学的に正確で直感的で, クリーンなトランスフォーマアーキテクチャ記述を目指している。

The transformer is a neural network component that can be used to learn useful representations of sequences or sets of datapoints. The transformer has driven recent advances in natural language processing, computer vision, and spatio-temporal modelling. There are many introductions to transformers, but most do not contain precise mathematical descriptions of the architecture and the intuitions behind the design choices are often also missing. Moreover, as research takes a winding path, the explanations for the components of the transformer can be idiosyncratic. In this note we aim for a mathematically precise, intuitive, and clean description of the transformer architecture.
翻訳日:2023-04-25 11:09:19 公開日:2023-04-24