このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230205となっている論文です。

PDF登録状況(公開日: 20230205)

TitleAuthorsAbstract論文公表日・翻訳日
# エネルギー効率向上を目指した深層学習 : 深層学習ライフサイクルにおける省エネルギー的アプローチの概観

Towards energy-efficient Deep Learning: An overview of energy-efficient approaches along the Deep Learning Lifecycle ( http://arxiv.org/abs/2303.01980v1 )

ライセンス: Link先を確認
Vanessa Mehlin, Sigurd Schacht, Carsten Lanquillon(参考訳) ディープラーニングは、ここ数年で機械学習アプリケーションに多くの進歩をもたらした。 しかし、現在のディープラーニングアルゴリズムは計算に多くのエネルギーを必要とするため、関連する環境コストに対する懸念が高まっている。 エネルギー効率の高いディープラーニングは研究者から注目を集めており、この2年ですでに大きな進歩を遂げている。 本稿では,これらの進歩に関する情報を文献から収集し,Deep Learning(IT-Infrastructure, Data, Modeling, Training, Deployment, Evaluation)のライフサイクルに沿ったポイントがどのようにエネルギー消費を削減できるかを示す。

Deep Learning has enabled many advances in machine learning applications in the last few years. However, since current Deep Learning algorithms require much energy for computations, there are growing concerns about the associated environmental costs. Energy-efficient Deep Learning has received much attention from researchers and has already made much progress in the last couple of years. This paper aims to gather information about these advances from the literature and show how and at which points along the lifecycle of Deep Learning (IT-Infrastructure, Data, Modeling, Training, Deployment, Evaluation) it is possible to reduce energy consumption.
翻訳日:2023-03-12 03:48:44 公開日:2023-02-05
# デバイス上での次世代アプリ予測のためのフェデレーションプライバシ保護協調フィルタリング

Federated Privacy-preserving Collaborative Filtering for On-Device Next App Prediction ( http://arxiv.org/abs/2303.04744v1 )

ライセンス: Link先を確認
Albert Sayapin, Gleb Balitskiy, Daniel Bershatsky, Aleksandr Katrutsa, Evgeny Frolov, Alexey Frolov, Ivan Oseledets, Vitaliy Kharin(参考訳) 本研究では,モバイル端末使用時の次回のアプリ起動予測問題を解決するための新しいseqmfモデルを提案する。 この問題は、古典的な協調フィルタリング問題として表現できるが、データはシーケンシャルであり、ユーザフィードバックはデバイス間で分散され、共通のパターンを集約するためのユーザのデータの送信は、漏洩から保護されなければならない。 このような要求に従って,古典行列分解モデルの構造を変更し,学習手順を逐次学習に更新する。 ユーザエクスペリエンスに関するデータはデバイス間で配布されるので、フェデレーション学習セットアップを使用して、提案された逐次行列因子化モデルをトレーニングする。 提案手法のもうひとつの要素は,ユーザからリモートサーバへの送信データの保護を保証する,新たなプライバシメカニズムである。 提案モデルの有効性を示すために,モバイルユーザ行動データを用いた。 当社のモデルを、アプリのローンチ頻度に基づいたシーケンシャルなルールとモデルと比較します。 比較は静的環境と動的環境で行われる。 静的環境は、我々のモデルがどのようにシーケンシャルデータを処理するかを評価する。 そのため、標準列車評価試験手順が用いられる。 動的環境は、ユーザがデバイス上でアプリを実行して新しいデータを生成する現実世界のシナリオをエミュレートします。 実験により,提案モデルが静的環境における他の手法に匹敵する品質を提供することが示された。 しかし,より重要なこととして,本手法は動的環境における競合相手よりも優れたプライバシー・ユーティリティトレードオフを実現する。

In this study, we propose a novel SeqMF model to solve the problem of predicting the next app launch during mobile device usage. Although this problem can be represented as a classical collaborative filtering problem, it requires proper modification since the data are sequential, the user feedback is distributed among devices and the transmission of users' data to aggregate common patterns must be protected against leakage. According to such requirements, we modify the structure of the classical matrix factorization model and update the training procedure to sequential learning. Since the data about user experience are distributed among devices, the federated learning setup is used to train the proposed sequential matrix factorization model. One more ingredient of the proposed approach is a new privacy mechanism that guarantees the protection of the sent data from the users to the remote server. To demonstrate the efficiency of the proposed model we use publicly available mobile user behavior data. We compare our model with sequential rules and models based on the frequency of app launches. The comparison is conducted in static and dynamic environments. The static environment evaluates how our model processes sequential data compared to competitors. Therefore, the standard train-validation-test evaluation procedure is used. The dynamic environment emulates the real-world scenario, where users generate new data by running apps on devices, and evaluates our model in this case. Our experiments show that the proposed model provides comparable quality with other methods in the static environment. However, more importantly, our method achieves a better privacy-utility trade-off than competitors in the dynamic environment, which provides more accurate simulations of real-world usage.
翻訳日:2023-03-12 03:30:59 公開日:2023-02-05
# フォールトトレラント量子シミュレーションのための論理的Majoranaフェルミオン

Logical Majorana fermions for fault-tolerant quantum simulation ( http://arxiv.org/abs/2110.10280v2 )

ライセンス: Link先を確認
Andrew J. Landahl and Benjamin C. A. Morrison(参考訳) 我々は、フェルミオン量子シミュレーションの高価なフェルミオン-量子ビットマッピングオーバーヘッドを、表面符号ベースのフォールトトレラント量子コンピューティングによって既に得られるオーバーヘッドに吸収する方法を示す。 鍵となるアイデアは、論理的Majoranaのフェルミオンのように振る舞う表面コードツイスト欠陥で情報を処理することだ。 シミュレーションアプリケーションのための重要なデータ型であるdirac fermionを,アーキテクチャ内の論理キュービット層上ではなく,論理的な majorana fermion に直接エンコードする。 N$-fermion 2D Fermi-Hubbardモデルの量子シミュレーションを例示として、アルゴリズムの即時改善を2つ示す。 まず、モデルの局所性を論理レベルで保存することで、漸近的トロッター・スズキ量子回路の深さを典型的なjordan-wigner符号化の$\mathcal{o}(\sqrt{n})$から$\mathcal{o}(1)$に削減する。 第二に、論理フェルミオンの最適化を活用して、論理フェルミオンではなく論理フェルミオンによって実現された場合であっても、ブロックエンコードする \textsc{select} oracle の$t$-count を標準実装よりも20-%削減する。

We show how to absorb fermionic quantum simulation's expensive fermion-to-qubit mapping overhead into the overhead already incurred by surface-code-based fault-tolerant quantum computing. The key idea is to process information in surface-code twist defects, which behave like logical Majorana fermions. Our approach encodes Dirac fermions, a key data type for simulation applications, directly into logical Majorana fermions rather than atop a logical qubit layer in the architecture. Using quantum simulation of the $N$-fermion 2D Fermi-Hubbard model as an exemplar, we demonstrate two immediate algorithmic improvements. First, by preserving the model's locality at the logical level, we reduce the asymptotic Trotter-Suzuki quantum circuit depth from $\mathcal{O}(\sqrt{N})$ in a typical Jordan-Wigner encoding to $\mathcal{O}(1)$ in our encoding. Second, by exploiting optimizations manifest for logical fermions but less obvious for logical qubits, we reduce the $T$-count of the block-encoding \textsc{select} oracle by 20\% over standard implementations, even when realized by logical qubits and not logical fermions.
翻訳日:2023-03-11 01:52:56 公開日:2023-02-05
# 不確かさサンプリング,アノテーション冗長性制限,データ初期化による脳腫瘍切片の能動的学習

Active Learning in Brain Tumor Segmentation with Uncertainty Sampling, Annotation Redundancy Restriction, and Data Initialization ( http://arxiv.org/abs/2302.10185v1 )

ライセンス: Link先を確認
Daniel D Kim, Rajat S Chandra, Jian Peng, Jing Wu, Xue Feng, Michael Atalay, Chetan Bettegowda, Craig Jones, Haris Sair, Wei-hua Liao, Chengzhang Zhu, Beiji Zou, Li Yang, Anahita Fathi Kazerooni, Ali Nabavizadeh, Harrison X Bai, Zhicheng Jiao(参考訳) 深層学習モデルは医用3Dイメージングにおいて大きな可能性を示しているが、その開発は高価な大量の注釈付きデータによって制限されている。 アクティブラーニング(AL)は、パフォーマンスを損なうことなく、最も情報性の高いデータサンプルのサブセットでモデルをトレーニングすることで、この問題に対処する。 異なるal戦略を比較し,最先端性能に必要なデータ量を最小化するフレームワークを提案する。 638個の脳腫瘍画像を用いて3次元U-netモデルの訓練とAL戦略の比較を行った。 不確実性サンプリング,アノテーション冗長性制限,初期データセット選択手法について検討した。 ドロップアウト,ブートストラップ,マージンサンプリングによるベイズ推定を含む不確実性推定手法をランダムクエリと比較した。 to-be-annotatedサブセット内で類似したイメージを削除することでアノテーションの冗長性を回避するための戦略も検討された。 我々は,全データセット({\alpha} = 0.1)でトレーニングしたモデルと同等の性能を達成するために必要な最小データ量を決定した。 また,初期訓練データセットを識別するために放射能を用いた分散選択法を提案する。 トレーニングおよびテストにおけるドロップアウトによるベイズ近似は、トレーニングデータの20%未満(p=0.293)のフルデータモデルと、トレーニングデータの56.5%で同様のパフォーマンスを達成するランダムクエリ(p=0.814)に類似した結果を示した。 アノテーション冗長性制限技術は、トレーニングデータの約40%-50%で最先端のパフォーマンスを達成した。 放射能データセットの初期化は20と80の画像のデータセットサイズでDiceよりも高かったが、改善は重要ではなかった。 結論として,最小アノテートデータで最先端性能を達成するためのドロップアウト不確実性推定による様々なal戦略について検討した。

Deep learning models have demonstrated great potential in medical 3D imaging, but their development is limited by the expensive, large volume of annotated data required. Active learning (AL) addresses this by training a model on a subset of the most informative data samples without compromising performance. We compared different AL strategies and propose a framework that minimizes the amount of data needed for state-of-the-art performance. 638 multi-institutional brain tumor MRI images were used to train a 3D U-net model and compare AL strategies. We investigated uncertainty sampling, annotation redundancy restriction, and initial dataset selection techniques. Uncertainty estimation techniques including Bayesian estimation with dropout, bootstrapping, and margins sampling were compared to random query. Strategies to avoid annotation redundancy by removing similar images within the to-be-annotated subset were considered as well. We determined the minimum amount of data necessary to achieve similar performance to the model trained on the full dataset ({\alpha} = 0.1). A variance-based selection strategy using radiomics to identify the initial training dataset is also proposed. Bayesian approximation with dropout at training and testing showed similar results to that of the full data model with less than 20% of the training data (p=0.293) compared to random query achieving similar performance at 56.5% of the training data (p=0.814). Annotation redundancy restriction techniques achieved state-of-the-art performance at approximately 40%-50% of the training data. Radiomics dataset initialization had higher Dice with initial dataset sizes of 20 and 80 images, but improvements were not significant. In conclusion, we investigated various AL strategies with dropout uncertainty estimation achieving state-of-the-art performance with the least annotated data.
翻訳日:2023-02-26 14:35:31 公開日:2023-02-05
# 自己認識機構によるODEのロバスト数値解法について

On Robust Numerical Solver for ODE via Self-Attention Mechanism ( http://arxiv.org/abs/2302.10184v1 )

ライセンス: Link先を確認
Zhongzhan Huang, Mingfu Liang and Liang Lin(参考訳) 深層学習技術の発展に伴い,従来の数値解法における精度・速度トレードオフを緩和する汎用性と有効性から,aiエンハンスド数値解法が微分方程式の新たなパラダイムとして期待されている。 しかし、このパラダイムは必然的に大量の高品質なデータを必要とし、その獲得はしばしば自然科学や工学の問題において非常に高価である。 そこで,本研究では,内在性雑音障害を緩和し,AIによる高効率で堅牢な数値解法を提案する。 まず,教師付き学習における雑音の制御を行う自己認識機構の能力を解析し,残差ニューラルネットワークの力学系の観点から微分方程式の数値解に付加的な自己認識機構を導入し,簡易かつ有効な数値解法 AttSolver を提案する。 高次元問題からカオスシステムまで多岐にわたるベンチマークの結果から,attsolverの有効性が示され,既存の数値解法の性能を,精巧なモデル作成を伴わずに改善できることを示した。 最後に,提案手法の収束,一般化,堅牢性を実験的,理論的に解析する。

With the development of deep learning techniques, AI-enhanced numerical solvers are expected to become a new paradigm for solving differential equations due to their versatility and effectiveness in alleviating the accuracy-speed trade-off in traditional numerical solvers. However, this paradigm still inevitably requires a large amount of high-quality data, whose acquisition is often very expensive in natural science and engineering problems. Therefore, in this paper, we explore training efficient and robust AI-enhanced numerical solvers with a small data size by mitigating intrinsic noise disturbances. We first analyze the ability of the self-attention mechanism to regulate noise in supervised learning and then propose a simple-yet-effective numerical solver, AttSolver, which introduces an additive self-attention mechanism to the numerical solution of differential equations based on the dynamical system perspective of the residual neural network. Our results on benchmarks, ranging from high-dimensional problems to chaotic systems, demonstrate the effectiveness of AttSolver in generally improving the performance of existing traditional numerical solvers without any elaborated model crafting. Finally, we analyze the convergence, generalization, and robustness of the proposed method experimentally and theoretically.
翻訳日:2023-02-26 14:35:03 公開日:2023-02-05
# 拡散タンパク質構造デコイの微細化によるタンパク質3次元幾何プリトレーニング

Data-Efficient Protein 3D Geometric Pretraining via Refinement of Diffused Protein Structure Decoy ( http://arxiv.org/abs/2302.10888v1 )

ライセンス: Link先を確認
Yufei Huang, Lirong Wu, Haitao Lin, Jiangbin Zheng, Ge Wang and Stan Z. Li(参考訳) 有意義なタンパク質表現の学習は、構造ベースの薬物設計のような様々な生物学的下流タスクにおいて重要である。 タンパク質配列の事前訓練の成功を目撃し、より情報的な構造データの事前訓練が有望な研究トピックとなっている。 しかし、タンパク質構造事前訓練に直面する大きな課題は3つある: サンプルの多様性の不足、物理的に非現実的なモデリング、タンパク質固有のプリテキストタスクの欠如である。 これらの課題に対処するために,3次元幾何事前学習を提案する。 本稿では,タンパク質の事前学習と3次元幾何学的,データ効率,およびタンパク質特異的プリテキストタスク(RefineDiff (Refinesed Protein Structure Decoy))の統一フレームワークを提案する。 我々の幾何学的認識モデルを限られたデータ(SOTAモデルの1%未満)で事前訓練した後、様々な下流タスクに匹敵する性能を達成できる情報的タンパク質表現を得た。

Learning meaningful protein representation is important for a variety of biological downstream tasks such as structure-based drug design. Having witnessed the success of protein sequence pretraining, pretraining for structural data which is more informative has become a promising research topic. However, there are three major challenges facing protein structure pretraining: insufficient sample diversity, physically unrealistic modeling, and the lack of protein-specific pretext tasks. To try to address these challenges, we present the 3D Geometric Pretraining. In this paper, we propose a unified framework for protein pretraining and a 3D geometric-based, data-efficient, and protein-specific pretext task: RefineDiff (Refine the Diffused Protein Structure Decoy). After pretraining our geometric-aware model with this task on limited data(less than 1% of SOTA models), we obtained informative protein representations that can achieve comparable performance for various downstream tasks.
翻訳日:2023-02-26 14:00:52 公開日:2023-02-05
# 物理対称性による解釈可能な低次元表現の学習

Learning Interpretable Low-dimensional Representation via Physical Symmetry ( http://arxiv.org/abs/2302.10890v1 )

ライセンス: Link先を確認
Xuanjie Liu, Daniel Chin, Yichen Huang, Gus Xia(参考訳) 解釈可能な表現学習は、創造的インテリジェントシステムにおいて重要な役割を担っている。 音楽領域では、現在の学習アルゴリズムはピッチ、音色、コード、テクスチャなどの様々な特徴をうまく学習することができる。 しかし、ほとんどの手法は音楽分野の知識に大きく依存している。 一般的な計算原理が解釈可能な表現、特に人間の知覚に合致する低次元の要素を生み出すかという疑問は依然として残されている。 本研究では, 現代物理学から着想を得て, 潜在空間に対する自己抵抗制約として物理対称性を用いる。 具体的には、ある群変換に関して同変であるように潜在状態のダイナミクスを特徴づける先行モデルが必要である。 物理対称性がモデルに,非ラベル単音節音楽音声からの線形ピッチ係数を自己教師あり方式で学習させることを示す。 さらに、同じ方法論をコンピュータビジョンに適用し、ラベルのない単純な移動物体のビデオから3dデカルト空間を学習することができる。 さらに、物理対称性は自然に、サンプル効率を向上させる新しい手法である表現増強につながる。

Interpretable representation learning has been playing a key role in creative intelligent systems. In the music domain, current learning algorithms can successfully learn various features such as pitch, timbre, chord, texture, etc. However, most methods rely heavily on music domain knowledge. It remains an open question what general computational principles give rise to interpretable representations, especially low-dim factors that agree with human perception. In this study, we take inspiration from modern physics and use physical symmetry as a self-consistency constraint for the latent space. Specifically, it requires the prior model that characterises the dynamics of the latent states to be equivariant with respect to certain group transformations. We show that physical symmetry leads the model to learn a linear pitch factor from unlabelled monophonic music audio in a self-supervised fashion. In addition, the same methodology can be applied to computer vision, learning a 3D Cartesian space from videos of a simple moving object without labels. Furthermore, physical symmetry naturally leads to representation augmentation, a new technique which improves sample efficiency.
翻訳日:2023-02-26 13:48:45 公開日:2023-02-05
# 消費電力予測のための異常検出LSTMフレームワークを用いた非対称損失

An Asymmetric Loss with Anomaly Detection LSTM Framework for Power Consumption Prediction ( http://arxiv.org/abs/2302.10889v1 )

ライセンス: Link先を確認
Jihan Ghanim, Maha Issa, Mariette Awad(参考訳) 最小限の低予測で正確な負荷予測モデルを構築することは、電力不足による望ましくない停電を防ぐために不可欠である。 しかし, 住宅セクターの電力消費パターンには変動や異常があり, 予測が困難である。 本稿では,非対称な損失関数を持つ複数のLong Short-Term Memory (LSTM) フレームワークを提案する。 また、負荷予測タスクに先立って、ノイズを伴うアプリケーション(DBSCAN)異常検出手法の密度に基づく空間クラスタリングを適用し、現在のオーラティを除去する。 気象や社会要因の影響を考慮すると、時間ごとの消費電力、天気、暦の特徴を含むフランス、ドイツ、ハンガリーの3つのデータセットで季節分割が行われる。 root-mean-square error (rmse) の結果は、すべての季節的データセットの過大評価と過大評価エラーを効率的に除去することを示している。 さらに、非対称損失関数と季節分割は、過大評価誤差をある程度増大させたにもかかわらず、過小評価を効果的に最小化する。 電力消費の過小予測の削減は、コミュニティに損害を与える可能性のある停電を防ぐために不可欠である。

Building an accurate load forecasting model with minimal underpredictions is vital to prevent any undesired power outages due to underproduction of electricity. However, the power consumption patterns of the residential sector contain fluctuations and anomalies making them challenging to predict. In this paper, we propose multiple Long Short-Term Memory (LSTM) frameworks with different asymmetric loss functions to impose a higher penalty on underpredictions. We also apply a density-based spatial clustering of applications with noise (DBSCAN) anomaly detection approach, prior to the load forecasting task, to remove any present oultiers. Considering the effect of weather and social factors, seasonality splitting is performed on the three considered datasets from France, Germany, and Hungary containing hourly power consumption, weather, and calendar features. Root-mean-square error (RMSE) results show that removing the anomalies efficiently reduces the underestimation and overestimation errors in all the seasonal datasets. Additionally, asymmetric loss functions and seasonality splitting effectively minimize underestimations despite increasing the overestimation error to some degree. Reducing underpredictions of electricity consumption is essential to prevent power outages that can be damaging to the community.
翻訳日:2023-02-26 13:48:30 公開日:2023-02-05
# 科学は主観性を必要とするか? 量子力学の正統解釈における確認の問題

Does Science need Intersubjectivity? The Problem of Confirmation in Orthodox Interpretations of Quantum Mechanics ( http://arxiv.org/abs/2203.16278v2 )

ライセンス: Link先を確認
Emily Adlam(参考訳) 量子力学をうまく解釈するには、実験的な証拠が量子力学についてどのように知るかを説明する必要がある。 本稿では、この重要な基準は、qbism、neo-copenhagen 解釈、関係量子力学のいくつかのバージョンを含む「オルトドックス解釈」のクラスでは満たされないと主張する。 本研究は,これらのアプローチにおいて,相互主観性は急進的に失敗することを示した。 我々は、信念の更新が正統的な解釈によって仮定される宇宙の中でどのように機能するかを詳細に考察し、そのような宇宙のオブザーバーは、これらの解釈に従って現実を構成するはずの視点の集合の構造について学ぶために、自分自身の視点から逃れることができないと論じる。 我々はまた、これらの解釈のいくつかのバージョンでは、経験的確認のために自分自身の相対周波数を使うことさえ不可能であると主張する。 究極的には、そのような解釈は、少なくとも特定の場合において主観的合意を記述するいくつかの観察者に依存しない構造で補足されない限り、合理的に信じることはできないと結論づける。

Any successful interpretation of quantum mechanics must explain how our empirical evidence allows us to come to know about quantum mechanics. In this article, we argue that this vital criterion is not met by the class of 'orthodox interpretations,' which includes QBism, neo-Copenhagen interpretations, and some versions of relational quantum mechanics. We demonstrate that intersubjectivity fails in radical ways in these approaches, and we explain why intersubjectivity matters for empirical confirmation. We take a detailed look at the way in which belief-updating might work in the kind of universe postulated by an orthodox interpretation, and argue that observers in such a universe are unable to escape their own perspective in order to learn about the structure of the set of perspectives that is supposed to make up reality according to these interpretations. We also argue that in some versions of these interpretations it is not even possible to use one's own relative frequencies for empirical confirmation. Ultimately we conclude that it cannot be rational to believe these sorts of interpretations unless they are supplemented with some observer-independent structure which underwrites intersubjective agreement in at least certain sorts of cases.
翻訳日:2023-02-20 07:15:29 公開日:2023-02-05
# 非ユークリッドおよび順列制約付きTSPのための凸ハルチープ挿入ヒューリスティック

A Convex Hull Cheapest Insertion Heuristic for the Non-Euclidean and Precedence Constrained TSPs ( http://arxiv.org/abs/2302.06582v1 )

ライセンス: Link先を確認
Mithun Goutham, Meghna Menon, Sarah Garrow and Stephanie Stockar(参考訳) 凸船体で最も安価な挿入ヒューリスティックは、ユークリッド旅行販売問題に対する優れた解決策を生み出すことが知られている。 本稿では,このヒューリスティックを非ユークリッド版の問題に適用し,逐次順序問題としても知られる先行制約問題にまで拡張する。 提案アルゴリズムをテストするために、よく知られたTSPLIBベンチマークデータセットを複製可能な方法で修正し、非ユークリッドインスタンスと優先制約を生成する。 提案アルゴリズムは, 優先制約のない場合の97%において, 一般的に使用されている近縁アルゴリズムより優れていることを示す。 子ノードが中心に位置するような優先制約が存在する場合、このアルゴリズムは、研究されたインスタンスの98%で、最も近い隣接アルゴリズムを上回る。 優先制約の全ての空間的レイアウトを考えると、アルゴリズムは最寄りのヒューリスティックな68%を上回っている。

The convex hull cheapest insertion heuristic is known to generate good solutions to the Euclidean Traveling Salesperson Problem. This paper presents an adaptation of this heuristic to the non-Euclidean version of the problem and further extends it to the problem with precedence constraints, also known as the Sequential Ordering Problem. To test the proposed algorithm, the well-known TSPLIB benchmark data-set is modified in a replicable manner to create non-Euclidean instances and precedence constraints. The proposed algorithm is shown to outperform the commonly used Nearest Neighbor algorithm in 97% of the cases that do not have precedence constraints. When precedence constraints exist such that the child nodes are centrally located, the algorithm again outperforms the Nearest Neighbor algorithm in 98% of the studied instances. Considering all spatial layouts of precedence constraints, the algorithm outperforms the Nearest Neighbor heuristic 68% of the time.
翻訳日:2023-02-19 14:22:04 公開日:2023-02-05
# サイバーセキュリティの現代的定義に向けて

Towards a Contemporary Definition of Cybersecurity ( http://arxiv.org/abs/2302.02274v1 )

ライセンス: Link先を確認
Francesco Schiliro(参考訳) このレポートは、現代の運用デジタル環境で定義されたサイバーセキュリティの複雑な分析を提供する。 現代の学術的文脈でどのように構成がレビューされるかを決定するために、広範な文献レビューが形成される。 この記事は、"cybersecurity"という用語を包括的に定義し、その多分野の視点を強調することを目指している。 意味のある簡潔で包括的な次元は、その主題に関する学術的な談話の設計を支援するために提供される。 報告書は、新たな定義に繋がる概念を構成する活動を調べるための統一的な枠組みを提供する。「サイバーセキュリティは、ネットワークとサイバー対応コンピュータシステムを、完全性に妥協し、財産権に干渉するイベントから保護し、ある程度の損失をもたらす、人員とインフラ、構造、プロセスを含むリソースの収集と協調である。 学際領域のカプセル化は、サイバースペースにおける新たな課題に対する理解と対応の改善に不可欠である。

The report provides an intricate analysis of cyber security defined in contemporary operational digital environments. An extensive literature review is formed to determine how the construct is reviewed in modern scholarly contexts. The article seeks to offer a comprehensive definition of the term "cybersecurity" to accentuate its multidisciplinary perspectives. A meaningful concise, and inclusive dimension will be provided to assist in designing scholarly discourse on the subject. The report will offer a unified framework for examining activities that constitute the concept resulting in a new definition; "Cybersecurity is the collection and concerting of resources including personnel and infrastructure, structures, and processes to protect networks and cyber-enabled computer systems from events that compromise the integrity and interfere with property rights, resulting in some extent of the loss." The encapsulation of the interdisciplinary domains will be critical in improving understanding and response to emerging challenges in cyberspace.
翻訳日:2023-02-19 14:02:21 公開日:2023-02-05
# FairMile: 公正でスケーラブルなグラフ表現学習のためのマルチレベルフレームワーク

FairMILE: A Multi-Level Framework for Fair and Scalable Graph Representation Learning ( http://arxiv.org/abs/2211.09925v2 )

ライセンス: Link先を確認
Yuntian He, Saket Gurukar, Srinivasan Parthasarathy(参考訳) グラフ表現学習モデルは、複数のハイテイクシナリオで意思決定するためにデプロイされている。 したがって、これらのモデルが公平であることを保証することは重要である。 先行研究では、グラフニューラルネットワークがグラフデータに存在するバイアスを継承し、強化できることが示されている。 研究者たちは、このようなモデルのバイアスを軽減する方法の検討を始めた。 しかし、既存の取り組みは、その非効率性、限定的な適用性、それらが機密属性に課す制約によって制限されている。 これらの問題に対処するため、公正でスケーラブルなグラフ表現学習のための一般的なフレームワークであるFairMILEを提案する。 fairmileはマルチレベルフレームワークで、現代の教師なしグラフ埋め込みメソッドを、無依存に大規模グラフにスケールできる。 FairMILEは、フレームワークの各フェーズに公正性制約が組み込まれている公正なノード埋め込みと高品質なノード埋め込みの両方を学ぶ。 2つの異なるタスクにわたる実験により、FairMILEは、優れた公正度スコアと高い下流性能を達成できるノード表現を学習でき、効率の点で全てのベースラインを大幅に上回ることを示した。

Graph representation learning models have been deployed for making decisions in multiple high-stakes scenarios. It is therefore critical to ensure that these models are fair. Prior research has shown that graph neural networks can inherit and reinforce the bias present in graph data. Researchers have begun to examine ways to mitigate the bias in such models. However, existing efforts are restricted by their inefficiency, limited applicability, and the constraints they place on sensitive attributes. To address these issues, we present FairMILE a general framework for fair and scalable graph representation learning. FairMILE is a multi-level framework that allows contemporary unsupervised graph embedding methods to scale to large graphs in an agnostic manner. FairMILE learns both fair and high-quality node embeddings where the fairness constraints are incorporated in each phase of the framework. Our experiments across two distinct tasks demonstrate that FairMILE can learn node representations that often achieve superior fairness scores and high downstream performance while significantly outperforming all the baselines in terms of efficiency.
翻訳日:2023-02-19 12:30:57 公開日:2023-02-05
# 生成型aiリリースの勾配:手法と考察

The Gradient of Generative AI Release: Methods and Considerations ( http://arxiv.org/abs/2302.04844v1 )

ライセンス: Link先を確認
Irene Solaiman(参考訳) ますます強力な生成AIシステムの開発に伴い、リリース方法は大きく異なる。 生成AIシステムへの6つのアクセスレベルを評価するためのフレームワークを提案する。完全クローズド、段階的または段階的なアクセス、ホスト型アクセス、クラウドベースまたはAPIアクセス、ダウンロード可能なアクセス、完全オープンである。 完全閉から完全開までの各レベルは、勾配に沿った選択肢と見なすことができる。 リリースメソッドにはトレードオフがあり、特に集中力とリスク軽減の緊張関係に関するものです。 生成型AIシステムのリスクを概念から展開まで検討し軽減するためには、多分野・多分野の視点が必要である。 我々は、強力なシステムのための大企業とオープンネスの原則に基づく組織の間でのクローズネスについて、時間とともに生成システムリリースの傾向を示す。 また、生成システムの安全管理とガードレールを列挙し、将来のリリースを改善するために必要な投資を列挙する。

As increasingly powerful generative AI systems are developed, the release method greatly varies. We propose a framework to assess six levels of access to generative AI systems: fully closed; gradual or staged access; hosted access; cloud-based or API access; downloadable access; and fully open. Each level, from fully closed to fully open, can be viewed as an option along a gradient. We outline key considerations across this gradient: release methods come with tradeoffs, especially around the tension between concentrating power and mitigating risks. Diverse and multidisciplinary perspectives are needed to examine and mitigate risk in generative AI systems from conception to deployment. We show trends in generative system release over time, noting closedness among large companies for powerful systems and openness among organizations founded on principles of openness. We also enumerate safety controls and guardrails for generative systems and necessary investments to improve future releases.
翻訳日:2023-02-10 14:39:55 公開日:2023-02-05
# 最適輸送の熱力学統一:熱力学不確かさ関係、最小散逸、熱力学速度限界

Thermodynamic Unification of Optimal Transport: Thermodynamic Uncertainty Relation, Minimum Dissipation, and Thermodynamic Speed Limits ( http://arxiv.org/abs/2206.02684v4 )

ライセンス: Link先を確認
Tan Van Vu and Keiji Saito(参考訳) 熱力学はエネルギーの観点から物理系を研究する普遍的な手段である。 近年、確率的・量子的熱力学の分野が確立され、熱力学のアイデアは小さな変動系に一般化された。 数学と統計学で独立に発展した最適輸送理論は、ソース分布をターゲット分布へ最適に輸送できる手段に関するもので、確率分布の間の有用な計量(ワッサースタイン距離と呼ばれる)を導出する。 その一見無関係な性質にもかかわらず、これらの場間の親密な関係は連続状態ランゲヴィン力学の文脈で明らかにされ、非平衡系にいくつかの重要な意味を持つ。 本研究では, 離散的最適輸送のための熱力学フレームワークを開発し, 離散的事例に対する類似接続を解明する。 まず, 熱力学的不確実性関係を著しく改善し, 非平衡マルコフ跳躍過程における電流の精度に関する洞察を与える, 動的状態移動と呼ばれる新しい量を導入する。 次に、離散ハッサースタイン距離と離散マルコフ力学の確率的および量子的熱力学をマスター方程式で記述した変分公式を導出する。 具体的には、ワッサーシュタイン距離が可逆エントロピー生成とすべての許容マルコフ力学上の動的状態移動の最小積に等しいことを厳密に証明する。 これらの公式は、熱力学と離散ケースと連続ケースの最適輸送理論の関係を統一するだけでなく、量子ケースに一般化する。 さらに、得られた変分式が確率および量子熱力学に顕著な応用をもたらすことを示した。

Thermodynamics serves as a universal means for studying physical systems from an energy perspective. In recent years, with the establishment of the field of stochastic and quantum thermodynamics, the ideas of thermodynamics have been generalized to small fluctuating systems. Independently developed in mathematics and statistics, the optimal transport theory concerns the means by which one can optimally transport a source distribution to a target distribution, deriving a useful metric between probability distributions, called the Wasserstein distance. Despite their seemingly unrelated nature, an intimate connection between these fields has been unveiled in the context of continuous-state Langevin dynamics, providing several important implications for nonequilibrium systems. In this study, we elucidate an analogous connection for discrete cases by developing a thermodynamic framework for discrete optimal transport. We first introduce a novel quantity called dynamical state mobility, which significantly improves the thermodynamic uncertainty relation and provides insights into the precision of currents in nonequilibrium Markov jump processes. We then derive variational formulas that connect the discrete Wasserstein distances to stochastic and quantum thermodynamics of discrete Markovian dynamics described by master equations. Specifically, we rigorously prove that the Wasserstein distance equals the minimum product of irreversible entropy production and dynamical state mobility over all admissible Markovian dynamics. These formulas not only unify the relationship between thermodynamics and the optimal transport theory for discrete and continuous cases but also generalize it to the quantum case. In addition, we demonstrate that the obtained variational formulas lead to remarkable applications in stochastic and quantum thermodynamics.
翻訳日:2023-02-10 09:33:10 公開日:2023-02-05
# ツイスト付き高調波発生:マジック角度ツイスト二層グラフェンの全光学的キャラクタリゼーション

High-Harmonic Generation with a twist: all-optical characterization of magic-angle twisted bilayer graphene ( http://arxiv.org/abs/2302.04127v1 )

ライセンス: Link先を確認
Eduardo B. Molinero, Anushree Datta, Mar\'ia J. Calder\'on, Elena Bascones, Rui E. F. Silva(参考訳) 2つのグラフェン層を積み重ねて、それぞれの配向を一定のねじれ角度で変化させると、単一層グラフェンと比較して大きな差があるシステムになる。 このねじれ角の非常に具体的な値として、マジック角と呼ばれる二層グラフェンは、他の系では見つからない独自の位相図を表示する。 近年,高調波発生分光法が量子材料の電子特性の解明に応用されている。 本研究の目的は,マジックアングルねじれ二層グラフェンの非線形光学応答を利用して電子特性を明らかにすることである。 マジックアングルねじれ二層グラフェンのバンド構造が高調波スペクトルにインプリントされていることを示す。 具体的には、魔法の角度に近づくと、高調波信号の劇的な減少が観測される。 以上の結果から,高調波発生は,moir\'e材料の全光学的キャラクタリゼーションへの道を開く,ツイスト二層グラフェンのねじれ角および電子的性質を測定するための分光ツールとして使用できることがわかった。

If we stack up two layers of graphene while changing their respective orientation by some twisting angle, we end up with a system that has striking differences when compared to single-layer graphene. For a very specific value of this twist angle, known as magic angle, twisted bilayer graphene displays a unique phase diagram that cannot be found in other systems. Recently, high harmonic generation spectroscopy has been successfully applied to elucidate the electronic properties of quantum materials. The purpose of the present work is to exploit the nonlinear optical response of magic-angle twisted bilayer graphene to unveil its electronic properties. We show that the band structure of magic-angle twisted bilayer graphene is imprinted onto its high-harmonic spectrum. Specifically, we observe a drastic decrease of harmonic signal as we approach the magic angle. Our results show that high harmonic generation can be used as a spectroscopy tool for measuring the twist angle and also the electronic properties of twisted bilayer graphene, paving the way for an all-optical characterization of moir\'e materials.
翻訳日:2023-02-09 15:53:23 公開日:2023-02-05
# 電荷変動による近藤フラストレーション-モット局在へのルート

Kondo frustration via charge fluctuations: a route to Mott localisation ( http://arxiv.org/abs/2302.02328v1 )

ライセンス: Link先を確認
Abhirup Mukherjee, N. S. Vidhyadhiraja, A. Taraphder and Siddhartha Lal(参考訳) 本研究では, 力学平均場理論(DMFT)により観測されたBethe格子上の半充填ハバードモデルのモット・ハバード金属絶縁体遷移(MIT)の現象を, 最小限の有効不純物モデルとして提案する。 これには、標準のアンダーソンの不純物モデルハミルトニアンを、直接不純物に接続された伝導浴場上での局所的なオンサイト相関$u_b$を含むように拡張することが含まれる。 魅力的な局所浴の相関(U_{b}<0$)の場合、拡張アンダーソン不純物モデル(e-SIAM)はDMFT位相図のいくつかの側面に新しい光を放つ。 例えば、$T=0$の金属-絶縁体量子相転移(QPT)は、局所モーメント固有状態が低いスペクトルに出現する励起状態量子相転移(ESQPT)によって先行される。 長距離変動はQPTとESQPTの両方の近傍で観測されており、DMFTシミュレーションで最近観測された量子臨界スケーリングの起源であることが示唆されている。 QCPの$T=0$のギャップレス励起は、粒子-ホールの相互変換過程を示し、自己エネルギーと2粒子相関のパワー-ロー挙動を示す。 これらは近藤スクリーニングの部分的分解から生じる非フェルミ液体の挙動のシグネチャである。

We propose a minimal effective impurity model that captures the phenomenology of the Mott-Hubbard metal-insulator transition (MIT) of the half-filled Hubbard model on the Bethe lattice in infinite dimensions as observed by dynamical mean field theory (DMFT). This involves extending the standard Anderson impurity model Hamiltonian to include an explicit Kondo coupling $J$, as well as a local on-site correlation $U_b$ on the conduction bath site connected directly to the impurity. For the case of attractive local bath correlations ($U_{b}<0$), the extended Anderson impurity model (e-SIAM) sheds new light on several aspects of the DMFT phase diagram. For example, the $T=0$ metal-to-insulator quantum phase transition (QPT) is preceded by an excited state quantum phase transition (ESQPT) where the local moment eigenstates are emergent in the low-lying spectrum. Long-ranged fluctuations are observed near both the QPT and ESQPT, suggesting that they are the origin of the quantum critical scaling observed recently at high temperatures in DMFT simulations. The $T=0$ gapless excitations at the QCP display particle-hole interconversion processes, and exhibit power-law behaviour in self-energies and two-particle correlations. These are signatures of non-Fermi liquid behaviour that emerge from the partial breakdown of the Kondo screening.
翻訳日:2023-02-08 18:41:15 公開日:2023-02-05
# LiteVR: 説明可能なAIによる解釈と軽量サイバーシック検出

LiteVR: Interpretable and Lightweight Cybersickness Detection using Explainable AI ( http://arxiv.org/abs/2302.03037v1 )

ライセンス: Link先を確認
Ripan Kumar Kundu, Rifatul Islam, John Quarles, Khaza Anuarul Hoque(参考訳) サイバーシックネス(Cybersickness)は、仮想現実(VR)ユーザーエクスペリエンスに関連する一般的な障害である。 サイバーシックを検出する機械学習(ML)とディープラーニング(DL)に基づいて、いくつかの自動化手法が存在する。 しかし,これらのサイバーシック検出手法のほとんどは,計算集約的かつブラックボックス的手法として認識されている。 したがって、これらの技術は、スタンドアロンのエネルギー制約付きVRヘッドマウントデバイス(HMD)にデプロイする上で、信頼性も実用的でもない。 本稿では、サイバーシック検出のための説明可能な人工知能(XAI)ベースのフレームワークLiteVRを紹介し、モデルの結果を説明し、特徴量と全体的な計算コストを削減する。 まず、長期短期記憶(LSTM)、ゲートリカレントユニット(GRU)、多層パーセプトロン(MLP)に基づく3つのサイバーシック性DLモデルを開発する。 次に、SHAP(SHapley Additive Explanations)のようなポストホックな説明を用いて結果を説明し、サイバーシックの最も支配的な特徴を抽出した。 最後に,特徴量を減らすことでDLモデルを再学習する。 以上の結果から,視線追跡機能はサイバーシック検出において最有力であることが示唆された。 さらに,xaiに基づく特徴のランク付けと次元の縮小により,モデルのサイズを最大4.3倍,トレーニング時間を最大5.6倍,推論時間を最大3.8倍削減し,サイバーシックネス検出精度と回帰誤差(即ち高速モーションスケール(fms))を低減した。 提案モデルでは,サイバーシック度と回帰率(FMS 1-10)を0.30のルート平均角誤差(RMSE)で94%の精度で評価した。 提案するLiteVRフレームワークは,DLベースのサイバーシック検出モデルをスタンドアロンのVR HMDで分析,検出,展開する上で有効である。

Cybersickness is a common ailment associated with virtual reality (VR) user experiences. Several automated methods exist based on machine learning (ML) and deep learning (DL) to detect cybersickness. However, most of these cybersickness detection methods are perceived as computationally intensive and black-box methods. Thus, those techniques are neither trustworthy nor practical for deploying on standalone energy-constrained VR head-mounted devices (HMDs). In this work, we present an explainable artificial intelligence (XAI)-based framework, LiteVR, for cybersickness detection, explaining the model's outcome and reducing the feature dimensions and overall computational costs. First, we develop three cybersickness DL models based on long-term short-term memory (LSTM), gated recurrent unit (GRU), and multilayer perceptron (MLP). Then, we employed a post-hoc explanation, such as SHapley Additive Explanations (SHAP), to explain the results and extract the most dominant features of cybersickness. Finally, we retrain the DL models with the reduced number of features. Our results show that eye-tracking features are the most dominant for cybersickness detection. Furthermore, based on the XAI-based feature ranking and dimensionality reduction, we significantly reduce the model's size by up to 4.3x, training time by up to 5.6x, and its inference time by up to 3.8x, with higher cybersickness detection accuracy and low regression error (i.e., on Fast Motion Scale (FMS)). Our proposed lite LSTM model obtained an accuracy of 94% in classifying cybersickness and regressing (i.e., FMS 1-10) with a Root Mean Square Error (RMSE) of 0.30, which outperforms the state-of-the-art. Our proposed LiteVR framework can help researchers and practitioners analyze, detect, and deploy their DL-based cybersickness detection models in standalone VR HMDs.
翻訳日:2023-02-08 18:29:46 公開日:2023-02-05
# Few-Shotテキスト分類のためのメタラーニングシームスネットワーク

Meta-Learning Siamese Network for Few-Shot Text Classification ( http://arxiv.org/abs/2302.03507v1 )

ライセンス: Link先を確認
Chengcheng Han, Yuhe Wang, Yingnan Fu, Xiang Li, Minghui Qiu, Ming Gao, and Aoying Zhou(参考訳) テキスト分類におけるラベルの不足という問題に対処するために、わずかなショット学習が使われており、どのメタラーニングベースの手法が有効であるか、例えばproto(proto)が示されている。 PROTO の成功にもかかわらず,(1) プロトタイプベクトルの計算におけるサンプルサポートセットのランダム性を無視し,(2) ラベル付きサンプルの重要性を無視し,(3) メタタスクを純粋にランダムに構築する,という3つの問題が存在する。 本稿では,これらの問題に対処するために,メタラーニング・シャムネットワークであるmeta-snを提案する。 具体的には、サンプル化されたサポートセットからプロトタイプベクトルを計算する代わりに、Meta-SNは、プロトタイプベクトルの低次元埋め込みとして符号化されたクラスラベルの外部知識(クラス名や記述テキストなど)を利用する。 さらに、meta-snはメタタスクを構築するための新しいサンプリング戦略を提示している。 他の最先端モデルよりもMeta-SNの明確な優位性を示すため、6つのベンチマークデータセットで大規模な実験が行われた。 再現性のために、すべてのデータセットとコードはhttps://github.com/hccngu/Meta-SNで提供されている。

Few-shot learning has been used to tackle the problem of label scarcity in text classification, of which meta-learning based methods have shown to be effective, such as the prototypical networks (PROTO). Despite the success of PROTO, there still exist three main problems: (1) ignore the randomness of the sampled support sets when computing prototype vectors; (2) disregard the importance of labeled samples; (3) construct meta-tasks in a purely random manner. In this paper, we propose a Meta-Learning Siamese Network, namely, Meta-SN, to address these issues. Specifically, instead of computing prototype vectors from the sampled support sets, Meta-SN utilizes external knowledge (e.g. class names and descriptive texts) for class labels, which is encoded as the low-dimensional embeddings of prototype vectors. In addition, Meta-SN presents a novel sampling strategy for constructing meta-tasks, which gives higher sampling probabilities to hard-to-classify samples. Extensive experiments are conducted on six benchmark datasets to show the clear superiority of Meta-SN over other state-of-the-art models. For reproducibility, all the datasets and codes are provided at https://github.com/hccngu/Meta-SN.
翻訳日:2023-02-08 16:06:06 公開日:2023-02-05
# コード生成タスクのためのデータ拡張の探索

Exploring Data Augmentation for Code Generation Tasks ( http://arxiv.org/abs/2302.03499v1 )

ライセンス: Link先を確認
Pinzhen Chen and Gerasimos Lampouras(参考訳) 自然言語処理の進歩、例えば事前学習された言語モデルからのトランスファー学習は、プログラミング言語タスクのためのモデルのトレーニング方法にも影響を与えている。 これまでの研究は主にコードの事前学習を探求し、マルチモダリティとマルチタスクを通じて拡張していたが、ダウンストリームタスクのデータのサイズは依然として控えめである。 ダウンストリームタスクにおけるデータ利用に着目し,コード翻訳と要約の一貫性をそれぞれ6.9%,7.5%向上させる拡張手法を提案し,適用する。 さらに分析した結果,本手法は直交的に動作し,出力コードスタイルと数値一貫性の利点を示すことが示唆された。 また、テストデータの欠陥についても論じる。

Advances in natural language processing, such as transfer learning from pre-trained language models, have impacted how models are trained for programming language tasks too. Previous research primarily explored code pre-training and expanded it through multi-modality and multi-tasking, yet the data for downstream tasks remain modest in size. Focusing on data utilization for downstream tasks, we propose and adapt augmentation methods that yield consistent improvements in code translation and summarization by up to 6.9% and 7.5% respectively. Further analysis suggests that our methods work orthogonally and show benefits in output code style and numeric consistency. We also discuss test data imperfections.
翻訳日:2023-02-08 16:04:45 公開日:2023-02-05
# PAMP:低リソース自動音声認識を促進する統合フレームワーク

PAMP: A unified framework boosting low resource automatic speech recognition ( http://arxiv.org/abs/2302.03498v1 )

ライセンス: Link先を確認
Zeping Min, Qian Ge, Zhong Li and Weinan E(参考訳) 本稿では,低リソース自動音声認識(ASR)タスクのための新しいTTS(text-to-speech)データ拡張フレームワーク,名前付き音声合成(PAMP)を提案する。 PAMP法は高度に解釈可能であり、発音規則の事前知識を組み込むことができる。 さらに、pampは、ほとんどどんな言語でも簡単にデプロイでき、リソースの少ないasrタスクには非常に適しています。 広汎な実験により、低リソースASRタスクにおけるPAMPの大幅な効果が示された: 共通音声カントンASRタスク上での文字誤り率(CER)を達成し、wav2vec2事前訓練モデルの微調整によって達成された従来の最先端技術と比較して、約1,30\%の大幅な改善を実現した。

We propose a novel text-to-speech (TTS) data augmentation framework for low resource automatic speech recognition (ASR) tasks, named phoneme audio mix up (PAMP). The PAMP method is highly interpretable and can incorporate prior knowledge of pronunciation rules. Furthermore, PAMP can be easily deployed in almost any language, extremely for low resource ASR tasks. Extensive experiments have demonstrated the great effectiveness of PAMP on low resource ASR tasks: we achieve a \textbf{10.84\%} character error rate (CER) on the common voice Cantonese ASR task, bringing a great relative improvement of about \textbf{30\%} compared to the previous state-of-the-art which was achieved by fine-tuning the wav2vec2 pretrained model.
翻訳日:2023-02-08 16:04:33 公開日:2023-02-05
# パブリック危機を評価する機械学習手法:メタ分析

Machine Learning Methods for Evaluating Public Crisis: Meta-Analysis ( http://arxiv.org/abs/2302.02267v1 )

ライセンス: Link先を確認
Izunna Okpala, Shane Halse, Jess Kropczynski(参考訳) 本研究では危機管理に使用される機械学習手法を検討する。 危機から検出されたパターンを分析するには、自動化された手段による歴史的またはほぼリアルタイムなデータセットの収集と評価が含まれる。 本稿では,危機時の行動評価に機械学習を用いた科学文献の分析にメタリビュー手法を用いた。 3つの学術データベースからアクセスされた出版物の体系的な文献評価を用いて,選択された研究をテーマと新興トレンドに凝縮した。 その結果、ソーシャルメディアのデータは27%の使用率の評価項目で顕著であり、続いて災害管理、健康管理(COVID)、危機情報学など多くのテーマが取り上げられた。 さらに、教師付き機械学習手法は、ボード全体で69%の応用率で支配的であった。 分類技術は、他の機械学習タスクの中でも41%の使用率で際立った。 主要な役割を果たしたアルゴリズムは、Support Vector Machine、Neural Networks、Naive Bayes、Random Forestで、それぞれ23%、16%、15%、そして12%のコントリビューションがあった。

This study examines machine learning methods used in crisis management. Analyzing detected patterns from a crisis involves the collection and evaluation of historical or near-real-time datasets through automated means. This paper utilized the meta-review method to analyze scientific literature that utilized machine learning techniques to evaluate human actions during crises. Selected studies were condensed into themes and emerging trends using a systematic literature evaluation of published works accessed from three scholarly databases. Results show that data from social media was prominent in the evaluated articles with 27% usage, followed by disaster management, health (COVID) and crisis informatics, amongst many other themes. Additionally, the supervised machine learning method, with an application of 69% across the board, was predominant. The classification technique stood out among other machine learning tasks with 41% usage. The algorithms that played major roles were the Support Vector Machine, Neural Networks, Naive Bayes, and Random Forest, with 23%, 16%, 15%, and 12% contributions, respectively.
翻訳日:2023-02-07 19:21:35 公開日:2023-02-05
# ReDi: 軌道探索による効率的な学習自由拡散推論

ReDi: Efficient Learning-Free Diffusion Inference via Trajectory Retrieval ( http://arxiv.org/abs/2302.02285v1 )

ライセンス: Link先を確認
Kexun Zhang, Xianjun Yang, William Yang Wang, Lei Li(参考訳) 拡散モデルは様々なデータに対して有望な生成能力を示す。 高い世代品質にもかかわらず、多くのサンプリングイテレーションが必要なため、拡散モデルの推論は依然として時間がかかります。 推論を高速化するため,ReDiは単純だが学習不要なRetrievalベースの拡散サンプリングフレームワークである。 事前計算された知識ベースから、ReDiは生成初期に部分的に生成された軌跡に似た軌跡を検索し、中間ステップの大部分をスキップし、検索された軌跡の後半ステップからのサンプリングを継続する。 ReDiの生成性能が保証されていることを理論的に証明する。 実験の結果,ReDiはモデル推論効率を2倍高速化することがわかった。 さらに、ReDiは、画像スタイリングのようなゼロショットのクロスドメイン画像生成において、うまく一般化することができる。

Diffusion models show promising generation capability for a variety of data. Despite their high generation quality, the inference for diffusion models is still time-consuming due to the numerous sampling iterations required. To accelerate the inference, we propose ReDi, a simple yet learning-free Retrieval-based Diffusion sampling framework. From a precomputed knowledge base, ReDi retrieves a trajectory similar to the partially generated trajectory at an early stage of generation, skips a large portion of intermediate steps, and continues sampling from a later step in the retrieved trajectory. We theoretically prove that the generation performance of ReDi is guaranteed. Our experiments demonstrate that ReDi improves the model inference efficiency by 2x speedup. Furthermore, ReDi is able to generalize well in zero-shot cross-domain image generation such as image stylization.
翻訳日:2023-02-07 19:12:22 公開日:2023-02-05
# Design Booster:空間レイアウト保存による画像翻訳のためのテキストガイド拡散モデル

Design Booster: A Text-Guided Diffusion Model for Image Translation with Spatial Layout Preservation ( http://arxiv.org/abs/2302.02284v1 )

ライセンス: Link先を確認
Shiqi Sun, Shancheng Fang, Qian He, Wei Liu(参考訳) 拡散モデルは任意のシーンでフォトリアリスティックな画像を生成することができる。 しかし,画像翻訳に拡散モデルを適用する場合,空間構造維持と高品質コンテンツとのトレードオフが存在する。 また,既存の手法は主に各入力画像に対するテスト時間最適化や微調整モデルに基づいており,実用化には非常に時間がかかる。 そこで本研究では,テキスト条件とともにレイアウト認識型画像条件を学習し,フレキシブル画像翻訳のための新しい手法を提案する。 具体的には、トレーニングフェーズ中に画像とテキストを新しいドメインに共コードする。 推論の段階では、各時間ステップの条件として画像/テキストまたは両方を選択でき、レイアウトとコンテンツをより柔軟に制御できます。 提案手法と最先端手法との実験的比較により,本手法はスタイル画像翻訳とセマンティック画像翻訳の両方において最適であり,最短時間を要した。

Diffusion models are able to generate photorealistic images in arbitrary scenes. However, when applying diffusion models to image translation, there exists a trade-off between maintaining spatial structure and high-quality content. Besides, existing methods are mainly based on test-time optimization or fine-tuning model for each input image, which are extremely time-consuming for practical applications. To address these issues, we propose a new approach for flexible image translation by learning a layout-aware image condition together with a text condition. Specifically, our method co-encodes images and text into a new domain during the training phase. In the inference stage, we can choose images/text or both as the conditions for each time step, which gives users more flexible control over layout and content. Experimental comparisons of our method with state-of-the-art methods demonstrate our model performs best in both style image translation and semantic image translation and took the shortest time.
翻訳日:2023-02-07 19:12:09 公開日:2023-02-05
# 医用画像登録のための相関ネットワークによる再発

Recurrence With Correlation Network for Medical Image Registration ( http://arxiv.org/abs/2302.02283v1 )

ライセンス: Link先を確認
Vignesh Sivan, Teodora Vujovic, Raj Ranabhat, Alexander Wong, Stewart Mclachlin, Michael Hardisty(参考訳) 本稿では,マルチスケール機能とコストボリューム層を有する医用画像登録ネットワークであるcorrelation network (rwcnet) を用いた再発例を示す。 これらのアーキテクチャ機能は,miccai 2022 learn2regワークショップの2つの画像登録データセットにおいて,医療画像登録精度を向上させることを実証する。 NLST(National Lung Screening Test)データセットでは、RWCNetはインスタンスの微調整なしに対応するキーポイント間で2.11mmの総登録誤差(TRE)を達成することができる。 OASIS 脳MRIデータセットでは、RWCNetは35の解剖学的ラベルに対して平均81.7%のダイスオーバーラップを達成することができる。 別のマルチスケールネットワークであるLaplacian Image Registration Network(LapIRN)を両データセットで上回ります。 各種建築特性の寄与を強調するためにアブレーション実験を行った。 マルチスケール機能は両方のデータセットの検証精度を改善したが、コストボリューム層と繰り返しステップの数によって、大きな変位したNLSTデータセットのパフォーマンスが向上しただけだった。 この結果から,RNNを用いたコストボリューム層と反復リファインメントは,大容量医用画像登録における最適化と一般化に有効であることが示唆された。 RWCNetのコードはhttps://github.com/vigsivan/optimization-based-registrationで公開されている。

We present Recurrence with Correlation Network (RWCNet), a medical image registration network with multi-scale features and a cost volume layer. We demonstrate that these architectural features improve medical image registration accuracy in two image registration datasets prepared for the MICCAI 2022 Learn2Reg Workshop Challenge. On the large-displacement National Lung Screening Test (NLST) dataset, RWCNet is able to achieve a total registration error (TRE) of 2.11mm between corresponding keypoints without instance fine-tuning. On the OASIS brain MRI dataset, RWCNet is able to achieve an average dice overlap of 81.7% for 35 different anatomical labels. It outperforms another multi-scale network, the Laplacian Image Registration Network (LapIRN), on both datasets. Ablation experiments are performed to highlight the contribution of the various architectural features. While multi-scale features improved validation accuracy for both datasets, the cost volume layer and number of recurrent steps only improved performance on the large-displacement NLST dataset. This result suggests that cost volume layer and iterative refinement using RNN provide good support for optimization and generalization in large-displacement medical image registration. The code for RWCNet is available at https://github.com/vigsivan/optimization-based-registration.
翻訳日:2023-02-07 19:11:54 公開日:2023-02-05
# ノイマン代数における量子レニーのエントロピーを保存する写像

Mappings preserving quantum Renyi's entropies in von Neumann algebras ( http://arxiv.org/abs/2302.02282v1 )

ライセンス: Link先を確認
Andrzej {\L}uczak, Hanna Pods\k{e}dkowska, Rafa{\l} Wieczorek(参考訳) 半有限フォン・ノイマン代数上の正規正線型ユニタリ写像がトレース不変量を残すと、通常の状態の密度の固定量子レニーのエントロピーが変化しない状況について検討する。 また、そのような写像が任意の密度のエントロピーを変化させないことと、それが代数上のヨルダン *-同型であることは同値である。

We investigate the situation when a normal positive linear unital map on a semifinite von Neumann algebra leaving the trace invariant does not change fixed quantum Renyi's entropy of the density of a normal state. It is also shown that such a map does not change the entropy of any density if and only if it is a Jordan *-isomorphism on the algebra.
翻訳日:2023-02-07 19:11:35 公開日:2023-02-05
# 臨界状態の予測法:双対空間におけるリアプノフ指数の不変性

How to predict critical state: Invariance of Lyapunov exponent in dual spaces ( http://arxiv.org/abs/2302.02281v1 )

ライセンス: Link先を確認
Tong Liu and Xu Xia(参考訳) 混乱したシステムの臨界状態は、魅力的で微妙な固有状態であり、多くの研究の関心を集めている。 しかし、臨界状態の性質を定量的に記述することは困難である。 研究の大半は数値的な検証に焦点を当てており、臨界状態が存在するシステムを予測できない。 本研究では、臨界状態 Lyapunov exponent が双対空間において同時に 0 となること、すなわち、Lyapunov exponent はフーリエ変換の下で不変である、という明示的で普遍的な基準を提案する。 この基準により、我々は初めて多数のクリティカルな状態をホストする特定のシステムを正確に予測する。 次に,理論予測の数値検証を行い,臨界状態の自己相似性とスケール不変性を示す。 最後に、リアプノフ指数の不変量と共形不変量の間に何らかの関係が存在すると推測する。

The critical state in disordered systems, a fascinating and subtle eigenstate, has attracted a lot of research interest. However, the nature of the critical state is difficult to describe quantitatively. Most of the studies focus on numerical verification, and cannot predict the system in which the critical state exists. In this work, we propose an explicit and universal criterion that for the critical state Lyapunov exponent should be 0 simultaneously in dual spaces, namely Lyapunov exponent remains invariant under Fourier transform. With this criterion, we exactly predict a specific system hosting a large number of critical states for the first time. Then, we perform numerical verification of the theoretical prediction, and display the self-similarity and scale invariance of the critical state. Finally, we conjecture that there exist some kind of connection between the invariance of the Lyapunov exponent and conformal invariance.
翻訳日:2023-02-07 19:11:28 公開日:2023-02-05
# 量子性能ベンチマークとしての最適化応用

Optimization Applications as Quantum Performance Benchmarks ( http://arxiv.org/abs/2302.02278v1 )

ライセンス: Link先を確認
Thomas Lubinski, Carleton Coffrin, Catherine McGeoch, Pratik Sathe, Joshua Apanavicius, David E. Bernal Neira(参考訳) コンビネーション最適化は、今後数年で量子計算の主要なユースケースの1つになると期待されている。 Quantum Approximate Optimization Algorithm (QAOA)とQuantum Annealing (QA)は、現在の最先端ソリューションよりも実行時のパフォーマンス上の大きなメリットを示す可能性がある。 従来の最適化アルゴリズムの特徴付け手法を用いて,量子アニーリングデバイスとゲートモデル量子シミュレーターおよびデバイスを用いて,Max-Cut問題を解くことで得られる解の質を解析する。 これは、実行時のパフォーマンスと反復的なハイブリッド量子古典的アプリケーションにおける解の品質の間のトレードオフを評価するために設計された量子コンピュータのための高度なベンチマークフレームワークの開発を導くために使用される。 このフレームワークは、さまざまな問題サイズの時間の関数としてパフォーマンスの進行を示す効果的な可視化を通じてパフォーマンスプロファイルを生成し、ベンチマークアプローチによって明らかになったアルゴリズムの制限を説明する。 このフレームワークは、既存のオープンソースQED-C Application-Oriented Benchmarkスイートの拡張であり、オープンソース分析ライブラリに接続することができる。 このスイートは、様々な量子シミュレータや量子ハードウェアシステム上で実行できる。

Combinatorial optimization is anticipated to be one of the primary use cases for quantum computation in the coming years. The Quantum Approximate Optimization Algorithm (QAOA) and Quantum Annealing (QA) have the potential to demonstrate significant run-time performance benefits over current state-of-the-art solutions. Using existing methods for characterizing classical optimization algorithms, we analyze solution quality obtained by solving Max-Cut problems using a quantum annealing device and gate-model quantum simulators and devices. This is used to guide the development of an advanced benchmarking framework for quantum computers designed to evaluate the trade-off between run-time execution performance and the solution quality for iterative hybrid quantum-classical applications. The framework generates performance profiles through effective visualizations that show performance progression as a function of time for various problem sizes and illustrates algorithm limitations uncovered by the benchmarking approach. The framework is an enhancement to the existing open-source QED-C Application-Oriented Benchmark suite and can connect to the open-source analysis libraries. The suite can be executed on various quantum simulators and quantum hardware systems.
翻訳日:2023-02-07 19:11:14 公開日:2023-02-05
# SE(3)拡散モデルと蛋白質バックボーン生成への応用

SE(3) diffusion model with application to protein backbone generation ( http://arxiv.org/abs/2302.02277v1 )

ライセンス: Link先を確認
Jason Yim, Brian L. Trippe, Valentin De Bortoli, Emile Mathieu, Arnaud Doucet, Regina Barzilay, Tommi Jaakkola(参考訳) 新規なタンパク質構造の設計は、生物医学や化学におけるタンパク質工学の課題である。 この研究で、3dの剛体上の拡散モデル(フレームと呼ばれる)は、自然界では観測されていない新しい機能的タンパク質バックボーンの生成に成功している。 しかし、SE(3) 上の拡散の原理的な方法論的枠組みは存在せず、R3 内の剛運動を保存する向きの空間は、フレーム上で作用し、群不変性を与える。 本稿では、se(3)不変拡散モデルの理論的な基礎を複数フレーム上で開発し、se(3)同値スコアを複数フレーム上で学習するための新しいフレームワークであるframediffを開発した。 FrameDiffをモノマーのバックボーン生成に適用し,従来手法に不可欠なタンパク質構造予測ネットワークに頼ることなく,500アミノ酸まで設計可能なモノマーを生成できることを確認した。 我々のサンプルは、既知のタンパク質構造を越えて一般化できる。

The design of novel protein structures remains a challenge in protein engineering for applications across biomedicine and chemistry. In this line of work, a diffusion model over rigid bodies in 3D (referred to as frames) has shown success in generating novel, functional protein backbones that have not been observed in nature. However, there exists no principled methodological framework for diffusion on SE(3), the space of orientation preserving rigid motions in R3, that operates on frames and confers the group invariance. We address these shortcomings by developing theoretical foundations of SE(3) invariant diffusion models on multiple frames followed by a novel framework, FrameDiff, for learning the SE(3) equivariant score over multiple frames. We apply FrameDiff on monomer backbone generation and find it can generate designable monomers up to 500 amino acids without relying on a pretrained protein structure prediction network that has been integral to previous methods. We find our samples are capable of generalizing beyond any known protein structure.
翻訳日:2023-02-07 19:10:55 公開日:2023-02-05
# ステレオ特徴強調とグラフ注意学習に基づくJPEGステガナリシス

JPEG Steganalysis Based on Steganographic Feature Enhancement and Graph Attention Learning ( http://arxiv.org/abs/2302.02276v1 )

ライセンス: Link先を確認
Qiyun Liu, Zhiguang Yang and Hanzhou Wu(参考訳) 画像ステガナリシスの目的は、キャリア画像が隠された情報を含むか否かを決定することである。 JEPGはソーシャルネットワーク上で最も一般的に使用される画像フォーマットであるため、JPEG画像のステガナリシスも調査に最も緊急に必要である。 しかし、JEPG画像内に秘密情報が隠されているかどうかを検出するため、既存のアルゴリズムの大部分は、画像ステガナリシスに現れる重要な特徴を考慮せずに、一般的なコンピュータビジョン関連ネットワークと連携して設計されている。 非常に弱い信号であるステガノグラフ信号は、その表現学習過程において増強可能であることが重要である。 本稿では,この知見に動機づけられ,グラフ注意学習モジュールと特徴拡張モジュールを主とするjpeg steg analysisのための新しい表現学習アルゴリズムを提案する。 グラフ注意学習モジュールは、畳み込みニューラルネットワークの局所的特徴学習と、知覚領域を拡張するために深さ積み重ねに依存することによる、グローバルな特徴損失を回避するように設計されている。 この特徴強化モジュールは、畳み込み層の積み重ねがステガノグラフィー情報を弱めることを防止する。 さらに、大規模データセットでネットワーク重みを初期化する手段としてプレトレーニングを使用して、ネットワークが識別的特徴を抽出する能力を高める。 BOSSBase+BOWS2でトレーニングされたモデルに対して、ALASKA2での事前トレーニングを推奨する。 実験の結果,提案アルゴリズムは検出精度において先行技術よりも優れており,提案手法の優位性と適用性が確認されている。

The purpose of image steganalysis is to determine whether the carrier image contains hidden information or not. Since JEPG is the most commonly used image format over social networks, steganalysis in JPEG images is also the most urgently needed to be explored. However, in order to detect whether secret information is hidden within JEPG images, the majority of existing algorithms are designed in conjunction with the popular computer vision related networks, without considering the key characteristics appeared in image steganalysis. It is crucial that the steganographic signal, as an extremely weak signal, can be enhanced during its representation learning process. Motivated by this insight, in this paper, we introduce a novel representation learning algorithm for JPEG steganalysis that is mainly consisting of a graph attention learning module and a feature enhancement module. The graph attention learning module is designed to avoid global feature loss caused by the local feature learning of convolutional neural network and reliance on depth stacking to extend the perceptual domain. The feature enhancement module is applied to prevent the stacking of convolutional layers from weakening the steganographic information. In addition, pretraining as a way to initialize the network weights with a large-scale dataset is utilized to enhance the ability of the network to extract discriminative features. We advocate pretraining with ALASKA2 for the model trained with BOSSBase+BOWS2. The experimental results indicate that the proposed algorithm outperforms previous arts in terms of detection accuracy, which has verified the superiority and applicability of the proposed work.
翻訳日:2023-02-07 19:10:39 公開日:2023-02-05
# sequence-to-sequenceモデルの真のポテンシャルを解き放つ : sequence tagging と structure parse

Unleashing the True Potential of Sequence-to-Sequence Models for Sequence Tagging and Structure Parsing ( http://arxiv.org/abs/2302.02275v1 )

ライセンス: Link先を確認
Han He, Jinho D. Choi(参考訳) sequence-to-sequence (s2s) モデルは様々なテキスト生成タスクで顕著な成功を収めている。 しかしながら、S2Sモデルで複雑な構造を学ぶことは、外部の神経モジュールや追加のレキシコンがテキスト以外の出力を予測するために補われるため、依然として困難である。 本稿では,4つのコアタスク(part-of-speech tagging, name entity recognition, constituency and dependency parse)のデコードを用いたs2sモデリングの体系的検討を行った。 特に3つの線形化スキーマとそれに対応する制約付き復号法を設計・評価する。 実験により、より語彙化されたスキーマはより重い訓練を必要とするより長い出力シーケンスを生成するが、それらのシーケンスは自然言語に近いため、学習が容易である。 さらに、制約付きデコードを用いたS2Sモデルは、外部リソースを用いた他のS2Sアプローチより優れている。 我々の最高のモデルでは、すべての4つのタスクにおいて最先端よりも、あるいは比較可能なパフォーマンスを実現しています。

Sequence-to-Sequence (S2S) models have achieved remarkable success on various text generation tasks. However, learning complex structures with S2S models remains challenging as external neural modules and additional lexicons are often supplemented to predict non-textual outputs. We present a systematic study of S2S modeling using contained decoding on four core tasks: part-of-speech tagging, named entity recognition, constituency and dependency parsing, to develop efficient exploitation methods costing zero extra parameters. In particular, 3 lexically diverse linearization schemas and corresponding constrained decoding methods are designed and evaluated. Experiments show that although more lexicalized schemas yield longer output sequences that require heavier training, their sequences being closer to natural language makes them easier to learn. Moreover, S2S models using our constrained decoding outperform other S2S approaches using external resources. Our best models perform better than or comparably to the state-of-the-art for all 4 tasks, lighting a promise for S2S models to generate non-sequential structures.
翻訳日:2023-02-07 19:10:13 公開日:2023-02-05
# スコアに基づく生成モデルによる分割と構成

Divide and Compose with Score Based Generative Models ( http://arxiv.org/abs/2302.02272v1 )

ライセンス: Link先を確認
Sandesh Ghimire, Armand Comas, Davin Hill, Aria Masoomi, Octavia Camps, Jennifer Dy(参考訳) スコアベースの生成モデル(または拡散モデル)は画像合成の成功を見出しているが、しばしばテキストデータや画像ラベルと結合して画像を操作し、条件付きで生成することができる。 テキストプロンプトの変更による画像操作は可能だが,テキスト埋め込みの理解と画像編集への修正能力は非常に限られている。 画像操作や条件生成をより制御する方向に向け,教師なしの方法で画像成分を学習し,それらの成分を構成して情報的に画像を生成し,操作することを提案する。 エネルギーモデルからインスピレーションを得て、異なるスコア成分を異なるエネルギー関数の勾配として解釈する。 スコアベースの学習によって、興味深いコンポーネントを学習し、生成を通じてそれらを視覚化できることを示す。 また、この新たな分解によって、夢のような興味深い方法で画像を作成し、生成し、修正することができることを示す。 コードはhttps://github.com/sandeshgh/score-based-disentanglementで利用可能です。

While score based generative models, or diffusion models, have found success in image synthesis, they are often coupled with text data or image label to be able to manipulate and conditionally generate images. Even though manipulation of images by changing the text prompt is possible, our understanding of the text embedding and our ability to modify it to edit images is quite limited. Towards the direction of having more control over image manipulation and conditional generation, we propose to learn image components in an unsupervised manner so that we can compose those components to generate and manipulate images in informed manner. Taking inspiration from energy based models, we interpret different score components as the gradient of different energy functions. We show how score based learning allows us to learn interesting components and we can visualize them through generation. We also show how this novel decomposition allows us to compose, generate and modify images in interesting ways akin to dreaming. We make our code available at https://github.com/sandeshgh/Score-based-disentanglement
翻訳日:2023-02-07 19:09:53 公開日:2023-02-05
# フェアスペースインデクシング : グループ空間フェアネスのパラダイム

Fair Spatial Indexing: A paradigm for Group Spatial Fairness ( http://arxiv.org/abs/2302.02306v1 )

ライセンス: Link先を確認
Sina Shaham, Gabriel Ghinita, Cyrus Shahabi(参考訳) 機械学習(ML)は、個人に直接影響を及ぼす意思決定タスク、例えばローン承認、求職者スクリーニングにおいて、ますます大きな役割を果たす。 重要な懸念は、特別な規定がなければ、特権の低い背景の個人が、サービスや機会に公平にアクセスできないことである。 既存の研究では、性別、人種、収入などの保護された属性に関して公正性について研究しているが、公平性に対する位置データの影響はほとんど見過ごされてきた。 モバイルアプリの普及に伴い、地理空間属性はMLでますます使われており、保護属性と高い相関関係にあるため、不公平なバイアスをもたらす可能性も重要である。 機械学習における位置バイアスを軽減する手法を提案する。 具体的には,地理空間属性を扱う場合のミスキャリブレーションの問題を考える。 本研究では,空間群フェアネスに着目し,フェアネスを考慮した空間インデックス化アルゴリズムを提案する。 我々のKD-treeインスパイアされたアプローチは、実データに対する広範な実験結果によって示されるように、高い学習精度を維持しながら公平性を著しく向上する。

Machine learning (ML) is playing an increasing role in decision-making tasks that directly affect individuals, e.g., loan approvals, or job applicant screening. Significant concerns arise that, without special provisions, individuals from under-privileged backgrounds may not get equitable access to services and opportunities. Existing research studies fairness with respect to protected attributes such as gender, race or income, but the impact of location data on fairness has been largely overlooked. With the widespread adoption of mobile apps, geospatial attributes are increasingly used in ML, and their potential to introduce unfair bias is significant, given their high correlation with protected attributes. We propose techniques to mitigate location bias in machine learning. Specifically, we consider the issue of miscalibration when dealing with geospatial attributes. We focus on spatial group fairness and we propose a spatial indexing algorithm that accounts for fairness. Our KD-tree inspired approach significantly improves fairness while maintaining high learning accuracy, as shown by extensive experimental results on real data.
翻訳日:2023-02-07 19:03:53 公開日:2023-02-05
# 科学文献からの機械学習教材類似性による無機合成推奨

Inorganic synthesis recommendation by machine learning materials similarity from scientific literature ( http://arxiv.org/abs/2302.02303v1 )

ライセンス: Link先を確認
Tanjin He, Haoyan Huo, Christopher J. Bartel, Zheren Wang, Kevin Cruse, Gerbrand Ceder(参考訳) 合成予測は先端材料の迅速な設計のための重要な加速器である。 しかし, 加熱中の反応列がよく分かっていないため, 前駆物質の選択, 操作, 条件などの合成変数を決定することは無機材料にとって困難である。 本研究では, 科学文献からテキストマイニングされた29,900種類の固体合成レシピを用いて, 新規な標的物質の合成を推奨する先駆体を自動学習する。 データ駆動アプローチは、物質の化学的類似性を学習し、人間の合成設計を模倣した、類似物質の前例的な合成手順への新しいターゲットの合成を参照する。 2,654個の未確認試験対象材料それぞれに5つの前駆体を提案する場合、推奨戦略は少なくとも82%の成功率を達成する。 我々の手法は何十年ものヒューリスティックな合成データを数学的形式で捉え、レコメンデーションエンジンや自律的な実験室での使用を可能にする。

Synthesis prediction is a key accelerator for the rapid design of advanced materials. However, determining synthesis variables such as the choice of precursor materials, operations, and conditions is challenging for inorganic materials because the sequence of reactions during heating is not well understood. In this work, we use a knowledge base of 29,900 solid-state synthesis recipes, text-mined from the scientific literature, to automatically learn which precursors to recommend for the synthesis of a novel target material. The data-driven approach learns chemical similarity of materials and refers the synthesis of a new target to precedent synthesis procedures of similar materials, mimicking human synthesis design. When proposing five precursor sets for each of 2,654 unseen test target materials, the recommendation strategy achieves a success rate of at least 82%. Our approach captures decades of heuristic synthesis data in a mathematical form, making it accessible for use in recommendation engines and autonomous laboratories.
翻訳日:2023-02-07 19:03:35 公開日:2023-02-05
# 設計学習データを用いた無線チャネル推定ニューラルネットワークのロバスト一般化

Achieving Robust Generalization for Wireless Channel Estimation Neural Networks by Designed Training Data ( http://arxiv.org/abs/2302.02302v1 )

ライセンス: Link先を確認
Dianxin Luan, John Thompson(参考訳) 本稿では,訓練されたニューラルネットワークの未検出チャネルへのロバストな一般化を支援するトレーニングデータの設計手法を提案する。 一般化を改良した提案設計を記述・分析した。 これは、特にバッテリー駆動のモバイル端末において、メモリと処理集約的なソリューションであるため、これまで見つからなかったチャネルに対するオンライントレーニングの要求を回避する。 提案手法の妥当性を証明するために,異なる基準でモデル化されたチャネルとフェーディングモデルを用いてシミュレーションを行う。 また,注意に基づく構造と畳み込みニューラルネットワークを用いて一般化結果を評価する。 シミュレーションの結果、トレーニングされたニューラルネットワークは、目に見えないチャネルでほぼ同じ性能を維持していることがわかった。

In this paper, we propose a method to design the training data that can support robust generalization of trained neural networks to unseen channels. The proposed design that improves the generalization is described and analysed. It avoids the requirement of online training for previously unseen channels, as this is a memory and processing intensive solution, especially for battery powered mobile terminals. To prove the validity of the proposed method, we use the channels modelled by different standards and fading modelling for simulation. We also use an attention-based structure and a convolutional neural network to evaluate the generalization results achieved. Simulation results show that the trained neural networks maintain almost identical performance on the unseen channels.
翻訳日:2023-02-07 19:03:20 公開日:2023-02-05
# ランオフ選挙: データ攻撃に対する防御が改善

Run-Off Election: Improved Provable Defense against Data Poisoning Attacks ( http://arxiv.org/abs/2302.02300v1 )

ライセンス: Link先を確認
Keivan Rezaei, Kiarash Banihashem, Atoosa Chegini and Soheil Feizi(参考訳) データ中毒攻撃では、相手はトレーニングデータ中のサンプルの追加、修正、削除によってモデルの予測を変更しようとする。 近年,複数のベースモデルにまたがって過半数の投票をすることで,データ中毒に対する証明可能な防御を得るためのアンサンブルベースのアプローチが提案されている。 本研究では,アンサンブル防衛における過半数の票を考慮すれば,基本モデルのロジット層で有効利用できないため,無駄であることを示す。 第1ラウンドでは、モデルが好みのクラスに投票し、第2ラウンドでは、第1ラウンドで上位2つのクラスの間でランオフ選挙が行われる。 そこで本研究では,dpa+roeとfa+roeの防御法として,dpa(deep partition aggregation)とfa(finite aggregate)アプローチを提案する。 動的プログラミングと双対性に着想を得たアイデアを用いて,これらの手法の堅牢性を得る方法を示す。 我々は, MNIST, CIFAR-10, GTSRBの手法を検証し, それぞれ4.73%, 3.63%, 3.54%の精度向上を実現し, データ中毒に対する(点検的に)新たな認証堅牢性を確立した。 多くの場合、我々の手法は32倍の計算能力でも最先端の手法よりも優れている。

In data poisoning attacks, an adversary tries to change a model's prediction by adding, modifying, or removing samples in the training data. Recently, ensemble-based approaches for obtaining provable defenses against data poisoning have been proposed where predictions are done by taking a majority vote across multiple base models. In this work, we show that merely considering the majority vote in ensemble defenses is wasteful as it does not effectively utilize available information in the logits layers of the base models. Instead, we propose Run-Off Election (ROE), a novel aggregation method based on a two-round election across the base models: In the first round, models vote for their preferred class and then a second, Run-Off election is held between the top two classes in the first round. Based on this approach, we propose DPA+ROE and FA+ROE defense methods based on Deep Partition Aggregation (DPA) and Finite Aggregation (FA) approaches from prior work. We show how to obtain robustness for these methods using ideas inspired by dynamic programming and duality. We evaluate our methods on MNIST, CIFAR-10, and GTSRB and obtain improvements in certified accuracy by up to 4.73%, 3.63%, and 3.54%, respectively, establishing a new state-of-the-art in (pointwise) certified robustness against data poisoning. In many cases, our approach outperforms the state-of-the-art, even when using 32 times less computational power.
翻訳日:2023-02-07 19:03:08 公開日:2023-02-05
# サンプルドロップアウト: 深層政策最適化における簡易かつ効果的な分散削減手法

Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization ( http://arxiv.org/abs/2302.02299v1 )

ライセンス: Link先を確認
Zichuan Lin, Xiapeng Wu, Mingfei Sun, Deheng Ye, Qiang Fu, Wei Yang, Wei Liu(参考訳) 深層強化学習(drl)手法の最近の成功は、重要サンプリングによるオフポリシー分布に関するポリシー最適化がサンプル再利用に有効であることを示している。 本稿では,重要サンプリングの利用が目的推定に高いばらつきをもたらす可能性があることを示す。 具体的には,重要サンプリング推定のばらつきが重要度比で二乗的に増大し,その結果,主観的最適化の有効性を損なう可能性があることを原理的に示す。 次に, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する手法を提案する。 本稿では, TRPO, PPO, ESPOなどの代表的ポリシー最適化アルゴリズム上で, このサンプルドロップアウト手法をインスタンス化し, MuJoCo, DMControl, Atari ゲームなど, 連続的かつ離散的なアクション制御におけるDRLアルゴリズムの性能を継続的に向上することを示す。 私たちのコードは、 \url{https://github.com/linzichuan/sdpo.git}でオープンソースです。

Recent success in Deep Reinforcement Learning (DRL) methods has shown that policy optimization with respect to an off-policy distribution via importance sampling is effective for sample reuse. In this paper, we show that the use of importance sampling could introduce high variance in the objective estimate. Specifically, we show in a principled way that the variance of importance sampling estimate grows quadratically with importance ratios and the large ratios could consequently jeopardize the effectiveness of surrogate objective optimization. We then propose a technique called sample dropout to bound the estimation variance by dropping out samples when their ratio deviation is too high. We instantiate this sample dropout technique on representative policy optimization algorithms, including TRPO, PPO, and ESPO, and demonstrate that it consistently boosts the performance of those DRL algorithms on both continuous and discrete action controls, including MuJoCo, DMControl and Atari video games. Our code is open-sourced at \url{https://github.com/LinZichuan/sdpo.git}.
翻訳日:2023-02-07 19:02:41 公開日:2023-02-05
# 深層強化学習におけるオープン問題と現代解法

Open Problems and Modern Solutions for Deep Reinforcement Learning ( http://arxiv.org/abs/2302.02298v1 )

ライセンス: Link先を確認
Weiqin Chen(参考訳) 深層強化学習(DRL)は複雑な意思決定問題の解決に成功している。 これらの成功にもかかわらず、DRLはデータ非効率、柔軟性のない、難解な報酬設計など、多くの理由でしばしば批判されている。 本稿では,DRLの問題点を調査する2つの論文をレビューし,有効解を提案する。 手動で設計した外因性報酬とパラメータ化された内因性報酬関数を組み合わせた人間ロボット協調の報酬を決定論的ポリシー勾配により設計し、タスク性能を改善し、より強い障害物回避を保証する。 もう1つは、バックプロパゲーションの代わりに近似推論を用いてDRLの重要な事前学習特徴を迅速かつ柔軟に適用し、DRLの効率と柔軟性を向上させるために選択的注意と粒子フィルタを適用している。 本稿では,両領域における今後の課題について論じる。

Deep Reinforcement Learning (DRL) has achieved great success in solving complicated decision-making problems. Despite the successes, DRL is frequently criticized for many reasons, e.g., data inefficient, inflexible and intractable reward design. In this paper, we review two publications that investigate the mentioned issues of DRL and propose effective solutions. One designs the reward for human-robot collaboration by combining the manually designed extrinsic reward with a parameterized intrinsic reward function via the deterministic policy gradient, which improves the task performance and guarantees a stronger obstacle avoidance. The other one applies selective attention and particle filters to rapidly and flexibly attend to and select crucial pre-learned features for DRL using approximate inference instead of backpropagation, thereby improving the efficiency and flexibility of DRL. Potential avenues for future work in both domains are discussed in this paper.
翻訳日:2023-02-07 19:02:21 公開日:2023-02-05
# 腹腔鏡画像のクロスドメイン設定における学習ベースステレオマッチング手法の分散化フレームワーク

A Disparity Refinement Framework for Learning-based Stereo Matching Methods in Cross-domain Setting for Laparoscopic Images ( http://arxiv.org/abs/2302.02294v1 )

ライセンス: Link先を確認
Zixin Yang, Richard Simon and Cristian A. Linte(参考訳) 目的: 深度推定を可能にするステレオマッチング法は, コンピュータ支援手術(CAS)における可視化向上に不可欠である。 学習に基づくステレオマッチング手法は腹腔鏡像の正確な結果を予測することが期待できる。 しかし、大量のトレーニングデータを必要とするため、ドメインシフトによってパフォーマンスが低下する可能性がある。 方法: 学習に基づく手法の堅牢性維持と精度向上は依然として未解決の問題である。 学習に基づく方法の限界を克服するために,局所的不等化法と大域的不等化法からなる不等化フレームワークを提案し,クロスドメイン設定における学習に基づくステレオマッチング法の結果を改善する。 これらの学習に基づくステレオマッチング手法は、自然画像の公開データセットで事前訓練され、腹腔鏡画像の2つのデータセットでテストされる。 結果: 定性的かつ定量的な結果から, 提案手法は, ネットワークが未知のデータセット上でうまく一般化できる場合に, 予測精度を損なうことなく, ノイズが検出されていないデータセット上で分解された場合に, 効果的に異質マップを洗練できることが示唆された。 結論: 提案した格差改善フレームワークは, 学習に基づく手法を用いて, 堅牢かつ正確な格差予測を実現することができる。 しかし,学習に基づく手法を学習するための大規模腹腔鏡的データセットは存在せず,ネットワークの一般化能力も改善されていないため,既存ネットワークへの分散化フレームワークの導入は,深度推定に伴う全体的な精度と堅牢性の向上に寄与する。

Purpose: Stereo matching methods that enable depth estimation are crucial for visualization enhancement applications in computer-assisted surgery (CAS). Learning-based stereo matching methods are promising to predict accurate results on laparoscopic images. However, they require a large amount of training data, and their performance may be degraded due to domain shifts. Methods: Maintaining robustness and improving the accuracy of learning-based methods are still open problems. To overcome the limitations of learning-based methods, we propose a disparity refinement framework consisting of a local disparity refinement method and a global disparity refinement method to improve the results of learning-based stereo matching methods in a cross-domain setting. Those learning-based stereo matching methods are pre-trained on a large public dataset of natural images and are tested on two datasets of laparoscopic images. Results: Qualitative and quantitative results suggest that our proposed disparity framework can effectively refine disparity maps when they are noise-corrupted on an unseen dataset, without compromising prediction accuracy when the network can generalize well on an unseen dataset. Conclusion: Our proposed disparity refinement framework could work with learning-based methods to achieve robust and accurate disparity prediction. Yet, as a large laparoscopic dataset for training learning-based methods does not exist and the generalization ability of networks remains to be improved, the incorporation of the proposed disparity refinement framework into existing networks will contribute to improving their overall accuracy and robustness associated with depth estimation.
翻訳日:2023-02-07 19:02:06 公開日:2023-02-05
# RRNet: サードパーティ計算に基づくプライベート推論のためのReLU-Reduced Neural Networkを目指して

RRNet: Towards ReLU-Reduced Neural Network for Two-party Computation Based Private Inference ( http://arxiv.org/abs/2302.02292v1 )

ライセンス: Link先を確認
Hongwu Peng, Shanglin Zhou, Yukui Luo, Nuo Xu, Shijin Duan, Ran Ran, Jiahui Zhao, Shaoyi Huang, Xi Xie, Chenghong Wang, Tong Geng, Wujie Wen, Xiaolin Xu, and Caiwen Ding(参考訳) ディープラーニング(DL)の普及は、プライバシとセキュリティ上の懸念の出現につながっている。 これらの問題を解決するために,プライバシ保存型dl計算を実現する手段として,セキュアな二者計算(2pc)が提案されている。 しかし、実際には、2pc法は高い計算と通信のオーバーヘッドを伴い、大規模システムでの使用を阻害することがある。 この課題に対処するため,我々は,mpc比較プロトコルのオーバーヘッドを削減し,ハードウェアアクセラレーションによる計算を高速化することを目的とした体系的フレームワークrrnetを紹介する。 本手法では,dnn損失関数に暗号ブロックのハードウェア遅延を組み込むことにより,エネルギー効率,精度,セキュリティの保証が向上する。 さらに,フィールドプログラマブルゲートアレイ(FPGA)のハードウェアスケジューラとそれに対応する性能モデルを提案し,フレームワークの効率をさらに向上する。 RRNetは、CIFAR-10データセット上の全てのSOTA作業よりもはるかに高いReLU低減性能を達成した。

The proliferation of deep learning (DL) has led to the emergence of privacy and security concerns. To address these issues, secure Two-party computation (2PC) has been proposed as a means of enabling privacy-preserving DL computation. However, in practice, 2PC methods often incur high computation and communication overhead, which can impede their use in large-scale systems. To address this challenge, we introduce RRNet, a systematic framework that aims to jointly reduce the overhead of MPC comparison protocols and accelerate computation through hardware acceleration. Our approach integrates the hardware latency of cryptographic building blocks into the DNN loss function, resulting in improved energy efficiency, accuracy, and security guarantees. Furthermore, we propose a cryptographic hardware scheduler and corresponding performance model for Field Programmable Gate Arrays (FPGAs) to further enhance the efficiency of our framework. Experiments show RRNet achieved a much higher ReLU reduction performance than all SOTA works on CIFAR-10 dataset.
翻訳日:2023-02-07 19:01:39 公開日:2023-02-05
# 自然言語処理による否定検出と単語曖昧化に対する意味論的アプローチ

A Semantic Approach to Negation Detection and Word Disambiguation with Natural Language Processing ( http://arxiv.org/abs/2302.02291v1 )

ライセンス: Link先を確認
Izunna Okpala, Guillermo Romera Rodriguez, Andrea Tapia, Shane Halse, Jess Kropczynski(参考訳) 本研究では,文章の語彙構造を単語感覚の曖昧さによって一意に評価し,文中の否定を検出する方法を示す。 さらに,文の文脈的使用と否定が感情分析に与える影響を解明するため,テキスト内の関連表現の特徴をすべて検討した。 一般的な表現検出装置の適用は、この重要なステップを省略し、否定のWebで捕捉される根語を無視し、機械学習や感情分析においてテキスト分類を困難にする。 本研究は自然言語処理(NLP)アプローチを用いて,テキスト分類の精度向上のために否定された単語の発見とアントロマイズを行う。 この方法は、否定信号を検出するために、WordHoardと呼ばれるNLPライブラリが提供する知識ベースを用いて、与えられた単語列を読み取るレンズとして機能する。 初期の結果は,単語否定を無視したり,逆極性スコアを割り当てたりする従来の感情分析を改善したことを示している。 sentiwordnet analyzerは35%、vader analyzerは20%、textblob analyzerは6%改善した。

This study aims to demonstrate the methods for detecting negations in a sentence by uniquely evaluating the lexical structure of the text via word sense disambiguation. Additionally, the proposed method examined all the unique features of the related expressions within a text to resolve the contextual usage of the sentence and the effect of negation on sentiment analysis. The application of popular expression detectors skips this important step, thereby neglecting the root words caught in the web of negation, and making text classification difficult for machine learning and sentiment analysis. This study adopts the Natural Language Processing (NLP) approach to discover and antonimize words that were negated for better accuracy in text classification. This method acts as a lens that reads through a given word sequence using a knowledge base provided by an NLP library called WordHoard in order to detect negation signals. Early results show that our initial analysis improved traditional sentiment analysis that sometimes neglects word negations or assigns an inverse polarity score. The SentiWordNet analyzer was improved by 35%, the Vader analyzer by 20% and the TextBlob analyzer by 6%.
翻訳日:2023-02-07 19:01:23 公開日:2023-02-05
# 深層学習に基づく医用画像セグメンテーションのための最適最適化器の選択

Selecting the Best Optimizers for Deep Learning based Medical Image Segmentation ( http://arxiv.org/abs/2302.02289v1 )

ライセンス: Link先を確認
Aliasghar Mortazi, Vedat Cicek, Elif Keles, Ulas Bagci(参考訳) この研究の目的は、心臓画像分割の文脈でディープラーニングの最適な最適化器を特定し、効果的な最適化戦略でセグメンテーションネットワークを設計する方法についてのガイダンスを提供することである。 適応学習は、より大きな学習率(LR)から始めて徐々に減少させることで、急速に収束するのに役立つ。 モーメントムオプティマイザは、加速スキームカテゴリ内のニューラルネットワークを迅速に最適化するのに特に効果的である。 本稿では、これらの2種類のアルゴリズム(LRと運動量最適化器、または運動量率(MR))の潜在的な相互作用を明らかにすることにより、SGDアルゴリズムの2つの変種を単一の設定で検討する。 学習速度と運動量率の最適値を統合するために,循環学習をベースオプティマイザとして用いることを提案する。 MRI と CT による心組織像の分画の重要な問題における LR と MR の関係について検討した。 miccai 2017 の acdc 課題から心画像データセットを用いて実験を行い,心画像分割問題に対して4つの異なるアーキテクチャを用いた。 総合的な評価により,提案手法は,単目的および多目的セグメンテーション設定において計算コストが同じか低い深層学習文献における他のオプティマイザよりも優れた結果(diceメトリックの2-%改善)を得られた。 加速度的および適応的最適化手法の組み合わせは医用画像のセグメンテーション性能に劇的な影響を与えると仮定した。 そこで我々は,深層学習に基づく医用画像分割における効率と精度の問題に対処するために,新しい循環最適化手法 (\textit{CLMR}) を提案する。 提案手法は適応最適化器と比較してより一般化された。

The goal of this work is to identify the best optimizers for deep learning in the context of cardiac image segmentation and to provide guidance on how to design segmentation networks with effective optimization strategies. Adaptive learning helps with fast convergence by starting with a larger learning rate (LR) and gradually decreasing it. Momentum optimizers are particularly effective at quickly optimizing neural networks within the accelerated schemes category. By revealing the potential interplay between these two types of algorithms (LR and momentum optimizers or momentum rate (MR) in short), in this article, we explore the two variants of SGD algorithms in a single setting. We suggest using cyclic learning as the base optimizer and integrating optimal values of learning rate and momentum rate. We investigated the relationship of LR and MR under an important problem of medical image segmentation of cardiac structures from MRI and CT scans. We conducted experiments using the cardiac imaging dataset from the ACDC challenge of MICCAI 2017, and four different architectures shown to be successful for cardiac image segmentation problems. Our comprehensive evaluations demonstrated that the proposed optimizer achieved better results (over a 2\% improvement in the dice metric) than other optimizers in deep learning literature with similar or lower computational cost in both single and multi-object segmentation settings. We hypothesized that combination of accelerated and adaptive optimization methods can have a drastic effect in medical image segmentation performances. To this end, we proposed a new cyclic optimization method (\textit{CLMR}) to address the efficiency and accuracy problems in deep learning based medical image segmentation. The proposed strategy yielded better generalization in comparison to adaptive optimizers.
翻訳日:2023-02-07 19:01:03 公開日:2023-02-05
# ソースラベル適応による半教師付き領域適応

Semi-Supervised Domain Adaptation with Source Label Adaptation ( http://arxiv.org/abs/2302.02335v1 )

ライセンス: Link先を確認
Yu-Chu Yu and Hsuan-Tien Lin(参考訳) Semi-Supervised Domain Adaptation (SSDA)は、いくつかのラベル付きおよび多くのラベル付きターゲットデータと関連するドメインからのラベル付きソースデータで、未表示のターゲットデータを分類する学習を含む。 現在のSSDAアプローチは、通常、ターゲットデータとラベル付きソースデータとを特徴空間マッピングと擬似ラベル割り当てで整列することを目的としている。 それでも、そのようなソース指向モデルは、時にターゲットデータを間違ったクラスのソースデータに合わせることができ、分類性能を低下させる。 本稿では,対象データに適合するソースデータに対応する新しいソース適応パラダイムを提案する。 私たちの重要なアイデアは、ソースデータを理想のターゲットデータの能動的にラベル付けされたバージョンとして見ることです。 そこで本研究では,ターゲット視点から設計したロバストなクリーナーコンポーネントを用いて,ラベルノイズを動的に除去するSSDAモデルを提案する。 このパラダイムは、既存のSSDAアプローチの背景にあるコアアイデアとは大きく異なるため、提案したモデルと簡単に結合して性能を向上させることができる。 2つの最先端ssdaアプローチの実験結果は、提案モデルがソースラベル内のノイズを効果的に除去し、ベンチマークデータセットをまたいだアプローチよりも優れたパフォーマンスを示すことを示している。

Semi-Supervised Domain Adaptation (SSDA) involves learning to classify unseen target data with a few labeled and lots of unlabeled target data, along with many labeled source data from a related domain. Current SSDA approaches usually aim at aligning the target data to the labeled source data with feature space mapping and pseudo-label assignments. Nevertheless, such a source-oriented model can sometimes align the target data to source data of the wrong classes, degrading the classification performance. This paper presents a novel source-adaptive paradigm that adapts the source data to match the target data. Our key idea is to view the source data as a noisily-labeled version of the ideal target data. Then, we propose an SSDA model that cleans up the label noise dynamically with the help of a robust cleaner component designed from the target perspective. Since the paradigm is very different from the core ideas behind existing SSDA approaches, our proposed model can be easily coupled with them to improve their performance. Empirical results on two state-of-the-art SSDA approaches demonstrate that the proposed model effectively cleans up the noise within the source labels and exhibits superior performance over those approaches across benchmark datasets.
翻訳日:2023-02-07 18:55:34 公開日:2023-02-05
# 識別と生成的分類の再考:理論と含意

Revisiting Discriminative vs. Generative Classifiers: Theory and Implications ( http://arxiv.org/abs/2302.02334v1 )

ライセンス: Link先を確認
Chenyu Zheng, Guoqiang Wu, Fan Bao, Yue Cao, Chongxuan Li, Jun Zhu(参考訳) 大規模ラベル付きまたはラベルなしのデータ転送で事前訓練された大規模なディープモデルは、下流のタスクによく適合する。 線形評価は事前訓練されたモデルのパラメータを凍結し、線形分類器を個別に訓練する。 しかし, 既定ロジスティック回帰を除いて, 線形評価における分類器の研究はほとんど行われていない。 ナイーブベイズの統計的効率に触発された本論文は、差別的対生成的分類器に関する古典的トピックを再考する。 理論的には、分析におけるゼロワン損失の代わりに代理損失を考慮し、バイナリケースからマルチクラスケースへの古典的な結果を一般化する。 穏やかな仮定の下では、マルチクラスのネーブベイズはその漸近誤差にアプローチするために$O(\log n)$サンプルを必要とする一方で、対応するマルチクラスのロジスティック回帰には$O(n)$サンプルが必要である。 それを確立するために、マルチクラス $\mathcal{H}$-consistency bound framework と、独立した関心を持つロジスティック損失の明示的な境界を示す。 ガウシアン混合物のシミュレーション結果は,我々の理論的知見を裏付けるものである。 様々な事前訓練されたディープビジョンモデルの実験は、データの数が増加するにつれて、ナイーブベイズは常に速く収束することを示している。 さらに, ベイズが示唆する「2つのレジーム」現象を, 事前学習した教師付きモデルで観察する。 私たちのコードはhttps://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiersで利用可能です。

A large-scale deep model pre-trained on massive labeled or unlabeled data transfers well to downstream tasks. Linear evaluation freezes parameters in the pre-trained model and trains a linear classifier separately, which is efficient and attractive for transfer. However, little work has investigated the classifier in linear evaluation except for the default logistic regression. Inspired by the statistical efficiency of naive Bayes, the paper revisits the classical topic on discriminative vs. generative classifiers. Theoretically, the paper considers the surrogate loss instead of the zero-one loss in analyses and generalizes the classical results from binary cases to multiclass ones. We show that, under mild assumptions, multiclass naive Bayes requires $O(\log n)$ samples to approach its asymptotic error while the corresponding multiclass logistic regression requires $O(n)$ samples, where $n$ is the feature dimension. To establish it, we present a multiclass $\mathcal{H}$-consistency bound framework and an explicit bound for logistic loss, which are of independent interests. Simulation results on a mixture of Gaussian validate our theoretical findings. Experiments on various pre-trained deep vision models show that naive Bayes consistently converges faster as the number of data increases. Besides, naive Bayes shows promise in few-shot cases and we observe the ``two regimes'' phenomenon in pre-trained supervised models. Our code is available at https://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiers.
翻訳日:2023-02-07 18:55:12 公開日:2023-02-05
# 量子ゲームにおける学習

Learning in quantum games ( http://arxiv.org/abs/2302.02333v1 )

ライセンス: Link先を確認
Kyriakos Lotidis and Panayotis Mertikopoulos and Nicholas Bambos(参考訳) 本稿では,一般的な量子ゲームにおける学習ダイナミクスのクラスについて紹介する。これは「量子正規化リーダー(ftql)」と呼ばれ,有限ゲームにおける学習のための古典的「正則化リーダー(ftrl)」テンプレートに関連している。 誘導量子状態ダイナミクスが分解されることを示す。 (i)FTRLの下での混合戦略の進化に類似した方法で系の固有値のダイナミクスを管理する古典的可換成分、及び (ii)システムの固有ベクトルに対する非可換成分で、古典的対応するものはない。 この非古典的成分が持つ複雑さにもかかわらず、FTQLのダイナミクスは全ての量子ゲームにおいて絶え間ない後悔しか生じない。 さらに、量子ゲームの状態空間の非線形幾何を考慮に入れた古典的な安定性の概念を調整することで、純粋量子平衡のみがFTQLの下で安定かつ誘引可能である一方で、ある「変分安定性」条件を満たす部分逆として純粋平衡が常に引き寄せられることを示す。 最後に、FTQLのダイナミクスは量子ミニマックスゲームにおいてポアンカー'eの繰り返しであり、量子レプリケータのダイナミクスにとって非常に最近の結果であることを示す。

In this paper, we introduce a class of learning dynamics for general quantum games, that we call "follow the quantum regularized leader" (FTQL), in reference to the classical "follow the regularized leader" (FTRL) template for learning in finite games. We show that the induced quantum state dynamics decompose into (i) a classical, commutative component which governs the dynamics of the system's eigenvalues in a way analogous to the evolution of mixed strategies under FTRL; and (ii) a non-commutative component for the system's eigenvectors which has no classical counterpart. Despite the complications that this non-classical component entails, we find that the FTQL dynamics incur no more than constant regret in all quantum games. Moreover, adjusting classical notions of stability to account for the nonlinear geometry of the state space of quantum games, we show that only pure quantum equilibria can be stable and attracting under FTQL while, as a partial converse, pure equilibria that satisfy a certain "variational stability" condition are always attracting. Finally, we show that the FTQL dynamics are Poincar\'e recurrent in quantum min-max games, extending in this way a very recent result for the quantum replicator dynamics.
翻訳日:2023-02-07 18:54:43 公開日:2023-02-05
# CIPER: コントラスト学習と予測学習による不変表現と等価表現の組み合わせ

CIPER: Combining Invariant and Equivariant Representations Using Contrastive and Predictive Learning ( http://arxiv.org/abs/2302.02330v1 )

ライセンス: Link先を確認
Xia Xu, Jochen Triesch(参考訳) 自己教師付き表現学習(SSRL)法はコンピュータビジョンにおいて大きな成功を収めている。 近年,事前定義されたデータ拡張操作に不変あるいは同値な表現を学習するために,拡張に基づくコントラスト学習法が提案されている。 しかし、不変あるいは同変の特徴は、選択された拡張に依存する特定の下流タスクのみを好む。 ダウンストリームタスクがこれらの特徴に対応する必要がある場合(例えば、タスクが手書きの数字を認識する場合)、モデルが"9"と"6"を区別できないように平面内画像回転に不変であることを学ぶ場合)、パフォーマンスが低下する可能性がある。 本研究は、Contrastive Invariant and Predictive Equivariant Representation Learning (CIPER)を紹介する。 ciperは1つの共有エンコーダと2つの異なる出力ヘッドを用いた不変および同変学習目的の両方を含む。 1つの出力ヘッドは、拡張への不変性を奨励する最先端のコントラスト目的を持つプロジェクションヘッドである。 もう1つは、拡張パラメータを推定し、同変の特徴を捉える予測ヘッドである。 両方のヘッドはトレーニング後に破棄され、エンコーダのみが下流タスクに使用される。 我々は静的画像タスクと時間拡張画像データセットについて評価する。 以上の結果から,ciperは様々なタスクにおいてベースラインコントラスト法よりも優れており,特に下流タスクでは拡張関連情報のエンコーディングが必要となる。

Self-supervised representation learning (SSRL) methods have shown great success in computer vision. In recent studies, augmentation-based contrastive learning methods have been proposed for learning representations that are invariant or equivariant to pre-defined data augmentation operations. However, invariant or equivariant features favor only specific downstream tasks depending on the augmentations chosen. They may result in poor performance when a downstream task requires the counterpart of those features (e.g., when the task is to recognize hand-written digits while the model learns to be invariant to in-plane image rotations rendering it incapable of distinguishing "9" from "6"). This work introduces Contrastive Invariant and Predictive Equivariant Representation learning (CIPER). CIPER comprises both invariant and equivariant learning objectives using one shared encoder and two different output heads on top of the encoder. One output head is a projection head with a state-of-the-art contrastive objective to encourage invariance to augmentations. The other is a prediction head estimating the augmentation parameters, capturing equivariant features. Both heads are discarded after training and only the encoder is used for downstream tasks. We evaluate our method on static image tasks and time-augmented image datasets. Our results show that CIPER outperforms a baseline contrastive method on various tasks, especially when the downstream task requires the encoding of augmentation-related information.
翻訳日:2023-02-07 18:54:22 公開日:2023-02-05
# 半教師付きスケルトンに基づく行動認識のためのピラミッド自己付着重合学習

Pyramid Self-attention Polymerization Learning for Semi-supervised Skeleton-based Action Recognition ( http://arxiv.org/abs/2302.02327v1 )

ライセンス: Link先を確認
Binqian Xu, Xiangbo Shu(参考訳) ほとんどの半教師付きスケルトンに基づく行動認識アプローチは、関節レベルでのみスケルトン行動表現を学習することを目的としているが、ラベル付きデータの数が限られているにもかかわらず、より粗い体(脚、幹など)レベルでの重要な運動特性を無視する。 本研究では,粗粒度を包含するコントラスト学習を通じて,豊富かつ相補的な意味情報を含む関節および動作データの身体レベル,部分レベルおよび関節レベルの動作表現を共同学習する,新たなピラミッド型自己定着重合学習(psp学習)フレームワークを提案する。 具体的には,スケルトン動作における粗粒度から細粒度までの意味情報を補完するために,まず身体レベルの注意マップ,部分レベルの注意マップ,関節レベルの注意マップを算出し,これらの注意マップをレベルバイレベル(身体レベルから部分レベル,さらに関節レベルまで)で重合する新しいピラミッド重合注意(ppa)機構を設計する。 さらに,CCL(Coarse-to-fine Contrastive Loss)を新たに導入し,身体レベルコントラストの損失,部分レベルコントラストの損失,関節レベルコントラストの損失と関節レベルコントラストの類似性を測定した。 最後に,NTU RGB+DとNorth-Western UCLAデータセットを用いて,半教師付き骨格に基づく行動認識タスクにおいて提案したPSP学習の競合性能を示す実験を行った。 PSP Learningのソースコードはhttps://github.com/1xbq1/PSP-Learningで公開されている。

Most semi-supervised skeleton-based action recognition approaches aim to learn the skeleton action representations only at the joint level, but neglect the crucial motion characteristics at the coarser-grained body (e.g., limb, trunk) level that provide rich additional semantic information, though the number of labeled data is limited. In this work, we propose a novel Pyramid Self-attention Polymerization Learning (dubbed as PSP Learning) framework to jointly learn body-level, part-level, and joint-level action representations of joint and motion data containing abundant and complementary semantic information via contrastive learning covering coarse-to-fine granularity. Specifically, to complement semantic information from coarse to fine granularity in skeleton actions, we design a new Pyramid Polymerizing Attention (PPA) mechanism that firstly calculates the body-level attention map, part-level attention map, and joint-level attention map, as well as polymerizes these attention maps in a level-by-level way (i.e., from body level to part level, and further to joint level). Moreover, we present a new Coarse-to-fine Contrastive Loss (CCL) including body-level contrast loss, part-level contrast loss, and joint-level contrast loss to jointly measure the similarity between the body/part/joint-level contrasting features of joint and motion data. Finally, extensive experiments are conducted on the NTU RGB+D and North-Western UCLA datasets to demonstrate the competitive performance of the proposed PSP Learning in the semi-supervised skeleton-based action recognition task. The source codes of PSP Learning are publicly available at https://github.com/1xbq1/PSP-Learning.
翻訳日:2023-02-07 18:53:58 公開日:2023-02-05
# 相関シフトによる公正トレーニングの改善

Improving Fair Training under Correlation Shifts ( http://arxiv.org/abs/2302.02323v1 )

ライセンス: Link先を確認
Yuji Roh, Kangwook Lee, Steven Euijong Whang, Changho Suh(参考訳) モデルフェアネスは、信頼できるAIにとって不可欠な要素である。 モデルフェアネスのための多くの技術が提案されているが、そのほとんどはトレーニングとデプロイメントのデータ分布が同一であると仮定している。 特にラベルとセンシティブなグループ間のバイアスが変化すると、トレーニングされたモデルの公平性に直接影響し、悪化する可能性がある。 私たちはこの問題の解決に2つの貢献をしている。 まず,既存のインプロセッシング・フェアアルゴリズムが,精度と集団的公平性に根本的な限界があることを解析的に示す。 上記のバイアスの変化を明示的に捉えることができる相関シフトの概念を導入する。 第2に,入力データをサンプリングして相関シフトを低減し,その限界を克服する新しい前処理ステップを提案する。 ラベル間のデータ比を調整する最適化問題を定式化し,その相関関係を反映させる。 我々のアプローチの重要な利点は、前処理と内処理の役割を分離することである:前処理による相関調整と内処理による処理データへの不公平さの緩和。 実験により,本フレームワークは,合成データセットと実データセットの両方において,既存の内部処理公正アルゴリズムの精度と公平性を効果的に向上することが示された。

Model fairness is an essential element for Trustworthy AI. While many techniques for model fairness have been proposed, most of them assume that the training and deployment data distributions are identical, which is often not true in practice. In particular, when the bias between labels and sensitive groups changes, the fairness of the trained model is directly influenced and can worsen. We make two contributions for solving this problem. First, we analytically show that existing in-processing fair algorithms have fundamental limits in accuracy and group fairness. We introduce the notion of correlation shifts, which can explicitly capture the change of the above bias. Second, we propose a novel pre-processing step that samples the input data to reduce correlation shifts and thus enables the in-processing approaches to overcome their limitations. We formulate an optimization problem for adjusting the data ratio among labels and sensitive groups to reflect the shifted correlation. A key benefit of our approach lies in decoupling the roles of pre- and in-processing approaches: correlation adjustment via pre-processing and unfairness mitigation on the processed data via in-processing. Experiments show that our framework effectively improves existing in-processing fair algorithms w.r.t. accuracy and fairness, both on synthetic and real datasets.
翻訳日:2023-02-07 18:53:26 公開日:2023-02-05
# コントラスト・コントラスト:生成前訓練による3次元表現学習

Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining ( http://arxiv.org/abs/2302.02318v1 )

ライセンス: Link先を確認
Zekun Qi, Runpei Dong, Guofan Fan, Zheng Ge, Xiangyu Zhang, Kaisheng Ma, Li Yi(参考訳) 主流の3D表現学習アプローチは、様々な下流タスクのパフォーマンスに大きな改善が達成された、コントラスト的または生成的モデリングプレテキストタスクに基づいて構築されている。 しかし この2つのパラダイムの方法を調べることで (i)対比モデルは、表現過剰な問題に苦しむデータ格納体である。 (ii)生成モデルには、対照的なモデルに比べてデータスケーリング能力が劣るデータ充填問題がある。 これにより、両方のパラダイムのメリットを共有することで、3d表現を学ぶモチベーションが得られます。 本稿では,これら2つのパラダイムを統一した再構成(ReCon)と対比する。 コンコンは、生成的モデリングの教師と、生成的学生が対照的学生を指導するアンサンブル蒸留を通して、横断的コントラストの教師の両方から学ぶように訓練されている。 オーバーフィットとパターン差の問題の事前学習を回避するために,クロスアテンションによる知識の伝達を行うエンコーダデコーダスタイルのReConブロックを提案する。 ReConは、ScanObjectNNの91.26%の精度など、新しい最先端の3D表現学習を実現している。 コードはhttps://github.com/qizekun/ReConでリリースされる。

Mainstream 3D representation learning approaches are built upon contrastive or generative modeling pretext tasks, where great improvements in performance on various downstream tasks have been achieved. However, by investigating the methods of these two paradigms, we find that (i) contrastive models are data-hungry that suffer from a representation over-fitting issue; (ii) generative models have a data filling issue that shows inferior data scaling capacity compared to contrastive models. This motivates us to learn 3D representations by sharing the merits of both paradigms, which is non-trivial due to the pattern difference between the two paradigms. In this paper, we propose contrast with reconstruct (ReCon) that unifies these two paradigms. ReCon is trained to learn from both generative modeling teachers and cross-modal contrastive teachers through ensemble distillation, where the generative student guides the contrastive student. An encoder-decoder style ReCon-block is proposed that transfers knowledge through cross attention with stop-gradient, which avoids pretraining over-fitting and pattern difference issues. ReCon achieves a new state-of-the-art in 3D representation learning, e.g., 91.26% accuracy on ScanObjectNN. Codes will be released at https://github.com/qizekun/ReCon.
翻訳日:2023-02-07 18:53:06 公開日:2023-02-05
# レコメンデーションにおけるグラフコントラスト学習のためのadversarial learning data augmentation

Adversarial Learning Data Augmentation for Graph Contrastive Learning in Recommendation ( http://arxiv.org/abs/2302.02317v1 )

ライセンス: Link先を確認
Junjie Huang, Qi Cao, Ruobing Xie, Shaoliang Zhang, Feng Xia, Huawei Shen, Xueqi Cheng(参考訳) 近年,グラフニューラルネットワーク (gnns) が推薦の成功をおさめている。 グラフコントラスト学習(GCL)は,データスポーシティの影響を低減するために,GNNベースのCF法で採用されている。 ほとんどのGCLメソッドはデータ拡張とコントラスト損失(InfoNCEなど)で構成されている。 GCL法は、手作りのグラフ拡張によってコントラスト対を構築し、InfoMax原則として知られる他のノードと比較して、同じノードの異なるビュー間の合意を最大化する。 しかし、不適切なデータ拡張はGCLの性能を阻害する。 InfoMin原則では、ビューのよいセットは最小限の情報を共有し、より良いデータ拡張を設計するためのガイドラインを提供する。 本稿ではまず,新しいデータ拡張(エッジ付加とエッジドロップを含むエッジ操作)を提案する。 次に、InfoMinの原理により、Learningable Data Augmentation for Graph Contrastive Learning (LDA-GCL) という、新しい理論的指導型コントラスト学習フレームワークを提案する。 提案手法は,InfoMin と InfoMax の原則に従うデータ強化学習とグラフコントラスト学習を含む。 本手法は,データ拡張とユーザやアイテムの効果的な表現を学習するために,対向損失関数を最適化する。 4つの公開ベンチマークデータセットに対する大規模な実験は、LDA-GCLの有効性を示す。

Recently, Graph Neural Networks (GNNs) achieve remarkable success in Recommendation. To reduce the influence of data sparsity, Graph Contrastive Learning (GCL) is adopted in GNN-based CF methods for enhancing performance. Most GCL methods consist of data augmentation and contrastive loss (e.g., InfoNCE). GCL methods construct the contrastive pairs by hand-crafted graph augmentations and maximize the agreement between different views of the same node compared to that of other nodes, which is known as the InfoMax principle. However, improper data augmentation will hinder the performance of GCL. InfoMin principle, that the good set of views shares minimal information and gives guidelines to design better data augmentation. In this paper, we first propose a new data augmentation (i.e., edge-operating including edge-adding and edge-dropping). Then, guided by InfoMin principle, we propose a novel theoretical guiding contrastive learning framework, named Learnable Data Augmentation for Graph Contrastive Learning (LDA-GCL). Our methods include data augmentation learning and graph contrastive learning, which follow the InfoMin and InfoMax principles, respectively. In implementation, our methods optimize the adversarial loss function to learn data augmentation and effective representations of users and items. Extensive experiments on four public benchmark datasets demonstrate the effectiveness of LDA-GCL.
翻訳日:2023-02-07 18:52:46 公開日:2023-02-05
# 半教師付きスケルトンに基づく行動認識のための時空間的デコプル・アンド・スキーズコントラスト学習

Spatiotemporal Decouple-and-Squeeze Contrastive Learning for Semi-Supervised Skeleton-based Action Recognition ( http://arxiv.org/abs/2302.02316v1 )

ライセンス: Link先を確認
Binqian Xu, Xiangbo Shu(参考訳) 対照的な学習は、半教師付きスケルトンに基づく行動認識の問題に対処するために行動表現を学ぶことに成功している。 しかし、最も対照的な学習ベース手法は、フレームレベルと関節レベルで異なる意味を反映する空間的・時間的固有情報を混乱させる時空間情報を混合するグローバルな特徴のみを対比する。 そこで本稿では,スケルトンに基づく行動のより豊富な表現を包括的に学習するために,空間的問合せ,時間的問合せ,グローバルな特徴を両立させる新しい時空間復号学習(SDS-CL)フレームワークを提案する。 SDS-CLでは, 時空間・時空間・時空間・時空間・時空間・時空間・時空間・時空間・時空間・時空間・時空間・時空間・時空間・時空間・時空間の地図を算出し, 時空間・時空間・時空間・時空間の具体的情報を取得するために, 時空間・時空間・時空間認識機構を新たに設計した。 さらに,新しい時空間コントラストロス(STL),新しい時空間コントラストロス(TSL),およびグローバルコントラストロス(GL)を,フレームレベルでの空間コントラスト関節と運動の特徴,関節レベルでの時間的コントラスト関節と運動の特徴,および骨格レベルでのグローバルジョイントと運動特徴とを対比するために提示する。 4つの公開データセットの大規模な実験結果から,提案したSDS-CLは,他の競合手法と比較して性能向上を達成した。

Contrastive learning has been successfully leveraged to learn action representations for addressing the problem of semi-supervised skeleton-based action recognition. However, most contrastive learning-based methods only contrast global features mixing spatiotemporal information, which confuses the spatial- and temporal-specific information reflecting different semantic at the frame level and joint level. Thus, we propose a novel Spatiotemporal Decouple-and-Squeeze Contrastive Learning (SDS-CL) framework to comprehensively learn more abundant representations of skeleton-based actions by jointly contrasting spatial-squeezing features, temporal-squeezing features, and global features. In SDS-CL, we design a new Spatiotemporal-decoupling Intra-Inter Attention (SIIA) mechanism to obtain the spatiotemporal-decoupling attentive features for capturing spatiotemporal specific information by calculating spatial- and temporal-decoupling intra-attention maps among joint/motion features, as well as spatial- and temporal-decoupling inter-attention maps between joint and motion features. Moreover, we present a new Spatial-squeezing Temporal-contrasting Loss (STL), a new Temporal-squeezing Spatial-contrasting Loss (TSL), and the Global-contrasting Loss (GL) to contrast the spatial-squeezing joint and motion features at the frame level, temporal-squeezing joint and motion features at the joint level, as well as global joint and motion features at the skeleton level. Extensive experimental results on four public datasets show that the proposed SDS-CL achieves performance gains compared with other competitive methods.
翻訳日:2023-02-07 18:52:23 公開日:2023-02-05
# cect: 局所的およびグローバルな画像特徴を捉えたcovid-19画像分類のための制御可能なアンサンブルcnnとtransformer

CECT: Controllable Ensemble CNN and Transformer for COVID-19 image classification by capturing both local and global image features ( http://arxiv.org/abs/2302.02314v1 )

ライセンス: Link先を確認
Zhaoshan Liu, Lei Shen(参考訳) 目的:ほとんどのコンピュータビジョンモデルは畳み込みニューラルネットワーク(cnn)またはトランスフォーマ(transformer)に基づいて開発されている。 グローバルな(ローカルな)特徴の欠如によるモデル性能制限を緩和するため,制御可能なアンサンブルCNNとトランスフォーマーによるCECTという新しい分類ネットワークを開発した。 方法:提案するcectは,cnnベースのエンコーダブロック,デコンボリューション・センスブルデコーダブロック,トランスフォーマベースの分類ブロックで構成される。 従来のCNN法やトランスフォーマー法とは異なり,CECTではマルチローカルとグローバルの両スケールで特徴を捉えることができ,異なるスケールでの局所特徴の寄与は,提案したアンサンブル係数で制御できる。 結果: CECTを2つの公開COVID-19データセットで評価し、すべての評価指標で他の最先端手法よりも優れています。 結論: 著明な特徴捕捉能を有するcectは, 診断支援のために他の医用画像分類シナリオでも使用できると考えられる。

Purpose: Most computer vision models are developed based on either convolutional neural network (CNN) or transformer, while the former (latter) method captures local (global) features. To relieve model performance limitations due to the lack of global (local) features, we develop a novel classification network named CECT by controllable ensemble CNN and transformer. Methods: The proposed CECT is composed of a CNN-based encoder block, a deconvolution-ensemble decoder block, and a transformer-based classification block. Different from conventional CNN- or transformer-based methods, our CECT can capture features at both multi-local and global scales, and the contribution of local features at different scales can be controlled with the proposed ensemble coefficients. Results: We evaluate CECT on two public COVID-19 datasets and it outperforms other state-of-the-art methods on all evaluation metrics. Conclusion: With remarkable feature capture ability, we believe CECT can also be used in other medical image classification scenarios to assist the diagnosis.
翻訳日:2023-02-07 18:51:38 公開日:2023-02-05
# 多ポート連続berth割当て問題に対する適応型大規模近傍探索ヒューリスティック

An adaptive large neighborhood search heuristic for the multi-port continuous berth allocation problem ( http://arxiv.org/abs/2302.02356v1 )

ライセンス: Link先を確認
Bernardo Martin-Iradi, Dario Pacino, Stefan Ropke(参考訳) 本稿では,マルチポート連続バース割当て問題(MCBAP)で表される協調問題に,船体スケジューリング問題とバース割当て問題を統合する問題について検討する。 この問題は、複数の港で同時に船の配置を最適化し、港間での船舶の航行速度も考慮する。 問題の非常に組合せ的な性質のため、厳密な手法は大規模インスタンスへのスケールに苦労し、ヒューリスティックな手法を探求することを指す。 MCBAPの混合整数問題定式化と,局所探索法により拡張された適応型大近傍探索アルゴリズムを導入し,その解法を提案する。 計算結果は、短時間で高品質なソリューションを提供することにより、大規模インスタンスに対する手法の適合性を浮き彫りにする。 実践的な知見は、空母とターミナルの運用コストが燃料価格、港の外部船、連続したクエーのモデル化によって異なる方法で影響を受けることを示している。

In this paper, we study a problem that integrates the vessel scheduling problem with the berth allocation into a collaborative problem denoted as the multi-port continuous berth allocation problem (MCBAP). This problem optimizes the berth allocation of a set of ships simultaneously in multiple ports while also considering the sailing speed of ships between ports. Due to the highly combinatorial character of the problem, exact methods struggle to scale to large-size instances, which points to exploring heuristic methods. We present a mixed-integer problem formulation for the MCBAP and introduce an adaptive large neighborhood search (ALNS) algorithm enhanced with a local search procedure to solve it. The computational results highlight the method's suitability for larger instances by providing high-quality solutions in short computational times. Practical insights indicate that the carriers' and terminal operators' operational costs are impacted in different ways by fuel prices, external ships at port, and the modeling of a continuous quay.
翻訳日:2023-02-07 18:45:53 公開日:2023-02-05
# 野生における外見に基づく視線推定の精度向上に向けて

Towards Precision in Appearance-based Gaze Estimation in the Wild ( http://arxiv.org/abs/2302.02353v1 )

ライセンス: Link先を確認
Murthy L.R.D., Abhishek Mukhopadhyay, Shambhavi Aggarwal, Ketan Anand, Pradipta Biswas(参考訳) 外観に基づく視線推定システムは近年大きく進歩しているが、これらの技術の性能はトレーニングに使用されるデータセットに依存する。 対話的な環境に設定された既存の視線推定データセットのほとんどが実験室で記録され、野生環境に記録されたものは限られた頭部ポーズと照明のバリエーションを示す。 さらに,既存の視線推定手法の精度評価にはほとんど注意が払われていない。 本研究では、より広い頭部ポーズと照明変動と1つの点(PoG)に対する複数のサンプルを持つ大規模な視線推定データセットPARKS-Gazeを提案する。 このデータセットは28人の被験者から、ヨーとピッチの両方向の60度の範囲で974分間のデータを含んでいる。 in-datasetとcross-datasetの評価と精度評価は、提案するデータセットがより難しいことを示し、既存のin-the-wildデータセットよりも、未発見の参加者を一般化するモデルを可能にする。 プロジェクトページはここでアクセスできる。 https://github.com/lrdmurthy/parks-gaze

Appearance-based gaze estimation systems have shown great progress recently, yet the performance of these techniques depend on the datasets used for training. Most of the existing gaze estimation datasets setup in interactive settings were recorded in laboratory conditions and those recorded in the wild conditions display limited head pose and illumination variations. Further, we observed little attention so far towards precision evaluations of existing gaze estimation approaches. In this work, we present a large gaze estimation dataset, PARKS-Gaze, with wider head pose and illumination variation and with multiple samples for a single Point of Gaze (PoG). The dataset contains 974 minutes of data from 28 participants with a head pose range of 60 degrees in both yaw and pitch directions. Our within-dataset and cross-dataset evaluations and precision evaluations indicate that the proposed dataset is more challenging and enable models to generalize on unseen participants better than the existing in-the-wild datasets. The project page can be accessed here: https://github.com/lrdmurthy/PARKS-Gaze
翻訳日:2023-02-07 18:45:37 公開日:2023-02-05
# 絡み合いの集約:ドメイン一般化におけるドメインのバリエーションを再考する

Aggregation of Disentanglement: Reconsidering Domain Variations in Domain Generalization ( http://arxiv.org/abs/2302.02350v1 )

ライセンス: Link先を確認
Daoan Zhang, Mingkai Chen, Chenming Li, Lingyun Huang, Jianguo Zhang(参考訳) ドメイン一般化(Domain Generalization, DG)は、さまざまなドメインにおけるモデル一般化を改善することを目的とした機械学習モデルの基本課題である。 以前の手法では、様々なソースドメインからドメイン不変機能を生成することに重点を置いている。 しかし,このドメインの変種には下流タスクのための有用な情報,ie,分類認識情報が含まれており,ほとんど無視されている。 ソースドメインからドメイン不変の機能を学ぶのと異なり、入力イメージをドメインエキスパート機能とノイズに分離します。 提案したドメインエキスパート機能は、各ドメインのイメージを独立して分類できる学習潜在空間にあり、分類対応ドメインのバリエーションを暗黙的に使用することができる。 分析に基づいて、ドメインエキスパート機能をソースドメインイメージから切り離し、ターゲットのテストドメインを表現するためのソースドメインエキスパート機能を集約する、ドメインディスタングルメントネットワーク(ddn)と呼ばれる新しいパラダイムを提案しました。 また、よりバランスよく分離可能な機能空間を形成するために、ドメインエキスパートの機能をガイドする新しいコントラスト学習手法も提案する。 PACS、VLCS、OfficeHome、DomainNet、TerraIncognitaの広く使われているベンチマーク実験は、最近提案された代替手法と比較して、我々の手法の競合性能を実証している。

Domain Generalization (DG) is a fundamental challenge for machine learning models, which aims to improve model generalization on various domains. Previous methods focus on generating domain invariant features from various source domains. However, we argue that the domain variantions also contain useful information, ie, classification-aware information, for downstream tasks, which has been largely ignored. Different from learning domain invariant features from source domains, we decouple the input images into Domain Expert Features and noise. The proposed domain expert features lie in a learned latent space where the images in each domain can be classified independently, enabling the implicit use of classification-aware domain variations. Based on the analysis, we proposed a novel paradigm called Domain Disentanglement Network (DDN) to disentangle the domain expert features from the source domain images and aggregate the source domain expert features for representing the target test domain. We also propound a new contrastive learning method to guide the domain expert features to form a more balanced and separable feature space. Experiments on the widely-used benchmarks of PACS, VLCS, OfficeHome, DomainNet, and TerraIncognita demonstrate the competitive performance of our method compared to the recently proposed alternatives.
翻訳日:2023-02-07 18:45:20 公開日:2023-02-05
# 説明可能な機械学習: システム中心の視点の重要性

Explainable Machine Learning: The Importance of a System-Centric Perspective ( http://arxiv.org/abs/2302.02347v1 )

ライセンス: Link先を確認
Manish Narwaria(参考訳) いくつかの信号処理アプリケーションや教育の文脈におけるランドスケープは、機械学習(ML)や特にディープラーニング(DL)の出現に大きく影響しているように見える。 その主な理由は、DLが信号と関心のあるタスクの間の複雑な未知の関係をモデル化する能力である。 特に、教師付きDLアルゴリズムは、異なるアプリケーションにおいて知覚的または意味的に有用な信号情報を認識することに成功している。 これらすべてにおいて、トレーニングプロセスはラベル付きデータを使用して、信号から望ましい情報(クラスラベルまたはターゲットラベル)へのマッピング機能(典型的には暗黙的に)を学ぶ。 訓練されたDLモデルは、与えられたテスト信号で関連する情報を正しく認識/分類することが期待される。 したがって、DLベースのフレームワークは、明示的なモデル/システム開発に頼ることなく、データから必要なマッピングの特徴と特性をほとんど学習するため、一般的に非常に魅力的である。 しかし、暗黙的なモデリングにフォーカスすることは、dlベースのマッピングやブラックボックスの問題の説明可能性や解釈可能性の欠如を提起する。 その結果、ML/DLは、ML/DLモデルがどのように予測に到達したかを詳しく知ることが目的である、活発な研究領域である。 しかし、この努力にもかかわらず、ブラックボックス問題に関するコメントは、以下の観点から技術的な議論を欠いているようだ。 a) その起源及び根本的な理由,及び b)ML/DLシステムの設計及び展開にその実践的意味がある。 そのため、次のような合理的な疑問が提起される。 従来のシステム中心のアプローチ(明示的なシステムモデリングに重点を置く)は、ブラックボックス問題の性質に関する有用な洞察を与え、より透過的なML/DLシステムの開発に役立つだろうか?

The landscape in the context of several signal processing applications and even education appears to be significantly affected by the emergence of machine learning (ML) and in particular deep learning (DL).The main reason for this is the ability of DL to model complex and unknown relationships between signals and the tasks of interest. Particularly, supervised DL algorithms have been fairly successful at recognizing perceptually or semantically useful signal information in different applications. In all of these, the training process uses labeled data to learn a mapping function (typically implicitly) from signals to the desired information (class label or target label). The trained DL model is then expected to correctly recognize/classify relevant information in a given test signal. A DL based framework is therefore, in general, very appealing since the features and characteristics of the required mapping are learned almost exclusively from the data without resorting to explicit model/system development. The focus on implicit modeling however also raises the issue of lack of explainability/interpretability of the resultant DL based mapping or the black box problem. As a result, explainable ML/DL is an active research area where the primary goal is to elaborate how the ML/DL model arrived at a prediction. We however note that despite the efforts, the commentary on black box problem appears to lack a technical discussion from the view point of: a) its origin and underlying reasons, and b) its practical implications on the design and deployment of ML/DL systems. Accordingly, a reasonable question that can be raised is as follows. Can the traditional system-centric approach (which places emphasis on explicit system modeling) provide useful insights into the nature of black box problem, and help develop more transparent ML/DL systems?
翻訳日:2023-02-07 18:44:57 公開日:2023-02-05
# VuLASTE:脆弱性検出のための抽象構文木埋め込みを用いたLong Sequence Model

VuLASTE: Long Sequence Model with Abstract Syntax Tree Embedding for vulnerability Detection ( http://arxiv.org/abs/2302.02345v1 )

ライセンス: Link先を確認
Botong Zhu and Huobin Tan(参考訳) 本稿では,脆弱性検出を特殊テキスト分類タスクとして扱うvulasteというモデルを構築した。 語彙爆発問題を解決するために、VuLASTEは自然言語処理からバイトレベルのBPEアルゴリズムを使用する。 VuLASTEでは、ソースコードのネスト情報を表現するために、新しいASTパスの埋め込みが追加されている。 また、longformerからグローバルおよび拡張されたウィンドウアテンションを組み合わせて、ソースコードから長いシーケンスセマンティクスを抽出する。 脆弱性検出データセットの共通する問題であるデータ不均衡問題を解決するために、トレーニング中の悪用事例にモデルに焦点を合わせるために、損失関数として焦点損失を用いる。 実世界のソースコードでモデルパフォーマンスをテストするため、Github Security Advisory Databaseからクロス言語およびマルチリポジトリの脆弱性データセットを構築しました。 このデータセットでは、VuLASTEがトップ50、トップ100、トップ200、トップ500ヒット29、51、86、228を達成した。

In this paper, we build a model named VuLASTE, which regards vulnerability detection as a special text classification task. To solve the vocabulary explosion problem, VuLASTE uses a byte level BPE algorithm from natural language processing. In VuLASTE, a new AST path embedding is added to represent source code nesting information. We also use a combination of global and dilated window attention from Longformer to extract long sequence semantic from source code. To solve the data imbalance problem, which is a common problem in vulnerability detection datasets, focal loss is used as loss function to make model focus on poorly classified cases during training. To test our model performance on real-world source code, we build a cross-language and multi-repository vulnerability dataset from Github Security Advisory Database. On this dataset, VuLASTE achieved top 50, top 100, top 200, top 500 hits of 29, 51, 86, 228, which are higher than state-of-art researches.
翻訳日:2023-02-07 18:44:27 公開日:2023-02-05
# LExecutor:学習ガイドによる実行

LExecutor: Learning-Guided Execution ( http://arxiv.org/abs/2302.02343v1 )

ライセンス: Link先を確認
Beatriz Souza and Michael Pradel(参考訳) コードの実行は、様々なプログラム解析タスク、例えば例外を通じて現れるバグの検出や、さらなる動的解析のために実行トレースを取得するために不可欠である。 しかし、変数定義の欠如、ユーザ入力の欠如、サードパーティの依存関係の欠如など、任意のコードを実行することは現実的には難しいことが多い。 本稿では,任意のコードスニペットを制約の少ない方法で実行するための学習誘導型LExecutorを提案する。 キーとなるアイデアは、プログラムが停止する原因となる欠落した値をニューラルモデルに予測させ、これらの値を実行に注入することです。 例えば、LExecutorは、そうでなければ未定義変数の可能性のある値を注入し、そうでない関数に呼び出しの値を返す。 人気のあるオープンソースプロジェクトのpythonコードとstack overflowから抽出したコードスニペットのアプローチを評価した。 神経モデルは80.1%から94.2%の精度で現実的な値を予測し、lexecutorは実際の実行を密接に模倣することができる。 その結果、このアプローチは、コードをas-isで単に実行するなど、利用可能なテクニックよりもはるかに多くのコードを実行することに成功した。 例えば、オープンソースのコードスニペットは早期にクラッシュするため、全行の4.1%しかカバーしていないが、LExecutorは50.1%のカバレッジを達成している。

Executing code is essential for various program analysis tasks, e.g., to detect bugs that manifest through exceptions or to obtain execution traces for further dynamic analysis. However, executing an arbitrary piece of code is often difficult in practice, e.g., because of missing variable definitions, missing user inputs, and missing third-party dependencies. This paper presents LExecutor, a learning-guided approach for executing arbitrary code snippets in an underconstrained way. The key idea is to let a neural model predict missing values that otherwise would cause the program to get stuck, and to inject these values into the execution. For example, LExecutor injects likely values for otherwise undefined variables and likely return values of calls to otherwise missing functions. We evaluate the approach on Python code from popular open-source projects and on code snippets extracted from Stack Overflow. The neural model predicts realistic values with an accuracy between 80.1% and 94.2%, allowing LExecutor to closely mimic real executions. As a result, the approach successfully executes significantly more code than any available technique, such as simply executing the code as-is. For example, executing the open-source code snippets as-is covers only 4.1% of all lines, because the code crashes early on, whereas LExecutor achieves a coverage of 50.1%.
翻訳日:2023-02-07 18:44:08 公開日:2023-02-05
# 量子フィッシャー情報メトリクスによる十分な統計量と回復性

Sufficient statistic and recoverability via Quantum Fisher Information metrics ( http://arxiv.org/abs/2302.02341v1 )

ライセンス: Link先を確認
Li Gao, Haojian Li, Iman Marvian, Cambyse Rouz\'e(参考訳) 量子フィッシャー情報の大規模なクラスにおいて、量子チャネルは量子状態の族にとって十分である、すなわち、量子フィッシャー情報が量子チャネルの下に保存されている場合に限り、入力状態が出力から回復可能であることを証明する。 例えば、このクラスはWinger-Yanase-Dysonスキュー情報を含む。 一方、興味深いことに、SLD量子フィッシャー情報は、フィッシャー情報の量子アナログの最も一般的な例であり、この性質を満足していない。 我々の回復性は、量子状態空間上のリーマン単調測度、すなわち量子チャネルの作用下で減少する計量単調測度、すなわち、しばしばデータ処理の不等式と呼ばれる性質を研究することによって得られる。 2つの量子状態に対して、モノトン計量は対応する量子$\chi^2$分散を与える。 量子$\chi^2$分散が量子チャネルでほぼ保存されている場合、ペッツ回収写像によって2つの状態がほぼ復元できるという意味で、近似された回復結果が得られる。 また、$\chi_{\frac{1}{2}}$ divergence に対する普遍的なリカバリバウンドも得られる。 最後に、量子熱力学と非対称性の資源理論の文脈における応用について論じる。

We prove that for a large class of quantum Fisher information, a quantum channel is sufficient for a family of quantum states, i.e., the input states can be recovered from the output, if and only if the quantum Fisher information is preserved under the quantum channel. This class, for instance, includes Winger-Yanase-Dyson skew information. On the other hand, interestingly, the SLD quantum Fisher information, as the most popular example of quantum analog of Fisher information, does not satisfy this property. Our recoverability result is obtained by studying Riemannian monotone metrics on the quantum state space, i.e. metrics monotone decreasing under the action of quantum channels, a property often called data processing inequality. For two quantum states, the monotone metric gives the corresponding quantum $\chi^2$ divergence. We obtain an approximate recovery result in the sense that, if the quantum $\chi^2$ divergence is approximately preserved by a quantum channel, then two states can be approximately recovered by the Petz recovery map. We also obtain a universal recovery bound for the $\chi_{\frac{1}{2}}$ divergence. Finally, we discuss applications in the context of quantum thermodynamics and the resource theory of asymmetry.
翻訳日:2023-02-07 18:43:45 公開日:2023-02-05
# 分数フロッケ理論

Fractional Floquet theory ( http://arxiv.org/abs/2302.02340v1 )

ライセンス: Link先を確認
Alexander Iomin(参考訳) フローケの定理の分数一般化は、時間依存の周期ハミルトニアンを持つ分数式 Schr\"odinger equation (FTSE) に対して提案される。 得られた結果は分数フロケ定理 (fFT) と呼ばれ、カプトー分数微分の固有関数であるミッタ・レフラー函数の形で定式化される。 提案された公式は、標準フロッケ定理が有効である時間依存ハミルトニアンを用いて、FTSEを標準量子力学に還元することができる。 量子共鳴に関する2つの例は、得られた結果をサポートするために考慮される。

A fractional generalization of the Floquet theorem is suggested for fractional Schr\"odinger equations (FTSE)s with the time-dependent periodic Hamiltonians. The obtained result, called the fractional Floquet theorem (fFT), is formulated in the form of the Mittag-Leffler function, which is considered as the eigenfunction of the Caputo fractional derivative. The suggested formula makes it possible to reduce the FTSE to the standard quantum mechanics with the time-dependent Hamiltonian, where the standard Floquet theorem is valid. Two examples related to quantum resonances are considered as well to support the obtained result.
翻訳日:2023-02-07 18:43:26 公開日:2023-02-05
# ChatGPTとその他の大規模生成AIモデルの制御

Regulating ChatGPT and other Large Generative AI Models ( http://arxiv.org/abs/2302.02337v1 )

ライセンス: Link先を確認
Philipp Hacker, Andreas Engel, Marco Mauer(参考訳) ChatGPTやStable Diffusionのような大規模な生成AIモデル(LGAIM)は、私たちのコミュニケーション、図示、作成の方法に急速に変化しています。 しかし、EUなどでは、AI規制は主にLGAIMではなく、従来のAIモデルに焦点を当てている。 本稿では、信頼に値するAI規制に関する現在の議論の中で、これらの新しい生成モデルについて検討し、その能力にどのように適合するかを問う。 本論文では,(1)直接規制,(2)コンテンツモデレーション,(3)政策提案の3段階について述べる。 社会全体の利益のために、LGAIMが信頼でき、デプロイされることを保証するために、2つの異なる政策提案を行うことで、終了する。 第一に、AI法やその他の直接規制の規則は、事前訓練されたモデルの特異性と一致しなければならない。 特に、訓練済みのモデル自体ではなく、具体的なハイリスクアプリケーションは、ハイリスクの義務の対象であるべきです。 さらに、詳細な透明性義務が保証される。 ただし、非差別条項はLGAIM開発者に適用される。 第2に、DSAコンテンツモデレーションルールの中核は、LGAIMをカバーするように拡張されるべきである。 これには通知とアクションのメカニズム、信頼できるフラグガーが含まれる。 あらゆる分野において、規制当局や議員はチャットgptなどのダイナミクスを追跡するために迅速に行動する必要がある。

Large generative AI models (LGAIMs), such as ChatGPT or Stable Diffusion, are rapidly transforming the way we communicate, illustrate, and create. However, AI regulation, in the EU and beyond, has primarily focused on conventional AI models, not LGAIMs. This paper will situate these new generative models in the current debate on trustworthy AI regulation, and ask how the law can be tailored to their capabilities. The paper proceeds in three steps, covering (1) direct regulation, (2) content moderation, and (3) policy proposals. It finishes by making two distinct policy proposals to ensure that LGAIMs are trustworthy and deployed for the benefit of society at large. First, rules in the AI Act and other direct regulation must match the specificities of pre-trained models. In particular, concrete high-risk applications, and not the pre-trained model itself, should be the object of high-risk obligations. Moreover, detailed transparency obligations are warranted. Non-discrimination provisions may, however, apply to LGAIM developers. Second, the core of the DSA content moderation rules should be expanded to cover LGAIMs. This includes notice and action mechanisms, and trusted flaggers. In all areas, regulators and lawmakers need to act fast to keep track with the dynamics of ChatGPT et al.
翻訳日:2023-02-07 18:43:17 公開日:2023-02-05
# 中間フォワードイテレートを用いた中間発電機最適化

Using Intermediate Forward Iterates for Intermediate Generator Optimization ( http://arxiv.org/abs/2302.02336v1 )

ライセンス: Link先を確認
Harsh Mishra, Jurijs Nazarovs, Manmohan Dogra, Sathya N. Ravi(参考訳) スコアベースのモデルは、最近、高次元の分布をモデル化するためのよりリッチなフレームワークとして導入された。 スコアベースモデルでは、生成タスクをパラメトリックモデル(ニューラルネットワークなど)を用いて定式化し、従来のように密度関数自身ではなく、そのような高次元分布の勾配を直接学習する。 数学的観点から、このような勾配情報は確率的サンプリングによって逆向きに利用でき、多様なサンプルを生成することができる。 しかし、計算の観点からは、既存のスコアベースのモデルは、フォワードまたは汚職プロセスがクローズド形式で計算できる場合に限り、効率的に訓練することができる。 フィードフォワードネットワークにおけるプロセスとレイヤの関係を用いることで、中間生成器最適化と呼ばれるバックプロパゲーションに基づく手順を導出し、計算オーバーヘッドを無視できるプロセスの中間イテレートを利用する。 IGOの主な利点は、生成タスクのための標準的なオートエンコーダパイプラインに組み込むことができることである。 我々は、IGOのサンプル複雑性特性を分析し、生成PCAのような下流タスクを解決する。 我々は,igo の2つの濃密な予測タスク viz.,イメージ外挿,ポイントクラウドデノイジングに対する応用例を示す。 本実験は,一階法を用いて様々な時点のジェネレータのアンサンブルを得ることが可能であることを示唆する。

Score-based models have recently been introduced as a richer framework to model distributions in high dimensions and are generally more suitable for generative tasks. In score-based models, a generative task is formulated using a parametric model (such as a neural network) to directly learn the gradient of such high dimensional distributions, instead of the density functions themselves, as is done traditionally. From the mathematical point of view, such gradient information can be utilized in reverse by stochastic sampling to generate diverse samples. However, from a computational perspective, existing score-based models can be efficiently trained only if the forward or the corruption process can be computed in closed form. By using the relationship between the process and layers in a feed-forward network, we derive a backpropagation-based procedure which we call Intermediate Generator Optimization to utilize intermediate iterates of the process with negligible computational overhead. The main advantage of IGO is that it can be incorporated into any standard autoencoder pipeline for the generative task. We analyze the sample complexity properties of IGO to solve downstream tasks like Generative PCA. We show applications of the IGO on two dense predictive tasks viz., image extrapolation, and point cloud denoising. Our experiments indicate that obtaining an ensemble of generators for various time points is possible using first-order methods.
翻訳日:2023-02-07 18:42:57 公開日:2023-02-05
# Dual-Cycle Diffusionによる意味的画像編集のための事前バイアスの除去

Eliminating Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion ( http://arxiv.org/abs/2302.02394v1 )

ライセンス: Link先を確認
Zuopeng Yang, Tianshu Chu, Xin Lin, Erdun Gao, Daqing Liu, Jie Yang, Chaoyue Wang(参考訳) テキストから画像への拡散モデルの成功はセマンティック画像編集にも革命をもたらし、クエリ/ターゲットテキストに基づく画像操作を可能にした。 これらの進歩にもかかわらず、画像編集中に事前訓練されたモデルに事前バイアスを導入する可能性、例えば不適切な領域に予期せぬ修正を加えることが大きな課題である。 そこで本稿では,画像編集の指導として未バイアスマスクを生成し,先行バイアス問題に対処する2サイクル拡散モデルを提案する。 提案手法では,前方経路と逆経路の両方からなるバイアス除去サイクルを取り入れ,それぞれに構造的一貫性サイクルを特徴とし,編集過程における画像コンテンツの保存を保証する。 フォワードパスは事前学習されたモデルを使用して編集された画像を生成し、反転されたパスは結果をソース画像に戻す。 処理されたソース画像と編集された画像の差を比較して、両者が同じ分布に適合することを保証する。 提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。 コードはhttps://github.com/JohnDreamer/DualCycleDiffsion.comから入手できる。

The recent success of text-to-image generation diffusion models has also revolutionized semantic image editing, enabling the manipulation of images based on query/target texts. Despite these advancements, a significant challenge lies in the potential introduction of prior bias in pre-trained models during image editing, e.g., making unexpected modifications to inappropriate regions. To this point, we present a novel Dual-Cycle Diffusion model that addresses the issue of prior bias by generating an unbiased mask as the guidance of image editing. The proposed model incorporates a Bias Elimination Cycle that consists of both a forward path and an inverted path, each featuring a Structural Consistency Cycle to ensure the preservation of image content during the editing process. The forward path utilizes the pre-trained model to produce the edited image, while the inverted path converts the result back to the source image. The unbiased mask is generated by comparing differences between the processed source image and the edited image to ensure that both conform to the same distribution. Our experiments demonstrate the effectiveness of the proposed method, as it significantly improves the D-CLIP score from 0.272 to 0.283. The code will be available at https://github.com/JohnDreamer/DualCycleDiffsion.
翻訳日:2023-02-07 18:36:02 公開日:2023-02-05
# 実現可能性と部分カバレッジを考慮した値ベースオフラインrl

Refined Value-Based Offline RL under Realizability and Partial Coverage ( http://arxiv.org/abs/2302.02392v1 )

ライセンス: Link先を確認
Masatoshi Uehara, Nathan Kallus, Jason D. Lee, Wen Sun(参考訳) オフライン強化学習(RL)では、適切なポリシーを選択するのに十分なデータが十分であることを前提に、いくつかのカバレッジ、実現可能性、ベルマン完全性、および/またはハードマージン(ギャップ)を仮定して、調査する機会がない。 本研究では, 単一コンパレータポリシのみのカバレッジと, 単一ポリシのソフト(エントロピー規則化)Q-関数の実現可能性と, 特定のミニマックス最適化問題のサドル点として定義された関連関数について, PAC保証付きオフラインRLの値ベースアルゴリズムを提案する。 これにより、オフラインrlのより洗練されたlax条件が提供される。 さらに,ソフトマージン条件下でのバニラQ関数の類似結果を示す。 これらの保証を達成するために,新しいミニマックス学習アルゴリズムを用いて,l^2$-convergence 保証によりソフトq関数やバニラq関数を正確に推定する。 我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。

In offline reinforcement learning (RL) we have no opportunity to explore so we must make assumptions that the data is sufficient to guide picking a good policy, taking the form of assuming some coverage, realizability, Bellman completeness, and/or hard margin (gap). In this work we propose value-based algorithms for offline RL with PAC guarantees under just partial coverage, specifically, coverage of just a single comparator policy, and realizability of soft (entropy-regularized) Q-function of the single policy and a related function defined as a saddle point of certain minimax optimization problem. This offers refined and generally more lax conditions for offline RL. We further show an analogous result for vanilla Q-functions under a soft margin condition. To attain these guarantees, we leverage novel minimax learning algorithms to accurately estimate soft or vanilla Q-functions with $L^2$-convergence guarantees. Our algorithms' loss functions arise from casting the estimation problems as nonlinear convex optimization problems and Lagrangifying.
翻訳日:2023-02-07 18:35:41 公開日:2023-02-05
# コヒーレント状態を用いた高レートポイントツーマルチポイント量子鍵分布

High-Rate Point-to-Multipoint Quantum Key Distribution using Coherent States ( http://arxiv.org/abs/2302.02391v1 )

ライセンス: Link先を確認
Yiming Bian and Yi-Chen Zhang and Chao Zhou and Song Yu and Zhengyu Li and Hong Guo(参考訳) 情報理論的セキュリティを可能にする量子鍵分布(QKD)が量子セキュアネットワークに向かっている。 ユーザ数を増やしつつ、高性能でコスト効率のよいプロトコルが必要です。 残念なことに、qubit実装プロトコルでは、1つの受信者が一度に用意された信号に応答することしかできないため、複数のユーザをネイティブにサポートできず、ネットワークの要求を十分に満たすことはできない。 ここでは連続変数量子情報を用いた'プロトコール解'を示す。 単一送信機と大規模受信機間の複数の独立QKDリンクを同時にサポートするコヒーレント・ステート・ポイント・ツー・マルチポイントプロトコルを提案する。 準備された全てのコヒーレント状態は、全ての受信機で測定され、生の鍵を生成し、安全で高効率なキー蒸留法で処理し、異なるqkdリンク間の相関を取り除く。 百のアクセスポイントでも非常に高い鍵レートを達成でき、2桁のマグニチュードの潜在的な改善を示す。 このスキームは、スケーラブルな量子セキュアネットワークにおけるハイレートマルチユーザソリューションへの有望なステップである。

Quantum key distribution (QKD) which enables information-theoretically security is now heading towards quantum secure networks. It requires high-performance and cost-effective protocols while increasing the number of users. Unfortunately, qubit-implemented protocols only allow one receiver to respond to the prepared signal at a time, thus cannot support multiple users natively and well satisfy the network demands. Here, we show a 'protocol solution' using continuous-variable quantum information. A coherent-state point-to-multipoint protocol is proposed to simultaneously support multiple independent QKD links between a single transmitter and massive receivers. Every prepared coherent state is measured by all receivers to generate raw keys, then processed with a secure and high-efficient key distillation method to remove the correlations between different QKD links. It can achieve remarkably high key rates even with a hundred of access points and shows the potential improvement of two orders of magnitude. This scheme is a promising step towards a high-rate multi-user solution in a scalable quantum secure network.
翻訳日:2023-02-07 18:35:22 公開日:2023-02-05
# 収束保証を持つ大規模モデルの量子化分散トレーニング

Quantized Distributed Training of Large Models with Convergence Guarantees ( http://arxiv.org/abs/2302.02390v1 )

ライセンス: Link先を確認
Ilia Markov, Adrian Vladu, Qi Guo, Dan Alistarh(参考訳) ディープニューラルネットワーク(DNN)のデータ並列トレーニングにおけるスケーラビリティ向上のための,通信還元技術が一般的である。 GPTのような最近の大規模言語モデルの出現は、データ並列性を利用する新しいアプローチの必要性を生み出している。 中でも、フルシャードデータ並列(fsdp)トレーニングは高い人気があるが、それでもスケーラビリティのボトルネックに遭遇している。 1つの理由は、FSDPに圧縮技術を適用することは困難であり、ほとんどの通信がモデルの重みを含むため、直接圧縮は収束を変え、精度を低下させる。 理論的な保証で勾配量子化と重み量子化の両方をサポートするFSDPの変種であるQSDPは実装が簡単であり、本質的にオーバーヘッドがない。 QSDP を導出するために、SGD の自然な修正は、量子化された重みしか持たない場合でも収束し、したがって、訓練するべき領域は量子化された点から成り、したがって非常に非凸であることを示す。 マルチノードクラスタ上で最大13億のパラメータを持つGPTファミリーモデルをトレーニングすることで、このアプローチを検証する。 実験の結果、QSDPはモデルの精度を保ちながらFSDPの通信ボトルネックを完全に取り除き、エンドツーエンドのスピードアップを最大2.2倍にすることがわかった。

Communication-reduction techniques are a popular way to improve scalability in data-parallel training of deep neural networks (DNNs). The recent emergence of large language models such as GPT has created the need for new approaches to exploit data-parallelism. Among these, fully-sharded data parallel (FSDP) training is highly popular, yet it still encounters scalability bottlenecks. One reason is that applying compression techniques to FSDP is challenging: as the vast majority of the communication involves the model's weights, direct compression alters convergence and leads to accuracy loss. We present QSDP, a variant of FSDP which supports both gradient and weight quantization with theoretical guarantees, is simple to implement and has essentially no overheads. To derive QSDP we prove that a natural modification of SGD achieves convergence even when we only maintain quantized weights, and thus the domain over which we train consists of quantized points and is, therefore, highly non-convex. We validate this approach by training GPT-family models with up to 1.3 billion parameters on a multi-node cluster. Experiments show that QSDP preserves model accuracy, while completely removing the communication bottlenecks of FSDP, providing end-to-end speedups of up to 2.2x.
翻訳日:2023-02-07 18:35:04 公開日:2023-02-05
# Bell-CHSH不平等の違反に関する研究

A study of the violation of the Bell-CHSH inequality ( http://arxiv.org/abs/2302.02385v1 )

ライセンス: Link先を確認
Silvio Paolo Sorella(参考訳) 純状態によって記述されたバイパーティイト系のベル-CHSH不平等の違反を分析する。 いわゆる$n00n$ 状態およびコヒーレント状態への申請が提示される。

We analyze the violation of the Bell-CHSH inequality for bipartite systems described by pure states. Applications to the so called $N00N$ states as well as to coherent states are presented.
翻訳日:2023-02-07 18:34:43 公開日:2023-02-05
# 超低温における半導体量子ドット媒体の自己誘起透過

Self-induced Transparency in a Semiconductor Quantum Dot medium at ultra-cold temperatures ( http://arxiv.org/abs/2302.02377v1 )

ライセンス: Link先を確認
Samit Kumar Hazra, P. K. Pathak, and Tarak Nath Dey(参考訳) 不均一に拡大した半導体量子ドット媒体におけるロスレスおよび形状保存パルス伝播の可能性について検討した。 短パルスが最小吸収で媒質内を伝播し、パルス形状を拡大できることを実証した。 安定なパルス領域はパルス領域定理の予測よりもわずかに高くなり、環境温度にも依存する。 媒体の感受性によって支持される伝播方程式を数値的に解いて最終パルス形状の変化を非常によく説明する。 また、より高い入力パルス領域におけるパルス分解現象も提示する。 したがって, 量子通信, 量子情報, モードロックにおいて, 拡張性と制御性を利用して重要な応用が考えられる。

We investigate the feasibility of lossless and shape-preserving pulse propagation in an inhomogeneously broadened semiconductor quantum dot medium. We demonstrate that a short pulse can propagate inside the medium with minimal absorption and broadening in pulse shape. The stable pulse area becomes slightly higher than the prediction of the pulse area theorem and is also dependent on the environment temperature. The change in the final pulse shape is explained very well by numerically solving the propagation equation supported by the susceptibility of the medium. Our system also exhibits the pulse breakup phenomena for higher input pulse areas. Therefore, the considered scheme can have important applications in quantum communication, quantum information, and mode-locking with the advantage of scalability and controllability.
翻訳日:2023-02-07 18:34:40 公開日:2023-02-05
# shiftddpms:shifting diffusion trajectoriesによる条件拡散モデルの検討

ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion Trajectories ( http://arxiv.org/abs/2302.02373v1 )

ライセンス: Link先を確認
Zijian Zhang, Zhou Zhao, Jun Yu, Qi Tian(参考訳) 拡散モデルは最近、拡散確率モデル(DDPM)の導入以来、印象的な画像サンプルの合成能力を示した。 彼らのキーとなるアイデアは、固定された前方プロセスを通じて画像をノイズに分解し、その逆プロセスを学び、ノイズからサンプルを生成することである。 条件付きDDPMでは、ほとんどの既存のプラクティスは、逆プロセスのみに関係し、非条件付きフォワードプロセスの反転に適合する。 これは、小さな時間ウィンドウにおける条件モデリングと生成を制限することになる。 本稿では,前処理に条件を導入することで,新しいフレキシブルな条件拡散モデルを提案する。 我々は余剰潜在空間を利用して各条件の排他的拡散軌跡をシフト規則に基づいて割り当て、条件モデリングをすべての時間ステップに分散させ、モデルの学習能力を向上させる。 我々は,<textbf{ShiftDDPMs} と呼ぶメソッドを定式化し,既存のメソッドの統一的な視点を提供する。 画像合成に関する大規模定性的および定量的実験は、ShiftDDPMの有効性と有効性を示す。

Diffusion models have recently exhibited remarkable abilities to synthesize striking image samples since the introduction of denoising diffusion probabilistic models (DDPMs). Their key idea is to disrupt images into noise through a fixed forward process and learn its reverse process to generate samples from noise in a denoising way. For conditional DDPMs, most existing practices relate conditions only to the reverse process and fit it to the reversal of unconditional forward process. We find this will limit the condition modeling and generation in a small time window. In this paper, we propose a novel and flexible conditional diffusion model by introducing conditions into the forward process. We utilize extra latent space to allocate an exclusive diffusion trajectory for each condition based on some shifting rules, which will disperse condition modeling to all timesteps and improve the learning capacity of model. We formulate our method, which we call \textbf{ShiftDDPMs}, and provide a unified point of view on existing related methods. Extensive qualitative and quantitative experiments on image synthesis demonstrate the feasibility and effectiveness of ShiftDDPMs.
翻訳日:2023-02-07 18:34:29 公開日:2023-02-05
# 深部強化学習を用いたモデルフリー量子ゲート設計と校正

Model-free Quantum Gate Design and Calibration using Deep Reinforcement Learning ( http://arxiv.org/abs/2302.02371v1 )

ライセンス: Link先を確認
Omar Shindi, Qi Yu, Parth Girdhar, and Daoyi Dong(参考訳) 量子ゲート設計は量子計算や量子通信といった様々な量子技術にとって重要である。 量子ゲート設計のための多くの制御ポリシーが提案され、量子システムの動的モデルが提案されている。 しかし、量子システムはしばしばノイズに敏感であり、その正確なモデリングを得ることは、多くの実用的な応用において困難である。 したがって、量子システムモデルに基づく制御ポリシーは、量子ゲート設計には実用的でないかもしれない。 また、量子測定では量子状態が崩壊し、制御プロセス中に測定によって情報を得るのが困難になる。 本稿では,モデルレス量子制御のための深層強化学習を用いた新しいトレーニングフレームワークを提案する。 提案するフレームワークは,制御プロセスの終了時の測定のみに依存し,学習プロセス中に量子システムにアクセスせずに最適な制御ポリシを見つける機能を提供する。 本手法の有効性は,オフポリシー強化学習アルゴリズムを用いたモデルフリー量子ゲート設計と量子ゲート校正に対して数値的に実証された。

High-fidelity quantum gate design is important for various quantum technologies, such as quantum computation and quantum communication. Numerous control policies for quantum gate design have been proposed given a dynamical model of the quantum system of interest. However, a quantum system is often highly sensitive to noise, and obtaining its accurate modeling can be difficult for many practical applications. Thus, the control policy based on a quantum system model may be unpractical for quantum gate design. Also, quantum measurements collapse quantum states, which makes it challenging to obtain information through measurements during the control process. In this paper, we propose a novel training framework using deep reinforcement learning for model-free quantum control. The proposed framework relies only on the measurement at the end of the control process and offers the ability to find the optimal control policy without access to quantum systems during the learning process. The effectiveness of the proposed technique is numerically demonstrated for model-free quantum gate design and quantum gate calibration using off-policy reinforcement learning algorithms.
翻訳日:2023-02-07 18:34:12 公開日:2023-02-05
# Pseudo-Label-Guided Mutual Information Maximization Network を用いたディープグラフレベルクラスタリング

Deep Graph-Level Clustering Using Pseudo-Label-Guided Mutual Information Maximization Network ( http://arxiv.org/abs/2302.02369v1 )

ライセンス: Link先を確認
Jinyu Cai, Yi Han, Wenzhong Guo, Jicong Fan(参考訳) 本研究では,グラフの集合を異なるグループに分割する問題を,同じグループ内のグラフが類似しているのに対して,異なるグループ内のグラフが相似であるように研究する。 この問題は以前はほとんど研究されなかったが、ノードクラスタリングやグラフ分類に多くの研究がなされている。 この問題は、グラフ間の類似性や距離を測定することが難しいため、難しい。 グラフカーネルを使用してグラフの類似度行列を計算し、スペクトルクラスタリングを実行する方法も考えられるが、グラフ間の類似度を測定するための既存のグラフカーネルの有効性は非常に限られている。 そこで本研究では,Deep Graph-Level Clustering (DGLC) と呼ばれる新しい手法を提案する。 DGLCはグラフ準同型ネットワークを用いてグラフ全体の表現とサブ構造の間の相互情報を最大化し、擬似ラベルによる識別表現を保証するクラスタリングモジュールの正規化の下でグラフレベルの表現を学習する。 DGLCはエンドツーエンドでグラフレベルの表現学習とグラフレベルのクラスタリングを実現する。 6つのグラフのベンチマークデータセットの実験結果から,dglcは多数のベースラインと比較して最先端のパフォーマンスを示している。

In this work, we study the problem of partitioning a set of graphs into different groups such that the graphs in the same group are similar while the graphs in different groups are dissimilar. This problem was rarely studied previously, although there have been a lot of work on node clustering and graph classification. The problem is challenging because it is difficult to measure the similarity or distance between graphs. One feasible approach is using graph kernels to compute a similarity matrix for the graphs and then performing spectral clustering, but the effectiveness of existing graph kernels in measuring the similarity between graphs is very limited. To solve the problem, we propose a novel method called Deep Graph-Level Clustering (DGLC). DGLC utilizes a graph isomorphism network to learn graph-level representations by maximizing the mutual information between the representations of entire graphs and substructures, under the regularization of a clustering module that ensures discriminative representations via pseudo labels. DGLC achieves graph-level representation learning and graph-level clustering in an end-to-end manner. The experimental results on six benchmark datasets of graphs show that our DGLC has state-of-the-art performance in comparison to many baselines.
翻訳日:2023-02-07 18:33:59 公開日:2023-02-05
# FastPillars: デプロイフレンドリーなPillarベースの3D検出器

FastPillars: A Deployment-friendly Pillar-based 3D Detector ( http://arxiv.org/abs/2302.02367v1 )

ライセンス: Link先を確認
Sifan Zhou, Zhi Tian, Xiangxiang Chu, Xinyu Zhang, Bo Zhang, Xiaobo Lu, Chengjian Feng, Zequn Jie, Patrick Yin Chiang, Lin Ma(参考訳) 3D検出器の配備は、現実の自動運転シナリオにおける大きな課題の1つとなる。 既存のbevベースの検出器(バードアイビュー)は、トレーニングと推論をスピードアップするためにスパース畳み込み(spconvとして知られる)を好む。 本稿では,LiDAR点雲からの効率的な3次元物体検出の問題に,展開を念頭において取り組む。 計算負荷を低減するため,ファストパイラーと呼ばれる産業的観点から高い性能の柱型3D検出器を提案する。 従来の手法と比較して,より効果的なMAPE(Max-and-Attention column encoding)モジュールを導入し,CSP(Cross Stage partial network)を組み込んだ強力なバックボーンCRVNetを再設計し,コンパクトな特徴表現フレームワークを構築する。 私たちのFastPillarsは、デバイス上のスピードと性能の両方に関して、最先端の3D検出器を超えています。 具体的には、FastPillarsはTensorRTを通じて効果的にデプロイでき、nuScenesテストセット上で64.6 mAPの単一RTX3070TiGPU上でリアルタイムパフォーマンス(24FPS)を得ることができる。 私たちのコードはリリースされます。

The deployment of 3D detectors strikes one of the major challenges in real-world self-driving scenarios. Existing BEV-based (i.e., Bird Eye View) detectors favor sparse convolution (known as SPConv) to speed up training and inference, which puts a hard barrier for deployment especially for on-device applications. In this paper, we tackle the problem of efficient 3D object detection from LiDAR point clouds with deployment in mind. To reduce computational burden, we propose a pillar-based 3D detector with high performance from an industry perspective, termed FastPillars. Compared with previous methods, we introduce a more effective Max-and-Attention pillar encoding (MAPE) module, and redesigning a powerful and lightweight backbone CRVNet imbued with Cross Stage Partial network (CSP) in a reparameterization style, forming a compact feature representation framework. Extensive experiments demonstrate that our FastPillars surpasses the state-of-the-art 3D detectors regarding both on-device speed and performance. Specifically, FastPillars can be effectively deployed through TensorRT, obtaining real-time performance (24FPS) on a single RTX3070Ti GPU with 64.6 mAP on the nuScenes test set. Our code will be released.
翻訳日:2023-02-07 18:33:40 公開日:2023-02-05
# シーン構成と高分解能画像生成のためのディフューザの混合

Mixture of Diffusers for scene composition and high resolution image generation ( http://arxiv.org/abs/2302.02412v1 )

ライセンス: Link先を確認
\'Alvaro Barbero Jim\'enez(参考訳) 拡散法はテキストプロンプトを条件付けしながら画像を生成するのに非常に効果的であることが証明されている。 しかし、生成した画像の品質は前例がないものの、特定の画像組成の生成に苦慮しているようである。 本稿では,既存の拡散モデル上に構築するアルゴリズムであるディフューザの混合について述べる。 キャンバスの異なる領域に作用する複数の拡散過程を調和させることで、各オブジェクトとスタイルの位置が別々の拡散プロセスによって制御されるより大きな画像を生成することができる。

Diffusion methods have been proven to be very effective to generate images while conditioning on a text prompt. However, and although the quality of the generated images is unprecedented, these methods seem to struggle when trying to generate specific image compositions. In this paper we present Mixture of Diffusers, an algorithm that builds over existing diffusion models to provide a more detailed control over composition. By harmonizing several diffusion processes acting on different regions of a canvas, it allows generating larger images, where the location of each object and style is controlled by a separate diffusion process.
翻訳日:2023-02-07 18:27:33 公開日:2023-02-05
# さっそく紹介:rgb画像からのハンドリコンストラクションのための反復的リファインメントフレームワーク

See You Soon: Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image ( http://arxiv.org/abs/2302.02410v1 )

ライセンス: Link先を確認
Pengfei Ren, Chao Wen, Xiaozheng Zheng, Zhou Xue, Haifeng Sun, Qi Qi, Jingyu Wang, Jianxin Liao(参考訳) 単一のRGB画像から対話的な手を再構築するのは、非常に難しい作業です。 一方,両手の重度な相互咬合と類似した局所的外観は,視覚特徴の抽出を混乱させ,推定された手のメッシュと画像の不一致を生じさせる。 一方、インタラクションハンド間の複雑な相互作用パターンがあり、ハンドポーズの解空間を大幅に増加させ、ネットワーク学習の難しさを増大させる。 本稿では,手間の空間的関係を効率的にモデル化しながら,画素調整ハンドリコンストラクションを実現するために,分離した反復的リファインメントフレームワークを提案する。 具体的には,2次元視覚特徴空間と3次元関節特徴空間の2つの特徴空間を定義する。 まず、視覚特徴マップから共同機能を取得し、グラフ畳み込みネットワークと変換器を用いて、それぞれ3次元関節特徴空間における手動情報と手動情報との相互作用を行う。 次に,2次元視覚特徴空間にグローバル情報を持つジョイント特徴を難読化のない方法で投影し,2次元畳み込みを画素分割強調に利用する。 2つの特徴空間で複数の代替機能拡張を行うことにより, インタラクションハンドの高精度かつロバストな再構築を実現する。 提案手法は,interhand2.6mデータセットにおいて,既存の2手法を大きなマージンで上回っている。 一方,本手法は,線内画像の強力な一般化能力を示す。

Reconstructing interacting hands from a single RGB image is a very challenging task. On the one hand, severe mutual occlusion and similar local appearance between two hands confuse the extraction of visual features, resulting in the misalignment of estimated hand meshes and the image. On the other hand, there are complex interaction patterns between interacting hands, which significantly increases the solution space of hand poses and increases the difficulty of network learning. In this paper, we propose a decoupled iterative refinement framework to achieve pixel-alignment hand reconstruction while efficiently modeling the spatial relationship between hands. Specifically, we define two feature spaces with different characteristics, namely 2D visual feature space and 3D joint feature space. First, we obtain joint-wise features from the visual feature map and utilize a graph convolution network and a transformer to perform intra- and inter-hand information interaction in the 3D joint feature space, respectively. Then, we project the joint features with global information back into the 2D visual feature space in an obfuscation-free manner and utilize the 2D convolution for pixel-wise enhancement. By performing multiple alternate enhancements in the two feature spaces, our method can achieve an accurate and robust reconstruction of interacting hands. Our method outperforms all existing two-hand reconstruction methods by a large margin on the InterHand2.6M dataset. Meanwhile, our method shows a strong generalization ability for in-the-wild images.
翻訳日:2023-02-07 18:27:23 公開日:2023-02-05
# 視覚ロボット操作のためのマルチビューマスク世界モデル

Multi-View Masked World Models for Visual Robotic Manipulation ( http://arxiv.org/abs/2302.02408v1 )

ライセンス: Link先を確認
Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel(参考訳) 視覚ロボット操作の研究やアプリケーションは、世界をよりよく知覚するために複数のカメラやビューを使用することが多い。 マルチビューデータのリッチさをどのように活用できるのか? 本稿では,多視点データを用いて優れた表現を学習し,視覚ロボット操作に活用する方法を検討する。 具体的には、ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練し、オートエンコーダから表現に基づく世界モデルを学ぶ。 提案手法の有効性を,多視点制御や補助カメラを用いた一視点制御など,様々なシナリオで実証する。 また,複数視点で学習した多視点マスク付きオートエンコーダは,カメラキャリブレーションや適応手順を使わずに,強力な視点ランダム化のポリシーを訓練し,実際のロボットタスクを解くためのポリシーを移譲することができることを示した。 実世界の実験とソースコードのデモは、プロジェクトのWebサイト(https://sites.google.com/view/mv-mwm.com)で公開されている。

Visual robotic manipulation research and applications often use multiple cameras, or views, to better perceive the world. How else can we utilize the richness of multi-view data? In this paper, we investigate how to learn good representations with multi-view data and utilize them for visual robotic manipulation. Specifically, we train a multi-view masked autoencoder which reconstructs pixels of randomly masked viewpoints and then learn a world model operating on the representations from the autoencoder. We demonstrate the effectiveness of our method in a range of scenarios, including multi-view control and single-view control with auxiliary cameras for representation learning. We also show that the multi-view masked autoencoder trained with multiple randomized viewpoints enables training a policy with strong viewpoint randomization and transferring the policy to solve real-robot tasks without camera calibration and an adaptation procedure. Videos demonstrations in real-world experiments and source code are available at the project website: https://sites.google.com/view/mv-mwm.
翻訳日:2023-02-07 18:26:59 公開日:2023-02-05
# HyPHEN: 同相暗号ベースニューラルネットワークのハイブリッドパッキング法と最適化

HyPHEN: A Hybrid Packing Method and Optimizations for Homomorphic Encryption-Based Neural Networks ( http://arxiv.org/abs/2302.02407v1 )

ライセンス: Link先を確認
Donghwan Kim, Jaiyoung Park, Jongmin Kim, Sangpyo Kim, Jung Ho Ahn(参考訳) 完全同型暗号化(FHE)を用いた畳み込みニューラルネットワーク(CNN)推論は、センシティブなユーザデータのプライバシーを保護しながら、計算プロセス全体をサーバにオフロード可能にするFHEの機能により、有望なプライベート推論(PI)ソリューションである。 しかし、従来のFHEベースのCNN(HCNN)の実装は、FHEの計算およびメモリオーバーヘッドが高いため、実用的ではない。 この制限を克服するために、効率的なFHE畳み込みアルゴリズム、データパッキング方法(ハイブリッドパッキングと画像スライシング)、FHE固有の最適化を特徴とする深層HCNN構造であるHyPHENを提案する。 このような拡張により、HyPHENはメモリフットプリントを大幅に削減し、暗号文のローテーションやブートストラップのような高価な同型演算の数を削減できる。 その結果、HyPHENはHCNN CIFAR-10推論のレイテンシを1.40s(ResNet20)に低下させ、HCNN ImageNet推論を16.87s(ResNet18)で初めて示す。

Convolutional neural network (CNN) inference using fully homomorphic encryption (FHE) is a promising private inference (PI) solution due to the capability of FHE that enables offloading the whole computation process to the server while protecting the privacy of sensitive user data. However, prior FHEbased CNN (HCNN) implementations are far from being practical due to the high computational and memory overheads of FHE. To overcome this limitation, we present HyPHEN, a deep HCNN construction that features an efficient FHE convolution algorithm, data packing methods (hybrid packing and image slicing), and FHE-specific optimizations. Such enhancements enable HyPHEN to substantially reduce the memory footprint and the number of expensive homomorphic operations, such as ciphertext rotation and bootstrapping. As a result, HyPHEN brings the latency of HCNN CIFAR-10 inference down to a practical level at 1.40s (ResNet20) and demonstrates HCNN ImageNet inference for the first time at 16.87s (ResNet18).
翻訳日:2023-02-07 18:26:39 公開日:2023-02-05
# 機械学習とディープラーニングによる術前乳癌検診

Pre-screening breast cancer with machine learning and deep learning ( http://arxiv.org/abs/2302.02406v1 )

ライセンス: Link先を確認
Rolando Gonzales Martinez, Daan-Max van Dongen(参考訳) また,血液サンプルから得られた生物学的マーカーや,メタアナリシスや国際データベースから得られた相対的リスクについても分析することにより,がんの事前スクリーニングに深層学習を活用できることが示唆された。 健康な女性52名、乳がんと診断された女性64名を含む116名を対象に特徴選択アルゴリズムを適用し、がんの事前スクリーニングに最適な予測因子を同定した。 従来の機械学習アルゴリズムとディープラーニングを比較したk-fold monte carloクロスバリデーション実験を行うのに最適な予測器を用いた。 以上の結果から,入力層構造を持つ深層学習モデルでは,がん患者と非がん患者を効果的に区別できる可能性が示唆された。 さらに、機械学習と比較して、ディープラーニングはその予測において最も不確実性が低い。 これらの結果から, 癌前スクリーニングに適用されたディープラーニングアルゴリズムは, 放射線のない, 非侵襲的で, 安価なスクリーニング方法の補完となることが示唆された。 がん前スクリーニングにおけるディープラーニングアルゴリズムの実装は、画像ベースのスクリーニングを必要とし、自己検査を奨励し、がん検診における偽陽性に関連する心理的外部性を減らす機会を提供する。 スクリーニングと事前スクリーニングの両方にディープラーニングアルゴリズムを統合することで、悪性腫瘍の早期発見が実現し、がん治療に伴う医療と社会的負担が軽減される。

We suggest that deep learning can be used for pre-screening cancer by analyzing demographic and anthropometric information of patients, as well as biological markers obtained from routine blood samples and relative risks obtained from meta-analysis and international databases. We applied feature selection algorithms to a database of 116 women, including 52 healthy women and 64 women diagnosed with breast cancer, to identify the best pre-screening predictors of cancer. We utilized the best predictors to perform k-fold Monte Carlo cross-validation experiments that compare deep learning against traditional machine learning algorithms. Our results indicate that a deep learning model with an input-layer architecture that is fine-tuned using feature selection can effectively distinguish between patients with and without cancer. Additionally, compared to machine learning, deep learning has the lowest uncertainty in its predictions. These findings suggest that deep learning algorithms applied to cancer pre-screening offer a radiation-free, non-invasive, and affordable complement to screening methods based on imagery. The implementation of deep learning algorithms in cancer pre-screening offer opportunities to identify individuals who may require imaging-based screening, can encourage self-examination, and decrease the psychological externalities associated with false positives in cancer screening. The integration of deep learning algorithms for both screening and pre-screening will ultimately lead to earlier detection of malignancy, reducing the healthcare and societal burden associated to cancer treatment.
翻訳日:2023-02-07 18:26:17 公開日:2023-02-05
# 弱溶液に対するディープ・ガラキン法の収束解析

Convergence Analysis of the Deep Galerkin Method for Weak Solutions ( http://arxiv.org/abs/2302.02405v1 )

ライセンス: Link先を確認
Yuling Jiao, Yanming Lai, Yang Wang, Haizhao Yang, Yunfei Yang(参考訳) 本稿では,ディリクレ,ノイマン,ロビン境界条件を持つ$\mathbb{R}^d$上の二階楕円偏微分方程式の弱解(DGMW)に対するディープ・ガレルキン法の収束速度を解析する。 DGMWでは、PDE溶液をパラメータ化するためにディープニューラルネットワークを適用し、従来のガレルキン定式化においてテスト関数をパラメータ化する第2のニューラルネットワークを採用する。 これらの2つのネットワークの深さと幅をトレーニングサンプル数で適切に選択することにより、dgmwの収束率は$\mathcal{o}(n^{-1/d})$であることが示され、これは弱解の最初の収束結果である。 証明の主な考え方は、DGMWの誤差を近似誤差と統計誤差に分割することである。 我々は、$H^{1}$ノルムの近似誤差の上限を導出し、Rademacher複雑性による統計的誤差を導出する。

This paper analyzes the convergence rate of a deep Galerkin method for the weak solution (DGMW) of second-order elliptic partial differential equations on $\mathbb{R}^d$ with Dirichlet, Neumann, and Robin boundary conditions, respectively. In DGMW, a deep neural network is applied to parametrize the PDE solution, and a second neural network is adopted to parametrize the test function in the traditional Galerkin formulation. By properly choosing the depth and width of these two networks in terms of the number of training samples $n$, it is shown that the convergence rate of DGMW is $\mathcal{O}(n^{-1/d})$, which is the first convergence result for weak solutions. The main idea of the proof is to divide the error of the DGMW into an approximation error and a statistical error. We derive an upper bound on the approximation error in the $H^{1}$ norm and bound the statistical error via Rademacher complexity.
翻訳日:2023-02-07 18:25:55 公開日:2023-02-05
# 公正な機械学習の不公平性: レベルダウンと厳格な平等主義

The Unfairness of Fair Machine Learning: Levelling down and strict egalitarianism by default ( http://arxiv.org/abs/2302.02404v1 )

ライセンス: Link先を確認
Brent Mittelstadt, Sandra Wachter, Chris Russell(参考訳) 近年,機械学習(ML)の公正性は研究・開発において活発な分野として現れている。 フェアネス(fairness)とは、集団間のパフォーマンスや成果のギャップを少なくし、元のシステムの精度を可能な限り保ちながら、フェアネスを定義することを指す。 この公平度対策による平等の過度な単純化は厄介である。 現在のフェアネス対策の多くは、フェアネスとパフォーマンスの低下、あるいは各グループをより悪くしたり、より優れたパフォーマンスグループを最悪のオフのレベルに下げることによってフェアネスが達成される「レベルダウン」の両方に苦しむ。 スティグマの傷、連帯の喪失、不平等な懸念、実質的平等の機会の欠如によって、物質的あるいは関係的な条件で全員を悪化させることで、公平が達成できるならば、曖昧な「公正」の概念を実践に翻訳する際に何かが間違っているように思われる。 本稿では,fairmlにまたがる平準化の原因と頻度を調査し,平等と分配的正義の哲学的,法的理論に基づく正当化と批判,および平等法の法学を考察する。 FairMLは現在、レベルダウンを正当化するために必要な測定、レポート、分析のタイプに関与していません。 そこで本研究では,fairmlにおける従属平等への第一歩として,最小許容危害しきい値(最小レート制約)をフェアネス制約として適用することにより,システムの設計による「レベルアップ」を提案する。 同様に、この分野で現在主流となっている過度に単純化された平等主義のフレーミングに対抗し、将来の議論を実質的な平等の機会に向け、そしてデフォルトで厳格な平等主義から遠ざけるための代替的なハーmsベースのフレームワークを提案する。 n.b. shortified abstract 完全な抽象のための紙を参照。

In recent years fairness in machine learning (ML) has emerged as a highly active area of research and development. Most define fairness in simple terms, where fairness means reducing gaps in performance or outcomes between demographic groups while preserving as much of the accuracy of the original system as possible. This oversimplification of equality through fairness measures is troubling. Many current fairness measures suffer from both fairness and performance degradation, or "levelling down," where fairness is achieved by making every group worse off, or by bringing better performing groups down to the level of the worst off. When fairness can only be achieved by making everyone worse off in material or relational terms through injuries of stigma, loss of solidarity, unequal concern, and missed opportunities for substantive equality, something would appear to have gone wrong in translating the vague concept of 'fairness' into practice. This paper examines the causes and prevalence of levelling down across fairML, and explore possible justifications and criticisms based on philosophical and legal theories of equality and distributive justice, as well as equality law jurisprudence. We find that fairML does not currently engage in the type of measurement, reporting, or analysis necessary to justify levelling down in practice. We propose a first step towards substantive equality in fairML: "levelling up" systems by design through enforcement of minimum acceptable harm thresholds, or "minimum rate constraints," as fairness constraints. We likewise propose an alternative harms-based framework to counter the oversimplified egalitarian framing currently dominant in the field and push future discussion more towards substantive equality opportunities and away from strict egalitarianism by default. N.B. Shortened abstract, see paper for full abstract.
翻訳日:2023-02-07 18:25:39 公開日:2023-02-05
# 高性能サブアレイハイブリッドビームフォーミングに向けて:FDD大規模MU-MIMOシステムにおける注意ネットワークに基づく実践的フィードバック

Towards Efficient Subarray Hybrid Beamforming: Attention Network-based Practical Feedback in FDD Massive MU-MIMO Systems ( http://arxiv.org/abs/2302.02401v1 )

ライセンス: Link先を確認
Zhilin Lu, Xudong Zhang, Rui Zeng and Jintao Wang(参考訳) チャネル状態情報(CSI)フィードバックは、周波数分割二重化(FDD)多重入力多重出力(MIMO)システムにおいて、チャネル非相互性に起因する。 深層学習の助けを借りて、大量のMIMOのために圧縮された理想のCSIを再構築することに成功している。 しかし,チャネル推定やビームフォーミング設計は考慮されていないため,単純なcsi再構成は実用性に乏しい。 本稿では,スペクトル効率の高いビームフォーマを学習できるように,チャネル推定とフィードバックのための協調最適化ネットワークを提案する。 さらに、配置に優しいサブアレイハイブリッドビームフォーミングアーキテクチャを適用し、実用的なエンドツーエンドネットワークを特別に設計する。 実験の結果,提案ネットワークは,従来の最先端手法に比べて,リソースに敏感なユーザ機器では10倍以上軽量であり,性能損失は少ないことがわかった。

Channel state information (CSI) feedback is necessary for the frequency division duplexing (FDD) multiple input multiple output (MIMO) systems due to the channel non-reciprocity. With the help of deep learning, many works have succeeded in rebuilding the compressed ideal CSI for massive MIMO. However, simple CSI reconstruction is of limited practicality since the channel estimation and the targeted beamforming design are not considered. In this paper, a jointly optimized network is introduced for channel estimation and feedback so that a spectral-efficient beamformer can be learned. Moreover, the deployment-friendly subarray hybrid beamforming architecture is applied and a practical lightweight end-to-end network is specially designed. Experiments show that the proposed network is over 10 times lighter at the resource-sensitive user equipment compared with the previous state-of-the-art method with only a minor performance loss.
翻訳日:2023-02-07 18:25:05 公開日:2023-02-05
# 潜時再構成型変分オートエンコーダ

Latent Reconstruction-Aware Variational Autoencoder ( http://arxiv.org/abs/2302.02399v1 )

ライセンス: Link先を確認
Onur Boyar and Ichiro Takeuchi(参考訳) 可変オートエンコーダ(VAE)は、あるデータセットから画像やテキストなどの新しいオブジェクトを生成する能力により、近年人気が高まっている。 この能力は幅広い応用につながった。 標準タスクは、しばしば潜在空間の高密度領域からのサンプリングを必要とするが、モルフィングやラテン宇宙ベイズ最適化(LS-BO)のような低密度領域からのサンプリングを必要とするタスクもある。 これらのタスクは、多種多様な高品質の化学物質を生産する能力が不可欠であるデノボ分子設計のような分野において、ますます重要になっている。 本研究では,vaesの低密度領域から発生する低品質物体について検討する。 この問題に対処するため、我々は新しいVAEモデル、Latent Reconstruction-Aware VAE (LRA-VAE)を提案する。 LRA-VAEモデルは、潜在変数の遅延再構成誤差(LRE)と呼ばれるものを考慮している。 我々は, モーフィングとls-bo実験を用いて提案手法を評価し, lra-vaeが生成する物体の品質を他の手法よりも向上できることを示す。

Variational Autoencoders (VAEs) have become increasingly popular in recent years due to their ability to generate new objects such as images and texts from a given dataset. This ability has led to a wide range of applications. While standard tasks often require sampling from high-density regions in the latent space, there are also tasks that require sampling from low-density regions, such as Morphing and Latent Space Bayesian Optimization (LS-BO). These tasks are becoming increasingly important in fields such as de novo molecular design, where the ability to generate diverse and high-quality chemical compounds is essential. In this study, we investigate the issue of low-quality objects generated from low-density regions in VAEs. To address this problem, we propose a new VAE model, the Latent Reconstruction-Aware VAE (LRA-VAE). The LRA-VAE model takes into account what we refer to as the Latent Reconstruction Error (LRE) of the latent variables. We evaluate our proposal using Morphing and LS-BO experiments, and show that LRA-VAE can improve the quality of generated objects over the other approaches, making it a promising solution for various generation tasks that involve sampling from low-density regions.
翻訳日:2023-02-07 18:24:51 公開日:2023-02-05
# 生成画像の雑音化のための拡散モデル

Diffusion Model for Generative Image Denoising ( http://arxiv.org/abs/2302.02398v1 )

ライセンス: Link先を確認
Yutong Xie, Minne Yuan, Bin Dong and Quanzheng Li(参考訳) 画像雑音化のための教師付き学習では、通常、ペアのクリーン画像とノイズ画像が収集または合成され、雑音化モデルを訓練する。 L2ノルム損失や他の距離関数は、訓練の目的関数として用いられる。 多くの場合、画像の細部を減らしたスムースな結果につながる。 本稿では,ノイズ画像に条件づけられたクリーン画像の後方分布を推定する問題として,雑音除去課題を考察する。 拡散モデルの概念を適用し,生成画像の雑音化を実現する。 発声課題における雑音モデルにより, 拡散過程を再定義し, 元のものと異なる拡散過程を再定義する。 したがって、後方分布のサンプリングは、ノイズ画像からの数十ステップの逆処理である。 本稿では,ガウス,ガンマ,ポアソンの3種類のノイズモデルについて考察する。 理論の保証により、モデルトレーニングのための統一戦略を導出する。 本手法は3種類のノイズモデルの実験により検証し,優れた性能を実現する。

In supervised learning for image denoising, usually the paired clean images and noisy images are collected or synthesised to train a denoising model. L2 norm loss or other distance functions are used as the objective function for training. It often leads to an over-smooth result with less image details. In this paper, we regard the denoising task as a problem of estimating the posterior distribution of clean images conditioned on noisy images. We apply the idea of diffusion model to realize generative image denoising. According to the noise model in denoising tasks, we redefine the diffusion process such that it is different from the original one. Hence, the sampling of the posterior distribution is a reverse process of dozens of steps from the noisy image. We consider three types of noise model, Gaussian, Gamma and Poisson noise. With the guarantee of theory, we derive a unified strategy for model training. Our method is verified through experiments on three types of noise models and achieves excellent performance.
翻訳日:2023-02-07 18:24:30 公開日:2023-02-05
# FineDeb: 言語モデルのためのデバイアスフレームワーク

FineDeb: A Debiasing Framework for Language Models ( http://arxiv.org/abs/2302.02453v1 )

ライセンス: Link先を確認
Akash Saravanan, Dhruv Mullick, Habibur Rahman, Nidhi Hegde(参考訳) 言語モデルが人間向け機械学習ツールにますます取り入れられている中、人口統計群に対する偏見が注目されている。 事前学習した言語モデルから学習した埋め込みの文脈的デバイアスから始まる言語モデルのための2相デバイアスフレームワークであるFineDebを提案する。 そして、モデルが言語モデリングの目的に基づいて微調整される。 以上の結果から,FinDebは従来の言語モデルと同等のバイアスを伴うモデルを生成する他の手法と比較して,よりデバイアスが強いことが示唆された。 本フレームワークは,複数のクラスを持つ人口層に対して一般化可能であり,その有効性は,幅広い実験と最先端技術との比較を通じて実証する。 コードとデータはGitHubで公開しています。

As language models are increasingly included in human-facing machine learning tools, bias against demographic subgroups has gained attention. We propose FineDeb, a two-phase debiasing framework for language models that starts with contextual debiasing of embeddings learned by pretrained language models. The model is then fine-tuned on a language modeling objective. Our results show that FineDeb offers stronger debiasing in comparison to other methods which often result in models as biased as the original language model. Our framework is generalizable for demographics with multiple classes, and we demonstrate its effectiveness through extensive experiments and comparisons with state of the art techniques. We release our code and data on GitHub.
翻訳日:2023-02-07 18:18:37 公開日:2023-02-05
# KDEformer:カーネル密度推定によるトランスフォーマーの高速化

KDEformer: Accelerating Transformers via Kernel Density Estimation ( http://arxiv.org/abs/2302.02451v1 )

ライセンス: Link先を確認
Amir Zandieh, Insu Han, Majid Daliri, Amin Karbasi(参考訳) ドット生成注意機構は、シーケンスモデリングのための現代のディープアーキテクチャ(例えばトランスフォーマー)において重要な役割を担っているが、このモデルのna\"ive exact computationは、シーケンス長の二次時間とメモリの複雑さを伴い、長いシーケンスモデルのトレーニングを妨げる。 臨界ボトルネックは、ソフトマックス関数の分母における分割関数の計算と、値の行列とのソフトマックス行列の乗算によるものである。 我々は,前者をカーネル密度推定問題(kde)の変種に還元し,より効率的なkdeソルバを用いて,サブサンプリングベースの高速行列生成により後者を高速化できることを示す。 提案したKDEformerは、スペクトルノルム境界の証明が可能なサブ四進時間で注意を近似することができる。 実験により、KDEformerは、様々な事前学習モデルにおいて、精度、メモリ、ランタイムの点で、他の注目度よりも優れていることを確認した。 BigGAN画像生成では,4\times$ Speedupによる正確な計算よりも優れた生成スコアが得られる。 T2T-ViTを使ったImageNet分類では、KDEformerは18\times$ Speedup、精度低下は0.5\%$以下である。

Dot-product attention mechanism plays a crucial role in modern deep architectures (e.g., Transformer) for sequence modeling, however, na\"ive exact computation of this model incurs quadratic time and memory complexities in sequence length, hindering the training of long-sequence models. Critical bottlenecks are due to the computation of partition functions in the denominator of softmax function as well as the multiplication of the softmax matrix with the matrix of values. Our key observation is that the former can be reduced to a variant of the kernel density estimation (KDE) problem, and an efficient KDE solver can be further utilized to accelerate the latter via subsampling-based fast matrix products. Our proposed KDEformer can approximate the attention in sub-quadratic time with provable spectral norm bounds, while all prior results merely provide entry-wise error bounds. Empirically, we verify that KDEformer outperforms other attention approximations in terms of accuracy, memory, and runtime on various pre-trained models. On BigGAN image generation, we achieve better generative scores than the exact computation with over $4\times$ speedup. For ImageNet classification with T2T-ViT, KDEformer shows over $18\times$ speedup while the accuracy drop is less than $0.5\%$.
翻訳日:2023-02-07 18:18:25 公開日:2023-02-05
# モデルベースクラスタリングにおける正規化とグローバル最適化

Regularization and Global Optimization in Model-Based Clustering ( http://arxiv.org/abs/2302.02450v1 )

ライセンス: Link先を確認
Raphael Araujo Sampaio, Joaquim Dias Garcia, Marcus Poggi, Thibaut Vidal(参考訳) 概念的単純さから、k平均アルゴリズムの変種は教師なしクラスタ分析に広く用いられている。 しかし、これらのアルゴリズムの主な欠点の1つは、本質的に同じ球面ガウスの混合をそのような分布から大きく逸脱するデータに適合させることである。 対照的に、ガウス混合モデル(GMM)はよりリッチな構造に適合するが、共分散行列を表現するためにクラスタ毎に2次数のパラメータを推定する必要がある。 これは2つの大きな問題をもたらします (i) 局所最小値の多さにより、基礎となる最適化問題は困難である。 (ii) それらのソリューションはデータに過度に適合する。 本研究では,両問題を回避した検索戦略を設計する。 一般GMMのための効率的なグローバル最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせて過度な適合を避ける。 大規模計算解析により,大域的な最適化や単独での正規化はクラスタの回復を著しく改善しないことがわかった。 しかしながら、これらのテクニックを組み合わせることで、これまでk-meansアルゴリズムの変種によって実現されていなかった全く新しいレベルのパフォーマンスが実現され、非常に異なるクラスタ構造を解き放ちます。 これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。 このようなアプリケーションを容易にするため、提案手法を実装したjuliaパッケージ("unsupervisedclustering.jl", "regularizedcovariancematrices.jl")とともに、オープンソースコードを提供する。

Due to their conceptual simplicity, k-means algorithm variants have been extensively used for unsupervised cluster analysis. However, one main shortcoming of these algorithms is that they essentially fit a mixture of identical spherical Gaussians to data that vastly deviates from such a distribution. In comparison, general Gaussian Mixture Models (GMMs) can fit richer structures but require estimating a quadratic number of parameters per cluster to represent the covariance matrices. This poses two main issues: (i) the underlying optimization problems are challenging due to their larger number of local minima, and (ii) their solutions can overfit the data. In this work, we design search strategies that circumvent both issues. We develop efficient global optimization algorithms for general GMMs, and we combine these algorithms with regularization strategies that avoid overfitting. Through extensive computational analyses, we observe that global optimization or regularization in isolation does not substantially improve cluster recovery. However, combining these techniques permits a completely new level of performance previously unachieved by k-means algorithm variants, unraveling vastly different cluster structures. These results shed new light on the current status quo between GMM and k-means methods and suggest the more frequent use of general GMMs for data exploration. To facilitate such applications, we provide open-source code as well as Julia packages ("UnsupervisedClustering.jl" and "RegularizedCovarianceMatrices.jl") implementing the proposed techniques.
翻訳日:2023-02-07 18:17:57 公開日:2023-02-05
# CFTにおけるランダムテンソルネットワークとホログラフィックコードに向けて

Toward random tensor networks and holographic codes in CFT ( http://arxiv.org/abs/2302.02446v1 )

ライセンス: Link先を確認
Jeevan Chandra and Thomas Hartman(参考訳) 固有状態熱化を満足するホログラフィックCFTでは、演算子積の膨張をランダムなテンソルネットワークで近似することができる。 テンソルネットワークの幾何学はホログラフィック双対の空間スライスに対応し、テンソルは半径方向を判別する。 任意の次元の球対称状態と2d CFTのより一般的な状態では、これはOPEデータで定義されるホログラフィックの誤り訂正符号につながり、ランダムテンソル近似を超えて体系的に修正できる。 このコードは水平線外における光演算子や、バルク復元に関する一般的な議論から期待された非等尺性内部に対する等尺性であることが示されている。 地平線での遷移は、複雑な内部を持つ状態におけるヴィラソロ等式ブロック近似の微妙な分解によって生じる。

In holographic CFTs satisfying eigenstate thermalization, there is a regime where the operator product expansion can be approximated by a random tensor network. The geometry of the tensor network corresponds to a spatial slice in the holographic dual, with the tensors discretizing the radial direction. In spherically symmetric states in any dimension and more general states in 2d CFT, this leads to a holographic error-correcting code, defined in terms of OPE data, that can be systematically corrected beyond the random tensor approximation. The code is shown to be isometric for light operators outside the horizon, and non-isometric inside, as expected from general arguments about bulk reconstruction. The transition at the horizon occurs due to a subtle breakdown of the Virasoro identity block approximation in states with a complex interior.
翻訳日:2023-02-07 18:17:15 公開日:2023-02-05
# 複数物体追跡のための時空間的点過程

Spatio-Temporal Point Process for Multiple Object Tracking ( http://arxiv.org/abs/2302.02444v1 )

ライセンス: Link先を確認
Tao Wang, Kean Chen, Weiyao Lin, John See, Zenghui Zhang, Qian Xu, and Xia Jia(参考訳) 多重オブジェクト追跡(MOT)は、連続するフレーム間の検出対象の関係をモデル化し、それらを異なる軌道にマージすることに焦点を当てている。 MOTはノイズと紛らわしい検出結果が最終的なパフォーマンスを妨げているため、依然として困難なタスクである。 さらに、既存の研究のほとんどは、検出アルゴリズムとアソシエーション戦略の改善に焦点を当てている。 そこで我々は,物体を軌道に関連付ける前に,ノイズを効果的に予測・マスクアウトし,検出結果を混乱させる新しい枠組みを提案する。 特に、このような「悪い」検出結果を一連の事象として定式化し、そのような事象をモデル化するために時空間過程を採用する。 伝統的に、点過程における発生率は、特定のタスクの事前知識に依存する明示的に定義された強度関数によって特徴づけられる。 したがって、適切なモデルを設計するのは高価で時間がかかり、うまく一般化する能力も限られている。 この問題に対処するために、我々は畳み込みリカレントニューラルネットワーク(conv-RNN)を採用し、その強度関数がトレーニングデータによって自動的にモデル化される点過程をインスタンス化する。 さらに,本手法は時間的・空間的進化の両面を捉え,MOTのイベントのモデル化に欠かせないものであることを示す。 実験結果から,MOTデータセットのノイズや混乱検出結果に顕著な改善が認められた。 ベースラインmotアルゴリズムを時空間的点過程モデルに組み込むことにより,最先端の性能向上を実現する。

Multiple Object Tracking (MOT) focuses on modeling the relationship of detected objects among consecutive frames and merge them into different trajectories. MOT remains a challenging task as noisy and confusing detection results often hinder the final performance. Furthermore, most existing research are focusing on improving detection algorithms and association strategies. As such, we propose a novel framework that can effectively predict and mask-out the noisy and confusing detection results before associating the objects into trajectories. In particular, we formulate such "bad" detection results as a sequence of events and adopt the spatio-temporal point process}to model such events. Traditionally, the occurrence rate in a point process is characterized by an explicitly defined intensity function, which depends on the prior knowledge of some specific tasks. Thus, designing a proper model is expensive and time-consuming, with also limited ability to generalize well. To tackle this problem, we adopt the convolutional recurrent neural network (conv-RNN) to instantiate the point process, where its intensity function is automatically modeled by the training data. Furthermore, we show that our method captures both temporal and spatial evolution, which is essential in modeling events for MOT. Experimental results demonstrate notable improvements in addressing noisy and confusing detection results in MOT datasets. An improved state-of-the-art performance is achieved by incorporating our baseline MOT algorithm with the spatio-temporal point process model.
翻訳日:2023-02-07 18:16:51 公開日:2023-02-05
# スーパーサンプルからの高次情報理論一般化境界

Tighter Information-Theoretic Generalization Bounds from Supersamples ( http://arxiv.org/abs/2302.02432v1 )

ライセンス: Link先を確認
Ziqiao Wang, Yongyi Mao(参考訳) 本稿では,Steinke & Zakynthinou (2020) のスーパーサンプル設定から,「条件付き相互情報」フレームワークの設定まで,学習アルゴリズムのための新しい情報理論の一般化境界について述べる。 当社の開発では、損失ペア(トレーニングインスタンスとテストインスタンスから保持されている)を単一の数にプロジェクションし、損失値をrademacherシーケンス(とそのシフトされた変種)に関連付ける。 提示される境界には平方根境界、分散と鋭さに基づく境界を含む高速レート境界、補間アルゴリズムなどが含まれる。 理論的あるいは経験的に、これらの境界は、同じスーパーサンプル設定で知られているすべての情報理論境界よりも厳密であることを示す。

We present a variety of novel information-theoretic generalization bounds for learning algorithms, from the supersample setting of Steinke & Zakynthinou (2020)-the setting of the "conditional mutual information" framework. Our development exploits projecting the loss pair (obtained from a training instance and a testing instance) down to a single number and correlating loss values with a Rademacher sequence (and its shifted variants). The presented bounds include square-root bounds, fast-rate bounds, including those based on variance and sharpness, and bounds for interpolating algorithms etc. We show theoretically or empirically that these bounds are tighter than all information-theoretic bounds known to date on the same supersample setting.
翻訳日:2023-02-07 18:16:25 公開日:2023-02-05
# 仮想タンパク質分類のための生物学的にインスパイアされたChaosNetアーキテクチャ

Biologically inspired ChaosNet architecture for Hypothetical Protein Classification ( http://arxiv.org/abs/2302.02427v1 )

ライセンス: Link先を確認
Sneha K H, Adhithya Sudeesh, Pramod P Nair, Prashanth Suravajhala(参考訳) chaosnetは分類問題のために開発された人工ニューラルネットワークフレームワークの一種であり、人間の脳のカオス性に影響されている。 ChaosNetアーキテクチャの各ニューロンは、GLS(Generalized Luroth Series)と呼ばれる1次元カオス写像である。 ChaosNetのニューロンとしてGLSを追加することで、カオスの有利な要素を活用しながら、計算が簡単になる。 かなり少ないデータで、ChaosNetは従来のANNと同等以上の難しい分類問題を実行することが示されている。 本稿では,chaosnetを用いて仮説タンパク質(hp)の機能的分類を行い,バイオインフォマティクスに多大な関心を寄せている。 より少ないトレーニングデータで得られた結果は、文献で使用される標準的な機械学習技術と比較される。

ChaosNet is a type of artificial neural network framework developed for classification problems and is influenced by the chaotic property of the human brain. Each neuron of the ChaosNet architecture is the one-dimensional chaotic map called the Generalized Luroth Series (GLS). The addition of GLS as neurons in ChaosNet makes the computations straightforward while utilizing the advantageous elements of chaos. With substantially less data, ChaosNet has been demonstrated to do difficult classification problems on par with or better than traditional ANNs. In this paper, we use Chaosnet to perform a functional classification of Hypothetical proteins [HP], which is indeed a topic of great interest in bioinformatics. The results obtained with significantly lesser training data are compared with the standard machine learning techniques used in the literature.
翻訳日:2023-02-07 18:16:11 公開日:2023-02-05
# 逆・静的制約を用いたオンライン非確率制御

Online Nonstochastic Control with Adversarial and Static Constraints ( http://arxiv.org/abs/2302.02426v1 )

ライセンス: Link先を確認
Xin Liu, Zixian Yang, Lei Ying(参考訳) 本稿では,逆制約と静的制約を用いたオンライン非確率制御問題について検討する。 そこで本研究では, 最適制約付き線形制御ポリシーに対する静的制約違反を最小限に抑えつつ, サブリニア後悔とサブリニア逆制約違反を両立させるオンライン非定型制御アルゴリズムを提案する。 そこで本研究では,制約付きオンライン非定型制御アルゴリズムのサブルーチンとして機能する,逆および静的制約下でのメモリフレームワークを用いたオンライン凸最適化を提案する。 このサブルーチンは、独立した関心を持つ制約付きオンライン凸最適化問題に対する、最先端の後悔と制約違反の限界も達成する。 提案する制御アルゴリズムは,敵の制約に適応し,より少ない累積コストと違反を実現できることを示す。 さらに,本アルゴリズムは保存性が低く,最先端アルゴリズムよりもはるかに少ない累積コストを実現している。

This paper studies online nonstochastic control problems with adversarial and static constraints. We propose online nonstochastic control algorithms that achieve both sublinear regret and sublinear adversarial constraint violation while keeping static constraint violation minimal against the optimal constrained linear control policy in hindsight. To establish the results, we introduce an online convex optimization with memory framework under adversarial and static constraints, which serves as a subroutine for the constrained online nonstochastic control algorithms. This subroutine also achieves the state-of-the-art regret and constraint violation bounds for constrained online convex optimization problems, which is of independent interest. Our experiments demonstrate the proposed control algorithms are adaptive to adversarial constraints and achieve smaller cumulative costs and violations. Moreover, our algorithms are less conservative and achieve significantly smaller cumulative costs than the state-of-the-art algorithm.
翻訳日:2023-02-07 18:16:00 公開日:2023-02-05
# 直接不確実性定量化

Direct Uncertainty Quantification ( http://arxiv.org/abs/2302.02420v1 )

ライセンス: Link先を確認
Yadi Wei, Roni Khardon(参考訳) 従来のニューラルネットワークは訓練が簡単だが、自信過剰な予測を生成する一方、ベイジアンニューラルネットワークは優れた不確実性定量化を提供するが、最適化には時間がかかる。 本稿では、ニューラルネットが出力空間における不確実性を直接モデル化する利点を組み合わせ、アレタリックおよびエピステマティックな不確実性の両方をキャプチャする新しいアプローチDirectUQを提案する。 DirectUQは代替の変分下界として導出することができ、従って、改良された正則化器を提供する崩壊変分推論の恩恵を受けることができる。 一方、確率的でないモデルと同様に、directuqは単純なトレーニングを楽しみ、rademacherの複雑さを使ってモデルのリスク境界を提供することができる。 実験の結果,DirectUQとDirectUQのアンサンブルは,特に分布データ外において,実行時間と不確実性の定量化に関して良好なトレードオフをもたらすことがわかった。

Traditional neural networks are simple to train but they produce overconfident predictions, while Bayesian neural networks provide good uncertainty quantification but optimizing them is time consuming. This paper introduces a new approach, direct uncertainty quantification (DirectUQ), that combines their advantages where the neural network directly models uncertainty in output space, and captures both aleatoric and epistemic uncertainty. DirectUQ can be derived as an alternative variational lower bound, and hence benefits from collapsed variational inference that provides improved regularizers. On the other hand, like non-probabilistic models, DirectUQ enjoys simple training and one can use Rademacher complexity to provide risk bounds for the model. Experiments show that DirectUQ and ensembles of DirectUQ provide a good tradeoff in terms of run time and uncertainty quantification, especially for out of distribution data.
翻訳日:2023-02-07 18:15:47 公開日:2023-02-05
# 会話における音声感情認識のためのセグメントレベルの特徴表現の深層学習

deep learning of segment-level feature representation for speech emotion recognition in conversations ( http://arxiv.org/abs/2302.02419v1 )

ライセンス: Link先を確認
Jiachen Luo, Huy Phan, Joshua Reiss(参考訳) 会話における感情の正確な検出は、対話における感情やダイナミクスの複雑さのために必要だが難しい課題である。 話者の感情状態は、インターロカタ刺激、対話シーン、話題など、様々な要因に影響される可能性がある。 本研究では,注意的文脈依存と話者に敏感な対話を取り扱う会話型音声感情認識手法を提案する。 まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。 第2に、注意的双方向ゲートリカレントユニット(gru)は、文脈に敏感な情報をモデル化し、ダイナミックな方法で話者内および話者間依存性を探索する。 標準会話データセットMELDで行った実験は,最先端の手法と比較して提案手法の有効性を示した。

Accurately detecting emotions in conversation is a necessary yet challenging task due to the complexity of emotions and dynamics in dialogues. The emotional state of a speaker can be influenced by many different factors, such as interlocutor stimulus, dialogue scene, and topic. In this work, we propose a conversational speech emotion recognition method to deal with capturing attentive contextual dependency and speaker-sensitive interactions. First, we use a pretrained VGGish model to extract segment-based audio representation in individual utterances. Second, an attentive bi-directional gated recurrent unit (GRU) models contextual-sensitive information and explores intra- and inter-speaker dependencies jointly in a dynamic manner. The experiments conducted on the standard conversational dataset MELD demonstrate the effectiveness of the proposed method when compared against state-of the-art methods.
翻訳日:2023-02-07 18:15:31 公開日:2023-02-05
# ヘイトスピーチ拡散をエスカレートするエコーチャンバーにハトモンガーが乗る

Hatemongers ride on echo chambers to escalate hate speech diffusion ( http://arxiv.org/abs/2302.02479v1 )

ライセンス: Link先を確認
Vasu Goel, Dhruv Sahnan, Subhabrata Dutta, Anil Bandhakavi, Tanmoy Chakraborty(参考訳) 近年、ネット上では憎悪的で虐待的なコンテンツが急増している。 ヘイトスピーチの検出とモデレーションは初期の対策であったが、この解決策にはヘイト生成と伝播のダイナミクスをより深く探究する必要がある。 我々は3つの人気オンラインソーシャルネットワークで680万以上のユーザーから3200万以上の投稿を分析し、憎悪な行動、情報拡散、エコーチャンバーを介する偏極化された組織間の相互関係を調査した。 ヘイトモンガーは、単独のヘイトフルコンテンツに比べて情報の拡散を管理する上で、より重要な役割を担っている。 この観察は、情報カスケードの成長と、憎しみのある俳優のコングロマリゼーションの両方に寄与する。 これらのネットワークの中核的な分布の分離は、憎悪に満ちたユーザーがソーシャルネットワークの中でよりよく接続された位置を獲得し、しばしば情報カスケードを構築するために集まっているという事実を指している。 これらのネットワークでは、ヘイトモンガーがエコーチャンバーを支配します -- ユーザのグループは、特定のイデオロギー的な立場に積極的に順応しています。 情報カスケードを膨らませる憎しみのあるユーザの優位性は、主にこれらのエコーチャンバー内で増幅されたユーザインタラクションを介して行われる。 本研究は, コンテンツに対する人気に基づく推薦が, エコー・チャンバー相互作用によってコンテンツ人気をエスカレートする可能性を考えると, ヘイトモンガーによって悪用されるおそれがある。

Recent years have witnessed a swelling rise of hateful and abusive content over online social networks. While detection and moderation of hate speech have been the early go-to countermeasures, the solution requires a deeper exploration of the dynamics of hate generation and propagation. We analyze more than 32 million posts from over 6.8 million users across three popular online social networks to investigate the interrelations between hateful behavior, information dissemination, and polarised organization mediated by echo chambers. We find that hatemongers play a more crucial role in governing the spread of information compared to singled-out hateful content. This observation holds for both the growth of information cascades as well as the conglomeration of hateful actors. Dissection of the core-wise distribution of these networks points towards the fact that hateful users acquire a more well-connected position in the social network and often flock together to build up information cascades. We observe that this cohesion is far from mere organized behavior; instead, in these networks, hatemongers dominate the echo chambers -- groups of users actively align themselves to specific ideological positions. The observed dominance of hateful users to inflate information cascades is primarily via user interactions amplified within these echo chambers. We conclude our study with a cautionary note that popularity-based recommendation of content is susceptible to be exploited by hatemongers given their potential to escalate content popularity via echo-chambered interactions.
翻訳日:2023-02-07 18:09:23 公開日:2023-02-05
# パーキンソン病治療のための閉ループ深部脳刺激制御器のオフライン学習

Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease Treatment ( http://arxiv.org/abs/2302.02477v1 )

ライセンス: Link先を確認
Qitong Gao, Stephen L. Schimdt, Afsana Chowdhury, Guangyu Feng, Jennifer J. Peters, Katherine Genty, Warren M. Grill, Dennis A. Turner, Miroslav Pajic(参考訳) 深部脳刺激(DBS)は、パーキンソン病(PD)による運動障害の治療において、脳の基底ガングリア(BG)領域に電気的パルスを伝達することで大きな期待を示している。 しかし、米国食品医薬品局(fda)が承認したdbsデバイスは、連続的なdbs(cdbs)刺激を一定の振幅でのみ供給することができ、このエネルギーの非効率な操作はデバイスのバッテリ寿命を減少させ、活動に動的に対応できず、重大な副作用(例えば歩行障害)を引き起こす可能性がある。 本研究では,従来の臨床データを用いてリアルタイムにRLポリシーをトレーニングし,エネルギー使用量を削減し,cDBSと同じレベルの治療効果(すなわちコントロール)を維持しながら,刺激振幅をリアルタイムで調整するオフライン強化学習(RL)フレームワークを提案する。 さらに、臨床プロトコルでは、患者のデプロイ前に、そのようなRLコントローラの安全性と性能を実証する必要がある。 また,患者に展開する前に,過去のデータを用いてRLポリシーの性能を推定するオフラインポリシー評価(OPE)手法も導入する。 本研究は,rc+s dbsシステムを搭載した4名のpd患者を対象に, 月々臨床訪問時にrlコントローラを用い, 症状の重症度(ブラジキネジア, 震え), pdバイオメーカの変化(局所的フィールド電位), 患者格付けによる総合的コントロールの有効性を評価した。 臨床実験の結果,RLをベースとした制御器は,cDBSと同等の制御能を有するが,刺激エネルギーは著しく低下することがわかった。 さらに、rlコントローラの期待値を正確に推定し、ランク付けするのに、ope法が有効であることを示す。

Deep brain stimulation (DBS) has shown great promise toward treating motor symptoms caused by Parkinson's disease (PD), by delivering electrical pulses to the Basal Ganglia (BG) region of the brain. However, DBS devices approved by the U.S. Food and Drug Administration (FDA) can only deliver continuous DBS (cDBS) stimuli at a fixed amplitude; this energy inefficient operation reduces battery lifetime of the device, cannot adapt treatment dynamically for activity, and may cause significant side-effects (e.g., gait impairment). In this work, we introduce an offline reinforcement learning (RL) framework, allowing the use of past clinical data to train an RL policy to adjust the stimulation amplitude in real time, with the goal of reducing energy use while maintaining the same level of treatment (i.e., control) efficacy as cDBS. Moreover, clinical protocols require the safety and performance of such RL controllers to be demonstrated ahead of deployments in patients. Thus, we also introduce an offline policy evaluation (OPE) method to estimate the performance of RL policies using historical data, before deploying them on patients. We evaluated our framework on four PD patients equipped with the RC+S DBS system, employing the RL controllers during monthly clinical visits, with the overall control efficacy evaluated by severity of symptoms (i.e., bradykinesia and tremor), changes in PD biomakers (i.e., local field potentials), and patient ratings. The results from clinical experiments show that our RL-based controller maintains the same level of control efficacy as cDBS, but with significantly reduced stimulation energy. Further, the OPE method is shown effective in accurately estimating and ranking the expected returns of RL controllers.
翻訳日:2023-02-07 18:08:56 公開日:2023-02-05
# 独立源と厳密な局所性制約を持つ実験的フルネットワーク非局所性

Experimental full network nonlocality with independent sources and strict locality constraints ( http://arxiv.org/abs/2302.02472v1 )

ライセンス: Link先を確認
Xue-Mei Gu, Liang Huang, Alejandro Pozas-Kerstjens, Yang-Fan Jiang, Dian Wu, Bing Bai, Qi-Chao Sun, Ming-Cheng Chen, Jun Zhang, Sixia Yu, Qiang Zhang, Chao-Yang Lu, Jian-Wei Pan(参考訳) いくつかの独立した情報源からなるネットワークで生じる非局所性は、標準的なベルのシナリオとは大きく異なる現象を引き起こす。 近年,エンタングルメントスワッピングシナリオにおけるネットワーク非局所性現象が十分に研究され,実証されている。 しかし, 従来の実証実験では, いわゆる「双局所性不平等」の違反は, 情報源の非古典性を証明できないことが知られている。 これにより、完全ネットワーク非局所性と呼ばれるネットワークにおける非局所性に関するより強力な概念が提唱された。 そこで本研究では, ソース・インデペンデンス, 局所性, 測定・インデペンデンス・ホールが閉ざされたネットワーク内の完全ネットワーク非局所相関を実験的に観察する。 これは、2つの独立したソース、迅速な設定生成、関連するイベントの空間的な分離によって保証される。 本実験は,非フルネットワーク非局所相関を5以上の標準偏差で特徴づける既知の不等式に違反し,その実現における古典的情報源の欠如を確認した。

Nonlocality arising in networks composed of several independent sources gives rise to phenomena radically different from that in standard Bell scenarios. Over the years, the phenomenon of network nonlocality in the entanglement-swapping scenario has been well investigated and demonstrated. However, it is known that violations of the so-called bilocality inequality used in previous experimental demonstrations cannot be used to certify the non-classicality of their sources. This has put forward a stronger concept for nonlocality in networks, called full network nonlocality. Here, we experimentally observe full network nonlocal correlations in a network where the source-independence, locality, and measurement-independence loopholes are closed. This is ensured by employing two independent sources, rapid setting generation, and space-like separations of relevant events. Our experiment violates known inequalities characterizing non-full network nonlocal correlations by over five standard deviations, certifying the absence of classical sources in the realization.
翻訳日:2023-02-07 18:08:20 公開日:2023-02-05
# テキスト生成における国籍バイアス

Nationality Bias in Text Generation ( http://arxiv.org/abs/2302.02463v1 )

ライセンス: Link先を確認
Pranav Narayanan Venkit, Sanjana Gautam, Ruchi Panchanadikar, Ting-Hao (Kenneth) Huang, Shomir Wilson(参考訳) 言語モデルにおける国籍バイアスの分析には,特に社会的NLPモデルの性能向上の要因として国籍が多用されている場合,ほとんど注目されない。 本稿では、テキスト生成モデルであるGPT-2が、国ベースのデジムに対する既存の社会的偏見をどのように強調するかを検討する。 我々はGPT-2を様々な国籍に利用し、感度分析を用いてインターネット利用者数と国内経済状況が物語の感情に与える影響を調査する。 大規模言語モデル (LLM) によるバイアスの伝播を低減するため, 対向的トリガのデバイアス法について検討する。 以上の結果から,GPT-2はインターネット利用者が少ない国に対して大きな偏見を示し,敵対的トリガが効果的に減少することが示唆された。

Little attention is placed on analyzing nationality bias in language models, especially when nationality is highly used as a factor in increasing the performance of social NLP models. This paper examines how a text generation model, GPT-2, accentuates pre-existing societal biases about country-based demonyms. We generate stories using GPT-2 for various nationalities and use sensitivity analysis to explore how the number of internet users and the country's economic status impacts the sentiment of the stories. To reduce the propagation of biases through large language models (LLM), we explore the debiasing method of adversarial triggering. Our results show that GPT-2 demonstrates significant bias against countries with lower internet users, and adversarial triggering effectively reduces the same.
翻訳日:2023-02-07 18:08:02 公開日:2023-02-05
# 分布ドリフト下における非パラメトリック密度推定

Nonparametric Density Estimation under Distribution Drift ( http://arxiv.org/abs/2302.02460v1 )

ライセンス: Link先を確認
Alessio Mazzetto, Eli Upfal(参考訳) 非定常ドリフト設定における非パラメトリック密度推定について検討する。 時間的に徐々に変化する分布から取り出された独立したサンプルの列を考えると、目標は現在の分布の最適な推定値を計算することである。 離散的および連続的な滑らかな密度の両方に対して、最小はすべての可能な推定値、最大はドリフト制約を満たす全ての可能な分布に対して、厳密なミニマックスリスク境界を証明する。 本手法は幅広いドリフトモデルに対応し,ドリフト下の非依存学習に関するこれまでの結果を一般化する。

We study nonparametric density estimation in non-stationary drift settings. Given a sequence of independent samples taken from a distribution that gradually changes in time, the goal is to compute the best estimate for the current distribution. We prove tight minimax risk bounds for both discrete and continuous smooth densities, where the minimum is over all possible estimates and the maximum is over all possible distributions that satisfy the drift constraints. Our technique handles a broad class of drift models, and generalizes previous results on agnostic learning under drift.
翻訳日:2023-02-07 18:07:49 公開日:2023-02-05
# 超大規模表面コード計算のための高性能コンパイラ

A High Performance Compiler for Very Large Scale Surface Code Computations ( http://arxiv.org/abs/2302.02459v1 )

ライセンス: Link先を確認
George Watkins, Hoang Minh Nguyen, Varun Seshadri, Keelan Watkins, Steven Pearce, Hoi-Kwan Lau, and Alexandru Paler(参考訳) 我々は,超大規模量子誤り訂正のための最初の高性能コンパイラを提案する。格子演算に基づく任意の量子回路を表面コードに変換する。 本コンパイラは,格子手術命令の中間表現を中心に,プラグ可能なアーキテクチャによって実装されたエンドツーエンドの誤り訂正ワークフローを提供する。 さらに、コンパイラはカスタマイズ可能な回路レイアウトをサポートし、量子ベンチマークに使用でき、量子リソース推定器を含んでいる。 コンパイラは、物理デバイスのリアルタイム操作を目的とした速度でストリーミングパイプラインを使用して数百万のゲートを処理することができる。 128キュービット量子フーリエ変換(QFT)の高精度Clifford+T実装に対応して,8000万秒以内の論理曲面コード命令をコンパイルした。 私たちのコードは、 \url{https://github.com/latticesurgery-com}でオープンソースです。

We present the first high performance compiler for very large scale quantum error correction: it translates an arbitrary quantum circuit to surface code operations based on lattice surgery. Our compiler offers an end to end error correction workflow implemented by a pluggable architecture centered around an intermediate representation of lattice surgery instructions. Moreover, the compiler supports customizable circuit layouts, can be used for quantum benchmarking and includes a quantum resource estimator. The compiler can process millions of gates using a streaming pipeline at a speed geared towards real-time operation of a physical device. We compiled within seconds 80 million logical surface code instructions, corresponding to a high precision Clifford+T implementation of the 128-qubit Quantum Fourier Transform (QFT). Our code is open-sourced at \url{https://github.com/latticesurgery-com}.
翻訳日:2023-02-07 18:07:39 公開日:2023-02-05
# 局所構造における全対全結合の量子シミュレーションの精度

Precision of quantum simulation of all-to-all coupling in a local architecture ( http://arxiv.org/abs/2302.02458v1 )

ライセンス: Link先を確認
Evgeny Mozgunov(参考訳) 本稿では,摂動ガジェットによる全対一のインタラクションを実現する,シンプルな2次元ローカル回路を提案する。 所望の相互作用の値である$J_{ij}$と2d回路のパラメータと、量子スペクトルにおける誤差の式との間には、解析的関係がある。 相対誤差が定数$\epsilon$であるためには、量子ビット数で$n^6$、または同等に$n^{-6}$までの制御精度で成長するエネルギースケールが必要である。 我々の証明はシュリーファー・ヴォルフ変換に基づいており、任意のハードウェアに一般化する。 今日利用可能なアーキテクチャでは、制御精度が$n=40,~ \epsilon =0.1$で十分である。 準磁性木, 強磁性鎖を微小埋め込みに用いる場合と比較すると, 鎖長が約3ドル(約390円) で, 鎖長が指数関数的に低下するのに対して, 構成経験は多項式しか減少しないことがわかった。

We present a simple 2d local circuit that implements all-to-all interactions via perturbative gadgets. We find an analytic relation between the values $J_{ij}$ of the desired interaction and the parameters of the 2d circuit, as well as the expression for the error in the quantum spectrum. For the relative error to be a constant $\epsilon$, one requires an energy scale growing as $n^6$ in the number of qubits, or equivalently a control precision up to $ n^{-6}$. Our proof is based on the Schrieffer-Wolff transformation and generalizes to any hardware. In the architectures available today, $5$ digits of control precision are sufficient for $n=40,~ \epsilon =0.1$. Comparing our construction, known as paramagnetic trees, to ferromagnetic chains used in minor embedding, we find that at chain length $>3$ the performance of minor embedding degrades exponentially with the length of the chain, while our construction experiences only a polynomial decrease.
翻訳日:2023-02-07 18:07:30 公開日:2023-02-05
# 早期肺癌検出のためのディープラーニングアプローチ

Deep Learning Approach for Early Stage Lung Cancer Detection ( http://arxiv.org/abs/2302.02456v1 )

ライセンス: Link先を確認
Saleh Abunajm, Nelly Elsayed, Zag ElSayed, Murat Ozer(参考訳) 肺がんは、様々な種類のがんの死因の主要な原因である。 毎年、肺がんによって失われた命は、膵臓癌、乳がん、前立腺癌に失われたものを超える。 肺癌患者の生存率は遅発診断による他のがん患者と比較して非常に低い。 したがって、早期肺癌の診断は、早期治療を受け、生存率を高めたり、がんのない状態になるためにも不可欠である。 本稿では,ctスキャンによる早期肺癌の予測と診断のためのディープラーニングモデルを提案する。 提案方式は高精度である。 加えて、肺がんの予測と検出における放射線科医の意思決定を支援する有用なツールである。

Lung cancer is the leading cause of death among different types of cancers. Every year, the lives lost due to lung cancer exceed those lost to pancreatic, breast, and prostate cancer combined. The survival rate for lung cancer patients is very low compared to other cancer patients due to late diagnostics. Thus, early lung cancer diagnostics is crucial for patients to receive early treatments, increasing the survival rate or even becoming cancer-free. This paper proposed a deep-learning model for early lung cancer prediction and diagnosis from Computed Tomography (CT) scans. The proposed mode achieves high accuracy. In addition, it can be a beneficial tool to support radiologists' decisions in predicting and detecting lung cancer and its stage.
翻訳日:2023-02-07 18:07:13 公開日:2023-02-05
# ODEWS: オーバードラフト早期警告システム

ODEWS: The Overdraft Early Warning System ( http://arxiv.org/abs/2302.02455v1 )

ライセンス: Link先を確認
Avishek Kumar, Ivelin Georgiev Angelov, Kymm Kause, Tyson Silver(参考訳) 顧客がアカウントをオーバーロードし、残高が負の場合には、オーバードラフト手数料が評価される。 アメリカ人は年間約$150b(約150億ドル)、しばしば$35インクリメントで、mint personal financeアプリのユーザーは年間$250m(約2億5000万ドル)の手数料を支払っている。 これらのオーバードラフト手数料は過剰な財政負担であり、顧客を金融難に陥れさせてしまう。 この問題に対処するため、我々は、mintアプリ内の銀行およびトランザクションデータを使用して、来週のオーバードラフトのリスクを評価するml駆動の早期警告システム(odews)を作成しました。 リスクの高い顧客は、料金を回避するための措置を取るように警告を受け、最終的に行動や金融習慣を変える。 このシステムはMintの顧客に対して、コントロールグループに比べて300万ドルを節約した。 さらに、ここで概説されている方法論は、多くの個人的金融目標に対してml駆動の個人的金融アドバイスを提供するように一般化することができる。

When a customer overdraws their account and their balance is negative they are assessed an overdraft fee. Americans pay approximately \$15 billion in unnecessary overdraft fees a year, often in \$35 increments; users of the Mint personal finance app pay approximately \$250 million in fees a year in particular. These overdraft fees are an excessive financial burden and lead to cascading overdraft fees trapping customers in financial hardship. To address this problem, we have created an ML-driven overdraft early warning system (ODEWS) that assesses a customer's risk of overdrafting within the next week using their banking and transaction data in the Mint app. At-risk customers are sent an alert so they can take steps to avoid the fee, ultimately changing their behavior and financial habits. The system deployed resulted in a \$3 million savings in overdraft fees for Mint customers compared to a control group. Moreover, the methodology outlined here can be generalized to provide ML-driven personalized financial advice for many different personal finance goals--increase credit score, build emergency savings fund, pay down debut, allocate capital for investment.
翻訳日:2023-02-07 18:07:04 公開日:2023-02-05
# 量子位相推定のための低深さアルゴリズムについて

On low-depth algorithms for quantum phase estimation ( http://arxiv.org/abs/2302.02454v1 )

ライセンス: Link先を確認
Hongkang Ni, Haoya Li, Lexing Ying(参考訳) 量子位相推定は量子コンピューティングの重要な構成要素の一つである。 早期のフォールトトレラント量子デバイスにおいては、(1)最小数のアンシラ量子ビットを使用する量子位相推定アルゴリズムが望ましい。(2)重要なミスマッチを伴う初期状態が不有効であること、(3)使用する全リソースに対するハイゼンベルグ限界を達成すること、(4)初期状態とターゲット状態との重なり合いが1に近づくと、最大回路長の減少プレファクタを有すること。 本稿では,量子力学からの既存のアルゴリズムが最初の3つの要件を達成できることを示す。 第2の貢献として,第4の要件を満たすアルゴリズムの修正版を提案する。

Quantum phase estimation is one of the key building blocks of quantum computing. For early fault-tolerant quantum devices, it is desirable for a quantum phase estimation algorithm to (1) use a minimal number of ancilla qubits, (2) allow for inexact initial states with a significant mismatch, (3) achieve the Heisenberg limit for the total resource used, and (4) have a diminishing prefactor for the maximum circuit length when the overlap between the initial state and the target state approaches one. In this paper, we prove that an existing algorithm from quantum metrology can achieve the first three requirements. As a second contribution, we propose a modified version of the algorithm that also meets the fourth requirement, which makes it particularly attractive for early fault-tolerant quantum devices.
翻訳日:2023-02-07 18:06:44 公開日:2023-02-05
# グラフニューラルネットワークと強化学習を用いた断続スワップ追従型ブロッキングジョブショップ問題の分散ルールの生成

Generating Dispatching Rules for the Interrupting Swap-Allowed Blocking Job Shop Problem Using Graph Neural Network and Reinforcement Learning ( http://arxiv.org/abs/2302.02506v1 )

ライセンス: Link先を確認
Vivian W.H. Wong, Sang Hun Kim, Junyoung Park, Jinkyoo Park, Kincho H. Law(参考訳) 中断型スワップ可能ブロッキングジョブショップ問題(isbjssp)は、多くの製造計画やロジスティクスアプリケーションを、ストレージ容量の欠如と予期せぬ生産中断の両方に対処してリアルにモデル化できる複雑なスケジューリング問題である。 機械の故障やメンテナンスによる乱雑な破壊を受け、産業生産設定では、問題状態が動的に変化するたびに新しい構成にコストがかかる従来の方法よりも、適応的でリアルタイムな再スケジューリングを可能にするディスパッチルールを採用することを選択することが多い。 ISBJSSP問題に対するディスパッチルールを生成するために,グラフニューラルネットワークと強化学習を用いた手法を提案する。 ISBJSSPはマルコフ決定プロセスとして定式化されている。 近似ポリシー最適化を用いて、ランダムに生成されたインスタンスから最適なスケジューリングポリシーを学習する。 本報告では,isbjsspインスタンスについて,マシンシャットダウン確率範囲の詳細な実験を行い,生成したスケジューリングポリシーが既定のディスパッチルールよりも優れているか,あるいは少なくとも既定の優先度で競合可能であることを示す。 本研究は,実時間適応型ソリューションを必要とするisbjsspが,ランダムマシン停止時に生産中断が発生した場合に,提案手法を用いて効率的にスケジュールできることを示す。

The interrupting swap-allowed blocking job shop problem (ISBJSSP) is a complex scheduling problem that is able to model many manufacturing planning and logistics applications realistically by addressing both the lack of storage capacity and unforeseen production interruptions. Subjected to random disruptions due to machine malfunction or maintenance, industry production settings often choose to adopt dispatching rules to enable adaptive, real-time re-scheduling, rather than traditional methods that require costly re-computation on the new configuration every time the problem condition changes dynamically. To generate dispatching rules for the ISBJSSP problem, a method that uses graph neural networks and reinforcement learning is proposed. ISBJSSP is formulated as a Markov decision process. Using proximal policy optimization, an optimal scheduling policy is learnt from randomly generated instances. Employing a set of reported benchmark instances, we conduct a detailed experimental study on ISBJSSP instances with a range of machine shutdown probabilities to show that the scheduling policies generated can outperform or are at least as competitive as existing dispatching rules with predetermined priority. This study shows that the ISBJSSP, which requires real-time adaptive solutions, can be scheduled efficiently with the proposed machine learning method when production interruptions occur with random machine shutdowns.
翻訳日:2023-02-07 18:00:14 公開日:2023-02-05
# 運動補償MRCINEイメージングのための再構成駆動運動推定

Reconstruction-driven motion estimation for motion-compensated MR CINE imaging ( http://arxiv.org/abs/2302.02504v1 )

ライセンス: Link先を確認
Jiazhen Pan, Wenqi Huang, Daniel Rueckert, Thomas K\"ustner, Kerstin Hammernik(参考訳) CINEでは、運動補償MR再構成(MCMR)は、フレーム間の運動情報を組み込むことによって、高度にアンサンプされた取得に対処するための効果的なアプローチである。 本研究では,mcmr問題を効率的に解決するための深層学習に基づくフレームワークを提案する。 動作推定と再構成という2つのサブ最適化問題に分割するsota (state-of-the-art) mcmr法とは対照的に、この問題を単一最適化による単一実体として定式化する。 標準のモーションウォーピング損失(モーションウォーピング画像とターゲット画像の類似度測定)を捨てて、動作を推定するが、最終的な再構築性能により、動作推定プロセスを直接駆動する。 滑らかな損失項を使わず、かつ、動き推定と復元の反復処理を行わずに高い復元品質が得られる。 したがって,損失重み付け要因の調整と時間消費の反復処理は避ける。 社内で43件の2D CINEデータセットを用いた実験から,提案したMCMRフレームワークは,20倍までの画像加速度であっても,人工物のない動き推定と高品質なMR画像を提供できることが示された。 提案手法はSOTA非MCMR法およびMCMR法と比較され, 加速度速度の異なる全ての実験において, これらの手法を質的, 定量的に比較した。

In cardiac CINE, motion-compensated MR reconstruction (MCMR) is an effective approach to address highly undersampled acquisitions by incorporating motion information between frames. In this work, we propose a deep learning-based framework to address the MCMR problem efficiently. Contrary to state-of-the-art (SOTA) MCMR methods which break the original problem into two sub-optimization problems, i.e. motion estimation and reconstruction, we formulate this problem as a single entity with one single optimization. We discard the canonical motion-warping loss (similarity measurement between motion-warped images and target images) to estimate the motion, but drive the motion estimation process directly by the final reconstruction performance. The higher reconstruction quality is achieved without using any smoothness loss terms and without iterative processing between motion estimation and reconstruction. Therefore, we avoid non-trivial loss weighting factors tuning and time-consuming iterative processing. Experiments on 43 in-house acquired 2D CINE datasets indicate that the proposed MCMR framework can deliver artifact-free motion estimation and high-quality MR images even for imaging accelerations up to 20x. The proposed framework is compared to SOTA non-MCMR and MCMR methods and outperforms these methods qualitatively and quantitatively in all applied metrics across all experiments with different acceleration rates.
翻訳日:2023-02-07 17:59:49 公開日:2023-02-05
# Imaginationに現実性を残す - 生成データセットによるロバスト分類

Leaving Reality to Imagination: Robust Classification via Generated Datasets ( http://arxiv.org/abs/2302.02503v1 )

ライセンス: Link先を確認
Hritik Bansal, Aditya Grover(参考訳) 近年のロバスト性に関する研究では、テストセットに類似したデータセットでトレーニングされたニューラルイメージ分類器と、トレーニング中に観察されたオブジェクトカテゴリのスケッチ、絵画、アニメーションなど、自然にシフトしたディストリビューションによるパフォーマンスギャップが明らかにされている。 以前の研究は、トレーニングデータのエンジニアリング強化や、インターネットから取り除かれた大規模なトレーニングデータセット上の単一の大規模モデルの教師なし事前トレーニングによって、このギャップを減らすことに重点を置いていた。 しかし、データセットの概念は近年、パラダイムシフトも進行中である。 品質、使いやすさ、モダンな生成モデルへのアクセスの大幅な改善により、生成されたデータはWebに浸透しています。 これらの生成されたデータセットは、画像分類器の自然なロバスト性にどのように影響するか? 生成データに拡張された実データに基づいてトレーニングされたimagenet分類器は,自然分布シフトの存在下で,標準的なトレーニングや一般的な拡張戦略よりも高い精度と効果的なロバスト性を実現する。 コンディショニング戦略の選択や生成データの量など,これらの結果に影響を与えるさまざまな要因を分析した。 最後に、進化している生成データセットであるImageNet-G-v1を導入、分析し、堅牢で信頼性の高い機械学習のためのスタンドアロン生成データセットの設計、ユーティリティ、批評をより良くベンチマークする。 コードとデータセットはhttps://github.com/hritikbansal/generative-robustnessで入手できる。

Recent research on robustness has revealed significant performance gaps between neural image classifiers trained on datasets that are similar to the test set, and those that are from a naturally shifted distribution, such as sketches, paintings, and animations of the object categories observed during training. Prior work focuses on reducing this gap by designing engineered augmentations of training data or through unsupervised pretraining of a single large model on massive in-the-wild training datasets scraped from the Internet. However, the notion of a dataset is also undergoing a paradigm shift in recent years. With drastic improvements in the quality, ease-of-use, and access to modern generative models, generated data is pervading the web. In this light, we study the question: How do these generated datasets influence the natural robustness of image classifiers? We find that Imagenet classifiers trained on real data augmented with generated data achieve higher accuracy and effective robustness than standard training and popular augmentation strategies in the presence of natural distribution shifts. We analyze various factors influencing these results, including the choice of conditioning strategies and the amount of generated data. Lastly, we introduce and analyze an evolving generated dataset, ImageNet-G-v1, to better benchmark the design, utility, and critique of standalone generated datasets for robust and trustworthy machine learning. The code and datasets are available at https://github.com/Hritikbansal/generative-robustness.
翻訳日:2023-02-07 17:59:25 公開日:2023-02-05
# 対向的ロバスト性におけるコントラスト表現学習の役割--実証的研究

On the Role of Contrastive Representation Learning in Adversarial Robustness: An Empirical Study ( http://arxiv.org/abs/2302.02502v1 )

ライセンス: Link先を確認
Fatemeh Ghofrani, Mehdi Yaghouti, Pooyan Jamshidi(参考訳) 自己指導型コントラスト学習は、アノテーションコストを軽減し、ディープラーニングにおける重要な障害の1つを解決した。 この利点は、ラベル情報のない偽のネガティブペア選択の価格にある。 教師付きコントラスト学習は、この問題を取り除くためのコントラスト学習の拡張として登場した。 しかし、正確性以外には、これらの学習スキームによって学習された表現に対する敵の訓練の影響についての理解が欠如している。 本研究では,教師付き学習をベースラインとして活用し,異なる学習シナリオ下でのコントラスト学習と教師付きコントラスト学習の堅牢性を総合的に研究する。 次に、まず、モデル層間のより冗長な表現を発見することによって、学習した層内の表現に敵対的なトレーニングがどう影響するかを考察する。 CIFAR-10 と CIFAR-100 画像分類ベンチマークの結果、この冗長性は対照的な学習方式に適用することで著しく低減され、より堅牢な表現をもたらすことが示されている。 しかし,教師付きコントラスト学習や教師付き学習手法では,逆向きの微調整があまり有効ではない。 私たちのコードはhttps://github.com/softsys4ai/CL-Robustnessで公開されています。

Self-supervised contrastive learning has solved one of the significant obstacles in deep learning by alleviating the annotation cost. This advantage comes with the price of false negative-pair selection without any label information. Supervised contrastive learning has emerged as an extension of contrastive learning to eliminate this issue. However, aside from accuracy, there is a lack of understanding about the impacts of adversarial training on the representations learned by these learning schemes. In this work, we utilize supervised learning as a baseline to comprehensively study the robustness of contrastive and supervised contrastive learning under different adversarial training scenarios. Then, we begin by looking at how adversarial training affects the learned representations in hidden layers, discovering more redundant representations between layers of the model. Our results on CIFAR-10 and CIFAR-100 image classification benchmarks demonstrate that this redundancy is highly reduced by adversarial fine-tuning applied to the contrastive learning scheme, leading to more robust representations. However, adversarial fine-tuning is not very effective for supervised contrastive learning and supervised learning schemes. Our code is released at https://github.com/softsys4ai/CL-Robustness.
翻訳日:2023-02-07 17:59:01 公開日:2023-02-05
# Tempel: 動的に進化する新しいエンティティのリンク

TempEL: Linking Dynamically Evolving and Newly Emerging Entities ( http://arxiv.org/abs/2302.02500v1 )

ライセンス: Link先を確認
Klim Zaporojets, Lucie-Aimee Kaffee, Johannes Deleu, Thomas Demeester, Chris Develder, Isabelle Augenstein(参考訳) 私たちの絶え間なく進化する世界では、エンティティは時間とともに変化し、新しい、これまで存在しない、あるいは未知のエンティティが現れます。 本研究では,この進化シナリオが,十分に確立されたエンティティリンク(EL)タスクの性能に与える影響について検討する。 そこで本研究では,2013年から2022年までの経時的に階層化された英語ウィキペディアのスナップショットからなり,エンティティのアンカー参照と対象エンティティの記述の両方を収集するエンティティリンクデータセットであるtemperを紹介する。 このような時間的側面を捉えることで、新しいTempELリソースは、ターゲットの知識ベース(例えば、CoNLL-AIDAのWikipedia 2010)の1つの静的バージョンにリンクされた固定参照で構成された、既存のエンティティリンクデータセットと対比する。 実際、収集したそれぞれの時間的スナップショットに対して、tempelには、すべての年、すなわち、ある時点で初めて現れる完全に新しいエンティティと、連続的なエンティティへのリンクが含まれています。 これにより,現状のelモデルの性能を次のように定量化することができる。 (i)知識ベース記述及び言及の文脈において、経時的に変化の対象となる実体 (II)以前は存在していなかった新しい実体(例えば、ELモデルが訓練された当時)。 実験の結果, 時間的性能低下が確認された。 (i)連続体は最大3.1%el精度の低下に苦しむ一方で、 (ii) 新しいエンティティの場合、この精度は17.9%まで低下する。 これは、導入されたTempELデータセットの課題を強調し、時間進化するエンティティの曖昧さの領域で新しい研究の展望を開く。

In our continuously evolving world, entities change over time and new, previously non-existing or unknown, entities appear. We study how this evolutionary scenario impacts the performance on a well established entity linking (EL) task. For that study, we introduce TempEL, an entity linking dataset that consists of time-stratified English Wikipedia snapshots from 2013 to 2022, from which we collect both anchor mentions of entities, and these target entities' descriptions. By capturing such temporal aspects, our newly introduced TempEL resource contrasts with currently existing entity linking datasets, which are composed of fixed mentions linked to a single static version of a target Knowledge Base (e.g., Wikipedia 2010 for CoNLL-AIDA). Indeed, for each of our collected temporal snapshots, TempEL contains links to entities that are continual, i.e., occur in all of the years, as well as completely new entities that appear for the first time at some point. Thus, we enable to quantify the performance of current state-of-the-art EL models for: (i) entities that are subject to changes over time in their Knowledge Base descriptions as well as their mentions' contexts, and (ii) newly created entities that were previously non-existing (e.g., at the time the EL model was trained). Our experimental results show that in terms of temporal performance degradation, (i) continual entities suffer a decrease of up to 3.1% EL accuracy, while (ii) for new entities this accuracy drop is up to 17.9%. This highlights the challenge of the introduced TempEL dataset and opens new research prospects in the area of time-evolving entity disambiguation.
翻訳日:2023-02-07 17:58:43 公開日:2023-02-05
# 抑うつ検出のための筆跡と図面 : 予備研究

Handwriting and Drawing for Depression Detection: A Preliminary Study ( http://arxiv.org/abs/2302.02499v1 )

ライセンス: Link先を確認
Gennaro Raimo, Michele Buonanno, Massimiliano Conson, Gennaro Cordasco, Marcos Faundez-Zanuy, Stefano Marrone, Fiammetta Marulli, Alessandro Vinciarelli, and Anna Esposito(参考訳) パンデミックに関連する過去2年間の出来事は、精神保健の専門家が気分障害を診断するための新しいツールを見つけることがますます重要であることを示している。 長期的認知(例えば、集中の困難)と身体的影響(例えば、嗅覚の喪失)を除いて、精神健康に対する短期的な認知的影響は、不安と抑うつ症状の顕著な増加であった。 本研究の目的は,健常者とうつ病患者を判別するために,オンライン手書き図面解析という新しいツールを使用することである。 この目的のために, 臨床うつ病患者(n=14), 患者(医師ではなく検査により診断される) 抑うつ性形質(n=15), 健常者(n=20) を募集し, デジタル化タブレットと特殊な筆記装置を用いて4つのオンライン図面/手書き作業を行うように依頼した。 収集したオンラインデータから17種類の図面・書画特徴(5つのカテゴリに分類される)を抽出し,ANOVAを繰り返し測定した結果,参加者の3つのグループで比較した。 その結果, 時間特性は, 健常者と非臨床的抑うつ特性を有する被験者の識別に有効であることが示唆された。 一方, 臨床的うつ病患者と健常者との鑑別には, ダクトとプレッシャーの特徴がより効果的である。

The events of the past 2 years related to the pandemic have shown that it is increasingly important to find new tools to help mental health experts in diagnosing mood disorders. Leaving aside the longcovid cognitive (e.g., difficulty in concentration) and bodily (e.g., loss of smell) effects, the short-term covid effects on mental health were a significant increase in anxiety and depressive symptoms. The aim of this study is to use a new tool, the online handwriting and drawing analysis, to discriminate between healthy individuals and depressed patients. To this aim, patients with clinical depression (n = 14), individuals with high sub-clinical (diagnosed by a test rather than a doctor) depressive traits (n = 15) and healthy individuals (n = 20) were recruited and asked to perform four online drawing /handwriting tasks using a digitizing tablet and a special writing device. From the raw collected online data, seventeen drawing/writing features (categorized into five categories) were extracted, and compared among the three groups of the involved participants, through ANOVA repeated measures analyses. Results shows that Time features are more effective in discriminating between healthy and participants with sub-clinical depressive characteristics. On the other hand, Ductus and Pressure features are more effective in discriminating between clinical depressed and healthy participants.
翻訳日:2023-02-07 17:58:17 公開日:2023-02-05
# サブガンマベクトルのノルム濃度による高次元位置推定

High-dimensional Location Estimation via Norm Concentration for Subgamma Vectors ( http://arxiv.org/abs/2302.02497v1 )

ライセンス: Link先を確認
Shivam Gupta, Jasper C.H. Lee, Eric Price(参考訳) 位置推定では、既知のディストリビューションの$f$から$n$のサンプルを、未知の翻訳である$\lambda$で取得し、可能な限り正確に$\lambda$を見積もります。 漸近的に、最大推定値は、誤差 $\mathcal N(0, \frac{1}{n\mathcal I})$ の Cram\'er-Rao 境界を達成し、$\mathcal I$ は$f$ のフィッシャー情報である。 しかし、収束に必要な$n$は$f$に依存し、任意に大きい可能性がある。 我々は、$\mathcal I_r$, the Fisher information of the $r$-smoothed distribution で有限$n$の誤差を束縛するために \emph{smoothed} 推定器を用いて理論を構築する。 n \to \infty$, $r \to 0$ は明示的なレートで成立し、これは cram\'er-rao 境界に収束する。 1) 1 次元 $f$ の先行作業を高い確率に加えて一定故障確率で収束させるように改善し,(2) 理論を高次元分布に拡張する。 この過程において、1次元の射影がサブガンマであり、独立した興味を持つ高次元確率変数のノルム上の新しい境界を証明する。

In location estimation, we are given $n$ samples from a known distribution $f$ shifted by an unknown translation $\lambda$, and want to estimate $\lambda$ as precisely as possible. Asymptotically, the maximum likelihood estimate achieves the Cram\'er-Rao bound of error $\mathcal N(0, \frac{1}{n\mathcal I})$, where $\mathcal I$ is the Fisher information of $f$. However, the $n$ required for convergence depends on $f$, and may be arbitrarily large. We build on the theory using \emph{smoothed} estimators to bound the error for finite $n$ in terms of $\mathcal I_r$, the Fisher information of the $r$-smoothed distribution. As $n \to \infty$, $r \to 0$ at an explicit rate and this converges to the Cram\'er-Rao bound. We (1) improve the prior work for 1-dimensional $f$ to converge for constant failure probability in addition to high probability, and (2) extend the theory to high-dimensional distributions. In the process, we prove a new bound on the norm of a high-dimensional random variable whose 1-dimensional projections are subgamma, which may be of independent interest.
翻訳日:2023-02-07 17:57:50 公開日:2023-02-05
# 画像分割作業のためのマルチタスク自己教師付き学習

Multi-Task Self-Supervised Learning for Image Segmentation Task ( http://arxiv.org/abs/2302.02483v1 )

ライセンス: Link先を確認
Lichun Gao, Chinmaya Khamesra, Uday Kumbhar, Ashay Aglawe(参考訳) AIとディープラーニングの方法論の進歩のおかげで、コンピュータビジョン技術は急速に改善されている。 ほとんどのコンピュータビジョンアプリケーションは、画像の理解と各セクションの分析を容易にするために、高度な画像分割を必要とする。 セマンティックセグメンテーションのためのディープラーニングネットワークのトレーニングには大量の注釈付きデータが必要であり、そのようなデータを生成するのに費用がかかり、労力がかかるため、実際には大きな課題となっている。 論文が提示する 1. 深度予測と表面正規化を用いたマルチタスク学習によるセマンティックセグメンテーション性能向上手法 . 2. マルチタスク学習に用いる異なる種類の重み付け技術(UW, Nash-MTL)の性能評価 NY2Dデータセットは性能評価に使用された。 評価の結果,Nash-MTL法は単一タスク学習(Semantic Segmentation)よりも優れていた。

Thanks to breakthroughs in AI and Deep learning methodology, Computer vision techniques are rapidly improving. Most computer vision applications require sophisticated image segmentation to comprehend what is image and to make an analysis of each section easier. Training deep learning networks for semantic segmentation required a large amount of annotated data, which presents a major challenge in practice as it is expensive and labor-intensive to produce such data. The paper presents 1. Self-supervised techniques to boost semantic segmentation performance using multi-task learning with Depth prediction and Surface Normalization . 2. Performance evaluation of the different types of weighing techniques (UW, Nash-MTL) used for Multi-task learning. NY2D dataset was used for performance evaluation. According to our evaluation, the Nash-MTL method outperforms single task learning(Semantic Segmentation).
翻訳日:2023-02-07 17:57:24 公開日:2023-02-05
# 局所零次法を用いたSNNのエネルギー効率向上

Energy Efficient Training of SNN using Local Zeroth Order Method ( http://arxiv.org/abs/2302.00910v2 )

ライセンス: Link先を確認
Bhaskar Mukhoty, Velibor Bojkovic, William de Vazelhes, Giulia De Masi, Huan Xiong, Bin Gu(参考訳) スパイクニューラルネットワークは、従来のANNに匹敵する精度で現実世界のタスクにおいて、低エネルギー要求のために人気が高まっている。 snnトレーニングアルゴリズムは、モデルパラメータに対するモデル損失を最小限に抑えるため、ヘビーサイド関数による勾配情報の損失と非微分可能性に直面する。 問題サーロゲート法は後方パスにおけるヘビーサイドの微分可能な近似を用い、前方パスはスパイキング関数としてヘビーサイドを用いる。 本稿では, ニューロンレベルでゼロオーダー法を用いて, この二分法を解き, 自動微分ツールで用いることを提案する。 その結果,提案手法と既存のサロゲート法と逆転法とを理論的に関連付けることができた。 提案手法は,GPU上でのSNNのエネルギー効率向上に自然に寄与する。 ニューロモルフィックデータセットを用いた実験の結果、このような実装では1%未満のニューロンが後方通行で活動する必要があり、結果として後方計算時間の100倍のスピードアップが得られた。 本手法は, 同様の効率を保ちながら, 最先端のエネルギー効率技術よりも優れた一般化を実現する。

Spiking neural networks are becoming increasingly popular for their low energy requirement in real-world tasks with accuracy comparable to the traditional ANNs. SNN training algorithms face the loss of gradient information and non-differentiability due to the Heaviside function in minimizing the model loss over model parameters. To circumvent the problem surrogate method uses a differentiable approximation of the Heaviside in the backward pass, while the forward pass uses the Heaviside as the spiking function. We propose to use the zeroth order technique at the neuron level to resolve this dichotomy and use it within the automatic differentiation tool. As a result, we establish a theoretical connection between the proposed local zeroth-order technique and the existing surrogate methods and vice-versa. The proposed method naturally lends itself to energy-efficient training of SNNs on GPUs. Experimental results with neuromorphic datasets show that such implementation requires less than 1 percent neurons to be active in the backward pass, resulting in a 100x speed-up in the backward computation time. Our method offers better generalization compared to the state-of-the-art energy-efficient technique while maintaining similar efficiency.
翻訳日:2023-02-07 12:58:05 公開日:2023-02-05
# 風力予測のための変動モード分解を用いた時間融合変圧器

Temporal fusion transformer using variational mode decomposition for wind power forecasting ( http://arxiv.org/abs/2302.01222v2 )

ライセンス: Link先を確認
Meiyu Jiang, Xuetao Jiang, and Qingguo Zhou(参考訳) 風力タービンの出力は、異なる高さでの風速、風向き、温度、タービン特性など、様々な要因に依存する。 特に風速と方向は複雑なサイクルを持ち、劇的に変動し、風力発電量に大きな不確実性をもたらす。 本研究では,次回の1h,3h,6hの風力予測に,変分モード分解(VMD)を用いて風力系列と時間融合変圧器(TFT)を分解する。 実験の結果、VMDは他の分解アルゴリズムより優れ、TFTモデルは他の分解モデルより優れていた。

The power output of a wind turbine depends on a variety of factors, including wind speed at different heights, wind direction, temperature and turbine properties. Wind speed and direction, in particular, have complex cycles and fluctuate dramatically, leading to large uncertainties in wind power output. This study uses variational mode decomposition (VMD) to decompose the wind power series and Temporal fusion transformer (TFT) to forecast wind power for the next 1h, 3h and 6h. The experimental results show that VMD outperforms other decomposition algorithms and the TFT model outperforms other decomposition models.
翻訳日:2023-02-07 12:47:50 公開日:2023-02-05
# Resilient Binary Neural Network

Resilient Binary Neural Network ( http://arxiv.org/abs/2302.00956v2 )

ライセンス: Link先を確認
Sheng Xu, Yanjing Li, Teli Ma, Mingbao Lin, Hao Dong, Baochang Zhang, Peng Gao, Jinhu Lv(参考訳) バイナリニューラルネットワーク(BNN)は、ストレージ負荷を低減し、推論時間を短縮する優れた能力によって、ますます人気が高まっている。 しかし,実数値ネットワークと比較して,トレーニング時の重み振動の頻度が高いため,性能が低下する傾向がみられた。 本稿では、高頻度発振を緩和し、BNNのトレーニングを改善するためにResilient Binary Neural Network(ReBNN)を提案する。 重みの振動は主に非パラメトリックなスケーリング係数に起因していることが明らかとなった。 この問題に対処するために,スケーリング係数のパラメータ化と重み付き再構成損失を導入し,適応的なトレーニング目標を構築することを提案する。 まず, 重み振動は復元損失に付随する平衡パラメータによって制御され, バック伝搬におけるパラメータ化の理論的基礎となることを示す。 そこで,本研究では,その最大大きさに基づいてバランスパラメータを算出し,弾力性のあるトレーニングプロセスで重み振動を効果的に軽減できるrebnnを学習する。 コンピュータビジョンのためのResNetやFaster-RCNN、自然言語処理のためのBERTなど、さまざまなネットワークモデルで大規模な実験が行われている。 その結果,先行技術に対するReBNNの圧倒的な性能が示された。 例えば、私たちのReBNNは、ImageNetデータセットのResNet-18バックボーンを使用して、66.9%のTop-1精度を実現しています。 私たちのコードはhttps://github.com/SteveTsui/ReBNN.comで公開されている。

Binary neural networks (BNNs) have received ever-increasing popularity for their great capability of reducing storage burden as well as quickening inference time. However, there is a severe performance drop compared with real-valued networks, due to its intrinsic frequent weight oscillation during training. In this paper, we introduce a Resilient Binary Neural Network (ReBNN) to mitigate the frequent oscillation for better BNNs' training. We identify that the weight oscillation mainly stems from the non-parametric scaling factor. To address this issue, we propose to parameterize the scaling factor and introduce a weighted reconstruction loss to build an adaptive training objective. For the first time, we show that the weight oscillation is controlled by the balanced parameter attached to the reconstruction loss, which provides a theoretical foundation to parameterize it in back propagation. Based on this, we learn our ReBNN by calculating the balanced parameter based on its maximum magnitude, which can effectively mitigate the weight oscillation with a resilient training process. Extensive experiments are conducted upon various network models, such as ResNet and Faster-RCNN for computer vision, as well as BERT for natural language processing. The results demonstrate the overwhelming performance of our ReBNN over prior arts. For example, our ReBNN achieves 66.9% Top-1 accuracy with ResNet-18 backbone on the ImageNet dataset, surpassing existing state-of-the-arts by a significant margin. Our code is open-sourced at https://github.com/SteveTsui/ReBNN.
翻訳日:2023-02-07 12:46:49 公開日:2023-02-05
# 効率的なグラフフィールド積分器がポイントクラウドと出会う

Efficient Graph Field Integrators Meet Point Clouds ( http://arxiv.org/abs/2302.00942v2 )

ライセンス: Link先を確認
Krzysztof Choromanski, Arijit Sehanobish, Han Lin, Yunfan Zhao, Eli Berger, Tetiana Parshakova, Alvin Pan, David Watkins, Tianyi Zhang, Valerii Likhosherstov, Somnath Basu Roy Chowdhury, Avinava Dubey, Deepali Jain, Tamas Sarlos, Snigdha Chaturvedi, Adrian Weller(参考訳) 点雲を符号化するグラフ上での効率的な場積分のためのアルゴリズムを2種類提案する。 第1のクラスであるSeparatorFactorization(SF)は、ポイントメッシュグラフの有界属を利用するが、第2のクラスであるRFDiffusion(RFD)は、ポイントクラウドの一般的なepsilon-nearest-neighborグラフ表現を使用する。 どちらも、効率的な統合に多大な影響を与えたFMM(Fast Multipole Methods)の機能を提供するが、非ユークリッド空間ではそうではない。 ポイント間の歩行長さの分布(例えば、最短経路距離)によって引き起こされるジオメトリに注目した。 アルゴリズムの広範な理論的解析を行い,副産物として構造グラフ理論の新たな結果を得た。 また,剛体および変形可能な物体の面補間(特にメッシュ力学モデリング),点雲のwasserstein距離計算,gromov-wasserstein変種など,徹底的な実験評価を行う。

We present two new classes of algorithms for efficient field integration on graphs encoding point clouds. The first class, SeparatorFactorization(SF), leverages the bounded genus of point cloud mesh graphs, while the second class, RFDiffusion(RFD), uses popular epsilon-nearest-neighbor graph representations for point clouds. Both can be viewed as providing the functionality of Fast Multipole Methods (FMMs), which have had a tremendous impact on efficient integration, but for non-Euclidean spaces. We focus on geometries induced by distributions of walk lengths between points (e.g., shortest-path distance). We provide an extensive theoretical analysis of our algorithms, obtaining new results in structural graph theory as a byproduct. We also perform exhaustive empirical evaluation, including on-surface interpolation for rigid and deformable objects (particularly for mesh-dynamics modeling), Wasserstein distance computations for point clouds, and the Gromov-Wasserstein variant.
翻訳日:2023-02-07 12:46:24 公開日:2023-02-05
# マルチモーダルリモートセンシング画像登録の進歩と課題

Advances and Challenges in Multimodal Remote Sensing Image Registration ( http://arxiv.org/abs/2302.00912v2 )

ライセンス: Link先を確認
Bai Zhu, Liang Zhou, Simiao Pu, Jianwei Fan, Yuanxin Ye(参考訳) 過去数十年間、グローバルな航空宇宙技術と空中リモートセンシング技術の急速な発展により、センサーの種類は従来のモノモーダルセンサー(光センサーなど)から、新しい世代のマルチモーダルセンサー(マルチスペクトル、ハイパースペクトル、光検出と測光(LiDAR)、合成開口レーダー(SAR)センサー)へと進化してきた。 これらの高度なデバイスは、様々な応用要件に応じて、空間、時間、スペクトルの解像度の異なる多様な多モードリモートセンシング画像を動的に提供することができる。 それ以来、マルチモーダルリモートセンシング画像登録の研究は科学的に非常に重要であり、これはマルチモーダルデータ間の補完情報を統合し、地球表面を包括的に観察・分析するための重要なステップである。 本稿では,マルチモーダル画像登録の分野への独自の貢献を述べるとともに,既存のマルチモーダル画像登録手法の利点と限界を要約し,残りの課題を議論し,今後の展開を展望する。

Over the past few decades, with the rapid development of global aerospace and aerial remote sensing technology, the types of sensors have evolved from the traditional monomodal sensors (e.g., optical sensors) to the new generation of multimodal sensors [e.g., multispectral, hyperspectral, light detection and ranging (LiDAR) and synthetic aperture radar (SAR) sensors]. These advanced devices can dynamically provide various and abundant multimodal remote sensing images with different spatial, temporal, and spectral resolutions according to different application requirements. Since then, it is of great scientific significance to carry out the research of multimodal remote sensing image registration, which is a crucial step for integrating the complementary information among multimodal data and making comprehensive observations and analysis of the Earths surface. In this work, we will present our own contributions to the field of multimodal image registration, summarize the advantages and limitations of existing multimodal image registration methods, and then discuss the remaining challenges and make a forward-looking prospect for the future development of the field.
翻訳日:2023-02-07 12:46:03 公開日:2023-02-05