このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230122となっている論文です。

PDF登録状況(公開日: 20230122)

TitleAuthorsAbstract論文公表日・翻訳日
# diffsds: 幾何学的条件と制約下でのタンパク質バックボーンインパインティングのための言語拡散モデル

DiffSDS: A language diffusion model for protein backbone inpainting under geometric conditions and constraints ( http://arxiv.org/abs/2301.09642v1 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Stan Z. Li(参考訳) SE(3)タンパク質構造モデリングの複雑さと計算コストに悩まされ、言語モデリングの単純さとパワーに驚いたことはありますか? 近年の研究では、タンパク質の構造をタンパク質の角度の配列として単純化することが期待されている。 残念なことに、そのような単純化は、構造的制約の計算コストを劇的に増大させるため、モデルがマスキングされた構造を復元する必要がある制約付きタンパク質塗布問題には適さない。 このジレンマを克服するために、言語モデル上に隠れた \textbf{a}tomic \textbf{d}irection \textbf{s}pace (\textbf{ADS}) を挿入し、不変なバックボーン角を等価な方向ベクトルに変換し、単純さを保つことを提案する。 幾何学的制約は新しく導入された方向空間に効率的に課すことができる。 数学的保証を持つ direct2seq decoder (\text{dec}_{d2s}$) もまた、 \textbf{sds} (\text{enc}_{s2d}$+$\text{dec}_{d2s}$) モデルを開発するために導入された。 本研究では,SDSモデルを条件拡散過程における認知ニューラルネットワークとして適用し,制約付き生成モデル--\textbf{DiffSDS} を導出する。 大規模な実験により、プラグアンドプレイのADSは、単純さを失うことなく、言語モデルを強力な構造モデルに変換することができた。 さらに重要なことは、提案されたDiffSDSは、タンパク質の塗布のタスクに大きなマージンで、以前の強いベースラインを上回ります。

Have you ever been troubled by the complexity and computational cost of SE(3) protein structure modeling and been amazed by the simplicity and power of language modeling? Recent work has shown promise in simplifying protein structures as sequences of protein angles; therefore, language models could be used for unconstrained protein backbone generation. Unfortunately, such simplification is unsuitable for the constrained protein inpainting problem, where the model needs to recover masked structures conditioned on unmasked ones, as it dramatically increases the computing cost of geometric constraints. To overcome this dilemma, we suggest inserting a hidden \textbf{a}tomic \textbf{d}irection \textbf{s}pace (\textbf{ADS}) upon the language model, converting invariant backbone angles into equivalent direction vectors and preserving the simplicity, called Seq2Direct encoder ($\text{Enc}_{s2d}$). Geometric constraints could be efficiently imposed on the newly introduced direction space. A Direct2Seq decoder ($\text{Dec}_{d2s}$) with mathematical guarantees is also introduced to develop a \textbf{SDS} ($\text{Enc}_{s2d}$+$\text{Dec}_{d2s}$) model. We apply the SDS model as the denoising neural network during the conditional diffusion process, resulting in a constrained generative model--\textbf{DiffSDS}. Extensive experiments show that the plug-and-play ADS could transform the language model into a strong structural model without loss of simplicity. More importantly, the proposed DiffSDS outperforms previous strong baselines by a large margin on the task of protein inpainting.
翻訳日:2023-01-25 15:05:38 公開日:2023-01-22
# 数学生のためのバックプロパゲーションアルゴリズム

The Backpropagation algorithm for a math student ( http://arxiv.org/abs/2301.09977v1 )

ライセンス: Link先を確認
Saeed Damadi, Golnaz Moharrer, Mostafa Cham(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は, ベクトル値関数の合成関数であり, DNNを訓練するためには, 全てのパラメータに対する損失関数の勾配を計算する必要がある。 この計算は、dnnの損失関数が複数の非線形関数の合成であり、それぞれに多数のパラメータを持つため、非自明なタスクである。 バックプロパゲーション(BP)アルゴリズムはDNNの合成構造を利用して勾配を効率的に計算する。 その結果、ネットワーク内のレイヤ数は計算の複雑さに大きく影響しない。 本稿では,ジャコビアン作用素を用いた行列乗法を用いて損失関数の勾配を表現することを目的とする。 これは各層のパラメータに対する全微分を考慮し、ジャコビアン行列として表現することで達成できる。 勾配はこれらのヤコビ行列の行列積として表すことができる。 このアプローチはベクトル値関数の合成に連鎖則を適用することができ、ヤコビ行列を用いることで複数の入力と出力を組み込むことができるので有効である。 簡潔な数学的正当化を提供することで、様々な分野から幅広い読者にその結果を理解し有用にすることができる。

A Deep Neural Network (DNN) is a composite function of vector-valued functions, and in order to train a DNN, it is necessary to calculate the gradient of the loss function with respect to all parameters. This calculation can be a non-trivial task because the loss function of a DNN is a composition of several nonlinear functions, each with numerous parameters. The Backpropagation (BP) algorithm leverages the composite structure of the DNN to efficiently compute the gradient. As a result, the number of layers in the network does not significantly impact the complexity of the calculation. The objective of this paper is to express the gradient of the loss function in terms of a matrix multiplication using the Jacobian operator. This can be achieved by considering the total derivative of each layer with respect to its parameters and expressing it as a Jacobian matrix. The gradient can then be represented as the matrix product of these Jacobian matrices. This approach is valid because the chain rule can be applied to a composition of vector-valued functions, and the use of Jacobian matrices allows for the incorporation of multiple inputs and outputs. By providing concise mathematical justifications, the results can be made understandable and useful to a broad audience from various disciplines.
翻訳日:2023-01-25 13:45:35 公開日:2023-01-22
# 負の放射圧を用いた標準量子限界を克服する重力波検出器のバックアクション回避測定

Back-Action Evading Measurement in Gravitational Wave Detectors to Overcome Standard Quantum Limit, Using Negative Radiation Pressure ( http://arxiv.org/abs/2301.09974v1 )

ライセンス: Link先を確認
Souvik Agasti, Abhishek Shukla, Milos Nesladek(参考訳) 本研究では,電界と端ミラーの間に負の放射圧結合を導入することにより,重力波検出器上での量子バックアクション回避測定を実現する手法を提案する。 このスキームは、エンドミラーをダブルフェイスのミラーに置き換え、その隣に別の光学キャビティを追加することで成り立っている。 両キャビティに2モード圧縮真空を送り、ヘテロダイン検出により出力を検出することで測定を行う。 従来提案されていたハイブリッド負質量スピン-オプトメカニクスシステムと比較すると,提案手法は低周波数領域における2桁以上のバックアクションノイズを抑制することができる。 全体として、セットアップは標準量子限界以下で出力ノイズを圧縮することができ、効率は向上した。 また, この手法は, 皮膚の熱騒音の低減にも有効であることが確認されている。 数値解析により結果を確認し,従来の提案と比較した。

We propose a novel scheme how to obtain quantum back action evading measurement on a gravitational wave detector, by introducing negative radiation pressure coupling between the field and the end mirror. The scheme consists of replacing the end mirror with a double-faced one and adding another optical cavity next to it. The measurement is performed by sending a two-mode squeezed vacuum to both cavities and detecting the output through heterodyne detection. Compared to the previously proposed hybrid negative mass spin-optomechanical system in \cite{study4roadmap}, we see that our scheme is capable to suppress back action noise by more than nearly two orders of magnitude in the lower frequency region. Overall, the setup has been able to squeeze the output noise below the standard quantum limit, with more efficiency. In addition, the scheme has also proven to be beneficial for reducing eh thermal noise by a significant amount. We confirm our result by a numerical analysis and compared with previous proposals.
翻訳日:2023-01-25 13:45:15 公開日:2023-01-22
# WSDM2023 Toloka VQA Challengeのチャンピオンソリューション

Champion Solution for the WSDM2023 Toloka VQA Challenge ( http://arxiv.org/abs/2301.09045v1 )

ライセンス: Link先を確認
Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu(参考訳) 本稿では,WSDM2023 Toloka Visual Question Answering (VQA) Challengeに対するチャンピオンソリューションを提案する。 一般的なVQAや視覚的グラウンド(VG)タスクとは異なり、この課題はより複雑なシナリオ、すなわち与えられた質問によって暗黙的に特定されたオブジェクトを推論し、位置付けすることを含む。 そこで本研究では,プレトレーニングフリーアダプタネットワークであるvit-adapterを用いて,マルチモーダルプリトレーニングuni-perceiverを適用し,クロスモーダルローカライズを改善する。 我々の手法は、それぞれ公開テストセットとプライベートテストセットで77.5 IoUと76.347 IoUを達成した。 また,ViT-Adapterは視覚言語下流タスクへの統合認識モデルの適用に有効なパラダイムであることを示す。 コードとモデルはhttps://github.com/czczup/ViT-Adapter/tree/main/wsdm2023でリリースされる。

In this report, we present our champion solution to the WSDM2023 Toloka Visual Question Answering (VQA) Challenge. Different from the common VQA and visual grounding (VG) tasks, this challenge involves a more complex scenario, i.e. inferring and locating the object implicitly specified by the given interrogative question. For this task, we leverage ViT-Adapter, a pre-training-free adapter network, to adapt multi-modal pre-trained Uni-Perceiver for better cross-modal localization. Our method ranks first on the leaderboard, achieving 77.5 and 76.347 IoU on public and private test sets, respectively. It shows that ViT-Adapter is also an effective paradigm for adapting the unified perception model to vision-language downstream tasks. Code and models will be released at https://github.com/czczup/ViT-Adapter/tree/main/wsdm2023.
翻訳日:2023-01-24 15:15:50 公開日:2023-01-22
# 定型予測器による拒絶学習:非文脈化への応用

Learning to Reject with a Fixed Predictor: Application to Decontextualization ( http://arxiv.org/abs/2301.09044v1 )

ライセンス: Link先を確認
Christopher Mohri, Daniel Andor, Eunsol Choi, Michael Collins(参考訳) 本研究は,自然言語処理に適用可能な定型予測器のリジェクトオプションによる分類問題について検討する。 このシナリオに新たな問題定式化を導入し,新しいサロゲート損失関数を最小化するアルゴリズムを提案する。 我々は、強い$h$-一貫性保証を持つサーロゲート損失関数の完全な理論的解析を提供する。 評価には、textit{decontextualization}タスクを選択し、手動で2,000ドルのサンプルのデータセットを提供する。 我々のアルゴリズムは、考慮されたベースラインを大幅に上回り、$\sim\! \! 25\%$ エラーレートを半分にした場合のカバレッジ改善は$\sim\! \! 3 % は理論上の限界から遠ざかっている。

We study the problem of classification with a reject option for a fixed predictor, applicable in natural language processing. \ignore{where many correct labels are often possible} We introduce a new problem formulation for this scenario, and an algorithm minimizing a new surrogate loss function. We provide a complete theoretical analysis of the surrogate loss function with a strong $H$-consistency guarantee. For evaluation, we choose the \textit{decontextualization} task, and provide a manually-labelled dataset of $2\mathord,000$ examples. Our algorithm significantly outperforms the baselines considered, with a $\sim\!\!25\%$ improvement in coverage when halving the error rate, which is only $\sim\!\! 3 \%$ away from the theoretical limit.
翻訳日:2023-01-24 15:15:33 公開日:2023-01-22
# 説明の形状:機械学習における規則に基づく説明のトポロジ的考察

The Shape of Explanations: A Topological Account of Rule-Based Explanations in Machine Learning ( http://arxiv.org/abs/2301.09042v1 )

ライセンス: Link先を確認
Brett Mullins(参考訳) ルールに基づく説明は、特徴空間の所定の点における機械学習分類器の振る舞いを説明する簡単な理由を提供する。 いくつかの最近の手法(Anchors, LOREなど)は、任意またはブラックボックス分類器のルールベースの説明を生成する。 しかし、これらの方法が一般的に機能する理由は何ですか? ルールに基づく説明手法のトポロジ的フレームワークを導入し、説明スキームに対する分類器の定義可能性の観点から説明可能性の評価を行う。 この枠組みを用いて、様々な説明スキームを考察し、ユーザがドメインについてどの程度知っているか、特徴空間上の確率測度に依存すると論じる。

Rule-based explanations provide simple reasons explaining the behavior of machine learning classifiers at given points in the feature space. Several recent methods (Anchors, LORE, etc.) purport to generate rule-based explanations for arbitrary or black-box classifiers. But what makes these methods work in general? We introduce a topological framework for rule-based explanation methods and provide a characterization of explainability in terms of the definability of a classifier relative to an explanation scheme. We employ this framework to consider various explanation schemes and argue that the preferred scheme depends on how much the user knows about the domain and the probability measure over the feature space.
翻訳日:2023-01-24 15:15:24 公開日:2023-01-22
# 3スピン系上のXYスピンモデルの高速前方断熱量子力学

Fast-forward adiabatic quantum dynamics of XY spin model on three spin system ( http://arxiv.org/abs/2301.09039v1 )

ライセンス: Link先を確認
Iwan Setiawan, Riska Ekawita, Ryan Sugihakim, and Bobby Eka Gunara(参考訳) 益田と中村の高速フォワード法を用いて,xyスピンモデルの断熱量子力学を加速する手法について検討した。 加速スキームは、原ハミルトンに駆動するハミルトニアンを付加し、それを大きな時間スケーリング係数と、短縮時間で断熱量子力学を実現する断熱パラメータで高速化することで構成される。 駆動ハミルトニアン候補を仮定して開始する加速断熱力学は、対方向交換相互作用と磁場からなる。 速度関数に乗じた駆動ハミルトニアン項と元のハミルトニアン項は、断熱状態の高速前方駆動を与える。 本手法をxyスピンモデルに適用し,カゴメ格子上の3つのスピン系を考察した。 このモデルでは, 近接する隣人と隣人のXY対交換相互作用を, 断熱運動を加速する駆動相互作用として, 元のハミルトニアンに加えるべきである。 ファストフォワードスキームにおけるこのペアワイズ駆動相互作用は、加速状態の完全忠実性を保証する。

We discussed a method to accelerate an adiabatic quantum dynamics of XY spin model by using the fast-forward method proposed by Masuda and Nakamura. The Accelerated scheme is constructed by adding the driving Hamiltonian to the original Hamiltonian and speeding it up with a large time-scaling factor and an adiabatic parameter that realizes adiabatic quantum dynamics in a shortened time. Accelerated adiabatic dynamics start by assuming the candidate of driving Hamiltonian consists of the pair-wise exchange interaction and magnetic field. The driving Hamiltonian terms multiplied by the velocity function together with the original Hamiltonian give fast-forward driving for adiabatic states. We apply our method to XY spin model by considering three spin systems on the Kagome lattice. In this model, we obtained the XY pair-wise exchange interaction of nearest neighbors and next-nearest neighbors should be added to the original Hamiltonian as a driving interaction to accelerate the adiabatic motion. This pair-wise driving interaction in the fast-forward scheme guarantees the complete fidelity of accelerated states.
翻訳日:2023-01-24 15:15:13 公開日:2023-01-22
# 学習構造因果モデルの逆(非)識別可能性

Counterfactual (Non-)identifiability of Learned Structural Causal Models ( http://arxiv.org/abs/2301.09031v1 )

ライセンス: Link先を確認
Arash Nasr-Esfahany, Emre Kiciman(参考訳) 近年の確率的生成モデルの発展は、深部構造因果モデル(dscm)として知られる深部条件生成モデルを用いて観測データセットから構造因果モデル(scm)を学習する動機付けとなっている。 もし成功すれば、DSCMは因果推定タスク、例えば、反事実クエリの応答に利用できる。 本研究では,観測データからの反実的推論の非正当性について,未観測の混在や既知の因果構造を仮定しても警告する。 単調生成機構と単一次元外因性変数の相反性を示す。 多次元外因性変数を持つ一般的な生成機構に対しては、パラメトリックな仮定の必要性を動機として、反ファクト的識別性に対する不可能な結果を提供する。 そこで本研究では,学習したDSCMの予測誤りを推定する手法を提案する。 この誤差の大きさは、DSCMが特定の問題設定における反実的推論の実行可能なアプローチであるかどうかを決定するための重要な指標となる。 評価において,本手法は先行作業から識別可能なSCMに対する無視可能な偽事実誤差を確認し,非識別可能な合成SCMに対する偽事実誤りに関する情報的エラー境界を提供する。

Recent advances in probabilistic generative modeling have motivated learning Structural Causal Models (SCM) from observational datasets using deep conditional generative models, also known as Deep Structural Causal Models (DSCM). If successful, DSCMs can be utilized for causal estimation tasks, e.g., for answering counterfactual queries. In this work, we warn practitioners about non-identifiability of counterfactual inference from observational data, even in the absence of unobserved confounding and assuming known causal structure. We prove counterfactual identifiability of monotonic generation mechanisms with single dimensional exogenous variables. For general generation mechanisms with multi-dimensional exogenous variables, we provide an impossibility result for counterfactual identifiability, motivating the need for parametric assumptions. As a practical approach, we propose a method for estimating worst-case errors of learned DSCMs' counterfactual predictions. The size of this error can be an essential metric for deciding whether or not DSCMs are a viable approach for counterfactual inference in a specific problem setting. In evaluation, our method confirms negligible counterfactual errors for an identifiable SCM from prior work, and also provides informative error bounds on counterfactual errors for a non-identifiable synthetic SCM.
翻訳日:2023-01-24 15:14:57 公開日:2023-01-22
# サイバー物理システムにおける状態監視と異常検出

Condition monitoring and anomaly detection in cyber-physical systems ( http://arxiv.org/abs/2301.09030v1 )

ライセンス: Link先を確認
William Marfo, Deepak K. Tosh, Shirley V. Moore(参考訳) 現代の工業環境は、各デバイスの状態を継続的に監視できるスマートマニュファクチャリングマシンを多数備えている。 このようなモニタリングは、将来の障害の可能性を識別し、コスト効率の良いメンテナンス計画を開発するのに役立つ。 しかし、収集した膨大な量のデータから、偽陽性や陰性が低い早期検出を行うのは大変な作業である。 これには、高優先度コンポーネントの条件監視の問題に対処するための総合的な機械学習フレームワークの開発と、障害コンポーネントの検出とローカライズが可能な異常検出のための効率的なテクニックの開発が必要となる。 本稿では,サイバー物理システムにおけるロバストでコスト効率のよい異常検出のための機械学習手法の比較分析を行う。 検出は広く研究されているが、異常の局在を分析する研究者はほとんどいない。 教師なし学習は教師なしアルゴリズムよりも優れていることを示す。 教師付きケースでは、ほぼ完全な98%の精度(特に木に基づくアルゴリズム)を達成する。 一方, 教師なし症例のベストケース精度は63%であり, 受信機操作特性曲線(AUC)下において, 同様の結果が得られた。

The modern industrial environment is equipping myriads of smart manufacturing machines where the state of each device can be monitored continuously. Such monitoring can help identify possible future failures and develop a cost-effective maintenance plan. However, it is a daunting task to perform early detection with low false positives and negatives from the huge volume of collected data. This requires developing a holistic machine learning framework to address the issues in condition monitoring of high-priority components and develop efficient techniques to detect anomalies that can detect and possibly localize the faulty components. This paper presents a comparative analysis of recent machine learning approaches for robust, cost-effective anomaly detection in cyber-physical systems. While detection has been extensively studied, very few researchers have analyzed the localization of the anomalies. We show that supervised learning outperforms unsupervised algorithms. For supervised cases, we achieve near-perfect accuracy of 98 percent (specifically for tree-based algorithms). In contrast, the best-case accuracy in the unsupervised cases was 63 percent :the area under the receiver operating characteristic curve (AUC) exhibits similar outcomes as an additional metric.
翻訳日:2023-01-24 15:14:30 公開日:2023-01-22
# 小条件集合をもつ因果グラフのキャラクタリゼーションと学習

Characterization and Learning of Causal Graphs with Small Conditioning Sets ( http://arxiv.org/abs/2301.09028v1 )

ライセンス: Link先を確認
Murat Kocaoglu(参考訳) 制約に基づく因果探索アルゴリズムは、データで観測された条件付き独立性を体系的にテストすることで因果グラフ構造の一部を学習する。 これらのアルゴリズム、例えばPCアルゴリズムとその変種は、パールによって提案されたいわゆる因果グラフの同値クラスのグラフィカルな特徴に依存している。 しかしながら、条件付き独立性テストは、特に条件付きセットが大きい場合には、急速に統計能力を失うため、制約に基づく因果発見アルゴリズムは、データが制限された場合に苦労する。 これに対処するために、条件付き独立性テストを用いることを提案し、条件付き集合のサイズは強固な因果関係の発見のためにいくつかの整数 $k$ で上限される。 因果グラフの同値クラスの既存のグラフィカルな特徴付けは、条件付き独立性ステートメントをすべて活用できない場合は適用できない。 2つの因果グラフが$k$-markov同値であるとは、条件付き集合のサイズが$k$で上限されている場合に同じ条件付き独立性制約を伴っているときである。 2つの因果グラフ間の$k$-Markov同値をグラフィカルに特徴付ける新しい表現を提案する。 本稿では,この等価クラスを学習するための$k$-PCアルゴリズムを提案する。 最後に, 合成および半合成実験を行い, $k$-pc アルゴリズムがベースラインpcアルゴリズムと比較して, 小規模サンプル法においてより強固な因果発見を可能にすることを示す。

Constraint-based causal discovery algorithms learn part of the causal graph structure by systematically testing conditional independences observed in the data. These algorithms, such as the PC algorithm and its variants, rely on graphical characterizations of the so-called equivalence class of causal graphs proposed by Pearl. However, constraint-based causal discovery algorithms struggle when data is limited since conditional independence tests quickly lose their statistical power, especially when the conditioning set is large. To address this, we propose using conditional independence tests where the size of the conditioning set is upper bounded by some integer $k$ for robust causal discovery. The existing graphical characterizations of the equivalence classes of causal graphs are not applicable when we cannot leverage all the conditional independence statements. We first define the notion of $k$-Markov equivalence: Two causal graphs are $k$-Markov equivalent if they entail the same conditional independence constraints where the conditioning set size is upper bounded by $k$. We propose a novel representation that allows us to graphically characterize $k$-Markov equivalence between two causal graphs. We propose a sound constraint-based algorithm called the $k$-PC algorithm for learning this equivalence class. Finally, we conduct synthetic, and semi-synthetic experiments to demonstrate that the $k$-PC algorithm enables more robust causal discovery in the small sample regime compared to the baseline PC algorithm.
翻訳日:2023-01-24 15:14:14 公開日:2023-01-22
# セルラーネットワーク音声強調:背景と伝送雑音の除去

Cellular Network Speech Enhancement: Removing Background and Transmission Noise ( http://arxiv.org/abs/2301.09027v1 )

ライセンス: Link先を確認
Amanda Shu, Hamza Khalid, Haohui Liu, Shikhar Agnihotri, Joseph Konan, Ojas Bhargave(参考訳) 音声強調の主な目的は、ターゲットの音声を維持しながら背景雑音を低減することである。 共通のジレンマは、話者が雑音の多い環境に閉じ込められ、高いバックグラウンドと送信ノイズの呼び出しを受けるときに発生する。 この問題に対処するため、deep noise reduction(dns)チャレンジでは、ターゲットの音声を強化するために、次世代のディープラーニングモデルによるバックグラウンドノイズの除去に重点を置いているが、voip(voice over ip)の応用は検討されていない。 Google Meetとそのセルラーアプリケーションに焦点を当てて、VoIP DNS ChallengeのGoogle Meet To Phone Trackにおける最先端のパフォーマンスを実現しました。 本稿では, 産業性能に勝って1.92 PESQ と 0.88 STOI を達成する方法と, 音響的忠実度, 知覚的品質, インテリジェンス性について述べる。

The primary objective of speech enhancement is to reduce background noise while preserving the target's speech. A common dilemma occurs when a speaker is confined to a noisy environment and receives a call with high background and transmission noise. To address this problem, the Deep Noise Suppression (DNS) Challenge focuses on removing the background noise with the next-generation deep learning models to enhance the target's speech; however, researchers fail to consider Voice Over IP (VoIP) applications their transmission noise. Focusing on Google Meet and its cellular application, our work achieves state-of-the-art performance on the Google Meet To Phone Track of the VoIP DNS Challenge. This paper demonstrates how to beat industrial performance and achieve 1.92 PESQ and 0.88 STOI, as well as superior acoustic fidelity, perceptual quality, and intelligibility in various metrics.
翻訳日:2023-01-24 15:13:49 公開日:2023-01-22
# クロスモーダル3次元物体検出のための双方向伝搬

Bidirectional Propagation for Cross-Modal 3D Object Detection ( http://arxiv.org/abs/2301.09077v1 )

ライセンス: Link先を確認
Yifan Zhang, Qijian Zhang, Junhui Hou, Yixuan Yuan, and Guoliang Xing(参考訳) 近年,2d画像画素から3dlidar点への細粒度特徴伝播が性能改善に広く採用されているクロスモーダル3d物体検出における特徴レベル融合の優位性が明らかにされている。 しかし,2次元領域と3次元領域間の不均一な特徴伝播の可能性は十分に調査されていない。 本稿では,既存の画素間特徴伝搬とは対照的に,逆の点対画素方向を探索し,点対特徴を2次元画像分岐に逆流させる。 したがって、2Dおよび3Dストリームを共同最適化する場合、2Dイメージブランチからバックプロパゲーションされた勾配は、LiDARポイントクラウドで動作する3Dバックボーンネットワークの表現能力を高めることができる。 そして,画素間情報フロー機構と点間情報フロー機構を組み合わせることで,BiProDetと呼ばれる双方向特徴伝達フレームワークを構築する。 アーキテクチャ設計に加えて,局所的な空間認識の特徴を画像のモダリティから学習し,全体の3D検出性能を暗黙的に向上させる2次元イメージブランチのトレーニングのための新しい2次元補助タスクである正規化局所座標マップ推定も提案する。 広範な実験とアブレーション研究により,本手法の有効性が検証された。 特に、サイクリストクラスで非常に競争力のあるKITTIベンチマークで、提出時点で$\mathbf{1^{\mathrm{st}}}$をランク付けします。 ソースコードはhttps://github.com/Eaphan/BiProDet.comで入手できる。

Recent works have revealed the superiority of feature-level fusion for cross-modal 3D object detection, where fine-grained feature propagation from 2D image pixels to 3D LiDAR points has been widely adopted for performance improvement. Still, the potential of heterogeneous feature propagation between 2D and 3D domains has not been fully explored. In this paper, in contrast to existing pixel-to-point feature propagation, we investigate an opposite point-to-pixel direction, allowing point-wise features to flow inversely into the 2D image branch. Thus, when jointly optimizing the 2D and 3D streams, the gradients back-propagated from the 2D image branch can boost the representation ability of the 3D backbone network working on LiDAR point clouds. Then, combining pixel-to-point and point-to-pixel information flow mechanisms, we construct an bidirectional feature propagation framework, dubbed BiProDet. In addition to the architectural design, we also propose normalized local coordinates map estimation, a new 2D auxiliary task for the training of the 2D image branch, which facilitates learning local spatial-aware features from the image modality and implicitly enhances the overall 3D detection performance. Extensive experiments and ablation studies validate the effectiveness of our method. Notably, we rank $\mathbf{1^{\mathrm{st}}}$ on the highly competitive KITTI benchmark on the cyclist class by the time of submission. The source code is available at https://github.com/Eaphan/BiProDet.
翻訳日:2023-01-24 15:06:56 公開日:2023-01-22
# ランダム純粋状態におけるサブシステムの平均r\'{e}nyiエントロピー

Average R\'{e}nyi Entropy of a Subsystem in Random Pure State ( http://arxiv.org/abs/2301.09074v1 )

ライセンス: Link先を確認
MuSeong Kim, Mi-Ra Hwang, Eylee Jung, and DaeKil Park(参考訳) 本稿では、合成システム全体の$AB$がランダムな純粋状態である場合、サブシステム$A$の平均R\'{e}nyi entropy $S_{\alpha}$を検討する。 ヒルベルト空間の次元が$A$と$AB$はそれぞれ$m$と$mn$であると仮定する。 まず、平均 R\'{e}nyi エントロピーを$m = \alpha = 2$ で解析的に計算する。 この解析結果と近似平均 R\'{e}nyi エントロピーを比較すると、非常に近いことが分かる。 一般の場合、近似 r\'{e}nyiエントロピー $\widetilde{s}_{\alpha} (m,n)$ の平均を解析的に計算する。 $1 \ll n$, $\widetilde{S}_{\alpha} (m,n)$ が $\ln m - \frac{\alpha}{2n} (mm^{-1})$ に還元されるとき、平均フォン・ノイマンエントロピーの漸近表現と一致する。 $\widetilde{S}_{\alpha} (m,n)$の分析結果に基づいて、$\widetilde{S}_{\alpha} (m,n)$から導かれる量子情報の$\ln m$-dependenceをプロットする。 情報のほぼ消失する領域が$\alpha$の増加とともに短くなり、最終的に$\alpha \rightarrow \infty$の限界でなくなることに注目すべきである。 結果の物理的意味を簡潔に論じる。

In this paper we examine the average R\'{e}nyi entropy $S_{\alpha}$ of a subsystem $A$ when the whole composite system $AB$ is a random pure state. We assume that the Hilbert space dimensions of $A$ and $AB$ are $m$ and $m n$ respectively. First, we compute the average R\'{e}nyi entropy analytically for $m = \alpha = 2$. We compare this analytical result with the approximate average R\'{e}nyi entropy, which is shown to be very close. For general case we compute the average of the approximate R\'{e}nyi entropy $\widetilde{S}_{\alpha} (m,n)$ analytically. When $1 \ll n$, $\widetilde{S}_{\alpha} (m,n)$ reduces to $\ln m - \frac{\alpha}{2 n} (m - m^{-1})$, which is in agreement with the asymptotic expression of the average von Neumann entropy. Based on the analytic result of $\widetilde{S}_{\alpha} (m,n)$ we plot the $\ln m$-dependence of the quantum information derived from $\widetilde{S}_{\alpha} (m,n)$. It is remarkable to note that the nearly vanishing region of the information becomes shorten with increasing $\alpha$, and eventually disappears in the limit of $\alpha \rightarrow \infty$. The physical implication of the result is briefly discussed.
翻訳日:2023-01-24 15:06:34 公開日:2023-01-22
# 構成時間的接地のための変分クロスグラフ推論と適応的構造的セマンティック学習

Variational Cross-Graph Reasoning and Adaptive Structured Semantics Learning for Compositional Temporal Grounding ( http://arxiv.org/abs/2301.09071v1 )

ライセンス: Link先を確認
Juncheng Li, Siliang Tang, Linchao Zhu, Wenqiao Zhang, Yi Yang, Tat-Seng Chua, Fei Wu, Yueting Zhuang(参考訳) テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。 このタスクは、自然言語記述のセマンティクスの多様性を利用して、事前定義されたアクティビティクラスを超えたアクティビティを基盤として、コンピュータビジョンコミュニティで大きな勢いを得ています。 意味の多様性は言語学における構成性の原理に根ざしており、新しい意味論は、既知の単語を新しい方法で結合することで体系的に記述することができる。 しかし、既存の時間的接地データセットは、構成の一般化性を評価するために慎重に設計されていない。 時間的接地モデルの合成一般化性を体系的に評価するために,新たな時間的接地タスクを導入し,新たな2つのデータセット分割,すなわちCharades-CGとActivityNet-CGを構築した。 新しいデータセットの分割に関する最先端の手法を評価すると、出現した単語の新たな組み合わせによるクエリへの一般化に失敗したことを経験的に見出す。 ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素であると主張する。 この知見に基づき、ビデオと言語をそれぞれ階層的な意味グラフに明示的に分解し、2つのグラフ間の微粒な意味対応を学習する変分横断グラフ推論フレームワークを提案する。 さらに,2つのグラフ間の微粒な意味対応推論を容易にする構造インフォームドおよびドメイン一般化可能なグラフ表現を導出するための,適応型構造化意味論的学習手法を提案する。 広範な実験は、我々のアプローチの優れた構成一般化可能性を検証する。

Temporal grounding is the task of locating a specific segment from an untrimmed video according to a query sentence. This task has achieved significant momentum in the computer vision community as it enables activity grounding beyond pre-defined activity classes by utilizing the semantic diversity of natural language descriptions. The semantic diversity is rooted in the principle of compositionality in linguistics, where novel semantics can be systematically described by combining known words in novel ways (compositional generalization). However, existing temporal grounding datasets are not carefully designed to evaluate the compositional generalizability. To systematically benchmark the compositional generalizability of temporal grounding models, we introduce a new Compositional Temporal Grounding task and construct two new dataset splits, i.e., Charades-CG and ActivityNet-CG. When evaluating the state-of-the-art methods on our new dataset splits, we empirically find that they fail to generalize to queries with novel combinations of seen words. We argue that the inherent structured semantics inside the videos and language is the crucial factor to achieve compositional generalization. Based on this insight, we propose a variational cross-graph reasoning framework that explicitly decomposes video and language into hierarchical semantic graphs, respectively, and learns fine-grained semantic correspondence between the two graphs. Furthermore, we introduce a novel adaptive structured semantics learning approach to derive the structure-informed and domain-generalizable graph representations, which facilitate the fine-grained semantic correspondence reasoning between the two graphs. Extensive experiments validate the superior compositional generalizability of our approach.
翻訳日:2023-01-24 15:06:00 公開日:2023-01-22
# 一般化不可能な非制限逆行訓練

Provable Unrestricted Adversarial Training without Compromise with Generalizability ( http://arxiv.org/abs/2301.09069v1 )

ライセンス: Link先を確認
Lilin Zhang, Ning Yang, Yanchao Sun, Philip S. Yu(参考訳) 敵の攻撃から守るための最も有望な戦略として、敵の訓練(AT)が広く考えられており、研究者の関心も高まっている。 しかし、既存のAT方式には2つの課題がある。 まず、観測例に$l_p$ノルムで束縛された摂動を加えることで生成される制限された逆例(RAE)とは対照的に、スクラッチから構築される非制限逆例(UAE)を扱うことができない。 第二に、既存のatメソッドは、標準の一般化可能性(つまり、自然例の正確さ)を犠牲にして、しばしば敵対的な堅牢性を達成する。 これらの課題を克服するために,UAEを知覚不能な未観測例として理解するユニークな視点を提案する。 また,そのトレードオフは,逆例と自然例の分布の分離によるものであることがわかった。 そこで本研究では,uae と rae に対する包括的敵意の強固さを持つ目標分類器を提供し,同時にその標準一般化可能性を向上させるための provable unrestricted adversarial training (puat) という手法を提案する。 特にPUATは、部分的にラベル付けされたデータを用いて、新しい3重GANを通じて自然データ分布を正確にキャプチャし、効果的なUAE生成を実現する。 同時に、PUATは、目標分類器の教師付き損失を対向損失に導入し、UAE分布、自然データ分布、および分類器が学習した分布との整合性を達成することにより、強化三重GANの協調により従来のATを拡張した。 最後に、広く使われているベンチマークで行った固形理論解析と広範な実験は、puatの優位を示している。

Adversarial training (AT) is widely considered as the most promising strategy to defend against adversarial attacks and has drawn increasing interest from researchers. However, the existing AT methods still suffer from two challenges. First, they are unable to handle unrestricted adversarial examples (UAEs), which are built from scratch, as opposed to restricted adversarial examples (RAEs), which are created by adding perturbations bound by an $l_p$ norm to observed examples. Second, the existing AT methods often achieve adversarial robustness at the expense of standard generalizability (i.e., the accuracy on natural examples) because they make a tradeoff between them. To overcome these challenges, we propose a unique viewpoint that understands UAEs as imperceptibly perturbed unobserved examples. Also, we find that the tradeoff results from the separation of the distributions of adversarial examples and natural examples. Based on these ideas, we propose a novel AT approach called Provable Unrestricted Adversarial Training (PUAT), which can provide a target classifier with comprehensive adversarial robustness against both UAE and RAE, and simultaneously improve its standard generalizability. Particularly, PUAT utilizes partially labeled data to achieve effective UAE generation by accurately capturing the natural data distribution through a novel augmented triple-GAN. At the same time, PUAT extends the traditional AT by introducing the supervised loss of the target classifier into the adversarial loss and achieves the alignment between the UAE distribution, the natural data distribution, and the distribution learned by the classifier, with the collaboration of the augmented triple-GAN. Finally, the solid theoretical analysis and extensive experiments conducted on widely-used benchmarks demonstrate the superiority of PUAT.
翻訳日:2023-01-24 15:05:34 公開日:2023-01-22
# DASTSiam:時空間核融合とシマーズ追跡改善のための差別化

DASTSiam: Spatio-Temporal Fusion and Discriminative Augmentation for Improved Siamese Tracking ( http://arxiv.org/abs/2301.09063v1 )

ライセンス: Link先を確認
Yucheng Huang, Eksan Firkat, Ziwang Xiao, Jihong Zhu, Askar Hamdulla(参考訳) ディープニューラルネットワークに基づくトラッキングタスクは、シャム追跡器の出現によって大幅に改善されている。 しかし、目標の出現はしばしば追跡中に変化し、アスペクト比の変化、オクルージョン、スケールの変動といった課題に直面した際にトラッカーの堅牢性が低下する。 さらに、乱れの背景は応答マップ内の複数の高い応答点につながり、誤ったターゲット位置付けにつながる。 本稿では、DASTSiamと呼ばれる2つのトランスフォーマーベースのモジュールを紹介し、時空間(ST)融合モジュールと識別拡張(DA)モジュールについて述べる。 stモジュールは、オブジェクトの出現変化に対するロバスト性を改善するために、クロス・アテンションに基づく歴史的手がかりの蓄積を使用し、daモジュールはテンプレートと検索領域の間のセマンティック情報を関連付け、ターゲットの識別を改善する。 さらに、アンカーのラベル割り当てを変更することで、オブジェクト位置の信頼性も向上する。 当社のモジュールは、すべてのsiameseトラッカで使用でき、比較およびアブレーション実験を通じて、いくつかのパブリックデータセットでパフォーマンスが向上しています。

Tracking tasks based on deep neural networks have greatly improved with the emergence of Siamese trackers. However, the appearance of targets often changes during tracking, which can reduce the robustness of the tracker when facing challenges such as aspect ratio change, occlusion, and scale variation. In addition, cluttered backgrounds can lead to multiple high response points in the response map, leading to incorrect target positioning. In this paper, we introduce two transformer-based modules to improve Siamese tracking called DASTSiam: the spatio-temporal (ST) fusion module and the Discriminative Augmentation (DA) module. The ST module uses cross-attention based accumulation of historical cues to improve robustness against object appearance changes, while the DA module associates semantic information between the template and search region to improve target discrimination. Moreover, Modifying the label assignment of anchors also improves the reliability of the object location. Our modules can be used with all Siamese trackers and show improved performance on several public datasets through comparative and ablation experiments.
翻訳日:2023-01-24 15:05:00 公開日:2023-01-22
# インスタントNGP加速型NeRFとD-NeRFを用いた非協調型宇宙物体の3次元再構成

3D Reconstruction of Non-cooperative Resident Space Objects using Instant NGP-accelerated NeRF and D-NeRF ( http://arxiv.org/abs/2301.09060v1 )

ライセンス: Link先を確認
Trupti Mahendrakar and Basilio Caruso and Van Minh Nguyen and Ryan T. White and Todd Steffen(参考訳) 軌道上での非協力的な宇宙物体(RSOs)の増殖は、アクティブな宇宙デブリ除去、軌道上サービシング(OOS)、分類、機能同定の要求を刺激している。 近年のコンピュータビジョンの進歩により、異なる角度から撮影された2次元画像群に基づくオブジェクトの高精細な3次元モデリングが可能になっている。 この研究は、Instant NeRFとD-NeRF、ニューラル放射場(NeRF)アルゴリズムのバリエーションを、機能同定とOOSのアシストのために軌道上のROSをマッピングする問題に適用する。 これらのアルゴリズムは、フロリダ工科大学のOrbital Robotic Interaction, On-Orbit Servicing and Navigation (ORION) Laboratoryにおいて、2つの異なる照明と運動条件下で撮影された宇宙船モックアップの画像のデータセットを用いて、3D再構成の品質とハードウェア要件を評価する。 Instant NeRFは、計算コストで高忠実度3Dモデルを学習し、オンボードコンピュータでトレーニングできることが示されている。

The proliferation of non-cooperative resident space objects (RSOs) in orbit has spurred the demand for active space debris removal, on-orbit servicing (OOS), classification, and functionality identification of these RSOs. Recent advances in computer vision have enabled high-definition 3D modeling of objects based on a set of 2D images captured from different viewing angles. This work adapts Instant NeRF and D-NeRF, variations of the neural radiance field (NeRF) algorithm to the problem of mapping RSOs in orbit for the purposes of functionality identification and assisting with OOS. The algorithms are evaluated for 3D reconstruction quality and hardware requirements using datasets of images of a spacecraft mock-up taken under two different lighting and motion conditions at the Orbital Robotic Interaction, On-Orbit Servicing and Navigation (ORION) Laboratory at Florida Institute of Technology. Instant NeRF is shown to learn high-fidelity 3D models with a computational cost that could feasibly be trained on on-board computers.
翻訳日:2023-01-24 15:04:40 公開日:2023-01-22
# 群追尾とオブザーバを有する非協力的対象物との自律ランデブー

Autonomous Rendezvous with Non-cooperative Target Objects with Swarm Chasers and Observers ( http://arxiv.org/abs/2301.09059v1 )

ライセンス: Link先を確認
Trupti Mahendrakar and Steven Holmberg and Andrew Ekblad and Emma Conti and Ryan T. White and Markus Wilde and Isaac Silver(参考訳) 宇宙デブリは、通信、航法、その他の用途への宇宙船の需要が高まりつつあるため、増加傾向にある。 Space Surveillance Network (SSN)は27,000個の巨大な破片を追跡し、追跡不能な断片の数を1,00,000以上と見積もっている。 デブリの成長を制御するためには、さらなるデブリのfor-mationを減らす必要がある。 いくつかの解決策は、より大きな非協力型宇宙物体(rsos)の軌道離脱や、or-bit内の衛星のサービッキングなどである。 どちらもrsosとのランデブーを必要とし、問題の規模は自律的なミッションを必要とする。 本稿では,フロリダ工科大学 ORION 施設で開発された多目的自律型視覚統合ナビゲーションシステム (MARVIN) について紹介する。 MARVINは2つのサブシステムで構成されており、マシンビジョン支援ナビゲーションシステムと、追尾者の群れを命令してRSOと安全に衝突させる人工ポテンシャルフィールド(APF)誘導アルゴリズムである。 そこで我々は,MARVINアーカイテックチャーとハードウェア・イン・ザ・ループ実験を行い,自律的で協調的なSwarm衛星の運用を実証した。

Space debris is on the rise due to the increasing demand for spacecraft for com-munication, navigation, and other applications. The Space Surveillance Network (SSN) tracks over 27,000 large pieces of debris and estimates the number of small, un-trackable fragments at over 1,00,000. To control the growth of debris, the for-mation of further debris must be reduced. Some solutions include deorbiting larger non-cooperative resident space objects (RSOs) or servicing satellites in or-bit. Both require rendezvous with RSOs, and the scale of the problem calls for autonomous missions. This paper introduces the Multipurpose Autonomous Ren-dezvous Vision-Integrated Navigation system (MARVIN) developed and tested at the ORION Facility at Florida Institution of Technology. MARVIN consists of two sub-systems: a machine vision-aided navigation system and an artificial po-tential field (APF) guidance algorithm which work together to command a swarm of chasers to safely rendezvous with the RSO. We present the MARVIN architec-ture and hardware-in-the-loop experiments demonstrating autonomous, collabo-rative swarm satellite operations successfully guiding three drones to rendezvous with a physical mockup of a non-cooperative satellite in motion.
翻訳日:2023-01-24 15:04:20 公開日:2023-01-22
# 年齢集団分類のための逆マルチタスク学習による話者埋め込みの活用

Leveraging Speaker Embeddings with Adversarial Multi-task Learning for Age Group Classification ( http://arxiv.org/abs/2301.09058v1 )

ライセンス: Link先を確認
Kwangje Baeg, Yeong-Gwan Kim, Young-Sub Han, Byoung-Ki Jeon(参考訳) 近年,ニューラルネットワークに基づく話者埋め込み技術を用いて話者を正確に識別している。 しかし、話者弁別埋め込みは必ずしも年齢グループのような音声特徴を表現するわけではない。 話者の特徴を捉えるために高度に訓練された埋め込みモデルでは,年齢群分類の課題は音声情報漏洩に近い。 そこで,年齢集団の分類性能を向上させるために,多タスク学習から派生した話者識別埋め込みを用いた特徴の調整と年齢サブグループのドメイン不一致の低減について検討する。 さらに,年齢群のドメイン不変表現を学習し一般化するために,話者埋め込みの異なるタイプを調査した。 VoxCeleb Enrichment データセットの実験結果は,多目的シナリオにおける適応型対向ネットワークの有効性を検証し,話者埋め込みをドメイン適応タスクに活用する。

Recently, researchers have utilized neural network-based speaker embedding techniques in speaker-recognition tasks to identify speakers accurately. However, speaker-discriminative embeddings do not always represent speech features such as age group well. In an embedding model that has been highly trained to capture speaker traits, the task of age group classification is closer to speech information leakage. Hence, to improve age group classification performance, we consider the use of speaker-discriminative embeddings derived from adversarial multi-task learning to align features and reduce the domain discrepancy in age subgroups. In addition, we investigated different types of speaker embeddings to learn and generalize the domain-invariant representations for age groups. Experimental results on the VoxCeleb Enrichment dataset verify the effectiveness of our proposed adaptive adversarial network in multi-objective scenarios and leveraging speaker embeddings for the domain adaptation task.
翻訳日:2023-01-24 15:03:57 公開日:2023-01-22
# 非協調目標周辺の自律走行のためのYOLOv5と高速R-CNNの性能評価

Performance Study of YOLOv5 and Faster R-CNN for Autonomous Navigation around Non-Cooperative Targets ( http://arxiv.org/abs/2301.09056v1 )

ライセンス: Link先を確認
Trupti Mahendrakar and Andrew Ekblad and Nathan Fischer and Ryan T. White and Markus Wilde and Brian Kish and Isaac Silver(参考訳) 非協力的な空間オブジェクトの自律的なナビゲーションと経路計画は、軌道上のサービッキングとスペースデブリ除去システムを実現する技術である。 ナビゲーションタスクは、対象物の動きの判定、把握に適した対象物の特徴の識別、衝突危険物等の保持ゾーンの識別を含む。 この知識を考えると、チェイサー宇宙船は標的を損傷することなく、あるいは太陽電池アレイや通信アンテナを覆ってサービッキングターゲットの操作を強制することなく、捕獲場所に向かって誘導することができる。 ターゲットの識別、特徴付け、特徴認識を自律的に実現する方法の1つは、人工知能アルゴリズムを使用することである。 本稿では,カメラと機械学習アルゴリズムを組み合わせることで,相対的なナビゲーションタスクを実現する方法について述べる。 2つのディープラーニングベースのオブジェクト検出アルゴリズム、高速領域ベース畳み込みニューラルネットワーク(r-cnn)とyou only look once(yolov5)の性能を、フロリダ工科大学オリオン研究室で形成飛行シミュレーションで得られた実験データを用いてテストした。 シミュレーションシナリオでは, 対象物体のヨー運動, チェイサーアプローチの軌跡, 照明条件を変化させ, アルゴリズムを多岐にわたる現実的な性能制限条件でテストする。 解析されたデータは、対象検出器の性能を比較するために平均的な精度の測定値を含む。 本稿では, 特徴認識アルゴリズムの実装と, 宇宙船誘導航法制御システムへの統合に向けての道筋について論じる。

Autonomous navigation and path-planning around non-cooperative space objects is an enabling technology for on-orbit servicing and space debris removal systems. The navigation task includes the determination of target object motion, the identification of target object features suitable for grasping, and the identification of collision hazards and other keep-out zones. Given this knowledge, chaser spacecraft can be guided towards capture locations without damaging the target object or without unduly the operations of a servicing target by covering up solar arrays or communication antennas. One way to autonomously achieve target identification, characterization and feature recognition is by use of artificial intelligence algorithms. This paper discusses how the combination of cameras and machine learning algorithms can achieve the relative navigation task. The performance of two deep learning-based object detection algorithms, Faster Region-based Convolutional Neural Networks (R-CNN) and You Only Look Once (YOLOv5), is tested using experimental data obtained in formation flight simulations in the ORION Lab at Florida Institute of Technology. The simulation scenarios vary the yaw motion of the target object, the chaser approach trajectory, and the lighting conditions in order to test the algorithms in a wide range of realistic and performance limiting situations. The data analyzed include the mean average precision metrics in order to compare the performance of the object detectors. The paper discusses the path to implementing the feature recognition algorithms and towards integrating them into the spacecraft Guidance Navigation and Control system.
翻訳日:2023-01-24 15:03:43 公開日:2023-01-22
# 衛星成分特徴抽出のための資源制約FPGA設計

Resource-constrained FPGA Design for Satellite Component Feature Extraction ( http://arxiv.org/abs/2301.09055v1 )

ライセンス: Link先を確認
Andrew Ekblad and Trupti Mahendrakar and Ryan T. White and Markus Wilde and Isaac Silver and Brooke Wheeler(参考訳) 軌道上のアプリケーションに対するコンピュータビジョンと機械学習の効果的な利用は、限られたコンピューティング能力によって妨げられ、それゆえ性能が制限されている。 ARMプロセッサを用いた組み込みシステムは許容されるが性能が低いことが示されているが、最近のスペースグレードのフィールドプログラマブルゲートアレイ(FPGA)は、マイクロコンピュータシステムの性能を上回る可能性を示している。 本研究では、資源制約のあるFPGA上に展開可能なニューラルネットワークベースの物体検出アルゴリズムを用いて、軌道上の非協調衛星のコンポーネントを自動的に検出する手法を提案する。 フロリダ工科大学の orion maneuver kinematics simulator でハードウェア・イン・ザ・ループ実験を行い、小型のリソース制約付きfpga上にデプロイされた新しいモデルの性能をマイクロコンピュータシステム上の同等のアルゴリズムと比較した。 その結果、FPGAの実装によりスループットが向上し、同等の精度を維持しながらレイテンシが低下することがわかった。 これらの結果は、将来のミッションはコンピュータビジョンアルゴリズムをスペースグレードfpgaに配置することを検討するべきであることを示唆している。

The effective use of computer vision and machine learning for on-orbit applications has been hampered by limited computing capabilities, and therefore limited performance. While embedded systems utilizing ARM processors have been shown to meet acceptable but low performance standards, the recent availability of larger space-grade field programmable gate arrays (FPGAs) show potential to exceed the performance of microcomputer systems. This work proposes use of neural network-based object detection algorithm that can be deployed on a comparably resource-constrained FPGA to automatically detect components of non-cooperative, satellites on orbit. Hardware-in-the-loop experiments were performed on the ORION Maneuver Kinematics Simulator at Florida Tech to compare the performance of the new model deployed on a small, resource-constrained FPGA to an equivalent algorithm on a microcomputer system. Results show the FPGA implementation increases the throughput and decreases latency while maintaining comparable accuracy. These findings suggest future missions should consider deploying computer vision algorithms on space-grade FPGAs.
翻訳日:2023-01-24 15:03:15 公開日:2023-01-22
# 自然言語指導による語彙意味セグメンテーションモデルの学習

Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision ( http://arxiv.org/abs/2301.09121v1 )

ライセンス: Link先を確認
Jilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng, Yi Wang, Yu Qiao, Weidi Xie(参考訳) 本稿では,既定の閉集合圏ではなく任意のクラスのオブジェクトをセグメンテーションすることを目的としたオープンボカブラリー意味セグメンテーション(ovs)の問題を考える。 まず、ovsegmentorと呼ばれるovs用のトランスフォーマーモデルを提案する。これは、マスクアノテーションを使わずに、webクローリングされた画像テキストペアを事前トレーニングにのみ活用する。 OVSegmentorは、画像ピクセルをスロットアテンションベースのバインディングモジュールを介して学習可能なグループトークンのセットに組み立て、対応するキャプション埋め込みにグループトークンをアライメントする。 第2に、マスク付きエンティティ補完とクロスイメージマスク整合性という、トレーニングのための2つのプロキシタスクを提案する。 前者は、グループトークンが与えられたキャプション内のすべてのマスクされたエンティティを推論することを目的としており、モデルが視覚グループとテキストエンティティの細かなアライメントを学ぶことができる。 後者は、共有エンティティを含む画像間の一貫したマスク予測を強制し、モデルが視覚的不変性を学ぶことを奨励する。 第3に,頻繁に出現するエンティティをcc12mにフィルタリングすることにより,事前トレーニングのためのcc4mデータセットを構築し,トレーニング効率を大幅に向上させる。 第4に,3つのベンチマークデータセット,PASCAL VOC 2012 PASCAL Context,COCO Object上でゼロショット転送を行う。 本モデルでは,事前学習に3\%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。 コードと事前訓練されたモデルは、将来の研究のためにリリースされる。

In this paper, we consider the problem of open-vocabulary semantic segmentation (OVS), which aims to segment objects of arbitrary classes instead of pre-defined, closed-set categories. The main contributions are as follows: First, we propose a transformer-based model for OVS, termed as OVSegmentor, which only exploits web-crawled image-text pairs for pre-training without using any mask annotations. OVSegmentor assembles the image pixels into a set of learnable group tokens via a slot-attention based binding module, and aligns the group tokens to the corresponding caption embedding. Second, we propose two proxy tasks for training, namely masked entity completion and cross-image mask consistency. The former aims to infer all masked entities in the caption given the group tokens, that enables the model to learn fine-grained alignment between visual groups and text entities. The latter enforces consistent mask predictions between images that contain shared entities, which encourages the model to learn visual invariance. Third, we construct CC4M dataset for pre-training by filtering CC12M with frequently appeared entities, which significantly improves training efficiency. Fourth, we perform zero-shot transfer on three benchmark datasets, PASCAL VOC 2012, PASCAL Context, and COCO Object. Our model achieves superior segmentation results over the state-of-the-art method by using only 3\% data (4M vs 134M) for pre-training. Code and pre-trained models will be released for future research.
翻訳日:2023-01-24 14:57:39 公開日:2023-01-22
# 因果性に基づくドメイン一般化のための双対性学習フレームワーク

Causality-based Dual-Contrastive Learning Framework for Domain Generalization ( http://arxiv.org/abs/2301.09120v1 )

ライセンス: Link先を確認
Zining Chen, Weiqiu Wang, Zhicheng Zhao, Aidong Men(参考訳) ドメイン一般化(Domain Generalization, DG)とは、複数のソースドメインからモデルを訓練し、未知のターゲットドメインに一般化する、配布外一般化のサブブランチである。 近年、いくつかのドメイン一般化アルゴリズムが登場しているが、そのほとんどは変換不能な複雑なアーキテクチャで設計されている。 さらに、対照的な学習はDGの単純さと効率性にとって有望な解決策となっている。 しかし、既存のコントラスト学習は、深刻なモデル混乱を引き起こしたドメインシフトを無視した。 本稿では,機能とプロトタイプのコントラストに関するdcl(dual-contrastive learning)モジュールを提案する。 さらに,新たなcausal fusion attention(cfa)モジュールを設計し,単一画像の多様なビューを融合してプロトタイプを実現する。 さらに,類似度に基づくハードペアマイニング(shm)戦略を導入し,ダイバーシティシフトの情報を活用する。 本手法は3つのDGデータセット上で最先端のアルゴリズムより優れていることを示す。 提案アルゴリズムはドメインラベルを使わずにプラグアンドプレイモジュールとしても機能する。

Domain Generalization (DG) is essentially a sub-branch of out-of-distribution generalization, which trains models from multiple source domains and generalizes to unseen target domains. Recently, some domain generalization algorithms have emerged, but most of them were designed with non-transferable complex architecture. Additionally, contrastive learning has become a promising solution for simplicity and efficiency in DG. However, existing contrastive learning neglected domain shifts that caused severe model confusions. In this paper, we propose a Dual-Contrastive Learning (DCL) module on feature and prototype contrast. Moreover, we design a novel Causal Fusion Attention (CFA) module to fuse diverse views of a single image to attain prototype. Furthermore, we introduce a Similarity-based Hard-pair Mining (SHM) strategy to leverage information on diversity shift. Extensive experiments show that our method outperforms state-of-the-art algorithms on three DG datasets. The proposed algorithm can also serve as a plug-and-play module without usage of domain labels.
翻訳日:2023-01-24 14:57:12 公開日:2023-01-22
# 設計に基づく個人予測

Design-based individual prediction ( http://arxiv.org/abs/2301.09117v1 )

ライセンス: Link先を確認
Li-Chun Zhang and Danhyang Lee(参考訳) クロスバリデーションのためのサンプリング設計とサンプルスプリッティング設計を考慮し, 期待クロスバリデーション結果に基づいて, 設計に基づく個人予測手法を開発した。 モデルアンサンブルから予測器を選択するか、その重み付き平均から選択するかにかかわらず、未観測の予測誤差の有効推定をサンプリング設計に対して定義して取得し、結果と特徴を定数として扱う。

A design-based individual prediction approach is developed based on the expected cross-validation results, given the sampling design and the sample-splitting design for cross-validation. Whether the predictor is selected from an ensemble of models or a weighted average of them, valid inference of the unobserved prediction errors is defined and obtained with respect to the sampling design, while outcomes and features are treated as constants.
翻訳日:2023-01-24 14:56:56 公開日:2023-01-22
# キラルな例外点におけるドレスドバウンド状態

Dressed bound states at chiral exceptional points ( http://arxiv.org/abs/2301.09115v1 )

ライセンス: Link先を確認
Yuwei Lu, Haishu Tan, Zeyang Liao(参考訳) 原子光子状態は量子光学の基本的な概念である。 ここでは,開放空洞の非ハーモニティ性を利用して着衣境界状態(DBS)を形成し,キラルな例外点で動作するマイクロリング共振器において空洞型DBSとフリードリッヒ・ウィントゲンDBSの2種類のDBSを同定する。 解析DBS条件では,原子がフォトニック波動関数のノードである定常波モードに結合した場合に空洞状DBSが発生することを示し,空洞拡散に免疫を持ち,空洞共鳴における零スペクトル密度を特徴とする。 フリードリッヒ・ウィントゲンDBSは、原子-光子デチューニングのような系のパラメータを継続的に調整し、放射スペクトルにおけるラビピークによって証明されるが、強い結合する反交差の特異な特徴である。 また,提案DBSの量子光学応用を実証する。 我々の研究は、オープン量子システムの非ヘルミティキ性による量子状態制御を示し、キラルな例外点におけるdbsの明確な物理像を示し、センシング、光子保存、非古典光発生のための高性能量子デバイスを構築する上で大きな可能性を秘めている。

Atom-photon dressed states are a basic concept of quantum optics. Here, we demonstrate that the non-Hermiticity of open cavity can be harnessed to form the dressed bound states (DBS) and identify two types of DBS, the vacancy-like DBS and Friedrich-Wintgen DBS, in a microring resonator operating at a chiral exceptional point. With the analytical DBS conditions, we show that the vacancy-like DBS occurs when an atom couples to the standing wave mode that is a node of photonic wave function, and thus is immune to the cavity dissipation and characterized by the null spectral density at cavity resonance. While the Friedrich-Wintgen DBS can be accessed by continuously tuning the system parameters, such as the atom-photon detuning, and evidenced by a vanishing Rabi peak in emission spectrum, an unusual feature in the strong-coupling anticrossing. We also demonstrate the quantum-optics applications of the proposed DBS. Our work exhibits the quantum states control through non-Hermiticity of open quantum system and presents a clear physical picture on DBS at chiral exceptional points, which holds great potential in building high-performance quantum devices for sensing, photon storage, and nonclassical light generation.
翻訳日:2023-01-24 14:56:49 公開日:2023-01-22
# 異なる私的自然言語モデル:最近の進歩と今後の方向性

Differentially Private Natural Language Models: Recent Advances and Future Directions ( http://arxiv.org/abs/2301.09112v1 )

ライセンス: Link先を確認
Lijie Hu, Ivan Habernal, Lei Shen and Di Wang(参考訳) 近年のディープラーニングは,自然言語処理(NLP)タスクにおいて大きな成功を収めている。 しかし、これらのアプリケーションは機密情報を含むデータを含む可能性がある。 したがって、機密データのプライバシーを保護しながら優れたパフォーマンスを実現することは、NLPにとって重要な課題である。 プライバシーを守るために、復元攻撃を防ぎ、潜在的な側面の知識を保護できる差分プライバシー(DP)は、プライベートデータ分析のデファクト技術になりつつある。 近年,DPモデル(DP-NLP)におけるNLPは,様々な観点から研究されている。 本稿では,NLPにおけるDP深層学習モデルの最近の進歩を,初めて体系的に検討する。 特に,DP-NLP と標準 DP 深層学習の相違点と追加課題について論じる。 そこで我々はDP-NLPに関する既存の研究について検討し、勾配摂動法と埋め込みベクトル摂動法という2つの側面から最近の展開を述べる。 また、このトピックの課題と今後の方向性についても論じる。

Recent developments in deep learning have led to great success in various natural language processing (NLP) tasks. However, these applications may involve data that contain sensitive information. Therefore, how to achieve good performance while also protect privacy of sensitive data is a crucial challenge in NLP. To preserve privacy, Differential Privacy (DP), which can prevent reconstruction attacks and protect against potential side knowledge, is becoming a de facto technique for private data analysis. In recent years, NLP in DP models (DP-NLP) has been studied from different perspectives, which deserves a comprehensive review. In this paper, we provide the first systematic review of recent advances on DP deep learning models in NLP. In particular, we first discuss some differences and additional challenges of DP-NLP compared with the standard DP deep learning. Then we investigate some existing work on DP-NLP and present its recent developments from two aspects: gradient perturbation based methods and embedding vector perturbation based methods. We also discuss some challenges and future directions of this topic.
翻訳日:2023-01-24 14:56:25 公開日:2023-01-22
# 追加パーソナライゼーションによるフェデレーション勧告

Federated Recommendation with Additive Personalization ( http://arxiv.org/abs/2301.09109v1 )

ライセンス: Link先を確認
Zhiwei Li, Guodong Long, Tianyi Zhou(参考訳) プライバシに関する懸念が高まる中、連合環境でのレコメンデーションシステムの開発は、次世代のインターネットサービスアーキテクチャを開発するための新しいパラダイムとなる。 しかしながら、既存のアプローチは通常、プライバシ保護のための追加メカニズムを備えた分散レコメンデーションフレームワークから派生しているため、ほとんどのアプローチは、連合レコメンデーション設定の新しいコンテキストにおいて、パーソナライズを完全に活用できない。 本稿では,ユーザ埋め込みを学習し,ユーザによるアイテム埋め込みの個人的視点を学習することで推奨を高める,FedRAP(Federated Recommendation with Additive Personalization)と呼ばれる新しいアプローチを提案する。 具体的には、すべてのユーザから集約されたスパースなグローバルアイテム埋め込みにパーソナライズされたアイテムを追加することでパーソナライズする。 また,クライアント固有の項目埋め込みのばらつきが大きいことによる性能低下を軽減するために,正規化重みを徐々に増やすことで,項目埋め込みの個人化を付加するカリキュラム学習機構が適用されている。 通信オーバヘッドを低減するため,グローバルアイテム埋め込みの疎正規化により統一的な定式化が提案されている。 4つの実世界のレコメンデーションデータセットの実験結果から,FedRAPの有効性が示された。

With rising concerns about privacy, developing recommendation systems in a federated setting become a new paradigm to develop next-generation Internet service architecture. However, existing approaches are usually derived from a distributed recommendation framework with an additional mechanism for privacy protection, thus most of them fail to fully exploit personalization in the new context of federated recommendation settings. In this paper, we propose a novel approach called Federated Recommendation with Additive Personalization (FedRAP) to enhance recommendation by learning user embedding and the user's personal view of item embeddings. Specifically, the proposed additive personalization is to add a personalized item embedding to a sparse global item embedding aggregated from all users. Moreover, a curriculum learning mechanism has been applied for additive personalization on item embeddings by gradually increasing regularization weights to mitigate the performance degradation caused by large variances among client-specific item embeddings. A unified formulation has been proposed with a sparse regularization of global item embeddings for reducing communication overhead. Experimental results on four real-world recommendation datasets demonstrate the effectiveness of FedRAP.
翻訳日:2023-01-24 14:56:08 公開日:2023-01-22
# 保健医療における量子コンピューティング応用の現状

The state of quantum computing applications in health and medicine ( http://arxiv.org/abs/2301.09106v1 )

ライセンス: Link先を確認
Frederik F. Fl\"other(参考訳) 量子コンピューティングのハードウェアとソフトウェアはここ数年で大きな進歩を遂げてきた。 量子コンピューティングが研究と社会に与える影響に関する質問は、"if"から"when/how"に変わった。 2020年代は「量子10年」と表現され、科学とビジネスの価値を推し進める最初の生産ソリューションが今後数年のうちに利用可能になると予想されている。 医療や生命科学の分野を含む医学は、ここ数年で量子関連の活動や実験が活発に行われている(医学と量子理論はシュル=オディンガーの猫以来、おそらく絡み合っていた)。 初期の焦点は生化学と計算生物学の問題であったが、近年は臨床と医学の量子ソリューションへの関心が高まっている。 健康と医学における量子コンピューティングの急速な出現は、風景のマッピングを必要としている。 本稿では,臨床および医学的な概念量子コンピューティングの応用について概説し,考察する。 これらは過去数年間に40以上の実験および理論的研究から成っている。 ユースケース領域はゲノム学、臨床研究、発見、診断、治療と介入に及びます。 特に量子機械学習(QML)は急速に進化し、最近の医学研究において古典的なベンチマークと競合することが示されている。 例えば、量子サポートベクトル分類器や量子ニューラルネットワークといったQMLアルゴリズムは、様々な臨床および実世界のデータセットで訓練されている。 これには、薬物候補としての新しい分子実体の生成、医用画像分類に基づく診断、患者の持続性予測、治療効果の予測、放射線治療の調整が含まれる。 ユースケースとアルゴリズムを要約し、技術的および倫理的課題を含む量子時代の医学の展望を提供する。

Quantum computing hardware and software have made enormous strides over the last years. Questions around quantum computing's impact on research and society have changed from "if" to "when/how". The 2020s have been described as the "quantum decade", and the first production solutions that drive scientific and business value are expected to become available over the next years. Medicine, including fields in healthcare and life sciences, has seen a flurry of quantum-related activities and experiments in the last few years (although medicine and quantum theory have arguably been entangled ever since Schr\"odinger's cat). The initial focus was on biochemical and computational biology problems; recently, however, clinical and medical quantum solutions have drawn increasing interest. The rapid emergence of quantum computing in health and medicine necessitates a mapping of the landscape. In this review, clinical and medical proof-of-concept quantum computing applications are outlined and put into perspective. These consist of over 40 experimental and theoretical studies from the last few years. The use case areas span genomics, clinical research and discovery, diagnostics, and treatments and interventions. Quantum machine learning (QML) in particular has rapidly evolved and shown to be competitive with classical benchmarks in recent medical research. Near-term QML algorithms, for instance, quantum support vector classifiers and quantum neural networks, have been trained with diverse clinical and real-world data sets. This includes studies in generating new molecular entities as drug candidates, diagnosing based on medical image classification, predicting patient persistence, forecasting treatment effectiveness, and tailoring radiotherapy. The use cases and algorithms are summarized and an outlook on medicine in the quantum era, including technical and ethical challenges, is provided.
翻訳日:2023-01-24 14:55:47 公開日:2023-01-22
# TTSのための教師なしデータ選択:アラビア放送ニュースを事例として

Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a Case Study ( http://arxiv.org/abs/2301.09099v1 )

ライセンス: Link先を確認
Massa Baali, Tomoki Hayashi, Hamdy Mubarak, Soumi Maiti, Shinji Watanabe, Wassim El-Hajj, Ahmed Ali(参考訳) tts(high-resource text to speech)システムは、自然に確立された人間のような音声を生成する。 対照的に、アラビア語を含む低リソース言語はリソース不足のため、TSシステムが非常に限られている。 本稿では,RTS トレーニングのための自動データ選択と事前学習/微調整戦略を含む TTS 構築のための完全教師なし手法を提案する。 大規模データセットで訓練されたシステムよりも, ttsシステムの自然音声生成効率が, 慎重かつ少ないデータ選択によって向上することを示す。 異なるアプローチを提案しています 1)データ: DNSMOS, 自動母音化, 自動音声認識(ASR)を用いて自動アノテーションを適用し, 書き起こし誤りの修正を行った。 2) モデル: TTSモデルにおける高リソース言語からの変換学習を1時間放送記録で微調整し, このモデルを用いてFastSpeech2ベースのコンバータモデルを長時間ガイドした。 評価の結果,CERは3.9%,CERは1.3%であった。 主観評価では,1 が不良で5 が優れている場合,我々のFastSpeech2 ベースの Conformer モデルでは,インテリジェンス4.4 と自然性4.2 の平均スコア(MOS)を達成し,多くのアノテータが放送者の声を認識し,提案手法の有効性を実証した。

Several high-resource Text to Speech (TTS) systems currently produce natural, well-established human-like speech. In contrast, low-resource languages, including Arabic, have very limited TTS systems due to the lack of resources. We propose a fully unsupervised method for building TTS, including automatic data selection and pre-training/fine-tuning strategies for TTS training, using broadcast news as a case study. We show how careful selection of data, yet smaller amounts, can improve the efficiency of TTS system in generating more natural speech than a system trained on a bigger dataset. We adopt to propose different approaches for the: 1) data: we applied automatic annotations using DNSMOS, automatic vowelization, and automatic speech recognition (ASR) for fixing transcriptions' errors; 2) model: we used transfer learning from high-resource language in TTS model and fine-tuned it with one hour broadcast recording then we used this model to guide a FastSpeech2-based Conformer model for duration. Our objective evaluation shows 3.9% character error rate (CER), while the groundtruth has 1.3% CER. As for the subjective evaluation, where 1 is bad and 5 is excellent, our FastSpeech2-based Conformer model achieved a mean opinion score (MOS) of 4.4 for intelligibility and 4.2 for naturalness, where many annotators recognized the voice of the broadcaster, which proves the effectiveness of our proposed unsupervised method.
翻訳日:2023-01-24 14:55:22 公開日:2023-01-22
# BallGAN:球面背景を持つ3次元画像合成

BallGAN: 3D-aware Image Synthesis with a Spherical Background ( http://arxiv.org/abs/2301.09091v1 )

ライセンス: Link先を確認
Minjung Shin, Yunji Seo, Jeongmin Bae, Young Sun Choi, Hyunsu Kim, Hyeran Byun, Youngjung Uh(参考訳) 3D対応のGANは、任意の視点でレンダリングして画像を生成できるように、リアルな3Dシーンを合成することを目指している。 従来の手法は現実的な画像を生成するが、3次元幾何学が不自然な不安定な訓練や退化解に苦しむ。 3次元幾何学は十分でない制約、すなわち、判別器に実像として分類されるだけでは不十分であると仮定する。 この問題を解決するために,背景を球面として近似し,前景を球面と細い球面の背景の結合として表現することを提案する。 バックグラウンドフィールドにおける自由度を低下させる。 そこで我々はボリュームレンダリングの方程式を変更し,BallGANという新しい3D対応GANフレームワークを設計するための専用制約を組み込んだ。 BallGANには次のような利点がある。 1)異なる視点にまたがるシーンのイメージは、最先端の手法よりもフォトメトリックの一貫性と忠実性が向上する。 2) トレーニングはより安定する。 3) 前景は異なる任意の背景の上に別々に描画することができる。

3D-aware GANs aim to synthesize realistic 3D scenes such that they can be rendered in arbitrary perspectives to produce images. Although previous methods produce realistic images, they suffer from unstable training or degenerate solutions where the 3D geometry is unnatural. We hypothesize that the 3D geometry is underdetermined due to the insufficient constraint, i.e., being classified as real image to the discriminator is not enough. To solve this problem, we propose to approximate the background as a spherical surface and represent a scene as a union of the foreground placed in the sphere and the thin spherical background. It reduces the degree of freedom in the background field. Accordingly, we modify the volume rendering equation and incorporate dedicated constraints to design a novel 3D-aware GAN framework named BallGAN. BallGAN has multiple advantages as follows. 1) It produces more reasonable 3D geometry; the images of a scene across different viewpoints have better photometric consistency and fidelity than the state-of-the-art methods. 2) The training becomes much more stable. 3) The foreground can be separately rendered on top of different arbitrary backgrounds.
翻訳日:2023-01-24 14:54:54 公開日:2023-01-22
# ベイズ決定木を加速する並列アプローチ

Parallel Approaches to Accelerate Bayesian Decision Trees ( http://arxiv.org/abs/2301.09090v1 )

ライセンス: Link先を確認
Efthyvoulos Drousiotis, Paul G. Spirakis, and Simon Maskell(参考訳) マルコフ連鎖モンテカルロ(英: markov chain monte carlo、mcmc)は、ベイズ統計学において、直接サンプリングが難しい場合にターゲット分布からサンプリングするために用いられるアルゴリズム群である。 ベイズ決定木に関する既存の研究はMCMCを使用している。 残念ながら、特に大量のデータを考慮すると、これは遅くなります。 MCMCのrecept-rejectコンポーネントを並列化するのは難しい。 MCMCの並列性を利用する2つの手法を提案する。第1に、MCMCを別の数値ベイズ的アプローチであるシークエンシャルモンテカルロ(SMC)サンプリング器に置き換える。 どちらの手法もハイパフォーマンスコンピューティング(hpc)リソースでマルチコア処理を使用する。 各テストケースに最も有益な方法を決定するために,様々な研究環境で2つの方法をテストした。 実験の結果、データパーティショニングは私たちが考慮している設定において限られたユーティリティを持ち、SMCサンプルラを使用することで(シーケンシャルな実装と比較して)実行時間を最大343倍改善できることがわかった。

Markov Chain Monte Carlo (MCMC) is a well-established family of algorithms primarily used in Bayesian statistics to sample from a target distribution when direct sampling is challenging. Existing work on Bayesian decision trees uses MCMC. Unfortunately, this can be slow, especially when considering large volumes of data. It is hard to parallelise the accept-reject component of the MCMC. None-the-less, we propose two methods for exploiting parallelism in the MCMC: in the first, we replace the MCMC with another numerical Bayesian approach, the Sequential Monte Carlo (SMC) sampler, which has the appealing property that it is an inherently parallel algorithm; in the second, we consider data partitioning. Both methods use multi-core processing with a HighPerformance Computing (HPC) resource. We test the two methods in various study settings to determine which method is the most beneficial for each test case. Experiments show that data partitioning has limited utility in the settings we consider and that the use of the SMC sampler can improve run-time (compared to the sequential implementation) by up to a factor of 343.
翻訳日:2023-01-24 14:54:35 公開日:2023-01-22
# 語彙データベースにおける言語間意味表現

Representing Interlingual Meaning in Lexical Databases ( http://arxiv.org/abs/2301.09169v1 )

ライセンス: Link先を確認
Fausto Giunchiglia, Gabor Bella, Nandu Chandran Nair, Yang Chi, Hao Xu(参考訳) 今日の多言語語彙データベースでは、世界の言語の大部分は表現不足である。 資源不完全性の問題以外にも、既存の語彙データベースには、文化的特化語に対する表現性が低下し、言語間でマッピングされる構造的制限があることが示される。 特に、英語のような支配的な言語の語彙的意味空間はより正確に表現され、言語的または文化的に多様な言語は近似的にマッピングされる。 本稿では,言語多様性の語彙現象に対する表現性に関して,最先端の多言語語彙データベースを評価し,その強みと限界を評価する。

In today's multilingual lexical databases, the majority of the world's languages are under-represented. Beyond a mere issue of resource incompleteness, we show that existing lexical databases have structural limitations that result in a reduced expressivity on culturally-specific words and in mapping them across languages. In particular, the lexical meaning space of dominant languages, such as English, is represented more accurately while linguistically or culturally diverse languages are mapped in an approximate manner. Our paper assesses state-of-the-art multilingual lexical databases and evaluates their strengths and limitations with respect to their expressivity on lexical phenomena of linguistic diversity.
翻訳日:2023-01-24 14:48:02 公開日:2023-01-22
# コステルリッツ・トゥーレス量子相転移における条件付き大域的絡み合い

Conditional global entanglement in a Kosterlitz-Thouless quantum phase transition ( http://arxiv.org/abs/2301.09168v1 )

ライセンス: Link先を確認
Elahe Samimi, Mohammad Hossein Zarei and Afshin Montakhab(参考訳) エンタングルメントは異なるタイプの量子相転移(QPT)を特徴づける重要な指標として知られているが、基底状態エネルギーの有限微分では特定できない本質的な特異性のため、コステリッツ-チューレス相転移(KT)のいくつかの問題に直面している。 本稿では, KT相転移における大域的絡み合い(GE)を考察し, 相転移の明確なシグネチャは示さないが, GEの条件付きバージョンはKT相転移の強いシグネチャを持つ良い指標であることを示す。 具体的には、2つの異なるKT遷移点における磁化相からZ_d$位相位相を分離する中間KT位相を持つ$Z_d$ Kitaevモデルの変形バージョンについて検討する。 古典的な$d$状態クロックモデルへの写像を用いて、GEと一般化GEを考察し、遷移点の信頼できる指標を提供していないことを示す。 しかし、条件付き大域絡み合い(Q)と呼ばれるそれらの差は、最初のKT遷移点でピークを示す。 さらに,各相の挙動が著しく異なるため,モデルの様々な相を特徴付けることができることを示す。 したがって、q は kt qpt の様々な位相とそれらの関連臨界点を特徴付ける有用な尺度であると結論付ける。

Entanglement is known as an important indicator for characterizing different types of quantum phase transitions (QPTs), however it faces some challenges in the Kosterlitz-Thouless (KT) phase transitions due to an essential singularity which cannot be identified in finite derivatives of the ground state energy. In this paper, we consider global entanglement (GE) in a KT phase transition and show that while it does not indicate any clear signature of the phase transition, the conditional version of GE is a good indicator with strong signatures of the KT transition. In particular, we study a deformed version of the $Z_d$ Kitaev model which has an intermediate KT phase which separates a $Z_d$ topological phase from a magnetized phase at two different KT transition points. Using a mapping to the classical $d$-state clock model, we consider GE and the generalized GE and show that they do not provide a reliable indicator of transition points. However, their difference called conditional global entanglement (Q) shows a peak at the first KT transition point. Additionally, we show that it can characterize various phases of the model as it behaves substantially different in each phase. We therefore conclude that Q is a useful measure that can characterize various phases of KT QPTs as well as their related critical points.
翻訳日:2023-01-24 14:47:52 公開日:2023-01-22
# 連合学習によるエネルギー予測

Energy Prediction using Federated Learning ( http://arxiv.org/abs/2301.09165v1 )

ライセンス: Link先を確認
Meghana Bharadwaj and Sanjana Sarda(参考訳) 本研究では,低消費電力・低空間消費型組込みデバイスを用いて,特定のネットワーク内の全世帯のエネルギー消費と太陽発電を良好に予測するために,フェデレーション学習を有効活用できることを実証する。 また,個人のエネルギーデータを共有することなく,時間とともに予測性能が向上することを示す。 データを用いて4つのノードを持つシステムを1年間シミュレーションして示す。

In this work, we demonstrate the viability of using federated learning to successfully predict energy consumption as well as solar production for all households within a certain network using low-power and low-space consuming embedded devices. We also demonstrate our prediction performance improving over time without the need for sharing private consumer energy data. We simulate a system with four nodes using data for one year to show this.
翻訳日:2023-01-24 14:47:27 公開日:2023-01-22
# 自己教師付き学習と動的計算の相乗効果

Unifying Synergies between Self-supervised Learning and Dynamic Computation ( http://arxiv.org/abs/2301.09164v1 )

ライセンス: Link先を確認
Tarun Krishna, Ayush K Rai, Alexandru Drimbarean, Alan F Smeaton, Kevin McGuinness, Noel E O'Connor(参考訳) 自己教師付き学習(SSL)アプローチは、いくつかのコンピュータビジョンベンチマークで教師付き学習のパフォーマンスをエミュレートすることで、大きな進歩を遂げている。 しかし、これは、かなり大きなモデルサイズと計算コストのかかるトレーニング戦略のコストが伴うため、最終的には推論時間が大きくなり、資源制約のある産業環境では実用的ではない。 知識蒸留(kd)、動的計算(dc)、プルーニング(pruning)のような技術は、しばしば軽量なサブネットワークを得るのに使われ、これは通常、大きな事前訓練されたモデルの微調整の複数のエポックを伴い、計算がより困難になる。 本研究では,SSL と DC のパラダイム間の相互作用を新たな視点で検討し,高密度かつ低軽量なサブネットワークをスクラッチから学習し,高い精度・効率のトレードオフを提供することにより,アプリケーション固有の産業環境のための汎用的・多目的アーキテクチャを実現する。 CIFAR-10, STL-10, CIFAR-100, ImageNet-100 などの画像分類ベンチマークの徹底的な実験により,提案したトレーニング戦略が,ベニラ自己監督設定と同等の性能(オン・パー)を達成し, FLOPの計算を目標予算の範囲で大幅に削減できることが実証された。

Self-supervised learning (SSL) approaches have made major strides forward by emulating the performance of their supervised counterparts on several computer vision benchmarks. This, however, comes at a cost of substantially larger model sizes, and computationally expensive training strategies, which eventually lead to larger inference times making it impractical for resource constrained industrial settings. Techniques like knowledge distillation (KD), dynamic computation (DC), and pruning are often used to obtain a lightweight sub-network, which usually involves multiple epochs of fine-tuning of a large pre-trained model, making it more computationally challenging. In this work we propose a novel perspective on the interplay between SSL and DC paradigms that can be leveraged to simultaneously learn a dense and gated (sparse/lightweight) sub-network from scratch offering a good accuracy-efficiency trade-off, and therefore yielding a generic and multi-purpose architecture for application specific industrial settings. Our study overall conveys a constructive message: exhaustive experiments on several image classification benchmarks: CIFAR-10, STL-10, CIFAR-100, and ImageNet-100, demonstrates that the proposed training strategy provides a dense and corresponding sparse sub-network that achieves comparable (on-par) performance compared with the vanilla self-supervised setting, but at a significant reduction in computation in terms of FLOPs under a range of target budgets.
翻訳日:2023-01-24 14:47:20 公開日:2023-01-22
# ツープレイヤーゼロサムゲームにおける不完全情報の抽象化

Abstracting Imperfect Information Away from Two-Player Zero-Sum Games ( http://arxiv.org/abs/2301.09159v1 )

ライセンス: Link先を確認
Samuel Sokota, Ryan D'Orazio, Chun Kai Ling, David J. Wu, J. Zico Kolter, Noam Brown(参考訳) Nayyar et al. (2013)では、プレイヤーがプレイ中にポリシーを公に発表することで、不完全な情報を共通のペイオフゲームから抽象化できることを示した。 この洞察は、コモンペイオフゲームのためのサウンドソルバと意思決定時間計画アルゴリズムの基礎となる。 残念なことに、2人のプレイヤーのゼロサムゲームに対する同じ洞察のナッシュな応用は、ナッシュ均衡と公開ポリシーの発表が元のゲームのナッシュ均衡に合致しない可能性があるため失敗する。 その結果、既存の音響決定時間計画アルゴリズムは、未適用特性を持つ複雑な追加メカニズムを必要とする。 この研究の主な貢献は、ある正規化された平衡が上記の非対応問題を持たないことを示しており、計算は完全な情報問題として扱うことができる。 これらの正規化平衡はnash平衡に任意に近づくことができるため、この結果は2人プレイのゼロサムゲームを解くための新しい視点への扉を開き、特に、2人プレイのゼロサムゲームにおける意思決定時間計画のための簡易なフレームワークを提供する。

In their seminal work, Nayyar et al. (2013) showed that imperfect information can be abstracted away from common-payoff games by having players publicly announce their policies as they play. This insight underpins sound solvers and decision-time planning algorithms for common-payoff games. Unfortunately, a naive application of the same insight to two-player zero-sum games fails because Nash equilibria of the game with public policy announcements may not correspond to Nash equilibria of the original game. As a consequence, existing sound decision-time planning algorithms require complicated additional mechanisms that have unappealing properties. The main contribution of this work is showing that certain regularized equilibria do not possess the aforementioned non-correspondence problem -- thus, computing them can be treated as perfect information problems. Because these regularized equilibria can be made arbitrarily close to Nash equilibria, our result opens the door to a new perspective on solving two-player zero-sum games and, in particular, yields a simplified framework for decision-time planning in two-player zero-sum games, void of the unappealing properties that plague existing decision-time planning approaches.
翻訳日:2023-01-24 14:46:50 公開日:2023-01-22
# 気象予報のためのプロンプトフェデレーション学習:気象データに基づく基礎モデルに向けて

Prompt Federated Learning for Weather Forecasting: Toward Foundation Models on Meteorological Data ( http://arxiv.org/abs/2301.09152v1 )

ライセンス: Link先を確認
Shengchao Chen, Guodong Long, Tao Shen, Jing Jiang(参考訳) 地球規模の気象課題に取り組むためには,大規模気象データに基づく総合的な気象予報のための共同プラットフォームの開発を緊急に行う必要がある。 緊急性にもかかわらず、多変量の不均一性とデータ露出を必然的に引き起こす異質な気象センサが、主要な障壁となる。 本稿では,複雑な気象データの理解と天気予報の提供が可能な地域間基盤モデルを開発する。 地域間でのデータ露出の懸念を和らげるため、新しいフェデレーション学習手法が提案され、異種気象データを持つ参加者間で、新しい時空間トランスフォーマーベース基盤モデルを共同で学習する。 さらに、低リソースセンサの通信と計算制約を満たすために、新しいプロンプト学習機構が採用されている。 提案手法の有効性は,多変量時系列を持つ3つの気象データセットを用いて,古典的な天気予報タスクにおいて実証されている。

To tackle the global climate challenge, it urgently needs to develop a collaborative platform for comprehensive weather forecasting on large-scale meteorological data. Despite urgency, heterogeneous meteorological sensors across countries and regions, inevitably causing multivariate heterogeneity and data exposure, become the main barrier. This paper develops a foundation model across regions capable of understanding complex meteorological data and providing weather forecasting. To relieve the data exposure concern across regions, a novel federated learning approach has been proposed to collaboratively learn a brand-new spatio-temporal Transformer-based foundation model across participants with heterogeneous meteorological data. Moreover, a novel prompt learning mechanism has been adopted to satisfy low-resourced sensors' communication and computational constraints. The effectiveness of the proposed method has been demonstrated on classical weather forecasting tasks using three meteorological datasets with multivariate time series.
翻訳日:2023-01-24 14:46:27 公開日:2023-01-22
# 1次元長距離量子球面モデルにおける絡み合いギャップ

Entanglement gap in 1D long-range quantum spherical models ( http://arxiv.org/abs/2301.09143v1 )

ライセンス: Link先を確認
Sascha Wald, Raul Arias, Vincenzo Alba(参考訳) 本研究では1次元長範囲量子球面モデル(QSM)における絡み合いギャップの有限サイズスケーリングについて検討する。 熱力学の限界が明確に定義された弱い長距離QSMに焦点をあてる。 このモデルは連続相転移を示し、強磁性相から常磁性を分離する。 遷移の普遍性クラスは長距離指数$\alpha$に依存する。 熱力学的限界では、絡み合いギャップは常磁性相では有限であり、強磁性相では消滅することを示す。 強磁性相では、絡み合いギャップは標準磁気相関関数によって理解される。 エンタングルメントギャップは$\delta\xi\simeq c_\alpha l^{-(1/2-\alpha/4)} で崩壊し、定数 $c_\alpha$ はモデルの低エネルギー特性に依存する。 これは、分散の下部が長距離物理学の影響を受けていることを反映する。 最後に、乗法対数補正は、高次元の場合とは対照的に、エンタングルメントギャップのスケーリングに欠落している。

We investigate the finite-size scaling of the entanglement gap in the one dimensional long-range quantum spherical model (QSM). We focus on the weak long-range QSM, for which the thermodynamic limit is well-defined. This model exhibits a continuous phase transition, separating a paramagnetic from a ferromagnet phase. The universality class of the transition depends on the long-range exponent $\alpha$. We show that in the thermodynamic limit the entanglement gap is finite in the paramagnetic phase, and it vanishes in the ferromagnetic phase. In the ferromagnetic phase the entanglement gap is understood in terms of standard magnetic correlation functions. The entanglement gap decays as $\delta\xi\simeq C_\alpha L^{-(1/2-\alpha/4)}$, where the constant $C_\alpha$ depends on the low-energy properties of the model. This reflects that the lower part of the dispersion is affected by the long range physics. Finally, multiplicative logarithmic corrections are absent in the scaling of the entanglement gap, in contrast with the higher-dimensional case.
翻訳日:2023-01-24 14:46:10 公開日:2023-01-22
# lf-checker: 並行性検証のための境界モデルチェックの機械学習アクセラレーション(競合貢献)

LF-checker: Machine Learning Acceleration of Bounded Model Checking for Concurrency Verification (Competition Contribution) ( http://arxiv.org/abs/2301.09142v1 )

ライセンス: Link先を確認
Tong Wu and Edoardo Manino and Fatimah Aljaafari and Pavlos Petoumenos and Lucas C. Cordeiro(参考訳) 機械学習に基づくメタ検証ツールLF-checkerを記述・評価する。 テスト中のプログラムの複数の特徴を抽出し、決定木による境界モデルチェッカーの最適設定(フラグ)を予測する。 現在の作業は並列性検証に特化しており、バックエンド検証エンジンとしてESBMCを使用しています。 本稿では,LFチェックが基礎となる検証エンジンのデフォルト設定よりも優れた結果が得られることを示す。

We describe and evaluate LF-checker, a metaverifier tool based on machine learning. It extracts multiple features of the program under test and predicts the optimal configuration (flags) of a bounded model checker with a decision tree. Our current work is specialised in concurrency verification and employs ESBMC as a back-end verification engine. In the paper, we demonstrate that LF-checker achieves better results than the default configuration of the underlying verification engine.
翻訳日:2023-01-24 14:45:54 公開日:2023-01-22
# 説明可能な量子機械学習

Explainable Quantum Machine Learning ( http://arxiv.org/abs/2301.09138v1 )

ライセンス: Link先を確認
Raoul Heese, Thore Gerlach, Sascha M\"ucke, Sabine M\"uller, Matthias Jakobs, Nico Piatkowski(参考訳) 人工知能(AI)や機械学習(ML)の手法はますます複雑化しており、同時に人々の生活にも影響を及ぼしている。 これにより、人間によるMLシステムの理解を深めるための重要な研究分野として、AI(XAI)が自己を示すようになる。 並行して、量子機械学習(QML)が登場し、量子コンピューティングハードウェアの改善とクラウドサービスによる可用性の向上が進行中である。 QMLは、量子力学を利用して、通常量子と古典のリソースを組み合わせた量子古典ハイブリッドアルゴリズムの形で、MLタスクを促進する量子強化MLを可能にする。 量子ゲートは、ゲートベースの量子ハードウェアと、量子計算に使用できるフォーム回路の構成要素を構成する。 QMLアプリケーションの場合、量子回路は通常パラメータ化され、そのパラメータは古典的に最適化され、適切に定義された目的関数が最小化される。 XAIに触発されて、特定の目標に対するゲートの重要性を定量化することで、そのような回路の説明可能性に関する疑問を提起する。 この目的のために、確立されたShapley値の概念を量子領域に転送し、適応する。 結果として生じる帰属は、特定の回路が与えられたタスクに対してうまく機能する理由の説明として解釈でき、パラメータ化された(あるいは変動的な)量子回路を構築する方法の理解を改善し、一般に人間の解釈可能性を高めることができる。 シミュレータと2つの超伝導量子ハードウェアデバイスに関する実験的評価は、分類、生成モデリング、トランスパイル、最適化のためのフレームワークの利点を示している。 さらに, この結果から, 一般的なQMLアプローチにおける特定のゲートの役割に光を当てた。

Methods of artificial intelligence (AI) and especially machine learning (ML) have been growing ever more complex, and at the same time have more and more impact on people's lives. This leads to explainable AI (XAI) manifesting itself as an important research field that helps humans to better comprehend ML systems. In parallel, quantum machine learning (QML) is emerging with the ongoing improvement of quantum computing hardware combined with its increasing availability via cloud services. QML enables quantum-enhanced ML in which quantum mechanics is exploited to facilitate ML tasks, typically in form of quantum-classical hybrid algorithms that combine quantum and classical resources. Quantum gates constitute the building blocks of gate-based quantum hardware and form circuits that can be used for quantum computations. For QML applications, quantum circuits are typically parameterized and their parameters are optimized classically such that a suitably defined objective function is minimized. Inspired by XAI, we raise the question of explainability of such circuits by quantifying the importance of (groups of) gates for specific goals. To this end, we transfer and adapt the well-established concept of Shapley values to the quantum realm. The resulting attributions can be interpreted as explanations for why a specific circuit works well for a given task, improving the understanding of how to construct parameterized (or variational) quantum circuits, and fostering their human interpretability in general. An experimental evaluation on simulators and two superconducting quantum hardware devices demonstrates the benefits of the proposed framework for classification, generative modeling, transpilation, and optimization. Furthermore, our results shed some light on the role of specific gates in popular QML approaches.
翻訳日:2023-01-24 14:45:47 公開日:2023-01-22
# 条件付き学習入力から生成型逆ネットワークへのテキスト特徴量からの顔生成

Face Generation from Textual Features using Conditionally Trained Inputs to Generative Adversarial Networks ( http://arxiv.org/abs/2301.09123v1 )

ライセンス: Link先を確認
Sandeep Shinde, Tejas Pradhan, Aniket Ghorpade, Mihir Tale(参考訳) 生成ネットワークは、ここ数年で画像の復元と再構築に極めて効果的であることが証明されている。 テキスト記述から顔を生成することは、生成アルゴリズムのパワーを利用できるアプリケーションである。 顔を生成するタスクは、行方不明の人を見つける、犯罪者を特定するなど、多くのアプリケーションに役立つ。 本稿では,顔の特徴をテキストで記述した人間の顔を生成する新しいアプローチについて論じる。 我々は,最先端の自然言語処理モデルを用いて,顔記述を学習可能な潜在ベクトルに変換し,それらの特徴に対応する顔を生成する生成的逆ネットワークに供給する。 本稿では,顔のみの高レベルな記述に焦点を当てる一方で,微細なテキストの特徴に基づく任意の画像を生成するために,同じアプローチをカスタマイズすることができる。

Generative Networks have proved to be extremely effective in image restoration and reconstruction in the past few years. Generating faces from textual descriptions is one such application where the power of generative algorithms can be used. The task of generating faces can be useful for a number of applications such as finding missing persons, identifying criminals, etc. This paper discusses a novel approach to generating human faces given a textual description regarding the facial features. We use the power of state of the art natural language processing models to convert face descriptions into learnable latent vectors which are then fed to a generative adversarial network which generates faces corresponding to those features. While this paper focuses on high level descriptions of faces only, the same approach can be tailored to generate any image based on fine grained textual features.
翻訳日:2023-01-24 14:45:23 公開日:2023-01-22
# 逆流のための緩和されたモデル:アドバイスモデルと境界割り込みモデル

Relaxed Models for Adversarial Streaming: The Advice Model and the Bounded Interruptions Model ( http://arxiv.org/abs/2301.09203v1 )

ライセンス: Link先を確認
Menachem Sadigurschi, Moshe Shechner, Uri Stemmer(参考訳) ストリーミングアルゴリズムは、通常、入力ストリームが事前に固定されていると仮定して、曖昧な設定で分析される。 近年,入力ストリームが実行が進行するにつれて適応的かつ逆向きに選択された場合でも,有用性を維持しなければならない,逆ロバストなストリーミングアルゴリズムの設計への関心が高まっている。 いくつかの興味深い結果が対向的な設定で知られているが、一般には必要空間の点で非常に高いコストがかかる。 このことに動機づけられたこの研究では、不可逆モデルと逆モデルの間の補間を可能にする中間モデルを探究した。 具体的には,(1)アドバイスモデル*,(2)ストリーミングアルゴリズムが時々アドバイスを求める,という2つのモデルを提案する。 (2) * 有界割り込みモデル* は、敵が部分的に適応しているだけだと仮定する。 これら2つのモデルにそれぞれ正と負の両方の結果を示す。 特に、これらのモデルから難解なモデルへの一般的な還元について述べる。 これにより、通常の逆数モデルで知られているものと比較して、空間の複雑さを大幅に改善したロバストなアルゴリズムを設計できる。

Streaming algorithms are typically analyzed in the oblivious setting, where we assume that the input stream is fixed in advance. Recently, there is a growing interest in designing adversarially robust streaming algorithms that must maintain utility even when the input stream is chosen adaptively and adversarially as the execution progresses. While several fascinating results are known for the adversarial setting, in general, it comes at a very high cost in terms of the required space. Motivated by this, in this work we set out to explore intermediate models that allow us to interpolate between the oblivious and the adversarial models. Specifically, we put forward the following two models: (1) *The advice model*, in which the streaming algorithm may occasionally ask for one bit of advice. (2) *The bounded interruptions model*, in which we assume that the adversary is only partially adaptive. We present both positive and negative results for each of these two models. In particular, we present generic reductions from each of these models to the oblivious model. This allows us to design robust algorithms with significantly improved space complexity compared to what is known in the plain adversarial model.
翻訳日:2023-01-24 14:39:49 公開日:2023-01-22
# SPEC5G: 5Gセルラーネットワークプロトコル分析用データセット

SPEC5G: A Dataset for 5G Cellular Network Protocol Analysis ( http://arxiv.org/abs/2301.09201v1 )

ライセンス: Link先を確認
Imtiaz Karim, Kazi Samin Mubasshir, Mirza Masfiqur Rahman, and Elisa Bertino(参考訳) 5Gは第5世代のセルラーネットワークプロトコルである。 これは最先端のグローバルワイヤレス標準であり、ほぼすべての人とを高速で接続し、遅延を低減できるように設計された高度な種類のネットワークを可能にする。 したがって、その開発、分析、およびセキュリティは重要である。 しかし、プロパティ抽出、プロトコルの要約、プロトコル仕様と実装のセマンティック分析といった5Gプロトコルの開発とセキュリティ分析に対するすべてのアプローチは、完全に手作業である。 そこで本稿では,SPEC5GをNLP研究用として初めて公開5Gデータセットとしてキュレートする。 データセットには、13094のセルラーネットワーク仕様と13のオンラインウェブサイトから、134mワードの3,547,586文が含まれている。 NLPタスクで最先端の結果を得た大規模事前学習言語モデルを活用することで、セキュリティ関連のテキスト分類と要約にこのデータセットを利用する。 セキュリティ関連テキスト分類は、プロトコルテストに関連するセキュリティ関連プロパティを抽出するために使用できる。 一方、要約は、開発者や実践者がプロトコルの高レベルなレベルを理解するのに役立つ。 以上より、5gプロトコル分析自動化における5g中心データセットの価値を示す。 我々は,SPEC5Gが5Gセルラーネットワークプロトコルと多数の下流タスクの自動解析に新たな方向性をもたらすと考えている。 私たちのデータとコードは公開されています。

5G is the 5th generation cellular network protocol. It is the state-of-the-art global wireless standard that enables an advanced kind of network designed to connect virtually everyone and everything with increased speed and reduced latency. Therefore, its development, analysis, and security are critical. However, all approaches to the 5G protocol development and security analysis, e.g., property extraction, protocol summarization, and semantic analysis of the protocol specifications and implementations are completely manual. To reduce such manual effort, in this paper, we curate SPEC5G the first-ever public 5G dataset for NLP research. The dataset contains 3,547,586 sentences with 134M words, from 13094 cellular network specifications and 13 online websites. By leveraging large-scale pre-trained language models that have achieved state-of-the-art results on NLP tasks, we use this dataset for security-related text classification and summarization. Security-related text classification can be used to extract relevant security-related properties for protocol testing. On the other hand, summarization can help developers and practitioners understand the high level of the protocol, which is itself a daunting task. Our results show the value of our 5G-centric dataset in 5G protocol analysis automation. We believe that SPEC5G will enable a new research direction into automatic analyses for the 5G cellular network protocol and numerous related downstream tasks. Our data and code are publicly available.
翻訳日:2023-01-24 14:39:31 公開日:2023-01-22
# クラウドソーシングカートラジェクタを用いた作業ゾーンにおける自律走行車のマッピングとナビゲーションの改善

Improving Autonomous Vehicle Mapping and Navigation in Work Zones Using Crowdsourcing Vehicle Trajectories ( http://arxiv.org/abs/2301.09194v1 )

ライセンス: Link先を確認
Hanlin Chen, Renyuan Luo, Yiheng Feng(参考訳) connected and autonomous vehicle (cav) マッピングの一般的なソリューションには、high definition map (hd map) や real-time concurrent localization and mapping (slam) がある。 どちらの方法も車自体(センサーや組込み地図)のみに依存しており、作業ゾーンのような一時的に変更可能な領域にうまく適応できない。 このようなエリアでのCAVの航行は、認識情報に基づいて乾燥可能なエリアをどのように定義するかに大きく依存している。 これらの状況においては、知覚精度の向上と知覚結果の正しい解釈の確保が困難である。 本稿では, クラウドソーシングトラジェクトリ情報をマッピングプロセスに導入し, ドライビング可能なエリアや交通ルールに対するCAVの理解を深めるプロトタイプを提案する。 ガウス混合モデル(GMM)を適用して,クラウドソーシングの軌跡に基づく一時的に変化する乾燥可能領域と占有グリッドマップ(OGM)を構築する。 提案手法は,人間運転情報のないSLAMと比較した。 提案手法は下流経路計画と車両制御モジュールとよく適合しており,CAVは運転規則に違反せず,純粋なSLAM法では達成できなかった。

Prevalent solutions for Connected and Autonomous vehicle (CAV) mapping include high definition map (HD map) or real-time Simultaneous Localization and Mapping (SLAM). Both methods only rely on vehicle itself (onboard sensors or embedded maps) and can not adapt well to temporarily changed drivable areas such as work zones. Navigating CAVs in such areas heavily relies on how the vehicle defines drivable areas based on perception information. Difficulties in improving perception accuracy and ensuring the correct interpretation of perception results are challenging to the vehicle in these situations. This paper presents a prototype that introduces crowdsourcing trajectories information into the mapping process to enhance CAV's understanding on the drivable area and traffic rules. A Gaussian Mixture Model (GMM) is applied to construct the temporarily changed drivable area and occupancy grid map (OGM) based on crowdsourcing trajectories. The proposed method is compared with SLAM without any human driving information. Our method has adapted well with the downstream path planning and vehicle control module, and the CAV did not violate driving rule, which a pure SLAM method did not achieve.
翻訳日:2023-01-24 14:39:10 公開日:2023-01-22
# 対称多量子数に対するパリティ適応コヒーレント状態のシュミット分解

Schmidt decomposition of parity adapted coherent states for symmetric multi-quDits ( http://arxiv.org/abs/2301.09193v1 )

ライセンス: Link先を確認
Julio Guerrero, Antonio Sojo, Alberto Mayorgas and Manuel Calixto(参考訳) 本稿では,対称なn$-quditシステムにおける絡み合いについて検討する。 特に、$U(D)$のスピン$U(2)$のコヒーレント状態とその有意パリティ$\mathbb{C}\in\mathbb{Z}_2^{D-1}$(multicomponent Schr\"odinger cat)状態への射影を一般化し、$M<N$ quDitsをトレースするときにそれらの密度行列を解析する。 これらの還元密度行列の固有値(あるいはシュミット係数)は、完全に特徴づけられ、与えられたパリティ $\mathbb{c}$ の$n$-qudit schr\"odinger cat状態の分解の定理をシュル=m$と$m$のシュル=オディンガー猫状態のテンソル積のすべてのパリティの合計に証明することができる。 シュミット固有値の多様な漸近性を研究し、特に(再スケールされた)二重熱力学的極限(n,m\rightarrow\infty,\,m/n$ fixed)に対して、調和振動子のパリティ適応コヒーレント状態の光子損失に関する既知の結果の再現と一般化を行い、マルチキュートと(マルチモード)光子の統一シュミット分解を提供する。 これらの結果は、これらの状態の絡み合い特性と、これらの状態の堅牢性を示すquDit損失下でのデコヒーレンス特性を決定できる。

In this paper we study the entanglement in symmetric $N$-quDit systems. In particular we use generalizations to $U(D)$ of spin $U(2)$ coherent states and their projections on definite parity $\mathbb{C}\in\mathbb{Z}_2^{D-1}$ (multicomponent Schr\"odinger cat) states and we analyse their reduced density matrices when tracing out $M<N$ quDits. The eigenvalues (or Schmidt coefficients) of these reduced density matrices are completely characterized, allowing to proof a theorem for the decomposition of a $N$-quDit Schr\"odinger cat state with a given parity $\mathbb{C}$ into a sum over all possible parities of tensor products of Schr\"odinger cat states of $N-M$ and $M$ particles. Diverse asymptotic properties of the Schmidt eigenvalues are studied and, in particular, for the (rescaled) double thermodynamic limit ($N,M\rightarrow\infty,\,M/N$ fixed), we reproduce and generalize to quDits known results for photon loss of parity adapted coherent states of the harmonic oscillator, thus providing an unified Schmidt decomposition for both multi-quDits and (multi-mode) photons. These results allow to determine the entanglement properties of these states and also their decoherence properties under quDit loss, where we demonstrate the robustness of these states.
翻訳日:2023-01-24 14:38:50 公開日:2023-01-22
# パウリチャンネル学習における下層境界

Lower Bounds on Learning Pauli Channels ( http://arxiv.org/abs/2301.09192v1 )

ライセンス: Link先を確認
Omar Fawzi, Aadil Oufkir and Daniel Stilck Fran\c{c}a(参考訳) 量子デバイスに影響を及ぼすノイズを理解することは、量子テクノロジーのスケーリングにおいて極めて重要である。 特に重要なノイズモデルクラスは、ランダム化コンパイル技術が量子チャネルをこの形式に効果的にもたらし、一般的な量子チャネルよりも著しく構造的であるため、パウリチャネルのそれである。 本稿では,ダイヤモンドノルム内のポーリチャネルを非絡み合った測定値で学習するためのサンプル複雑性の基本的な下限を示す。 我々は適応戦略と非適応戦略の両方を考える。 非適応的な設定では、$n$-qubit Pauliチャネルを学ぶために$\Omega(2^{3n}\epsilon^{-2})$の低い境界を示す。 特に、flammiaとwallmanが最近導入した学習手順が本質的に最適であることを示している。 適応的な設定では、$\Omega(2^{2.5n}\epsilon^{-2})$ for $\epsilon=\mathcal{O}(2^{-n})$, and a lower bound of $\Omega(2^{2n}\epsilon^{-2} )$ for any $\epsilon > 0$を示す。 この最後の下位境界は、他のユニタリ演算にのみ分散されている限り、任意に多くのチャネルのシーケンシャルな利用に適用される。

Understanding the noise affecting a quantum device is of fundamental importance for scaling quantum technologies. A particularly important class of noise models is that of Pauli channels, as randomized compiling techniques can effectively bring any quantum channel to this form and are significantly more structured than general quantum channels. In this paper, we show fundamental lower bounds on the sample complexity for learning Pauli channels in diamond norm with unentangled measurements. We consider both adaptive and non-adaptive strategies. In the non-adaptive setting, we show a lower bound of $\Omega(2^{3n}\epsilon^{-2})$ to learn an $n$-qubit Pauli channel. In particular, this shows that the recently introduced learning procedure by Flammia and Wallman is essentially optimal. In the adaptive setting, we show a lower bound of $\Omega(2^{2.5n}\epsilon^{-2})$ for $\epsilon=\mathcal{O}(2^{-n})$, and a lower bound of $\Omega(2^{2n}\epsilon^{-2} )$ for any $\epsilon > 0$. This last lower bound even applies for arbitrarily many sequential uses of the channel, as long as they are only interspersed with other unital operations.
翻訳日:2023-01-24 14:38:12 公開日:2023-01-22
# リンゴとオレンジ? コンテンツ認識による画質評価

Apples and Oranges? Assessing Image Quality over Content Recognition ( http://arxiv.org/abs/2301.09190v1 )

ライセンス: Link先を確認
Junyong You(参考訳) 画像認識と品質評価は2つの重要な課題であり、異なる視覚メカニズムに従う可能性がある。 本稿では,2つのタスクがマルチタスク学習方式で実行可能であるかを検討する。 コンテンツ認識と品質評価に不可欠な視覚的注意とコントラスト感度のメカニズムをシミュレートするために,逐次的空間チャネルアテンションモジュールを提案する。 空間的注意はコンテンツ認識と品質評価の間で共有され、チャンネルの注意は品質評価専用である。 このような注目モジュールはTransformerに統合され、2つのビュータスクの統一モデルを構築する。 実験により,提案した一様モデルが品質評価とコンテンツ認識の両タスクにおいて有望な性能を達成できることが実証された。

Image recognition and quality assessment are two important viewing tasks, while potentially following different visual mechanisms. This paper investigates if the two tasks can be performed in a multitask learning manner. A sequential spatial-channel attention module is proposed to simulate the visual attention and contrast sensitivity mechanisms that are crucial for content recognition and quality assessment. Spatial attention is shared between content recognition and quality assessment, while channel attention is solely for quality assessment. Such attention module is integrated into Transformer to build a uniform model for the two viewing tasks. The experimental results have demonstrated that the proposed uniform model can achieve promising performance for both quality assessment and content recognition tasks.
翻訳日:2023-01-24 14:37:42 公開日:2023-01-22
# 時空間ゴーストイメージング

Time-to-space ghost imaging ( http://arxiv.org/abs/2301.09184v1 )

ライセンス: Link先を確認
Dmitri B. Horoshko(参考訳) 時間的ゴーストイメージング技術は、2つの光ビームの時間的相関に基づいており、基準アーム内の光検出器の解像度時間によって基本的に制限され、最近の実験では55psに達する時間的物体の像を形成することが知られている。 時間分解能のさらなる向上のために、2つの光ビームの強い時間空間相関に依存する時間物体の空間ゴースト画像を作成することを提案した。 このような相関は、タイプiパラメトリックダウンコンバージョンで発生する2つの絡み合ったビームの間に存在することが知られている。 ピコ秒スケールの時間分解能は、絡み合った光子の現実的な源によってアクセス可能である。

Temporal ghost imaging technique is based on temporal correlations of two optical beams and is known to form an image of a temporal object with a resolution, which is fundamentally limited by the resolution time of a photodetector in the reference arm and reaches 55 ps in a recent experiment. For further improvement of the temporal resolution, it is suggested to form a spatial ghost image of a temporal object relying on strong temporal-spatial correlations of two optical beams. Such correlations are known to exist between two entangled beams generated in type-I parametric downconversion. It is shown that a picosecond-scale temporal resolution is accessible with a realistic source of entangled photons.
翻訳日:2023-01-24 14:37:30 公開日:2023-01-22
# 2つのスピンjの系におけるchsh不等式の絡み合いと極大違反:新しい構成とさらなる観察

Entanglement and maximal violation of the CHSH inequality in a system of two spins j: a novel construction and further observations ( http://arxiv.org/abs/2301.09183v1 )

ライセンス: Link先を確認
Giovani Peruzzo and Silvio Paolo Sorella(参考訳) 我々は2つのスピン$j$粒子系のchsh不等式を一般の$j$に対して研究する。 chsh演算子は、ユニタリなエルミート作用素の組$\left\{ a_{1},a_{2},b_{1},b_{2}\right\} $を用いて構成される。 CHSH演算子の期待値は、単一状態 $\left|\psi_{s}\right\rangle $ に対して解析される。 $\left|\psi_{s}\right\rangle $ 絡み合った状態であることから、チェレルソンの境界と整合したCHSHの不等式が破られる。 ここで用いられる構成は[1]と異なるが、完全な合意は回収される。

We study the CHSH inequality for a system of two spin $j$ particles, for generic $j$. The CHSH operator is constructed using a set of unitary, Hermitian operators $\left\{ A_{1},A_{2},B_{1},B_{2}\right\} $. The expectation value of the CHSH operator is analyzed for the singlet state $\left|\psi_{s}\right\rangle $. Being $\left|\psi_{s}\right\rangle $ an entangled state, a violation of the CHSH inequality compatible with Tsirelson's bound is found. Although the construction employed here differs from that of [1], full agreement is recovered.
翻訳日:2023-01-24 14:37:18 公開日:2023-01-22
# 多言語共参照解決のためのアンサンブル転送学習

Ensemble Transfer Learning for Multilingual Coreference Resolution ( http://arxiv.org/abs/2301.09175v1 )

ライセンス: Link先を確認
Tuan Manh Lai, Heng Ji(参考訳) エンティティコリファレンス解決は、情報抽出や質問応答など、多くのアプリケーションにおいて重要な研究課題である。 英語の基準解決法は広く研究されている。 しかし、他の言語に対する作業は比較的少ない。 非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。 この課題を克服するために,さまざまなトランスファーラーニング(TL)技術を組み合わせた,シンプルで効果的なアンサンブルベースのフレームワークを設計する。 まず、異なるTL法を用いて複数のモデルを訓練する。 次に,モデル予測の未重み付き平均スコアを計算し,予測クラスタの最終的な集合を抽出する。 さらに,wikipediaのアンカーテキストを利用してコリファレンス解決モデルをブートストラップする低コストtl手法を提案する。 提案手法では,同じ記事を指すアンカーテキスト間でコアファーデンシャルリンクが自然に存在するという考えを活かして,数万の文書からなるターゲット言語のための,大きめの遠隔教師付きデータセットを構築する。 擬似ラベル付きデータセット上でモデルを事前トレーニングし、最終ターゲットデータセットで微調整する。 OntoNotesとSemEvalという2つのベンチマークデータセットの実験結果から,本手法の有効性が確認された。 私たちのベストアンサンブルは、F1スコアの7.68%までの単純なトレーニングのベースラインアプローチを一貫して上回ります。 これらのアンサンブルはまた、アラビア語、オランダ語、スペイン語の3つの言語で最新の結果を達成している。

Entity coreference resolution is an important research problem with many applications, including information extraction and question answering. Coreference resolution for English has been studied extensively. However, there is relatively little work for other languages. A problem that frequently occurs when working with a non-English language is the scarcity of annotated training data. To overcome this challenge, we design a simple but effective ensemble-based framework that combines various transfer learning (TL) techniques. We first train several models using different TL methods. Then, during inference, we compute the unweighted average scores of the models' predictions to extract the final set of predicted clusters. Furthermore, we also propose a low-cost TL method that bootstraps coreference resolution models by utilizing Wikipedia anchor texts. Leveraging the idea that the coreferential links naturally exist between anchor texts pointing to the same article, our method builds a sizeable distantly-supervised dataset for the target language that consists of tens of thousands of documents. We can pre-train a model on the pseudo-labeled dataset before finetuning it on the final target dataset. Experimental results on two benchmark datasets, OntoNotes and SemEval, confirm the effectiveness of our methods. Our best ensembles consistently outperform the baseline approach of simple training by up to 7.68% in the F1 score. These ensembles also achieve new state-of-the-art results for three languages: Arabic, Dutch, and Spanish.
翻訳日:2023-01-24 14:37:03 公開日:2023-01-22
# MATT:eラーニングプラットフォームにおけるマルチモーダルアテンションレベル推定

MATT: Multimodal Attention Level Estimation for e-learning Platforms ( http://arxiv.org/abs/2301.09174v1 )

ライセンス: Link先を確認
Roberto Daza, Luis F. Gomez, Aythami Morales, Julian Fierrez, Ruben Tolosana, Ruth Cobos, Javier Ortega-Garcia(参考訳) 本研究は,マルチモーダル顔分析に基づくリモートアテンションレベル推定のための新しいマルチモーダルシステムを提案する。 我々のマルチモーダルアプローチは、顔のジェスチャー(例えば、瞬き率、顔の動き単位)やユーザー行動(例えば、頭部ポーズ、カメラの距離)といった認知的負荷のモデル化に関連する行動や生理的プロセスから得られる様々なパラメータと信号を使用する。 マルチモーダルシステムは、畳み込みニューラルネットワーク(CNN)に基づく以下のモジュールを使用する。 まず,オンラインeラーニングセッションにおける学生の注意度を推定する作業において,提案したモジュールを個別に評価する。 そのため、各モジュールのサポートベクトルマシン(SVM)に基づいてバイナリ分類器(高いか低いか)を訓練しました。 次に,マルチモーダルスコアレベル融合が注目度推定をどの程度改善するかを明らかにする。 mEBALデータベースは、変動困難(生徒の認知負荷の変化)の複数のeラーニングタスクを実行しながら、38人のユーザのデータを含むeラーニング環境で得られた注目レベル推定のためのパブリックマルチモーダルデータベースである。

This work presents a new multimodal system for remote attention level estimation based on multimodal face analysis. Our multimodal approach uses different parameters and signals obtained from the behavior and physiological processes that have been related to modeling cognitive load such as faces gestures (e.g., blink rate, facial actions units) and user actions (e.g., head pose, distance to the camera). The multimodal system uses the following modules based on Convolutional Neural Networks (CNNs): Eye blink detection, head pose estimation, facial landmark detection, and facial expression features. First, we individually evaluate the proposed modules in the task of estimating the student's attention level captured during online e-learning sessions. For that we trained binary classifiers (high or low attention) based on Support Vector Machines (SVM) for each module. Secondly, we find out to what extent multimodal score level fusion improves the attention level estimation. The mEBAL database is used in the experimental framework, a public multi-modal database for attention level estimation obtained in an e-learning environment that contains data from 38 users while conducting several e-learning tasks of variable difficulty (creating changes in student cognitive loads).
翻訳日:2023-01-24 14:36:41 公開日:2023-01-22
# 決定論的オンライン分類:二元クラスリバランスのための非反復的再帰的最小二乗法

Deterministic Online Classification: Non-iteratively Reweighted Recursive Least-Squares for Binary Class Rebalancing ( http://arxiv.org/abs/2301.09230v1 )

ライセンス: Link先を確認
Se-In Jang(参考訳) 決定論的ソリューションは、解釈可能性に対してますます重要になっている。 Weighted Least-Squares (WLS) は、特定の重み設計による決定論的バッチソリューションとして広く使われている。 WLSのオンライン設定では、バッチ設定に収束するために正確な再重み付けが必要である。 反復的に再重み付けされた最小二乗アルゴリズムは、その必要性を満たすために、オンライン学習には魅力のない線形に増加する時間複雑性に主に利用される。 計算コストの増大により、再重み付き最小二乗の効率的なオンライン定式化が望まれる。 本稿では,バイナリクラス再バランスのための時間的複雑度を持つwlsの新たな決定論的オンライン分類アルゴリズムを提案する。 提案したオンライン定式化はバッチの定式化に完全に収束し、実世界のデータセットにおいて既存の最先端のオンライン二項分類アルゴリズムより優れていることを示す。

Deterministic solutions are becoming more critical for interpretability. Weighted Least-Squares (WLS) has been widely used as a deterministic batch solution with a specific weight design. In the online settings of WLS, exact reweighting is necessary to converge to its batch settings. In order to comply with its necessity, the iteratively reweighted least-squares algorithm is mainly utilized with a linearly growing time complexity which is not attractive for online learning. Due to the high and growing computational costs, an efficient online formulation of reweighted least-squares is desired. We introduce a new deterministic online classification algorithm of WLS with a constant time complexity for binary class rebalancing. We demonstrate that our proposed online formulation exactly converges to its batch formulation and outperforms existing state-of-the-art stochastic online binary classification algorithms in real-world data sets empirically.
翻訳日:2023-01-24 14:29:15 公開日:2023-01-22
# 二重敵対的フェデレーションバンド

Doubly Adversarial Federated Bandits ( http://arxiv.org/abs/2301.09223v1 )

ライセンス: Link先を確認
Jialin Yi and Milan Vojnovi\'c(参考訳) 本稿では,複数のエージェントが通信ネットワークを介して協調する,非確率的フェデレーション型多武装バンディット問題について検討する。 腕の喪失は、各時間ステップだけでなく、各エージェントに対しても、各アームの喪失を特定する、不可解な敵によって割り当てられる。 この設定では、異なるエージェントは同じ時間ステップで同じアームを選択するが、異なるフィードバックを観察する。 それぞれのエージェントの目標は、すべてのエージェントの平均累積損失が最も低い、エージェント間のコミュニケーションを必要とする後見の世界で最高のアームを見つけることである。 エージェントが全情報フィードバックやバンディットフィードバックにアクセスできる場合、異なる設定下でのフェデレーションバンディットアルゴリズムに対して、残念な低限度を提供する。 バンディットフィードバック設定のために,federated banditアルゴリズムfeedexp3を提案する。 我々のアルゴリズムは、Cesa-Bianchi et al. (2016): FEDEXP3は、選択された腕のアイデンティティやエージェント間の損失シーケンスを交換することなく、サブ線形後悔を保証できる。 また、理論結果を検証するアルゴリズムの数値評価を行い、合成データと実世界データセットの有効性を実証する。

We study a new non-stochastic federated multi-armed bandit problem with multiple agents collaborating via a communication network. The losses of the arms are assigned by an oblivious adversary that specifies the loss of each arm not only for each time step but also for each agent, which we call ``doubly adversarial". In this setting, different agents may choose the same arm in the same time step but observe different feedback. The goal of each agent is to find a globally best arm in hindsight that has the lowest cumulative loss averaged over all agents, which necessities the communication among agents. We provide regret lower bounds for any federated bandit algorithm under different settings, when agents have access to full-information feedback, or the bandit feedback. For the bandit feedback setting, we propose a near-optimal federated bandit algorithm called FEDEXP3. Our algorithm gives a positive answer to an open question proposed in Cesa-Bianchi et al. (2016): FEDEXP3 can guarantee a sub-linear regret without exchanging sequences of selected arm identities or loss sequences among agents. We also provide numerical evaluations of our algorithm to validate our theoretical results and demonstrate its effectiveness on synthetic and real-world datasets
翻訳日:2023-01-24 14:29:03 公開日:2023-01-22
# 内視鏡画像からのポリープの同定と局在化のための応用深層学習

Applied Deep Learning to Identify and Localize Polyps from Endoscopic Images ( http://arxiv.org/abs/2301.09219v1 )

ライセンス: Link先を確認
Chandana Raju, Sumedh Vilas Datar, Kushala Hari, Kavin Vijay, Suma Ningappa(参考訳) ディープラーニングベースのニューラルネットワークは、さまざまなバイオメディカルイメージングアプリケーションで人気を集めている。 ここ数年、大腸癌検出にこれらの方法を用いることが示されている研究がいくつかあり、初期の成果は有望である。 これらの方法は、潜在的に医師の補助に利用することができ、診断セッションの病変の数や異常を特定するのに役立ちます。 文献調査から,公開可能なラベル付きデータが不足していることが判明した。 そこで本研究では,ポリープや潰瘍のアノテーションを含むデータセットをオープンソース化することを目的としている。 これは、ポリプと潰瘍の画像を含むインド初のデータセットです。 データセットは、検出および分類タスクに使用できる。 私たちはまた、大規模な公開データセットでトレーニングされた人気のディープラーニングオブジェクト検出モデルでデータセットを評価し、あるデータセットでトレーニングされたモデルは、別の取得デバイスで取得されたデータを持つデータセット上でうまく動作することを実証的に発見した。

Deep learning based neural networks have gained popularity for a variety of biomedical imaging applications. In the last few years several works have shown the use of these methods for colon cancer detection and the early results have been promising. These methods can potentially be utilized to assist doctor's and may help in identifying the number of lesions or abnormalities in a diagnosis session. From our literature survey we found out that there is a lack of publicly available labeled data. Thus, as part of this work, we have aimed at open sourcing a dataset which contains annotations of polyps and ulcers. This is the first dataset that's coming from India containing polyp and ulcer images. The dataset can be used for detection and classification tasks. We also evaluated our dataset with several popular deep learning object detection models that's trained on large publicly available datasets and found out empirically that the model trained on one dataset works well on our dataset that has data being captured in a different acquisition device.
翻訳日:2023-01-24 14:28:42 公開日:2023-01-22
# 量子クエリ複雑性と多項式次数の指数的分離

An Exponential Separation Between Quantum Query Complexity and the Polynomial Degree ( http://arxiv.org/abs/2301.09218v1 )

ライセンス: Link先を確認
Andris Ambainis and Aleksandrs Belovs(参考訳) 量子クエリ複雑性と全関数の多項式次数の間には多項式分離が少なくとも存在することは知られているが、この2つの間の正確な関係は部分関数に対しては明確ではない。 本稿では,部分ブール関数に対する完全多項式次数と近似量子クエリ複雑性の指数関数的分離を実証する。 非有界なアルファベットサイズでは、定数対多項式分離がある。

While it is known that there is at most a polynomial separation between quantum query complexity and the polynomial degree for total functions, the precise relationship between the two is not clear for partial functions. In this paper, we demonstrate an exponential separation between exact polynomial degree and approximate quantum query complexity for a partial Boolean function. For an unbounded alphabet size, we have a constant versus polynomial separation.
翻訳日:2023-01-24 14:28:28 公開日:2023-01-22
# FRAME:エゴセントリックなマルチロボット探査のための高速でロバストな3Dポイントクラウドマップの統合

FRAME: Fast and Robust Autonomous 3D point cloud Map-merging for Egocentric multi-robot exploration ( http://arxiv.org/abs/2301.09213v1 )

ライセンス: Link先を確認
Nikolaos Stathoulopoulos, Anton Koval, Ali-akbar Agha-mohammadi and George Nikolakopoulos(参考訳) 本稿では,ロボットの姿勢に対する手動の初期推測や事前の知識に依存しない重なり検出とアライメントに基づく,自己中心型異種マルチロボット探索のための3Dポイントクラウドマップ統合フレームワークを提案する。 提案手法では,最先端の場所認識学習記述子を用いて,フレームワークのメインパイプラインを通じて高速かつ堅牢な領域重複推定を行う。これにより,一般的に3次元マップ統合で使用されるグローバルな特徴抽出と特徴マッチングプロセスの必要性がなくなる。 領域重なり推定は、ポイントクラウド登録アルゴリズムであるFast-GICPの初期条件として適用され、最終的なアライメントと洗練されたアライメントを提供する均一な剛性変換を提供する。 提案手法の有効性は,地上と空中の両方のロボットを配置し,センサ構成が異なる地下環境における複数フィールド多ロボット探査ミッションに基づいて実験的に評価される。

This article presents a 3D point cloud map-merging framework for egocentric heterogeneous multi-robot exploration, based on overlap detection and alignment, that is independent of a manual initial guess or prior knowledge of the robots' poses. The novel proposed solution utilizes state-of-the-art place recognition learned descriptors, that through the framework's main pipeline, offer a fast and robust region overlap estimation, hence eliminating the need for the time-consuming global feature extraction and feature matching process that is typically used in 3D map integration. The region overlap estimation provides a homogeneous rigid transform that is applied as an initial condition in the point cloud registration algorithm Fast-GICP, which provides the final and refined alignment. The efficacy of the proposed framework is experimentally evaluated based on multiple field multi-robot exploration missions in underground environments, where both ground and aerial robots are deployed, with different sensor configurations.
翻訳日:2023-01-24 14:28:22 公開日:2023-01-22
# 事前学習言語モデルにおける表現的ハームの測定基準に関する実証的研究

An Empirical Study of Metrics to Measure Representational Harms in Pre-Trained Language Models ( http://arxiv.org/abs/2301.09211v1 )

ライセンス: Link先を確認
Saghar Hosseini and Hamid Palangi and Ahmed Hassan Awadallah(参考訳) 大規模事前学習言語モデル(PTLM)は、潜在社会的バイアスと有害な内容を含む膨大な人文データから知識を抽出する。 本稿では,PTLMの基本課題である言語モデリングを活用し,PTLMにおける暗黙的表現的害の定量化のための新しい指標を提案する。 この測定値を用いて,24種類のptlmの実証分析を行った。 我々の分析は、本研究における提案された指標と他の関連する指標との相関関係に関する洞察を与える。 我々の測定基準は、文献の男女別指標のほとんどと相関していることを観察した。 広範な実験を通じて、ptlmsアーキテクチャとネットワークの深さと幅の2次元にわたる表現的危害の関係を探索する。 いくつかのPTLMでは,幅よりも深度を優先し,表現障害を軽減することが判明した。 コードとデータはhttps://github.com/microsoft/SafeNLPで確認できます。

Large-scale Pre-Trained Language Models (PTLMs) capture knowledge from massive human-written data which contains latent societal biases and toxic contents. In this paper, we leverage the primary task of PTLMs, i.e., language modeling, and propose a new metric to quantify manifested implicit representational harms in PTLMs towards 13 marginalized demographics. Using this metric, we conducted an empirical analysis of 24 widely used PTLMs. Our analysis provides insights into the correlation between the proposed metric in this work and other related metrics for representational harm. We observe that our metric correlates with most of the gender-specific metrics in the literature. Through extensive experiments, we explore the connections between PTLMs architectures and representational harms across two dimensions: depth and width of the networks. We found that prioritizing depth over width, mitigates representational harms in some PTLMs. Our code and data can be found at https://github.com/microsoft/SafeNLP.
翻訳日:2023-01-24 14:28:04 公開日:2023-01-22
# 双方向変換器を用いたシーケンスレコメンデーションにおけるクローズタスクのデバイアス

Debiasing the Cloze Task in Sequential Recommendation with Bidirectional Transformers ( http://arxiv.org/abs/2301.09210v1 )

ライセンス: Link先を確認
Khalil Damak, Sami Khenissi, Olfa Nasraoui(参考訳) 双方向トランスフォーマーアーキテクチャ(Bidirectional Transformer architecture)は、Clozeタスクに基づく双方向表現能力(仮面言語モデリング)を使用する最先端のシーケンシャルレコメンデーションモデルである。 後者は、シーケンス内でランダムにマスクされたアイテムを予測することを目的としている。 真の相互作用アイテムが最も関連性が高いと仮定するため、露光バイアスが発生し、露光率の低い非相互作用アイテムは無関係であると仮定される。 推奨における露出バイアスを緩和するための最も一般的なアプローチは、その暴露傾向に比例して、相互作用する損失関数の予測を下げて、理論的に偏りのない学習へと導くinverse propensity scoring(ips)である。 本研究は, IPS が時間的問題の性質を考慮せず, 逐次的な勧告に拡張されないことを議論し, 証明するものである。 そこで我々は,Clozeタスクの逐次的推奨を理論的に無視できる新しい確率スコアリング機構を提案する。 最後に,提案手法の脱バイアス能力と露出バイアスの重症度に対する頑健性を実証的に実証した。

Bidirectional Transformer architectures are state-of-the-art sequential recommendation models that use a bi-directional representation capacity based on the Cloze task, a.k.a. Masked Language Modeling. The latter aims to predict randomly masked items within the sequence. Because they assume that the true interacted item is the most relevant one, an exposure bias results, where non-interacted items with low exposure propensities are assumed to be irrelevant. The most common approach to mitigating exposure bias in recommendation has been Inverse Propensity Scoring (IPS), which consists of down-weighting the interacted predictions in the loss function in proportion to their propensities of exposure, yielding a theoretically unbiased learning. In this work, we argue and prove that IPS does not extend to sequential recommendation because it fails to account for the temporal nature of the problem. We then propose a novel propensity scoring mechanism, which can theoretically debias the Cloze task in sequential recommendation. Finally we empirically demonstrate the debiasing capabilities of our proposed approach and its robustness to the severity of exposure bias.
翻訳日:2023-01-24 14:27:50 公開日:2023-01-22
# 未来を予測するために過去を要約する: 自然言語によるマルチモーダルオブジェクトインタラクションの強化

Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction ( http://arxiv.org/abs/2301.09209v1 )

ライセンス: Link先を確認
Razvan-George Pasca, Alexey Gavryushin, Yen-Ling Kuo, Otmar Hilliges, Xi Wang(参考訳) エゴセントリックビデオにおける物体相互作用予測の課題について検討する。 将来のアクションとオブジェクトの予測に成功するには、過去のアクションとオブジェクトの関係によって形成される時空間的コンテキストを理解する必要がある。 本稿では,過去の行動を簡潔に要約し,言語の表現力を有効に活用するマルチモーダルトランスフォーマティブアーキテクチャであるtransfusionを提案する。 TransFusionはトレーニング済みの画像キャプションモデルを活用し、過去のアクションやオブジェクトに焦点を当ててキャプションを要約する。 このアクションコンテキストと単一の入力フレームはマルチモーダル融合モジュールによって処理され、次のオブジェクトインタラクションを予測する。 我々のモデルは,高密度な映像特徴を言語表現に置き換えることで,より効率的なエンドツーエンド学習を可能にする。 Ego4D と EPIC-KITCHENS-100 の実験は、我々の多モード融合モデルの有効性と言語に基づく文脈要約の利点を示している。 提案手法は,Ego4Dテストセット全体のmAPを40.4%向上させる。 EPIC-KITCHENS-100の実験によるTransFusionの一般性を示す。 ビデオとコードは、https://eth-ait.github.io/transfusion-proj/.com/で入手できる。

We study the task of object interaction anticipation in egocentric videos. Successful prediction of future actions and objects requires an understanding of the spatio-temporal context formed by past actions and object relationships. We propose TransFusion, a multimodal transformer-based architecture, that effectively makes use of the representational power of language by summarizing past actions concisely. TransFusion leverages pre-trained image captioning models and summarizes the caption, focusing on past actions and objects. This action context together with a single input frame is processed by a multimodal fusion module to forecast the next object interactions. Our model enables more efficient end-to-end learning by replacing dense video features with language representations, allowing us to benefit from knowledge encoded in large pre-trained models. Experiments on Ego4D and EPIC-KITCHENS-100 show the effectiveness of our multimodal fusion model and the benefits of using language-based context summaries. Our method outperforms state-of-the-art approaches by 40.4% in overall mAP on the Ego4D test set. We show the generality of TransFusion via experiments on EPIC-KITCHENS-100. Video and code are available at: https://eth-ait.github.io/transfusion-proj/.
翻訳日:2023-01-24 14:27:28 公開日:2023-01-22