このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221122となっている論文です。

PDF登録状況(公開日: 20221122)

TitleAuthorsAbstract論文公表日・翻訳日
# ユニタリ操作判別の問合せ複雑性

Query complexity of unitary operation discrimination ( http://arxiv.org/abs/2012.02944v2 )

ライセンス: Link先を確認
Xiaowei Huang and Lvzhou Li(参考訳) ユニタリ演算の識別は、量子計算と情報の基本である。 有名なdeutsch-jozsaアルゴリズム、simonのアルゴリズム、groverのアルゴリズムを含む多くの量子アルゴリズムは、本質的には個別あるいは一元演算の集合(oracle演算子)の識別と見なすことができる。 u$ と $v$ の2つのユニタリ演算を区別する問題は、次のように記述できる: $x\in\{u, v\}$ が与えられると、どれが$x$ であるかを決定する。 もし$X$が複数のコピーで与えられるなら、複数のクエリを$X$にすることで、識別結果を$X$に出力するアダプティブなプロシージャを設計できる。 所望の失敗確率を達成するために要求されるクエリ数は、$U$と$V$の区別の$\epsilon$である。 統一された枠組みで証明します (i)$U$と$V$が有界誤差$\epsilon$で判別された場合、$T$のクエリ数は$T\geq \left\lceil\frac{2\sqrt{1-4\epsilon(1-\epsilon)}}{\Theta (U^\dagger V)}\right\rceil$, and and (ii) 片面誤差$\epsilon$ で判別される場合、$t\geq \left\lceil\frac{2\sqrt{1-\epsilon^2}}{\theta (u^\dagger v)}\right\rceil$, ここで $\lceil k\rceil$ は単位円上の$w$ の固有値を含む最小の弧の長さを表す。

Discrimination of unitary operations is fundamental in quantum computation and information. A lot of quantum algorithms including the well-known Deutsch-Jozsa algorithm, Simon's algorithm, and Grover's algorithm can essentially be regarded as discriminating among individual, or sets of unitary operations (oracle operators). The problem of discriminating between two unitary operations $U$ and $V$ can be described as: Given $X\in\{U, V\}$, determine which one $X$ is. If $X$ is given with multiple copies, then one can design an adaptive procedure that takes multiple queries to $X$ to output the identification result of $X$. In this paper, we consider the problem: How many queries are required for achieving a desired failure probability $\epsilon$ of discrimination between $U$ and $V$. We prove in a uniform framework: (i) if $U$ and $V$ are discriminated with bound error $\epsilon$ , then the number of queries $T$ must satisfy $T\geq \left\lceil\frac{2\sqrt{1-4\epsilon(1-\epsilon)}}{\Theta (U^\dagger V)}\right\rceil$, and (ii) if they are discriminated with one-sided error $\epsilon$, then there is $T\geq \left\lceil\frac{2\sqrt{1-\epsilon^2}}{\Theta (U^\dagger V)}\right\rceil$, where $\lceil k\rceil$ denotes the minimum integer not less than $k$ and $\Theta(W)$ denotes the length of the smallest arc containing all the eigenvalues of $W$ on the unit circle.
翻訳日:2023-04-22 00:53:49 公開日:2022-11-22
# 単体サブグループテスト

Unitary Subgroup Testing ( http://arxiv.org/abs/2104.03591v3 )

ライセンス: Link先を確認
Zvika Brakerski, Devika Sharma, Guy Weissenberg(参考訳) 量子回路に対する$\textit{subgroup testing}$の問題は、$C$:$C$へのアクセスを与えられた場合、単位群のサブグループ$\mathcal{G}$から$a$-closeあるいは$b$-farのユニタリを実装しているかどうかを決定する。 正確なテスト、プロパティテスト、耐性テストの問題を包含する。 本研究では、これらの問題を自明な部分群として $\mathcal{G}$ あるいは Pauli あるいは Clifford 群とその $q$-ary 拡張として、および $C$ が $\mathcal{G}$ を含むユニタリ群の一部部分群に属することを約束する $\textit{promise}$ として研究する。 私たちの主な成果は、Pauliテスト、Cliffordテスト、Identityテストの等価性です。 クリフォードユニタリの構造特性を示すことにより、クリフォード検定とアイデンティティ検定の等価性を導出する。 すなわち、それらの(正規化された)トレースは、次元に関係なく、離散集合 $\{2^{-k/2}: k \in \mathbb{N}\} \cup \{0\}$ にある。 また、$q$-ary Cliffords の類似性についても述べ、証明する。 この結果、Clifford/Pauli の約束の下で、非常に単純な単一クエリIDテストを分析することができる。 パウリと同一性テストの同値性を証明するために、パウリ群上の非パウリユニタリの共役作用を分析し、パウリ群からの距離が不動点の数に影響することを示す。 これらの結果は、同値性を確立するための応用とは独立して、興味のあるものであると我々は信じている。 等価性を用いて、パウリとクリフォードテストの問題に対して計算硬度を比較する(そして確立する)。

We consider the problem of $\textit{subgroup testing}$ for a quantum circuit $C$: given access to $C$, determine whether it implements a unitary that is $a$-close or $b$-far from a subgroup $\mathcal{G}$ of the unitary group. It encompasses the problem of exact testing, property testing and tolerant testing. In this work, we study these problems with the group $\mathcal{G}$ as the trivial subgroup (i.e. identity testing) or the Pauli or Clifford group and their $q$-ary extension, and a $\textit{promise}$ version of these problems where $C$ is promised to be in some subgroup of the unitaries that contains $\mathcal{G}$ (e.g. identity testing for Clifford circuits). Our main result is an equivalence between Pauli testing, Clifford testing and Identity testing. We derive the equivalence between Clifford and Identity testing by showing a structural property of the Clifford unitaries. Namely, that their (normalized) trace lies in the discrete set $\{2^{-k/2}: k \in \mathbb{N}\} \cup \{0\}$, regardless of the dimension. We also state and prove the analogous property for the $q$-ary Cliffords. This result allows us to analyze a very simple single-query identity test under the Clifford/Pauli promise. To prove the equivalence between Pauli and Identity testing, we analyze the conjugation action of a non-Pauli unitary on the Pauli group and show that its distance from the Pauli group affects the number of fixed points. We believe that these results are of interest, independent of their application to establish the equivalences. We use the equivalences to compare (and thus establish) computational hardness for the problems of Pauli and Clifford testing.
翻訳日:2023-04-04 12:13:20 公開日:2022-11-22
# 非平衡境界駆動量子システム:モデル、方法、性質

Non-equilibrium boundary driven quantum systems: models, methods and properties ( http://arxiv.org/abs/2104.14350v4 )

ライセンス: Link先を確認
Gabriel T. Landi, Dario Poletti and Gernot Schaller(参考訳) 近年、量子系の理論的理解が著しく進歩し、その端の異なる浴槽にそれらを結合することで散逸的に駆動された。 これは、これらのシステムを表現するために使用されるモデルの同時進行、採用方法、および出現する現象論の分析により可能となった。 ここでは,これら3つの統合研究の方向性を概観する。 まず,弱結合法と強結合法の両方において,境界駆動型オープン量子システムのモデルの概要を概観する。 続いて、最先端の分析法と数値法について、厳密で摂動的、そして近似的にレビューする。 最後に,不規則・準周期システム,整流・負微分コンダクタンスの出現,相転移の役割に着目し,いくつかのパラダイム的一次元鎖の輸送特性について論じ,さらなる研究の選択肢について展望する。

Recent years have seen tremendous progress in the theoretical understanding of quantum systems driven dissipatively by coupling them to different baths at their edges. This was possible because of the concurrent advances in the models used to represent these systems, the methods employed, and the analysis of the emerging phenomenology. Here we aim to give a comprehensive review of these three integrated research directions. We first provide an overarching view of the models of boundary-driven open quantum systems, both in the weak and strong coupling regimes. This is followed by a review of state-of-the-art analytical and numerical methods, both exact, perturbative and approximate. Finally, we discuss the transport properties of some paradigmatic one-dimensional chains, with an emphasis on disordered and quasiperiodic systems, the emergence of rectification and negative differential conductance, and the role of phase transitions, and we give an outlook on further research options.
翻訳日:2023-04-02 02:10:11 公開日:2022-11-22
# 一次元量子力学から古典リアプノフ指数を抽出する

Extracting classical Lyapunov exponent from one-dimensional quantum mechanics ( http://arxiv.org/abs/2105.09603v3 )

ライセンス: Link先を確認
Takeshi Morita(参考訳) 1次元量子力学における逆調和振動子(iho)における整流子$[x(t),p]$は顕著な性質を示す。 c数に減少し、任意の状態に対する量子揺らぎを示すことはない。 この性質に関連して、オフ・オブ・タイム・コリレーター (otoc) $\langle [x(t),p]^2 \rangle $ で計算された量子リアプノフ指数は古典的値と正確に一致する。 したがって、OTOCはIHOにおける蝶効果の理想的な指標であると考えられる。 IHO は物理学においてユビキタスであるため、可換作用素 $[x(t),p]$ と OTOC のこれらの性質は様々な状況でも見られる。 この点を明らかにするため、第1ステップとして、古典力学においてポテンシャルのピーク付近に蝶効果を示す多項式ポテンシャルを持つ1次元量子力学におけるOTOCについて検討する。 OTOCsがピークの古典的リアプノフ指数を再現する指数的成長を示す2つの状況を見出した。 第一は、明らかに、ピーク付近で適切に局所化されたウェーブパケットを使用しており、第二は非臨界弦理論における大きなN$制限に類似した制限を取っている。

The commutator $[x(t),p]$ in an inverted harmonic oscillator (IHO) in one-dimensional quantum mechanics exhibits remarkable properties. It reduces to a c-number and does not show any quantum fluctuations for arbitrary states. Related to this nature, the quantum Lyapunov exponent computed through the out-of-time-order correlator (OTOC) $\langle [x(t),p]^2 \rangle $ precisely agrees with the classical one. Hence, the OTOC may be regarded as an ideal indicator of the butterfly effect in the IHO. Since IHOs are ubiquitous in physics, these properties of the commutator $[x(t),p]$ and the OTOCs might be seen in various situations, too. In order to clarify this point, as a first step, we investigate OTOCs in one-dimensional quantum mechanics with polynomial potentials, which exhibit butterfly effects around the peak of the potential in classical mechanics. We find two situations in which the OTOCs show exponential growth reproducing the classical Lyapunov exponent of the peak. The first one, which is obvious, is using a suitably localized wave packet near the peak, and the second one is taking a limit akin to the large-$N$ limit in the noncritical string theories.
翻訳日:2023-03-30 07:28:21 公開日:2022-11-22
# 非エルミート的マクスウェルの悪魔

Non-Hermitian Maxwell's Demon ( http://arxiv.org/abs/2109.03690v4 )

ライセンス: Link先を確認
Kui Cao, Qian Du and Su-Peng Kou(参考訳) マックスウェルの悪魔は、1871年にマックスウェルによって初めて導入され、追加情報の流れによる熱力学の第2法則の限界について議論された。 この論文では、マクスウェルのデーモンの代替型として、マクスウェルのデーモンとは全く異なる性質を示し、単体と多体の性質のミスマッチ、任意の高温でのボース=アインシュタイン凝縮、ゴールドストーンの定理に反する相転移などの非エルミート系におけるリッチな物理現象を導くマクスウェルのデーモンが発見される。 これは、量子多体系をチューニングし、エキゾチックな量子相と相転移を実現する代替自由度を提供する。

Maxwell's demon was first introduced by Maxwell in 1871 to discuss the limitations of the second law of thermodynamics due to addition information flow. In this paper, an alternative type of Maxwell's demon -- non-Hermitian Maxwell's demon is uncovered that shows quite different properties as the original Maxwell's demon and leads to rich physics phenomena in non-Hermitian systems, such as mismatch between single-body and many-body properties, Bose-Einstein condensation at arbitrary high temperature, phase transition that violates the Goldstone theorem. This provides an alternative degree of freedom to tune quantum many-body systems and realize exotic quantum phases and phase transitions.
翻訳日:2023-03-15 20:33:08 公開日:2022-11-22
# 高エンタングルグラフ状態構築のための一般安定化器アプローチ

General stabilizer approach for constructing highly entangled graph states ( http://arxiv.org/abs/2111.08045v2 )

ライセンス: Link先を確認
Zahra Raissi, Adam Burchardt, and Edwin Barnes(参考訳) k-ユニフォーム (k-UNI) や絶対最大エンタングルド (AME) 状態のような高絡み合いの多粒子状態は、量子ネットワークやその他の量子情報アプリケーションにおいて重要な資源となる。 しかし、これらの状態の完全な分類はまだ存在せず、その絡み合い構造については不明な点が多い。 ここでは、既知のk-UNIおよびAME状態のクラスを、古典的誤り訂正符号とquditグラフ状態を組み合わせた明示的な構成法を導入することにより、大幅に拡張する。 実際、この方法は古典的符号から多部交絡状態を得るための一般的なレシピを構成する。 さらに、この新種k-UNI状態の少なくとも大部分集合に対して、各状態は確率的局所演算と古典的通信では等価でないことを示す。 この部分集合は、k-UNIグラフ状態の階層を構成する反復手順によって定義される。

Highly entangled multipartite states such as k-uniform (k-UNI) and absolutely maximally entangled (AME) states serve as critical resources in quantum networking and other quantum information applications. However, there does not yet exist a complete classification of such states, and much remains unknown about their entanglement structure. Here, we substantially broaden the class of known k-UNI and AME states by introducing a method for explicitly constructing such states that combines classical error correcting codes and qudit graph states. This method in fact constitutes a general recipe for obtaining multipartitite entangled states from classical codes. Furthermore, we show that at least for a large subset of this new class of k-UNI states, the states are inequivalent under stochastic local operations and classical communication. This subset is defined by an iterative procedure for constructing a hierarchy of k-UNI graph states.
翻訳日:2023-03-08 02:09:16 公開日:2022-11-22
# Cox's Bazar Refugee 集落における接触行列決定への混合手法によるアプローチ

A Mixed-Method Approach to Determining Contact Matrices in the Cox's Bazar Refugee Settlement ( http://arxiv.org/abs/2212.01334v1 )

ライセンス: Link先を確認
Joseph Walker, Joseph Aylett-Bullock, Difu Shi, Allen Gidraf Kahindo Maina, Egmond Samir Evers, Sandra Harlass, Frank Krauss(参考訳) 接触行列は、人口のサブグループ間での疾患のシミュレーション拡散を知らせる年齢構成の流行モデルにおいて重要な要素である。 これらの行列は一般的に資源集約的な日記に基づく調査によって導き出され、グローバル・サウスにはほとんど存在しない。 特に、一般的な疫病モデルによって保護されている難民居住地に対する接触行列は存在しない。 本稿では, 軽量で迅速な展開が可能な人口調査と, 国勢調査と行動データから情報を得たエージェントベース人口モデルを組み合わせた, 集団の接触行列を導出する新しい混合手法を提案する。 バングラデシュのバザール難民居住地における最初の接触行列を導出するためにこの手法を用いる。 難民居留地の行列は、流通センターや宗教施設など特定の会場での年齢差によるバンドリング効果が強く、また、このモデルで符号化された居住地の人口統計学的プロファイルの重要な寄与も示している。 これらは、モデル化された疾患のダイナミクスに重大な影響を及ぼす可能性がある。 また,本手法をイギリスの人口に応用し,従来の手法を用いて収集したよく知られた接触行列と比較した。 以上の結果から,我々の混合メソッドアプローチは,接触行列を導出する従来のエージェントベースアプローチと,それ以前に提案されたエージェントベースアプローチの両方の課題に対処でき,他の資源制約環境でもロールアウトできる可能性が示唆された。 この研究は、難民やIDPの居住地に広がる病気をモデリングし、これらの脆弱なコミュニティにより良いサービスを提供するための、新たな方法とデータ収集機構の開発に寄与する。

Contact matrices are an important ingredient in age-structured epidemic models to inform the simulated spread of the disease between sub-groups of the population. These matrices are generally derived using resource-intensive diary-based surveys and few exist in the Global South or tailored to vulnerable populations. In particular, no contact matrices exist for refugee settlements - locations under-served by epidemic models in general. In this paper we present a novel, mixed-method approach, for deriving contact matrices in populations which combines a lightweight, rapidly deployable, survey with an agent-based model of the population informed by census and behavioural data. We use this method to derive the first set of contact matrices for the Cox's Bazar refugee settlement in Bangladesh. The matrices from the refugee settlement show strong banding effects due to different age cut-offs in attendance at certain venues, such as distribution centres and religious sites, as well as the important contribution of the demographic profile of the settlement which was encoded in the model. These can have significant implications to the modelled disease dynamics. To validate our approach, we also apply our method to the population of the UK and compare our derived matrices against well-known contact matrices previously collected using traditional approaches. Overall, our findings demonstrate that our mixed-method approach can address some of the challenges of both the traditional and previously proposed agent-based approaches to deriving contact matrices, and has the potential to be rolled-out in other resource-constrained environments. This work therefore contributes to a broader aim of developing new methods and mechanisms of data collection for modelling disease spread in refugee and IDP settlements and better serving these vulnerable communities.
翻訳日:2023-02-19 12:49:18 公開日:2022-11-22
# #Secim2023:トルコ総選挙研究のための最初の公開データセット

#Secim2023: First Public Dataset for Studying Turkish General Election ( http://arxiv.org/abs/2211.13121v1 )

ライセンス: Link先を確認
Ali Najafi, Nihat Mugurtay, Ege Demirci, Serhat Demirkiran, Huseyin Alper Karadeniz, Onur Varol(参考訳) トルコの議会と大統領選挙(トルコ語で「se\c{c}im」)の文脈において、ソーシャルメディアは公開討論を形成する上で重要な役割を担っている。 ソーシャルメディアプラットフォームへの市民の関与の増大は、政治家によるソーシャルメディアの利用の増加につながった。 ソーシャルメディアは、選挙プロパガンダ、政治討論、スミアキャンペーン、国内外の俳優による選挙操作の重要な要素になりつつある。 我々は、ソーシャルメディア研究者が今後の選挙を調査し、オンライン操作を防ぐツールを開発し、新しい情報を収集し、大衆に知らせるための包括的なデータセットを提供する。 我々は、データの収集を継続的に改善し、選挙に先立って定期的に更新することを約束します。 Secim2023データセットを使用して、研究者は政治アクター間の社会的およびコミュニケーションネットワークを調べ、現在の傾向を追跡し、選挙の完全性に対する新たな脅威を調べることができる。 私たちのデータセットは、https://github.com/ViralLab/Secim2023_Datasetで利用可能です。

In the context of Turkey's upcoming parliamentary and presidential elections ("se\c{c}im" in Turkish), social media is playing an important role in shaping public debate. The increasing engagement of citizens on social media platforms has led to the growing use of social media by political actors. It is of utmost importance to capture the upcoming Turkish elections, as social media is becoming an essential component of election propaganda, political debates, smear campaigns, and election manipulation by domestic and international actors. We provide a comprehensive dataset for social media researchers to study the upcoming election, develop tools to prevent online manipulation, and gather novel information to inform the public. We are committed to continually improving the data collection and updating it regularly leading up to the election. Using the Secim2023 dataset, researchers can examine the social and communication networks between political actors, track current trends, and investigate emerging threats to election integrity. Our dataset is available at: https://github.com/ViralLab/Secim2023_Dataset
翻訳日:2023-02-19 12:36:42 公開日:2022-11-22
# ネットワーク共進化は分離を駆動し、協調ゲームにおけるパレート最適平衡選択を強化する

Network coevolution drives segregation and enhances Pareto optimal equilibrium selection in coordination games ( http://arxiv.org/abs/2211.12116v1 )

ライセンス: Link先を確認
Miguel A. Gonz\'alez Casado, Angel S\'anchez and Maxi San Miguel(参考訳) 本研究では,コーディネーションゲームを行うエージェント間の相互作用ネットワークの動的適応が,グローバルコーディネートや均衡選択において果たす役割を評価する。 具体的には、エージェントの動作の変化をネットワークダイナミクスと組み合わせた共進化モデルを分析し、エージェントがゲームをプレイしている間に、現在の接続の一部を切断し、他の人と接続することができる。 Replicator Dynamics(RD)とUnconditional Imitation(UI)の2つの更新ルールに注目します。 我々は、選択が等価な純粋コーディネートゲーム(PCG)と、リスク優先のアクションとペイオフ優先のアクションがある一般コーディネートゲーム(GCG)について検討する。 ネットワーク可塑性はリンクを再配線する確率によって測定される。 この可塑性パラメータを変更することで、システムは単一の接続されたコンポーネントで完全に協調するレジームから、2つの接続されたコンポーネントでシステムを断片化するレジームへ移行する(どちらのアクションも等価かどうかに関わらず)。 この断片化移行の性質は、異なる更新ルールに対して異なる。 第2に,GCG における RD と UI のどちらにおいても,断片化遷移の前には可塑性の中間値の体系が存在すること,すなわち,システムが単一コンポーネントネットワークにおいて,ペイオフ・アドミナント・アクション上で完全に協調できることを示す。 e. 共進化は、両更新規則のペイオフ支配均衡選択を強化する。

In this work we assess the role played by the dynamical adaptation of the interactions network, among agents playing Coordination Games, in reaching global coordination and in the equilibrium selection. Specifically, we analyze a coevolution model that couples the changes in agents' actions with the network dynamics, so that while agents play the game, they are able to sever some of their current connections and connect with others. We focus on two update rules: Replicator Dynamics (RD) and Unconditional Imitation (UI). We investigate a Pure Coordination Game (PCG), in which choices are equivalent, and on a General Coordination Game (GCG), for which there is a risk-dominant action and a payoff-dominant one. The network plasticity is measured by the probability to rewire links. Changing this plasticity parameter, there is a transition from a regime in which the system fully coordinates in a single connected component to a regime in which the system fragments in two connected components, each one coordinated on a different action (either if both actions are equivalent or not). The nature of this fragmentation transition is different for different update rules. Second, we find that both for RD and UI in a GCG, there is a regime of intermediate values of plasticity, before the fragmentation transition, for which the system is able to fully coordinate in a single component network on the payoff-dominant action, i. e., coevolution enhances payoff-dominant equilibrium selection for both update rules.
翻訳日:2023-02-19 12:35:37 公開日:2022-11-22
# 最小艦隊サイズ問題のmin-max定理

A min-max theorem for the minimum fleet-size problem ( http://arxiv.org/abs/2211.11173v2 )

ライセンス: Link先を確認
Tinghan Ye and David Shmoys(参考訳) 振り返りフリートサイズの問題は、最大濃度マッチングが全ての旅行をカバーするのに必要な車両の最小数に対応する二部会マッチングによって解決できる。 最小のフリートサイズ問題に対するミニマックスの定理を証明し、ペアの非互換トリップの最大数は必要な最小のフリートサイズに等しい。

A retrospective fleet-sizing problem can be solved via bipartite matching, where a maximum cardinality matching corresponds to the minimum number of vehicles needed to cover all trips. We prove a min-max theorem on this minimum fleet-size problem: the maximum number of pairwise incompatible trips is equal to the minimum fleet size needed.
翻訳日:2023-02-19 12:33:19 公開日:2022-11-22
# 誰が追跡してる? 商用Bluetooth追跡ネットワークのサーベイランス・キャピタリストによる検討

Who Tracks Who? A Surveillance Capitalist Examination of Commercial Bluetooth Tracking Networks ( http://arxiv.org/abs/2211.11070v2 )

ライセンス: Link先を確認
Hongrui Jin(参考訳) Bluetoothやモバイルデバイスを利用した物体と人物の追跡ネットワークは、公衆の安全と個人の懸念のために人気が高まっている。 このエッセイでは、一般的な商用追跡ネットワークと、監視資本主義とデジタルプライバシに関するapple、samsung、tileのキャンペーンを調査し、そのネットワークを通じてコモディティ化された隠れた資産を発見し、個々のプライバシを危険にさらすことなく、ユーザを規制のないデジタル労働に変える可能性について考察する。

Object and person tracking networks powered by Bluetooth and mobile devices have become increasingly popular for purposes of public safety and individual concerns. This essay examines popular commercial tracking networks and their campaigns from Apple, Samsung and Tile with reference to surveillance capitalism and digital privacy, discovering the hidden assets commodified through said networks, and their potential of turning users into unregulated digital labour while leaving individual privacy at risk.
翻訳日:2023-02-19 12:32:53 公開日:2022-11-22
# ハームを減らすための赤いチーム言語モデル:メソッド、スケーリング行動、学んだ教訓

Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned ( http://arxiv.org/abs/2209.07858v2 )

ライセンス: Link先を確認
Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, Andy Jones, Sam Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield-Dodds, Tom Henighan, Danny Hernandez, Tristan Hume, Josh Jacobson, Scott Johnston, Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei, Tom Brown, Nicholas Joseph, Sam McCandlish, Chris Olah, Jared Kaplan, Jack Clark(参考訳) 我々は、潜在的に有害なアウトプットを同時に発見し、測定し、そして減らすために、チーム言語モデルを設計する初期の取り組みについて説明する。 主な貢献は3つです。 まず,3つのモデルサイズ (2.7B, 13B, 52Bパラメータ) と4つのモデルタイプ (プレーン言語モデル (LM) , LM は有益で正直で無害であるように促された, LM は拒絶サンプリングを伴う, モデルは人間からのフィードバックからの強化学習 (RLHF) を用いて有益で無害であるように訓練された。 rlhfモデルは、スケールするにつれて、赤チームではますます難しくなっていますし、他のモデルタイプでは、フラットな傾向が見られます。 次に、分析とそこから学ぶために38,961のレッドチームアタックのデータセットをリリースします。 我々は、データの解析を行い、攻撃的言語から非暴力的非倫理的なアウトプットまで、様々な有害なアウトプットを見つけ出す。 第3に,レッドチームに関する指示,プロセス,統計的方法論,不確実性について,徹底的に説明します。 この透明性がコミュニティとして協力して、red team language modelの方法に関する規範やプラクティス、技術的標準を共有する能力を促進できることを願っています。

We describe our early efforts to red team language models in order to simultaneously discover, measure, and attempt to reduce their potentially harmful outputs. We make three main contributions. First, we investigate scaling behaviors for red teaming across 3 model sizes (2.7B, 13B, and 52B parameters) and 4 model types: a plain language model (LM); an LM prompted to be helpful, honest, and harmless; an LM with rejection sampling; and a model trained to be helpful and harmless using reinforcement learning from human feedback (RLHF). We find that the RLHF models are increasingly difficult to red team as they scale, and we find a flat trend with scale for the other model types. Second, we release our dataset of 38,961 red team attacks for others to analyze and learn from. We provide our own analysis of the data and find a variety of harmful outputs, which range from offensive language to more subtly harmful non-violent unethical outputs. Third, we exhaustively describe our instructions, processes, statistical methodologies, and uncertainty about red teaming. We hope that this transparency accelerates our ability to work together as a community in order to develop shared norms, practices, and technical standards for how to red team language models.
翻訳日:2023-02-19 11:14:34 公開日:2022-11-22
# 救急部門過密の長期予測のための時間型核融合変圧器

A Temporal Fusion Transformer for Long-term Explainable Prediction of Emergency Department Overcrowding ( http://arxiv.org/abs/2207.00610v3 )

ライセンス: Link先を確認
Francisco M. Caldas and Cl\'audia Soares(参考訳) 救急省(ED)はポルトガル国民健康サービスの基本的要素であり、多様で非常に深刻な医療問題を抱える利用者のエントリポイントとして機能している。 EDの本質的な特徴から,サービスを利用する患者数を予測することは特に困難である。 また、多給者と医療従事者数のミスマッチは、提供されたサービスの質を低下させ、他の部署の医療従事者の徴発や手術の延期など、病院全体の損害を被る問題を引き起こす可能性がある。 edオーバークローディング(ed overcrowding)は、医療上の緊急事態を伴わず、毎日の患者数のほぼ半分を占める救急サービスを利用する非患者によって部分的に駆動される。 本稿では,カレンダーと時系列共変量を用いて4週間の予測間隔とポイント予測を行う,新しいディープラーニングアーキテクチャであるtemporal fusion transformerについて述べる。 我々は,ポルトガルの保健地域(HRA)では平均絶対過誤(MAPE)が5.90%,Root Mean Squared Error(RMSE)が84.4102人/日で予測可能であると結論づけた。 この論文は、静的および時系列共変量を用いた多変量アプローチの使用を支持する実証的証拠を示し、文献で一般的に見られる他のモデルを超えている。

Emergency Departments (EDs) are a fundamental element of the Portuguese National Health Service, serving as an entry point for users with diverse and very serious medical problems. Due to the inherent characteristics of the ED; forecasting the number of patients using the services is particularly challenging. And a mismatch between the affluence and the number of medical professionals can lead to a decrease in the quality of the services provided and create problems that have repercussions for the entire hospital, with the requisition of health care workers from other departments and the postponement of surgeries. ED overcrowding is driven, in part, by non-urgent patients, that resort to emergency services despite not having a medical emergency and which represent almost half of the total number of daily patients. This paper describes a novel deep learning architecture, the Temporal Fusion Transformer, that uses calendar and time-series covariates to forecast prediction intervals and point predictions for a 4 week period. We have concluded that patient volume can be forecasted with a Mean Absolute Percentage Error (MAPE) of 5.90% for Portugal's Health Regional Areas (HRA) and a Root Mean Squared Error (RMSE) of 84.4102 people/day. The paper shows empirical evidence supporting the use of a multivariate approach with static and time-series covariates while surpassing other models commonly found in the literature.
翻訳日:2023-02-19 09:34:15 公開日:2022-11-22
# ブール立方体上の変分量子機械学習の表現性

Expressivity of Variational Quantum Machine Learning on the Boolean Cube ( http://arxiv.org/abs/2204.05286v2 )

ライセンス: Link先を確認
Dylan Herman, Rudy Raymond, Muyuan Li, Nicolas Robles, Antonio Mezzacapo, Marco Pistoia(参考訳) 分類データは機械学習研究において重要な役割を果たし、様々な応用に現れる。 ブール立方体上の実数値関数の大きなクラスを表現できるモデルは、ブールでないものを含む離散値データ型を含む問題に有用である。 今日まで、古典データを変分量子機械学習モデルに埋め込むための一般的なスキームは、連続的な値をエンコードする。 本稿では、ブール値データを機械学習タスクに使用するパラメータ化量子回路に符号化するための量子埋め込みについて検討する。 我々は2つの量子埋め込み(位相埋め込みと量子ランダムアクセス符号に基づく埋め込み)を用いて、n$-dimensional boolean cube 上の関数の表現可能性条件を以前知られていた結果に関して狭める。 我々は、$n$-次元ブール立方体上の任意の実数値関数に対して、それを表現できる$n$ qubitsと、最大$d$で任意の関数を表現できる$d < n$ qubitsを用いたようなモデルのアンサンブルを用いた位相埋め込みに基づく変分線形量子モデルが存在することを示した。 さらに、量子ランダムアクセスコードを用いた変分線形量子モデルは、次数$d\leq \lceil\frac{n}{3}\rceil$でブール立方体上の関数を表現することができ、そのようなモデルのアンサンブルは次数$d\leq \lceil\frac{n}{3}\rceil$でブール立方体上の任意の関数を表現することができることを証明している。 さらに,各組込みの潜在的メリットと連続繰り返しの影響について考察する。 最後に,qiskit機械学習フレームワークを用いて,ibm量子プロセッサ上での数値シミュレーションと実験を行い,組込みの利用を実証する。

Categorical data plays an important part in machine learning research and appears in a variety of applications. Models that can express large classes of real-valued functions on the Boolean cube are useful for problems involving discrete-valued data types, including those which are not Boolean. To this date, the commonly used schemes for embedding classical data into variational quantum machine learning models encode continuous values. Here we investigate quantum embeddings for encoding Boolean-valued data into parameterized quantum circuits used for machine learning tasks. We narrow down representability conditions for functions on the $n$-dimensional Boolean cube with respect to previously known results, using two quantum embeddings: a phase embedding and an embedding based on quantum random access codes. We show that for any real-valued function on the $n$-dimensional Boolean cube, there exists a variational linear quantum model based on a phase embedding using $n$ qubits that can represent it and an ensemble of such models using $d < n$ qubits that can express any function with degree at most $d$. Additionally, we prove that variational linear quantum models that use the quantum random access code embedding can express functions on the Boolean cube with degree $ d\leq \lceil\frac{n}{3}\rceil$ using $\lceil\frac{n}{3}\rceil$ qubits, and that an ensemble of such models can represent any function on the Boolean cube with degree $ d\leq \lceil\frac{n}{3}\rceil$. Furthermore, we discuss the potential benefits of each embedding and the impact of serial repetitions. Lastly, we demonstrate the use of the embeddings presented by performing numerical simulations and experiments on IBM quantum processors using the Qiskit machine learning framework.
翻訳日:2023-02-17 08:12:55 公開日:2022-11-22
# 加熱冷却におけるエネルギー力学、情報および熱流と量子から古典的熱力学への交差

Energy dynamics, information and heat flow in quenched cooling and the crossover from quantum to classical thermodynamics ( http://arxiv.org/abs/2204.12411v2 )

ライセンス: Link先を確認
V. Ohanesjan, Y. Cheipesh, N. V. Gnezdilov, A. I. Pavlov, K. Schalm(参考訳) ホット多体量子系が低温多体量子系と瞬時に接触する場合のダイナミクスは、早期量子相関 (von neumann entropy) ゲインと後期エネルギー緩和の組み合わせとして理解することができる。 最も短い時間スケールでは、平衡熱力学は適用されないものの、エントロピーゲインに関連付けられた各系のエネルギー増加が示されている。 このエネルギー増加は量子起源であり、2つの系間の集合結合エネルギーから生じる。 対意的に言えば、この2つの系の高温もまた、他の冷却系と接触すると、一般的に初期エネルギーの増加を経験することを意味する。 エネルギー緩和が(量子)相関の蓄積を圧倒する極限において、古典的なエネルギー力学は、冷却器系と接触すると熱システムのエネルギーがすぐに減少する。 強い相関を持つsyk系と弱い相関を持つ混合場イジング鎖の両方を用いて、これらの特性を示し、ブラックホール蒸発と量子熱力学の両方にその影響について解説する。

The dynamics when a hot many-body quantum system is brought into instantaneous contact with a cold many-body quantum system can be understood as a combination of early time quantum correlation (von Neumann entropy) gain and late time energy relaxation. We show that at the shortest timescales there is an energy increase in each system linked to the entropy gain, even though equilibrium thermodynamics does not apply. This energy increase is of quantum origin and results from the collective binding energy between the two systems. Counter-intuitively, this implies that also the hotter of the two systems generically experiences an initial energy increase when brought into contact with the other colder system. In the limit where the energy relaxation overwhelms the (quantum) correlation build-up, classical energy dynamics emerges where the energy in the hot system decreases immediately upon contact with a cooler system. We use both strongly correlated SYK systems and weakly correlated mixed field Ising chains to exhibit these characteristics, and comment on its implications for both black hole evaporation and quantum thermodynamics.
翻訳日:2023-02-15 11:55:51 公開日:2022-11-22
# 平面構造上の強い量子非局所性を持つ直交積集合

Orthogonal product sets with strong quantum nonlocality on plane structure ( http://arxiv.org/abs/2205.10813v2 )

ライセンス: Link先を確認
Huaqi Zhou, Ting Gao, Fengli Yan(参考訳) 本稿では、強い量子非局所性を持つ直交積集合(OPS)を考える。 平面幾何学の分解に基づいて、固定部分系上の直交保存POVMの自明性に対する十分条件を示し、元らによって与えられた開問題に部分的に答える。 Phys rev. a \textbf{102}, 042228 (2020)} を参照。 非局所性と OPS の平面構造との接続が確立される。 我々は、より少ない量子状態を含む$\mathcal{c}^{d_{a}}\otimes \mathcal{c}^{d_{b}}\otimes \mathcal{c}^{d_{c}}$(d_{a,b,c}\geq 4)$ で強非局所な ops を構築し、既知の ops の構造を可能な 3 および 4 つの成分系に一般化した。 さらに,集合の完全局所的識別のための絡み合い支援プロトコルをいくつか提示する。 テレポーテーションのないプロトコルは平均的エンタングルメント資源を少なくし、これらの集合は最大エンタングルド状態の複数のコピーで常に局所的に識別可能である。 これらの結果は、量子状態の局所的な識別において、最大絡み合った状態の非自明な意味も示している。

In this paper, we consider the orthogonal product set (OPS) with strong quantum nonlocality. Based on the decomposition of plane geometry, we present a sufficient condition for the triviality of orthogonality-preserving POVM on fixed subsystem and partially answer an open question given by Yuan et al. Phys. Rev. A \textbf{102}, 042228 (2020)}. The connection between the nonlocality and the plane structure of OPS is established. We successfully construct a strongly nonlocal OPS in $\mathcal{C}^{d_{A}}\otimes \mathcal{C}^{d_{B}}\otimes \mathcal{C}^{d_{C}}$ $(d_{A,B,C}\geq 4)$, which contains fewer quantum states, and generalize the structures of known OPSs to any possible three and four-partite systems. In addition, we present several entanglement-assisted protocols for perfectly local discrimination the sets. It is shown that the protocols without teleportation use less entanglement resources on average and these sets can always be discriminated locally with multiple copies of 2-qubit maximally entangled states. These results also exhibit nontrivial signification of maximally entangled states in the local discrimination of quantum states.
翻訳日:2023-02-12 03:08:47 公開日:2022-11-22
# 量子コンピューティングは緑色か? エネルギー効率の量子アドバンテージの推定

Is quantum computing green? An estimate for an energy-efficiency quantum advantage ( http://arxiv.org/abs/2205.12092v2 )

ライセンス: Link先を確認
Daniel Jaschke and Simone Montangero(参考訳) 量子優位しきい値(quantum advantage threshold)は、量子処理ユニット(QPU)がアルゴリズムの複雑さの観点から古典的な計算ハードウェアに対してより効率的であるかどうかを決定する。 緑の」量子アドバンテージしきい値$-$は、2つの$-$間のエネルギー効率の比較に基づくもので、量子ハードウェアと古典ハードウェアの比較において基本的な役割を果たす。 実際、その特性は、例えばハイブリッド量子古典アルゴリズムでワークロードを分散するなど、省エネルギー戦略に関するより良い決定を可能にする。 ここでは、緑の量子優位しきい値が決定的に依存していることを示します。 (i)実験量子ゲートの品質及び (ii)QPUで発生する絡み合い。 実際、NISQハードウェアとアルゴリズムがある程度の絡み合いを必要とする場合、古典的なテンソルネットワークエミュレーションは量子計算よりも同じ最終状態忠実度でエネルギー効率が高い。 アルゴリズムとハードウェアプラットフォームの観点から、いくつかのパラダイム的な例でグリーン量子優位しきい値を計算し、近未来のグリーン量子優位しきい値として、パワーロー指数$\alpha \lesssim 1$$の2分割の特異値のパワーロー減衰を持つアルゴリズムを同定する。

The quantum advantage threshold determines when a quantum processing unit (QPU) is more efficient with respect to classical computing hardware in terms of algorithmic complexity. The "green" quantum advantage threshold $-$ based on a comparison of energetic efficiency between the two $-$ is going to play a fundamental role in the comparison between quantum and classical hardware. Indeed, its characterization would enable better decisions on energy-saving strategies, e.g. for distributing the workload in hybrid quantum-classical algorithms. Here, we show that the green quantum advantage threshold crucially depends on (i) the quality of the experimental quantum gates and (ii) the entanglement generated in the QPU. Indeed, for NISQ hardware and algorithms requiring a moderate amount of entanglement, a classical tensor network emulation can be more energy-efficient at equal final state fidelity than quantum computation. We compute the green quantum advantage threshold for a few paradigmatic examples in terms of algorithms and hardware platforms, and identify algorithms with a power-law decay of singular values of bipartitions $-$ with power-law exponent $\alpha \lesssim 1$ $-$ as the green quantum advantage threshold in the near future.
翻訳日:2023-02-11 22:04:26 公開日:2022-11-22
# pausingの利点:量子アニーラのパラメータ設定

Advantage of pausing: parameter setting for quantum annealers ( http://arxiv.org/abs/2205.12936v2 )

ライセンス: Link先を確認
Zoe Gonzalez Izquierdo, Shon Grabbe, Husni Idris, Zhihui Wang, Jeffrey Marshall, Eleanor Rieffel(参考訳) このような停止は、ネイティブ問題インスタンスのクラスにおける桁違いの成功率を改善し、組み込み問題インスタンスのクラスにおける解決までの時間を改善した。 物理ベースの図は、アニーリングスケジュールパラメータと他のアニーリング特性との間の相互作用、および強磁性カップリング $|j_f|$ の埋め込みサイズと強度、およびパウジングが解く時間を改善することができる条件に関する質的提案を提供する。 ここでは、以前のアニーラーよりも高い接続性を持つ更新アニーリングアーキテクチャのデモンストレーションと、複数の組込み問題クラスを通じて、この図の様々な側面を確認することができる。 プラットフォームと問題クラス間の最適停止パラメータのロバストさを実証し、異なるシナリオのパフォーマンスを最適化するために$|J_F|$をどう設定するかを探索し、短い停止が解法に間に合うまでの全体のアニール時間を長くする経験的証拠を提供する。 また問題中の異なる係数の数を問題硬さの予測因子として特定し、最適な$|j_f|$ と埋め込みサイズとの相互作用を探索する。 これらの結果に基づき,量子アニーラにおけるパラメータ設定のための質的ガイドラインを提示できる。

Prior work showed the efficacy of pausing midanneal: such a pause improved the probability of success by orders of magnitude in a class of native problem instances and improved the time to solution in a class of embedded problem instances. A physics-based picture provides qualitative suggestions for where pausing midanneal is effective, for the interplay between annealing schedule parameters and other annealing properties and parameters such as embedding size and strength of the ferromagnetic coupling $|J_F|$, and for the conditions under which pausing can improve the time to solution. Here, through demonstrations on an updated annealing architecture that has higher connectivity than previous annealers, and on multiple embedded problem classes, we are able to confirm various aspects of this picture. We demonstrate the robustness of the optimal pause parameters across platforms and problem classes, explore how to set $|J_F|$ to optimize performance in different scenarios, and provide empirical evidence that short pauses trump longer overall annealing times in time to solution. We also identify the number of different coefficients in a problem as a predictor of problem hardness, and explore its interplay with the optimal $|J_F|$ and embedding size. Based on these results we are able to present qualitative guidelines for parameter setting in quantum annealers.
翻訳日:2023-02-11 19:18:00 公開日:2022-11-22
# 発振器レーザモデル

Oscillator laser model ( http://arxiv.org/abs/2206.05452v2 )

ライセンス: Link先を確認
Igor E. Protsenko and Alexander V. Uskov(参考訳) レーザーモデルは量子調和振動子によって定式化される。 低層状態のエミッタは通常の高調波発振器であり、上層状態のエミッタは逆高調波発振器である。 モデルと整合し、量子非線形レーザー方程式を解析的に解くために必要な拡散係数を求める。 浸漬モードの光子数ゆらぎと浸漬状態の個体数のゆらぎを算出する。 超放射光レーザーの強度変動スペクトルにおいて、集合ラビ分裂ピークが予測される。 超ラジアントレーザーと超ラジアンを伴わないレーザーの人口変動機構を議論し比較した。

A laser model is formulated in terms of quantum harmonic oscillators. Emitters in the low lasing states are usual harmonic oscillators, and emitters in the upper states are inverted harmonic oscillators. Diffusion coefficients, consistent with the model and necessary for solving quantum nonlinear laser equations analytically, are found. Photon number fluctuations of the lasing mode and fluctuations of the population of the lasing states are calculated. Collective Rabi splitting peaks are predicted in the intensity fluctuation spectra of the superradiant lasers. Population fluctuation mechanisms in superradiant lasers and lasers without superradiance are discussed and compared with each other.
翻訳日:2023-02-09 20:36:55 公開日:2022-11-22
# 完全正の量子マスター方程式の摂動定常状態

Perturbative Steady States of Completely Positive Quantum Master Equations ( http://arxiv.org/abs/2207.03108v3 )

ライセンス: Link先を確認
Jae Sung Lee and Joonhyun Yeo(参考訳) リンドブラッド形式はマルコフ量子マスター方程式 (qme) の完全正性を保証する。 しかし、熱浴と弱い相互作用を持つ量子系の微視的な導出にはいくつかの近似が必要であり、QMEの不正確な結果をもたらす可能性がある。 近年、様々なリンドブラジアンqmeが、完全正値性が保証されないレッドフィールド方程式から世俗近似を使わずに導出されている。 ここでは、これらのリンドブラディアンQMEの平衡定常状態を摂動的に明示的に計算する。 本研究では,解析継続法で得られたレッドフィールド方程式の定常状態と,いわゆる平均力ギブス(mfg)状態との比較を行った。 MFG状態は、全ハミルトニアンのギブス状態に対する自由度を積分して得られる。 我々はリンドブラディアンQMEの定常状態がMFG状態と異なることを示す。 以上の結果から,QMEの完全正の強制に必要なレッドフィールド方程式の操作は,その定常状態をMFG状態から遠ざけることが示唆された。 また, 高温環境下では, リンドブラジアンqmesの定常状態とmfg状態の両方が, 一定の条件下ではハミルトニアン系と同じギブス状態になることがわかった。

The Lindblad form guarantees complete positivity of a Markovian quantum master equation (QME). However, its microscopic derivation for a quantum system weakly interacting with a thermal bath requires several approximations, which may result in inaccuracies in the QME. Recently, various Lindbladian QMEs were derived without resorting to the secular approximation from the Redfield equation which does not guarantee the complete positivity. Here we explicitly calculate, in a perturbative manner, the equilibrium steady states of these Lindbladian QMEs. We compare the results with the steady state of the Redfield equation obtained from an analytic continuation method, which coincides with the so-called mean force Gibbs (MFG) state. The MFG state is obtained by integrating out the bath degrees of freedom for the Gibbs state of the total Hamiltonian. We explicitly show that the steady states of the Lindbladian QMEs are different from the MFG state. Our results indicate that manipulations of the Redfield equation needed to enforce complete positivity of a QME drives its steady state away from the MFG state. We also find that, in the high-temperature regime, both the steady states of the Lindbladian QMEs and MFG state reduce to the same Gibbs state of a system Hamiltonian under certain conditions.
翻訳日:2023-02-06 07:17:40 公開日:2022-11-22
# バイオセンシングのための高アスペクト比ダイヤモンドナノピラーアレイの神経細胞成長

Neuronal growth on high-aspect-ratio diamond nanopillar arrays for biosensing applications ( http://arxiv.org/abs/2207.09903v2 )

ライセンス: Link先を確認
Elena Losero, Somanath Jagannath, Maurizio Pezzoli, Valentin Goblot, Hossein Babashah, Hilal A. Lashuel, Christophe Galland, and Niels Quack(参考訳) 生きた細胞培養において高い空間的および時間的分解能を持つ神経活動のモニタリングは、脳の発達と機能を理解し、脳障害の起源に関するさらなる洞察を得るのに不可欠である。 ダイヤモンド中の窒素空洞(nv)中心の量子センシング能力により、海洋無脊椎動物の大きなニューロンからの行動電位をリアルタイムに検出できることが実証されているが、哺乳類のニューロンの量子監視(より小さな次元を示し、より低い信号を生成し、より高い空間分解能を必要とする)は謎のままである。 この文脈では、ダイヤモンドナノ構造は、ダイヤモンドプラットフォームの感度を必要なレベルに上げる機会を与える。 しかし, ナノ構造ダイヤモンド表面の神経細胞の生存率および成長に及ぼす影響の包括的解析は不十分であった。 そこで我々は,大規模ナノピラーアレイを用いた単一結晶ダイヤモンド表面をパターン化し,その上に生活および機能する初代海馬ニューロンのネットワークの成長を実証した。 本研究は,細胞膜とナノピラー頂点との物理的接触性に優れたナノピラー格子軸に沿った優先的成長を示す。 この結果から, ナノフォトニックな量子センシングプラットフォームを実現するために, ダイヤモンドナノピラー上でのニューロン成長を調整できることが示唆された。

Monitoring neuronal activity with simultaneously high spatial and temporal resolution in living cell cultures is crucial to advance understanding of the development and functioning of our brain, and to gain further insights in the origin of brain disorders. While it has been demonstrated that the quantum sensing capabilities of nitrogen-vacancy (NV) centers in diamond allow real time detection of action potentials from large neurons in marine invertebrates, quantum monitoring of mammalian neurons (presenting much smaller dimensions and thus producing much lower signal and requiring higher spatial resolution) has hitherto remained elusive. In this context, diamond nanostructuring can offer the opportunity to boost the diamond platform sensitivity to the required level. However, a comprehensive analysis of the impact of a nanostructured diamond surface on the neuronal viability and growth was lacking. Here, we pattern a single crystal diamond surface with large-scale nanopillar arrays and we successfully demonstrate growth of a network of living and functional primary mouse hippocampal neurons on it. Our study on geometrical parameters reveals preferential growth along the nanopillar grid axes with excellent physical contact between cell membrane and nanopillar apex. Our results suggest that neuron growth can be tailored on diamond nanopillars to realize a nanophotonic quantum sensing platform for wide-field and label-free neuronal activity recording with sub-cellular resolution.
翻訳日:2023-02-05 12:06:40 公開日:2022-11-22
# マイクロ波共振器に埋め込まれた二重量子ドットによる光電流のフルカウント統計

Full counting statistics of the photocurrent through a double quantum dot embedded in a driven microwave resonator ( http://arxiv.org/abs/2207.06948v2 )

ライセンス: Link先を確認
Drilon Zenelaj, Patrick P. Potts, and Peter Samuelsson(参考訳) 単一イテナントマイクロ波光子の検出は、新しい量子技術応用において重要な機能であり、熱輸送に関する量子熱力学実験における基礎的関心である。 最近の実験 (W. Khan et al., Nat. Commun. 12, 5130 (2021)) において、マイクロ波共振器に結合された二重量子ドット(DQD)が光子の入射列を電気的光電流に変換することにより効率よく連続的な光検出器として機能することが実証された。 実験では、平均光子と電子の流れを分析した。 ここでは、共振器のコヒーレントマイクロ波駆動におけるDQDによる光電流の変動について理論的に検討する。 光電流の有限周波ノイズ(FFN)だけでなく、低周波フルカウント統計も検討する。 点共鳴相関を無視する平均場アプローチにより、限界ケースにおける数値結果と解析式を補完し、光電流統計の説得力と物理的に透明な画像を提供する。 理想的統一効率検出では、電荷電流のゆらぎが入射光子のポアソン統計を再現するのに対し、非理想的検出の統計は部分ポアソニアンである。 さらに、FFNは検出器の短時間特性のシステムパラメータ依存性に関する情報を提供する。 本研究は、マイクロ波光子-電子相互作用に関する新しい知見を与え、単一マイクロ波光子の連続検出に関するさらなる実験のためのガイダンスを提供する。

Detection of single, itinerant microwave photons is an important functionality for emerging quantum technology applications as well as of fundamental interest in quantum thermodynamics experiments on heat transport. In a recent experiment [W. Khan et al., Nat. Commun. 12, 5130 (2021)], it was demonstrated that a double quantum dot (DQD) coupled to a microwave resonator can act as an efficient and continuous photodetector by converting an incoming stream of photons to an electrical photocurrent. In the experiment, average photon and electron flows were analyzed. Here we theoretically investigate, in the same system, the fluctuations of the photocurrent through the DQD for a coherent microwave drive of the resonator. We consider both the low frequency full counting statistics as well as the finite-frequency noise (FFN) of the photocurrent. Numerical results and analytical expressions in limiting cases are complemented by a mean-field approach neglecting dot-resonator correlations, providing a compelling and physically transparent picture of the photocurrent statistics. We find that for ideal, unity efficiency detection, the fluctuations of the charge current reproduce the Poisson statistics of the incoming photons, while the statistics for non-ideal detection is sub-Poissonian. Moreover, the FFN provides information of the system parameter dependence of detector short-time properties. Our results give novel insight into microwave photon-electron interactions in hybrid dot-resonator systems and provide guidance for further experiments on continuous detection of single microwave photons.
翻訳日:2023-02-05 01:19:53 公開日:2022-11-22
# ゲージ理論にはいくつの量子ゲートが必要か?

How many quantum gates do gauge theories require? ( http://arxiv.org/abs/2208.11789v2 )

ライセンス: Link先を確認
Edison M. Murairi, Michael J. Cervia, Hersh Kumar, Paulo F. Bedaque, Andrei Alexandru(参考訳) 本稿では,デジタル量子コンピュータにおける格子ゲージ理論の実装について論じ,その時間発展をシミュレートするために必要な量子ゲートの数に着目した。 量子回路のコンパイルには、我々の拡張で利用可能な最先端の手法を用いることで、基本小冊子の単一時間ステップのコストは、現在の量子ハードウェア時代において合理的に実用的である以上のものとなる。 しかし、そのようなコストは非アベリアゲージ理論のハミルトン多様体の異なる定式化を導出するために用いられるトラニケートスキームに非常に敏感であり、そのようなモデルの低次元トラニケートの必要性を所望の理論と同じ普遍性クラスで強調する。

We discuss the implementation of lattice gauge theories on digital quantum computers, focusing primarily on the number of quantum gates required to simulate their time evolution. We find that to compile quantum circuits, using available state-of-the-art methods with our own augmentations, the cost of a single time step of an elementary plaquette is beyond what is reasonably practical in the current era of quantum hardware. However, we observe that such costs are highly sensitive to the truncation scheme used to derive different Hamiltonian formulations of non-Abelian gauge theories, emphasizing the need for low-dimensional truncations of such models in the same universality class as the desired theories.
翻訳日:2023-01-29 23:40:34 公開日:2022-11-22
# 開量子系における安定多体共鳴

Stable many-body resonances in open quantum systems ( http://arxiv.org/abs/2209.07307v2 )

ライセンス: Link先を確認
Ruben Pe\~na, Thi Ha Kyaw, Guillermo Romero(参考訳) 周期的に駆動される量子多体系は、予熱、離散時間結晶、多体局在のような新しい非平衡状態を示す。 近年、u(1)$ とパリティ対称性の両方を持つ系の多体力学を遅くする分数共鳴の一般的なメカニズムが提案されている。 ここで,局所雑音モデルにおいて分数共鳴は安定であることを示す。 この発見を裏付けるために、既存のノイズの多い中間スケール量子(nisq)デバイスに容易に実装できる小規模ボース・ハバードモデルのダイナミクスを数値的に研究した。 量子メモリの量子情報処理への応用の可能性として, 安定な非平衡状態への道筋が示唆された。

Periodically driven quantum many-body systems exhibit novel nonequilibrium states such as prethermalization, discrete time crystals, and many-body localization. Recently, the general mechanism of fractional resonances has been proposed that leads to slowing the many-body dynamics in systems with both $U(1)$ and parity symmetry. Here, we show that fractional resonance is stable under local noise models. To corroborate our finding, we numerically study the dynamics of a small-scale Bose-Hubbard model that can readily be implemented in existing noisy intermediate-scale quantum (NISQ) devices. Our findings suggest a possible pathway toward a stable nonequilibrium state of matter, with potential applications of quantum memories for quantum information processing.
翻訳日:2023-01-26 12:18:45 公開日:2022-11-22
# 連続計測によるセンシングのための効率的な情報検索

Efficient Information Retrieval for Sensing via Continuous Measurement ( http://arxiv.org/abs/2209.08777v2 )

ライセンス: Link先を確認
Dayou Yang, Susana F. Huelga, Martin B. Plenio(参考訳) 駆動散逸型量子光学系の連続モニタリングは、量子力学の実装に重要な戦略を提供する。 この文脈において、関連するメリットの数値は、駆動拡散センサから放射される放射場の量子フィッシャー情報である。 量子クレーマー・ラオ境界によって定義される対応する精度限界の飽和は、通常、カウントやホモダイニングのような時間的局所的な連続測定スキームによって達成されない。 放射場の量子フィッシャー情報の効率的な検索に際し, 時間的に準局所的な測定ベースをマトリックス生成物の状態によって捉えた新しい連続測定戦略を設計する。 このような測定は、センサの放出フィールドを補助オープンシステムである「量子デコーダ」モジュールに注入し、特定の入力行列積をその出力フィールドとして単純な積状態とし、その出力で従来の連続測定を行うことで効果的に実施することができる。 我々はデコーダ構築のための普遍的なレシピを考案し、連続測定に基づく汎用センサ設計のための量子クレーマー・ラオ精度限界を実現する普遍的な方法を確立する。 副産物として,総称駆動散逸型オープンセンサの放射場の量子フィッシャー情報の評価に有効な公式を定式化する。 本稿では, 線形力センサ, ファイバ界面非線形エミッタ, 駆動型多体センサを含む非磁性オープンセンサの設計により, 実測的な実験的不完全条件下で頑健に実装できることを実証する。

The continuous monitoring of driven-dissipative quantum optical systems provides key strategies for the implementation of quantum metrology. In this context, the relevant figure of merit is the quantum Fisher information of the radiation field emitted by the driven-dissipative sensor. Saturation of the corresponding precision limit as defined by the quantum Cramer-Rao bound is typically not achieved by conventional, temporally local continuous measurement schemes such as counting or homodyning. To address the outstanding open challenge of efficient retrieval of the quantum Fisher information of the emission field, we design a novel continuous measurement strategy featuring temporally quasi-local measurement bases as captured by matrix product states. Such measurement can be implemented effectively by injecting the emission field of the sensor into an auxiliary open system, a `quantum decoder' module, which `decodes' specific input matrix product states into simple product states as its output field, and performing conventional continuous measurement at the output. We devise a universal recipe for the construction of the decoder, thereby establishing a universal method to achieve the quantum Cramer-Rao precision limit for generic sensor designs based on continuous measurement. As a by-product, we establish an effective formula for the evaluation of the quantum Fisher information of the emission field for generic driven-dissipative open sensors. We illustrate the power of our scheme with paramagnetic open sensor designs including linear force sensors, fibre-interfaced nonlinear emitters, and driven-dissipative many-body sensors, and demonstrate that it can be robustly implemented under realistic experimental imperfections.
翻訳日:2023-01-26 02:21:05 公開日:2022-11-22
# 断熱スパイラル法によるハイゼンベルクモデルの状態形成

State Preparation in the Heisenberg Model through Adiabatic Spiraling ( http://arxiv.org/abs/2210.04965v2 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Marc Illa, Martin J. Savage(参考訳) ハイゼンベルクモデルでは, 断熱スパイラルと呼ばれる断熱的状態調製法が提案されている。 この手法は、Rydberg原子、閉じ込められたイオン、超伝導量子ビットなどの多くの量子シミュレーションプラットフォームの実装に適している。 小さなシステムの古典的なシミュレーションは、近い将来にうまく実装できることを示唆している。 トロータライズド時間発展との比較を行い,アダイアバティックスパイラルがトロータライズドアダイアバティックを上回ることができることを示した。

An adiabatic state preparation technique, called the adiabatic spiral, is proposed for the Heisenberg model. This technique is suitable for implementation on a number of quantum simulation platforms such as Rydberg atoms, trapped ions, or superconducting qubits. Classical simulations of small systems suggest that it can be successfully implemented in the near future. A comparison to Trotterized time evolution is performed and it is shown that the adiabatic spiral is able to outperform Trotterized adiabatics.
翻訳日:2023-01-23 00:48:12 公開日:2022-11-22
# 量子多体問題に対する波動関数マッチング

Wave function matching for the quantum many-body problem ( http://arxiv.org/abs/2210.17488v2 )

ライセンス: Link先を確認
Serdar Elhatisari, Lukas Bovermann, Evgeny Epelbaum, Dillon Frame, Fabian Hildenbrand, Myungkuk Kim, Youngman Kim, Hermann Krebs, Timo A. L\"ahde, Dean Lee, Ning Li, Bing-Nan Lu, Yuanzhuo Ma, Ulf-G. Mei{\ss}ner, Gautam Rupak, Shihang Shen, Young-Ho Song, and Gianluca Stellin(参考訳) 本稿では,波動関数マッチングと呼ばれる量子多体系の新しい解法を提案する。 波動関数マッチングは粒子間の相互作用を変換し、近距離での波動関数は容易に計算可能な相互作用と一致する。 これによりモンテカルロ符号のキャンセルのような問題のために、そうでなければ不可能なシステムの計算が可能になる。 本手法は,軽核,中質量核,中性子物質,核物質の格子モンテカルロシミュレーションに適用する。 我々は、カイラル実効場理論の枠組みにおいて、次から次への相互作用を用いて、経験的データとの良好な一致を求める。 これらの結果は、ab initio計算における核結合エネルギー、電荷半径、核物質の飽和を正確に再現する長年の課題を解決する上で、核相互作用に関する新たな洞察とともに伴う。

We introduce a new approach for solving quantum many-body systems called wave function matching. Wave function matching transforms the interaction between particles so that the wave functions at short distances match that of an easily computable interaction. This allows for calculations of systems that would otherwise be impossible due to problems such as Monte Carlo sign cancellations. We apply the method to lattice Monte Carlo simulations of light nuclei, medium-mass nuclei, neutron matter, and nuclear matter. We use interactions at next-to-next-to-next-to-leading order in the framework of chiral effective field theory and find good agreement with empirical data. These results are accompanied by new insights on the nuclear interactions that may help to resolve long-standing challenges in accurately reproducing nuclear binding energies, charge radii, and nuclear matter saturation in ab initio calculations.
翻訳日:2023-01-20 22:16:28 公開日:2022-11-22
# 純状態の絡み合いのレーマン系素測度

A Reimannian Genuine Measure of Entanglement for Pure States ( http://arxiv.org/abs/2211.06309v2 )

ライセンス: Link先を確認
R. Dharmaraj and Radhika Vathsan(参考訳) 量子状態空間上の測地線距離を用いた多部純状態絡み合いの新しい幾何学的測度を定義する。 この測度は真の絡み合い測度に対する望ましい性質をすべて満足するだけでなく、計算も容易である。 既存の絡み合い尺度と比較すると、絡み合いパラメータの関数と同様の挙動を示す。 さらに、既存のGMEのいくつかと比較して、状態のパラメータに関して、より滑らかさと差別性を示す。

We define a new geometric measure for multipartite pure state entanglement using the geodesic distance on the space of quantum states. This measure not only satisfies all the desirable properties for a genuine entanglement measure but is also easy to compute. Comparison with existing entanglement measures shows similar behaviour as a function of entanglement parameters. Further, it exhibits better smoothness and discriminance, in variation with respect to parameters in the states, as compared to some of the existing GME's.
翻訳日:2023-01-19 18:18:58 公開日:2022-11-22
# 熱処理のためのランダムマトリックスモデル

Random-Matrix Model for Thermalization ( http://arxiv.org/abs/2211.12165v1 )

ライセンス: Link先を確認
Hans A. Weidenm\"uller(参考訳) 孤立量子系が熱化するのは、時間$t \to \infty$に対して${\rm Tr} (A \rho(t)) \to {\rm Tr} (A \rho_{\rm eq})$である。 ここで、$\rho(t)$ は系の時間依存密度行列であり、$\rho_{\rm eq}$ は統計平衡を記述する時間非依存密度行列であり、$a$ は観測可能性を表すエルミート作用素である。 ランダム行列ハミルトニアン(次元が n$ の確率行列の時間反転不変な直交アンサンブル (goe) のメンバー)によって支配される系に対して、アンサンブルのすべての関数${\rm tr} (a \rho(t))$ in the ensemble thermalize: for $n \to \infty$ それらの関数は${\rm tr} (a \rho_{\rm eq}(\infty)) + {\rm tr} (a \rho(0)) g^2(t)$ の値になる傾向がある。 ここで、$\rho_{\rm eq}(\infty)$ は無限温度における平衡密度行列である。 振動関数 $g(t)$ は平均 GOE レベル密度のフーリエ変換であり、大きな $t$ に対して $1 / |t|$ となる。 g(t) = g(-t)$ の場合、熱化は時間において対称である。 熱化時の対称性を含むアナログ結果は、ランダム行列の時間反転非不変ガウスユニタリアンサンブル(GUE)に対して導出される。 Refの「固有状態熱化仮説」との比較 ~\cite{sre99} は全体的な合意を示すが、重要な疑問を提起する。

An isolated quantum system is said to thermalize if ${\rm Tr} (A \rho(t)) \to {\rm Tr} (A \rho_{\rm eq})$ for time $t \to \infty$. Here $\rho(t)$ is the time-dependent density matrix of the system, $\rho_{\rm eq}$ is the time-independent density matrix that describes statistical equilibrium, and $A$ is a Hermitean operator standing for an observable. We show that for a system governed by a random-matrix Hamiltonian (a member of the time-reversal invariant Gaussian Orthogonal Ensemble (GOE) of random matrices of dimension $N$), all functions ${\rm Tr} (A \rho(t))$ in the ensemble thermalize: For $N \to \infty$ every such function tends to the value ${\rm Tr} (A \rho_{\rm eq}(\infty)) + {\rm Tr} (A \rho(0)) g^2(t)$. Here $\rho_{\rm eq}(\infty)$ is the equilibrium density matrix at infinite temperature. The oscillatory function $g(t)$ is the Fourier transform of the average GOE level density and falls off as $1 / |t|$ for large $t$. With $g(t) = g(-t)$, thermalization is symmetric in time. Analogous results, including the symmetry in time of thermalization, are derived for the time-reversal non-invariant Gaussian Unitary Ensemble (GUE) of random matrices. Comparison with the ``eigenstate thermalization hypothesis'' of Ref.~\cite{Sre99} shows overall agreement but raises significant questions.
翻訳日:2023-01-19 04:17:59 公開日:2022-11-22
# 量子確率系に対する二次指数モーメントを持つ確率的境界

Probabilistic bounds with quadratic-exponential moments for quantum stochastic systems ( http://arxiv.org/abs/2211.12161v1 )

ライセンス: Link先を確認
Igor G. Vladimirov(参考訳) 本稿では、位置運動量型標準可換関係を持つ量子確率系の動的変数に対する二次指数モーメント(qems)について述べる。 qemは、系変数の正の定値二次関数のテール確率分布上の上界の量子力学の統計的「局所化」において重要な役割を果たす。 システム変数のモーメント生成関数(MGF)からQEMをランダムに表現し、補助的な古典ガウス確率ベクトルを用いてそのパラメータ上で平均化する。 この表現は、MGFの重み付き$L^2$-ノルムの族と組み合わせられ、系変数のQEMの上限となる。 これらの境界は真空入力場と非ガウス初期状態を持つ開量子調和振動子に対して示される。

This paper is concerned with quadratic-exponential moments (QEMs) for dynamic variables of quantum stochastic systems with position-momentum type canonical commutation relations. The QEMs play an important role for statistical ``localisation'' of the quantum dynamics in the form of upper bounds on the tail probability distribution for a positive definite quadratic function of the system variables. We employ a randomised representation of the QEMs in terms of the moment-generating function (MGF) of the system variables, which is averaged over its parameters using an auxiliary classical Gaussian random vector. This representation is combined with a family of weighted $L^2$-norms of the MGF, leading to upper bounds for the QEMs of the system variables. These bounds are demonstrated for open quantum harmonic oscillators with vacuum input fields and non-Gaussian initial states.
翻訳日:2023-01-19 04:17:18 公開日:2022-11-22
# 多体系におけるスクランブルのダイナミクスにおけるカオスと局所臨界の相互作用のシグネチャ

Signatures of the interplay between chaos and local criticality on the dynamics of scrambling in many-body systems ( http://arxiv.org/abs/2211.12147v1 )

ライセンス: Link先を確認
Felix Meier and Mathias Steinhuber and Juan Diego Urbina and Daniel Waltner and Thomas Guhr(参考訳) 高速スクランブルは、out-of-Time-Ordered-Correlators (OTOCs) の指数的初期成長によって定量化され、相互作用系の自由度に量子相関を効率的に拡散する能力であり、局所不安定力学の特徴的シグネチャを構成する。 このように、カオスを示すシステムでも、臨界に関する統合可能なシステムでも同じように現れます。 ここでは、積分可能性-カオス遷移が最初に現れる複雑な位相空間領域における局所臨界とカオス右辺の相互作用を徹底的に研究する。 我々は、よく定義された古典的(平均場)極限を持つシステムに、大きなスピンとボース・ハバード連鎖を結合して、半古典的解析を可能にする。 我々の目的は、量子 Lyapunov exponent $\lambda_{\textrm{q}}$ を混合位相空間を持つ古典的な系から導出される量、特に固定点 $\lambda_{\textrm{loc}}$ の局所安定性指数と、その周りのカオス領域の最大 Lyapunov exponent $\lambda_{\textrm{L}}$ に依存することである。 幅広いパラメータをカバーする広範な数値シミュレーションにより、予想される線形依存の2.a.lambda_{\textrm{q}}=a.lambda_{\textrm{L}}+b.lambda_{\textrm{loc}}$をサポートし、カオスと可積分性の境界におけるスクランブルを特徴づける簡単な経路を提供する。

Fast scrambling, quantified by the exponential initial growth of Out-of-Time-Ordered-Correlators (OTOCs), is the ability to efficiently spread quantum correlations among the degrees of freedom of interacting systems, and constitutes a characteristic signature of local unstable dynamics. As such, it may equally manifest both in systems displaying chaos or in integrable systems around criticality. Here, we go beyond these extreme regimes with an exhaustive study of the interplay between local criticality and chaos right at the intricate phase space region where the integrability-chaos transition first appears. We address systems with a well defined classical (mean-field) limit, as coupled large spins and Bose-Hubbard chains, thus allowing for semiclassical analysis. Our aim is to investigate the dependence of the exponential growth of the OTOCs, defining the quantum Lyapunov exponent $\lambda_{\textrm{q}}$ on quantities derived from the classical system with mixed phase space, specifically the local stability exponent of a fixed point $\lambda_{\textrm{loc}}$ as well as the maximal Lyapunov exponent $\lambda_{\textrm{L}}$ of the chaotic region around it. By extensive numerical simulations covering a wide range of parameters we give support to a conjectured linear dependence $2\lambda_{\textrm{q}}=a\lambda_{\textrm{L}}+b\lambda_{\textrm{loc}}$, providing a simple route to characterize scrambling at the border between chaos and integrability.
翻訳日:2023-01-19 04:17:07 公開日:2022-11-22
# ボゾン符号を持つ動的ゲージ場

Dynamical gauge fields with bosonic codes ( http://arxiv.org/abs/2211.12119v1 )

ライセンス: Link先を確認
Javier del Pino, Oded Zilberberg(参考訳) 力学ゲージ場の理論の量子シミュレーションは、制御可能な低エネルギーデバイスで複雑な高エネルギー物理学を研究する機会を与える。 量子計算では、ボゾンにおける多粒子冗長性を利用するロバストな誤り訂正をボゾン符号が約束する。 本稿では,ボソニック符号を用いて動的ゲージ場をシミュレートする方法を示す。 3波混合により結合する共振器ネットワークにおいて,物質場と動的ゲージ場の両方を符号化する。 a $\mathbb{z}_2$ dynamical lattice gauge theory へのマッピングは、ゲージ共振器が schr\"odinger cat state として動作するときに確立される。 システムが要求されるゲージ対称性を保存できる最適条件について検討する。 本研究はボソニックコードを用いた高エネルギーモデルの実現を促進する。

The quantum simulation of dynamical gauge field theories offers the opportunity to study complex high-energy physics with controllable low-energy devices. For quantum computation, bosonic codes promise robust error correction that exploits multi-particle redundancy in bosons. In this Letter, we demonstrate how bosonic codes can be used to simulate dynamical gauge fields. We encode both matter and dynamical gauge fields in a network of resonators that are coupled via three-wave-mixing. The mapping to a $\mathbb{Z}_2$ dynamical lattice gauge theory is established when the gauge resonators operate as Schr\"odinger cat states. We explore the optimal conditions under which the system preserves the required gauge symmetries. Our findings promote realising high-energy models using bosonic codes.
翻訳日:2023-01-19 04:16:21 公開日:2022-11-22
# 空間および時間平均量子応力テンソル変動の周波数スペクトル解析

Frequency Spectra Analysis of Space and Time Averaged Quantum Stress Tensor Fluctuations ( http://arxiv.org/abs/2211.12001v1 )

ライセンス: Link先を確認
Peter Wu, L. H. Ford, Enrico D. Schiappacasse(参考訳) 大きな量子応力テンソル揺らぎの物理的効果を観測するには、プローブと基礎となる量子場の粒子との相互作用の知識が必要である。 量子応力テンソル作用素は、最初に時間または空間と時間で平均化され、有意義な結果を導出しなければならない。 我々は、異なる等級の量子ゆらぎに関連する粒子の周波数を特徴付けるために、事前の結果に基づいて構築する。 球面キャビティ内の無質量スカラー場の2乗時間微分に対して、これらの周波数は強法則の振る舞いにおいて上界にあることが分かる。 その結果、周波数依存相互作用に依存する実験で観測される最大の量子揺らぎを特定する方法が得られた。

Observing physical effects of large quantum stress tensor fluctuations requires knowledge of the interaction between the probe and the particles of the underlying quantum fields. The quantum stress tensor operators must first be averaged in time alone or space and time to confer meaningful results, the details of which may correspond to the physical measurement process. We build on prior results to characterize the particle frequencies associated with quantum fluctuations of different magnitudes. For the square of time derivatives of the massless scalar field in a spherical cavity, we find that these frequencies are bounded above in a power law behavior. Our findings provide a way identify the largest quantum fluctuation that may be probed in experiments relying on frequency-dependent interactions.
翻訳日:2023-01-19 04:15:49 公開日:2022-11-22
# 初期のフォールトトレラント量子コンピュータにおける位相推定のためのより短い量子回路とその地中エネルギー推定への応用

Even shorter quantum circuit for phase estimation on early fault-tolerant quantum computers with applications to ground-state energy estimation ( http://arxiv.org/abs/2211.11973v1 )

ライセンス: Link先を確認
Zhiyan Ding and Lin Lin(参考訳) 回路の深さを決定する)最大ランタイムは$\delta/\epsilon$であり、ここで$\epsilon$がターゲット精度であり、初期状態がターゲット固有状態に近づくと、$\delta$は任意に$0$に近いことができる。 アルゴリズムの総コストは、ハイゼンベルク制限のスケーリング $\widetilde{\mathcal{o}}(\epsilon^{-1})$を満たす。 これは以前の提案と異なり、$\delta \gtrsim \pi$ は初期状態が正確に固有状態であっても必要である。 その結果,初期のフォールトトレラント量子コンピュータにおいて位相推定タスクを行う際の回路深度を著しく低減することができる。 鍵となる手法は量子複素指数最小二乗(QCELS)と呼ばれる単純なサブルーチンである。 本アルゴリズムは,初期状態と基底状態の重なりが大きい場合,量子ハミルトニアンの基底状態エネルギーを推定するための回路深度を小さくするために容易に適用できる。 この最初の重なりが小さい場合には, [lin, tong, prx quantum 3, 010318, 2022] で開発されたフーリエフィルタ法と組み合わせることで,$\epsilon$ と比較して回路の深さを小さくすることができる。 相対重なり条件はスペクトルギャップの仮定と似ているが、初期状態の情報を認識しており、したがってスペクトルギャップが小さい特定のハミルトン系にも適用できる。 様々な条件下での数値実験において,回路の深さを約2桁低減できることを確認した。

We develop a phase estimation method with a distinct feature: its maximal runtime (which determines the circuit depth) is $\delta/\epsilon$, where $\epsilon$ is the target precision, and the preconstant $\delta$ can be arbitrarily close to $0$ as the initial state approaches the target eigenstate. The total cost of the algorithm satisfies the Heisenberg-limited scaling $\widetilde{\mathcal{O}}(\epsilon^{-1})$. This is different from all previous proposals, where $\delta \gtrsim \pi$ is required even if the initial state is an exact eigenstate. As a result, our algorithm may significantly reduce the circuit depth for performing phase estimation tasks on early fault-tolerant quantum computers. The key technique is a simple subroutine called quantum complex exponential least squares (QCELS). Our algorithm can be readily applied to reduce the circuit depth for estimating the ground-state energy of a quantum Hamiltonian, when the overlap between the initial state and the ground state is large. If this initial overlap is small, we can combine our method with the Fourier filtering method developed in [Lin, Tong, PRX Quantum 3, 010318, 2022], and the resulting algorithm provably reduces the circuit depth in the presence of a large relative overlap compared to $\epsilon$. The relative overlap condition is similar to a spectral gap assumption, but it is aware of the information in the initial state and is therefore applicable to certain Hamiltonians with small spectral gaps. We observe that the circuit depth can be reduced by around two orders of magnitude in numerical experiments under various settings.
翻訳日:2023-01-19 04:15:13 公開日:2022-11-22
# 二次元共形場理論における普遍絡み合いと相関測度

Universal entanglement and correlation measure in two-dimensional conformal field theory ( http://arxiv.org/abs/2211.11952v1 )

ライセンス: Link先を確認
Chao Yin, Zhenhuan Liu(参考訳) 1+1)次元共形場理論(CFT)の基底状態における2つの間隔で共有される絡み合いの量は、計算可能なクロスノルム(CCNR)基準に基づいて、絡み合い測度$\mathcal{E}$で定量化される。 負性や相互情報とは異なり、$\mathcal{E}$ は2つの不連続区間においても普遍的な表現を持ち、これは CFT の幾何、中心電荷 c および熱分割関数に依存する。 この普遍的な表現を複製法で証明し、各位数 n において$\mathcal{E}$ を計算するリーマン曲面は常にトーラス位相である。 解析的連続により、n=1/2 の結果は $\mathcal{E}$ の値を与える。 さらに、n の他の値の結果も有意義な結論を与える: n=1 の結果は 2 つの中間純度に関する一般的な公式を与え、n<=4 間隔の renyi-2 n 成分情報を計算することができる。 我々は,Luttinger液で表されるスピン1/2XXZ鎖の基底状態を数値的に検証した。

We calculate the amount of entanglement shared by two intervals in the ground state of a (1+1)-dimensional conformal field theory (CFT), quantified by an entanglement measure $\mathcal{E}$ based on the computable cross norm (CCNR) criterion. Unlike negativity or mutual information, we show that $\mathcal{E}$ has a universal expression even for two disjoint intervals, which depends only on the geometry, the central charge c, and the thermal partition function of the CFT. We prove this universal expression in the replica approach, where the Riemann surface for calculating $\mathcal{E}$ at each order n is always a torus topologically. By analytic continuation, result of n=1/2 gives the value of $\mathcal{E}$. Furthermore, the results of other values of n also yield meaningful conclusions: The n=1 result gives a general formula for the two-interval purity, which enables us to calculate the Renyi-2 N-partite information for N<=4 intervals; while the $n=\infty$ result bounds the correlation function of the two intervals. We verify our findings numerically in the spin-1/2 XXZ chain, whose ground state is described by the Luttinger liquid.
翻訳日:2023-01-19 04:14:43 公開日:2022-11-22
# 変分量子アルゴリズムの深さを最適化することはQCMAに強く依存する

Optimizing the depth of variational quantum algorithms is strongly QCMA-hard to approximate ( http://arxiv.org/abs/2211.12519v1 )

ライセンス: Link先を確認
Lennart Bittel, Sevag Gharibian, Martin Kliesch(参考訳) The Quantum Approximate Optimization Algorithm (QAOA) of [Farhi, Goldstone, Gutmann, 2014] のような変分量子アルゴリズム (VQA) は、量子ハードウェアへの短期的応用に向けて激しい研究が行われている。 vqasの重要なパラメータは、使用される変分アンサッツの深さである - 深さが小さくなればなるほど、アンサッツは短期的な量子ハードウェアに、システムが解決する前に回路が完全に実行される機会を与える。 この深度低減の可能性により、VQAsはNISQ(Noisy Intermediate-Scale Quantum)時代の研究の中心となった。 本研究では,与えられたVQAアンザッツの最適深さを近似することは困難であることを示す。 形式的には、任意の定数$\epsilon>0$に対して、VQAインスタンスの符号化サイズを表す$N$に対して、乗法係数$N^{1-\epsilon}$内のVQAアンサッツの最適深さを近似することはQCMAハードであることが示される。 (以下、量子古典メルリン・アーサー(QCMA)はNPの量子一般化である。 そして、この硬さがQAOAの"simpler"設定でも持続していることを示します。 私たちの知る限りでは、これは最初の自然なqcmaの難解な問題となる。 これらの結果を得るために,分散器による[Umans, FOCS 1999]近似構築のNP硬度に訴えることにより,QCMAのPCP定理の必要性を回避した。

Variational Quantum Algorithms (VQAs), such as the Quantum Approximate Optimization Algorithm (QAOA) of [Farhi, Goldstone, Gutmann, 2014], have seen intense study towards near-term applications on quantum hardware. A crucial parameter for VQAs is the depth of the variational ansatz used - the smaller the depth, the more amenable the ansatz is to near-term quantum hardware in that it gives the circuit a chance to be fully executed before the system decoheres. This potential for depth reduction has made VQAs a staple of Noisy Intermediate-Scale Quantum (NISQ)-era research. In this work, we show that approximating the optimal depth for a given VQA ansatz is intractable. Formally, we show that for any constant $\epsilon>0$, it is QCMA-hard to approximate the optimal depth of a VQA ansatz within multiplicative factor $N^{1-\epsilon}$, for $N$ denoting the encoding size of the VQA instance. (Here, Quantum Classical Merlin-Arthur (QCMA) is a quantum generalization of NP.) We then show that this hardness persists even in the "simpler" setting of QAOAs. To our knowledge, this yields the first natural QCMA-hard-to-approximate problems. To achieve these results, we bypass the need for a PCP theorem for QCMA by appealing to the disperser-based NP-hardness of approximation construction of [Umans, FOCS 1999].
翻訳日:2023-01-19 04:09:35 公開日:2022-11-22
# 量子内点法とポートフォリオ最適化のためのエンドツーエンド資源分析

End-to-end resource analysis for quantum interior point methods and portfolio optimization ( http://arxiv.org/abs/2211.12489v1 )

ライセンス: Link先を確認
Alexander M. Dalzell, B. David Clader, Grant Salton, Mario Berta, Cedric Yen-Yu Lin, David A. Bader, Nikitas Stamatopoulos, Martin J. A. Schuetz, Fernando G. S. L. Brand\~ao, Helmut G. Katzgraber, William J. Zeng(参考訳) 本稿では,2次コーンプログラミング(SOCP)のための量子内点法(QIPM)について,ポートフォリオ最適化(PO)の例を用いて検討する。 問題入力から問題出力へのアルゴリズムの完全な量子回路レベル記述を提供し,qipmの実装にいくつかの改良を加えた。 定数因子を含むアルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。 リソースの数は、問題内の特定の線形システムの条件数など、インスタンス固有のパラメータに依存する。 これらのパラメータのサイズを決定するため、我々は小さなPOインスタンスの数値シミュレーションを行い、POユースケースの具体的なリソース推定に繋がる。 我々の数値結果は、アルゴリズムの漸近的スケーリングについて結論づけるのに十分なインスタンスサイズを探索しない。 しかし,本解析では,大小のインスタンスサイズにおいて,大小の定数前因子,粗悪な条件付き線形系,コストのかかる量子状態トモグラフィを基本とするqipmの基本的な改善が必要であることを示唆する。

We study quantum interior point methods (QIPMs) for second-order cone programming (SOCP), guided by the example use case of portfolio optimization (PO). We provide a complete quantum circuit-level description of the algorithm from problem input to problem output, making several improvements to the implementation of the QIPM. We report the number of logical qubits and the quantity/depth of non-Clifford T-gates needed to run the algorithm, including constant factors. The resource counts we find depend on instance-specific parameters, such as the condition number of certain linear systems within the problem. To determine the size of these parameters, we perform numerical simulations of small PO instances, which lead to concrete resource estimates for the PO use case. Our numerical results do not probe large enough instance sizes to make conclusive statements about the asymptotic scaling of the algorithm. However, already at small instance sizes, our analysis suggests that, due primarily to large constant pre-factors, poorly conditioned linear systems, and a fundamental reliance on costly quantum state tomography, fundamental improvements to the QIPM are required for it to lead to practical quantum advantage.
翻訳日:2023-01-19 04:09:02 公開日:2022-11-22
# 電気光学ナノキャビティにおける希土類単一イオン放出の制御

Controlling single rare earth ion emission in an electro-optical nanocavity ( http://arxiv.org/abs/2211.12449v1 )

ライセンス: Link先を確認
Likai Yang, Sihao Wang, Mohan Shen, Jiacheng Xie, and Hong X. Tang(参考訳) 希土類エミッターはスピン量子ビット、単一光子源、量子記憶などの臨界量子資源を可能にする。 しかし、単一イオンの探査は4fの光遷移の放出率が低いため、依然として困難である。 実現可能なアプローチの1つは、光キャビティのパーセル強化エミッションである。 キャビティ-イオン結合をリアルタイムで変調する能力は、そのようなシステムの容量をさらに高める。 ここでは, 薄膜ニオブ酸リチウムを用いた電気光学活性フォトニック結晶キャビティにエルビウムドーパントを埋め込むことにより, 単一イオン放出の直接制御を示す。 パーセル因子170以上は単イオン検出が可能であり、二階自己相関測定によって検証される。 共振周波数の電気光学的チューニングを利用して発光速度の動的制御を実現する。 この特徴を用いて, 単一イオン励起の蓄積と回収を, 放出特性を乱すことなくさらに実証する。 これらの結果は、制御可能な単一光子源と効率的なスピン光子インターフェースの新しい機会を約束する。

Rare earth emitters enable critical quantum resources including spin qubits, single photon sources, and quantum memories. Yet, probing of single ions remains challenging due to low emission rate of their intra-4f optical transitions. One feasible approach is through Purcell enhanced emission in optical cavities. The ability to modulate cavity-ion coupling in real time will further elevate the capacity of such systems. Here, we demonstrate direct control of single ion emission by embedding erbium dopants in an electro-optically active photonic crystal cavity patterned from thin-film lithium niobate. Purcell factor over 170 enables single ion detection, which is verified by second-order autocorrelation measurement. Dynamic control of emission rate is realized by leveraging electro-optic tuning of resonance frequency. Using this feature, storage and retrieval of single ion excitation is further demonstrated, without perturbing the emission characteristics. These results promise new opportunities for controllable single photon sources and efficient spin-photon interfaces.
翻訳日:2023-01-19 04:08:07 公開日:2022-11-22
# 量子アルゴリズムと忘れる力

Quantum algorithms and the power of forgetting ( http://arxiv.org/abs/2211.12447v1 )

ライセンス: Link先を確認
Andrew M. Childs, Matthew Coudron, Amin Shiraz Gilani(参考訳) いわゆる溶接木問題は、従来のアルゴリズムよりも量子ウォークによって指数関数的に高速に解くことができるブラックボックス問題の例を提供する。 特別な入口頂点の名前が与えられると、量子ウォークは多項式的に多くのクエリを使って別の区別された出口頂点を見つけることができるが、出口から出口までの特定の経路は見つからない。 このような経路を見つけるための効率的な量子アルゴリズムが存在するのか、それとも量子コンピュータでさえ経路探索が難しいのか、20年間は未解決の問題であった。 効率的な量子アルゴリズムの自然なクラスは、入り口から出口までの経路を確実に見つけることができない。 具体的には、重ね合わせの各ブランチ内では常に、入り口を含む連結部分グラフを形成する一連の頂点ラベルを格納し、これらの頂点ラベルをoracleへの入力としてのみ提供するアルゴリズムを検討する。 これは、効率的に経路を見つける量子アルゴリズムの可能性を排除するものではないが、この振る舞いからどのようにアルゴリズムが恩恵を受けるかは明らかではない。 我々のノーゴーの結果は、いくつかの問題に対して、量子アルゴリズムは古典的な計算を上回り、解に到達するための経路を必ず忘れなければならないことを示唆している。

The so-called welded tree problem provides an example of a black-box problem that can be solved exponentially faster by a quantum walk than by any classical algorithm. Given the name of a special ENTRANCE vertex, a quantum walk can find another distinguished EXIT vertex using polynomially many queries, though without finding any particular path from ENTRANCE to EXIT. It has been an open problem for twenty years whether there is an efficient quantum algorithm for finding such a path, or if the path-finding problem is hard even for quantum computers. We show that a natural class of efficient quantum algorithms provably cannot find a path from ENTRANCE to EXIT. Specifically, we consider algorithms that, within each branch of their superposition, always store a set of vertex labels that form a connected subgraph including the ENTRANCE, and that only provide these vertex labels as inputs to the oracle. While this does not rule out the possibility of a quantum algorithm that efficiently finds a path, it is unclear how an algorithm could benefit by deviating from this behavior. Our no-go result suggests that, for some problems, quantum algorithms must necessarily forget the path they take to reach a solution in order to outperform classical computation.
翻訳日:2023-01-19 04:07:50 公開日:2022-11-22
# ホログラフィーのための漸近的等尺符号

Asymptotically isometric codes for holography ( http://arxiv.org/abs/2211.12439v1 )

ライセンス: Link先を確認
Thomas Faulkner and Min Li(参考訳) ホログラフィック原理は、ある背景に関する摂動量子場を記述するために使われる重力の低エネルギー有効場理論は、あまりにも多くの状態を持っていることを示唆している。 すると、コード部分空間のような量子場理論を持つ任意の量子誤り訂正符号が等尺的でないのは自然である。 単一トレースセクターによって記述される大きなN$制限を持つCFTの族に対する代数的QFT処理において、このフレームワークが自然に発生するかについて議論する。 符号ヒルベルト空間の固定状態に作用する場合、等尺符号は$N \rightarrow \infty$ limitで復元可能であることを示す。 漸近的に等距離符号は単純な演算子と因果くさびのネットの概念を備えている。 因果ウェッジは加法であるが、それらはハーグ双対性を満たす必要はなく、したがって非自明な絡み合いウェッジ再構成の可能性をもたらす。 補足回復符号は、すべての因果境界領域に対して絡み合いウェッジがよく定義されるハーグ双対ネットの拡張を持つものとして定義される。 我々は情報障害トレードオフ定理の漸近バージョンを証明し、境界理論の因果性がネット拡張によって維持されることを示すためにこれを用いる。 バルクと境界相対エントロピーあるいはモジュラーフローの漸近的等式を通じて、絡み合うウェッジ拡張の存在を特徴づける。 これらの符号は漸近的に正確であるが、固定された$N$では、大きな$N$制限を生き残らない状態に対して大きなエラーを発生させることができる。 これにより、重力を正確な符号としてモデル化する際に生じるよく知られた問題を、様々なタイプの非自明なフォン・ノイマン代数の出現を含む重力に期待される優れた特徴を維持しながら解決することができる。

The holographic principle suggests that the low energy effective field theory of gravity, as used to describe perturbative quantum fields about some background has far too many states. It is then natural that any quantum error correcting code with such a quantum field theory as the code subspace is not isometric. We discuss how this framework can naturally arise in an algebraic QFT treatment of a family of CFT with a large-$N$ limit described by the single trace sector. We show that an isometric code can be recovered in the $N \rightarrow \infty$ limit when acting on fixed states in the code Hilbert space. Asymptotically isometric codes come equipped with the notion of simple operators and nets of causal wedges. While the causal wedges are additive, they need not satisfy Haag duality, thus leading to the possibility of non-trivial entanglement wedge reconstructions. Codes with complementary recovery are defined as having extensions to Haag dual nets, where entanglement wedges are well defined for all causal boundary regions. We prove an asymptotic version of the information disturbance trade-off theorem and use this to show that boundary theory causality is maintained by net extensions. We give a characterization of the existence of an entanglement wedge extension via the asymptotic equality of bulk and boundary relative entropy or modular flow. While these codes are asymptotically exact, at fixed $N$ they can have large errors on states that do not survive the large-$N$ limit. This allows us to fix well known issues that arise when modeling gravity as an exact codes, while maintaining the nice features expected of gravity, including, among other things, the emergence of non-trivial von Neumann algebras of various types.
翻訳日:2023-01-19 04:07:31 公開日:2022-11-22
# 光子はかつてどこにいたか 嘘をついています

Photons are lying about where they have been, again ( http://arxiv.org/abs/2211.12399v1 )

ライセンス: Link先を確認
Gregory Reznik, Carlotta Versmold, Jan Dziewior, Florian Huber, Shrobona Bagchi, Harald Weinfurter, Justin Dressel, Lev Vaidman(参考訳) Bhati and Arvind [Phys. Lett. A, 127955 (2022)] は、特に設計された実験において、光子検出イベントのタイミングは弱い値のアプローチに従って存在しない場所で光子の存在を示すと主張した。 この矛盾は、ネストされたマッハ・ツェンダー干渉計とドーブプリズム(Stud.Quant. Stud.: Mat. Found. 2, 255 (2015)))と同様、この位置での相互作用に対する異常な感度をもたらす微妙な干渉効果によって解決される。 理論的結果は,提案実験のコンピュータシミュレーションにより検証される。

Bhati and Arvind [Phys. Lett. A, 127955 (2022)] recently argued that in a specially designed experiment the timing of photon detection events demonstrate photon presence in a location in which they are not present according to the weak values approach. The alleged contradiction is resolved by a subtle interference effect resulting in anomalous sensitivity for the interaction in this location, similarly to the case of a nested Mach-Zehnder interferometer with a Dove prism [Quant. Stud.: Mat. Found. 2, 255 (2015)]. The theoretical results are tested by a computer simulation of the proposed experiment.
翻訳日:2023-01-19 04:07:03 公開日:2022-11-22
# 位相相と論理ゲートのフェルミオン欠陥

Fermionic defects of topological phases and logical gates ( http://arxiv.org/abs/2211.12394v1 )

ライセンス: Link先を確認
Ryohei Kobayashi(参考訳) 2+1)Dボソニック位相の余次元-1欠陥について論じ、そこでは欠陥がフェルミオン自由度を支持する。 このような欠陥をフェルミオン欠陥(fermionic defects)と呼び、任意のオンの自己統計をシフトできる「ゲージググウェンspt欠陥(gauged gu-wen spt defects)」と呼ばれる可逆フェルミオン欠陥のサブクラスを導入する。 我々は、ゲージ付きGu-Wen SPT欠陥と、その欠陥上のフェルミオンから分離されたボソニック非可逆欠陥の融合の観点から、一般フェルミオン非可逆欠陥の正準形式を導出した。 次に、総称可逆フェルミオン欠陥の融合則を導出する。 ゲージ付きGu-Wen SPT欠陥は、追加のアンシラフェルミオンの存在下で安定化符号の興味深い論理ゲートをもたらす。 例えば、 (2+1)d $\mathbb{z}_2$ toric符号に (2+1)d ancilla trivial atomic insulator を積み重ねた cz 論理ゲートの実現がある。 また,(3+1)d walker-wangモデルの境界上で実現される(2+1)dボソニック位相相間のガッピングフェルミオン界面についても検討した。 この場合、ガッピングされた界面は(2+1)d相のキラル中心電荷をシフトすることができる。 これらのフェミオン界面のうち、(3+1)D相が空間反射対称性を持ち、(2+1)D表面トポロジカル秩序とその向き反転を補間する反射面にフェルミオン界面が支持される興味深い例を研究する。 この設定を実現する(3+1)d 可解ハミルトニアンを構築し、このモデルが反射平面上の空間反射対称性とフェルミオンパリティを持つ (3+1)d 可逆位相の$\mathbb{z}_8$ の分類を生成する。 我々は、時空高群対称性を持つエキゾチックな可逆位相として知られる有効場理論と接触する。

We discuss the codimension-1 defects of (2+1)D bosonic topological phases, where the defects can support fermionic degrees of freedom. We refer to such defects as fermionic defects, and introduce a certain subclass of invertible fermionic defects called "gauged Gu-Wen SPT defects" that can shift self-statistics of anyons. We derive a canonical form of a general fermionic invertible defect, in terms of the fusion of a gauged Gu-Wen SPT defect and a bosonic invertible defect decoupled from fermions on the defect. We then derive the fusion rule of generic invertible fermionic defects. The gauged Gu-Wen SPT defects give rise to interesting logical gates of stabilizer codes in the presence of additional ancilla fermions. For example, we find a realization of the CZ logical gate on the (2+1)D $\mathbb{Z}_2$ toric code stacked with a (2+1)D ancilla trivial atomic insulator. We also investigate a gapped fermionic interface between (2+1)D bosonic topological phases realized on the boundary of the (3+1)D Walker-Wang model. In that case, the gapped interface can shift the chiral central charge of the (2+1)D phase. Among these fermionic interfaces, we study an interesting example where the (3+1)D phase has a spatial reflection symmetry, and the fermionic interface is supported on a reflection plane that interpolates a (2+1)D surface topological order and its orientation-reversal. We construct a (3+1)D exactly solvable Hamiltonian realizing this setup, and find that the model generates the $\mathbb{Z}_8$ classification of the (3+1)D invertible phase with spatial reflection symmetry and fermion parity on the reflection plane. We make contact with an effective field theory, known in literature as the exotic invertible phase with spacetime higher-group symmetry.
翻訳日:2023-01-19 04:06:40 公開日:2022-11-22
# Loschmidt Echoを用いた変分量子メトロロジー

Variational Quantum Metrology with Loschmidt Echo ( http://arxiv.org/abs/2211.12296v1 )

ライセンス: Link先を確認
Ran Liu, Ze Wu, Xiaodong Yang, Yuchen Li, Hui Zhou, Yuquan Chen, Haidong Yuan, Xinhua Peng, Jiangfeng Du(参考訳) 重ね合わせや絡み合いといった量子力学的効果を利用することで、量子メトロロジーは古典的戦略よりも高い精度を約束する。 しかし、量子的な利点を実現することは事実上困難である。 これは主に非古典的プローブ状態の工学的困難と、特に多数の粒子で非自明な測定を行うことによるものである。 ここでは、ロシミットエコーと同様に、前方と後方の進化からなる対称変動量子回路を用いたスケーラブルなスキームを提案する。 この方式では、精度限界を定量化する量子フィッシャー情報をロスシュミットエコーの測定信号から効率的に得ることができることを示す。 我々は10スピン量子プロセッサのアンサンブルにこのスキームを実験的に実装し、標準量子限界を12.4dBで上回る理論限界付近の精度を実現した。 このスキームは様々なノイズの多い中間スケール量子デバイス上で効率的に実装することができ、量子の利点を示す有望なルーチンを提供する。

By utilizing quantum mechanical effects, such as superposition and entanglement, quantum metrology promises higher precision than the classical strategies. It is, however, practically challenging to realize the quantum advantages. This is mainly due to the difficulties in engineering non-classical probe state and performing nontrivial measurement in practise, particularly with a large number of particles. Here we propose a scalable scheme with a symmetrical variational quantum circuit which, same as the Loschmidt echo, consists of a forward and a backward evolution. We show that in this scheme the quantum Fisher information, which quantifies the precision limit, can be efficiently obtained from a measurement signal of the Loschmidt echo. We experimentally implement the scheme on an ensemble of 10-spin quantum processor and successfully achieves a precision near the theoretical limit which outperforms the standard quantum limit with 12.4 dB. The scheme can be efficiently implemented on various noisy intermediate-scale quantum devices which provides a promising routine to demonstrate quantum advantages.
翻訳日:2023-01-19 04:06:07 公開日:2022-11-22
# ハミルトン格子定式化におけるwilsonおよびstaggered fermionを用いたシュウィンガー模型の質量再正規化

Mass Renormalization of the Schwinger Model with Wilson and Staggered Fermions in the Hamiltonian Lattice Formulation ( http://arxiv.org/abs/2211.12169v1 )

ライセンス: Link先を確認
Takis Angelides, Lena Funcke, Karl Jansen, Stefan K\"uhn(参考訳) ハミルトンの定式化における格子計算は、主にスタガードフェルミオンに焦点が当てられている。 本論文では,ハミルトニアン定式化におけるウィルソンフェルミオンについて検討し,結果として生じる質量シフトを決定する新しい方法を提案する。 ベンチマーク研究として、Wilson fermions と Topological $\theta$-term using matrix product state を用いて、1-flavour Schwinger モデルについて検討する。 ウィルソンフェルミオンはキラル対称性を明示的に破るので、格子モデルの素質量は加法的再正規化を受ける。 この質量シフトを直接測定するために、電場密度の真空期待値は、再正規化質量がゼロであるときに消滅するという事実に依存するハミルトニアンの定式化に適した方法を開発した。 本稿では,格子間隔,格子体積,$\theta$-parameter,Wilsonパラメータに対する質量シフトの依存性について検討する。 質量シフトを用いて、電場密度の連続的外挿を行い、質量摂動理論の解析的予測と結果の質量依存性を比較する。 質量シフトを組み込むことで連続体外挿が著しく改善することを示す。 最後に,ウィルソンフェルミオンの代わりにスタッガードフェルミオンを用いて同じモデルに適用し,結果の質量シフトを最近の理論予測と比較する。

Lattice computations in the Hamiltonian formulation have so far mainly focused on staggered fermions. In these proceedings, we study Wilson fermions in the Hamiltonian formulation and propose a new method to determine the resulting mass shift. As a benchmark study, we examine the one-flavour Schwinger model with Wilson fermions and a topological $\theta$-term using matrix product states. Wilson fermions explicitly break chiral symmetry; thus, the bare mass of the lattice model receives an additive renormalization. In order to measure this mass shift directly, we develop a method that is suitable for the Hamiltonian formulation, which relies on the fact that the vacuum expectation value of the electric field density vanishes when the renormalized mass is zero. We examine the dependence of the mass shift on the lattice spacing, the lattice volume, the $\theta$-parameter, and the Wilson parameter. Using the mass shift, we then perform the continuum extrapolation of the electric field density and compare the resulting mass dependence to the analytical predictions of mass perturbation theory. We demonstrate that incorporating the mass shift significantly improves the continuum extrapolation. Finally, we apply our method to the same model using staggered fermions instead of Wilson fermions and compare the resulting mass shift to recent theoretical predictions.
翻訳日:2023-01-19 04:05:52 公開日:2022-11-22
# kochen-specker彩色を伴わない整数ベクトルの集合

A set of integer vectors with no Kochen-Specker coloring ( http://arxiv.org/abs/2211.13216v1 )

ライセンス: Link先を確認
Ida Cortez, Manuel L. Reyes(参考訳) このノートは、コッチェン・スペックル彩色を持たない85次元整数ベクトルの新しい集合を示している。 これらのベクトルは、有理部分環 $\mathbb{z}[1/462]$ のエントリを持つ rank-1 射影行列を表す。 結果、$p$進整数行列に対して純粋に代数的な意味で(非)文脈性に対して与えられる。

This note exhibits a new set of 85 three-dimensional integer vectors that has no Kochen-Specker coloring. These vectors represent rank-1 projection matrices with entries in the rational subring $\mathbb{Z}[1/462]$. Consequences are given for (non)contextuality in a purely algebraic sense for $p$-adic integer matrices.
翻訳日:2023-01-19 03:58:52 公開日:2022-11-22
# 運動量空間における虚ゲージ変換とディラック例外点

Imaginary gauge transformation in momentum space and Dirac exceptional point ( http://arxiv.org/abs/2211.12567v1 )

ライセンス: Link先を確認
Jose H. D. Rivero, Liang Feng, and Li Ge(参考訳) 虚ゲージ変換は非エルミート皮膚効果の核である。 ここで、そのような変換は運動量空間でも行うことができ、そのパリティ時間(pt)対称位相におけるある種の利得と損失変調系は実ポテンシャルを持つエルミート系と同値であることが分かる。 運動量空間における解析は、同じ系の2種類の例外点(EP)を区別する。 利得と損失の連続的な増加にPT遷移をもたらす従来のタイプの他に、利得と損失強度の空間次元と合成次元からなるハイブリッド次元において、ディラックEPで連結された実数値エネルギーバンドが見つかる。

An imaginary gauge transformation is at the core of the non-Hermitian skin effect. Here we show that such a transformation can be performed in momentum space as well, which reveals that certain gain and loss modulated systems in their parity-time (PT) symmetric phases are equivalent to Hermitian systems with real potentials. Our analysis in momentum space also distinguishes two types of exceptional points (EPs) in the same system. Besides the conventional type that leads to a PT transition upon the continuous increase of gain and loss, we find real-valued energy bands connected at a Dirac EP in hybrid dimensions, consisting of a spatial dimension and a synthetic dimension for the gain and loss strength.
翻訳日:2023-01-19 03:58:47 公開日:2022-11-22
# 修正フォン・ノイマン方程式に基づく現象論的非平衡量子熱力学

Phenomenological Non-Equilibrium Quantum Thermodynamics based on Modified von Neumann Equations ( http://arxiv.org/abs/2211.12558v1 )

ライセンス: Link先を確認
Wolfgang Muschik(参考訳) 広義には、元の量子力学は可逆理論であるという説があるが、この主張は分解されていない系、つまりサブ系が考慮されていない系に対してのみ当てはまる。 分解系に定義上必要である部分系を考慮に入れると、分解系に存在しない相互作用ハミルトニアンは可逆性を生成する。 非可逆性が現れるようにフォン・ノイマンの方程式をどのように修正するか、そしてこの修正が分解された系にどのように影響するか? 第1段階はすでに実行され、以下に繰り返すが、分解された系の量子熱力学を定式化するための第2段階は、プロシージャ・ウィッチによるサブシステムのフォン・ノイマン方程式の修正によって、リンドブラッドの方程式と似ているが、サブシステムが分割を通して互いに相互作用するため異なる。

The wide-spread opinion is that original quantum mechanics is a reversible theory, but this statement is only true for undecomposed systems, that are those systems which sub-systems are out of consideration. Taking sub-systems into account, as it is by definition necessary for decomposed systems, the interaction Hamiltonians which are absent in undecomposed systems generate irreversibility. Thus, the following two-stage task arises: How to modify von Neumann's equation for undecomposed systems so that irreversibility appears, and how this modification affects decomposed systems ? The first step was already done and is repeated below, whereas the second step to formulate a quantum thermodynamics of decomposed systems is performed here by modifying the von Neumann equations of the sub-systems by a procedure wich is similar to that of Lindblad's equation, but different because the sub-systems interact with one another through partitions.
翻訳日:2023-01-19 03:58:35 公開日:2022-11-22
# sagnac構成における量子スイッチの実証

Demonstration of a quantum SWITCH in a Sagnac configuration ( http://arxiv.org/abs/2211.12540v1 )

ライセンス: Link先を確認
Teodor Str\"omberg, Peter Schiansky, Robert W. Peterson, Marco T\'ulio Quintino, Philip Walther(参考訳) 量子SWITCHは、不明確な因果構造を持つプロセスの例であり、量子回路モデル内で因果的に順序付けられた計算を上回る能力に注目されている。 これまで、量子SWITCHの実現は、微小経路長の変動を受けやすい光学干渉計に依存しており、その設計を複雑にし、その性能を制限し、量子SWITCHを複数のパーティに拡張する障害を生じさせている。 このレターでは、新しい相互および普遍的な$\mathrm{SU}(2)$偏光ガジェットによって促進される共通パス幾何を用いて、本質的に安定な量子SWITCHを実証することにより、これらの制限を克服する。 チャネル識別タスクをほぼ一元的成功確率で実行することで、設計を認証する。

The quantum SWITCH is an example of a process with an indefinite causal structure, and has attracted attention for its ability to outperform causally ordered computations within the quantum circuit model. To date, realisations of the quantum SWITCH have relied on optical interferometers susceptible to minute path length fluctuations, complicating their design, limiting their performance and posing an obstacle to extending the quantum SWITCH to multiple parties. In this Letter we overcome these limitations by demonstrating an intrinsically stable quantum SWITCH utilizing a common-path geometry facilitated by a novel reciprocal and universal $\mathrm{SU}(2)$ polarization gadget. We certify our design by successfully performing a channel discrimination task with near unity success probability.
翻訳日:2023-01-19 03:58:06 公開日:2022-11-22
# グリッドネットワークにおける絡み合いルーティングとボトルネック

Entanglement Routing and Bottlenecks in Grid Networks ( http://arxiv.org/abs/2211.12535v1 )

ライセンス: Link先を確認
Vaisakh Mannalath and Anirban Pathak(参考訳) 最近の記事では、Hahn et al. (npj Quantum Inf) がある。 5, 76 (2019) は量子ネットワークにおいて EPR 対を確立するプロトコルを提案した。 彼らは、局所補完のようなグラフ理論ツールを使用し、それぞれのプロトコルが、同じタスクの標準リピータベースのスキームと比較して必要な測定回数を減らすことができることを示した。 また、ローカル補完がバタフライネットワークのようなネットワークアーキテクチャのボトルネック問題を解決する方法も示した。 ここでは、作業を拡張し、効率と適用可能性の領域を拡大します。 具体的には、オリジナルの証明をどのように修正して幅広いシナリオを組み込むかを示し、修正されたプロトコルの利点を示す例を示す。 さらに,近年の結果をリンググラフのボトルネックに適用し,グリッドグラフがどのように影響を受けるかを説明する。 これを用いて,バタフライネットワークと類似ネットワークがリンググラフやライングラフと同じボトルネックに直面していることを示す。

In a recent article, Hahn et al. (npj Quantum Inf. 5, 76 (2019)) proposed a protocol for establishing EPR pairs in quantum networks. They used graph theoretic tools like local complementation and showed that their protocol can reduce the number of measurements required compared to standard repeater-based schemes for the same task. They also showed how local complementation can solve bottleneck issues in network architectures like the butterfly network. Here we extend their work, increasing its efficiency and the domain of applicability. Specifically, we show how the original proof can be modified to incorporate a wider variety of scenarios and provide examples demonstrating the modified protocol's advantage. Furthermore, we provide a method to apply recent results on bottlenecks in ring graphs to illustrate how grid graphs are affected. Using this, we demonstrate how the butterfly and similar networks suffer from the same bottleneck issues as ring and line graphs.
翻訳日:2023-01-19 03:57:53 公開日:2022-11-22
# 量子力学における絡み合いと吸収状態遷移

Entanglement and Absorbing-State Transitions in Interactive Quantum Dynamics ( http://arxiv.org/abs/2211.12526v1 )

ライセンス: Link先を確認
Nicholas O'Dea, Alan Morningstar, Sarang Gopalakrishnan, Vedika Khemani(参考訳) 測定された量子系は、測定結果に条件付き量子軌道の絡み合い特性の動的相転移を受けることができる。 これらの絡み合った遷移は、期待値のような従来の観測可能なものには見えないため、実験で見るのが難しい。 本研究では,測定結果を(局所的に)活用して,対象状態に向かってシステムを操り,その結果の位相図を計測とフィードバック率の関数として研究する,動的修正のクラスについて検討する。 ステアリングは、測定とフィードバック率が閾値を超えると成功し、軌道平均密度行列における観測可能な吸収状態遷移をもたらす。 吸収状態遷移は一般に、個々の軌道の絡み合い遷移から異なる臨界パラメータで発生し、異なる臨界特性を持つと主張する。 単純な製品分極状態を対象としたパラダイムモデルについて検討した。 このモデルでは、エンタングルメントと吸収状態遷移は、(強いフィードバックのために)識別不能な測定速度で数値的に発生するが、吸収状態遷移は、しかしながら、異なる方向パーコレーションの普遍性クラス(英語版)においてである。 また,SPT順序で絡み合ったクラスタ状態へのステアリングについても検討した。 パリティ対称性を反映する力学では、欠陥は非局所古典的通信を必要とするペアでのみ修正できる。 これは局所的なフィードバックの有効性を制限し、広く分離された絡み合いと吸収状態遷移をもたらし、後者はパリティ保存普遍性クラスに属する。

Monitored quantum system with measurements can undergo dynamical phase transitions in the entanglement properties of quantum trajectories conditional on measurement outcomes. These entanglement transitions are challenging to see in experiment, as they are invisible to traditional observables like expectation values (without exponential post-selection overhead). We explore a modified class of dynamics in which one attempts to (locally) use measurement outcomes to apply corrective unitaries to steer the system toward a target state, and study the resulting phase diagram as a function of the measurement and feedback rates. Steering succeeds when the measurement and feedback rates exceed a threshold, yielding an observable absorbing-state transition in the trajectory-averaged density matrix. We argue that the absorbing-state transition generally occurs at different critical parameters from the entanglement transition in individual trajectories, and has distinct critical properties. We study a paradigmatic model targeting a simple product polarized state. In this model, while the entanglement and absorbing-state transitions numerically occur at indistinguishable measurement rates (for strong feedback), we find that the absorbing-state transition is nevertheless in a distinct directed-percolation universality class -- results we expect to hold generally in local models targeting short-range correlated states in the absence of additional symmetries. We also study steering to an entangled cluster state with SPT order. With parity-symmetry-respecting dynamics, defects can only be corrected in pairs which requires non-local classical communication. This limits the efficacy of local feedback and yields widely separated entanglement and absorbing-state transitions, with the latter now belonging to the parity-conserving universality class.
翻訳日:2023-01-19 03:57:39 公開日:2022-11-22
# 滑らかな計量調整スキュー情報レート

Smooth Metric Adjusted Skew Information Rates ( http://arxiv.org/abs/2211.12522v1 )

ライセンス: Link先を確認
Koji Yamaguchi and Hiroyasu Tajima(参考訳) 量子フィッシャー情報から誘導される計量調整スキュー情報は、非対称性の資源理論においてよく知られた資源測度である。 しかし、漸近性不連続性があるため、漸近性は有効な非対称性モノトンではない。 ここではスムース化技術を用いた新しい非対称性測度を導入し,スムースな計量調整スキュー情報と呼ぶ。 我々は、その漸近 sup- および inf-rate が非対称性の資源理論において有効な漸近測度であることを証明した。 さらに、滑らかな計量調整スキュー情報レートは、コヒーレンスコストに対する下限と、蒸留可能なコヒーレンスに対する上限を与えることが証明される。

Metric adjusted skew information, induced from quantum Fisher information, is a well-known family of resource measures in the resource theory of asymmetry. However, its asymptotic rates are not valid asymmetry monotone since it has an asymptotic discontinuity. We here introduce a new class of asymmetry measures with the smoothing technique, which we term smooth metric adjusted skew information. We prove that its asymptotic sup- and inf-rates are valid asymptotic measures in the resource theory of asymmetry. Furthermore, it is proven that the smooth metric adjusted skew information rates provide a lower bound for the coherence cost and an upper bound for the distillable coherence.
翻訳日:2023-01-19 03:56:44 公開日:2022-11-22
# ホログラフィによる最大絡み合い速度

Maximal Entangling Rates from Holography ( http://arxiv.org/abs/2211.07654v2 )

ライセンス: Link先を確認
{\AA}smund Folkestad, Aditya Dhumuntarao(参考訳) ホログラフィック双対を持つ強結合cftにおける空間的均一な時間発展状態における、エンタングルメント、等時間相関子、空間的ウィルソンループの成長に関する新しい速度限界を証明した。 これらの境界は量子弱エネルギー条件と見なすこともできる。 速度制限のいくつかは任意のサイズと複数の接続されたコンポーネントを持つ領域で有効であり、より小さな部分領域の効果的な絡み合い速度に新たな境界があることを示唆する。 2d CFTでは、我々の結果は、多数の状態に対するリューとスーの予想を証明する。 本研究の鍵となるのは運動量-絡み合う対応であり,HRT表面を横断する運動量によって絡み合う成長が計算されることを示す。 実験では,境界アンカー型極端曲面の,表面が観測できる最小半径の鋭い境界や,極端曲面の先端が閉じ込められた領域に存在できないことなど,いくつかの一般的な特徴を証明した。 我々の手法はローレンツとリーマン・ホーキングの微妙な相互作用を含む新しいグローバルGR技術に依存している。 我々の証明はバルクにおける支配的なエネルギー条件を仮定するが、我々の境界がより制限的な仮定の下で真であることを示す数値的な証拠を与える。

We prove novel speed limits on the growth of entanglement, equal time correlators, and spacelike Wilson loops in spatially uniform time-evolving states in strongly coupled CFTs with holographic duals. These bounds can also be viewed as quantum weak energy conditions. Several of the speed limits are valid for regions of arbitrary size and with multiple connected components, and our findings imply new bounds on the effective entanglement velocity of small subregions. In 2d CFT, our results prove a conjecture by Liu and Suh for a large class of states. Key to our findings is a momentum-entanglement correspondence, showing that entanglement growth is computed by the momentum crossing the HRT surface. In our setup, we prove a number of general features of boundary-anchored extremal surfaces, such as a sharp bound on the smallest radius that a surface can probe, and that the tips of extremal surfaces cannot lie in trapped regions. Our methods rely on novel global GR techniques, including a delicate interplay between Lorentzian and Riemannian Hawking masses. While our proofs assume the dominant energy condition in the bulk, we provide numerical evidence that our bounds are true under less restrictive assumptions.
翻訳日:2023-01-18 06:53:55 公開日:2022-11-22
# 寒冷原子を用いた1+1d o(3)非線形シグマ模型の量子シミュレーションのための準備

Preparation for Quantum Simulation of the 1+1D O(3) Non-linear {\sigma}-Model using Cold Atoms ( http://arxiv.org/abs/2211.07684v2 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Hersh Singh, Martin J. Savage(参考訳) 1+1D O(3)-モデル(英: 1+1D O(3) non-linear {\sigma}-model)は、非アベルゲージ理論のような漸近的に自由な理論の将来の量子格子シミュレーションのモデルシステムである。 現在, コールド原子量子シミュレータで使用可能な2次元レイアウトの有効利用が期待できる。 開境界条件を持つ系に適用でき、アナログ量子シミュレータを用いて測定できる再正規化結合の新たな定義が導入された。 モンテカルロとテンソルネットワークの計算を行い、摂動的短距離観測器の再生に必要な量子資源を決定する。 特に、既存の量子ハードウェア能力を持つ48 rydberg原子の長方形配列は、摂動的に一致する理論の低エネルギー状態を漸次的に作成できることが示されている。 これらの状態は、古典的コンピュータの範囲を超えている連続極限における非摂動観測可能をシミュレートするために用いられる。

The 1+1D O(3) non-linear {\sigma}-model is a model system for future quantum lattice simulations of other asymptotically-free theories, such as non-Abelian gauge theories. We find that utilizing dimensional reduction can make efficient use of two-dimensional layouts presently available on cold atom quantum simulators. A new definition of the renormalized coupling is introduced, which is applicable to systems with open boundary conditions and can be measured using analog quantum simulators. Monte Carlo and tensor network calculations are performed to determine the quantum resources required to reproduce perturbative short-distance observables. In particular, we show that a rectangular array of 48 Rydberg atoms with existing quantum hardware capabilities should be able to adiabatically prepare low-energy states of the perturbatively-matched theory. These states can then be used to simulate non-perturbative observables in the continuum limit that lie beyond the reach of classical computers.
翻訳日:2023-01-18 06:41:50 公開日:2022-11-22
# Transversal Injection:安定化器符号を用いた非クリフォードゲートのアンシラ状態の直接符号化法

Transversal Injection: A method for direct encoding of ancilla states for non-Clifford gates using stabiliser codes ( http://arxiv.org/abs/2211.10046v2 )

ライセンス: Link先を確認
Jason Gavriel, Daniel Herr, Alexis Shaw, Michael J. Bremner, Alexandru Paler and Simon J. Devitt(参考訳) フォールトトレラントな誤り訂正量子計算は、科学や商業的な結果に非常に影響を与える大規模な量子アルゴリズムの実現に不可欠であると一般に認識されている。 フォールトトレラントな誤り訂正フレームワークにおける普遍的な量子ゲート操作を実現するには、「不快な保存」が伴う。 一般に、どんなエラー補正技術が使われるにせよ、物理量子ビット、計算時間、またはその両方において、重要なリソースオーバーヘッドを持つ普遍ゲートセットの1つの要素が常に存在する。 特に、これは非クリフォードゲートの適用によるものである。 表面符号のような安定化器符号のゲートを実現する一般的な方法は、状態注入、蒸留、ゲートテレポーテーションの3つのプロトコルの組み合わせである。 これらのプロトコルはcnotゲートのような論理演算に比べてリソースのオーバーヘッドに寄与し、任意の誤り訂正量子アルゴリズムの量子ビットリソースに寄与する。 本稿では,非クリフォードゲート(Transversal Injection)のオーバーヘッドを低減するための,非常に単純なプロトコルを提案する。 トランスバーサルインジェクション(Transversal Injection)は、標準符号化前の安定化器符号における全てのデータキュービットの初期物理状態を変更し、非クリフォード論理ゲートのリソース状態を含む多数の単一キュービット状態が直接準備される。 予備的な結果は、より広い距離における高品質のフィデリティを示唆し、この技術に関するさらなる研究を動機付けている。

Fault-tolerant, error-corrected quantum computation is commonly acknowledged to be crucial to the realisation of large-scale quantum algorithms that could lead to extremely impactful scientific or commercial results. Achieving a universal set of quantum gate operations in a fault-tolerant error-corrected framework suffers from a `conservation of unpleasantness'. In general, no matter what error correction technique is employed, there is always one element of a universal gate set that carries a significant resource overhead - either in physical qubits, computational time, or both. Specifically, this is due to the application of non-Clifford gates. A common method for realising these gates for stabiliser codes such as the surface code is a combination of three protocols: state injection, distillation and gate teleportation. These protocols contribute to the resource overhead compared to logical operations such as a CNOT gate and contributes to the qubit resources for any error-corrected quantum algorithm. In this paper, we introduce a very simple protocol to potentially reduce this overhead for non-Clifford gates: Transversal Injection. Transversal injection modifies the initial physical states of all data qubits in a stabiliser code before standard encoding and results in the direct preparation of a large class of single qubit states, including resource states for non-Clifford logic gates. Preliminary results hint at high quality fidelities at larger distances and motivate further research on this technique.
翻訳日:2023-01-18 04:31:13 公開日:2022-11-22
# スパイクニューラルネットワークにおける精度低下の影響の高速探索

Fast Exploration of the Impact of Precision Reduction on Spiking Neural Networks ( http://arxiv.org/abs/2212.11782v1 )

ライセンス: Link先を確認
Sepide Saeedi, Alessio Carpegna, Alessandro Savino and Stefano Di Carlo(参考訳) 近似計算(axc)技術は、性能、エネルギー、面積の削減のために計算精度をトレードオフする。 このトレードオフは、スパイキングニューラルネットワーク(SNN)の場合のように、アプリケーションが本質的にある程度の精度の損失に耐性がある場合に特に便利である。 ターゲットハードウェアがコンピューティングのエッジに達すると、SNNは実用的な選択肢となるが、いくつかの領域の最小化戦略が必要になる。 本研究では,そのようなモデルの能力を活用した探索手法を開発するために,区間演算(ia)モデルを用いて近似誤差を伝播させ,その近似がアプリケーションによって許容可能な限界を超える場合に検出する。 実験により,探索時間を著しく短縮し,ネットワークパラメータのサイズをさらに小さくし,よりきめ細かな結果が得られることを確認した。

Approximate Computing (AxC) techniques trade off the computation accuracy for performance, energy, and area reduction gains. The trade-off is particularly convenient when the applications are intrinsically tolerant to some accuracy loss, as in the Spiking Neural Networks (SNNs) case. SNNs are a practical choice when the target hardware reaches the edge of computing, but this requires some area minimization strategies. In this work, we employ an Interval Arithmetic (IA) model to develop an exploration methodology that takes advantage of the capability of such a model to propagate the approximation error to detect when the approximation exceeds tolerable limits by the application. Experimental results confirm the capability of reducing the exploration time significantly, providing the chance to reduce the network parameters' size further and with more fine-grained results.
翻訳日:2022-12-25 03:19:42 公開日:2022-11-22
# 非パラメトリック設定におけるラベルシフト問題に対するminimax最適アプローチ

Minimax optimal approaches to the label shift problem in non-parametric settings ( http://arxiv.org/abs/2003.10443v3 )

ライセンス: Link先を確認
Subha Maity, Yuekai Sun, and Moulinath Banerjee(参考訳) 非パラメトリック分類におけるラベルシフト問題の最小値について検討する。 学習者が対象ドメインからラベル付けされていない例のみにアクセス可能な教師なし設定に加えて,対象ドメインからラベル付けされた少数の例を学習者に提供可能な設定についても検討する。 本研究は,2つの設定におけるラベルシフト問題の難易度の違いを明らかにし,後者の設定におけるクラス条件分布を推定するために,対象領域からのデータの可利用性に起因する。 また,クラス比例推定手法は教師なし設定では最小レート最適であることを示した。

We study the minimax rates of the label shift problem in non-parametric classification. In addition to the unsupervised setting in which the learner only has access to unlabeled examples from the target domain, we also consider the setting in which a small number of labeled examples from the target domain is available to the learner. Our study reveals a difference in the difficulty of the label shift problem in the two settings, and we attribute this difference to the availability of data from the target domain to estimate the class conditional distributions in the latter setting. We also show that a class proportion estimation approach is minimax rate-optimal in the unsupervised setting.
翻訳日:2022-12-21 00:50:21 公開日:2022-11-22
# BERN-NN: Bernstein Polynomial Interval Arithmetic を用いたニューラルネットワークのタイト境界伝播

BERN-NN: Tight Bound Propagation For Neural Networks Using Bernstein Polynomial Interval Arithmetic ( http://arxiv.org/abs/2211.14438v1 )

ライセンス: Link先を確認
Wael Fatnassi, Haitham Khedr, Valen Yamamoto, Yasser Shoukry(参考訳) 本稿では,ニューラルネットワーク(NN)の有界伝播を行うための効率的なツールとしてBERN-NNを提案する。 境界伝搬は、幅広いNNモデルチェッカーと到達可能性分析ツールにおいて重要なステップである。 有界な入力集合が与えられたとき、バウンド伝播アルゴリズムはnnの出力のタイトな境界を計算することを目的としている。 これまでのところ、線形および凸最適化は有界伝搬を行うために用いられてきた。 ニューラルネットワークは非常に非凸であるため、最先端のバウンド伝搬技術は大きなエラーを引き起こす。 このような欠点を回避するため、BERN-NNはベルンシュタイン多項式と呼ばれる多項式のクラスを用いて各ニューロンの境界を近似する。 ベルンシュタイン多項式は、線型および凸近似に依存するものよりも、BERN-NNがより厳密な境界を得ることのできるいくつかの興味深い性質を持っている。 BERN-NNはグラフィック処理ユニット(GPU)上で効率よく並列化される。 その結果,BERN-NNで得られる境界は線形計画法や線形区間算術のような最先端の検証器で得られる境界よりも桁違いに厳密であることがわかった。 Moreoveer では、BERN-NN は α-CROWN のような凸プログラミング手法に比べて高速で、出力がより厳しい。

In this paper, we present BERN-NN as an efficient tool to perform bound propagation of Neural Networks (NNs). Bound propagation is a critical step in wide range of NN model checkers and reachability analysis tools. Given a bounded input set, bound propagation algorithms aim to compute tight bounds on the output of the NN. So far, linear and convex optimizations have been used to perform bound propagation. Since neural networks are highly non-convex, state-of-the-art bound propagation techniques suffer from introducing large errors. To circumvent such drawback, BERN-NN approximates the bounds of each neuron using a class of polynomials called Bernstein polynomials. Bernstein polynomials enjoy several interesting properties that allow BERN-NN to obtain tighter bounds compared to those relying on linear and convex approximations. BERN-NN is efficiently parallelized on graphic processing units (GPUs). Extensive numerical results show that bounds obtained by BERN-NN are orders of magnitude tighter than those obtained by state-of-the-art verifiers such as linear programming and linear interval arithmetic. Moreoveer, BERN-NN is both faster and produces tighter outputs compared to convex programming approaches like alpha-CROWN.
翻訳日:2022-12-04 14:15:41 公開日:2022-11-22
# コード切替自動音声認識のためのベンチマーク評価指標

Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition ( http://arxiv.org/abs/2211.16319v1 )

ライセンス: Link先を確認
Injy Hamed, Amir Hussein, Oumnia Chellah, Shammur Chowdhury, Hamdy Mubarak, Sunayana Sitaram, Nizar Habash, Ahmed Ali(参考訳) コードスイッチングは多言語自動音声認識における多くの課題と機会をもたらす。 本稿では,ロバストかつ公正な評価指標の問題に焦点を当てる。 そこで本研究では,人間の判断によるコード切り換え音声認識仮説の基準ベンチマークデータセットを開発する。 自動仮説の最小化のための明確なガイドラインを定義する。 4ウェイインターアノテータ協定を用いてガイドラインを検証した。 我々は、人間の判断との相関の観点から、多数の指標を評価する。 私たちが考慮している指標は、表現(orthographic, phonological, semantic)、直接性(inrinsic vs extrinsic)、粒度(語、文字など)、類似性計算法によって異なる。 人間の判断と最も高い相関関係は、音訳とテキスト正規化によって達成される。 アラビア語・英語会話音声におけるコード切り換え音声認識結果の人間の受け入れのための最初のコーパスをリリースする。

Code-switching poses a number of challenges and opportunities for multilingual automatic speech recognition. In this paper, we focus on the question of robust and fair evaluation metrics. To that end, we develop a reference benchmark data set of code-switching speech recognition hypotheses with human judgments. We define clear guidelines for minimal editing of automatic hypotheses. We validate the guidelines using 4-way inter-annotator agreement. We evaluate a large number of metrics in terms of correlation with human judgments. The metrics we consider vary in terms of representation (orthographic, phonological, semantic), directness (intrinsic vs extrinsic), granularity (e.g. word, character), and similarity computation method. The highest correlation to human judgment is achieved using transliteration followed by text normalization. We release the first corpus for human acceptance of code-switching speech recognition results in dialectal Arabic/English conversation speech.
翻訳日:2022-12-04 14:08:38 公開日:2022-11-22
# 反対クラス適応マージン損失を用いたコンテンツベース医用画像検索

Content-Based Medical Image Retrieval with Opponent Class Adaptive Margin Loss ( http://arxiv.org/abs/2211.15371v1 )

ライセンス: Link先を確認
\c{S}aban \"Ozt\"urk, Emin Celik, Tolga Cukur(参考訳) デジタルストレージを用いた医療画像装置の広帯域利用は、実質的なデータリポジトリのキュレーションの道を開いた。 疑わしいケースに類似した画像サンプルへの迅速なアクセスは、医療専門家のためのコンサルティングシステムを確立し、処理遅延を最小限にしながら診断手順を改善するのに役立つ。 しかし、大規模なデータリポジトリの手動クエリは手間がかかります。 コンテンツベース画像検索(cbir)は、画像の特徴を表現し、定量的類似度評価を可能にする高密度埋め込みベクトルに基づく自動ソリューションを提供する。 トリプルト学習はCBIRの埋め込みを回復するための強力なアプローチとして登場したが、従来の損失関数は反対の画像クラス間の動的関係を無視している。 本稿では,OCAM(Opponent Class Adaptive Margin)損失に基づく医用画像リポジトリの自動クエリのための3重学習手法を提案する。 ocamは、最適な判別表現を維持するためにトレーニング中に継続的に更新される可変マージン値を使用する。 OCAMのCBIR性能は,3つの公的データベース(消化管疾患,皮膚病変,肺疾患)上での表現学習における最先端の損失関数と比較した。 各アプリケーション領域における総合的な実験は、OCAMのベースラインに対する優れた性能を示す。

Broadspread use of medical imaging devices with digital storage has paved the way for curation of substantial data repositories. Fast access to image samples with similar appearance to suspected cases can help establish a consulting system for healthcare professionals, and improve diagnostic procedures while minimizing processing delays. However, manual querying of large data repositories is labor intensive. Content-based image retrieval (CBIR) offers an automated solution based on dense embedding vectors that represent image features to allow quantitative similarity assessments. Triplet learning has emerged as a powerful approach to recover embeddings in CBIR, albeit traditional loss functions ignore the dynamic relationship between opponent image classes. Here, we introduce a triplet-learning method for automated querying of medical image repositories based on a novel Opponent Class Adaptive Margin (OCAM) loss. OCAM uses a variable margin value that is updated continually during the course of training to maintain optimally discriminative representations. CBIR performance of OCAM is compared against state-of-the-art loss functions for representational learning on three public databases (gastrointestinal disease, skin lesion, lung disease). Comprehensive experiments in each application domain demonstrate the superior performance of OCAM against baselines.
翻訳日:2022-12-04 14:08:03 公開日:2022-11-22
# 深部断層撮影におけるノイズレジリエントアプローチ

Noise-resilient approach for deep tomographic imaging ( http://arxiv.org/abs/2211.15456v1 )

ライセンス: Link先を確認
Zhen Guo, Zhiguang Liu, Qihang Zhang, George Barbastathis, Michael E. Glinsky(参考訳) X線トモグラフィーのためのノイズ耐性深部再構成アルゴリズムを提案する。 提案手法は,うるさいトレーニング例を得ることなく,強い耐雑音性を示す。 我々のフレームワークの利点は、低光子断層撮影を可能にする可能性がある。

We propose a noise-resilient deep reconstruction algorithm for X-ray tomography. Our approach shows strong noise resilience without obtaining noisy training examples. The advantages of our framework may further enable low-photon tomographic imaging.
翻訳日:2022-12-04 14:07:26 公開日:2022-11-22
# 確率モデル選択によるグラフニューラルネットワークの生体内相互作用予測

Predicting Biomedical Interactions with Probabilistic Model Selection for Graph Neural Networks ( http://arxiv.org/abs/2211.13231v1 )

ライセンス: Link先を確認
Kishan K C, Rui Li, Paribesh Regmi, Anne R. Haake(参考訳) 生体システムは異種分子の複雑なネットワークであり、その相互作用はシステムの様々な生物学的特性に寄与する。 しかし、現在の生物学的ネットワークは、ノイズ、スパース、不完全であり、生物学的システムの全体像を作成し、生物学的現象を理解する能力を制限する。 このような相互作用の実験的同定には時間と費用がかかる。 近年の高スループットデータ生成の進歩と計算能力の大幅な向上により、ノイズネットワークにおける新しい相互作用を予測するために様々な計算手法が開発されている。 近年,グラフニューラルネットワークのような深層学習手法は,グラフ構造データのモデル化にその効果を示し,生体内相互作用予測において優れた性能を達成している。 しかし、グラフニューラルネットワークに基づく手法は、モデルの適切な複雑さを設計し、モデルの性能に大きな影響を及ぼすために、人間の専門知識と実験を必要とする。 さらに、ディープグラフニューラルネットワークは過度に適合する問題に直面しており、誤った予測に対する高い信頼性でキャリブレーションが不十分である傾向がある。 これらの課題に対処するため,グラフ畳み込みネットワークのベイズモデル選択法を提案し,データにより保証されるグラフ畳み込み層(深度)の最大数を推定し,同時にドロップアウト正規化を行う。 4つの相互作用データセットの実験により,提案手法が精度および校正された予測を達成できることが判明した。 提案手法により,グラフ畳み込みネットワークは深度を動的に適応し,対話数の増加に対応することができる。

A biological system is a complex network of heterogeneous molecular entities and their interactions contributing to various biological characteristics of the system. However, current biological networks are noisy, sparse, and incomplete, limiting our ability to create a holistic view of the biological system and understand the biological phenomena. Experimental identification of such interactions is both time-consuming and expensive. With the recent advancements in high-throughput data generation and significant improvement in computational power, various computational methods have been developed to predict novel interactions in the noisy network. Recently, deep learning methods such as graph neural networks have shown their effectiveness in modeling graph-structured data and achieved good performance in biomedical interaction prediction. However, graph neural networks-based methods require human expertise and experimentation to design the appropriate complexity of the model and significantly impact the performance of the model. Furthermore, deep graph neural networks face overfitting problems and tend to be poorly calibrated with high confidence on incorrect predictions. To address these challenges, we propose Bayesian model selection for graph convolutional networks to jointly infer the most plausible number of graph convolution layers (depth) warranted by data and perform dropout regularization simultaneously. Experiments on four interaction datasets show that our proposed method achieves accurate and calibrated predictions. Our proposed method enables the graph convolutional networks to dynamically adapt their depths to accommodate an increasing number of interactions.
翻訳日:2022-12-04 14:06:40 公開日:2022-11-22
# YZR-net : 自己教師型隠蔽表現の代名詞検出のための変換に不変

YZR-net : Self-supervised Hidden representations Invariant to Transformations for profanity detection ( http://arxiv.org/abs/2211.15532v1 )

ライセンス: Link先を確認
Vedant Sandeep Joshi and Sivanagaraja Tatinati and Yubo Wang(参考訳) 現在のe-}ラーニングプラットフォームでは、ライブクラスは学生に新しい概念を学習しながらより深く関与する機会を提供する重要なツールである。 このような授業では、教師や仲間との交流の要素が学習サイロを取り除き、各生徒がオフライン学習に関連するいくつかの側面を体験する機会を与える。 クラス内のインタラクションの一般的な方法のひとつは、チャット/メッセージングフレームワークを通じて、教師がメッセージをブロードキャストしたり、ライブクラスの学生からすぐにフィードバックを受け取ることができる。 この相互作用の自由は、学生の学習の成長にとって重要な側面であるが、その誤用は深刻な影響をもたらす可能性がある。 一部の誤解者は、このフレームワークを使って、他の生徒やクラスの教師に悪影響を及ぼすような、挑発的なメッセージを送る。 これらのまれながら高い影響の状況は、どのプラットフォームにもそのようなチャットが投稿されるのを防ぐ自動検出メカニズムの必要性を妨げる。 本研究では,学生がシステムを騙すために巧妙な修正を加えようとする場合でも,チャットで使用される冗長な単語を頑健に検出できる自己教師付きフレームワークであるyzr-netを開発した。 トークン/ワードレベルでのマッチング機構により、基礎となるモデルを再トレーニングすることなく更新可能な、コンパクトかつダイナミックな代名詞語彙を維持できる。 私たちのプロファニティ検出フレームワークは言語に依存しておらず、英語とhinglish(英語で書かれたヒンディー語)の両方で乱用を処理できます。

On current {\it e-}learning platforms, live classes are an important tool that provides students with an opportunity to get more involved while learning new concepts. In such classes, the element of interaction with teachers and fellow peers helps in removing learning silos and gives each student a chance to experience some aspects relevant to offline learning in this era of virtual classes. One common way of interaction in a class is through the chats / messaging framework, where the teacher can broadcast messages as well as get instant feedback from the students in the live class. This freedom of interaction is a crucial aspect for any student's learning growth but misuse of it can have serious repercussions. Some miscreants use this framework to send profane messages which can have a negative impact on other students as well as the teacher of the class. These rare but high impact situations obviate the need for automatic detection mechanisms that prevent the posting of such chats on any platform. In this work we develop YZR-Net which is a self-supervised framework that is able to robustly detect profane words used in a chat even if the student tries to add clever modifications to fool the system. The matching mechanism on token / word level allows us to maintain a compact as well as dynamic profane vocabulary which can be updated without retraining the underlying model. Our profanity detection framework is language independent and can handle abuses in both English as well as its transliterated counterpart Hinglish (Hindi language words written in English).
翻訳日:2022-12-04 13:58:23 公開日:2022-11-22
# 完全状態軌道からの教師なし行動の発見

Discovering Unsupervised Behaviours from Full-State Trajectories ( http://arxiv.org/abs/2211.15451v1 )

ライセンス: Link先を確認
Luca Grillotti, Antoine Cully(参考訳) オープンな学習能力の向上は、ロボットが現実世界の無限の複雑さに直面するための有望なアプローチである。 既存の手法の中で,多種多様かつ高性能なスキルを大量に集める品質多様性アルゴリズムは,この文脈において有効である。 しかし、これらのアルゴリズムのほとんどは、多様性を特徴付けるためにハンドコードされた振る舞い記述子に依存しているため、考慮されたタスクに関する事前の知識を必要とする。 そこで本研究では,自律的なロボットの能力を実現するための新たな分析手法を提案する。 本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。 すべてのアルゴリズムはナビゲーション、高速で前進、ハーフロールの3つのタスクに適用された。 実験の結果,全てのタスクに対して多様な解を自律的に収集するアルゴリズムが発見された。 より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用する。

Improving open-ended learning capabilities is a promising approach to enable robots to face the unbounded complexity of the real-world. Among existing methods, the ability of Quality-Diversity algorithms to generate large collections of diverse and high-performing skills is instrumental in this context. However, most of those algorithms rely on a hand-coded behavioural descriptor to characterise the diversity, hence requiring prior knowledge about the considered tasks. In this work, we propose an additional analysis of Autonomous Robots Realising their Abilities; a Quality-Diversity algorithm that autonomously finds behavioural characterisations. We evaluate this approach on a simulated robotic environment, where the robot has to autonomously discover its abilities from its full-state trajectories. All algorithms were applied to three tasks: navigation, moving forward with a high velocity, and performing half-rolls. The experimental results show that the algorithm under study discovers autonomously collections of solutions that are diverse with respect to all tasks. More specifically, the analysed approach autonomously finds policies that make the robot move to diverse positions, but also utilise its legs in diverse ways, and even perform half-rolls.
翻訳日:2022-12-04 13:51:19 公開日:2022-11-22
# Clarity: 高品質な視覚対実的説明を生成するための改善された勾配法

Clarity: an improved gradient method for producing quality visual counterfactual explanations ( http://arxiv.org/abs/2211.15370v1 )

ライセンス: Link先を確認
Claire Theobald, Fr\'ed\'eric Pennerath, Brieuc Conan-Guez, Miguel Couceiro, Amedeo Napoli(参考訳) 視覚的な反事実的説明は、分類器の予測を変更するイメージの変更を識別する。 本稿では、生成モデル(VAE)と、潜在空間で直接訓練された分類器アンサンブルに基づく一連の手法を提案する。 これらの改善は、新しい分類モデルであるclarityにつながり、すべての画像に対して現実的な反事実的説明を生み出す。 また,これらの手法が文献のそれよりも優れた品質結果をもたらす理由を考察する実験もいくつか実施する。 得られた説明は最先端技術と競合し、トレーニングに意味のある入力空間を選択することの重要性を強調している。

Visual counterfactual explanations identify modifications to an image that would change the prediction of a classifier. We propose a set of techniques based on generative models (VAE) and a classifier ensemble directly trained in the latent space, which all together, improve the quality of the gradient required to compute visual counterfactuals. These improvements lead to a novel classification model, Clarity, which produces realistic counterfactual explanations over all images. We also present several experiments that give insights on why these techniques lead to better quality results than those in the literature. The explanations produced are competitive with the state-of-the-art and emphasize the importance of selecting a meaningful input space for training.
翻訳日:2022-12-04 13:49:16 公開日:2022-11-22
# 深度強化学習型自動運転における時空間トロイの木馬攻撃

Don't Watch Me: A Spatio-Temporal Trojan Attack on Deep-Reinforcement-Learning-Augment Autonomous Driving ( http://arxiv.org/abs/2211.14440v1 )

ライセンス: Link先を確認
Yinbo Yu, Jiajia Liu(参考訳) 深部強化学習(DRL)は、自律運転システムを実現するための最も一般的なアルゴリズムの1つである。 DRLの重要な成功要因は、トロイの木馬攻撃に対して脆弱であることが証明されたディープニューラルネットワークの知覚能力を受け入れることである。 トロイの木馬攻撃は、教師あり学習(SL)タスク(画像分類など)で広く研究されてきたが、DRLによって解決されたシーケンシャルな意思決定タスクではまれである。 そこで本稿では,ADタスクに対するDRL攻撃について検討する。 まず、再帰型ニューラルネットワークとアテンション機構に基づく時空間DRLアルゴリズムを提案し、時空間交通特徴のキャプチャがDRL拡張ADシステムの有効性と安全性の鍵となることを証明した。 次に、DRL ポリシーに対する時空間トロイの木馬攻撃を設計し、トリガーは既存の SL および DRL タスクにおけるトロイの木馬の1つの瞬間状態ではなく、空間的および時間的交通特徴の列に隠蔽される。 私たちのトロイの木馬では、敵は周囲の通常の乗り物として働き、物理的またはワイヤレスアクセスではなく、特定の空間的-時間的運転行動によって攻撃を誘発する。 広汎な実験により、時空間交通の特徴を捉えることで、異なるADタスクに対するDRLの性能を向上させることができるが、設計したトロイア攻撃は高いステルス性(様々な時空間トリガーパターン)、有効性(3.1\%以上の性能ばらつきと98.5\%以上の攻撃成功率)、そして既存の先進防衛に持続できることを示す。

Deep reinforcement learning (DRL) is one of the most popular algorithms to realize an autonomous driving (AD) system. The key success factor of DRL is that it embraces the perception capability of deep neural networks which, however, have been proven vulnerable to Trojan attacks. Trojan attacks have been widely explored in supervised learning (SL) tasks (e.g., image classification), but rarely in sequential decision-making tasks solved by DRL. Hence, in this paper, we explore Trojan attacks on DRL for AD tasks. First, we propose a spatio-temporal DRL algorithm based on the recurrent neural network and attention mechanism to prove that capturing spatio-temporal traffic features is the key factor to the effectiveness and safety of a DRL-augment AD system. We then design a spatial-temporal Trojan attack on DRL policies, where the trigger is hidden in a sequence of spatial and temporal traffic features, rather than a single instant state used in existing Trojan on SL and DRL tasks. With our Trojan, the adversary acts as a surrounding normal vehicle and can trigger attacks via specific spatial-temporal driving behaviors, rather than physical or wireless access. Through extensive experiments, we show that while capturing spatio-temporal traffic features can improve the performance of DRL for different AD tasks, they suffer from Trojan attacks since our designed Trojan shows high stealthy (various spatio-temporal trigger patterns), effective (less than 3.1\% performance variance rate and more than 98.5\% attack success rate), and sustainable to existing advanced defenses.
翻訳日:2022-12-04 13:49:04 公開日:2022-11-22
# フラッドスター検出がロバスト勧告にどのように貢献するか

How Fraudster Detection Contributes to Robust Recommendation ( http://arxiv.org/abs/2211.11534v2 )

ライセンス: Link先を確認
Yuni Lai, Kai Zhou(参考訳) ノードインジェクション攻撃下でのレコメンデーションシステムの敵対的ロバスト性は研究の注目を集めている。 近年、堅牢なレコメンデーションシステムGraphRfiが提案され、GraphRfiがシステム内で注入された偽ユーザの影響を軽減できることが示されている。 残念なことに、GraphRfiは詐欺師検出コンポーネントの監督された性質のため、まだ攻撃に対して脆弱であることを示す。 具体的には,graphrfiに対する新たな攻撃メタコーデックを提案し,このような攻撃においてgraphrfiが失敗した理由をさらに分析する。 脆弱性分析から得られた知見に基づいて,不正検出コンポーネントを再設計し,新たな堅牢なレコメンデーションシステムPDRを構築した。 総合的な実験によって、我々の防御アプローチは攻撃下の他のベンチマークメソッドよりも優れています。 全体として,本研究は,不正者検出をレコメンデーションに組み込む効果的な枠組みを実証する。

The adversarial robustness of recommendation systems under node injection attacks has received considerable research attention. Recently, a robust recommendation system GraphRfi was proposed, and it was shown that GraphRfi could successfully mitigate the effects of injected fake users in the system. Unfortunately, we demonstrate that GraphRfi is still vulnerable to attacks due to the supervised nature of its fraudster detection component. Specifically, we propose a new attack metaC against GraphRfi, and further analyze why GraphRfi fails under such an attack. Based on the insights we obtained from the vulnerability analysis, we build a new robust recommendation system PDR by re-designing the fraudster detection component. Comprehensive experiments show that our defense approach outperforms other benchmark methods under attacks. Overall, our research demonstrates an effective framework of integrating fraudster detection into recommendation to achieve adversarial robustness.
翻訳日:2022-11-27 13:25:30 公開日:2022-11-22
# 単語の強化学習手法:POMDP/適応制御アプローチ

Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control Approach ( http://arxiv.org/abs/2211.10298v3 )

ライセンス: Link先を確認
Siddhant Bhambri, Amrita Bhattacharjee, Dimitri Bertsekas(参考訳) 本稿では,動的システムの適応制御や部分可観測マルコフ決定過程(pomdp)問題のクラスに広く適用される新しい強化学習法を用いて,人気のあるワードルパズルの解法について述べる。 これらの手法は値空間の近似とロールアウトアプローチに基づいており、簡単な実装が認められ、様々なヒューリスティックなアプローチよりもパフォーマンスが向上している。 wordleパズルの場合、それらは比較的小さな計算コストで最適に近いオンラインソリューション戦略をもたらす。 提案手法はwordleのより複雑なバージョンと関連する検索問題に対して有効であり,最適戦略の計算は不可能である。 これらはまた、パラメータがオンラインで推定される未知または頻繁な環境を含む幅広い適応的な逐次的決定問題にも適用できる。

In this paper we address the solution of the popular Wordle puzzle, using new reinforcement learning methods, which apply more generally to adaptive control of dynamic systems and to classes of Partially Observable Markov Decision Process (POMDP) problems. These methods are based on approximation in value space and the rollout approach, admit a straightforward implementation, and provide improved performance over various heuristic approaches. For the Wordle puzzle, they yield on-line solution strategies that are very close to optimal at relatively modest computational cost. Our methods are viable for more complex versions of Wordle and related search problems, for which an optimal strategy would be impossible to compute. They are also applicable to a wide range of adaptive sequential decision problems that involve an unknown or frequently changing environment whose parameters are estimated on-line.
翻訳日:2022-11-27 13:07:26 公開日:2022-11-22
# OpenStreetMap(OSM)データを下流アプリケーションのための機能的道路ネットワークに変換する

Converting OpenStreetMap (OSM) Data to Functional Road Networks for Downstream Applications ( http://arxiv.org/abs/2211.12996v1 )

ライセンス: Link先を確認
Md Kaisar Ahmed(参考訳) 本研究では,Extensible Markup Language (XML) フォーマットデータを含む OpenStreetMap (OSM) データについて検討する。 OpenStreetMapのデータにはさまざまなフォーマットがある。 OSM XMLフォーマットはその1つです。 OSMデータは、ノード(ポイント)、方法(ラインとバウンダリ)、関係(2つ以上のノードまたは方法間の関係)という形式で情報を保持する。 ここでは、OSM XMLデータを前処理して、pythonを使ってノード情報を抽出し、道路の全地図をメンフィス地域に取得する。 私たちはOSMデータを、メンフィス地域の地図全体を提供するような方法で解析します。 このマップは、異なるニューラルネットワーク(NN)と機械学習(ML)アプリケーションにも利用できる。 この作業に含まれるステップは、メンフィス地域osmデータのダウンロード、osm xmlファイルの理解と解析、ノードの変換と情報をpandasデータフレームへの変換、pythonで利用可能なデータビジュアライゼーションライブラリを使用して、これらのデータをマップ全体に視覚化する。

In this work, we study the OpenStreetMap (OSM) data that contains Extensible Markup Language (XML) formatted data. OpenStreetMap data has many different formats. OSM XML format is one of them. OSM data has information in the form of nodes (points), ways (lines and boundaries), and relations (relationships between two or more nodes or ways). Here, we preprocess OSM XML data to extract the ways and nodes information using python to get the whole map of the streets for the Memphis area. We parse the OSM data in such a way that gives us the whole map of the Memphis area. We can further use this map for different Neural Networks (NN) and Machine learning (ML) applications. The steps that are included in this work downloading the Memphis area OSM data, understanding and parsing the OSM XML file, converting the nodes and ways information into the Pandas DataFrame, and visualizing these data into the whole map by using python's available data visualization libraries.
翻訳日:2022-11-24 16:39:04 公開日:2022-11-22
# 条件変動オートエンコーダを用いた大気チェレンコフ望遠鏡の画像生成

Using conditional variational autoencoders to generate images from atmospheric Cherenkov telescopes ( http://arxiv.org/abs/2211.12553v1 )

ライセンス: Link先を確認
Stanislav Polyakov (1), Alexander Kryukov (1), Andrey Demichev (1), Julia Dubenskaya (1), Elizaveta Gres (2), Anna Vlaskina (3) ((1) Skobeltsyn Institute of Nuclear Physics, Lomonosov Moscow State University, (2) Applied Physics Institute of Irkutsk State University, (3) Lomonosov Moscow State University)(参考訳) 地球上層大気に衝突する高エネルギー粒子は、チェレンコフ望遠鏡を用いて地上から検出できる広範囲の空気シャワーを発生させる。 チェレンコフ望遠鏡によって記録された画像は、背景ハドロン現象からガンマ線イベントを分離するために分析することができる。 多くの分析方法は、モンテカルロ法による大量の事象と対応する画像のシミュレーションを必要とする。 しかしモンテカルロシミュレーションは計算に高価である。 モンテカルロ法でシミュレーションされたデータは、生成逆数ネットワークや条件付き変分オートエンコーダなどの高速な機械学習手法を用いて生成された画像によって拡張することができる。 我々は条件付き変分オートエンコーダを用いて、タイガ実験のチェレンコフ望遠鏡からガンマ現象の画像を生成する。 可変オートエンコーダは、条件パラメータとして使用される画像サイズまたは画素の振幅の和を持つモンテカルロイベントのセットに基づいて訓練される。 トレーニングされた変分オートエンコーダを用いて,ガンマ事象のモンテカルロシミュレーション画像のサイズ分布と同じ条件パラメータの分布を持つ新しい画像を生成する。 ガンマとプロトンで訓練された分類器ニューラルネットワークは、平均ガンマスコア0.984を割り当て、3%未満のイベントは0.999以下のガンマスコアに割り当てられる。 同時に、生成した画像のサイズは、生成に使用される条件パラメータに一致せず、平均誤差 0.33 である。

High-energy particles hitting the upper atmosphere of the Earth produce extensive air showers that can be detected from the ground level using imaging atmospheric Cherenkov telescopes. The images recorded by Cherenkov telescopes can be analyzed to separate gamma-ray events from the background hadron events. Many of the methods of analysis require simulation of massive amounts of events and the corresponding images by the Monte Carlo method. However, Monte Carlo simulation is computationally expensive. The data simulated by the Monte Carlo method can be augmented by images generated using faster machine learning methods such as generative adversarial networks or conditional variational autoencoders. We use a conditional variational autoencoder to generate images of gamma events from a Cherenkov telescope of the TAIGA experiment. The variational autoencoder is trained on a set of Monte Carlo events with the image size, or the sum of the amplitudes of the pixels, used as the conditional parameter. We used the trained variational autoencoder to generate new images with the same distribution of the conditional parameter as the size distribution of the Monte Carlo-simulated images of gamma events. The generated images are similar to the Monte Carlo images: a classifier neural network trained on gamma and proton events assigns them the average gamma score 0.984, with less than 3% of the events being assigned the gamma score below 0.999. At the same time, the sizes of the generated images do not match the conditional parameter used in their generation, with the average error 0.33.
翻訳日:2022-11-24 16:37:21 公開日:2022-11-22
# 車載音声分離のためのディープニューラルメルサブバンドビームフォーマ

Deep Neural Mel-Subband Beamformer for In-car Speech Separation ( http://arxiv.org/abs/2211.12590v1 )

ライセンス: Link先を確認
Vinay Kothapally, Yong Xu, Meng Yu, Shi-Xiong Zhang, Dong Yu(参考訳) 現在の深層学習(DL)ベースのビームフォーミング技術は音声分離に有効であることが証明されているが、狭帯域(NB)周波数を独立して処理するように設計されており、計算コストと推論時間が高くなり、実際の使用には適さない。 本稿では,dlベースのメルサブバンド時空間ビームフォーマを提案し,計算コストと推定時間を削減した自動車環境で音声分離を行う。 従来のサブバンド(SB)アプローチとは対照的に,我々のフレームワークでは,ほとんどの音声フォルマント構造が存在する低周波の細粒度処理と高周波の粗粒度処理を実現するメルスケールベースサブバンド選択方式を採用している。 再帰的な方法では、推定サブバンド音声とノイズ共分散行列から、車内の話者位置/ゾーン毎にロバストフレームレベルのビームフォーミング重みを決定する。 さらに,提案フレームワークは,エコー基準信号を用いてスピーカからのエコーを推定し,抑制する。 提案するフレームワークの性能を,音声品質および音声認識指標の観点から,複数のNB,SB,FB処理技術と比較した。 シミュレーションおよび実世界記録の実験的評価結果から,提案手法はsbおよびfbの手法においてより優れた分離性能を達成でき,計算コストを低減しつつnb処理技術に近い性能が得られることがわかった。

While current deep learning (DL)-based beamforming techniques have been proved effective in speech separation, they are often designed to process narrow-band (NB) frequencies independently which results in higher computational costs and inference times, making them unsuitable for real-world use. In this paper, we propose DL-based mel-subband spatio-temporal beamformer to perform speech separation in a car environment with reduced computation cost and inference time. As opposed to conventional subband (SB) approaches, our framework uses a mel-scale based subband selection strategy which ensures a fine-grained processing for lower frequencies where most speech formant structure is present, and coarse-grained processing for higher frequencies. In a recursive way, robust frame-level beamforming weights are determined for each speaker location/zone in a car from the estimated subband speech and noise covariance matrices. Furthermore, proposed framework also estimates and suppresses any echoes from the loudspeaker(s) by using the echo reference signals. We compare the performance of our proposed framework to several NB, SB, and full-band (FB) processing techniques in terms of speech quality and recognition metrics. Based on experimental evaluations on simulated and real-world recordings, we find that our proposed framework achieves better separation performance over all SB and FB approaches and achieves performance closer to NB processing techniques while requiring lower computing cost.
翻訳日:2022-11-24 16:36:56 公開日:2022-11-22
# SkipConvGAN:複雑な時間周波数マスキングによる生成逆ネットワークを用いたモナラ音声認識

SkipConvGAN: Monaural Speech Dereverberation using Generative Adversarial Networks via Complex Time-Frequency Masking ( http://arxiv.org/abs/2211.12623v1 )

ライセンス: Link先を確認
Vinay Kothapally, J. H. L. Hansen(参考訳) ディープラーニング手法の進歩に伴い,背景雑音の存在下での音声強調システムの性能は大幅に向上した。 しかしながら、残響に対するシステムの堅牢性の改善は、時間と周波数におけるスミアリングの影響によりフォルマント構造が失われる傾向にあるため、まだ進行中である。 幅広いディープラーニングベースのシステムは、大きさの応答を高め、歪んだ位相を再利用するか、複雑な時間周波数マスクを用いて複雑な分光図を拡張する。 これらの手法は良好な性能を示したが、残響による失われたフォルマント構造に直接対処するものではない。 フォーマント構造を取得することは、既存のシステムの効率を改善するのに役立つと考えています。 本研究では,以前のskipconvnetの拡張であるskipconvganを提案する。 提案方式のジェネレータネットワークは、効率的な複雑な時間周波数マスクを推定し、判別器ネットワークは、失われたフォルマント構造を復元するためにジェネレータを駆動する。 本稿では,REVERBチャレンジコーパスの単一チャンネルタスクからの残響音声のシミュレートおよび実録音における提案システムの性能評価を行った。 提案システムでは,複数の部屋構成にまたがる一貫した改善を,他の深層学習に基づく生成的対向フレームワークと比較した。

With the advancements in deep learning approaches, the performance of speech enhancing systems in the presence of background noise have shown significant improvements. However, improving the system's robustness against reverberation is still a work in progress, as reverberation tends to cause loss of formant structure due to smearing effects in time and frequency. A wide range of deep learning-based systems either enhance the magnitude response and reuse the distorted phase or enhance complex spectrogram using a complex time-frequency mask. Though these approaches have demonstrated satisfactory performance, they do not directly address the lost formant structure caused by reverberation. We believe that retrieving the formant structure can help improve the efficiency of existing systems. In this study, we propose SkipConvGAN - an extension of our prior work SkipConvNet. The proposed system's generator network tries to estimate an efficient complex time-frequency mask, while the discriminator network aids in driving the generator to restore the lost formant structure. We evaluate the performance of our proposed system on simulated and real recordings of reverberant speech from the single-channel task of the REVERB challenge corpus. The proposed system shows a consistent improvement across multiple room configurations over other deep learning-based generative adversarial frameworks.
翻訳日:2022-11-24 16:36:32 公開日:2022-11-22
# 複素値時間周波数自己アテンションによる音声認識

Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation ( http://arxiv.org/abs/2211.12632v1 )

ライセンス: Link先を確認
Vinay Kothapally, John H.L. Hansen(参考訳) いくつかの音声処理システムは、ディープ・コンプレックス・ニューラル・ネットワーク(DCNN)と自己注意(SA)ネットワークが組み合わさると、かなり性能が向上した。 しかし,DCNNを基盤とした自己注意を用いた音声の残響に関する研究の多くは,実際の特徴と想像的特徴の相互依存性を明示的に考慮していない。 本研究では,時間および周波数次元の2次元アテンションマップを計算し,スペクトルおよび時間依存性をモデル化したT-Fアテンションモジュールを提案する。 本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証する。 実験結果から, 複雑なTFAモジュールをDCCRNに統合することで, 音声認識などのバックエンド音声アプリケーション全体の品質と性能が, 自己注意のアプローチよりも向上することが示唆された。

Several speech processing systems have demonstrated considerable performance improvements when deep complex neural networks (DCNN) are coupled with self-attention (SA) networks. However, the majority of DCNN-based studies on speech dereverberation that employ self-attention do not explicitly account for the inter-dependencies between real and imaginary features when computing attention. In this study, we propose a complex-valued T-F attention (TFA) module that models spectral and temporal dependencies by computing two-dimensional attention maps across time and frequency dimensions. We validate the effectiveness of our proposed complex-valued TFA module with the deep complex convolutional recurrent network (DCCRN) using the REVERB challenge corpus. Experimental findings indicate that integrating our complex-TFA module with DCCRN improves overall speech quality and performance of back-end speech applications, such as automatic speech recognition, compared to earlier approaches for self-attention.
翻訳日:2022-11-24 16:36:13 公開日:2022-11-22
# 論文に対する著者の認識は、共著者の認識やピアレビュー決定とどのように比較されるか?

How do Authors' Perceptions of their Papers Compare with Co-authors' Perceptions and Peer-review Decisions? ( http://arxiv.org/abs/2211.12966v1 )

ライセンス: Link先を確認
Charvi Rastogi, Ivan Stelmakh, Alina Beygelzimer, Yann N. Dauphin, Percy Liang, Jennifer Wortman Vaughan, Zhenyu Xue, Hal Daum\'e III, Emma Pierson, and Nihar B. Shah(参考訳) 著者の認識は、ピアレビュープロセスや他者の知覚の結果とどのように一致しますか? 最上位のコンピュータサイエンスカンファレンス(NeurIPS 2021)では、著者が23,000人以上、論文が9000人以上、著者が3つの質問について調査した。 一 各論文の受理確率の予測 (ii)科学的貢献に基づく自身の論文のランク付け (iii)レビューを見た後、自身の論文に対する認識の変化。 1)著者は論文の受理確率をおよそ3倍過大評価している: 中央値の予測は、約25%の受理率に対して70%である。 2) 女性作家は, 男性作家よりも極端に高い(統計的に重要な)誤診を示し, メタレビュアーやレビュアーとして招かれた著者の予測も同様に校正されているが, レビューに招待されなかった著者よりは優れている。 (3)著者が提出した2件の論文の科学的貢献の相対的ランク付け(93%)は、受理確率の予測に概ね一致しているが、著者がより良い論文がより悪い結果に直面すると考える顕著な7%の回答がある。 (4) 著者が提案したランキングは、その3分の1前後の査読決定とは一致せず、共同執筆者が共同執筆論文をランク付けしたとき、共同執筆者は3分の1程度の割合で意見が一致しなかった。 5%) 受理論文と受理論文の両方の回答者の少なくとも30%は, 審査後, 自己の論文に対する認識が改善したと回答した。 ピアレビューの利害関係者は、ピアレビューからの期待を考慮に入れなければならない。

How do author perceptions match up to the outcomes of the peer-review process and perceptions of others? In a top-tier computer science conference (NeurIPS 2021) with more than 23,000 submitting authors and 9,000 submitted papers, we survey the authors on three questions: (i) their predicted probability of acceptance for each of their papers, (ii) their perceived ranking of their own papers based on scientific contribution, and (iii) the change in their perception about their own papers after seeing the reviews. The salient results are: (1) Authors have roughly a three-fold overestimate of the acceptance probability of their papers: The median prediction is 70% for an approximately 25% acceptance rate. (2) Female authors exhibit a marginally higher (statistically significant) miscalibration than male authors; predictions of authors invited to serve as meta-reviewers or reviewers are similarly calibrated, but better than authors who were not invited to review. (3) Authors' relative ranking of scientific contribution of two submissions they made generally agree (93%) with their predicted acceptance probabilities, but there is a notable 7% responses where authors think their better paper will face a worse outcome. (4) The author-provided rankings disagreed with the peer-review decisions about a third of the time; when co-authors ranked their jointly authored papers, co-authors disagreed at a similar rate -- about a third of the time. (5) At least 30% of respondents of both accepted and rejected papers said that their perception of their own paper improved after the review process. The stakeholders in peer review should take these findings into account in setting their expectations from peer review.
翻訳日:2022-11-24 16:34:30 公開日:2022-11-22
# centrifuge機構を用いたマルチcpuアーキテクチャのコンパイラプロヴァンス回復

Compiler Provenance Recovery for Multi-CPU Architectures Using a Centrifuge Mechanism ( http://arxiv.org/abs/2211.13110v1 )

ライセンス: Link先を確認
Yuhei Otsubo, Akira Otsuka and Mamoru Mimura(参考訳) ビットストリーム認識(BSR)には、法医学的な調査、著作権侵害の検出、マルウェア分析など、多くの応用がある。 素入力ビットストリームを受信し、前処理なしでクラスラベルを出力する最初のBSRを提案する。 そこで我々は,上流層 (サブネット) がグローバル特徴を捉え, 下流層 (メインネット) に対して, 入力ビットストリームの一部が同じ値であっても, フォーカスを切り替えるように指示する遠心分離機構を提案する。 我々は,bsrの一種であるコンパイラ・プロヴァンス・リカバリに遠心分離機構を適用し,優れた分類を達成した。 さらに,遠心分離機構の学習手法の一つであるダウンストリーム転送学習 (dtl) では,サブネットの出力ではなく,サブネットの基底真理を用いてメインネットを事前学習する。 その結果,dtlによるサブ予測は,サブラベル分類が主予測の本質に寄与する場合に高い精度を示す傾向にあった。

Bit-stream recognition (BSR) has many applications, such as forensic investigations, detection of copyright infringement, and malware analysis. We propose the first BSR that takes a bare input bit-stream and outputs a class label without any preprocessing. To achieve our goal, we propose a centrifuge mechanism, where the upstream layers (sub-net) capture global features and tell the downstream layers (main-net) to switch the focus, even if a part of the input bit-stream has the same value. We applied the centrifuge mechanism to compiler provenance recovery, a type of BSR, and achieved excellent classification. Additionally, downstream transfer learning (DTL), one of the learning methods we propose for the centrifuge mechanism, pre-trains the main-net using the sub-net's ground truth instead of the sub-net's output. We found that sub-predictions made by DTL tend to be highly accurate when the sub-label classification contributes to the essence of the main prediction.
翻訳日:2022-11-24 16:25:53 公開日:2022-11-22
# バリア付きブランチ・アンド・バウンド:DDベースブランチ・アンド・バウンドの優位性と準最適検出

Branch-and-Bound with Barrier: Dominance and Suboptimality Detection for DD-Based Branch-and-Bound ( http://arxiv.org/abs/2211.13118v1 )

ライセンス: Link先を確認
Vianney Copp\'e, Xavier Gillard, Pierre Schaus(参考訳) 2016年にBergmanらによって導入された決定図に基づく分岐とバウンドのアルゴリズムは、動的プログラミングの定式化によって離散最適化問題を解決するためのフレームワークである。 これは、任意の部分問題に対して下限と上限を提供する一連の有界幅決定ダイアグラムをコンパイルすることで機能する。 最終的には、検索空間のすべての部分がアルゴリズムによって探索または切断されるため、最適性が証明される。 本稿では動的プログラミングモデルの構造を利用して探索を高速化する新しい要素を提案する。 鍵となる考え方は、バリアと呼ばれるデータ構造にしきい値を保存することによって、同じ動的プログラミング状態に対応するノードの反復的な探索を防止することである。 これらのしきい値は、以前に発見された部分解間の支配関係に基づいている。 2021年にGillardらによって導入されたフィルタリング技術を統合することでさらに強化することができる。 計算実験により、バリアによってもたらされる刈り取りは、アルゴリズムによって拡張されたノード数を大幅に削減できることを示した。 これにより、より狭い決定ダイアグラムを使いながら、より少ない時間で難しい最適化問題のベンチマークインスタンスが解決される。

The branch-and-bound algorithm based on decision diagrams introduced by Bergman et al. in 2016 is a framework for solving discrete optimization problems with a dynamic programming formulation. It works by compiling a series of bounded-width decision diagrams that can provide lower and upper bounds for any given subproblem. Eventually, every part of the search space will be either explored or pruned by the algorithm, thus proving optimality. This paper presents new ingredients to speed up the search by exploiting the structure of dynamic programming models. The key idea is to prevent the repeated exploration of nodes corresponding to the same dynamic programming states by storing and querying thresholds in a data structure called the Barrier. These thresholds are based on dominance relations between partial solutions previously found. They can be further strengthened by integrating the filtering techniques introduced by Gillard et al. in 2021. Computational experiments show that the pruning brought by the Barrier allows to significantly reduce the number of nodes expanded by the algorithm. This results in more benchmark instances of difficult optimization problems being solved in less time while using narrower decision diagrams.
翻訳日:2022-11-24 16:17:51 公開日:2022-11-22
# ArrayFlex: 構成可能な透明パイプライニングを備えたシストリックアレーアーキテクチャ

ArrayFlex: A Systolic Array Architecture with Configurable Transparent Pipelining ( http://arxiv.org/abs/2211.12600v1 )

ライセンス: Link先を確認
C. Peltekis (1), D. Filippas (1), G. Dimitrakopoulos (1), C. Nicopoulos (2), D. Pnevmatikatos (3) ((1) Electrical and Computer Engineering - Democritus University of Thrace, (2) Electrical and Computer Engineering - University of Cyprus, (3) Electrical and Computer Engineering - National Technical University of Athens)(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングアプリケーションのための最先端のソリューションである。 最大スケーラビリティのために、それらの計算は高性能とエネルギー効率を組み合わせるべきである。 実際には、各cnn層の畳み込みは、各層の全ての入力特徴とカーネルを含む行列乗算にマッピングされ、systolic配列を用いて計算される。 本研究では,cnn層ごとに最適なパイプライン構成を選択することを目的として,構成可能なパイプラインを用いたシストリクスアレイの設計に着目する。 提案したsystolic arrayはArrayFlexと呼ばれ、通常または浅いパイプラインモードで動作可能で、サイクルの実行時間と動作クロック周波数のバランスをとることができる。 適切なパイプライン構成をCNN層毎に選択することで、従来の固定パイプシストリック配列と比較して、ArrayFlexは最先端CNNの推論遅延を平均11%削減する。 最も重要なことは、同じ用途で13%-23%の電力を消費しながらこの結果を達成し、1.4倍から1.8倍のエネルギー分解効率を提供する。

Convolutional Neural Networks (CNNs) are the state-of-the-art solution for many deep learning applications. For maximum scalability, their computation should combine high performance and energy efficiency. In practice, the convolutions of each CNN layer are mapped to a matrix multiplication that includes all input features and kernels of each layer and is computed using a systolic array. In this work, we focus on the design of a systolic array with configurable pipeline with the goal to select an optimal pipeline configuration for each CNN layer. The proposed systolic array, called ArrayFlex, can operate in normal, or in shallow pipeline mode, thus balancing the execution time in cycles and the operating clock frequency. By selecting the appropriate pipeline configuration per CNN layer, ArrayFlex reduces the inference latency of state-of-the-art CNNs by 11%, on average, as compared to a traditional fixed-pipeline systolic array. Most importantly, this result is achieved while using 13%-23% less power, for the same applications, thus offering a combined energy-delay-product efficiency between 1.4x and 1.8x.
翻訳日:2022-11-24 16:16:34 公開日:2022-11-22
# 一般化アクションガバナを用いた安全制御と学習

Safe Control and Learning Using Generalized Action Governor ( http://arxiv.org/abs/2211.12628v1 )

ライセンス: Link先を確認
Nan Li, Yutong Li, Ilya Kolmanovsky, Anouck Girard, H. Eric Tseng, Dimitar Filev(参考訳) 本稿では,厳密な制約処理能力を備えた名目クローズドループシステムを強化するための監督スキームである一般行動管理者を紹介する。 汎用システムに対するその理論を提示し,線形および離散システムのための最適化設計アプローチを導入した後,リアルタイムデータを用いた制御パラメータを安全に発展させ,不確実性システムの性能を向上させることを目的とした,安全なオンライン学習への応用について論じる。 特に,強化学習/データ駆動型koopmanオペレータベースの制御と汎用アクションガバナの統合に基づく2つの安全な学習アルゴリズムを提案する。 発展は数値的な例で示される。

This paper introduces the Generalized Action Governor, which is a supervisory scheme for augmenting a nominal closed-loop system with the capability of strictly handling constraints. After presenting its theory for general systems and introducing tailored design approaches for linear and discrete systems, we discuss its application to safe online learning, which aims to safely evolve control parameters using real-time data to improve performance for uncertain systems. In particular, we propose two safe learning algorithms based on integration of reinforcement learning/data-driven Koopman operator-based control with the generalized action governor. The developments are illustrated with a numerical example.
翻訳日:2022-11-24 16:08:08 公開日:2022-11-22
# dehazed image quality evaluation: 部分的不一致から視覚障害まで

Dehazed Image Quality Evaluation: From Partial Discrepancy to Blind Perception ( http://arxiv.org/abs/2211.12636v1 )

ライセンス: Link先を確認
Wei Zhou, Ruizeng Zhang, Leida Li, Hantao Liu, Huiyan Chen(参考訳) 画像デハジングは、ヘージーな画像から空間的な詳細を復元することを目的としている。 これらの画像の可視性を高めるために設計された画像デヘイジングアルゴリズムが数多く登場している。 しかしながら、デハズド画像の視覚的品質を評価することに注力する作業ははるかに少ない。 本稿では,部分的不一致(RRPD)に基づく画像品質評価手法を提案し,それをブラインド知覚(NRBP)を用いた非参照品質評価尺度に拡張する。 具体的には,ヒトの脱ハズ画像の階層的特徴に着想を得て,輝度識別,色彩の外観,全体的な自然さの3つの特徴群を紹介した。 提案したRRPDでは,送信機と受信機の特徴の組合せによる画像品質の定量化が可能である。 デハズされた画像からグローバルチャネルとローカルチャネルを統合することで、rrpdは参照からの情報に依存しないnrbpに変換される。 複数のデハズド画像品質データベースに対する大規模な実験結果から,提案手法が最先端の完全参照,縮小参照,非参照品質評価モデルより優れていることが示された。 さらに,提案手法を応用して,潜在的な画像デハジングアルゴリズムのパラメータをチューニングできることを示した。

Image dehazing aims to restore spatial details from hazy images. There have emerged a number of image dehazing algorithms, designed to increase the visibility of those hazy images. However, much less work has been focused on evaluating the visual quality of dehazed images. In this paper, we propose a Reduced-Reference dehazed image quality evaluation approach based on Partial Discrepancy (RRPD) and then extend it to a No-Reference quality assessment metric with Blind Perception (NRBP). Specifically, inspired by the hierarchical characteristics of the human perceiving dehazed images, we introduce three groups of features: luminance discrimination, color appearance, and overall naturalness. In the proposed RRPD, the combined distance between a set of sender and receiver features is adopted to quantify the perceptually dehazed image quality. By integrating global and local channels from dehazed images, the RRPD is converted to NRBP which does not rely on any information from the references. Extensive experiment results on several dehazed image quality databases demonstrate that our proposed methods outperform state-of-the-art full-reference, reduced-reference, and no-reference quality assessment models. Furthermore, we show that the proposed dehazed image quality evaluation methods can be effectively applied to tune parameters for potential image dehazing algorithms.
翻訳日:2022-11-24 16:00:22 公開日:2022-11-22
# 指数移動平均損失重み戦略を用いたマルチタスク学習における負の移動の軽減

Mitigating Negative Transfer in Multi-Task Learning with Exponential Moving Average Loss Weighting Strategies ( http://arxiv.org/abs/2211.12999v1 )

ライセンス: Link先を確認
Anish Lakkapragada, Essam Sleiman, Saimourya Surabhi, Dennis P. Wall(参考訳) マルチタスク学習(MTL)は、従来のシングルタスクモデル群に比べて、複数のタスクでモデルをより効率的に訓練できる能力のため、ディープラーニングへの関心が高まっている。 しかし、特定のタスクがトレーニングを支配し、他のタスクのパフォーマンスを損なう可能性があるため、MTLは実用的ではない。 このような問題は負の伝達として広く分類され、これらの問題を緩和するために文学における多くの先行的なアプローチがなされている。 負転移を緩和するための現在のアプローチの1つは、損失のそれぞれを同じスケールで重み付けすることである。 現在の損失分散アプローチは最適化か複素解析のいずれかに依存しているが、観測された大きさに基づいて損失を直接スケールすることはない。 本研究では,指数的移動平均によるスケーリングに基づくロスバランシング手法を複数提案し,これらを3つの確立したデータセット上で,現在のベストパフォーマンス手法と比較する。 これらのデータセットでは、現在のベストパフォーマンスメソッドと同等のパフォーマンスを実現している。

Multi-Task Learning (MTL) is a growing subject of interest in deep learning, due to its ability to train models more efficiently on multiple tasks compared to using a group of conventional single-task models. However, MTL can be impractical as certain tasks can dominate training and hurt performance in others, thus making some tasks perform better in a single-task model compared to a multi-task one. Such problems are broadly classified as negative transfer, and many prior approaches in the literature have been made to mitigate these issues. One such current approach to alleviate negative transfer is to weight each of the losses so that they are on the same scale. Whereas current loss balancing approaches rely on either optimization or complex numerical analysis, none directly scale the losses based on their observed magnitudes. We propose multiple techniques for loss balancing based on scaling by the exponential moving average and benchmark them against current best-performing methods on three established datasets. On these datasets, they achieve comparable, if not higher, performance compared to current best-performing methods.
翻訳日:2022-11-24 15:52:13 公開日:2022-11-22
# Average Token Delay: 同時翻訳のための遅延メトリック

Average Token Delay: A Latency Metric for Simultaneous Translation ( http://arxiv.org/abs/2211.13173v1 )

ライセンス: Link先を確認
Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 同時翻訳は、話者が話し終える前に翻訳が始まるタスクである。 その評価では、品質に加えて翻訳のレイテンシも考慮しなければなりません。 レイテンシは、ユーザが話者の言うことを少しの遅延で理解できるため、可能な限り小さいことが好ましい。 既存のレイテンシメトリクスは、翻訳開始時に焦点を当てるが、翻訳終了時には適切に考慮しない。 つまり、このようなメトリクスは長い翻訳出力によって引き起こされるレイテンシをペナルティにしないため、実際にはユーザの理解が遅れる。 本研究では, 同時翻訳における部分翻訳の終了タイミングに着目した, Average Token Delay (ATD) と呼ばれる新しい遅延評価指標を提案する。 シミュレーション例を用いてATDの利点を考察するとともに,ATDと平均ラギングの違いと同時翻訳実験について検討する。

Simultaneous translation is a task in which translation begins before the speaker has finished speaking. In its evaluation, we have to consider the latency of the translation in addition to the quality. The latency is preferably as small as possible for users to comprehend what the speaker says with a small delay. Existing latency metrics focus on when the translation starts but do not consider adequately when the translation ends. This means such metrics do not penalize the latency caused by a long translation output, which actually delays users' comprehension. In this work, we propose a novel latency evaluation metric called Average Token Delay (ATD) that focuses on the end timings of partial translations in simultaneous translation. We discuss the advantage of ATD using simulated examples and also investigate the differences between ATD and Average Lagging with simultaneous translation experiments.
翻訳日:2022-11-24 15:41:35 公開日:2022-11-22
# OpenFE: 専門家レベルのパフォーマンスを超えた自動機能生成

OpenFE: Automated Feature Generation beyond Expert-level Performance ( http://arxiv.org/abs/2211.12507v1 )

ライセンス: Link先を確認
Tianping Zhang, Zheyu Zhang, Zhiyuan Fan, Haoyan Luo, Fengyuan Liu, Wei Cao, Jian Li(参考訳) 自動機能生成の目標は、手動機能生成の面倒なタスクから機械学習の専門家を解放することにある。 自動機能生成における大きな課題は、多数の候補機能から有用な機能を効率的かつ正確に識別することである。 本稿では、機械学習の専門家と競合する結果を提供する自動機能生成ツールであるopenfeを提案する。 OpenFEは2つのコンポーネントで効率と精度を達成する。 1)候補特徴の漸進的性能を正確に推定する新しい特徴増強法。 2)多数の候補から連続した特徴半減期と特徴重要属性を通じて有効な特徴を抽出する特徴標示フレームワーク。 7つのベンチマークデータセットに対する大規模な実験は、OpenFEが既存のベースラインメソッドより優れていることを示している。 さらに、何千ものデータサイエンスチームが参加する2つの有名なKaggleコンペティションでOpenFEを評価します。 コンペの1つでは、単純なベースラインモデルでOpenFEが生成した機能が99.3\%のデータサイエンスチームを上回っている。 実験結果に加えて,特徴生成が単純かつ代表的な設定で有用であることを示す理論的視点を提供する。 コードはhttps://github.com/ZhangTP 1996/OpenFEで公開されている。

The goal of automated feature generation is to liberate machine learning experts from the laborious task of manual feature generation, which is crucial for improving the learning performance of tabular data. The major challenge in automated feature generation is to efficiently and accurately identify useful features from a vast pool of candidate features. In this paper, we present OpenFE, an automated feature generation tool that provides competitive results against machine learning experts. OpenFE achieves efficiency and accuracy with two components: 1) a novel feature boosting method for accurately estimating the incremental performance of candidate features. 2) a feature-scoring framework for retrieving effective features from a large number of candidates through successive featurewise halving and feature importance attribution. Extensive experiments on seven benchmark datasets show that OpenFE outperforms existing baseline methods. We further evaluate OpenFE in two famous Kaggle competitions with thousands of data science teams participating. In one of the competitions, features generated by OpenFE with a simple baseline model can beat 99.3\% data science teams. In addition to the empirical results, we provide a theoretical perspective to show that feature generation is beneficial in a simple yet representative setting. The code is available at https://github.com/ZhangTP1996/OpenFE.
翻訳日:2022-11-24 15:41:22 公開日:2022-11-22
# simvp: シンプルでパワフルな時空間予測学習を目指して

SimVP: Towards Simple yet Powerful Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2211.12509v1 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Stan Z. Li(参考訳) 近年、時空間予測学習の顕著な進歩が見られ、補助的な入力、精巧なニューラルアーキテクチャ、洗練されたトレーニング戦略が取り入れられている。 印象的ではあるが、主流メソッドのシステムの複雑さも増加しており、便利なアプリケーションを妨げる可能性がある。 本稿では,再帰的なアーキテクチャを伴わずに畳み込みネットワーク上に構築され,エンドツーエンドで一般的な平均二乗誤差損失によってトレーニングされる,単純な時空間予測ベースラインモデルであるsimvpを提案する。 追加のトリックや戦略を導入することなく、simvpは様々なベンチマークデータセットで優れたパフォーマンスを達成できる。 さらなる性能向上のために,SimVP から有声時空間注意変換器を用いた変種を導出し,より優れた性能を実現する。 実験により,SimVPは実世界のデータセットに対して強力な一般化と拡張性を持つことを示した。 トレーニングコストの大幅な削減により、複雑なシナリオへのスケールアップが容易になる。 simvpは時空間予測学習コミュニティに利益をもたらすための確固たるベースラインとして機能できると考えています。

Recent years have witnessed remarkable advances in spatiotemporal predictive learning, incorporating auxiliary inputs, elaborate neural architectures, and sophisticated training strategies. Although impressive, the system complexity of mainstream methods is increasing as well, which may hinder the convenient applications. This paper proposes SimVP, a simple spatiotemporal predictive baseline model that is completely built upon convolutional networks without recurrent architectures and trained by common mean squared error loss in an end-to-end fashion. Without introducing any extra tricks and strategies, SimVP can achieve superior performance on various benchmark datasets. To further improve the performance, we derive variants with the gated spatiotemporal attention translator from SimVP that can achieve better performance. We demonstrate that SimVP has strong generalization and extensibility on real-world datasets through extensive experiments. The significant reduction in training cost makes it easier to scale to complex scenarios. We believe SimVP can serve as a solid baseline to benefit the spatiotemporal predictive learning community.
翻訳日:2022-11-24 15:41:07 公開日:2022-11-22
# マルチスケール方向画像表現を用いた画像分類器の解説

Explaining Image Classifiers with Multiscale Directional Image Representation ( http://arxiv.org/abs/2211.12857v1 )

ライセンス: Link先を確認
Stefan Kolek, Robert Windesheim, Hector Andrade Loarca, Gitta Kutyniok, Ron Levie(参考訳) 画像分類器は解釈が難しいことが知られており、その決定を理解するには説明方法が必要である。 本稿では,マルチスケール指向画像表現のシャーレット変換に基づく画像分類器のマスク説明手法であるShearletXを提案する。 現在のマスクの説明方法は、望ましくない細かい説明アーティファクトから保護する滑らかさの制約によって規則化される。 しかし、マスクの滑らかさは、分類器に関係のある細部パターンを、分類器に影響を与えない近くのニュアンスパターンから分離する能力を制限している。 shearletx は、滑らかさの正規化を全て回避し、それを shearlet sparsity 制約に置き換えることでこの問題を解決している。 その結果得られた説明は、分類器の決定に最も関係のある原画像のいくつかのエッジ、テクスチャ、滑らかな部分から構成されている。 本手法を支援するために,説明人工物に関する数学的定義と,マスク説明の質を評価するための情報理論スコアを提案する。 従来のマスクを用いた説明手法よりもShearletXの方が優れていることを示すとともに,これまで説明できなかった現象を説明できるような細部パターンの分離が実例を示す。

Image classifiers are known to be difficult to interpret and therefore require explanation methods to understand their decisions. We present ShearletX, a novel mask explanation method for image classifiers based on the shearlet transform -- a multiscale directional image representation. Current mask explanation methods are regularized by smoothness constraints that protect against undesirable fine-grained explanation artifacts. However, the smoothness of a mask limits its ability to separate fine-detail patterns, that are relevant for the classifier, from nearby nuisance patterns, that do not affect the classifier. ShearletX solves this problem by avoiding smoothness regularization all together, replacing it by shearlet sparsity constraints. The resulting explanations consist of a few edges, textures, and smooth parts of the original image, that are the most relevant for the decision of the classifier. To support our method, we propose a mathematical definition for explanation artifacts and an information theoretic score to evaluate the quality of mask explanations. We demonstrate the superiority of ShearletX over previous mask based explanation methods using these new metrics, and present exemplary situations where separating fine-detail patterns allows explaining phenomena that were not explainable before.
翻訳日:2022-11-24 15:23:57 公開日:2022-11-22
# 協調型ハイブリッドアサインメントトレーニングによるDETR

DETRs with Collaborative Hybrid Assignments Training ( http://arxiv.org/abs/2211.12860v1 )

ライセンス: Link先を確認
Zhuofan Zong, Guanglu Song, Yu Liu(参考訳) 本稿では、一対一のセットマッチングを持つdetrの正のサンプルとして割り当てられるクエリが少なすぎると、エンコーダの出力にばらばらな監督を生じさせ、エンコーダの識別的特徴学習と、デコーダにおける注意学習の副ビザを著しく損なうという観察を行う。 そこで本研究では,より効率的かつ効率的なDETRベースの検出器を多目的ラベル割り当て方式で学習するために,Co-DETRという新しい協調型ハイブリット割当て訓練手法を提案する。 この新しいトレーニング方式は、atss、fcos、高速rcnnなどの1対1ラベル割り当てによって管理される複数の並列補助ヘッドを訓練することにより、エンドツーエンド検出器におけるエンコーダの学習能力を高めることができる。 また,これらの補助ヘッドから正座標を抽出することで,デコーダ内の正のサンプルのトレーニング効率を向上させることで,さらにカスタマイズした正の問い合わせを行う。 そこで本手法では,手作り非最大抑制(NMS)を必要とせずに,元の検出器に余分なパラメータや計算コストを導入する。 我々は,DAB-DETR,Deformable-DETR,H-Deformable-DETRなど,提案手法の有効性を評価するための広範囲な実験を行った。 具体的には,12エポックトレーニングでは5.8%,36エポックトレーニングでは3.2%改善した。 最先端のH-Deformable-DETRは、MS COCO valで57.9%から58.7%に改善できる。 驚いたことに、1-Billionパラメータを持つ大規模バックボーンMixMIM-gを組み込んで、MS COCOテストデブ上で64.5%のmAPを実現し、データサイズをはるかに少なくして優れたパフォーマンスを実現した。 コードはhttps://github.com/Sense-X/Co-DETRで入手できる。

In this paper, we provide the observation that too few queries assigned as positive samples in DETR with one-to-one set matching leads to sparse supervisions on the encoder's output which considerably hurt the discriminative feature learning of the encoder and vice visa for attention learning in the decoder. To alleviate this, we present a novel collaborative hybrid assignments training scheme, namely Co-DETR, to learn more efficient and effective DETR-based detectors from versatile label assignment manners. This new training scheme can easily enhance the encoder's learning ability in end-to-end detectors by training the multiple parallel auxiliary heads supervised by one-to-many label assignments such as ATSS, FCOS, and Faster RCNN. In addition, we conduct extra customized positive queries by extracting the positive coordinates from these auxiliary heads to improve the training efficiency of positive samples in the decoder. In inference, these auxiliary heads are discarded and thus our method introduces no additional parameters and computational cost to the original detector while requiring no hand-crafted non-maximum suppression (NMS). We conduct extensive experiments to evaluate the effectiveness of the proposed approach on DETR variants, including DAB-DETR, Deformable-DETR, and H-Deformable-DETR. Specifically, we improve the basic Deformable-DETR by 5.8% in 12-epoch training and 3.2% in 36-epoch training. The state-of-the-art H-Deformable-DETR can still be improved from 57.9% to 58.7% on the MS COCO val. Surprisingly, incorporated with the large-scale backbone MixMIM-g with 1-Billion parameters, we achieve the 64.5% mAP on MS COCO test-dev, achieving superior performance with much fewer extra data sizes. Codes will be available at https://github.com/Sense-X/Co-DETR.
翻訳日:2022-11-24 15:23:38 公開日:2022-11-22
# ビデオフレームにおける絡み合った表現学習のための$\beta$-Multivariational Autoencoder

$\beta$-Multivariational Autoencoder for Entangled Representation Learning in Video Frames ( http://arxiv.org/abs/2211.12627v1 )

ライセンス: Link先を確認
Fatemeh Nouri, Robert Bergevin(参考訳) 状態や過去の報酬から一連の行動が期待されるシーケンシャルな意思決定過程を学習しながら、適切な分布から行動を選択することが重要である。 しかし、2つ以上の潜在変数があり、2つの変数が共分散値を持つ場合、データから既知の事前学習が困難になる。 データが巨大で多様である場合、多くの後方推定手法が後方崩壊を経験する。 本稿では,ビデオフレームから多変量ガウスを学習し,意思決定プロセスの一環として,単一のオブジェクト追跡の一部として使用するための$\beta$-Multivariational Autoencoder(\beta$MVAE)を提案する。 本稿では,単一のオブジェクト追跡タスクに対処するためのパラメータ群を持つビデオにおける物体の動きに関する新しい定式化について述べる。 トレーニングセットのデータ解析により、運動パラメータの真の値を求める。 パラメータ群は多変量ガウス分布を持つと仮定される。 p = n(\mu, \sigma)$ は、出力がフレームパッチのオブジェクトマスクであるフレームパッチから直接学習するために開発された。 我々は後方のパラメータ、すなわち$\mu', \sigma'$を推定するためにボトルネックを考案する。 新たなパラメータ化トリックにより、入力のオブジェクトマスクとして$p(\hat{x}|z)$の確率を学習する。 さらに、U-Netアーキテクチャで$\beta$MVAEのニューラルネットワークを変更し、新しいネットワーク$\beta$Multivariational U-Net($\beta$MVUnet)と名付ける。 私たちのネットワークは、85万以上のビデオフレームから、24($\beta$mvunet)と78($\beta$mvae)のステップでスクラッチからトレーニングされています。 テストセット上での後方推定とセグメンテーション機能の両方を強化することを,$\beta$MVUnetで示す。 私たちのコードとトレーニング済みのネットワークは公開されています。

It is crucial to choose actions from an appropriate distribution while learning a sequential decision-making process in which a set of actions is expected given the states and previous reward. Yet, if there are more than two latent variables and every two variables have a covariance value, learning a known prior from data becomes challenging. Because when the data are big and diverse, many posterior estimate methods experience posterior collapse. In this paper, we propose the $\beta$-Multivariational Autoencoder ($\beta$MVAE) to learn a Multivariate Gaussian prior from video frames for use as part of a single object-tracking in form of a decision-making process. We present a novel formulation for object motion in videos with a set of dependent parameters to address a single object-tracking task. The true values of the motion parameters are obtained through data analysis on the training set. The parameters population is then assumed to have a Multivariate Gaussian distribution. The $\beta$MVAE is developed to learn this entangled prior $p = N(\mu, \Sigma)$ directly from frame patches where the output is the object masks of the frame patches. We devise a bottleneck to estimate the posterior's parameters, i.e. $\mu', \Sigma'$. Via a new reparameterization trick, we learn the likelihood $p(\hat{x}|z)$ as the object mask of the input. Furthermore, we alter the neural network of $\beta$MVAE with the U-Net architecture and name the new network $\beta$Multivariational U-Net ($\beta$MVUnet). Our networks are trained from scratch via over 85k video frames for 24 ($\beta$MVUnet) and 78 ($\beta$MVAE) million steps. We show that $\beta$MVUnet enhances both posterior estimation and segmentation functioning over the test set. Our code and the trained networks are publicly released.
翻訳日:2022-11-24 15:17:29 公開日:2022-11-22
# 位置・周辺情報を用いた画像異常検出と位置決め

Image Anomaly Detection and Localization with Position and Neighborhood Information ( http://arxiv.org/abs/2211.12634v1 )

ライセンス: Link先を確認
Jaehyeok Bae, Jae-Han Lee, Seyun Kim(参考訳) 多くの地域では異常検出と局所化が不可欠であり、トレーニングに十分な異常サンプルを集めることはほぼ不可能である。 この難しさを克服するために、多くの既存手法では、入力画像のエンコードに事前学習されたネットワークと非パラメトリックモデリングを使用して、エンコードされた特徴分布を推定している。 しかし、モデリングプロセスでは、位置と周辺情報が通常の特徴の分布に影響を与えることを見落としている。 この情報を利用するために,本論文では,マルチ層パーセプトロンネットワークでモデル化した近傍特性の条件付き確率で正規分布を推定する。 同時に、各位置に代表的特徴のヒストグラムを構築することで位置情報を利用することができる。 既存の手法では, 入力画像の解像度に異常マップを単純に再サイズするが, 提案手法では, 合成異常画像からトレーニングした新たな精細ネットワークを用いて, 入力画像の形状やエッジを考慮した補間を行う。 一般的な産業データセットであるMVTec ADベンチマークでは、実験結果から、異常検出とローカライゼーション(最先端のパフォーマンス)において、 \textbf{99.52\%} と \textbf{98.91\%} AUROCスコアが示されている。

Anomaly detection and localization are essential in many areas, where collecting enough anomalous samples for training is almost impossible. To overcome this difficulty, many existing methods use a pre-trained network to encode input images and non-parametric modeling to estimate the encoded feature distribution. In the modeling process, however, they overlook that position and neighborhood information affect the distribution of normal features. To use the information, in this paper, the normal distribution is estimated with conditional probability given neighborhood features, which is modeled with a multi-layer perceptron network. At the same time, positional information can be used by building a histogram of representative features at each position. While existing methods simply resize the anomaly map into the resolution of an input image, the proposed method uses an additional refine network that is trained from synthetic anomaly images to perform better interpolation considering the shape and edge of the input image. For the popular industrial dataset, MVTec AD benchmark, the experimental results show \textbf{99.52\%} and \textbf{98.91\%} AUROC scores in anomaly detection and localization, which is state-of-the-art performance.
翻訳日:2022-11-24 15:16:55 公開日:2022-11-22
# 不均一群に対する文脈対応型知的制御エージェント

Contextually Aware Intelligent Control Agents for Heterogeneous Swarms ( http://arxiv.org/abs/2211.12560v1 )

ライセンス: Link先を確認
Adam Hepworth, Aya Hussein, Darryn Reid, Hussein Abbass(参考訳) Swarmシェパーディング研究における新たな課題は、様々な状況下で運用するSwarmの能力を高めながら、低計算の天井を維持する効率的で効率的な人工知能アルゴリズムを設計することである。 本稿では,コンテキスト認識型Swarm制御インテリジェントエージェントの設計手法を提案する。 インテリジェントコントロールエージェント(shepherd)は、最初にswarmメトリクスを使用して、対話するswarmのタイプを認識し、その特定のswarmタイプに対する振る舞いライブラリから適切なパラメーターを選択する。 本手法の設計原理は,効率的なSwarm制御に必要な低計算コストを犠牲にすることなく,制御エージェントの状況意識(情報内容)を高めることである。 同種群と異種群の両方でシェパーディングに成功した。

An emerging challenge in swarm shepherding research is to design effective and efficient artificial intelligence algorithms that maintain a low-computational ceiling while increasing the swarm's abilities to operate in diverse contexts. We propose a methodology to design a context-aware swarm-control intelligent agent. The intelligent control agent (shepherd) first uses swarm metrics to recognise the type of swarm it interacts with to then select a suitable parameterisation from its behavioural library for that particular swarm type. The design principle of our methodology is to increase the situation awareness (i.e. information contents) of the control agent without sacrificing the low-computational cost necessary for efficient swarm control. We demonstrate successful shepherding in both homogeneous and heterogeneous swarms.
翻訳日:2022-11-24 15:05:20 公開日:2022-11-22
# PVT3D:スパースライダースカンからの位置認識のための点ボクセル変換器

PVT3D: Point Voxel Transformers for Place Recognition from Sparse Lidar Scans ( http://arxiv.org/abs/2211.12542v1 )

ライセンス: Link先を確認
Yan Xia, Mariia Gladkova, Rui Wang, Jo\~ao F. Henriques, Daniel Cremers, Uwe Stilla(参考訳) ポイントクラウド(LiDAR)スキャンに基づく位置認識は、ロボットや自動運転車において堅牢な自律性を達成するための重要なモジュールである。 微妙な幾何学的特徴のきめ細かいマッチングを行うために、ネットワークの中間表現の高解像度な空間解像度が必要であるが、それを増大させることでメモリ要求が実現できない。 そこで本研究では,低メモリ要求量での高精細マッチングを実現するために,PVT3D(Point-Voxel Transformer Network)を提案する。 スパース・ボクセル・ブランチを利用して、低い解像度で情報を抽出し集約し、ポイントワイズ・ブランチできめ細かいローカル情報を得る。 新たな階層的クロスアテンショントランス(hcat)は、一方のブランチからのクエリを使用して、他方のブランチの構造をマッチングし、(一方のブランチが支配するよりも)ポイントクラウドの自己完結したディスクリプタを抽出すると同時に、出力されたポイントクラウドのグローバルディスクリプタに通知する。 大規模な実験により,提案手法はいくつかのデータセット(Oxford RobotCar, TUM, USyd)において,最先端技術を超えることが判明した。 例えば、tumデータセット上で85.6%のar@1を達成しています。

Place recognition based on point cloud (LiDAR) scans is an important module for achieving robust autonomy in robots or self-driving vehicles. Training deep networks to match such scans presents a difficult trade-off: a higher spatial resolution of the network's intermediate representations is needed to perform fine-grained matching of subtle geometric features, but growing it too large makes the memory requirements infeasible. In this work, we propose a Point-Voxel Transformer network (PVT3D) that achieves robust fine-grained matching with low memory requirements. It leverages a sparse voxel branch to extract and aggregate information at a lower resolution and a point-wise branch to obtain fine-grained local information. A novel hierarchical cross-attention transformer (HCAT) uses queries from one branch to try to match structures in the other branch, ensuring that both extract self-contained descriptors of the point cloud (rather than one branch dominating), but using both to inform the output global descriptor of the point cloud. Extensive experiments show that the proposed PVT3D method surpasses the state-of-the-art by a large amount on several datasets (Oxford RobotCar, TUM, USyd). For instance, we achieve AR@1 of 85.6% on the TUM dataset, which surpasses the strongest prior model by ~15%.
翻訳日:2022-11-24 15:05:07 公開日:2022-11-22
# Zero NeRF: Zero Overlapによる登録

Zero NeRF: Registration with Zero Overlap ( http://arxiv.org/abs/2211.12544v1 )

ライセンス: Link先を確認
Casey Peat, Oliver Batchelor, Richard Green, James Atlas(参考訳) zero-nerf(ゼロナーフ)は,視覚対応が最小限かゼロかのシーン表現間のアライメントが可能な,最初の汎用解を提供する射影面登録手法である。 これを実現するために、部分的および完全再構成の可視面間の整合性を強制し、閉包幾何を制約できる。 我々は、このアライメントを実行するために、表面表現としてNeRFとNeRFレンダリングパイプラインを使用します。 本手法の有効性を示すために,先行手法では正確には登録できない無限小重なりの両端から実世界のシーンを登録し,これらを広く用いられている登録手法と比較した。

We present Zero-NeRF, a projective surface registration method that, to the best of our knowledge, offers the first general solution capable of alignment between scene representations with minimal or zero visual correspondence. To do this, we enforce consistency between visible surfaces of partial and complete reconstructions, which allows us to constrain occluded geometry. We use a NeRF as our surface representation and the NeRF rendering pipeline to perform this alignment. To demonstrate the efficacy of our method, we register real-world scenes from opposite sides with infinitesimal overlaps that cannot be accurately registered using prior methods, and we compare these results against widely used registration methods.
翻訳日:2022-11-24 15:04:42 公開日:2022-11-22
# HashSDF:Permutohedral Lattices上の高速局所特徴を有する精密不規則表面

HashSDF: Accurate Implicit Surfaces with Fast Local Features on Permutohedral Lattices ( http://arxiv.org/abs/2211.12562v1 )

ライセンス: Link先を確認
Radu Alexandru Rosu and Sven Behnke(参考訳) ニューラルレイディアンス-密度場法は、新規なビューレンダリングのタスクにおいて、ますます人気が高まっている。 ハッシュベースの位置エンコーディングへの最近の拡張により、高速なトレーニングと最先端の結果による推論が保証される。 しかし密度に基づく手法は正確な表面形状の復元に苦慮している。 ハイブリッド手法は基礎となるsdfに基づいて密度を最適化することでこの問題を軽減する。 しかし、現在のSDF法は過度に滑らかであり、微妙な幾何学的詳細を見逃している。 本研究では,これらの2つの作業の強みを,ハッシュに基づく新しい暗黙的表面表現で結合する。 ボクセルハッシュ符号化を3次元および高次元で高速に最適化するペルムタヘドラル格子に置き換えることで,二つの領域の改善を提案する。 さらに,高周波幾何学的詳細の復元に不可欠な正規化スキームを提案する。 提案手法を複数のデータセット上で評価し,RGB画像のみを用いて細孔やしわの程度で幾何的細部を復元できることを示す。 さらに、スフィアトレースを使うことで、RTX 3090上で30fpsで新しいビューを描画できる。

Neural radiance-density field methods have become increasingly popular for the task of novel-view rendering. Their recent extension to hash-based positional encoding ensures fast training and inference with state-of-the-art results. However, density-based methods struggle with recovering accurate surface geometry. Hybrid methods alleviate this issue by optimizing the density based on an underlying SDF. However, current SDF methods are overly smooth and miss fine geometric details. In this work, we combine the strengths of these two lines of work in a novel hash-based implicit surface representation. We propose improvements to the two areas by replacing the voxel hash encoding with a permutohedral lattice which optimizes faster in three and higher dimensions. We additionally propose a regularization scheme which is crucial for recovering high-frequency geometric detail. We evaluate our method on multiple datasets and show that we can recover geometric detail at the level of pores and wrinkles while using only RGB images for supervision. Furthermore, using sphere tracing we can render novel views at 30 fps on an RTX 3090.
翻訳日:2022-11-24 15:04:30 公開日:2022-11-22
# Fed-TDA:IIDデータのフェデレーション付きタブラルデータ拡張

Fed-TDA: Federated Tabular Data Augmentation on Non-IID Data ( http://arxiv.org/abs/2211.13116v1 )

ライセンス: Link先を確認
Shaoming Duan, Chuanyi Liu, Peiyi Han, Tianyu He, Yifeng Xu, Qiyuan Deng(参考訳) 非独立かつ同一の分散(非iid)データは、通常、flの最適化収束とパフォーマンスを阻害する連合学習(fl)において重要な課題である。 非IID問題を解決するためのフェデレーション生成モデルや生データ共有戦略に基づく既存のデータ拡張手法は、依然として低パフォーマンス、プライバシ保護の懸念、分散表データにおける高い通信オーバーヘッドに悩まされている。 そこで本研究では,federated tabular data augmentation methodであるfederated fed-tdaを提案する。 fed-tdaの中核となる考え方は、単純な統計(各列の分布や大域的共分散など)を用いてデータ拡張のための表データ合成である。 具体的には、先行学習した統計値に基づいて、雑音から連続列と離散列をそれぞれ合成する多モード分布変換と逆累積分布写像を提案する。 さらに,feed-tdaはデータのプライバシを保持するだけでなく,元のデータの分散と列間の相関を維持していることを理論的に解析する。 5つの実世界の表付きデータセットに関する広範な実験を通じて、テスト性能と通信効率の最先端性よりもFed-TDAの方が優れていることを示す。

Non-independent and identically distributed (non-IID) data is a key challenge in federated learning (FL), which usually hampers the optimization convergence and the performance of FL. Existing data augmentation methods based on federated generative models or raw data sharing strategies for solving the non-IID problem still suffer from low performance, privacy protection concerns, and high communication overhead in decentralized tabular data. To tackle these challenges, we propose a federated tabular data augmentation method, named Fed-TDA. The core idea of Fed-TDA is to synthesize tabular data for data augmentation using some simple statistics (e.g., distributions of each column and global covariance). Specifically, we propose the multimodal distribution transformation and inverse cumulative distribution mapping respectively synthesize continuous and discrete columns in tabular data from a noise according to the pre-learned statistics. Furthermore, we theoretically analyze that our Fed-TDA not only preserves data privacy but also maintains the distribution of the original data and the correlation between columns. Through extensive experiments on five real-world tabular datasets, we demonstrate the superiority of Fed-TDA over the state-of-the-art in test performance and communication efficiency.
翻訳日:2022-11-24 14:58:37 公開日:2022-11-22
# WarpPINN:物理インフォームドニューラルネットワークを用いたCine-MR画像の登録

WarpPINN: Cine-MR image registration with physics-informed neural networks ( http://arxiv.org/abs/2211.12549v1 )

ライセンス: Link先を確認
Pablo Arratia L\'opez, Hern\'an Mella, Sergio Uribe, Daniel E. Hurtado, Francisco Sahli Costabal(参考訳) 心不全は通常、射出率などのグローバル機能評価と診断される。 しかし、これらの指標は判別能力が低く、異なるタイプの疾患を区別することができない。 心ひずみの形で局所的な変形を定量化することは有用な情報を提供するが、依然として課題である。 本研究では,物理インフォームドニューラルネットワークであるWarpPINNを導入し,画像登録を行い,心臓変形の局所的指標を求める。 本手法を磁気共鳴画像に応用して心循環中の運動を推定する。 変形磁場のジャコビアンをペナルティ化することにより, 心臓組織のほぼ非圧縮性を神経ネットワークに通知する。 損失関数は、基準と歪んだテンプレート画像との間の強度に基づく類似項と、組織の超弾性挙動を表す正則化器の2つの構成要素を有する。 ニューラルネットワークのアーキテクチャは、心臓活動を評価するために自動的に分化することで、ストレインを容易に計算できる。 ニューラルネットワークのスペクトルバイアスを克服するためにフーリエ特徴写像を使用し、ひずみ場における不連続を捉えることができる。 本アルゴリズムを合成例とシネmriベンチマークを用いて15名の健常者を対象にテストした。 我々は、ランドマーク追跡とひずみ推定の両方において、現在の手法より優れている。 WarpPINNは局所的な変形情報に基づいて心不全のより正確な診断を可能にすると期待している。 ソースコードはhttps://github.com/fsahli/WarpPINNで入手できる。

Heart failure is typically diagnosed with a global function assessment, such as ejection fraction. However, these metrics have low discriminate power, failing to distinguish different types of this disease. Quantifying local deformations in the form of cardiac strain can provide helpful information, but it remains a challenge. In this work, we introduce WarpPINN, a physics-informed neural network to perform image registration to obtain local metrics of the heart deformation. We apply this method to cine magnetic resonance images to estimate the motion during the cardiac cycle. We inform our neural network of near-incompressibility of cardiac tissue by penalizing the jacobian of the deformation field. The loss function has two components: an intensity-based similarity term between the reference and the warped template images, and a regularizer that represents the hyperelastic behavior of the tissue. The architecture of the neural network allows us to easily compute the strain via automatic differentiation to assess cardiac activity. We use Fourier feature mappings to overcome the spectral bias of neural networks, allowing us to capture discontinuities in the strain field. We test our algorithm on a synthetic example and on a cine-MRI benchmark of 15 healthy volunteers. We outperform current methodologies both landmark tracking and strain estimation. We expect that WarpPINN will enable more precise diagnostics of heart failure based on local deformation information. Source code is available at https://github.com/fsahli/WarpPINN.
翻訳日:2022-11-24 14:57:57 公開日:2022-11-22
# SuperTran:低ビットレートストリームをリアルタイム化するためのリファレンスベースのビデオトランス

SuperTran: Reference Based Video Transformer for Enhancing Low Bitrate Streams in Real Time ( http://arxiv.org/abs/2211.12604v1 )

ライセンス: Link先を確認
Tejas Khot, Nataliya Shapovalova, Silviu Andrei, Walterio Mayol-Cuevas(参考訳) この研究は、低ビットレートのビデオストリーミングシナリオ(例:50200Kbps)に焦点を当てている。 圧縮アーティファクトを除去し,超解像化を行うことにより,ストリームの知覚的映像品質を向上させるための新しい深層生成モデル群を提案する。 我々のモデルはSuperTranと呼ばれ、低画質の低解像度ビデオストリームに加えて、単一の高品質で高解像度の参照画像として消費する。 これにより、参照画像からテクスチャなどの視覚的要素を借りたりコピーしたりする方法を学び、低解像度ストリームから残りの詳細を埋めて知覚的に強化された出力ビデオを生成する。 参照フレームはビデオセッションの開始時に一度送信するか、ギャラリーから取得することができる。 重要な点として、結果の出力はSuperVEGAN法のような低解像度の入力のみを使用する方法では、他の方法よりもはるかに詳細である。 SuperTranは、標準的なパイプラインとともに、クラウド上のリアルタイム(最大30フレーム/秒)で動作する。

This work focuses on low bitrate video streaming scenarios (e.g. 50 - 200Kbps) where the video quality is severely compromised. We present a family of novel deep generative models for enhancing perceptual video quality of such streams by performing super-resolution while also removing compression artifacts. Our model, which we call SuperTran, consumes as input a single high-quality, high-resolution reference images in addition to the low-quality, low-resolution video stream. The model thus learns how to borrow or copy visual elements like textures from the reference image and fill in the remaining details from the low resolution stream in order to produce perceptually enhanced output video. The reference frame can be sent once at the start of the video session or be retrieved from a gallery. Importantly, the resulting output has substantially better detail than what has been otherwise possible with methods that only use a low resolution input such as the SuperVEGAN method. SuperTran works in real-time (up to 30 frames/sec) on the cloud alongside standard pipelines.
翻訳日:2022-11-24 14:57:37 公開日:2022-11-22
# 署名暗号信頼ネットワークにおける不正検出のためのモチーフ対応時間GCN

Motif-aware temporal GCN for fraud detection in signed cryptocurrency trust networks ( http://arxiv.org/abs/2211.13123v1 )

ライセンス: Link先を確認
Chong Mo, Song Li, Geoffrey K. F. Tso, Jiandong Zhou, Yiyan Qi, Mingjie Zhu(参考訳) グラフ畳み込みネットワーク(Graph Convolutional Network、GCN)は、グラフとして表現可能なデータを処理するためのニューラルネットワークの一種である。 金融取引はグラフとして自然に構築できるため、GCNは金融業界、特に金融不正検出に広く適用されている。 本稿では,暗号通貨取引ネットワークにおける不正検出に焦点をあてる。 文献では、ほとんどの作品は静的ネットワークに焦点を当てている。 本研究では,暗号通貨ネットワークの進化的性質を考察し,局所構造とバランス理論を用いて学習過程の指導を行う。 より具体的には、モチーフ行列を計算して局所的なトポロジ情報をキャプチャし、GCNアグリゲーションプロセスでそれらを利用する。 各スナップショットで生成された埋め込みは、重み付けが学習可能なパラメータであるタイムウィンドウ内の重み付け平均である。 信頼ネットワークは各エッジに署名されているため、バランス理論はトレーニングプロセスのガイドに使用される。 bitcoin-alpha と bitcoin-otc データセットでの実験的結果は、提案モデルが文献のモデルよりも優れていることを示している。

Graph convolutional networks (GCNs) is a class of artificial neural networks for processing data that can be represented as graphs. Since financial transactions can naturally be constructed as graphs, GCNs are widely applied in the financial industry, especially for financial fraud detection. In this paper, we focus on fraud detection on cryptocurrency truct networks. In the literature, most works focus on static networks. Whereas in this study, we consider the evolving nature of cryptocurrency networks, and use local structural as well as the balance theory to guide the training process. More specifically, we compute motif matrices to capture the local topological information, then use them in the GCN aggregation process. The generated embedding at each snapshot is a weighted average of embeddings within a time window, where the weights are learnable parameters. Since the trust networks is signed on each edge, balance theory is used to guide the training process. Experimental results on bitcoin-alpha and bitcoin-otc datasets show that the proposed model outperforms those in the literature.
翻訳日:2022-11-24 14:48:57 公開日:2022-11-22
# コンテキスト型マルチアームバンドの転送学習

Transfer Learning for Contextual Multi-armed Bandits ( http://arxiv.org/abs/2211.12612v1 )

ライセンス: Link先を確認
Changxiao Cai, T. Tony Cai, Hongzhe Li(参考訳) 本稿では,非パラメトリック・コンテクスト・マルチアームド・バンディットの移動学習の課題について,目的のバンディット学習開始前にソース・バンディットから収集したデータを共変量シフトモデルを用いて検討する。 累積後悔に対する最小収束率を定式化し、その最小後悔を達成する新しい転置学習アルゴリズムを提案する。 この結果は,非パラメトリックなコンテキスト型マルチアームブレイディットの文脈において,対象領域で学習するためのソースドメインからのデータの寄与を定量化する。 未知の滑らかさへの適応の一般的な不可能さを考慮し,データ駆動型アルゴリズムを開発した。このアルゴリズムは,パラメータ空間の大規模な集合に対する未知のパラメータを自動的に適応させつつ,ほぼ最適な統計的保証(対数係数まで)を実現する。 対象領域の学習に補助的ソース領域からのデータを活用する利点を説明するためのシミュレーション研究を行った。

Motivated by a range of applications, we study in this paper the problem of transfer learning for nonparametric contextual multi-armed bandits under the covariate shift model, where we have data collected on source bandits before the start of the target bandit learning. The minimax rate of convergence for the cumulative regret is established and a novel transfer learning algorithm that attains the minimax regret is proposed. The results quantify the contribution of the data from the source domains for learning in the target domain in the context of nonparametric contextual multi-armed bandits. In view of the general impossibility of adaptation to unknown smoothness, we develop a data-driven algorithm that achieves near-optimal statistical guarantees (up to a logarithmic factor) while automatically adapting to the unknown parameters over a large collection of parameter spaces under an additional self-similarity assumption. A simulation study is carried out to illustrate the benefits of utilizing the data from the auxiliary source domains for learning in the target domain.
翻訳日:2022-11-24 14:48:28 公開日:2022-11-22
# 会員Oracleによるプロジェクションフリー適応レギュレーション

Projection-free Adaptive Regret with Membership Oracles ( http://arxiv.org/abs/2211.12638v1 )

ライセンス: Link先を確認
Zhou Lu, Nataly Brukhim, Paula Gradu, Elad Hazan(参考訳) オンライン凸最適化の枠組みでは、ほとんどの反復アルゴリズムは凸集合上の射影の計算を必要とし、計算コストがかかる。 この問題に対処するため、HK12はプロジェクションをより安価な計算に置き換えるプロジェクションフリー手法の研究を提案した。 最も一般的なアプローチは、投影の代わりに線形最適化計算を使用するfrank-wolfe法に基づいている。 GK22による最近の研究は、フランク・ウルフのアプローチに基づく射影自由アルゴリズムによる準線形適応的後悔の保証を与えた。 この研究では、mhammedi22にインスパイアされた別の手法に基づく投影自由アルゴリズムを、集合メンバー計算に置き換える。 我々はミンコフスキー正則化を用いた単純な遅延勾配に基づくアルゴリズムを提案する。 一般凸損失関数に対しては、以前の適応的後悔の限度を、$o(t^{3/4})$から$o(\sqrt{t})$に改善し、さらに、厳密な間隔依存境界 $\tilde{o}(\sqrt{i})$ ここで$i$は区間長を表す。 強凸関数に対しては、プロジェクションフリーアルゴリズムを用いて、最初の多対数適応的後悔境界を求める。

In the framework of online convex optimization, most iterative algorithms require the computation of projections onto convex sets, which can be computationally expensive. To tackle this problem HK12 proposed the study of projection-free methods that replace projections with less expensive computations. The most common approach is based on the Frank-Wolfe method, that uses linear optimization computation in lieu of projections. Recent work by GK22 gave sublinear adaptive regret guarantees with projection free algorithms based on the Frank Wolfe approach. In this work we give projection-free algorithms that are based on a different technique, inspired by Mhammedi22, that replaces projections by set-membership computations. We propose a simple lazy gradient-based algorithm with a Minkowski regularization that attains near-optimal adaptive regret bounds. For general convex loss functions we improve previous adaptive regret bounds from $O(T^{3/4})$ to $O(\sqrt{T})$, and further to tight interval dependent bound $\tilde{O}(\sqrt{I})$ where $I$ denotes the interval length. For strongly convex functions we obtain the first poly-logarithmic adaptive regret bounds using a projection-free algorithm.
翻訳日:2022-11-24 14:48:10 公開日:2022-11-22
# Pyrocast: Pyrocumulonimbus(PyroCb)クラウドを予測するための機械学習パイプライン

Pyrocast: a Machine Learning Pipeline to Forecast Pyrocumulonimbus (PyroCb) Clouds ( http://arxiv.org/abs/2211.13052v1 )

ライセンス: Link先を確認
Kenza Tazi, Emiliano D\'iaz Salas-Porras, Ashwin Braude, Daniel Okoh, Kara D. Lamb, Duncan Watson-Parris, Paula Harder, Nis Meinert(参考訳) pyrocumulonimbus (pyrocb)雲は、極端な山火事によって発生する嵐雲である。 ピロCbsは予測不能で危険であり、山火事が広がる。 また、煙粒子や微量ガスを対流圏上層と成層圏下層に注入し、地球の気候に影響を及ぼす。 世界の気温が上昇するにつれて、これらの珍しい現象はより一般的になっている。 したがって、どの火災がピロCbを発生させるかを予測することは、山火事が発生しやすい地域での気候適応の鍵となる。 本稿では pyroCb 解析と予測のためのパイプラインである Pyrocast を紹介する。 パイプラインの最初の2つのコンポーネント、pyroCbデータベースとpyroCb予測モデルが提示される。 このデータベースは2018年から2022年にかけて、北米、オーストラリア、ロシアで148件以上のpyroCbイベントの静止画像と環境データを集めている。 自動エンコーダで事前訓練されたランダムフォレスト、畳み込みニューラルネットワーク(CNN)、CNNは、所定の火災を6時間前に予測するために試験された。 最良のモデルは0.90 \pm 0.04$のaucでpyrocbを予測した。

Pyrocumulonimbus (pyroCb) clouds are storm clouds generated by extreme wildfires. PyroCbs are associated with unpredictable, and therefore dangerous, wildfire spread. They can also inject smoke particles and trace gases into the upper troposphere and lower stratosphere, affecting the Earth's climate. As global temperatures increase, these previously rare events are becoming more common. Being able to predict which fires are likely to generate pyroCb is therefore key to climate adaptation in wildfire-prone areas. This paper introduces Pyrocast, a pipeline for pyroCb analysis and forecasting. The pipeline's first two components, a pyroCb database and a pyroCb forecast model, are presented. The database brings together geostationary imagery and environmental data for over 148 pyroCb events across North America, Australia, and Russia between 2018 and 2022. Random Forests, Convolutional Neural Networks (CNNs), and CNNs pretrained with Auto-Encoders were tested to predict the generation of pyroCb for a given fire six hours in advance. The best model predicted pyroCb with an AUC of $0.90 \pm 0.04$.
翻訳日:2022-11-24 14:46:53 公開日:2022-11-22
# スケーラブルで効率的なコンダクタンスベースのグラフクラスタリング

Scalable and Effective Conductance-based Graph Clustering ( http://arxiv.org/abs/2211.12511v1 )

ライセンス: Link先を確認
Longlong Lin, Rong-Hua Li, Tao Jia(参考訳) コンダクタンスに基づくグラフクラスタリングは多くのグラフ解析アプリケーションにおいて基本的な演算子として認識されている。 コンダクタンスベースのグラフクラスタリングの成功にもかかわらず、既存のアルゴリズムは満足のいくクラスタリングの品質を得るのが困難である。 これらの制限を克服するため、強力な \textit{peeling} ベースのグラフクラスタリングフレームワーク \textit{PCon} を考案した。 既存のソリューションの多くをフレームワークに還元できることを示します。 すなわち、まず各頂点のスコア関数を定義し、次に最小のスコアで頂点を反復的に取り除く。 最後に、剥離過程におけるコンダクタンスが最小となる結果を出力する。 本稿では,2つの新しいアルゴリズムを線形時間と空間の複雑さで提案し,数十億を超えるエッジを持つ大規模グラフからのクラスタを効率よく,効果的に同定する。 驚くべきことに、 \emph{PCon\_de} が近似比がほぼ一定であるクラスタを同定できることを証明し、よく知られた二次チェーガー境界よりも重要な理論的改善をもたらす。 実生活および合成データセットにおける実験結果から,本アルゴリズムは,ベースラインアルゴリズムよりも1.4$\sim$7.8 未満のメモリを用いて,高いクラスタリング精度で 5$\sim$42 倍の高速化を達成できることが示された。

Conductance-based graph clustering has been recognized as a fundamental operator in numerous graph analysis applications. Despite the significant success of conductance-based graph clustering, existing algorithms are either hard to obtain satisfactory clustering qualities, or have high time and space complexity to achieve provable clustering qualities. To overcome these limitations, we devise a powerful \textit{peeling}-based graph clustering framework \textit{PCon}. We show that many existing solutions can be reduced to our framework. Namely, they first define a score function for each vertex, then iteratively remove the vertex with the smallest score. Finally, they output the result with the smallest conductance during the peeling process. Based on our framework, we propose two novel algorithms \textit{PCon\_core} and \emph{PCon\_de} with linear time and space complexity, which can efficiently and effectively identify clusters from massive graphs with more than a few billion edges. Surprisingly, we prove that \emph{PCon\_de} can identify clusters with near-constant approximation ratio, resulting in an important theoretical improvement over the well-known quadratic Cheeger bound. Empirical results on real-life and synthetic datasets show that our algorithms can achieve 5$\sim$42 times speedup with a high clustering accuracy, while using 1.4$\sim$7.8 times less memory than the baseline algorithms.
翻訳日:2022-11-24 14:40:04 公開日:2022-11-22
# タイムアウェアデータセットは、新しい正規化のための適応的知識ベースである

Time-Aware Datasets are Adaptive Knowledgebases for the New Normal ( http://arxiv.org/abs/2211.12508v1 )

ライセンス: Link先を確認
Abhijit Suprem, Sanjyot Vaidya, Joao Eduardo Ferreira, Calton Pu(参考訳) 言語モデルのテキスト分類と知識獲得の最近の進歩は、大規模テキストデータセットの可用性に依存している。 しかし、言語モデルは知識の静的なスナップショットに基づいて訓練され、知識が進化すると制限される。 これは、古いキャンペーンを置き換え、新しいタイプの誤情報が継続的に現れる誤情報検出において特に重要である。 時間クリティカルな現象を捉えるために,時間認識型誤情報データセットを提案する。 本稿では,まず誤情報を進化させる証拠を提示し,単純な時間認識を組み込むことで分類器の精度が著しく向上することを示す。 第二に、25ヶ月にわたる大規模なCOVID-19誤報であるCOVID-TADを提示する。 これは、データストリームの複数のスナップショットを含む最初の大規模誤情報データセットであり、関連する誤情報データセットよりも桁違いに大きい。 本稿では,cessの収集とラベル付け,予備実験について述べる。

Recent advances in text classification and knowledge capture in language models have relied on availability of large-scale text datasets. However, language models are trained on static snapshots of knowledge and are limited when that knowledge evolves. This is especially critical for misinformation detection, where new types of misinformation continuously appear, replacing old campaigns. We propose time-aware misinformation datasets to capture time-critical phenomena. In this paper, we first present evidence of evolving misinformation and show that incorporating even simple time-awareness significantly improves classifier accuracy. Second, we present COVID-TAD, a large-scale COVID-19 misinformation da-taset spanning 25 months. It is the first large-scale misinformation dataset that contains multiple snapshots of a datastream and is orders of magnitude bigger than related misinformation datasets. We describe the collection and labeling pro-cess, as well as preliminary experiments.
翻訳日:2022-11-24 14:29:43 公開日:2022-11-22
# モデル蒸留における統計安定性の汎用的アプローチ

A Generic Approach for Statistical Stability in Model Distillation ( http://arxiv.org/abs/2211.12631v1 )

ライセンス: Link先を確認
Yunzhe Zhou, Peiru Xu, Giles Hooker(参考訳) モデル蒸留は解釈可能な機械学習を製造する一般的な方法である。 black box "teacher" モデルによる予測を模倣するために、解釈可能な "sudent" モデルを使用する。 しかし、トレーニングに使用するデータセットの変動性に学生モデルが敏感な場合、対応する解釈は信頼できない。 既存手法は,学生モデルを確実に再現するために,擬似データの大規模なコーパスが生成されるかどうかを確認することによって,モデルの蒸留を安定化させるが,これまでは特定の学生モデルのために方法が開発されてきた。 本稿では, 平均損失に対する中心極限定理に基づく安定モデル蒸留のための汎用的アプローチを開発する。 まず、候補者モデルの収集と、教師に合理的に同意する候補者の検索から始める。 次に、複数のテストフレームワークを構築し、一貫性のある学生モデルが異なる擬似サンプルで選択されるようにコーパスサイズを選択する。 提案手法を, 決定木, 落下ルールリスト, 記号回帰という, 一般的な3つのモデルに適用した。 最後に, マンモグラフィと乳癌のデータセットのシミュレーション実験を行い, マルコフ過程を用いた理論的解析を通して, 検査手順について解説する。

Model distillation has been a popular method for producing interpretable machine learning. It uses an interpretable "student" model to mimic the predictions made by the black box "teacher" model. However, when the student model is sensitive to the variability of the data sets used for training, the corresponded interpretation is not reliable. Existing strategies stabilize model distillation by checking whether a large enough corpus of pseudo-data is generated to reliably reproduce student models, but methods to do so have so far been developed for a specific student model. In this paper, we develop a generic approach for stable model distillation based on central limit theorem for the average loss. We start with a collection of candidate student models and search for candidates that reasonably agree with the teacher. Then we construct a multiple testing framework to select a corpus size such that the consistent student model would be selected under different pseudo sample. We demonstrate the application of our proposed approach on three commonly used intelligible models: decision trees, falling rule lists and symbolic regression. Finally, we conduct simulation experiments on Mammographic Mass and Breast Cancer datasets and illustrate the testing procedure throughout a theoretical analysis with Markov process.
翻訳日:2022-11-24 14:23:10 公開日:2022-11-22
# ロバスト学習のための動的損失

Dynamic Loss For Robust Learning ( http://arxiv.org/abs/2211.12506v1 )

ライセンス: Link先を確認
Shenwang Jiang, Jianan Li, Jizhou Zhang, Ying Wang, Tingfa Xu(参考訳) ラベルノイズとクラス不均衡は、現実世界のデータによく共存する。 しかしながら、堅牢な学習のためのこれまでの作業は、通常、データバイアスの1つのタイプに対処する。 このギャップを緩和するため,本研究では,目標関数を学習プロセスで自動調整し,長大なノイズデータから分類器を頑健に学習する,メタラーニングに基づく動的損失を提案する。 具体的には,ラベル補正器とマージン生成器とからなり,それぞれノイズラベルを補正し,基礎となるデータ分布と分類器の学習状態を知覚して付加的なクラス別分類マージンを生成する。 多様なサンプルと硬いサンプルで少量のメタデータを豊かにする新しい階層的なサンプリング戦略により、動的損失の2つのコンポーネントはメタラーニングによって共同で最適化され、クリーンでバランスの取れたテストデータに適合するように分類器を栽培する。 CIFAR-10/100, Animal-10N, ImageNet-LT, Webvision など,様々な種類のデータバイアスを持つ複数の実世界および合成データセットの最先端の精度を実現する。 コードはまもなく公開される予定だ。

Label noise and class imbalance commonly coexist in real-world data. Previous works for robust learning, however, usually address either one type of the data biases and underperform when facing them both. To mitigate this gap, this work presents a novel meta-learning based dynamic loss that automatically adjusts the objective functions with the training process to robustly learn a classifier from long-tailed noisy data. Concretely, our dynamic loss comprises a label corrector and a margin generator, which respectively correct noisy labels and generate additive per-class classification margins by perceiving the underlying data distribution as well as the learning state of the classifier. Equipped with a new hierarchical sampling strategy that enriches a small amount of unbiased metadata with diverse and hard samples, the two components in the dynamic loss are optimized jointly through meta-learning and cultivate the classifier to well adapt to clean and balanced test data. Extensive experiments show our method achieves state-of-the-art accuracy on multiple real-world and synthetic datasets with various types of data biases, including CIFAR-10/100, Animal-10N, ImageNet-LT, and Webvision. Code will soon be publicly available.
翻訳日:2022-11-24 14:22:41 公開日:2022-11-22
# モンテカルロ森林探索:強化学習によるUNSATソルバー合成

Monte Carlo Forest Search: UNSAT Solver Synthesis via Reinforcement learning ( http://arxiv.org/abs/2211.12581v1 )

ライセンス: Link先を確認
Chris Cameron, Jason Hartford, Taylor Lundy, Tuan Truong, Alan Milligan, Rex Chen, Kevin Leyton-Brown(参考訳) 我々は,モンテカルロ木探索 (mcts) アルゴリズムのアイデアを活用し,与えられた分布上で \emph{unsatisfiability} を証明するための強木探索ソルバを自動合成するオフラインアルゴリズムであるmonte carlo forest search (mcfs) を導入する。 MCTSの既存の応用と満足できないことを証明する重要な違いは、ポリシーが道ではなく木を生み出すことである。 木の中に良い経路(溶出)を見つける代わりに、探索問題は、候補となる証明木のある森内の小さな証明木を探すようになる。 この設定に適応するための2つの重要なアイデアを紹介します。 まず,knuth (1975) の非バイアス近似により,経路を持つ木の大きさを推定する。 第2に、木全体のポリシーを学ぶのではなく、ユーザ定義の深さで強力な解法をクエリし、木のサイズを減らす最大の可能性を提供する早期決定にポリシー検索を集中させる。 そこで我々は,AlphaGo から多くの修正を必要とする Boolean satisfiability (SAT) 問題を解くための分岐ポリシーを学習するための MCFS の実装である MCFS-SAT を提案する。 我々は,2つのよく知られたSAT分布(\texttt{sgen}, \texttt{random})の強いベースライン上での性能を一致または改善した。 特に,2021年のSATコンペティションにおいて,texttt{kcnfs} ソルバ上でのランニング時間を 9 % 改善し,UNSAT ソルバよりも高めに改善した。

We introduce Monte Carlo Forest Search (MCFS), an offline algorithm for automatically synthesizing strong tree-search solvers for proving \emph{unsatisfiability} on given distributions, leveraging ideas from the Monte Carlo Tree Search (MCTS) algorithm that led to breakthroughs in AlphaGo. The crucial difference between proving unsatisfiability and existing applications of MCTS, is that policies produce trees rather than paths. Rather than finding a good path (solution) within a tree, the search problem becomes searching for a small proof tree within a forest of candidate proof trees. We introduce two key ideas to adapt to this setting. First, we estimate tree size with paths, via the unbiased approximation from Knuth (1975). Second, we query a strong solver at a user-defined depth rather than learning a policy across the whole tree, in order to focus our policy search on early decisions, which offer the greatest potential for reducing tree size. We then present MCFS-SAT, an implementation of MCFS for learning branching policies for solving the Boolean satisfiability (SAT) problem that required many modifications from AlphaGo. We matched or improved performance over a strong baseline on two well-known SAT distributions (\texttt{sgen}, \texttt{random}). Notably, we improved running time by 9\% on \texttt{sgen} over the \texttt{kcnfs} solver and even further over the strongest UNSAT solver from the 2021 SAT competition.
翻訳日:2022-11-24 14:14:37 公開日:2022-11-22
# 持続可能なレジリエントな農業のためのビッグデータと機械学習

Big Earth Data and Machine Learning for Sustainable and Resilient Agriculture ( http://arxiv.org/abs/2211.12584v1 )

ライセンス: Link先を確認
Vasileios Sitokonstantinou(参考訳) 衛星や他のプラットフォーム(例えばドローンや携帯電話)からの地球画像の大規模なストリームは、安価または無償で利用でき、空間的および時間的解像度が向上している。 この論文は、我々の時代の高品質でオープンな地球観測データによってもたらされた前例のない機会を認識し、持続可能で弾力性のある農業のためのアプリケーションの開発に適切に活用するための、新しい機械学習とビッグデータ手法を導入している。 この論文は、共通農業政策(CAP)の監視、食料安全保障の監視、スマートで回復力のある農業への応用の3つの異なるテーマ領域に対処している。 3つのテーマ領域に関連する発展の方法論的革新は、以下の問題に対処する。 i)大地観測(eo)データの処理 二 機械学習モデルの訓練における注釈データの不足及び不足 iii) 機械学習のアウトプットと実行可能なアドバイスのギャップ。 この論文は、データキューブ、分散学習、リンクされたオープンデータ、セマンティックエンリッチメントといったビッグデータ技術が、データルージュを利用して実際のユーザニーズに対処するための知識を抽出する方法について実証した。 さらに、この論文は半教師付きおよび教師なし機械学習モデルの重要性を論じ、希少なアノテーションの常在的課題を回避し、空間と時間におけるモデル一般化を可能にする。 具体的には,高品質な作物型地図や作物表現論の推定を行う上で,基礎的真理データがいかに少ないかを示す。 最後に、この論文は、実際のシナリオにおけるモデル推論と意思決定の間にかなりの距離があることを論じ、このギャップを埋める際に因果的および解釈可能な機械学習の力を示す。

Big streams of Earth images from satellites or other platforms (e.g., drones and mobile phones) are becoming increasingly available at low or no cost and with enhanced spatial and temporal resolution. This thesis recognizes the unprecedented opportunities offered by the high quality and open access Earth observation data of our times and introduces novel machine learning and big data methods to properly exploit them towards developing applications for sustainable and resilient agriculture. The thesis addresses three distinct thematic areas, i.e., the monitoring of the Common Agricultural Policy (CAP), the monitoring of food security and applications for smart and resilient agriculture. The methodological innovations of the developments related to the three thematic areas address the following issues: i) the processing of big Earth Observation (EO) data, ii) the scarcity of annotated data for machine learning model training and iii) the gap between machine learning outputs and actionable advice. This thesis demonstrated how big data technologies such as data cubes, distributed learning, linked open data and semantic enrichment can be used to exploit the data deluge and extract knowledge to address real user needs. Furthermore, this thesis argues for the importance of semi-supervised and unsupervised machine learning models that circumvent the ever-present challenge of scarce annotations and thus allow for model generalization in space and time. Specifically, it is shown how merely few ground truth data are needed to generate high quality crop type maps and crop phenology estimations. Finally, this thesis argues there is considerable distance in value between model inferences and decision making in real-world scenarios and thereby showcases the power of causal and interpretable machine learning in bridging this gap.
翻訳日:2022-11-24 14:14:07 公開日:2022-11-22
# PAC-Bayesian境界最小化によるロバスト一般化の改善

Improving Robust Generalization by Direct PAC-Bayesian Bound Minimization ( http://arxiv.org/abs/2211.12624v1 )

ライセンス: Link先を確認
Zifan Wang, Nan Ding, Tomer Levinboim, Xi Chen, Radu Soricut(参考訳) 近年のロバスト最適化の研究により、攻撃に対して訓練されたモデルがテストセットよりもトレーニングセットに高いロバスト性を示す過剰フィッティングのような現象が示されている。 以前の研究は、対向検定誤差に頑健なPAC-ベイジアン境界を用いてこの現象の理論的な説明を提供したが、関連するアルゴリズムの導出は、この境界に極端にゆるやかに結びついているので、その経験的成功と我々の対向的堅牢性理論の理解の間にはまだギャップがあることを示している。 このギャップを締めくくるために,本論文ではロバストなpac-ベイズ結合の異なる形式を検討し,モデル後方についてそれを直接最小化する。 最適解の導出は、表面平坦性を測定するヘッシアン(trh)正規化子のトレースを通して、pac-ベイズ学習とロバストな損失面の幾何学を結びつける。 実際、trh正則化器はトップ層のみに制限され、計算コストがネットワークの深さに依存しない境界に対する解析解となる。 最後に,視覚トランスフォーマー(vit)を用いたcifar-10/100およびimagenetに対するtrh正規化手法を評価し,ベースライン逆ロバストネスアルゴリズムとの比較を行った。 実験結果から,TrH正則化によりViTのロバスト性が向上し,従来の最先端アプローチに適合するか,あるいは超過する一方で,メモリと計算コストの低減が図られた。

Recent research in robust optimization has shown an overfitting-like phenomenon in which models trained against adversarial attacks exhibit higher robustness on the training set compared to the test set. Although previous work provided theoretical explanations for this phenomenon using a robust PAC-Bayesian bound over the adversarial test error, related algorithmic derivations are at best only loosely connected to this bound, which implies that there is still a gap between their empirical success and our understanding of adversarial robustness theory. To close this gap, in this paper we consider a different form of the robust PAC-Bayesian bound and directly minimize it with respect to the model posterior. The derivation of the optimal solution connects PAC-Bayesian learning to the geometry of the robust loss surface through a Trace of Hessian (TrH) regularizer that measures the surface flatness. In practice, we restrict the TrH regularizer to the top layer only, which results in an analytical solution to the bound whose computational cost does not depend on the network depth. Finally, we evaluate our TrH regularization approach over CIFAR-10/100 and ImageNet using Vision Transformers (ViT) and compare against baseline adversarial robustness algorithms. Experimental results show that TrH regularization leads to improved ViT robustness that either matches or surpasses previous state-of-the-art approaches while at the same time requires less memory and computational cost.
翻訳日:2022-11-24 14:13:39 公開日:2022-11-22
# nlpは精神療法を満たす: 予測されたクライアント感情と自己報告されたクライアント感情を用いて感情コヒーレンスを測定する

NLP meets psychotherapy: Using predicted client emotions and self-reported client emotions to measure emotional coherence ( http://arxiv.org/abs/2211.12512v1 )

ライセンス: Link先を確認
Neha Warikoo, Tobias Mayer, Dana Atzil-Slonim, Amir Eliassaf, Shira Haimovitz, Iryna Gurevych(参考訳) 感情は様々な反応システムを通じて経験され、表現される。 感情経験と感情表現の一貫性は、顧客にとって重要であると考えられる。 これまで、感情コヒーレンス(ec)は、比較的小さなデータセットを持つラボベースのタスクを使用して、1つの時点に研究されてきた。 セラピーにおける感情の主観的経験と感情表現と、このコヒーレンスがクライアントの幸福と結びついているかどうかを調査した研究はない。 自然言語処理(NLP)アプローチは、心理療法の対話から感情を識別するために応用され、より大規模な感情過程を研究するために実装される。 しかし、これらの手法は、治療過程における感情経験と感情表現のコヒーレンスと、それがクライアントの幸福と関係しているかどうかを研究するためにはまだ使われていない。 本研究では、トランスフォーマーに基づく感情認識モデルから感情予測を用いて、心理療法研究における感情コヒーレンスとその診断可能性を研究する。 まず,ヘブライ語の心理療法データセットを用いたトランスフォーマティブ・アプローチを用いて,心理療法対話の発話レベルにクライアントの感情を自動的にラベル付けする。 その後,クライアントの自己報告感情状態とモデルに基づく感情予測との感情コヒーレンスについて検討した。 また,感情的コヒーレンスとクライアントの健康との関係についても検討した。 心理療法セッションにおいて,クライアントの自己報告感情と肯定的感情と否定的感情との間に有意な相関が認められた。 ポジティブ感情のコヒーレンスも,クライアントの幸福感と強く相関していた。 これらの結果は、NLPが精神療法における重要な感情過程を識別し、精神疾患に苦しむクライアントの診断と治療を改善する方法を示している。

Emotions are experienced and expressed through various response systems. Coherence between emotional experience and emotional expression is considered important to clients' well being. To date, emotional coherence (EC) has been studied at a single time point using lab-based tasks with relatively small datasets. No study has examined EC between the subjective experience of emotions and emotion expression in therapy or whether this coherence is associated with clients' well being. Natural language Processing (NLP) approaches have been applied to identify emotions from psychotherapy dialogue, which can be implemented to study emotional processes on a larger scale. However, these methods have yet to be used to study coherence between emotional experience and emotional expression over the course of therapy and whether it relates to clients' well-being. This work presents an end-to-end approach where we use emotion predictions from our transformer based emotion recognition model to study emotional coherence and its diagnostic potential in psychotherapy research. We first employ our transformer based approach on a Hebrew psychotherapy dataset to automatically label clients' emotions at utterance level in psychotherapy dialogues. We subsequently investigate the emotional coherence between clients' self-reported emotional states and our model-based emotion predictions. We also examine the association between emotional coherence and clients' well being. Our findings indicate a significant correlation between clients' self-reported emotions and positive and negative emotions expressed verbally during psychotherapy sessions. Coherence in positive emotions was also highly correlated with clients well-being. These results illustrate how NLP can be applied to identify important emotional processes in psychotherapy to improve diagnosis and treatment for clients suffering from mental-health problems.
翻訳日:2022-11-24 14:03:07 公開日:2022-11-22
# 刈り取りと成長によるスパース確率回路

Sparse Probabilistic Circuits via Pruning and Growing ( http://arxiv.org/abs/2211.12551v1 )

ライセンス: Link先を確認
Meihua Dang, Anji Liu, Guy Van den Broeck(参考訳) 確率回路(PC)は確率分布の抽出可能な表現であり、確率と限界の正確かつ効率的な計算を可能にする。 近年,PCのスケールと表現性の向上が顕著に進んでいる。 しかし,PCのトレーニング性能はモデルサイズの増加とともに向上する。 既存の大規模PC構造におけるほとんどの容量は無駄であり、完全に接続されたパラメータ層はわずかにしか使われていない。 我々は,pc構造のスパース性を活用した刈り取りと成長の2つの操作を提案する。 具体的には、プルーニング操作はモデル圧縮のためにPCの重要でないサブネットワークを除去し、理論的保証を与える。 成長操作は潜在空間の大きさを増加させることでモデル容量を増加させる。 刈り込みと成長を交互に適用することにより、有意義な使用能力を高め、PC学習を大幅にスケールアップすることができる。 実験により,本学習者は,他のPC学習者と比較して,MNIST系画像データセットやPenn Tree Bank言語データについて,フローベースモデルや変分オートエンコーダ(VAE)のような,難解な深層生成モデルを用いて,最先端の可能性が得られた。

Probabilistic circuits (PCs) are a tractable representation of probability distributions allowing for exact and efficient computation of likelihoods and marginals. There has been significant recent progress on improving the scale and expressiveness of PCs. However, PC training performance plateaus as model size increases. We discover that most capacity in existing large PC structures is wasted: fully-connected parameter layers are only sparsely used. We propose two operations: pruning and growing, that exploit the sparsity of PC structures. Specifically, the pruning operation removes unimportant sub-networks of the PC for model compression and comes with theoretical guarantees. The growing operation increases model capacity by increasing the size of the latent space. By alternatingly applying pruning and growing, we increase the capacity that is meaningfully used, allowing us to significantly scale up PC learning. Empirically, our learner achieves state-of-the-art likelihoods on MNIST-family image datasets and on Penn Tree Bank language data compared to other PC learners and less tractable deep generative models such as flow-based models and variational autoencoders (VAEs).
翻訳日:2022-11-24 14:02:26 公開日:2022-11-22
# autoreply: 差別的応答を伴う対話におけるナンセンスの検出

AutoReply: Detecting Nonsense in Dialogue Introspectively with Discriminative Replies ( http://arxiv.org/abs/2211.12615v1 )

ライセンス: Link先を確認
Weiyan Shi, Emily Dinan, Adi Renduchintala, Daniel Fried, Athul Paul Jacob, Zhou Yu, Mike Lewis(参考訳) 既存のアプローチでは、対話におけるナンセンスを検出するために別々の分類器を構築した。 本稿では,外部分類器がなければ,不適切なメッセージを示す応答の確率を計算することで,対話モデルが自身のメッセージ中のエラーをイントロスペクションで検出できることを示す。 例えば、あるエージェントがパートナーが候補者のメッセージに「私は理解できない」と答える可能性が高いと信じている場合、そのメッセージは意味をなさない可能性があるため、別のメッセージを選ぶべきである。 我々は,既存のモデルが多くの誤りを犯すゲーム状態に富んだ長い対話を含むゲーム外交(Diplomacy)のデータセットに対するアプローチを評価する。 まず、手作りの返信は外交と同じくらい複雑なアプリケーションにおけるナンセンスを検出するタスクに有効であることを示す。 次に、少数の注釈付き対話例から、このような識別的応答を自動的に検索するアルゴリズムであるAutoReplyを設計する。 AutoReplyの生成した応答は手作りの応答よりも優れており、慎重に調整された大規模な教師付きモデルと同等に動作する。 また,計算オーバーヘッドを伴わない単一応答が,対話を合理的に検出できることを示した。

Existing approaches built separate classifiers to detect nonsense in dialogues. In this paper, we show that without external classifiers, dialogue models can detect errors in their own messages introspectively, by calculating the likelihood of replies that are indicative of poor messages. For example, if an agent believes its partner is likely to respond "I don't understand" to a candidate message, that message may not make sense, so an alternative message should be chosen. We evaluate our approach on a dataset from the game Diplomacy, which contains long dialogues richly grounded in the game state, on which existing models make many errors. We first show that hand-crafted replies can be effective for the task of detecting nonsense in applications as complex as Diplomacy. We then design AutoReply, an algorithm to search for such discriminative replies automatically, given a small number of annotated dialogue examples. We find that AutoReply-generated replies outperform handcrafted replies and perform on par with carefully fine-tuned large supervised models. Results also show that one single reply without much computation overheads can also detect dialogue nonsense reasonably well.
翻訳日:2022-11-24 13:57:17 公開日:2022-11-22
# 小児脳mriにおける多指多指症検出のための新しいセンターベース深部コントラストメトリック学習法

A Novel Center-based Deep Contrastive Metric Learning Method for the Detection of Polymicrogyria in Pediatric Brain MRI ( http://arxiv.org/abs/2211.12565v1 )

ライセンス: Link先を確認
Lingfeng Zhang, Nishard Abdeen, Jochen Lang(参考訳) ポリミクログリア (polymicrogyria, pmg) は、主に小児にみられる皮質組織の障害であり、発作、発達遅延、運動の弱さと関連がある。 PMGは一般的にMRI(MRI)で診断されるが、経験豊富な放射線医でも検出が難しい場合もある。 本研究では,カナダ,オタワ州,オンタリオ州東部小児病院(cheo)のpmgとコントロールを備えた小児mriデータセット(ppmr)を作成した。 PMG MRIとコントロールMRIの違いは微妙であり、疾患の特徴の真の分布は分かっていない。 これにより、MRIにおける潜在的PMGの自動検出が困難になる。 本稿では,新たな中心型深部コントラスト学習損失関数(cDCM)に基づく異常検出手法を提案する。 さらに,提案した損失関数に基づいて,拡張畳み込み,圧縮励磁ブロック,PPMRデータセットの機能融合を統合したディープラーニングモデル構造をカスタマイズする。 小型で不均衡なデータセットを扱うにも関わらず、この手法は92.01%のリコールを55.04%精度で達成する。 これは放射線科医が潜在的なpmg mriを選択するためのコンピュータ支援ツールである。 我々の知る限りでは、この研究はMRIのみからPMGを識別するために機械学習技術を適用した最初のものである。

Polymicrogyria (PMG) is a disorder of cortical organization mainly seen in children, which can be associated with seizures, developmental delay and motor weakness. PMG is typically diagnosed on magnetic resonance imaging (MRI) but some cases can be challenging to detect even for experienced radiologists. In this study, we create an open pediatric MRI dataset (PPMR) with PMG and controls from the Children's Hospital of Eastern Ontario (CHEO), Ottawa, Canada. The differences between PMG MRIs and control MRIs are subtle and the true distribution of the features of the disease is unknown. This makes automatic detection of cases of potential PMG in MRI difficult. We propose an anomaly detection method based on a novel center-based deep contrastive metric learning loss function (cDCM) which enables the automatic detection of cases of potential PMG. Additionally, based on our proposed loss function, we customize a deep learning model structure that integrates dilated convolution, squeeze-and-excitation blocks and feature fusion for our PPMR dataset. Despite working with a small and imbalanced dataset our method achieves 92.01% recall at 55.04% precision. This will facilitate a computer aided tool for radiologists to select potential PMG MRIs. To the best of our knowledge, this research is the first to apply machine learning techniques to identify PMG from MRI only.
翻訳日:2022-11-24 13:55:03 公開日:2022-11-22
# テキスト駆動画像変換のためのプラグアンドプレイ拡散機能

Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation ( http://arxiv.org/abs/2211.12572v1 )

ライセンス: Link先を確認
Narek Tumanyan, Michal Geyer, Shai Bagon, Tali Dekel(参考訳) 大規模テキスト画像生成モデルは、生成AIの進化における画期的なブレークスルーであり、非常に複雑な視覚概念を伝達する多様な画像を合成することができる。 しかし、現実のコンテンツ作成タスクにそのようなモデルを活用する上で重要な課題は、ユーザーが生成されたコンテンツを制御することにある。 本稿では,画像から画像への変換領域にテキストから画像への合成を行う新たなフレームワークを提案する。誘導画像と対象テキストプロンプトが与えられた場合,本手法では,事前学習したテキストから画像への拡散モデルを用いて,ソース画像の意味的レイアウトを維持しながら,対象テキストに対応する新たな画像を生成する。 具体的には, モデル内で空間的特徴と自己着脱を操ることで, 生成した構造に対するきめ細かい制御が達成できることを観察し, 実証的に実証する。 これにより、誘導画像から抽出した特徴を目標画像の生成プロセスに直接注入し、訓練や微調整を必要とせず、実または生成した誘導画像にも適用することができる。 本研究では,スケッチや大まかな描画,アニメーションをリアルなイメージに変換すること,クラスやオブジェクトの外観を変えること,照明や色などのグローバルな品質の修正など,多目的なテキスト誘導画像翻訳タスクにおける高品質な結果を示す。

Large-scale text-to-image generative models have been a revolutionary breakthrough in the evolution of generative AI, allowing us to synthesize diverse images that convey highly complex visual concepts. However, a pivotal challenge in leveraging such models for real-world content creation tasks is providing users with control over the generated content. In this paper, we present a new framework that takes text-to-image synthesis to the realm of image-to-image translation -- given a guidance image and a target text prompt, our method harnesses the power of a pre-trained text-to-image diffusion model to generate a new image that complies with the target text, while preserving the semantic layout of the source image. Specifically, we observe and empirically demonstrate that fine-grained control over the generated structure can be achieved by manipulating spatial features and their self-attention inside the model. This results in a simple and effective approach, where features extracted from the guidance image are directly injected into the generation process of the target image, requiring no training or fine-tuning and applicable for both real or generated guidance images. We demonstrate high-quality results on versatile text-guided image translation tasks, including translating sketches, rough drawings and animations into realistic images, changing of the class and appearance of objects in a given image, and modifications of global qualities such as lighting and color.
翻訳日:2022-11-24 13:54:38 公開日:2022-11-22
# マラウイにおける攻撃的ソーシャルメディア投稿のタイプとターゲット予測

Predicting the Type and Target of Offensive Social Media Posts in Marathi ( http://arxiv.org/abs/2211.12570v1 )

ライセンス: Link先を確認
Marcos Zampieri, Tharindu Ranasinghe, Mrinal Chaudhari, Saurabh Gaikwad, Prajwal Krishna, Mayuresh Nene, Shrunali Paygude(参考訳) ソーシャルメディアにおける攻撃的言語の存在は、コミュニティをより安全にするための戦略に投資する動機となるプラットフォームとして非常に一般的である。 これには、攻撃的なコンテンツをオンラインで認識できる堅牢な機械学習システムの開発が含まれる。 特筆すべき例外を除いて、攻撃言語の自動識別に関するほとんどの研究は、英語と、フランス語、ドイツ語、スペイン語などの他の高資源言語を扱っている。 本稿では,インドで話されているインド・アーリア語の低資源言語であるマラティ語において,攻撃的言語識別に取り組むことで,このギャップを解消する。 本稿では,marathi offensive language dataset v.2.0 または mold 2.0 を紹介し,このデータセットについて複数の実験を行う。 MOLD 2.0はMOLDのずっと大きなバージョンで、一般的なOLID分類のレベルB(型)とC(ターゲット)のアノテーションが拡張されている。 MOLD 2.0は、マラタイのためにコンパイルされた最初の階層的な攻撃的言語データセットであり、低リソースのインド・アーリア語の研究のための新たな道を開く。 最後に、SOLIDで示される半教師付き手法にしたがって注釈付けされたより大きなデータセットであるSeMOLDについても紹介する。

The presence of offensive language on social media is very common motivating platforms to invest in strategies to make communities safer. This includes developing robust machine learning systems capable of recognizing offensive content online. Apart from a few notable exceptions, most research on automatic offensive language identification has dealt with English and a few other high resource languages such as French, German, and Spanish. In this paper we address this gap by tackling offensive language identification in Marathi, a low-resource Indo-Aryan language spoken in India. We introduce the Marathi Offensive Language Dataset v.2.0 or MOLD 2.0 and present multiple experiments on this dataset. MOLD 2.0 is a much larger version of MOLD with expanded annotation to the levels B (type) and C (target) of the popular OLID taxonomy. MOLD 2.0 is the first hierarchical offensive language dataset compiled for Marathi, thus opening new avenues for research in low-resource Indo-Aryan languages. Finally, we also introduce SeMOLD, a larger dataset annotated following the semi-supervised methods presented in SOLID.
翻訳日:2022-11-24 13:47:34 公開日:2022-11-22
# コンセプトドリフト中の非定常検出と適応によるオンラインフェデレート学習

Online Federated Learning via Non-Stationary Detection and Adaptation amidst Concept Drift ( http://arxiv.org/abs/2211.12578v1 )

ライセンス: Link先を確認
Bhargav Ganguly and Vaneet Aggarwal(参考訳) フェデレーション学習(federated learning, fl)は、人工知能研究の幅広い文脈における新たな領域である。 flに関する方法論は、プライバシの懸念によるデータ共有の制限を伴う最適なグローバルモデルを達成することを目的として、クライアントとサーバの集合からなる分散モデルトレーニングを想定している。 このような仮定は、例えば季節的または周期的な観測によって、センサ測定の欠陥によって概念ドリフトが起こる現実の状況では非現実的である。 本稿では, モデル/概念ドリフトの存在下でのFL一般化性能を改善するための非定常検出・適応技術と, 近接定常環境での \textit{FedAvg} と \textit{FedOMD} のアルゴリズムの理論的保証を組み合わせた, マルチスケールアルゴリズムフレームワークを提案する。 我々は,$\tilde{\mathcal{o}} ( \min \{ \sqrt{lt} , \delta^{\frac{1}{3}}t^{\frac{2}{3}} + \sqrt{t} \})$ \textit{dynamic regret} for $t$ rounds with 基底となる一般凸損失関数を持ち,$l$は非定常ドリフト回数であり$\delta$は$t$ラウンド内で経験されるドリフトの累積マグニチュードである。

Federated Learning (FL) is an emerging domain in the broader context of artificial intelligence research. Methodologies pertaining to FL assume distributed model training, consisting of a collection of clients and a server, with the main goal of achieving optimal global model with restrictions on data sharing due to privacy concerns. It is worth highlighting that the diverse existing literature in FL mostly assume stationary data generation processes; such an assumption is unrealistic in real-world conditions where concept drift occurs due to, for instance, seasonal or period observations, faults in sensor measurements. In this paper, we introduce a multiscale algorithmic framework which combines theoretical guarantees of \textit{FedAvg} and \textit{FedOMD} algorithms in near stationary settings with a non-stationary detection and adaptation technique to ameliorate FL generalization performance in the presence of model/concept drifts. We present a multi-scale algorithmic framework leading to $\Tilde{\mathcal{O}} ( \min \{ \sqrt{LT} , \Delta^{\frac{1}{3}}T^{\frac{2}{3}} + \sqrt{T} \})$ \textit{dynamic regret} for $T$ rounds with an underlying general convex loss function, where $L$ is the number of times non-stationary drifts occured and $\Delta$ is the cumulative magnitude of drift experienced within $T$ rounds.
翻訳日:2022-11-24 13:47:17 公開日:2022-11-22
# スマート農業 : 非構造化データによる農業リスク評価のための多段階的アプローチ

Smart Agriculture : A Novel Multilevel Approach for Agricultural Risk Assessment over Unstructured Data ( http://arxiv.org/abs/2211.12515v1 )

ライセンス: Link先を確認
Hasna Najmi and Mounia Mikram and Maryem Rhanoui and Siham Yousfi(参考訳) 大量のテキストデータから機会や脅威を検出することは、ほとんどの人にとって難しい課題だ。 従来、企業は構造化されたデータに頼ってリスクを検出し、予測し、構造化されていないテキストデータから抽出できる膨大な量の情報を失う。 幸いなことに、人工知能はデータの抽出と処理技術を革新し、自然言語データの理解と利用を可能にし、それを機械が処理し、洞察を抽出できる構造に変えることで、この問題を解決した。 不確実性とは、将来何が起こるかわからない状態を指す。 本稿では,自然言語処理と機械学習を用いて不確実性をモデル化し,大量のテキストデータを用いて各不確実性クラスタのリスクレベルを評価することを目的とする。

Detecting opportunities and threats from massive text data is a challenging task for most. Traditionally, companies would rely mainly on structured data to detect and predict risks, losing a huge amount of information that could be extracted from unstructured text data. Fortunately, artificial intelligence came to remedy this issue by innovating in data extraction and processing techniques, allowing us to understand and make use of Natural Language data and turning it into structures that a machine can process and extract insight from. Uncertainty refers to a state of not knowing what will happen in the future. This paper aims to leverage natural language processing and machine learning techniques to model uncertainties and evaluate the risk level in each uncertainty cluster using massive text data.
翻訳日:2022-11-24 13:45:06 公開日:2022-11-22
# 思考の実証プログラム:数値推論タスクにおける推論から計算を遠ざける

Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks ( http://arxiv.org/abs/2211.12588v1 )

ライセンス: Link先を確認
Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen(参考訳) 近年,複雑な数値推論タスクを解くために,ステップバイステップ推論を行う言語モデルが大幅に進歩している。 CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。 CoTは言語モデルを使用して、多段階の ‘Thought’ プロセスで推論と計算の両方を実行する。 推論から計算を遠ざけるために,言語モデル(主にコーデックス)を用いて推論過程をプログラムとして表現する'PoT'(Program of Thoughts)を提案する。 計算は外部コンピュータに委譲され、生成されたプログラムを実行して回答を導出する。 我々は,5つの算術語問題データセット(GSM,AQuA,SVAMP,TabMWP,MultiArith)と3つの財務QAデータセット(FinQA,ConvFinQA,TATQA)を用いて,小ショットとゼロショットの両方でPoTを評価する。 数ショットとゼロショットの両方の設定で、PoTは評価されたデータセット全体の平均12倍のパフォーマンス向上を示すことができる。 PoTと自己整合性デコーディングを組み合わせることで、すべての数学問題データセットでSoTA性能、財務データセットでほぼSoTA性能を達成することができる。 すべてのデータとコードはGithub\footnote{\url{https://github.com/wenhuchen/Program-of-Thoughts}}で公開されています。

Recently, there has been significant progress in teaching language models to perform step-by-step reasoning to solve complex numerical reasoning tasks. Chain-of-thoughts prompting (CoT) is by far the state-of-art method for these tasks. CoT uses language models to perform both reasoning and computation in the multi-step `thought' process. To disentangle computation from reasoning, we propose `Program of Thoughts' (PoT), which uses language models (mainly Codex) to express the reasoning process as a program. The computation is relegated to an external computer, which executes the generated programs to derive the answer. We evaluate PoT on five math word problem datasets (GSM, AQuA, SVAMP, TabMWP, MultiArith) and three financial-QA datasets (FinQA, ConvFinQA, TATQA) for both few-shot and zero-shot setups. Under both few-shot and zero-shot settings, PoT can show an average performance gain over CoT by around 12\% across all the evaluated datasets. By combining PoT with self-consistency decoding, we can achieve SoTA performance on all math problem datasets and near-SoTA performance on financial datasets. All of our data and code are released in Github\footnote{\url{https://github.com/wenhuchen/Program-of-Thoughts}}.
翻訳日:2022-11-24 13:44:53 公開日:2022-11-22
# 悪いモデルから得られる良いデータ : 閾値に基づく自動ラベルの基礎

Good Data from Bad Models : Foundations of Threshold-based Auto-labeling ( http://arxiv.org/abs/2211.12620v1 )

ライセンス: Link先を確認
Harit Vishwakarma, Heguang Lin, Frederic Sala, Ramya Korlakai Vinayak(参考訳) 大規模な高品質のラベル付きデータセットの作成は、教師付き機械学習ワークフローにおける大きなボトルネックである。 自動ラベルシステム(auto-labeling systems)は、データセット構築の手動ラベリングに依存しない、有望な方法である。 人間から得られた検証データを機械学習でラベル付けした上での信頼のしきい値を見つけるThreshold-based auto-labelingは、実際に広く使われている一般的なソリューションとして現れつつある。 長い棚の寿命と結果のデータセットの多様さを考えると、そのような自動ラベルシステムによって得られたデータがいつ信頼できるかを理解することが重要である。 本研究では,しきい値に基づく自動ラベルシステムを分析し,機械ラベルデータの品質を保証するのに必要なヒューマンラベル検証データ量に対するサンプルの複雑さを導出する。 私たちの結果は2つの洞察を与えます。 まず、ラベルのないデータの合理的なチャンクは、一見悪いモデルによって自動的に正確にラベル付けされる。 第二に、しきい値ベースの自動ラベルシステムの隠れた欠点は、データの使用を禁止している可能性がある。 これらの洞察を組み合わせることで、このようなシステムを使うことの約束と落とし穴が説明できる。 理論的な保証をシミュレーションで検証し,実データセットに対するしきい値に基づく自動ラベルの有効性について検討した。

Creating large-scale high-quality labeled datasets is a major bottleneck in supervised machine learning workflows. Auto-labeling systems are a promising way to reduce reliance on manual labeling for dataset construction. Threshold-based auto-labeling, where validation data obtained from humans is used to find a threshold for confidence above which the data is machine-labeled, is emerging as a popular solution used widely in practice. Given the long shelf-life and diverse usage of the resulting datasets, understanding when the data obtained by such auto-labeling systems can be relied on is crucial. In this work, we analyze threshold-based auto-labeling systems and derive sample complexity bounds on the amount of human-labeled validation data required for guaranteeing the quality of machine-labeled data. Our results provide two insights. First, reasonable chunks of the unlabeled data can be automatically and accurately labeled by seemingly bad models. Second, a hidden downside of threshold-based auto-labeling systems is potentially prohibitive validation data usage. Together, these insights describe the promise and pitfalls of using such systems. We validate our theoretical guarantees with simulations and study the efficacy of threshold-based auto-labeling on real datasets.
翻訳日:2022-11-24 13:37:57 公開日:2022-11-22
# 検索型マルチモーダル言語モデリング

Retrieval-Augmented Multimodal Language Modeling ( http://arxiv.org/abs/2211.12561v1 )

ライセンス: Link先を確認
Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih(参考訳) dall-eやcm3といった最近のマルチモーダルモデルは、テキスト対画像および画像対テキスト生成において著しい進歩を遂げている。 しかし、これらのモデルはモデルパラメータにすべての学習知識(例えばエッフェル塔の出現)を格納し、より多くの知識を捉えるためにますます大きなモデルと訓練データを必要としている。 よりスケーラブルでモジュール化された方法で知識を統合するために、ベースマルチモーダルモデル(ジェネレータ)が外部メモリから取得した関連する知識(例えば、web上のマルチモーダルドキュメント)を参照することができる検索型マルチモーダルモデルを提案する。 具体的には、事前訓練されたCLIPモデルとCM3 Transformerアーキテクチャを用いたジェネレータを使用してレトリバーを実装し、LAIONデータセットを用いてこのモデルをトレーニングする。 我々の生成したモデルであるRetrieval-Augmented CM3 (RA-CM3) は、テキストと画像の混合を検索・生成できる最初のマルチモーダルモデルである。 RA-CM3はイメージ生成タスクとキャプション生成タスク(MS-COCOでは12 FIDと17 CIDErの改善)において,DALL-EやCM3などのベースラインマルチモーダルモデルよりも大幅に優れており,DALL-Eの30%)よりもはるかに少ない計算処理を必要とする。 さらに,RA-CM3は,知識集約型画像生成やマルチモーダル・インコンテキスト学習などの新しい能力を示すことを示す。

Recent multimodal models such as DALL-E and CM3 have achieved remarkable progress in text-to-image and image-to-text generation. However, these models store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the model parameters, requiring increasingly larger models and training data to capture more knowledge. To integrate knowledge in a more scalable and modular way, we propose a retrieval-augmented multimodal model, which enables a base multimodal model (generator) to refer to relevant knowledge fetched by a retriever from external memory (e.g., multimodal documents on the web). Specifically, we implement a retriever using the pretrained CLIP model and a generator using the CM3 Transformer architecture, and train this model using the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3), is the first multimodal model that can retrieve and generate mixtures of text and images. We show that RA-CM3 significantly outperforms baseline multimodal models such as DALL-E and CM3 on both image and caption generation tasks (12 FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel capabilities such as knowledge-intensive image generation and multimodal in-context learning.
翻訳日:2022-11-24 13:37:39 公開日:2022-11-22
# FLNeRF:ニューラルラジアンスフィールドにおける3次元顔のランドマーク推定

FLNeRF: 3D Facial Landmarks Estimation in Neural Radiance Fields ( http://arxiv.org/abs/2211.11202v2 )

ライセンス: Link先を確認
Hao Zhang, Tianyuan Dai, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,2次元画像や深度マップ,点雲などの中間表現を使わずに,ニューラルレイディアンス場(NeRF)上の3次元顔のランドマークを直接予測する最初の重要な研究について述べる。 我々の3D粗い顔ランドマークNeRF(FLNeRF)モデルは、顔全体のNeRFから、正確なランドマークのための個々の顔の特徴を効率よくサンプリングする。 利用可能なデータにおける表情の限られた数を軽減するため、FLNeRFを訓練するための大げさな表情(例えば、頬吹き、広い開口口、目まきなど)を含む大きな感情範囲をシミュレートするために、局所的および非線形のNeRFワープを顔の特徴に微調整する。 このような表現拡張により,データに含まれる20個の離散表現に制限されない3次元ランドマークを予測できる。 頑丈な3D NeRF顔のランドマークは多くの下流タスクに寄与する。 例えば、MoFaNeRFを修正して、NeRF上の顔のランドマークを用いて高品質な顔編集と交換を可能にし、より直接的な制御とより広範な複雑な表現を可能にします。 実験により、ランドマークを用いた改良されたモデルがより良い結果に匹敵することを示した。

This paper presents the first significant work on directly predicting 3D face landmarks on neural radiance fields (NeRFs), without using intermediate representations such as 2D images, depth maps, or point clouds. Our 3D coarse-to-fine Face Landmarks NeRF (FLNeRF) model efficiently samples from the NeRF on the whole face with individual facial features for accurate landmarks. To mitigate the limited number of facial expressions in the available data, local and non-linear NeRF warp is applied at facial features in fine scale to simulate large emotions range, including exaggerated facial expressions (e.g., cheek blowing, wide opening mouth, eye blinking), for training FLNeRF. With such expression augmentation, our model can predict 3D landmarks not limited to the 20 discrete expressions given in the data. Robust 3D NeRF facial landmarks contribute to many downstream tasks. As an example, we modify MoFaNeRF to enable high-quality face editing and swapping using face landmarks on NeRF, allowing more direct control and wider range of complex expressions. Experiments show that the improved model using landmarks achieves comparable to better results.
翻訳日:2022-11-24 13:30:03 公開日:2022-11-22
# 勾配を用いたモデルベース品質多様性を用いた効率的な探索

Efficient Exploration using Model-Based Quality-Diversity with Gradients ( http://arxiv.org/abs/2211.12610v1 )

ライセンス: Link先を確認
Bryan Lim, Manon Flageat, Antoine Cully(参考訳) 探索は強化学習において重要な課題であり、特に長期ホリゾン、偽装、疎弱な環境においてである。 このような用途では、人口ベースのアプローチが有効であることが証明されている。 品質多様性のような手法は、新しい解決策を奨励し、行動の多様性を生み出すことによってこれに対処する。 しかし、これらの手法は無向サンプリング(突然変異)またはパラメータ空間における近似勾配(進化戦略)によって駆動されるため、非常にサンプル効率が低下する。 本稿では,モデルに基づく品質多様性アプローチを提案する。 既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。 本手法では,qdアルゴリズムの有効性をデータジェネレータとして活用し,集団のすべてのメンバを同時に最適化し,パフォーマンスと多様性を効率的に維持する。 提案手法は,提案手法の多種多様な探索能力を維持しつつ,そのサンプル効率と解の質を著しく向上させることを実証する。

Exploration is a key challenge in Reinforcement Learning, especially in long-horizon, deceptive and sparse-reward environments. For such applications, population-based approaches have proven effective. Methods such as Quality-Diversity deals with this by encouraging novel solutions and producing a diversity of behaviours. However, these methods are driven by either undirected sampling (i.e. mutations) or use approximated gradients (i.e. Evolution Strategies) in the parameter space, which makes them highly sample-inefficient. In this paper, we propose a model-based Quality-Diversity approach. It extends existing QD methods to use gradients for efficient exploitation and leverage perturbations in imagination for efficient exploration. Our approach optimizes all members of a population simultaneously to maintain both performance and diversity efficiently by leveraging the effectiveness of QD algorithms as good data generators to train deep models. We demonstrate that it maintains the divergent search capabilities of population-based approaches on tasks with deceptive rewards while significantly improving their sample efficiency and quality of solutions.
翻訳日:2022-11-24 13:26:54 公開日:2022-11-22
# HALSIE -- 画像とイベントの同時発散によるセグメンテーション学習へのハイブリッドアプローチ

HALSIE -- Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities ( http://arxiv.org/abs/2211.10754v2 )

ライセンス: Link先を確認
Shristi Das Biswas, Adarsh Kosta, Chamika Liyanagedera, Marco Apolinario, Kaushik Roy(参考訳) 標準フレームベースのアルゴリズムは、従来のカメラで一般的であるダイナミックレンジと動きのぼやきが制限されたため、自律ナビゲーションのようなリアルタイムなアプリケーションで正確なセグメンテーションマップを取得することができない。 イベントカメラは、時間分解能が高く、ダイナミックレンジが高く、動きのぼけのないイベントストリームを生成するために、ピクセル単位の強度の変化を非同期に検出することで、これらの制限に対処する。 しかし、イベントカメラ出力は、動作中のピクセルでのみ情報をキャプチャするため、信頼できるセグメンテーションマップを生成するために直接使用することはできない。 空間的に密集したフレームと時間的に密集したイベントを融合させることで、微粒な予測を伴うセマンティックマップを生成できることを仮定する。 そこで本稿では,画像とイベントのモダリティを同時に活用し,セグメンテーション学習のためのハイブリッドアプローチであるhalsieを提案する。 モダリティを横断する効率的な学習を可能にするため,提案するハイブリッドフレームワークは,スパイクニューラルネットワーク(snn)ブランチと標準ニューラルネットワーク(ann)ブランチの2つの入力ブランチからなり,対応するニューラルネットワークを活用しながらイベントとフレームデータをそれぞれ処理する。 当社のハイブリッドネットワークは、DDD17とMVSECデータセットの最先端セマンティックセマンティックセマンティクスベンチマークより優れており、最大33.23$\times$ネットワークパラメータの削減によるDSEC-Semanticデータセットで同等のパフォーマンスを示している。 さらに,提案手法は既存のSOTA手法と比較して最大18.92$\times$推論コストの改善を示し,資源制約のあるエッジアプリケーションに適している。

Standard frame-based algorithms fail to retrieve accurate segmentation maps in challenging real-time applications like autonomous navigation, owing to the limited dynamic range and motion blur prevalent in traditional cameras. Event cameras address these limitations by asynchronously detecting changes in per-pixel intensity to generate event streams with high temporal resolution, high dynamic range, and no motion blur. However, event camera outputs cannot be directly used to generate reliable segmentation maps as they only capture information at the pixels in motion. To augment the missing contextual information, we postulate that fusing spatially dense frames with temporally dense events can generate semantic maps with fine-grained predictions. To this end, we propose HALSIE, a hybrid approach to learning segmentation by simultaneously leveraging image and event modalities. To enable efficient learning across modalities, our proposed hybrid framework comprises two input branches, a Spiking Neural Network (SNN) branch and a standard Artificial Neural Network (ANN) branch to process event and frame data respectively, while exploiting their corresponding neural dynamics. Our hybrid network outperforms the state-of-the-art semantic segmentation benchmarks on DDD17 and MVSEC datasets and shows comparable performance on the DSEC-Semantic dataset with upto 33.23$\times$ reduction in network parameters. Further, our method shows upto 18.92$\times$ improvement in inference cost compared to existing SOTA approaches, making it suitable for resource-constrained edge applications.
翻訳日:2022-11-24 13:21:06 公開日:2022-11-22
# 単眼視覚を用いた3次元モデル注入による複数物体同時検出とポーズ推定

Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision ( http://arxiv.org/abs/2211.11188v2 )

ライセンス: Link先を確認
Congliang Li, Shijie Sun, Xiangyu Song, Huansheng Song, Naveed Akhtar and Ajmal Saeed Mian(参考訳) 複数の物体検出とポーズ推定は重要なコンピュータビジョンタスクである。 後者は、ロボティクスや自動運転といったアプリケーションにおける下流の問題として、前者に関連している。 しかし、両方のタスクの複雑さが高いため、既存のメソッドは一般にそれらを独立して扱う。 本稿では,単眼視と3次元モデルを用いた同時ニューラルモデリングを提案する。 我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、効率的な下流ポーズ推定のためのアンカーフリー検出の利点を提供する複合損失を持つエンドツーエンドのトレーニング可能なマルチタスクネットワークである。 学習目的のトレーニングデータのアノテーションを可能にするために,双空間オブジェクトラベリング法を開発し,解析的および経験的にその正確性を示す。 ラベル付け手法を用いて、KITTI-6DoFデータセットに$\sim7.5$Kのアノテートフレームを提供する。 KITTI-6DoFとLineModデータセットの大規模な実験は、既存のポーズ推定法よりもSMOPE-Netで一貫したパフォーマンス向上を示している。 提案するsmope-net, kitti-6dof dataset, labelimg3d labeling toolへのリンクはこちら。

Multiple object detection and pose estimation are vital computer vision tasks. The latter relates to the former as a downstream problem in applications such as robotics and autonomous driving. However, due to the high complexity of both tasks, existing methods generally treat them independently, which is sub-optimal. We propose simultaneous neural modeling of both using monocular vision and 3D model infusion. Our Simultaneous Multiple Object detection and Pose Estimation network (SMOPE-Net) is an end-to-end trainable multitasking network with a composite loss that also provides the advantages of anchor-free detections for efficient downstream pose estimation. To enable the annotation of training data for our learning objective, we develop a Twin-Space object labeling method and demonstrate its correctness analytically and empirically. Using the labeling method, we provide the KITTI-6DoF dataset with $\sim7.5$K annotated frames. Extensive experiments on KITTI-6DoF and the popular LineMod datasets show a consistent performance gain with SMOPE-Net over existing pose estimation methods. Here are links to our proposed SMOPE-Net, KITTI-6DoF dataset, and LabelImg3D labeling tool.
翻訳日:2022-11-24 13:20:09 公開日:2022-11-22
# 蓄積軌道誤差の最小化とデータセット蒸留の改善

Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation ( http://arxiv.org/abs/2211.11004v2 )

ライセンス: Link先を確認
Jiawei Du, Yidi Jiang, Vincent Y. F. Tan, Joey Tianyi Zhou, Haizhou Li(参考訳) モデルベースのディープラーニングは、大規模な実世界データの提供によって、驚くべき成功を収めています。 しかし、そのような大量のデータを処理するには、計算、ストレージ、トレーニング、優れたニューラルネットワークアーキテクチャの探索といった面でかなりのコストがかかる。 そのため、最近データセット蒸留が注目されている。 このパラダイムは、大規模な実世界のデータセットから小さな、コンパクトな合成データセットに情報を蒸留することで、後者の処理は前者と同様のパフォーマンスを得る。 最先端の手法は主に、実データと合成データのトレーニング中に得られた勾配をマッチングすることで、合成データセットの学習に依存する。 しかし, これらの勾配整合法は, 蒸留とその後の評価の相違による累積軌道誤差に悩まされる。 この累積軌道誤差の悪影響を軽減するために,最適化アルゴリズムが平坦な軌道を求めることを奨励する新しい手法を提案する。 合成データでトレーニングされた重みは、平坦軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。 提案手法は,高解像度画像を用いたImageNetデータセットのサブセットにおいて,勾配マッチング法の性能を最大4.7%向上させる。 また,異なる解像度のデータセットを用いて本手法の有効性と一般化性を検証し,ニューラルアーキテクチャ探索への適用性を示す。

Model-based deep learning has achieved astounding successes due in part to the availability of large-scale realworld data. However, processing such massive amounts of data comes at a considerable cost in terms of computations, storage, training and the search for good neural architectures. Dataset distillation has thus recently come to the fore. This paradigm involves distilling information from large real-world datasets into tiny and compact synthetic datasets such that processing the latter yields similar performances as the former. State-of-the-art methods primarily rely on learning the synthetic dataset by matching the gradients obtained during training between the real and synthetic data. However, these gradient-matching methods suffer from the accumulated trajectory error caused by the discrepancy between the distillation and subsequent evaluation. To alleviate the adverse impact of this accumulated trajectory error, we propose a novel approach that encourages the optimization algorithm to seek a flat trajectory. We show that the weights trained on synthetic data are robust against the accumulated errors perturbations with the regularization towards the flat trajectory. Our method, called Flat Trajectory Distillation (FTD), is shown to boost the performance of gradient-matching methods by up to 4.7% on a subset of images of the ImageNet dataset with higher resolution images. We also validate the effectiveness and generalizability of our method with datasets of different resolutions and demonstrate its applicability to neural architecture search.
翻訳日:2022-11-24 13:12:14 公開日:2022-11-22
# 深部異方性拡散による奥行き超解像

Guided Depth Super-Resolution by Deep Anisotropic Diffusion ( http://arxiv.org/abs/2211.11592v2 )

ライセンス: Link先を確認
Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler(参考訳) RGB画像からのガイダンスを用いた深度画像の超解像化は、ロボット工学、医用画像、リモートセンシングなど、いくつかの分野に関わる問題である。 ディープラーニングの手法はこの問題で良い結果を得たが、最近の研究は、モダンなメソッドとより正式なフレームワークを組み合わせることの価値を強調した。 本研究では, 誘導異方性拡散と深部畳み込みネットワークを組み合わせた新しい手法を提案し, 誘導深度超解像技術の現状を推し進める。 拡散のエッジ転送/エンハンシング特性は、現代のネットワークの文脈推論能力によって強化され、厳格な調整ステップにより、ソースイメージへの完全準拠が保証される。 誘導深度超解像のための3つの一般的なベンチマークで前例のない結果を得た。 他の方法と比較してパフォーマンスの向上は、x32スケーリングなど、より大きなスケールで最大である。 提案手法のコードは,結果の再現性を促進するために利用可能である。

Performing super-resolution of a depth image using the guidance from an RGB image is a problem that concerns several fields, such as robotics, medical imaging, and remote sensing. While deep learning methods have achieved good results in this problem, recent work highlighted the value of combining modern methods with more formal frameworks. In this work, we propose a novel approach which combines guided anisotropic diffusion with a deep convolutional network and advances the state of the art for guided depth super-resolution. The edge transferring/enhancing properties of the diffusion are boosted by the contextual reasoning capabilities of modern networks, and a strict adjustment step guarantees perfect adherence to the source image. We achieve unprecedented results in three commonly used benchmarks for guided depth super-resolution. The performance gain compared to other methods is the largest at larger scales, such as x32 scaling. Code for the proposed method will be made available to promote reproducibility of our results.
翻訳日:2022-11-24 13:11:56 公開日:2022-11-22
# リアルタイムニューラル音声符号化のための不連続特徴学習

Disentangled Feature Learning for Real-Time Neural Speech Coding ( http://arxiv.org/abs/2211.11960v1 )

ライセンス: Link先を確認
Xue Jiang, Xiulian Peng, Yuan Zhang, Yan Lu(参考訳) 最近、エンドツーエンドのニューラルオーディオ/音声符号化は、従来の信号分析ベースのオーディオコーデックよりも優れた可能性を示している。 これは主に、視覚的特徴を学習し、ベクトル量子化し、コード化するVQ-VAEパラダイムに従うことで達成される。 本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。 特に、よりグローバルライクな話者のアイデンティティとローカルコンテンツ機能は、音声を表現するために絡み合いで学習される。 このようなコンパクトな特徴分解は、異なる特徴間のビット割り当てを利用してより良い符号化効率を達成するだけでなく、リアルタイム通信における音声変換のような埋め込み空間におけるオーディオ編集の柔軟性も提供する。 主観的・客観的ないずれの結果もその符号化効率を示し,学習された不等角化特徴は,パラメータや低レイテンシの現代的自己教師あり音声表現学習モデルと,あらゆる音声変換において同等の性能を示しており,ニューラルコーディングフレームワークの可能性を示している。

Recently end-to-end neural audio/speech coding has shown its great potential to outperform traditional signal analysis based audio codecs. This is mostly achieved by following the VQ-VAE paradigm where blind features are learned, vector-quantized and coded. In this paper, instead of blind end-to-end learning, we propose to learn disentangled features for real-time neural speech coding. Specifically, more global-like speaker identity and local content features are learned with disentanglement to represent speech. Such a compact feature decomposition not only achieves better coding efficiency by exploiting bit allocation among different features but also provides the flexibility to do audio editing in embedding space, such as voice conversion in real-time communications. Both subjective and objective results demonstrate its coding efficiency and we find that the learned disentangled features show comparable performance on any-to-any voice conversion with modern self-supervised speech representation learning models with far less parameters and low latency, showing the potential of our neural coding framework.
翻訳日:2022-11-23 19:40:49 公開日:2022-11-22
# 心房細動に対するカテーテルアブレーション治療後の予後予測

Predicting adverse outcomes following catheter ablation treatment for atrial fibrillation ( http://arxiv.org/abs/2211.11965v1 )

ライセンス: Link先を確認
Juan C. Quiroz, David Brieger, Louisa Jorm, Raymond W Sy, Benjumin Hsu, Blanca Gallego(参考訳) 目的:非弁膜性心房細動(af)に対するカテーテルアブレーション療法後の予後予測のための予後予測モデルの開発。 方法: オーストラリア, ニューサウスウェールズ州において, 病院の診療データ, 処方薬の請求書, 救急部でのプレゼンテーション, 死亡登録などの関連データセットを用いた。 AFのカテーテルアブレーションを受けた患者もコホートに含まれていた。 伝統的および深層生存モデルは、大きな出血、心不全、脳卒中、心停止、死の複合を予測するために訓練された。 結果: 総計3285例中, 177例 (5.3%) が複合性心不全, 脳卒中, 心停止, 死亡, 167例 (5.1%) がカテーテルアブレーション治療後に大出血を経験した。 複合結果を予測するモデルはリスク判別精度が高く, 評価時間帯に一致指数 > 0.79 を持つモデルが最適であった。 主要な出血イベントを予測するモデルではリスク識別性能が低かったが,concordance index < 0.66。 リスクを高く予測するモデルで最も影響の大きい特徴は、心不全やafの治療に病気患者で一般的に用いられる健康不良、高齢者、治療の指標となる共生性であった。 結論: 診断と治療歴は, 大出血のリスク予測に十分な情報を含んでいなかった。 複合結果を予測するためのモデルは、カテーテル・アブレーションを積極的に行ったハイリスク患者を臨床医が特定し、管理できる可能性を持っている。 臨床におけるこれらのモデルの有用性を検証するためには,今後の研究が必要である。

Objective: To develop prognostic survival models for predicting adverse outcomes after catheter ablation treatment for non-valvular atrial fibrillation (AF). Methods: We used a linked dataset including hospital administrative data, prescription medicine claims, emergency department presentations, and death registrations of patients in New South Wales, Australia. The cohort included patients who received catheter ablation for AF. Traditional and deep survival models were trained to predict major bleeding events and a composite of heart failure, stroke, cardiac arrest, and death. Results: Out of a total of 3285 patients in the cohort, 177 (5.3%) experienced the composite outcomeheart failure, stroke, cardiac arrest, deathand 167 (5.1%) experienced major bleeding events after catheter ablation treatment. Models predicting the composite outcome had high risk discrimination accuracy, with the best model having a concordance index > 0.79 at the evaluated time horizons. Models for predicting major bleeding events had poor risk discrimination performance, with all models having a concordance index < 0.66. The most impactful features for the models predicting higher risk were comorbidities indicative of poor health, older age, and therapies commonly used in sicker patients to treat heart failure and AF. Conclusions: Diagnosis and medication history did not contain sufficient information for precise risk prediction of experiencing major bleeding events. The models for predicting the composite outcome have the potential to enable clinicians to identify and manage high-risk patients following catheter ablation proactively. Future research is needed to validate the usefulness of these models in clinical practice.
翻訳日:2022-11-23 19:40:29 公開日:2022-11-22
# サブディフフュージョンモデリングのためのニューラル演算子(bino)を用いたベイズ逆変換:前方および逆問題

Bayesian Inversion with Neural Operator (BINO) for Modeling Subdiffusion: Forward and Inverse Problems ( http://arxiv.org/abs/2211.11981v1 )

ライセンス: Link先を確認
Xiong-bin Yan and Zhi-Qin John Xu and Zheng Ma(参考訳) 分数拡散方程式は複雑な系における異常拡散のモデル化に有効である。 しかし,従来の数値計算手法では,時間分母微分の畳み込み積分によるメモリ効果のため,高価な計算コストと記憶資源が要求される。 本稿では,従来の手法の難しさを克服するために,BINOを用いたベイズ変換を提案する。 我々は、分数拡散方程式の解演算子を学習するために、深層演算子ネットワークを用い、与えられた入力(分数次数、拡散係数、ソース項など)の前方問題を迅速かつ正確に解くことができる。 さらに, 深部演算子ネットワークを, サブ拡散処理による問題をモデル化し, 逆拡散問題の解法であるベイズ反転法と統合し, 時間コストを著しく低減する(過圧記憶資源に悩まされることなく)。 本研究で提案した演算子学習法は, 偏流方程式のフォワード問題とベイズ逆問題を効率的に解くことができることを示す数値実験が多数存在する。

Fractional diffusion equations have been an effective tool for modeling anomalous diffusion in complicated systems. However, traditional numerical methods require expensive computation cost and storage resources because of the memory effect brought by the convolution integral of time fractional derivative. We propose a Bayesian Inversion with Neural Operator (BINO) to overcome the difficulty in traditional methods as follows. We employ a deep operator network to learn the solution operators for the fractional diffusion equations, allowing us to swiftly and precisely solve a forward problem for given inputs (including fractional order, diffusion coefficient, source terms, etc.). In addition, we integrate the deep operator network with a Bayesian inversion method for modelling a problem by subdiffusion process and solving inverse subdiffusion problems, which reduces the time costs (without suffering from overwhelm storage resources) significantly. A large number of numerical experiments demonstrate that the operator learning method proposed in this work can efficiently solve the forward problems and Bayesian inverse problems of the subdiffusion equation.
翻訳日:2022-11-23 19:40:00 公開日:2022-11-22
# FastFlow: 高速都市風速予測のためのAI

FastFlow: AI for Fast Urban Wind Velocity Prediction ( http://arxiv.org/abs/2211.12035v1 )

ライセンス: Link先を確認
Shi Jer Low, Venugopalan, S.G. Raghavan, Harish Gopalan, Jian Cheng Wong, Justin Yeoh, Chin Chun Ooi(参考訳) ディープラーニングを含むデータ駆動アプローチは、多くのドメインにまたがるモデルの代理として大きな可能性を秘めています。 これらは持続可能性の様々な領域にまたがる。 データ駆動手法がまだあまり適用されていない興味深い方向は、都市計画と設計のための都市レイアウトの迅速な定量的評価である。 特に、都市デザインは、都市構築の制限や都市ヒートアイランド効果の考慮を含む、複数の目的の間の複雑なトレードオフを含む。 したがって、都市プランナーは、計算コストや時間を要する高忠実度数値シミュレーションを使わずに、仮想的なレイアウト(例えば歩行者レベルの風速)の都市特性を予測できる高速サーロゲートモデルを持つことが有益である。 この高速サロゲートは、生成モデルや他の勾配に基づくメソッドを含む、他の設計最適化フレームワークに統合される可能性がある。 本稿では,高忠実度数値シミュレーションによる都市配置のキャラクタリゼーションにおけるcnnの利用について述べる。 さらに,このモデルを,データ駆動型歩行者レベル風速予測における有用性の最初の実証に適用する。 本研究のデータセットは,実世界の高度に構築された都市からのランダム化サンプルに基づいて,多様な都市レイアウトの風速の高忠実な数値シミュレーションから得られた。 次に、トレーニングされたCNNから得られた予測結果を示し、これまで見つからなかった都市レイアウトに対する0.1m/s以下のテスト誤差を示す。 さらに, 歩行者の風速の迅速評価や, 歩行者の風速の迅速評価などの目的に, どのように役立つかを示す。 このデータセットは、将来の方法との定量的比較を促進するベースラインモデルであっても、データ駆動型都市aiの研究をさらに加速することが期待されます。

Data-driven approaches, including deep learning, have shown great promise as surrogate models across many domains. These extend to various areas in sustainability. An interesting direction for which data-driven methods have not been applied much yet is in the quick quantitative evaluation of urban layouts for planning and design. In particular, urban designs typically involve complex trade-offs between multiple objectives, including limits on urban build-up and/or consideration of urban heat island effect. Hence, it can be beneficial to urban planners to have a fast surrogate model to predict urban characteristics of a hypothetical layout, e.g. pedestrian-level wind velocity, without having to run computationally expensive and time-consuming high-fidelity numerical simulations. This fast surrogate can then be potentially integrated into other design optimization frameworks, including generative models or other gradient-based methods. Here we present the use of CNNs for urban layout characterization that is typically done via high-fidelity numerical simulation. We further apply this model towards a first demonstration of its utility for data-driven pedestrian-level wind velocity prediction. The data set in this work comprises results from high-fidelity numerical simulations of wind velocities for a diverse set of realistic urban layouts, based on randomized samples from a real-world, highly built-up urban city. We then provide prediction results obtained from the trained CNN, demonstrating test errors of under 0.1 m/s for previously unseen urban layouts. We further illustrate how this can be useful for purposes such as rapid evaluation of pedestrian wind velocity for a potential new layout. It is hoped that this data set will further accelerate research in data-driven urban AI, even as our baseline model facilitates quantitative comparison to future methods.
翻訳日:2022-11-23 19:39:42 公開日:2022-11-22
# 生成逆数ネットワークを用いた連成位相場問題の高速化

Accelerated Solutions of Coupled Phase-Field Problems using Generative Adversarial Networks ( http://arxiv.org/abs/2211.12084v1 )

ライセンス: Link先を確認
Vir Karan, A. Maruthi Indresh, Saswata Bhattacharya(参考訳) 多成分拡散、多相系における相変態、合金凝固などの多物理問題は、非線形偏微分方程式(PDE)の結合系の数値解を含む。 メッシュに基づく手法によるpdesの数値解は、これらの方程式の時空間的離散化を必要とする。 したがって、数値解はしばしば離散化パラメータに敏感であり、不正確な(格子ベースの近似から推測される)ことがある。 さらに、より高精度なメッシュを選択することで、計算コストが高くなる。 ニューラルネットワークベースのPDEソルバは、グリッド非依存で高速かつ正確である機械学習可能な構造を使用するため、従来の数値手法に代わる堅牢な代替手段として出現している。 しかし、ニューラルネットワークベースのソルバは大量のトレーニングデータを必要とするため、その汎用性とスケーラビリティに影響を及ぼす。 これらの懸念は、時間依存PDEの結合系ではより深刻になる。 これらの問題に対処するために,エンコーダ・デコーダをベースとした条件付き生成適応ネットワークとConvLSTM層を用いたニューラルネットワークベースの新しいフレームワークを開発し,Cahn-Hilliard方程式のシステムを解く。 これらの方程式は、スピノダル分解を受ける三元合金の三相相相相間隙内における組織変化を制御する。 訓練されたモデルがメッシュとスケール非依存であることを示し,効果的なニューラルオペレータとしての利用を保証した。

Multiphysics problems such as multicomponent diffusion, phase transformations in multiphase systems and alloy solidification involve numerical solution of a coupled system of nonlinear partial differential equations (PDEs). Numerical solutions of these PDEs using mesh-based methods require spatiotemporal discretization of these equations. Hence, the numerical solutions are often sensitive to discretization parameters and may have inaccuracies (resulting from grid-based approximations). Moreover, choice of finer mesh for higher accuracy make these methods computationally expensive. Neural network-based PDE solvers are emerging as robust alternatives to conventional numerical methods because these use machine learnable structures that are grid-independent, fast and accurate. However, neural network based solvers require large amount of training data, thus affecting their generalizabilty and scalability. These concerns become more acute for coupled systems of time-dependent PDEs. To address these issues, we develop a new neural network based framework that uses encoder-decoder based conditional Generative Adversarial Networks with ConvLSTM layers to solve a system of Cahn-Hilliard equations. These equations govern microstructural evolution of a ternary alloy undergoing spinodal decomposition when quenched inside a three-phase miscibility gap. We show that the trained models are mesh and scale-independent, thereby warranting application as effective neural operators.
翻訳日:2022-11-23 19:39:14 公開日:2022-11-22
# IIoTシナリオにおけるURLLCのための分散リソース割り当て:マルチArmed Banditアプローチ

Distributed Resource Allocation for URLLC in IIoT Scenarios: A Multi-Armed Bandit Approach ( http://arxiv.org/abs/2211.12201v1 )

ライセンス: Link先を確認
Francesco Pase, Marco Giordani, Giampaolo Cuozzo, Sara Cavallero, Joseph Eichinger, Roberto Verdone, Michele Zorzi(参考訳) 本稿では,将来の6G Industrial Internet of Things (IIoT)ネットワークにおいて,機械間超信頼性低レイテンシ通信(URLLC)の実現という課題に対処する。 無線アクセスネットワーク(ran)に関する限り、集中型事前設定されたリソース割り当ては、アップリンク送信前にユーザ機器(ues)にスケジューリング助成金を配布する必要がある。 そこで,本研究では,uesがスケジュールの付与や接続の事前設定を待たずに,自己的にアップリンク無線資源を選択する機械学習に基づく分散ユーザ中心のスキームについて検討する。 シミュレーションにより,高度に人口の多いネットワークやアグレッシブなトラフィックを考慮した場合であっても,IIoT環境におけるURLLCを念頭に置いてリソースを割り当てる上で,MAB(Multi-Armed Bandit)アプローチが望ましいソリューションであることを実証した。

This paper addresses the problem of enabling inter-machine Ultra-Reliable Low-Latency Communication (URLLC) in future 6G Industrial Internet of Things (IIoT) networks. As far as the Radio Access Network (RAN) is concerned, centralized pre-configured resource allocation requires scheduling grants to be disseminated to the User Equipments (UEs) before uplink transmissions, which is not efficient for URLLC, especially in case of flexible/unpredictable traffic. To alleviate this burden, we study a distributed, user-centric scheme based on machine learning in which UEs autonomously select their uplink radio resources without the need to wait for scheduling grants or preconfiguration of connections. Using simulation, we demonstrate that a Multi-Armed Bandit (MAB) approach represents a desirable solution to allocate resources with URLLC in mind in an IIoT environment, in case of both periodic and aperiodic traffic, even considering highly populated networks and aggressive traffic.
翻訳日:2022-11-23 19:38:54 公開日:2022-11-22
# AERO:スペクトル領域におけるオーディオ超解像

AERO: Audio Super Resolution in the Spectral Domain ( http://arxiv.org/abs/2211.12232v1 )

ライセンス: Link先を確認
Moshe Mandel, Or Tal, Yossi Adi(参考訳) スペクトル領域における音声および音楽信号を処理するオーディオ超解像モデルであるAEROを提案する。 AEROは、スキップ接続のようなU-Netを持つエンコーダデコーダアーキテクチャに基づいている。 時間と周波数の両方のドメイン損失関数を用いてモデルを最適化する。 具体的には,コンストラクション損失の組と知覚損失の組を,敵対的および特徴的識別的損失関数の形で検討する。 位相情報を処理するため、提案手法は2つの異なるチャネルを用いて複素値スペクトログラム上で動作する。 スーパーレゾリューションの低域と高域の結合を主に考慮した先行研究とは異なり,提案手法は全周波数域を直接予測する。 音声と音楽の両方を考慮して,多種多様なサンプルレートで高い性能を示す。 AEROは、Log-Spectral Distance、ViSQOL、および主観的MUSHRAテストを考慮して評価基準線を上回ります。 オーディオサンプルとコードはhttps://pages.cs.huji.ac.il/adiyoss-lab/aeroで入手できる。

We present AERO, a audio super-resolution model that processes speech and music signals in the spectral domain. AERO is based on an encoder-decoder architecture with U-Net like skip connections. We optimize the model using both time and frequency domain loss functions. Specifically, we consider a set of reconstruction losses together with perceptual ones in the form of adversarial and feature discriminator loss functions. To better handle phase information the proposed method operates over the complex-valued spectrogram using two separate channels. Unlike prior work which mainly considers low and high frequency concatenation for audio super-resolution, the proposed method directly predicts the full frequency range. We demonstrate high performance across a wide range of sample rates considering both speech and music. AERO outperforms the evaluated baselines considering Log-Spectral Distance, ViSQOL, and the subjective MUSHRA test. Audio samples and code are available at https://pages.cs.huji.ac.il/adiyoss-lab/aero
翻訳日:2022-11-23 19:38:35 公開日:2022-11-22
# 反復アルゴリズム学習のための再帰的リカレントニューラルネットワーク(R2N2)アーキテクチャ

A Recursively Recurrent Neural Network (R2N2) Architecture for Learning Iterative Algorithms ( http://arxiv.org/abs/2211.12386v1 )

ライセンス: Link先を確認
Danimir T. Doncevic, Alexander Mitsos, Yue Guo, Qianxiao Li, Felix Dietrich, Manuel Dahmen, Ioannis G. Kevrekidis(参考訳) 与えられたタスクに対する数値アルゴリズムのメタラーニングは、アルゴリズム構造と関連するハイパーパラメータのデータ駆動識別と適応からなる。 メタラーニング問題の複雑さを制限するために、有利なアルゴリズム構造に対するある種の帰納的バイアスを持つニューラルアーキテクチャを使用できる。 我々は,前回導入したrunge-kuttaニューラルネットワークを再帰的再帰的ニューラルネットワーク(r2n2)スーパー構造に一般化した。 既成のディープラーニングアプローチとは対照的に、情報生成のためのモジュールと、それに続くソリューションへの情報の組み立てのためのモジュールの分離が特徴である。 サブスペースの形での局所情報は、現在の外部イテレートから始まる繰り返し関数評価の下位、内部、イテレーションによって生成される。 次の外部イテレートへの更新は、これらの評価の線形結合として計算され、この空間の残余を低減し、ネットワークの出力を構成する。 様々な計算問題クラスの入出力データに対して,提案構造内の重みパラメータを正規にトレーニングすることで,線形方程式系ではクリロフソルバ,非線形方程式系ではニュートン・クリロフソルバ,常微分方程式ではルンゲ・クッタ積分器のような反復が得られることを示す。 モジュラリティのため、スーパー構造はテイラー級数展開に基づいて伝統的に反復アルゴリズムのより一般的なクラスを表現するのに必要な関数で容易に拡張できる。

Meta-learning of numerical algorithms for a given task consist of the data-driven identification and adaptation of an algorithmic structure and the associated hyperparameters. To limit the complexity of the meta-learning problem, neural architectures with a certain inductive bias towards favorable algorithmic structures can, and should, be used. We generalize our previously introduced Runge-Kutta neural network to a recursively recurrent neural network (R2N2) superstructure for the design of customized iterative algorithms. In contrast to off-the-shelf deep learning approaches, it features a distinct division into modules for generation of information and for the subsequent assembly of this information towards a solution. Local information in the form of a subspace is generated by subordinate, inner, iterations of recurrent function evaluations starting at the current outer iterate. The update to the next outer iterate is computed as a linear combination of these evaluations, reducing the residual in this space, and constitutes the output of the network. We demonstrate that regular training of the weight parameters inside the proposed superstructure on input/output data of various computational problem classes yields iterations similar to Krylov solvers for linear equation systems, Newton-Krylov solvers for nonlinear equation systems, and Runge-Kutta integrators for ordinary differential equations. Due to its modularity, the superstructure can be readily extended with functionalities needed to represent more general classes of iterative algorithms traditionally based on Taylor series expansions.
翻訳日:2022-11-23 19:38:22 公開日:2022-11-22
# 拡散確率モデルは現実的な天体物理場を生成することができるか?

Can denoising diffusion probabilistic models generate realistic astrophysical fields? ( http://arxiv.org/abs/2211.12444v1 )

ライセンス: Link先を確認
Nayantara Mudur, Douglas P. Finkbeiner(参考訳) スコアベースの生成モデルは、gan(generative adversarial network)の代替として出現し、複雑な画像分布からの学習とサンプリングに関わるタスクのフローを正規化する。 本研究では、宇宙論シミュレーションによる暗黒物質質量密度場と星間ダストの画像の2つの文脈で、これらのモデルが磁場を生成する能力について検討する。 本研究は,3つの異なる指標を用いて,実分野に対するサンプル宇宙分野の忠実度を調べ,対処すべき潜在的な問題を同定する。 ダスト画像のデノイングにおいて, ダストに訓練したモデルの概念実証を行った。 我々の知る限り、これは星間媒質へのこの種のモデルの最初の応用である。

Score-based generative models have emerged as alternatives to generative adversarial networks (GANs) and normalizing flows for tasks involving learning and sampling from complex image distributions. In this work we investigate the ability of these models to generate fields in two astrophysical contexts: dark matter mass density fields from cosmological simulations and images of interstellar dust. We examine the fidelity of the sampled cosmological fields relative to the true fields using three different metrics, and identify potential issues to address. We demonstrate a proof-of-concept application of the model trained on dust in denoising dust images. To our knowledge, this is the first application of this class of models to the interstellar medium.
翻訳日:2022-11-23 19:37:58 公開日:2022-11-22
# videomap: 潜在空間での動画編集

VideoMap: Video Editing in Latent Space ( http://arxiv.org/abs/2211.12492v1 )

ライセンス: Link先を確認
David Chuan-En Lin, Fabian Caba Heilbron, Joon-Young Lee, Oliver Wang, Nikolas Martelaro(参考訳) ビデオはメディアの主流になりつつある。 しかし、ビデオ編集のインターフェースは過去20年間、ほとんど変わっていない。 このようなインターフェースは通常、グリッドのようなアセット管理パネルと線形編集タイムラインで構成される。 大量のビデオクリップを扱う場合、それらすべてをソートして、その中のパターンを特定するのは難しい場合がある(例えば、スムーズな移行とストーリーテリングの機会)。 本研究では,映像を2次元潜在空間にマッピングし,概念実証インタフェースを構築することで,映像編集の新しいパラダイムを想像する。

Video has become a dominant form of media. However, video editing interfaces have remained largely unchanged over the past two decades. Such interfaces typically consist of a grid-like asset management panel and a linear editing timeline. When working with a large number of video clips, it can be difficult to sort through them all and identify patterns within (e.g. opportunities for smooth transitions and storytelling). In this work, we imagine a new paradigm for video editing by mapping videos into a 2D latent space and building a proof-of-concept interface.
翻訳日:2022-11-23 19:32:25 公開日:2022-11-22
# Videogenic:Photogenic Momentsによるビデオハイライト

Videogenic: Video Highlights via Photogenic Moments ( http://arxiv.org/abs/2211.12493v1 )

ライセンス: Link先を確認
David Chuan-En Lin, Fabian Caba Heilbron, Joon-Young Lee, Oliver Wang, Nikolas Martelaro(参考訳) 本稿では,映像からハイライトモーメントを抽出する課題について検討する。 このタスクを実行するには、システムは任意のビデオドメインのハイライトを構成するものを理解し、同時に異なるドメインにまたがるスケーリングを可能にする必要がある。 私たちの重要な洞察は、写真家が撮影した写真は、活動の最も顕著な、あるいはフォトジェネニックな瞬間を捉えている傾向があることです。 この知見に基づいて,広範囲のドメインに対して,ドメイン固有のハイライトビデオを作成することができるVideogenicを提案する。 人間の評価研究(N=50)において、CLIPに基づく検索(画像の意味的知識を持つニューラルネットワーク)と組み合わせた高品質な写真収集が、ビデオハイライトを見つけるための優れた先行候補となることを示す。 in-subjects expert study (n=12) では,ビデオエディタがより軽量な作業負荷,タスク完了時間の短縮,ユーザビリティ向上によるハイライトビデオ作成を支援する上で,videogenicの有用性を実証する。

This paper investigates the challenge of extracting highlight moments from videos. To perform this task, a system needs to understand what constitutes a highlight for arbitrary video domains while at the same time being able to scale across different domains. Our key insight is that photographs taken by photographers tend to capture the most remarkable or photogenic moments of an activity. Drawing on this insight, we present Videogenic, a system capable of creating domain-specific highlight videos for a wide range of domains. In a human evaluation study (N=50), we show that a high-quality photograph collection combined with CLIP-based retrieval (which uses a neural network with semantic knowledge of images) can serve as an excellent prior for finding video highlights. In a within-subjects expert study (N=12), we demonstrate the usefulness of Videogenic in helping video editors create highlight videos with lighter workload, shorter task completion time, and better usability.
翻訳日:2022-11-23 19:32:17 公開日:2022-11-22
# マルチウェイ比較の上位選択に基づくランキング推論

Ranking Inferences Based on the Top Choice of Multiway Comparisons ( http://arxiv.org/abs/2211.11957v1 )

ライセンス: Link先を確認
Jianqing Fan, Zhipeng Lou, Weichen Wang, Mengxin Yu(参考訳) 本稿では,各治験でランダムに選択されたアイテムのうち,上位選択の観測データに基づいて,n$項目のランキング推定を行う。 これは、最上位の選択のみを観察した$m$-wayランキングのためのplatckett-luceモデルの有用な修正であり、$m=2$に対応する有名なbradley-terry-luceモデルの拡張である。 確率$p$と比較するために任意の$m$識別項目を選択し、選択された$m$項目を多項結果と比較する一様サンプリングスキームにおいて、最小サンプリング複雑さで$\ell_2$-normと$\ell_\infty$-normの両方を用いて、基礎となる$n$選好スコアの収束率を確立する。 さらに、最大極大推定器の漸近正規性を確立し、基礎となるスコアに対する信頼区間を構築することができる。 さらに,有効なガウス乗算ブートストラップを用いて分布を推定する洗練された最大対数差分統計を用いて,項目をランク付けするための新しい推論フレームワークを提案する。 推定された分布は、各項目の選好スコアとランクの違いに対する同時信頼区間を構成するために使用される。 また、これらの項目のランクに関する様々な推論問題にも対処できます。 広範なシミュレーション研究は、我々の理論的な結果をさらに裏付ける。 実データアプリケーションは,提案手法の有用性を説得力良く示す。

This paper considers ranking inference of $n$ items based on the observed data on the top choice among $M$ randomly selected items at each trial. This is a useful modification of the Plackett-Luce model for $M$-way ranking with only the top choice observed and is an extension of the celebrated Bradley-Terry-Luce model that corresponds to $M=2$. Under a uniform sampling scheme in which any $M$ distinguished items are selected for comparisons with probability $p$ and the selected $M$ items are compared $L$ times with multinomial outcomes, we establish the statistical rates of convergence for underlying $n$ preference scores using both $\ell_2$-norm and $\ell_\infty$-norm, with the minimum sampling complexity. In addition, we establish the asymptotic normality of the maximum likelihood estimator that allows us to construct confidence intervals for the underlying scores. Furthermore, we propose a novel inference framework for ranking items through a sophisticated maximum pairwise difference statistic whose distribution is estimated via a valid Gaussian multiplier bootstrap. The estimated distribution is then used to construct simultaneous confidence intervals for the differences in the preference scores and the ranks of individual items. They also enable us to address various inference questions on the ranks of these items. Extensive simulation studies lend further support to our theoretical results. A real data application illustrates the usefulness of the proposed methods convincingly.
翻訳日:2022-11-23 19:31:59 公開日:2022-11-22
# モジュール音源分離のための潜時反復リファインメント

Latent Iterative Refinement for Modular Source Separation ( http://arxiv.org/abs/2211.11917v1 )

ライセンス: Link先を確認
Dimitrios Bralios, Efthymios Tzinis, Gordon Wichern, Paris Smaragdis, Jonathan Le Roux(参考訳) 従来のソース分離アプローチでは、トレーニングセット全体の経験的リスクを最小限にすることで、すべてのデータをエンドツーエンドでトレーニングする。 推論側では、モデルをトレーニングした後、静的な計算グラフを取得し、特定された混合信号上でフルモデルを実行し、推定されたソース信号を取得する。 さらに、これらのモデルの多くは、連続的に適用されるいくつかの基本的な処理ブロックで構成されている。 我々は、モデルのトレーニングと推論手順を潜在信号表現の反復的マッピングとして再構成することで、トレーニングと推論の段階でのリソース効率を著しく向上できると主張する。 まず、出力に1回以上同じ処理ブロックを適用することで、入力信号を洗練し、パラメータ効率を向上させる。 トレーニング中は、メモリ要求の削減を可能にするブロックワイズ手順に従うことができる。 したがって、エンドツーエンドのトレーニングに比べて計算量が大幅に少ないため、非常に複雑なネットワーク構造をトレーニングすることができる。 推論中は、ゲーティングモジュールを用いて、入力信号が必要とする特定のブロックの処理ブロックと繰り返し数を動的に調整できる。

Traditional source separation approaches train deep neural network models end-to-end with all the data available at once by minimizing the empirical risk on the whole training set. On the inference side, after training the model, the user fetches a static computation graph and runs the full model on some specified observed mixture signal to get the estimated source signals. Additionally, many of those models consist of several basic processing blocks which are applied sequentially. We argue that we can significantly increase resource efficiency during both training and inference stages by reformulating a model's training and inference procedures as iterative mappings of latent signal representations. First, we can apply the same processing block more than once on its output to refine the input signal and consequently improve parameter efficiency. During training, we can follow a block-wise procedure which enables a reduction on memory requirements. Thus, one can train a very complicated network structure using significantly less computation compared to end-to-end training. During inference, we can dynamically adjust how many processing blocks and iterations of a specific block an input signal needs using a gating module.
翻訳日:2022-11-23 19:30:20 公開日:2022-11-22
# COVID-Net Assistant: 新型コロナウイルスの症状予測と推奨のためのディープラーニング駆動バーチャルアシスタント

COVID-Net Assistant: A Deep Learning-Driven Virtual Assistant for COVID-19 Symptom Prediction and Recommendation ( http://arxiv.org/abs/2211.11944v1 )

ライセンス: Link先を確認
Pengyuan Shi, Yuetong Wang, Saad Abbasi, Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中の医療システムに大きな負担をかけている中、PCR検査などの医療資源を効率的に活用するための安価なプレスクリーニングや推奨方法の発見への関心が高まっている。 そこで本研究では,深層畳み込みニューラルネットワークを用いて,ユーザの鳴き声を解析し,症状予測と推奨を行う効率的な仮想アシスタントであるcovid-19-net assistantの設計を紹介する。 我々は、Covid19-Coughベンチマークデータセット上で、マシン駆動設計探索(COVID-Net Assistantニューラルネットワークと呼ばれる)を通じて生成される、高度にカスタマイズされた軽量な畳み込みニューラルネットワークアーキテクチャを探索する。 Covid19-Coughデータセットは、COVID-19陽性コホートから672個のコークス記録と、新型コロナウイルス陰性コホートから642個のコークス記録を含む。 陽性と診断された682例中382例がPCR検査で確認された。 我々の実験結果は有望であり、covid-19-netアシスタントニューラルネットは確固とした予測性能を示し、aucスコアが0.93点を超え、最大スコアが0.95点を超えた。 COVID-Net Assistantモデルは、COVID-Netオープンイニシアチブを通じてオープンソースで利用可能であり、プロダクション対応のソリューションではないものの、臨床科学者や機械学習研究者、市民科学者が革新的なソリューションを開発するための優れたリソースとして機能することを願っています。

As the COVID-19 pandemic continues to put a significant burden on healthcare systems worldwide, there has been growing interest in finding inexpensive symptom pre-screening and recommendation methods to assist in efficiently using available medical resources such as PCR tests. In this study, we introduce the design of COVID-Net Assistant, an efficient virtual assistant designed to provide symptom prediction and recommendations for COVID-19 by analyzing users' cough recordings through deep convolutional neural networks. We explore a variety of highly customized, lightweight convolutional neural network architectures generated via machine-driven design exploration (which we refer to as COVID-Net Assistant neural networks) on the Covid19-Cough benchmark dataset. The Covid19-Cough dataset comprises 682 cough recordings from a COVID-19 positive cohort and 642 from a COVID-19 negative cohort. Among the 682 cough recordings labeled positive, 382 recordings were verified by PCR test. Our experimental results show promising, with the COVID-Net Assistant neural networks demonstrating robust predictive performance, achieving AUC scores of over 0.93, with the best score over 0.95 while being fast and efficient in inference. The COVID-Net Assistant models are made available in an open source manner through the COVID-Net open initiative and, while not a production-ready solution, we hope their availability acts as a good resource for clinical scientists, machine learning researchers, as well as citizen scientists to develop innovative solutions.
翻訳日:2022-11-23 19:30:04 公開日:2022-11-22
# PhAST:加速触媒設計のための物理認識,スケーラブル,タスク固有GNN

PhAST: Physics-Aware, Scalable, and Task-specific GNNs for Accelerated Catalyst Design ( http://arxiv.org/abs/2211.12020v1 )

ライセンス: Link先を確認
Alexandre Duval, Victor Schmidt, Santiago Miret, Yoshua Bengio, Alex Hern\'andez-Garc\'ia, David Rolnick(参考訳) 気候変動の緩和には、低炭素エネルギーへの急速な移行が必要である。 触媒材料は、再生可能エネルギー貯蔵や電気燃料合成など、この遷移の鍵となる多くの産業プロセスに関わる電気化学反応において重要な役割を果たす。 このようなプロセスに費やされるエネルギーを減らすために、電気化学反応を駆動するより効率的な触媒を迅速に発見する必要がある。 機械学習(ML)は、大量のデータから材料の特性を効率的にモデル化し、電気触媒設計を加速する可能性を持っている。 この目的のためにopen catalyst project oc20データセットが構築された。 しかし、OC20でトレーニングされた既存のMLモデルの多くは、実用アプリケーションに十分なスケーラビリティや正確性を持っていない。 本稿では,計算効率と精度を両立させる多くのアーキテクチャに適用可能なタスク固有の技術革新を提案する。 特に,(1)グラフ生成ステップ,(2)原子表現,(3)エネルギー予測ヘッドの改良を提案する。 これらのコントリビューションを記述し、いくつかのアーキテクチャ上で評価し、精度を犠牲にすることなく最大5$\times$推論時間を短縮する。

Mitigating the climate crisis requires a rapid transition towards lower carbon energy. Catalyst materials play a crucial role in the electrochemical reactions involved in a great number of industrial processes key to this transition, such as renewable energy storage and electrofuel synthesis. To reduce the amount of energy spent on such processes, we must quickly discover more efficient catalysts to drive the electrochemical reactions. Machine learning (ML) holds the potential to efficiently model the properties of materials from large amounts of data, and thus to accelerate electrocatalyst design. The Open Catalyst Project OC20 data set was constructed to that end. However, most existing ML models trained on OC20 are still neither scalable nor accurate enough for practical applications. Here, we propose several task-specific innovations, applicable to most architectures, which increase both computational efficiency and accuracy. In particular, we propose improvements in (1) the graph creation step, (2) atom representations and (3) the energy prediction head. We describe these contributions and evaluate them on several architectures, showing up to 5$\times$ reduction in inference time without sacrificing accuracy.
翻訳日:2022-11-23 19:24:03 公開日:2022-11-22
# センサデータのノイズに対する物理インフォームニューラルネットワークのロバスト性

Robustness of Physics-Informed Neural Networks to Noise in Sensor Data ( http://arxiv.org/abs/2211.12042v1 )

ライセンス: Link先を確認
Jian Cheng Wong, Pao-Hsiung Chiu, Chin Chun Ooi, My Ha Da(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理に基づくドメイン知識を多くの重要な現実世界システムのためのニューラルネットワークモデルに組み込む効果的な方法であることが示されている。 データが少ない場合でも、データに基づいてシステム情報を推測する手段として特に有効である。 しかし、現在の作業のほとんどは、高品質なデータの提供を前提としている。 本研究では,物理に変形したニューラルネットワークのロバスト性について,データ中の雑音の大きさまで予備的な検討を行う。 興味深いことに、ニューラルネットワークに物理学を組み込むことで、信号対雑音比が最大1.5%の仮説的低品質センサから得られるデータにノイズの影響を否定できることがわかった。 このテストケースの予測結果は、ノイズが10倍少ない高品質のセンサから得られた等価データに対して得られる予測値とまだ一致している。 このことは、特にIndustrial 4.0の出現と、一般的にノイズの多い低コストのセンサーのユビキタスな展開への傾向により、将来センサーネットワークからデータを理解するための物理情報ニューラルネットワークモデリングの有用性をさらに示唆している。

Physics-Informed Neural Networks (PINNs) have been shown to be an effective way of incorporating physics-based domain knowledge into neural network models for many important real-world systems. They have been particularly effective as a means of inferring system information based on data, even in cases where data is scarce. Most of the current work however assumes the availability of high-quality data. In this work, we further conduct a preliminary investigation of the robustness of physics-informed neural networks to the magnitude of noise in the data. Interestingly, our experiments reveal that the inclusion of physics in the neural network is sufficient to negate the impact of noise in data originating from hypothetical low quality sensors with high signal-to-noise ratios of up to 1. The resultant predictions for this test case are seen to still match the predictive value obtained for equivalent data obtained from high-quality sensors with potentially 10x less noise. This further implies the utility of physics-informed neural network modeling for making sense of data from sensor networks in the future, especially with the advent of Industry 4.0 and the increasing trend towards ubiquitous deployment of low-cost sensors which are typically noisier.
翻訳日:2022-11-23 19:23:44 公開日:2022-11-22
# ラベルなしデータによるバックドアクリーニング

Backdoor Cleansing with Unlabeled Data ( http://arxiv.org/abs/2211.12044v1 )

ライセンス: Link先を確認
Lu Pang, Tao Sun, Haibin Ling, Chao Chen(参考訳) ディープニューラルネットワーク(DNN)の計算需要が増大しているため、企業や組織はトレーニングプロセスをアウトソースし始めている。 しかし、外部で訓練されたDNNはバックドア攻撃を受ける可能性がある。 このような攻撃、すなわち不審なモデルを後処理してバックドアの動作を緩和し、クリーン入力に対する通常の予測能力は妥協されないようにすることが重要である。 バックドアの異常な挙動を取り除くために、既存の手法は主にラベル付きクリーンサンプルに頼っている。 しかし、トレーニングデータはエンドユーザーには利用できないことが多いため、このような要件は非現実的かもしれない。 本稿では,そのような障壁を回避する可能性を検討する。 トレーニングラベルを必要とせず,新たな防御手法を提案する。 層間重み再初期化と知識蒸留を慎重に設計することにより,疑わしいネットワークのバックドア挙動を,正常な動作で効果的に浄化することができる。 実験では,ラベルを使わずにトレーニングした手法が,ラベルを用いた最新の防御手法とほぼ同等であることを示す。 また, 分配外データにおいても, 有望な防御結果が得られている。 この方法はとても実用的です。

Due to the increasing computational demand of Deep Neural Networks (DNNs), companies and organizations have begun to outsource the training process. However, the externally trained DNNs can potentially be backdoor attacked. It is crucial to defend against such attacks, i.e., to postprocess a suspicious model so that its backdoor behavior is mitigated while its normal prediction power on clean inputs remain uncompromised. To remove the abnormal backdoor behavior, existing methods mostly rely on additional labeled clean samples. However, such requirement may be unrealistic as the training data are often unavailable to end users. In this paper, we investigate the possibility of circumventing such barrier. We propose a novel defense method that does not require training labels. Through a carefully designed layer-wise weight re-initialization and knowledge distillation, our method can effectively cleanse backdoor behaviors of a suspicious network {with negligible compromise in} its normal behavior. In experiments, we show that our method, trained without labels, is on-par with state-of-the-art defense methods trained using labels. We also observe promising defense results even on out-of-distribution data. This makes our method very practical.
翻訳日:2022-11-23 19:23:27 公開日:2022-11-22
# 多エージェント強化学習における最適コーディネーションのためのグレディベース値表現

Greedy based Value Representation for Optimal Coordination in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2211.12075v1 )

ライセンス: Link先を確認
Lipeng Wan, Zeyang Liu, Xingyu Chen, Xuguang Lan, Nanning Zheng(参考訳) 結合Q値関数の表現限界により、線形値分解(LVD)や単調値分解(MVD)を伴うマルチエージェント強化学習法は相対的な過一般化に悩まされる。 結果として、それらは最適な一貫性(すなわち、個々の欲望作用と最大真のq値の対応)を保証することができない。 本稿では,LVDとMVDの結合Q値関数を導出する。 式によれば、各自己遷移ノード(stn)が収束可能な遷移図を描く。 最適な整合性を確保するために、最適なノードは独自のSTNである必要がある。 そこで我々は, 最適ノードを下向きのターゲットシェーピングによりSTNに変換し, より優れた経験リプレイにより最適でないSTNを除去するgreedy-based value representation (GVR)を提案する。 さらに、GVRは最適性と安定性の間の適応的なトレードオフを達成する。 本手法は,様々なベンチマーク実験において最先端のベースラインを上回っている。 行列ゲームにおける理論的証明と経験的結果は、GVRが十分な探索の下で最適な一貫性を確保することを証明している。

Due to the representation limitation of the joint Q value function, multi-agent reinforcement learning methods with linear value decomposition (LVD) or monotonic value decomposition (MVD) suffer from relative overgeneralization. As a result, they can not ensure optimal consistency (i.e., the correspondence between individual greedy actions and the maximal true Q value). In this paper, we derive the expression of the joint Q value function of LVD and MVD. According to the expression, we draw a transition diagram, where each self-transition node (STN) is a possible convergence. To ensure optimal consistency, the optimal node is required to be the unique STN. Therefore, we propose the greedy-based value representation (GVR), which turns the optimal node into an STN via inferior target shaping and further eliminates the non-optimal STNs via superior experience replay. In addition, GVR achieves an adaptive trade-off between optimality and stability. Our method outperforms state-of-the-art baselines in experiments on various benchmarks. Theoretical proofs and empirical results on matrix games demonstrate that GVR ensures optimal consistency under sufficient exploration.
翻訳日:2022-11-23 19:23:09 公開日:2022-11-22
# AdaptDHM:マルチドメインCTR予測のための適応分布階層モデル

AdaptDHM: Adaptive Distribution Hierarchical Model for Multi-Domain CTR Prediction ( http://arxiv.org/abs/2211.12105v1 )

ライセンス: Link先を確認
Jinyun Li, Huiwen Zheng, Yuanlin Liu, Minfang Lu, Lixia Wu, Haoyuan Hu(参考訳) 大規模商用プラットフォームは通常、多様なビジネス戦略のための多数のビジネスドメインを含み、複数のドメインに対してクリックスルーレート(CTR)予測を同時に提供するレコメンデーションシステムが期待される。 既存の有望かつ広く使われているマルチドメインモデルは、ドメイン固有のネットワークを明示的に構築することでドメイン関係を発見するが、計算とメモリはドメインの増加とともに大幅に増大する。 計算複雑性を低減するために、特定のビジネス戦略でドメインを手動でグループ化することは、産業アプリケーションで一般的である。 しかしながら、この事前定義されたデータ分割方法は、事前の知識に大きく依存しており、各ドメインの基盤となるデータ分散を無視する可能性があるため、モデルの表現能力を制限することができる。 本稿では,クラスタ化プロセスと分類プロセスからなるエンドツーエンド最適化階層構造であるadaptive distribution hierarchy model (adaptdhm) という,エレガントで柔軟なマルチ分散モデリングパラダイムを提案する。 具体的には,動的ルーティング機構をカスタマイズした分散適応モジュールを設計する。 事前定義されたデータ割り当てに事前知識を導入する代わりに、このルーティングアルゴリズムは、どのクラスタに属するかを決定するために各サンプルに適応的に分布係数を提供する。 各クラスタは特定の分布に対応し、モデルがこれらの異なるクラスタ間の共通点と区別を十分に捉えることができる。 当社のモデルは印象的な予測精度を達成し、トレーニング期間中の時間コストは他のモデルよりも50%以上小さくなっています。

Large-scale commercial platforms usually involve numerous business domains for diverse business strategies and expect their recommendation systems to provide click-through rate (CTR) predictions for multiple domains simultaneously. Existing promising and widely-used multi-domain models discover domain relationships by explicitly constructing domain-specific networks, but the computation and memory boost significantly with the increase of domains. To reduce computational complexity, manually grouping domains with particular business strategies is common in industrial applications. However, this pre-defined data partitioning way heavily relies on prior knowledge, and it may neglect the underlying data distribution of each domain, hence limiting the model's representation capability. Regarding the above issues, we propose an elegant and flexible multi-distribution modeling paradigm, named Adaptive Distribution Hierarchical Model (AdaptDHM), which is an end-to-end optimization hierarchical structure consisting of a clustering process and classification process. Specifically, we design a distribution adaptation module with a customized dynamic routing mechanism. Instead of introducing prior knowledge for pre-defined data allocation, this routing algorithm adaptively provides a distribution coefficient for each sample to determine which cluster it belongs to. Each cluster corresponds to a particular distribution so that the model can sufficiently capture the commonalities and distinctions between these distinct clusters. Extensive experiments on both public and large-scale Alibaba industrial datasets verify the effectiveness and efficiency of AdaptDHM: Our model achieves impressive prediction accuracy and its time cost during the training stage is more than 50% less than that of other models.
翻訳日:2022-11-23 19:22:49 公開日:2022-11-22
# ポイントネットによる銀河赤方偏移探査からの宇宙学

Cosmology from Galaxy Redshift Surveys with PointNet ( http://arxiv.org/abs/2211.12346v1 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Arne Thomsen, Tomasz Kacprzak, Tilman Tr\"oster, Luca Biggio, Alexandre Refregier, Thomas Hofmann(参考訳) 近年,ポイントクラウドデータの解析において,ディープラーニングのアプローチが最先端の成果を達成している。 宇宙論において、銀河赤方偏移サーベイは宇宙における位置の置換不変な集まりに似ている。 これらの調査は、パワースペクトルや相関関数といった2点統計で分析されている。 これらの要約統計学の利用は、密度場が線型でガウス的であるような大規模で最適である。 しかし、今後の調査で期待される精度の高まりを踏まえて、本質的に非ガウシアンな小さな角分離の分析は、宇宙のパラメータをよりよく制約するための魅力的な道筋を示している。 本研究では,2点統計量を改善するために, 点クラウドデータから直接, 宇宙パラメータの値を回帰するために, textit{PointNet} のようなニューラルネットワークを用いる。 ポイントネットの実装により、一度に$\mathcal{O}(10^4)\mathcal{O}(10^5)$銀河の入力を分析できる。 さらに、ある固定された赤方偏移での以前の静的シミュレーションボックスとは対照的に、光円錐上の銀河赤方偏移サーベイデータを分析できることを実証する。

In recent years, deep learning approaches have achieved state-of-the-art results in the analysis of point cloud data. In cosmology, galaxy redshift surveys resemble such a permutation invariant collection of positions in space. These surveys have so far mostly been analysed with two-point statistics, such as power spectra and correlation functions. The usage of these summary statistics is best justified on large scales, where the density field is linear and Gaussian. However, in light of the increased precision expected from upcoming surveys, the analysis of -- intrinsically non-Gaussian -- small angular separations represents an appealing avenue to better constrain cosmological parameters. In this work, we aim to improve upon two-point statistics by employing a \textit{PointNet}-like neural network to regress the values of the cosmological parameters directly from point cloud data. Our implementation of PointNets can analyse inputs of $\mathcal{O}(10^4) - \mathcal{O}(10^5)$ galaxies at a time, which improves upon earlier work for this application by roughly two orders of magnitude. Additionally, we demonstrate the ability to analyse galaxy redshift survey data on the lightcone, as opposed to previously static simulation boxes at a given fixed redshift.
翻訳日:2022-11-23 19:22:23 公開日:2022-11-22
# 伝達学習とグラフニューラルネットワークを用いた脆性き裂問題の一般化機械学習フレームワーク

A generalized machine learning framework for brittle crack problems using transfer learning and graph neural networks ( http://arxiv.org/abs/2211.12459v1 )

ライセンス: Link先を確認
Roberto Perera, Vinamra Agrawal(参考訳) 最近の成功にもかかわらず、グラフニューラルネットワーク(GNN)のような機械学習(ML)モデルは、大規模なトレーニングデータセットの必要性や、目に見えないケースではパフォーマンスの低下といった欠点に悩まされている。 本研究では,大規模なデータセットによる再トレーニングを回避するために,転送学習(TL)アプローチを用いる。 既存のMLフレームワークにTLを適用し,Mode-I負荷下での脆性材料における多重き裂伝播と応力進展を予測する。 新しいフレームワークであるACCelerated Universal fRAcTure Emulator (ACCURATE)は、TL更新手順を含む一連のステップを用いて、様々な亀裂問題に一般化される。 (i)任意のひび割れの長さ (ii)任意のひび割れ方向。 (iii)二乗藩。 (iv)水平領域、及び (v)せん断荷重。 tl更新ステップ毎に20個のシミュレーションからなる小さなトレーニングデータセットを用いて,モードiおよびモードiiの応力強度係数における高精度な予測精度,およびこれらの問題に対する亀裂パスを明らかにした。 %ケーススタディ (i)- (iv) 本研究では, ひび割れ進展と応力進展を予測するACCURATEの能力について, 新しい境界寸法と任意のひび割れ長さ, ひび割れ方向を組み合わさった場合の高精度な解析を行った。 また,XFEMを用いたフラクチャーモデルと比較して,最大2桁(200倍)のシミュレーション時間を著しく高速化した。 ACCURATEフレームワークは、将来の作業で容易に修正または拡張できる普遍的な計算破壊力学モデルを提供する。

Despite their recent success, machine learning (ML) models such as graph neural networks (GNNs), suffer from drawbacks such as the need for large training datasets and poor performance for unseen cases. In this work, we use transfer learning (TL) approaches to circumvent the need for retraining with large datasets. We apply TL to an existing ML framework, trained to predict multiple crack propagation and stress evolution in brittle materials under Mode-I loading. The new framework, ACCelerated Universal fRAcTure Emulator (ACCURATE), is generalized to a variety of crack problems by using a sequence of TL update steps including (i) arbitrary crack lengths, (ii) arbitrary crack orientations, (iii) square domains, (iv) horizontal domains, and (v) shear loadings. We show that using small training datasets of 20 simulations for each TL update step, ACCURATE achieved high prediction accuracy in Mode-I and Mode-II stress intensity factors, and crack paths for these problems. %case studies (i) - (iv). We demonstrate ACCURATE's ability to predict crack growth and stress evolution with high accuracy for unseen cases involving the combination of new boundary dimensions with arbitrary crack lengths and crack orientations in both tensile and shear loading. We also demonstrate significantly accelerated simulation times of up to 2 orders of magnitude faster (200x) compared to an XFEM-based fracture model. The ACCURATE framework provides a universal computational fracture mechanics model that can be easily modified or extended in future work.
翻訳日:2022-11-23 19:21:45 公開日:2022-11-22
# 画像再構成のためのニューラルネットワークに基づく凸正規化器

A Neural-Network-Based Convex Regularizer for Image Reconstruction ( http://arxiv.org/abs/2211.12461v1 )

ライセンス: Link先を確認
Alexis Goujon, Sebastian Neumayer, Pakshal Bohra, Stanislas Ducotterd, Michael Unser(参考訳) 逆問題解決のためのディープラーニングに基づく手法の出現は、再構築品質を大幅に向上させた。 残念ながら、これらの新しいメソッドは信頼性と説明性に欠けることが多く、パフォーマンスを維持しながらこれらの欠点に対処する関心が高まっている。 本研究では、凸リッジ関数の和である正規化子を再検討することでこの問題に取り組む。 このような正規化子の勾配は、学習可能なアクティベーション関数の増加を伴う単一の隠れ層を持つニューラルネットワークによってパラメータ化される。 このニューラルネットワークは、多段階ガウスデノイザーとして数分以内に訓練される。 難聴,CT,MRIの再建のための数値実験では,同様の信頼性保証を提供する手法よりも改善が見られた。

The emergence of deep-learning-based methods for solving inverse problems has enabled a significant increase in reconstruction quality. Unfortunately, these new methods often lack reliability and explainability, and there is a growing interest to address these shortcomings while retaining the performance. In this work, this problem is tackled by revisiting regularizers that are the sum of convex-ridge functions. The gradient of such regularizers is parametrized by a neural network that has a single hidden layer with increasing and learnable activation functions. This neural network is trained within a few minutes as a multi-step Gaussian denoiser. The numerical experiments for denoising, CT, and MRI reconstruction show improvements over methods that offer similar reliability guarantees.
翻訳日:2022-11-23 19:21:17 公開日:2022-11-22
# FE-Fusion-VPR:フレームとイベントの融合による視覚的位置認識のための注意型マルチスケールネットワークアーキテクチャ

FE-Fusion-VPR: Attention-based Multi-Scale Network Architecture for Visual Place Recognition by Fusing Frames and Events ( http://arxiv.org/abs/2211.12244v1 )

ライセンス: Link先を確認
Kuanxu Hou, Delei Kong, Junjie Jiang, Hao Zhuang, Xinjie Huang and Zheng Fang(参考訳) 従来の視覚位置認識(vpr)は、通常標準カメラを使用しており、暗い動きや高速動きのために簡単に失敗する。 対照的に、イベントカメラは低レイテンシ、高時間分解能、高ダイナミックレンジの利点があり、上記の問題に対処できる。 それでも、イベントカメラは、弱いテクスチャや動きのないシーンでは失敗しがちだが、標準的なカメラは、この場合の外観情報を提供することができる。 したがって、標準カメラとイベントカメラの相補性を活用すれば、VPRアルゴリズムの性能を効果的に向上させることができる。 本稿では,フレームとイベントを融合させてVPRのマルチスケールネットワークアーキテクチャであるFE-Fusion-VPRを提案する。 まず、浅部特徴融合のために、インテンシティフレームとイベントボリュームを2ストリーム特徴抽出ネットワークに供給する。 次に,VLAD層を用いて3つのサブディスクリプタに集約し,マルチスケール核融合ネットワークを用いて3つの特徴量を求める。 最後に、各サブディスクリプタの重みをディスクリプタ再重み付けネットワークを介して学習し、最終精細化ディスクリプタを得る。 Brisbane-Event-VPRとDDD20データセットでは、FE-Fusion-VPRのRecall@1は、Event-VPRとEnsemble-EventVPRよりも25.20%高く、37.21%高く、MultiRes-NetVLADとNetVLADよりも2.55%高く、15.89%高い。 我々の知る限り、これはVPRのためにフレームとイベントを直接フューズする既存のイベントベースおよびフレームベースのSOTAメソッドを超える最初のエンドツーエンドネットワークです。

Traditional visual place recognition (VPR), usually using standard cameras, is easy to fail due to glare or high-speed motion. By contrast, event cameras have the advantages of low latency, high temporal resolution, and high dynamic range, which can deal with the above issues. Nevertheless, event cameras are prone to failure in weakly textured or motionless scenes, while standard cameras can still provide appearance information in this case. Thus, exploiting the complementarity of standard cameras and event cameras can effectively improve the performance of VPR algorithms. In the paper, we propose FE-Fusion-VPR, an attention-based multi-scale network architecture for VPR by fusing frames and events. First, the intensity frame and event volume are fed into the two-stream feature extraction network for shallow feature fusion. Next, the three-scale features are obtained through the multi-scale fusion network and aggregated into three sub-descriptors using the VLAD layer. Finally, the weight of each sub-descriptor is learned through the descriptor re-weighting network to obtain the final refined descriptor. Experimental results show that on the Brisbane-Event-VPR and DDD20 datasets, the Recall@1 of our FE-Fusion-VPR is 25.20% and 37.21% higher than Event-VPR and Ensemble-EventVPR, and is 2.55% and 15.89% higher than MultiRes-NetVLAD and NetVLAD. To our knowledge, this is the first end-to-end network that goes beyond the existing event-based and frame-based SOTA methods to fuse frame and events directly for VPR.
翻訳日:2022-11-23 19:15:51 公開日:2022-11-22
# Exact-NeRF:ニューラルラジアンス場のための精密体積パラメタライゼーションの探索

Exact-NeRF: An Exploration of a Precise Volumetric Parameterization for Neural Radiance Fields ( http://arxiv.org/abs/2211.12285v1 )

ライセンス: Link先を確認
Brian K. S. Isaac-Medina, Chris G. Willcocks, Toby P. Breckon(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,新しいシーンビューを高精度に合成する能力によって注目されている。 しかしながら、その基礎となる定式化に固有の点のサンプリングは、最終シーンにおけるエイリアシングのようなさらなる描画成果をもたらす曖昧な表現をもたらす可能性がある。 この問題に対処するため、近年のmip-NeRFは円錐型ビューフラストラムに基づく統合的位置エンコーディング(IPE)を提案する。 これは積分定式化で表されるが、mip-NeRF はこの積分を多変量ガウス分布の期待値として近似する。 この近似は短いフラストラムに信頼性があるが、遠距離のシーンオブジェクトを被写界深度で扱う際に発生する、非常に長い領域で劣化する。 本稿では,近似円錐型ではなくピラミッド型積分定式化を用いて,IPEの正確な計算手法について検討する。 我々は、この定式化をExact-NeRFと表現し、NeRF領域内のIPEに正確な解析解を提供するための最初のアプローチに貢献する。 このような正確な定式化の正確なナーフがmip-nerfの正確さに合致していることを示し,さらに,境界のないシーンの場合など,さらに修正を加えることなく,より困難なシナリオへの自然な拡張を提供する。 我々の貢献は、初期のNeRF研究におけるフラストタル近似の未解明問題に対処することと、将来のNeRF拡張における解析的解決の可能性についての洞察を提供することである。

Neural Radiance Fields (NeRF) have attracted significant attention due to their ability to synthesize novel scene views with great accuracy. However, inherent to their underlying formulation, the sampling of points along a ray with zero width may result in ambiguous representations that lead to further rendering artifacts such as aliasing in the final scene. To address this issue, the recent variant mip-NeRF proposes an Integrated Positional Encoding (IPE) based on a conical view frustum. Although this is expressed with an integral formulation, mip-NeRF instead approximates this integral as the expected value of a multivariate Gaussian distribution. This approximation is reliable for short frustums but degrades with highly elongated regions, which arises when dealing with distant scene objects under a larger depth of field. In this paper, we explore the use of an exact approach for calculating the IPE by using a pyramid-based integral formulation instead of an approximated conical-based one. We denote this formulation as Exact-NeRF and contribute the first approach to offer a precise analytical solution to the IPE within the NeRF domain. Our exploratory work illustrates that such an exact formulation Exact-NeRF matches the accuracy of mip-NeRF and furthermore provides a natural extension to more challenging scenarios without further modification, such as in the case of unbounded scenes. Our contribution aims to both address the hitherto unexplored issues of frustum approximation in earlier NeRF work and additionally provide insight into the potential future consideration of analytical solutions in future NeRF extensions.
翻訳日:2022-11-23 19:15:18 公開日:2022-11-22
# PointCA: 逆例に対する3Dポイントクラウド補完モデルのロバスト性の評価

PointCA: Evaluating the Robustness of 3D Point Cloud Completion Models Against Adversarial Examples ( http://arxiv.org/abs/2211.12294v1 )

ライセンス: Link先を確認
Shengshan Hu, Junwei Zhang, Wei Liu, Junhui Hou, Minghui Li, Leo Yu Zhang, Hai Jin, Lichao Sun(参考訳) 3D認識とセグメンテーションのアップストリーム手順としてのポイントクラウド補完は、ナビゲーションやシーン理解といった多くのタスクに欠かせない部分となっている。 様々なポイントのクラウド補完モデルは、その強力な能力を実証しているが、深いニューラルネットワークに対して致命的な悪意があることが証明された敵攻撃に対する堅牢性は、未だに不明である。 さらに、ポイントクラウド分類器に対する既存の攻撃アプローチは、異なる出力形式と攻撃目的のために、補完モデルに適用できない。 完成モデルのロバスト性を評価するため,3次元点雲完了モデルに対する最初の敵攻撃であるPointCAを提案する。 PointCAは、元のものと高い類似性を保ちながら、全く異なる意味情報を持つ別のオブジェクトとして完成される敵の点雲を生成することができる。 具体的には、幾何空間と特徴空間の対向点雲を共同で探索するために設定された対向例と目標点との表現差を最小化する。 さらに,よりステルス攻撃を開始するために,摂動制約を調整するために近傍密度情報を革新的に活用し,各点に対する幾何学的認識と分布適応的修正に繋がる。 異なる初点雲完了ネットワークに対する大規模な実験により、ポイントCAはパフォーマンスが77.9%から16.7%に低下し、構造シャムファー距離は0.01以下であることが示された。 既存の完了モデルは敵の例に対して脆弱であり,不完全かつ不均一なクラウドデータに適用した場合,ポイントクラウド分類に対する最先端の防御は部分的には無効である。

Point cloud completion, as the upstream procedure of 3D recognition and segmentation, has become an essential part of many tasks such as navigation and scene understanding. While various point cloud completion models have demonstrated their powerful capabilities, their robustness against adversarial attacks, which have been proven to be fatally malicious towards deep neural networks, remains unknown. In addition, existing attack approaches towards point cloud classifiers cannot be applied to the completion models due to different output forms and attack purposes. In order to evaluate the robustness of the completion models, we propose PointCA, the first adversarial attack against 3D point cloud completion models. PointCA can generate adversarial point clouds that maintain high similarity with the original ones, while being completed as another object with totally different semantic information. Specifically, we minimize the representation discrepancy between the adversarial example and the target point set to jointly explore the adversarial point clouds in the geometry space and the feature space. Furthermore, to launch a stealthier attack, we innovatively employ the neighbourhood density information to tailor the perturbation constraint, leading to geometry-aware and distribution-adaptive modifications for each point. Extensive experiments against different premier point cloud completion networks show that PointCA can cause a performance degradation from 77.9% to 16.7%, with the structure chamfer distance kept below 0.01. We conclude that existing completion models are severely vulnerable to adversarial examples, and state-of-the-art defenses for point cloud classification will be partially invalid when applied to incomplete and uneven point cloud data.
翻訳日:2022-11-23 19:14:49 公開日:2022-11-22
# 有限角度CT再構成のためのモデルベース確率拡散フレームワークDOLCE

DOLCE: A Model-Based Probabilistic Diffusion Framework for Limited-Angle CT Reconstruction ( http://arxiv.org/abs/2211.12340v1 )

ライセンス: Link先を確認
Jiaming Liu, Rushil Anirudh, Jayaraman J. Thiagarajan, Stewart He, K. Aditya Mohan, Ulugbek S. Kamilov, Hyojin Kim(参考訳) Limited-Angle Computed Tomography (LACT) は、セキュリティから医療まで様々な用途で使用される非破壊的評価技術である。 LACTの限られた角度のカバレッジは、しばしば再構成された画像における深刻なアーティファクトの主要な原因であり、難しい逆問題である。 DOLCEは、条件付き拡散モデルを画像として用いた、LACTのための新しいディープモデルベースのフレームワークである。 拡散モデルは、画像デノイザとしての実装のために比較的容易に訓練できる最近の深層生成モデルのクラスである。 DOLCEは、データ一貫性の更新と、変換された制限角データに条件付けされた拡散モデルのサンプリング更新を統合することで、厳しいアンダーサンプルデータから高品質な画像を生成することができる。 そこで本研究では,DOLCEモデルと同一の事前学習モデルを用いて,大規模に異なる種類の画像上でのSOTA性能を実証する実験を行った。 さらに,従来のLACT再構成法とは異なり,DOLCEは測定データと整合した複数のサンプルを生成することにより,復元の不確かさの定量化を可能にする。

Limited-Angle Computed Tomography (LACT) is a non-destructive evaluation technique used in a variety of applications ranging from security to medicine. The limited angle coverage in LACT is often a dominant source of severe artifacts in the reconstructed images, making it a challenging inverse problem. We present DOLCE, a new deep model-based framework for LACT that uses a conditional diffusion model as an image prior. Diffusion models are a recent class of deep generative models that are relatively easy to train due to their implementation as image denoisers. DOLCE can form high-quality images from severely under-sampled data by integrating data-consistency updates with the sampling updates of a diffusion model, which is conditioned on the transformed limited-angle data. We show through extensive experimentation on several challenging real LACT datasets that, the same pre-trained DOLCE model achieves the SOTA performance on drastically different types of images. Additionally, we show that, unlike standard LACT reconstruction methods, DOLCE naturally enables the quantification of the reconstruction uncertainty by generating multiple samples consistent with the measured data.
翻訳日:2022-11-23 19:14:21 公開日:2022-11-22
# GlowGAN:野生のLDR画像からのHDR画像の教師なし学習

GlowGAN: Unsupervised Learning of HDR Images from LDR Images in the Wild ( http://arxiv.org/abs/2211.12352v1 )

ライセンス: Link先を確認
Chao Wang, Ana Serrano, Xingang Pan, Bin Chen, Hans-Peter Seidel, Christian Theobalt, Karol Myszkowski, Thomas Leimkuehler(参考訳) ほとんどの画像は低ダイナミックレンジ(LDR)形式で保存されており、高ダイナミックレンジ(HDR)視覚世界を部分的に観察する役割を果たしている。 ダイナミックレンジは限られているが、これらのLDR画像は、しばしば異なる露出で撮影され、基盤となるHDR画像の分布に関する情報を暗黙的に含んでいる。 この直観に触発されて、本研究では、我々の知識を最大限に活用し、野生のldr画像コレクションからhdr画像の生成モデルを完全に教師なしで学習する最初の方法を紹介します。 鍵となる考え方は、GAN(Generative Adversarial Network)を訓練して、様々な露光下でLDRに投影された場合、実際のLDR画像と区別できないHDR画像を生成することである。 HDRからLDRへの投影は、露出の確率性とカメラ応答関数をキャプチャするカメラモデルによって達成される。 実験により,従来の教師付き生成モデルが過剰に露出した画像を生成する風景,雷,窓など,多くの課題において,glowganがフォトリアリスティックなhdr画像を合成できることが判明した。 さらに,GlowGANによって実現された教師なし逆トーンマッピング(ITM)の新たな応用を実証する。 ITM法では,HDR画像やマルチ露光画像は必要としないが,これらのデータに基づいて訓練された最先端の教師あり学習モデルよりも,過剰に露光した領域の情報を再構成する。

Most in-the-wild images are stored in Low Dynamic Range (LDR) form, serving as a partial observation of the High Dynamic Range (HDR) visual world. Despite limited dynamic range, these LDR images are often captured with different exposures, implicitly containing information about the underlying HDR image distribution. Inspired by this intuition, in this work we present, to the best of our knowledge, the first method for learning a generative model of HDR images from in-the-wild LDR image collections in a fully unsupervised manner. The key idea is to train a generative adversarial network (GAN) to generate HDR images which, when projected to LDR under various exposures, are indistinguishable from real LDR images. The projection from HDR to LDR is achieved via a camera model that captures the stochasticity in exposure and camera response function. Experiments show that our method GlowGAN can synthesize photorealistic HDR images in many challenging cases such as landscapes, lightning, or windows, where previous supervised generative models produce overexposed images. We further demonstrate the new application of unsupervised inverse tone mapping (ITM) enabled by GlowGAN. Our ITM method does not need HDR images or paired multi-exposure images for training, yet it reconstructs more plausible information for overexposed regions than state-of-the-art supervised learning models trained on such data.
翻訳日:2022-11-23 19:14:00 公開日:2022-11-22
# ネットワーク帯域利用の最適化のための強化学習手法

A Reinforcement Learning Approach to Optimize Available Network Bandwidth Utilization ( http://arxiv.org/abs/2211.11949v1 )

ライセンス: Link先を確認
Hasibul Jamil, Elvis Rodrigues, Jacob Goldverg, and Tevfik Kosar(参考訳) 高速で長距離の共有ネットワーク上での効率的なデータ転送は、利用可能なネットワーク帯域を適切に利用する必要がある。 並列TCPストリームを使うことで、アプリケーションはネットワーク並列化を利用でき、転送スループットを向上させることができるが、同じネットワークを共有する非決定論的バックグラウンドトラフィックのため、並列TCPストリームの最適な数を見つけることは困難である。 さらに、ホストシステムにおけるネットワーク信号の非定常性、多目的性、部分的に観測可能な性質は、現在のネットワーク条件を見つけるのにさらなる複雑さをもたらす。 本稿では,深部強化学習(RL)を用いた並列TCPストリームの最適数を求めるための新しい手法を提案する。 異なるネットワーク条件を一般化し、利用可能なネットワーク帯域をインテリジェントに活用できる学習ベースのアルゴリズムを考案する。 未知のネットワークシナリオでよく一般化しないルールベースのヒューリスティックとは対照的に,我々のRLベースのソリューションは並列TCPストリーム番号を動的に発見・適応し,ネットワークを混雑させることなくネットワーク帯域幅の利用を最大化し,競合する転送間の公平性を確保する。 我々は、RLに基づくアルゴリズムの性能を、最先端のオンライン最適化アルゴリズムと比較し、広範囲に評価した。 その結果, RLに基づくアルゴリズムでは, 最大15%のスループットを達成しながら, ほぼ最適解を40%高速化できることがわかった。 また,このアルゴリズムは,強欲なアルゴリズムとは違って,ネットワークの混雑を回避し,ネットワークリソースを公平に共有できることを示す。

Efficient data transfers over high-speed, long-distance shared networks require proper utilization of available network bandwidth. Using parallel TCP streams enables an application to utilize network parallelism and can improve transfer throughput; however, finding the optimum number of parallel TCP streams is challenging due to nondeterministic background traffic sharing the same network. Additionally, the non-stationary, multi-objectiveness, and partially-observable nature of network signals in the host systems add extra complexity in finding the current network condition. In this work, we present a novel approach to finding the optimum number of parallel TCP streams using deep reinforcement learning (RL). We devise a learning-based algorithm capable of generalizing different network conditions and utilizing the available network bandwidth intelligently. Contrary to rule-based heuristics that do not generalize well in unknown network scenarios, our RL-based solution can dynamically discover and adapt the parallel TCP stream numbers to maximize the network bandwidth utilization without congesting the network and ensure fairness among contending transfers. We extensively evaluated our RL-based algorithm's performance, comparing it with several state-of-the-art online optimization algorithms. The results show that our RL-based algorithm can find near-optimal solutions 40% faster while achieving up to 15% higher throughput. We also show that, unlike a greedy algorithm, our devised RL-based algorithm can avoid network congestion and fairly share the available network resources among contending transfers.
翻訳日:2022-11-23 19:13:32 公開日:2022-11-22
# 自動ではなく自動化 - 人中心AIシステム設計の基礎としてのヨーロッパのファクトチェック組織の必要性と実践

Automated, not Automatic: Needs and Practices in European Fact-checking Organizations as a basis for Designing Human-centered AI Systems ( http://arxiv.org/abs/2211.12143v1 )

ライセンス: Link先を確認
Andrea Hrckova, Robert Moro, Ivan Srba, Jakub Simko, Maria Bielikova(参考訳) 偽情報の悪影響を効果的に軽減するためには、ファクトチェックを支援する自動化AI(人工知能)ツールの開発が必要である。 既存の研究にもかかわらず、ファクトチェック実践者のニーズと痛みと、現在のAI研究との間にはまだギャップがある。 私たちは、人間中心のAIベースのサポートツールを設計するための影響を特定するために、情報行動研究の手法を利用することで、このギャップを埋めたいと考えています。 本研究では,中欧のファクトチェッカーと半構造化インタビューを行った。 反復的ボトムアップコンテンツ分析を用いて, 希望する支援ツールの情報行動と要件を解析し, 基礎理論の手法を取り入れた。 最も重要なニーズは、欧州全域のファクトチェック担当者を対象にした調査で検証され、欧州20カ国から24の回答、すなわち欧州ifcn(international fact-checking network)署名者から62%の回答を集めました。 私たちの貢献は理論的にも実用的でもある。 まず、ファクトチェックを行う組織のニーズをAI研究の関連課題にマッピングすることで、情報行動研究の手法が組織内のプロセスの研究に関係していること、そしてこれらの手法がユーザとAI研究者のギャップを埋めるために利用できることを示しました。 第二に、これまでの未調査の次元に焦点を当てたファクトチェッカーのニーズと苦痛を特定し、この領域におけるAI研究の焦点だけでなく、新たなリソース(データセット)の開発に影響を及ぼす低リソース言語グループからもファクトチェッカーのニーズを強調しました。

To mitigate the negative effects of false information more effectively, the development of automated AI (artificial intelligence) tools assisting fact-checkers is needed. Despite the existing research, there is still a gap between the fact-checking practitioners' needs and pains and the current AI research. We aspire to bridge this gap by employing methods of information behavior research to identify implications for designing better human-centered AI-based supporting tools. In this study, we conducted semi-structured in-depth interviews with Central European fact-checkers. The information behavior and requirements on desired supporting tools were analyzed using iterative bottom-up content analysis, bringing the techniques from grounded theory. The most significant needs were validated with a survey extended to fact-checkers from across Europe, in which we collected 24 responses from 20 European countries, i.e., 62% active European IFCN (International Fact-Checking Network) signatories. Our contributions are theoretical as well as practical. First, by being able to map our findings about the needs of fact-checking organizations to the relevant tasks for AI research, we have shown that the methods of information behavior research are relevant for studying the processes in the organizations and that these methods can be used to bridge the gap between the users and AI researchers. Second, we have identified fact-checkers' needs and pains focusing on so far unexplored dimensions and emphasizing the needs of fact-checkers from Central and Eastern Europe as well as from low-resource language groups which have implications for development of new resources (datasets) as well as for the focus of AI research in this domain.
翻訳日:2022-11-23 19:13:06 公開日:2022-11-22
# 移動費用が社会的分離に及ぼす影響--RLとABMによるシミュレーション

The impact of moving expenses on social segregation: a simulation with RL and ABM ( http://arxiv.org/abs/2211.12475v1 )

ライセンス: Link先を確認
Xinyu Li(参考訳) 過去数十年間、強化学習(RL)やエージェントベースモデリング(ABM)といったブレークスルーによって、経済モデルのシミュレーションが可能になった。 近年,selling segregationモデルにおいて,住宅の嗜好が近所の隔離に与える影響を研究するため,abmを適用することへの関心が高まっている。 本稿では, rl と abm を組み合わせることで, 移動費用を入力パラメータとして組み込んだ改良シェリング分離モデルをシミュレートする。 特に、家庭の行動と好みをシミュレートするRLエージェントの学習アルゴリズムとして、ディープQネットワーク(DQN)が採用されている。 本稿では,移動費用が全体分離パターンに及ぼす影響と社会統合における役割について考察する。 分離モデルのより包括的なシミュレーションは、政策立案者が政策の潜在的な結果を予測するために構築される。

Over the past decades, breakthroughs such as Reinforcement Learning (RL) and Agent-based modeling (ABM) have made simulations of economic models feasible. Recently, there has been increasing interest in applying ABM to study the impact of residential preferences on neighborhood segregation in the Schelling Segregation Model. In this paper, RL is combined with ABM to simulate a modified Schelling Segregation model, which incorporates moving expenses as an input parameter. In particular, deep Q network (DQN) is adopted as RL agents' learning algorithm to simulate the behaviors of households and their preferences. This paper studies the impact of moving expenses on the overall segregation pattern and its role in social integration. A more comprehensive simulation of the segregation model is built for policymakers to forecast the potential consequences of their policies.
翻訳日:2022-11-23 19:12:35 公開日:2022-11-22
# マルチインテント音声言語理解のためのスコープ感度と結果注意モデル

A Scope Sensitive and Result Attentive Model for Multi-Intent Spoken Language Understanding ( http://arxiv.org/abs/2211.12220v1 )

ライセンス: Link先を確認
Lizhi Cheng, Wenmian Yang, Weijia Jia(参考訳) SLUの新しい複雑なシナリオであるMulti-Intent Spoken Language Understanding (SLU)が注目を集めている。 従来のSLUとは異なり、このシナリオにおける各意図は特定のスコープを持つ。 範囲外の意味情報は、意図の検出の難しさを著しく増大させる予測を妨げます。 さらに深刻なことに、これらの不正確な意図ラベルでスロットフィリングを導くことは、エラーの伝搬問題に悩まされ、全体的な性能が不満足になる。 これらの課題を解決するために,本稿では,スコープ認識器 (sr) と結果注意ネットワーク (ran) を含むトランスフォーマティブに基づく,新たなスコープ感応結果注意ネットワーク (ssran) を提案する。 スコープ認識者は各トークンにスコープ情報を割り当て、スコープ外トークンの混乱を減らす。 結果注意ネットワークは、スロットフィリングの結果とインテント検出の双方向相互作用を効果的に利用し、エラー伝搬問題を緩和する。 2つの公開データセットの実験により、我々のモデルは最先端のベースラインよりもSLU性能(全体的な精度では5.4\%と2.1\%)を著しく改善することが示された。

Multi-Intent Spoken Language Understanding (SLU), a novel and more complex scenario of SLU, is attracting increasing attention. Unlike traditional SLU, each intent in this scenario has its specific scope. Semantic information outside the scope even hinders the prediction, which tremendously increases the difficulty of intent detection. More seriously, guiding slot filling with these inaccurate intent labels suffers error propagation problems, resulting in unsatisfied overall performance. To solve these challenges, in this paper, we propose a novel Scope-Sensitive Result Attention Network (SSRAN) based on Transformer, which contains a Scope Recognizer (SR) and a Result Attention Network (RAN). Scope Recognizer assignments scope information to each token, reducing the distraction of out-of-scope tokens. Result Attention Network effectively utilizes the bidirectional interaction between results of slot filling and intent detection, mitigating the error propagation problem. Experiments on two public datasets indicate that our model significantly improves SLU performance (5.4\% and 2.1\% on Overall accuracy) over the state-of-the-art baseline.
翻訳日:2022-11-23 19:05:53 公開日:2022-11-22
# 層状ガーメントネット:単一画像から複数の不必要ガーメント層を生成する

Layered-Garment Net: Generating Multiple Implicit Garment Layers from a Single Image ( http://arxiv.org/abs/2211.11931v1 )

ライセンス: Link先を確認
Alakh Aggarwal and Jikai Wang and Steven Hogue and Saifeng Ni and Madhukar Budagavi and Xiaohu Guo(参考訳) 最近の研究は、人間のモデルと衣服を2D画像から生成することに焦点を当てている。 しかし、最先端の研究は、人間モデル上の衣服の1つの層のみに焦点を当てたり、それらの間の交叉のない幾何学的関係を保証せずに複数の衣服層を生成することに焦点を当てている。 実際には、日常生活において、内装の層を部分的に外装で覆うことができる複数の衣服を身に着けている。 本稿では,この多層モデリング問題に対処し,人体表面上の暗黙の関数場によって定義された衣服の交叉のない複数層を生成可能な階層化階層ネットワーク(LGN)を提案する。 衣料表示フィールド (GIF) の特殊設計により, 異なる衣服表面と人体との自己断面積を避けるために, 異なる層の署名された距離フィールド (SDF) 間の暗黙の被覆関係を強制することができる。 提案するlgnフレームワークの多層衣服生成における強度の実証実験を行った。 われわれの知る限りでは、LGNは1枚の画像から、交差点のない複数の衣服の層を人体に生成する最初の研究である。

Recent research works have focused on generating human models and garments from their 2D images. However, state-of-the-art researches focus either on only a single layer of the garment on a human model or on generating multiple garment layers without any guarantee of the intersection-free geometric relationship between them. In reality, people wear multiple layers of garments in their daily life, where an inner layer of garment could be partially covered by an outer one. In this paper, we try to address this multi-layer modeling problem and propose the Layered-Garment Net (LGN) that is capable of generating intersection-free multiple layers of garments defined by implicit function fields over the body surface, given the person's near front-view image. With a special design of garment indication fields (GIF), we can enforce an implicit covering relationship between the signed distance fields (SDF) of different layers to avoid self-intersections among different garment surfaces and the human body. Experiments demonstrate the strength of our proposed LGN framework in generating multi-layer garments as compared to state-of-the-art methods. To the best of our knowledge, LGN is the first research work to generate intersection-free multiple layers of garments on the human body from a single image.
翻訳日:2022-11-23 19:04:42 公開日:2022-11-22
# GPS-denied 条件下での視覚的位置推定法

Vision-based localization methods under GPS-denied conditions ( http://arxiv.org/abs/2211.11988v1 )

ライセンス: Link先を確認
Zihao Lu, Fei Liu, Xianke Lin(参考訳) 本稿では,GPSを用いた環境下での視覚に基づくローカライゼーション手法をレビューし,メインストリームの手法をRVL(Relative Vision Localization)とAVL(Absolute Vision Localization)に分類する。 RVLでは,特徴抽出に基づくビジュアルオドメトリー(VO)ソリューションにおける光フローの幅広い応用について論じ,高度な光フロー推定手法を提案する。 AVLでは、最適化に基づく手法から拡張カルマンフィルタ(EKF)に基づく手法まで、視覚的同時局在マッピング(VSLAM)技術の最近の進歩を概観する。 また,オフラインマップ登録とレーンビジョン検出スキームを適用し,絶対的な視覚定位を実現する。 本稿では,視覚局所化のための主流手法の性能と応用を比較し,今後の研究への提案を行う。

This paper reviews vision-based localization methods in GPS-denied environments and classifies the mainstream methods into Relative Vision Localization (RVL) and Absolute Vision Localization (AVL). For RVL, we discuss the broad application of optical flow in feature extraction-based Visual Odometry (VO) solutions and introduce advanced optical flow estimation methods. For AVL, we review recent advances in Visual Simultaneous Localization and Mapping (VSLAM) techniques, from optimization-based methods to Extended Kalman Filter (EKF) based methods. We also introduce the application of offline map registration and lane vision detection schemes to achieve Absolute Visual Localization. This paper compares the performance and applications of mainstream methods for visual localization and provides suggestions for future studies.
翻訳日:2022-11-23 19:04:18 公開日:2022-11-22
# 四肢下遺残拡張症の超音波診断

Ultrasound Detection of Subquadricipital Recess Distension ( http://arxiv.org/abs/2211.12089v1 )

ライセンス: Link先を確認
Marco Colussi, Gabriele Civitarese, Dragan Ahmetovic, Claudio Bettini, Roberta Gualtierotti, Flora Peyvandi, Sergio Mascetti(参考訳) 関節出血は血友病患者に共通する病態であり、治療を受けなければ血友病性関節症となる。 超音波画像は関節出血による関節凹部拡張を診断するための有効なツールとして最近登場している。 しかし、診断プロセスにおける実践者を支援するコンピュータ支援診断ツールは存在しない。 本稿では, 血友病患者に収集された膝超音波画像において, 凹部を自動的に検出し, 変位の有無を判定する問題に対処する。 この問題に対処した後、第1のアプローチは1段階のオブジェクト検出アルゴリズムを採用し、第2のアプローチは分類と検出分岐を備えたマルチタスクアプローチを提案する。 483ドルのアノテート画像を用いて行った実験の結果、物体検出のみに基づく解は平均IoU値が0.66ドル、平均IoU値が0.78ドルであるのに対し、マルチタスク手法は平均IoU値がわずかに低いコストでより高い平衡精度値(0.78ドル)を持つことがわかった。

Joint bleeding is a common condition for people with hemophilia and, if untreated, can result in hemophilic arthropathy. Ultrasound imaging has recently emerged as an effective tool to diagnose joint recess distension caused by joint bleeding. However, no computer-aided diagnosis tool exists to support the practitioner in the diagnosis process. This paper addresses the problem of automatically detecting the recess and assessing whether it is distended in knee ultrasound images collected in patients with hemophilia. After framing the problem, we propose two different approaches: the first one adopts a one-stage object detection algorithm, while the second one is a multi-task approach with a classification and a detection branch. The experimental evaluation, conducted with $483$ annotated images, shows that the solution based on object detection alone has a balanced accuracy score of $0.74$ with a mean IoU value of $0.66$, while the multi-task approach has a higher balanced accuracy value ($0.78$) at the cost of a slightly lower mean IoU value.
翻訳日:2022-11-23 19:04:03 公開日:2022-11-22
# ビデオ圧縮データセットと学習に基づくビデオ品質指標のベンチマーク

Video compression dataset and benchmark of learning-based video-quality metrics ( http://arxiv.org/abs/2211.12109v1 )

ライセンス: Link先を確認
Anastasia Antsiferova, Sergey Lavrushkin, Maksim Smirnov, Alexander Gushchin, Dmitriy Vatolin, Dmitriy Kulikov(参考訳) 映像品質測定は映像処理において重要な課題である。 今日では、AV1、VVC、LCEVCといった新しいエンコーディング標準の実装が、最適化の目的として機能する知覚的メトリクスを備えたディープラーニングベースのデコーディングアルゴリズムを使用している。 しかし、現代のビデオ品質と画質の指標の性能に関する調査では、AVCのような古い規格で圧縮されたビデオが一般的である。 本稿では,ビデオ圧縮の評価を行うビデオ品質指標の新しいベンチマークを提案する。 AVC、HEVC、AV1、VP9、VVCなど、さまざまな標準でエンコードされた約2500のストリームからなる、新たなデータセットに基づいている。 主観的なスコアはクラウドソーシングによる対数比較を用いて収集した。 評価指標のリストには、機械学習とニューラルネットワークに基づく最近の指標が含まれている。 その結果、新しい非参照指標は主観的品質と高い相関を示し、上位のフル参照指標の能力にアプローチすることを示した。

Video-quality measurement is a critical task in video processing. Nowadays, many implementations of new encoding standards - such as AV1, VVC, and LCEVC - use deep-learning-based decoding algorithms with perceptual metrics that serve as optimization objectives. But investigations of the performance of modern video- and image-quality metrics commonly employ videos compressed using older standards, such as AVC. In this paper, we present a new benchmark for video-quality metrics that evaluates video compression. It is based on a new dataset consisting of about 2,500 streams encoded using different standards, including AVC, HEVC, AV1, VP9, and VVC. Subjective scores were collected using crowdsourced pairwise comparisons. The list of evaluated metrics includes recent ones based on machine learning and neural networks. The results demonstrate that new no-reference metrics exhibit a high correlation with subjective quality and approach the capability of top full-reference metrics.
翻訳日:2022-11-23 19:03:43 公開日:2022-11-22
# ストリートビュー画像を用いた近隣の質の地図化

Mapping City-Wide Perceptions of Neighbourhood Quality using Street View Images ( http://arxiv.org/abs/2211.12139v1 )

ライセンス: Link先を確認
Emily Muller, Emily Gemmell, Ishmam Choudhury, Ricky Nathvani, Antje Barbara Metzler, James Bennett, Emily Denton, Seth Flaxman, Majid Ezzati(参考訳) 個人と近隣都市との相互作用は、一部は都市環境の質によって決定される。 近隣の質は都市の活力の中核的要素であり、社会の結束、コミュニティの感覚、安全、活動、心の健康に影響を与えている。 place pulseプロジェクトにより,近隣品質の知覚の大規模評価が確立された。 56都市にわたる画像ペアのクラウドソーシングによる知覚評価の有効性を実証し、ストリートビュー画像から知覚を予測するモデルをトレーニングした。 都市間の変動は、都市内の知覚を評価するためのplace pulseの有用性を制限する可能性がある。 そこで,本稿では,都市別データセット収集のためのプロトコルである「どの街を歩きたいか?」について述べる。 本稿では,ロンドンにおける画像と評価の収集,Web開発,モデルトレーニング,マッピングなどの方法論について述べる。 近隣住民の都市内知覚の評価は、不平等を識別し、計画の優先順位を通知し、時間的ダイナミクスを識別することができる。 コード:https://emilymuller 1991.github.io/urban-perceptions/

The interactions of individuals with city neighbourhoods is determined, in part, by the perceived quality of urban environments. Perceived neighbourhood quality is a core component of urban vitality, influencing social cohesion, sense of community, safety, activity and mental health of residents. Large-scale assessment of perceptions of neighbourhood quality was pioneered by the Place Pulse projects. Researchers demonstrated the efficacy of crowd-sourcing perception ratings of image pairs across 56 cities and training a model to predict perceptions from street-view images. Variation across cities may limit Place Pulse's usefulness for assessing within-city perceptions. In this paper, we set forth a protocol for city-specific dataset collection for the perception: 'On which street would you prefer to walk?'. This paper describes our methodology, based in London, including collection of images and ratings, web development, model training and mapping. Assessment of within-city perceptions of neighbourhoods can identify inequities, inform planning priorities, and identify temporal dynamics. Code available: https://emilymuller1991.github.io/urban-perceptions/.
翻訳日:2022-11-23 19:03:28 公開日:2022-11-22
# SRTGAN: 実世界の超解法のためのトリプルト損失に基づく生成的敵対ネットワーク

SRTGAN: Triplet Loss based Generative Adversarial Network for Real-World Super-Resolution ( http://arxiv.org/abs/2211.12180v1 )

ライセンス: Link先を確認
Dhruv Patel, Abhinav Jain, Simran Bawkar, Manav Khorasiya, Kalpesh Prajapati, Kishor Upla, Kiran Raja, Raghavendra Ramachandra, and Christoph Busch(参考訳) 鑑識、監視、衛星画像、医用画像などの多くの応用では、高解像度(HR)画像が要求される。 しかし、光学センサの限界とコストのため、HR画像を取得することは必ずしも不可能ではない。 SISR(Single Image Super-Resolution)と呼ばれる別のソリューションは、低解像度(LR)画像を取得し、HR画像を取得することを目的としたソフトウェア駆動のアプローチである。 ほとんどの SISR ソリューションは、ターゲットとして地上の真理HR 画像を使用し、LR 画像に提供される情報を含まない。 本稿では,Triplet Loss-based Generative Adversarial Network for Image Super-Resolution problem on real-world degradationについて紹介する。 本稿では,lr画像に提供された情報を負のサンプルとして利用する新しい三重項逆損失関数を提案する。 パッチベースの識別器にHR画像とLR画像の両方へのアクセスを可能にすることにより、HR画像とLR画像をよりよく区別できる。 さらに,その逆損失,コンテンツ損失,知覚損失,品質損失を融合し,高い知覚忠実度を有する超解像度(sr)画像を得る。 提案手法は,実srデータセット上の他の既存手法よりも定量的・質的指標において優れた性能を検証できる。

Many applications such as forensics, surveillance, satellite imaging, medical imaging, etc., demand High-Resolution (HR) images. However, obtaining an HR image is not always possible due to the limitations of optical sensors and their costs. An alternative solution called Single Image Super-Resolution (SISR) is a software-driven approach that aims to take a Low-Resolution (LR) image and obtain the HR image. Most supervised SISR solutions use ground truth HR image as a target and do not include the information provided in the LR image, which could be valuable. In this work, we introduce Triplet Loss-based Generative Adversarial Network hereafter referred as SRTGAN for Image Super-Resolution problem on real-world degradation. We introduce a new triplet-based adversarial loss function that exploits the information provided in the LR image by using it as a negative sample. Allowing the patch-based discriminator with access to both HR and LR images optimizes to better differentiate between HR and LR images; hence, improving the adversary. Further, we propose to fuse the adversarial loss, content loss, perceptual loss, and quality loss to obtain Super-Resolution (SR) image with high perceptual fidelity. We validate the superior performance of the proposed method over the other existing methods on the RealSR dataset in terms of quantitative and qualitative metrics.
翻訳日:2022-11-23 19:03:12 公開日:2022-11-22
# GitFL: バージョン管理による適応型非同期フェデレーション学習

GitFL: Adaptive Asynchronous Federated Learning using Version Control ( http://arxiv.org/abs/2211.12049v1 )

ライセンス: Link先を確認
Ming Hu and Zeke Xia and Zhihao Yue and Jun Xia and Yihao Huang and Yang Liu and Mingsong Chen(参考訳) データプライバシを損なうことなくコラボレーティブなトレーニングを可能にする有望な分散機械学習パラダイムとして、フェデレーション学習(fl)はaiot(artificial intelligence of things)設計でますます使われてきた。 しかし, トラグリング装置の効率的な管理が欠如しているため, 既存のFL法は推論精度が低く, 長時間の訓練が困難であった。 AIoTシナリオに存在するさまざまな不確実な要因(ネットワーク遅延、プロセスのバリエーションに起因するパフォーマンスのばらつきなど)を考慮に入れると、事態はさらに悪化する。 本稿では,有名なバージョン管理システムGitにインスパイアされた,新しい非同期FLフレームワークGitFLを提案する。 従来のflとは異なり、gitflのクラウドサーバはマスタモデル(すなわちグローバルモデル)と、選択したデバイスが実行するトレーニングされたローカルモデルを示す一連のブランチモデル(プッシュされたブランチモデルとバージョン情報の両方に基づいてマスタモデルを更新し、プル操作後のブランチモデルのみをデバイスに送信する)を保持する。 提案した強化学習(Reinforcement Learning, RL)に基づくデバイス選択機構を用いることで, より古いバージョンを持つプル分岐モデルを, 次のラウンドのローカルトレーニングのために,より高速で少ない頻度で選択したデバイスに送信する可能性が高まる。 このようにして、GitFLはモデル安定性の効果的な制御と、ストラグデバイス間のバージョン付きモデルの適応負荷バランスの両方を可能にし、パフォーマンスの劣化を回避することができる。 よく知られているモデルとデータセットの包括的な実験結果によると、最先端の非同期flメソッドと比較して、gitflは最大2.64倍のトレーニングアクセラレーションと7.88%の推論精度向上を達成できる。

As a promising distributed machine learning paradigm that enables collaborative training without compromising data privacy, Federated Learning (FL) has been increasingly used in AIoT (Artificial Intelligence of Things) design. However, due to the lack of efficient management of straggling devices, existing FL methods greatly suffer from the problems of low inference accuracy and long training time. Things become even worse when taking various uncertain factors (e.g., network delays, performance variances caused by process variation) existing in AIoT scenarios into account. To address this issue, this paper proposes a novel asynchronous FL framework named GitFL, whose implementation is inspired by the famous version control system Git. Unlike traditional FL, the cloud server of GitFL maintains a master model (i.e., the global model) together with a set of branch models indicating the trained local models committed by selected devices, where the master model is updated based on both all the pushed branch models and their version information, and only the branch models after the pull operation are dispatched to devices. By using our proposed Reinforcement Learning (RL)-based device selection mechanism, a pulled branch model with an older version will be more likely to be dispatched to a faster and less frequently selected device for the next round of local training. In this way, GitFL enables both effective control of model staleness and adaptive load balance of versioned models among straggling devices, thus avoiding the performance deterioration. Comprehensive experimental results on well-known models and datasets show that, compared with state-of-the-art asynchronous FL methods, GitFL can achieve up to 2.64X training acceleration and 7.88% inference accuracy improvements in various uncertain scenarios.
翻訳日:2022-11-23 18:57:57 公開日:2022-11-22
# プレイヤーは次に動くのか? バドミントンにおける運動予測のための動的グラフと階層融合

Where Will Players Move Next? Dynamic Graphs and Hierarchical Fusion for Movement Forecasting in Badminton ( http://arxiv.org/abs/2211.12217v1 )

ライセンス: Link先を確認
Kai-Shiang Chang, Wei-Yao Wang, Wen-Chih Peng(参考訳) 各種データの分析により,トレーニング戦略やプレーヤ評価などの洞察が得られ,スポーツ分析が注目を集めている。 そこで本稿では,どの種類の復帰ストロークが作られるか,また,選手が前回のストロークに基づいてどこに移動するかを予測することに焦点を当てる。 この問題はこれまで解決されていないため、シーケンス予測タスクとして定式化することにより、シーケンスベースおよびグラフベースのモデルを通じて動き予測に取り組むことができる。 しかし、既存のシーケンスベースのモデルはプレイヤー間の相互作用の影響を無視しており、グラフベースのモデルは次の動きに対する多面的視点に苦しむ。 また、プレイヤーのショットタイプや動きの戦略的関係を表現する作業は現存していない。 これらの課題に対処するために,まず,プレイヤーの動き(pm)グラフの手順を導入し,プレイヤーの構造的動きを戦略的関係に活用する。 PMグラフに基づいて,対話スタイル抽出器を用いた動的グラフと階層型動き予測モデル(DyMF)を提案する。 さらに、階層的融合モジュールはプレイヤーとラリー相互作用の両方のスタイルの影響を組み込むように設計されている。 広範な実験により,本モデルが逐次的およびグラフ的手法を経験的に上回っており,動き予測の実用性が示される。

Sports analytics has captured increasing attention since analysis of the various data enables insights for training strategies, player evaluation, etc. In this paper, we focus on predicting what types of returning strokes will be made, and where players will move to based on previous strokes. As this problem has not been addressed to date, movement forecasting can be tackled through sequence-based and graph-based models by formulating as a sequence prediction task. However, existing sequence-based models neglect the effects of interactions between players, and graph-based models still suffer from multifaceted perspectives on the next movement. Moreover, there is no existing work on representing strategic relations among players' shot types and movements. To address these challenges, we first introduce the procedure of the Player Movements (PM) graph to exploit the structural movements of players with strategic relations. Based on the PM graph, we propose a novel Dynamic Graphs and Hierarchical Fusion for Movement Forecasting model (DyMF) with interaction style extractors to capture the mutual interactions of players themselves and between both players within a rally, and dynamic players' tactics across time. In addition, hierarchical fusion modules are designed to incorporate the style influence of both players and rally interactions. Extensive experiments show that our model empirically outperforms both sequence- and graph-based methods and demonstrate the practical usage of movement forecasting.
翻訳日:2022-11-23 18:57:22 公開日:2022-11-22
# プレイヤー戦術シミュレーションのための強化学習バドミントン環境(学生要約)

A Reinforcement Learning Badminton Environment for Simulating Player Tactics (Student Abstract) ( http://arxiv.org/abs/2211.12234v1 )

ライセンス: Link先を確認
Li-Chun Huang, Nai-Zen Hseuh, Yen-Che Chien, Wei-Yao Wang, Kuang-Da Wang, Wen-Chih Peng(参考訳) 近年のスポーツ分析技術は,選手のパフォーマンス向上とファンエンゲージメント向上に様々なアプローチを刺激している。 しかし、既存のアプローチでは、リアルタイムマッチングのテストでは徹底的なコストが必要で、複製できないため、オフラインパフォーマンスの評価しかできない。 安全かつ再現可能なシミュレータでテストするために,我々はターンベーススポーツに焦点を合わせ,異なる視点でアライリーをシミュレートし,状態,行動,訓練手順を設計し,バドミントン環境を導入する。 これは、戦術調査のために過去のマッチをシミュレートすることでコーチやプレイヤーに利益をもたらすだけでなく、新しいアルゴリズムを迅速に評価することで研究者に利益をもたらす。

Recent techniques for analyzing sports precisely has stimulated various approaches to improve player performance and fan engagement. However, existing approaches are only able to evaluate offline performance since testing in real-time matches requires exhaustive costs and cannot be replicated. To test in a safe and reproducible simulator, we focus on turn-based sports and introduce a badminton environment by simulating rallies with different angles of view and designing the states, actions, and training procedures. This benefits not only coaches and players by simulating past matches for tactic investigation, but also researchers from rapidly evaluating their novel algorithms.
翻訳日:2022-11-23 18:56:42 公開日:2022-11-22
# global $k$-means$++$:グローバル$k$-meansクラスタリングアルゴリズムの効果的な緩和

Global $k$-means$++$: an effective relaxation of the global $k$-means clustering algorithm ( http://arxiv.org/abs/2211.12271v1 )

ライセンス: Link先を確認
Georgios Vardakas and Aristidis Likas(参考訳) k$-meansアルゴリズムは、単純性、有効性、速度のため、非常に一般的なクラスタリング手法であるが、その主な欠点は、クラスタセンターの初期位置に対する高い感度である。 グローバル$k$-meansはk-meansのランダム初期化問題に取り組むために提案される決定論的アルゴリズムであるが、計算コストが高い。 データを$k$クラスタに分割し、$k=1,\ldots, k$ですべての$k$-meansサブプロブレムを段階的に解決する。 k$クラスタ問題ごとに、このメソッドは$k$-meansアルゴリズム$n$ timesを実行し、$n$はデータポイントの数である。 本稿では,グローバル$k$-means$++$クラスタリングアルゴリズムを提案する。 これは、有効な$k$-means$++$アルゴリズムで使用される中央セクション確率を活用することで実現される。 提案手法は, 様々な実データと合成データを用いて, クラスタリング品質と実行速度の点で非常に満足できる結果を得た。

The $k$-means algorithm is a very prevalent clustering method because of its simplicity, effectiveness, and speed, but its main disadvantage is its high sensitivity to the initial positions of the cluster centers. The global $k$-means is a deterministic algorithm proposed to tackle the random initialization problem of k-means but requires high computational cost. It partitions the data to $K$ clusters by solving all $k$-means sub-problems incrementally for $k=1,\ldots, K$. For each $k$ cluster problem, the method executes the $k$-means algorithm $N$ times, where $N$ is the number of data points. In this paper, we propose the global $k$-means$++$ clustering algorithm, which is an effective way of acquiring quality clustering solutions akin to those of global $k$-means with a reduced computational load. This is achieved by exploiting the center section probability that is used in the effective $k$-means$++$ algorithm. The proposed method has been tested and compared in various well-known real and synthetic datasets yielding very satisfactory results in terms of clustering quality and execution speed.
翻訳日:2022-11-23 18:56:25 公開日:2022-11-22
# 非加法的測度の輸送問題

The transport problem for non-additive measures ( http://arxiv.org/abs/2211.12150v1 )

ライセンス: Link先を確認
Vicen\c{c} Torra(参考訳) ファジィ測度、キャパシティ、モノトニックゲームとして知られる非加法的測度は、異なる分野においてますます使われている。 コンピュータサイエンスや人工知能において、意思決定、画像処理、分類と回帰のための機械学習といった応用が構築されている。 測定のためのツールが構築されている。 つまり、非加法的測度は加法的測度よりも一般的なので(確率よりも)、後者ではモデル化できない状況や問題をモデル化できるより良いモデリング能力を持つ。 例えば、エルスバーグ・パラドックスとアリス・パラドックスの両方をモデル化するための非加法測度とチョケ積分の応用を参照。 そのため、非付加的措置の分析の必要性が高まっている。 距離とそれらを比較するための類似性も例外ではない。 それらのために$f$-divergenceを定義する作業がいくつか行われている。 本研究は, 今までの知識に照らされてはいなかった非付加的措置の輸送問題を解消する問題に対処するものである。 最適輸送に基づく確率分布の対の距離は、実用的応用において非常によく使われており、数学的性質について広く研究されている。 同様のフレーバーで適切な定義を与える必要があり、非加法測度に対して標準的な定義を一般化する必要があると考える。 我々は m\"obius 変換に基づく定義を提供するが、いくつかの利点があると考えられる $(\max, +)$-transform にも基づいている。 本稿では,非加法的措置の輸送問題を定義する上で生じる問題点について論じ,その解決方法について論じる。 本稿では、最適輸送問題の定義を提供し、いくつかの特性を証明する。

Non-additive measures, also known as fuzzy measures, capacities, and monotonic games, are increasingly used in different fields. Applications have been built within computer science and artificial intelligence related to e.g. decision making, image processing, machine learning for both classification, and regression. Tools for measure identification have been built. In short, as non-additive measures are more general than additive ones (i.e., than probabilities), they have better modeling capabilities allowing to model situations and problems that cannot be modelled by the latter. See e.g. the application of non-additive measures and the Choquet integral to model both Ellsberg paradox and Allais paradox. Because of that, there is an increasing need to analyze non-additive measures. The need for distances and similarities to compare them is no exception. Some work has been done for definining $f$-divergence for them. In this work we tackle the problem of definining the transport problem for non-additive measures, which has not been considered up to our knowledge up to now. Distances for pairs of probability distributions based on the optimal transport are extremely used in practical applications, and they are being studied extensively for the mathematical properties. We consider that it is necessary to provide appropriate definitions with a similar flavour, and that generalize the standard ones, for non-additive measures. We provide definitions based on the M\"obius transform, but also based on the $(\max, +)$-transform that we consider that has some advantages. We will discuss in this paper the problems that arise to define the transport problem for non-additive measures, and discuss ways to solve them. In this paper we provide the definitions of the optimal transport problem, and prove some properties.
翻訳日:2022-11-23 18:55:09 公開日:2022-11-22
# 高等教育における学習計画とモニタリングのためのプロセスマイニングとルールベースAIの併用

A Combined Approach of Process Mining and Rule-based AI for Study Planning and Monitoring in Higher Education ( http://arxiv.org/abs/2211.12190v1 )

ライセンス: Link先を確認
Miriam Wagner, Hayyan Helal, Rene Roepke, Sven Judel, Jens Doveren, Sergej Goerzen, Pouya Soudmand, Gerhard Lakemeyer, Ulrik Schroeder, Wil van der Aalst(参考訳) 本稿では,プロセスマイニングとルールベース人工知能を用いて,キャンパス管理システムデータと学習プログラムモデルに基づいて,学生の学習経路を分析し,理解する手法を提案する。 プロセスマイニング技術は、成功した学習パスを特徴付けるだけでなく、期待される計画からの逸脱を検知し可視化するために使われる。 これらの知見は、試験規則から抽出された対応する研究プログラムの勧告と要件とを組み合わせる。 ここでは,学習計画違反の可能性のあるフィードバックを提供しつつ,計画と適合性チェックを支援する研究プログラムのモデルを提供するために,イベント計算と回答セットプログラミングを用いる。 その組み合わせにおいて、プロセスマイニングとルールベースの人工知能は、より高い成功率で学生をより適切な学習経路に導くための規則と推奨を導出することにより、学習計画とモニタリングを支援するために使用される。 2つのアプリケーションが実装され、1つは学生向け、1つは学習プログラムデザイナー向けである。

This paper presents an approach of using methods of process mining and rule-based artificial intelligence to analyze and understand study paths of students based on campus management system data and study program models. Process mining techniques are used to characterize successful study paths, as well as to detect and visualize deviations from expected plans. These insights are combined with recommendations and requirements of the corresponding study programs extracted from examination regulations. Here, event calculus and answer set programming are used to provide models of the study programs which support planning and conformance checking while providing feedback on possible study plan violations. In its combination, process mining and rule-based artificial intelligence are used to support study planning and monitoring by deriving rules and recommendations for guiding students to more suitable study paths with higher success rates. Two applications will be implemented, one for students and one for study program designers.
翻訳日:2022-11-23 18:54:43 公開日:2022-11-22
# 拡大参加型ai:不平等施設における夢支援

Expansive Participatory AI: Supporting Dreaming within Inequitable Institutions ( http://arxiv.org/abs/2211.12434v1 )

ライセンス: Link先を確認
Michael Alan Chang and Shiran Dudy(参考訳) 参加型人工知能(Participatory Artificial Intelligence, PAI)は、最近、集団の生きた経験を通して技術設計を知らせる手段として研究者から関心を集めている。 PAIは、開発者に有用なインプットを提供するという約束以上のものを持ち、技術設計を民主化し、何を設計すべきかに焦点を合わせるプロセスに貢献することができる。 しかし、PAIの過程では、関係する利害関係者の広範な夢と願望の実現を妨げる制度的な力のダイナミクスが存在する。 本研究では,若年者を対象とした参加型AIに焦点をあてた機関パワーダイナミクスに対処する,AIのための共同設計プリンシパルを提案する。

Participatory Artificial Intelligence (PAI) has recently gained interest by researchers as means to inform the design of technology through collective's lived experience. PAI has a greater promise than that of providing useful input to developers, it can contribute to the process of democratizing the design of technology, setting the focus on what should be designed. However, in the process of PAI there existing institutional power dynamics that hinder the realization of expansive dreams and aspirations of the relevant stakeholders. In this work we propose co-design principals for AI that address institutional power dynamics focusing on Participatory AI with youth.
翻訳日:2022-11-23 18:54:29 公開日:2022-11-22
# 二次プログラミングを高速化する文脈認識型適応解法

Learning context-aware adaptive solvers to accelerate quadratic programming ( http://arxiv.org/abs/2211.12443v1 )

ライセンス: Link先を確認
Haewon Jung, Junyoung Park, Jinkyoo Park(参考訳) 凸二次計画法(QP)は数学最適化の重要な部分分野である。 乗算器の交互方向法(ADMM)はQPの解法として成功している。 ADMMは様々なQPを解く上で有望な結果を示すが、収束速度はステップサイズパラメータ$\rho$に依存することが知られている。 $\rho$ を設定する一般的なルールがないため、手動またはヒューリスティックに調整されることが多い。 本稿では,ADMMを高速化するために$\rho$を適応的に調整することを学ぶCA-ADMM(Context-aware Adaptive ADMM)を提案する。 CA-ADMMは時空間的文脈を抽出し、QPの原始変数と双対変数の依存性とADMM反復中の時間的進化を捉える。 CA-ADMMは抽出したコンテキストに基づいて$\rho$を選択する。 広範囲にわたる数値実験により,CA-ADMMは,異なる大きさとクラス(QPパラメータ構造が異なる)のQP問題を効果的に一般化することを確認した。 さらに,CA-ADMMは最適化プロセスの段階を考慮して$\rho$を動的に調整し,収束速度をさらに加速できることを確認した。

Convex quadratic programming (QP) is an important sub-field of mathematical optimization. The alternating direction method of multipliers (ADMM) is a successful method to solve QP. Even though ADMM shows promising results in solving various types of QP, its convergence speed is known to be highly dependent on the step-size parameter $\rho$. Due to the absence of a general rule for setting $\rho$, it is often tuned manually or heuristically. In this paper, we propose CA-ADMM (Context-aware Adaptive ADMM)) which learns to adaptively adjust $\rho$ to accelerate ADMM. CA-ADMM extracts the spatio-temporal context, which captures the dependency of the primal and dual variables of QP and their temporal evolution during the ADMM iterations. CA-ADMM chooses $\rho$ based on the extracted context. Through extensive numerical experiments, we validated that CA-ADMM effectively generalizes to unseen QP problems with different sizes and classes (i.e., having different QP parameter structures). Furthermore, we verified that CA-ADMM could dynamically adjust $\rho$ considering the stage of the optimization process to accelerate the convergence speed further.
翻訳日:2022-11-23 18:54:16 公開日:2022-11-22
# AeDet: Azimuth-invariant Multi-view 3D Object Detection

AeDet: Azimuth-invariant Multi-view 3D Object Detection ( http://arxiv.org/abs/2211.12501v1 )

ライセンス: Link先を確認
Chengjian Feng, Zequn Jie, Yujie Zhong, Xiangxiang Chu and Lin Ma(参考訳) 最近のLSSベースの多視点3Dオブジェクト検出は、畳み込み検出器を介してブリドアイビュー(BEV)の特徴を処理することで大幅に進歩した。 しかし、典型的な畳み込みは、BEV特徴の放射対称性を無視し、検出器最適化の難しさを高める。 BEVの特性の保存と最適化の容易化を目的として,アジマス同変畳み込み(AeConv)とアジマス同変アンカーを提案する。 AeConvのサンプリンググリッドは常に放射方向であり、方位不変なBEV特徴を学習することができる。 提案するアンカーにより,検出ヘッドは方位非関連目標の予測を学習できる。 さらに,カメラが分離した仮想深度を導入し,カメラ固有のパラメータの異なる画像の深度予測を統一する。 結果検出器は azimuth-equivariant detector (aedet) と呼ばれる。 AeDet は PETRv2 (58.2% NDS) や BEVDepth (60.0% NDS) といった最近の多視点3Dオブジェクト検出器をはるかに上回る 62.0% NDS を達成する。 プロジェクトページ: https://fcjian.github.io/aedet。

Recent LSS-based multi-view 3D object detection has made tremendous progress, by processing the features in Brid-Eye-View (BEV) via the convolutional detector. However, the typical convolution ignores the radial symmetry of the BEV features and increases the difficulty of the detector optimization. To preserve the inherent property of the BEV features and ease the optimization, we propose an azimuth-equivariant convolution (AeConv) and an azimuth-equivariant anchor. The sampling grid of AeConv is always in the radial direction, thus it can learn azimuth-invariant BEV features. The proposed anchor enables the detection head to learn predicting azimuth-irrelevant targets. In addition, we introduce a camera-decoupled virtual depth to unify the depth prediction for the images with different camera intrinsic parameters. The resultant detector is dubbed Azimuth-equivariant Detector (AeDet). Extensive experiments are conducted on nuScenes, and AeDet achieves a 62.0% NDS, surpassing the recent multi-view 3D object detectors such as PETRv2 (58.2% NDS) and BEVDepth (60.0% NDS) by a large margin. Project page: https://fcjian.github.io/aedet.
翻訳日:2022-11-23 18:48:01 公開日:2022-11-22
# 合意に基づく最適化におけるメモリ効果と勾配情報の活用:平均場法における大域収束について

Leveraging Memory Effects and Gradient Information in Consensus-Based Optimization: On Global Convergence in Mean-Field Law ( http://arxiv.org/abs/2211.12184v1 )

ライセンス: Link先を確認
Konstantin Riedl(参考訳) 本稿では,高次元で非凸および非滑らかな大域的最適化を行うのに適した多用途でフレキシベルでカスタマイズ可能な最適化手法であるコンセンサスベース最適化(cbo)について検討する。 CBOは多粒子メタヒューリスティックであり、様々な応用に有効であり、同時に最小限の設計により理論解析に有効である。 しかし、基盤となるダイナミクスは、進化的計算と機械学習で広く使用される様々なメカニズムを組み込むのに十分な柔軟性を持ち、メモリ効果と勾配情報を利用するcboの変種を分析して示している。 我々は、このダイナミクスが、メソッドの初期化に関する最小の仮定の下で、広範囲な関数クラスに対する平均場則における対象関数の大域的最小化に収束することを厳密に証明する。 特にこの証明は、証明可能なグローバル収束をなくすことなく、より有利な応用において、ダイナミクスの力を活用する方法を示している。 本研究の目的は,CBOの応用範囲を広げる機械学習や圧縮センシングなどの応用において,このCBO変種が優れていることを示す数値的証拠を,特定の応用におけるメモリ効果と勾配情報について検討することである。

In this paper we study consensus-based optimization (CBO), a versatile, flexibel and customizable optimization method suitable for performing nonconvex and nonsmooth global optimizations in high dimensions. CBO is a multi-particle metaheuristic, which is effective in various applications and at the same time amenable to theoretical analysis thanks to its minimalistic design. The underlying dynamics, however, is flexible enough to incorporate different mechanisms widely used in evolutionary computation and machine learning, as we show by analyzing a variant of CBO which makes use of memory effects and gradient information. We rigorously prove that this dynamics converges to a global minimizer of the objective function in mean-field law for a vast class of functions under minimal assumptions on the initialization of the method. The proof in particular reveals how to leverage further, in some applications advantageous, forces in the dynamics without loosing provable global convergence. To demonstrate the benefit of the herein investigated memory effects and gradient information in certain applications, we present numerical evidence for the superiority of this CBO variant in applications such as machine learning and compressed sensing, which en passant widen the scope of applications of CBO.
翻訳日:2022-11-23 18:47:37 公開日:2022-11-22
# 自然言語処理におけるバックドア攻撃と防御に関する調査

A Survey on Backdoor Attack and Defense in Natural Language Processing ( http://arxiv.org/abs/2211.11958v1 )

ライセンス: Link先を確認
Xuan Sheng, Zhaoyang Han, Piji Li, Xiangmao Chang(参考訳) ディープラーニングは、現実のアプリケーション、特に自然言語処理(nlp)で人気が高まっている。 ユーザは多くの場合、トレーニングアウトソーシングを選択したり、データや計算リソースが限られているため、サードパーティのデータやモデルを採用する。 このような状況下では、トレーニングデータとモデルが一般に公開される。 その結果、攻撃者はトレーニングプロセスを操作してモデルにいくつかのトリガーを注入することができる。 バックドア攻撃は非常にステルス的であり、クリーンサンプルに対するモデルの性能に劣る影響が少ないため検出が困難である。 この問題を正確に把握し理解するために,本稿ではnlpの分野におけるバックドア攻撃と防御の包括的レビューを行う。 さらに、ベンチマークデータセットを要約し、バックドア攻撃から守るために信頼できるシステムを設計するためのオープンイシューを指摘する。

Deep learning is becoming increasingly popular in real-life applications, especially in natural language processing (NLP). Users often choose training outsourcing or adopt third-party data and models due to data and computation resources being limited. In such a situation, training data and models are exposed to the public. As a result, attackers can manipulate the training process to inject some triggers into the model, which is called backdoor attack. Backdoor attack is quite stealthy and difficult to be detected because it has little inferior influence on the model's performance for the clean samples. To get a precise grasp and understanding of this problem, in this paper, we conduct a comprehensive review of backdoor attacks and defenses in the field of NLP. Besides, we summarize benchmark datasets and point out the open issues to design credible systems to defend against backdoor attacks.
翻訳日:2022-11-23 18:47:16 公開日:2022-11-22
# カザフ語テキスト文書の類似性決定手法:TF-IDFの拡張

Method for Determining the Similarity of Text Documents for the Kazakh language, Taking Into Account Synonyms: Extension to TF-IDF ( http://arxiv.org/abs/2211.12364v1 )

ライセンス: Link先を確認
Bakhyt Bakiyev(参考訳) テキストの類似性を決定するタスクは,情報検索,テキストマイニング,自然言語処理(NLP),計算言語学など,多くの分野において注目されている。 数値ベクトルへのデータ転送は複雑なタスクであり、トークン化、ストップワードフィルタリング、スターティング、項重み付けなどのアルゴリズムが使用される。 周波数-逆文書周波数(TF-IDF)は、関連文書の検索を容易にするために最も広く使われている用語重み付け法である。 項の重み付けを改善するため、TF-IDF拡張が多数作成されている。 本稿では,同義語を考慮したTF-IDF法の拡張を提案する。 本手法の有効性は,カザフ語用テキスト文書の類似度を測定するために,コサイン,ダイス,ジャカードなどの関数を用いた実験によって確認された。

The task of determining the similarity of text documents has received considerable attention in many areas such as Information Retrieval, Text Mining, Natural Language Processing (NLP) and Computational Linguistics. Transferring data to numeric vectors is a complex task where algorithms such as tokenization, stopword filtering, stemming, and weighting of terms are used. The term frequency - inverse document frequency (TF-IDF) is the most widely used term weighting method to facilitate the search for relevant documents. To improve the weighting of terms, a large number of TF-IDF extensions are made. In this paper, another extension of the TF-IDF method is proposed where synonyms are taken into account. The effectiveness of the method is confirmed by experiments on functions such as Cosine, Dice and Jaccard to measure the similarity of text documents for the Kazakh language.
翻訳日:2022-11-23 18:47:04 公開日:2022-11-22
# BASM:オンライン食品注文サービスのためのボトムアップ適応時空間モデル

BASM: A Bottom-up Adaptive Spatiotemporal Model for Online Food Ordering Service ( http://arxiv.org/abs/2211.12033v1 )

ライセンス: Link先を確認
Boya Du, Shaochuan Lin, Jiong Gao, Xiyu Ji, Mengya Wang, Taotao Zhou, Hengxu He, Jia Jia, Ning Hu(参考訳) オンライン食品注文サービス(Online Food Ordering Service、OFOS)は、ユーザーが好きなものを注文するのを助ける位置情報ベースのサービスだ。 従来の電子商取引のレコメンデーションシステムと比較すると、ユーザーの興味は時空間的文脈によって多様であり、モデルの適合能力を制限する様々な時空間的データ分布に繋がる。 しかし、現在の多くの研究は、単純に全てのサンプルを混合してモデルのパラメータのセットを訓練することで、異なる時空間で多様性を捉えるのが難しくなっている。 そこで本研究では, ボトムアップ適応時空間モデル(BASM)を提案し, 時空間データ分布を適応的に適合させ, モデルの適合性をさらに向上させる。 具体的には、時空間認識層は、時空間文脈を動的に知覚する目的を達成するため、特徴埋め込みにおけるフィールドの粒度に重み適応を行う。 一方,我々は,生意味論の連結入力を時空間意味論に明示的に変換する時空間意味変換層を提案し,時空間的文脈における意味表現をさらに強化する。 さらに, 多様な時空間バイアスを捕捉し, 時空間差をモデル化する難しさを低減できる新しい時空間適応型バイアスタワーを提案する。 また,BASMの有効性を検証するために,TAUC(Time- period-wise AUC)とCAUC(City-wise AUC)の2つの新しい指標を提案する。 提案手法の有効性を示すため,公共および産業用データセットの大規模なオフライン評価を行った。 オンラインA/B実験では、モデルオンラインサービスの実践性も説明されている。 提案手法は現在,中国の大手オンライン食品注文プラットフォームであるEle.me上で実装されており,1億人以上のオンラインユーザを対象としている。

Online Food Ordering Service (OFOS) is a popular location-based service that helps people to order what you want. Compared with traditional e-commerce recommendation systems, users' interests may be diverse under different spatiotemporal contexts, leading to various spatiotemporal data distribution, which limits the fitting capacity of the model. However, numerous current works simply mix all samples to train a set of model parameters, which makes it difficult to capture the diversity in different spatiotemporal contexts. Therefore, we address this challenge by proposing a Bottom-up Adaptive Spatiotemporal Model(BASM) to adaptively fit the spatiotemporal data distribution, which further improve the fitting capability of the model. Specifically, a spatiotemporal-aware embedding layer performs weight adaptation on field granularity in feature embedding, to achieve the purpose of dynamically perceiving spatiotemporal contexts. Meanwhile, we propose a spatiotemporal semantic transformation layer to explicitly convert the concatenated input of the raw semantic to spatiotemporal semantic, which can further enhance the semantic representation under different spatiotemporal contexts. Furthermore, we introduce a novel spatiotemporal adaptive bias tower to capture diverse spatiotemporal bias, reducing the difficulty to model spatiotemporal distinction. To further verify the effectiveness of BASM, we also novelly propose two new metrics, Time-period-wise AUC (TAUC) and City-wise AUC (CAUC). Extensive offline evaluations on public and industrial datasets are conducted to demonstrate the effectiveness of our proposed modle. The online A/B experiment also further illustrates the practicability of the model online service. This proposed method has now been implemented on the Ele.me, a major online food ordering platform in China, serving more than 100 million online users.
翻訳日:2022-11-23 18:45:24 公開日:2022-11-22
# 予めパラメータを生成するハイパーネットワークを用いた時系列予測

Time Series Forecasting with Hypernetworks Generating Parameters in Advance ( http://arxiv.org/abs/2211.12034v1 )

ライセンス: Link先を確認
Jaehoon Lee, Chan Kim, Gyumin Lee, Haksoo Lim, Jeongwhan Choi, Kookjin Lee, Dongeun Lee, Sanghyun Hong, Noseong Park(参考訳) 最近の時系列データから将来の結果を予測することは、特に未来データが過去と異なる場合(つまり、時系列は時間的ドリフト下にある)は容易ではない。 モデルが十分なトレーニングデータを収集し、基礎となるダイナミクスが変化するたびに、そのパラメータを複雑な時間パターンに調整するのに時間がかかります。 モデルパラメータを(新しいデータ上でモデルを継続的に再トレーニングすることで)調整するのではなく、将来のデータでうまく動作すると期待される他のターゲットモデルのパラメータを生成するハイパーネットワークを構築する。 したがって、モデルパラメータを事前に調整することができる(ハイパーネットワークが正しければ)。 6つのターゲットモデル、6つのベースライン、4つのデータセットで広範な実験を行い、HyperGPAが他のベースラインより優れていることを示す。

Forecasting future outcomes from recent time series data is not easy, especially when the future data are different from the past (i.e. time series are under temporal drifts). Existing approaches show limited performances under data drifts, and we identify the main reason: It takes time for a model to collect sufficient training data and adjust its parameters for complicated temporal patterns whenever the underlying dynamics change. To address this issue, we study a new approach; instead of adjusting model parameters (by continuously re-training a model on new data), we build a hypernetwork that generates other target models' parameters expected to perform well on the future data. Therefore, we can adjust the model parameters beforehand (if the hypernetwork is correct). We conduct extensive experiments with 6 target models, 6 baselines, and 4 datasets, and show that our HyperGPA outperforms other baselines.
翻訳日:2022-11-23 18:44:56 公開日:2022-11-22
# 半教師付き意味セグメンテーションのためのクロスウィンドウ一貫性を用いたプログレッシブ学習

Progressive Learning with Cross-Window Consistency for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2211.12425v1 )

ライセンス: Link先を確認
Bo Dang, Yansheng Li(参考訳) 半教師付きセマンティックセグメンテーションは、少量のラベル付きデータと大量のラベル付きデータの探索に焦点を当てている。 しかし、ラベルのない画像を完全に効果的に活用できないため、まだ妨げられている。 本稿では,クロスウィンドウ一貫性(cwc)がラベルなしデータから補助監督を包括的に抽出する上で有効であることを示す。 さらに,大量のラベルのないデータから弱い制約を抽出し,深層ネットワークを最適化する,新しいCWC主導のプログレッシブラーニングフレームワークを提案する。 具体的には,異なるウィンドウの重なり合う領域からの信頼マップをネットワークが明示的に拘束し,より大きなコンテキストとのセマンティック一貫性を維持することを支援する。 さらに,動的擬似ラベルメモリバンク(DPM)を提案し,ネットワークをさらに最適化するために,高一貫性と高信頼性の擬似ラベルを提供する。 都市ビュー、医療シナリオ、衛星シーンの3つの代表的なデータセットに関する広範囲な実験は、我々の枠組みが最先端の手法を大きなマージンで一貫して上回っていることを示している。 コードは公開されます。

Semi-supervised semantic segmentation focuses on the exploration of a small amount of labeled data and a large amount of unlabeled data, which is more in line with the demands of real-world image understanding applications. However, it is still hindered by the inability to fully and effectively leverage unlabeled images. In this paper, we reveal that cross-window consistency (CWC) is helpful in comprehensively extracting auxiliary supervision from unlabeled data. Additionally, we propose a novel CWC-driven progressive learning framework to optimize the deep network by mining weak-to-strong constraints from massive unlabeled data. More specifically, this paper presents a biased cross-window consistency (BCC) loss with an importance factor, which helps the deep network explicitly constrain confidence maps from overlapping regions in different windows to maintain semantic consistency with larger contexts. In addition, we propose a dynamic pseudo-label memory bank (DPM) to provide high-consistency and high-reliability pseudo-labels to further optimize the network. Extensive experiments on three representative datasets of urban views, medical scenarios, and satellite scenes demonstrate our framework consistently outperforms the state-of-the-art methods with a large margin. Code will be available publicly.
翻訳日:2022-11-23 18:38:56 公開日:2022-11-22
# カメラキャリブレーションのためのマルチタスク学習

Multi-task Learning for Camera Calibration ( http://arxiv.org/abs/2211.12432v1 )

ライセンス: Link先を確認
Talha Hanif Butt, Murtaza Taj(参考訳) 3D再構成、ロボットインタフェース、自動運転など、多くのタスクにおいて、カメラのキャリブレーションが不可欠である。 本研究では,一対の画像から本質的(主点オフセットと焦点長)と外部的(ベースライン,ピッチ,翻訳)特性を予測するための一意な方法を提案する。 我々は,マルチタスク学習フレームワークにおいて,カメラモデル方程式をニューラルネットワークとして表現する新しい手法を提案する。 カメラモデルニューラルネットワークを用いて3Dポイントを再構成し、再構成の損失を利用してカメラ仕様を得ることにより、この革新的なカメラ投影損失(CPL)法により、所望のパラメータを推定できる。 私たちが認識している限り、我々のアプローチは、カメラパラメータを推定し、外在的パラメータと内在的パラメータの両方を共同で予測するフレームワークに数学的公式を含むマルチタスク学習へのアプローチを使った最初のものである。 さらに, CARLA シミュレータ [2] を用いて収集した CVGL Camera Calibration Dataset [1] という新しいデータセットも提供した。 実際,本提案手法は,実データと合成データの両方を用いて評価した10項目中8項目の深層学習に基づいて,従来の手法と手法の両方を実行する。 私たちのコードと生成されたデータセットはhttps://github.com/thanif/Camera-Calibration-through-Camera-Projection-Lossで公開されています。

For a number of tasks, such as 3D reconstruction, robotic interface, autonomous driving, etc., camera calibration is essential. In this study, we present a unique method for predicting intrinsic (principal point offset and focal length) and extrinsic (baseline, pitch, and translation) properties from a pair of images. We suggested a novel method where camera model equations are represented as a neural network in a multi-task learning framework, in contrast to existing methods, which build a comprehensive solution. By reconstructing the 3D points using a camera model neural network and then using the loss in reconstruction to obtain the camera specifications, this innovative camera projection loss (CPL) method allows us that the desired parameters should be estimated. As far as we are aware, our approach is the first one that uses an approach to multi-task learning that includes mathematical formulas in a framework for learning to estimate camera parameters to predict both the extrinsic and intrinsic parameters jointly. Additionally, we provided a new dataset named as CVGL Camera Calibration Dataset [1] which has been collected using the CARLA Simulator [2]. Actually, we show that our suggested strategy out performs both conventional methods and methods based on deep learning on 8 out of 10 parameters that were assessed using both real and synthetic data. Our code and generated dataset are available at https://github.com/thanif/Camera-Calibration-through-Camera-Projection-Loss.
翻訳日:2022-11-23 18:38:34 公開日:2022-11-22
# 多視点RGB-Dオペレーティングルーム画像のための深さスーパービジョンNeRF

Depth-Supervised NeRF for Multi-View RGB-D Operating Room Images ( http://arxiv.org/abs/2211.12436v1 )

ライセンス: Link先を確認
Beerend G.A. Gerats, Jelmer M. Wolterink, Ivo A.M.J. Broeders(参考訳) neural radiance fields (nerf)は、静止カメラで撮影された一連の画像から3dシーンを再構成する強力な技術である。 これらの再構成のレンダリングは、例えばトレーニング目的で、手術室(OR)における仮想的な存在の役割を果たす可能性がある。 仮想存在のための既存のシステムとは対照的に、NeRFはシミュレートされた手術の代わりにリアルを提供することができる。 この研究は、ORにおけるビュー合成にNeRFをどのように使用できるかを示す。 深度監視型NeRF(DS-NeRF)は4D-ORデータセットから膝置換手術ビデオの手術現場を撮影する3つまたは5つの同期カメラで訓練される。 このアルゴリズムは、手術前後の5つの異なるフェーズで画像の訓練と評価を行う。 定性的解析により,手術現場周辺を180度移動した仮想カメラで合成した映像を検査する。 さらに,色チャネルのPSNR,SSIM,LPIPS,推定深度に対するMAE,誤差率の観点から,見えないカメラ位置からの視線合成を定量的に検討する。 DS-NeRFは、補間カメラ位置からも幾何的に一貫したビューを生成する。 ビューは、平均PSNR17.8、深さ推定誤差2.10%の、見えないカメラのポーズから生成される。 しかし、人工物や細部が欠落しているため、合成されたビューはフォトリアリスティックに見えない。 ORにおける視線合成におけるNeRFの可能性を示す。 ビデオ合成とトレーニングのスピードアップのためのNeRFのような最近の開発は、その潜在能力を明らかにするためにさらなる探索を必要としている。

Neural Radiance Fields (NeRF) is a powerful novel technology for the reconstruction of 3D scenes from a set of images captured by static cameras. Renders of these reconstructions could play a role in virtual presence in the operating room (OR), e.g. for training purposes. In contrast to existing systems for virtual presence, NeRF can provide real instead of simulated surgeries. This work shows how NeRF can be used for view synthesis in the OR. A depth-supervised NeRF (DS-NeRF) is trained with three or five synchronised cameras that capture the surgical field in knee replacement surgery videos from the 4D-OR dataset. The algorithm is trained and evaluated for images in five distinct phases before and during the surgery. With qualitative analysis, we inspect views synthesised by a virtual camera that moves in 180 degrees around the surgical field. Additionally, we quantitatively inspect view synthesis from an unseen camera position in terms of PSNR, SSIM and LPIPS for the colour channels and in terms of MAE and error percentage for the estimated depth. DS-NeRF generates geometrically consistent views, also from interpolated camera positions. Views are generated from an unseen camera pose with an average PSNR of 17.8 and a depth estimation error of 2.10%. However, due to artefacts and missing of fine details, the synthesised views do not look photo-realistic. Our results show the potential of NeRF for view synthesis in the OR. Recent developments, such as NeRF for video synthesis and training speedups, require further exploration to reveal its full potential.
翻訳日:2022-11-23 18:38:11 公開日:2022-11-22
# SinDiffusion: 1つの自然画像から拡散モデルを学ぶ

SinDiffusion: Learning a Diffusion Model from a Single Natural Image ( http://arxiv.org/abs/2211.12445v1 )

ライセンス: Link先を確認
Weilun Wang, Jianmin Bao, Wengang Zhou, Dongdong Chen, Dong Chen, Lu Yuan, Houqiang Li(参考訳) SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。 SinDiffusionは、既存のGANベースのアプローチと比較して、生成したサンプルの品質と多様性を著しく改善する。 2つのコアデザインに基づいている。 まず、SinDiffusionは複数のモデルではなく、1つのモデルでトレーニングされる。 これはエラーの蓄積を回避し、生成された結果に特徴的なアーティファクトを引き起こす。 第2に,拡散ネットワークのパッチレベル受容領域は画像のパッチ統計を捉える上で重要かつ効果的であることが確認され,拡散モデルのネットワーク構造を再設計する。 これら2つのデザインを結合することで、単一の画像からフォトリアリスティックで多様な画像を生成することができる。 さらに、sindiffusionは拡散モデルに固有の能力があるため、テキスト誘導画像生成や画像アウトペイントといった様々な用途に応用できる。 幅広い画像に対する広範囲な実験により,提案手法がパッチ分布のモデル化に優れていることが示された。

We present SinDiffusion, leveraging denoising diffusion models to capture internal distribution of patches from a single natural image. SinDiffusion significantly improves the quality and diversity of generated samples compared with existing GAN-based approaches. It is based on two core designs. First, SinDiffusion is trained with a single model at a single scale instead of multiple models with progressive growing of scales which serves as the default setting in prior work. This avoids the accumulation of errors, which cause characteristic artifacts in generated results. Second, we identify that a patch-level receptive field of the diffusion network is crucial and effective for capturing the image's patch statistics, therefore we redesign the network structure of the diffusion model. Coupling these two designs enables us to generate photorealistic and diverse images from a single image. Furthermore, SinDiffusion can be applied to various applications, i.e., text-guided image generation, and image outpainting, due to the inherent capability of diffusion models. Extensive experiments on a wide range of images demonstrate the superiority of our proposed method for modeling the patch distribution.
翻訳日:2022-11-23 18:37:48 公開日:2022-11-22
# ISIM:弱修正セグメンテーションのための反復自己改善モデル

ISIM: Iterative Self-Improved Model for Weakly Supervised Segmentation ( http://arxiv.org/abs/2211.12455v1 )

ライセンス: Link先を確認
Cenk Bircanoglu, Nafiz Arica(参考訳) Weakly Supervised Semantic Segmentation (WSSS)は,クラスレベルのラベルからセグメンテーションラベルを学習するための課題である。 文献では、クラス活性化マップ(CAM)から得られる情報を活用することがWSSS研究に広く利用されている。 しかし、CAMは分類ネットワークから得られるため、オブジェクトの最も識別性の高い部分に興味を持ち、セグメンテーションタスクの非完全事前情報を生成する。 本研究では,セグメンテーションラベルとよりコヒーレントなCAMを得るために,修正エンコーダ-デコーダ-ベースセグメンテーションモデルに反復的アプローチを用いたフレームワークを提案し,同時に分類とセグメンテーションタスクをサポートする。 基底トラストのセグメンテーションラベルは付与されないため、同じモデルが密度条件ランダムフィールド(dCRF)の助けを借りて擬似セグメンテーションラベルを生成する。 その結果,提案手法は反復的な自己改善モデルとなった。 DeepLabv3とUNetモデルで実施された実験では、Pascal VOC12データセットが大幅に向上し、DeepLabv3アプリケーションは現在の最先端メトリックを2.5%向上させた。 実験に関連する実装は、https://github.com/cenkbircanoglu/isimである。

Weakly Supervised Semantic Segmentation (WSSS) is a challenging task aiming to learn the segmentation labels from class-level labels. In the literature, exploiting the information obtained from Class Activation Maps (CAMs) is widely used for WSSS studies. However, as CAMs are obtained from a classification network, they are interested in the most discriminative parts of the objects, producing non-complete prior information for segmentation tasks. In this study, to obtain more coherent CAMs with segmentation labels, we propose a framework that employs an iterative approach in a modified encoder-decoder-based segmentation model, which simultaneously supports classification and segmentation tasks. As no ground-truth segmentation labels are given, the same model also generates the pseudo-segmentation labels with the help of dense Conditional Random Fields (dCRF). As a result, the proposed framework becomes an iterative self-improved model. The experiments performed with DeepLabv3 and UNet models show a significant gain on the Pascal VOC12 dataset, and the DeepLabv3 application increases the current state-of-the-art metric by \%2.5. The implementation associated with the experiments can be found: https://github.com/cenkbircanoglu/isim.
翻訳日:2022-11-23 18:37:33 公開日:2022-11-22
# pic-score:複数生体認証における最適一致信頼度のための確率的解釈可能な比較スコア

PIC-Score: Probabilistic Interpretable Comparison Score for Optimal Matching Confidence in Single- and Multi-Biometric (Face) Recognition ( http://arxiv.org/abs/2211.12483v1 )

ライセンス: Link先を確認
Pedro C. Neto, Ana F. Sequeira, Jaime S. Cardoso, Philipp Terh\"orst(参考訳) 生体認証学の文脈では、信頼の一致とは、与えられた一致した決定が正しいという自信を指す。 多くの生体認証システムは、法医学的な調査などの重要な意思決定プロセスで運用されているため、信頼の一致を正確かつ確実に述べることが重要となる。 バイオメトリックな信頼度推定に関する以前の研究は、高い信頼度と低い信頼度をよく区別するが、解釈可能性に欠ける。 したがって、決定の正しさの正確な確率的推定は提供されない。 本研究では,確率論的解釈可能比較(PIC)スコアを提案し,そのスコアが同一のアイデンティティのサンプルから生じる確率を正確に反映する。 提案手法が最適一致信頼度をもたらすことを実証する。 他の手法とは対照的に、複数のサンプルを共同PICスコアに最適に組み合わせることで、認識および信頼度推定性能をさらに向上させることができる。 実験では、4つの公開データベースと5つの最先端顔認識システムで利用可能な全ての生体信頼度推定手法と比較した。 その結果、PICは類似したアプローチよりもはるかに正確な確率論的解釈を持ち、マルチバイオメトリック認識に非常に有効であることが示されている。 コードは公開されている。

In the context of biometrics, matching confidence refers to the confidence that a given matching decision is correct. Since many biometric systems operate in critical decision-making processes, such as in forensics investigations, accurately and reliably stating the matching confidence becomes of high importance. Previous works on biometric confidence estimation can well differentiate between high and low confidence, but lack interpretability. Therefore, they do not provide accurate probabilistic estimates of the correctness of a decision. In this work, we propose a probabilistic interpretable comparison (PIC) score that accurately reflects the probability that the score originates from samples of the same identity. We prove that the proposed approach provides optimal matching confidence. Contrary to other approaches, it can also optimally combine multiple samples in a joint PIC score which further increases the recognition and confidence estimation performance. In the experiments, the proposed PIC approach is compared against all biometric confidence estimation methods available on four publicly available databases and five state-of-the-art face recognition systems. The results demonstrate that PIC has a significantly more accurate probabilistic interpretation than similar approaches and is highly effective for multi-biometric recognition. The code is publicly-available.
翻訳日:2022-11-23 18:37:12 公開日:2022-11-22
# MagicPony:野生の3D動物を学習する

MagicPony: Learning Articulated 3D Animals in the Wild ( http://arxiv.org/abs/2211.12497v1 )

ライセンス: Link先を確認
Shangzhe Wu, Ruining Li, Tomas Jakab, Christian Rupprecht, Andrea Vedaldi(参考訳) 本研究では, 単一実験画像から, 3次元形状, 明瞭度, 視点, テクスチャ, 照明を推定できる関数を学習する際の問題点を考察する。 変形のトポロジに関する仮定を最小限に抑えながら,対象カテゴリのワンビュー画像から純粋にこの関数を学習するMagicPonyという新しい手法を提案する。 その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。 モデルが物体の形状やポーズを理解するのを助けるために,既製の自己監督型視覚変換器で捉えた知識を3Dモデルに融合させる。 視点推定において共通の局所視能を克服するために,追加の訓練コストを伴わない新しい視点サンプリング方式も導入する。 先行研究と比較して,この課題に対する定量的,質的改善が示された。 このモデルは、実際の画像でのみ訓練されているにもかかわらず、抽象的な図面やアーティファクトを再構築する際の優れた一般化を示す。

We consider the problem of learning a function that can estimate the 3D shape, articulation, viewpoint, texture, and lighting of an articulated animal like a horse, given a single test image. We present a new method, dubbed MagicPony, that learns this function purely from in-the-wild single-view images of the object category, with minimal assumptions about the topology of deformation. At its core is an implicit-explicit representation of articulated shape and appearance, combining the strengths of neural fields and meshes. In order to help the model understand an object's shape and pose, we distil the knowledge captured by an off-the-shelf self-supervised vision transformer and fuse it into the 3D model. To overcome common local optima in viewpoint estimation, we further introduce a new viewpoint sampling scheme that comes at no added training cost. Compared to prior works, we show significant quantitative and qualitative improvements on this challenging task. The model also demonstrates excellent generalisation in reconstructing abstract drawings and artefacts, despite the fact that it is only trained on real images.
翻訳日:2022-11-23 18:36:53 公開日:2022-11-22
# Touch and Go: 人間の視覚と触覚から学ぶ

Touch and Go: Learning from Human-Collected Vision and Touch ( http://arxiv.org/abs/2211.12498v1 )

ライセンス: Link先を確認
Fengyu Yang, Chenyang Ma, Jiacheng Zhang, Jing Zhu, Wenzhen Yuan, Andrew Owens(参考訳) タッチと視覚を関連付ける能力は、世界の物体との物理的相互作用を必要とするタスクに不可欠である。 本研究では,人間のデータ収集者が触覚センサを用いて自然環境の物体を探索し,同時に自我中心の映像を撮影する,Touch and Goという,視覚と触覚のペア付きデータセットを提案する。 実験室の設定やシミュレーション環境に限定された以前の取り組みとは対照的に、私たちのデータセットは多くの"野生の"オブジェクトとシーンにまたがっています。 データセットの有効性を示すために、さまざまなタスクにうまく適用しました。 1)自己指導型視触覚特徴学習 2)触覚駆動画像スタイライゼーション、すなわち、物体の視覚的外観を所定の触覚信号と一貫性を持たせること。 3)振動触覚入力からの触覚信号の将来のフレーム予測

The ability to associate touch with sight is essential for tasks that require physically interacting with objects in the world. We propose a dataset with paired visual and tactile data called Touch and Go, in which human data collectors probe objects in natural environments using tactile sensors, while simultaneously recording egocentric video. In contrast to previous efforts, which have largely been confined to lab settings or simulated environments, our dataset spans a large number of "in the wild" objects and scenes. To demonstrate our dataset's effectiveness, we successfully apply it to a variety of tasks: 1) self-supervised visuo-tactile feature learning, 2) tactile-driven image stylization, i.e., making the visual appearance of an object more consistent with a given tactile signal, and 3) predicting future frames of a tactile signal from visuo-tactile inputs.
翻訳日:2022-11-23 18:36:34 公開日:2022-11-22
# 瞬時容積型頭部アバター

Instant Volumetric Head Avatars ( http://arxiv.org/abs/2211.12499v1 )

ライセンス: Link先を確認
Wojciech Zielonka, Timo Bolkart, Justus Thies(参考訳) 本稿では,フォトリアリスティックなデジタルアバターを瞬時に再構築するための新しいアプローチであるinsta(insta)を提案する。 INSTAは、パラメトリック顔モデルの周りに埋め込まれた神経グラフィックスプリミティブに基づいて、動的神経放射場をモデル化する。 我々のパイプラインは、異なる表現とビューで対象を観察する単一の単眼のRGBポートレートビデオに基づいて訓練されている。 最先端の手法では,アバターのトレーニングに数日を要するが,最新のGPUハードウェアでは10分以内でデジタルアバターを再構築することができる。 さらに、斬新なポーズや表現のインタラクティブなレンダリングを可能にする。 パラメトリックフェースモデルに先立って幾何を利用することにより、INSTAが未知のポーズに外挿することを示す。 様々な被験者の定量的および質的研究において、INSTAはレンダリング品質とトレーニング時間に関する最先端の手法より優れている。

We present Instant Volumetric Head Avatars (INSTA), a novel approach for reconstructing photo-realistic digital avatars instantaneously. INSTA models a dynamic neural radiance field based on neural graphics primitives embedded around a parametric face model. Our pipeline is trained on a single monocular RGB portrait video that observes the subject under different expressions and views. While state-of-the-art methods take up to several days to train an avatar, our method can reconstruct a digital avatar in less than 10 minutes on modern GPU hardware, which is orders of magnitude faster than previous solutions. In addition, it allows for the interactive rendering of novel poses and expressions. By leveraging the geometry prior of the underlying parametric face model, we demonstrate that INSTA extrapolates to unseen poses. In quantitative and qualitative studies on various subjects, INSTA outperforms state-of-the-art methods regarding rendering quality and training time.
翻訳日:2022-11-23 18:36:21 公開日:2022-11-22
# 雑音拡散モデルによる人物画像合成

Person Image Synthesis via Denoising Diffusion Model ( http://arxiv.org/abs/2211.12500v1 )

ライセンス: Link先を確認
Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Jorma Laaksonen, Mubarak Shah, Fahad Shahbaz Khan(参考訳) ポーズ誘導型人物画像生成タスクでは、任意のポーズで人間のフォトリアリスティック画像を合成する必要がある。 既存のアプローチでは、現実的なテクスチャを維持する必要はなく、複雑な変形や重度の咬合に対処するのに苦労する密接な対応を必要とする生成的逆境ネットワークを使用している。 本稿では,サンプルの多様性と学習データ分布のモード被覆の強化により,高忠実度人物画像合成に分散モデルをどのように適用できるかを示す。 提案するPerson Image Diffusion Model (PIDM) は, 複雑な転送問題を, より単純な前方退行ステップに分解する。 これは、忠実なテクスチャと非歪な外観の詳細をもたらす、妥当なソースからターゲットへの変換軌道の学習に役立つ。 本稿では,情報ソースとターゲット画像における外観とポーズの対応を正確にモデル化する「テクスチャ拡散モジュール」を提案する。 さらに,条件入力と合成出力との密接な類似性を確保するために,ポーズ情報と外観情報の両方の観点から「不連続分類器フリーガイダンス」を提案する。 2つの大規模ベンチマークとユーザ調査の結果から,提案手法のフォトリアリズムを課題シナリオで実証した。 また、生成したイメージがダウンストリームタスクにどのように役立つかを示します。 私たちのコードとモデルは公開されます。

The pose-guided person image generation task requires synthesizing photorealistic images of humans in arbitrary poses. The existing approaches use generative adversarial networks that do not necessarily maintain realistic textures or need dense correspondences that struggle to handle complex deformations and severe occlusions. In this work, we show how denoising diffusion models can be applied for high-fidelity person image synthesis with strong sample diversity and enhanced mode coverage of the learnt data distribution. Our proposed Person Image Diffusion Model (PIDM) disintegrates the complex transfer problem into a series of simpler forward-backward denoising steps. This helps in learning plausible source-to-target transformation trajectories that result in faithful textures and undistorted appearance details. We introduce a 'texture diffusion module' based on cross-attention to accurately model the correspondences between appearance and pose information available in source and target images. Further, we propose 'disentangled classifier-free guidance' to ensure close resemblance between the conditional inputs and the synthesized output in terms of both pose and appearance information. Our extensive results on two large-scale benchmarks and a user study demonstrate the photorealism of our proposed approach under challenging scenarios. We also show how our generated images can help in downstream tasks. Our code and models will be publicly released.
翻訳日:2022-11-23 18:36:09 公開日:2022-11-22
# 自己誘導型視覚変換器を用いた産業用視覚異常検出

Generalizable Industrial Visual Anomaly Detection with Self-Induction Vision Transformer ( http://arxiv.org/abs/2211.12311v1 )

ライセンス: Link先を確認
Haiming Yao, Xue Wang(参考訳) 産業的ビジョン異常検出は高度な知的製造プロセスにおいて重要な役割を担っているが、そのような状況下では、いくつかの制限に対処する必要がある。 まず, 既往の復元法は, 正常試料と異常試料との再構成誤差ギャップが正当である自明なショートカットの同一性マッピングに苦慮し, 検出能力の低下につながる。 次に,これまでの研究は主に,オブジェクトの局所的な意味を捉えてグローバルコンテキストを無視する畳み込みニューラルネットワーク(cnn)モデルに焦点をあてた。 さらに、既存の研究は、検出モデルが製品の1つのカテゴリしか持たない個々の学習手法に従っているが、複数のカテゴリに対する一般化可能な検出は検討されていない。 上記の制約に対処するため、教師なしの一般化可能な産業用視覚異常検出と位置決めのための自己誘導型視覚変換器(SIVT)を提案する。 The proposed SIVT first extracts discriminatory features from pre-trained CNN as property descriptors。 そして、自己誘導型視覚変換器を提案し、抽出した特徴を自己監督的に再構成し、補助誘導トークンを付加して元の信号の意味を誘導する。 最後に、セマンティクス特徴残差を用いて異常特性を検出することができる。 既存のMvtec ADベンチマークでSIVTを実験した結果,AUROCでは2.8-6.3,APでは3.3-7.6の改善により,最先端検出性能を向上できることがわかった。

Industrial vision anomaly detection plays a critical role in the advanced intelligent manufacturing process, while some limitations still need to be addressed under such a context. First, existing reconstruction-based methods struggle with the identity mapping of trivial shortcuts where the reconstruction error gap is legible between the normal and abnormal samples, leading to inferior detection capabilities. Then, the previous studies mainly concentrated on the convolutional neural network (CNN) models that capture the local semantics of objects and neglect the global context, also resulting in inferior performance. Moreover, existing studies follow the individual learning fashion where the detection models are only capable of one category of the product while the generalizable detection for multiple categories has not been explored. To tackle the above limitations, we proposed a self-induction vision Transformer(SIVT) for unsupervised generalizable multi-category industrial visual anomaly detection and localization. The proposed SIVT first extracts discriminatory features from pre-trained CNN as property descriptors. Then, the self-induction vision Transformer is proposed to reconstruct the extracted features in a self-supervisory fashion, where the auxiliary induction tokens are additionally introduced to induct the semantics of the original signal. Finally, the abnormal properties can be detected using the semantic feature residual difference. We experimented with the SIVT on existing Mvtec AD benchmarks, the results reveal that the proposed method can advance state-of-the-art detection performance with an improvement of 2.8-6.3 in AUROC, and 3.3-7.6 in AP.
翻訳日:2022-11-23 18:30:30 公開日:2022-11-22
# 画像認識のためのクロスレジデント学習

A Cross-Residual Learning for Image Recognition ( http://arxiv.org/abs/2211.12320v1 )

ライセンス: Link先を確認
Jun Liang, Songsen Yu, Huan Yang(参考訳) ResNetとその変種は、画像認識の様々な分野で重要な役割を果たしている。 本稿では,ResNetよりも計算量やパラメータが少ないC-ResNetと呼ばれるクロスレジデンシャル学習ネットワークであるResNetの別のバリエーションを提案する。 C-ResNetsはジャンパーを密度化することでモジュール間の情報インタラクションを高め、ジャンパーの役割を強化する。 さらに、ジャンパーやチャンネル数に関する厳密な設計により、C-ResNetのリソース消費をさらに削減し、その分類性能を向上させることができる。 c-resnetsの有効性をテストするために、実験で微調整されたresnetと同じハイパーパラメータ設定を用いる。 我々は、MNIST、FashionMnist、CIFAR-10、CIFAR-100、CALTECH-101、SVHNのデータセット上でC-ResNetsをテストする。 微調整されたResNetと比較して、C-ResNetsは分類性能を維持するだけでなく、GPUやGPUメモリリソースの利用率を大幅に削減する計算とパラメータの量を大幅に削減する。 したがって、我々のC-ResNetsは様々なシナリオでResNetsに代わる競争力があり、実行可能な代替手段です。 コードはhttps://github.com/liangjunhello/C-ResNetで入手できる。

ResNets and its variants play an important role in various fields of image recognition. This paper gives another variant of ResNets, a kind of cross-residual learning networks called C-ResNets, which has less computation and parameters than ResNets. C-ResNets increases the information interaction between modules by densifying jumpers and enriches the role of jumpers. In addition, some meticulous designs on jumpers and channels counts can further reduce the resource consumption of C-ResNets and increase its classification performance. In order to test the effectiveness of C-ResNets, we use the same hyperparameter settings as fine-tuned ResNets in the experiments. We test our C-ResNets on datasets MNIST, FashionMnist, CIFAR-10, CIFAR-100, CALTECH-101 and SVHN. Compared with fine-tuned ResNets, C-ResNets not only maintains the classification performance, but also enormously reduces the amount of calculations and parameters which greatly save the utilization rate of GPUs and GPU memory resources. Therefore, our C-ResNets is competitive and viable alternatives to ResNets in various scenarios. Code is available at https://github.com/liangjunhello/C-ResNet
翻訳日:2022-11-23 18:30:02 公開日:2022-11-22
# TranViT:旅行時間範囲予測を離散化するための統合ビジョントランスフォーマフレームワーク

TranViT: An Integrated Vision Transformer Framework for Discrete Transit Travel Time Range Prediction ( http://arxiv.org/abs/2211.12322v1 )

ライセンス: Link先を確認
Awad Abdelhalim and Jinhua Zhao(参考訳) 正確な旅行時間推定は、交通機関の利用者に信頼できるスケジュールと信頼できるリアルタイム情報を提供するのに最重要である。 本稿では,交通・道路画像データ取得,ラベリング,モデルトレーニングのための新しいエンド・ツー・エンドの枠組みを提案し,評価する。 GTFS(General Transit Feed Specification)リアルタイムデータは、マサチューセッツ州ケンブリッジのマサチューセッツ・アベニューのセグメントを監視するロードサイドカメラユニットのアクティベーションメカニズムとして使用される。 自動走行位置(AVL)データから取得した監視セグメントを横断する移動時間に基づいて、取得した画像データセットに対して、地上の真理ラベルを生成する。 次に、生成されたラベル付き画像データセットを使用して視覚トランスフォーマー(vit)モデルを訓練し、観測された旅行時間パーセンタイルに基づいて離散的な移動時間範囲(バンド)を予測する。 この探索実験の結果,ViTモデルは,80%~85%の精度で,予測走行時間範囲を推定する上で最も有効な画像特徴と内容を学習できることが示唆された。 また,この離散トラベルタイムバンド予測を,連続トラベルタイム推定の改善に活用できることを実証する。 本研究で提示されたワークフローと結果は,トラヒック状態を推定し,トラヒックの走行時間を予測するために,従来のトランジットデータソースとロードサイドイメージを統合するための,エンドツーエンド,スケーラブル,自動化,高効率なアプローチを提供する。

Accurate travel time estimation is paramount for providing transit users with reliable schedules and dependable real-time information. This paper proposes and evaluates a novel end-to-end framework for transit and roadside image data acquisition, labeling, and model training to predict transit travel times across a segment of interest. General Transit Feed Specification (GTFS) real-time data is used as an activation mechanism for a roadside camera unit monitoring a segment of Massachusetts Avenue in Cambridge, MA. Ground truth labels are generated for the acquired images dataset based on transit travel time across the monitored segment acquired from Automated Vehicle Location (AVL) data. The generated labeled image dataset is then used to train and evaluate a Vision Transformer (ViT) model to predict a discrete transit travel time range (band) based on the observed travel time percentiles. The results of this exploratory study illustrate that the ViT model is able to learn image features and contents that best help it deduce the expected travel time range with an average validation accuracy ranging between 80%-85%. We also demonstrate how this discrete travel time band prediction can subsequently be utilized to improve continuous transit travel time estimation. The workflow and results presented in this study provide an end-to-end, scalable, automated, and highly efficient approach for integrating traditional transit data sources and roadside imagery to estimate traffic states and predict transit travel duration, which can have major implications for improving operations and passenger real-time information.
翻訳日:2022-11-23 18:29:42 公開日:2022-11-22
# イベントカメラを用いた非同期グラフに基づく物体検出の限界化

Pushing the Limits of Asynchronous Graph-based Object Detection with Event Cameras ( http://arxiv.org/abs/2211.12324v1 )

ライセンス: Link先を確認
Daniel Gehrig and Davide Scaramuzza(参考訳) イベントカメラの最先端機械学習手法は、イベントを高密度表現として扱い、従来のディープニューラルネットワークで処理する。 したがって、イベントデータのスパーシリティと非同期性を維持することができず、ダウンストリームシステムに重大な計算とレイテンシの制約を課すことになる。 最近の研究は、グラフニューラルネットワークを使用して効率的に非同期に処理できる時空間的に進化するグラフとしてイベントをモデル化することでこの問題に対処している。 これらの研究は驚くべき計算の削減を示したが、その精度はネットワークの小さなスケールと浅い深さによって制限され、どちらも計算の削減に必要である。 本研究では,低計算を維持しながら,そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択を導入することで,ガラス天井を破る。 オブジェクト検出タスクでは、最小のモデルが最大3.7倍の計算量を示し、非同期メソッドを7.4mapで上回っている。 より大きなモデルサイズにスケールしても、最先端の11.5mAPよりも13%効率がよいのです。 その結果、この手法は密度の高いグラフニューラルネットワークよりも3.7倍高速で、フォワードパスあたり8.4ミリ秒しかかからない。 これにより、エッジケースシナリオにおける効率的で正確なオブジェクト検出への扉が開く。

State-of-the-art machine-learning methods for event cameras treat events as dense representations and process them with conventional deep neural networks. Thus, they fail to maintain the sparsity and asynchronous nature of event data, thereby imposing significant computation and latency constraints on downstream systems. A recent line of work tackles this issue by modeling events as spatiotemporally evolving graphs that can be efficiently and asynchronously processed using graph neural networks. These works showed impressive computation reductions, yet their accuracy is still limited by the small scale and shallow depth of their network, both of which are required to reduce computation. In this work, we break this glass ceiling by introducing several architecture choices which allow us to scale the depth and complexity of such models while maintaining low computation. On object detection tasks, our smallest model shows up to 3.7 times lower computation, while outperforming state-of-the-art asynchronous methods by 7.4 mAP. Even when scaling to larger model sizes, we are 13% more efficient than state-of-the-art while outperforming it by 11.5 mAP. As a result, our method runs 3.7 times faster than a dense graph neural network, taking only 8.4 ms per forward pass. This opens the door to efficient, and accurate object detection in edge-case scenarios.
翻訳日:2022-11-23 18:29:18 公開日:2022-11-22
# ユークリッドの宇宙は悪だ: 画像生成のためのハイパーボリックな属性編集

The Euclidean Space is Evil: Hyperbolic Attribute Editing for Few-shot Image Generation ( http://arxiv.org/abs/2211.12347v1 )

ライセンス: Link先を確認
Lingxiao Li, Yi Zhang, Shuhui Wang(参考訳) 少ない画像生成は、少数の画像しか見えない未確認カテゴリのための多様な新しい画像を生成することを目的としているため、難しい課題である。 既存の手法は、生成された画像の品質と多様性の間のトレードオフに悩まされる。 そこで本研究では,単純かつ効果的な手法である双曲属性編集(hae)を提案する。 ユークリッド空間で機能する他の方法とは異なり、HAEは双曲空間で見られるカテゴリのデータを用いて画像の階層をキャプチャする。 十分に訓練されたHAEが与えられた場合、ある画像の潜伏符号を固定半径のポインカーディスクの任意の有意義な方向へ移動させることで、目に見えないカテゴリの画像を生成することができる。 最も重要なことは、双曲空間は、ディスクに異なるラジイを設定することによって生成された画像の意味的多様性を制御することができることである。 広範囲な実験と可視化により、haeは限られたデータで品質と多様性を期待できる画像を生成するだけでなく、高度に制御可能で解釈可能な編集プロセスを実現することができることが示されている。

Few-shot image generation is a challenging task since it aims to generate diverse new images for an unseen category with only a few images. Existing methods suffer from the trade-off between the quality and diversity of generated images. To tackle this problem, we propose Hyperbolic Attribute Editing (HAE), a simple yet effective method. Unlike other methods that work in Euclidean space, HAE captures the hierarchy among images using data from seen categories in hyperbolic space. Given a well-trained HAE, images of unseen categories can be generated by moving the latent code of a given image toward any meaningful directions in the Poincar\'e disk with a fixing radius. Most importantly, the hyperbolic space allows us to control the semantic diversity of the generated images by setting different radii in the disk. Extensive experiments and visualizations demonstrate that HAE is capable of not only generating images with promising quality and diversity using limited data but achieving a highly controllable and interpretable editing process.
翻訳日:2022-11-23 18:28:57 公開日:2022-11-22
# U-Flow: 教師なし閾値による異常検出のためのU字型正規化フロー

U-Flow: A U-shaped Normalizing Flow for Anomaly Detection with Unsupervised Threshold ( http://arxiv.org/abs/2211.12353v1 )

ライセンス: Link先を確認
Mat\'ias Tailanian, \'Alvaro Pardo, Pablo Mus\'e(参考訳) 本研究では,画像の異常検出とセグメンテーションのための非コントラスト的手法を提案する。 この方法は3つの段階からなる。 まず,マルチスケールの画像変換アーキテクチャを用いて特徴を抽出する。 次に、これらの特徴をu字型正規化フローに供給し、最終フェーズの理論的基礎を成し、画素レベルの異常マップを計算し、a対数フレームワークに基づくセグメンテーションを実行する。 この多重仮説テスト戦略は、運用ポイントが必要な多くの実世界のアプリケーションにおいて鍵となる、堅牢な自動検出しきい値の導出を可能にする。 iou(intersection over union)メトリックを用いてセグメンテーション結果を評価し、生成された異常マップを評価するために、画像および画素レベルで受信者動作特性曲線(roc-auc)下の領域を報告する。 どちらの指標に対しても、提案手法は最先端の結果を生成し、ほとんどのMvTec-ADカテゴリで第1位、平均ピクセルレベルのROC-AUCは98.74%である。 コードとトレーニングされたモデルはhttps://github.com/mtailanian/uflowで入手できる。

In this work we propose a non-contrastive method for anomaly detection and segmentation in images, that benefits both from a modern machine learning approach and a more classic statistical detection theory. The method consists of three phases. First, features are extracted by making use of a multi-scale image Transformer architecture. Then, these features are fed into a U-shaped Normalizing Flow that lays the theoretical foundations for the last phase, which computes a pixel-level anomaly map, and performs a segmentation based on the a contrario framework. This multiple hypothesis testing strategy permits to derive a robust automatic detection threshold, which is key in many real-world applications, where an operational point is needed. The segmentation results are evaluated using the Intersection over Union (IoU) metric, and for assessing the generated anomaly maps we report the area under the Receiver Operating Characteristic curve (ROC-AUC) at both image and pixel level. For both metrics, the proposed approach produces state-of-the-art results, ranking first in most MvTec-AD categories, with a mean pixel-level ROC- AUC of 98.74%. Code and trained models are available at https://github.com/mtailanian/uflow.
翻訳日:2022-11-23 18:28:39 公開日:2022-11-22
# 音声空間分解によるリアルタイムニューラルラディアンス音声合成

Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition ( http://arxiv.org/abs/2211.12368v1 )

ライセンス: Link先を確認
Jiaxiang Tang, Kaisiyuan Wang, Hang Zhou, Xiaokang Chen, Dongliang He, Tianshu Hu, Jingtuo Liu, Gang Zeng, Jingdong Wang(参考訳) 動的ニューラルラジアンス場(NeRF)は、高忠実度3次元画像のモデリングに成功しているが、遅いトレーニングと推論速度は、その潜在的な使用を著しく妨げている。 本稿では,近年のグリッドベースNeRFの成功を生かして,音声画像のリアルタイム合成と高速収束を実現する,効率的なNeRFベースのフレームワークを提案する。 我々の重要な洞察は、3つの低次元特徴格子に固有の高次元の人物像を分解することである。 具体的には、分解オーディオ空間符号化モジュールは、3次元空間グリッドと2次元オーディオグリッドを備えたダイナミックヘッドをモデル化する。 胴体は軽量のPseudo-3Dデフォルマブルモジュールで別の2Dグリッドで処理される。 どちらのモジュールも優れたレンダリング品質を前提とした効率にフォーカスしている。 広範にわたる実験により,本手法は従来の手法に比べて高い効率を保ちつつ,写実的かつオーディオリップを同期させた映像を生成できることが実証された。

While dynamic Neural Radiance Fields (NeRF) have shown success in high-fidelity 3D modeling of talking portraits, the slow training and inference speed severely obstruct their potential usage. In this paper, we propose an efficient NeRF-based framework that enables real-time synthesizing of talking portraits and faster convergence by leveraging the recent success of grid-based NeRF. Our key insight is to decompose the inherently high-dimensional talking portrait representation into three low-dimensional feature grids. Specifically, a Decomposed Audio-spatial Encoding Module models the dynamic head with a 3D spatial grid and a 2D audio grid. The torso is handled with another 2D grid in a lightweight Pseudo-3D Deformable Module. Both modules focus on efficiency under the premise of good rendering quality. Extensive experiments demonstrate that our method can generate realistic and audio-lips synchronized talking portrait videos, while also being highly efficient compared to previous methods.
翻訳日:2022-11-23 18:28:18 公開日:2022-11-22
# LiCamGait:LiDARとカメラマルチモーダル視覚センサを用いた野生での歩行認識

LiCamGait: Gait Recognition in the Wild by Using LiDAR and Camera Multi-modal Visual Sensors ( http://arxiv.org/abs/2211.12371v1 )

ライセンス: Link先を確認
Xiao Han, Peishan Cong, Lan Xu, Jingya Wang, Jingyi Yu, Yuexin Ma(参考訳) LiDARは光条件の影響を受けずに大規模シナリオで正確な深度情報を取得でき、捕獲された点雲は歩行に関連する幾何学的特性と動特性を含む。 我々は、LiDARを利用して、より堅牢で正確な歩行認識のために、ビュー依存カメラと光感受性カメラの制限を緩和する最初の試みを行っている。 本稿では,点雲と画像の両方の利点を十分に活用した,効果的なマルチモーダル特徴融合戦略を用いたlidarカメラを用いた歩行認識手法を提案する。 特に,マルチモーダルなビジュアルデータと多様な2d/3d表現を含む新しいゲイトデータセットlicamgaitを提案する。 提案手法は,新しいデータセットの最先端性能を実現する。 この論文が公開されたら、コードとデータセットがリリースされる。

LiDAR can capture accurate depth information in large-scale scenarios without the effect of light conditions, and the captured point cloud contains gait-related 3D geometric properties and dynamic motion characteristics. We make the first attempt to leverage LiDAR to remedy the limitation of view-dependent and light-sensitive camera for more robust and accurate gait recognition. In this paper, we propose a LiDAR-camera-based gait recognition method with an effective multi-modal feature fusion strategy, which fully exploits advantages of both point clouds and images. In particular, we propose a new in-the-wild gait dataset, LiCamGait, involving multi-modal visual data and diverse 2D/3D representations. Our method achieves state-of-the-art performance on the new dataset. Code and dataset will be released when this paper is published.
翻訳日:2022-11-23 18:28:01 公開日:2022-11-22
# DeepJoin: 形状修復のための関節機能, サイン付き距離, 正常場機能を学ぶ

DeepJoin: Learning a Joint Occupancy, Signed Distance, and Normal Field Function for Shape Repair ( http://arxiv.org/abs/2211.12400v1 )

ライセンス: Link先を確認
Nikolas Lamb, Sean Banerjee, Natasha Kholgade Banerjee(参考訳) 深層ニューラルネットワークを用いた破折形状の高分解能補修の自動生成手法であるdeepjoinを紹介する。 自動形状修復を行う既存のアプローチは、対称オブジェクトのみを動作させ、完全なプロキシ形状を必要とし、物理的修復には粗い低解像度のボクセルを用いて復元形状を予測する。 入力フラクチャー形状から対応する完全形状と破面を推定して高分解能復元形状を生成する。 本稿では, 占有機能, 符号付き距離関数, 正常場を組み合わせた, 破面形状修復のための新しい暗黙的形状表現を提案する。 本稿では,Google Scanned Objectsデータセットからの3Dスキャン,QP文化遺産データセットからの古代ギリシアの陶器のスタイルのオブジェクト,および実際の破壊対象について,我々のアプローチを用いて修復を行った。 チャンファー距離と正規整合性の観点から3つのベースラインアプローチを上回ります。 既存のアプローチやサブトラクションによる修復とは異なり、DeepJoinの修復は表面のアーティファクトを示さず、破折した形状の破壊領域と密接に結合する。 私たちのコードは、https://github.com/Terascale-All-sensing-Research-Studio/DeepJoin.comで利用可能です。

We introduce DeepJoin, an automated approach to generate high-resolution repairs for fractured shapes using deep neural networks. Existing approaches to perform automated shape repair operate exclusively on symmetric objects, require a complete proxy shape, or predict restoration shapes using low-resolution voxels which are too coarse for physical repair. We generate a high-resolution restoration shape by inferring a corresponding complete shape and a break surface from an input fractured shape. We present a novel implicit shape representation for fractured shape repair that combines the occupancy function, signed distance function, and normal field. We demonstrate repairs using our approach for synthetically fractured objects from ShapeNet, 3D scans from the Google Scanned Objects dataset, objects in the style of ancient Greek pottery from the QP Cultural Heritage dataset, and real fractured objects. We outperform three baseline approaches in terms of chamfer distance and normal consistency. Unlike existing approaches and restorations using subtraction, DeepJoin restorations do not exhibit surface artifacts and join closely to the fractured region of the fractured shape. Our code is available at: https://github.com/Terascale-All-sensing-Research-Studio/DeepJoin.
翻訳日:2022-11-23 18:27:49 公開日:2022-11-22
# $s^2$-flow:ジョイント・セマンティクスと顔画像のスタイル編集

$S^2$-Flow: Joint Semantic and Style Editing of Facial Images ( http://arxiv.org/abs/2211.12209v1 )

ライセンス: Link先を確認
Krishnakant Singh, Simone Schaub-Meyer, Stefan Roth(参考訳) generative adversarial networks (gans) によって得られた高品質な画像は、画像編集への応用に関する調査の動機となっている。 しかしながら、GANは特定の編集を行うためのコントロールに制限されることが多い。 主な課題の1つは、GANの絡み合った潜伏空間である。 最近の編集方法では、スタイル編集またはセマンティクス編集を制御できる。 さらに、画像編集にセマンティックマスクを使用する手法では、アイデンティティの保持が困難であり、スタイル編集の制御ができない。 我々は、gan$\text{'}$sの潜在空間を意味空間とスタイル空間に分解する方法を提案し、同じフレームワーク内で独立に顔画像のセマンティクスとスタイル編集を制御可能にする。 そこで我々は2つの帰納バイアスを含むエンコーダデコーダベースのネットワークアーキテクチャ(S^2$-Flow)を設計する。 様々な意味的・スタイル的な編集を行うことにより,$s^2$-flowの定量的・質的適合性を示す。

The high-quality images yielded by generative adversarial networks (GANs) have motivated investigations into their application for image editing. However, GANs are often limited in the control they provide for performing specific edits. One of the principal challenges is the entangled latent space of GANs, which is not directly suitable for performing independent and detailed edits. Recent editing methods allow for either controlled style edits or controlled semantic edits. In addition, methods that use semantic masks to edit images have difficulty preserving the identity and are unable to perform controlled style edits. We propose a method to disentangle a GAN$\text{'}$s latent space into semantic and style spaces, enabling controlled semantic and style edits for face images independently within the same framework. To achieve this, we design an encoder-decoder based network architecture ($S^2$-Flow), which incorporates two proposed inductive biases. We show the suitability of $S^2$-Flow quantitatively and qualitatively by performing various semantic and style edits.
翻訳日:2022-11-23 18:21:51 公開日:2022-11-22
# イベントトランスフォーマー+。 効率的なイベントデータ処理のための多目的ソリューション

Event Transformer+. A multi-purpose solution for efficient event data processing ( http://arxiv.org/abs/2211.12222v1 )

ライセンス: Link先を確認
Alberto Sabater, Luis Montesano, Ana C. Murillo(参考訳) イベントカメラは、高時間分解能と高ダイナミックレンジでスパース照明変化を記録する。 少ない記録と低消費のため、AR/VRや自動運転といったアプリケーションでの利用が増えている。 現在のトップパフォーマンスメソッドは、特定のイベントデータプロパティを無視することが多いため、汎用的だが計算コストの高いアルゴリズムの開発に繋がる。 私たちは、より正確な結果を得るために、より洗練されたパッチベースのイベント表現とより堅牢なバックボーンを備えたevtprev evtの独創的な作業を改善するイベントtransformer+を提案します。 さらに,我々のシステムは,異なるデータモダリティで動作し,イベントストリーム予測(アクション認識)や画素ごとの予測(深度推定)のために,特定の出力ヘッドを提案する。 評価結果は、gpuとcpuの両方で最小の計算リソースを必要とする一方で、最先端の性能を示す。

Event cameras record sparse illumination changes with high temporal resolution and high dynamic range. Thanks to their sparse recording and low consumption, they are increasingly used in applications such as AR/VR and autonomous driving. Current top-performing methods often ignore specific event-data properties, leading to the development of generic but computationally expensive algorithms, while event-aware methods do not perform as well. We propose Event Transformer+, that improves our seminal work evtprev EvT with a refined patch-based event representation and a more robust backbone to achieve more accurate results, while still benefiting from event-data sparsity to increase its efficiency. Additionally, we show how our system can work with different data modalities and propose specific output heads, for event-stream predictions (i.e. action recognition) and per-pixel predictions (dense depth estimation). Evaluation results show better performance to the state-of-the-art while requiring minimal computation resources, both on GPU and CPU.
翻訳日:2022-11-23 18:21:34 公開日:2022-11-22
# 高画質画像分解のための高効率周波数領域変換器

Efficient Frequency Domain-based Transformers for High-Quality Image Deblurring ( http://arxiv.org/abs/2211.12250v1 )

ライセンス: Link先を確認
Lingshun Kong, Jiangxin Dong, Mingqiang Li, Jianjun Ge, Jinshan Pan(参考訳) 本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効率的に探索する手法を提案する。 本手法は,空間領域内の2つの信号の相関や畳み込みが周波数領域の要素単位積と等価であるという畳み込み定理に動機づけられている。 これにより,空間領域における行列の乗算に代えて,要素積演算によるスケールド・ドット積の注目度を推定する効率的な周波数領域ベースセルフアテンションソルバ(fsas)の開発が促進される。 さらに,トランスフォーマーのフィードフォワードネットワーク(FFN)を単純に使用すると,よい遅延結果が得られない点に留意する。 この問題を解決するために,我々は,画像復元のために,特徴の低周波・高周波情報をどれに保存すべきかを識別的に決定する共同写真専門家グループ(JPEG)圧縮アルゴリズムに基づいて,FFNにゲート機構を導入する,簡易かつ効果的な識別周波数領域ベースFFN(DFFN)を提案する。 我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化し、FSASはデコーダモジュールでのみ使用して画像の劣化を改善する。 実験の結果,提案手法は最先端手法に好適な効果を示した。 コードは \url{https://github.com/kkkls/FFTformer} で入手できる。

We present an effective and efficient method that explores the properties of Transformers in the frequency domain for high-quality image deblurring. Our method is motivated by the convolution theorem that the correlation or convolution of two signals in the spatial domain is equivalent to an element-wise product of them in the frequency domain. This inspires us to develop an efficient frequency domain-based self-attention solver (FSAS) to estimate the scaled dot-product attention by an element-wise product operation instead of the matrix multiplication in the spatial domain. In addition, we note that simply using the naive feed-forward network (FFN) in Transformers does not generate good deblurred results. To overcome this problem, we propose a simple yet effective discriminative frequency domain-based FFN (DFFN), where we introduce a gated mechanism in the FFN based on the Joint Photographic Experts Group (JPEG) compression algorithm to discriminatively determine which low- and high-frequency information of the features should be preserved for latent clear image restoration. We formulate the proposed FSAS and DFFN into an asymmetrical network based on an encoder and decoder architecture, where the FSAS is only used in the decoder module for better image deblurring. Experimental results show that the proposed method performs favorably against the state-of-the-art approaches. Code will be available at \url{https://github.com/kkkls/FFTformer}.
翻訳日:2022-11-23 18:21:17 公開日:2022-11-22
# SPIn-NeRF:ニューラルラジアンス場を用いたマルチビューセグメンテーションと知覚的着色

SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance Fields ( http://arxiv.org/abs/2211.12254v1 )

ライセンス: Link先を確認
Ashkan Mirzaei, Tristan Aumentado-Armstrong, Konstantinos G. Derpanis, Jonathan Kelly, Marcus A. Brubaker, Igor Gilitschenski, Alex Levinshtein(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成の一般的なアプローチとして現れている。 NeRFは急速に幅広いアプリケーションに適応しつつあるが、直感的にNeRFシーンを編集することは依然としてオープンな課題である。 重要な編集作業の1つは、3dシーンから不要なオブジェクトを削除することである。 このタスクを3dインペインティングと呼びます。 3Dでは、解は複数のビューで一貫し、幾何学的に有効でなければならない。 本稿では,これらの課題に対処する新しい3Dインペイント手法を提案する。 1つの入力画像に小さなポーズ画像とスパースアノテーションが与えられた場合、我々のフレームワークはまずターゲットオブジェクトの3Dセグメンテーションマスクを迅速に取得する。 マスクを用いて、学習した2D画像の塗り絵を利用して、情報を3D空間に抽出し、視界の整合性を確保しながら、知覚的最適化に基づくアプローチを導入する。 また,現実の難解なシーンからなるデータセットを導入することで,3Dシーンの塗装方法を評価するための多様なベンチマークの欠如にも対処する。 特に当社のデータセットには,ターゲットオブジェクトの有無に関わらず同じシーンのビューが含まれており,3dインペインティングタスクをより原則的にベンチマークすることが可能です。 まず,NeRF法と2次元セグメンテーション法と比較して,マルチビューセグメンテーションにおけるアプローチの優位性を示す。 次に,他のNeRF演算アルゴリズムに対する最先端性能の確立,および強力な2次元画像インペイントベースラインの3次元インペイントの課題について評価する。

Neural Radiance Fields (NeRFs) have emerged as a popular approach for novel view synthesis. While NeRFs are quickly being adapted for a wider set of applications, intuitively editing NeRF scenes is still an open challenge. One important editing task is the removal of unwanted objects from a 3D scene, such that the replaced region is visually plausible and consistent with its context. We refer to this task as 3D inpainting. In 3D, solutions must be both consistent across multiple views and geometrically valid. In this paper, we propose a novel 3D inpainting method that addresses these challenges. Given a small set of posed images and sparse annotations in a single input image, our framework first rapidly obtains a 3D segmentation mask for a target object. Using the mask, a perceptual optimizationbased approach is then introduced that leverages learned 2D image inpainters, distilling their information into 3D space, while ensuring view consistency. We also address the lack of a diverse benchmark for evaluating 3D scene inpainting methods by introducing a dataset comprised of challenging real-world scenes. In particular, our dataset contains views of the same scene with and without a target object, enabling more principled benchmarking of the 3D inpainting task. We first demonstrate the superiority of our approach on multiview segmentation, comparing to NeRFbased methods and 2D segmentation approaches. We then evaluate on the task of 3D inpainting, establishing state-ofthe-art performance against other NeRF manipulation algorithms, as well as a strong 2D image inpainter baseline
翻訳日:2022-11-23 18:20:53 公開日:2022-11-22
# VBLC: 逆条件下でのドメイン適応セマンティックセマンティックセグメンテーションのための可視性向上とロジット制約学習

VBLC: Visibility Boosting and Logit-Constraint Learning for Domain Adaptive Semantic Segmentation under Adverse Conditions ( http://arxiv.org/abs/2211.12256v1 )

ライセンス: Link先を確認
Mingjia Li, Binhui Xie, Shuang Li, Chi Harold Liu, Xinjing Cheng(参考訳) 正常な視覚条件で訓練されたモデルを、悪条件下でターゲットドメインに一般化することは、実用システムにおいて要求される。 一般的な解決策の1つは、クリアな状態と悪い状態のイメージの間のドメインギャップを橋渡しして、ターゲットに対して十分な予測を行うことである。 しかし、従来の手法では、通常条件から撮影した同じシーンの追加参照画像を参照することが多く、実際の収集は非常に困難である。 さらに、主に夜間や霧などの個別の悪条件に焦点を当て、他の悪天候に遭遇する際のモデルの汎用性を弱めている。 上記の制限を克服するため、我々は、より優れた正規対逆適応に適した新しいフレームワーク、VBLC(Visibility Boosting and Logit-Constraint Learning)を提案する。 VBLCは、基準画像を取り除き、同時に有害な条件の混合を解消する可能性を探る。 具体的には,まず,対象画像を画像レベルでの事前設定によって動的に改善するための可視性ブーストモジュールを提案する。 そして,従来の自己学習法におけるクロスエントロピー損失の過度な欠点を解明し,この痛点を緩和するためにトレーニング中にロジット出力に制約を課すロジット制約学習を考案する。 私たちの知る限りでは、これはこのような困難なタスクに取り組むための新しい視点です。 acdc と cityscapes -> foggycityscapes + raincityscapes という2つの正規対逆ドメイン適応ベンチマークに関する広範囲な実験により、vblc の有効性が検証され、新たな芸術状態が確立された。 コードはhttps://github.com/BIT-DA/VBLCで入手できる。

Generalizing models trained on normal visual conditions to target domains under adverse conditions is demanding in the practical systems. One prevalent solution is to bridge the domain gap between clear- and adverse-condition images to make satisfactory prediction on the target. However, previous methods often reckon on additional reference images of the same scenes taken from normal conditions, which are quite tough to collect in reality. Furthermore, most of them mainly focus on individual adverse condition such as nighttime or foggy, weakening the model versatility when encountering other adverse weathers. To overcome the above limitations, we propose a novel framework, Visibility Boosting and Logit-Constraint learning (VBLC), tailored for superior normal-to-adverse adaptation. VBLC explores the potential of getting rid of reference images and resolving the mixture of adverse conditions simultaneously. In detail, we first propose the visibility boost module to dynamically improve target images via certain priors in the image level. Then, we figure out the overconfident drawback in the conventional cross-entropy loss for self-training method and devise the logit-constraint learning, which enforces a constraint on logit outputs during training to mitigate this pain point. To the best of our knowledge, this is a new perspective for tackling such a challenging task. Extensive experiments on two normal-to-adverse domain adaptation benchmarks, i.e., Cityscapes -> ACDC and Cityscapes -> FoggyCityscapes + RainCityscapes, verify the effectiveness of VBLC, where it establishes the new state of the art. Code is available at https://github.com/BIT-DA/VBLC.
翻訳日:2022-11-23 18:20:27 公開日:2022-11-22
# 弱教師付き意味セグメンテーションのための候補外整流法

Out-of-Candidate Rectification for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2211.12268v1 )

ライセンス: Link先を確認
Zesen Cheng, Pengchong Qiao, Kehan Li, Siheng Li, Pengxu Wei, Xiangyang Ji, Li Yuan, Chang Liu, Jie Chen(参考訳) 弱教師付きセマンティックセグメンテーションは一般にクラスアクティベーションマップにインスパイアされ、クラス識別領域が強調された擬似マスクとして機能する。 各クラスの正確な位置と完全な位置をリコールするための多大な努力がなされているが、既存の手法ではラベル候補に属さない未解決のOC(Out-of-Candidate)エラー予測に悩まされがちであり、画像レベルのクラスタグとの矛盾が検出されやすいため回避可能である。 本稿では,グループランキングに基づくOCR(Out-of-Candidate Rectification)機構をプラグアンドプレイ方式で開発する。 まず,各OC画素のセマンティックカテゴリを,先行アノテーションの相関と後部予測の相関に基づいて,IC群とOC群に適応的に分割する。 次に、OC画素をICグループにシフトさせるように、異なる補正損失を導出する。 OCRをセミナルベースライン(例えば、AffinityNet, SEAM, MCTformer)に組み込むことで、パスカルVOC(+3.2%, +3.3%, +0.8% mIoU)とMS COCO(+1.0%, +1.3%, +0.5% mIoU)の両方で優れたパフォーマンス向上を実現できます。

Weakly supervised semantic segmentation is typically inspired by class activation maps, which serve as pseudo masks with class-discriminative regions highlighted. Although tremendous efforts have been made to recall precise and complete locations for each class, existing methods still commonly suffer from the unsolicited Out-of-Candidate (OC) error predictions that not belongs to the label candidates, which could be avoidable since the contradiction with image-level class tags is easy to be detected. In this paper, we develop a group ranking-based Out-of-Candidate Rectification (OCR) mechanism in a plug-and-play fashion. Firstly, we adaptively split the semantic categories into In-Candidate (IC) and OC groups for each OC pixel according to their prior annotation correlation and posterior prediction correlation. Then, we derive a differentiable rectification loss to force OC pixels to shift to the IC group. Incorporating our OCR with seminal baselines (e.g., AffinityNet, SEAM, MCTformer), we can achieve remarkable performance gains on both Pascal VOC (+3.2%, +3.3%, +0.8% mIoU) and MS COCO (+1.0%, +1.3%, +0.5% mIoU) datasets with negligible extra training overhead, which justifies the effectiveness and generality of our OCR.
翻訳日:2022-11-23 18:19:55 公開日:2022-11-22
# 階層画像分類のための意味誘導レベルカテゴリハイブリッド予測ネットワーク

Semantic Guided Level-Category Hybrid Prediction Network for Hierarchical Image Classification ( http://arxiv.org/abs/2211.12277v1 )

ライセンス: Link先を確認
Peng Wang, Jingzhou Chen, Yuntao Qian(参考訳) 階層分類(hc)は、複数のラベルを階層構造に分類したオブジェクトを割り当てる。 既存のディープラーニングベースのHCメソッドは通常、リーフノードに到達するまでルートノードから始まるインスタンスを予測する。 しかし、現実の世界では、ノイズ、閉塞、ぼかし、解像度の低い画像は、下位レベルの分類に十分な情報を提供していない。 この問題に対処するため,我々は,レベルとカテゴリの予測をエンドツーエンドで共同で行うことのできる,セマンティックガイド付きレベルカテゴリハイブリッド予測ネットワーク(SGLCHPN)を提案する。 SGLCHPNは、入力画像から特徴ベクトルを抽出するビジュアルトランスフォーマーと、カテゴリ単語の埋め込みをクエリとして使用するセマンティックガイド付きクロスアテンションモジュールの2つのモジュールから構成される。 提案手法を評価するために,画像が幅広い品質で,個々の品質に応じて階層内の異なるレベル(深度)にラベル付けされる2つの新しいデータセットを構築した。 実験の結果,提案手法の有効性が示された。

Hierarchical classification (HC) assigns each object with multiple labels organized into a hierarchical structure. The existing deep learning based HC methods usually predict an instance starting from the root node until a leaf node is reached. However, in the real world, images interfered by noise, occlusion, blur, or low resolution may not provide sufficient information for the classification at subordinate levels. To address this issue, we propose a novel semantic guided level-category hybrid prediction network (SGLCHPN) that can jointly perform the level and category prediction in an end-to-end manner. SGLCHPN comprises two modules: a visual transformer that extracts feature vectors from the input images, and a semantic guided cross-attention module that uses categories word embeddings as queries to guide learning category-specific representations. In order to evaluate the proposed method, we construct two new datasets in which images are at a broad range of quality and thus are labeled to different levels (depths) in the hierarchy according to their individual quality. Experimental results demonstrate the effectiveness of our proposed HC method.
翻訳日:2022-11-23 18:19:25 公開日:2022-11-22
# 変圧器を用いた教師なし人物再同定のための多機能化

Transformer Based Multi-Grained Features for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2211.12280v1 )

ライセンス: Link先を確認
Jiachen Li, Menglin Wang, Xiaojin Gong(参考訳) 畳み込みニューラルネットワーク(CNN)から抽出された多粒な特徴は、教師付き人物再識別(Re-ID)タスクにおいて、その強力な識別能力を示している。 それらから着想を得た本研究では,ラベルのないがより困難なRe-ID問題に対処するために,純粋なトランスフォーマーネットワークから多粒度特徴を抽出する方法を検討する。 この目的のために,視覚変換器 (ViT) を改良したデュアルブランチネットワークアーキテクチャを構築した。 各ブランチで出力されるローカルトークンは、複数のストライプに一様に分割して部分レベルの特徴を生成する一方、2つのブランチのグローバルトークンは、グローバルな特徴を生成するために平均化される。 さらに、オフライン・オフライン対応カメラ対応プロキシ(O2CAP)をベースとして、教師なし学習を行うためのグローバルおよびパートレベルの機能に関して、オフラインおよびオンラインのコントラスト学習損失を定義する。 3人のRe-IDデータセットに対する大規模な実験により、提案手法は最先端の教師なし手法をかなりのマージンで上回り、教師なし手法とのギャップを大幅に軽減することを示した。 コードは近々https://github.com/RikoLi/WACV23-workshop-TMGF.comで公開される。

Multi-grained features extracted from convolutional neural networks (CNNs) have demonstrated their strong discrimination ability in supervised person re-identification (Re-ID) tasks. Inspired by them, this work investigates the way of extracting multi-grained features from a pure transformer network to address the unsupervised Re-ID problem that is label-free but much more challenging. To this end, we build a dual-branch network architecture based upon a modified Vision Transformer (ViT). The local tokens output in each branch are reshaped and then uniformly partitioned into multiple stripes to generate part-level features, while the global tokens of two branches are averaged to produce a global feature. Further, based upon offline-online associated camera-aware proxies (O2CAP) that is a top-performing unsupervised Re-ID method, we define offline and online contrastive learning losses with respect to both global and part-level features to conduct unsupervised learning. Extensive experiments on three person Re-ID datasets show that the proposed method outperforms state-of-the-art unsupervised methods by a considerable margin, greatly mitigating the gap to supervised counterparts. Code will be available soon at https://github.com/RikoLi/WACV23-workshop-TMGF.
翻訳日:2022-11-23 18:19:09 公開日:2022-11-22
# 核融合ルールから脱却する: 完全にセマンティックな赤外線と可視的な画像融合

Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and Visible Image Fusion ( http://arxiv.org/abs/2211.12286v1 )

ライセンス: Link先を確認
Yuhui Wu, Zhu Liu, Jinyuan Liu, Xin Fan, Risheng Liu(参考訳) 赤外線と可視画像融合は、コンピュータビジョンの分野で重要な役割を果たす。 従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。 しかしながら、これらの実験的に設計された融合規則は、メソッドをより複雑にする。 さらに、視覚効果の向上にのみ重点を置いているため、後続のハイレベルな視覚タスクのパフォーマンスが不十分である。 これらの課題に対処するため、本稿では、セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発し、実験設計の融合ルールを策定する。 さらに,特徴融合プロセスのセマンティック理解を向上するために,変換器に基づく融合ブロックをマルチスケールで提示する。 さらに,訓練戦略とともに正規化損失関数を考案し,高レベルビジョンタスクから意味的指導を十分に活用する。 最先端手法と比較して,本手法は手作り核融合損失関数に依存しない。 それでも、後続のハイレベルなビジョンタスクとともに、視覚品質の優れたパフォーマンスを達成しています。

Infrared and visible image fusion plays a vital role in the field of computer vision. Previous approaches make efforts to design various fusion rules in the loss functions. However, these experimental designed fusion rules make the methods more and more complex. Besides, most of them only focus on boosting the visual effects, thus showing unsatisfactory performance for the follow-up high-level vision tasks. To address these challenges, in this letter, we develop a semantic-level fusion network to sufficiently utilize the semantic guidance, emancipating the experimental designed fusion rules. In addition, to achieve a better semantic understanding of the feature fusion process, a fusion block based on the transformer is presented in a multi-scale manner. Moreover, we devise a regularization loss function, together with a training strategy, to fully use semantic guidance from the high-level vision tasks. Compared with state-of-the-art methods, our method does not depend on the hand-crafted fusion loss function. Still, it achieves superior performance on visual quality along with the follow-up high-level vision tasks.
翻訳日:2022-11-23 18:18:48 公開日:2022-11-22
# 視覚変換器の非定型連続学習のためのカスケード特徴量補償付きゲーテッドクラスアテンション

Gated Class-Attention with Cascaded Feature Drift Compensation for Exemplar-free Continual Learning of Vision Transformers ( http://arxiv.org/abs/2211.12292v1 )

ライセンス: Link先を確認
Marco Cotogni, Fei Yang, Claudio Cusano, Andrew D. Bagdanov, Joost van de Weijer(参考訳) 本稿では,ViTの非正規クラスインクリメンタルトレーニングのための新しい手法を提案する。 exemplar-free 連続学習の主な課題は、学習者の可塑性を維持することである。 これはしばしば、以前のタスク分類器を新しいタスクを学ぶときに発生するフィーチャードリフトに再分類するのに役立ちます。 しかし、Exemplar Replayは、一部のアプリケーションでは不可能な、以前のタスクからのサンプルを保持するコストがかかる。 連続vit訓練の問題に対処するために,まず,最終vit変圧器ブロックのドリフトを最小化するゲート付きクラスアテンションを提案する。 このマスクベースのゲーティングは、最後の変圧器ブロックのクラスアテンション機構に適用され、以前のタスクに不可欠な重みを強く制御する。 次に,新しいタスクを学習する際にバックボーン内の特徴ドリフトに対応する新しい特徴ドリフト補償法を提案する。 ゲート型クラスアテンションとカスケード型機能ドリフト補償の組み合わせにより、以前のタスクの忘れを制限しながら、新しいタスクに対する可塑性を実現することができる。 CIFAR-100, Tiny-ImageNet, ImageNet100で行った大規模な実験により, 過去のタスクの代表例を格納することなく, 既存の最先端のメソッドよりも優れていたことが実証された。

In this paper we propose a new method for exemplar-free class incremental training of ViTs. The main challenge of exemplar-free continual learning is maintaining plasticity of the learner without causing catastrophic forgetting of previously learned tasks. This is often achieved via exemplar replay which can help recalibrate previous task classifiers to the feature drift which occurs when learning new tasks. Exemplar replay, however, comes at the cost of retaining samples from previous tasks which for some applications may not be possible. To address the problem of continual ViT training, we first propose gated class-attention to minimize the drift in the final ViT transformer block. This mask-based gating is applied to class-attention mechanism of the last transformer block and strongly regulates the weights crucial for previous tasks. Secondly, we propose a new method of feature drift compensation that accommodates feature drift in the backbone when learning new tasks. The combination of gated class-attention and cascaded feature drift compensation allows for plasticity towards new tasks while limiting forgetting of previous ones. Extensive experiments performed on CIFAR-100, Tiny-ImageNet and ImageNet100 demonstrate that our method outperforms existing exemplar-free state-of-the-art methods without the need to store any representative exemplars of past tasks.
翻訳日:2022-11-23 18:18:33 公開日:2022-11-22
# 神経視覚による人間の視線のシミュレーション

Simulating Human Gaze with Neural Visual Attention ( http://arxiv.org/abs/2211.12100v1 )

ライセンス: Link先を確認
Leo Schwinn, Doina Precup, Bjoern Eskofier and Dario Zanca(参考訳) 既存の人間の視覚的注意のモデルは、一般的に直接的なタスクガイダンスを取り入れられないため、シーンを探索する際に意図や目標をモデル化することはできない。 下流の視覚タスクのガイダンスをアテンション・モデリングに統合するために,ニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。 この目的のために,我々は神経回路網にフォブテッドビジョンの生物学的制約を課し,注意機構を訓練し,下流タスクに対する性能を最大化する視覚探索を生成する。 生物学的に制約されたニューラルネットワークは、この目的のために訓練されることなく、人間の様のスキャンパスを生成する。 3つの一般的なベンチマークデータセットに対する大規模な実験により、我々の手法はヒトのようなスキャンパスを生成する際に、最先端の人間の注意モデルより優れていることが示された。

Existing models of human visual attention are generally unable to incorporate direct task guidance and therefore cannot model an intent or goal when exploring a scene. To integrate guidance of any downstream visual task into attention modeling, we propose the Neural Visual Attention (NeVA) algorithm. To this end, we impose to neural networks the biological constraint of foveated vision and train an attention mechanism to generate visual explorations that maximize the performance with respect to the downstream task. We observe that biologically constrained neural networks generate human-like scanpaths without being trained for this objective. Extensive experiments on three common benchmark datasets show that our method outperforms state-of-the-art unsupervised human attention models in generating human-like scanpaths.
翻訳日:2022-11-23 18:12:03 公開日:2022-11-22
# コピーペーストによる群集物検出の改善

Improving Crowded Object Detection via Copy-Paste ( http://arxiv.org/abs/2211.12110v1 )

ライセンス: Link先を確認
Jiangfan Deng, Dewen Fan, Xiaosong Qiu, Feng Zhou(参考訳) 類似した物体同士の重なり合いによって引き起こされる混み合いは、2次元視覚物体検出の分野におけるユビキタスな課題である。 本稿では,まず,混雑問題の主な2つの影響について述べる。 1)iou-confidence correlation disturbances(icd)および 2) 混同重複(CDD)。 次に,これらのナッツを分解する経路を,データ拡張の観点から検討する。 主に、混み合う場面を作るための特定のコピーペーストスキームが提案されている。 そこで本研究では,まずicd問題にさらに抵抗する「コンセンサス・ラーニング」法を設計,次に,cddジレンマの緩和に使用可能なシーン内の物体の擬似「奥行き」を,自然なペーストプロセスで明らかにする手法を提案する。 どちらの方法も、手作業の余計なコストなしでコピーペーストを魔法のように使うことから派生している。 実験の結果, ベルやホイッスルを使わずに, 通常の密集検知タスクにおいて, 最先端検出器を2%以上改善できることがわかった。 さらに、この作業は、混雑したシナリオで既存のデータ拡張戦略より優れている。

Crowdedness caused by overlapping among similar objects is a ubiquitous challenge in the field of 2D visual object detection. In this paper, we first underline two main effects of the crowdedness issue: 1) IoU-confidence correlation disturbances (ICD) and 2) confused de-duplication (CDD). Then we explore a pathway of cracking these nuts from the perspective of data augmentation. Primarily, a particular copy-paste scheme is proposed towards making crowded scenes. Based on this operation, we first design a "consensus learning" method to further resist the ICD problem and then find out the pasting process naturally reveals a pseudo "depth" of object in the scene, which can be potentially used for alleviating CDD dilemma. Both methods are derived from magical using of the copy-pasting without extra cost for hand-labeling. Experiments show that our approach can easily improve the state-of-the-art detector in typical crowded detection task by more than 2% without any bells and whistles. Moreover, this work can outperform existing data augmentation strategies in crowded scenario.
翻訳日:2022-11-23 18:11:51 公開日:2022-11-22
# ビデオフレーム補間のための流れ誘導変形補償ネットワーク

Flow Guidance Deformable Compensation Network for Video Frame Interpolation ( http://arxiv.org/abs/2211.12117v1 )

ライセンス: Link先を確認
Pengcheng Lei, Faming Fang and Guixu Zhang(参考訳) モーションベースビデオフレーム補間(VFI)法は,近年の深層畳み込みネットワークの発展によって顕著な進歩を遂げている。 その性能はフローマップ推定の不正確さに悩まされることが多いが、特に大きな動きや閉塞の場合である。 本稿では,既存の動きに基づく手法の欠点を克服するために,フローガイダンス変形補償ネットワーク(FGDCN)を提案する。 FGDCNは、フレームサンプリングプロセスをフローステップと変形ステップの2つのステップに分解する。 具体的には、粗大なフロー推定ネットワークを利用して、中間フローを直接推定し、同時にアンカーフレームを合成する。 このステップにおいて、推定フローの精度を確保するために、蒸留損失とタスク指向損失を併用する。 ステップ1で学習したフロー先行のガイダンスに基づき、変形ステップは、フローステップの不足詳細を補うためにピラミッド変形可能な補償ネットワークを設計する。 さらに、画像領域と周波数領域の両方でモデルを監視するためにピラミッド損失が提案されている。 実験結果から,提案アルゴリズムはパラメータが少ない各種データセットに対して優れた性能を示すことがわかった。

Motion-based video frame interpolation (VFI) methods have made remarkable progress with the development of deep convolutional networks over the past years. While their performance is often jeopardized by the inaccuracy of flow map estimation, especially in the case of large motion and occlusion. In this paper, we propose a flow guidance deformable compensation network (FGDCN) to overcome the drawbacks of existing motion-based methods. FGDCN decomposes the frame sampling process into two steps: a flow step and a deformation step. Specifically, the flow step utilizes a coarse-to-fine flow estimation network to directly estimate the intermediate flows and synthesizes an anchor frame simultaneously. To ensure the accuracy of the estimated flow, a distillation loss and a task-oriented loss are jointly employed in this step. Under the guidance of the flow priors learned in step one, the deformation step designs a pyramid deformable compensation network to compensate for the missing details of the flow step. In addition, a pyramid loss is proposed to supervise the model in both the image and frequency domain. Experimental results show that the proposed algorithm achieves excellent performance on various datasets with fewer parameters.
翻訳日:2022-11-23 18:11:35 公開日:2022-11-22
# 画像編集のための教師なし領域適応GANインバージョン

Unsupervised Domain Adaptation GAN Inversion for Image Editing ( http://arxiv.org/abs/2211.12123v1 )

ライセンス: Link先を確認
Siyu Xing, Chen Gong, Hewei Guo, Xiao-Yu Zhang, Xinwen Hou, Yu Liu(参考訳) 既存のGANインバージョン手法は、高品質な画像再構成と編集に優れ、低品質な入力に対して対応する高品質な画像を見つけるのに苦労している。 そこで,近年の研究では,高画質画像と低画質画像の組み合わせをインバージョンに活用することを目指している。 しかし、これらの手法は現実のシナリオでは実現不可能であり、さらなる性能向上を妨げる。 本稿では,高品質かつ低品質な画像インバージョンと編集のために,Unsupervised Domain Adaptation (UDA) をインバージョンプロセス、すなわち UDA-Inversion に導入することで,この問題を解決する。 特に、udaインバージョンでは、まず、高品質画像と低品質画像をそれぞれソースドメインとラベルなしターゲットドメインとして捉えている。 次に、2つの領域間の差分を測るために、差分関数を提示し、その後、潜時空間における2つの領域の分布のずれを最小化し、低画質画像の正確な潜時符号を得る。 直接監督なしでは、高品質な画像の構成表現を自然に学習し、教師なし領域適応に基づいて低品質の画像に変換することができる。 実験結果から,複数のドメインデータセットにまたがる低品質画像において,教師付き手法で同等のパフォーマンスを実現するのは,UDA-inversionが初めてであることが示唆された。 この研究が、イメージプロセスタスクに潜伏した埋め込み分布にユニークなインスピレーションを与えてくれることを願っています。

Existing GAN inversion methods work brilliantly for high-quality image reconstruction and editing while struggling with finding the corresponding high-quality images for low-quality inputs. Therefore, recent works are directed toward leveraging the supervision of paired high-quality and low-quality images for inversion. However, these methods are infeasible in real-world scenarios and further hinder performance improvement. In this paper, we resolve this problem by introducing Unsupervised Domain Adaptation (UDA) into the Inversion process, namely UDA-Inversion, for both high-quality and low-quality image inversion and editing. Particularly, UDA-Inversion first regards the high-quality and low-quality images as the source domain and unlabeled target domain, respectively. Then, a discrepancy function is presented to measure the difference between two domains, after which we minimize the source error and the discrepancy between the distributions of two domains in the latent space to obtain accurate latent codes for low-quality images. Without direct supervision, constructive representations of high-quality images can be spontaneously learned and transformed into low-quality images based on unsupervised domain adaptation. Experimental results indicate that UDA-inversion is the first that achieves a comparable level of performance with supervised methods in low-quality images across multiple domain datasets. We hope this work provides a unique inspiration for latent embedding distributions in image process tasks.
翻訳日:2022-11-23 18:11:18 公開日:2022-11-22
# DiffDreamer: 条件付き拡散モデルによる一眼一眼ビュー生成

DiffDreamer: Consistent Single-view Perpetual View Generation with Conditional Diffusion Models ( http://arxiv.org/abs/2211.12131v1 )

ライセンス: Link先を確認
Shengqu Cai, Eric Ryan Chan, Songyou Peng, Mohamad Shahbazi, Anton Obukhov, Luc Van Gool and Gordon Wetzstein(参考訳) 永遠のビュー生成 — 与えられた画像に飛び込んで長距離のノベルビューを生成するタスク — は、新しいが有望なタスクだ。 我々は,インターネットで収集された自然シーンの画像を訓練しながら,長眼カメラの軌跡を描いた新たなビューを合成することのできる教師なしフレームワークであるdiffdreamerを紹介する。 従来のgan法よりも局所的および大域的一貫性を保ちつつ,画像条件拡散モデルが長距離シーンの補間を効果的に行うことを実証する。 プロジェクトページ: https://primecai.github.io/diffdreamer。

Perpetual view generation -- the task of generating long-range novel views by flying into a given image -- has been a novel yet promising task. We introduce DiffDreamer, an unsupervised framework capable of synthesizing novel views depicting a long camera trajectory while training solely on internet-collected images of nature scenes. We demonstrate that image-conditioned diffusion models can effectively perform long-range scene extrapolation while preserving both local and global consistency significantly better than prior GAN-based methods. Project page: https://primecai.github.io/diffdreamer .
翻訳日:2022-11-23 18:10:55 公開日:2022-11-22
# 不確かさを意識したメトリビュージオローカライゼーション

Uncertainty-aware Vision-based Metric Cross-view Geolocalization ( http://arxiv.org/abs/2211.12145v1 )

ライセンス: Link先を確認
Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens, Rainer Stiefelhagen(参考訳) 本稿では,地上車両から撮影されたカメラ画像と空中画像とを整合させ,車両のジオポジショニングを判定する視覚ベースメトリッククロスビュージオローカイゼーション(cvgl)の新しい手法を提案する。 航空画像は世界中で低コストで利用可能であるため、既存の2つの自動運転パラダイム、すなわち高価な高精細な事前地図を使用するか、あるいは実行時にキャプチャされたセンサデータに完全に依存することによる妥協の可能性がある。 本稿では,地上画像と空中画像を用いて車両ポーズの確率分布を予測する,エンドツーエンドの微分可能モデルを提案する。 我々は,複数の車両データセットとオルソ写真提供者の航空画像を組み合わせて,その実現可能性を示す。 地上の真理のポーズは、しばしば航空画像に不正確なため、より正確な地上の真理のポーズを生成し、それらを一般に公開するための擬似ラベルのアプローチを実装している。 従来の研究では, 適切な局所化精度を達成するためには, 対象領域からのトレーニングデータを必要とするが, この制限を克服し, 厳格に困難なクロスエリアの場合においても, 先行結果を上回っている。 我々は,テスト領域の地上データや空中データなしでも,従来の最先端技術を大きなマージンで改善し,世界規模の応用の可能性を強調した。 さらに,追跡フレームワークに不確実性認識予測を統合することで,車両の走行経路を経時的に決定し,kitti-360の0.78mの平均位置誤差を発生させる。

This paper proposes a novel method for vision-based metric cross-view geolocalization (CVGL) that matches the camera images captured from a ground-based vehicle with an aerial image to determine the vehicle's geo-pose. Since aerial images are globally available at low cost, they represent a potential compromise between two established paradigms of autonomous driving, i.e. using expensive high-definition prior maps or relying entirely on the sensor data captured at runtime. We present an end-to-end differentiable model that uses the ground and aerial images to predict a probability distribution over possible vehicle poses. We combine multiple vehicle datasets with aerial images from orthophoto providers on which we demonstrate the feasibility of our method. Since the ground truth poses are often inaccurate w.r.t. the aerial images, we implement a pseudo-label approach to produce more accurate ground truth poses and make them publicly available. While previous works require training data from the target region to achieve reasonable localization accuracy (i.e. same-area evaluation), our approach overcomes this limitation and outperforms previous results even in the strictly more challenging cross-area case. We improve the previous state-of-the-art by a large margin even without ground or aerial data from the test region, which highlights the model's potential for global-scale application. We further integrate the uncertainty-aware predictions in a tracking framework to determine the vehicle's trajectory over time resulting in a mean position error on KITTI-360 of 0.78m.
翻訳日:2022-11-23 18:10:43 公開日:2022-11-22
# MSS-DepthNet:マルチステップスパイクニューラルネットワークによる深さ予測

MSS-DepthNet: Depth Prediction with Multi-Step Spiking Neural Network ( http://arxiv.org/abs/2211.12156v1 )

ライセンス: Link先を確認
Xiaoshan Wu, Weihua He, Man Yao, Ziyang Zhang, Yaoyuan Wang, and Guoqi Li(参考訳) イベントカメラは、高時間分解能と低消費電力特性のため、コンピュータビジョンやロボティクスの応用に大きな可能性を秘めていると考えられている。 しかし、イベントカメラから出力されるイベントストリームは、既存のコンピュータビジョンアルゴリズムでは処理できない非同期でスパースな特性を持っている。 スパイキングニューラルネットワークは、イベントカメラタスクの処理に適していると考えられる、新しいイベントベースの計算パラダイムである。 しかし,深部SNNの直接訓練は劣化問題に悩まされている。 この研究は、深度予測の問題に焦点をあて、新しい残差ブロックと多次元アテンションモジュールを組み合わせたスパイクニューラルネットワークアーキテクチャを提案することで、これらの問題に対処する。 さらに,SNNに対して新しいイベントストリーム表現法を提案する。 このモデルはMVSECデータセットで同じ大きさのANNネットワークより優れており、計算効率が高い。

Event cameras are considered to have great potential for computer vision and robotics applications because of their high temporal resolution and low power consumption characteristics. However, the event stream output from event cameras has asynchronous, sparse characteristics that existing computer vision algorithms cannot handle. Spiking neural network is a novel event-based computational paradigm that is considered to be well suited for processing event camera tasks. However, direct training of deep SNNs suffers from degradation problems. This work addresses these problems by proposing a spiking neural network architecture with a novel residual block designed and multi-dimension attention modules combined, focusing on the problem of depth prediction. In addition, a novel event stream representation method is explicitly proposed for SNNs. This model outperforms previous ANN networks of the same size on the MVSEC dataset and shows great computational efficiency.
翻訳日:2022-11-23 18:10:19 公開日:2022-11-22
# 単眼深度推定の課題

The Monocular Depth Estimation Challenge ( http://arxiv.org/abs/2211.12174v1 )

ライセンス: Link先を確認
Jaime Spencer, C. Stella Qian, Chris Russell, Simon Hadfield, Erich Graf, Wendy Adams, Andrew J. Schofield, James Elder, Richard Bowden, Heng Cong, Stefano Mattoccia, Matteo Poggi, Zeeshan Khan Suri, Yang Tang, Fabio Tosi, Hao Wang, Youmin Zhang, Yusheng Zhang, Chaoqiang Zhao(参考訳) 本稿では,WACV2023で組織された最初の単分子深度推定チャレンジ(MDEC)の結果を要約する。 この課題は,syns-patchesデータセット上での自己教師付き単眼深度推定の進展を評価した。 課題はCodaLabで組織され、4つの有効なチームから提出された。 参加者は16のState-of-the-Artアルゴリズムと4つの新しいテクニックのリファレンス実装を更新したデベキットが提供された。 新規技術を受け入れるためのしきい値は、16 SotAベースラインのどれよりも優れていた。 すべての参加者がMAEやAbsRelといった従来のメトリクスでベースラインを上回りました。 しかし、ポイントクラウド再構築メトリクスの改善は困難だった。 予測はオブジェクト境界における補間アーティファクトと相対オブジェクト位置決めにおけるエラーによって特徴づけられた。 この挑戦がコミュニティに価値ある貢献であり、著者に今後のエディションへの参加を促すことを願っています。

This paper summarizes the results of the first Monocular Depth Estimation Challenge (MDEC) organized at WACV2023. This challenge evaluated the progress of self-supervised monocular depth estimation on the challenging SYNS-Patches dataset. The challenge was organized on CodaLab and received submissions from 4 valid teams. Participants were provided a devkit containing updated reference implementations for 16 State-of-the-Art algorithms and 4 novel techniques. The threshold for acceptance for novel techniques was to outperform every one of the 16 SotA baselines. All participants outperformed the baseline in traditional metrics such as MAE or AbsRel. However, pointcloud reconstruction metrics were challenging to improve upon. We found predictions were characterized by interpolation artefacts at object boundaries and errors in relative object positioning. We hope this challenge is a valuable contribution to the community and encourage authors to participate in future editions.
翻訳日:2022-11-23 18:10:06 公開日:2022-11-22
# 解剖誘導型領域適応による3次元インベッドヒトポーズ推定

Anatomy-guided domain adaptation for 3D in-bed human pose estimation ( http://arxiv.org/abs/2211.12193v1 )

ライセンス: Link先を確認
Alexander Bigalke, Lasse Hansen, Jasper Diesel, Carlotta Hennigs, Philipp Rostalski, Mattias P. Heinrich(参考訳) 3次元人間のポーズ推定は臨床モニタリングシステムの重要な構成要素である。 しかし、深部ポーズ推定モデルの臨床的適用性は、十分なラベル付きトレーニングデータの必要性とともに、ドメインシフトの下での一般化の貧弱さによって制限されている。 本稿では,ラベル付きソースからシフト未ラベルのターゲットドメインにモデルを適応させる新しいドメイン適応手法を提案する。 本手法は,ヒト解剖学に関する事前知識に基づく2つの相補的適応戦略からなる。 まず,対象領域における学習過程を,解剖学的に妥当なポーズの空間に制約することで導く。 この目的のために, 従来の知識を解剖学的損失関数に組み込んで, 非対称な手足長, 骨長, 関節角度を解析した。 第二に,自己学習のための疑似ラベルを解剖学的妥当性に応じてフィルタリングし,その概念を平均教師パラダイムに取り入れる。 我々は、教師なしおよびソースなしのドメイン適応に適用可能なポイントクラウドベースのフレームワークで両方の戦略を統合する。 パブリックSLPデータセットと新たに作成されたデータセットを用いて,2つの適応シナリオ下でのベッド内ポーズ推定を行う。 本手法は,最先端ドメイン適応法を一貫して上回り,ベースラインモデルを31%/66%上回り,領域ギャップを65%/82%削減する。 ソースコードはhttps://github.com/multimodallearning/da-3dhpe-anatomyで入手できる。

3D human pose estimation is a key component of clinical monitoring systems. The clinical applicability of deep pose estimation models, however, is limited by their poor generalization under domain shifts along with their need for sufficient labeled training data. As a remedy, we present a novel domain adaptation method, adapting a model from a labeled source to a shifted unlabeled target domain. Our method comprises two complementary adaptation strategies based on prior knowledge about human anatomy. First, we guide the learning process in the target domain by constraining predictions to the space of anatomically plausible poses. To this end, we embed the prior knowledge into an anatomical loss function that penalizes asymmetric limb lengths, implausible bone lengths, and implausible joint angles. Second, we propose to filter pseudo labels for self-training according to their anatomical plausibility and incorporate the concept into the Mean Teacher paradigm. We unify both strategies in a point cloud-based framework applicable to unsupervised and source-free domain adaptation. Evaluation is performed for in-bed pose estimation under two adaptation scenarios, using the public SLP dataset and a newly created dataset. Our method consistently outperforms various state-of-the-art domain adaptation methods, surpasses the baseline model by 31%/66%, and reduces the domain gap by 65%/82%. Source code is available at https://github.com/multimodallearning/da-3dhpe-anatomy.
翻訳日:2022-11-23 18:09:56 公開日:2022-11-22
# SadTalker: 顔認識による顔アニメーションのためのリアルな3Dモーション係数の学習

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation ( http://arxiv.org/abs/2211.12194v1 )

ライセンス: Link先を確認
Wenxuan Zhang, Xiaodong Cun, Xuan Wang, Yong Zhang, Xi Shen, Yu Guo, Ying Shan, Fei Wang(参考訳) 顔画像と音声の断片を通して話すヘッドビデオを生成するには、まだ多くの課題がある。 ie、不自然な頭の動き、歪んだ表現、アイデンティティの変更。 これらの問題は、主に2次元運動場からの学習によるものであると論じる。 一方,3d情報の明示的利用は,表現の堅さや映像の一貫性に乏しい問題も抱えている。 本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成し,対話型頭部生成のための新しい3D認識顔レンダリングを暗黙的に変調するSadTalkerを提案する。 リアルな動き係数を学習するために、音声と異なる種類の動き係数の接続を個別にモデル化する。 正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。 ヘッドポーズに関しては,条件付きVAEを用いてPoseVAEを設計し,異なるスタイルのヘッドモーションを合成する。 最後に、生成した3次元運動係数を、提案する顔レンダリングの教師なし3dキーポイント空間にマッピングし、最終映像を合成する。 動作と映像の質の観点から,提案手法の優位性を示すため,広範な実験を行った。

Generating talking head videos through a face image and a piece of speech audio still contains many challenges. ie, unnatural head movement, distorted expression, and identity modification. We argue that these issues are mainly because of learning from the coupled 2D motion fields. On the other hand, explicitly using 3D information also suffers problems of stiff expression and incoherent video. We present SadTalker, which generates 3D motion coefficients (head pose, expression) of the 3DMM from audio and implicitly modulates a novel 3D-aware face render for talking head generation. To learn the realistic motion coefficients, we explicitly model the connections between audio and different types of motion coefficients individually. Precisely, we present ExpNet to learn the accurate facial expression from audio by distilling both coefficients and 3D-rendered faces. As for the head pose, we design PoseVAE via a conditional VAE to synthesize head motion in different styles. Finally, the generated 3D motion coefficients are mapped to the unsupervised 3D keypoints space of the proposed face render, and synthesize the final video. We conduct extensive experiments to show the superior of our method in terms of motion and video quality.
翻訳日:2022-11-23 18:09:32 公開日:2022-11-22
# ファウショット行動認識のための知識プロンプト

Knowledge Prompting for Few-shot Action Recognition ( http://arxiv.org/abs/2211.12030v1 )

ライセンス: Link先を確認
Yuheng Shi, Xinxiao Wu, Hanxi Lin(参考訳) ビデオにおけるアクション認識は、監視の欠如と、目に見えないアクションを一般化することの難しさのために困難である。 この課題に対処するために,外部資源からの行動の常識知識を活用し,少数ショット分類のための強力な事前学習された視覚言語モデルを促す,知識プロンシングという,単純かつ効果的な手法を提案する。 まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。 テキスト提案の収集は,手作業文テンプレートに外部行動関連コーパスを埋め込んだり,Web指導ビデオのキャプションからアクション関連フレーズを抽出して行い,これらのテキスト提案をビデオフレームとともに事前学習された視覚言語モデルにフィードすることで,各フレームに対する提案の一致スコアを生成し,そのスコアを強力な一般化を伴うアクションセマンティクスとして扱うことができる。 最後に,分類のための行動意味論の時間的進化を捉える軽量な時間的モデリングネットワークを設計し,既存の手法の0.001までトレーニングのオーバーヘッドを減らしながら,提案手法が一般に最先端の性能を達成することを示す。

Few-shot action recognition in videos is challenging for its lack of supervision and difficulty in generalizing to unseen actions. To address this task, we propose a simple yet effective method, called knowledge prompting, which leverages commonsense knowledge of actions from external resources to prompt a powerful pre-trained vision-language model for few-shot classification. We first collect large-scale language descriptions of actions, defined as text proposals, to build an action knowledge base. The collection of text proposals is done by filling in handcraft sentence templates with external action-related corpus or by extracting action-related phrases from captions of Web instruction videos.Then we feed these text proposals into the pre-trained vision-language model along with video frames to generate matching scores of the proposals to each frame, and the scores can be treated as action semantics with strong generalization. Finally, we design a lightweight temporal modeling network to capture the temporal evolution of action semantics for classification.Extensive experiments on six benchmark datasets demonstrate that our method generally achieves the state-of-the-art performance while reducing the training overhead to 0.001 of existing methods.
翻訳日:2022-11-23 18:03:49 公開日:2022-11-22
# PointCMC: ポイントクラウド理解のためのクロスモーダルマルチスケール対応学習

PointCMC: Cross-Modal Multi-Scale Correspondences Learning for Point Cloud Understanding ( http://arxiv.org/abs/2211.12032v1 )

ライセンス: Link先を確認
Honggu Zhou, Xiaogang Peng, Jiawei Mao, Zizhao Wu, Ming Zeng(参考訳) いくつかの自己教師型クロスモーダル学習アプローチは、最近、ポイントクラウド表現を強化するための画像信号の可能性を実証している。 しかし、自己監督的な方法で、モーダルな局所的およびグローバルな通信を直接モデル化する方法については疑問が残る。 そこで本研究では,自己教師付きポイントクラウド表現学習のためのマルチスケール対応をモデル化する新しいクロスモーダル手法であるpointcmcを提案する。 特にポイントCMCは,(1) 局所的局所幾何学的特徴を最適化して局所的対応を学習する局所的-局所的(L2L)モジュール,(2) 局所的-グローバル的(L2G)モジュール,(3) 局所的-グローバル的(G2G)モジュールによって局所的特徴とグローバル的特徴の対応を学習する局所的-グローバル的(L2G)モジュールから構成される。 広範な実験結果から,3dオブジェクトの分類やセグメンテーションといった下流タスクにおいて,既存の最先端手法よりも優れた手法が得られた。 コードは受理次第公開される予定だ。

Some self-supervised cross-modal learning approaches have recently demonstrated the potential of image signals for enhancing point cloud representation. However, it remains a question on how to directly model cross-modal local and global correspondences in a self-supervised fashion. To solve it, we proposed PointCMC, a novel cross-modal method to model multi-scale correspondences across modalities for self-supervised point cloud representation learning. In particular, PointCMC is composed of: (1) a local-to-local (L2L) module that learns local correspondences through optimized cross-modal local geometric features, (2) a local-to-global (L2G) module that aims to learn the correspondences between local and global features across modalities via local-global discrimination, and (3) a global-to-global (G2G) module, which leverages auxiliary global contrastive loss between the point cloud and image to learn high-level semantic correspondences. Extensive experiment results show that our approach outperforms existing state-of-the-art methods in various downstream tasks such as 3D object classification and segmentation. Code will be made publicly available upon acceptance.
翻訳日:2022-11-23 18:03:27 公開日:2022-11-22
# 教師なしビデオオブジェクトセグメンテーションのためのドメインアライメントと時間アグリゲーション

Domain Alignment and Temporal Aggregation for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2211.12036v1 )

ライセンス: Link先を確認
Suhwan Cho, Minhyeok Lee, Seunghoon Lee, Sangyoun Lee(参考訳) 教師なしのビデオオブジェクトセグメンテーションは、ビデオの中でもっとも有意義なオブジェクトを検出し、セグメンテーションすることを目的としている。 近年では、外見の手がかりと動きの手がかりを協調的に活用する2ストリームアプローチが、その強力な性能によって広く注目を集めている。 しかし、その方法には2つの制限がある。 1) 外観と動作情報の領域ギャップは,十分に考慮されていない。 2)ビデオシーケンス内の長期的時間的コヒーレンスは利用されない。 これらの制限を克服するため、ドメインアライメントモジュール(DAM)と時間アグリゲーションモジュール(TAM)を提案する。 DAMは2つのモダリティ間の領域ギャップを、相互相関機構を用いて同じ範囲に強制することで解決する。 TAMはビデオのグローバルな手がかりを抽出し活用することによって、長期的なコヒーレンスをキャプチャする。 公開ベンチマークデータセットでは,提案手法の有効性を実証し,既存のメソッドをかなりのマージンで上回った。

Unsupervised video object segmentation aims at detecting and segmenting the most salient object in videos. In recent times, two-stream approaches that collaboratively leverage appearance cues and motion cues have attracted extensive attention thanks to their powerful performance. However, there are two limitations faced by those methods: 1) the domain gap between appearance and motion information is not well considered; and 2) long-term temporal coherence within a video sequence is not exploited. To overcome these limitations, we propose a domain alignment module (DAM) and a temporal aggregation module (TAM). DAM resolves the domain gap between two modalities by forcing the values to be in the same range using a cross-correlation mechanism. TAM captures long-term coherence by extracting and leveraging global cues of a video. On public benchmark datasets, our proposed approach demonstrates its effectiveness, outperforming all existing methods by a substantial margin.
翻訳日:2022-11-23 18:02:58 公開日:2022-11-22
# OneRF:複数視点からの非教師なし3次元オブジェクトセグメンテーション

ONeRF: Unsupervised 3D Object Segmentation from Multiple Views ( http://arxiv.org/abs/2211.12038v1 )

ライセンス: Link先を確認
Shengnan Liang, Yichen Liu, Shangzhe Wu, Yu-Wing Tai, Chi-Keung Tang(参考訳) OneRFは,複数ビューのRGB画像から3次元のオブジェクトインスタンスを自動的に分割・再構成する手法である。 セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。 この手法の核となるのが,2次元視覚特徴と対応する3次元手がかりを多視点から効果的に集約した反復期待最大化アルゴリズムを用いた教師なしアプローチである。 単純な物体しか扱えない既存の手法とは異なり、この手法は複雑な形状、トポロジ、外観を持つ個々の物体の完全な3D NeRFを分割して生成する。 セグメント化されたOneRfはオブジェクト変換、挿入、削除などの3Dシーン編集を可能にする。

We present ONeRF, a method that automatically segments and reconstructs object instances in 3D from multi-view RGB images without any additional manual annotations. The segmented 3D objects are represented using separate Neural Radiance Fields (NeRFs) which allow for various 3D scene editing and novel view rendering. At the core of our method is an unsupervised approach using the iterative Expectation-Maximization algorithm, which effectively aggregates 2D visual features and the corresponding 3D cues from multi-views for joint 3D object segmentation and reconstruction. Unlike existing approaches that can only handle simple objects, our method produces segmented full 3D NeRFs of individual objects with complex shapes, topologies and appearance. The segmented ONeRfs enable a range of 3D scene editing, such as object transformation, insertion and deletion.
翻訳日:2022-11-23 18:02:44 公開日:2022-11-22
# 分級器型特徴蒸留による拡散サンプリングの促進

Accelerating Diffusion Sampling with Classifier-based Feature Distillation ( http://arxiv.org/abs/2211.12039v1 )

ライセンス: Link先を確認
Wujie Sun, Defang Chen, Can Wang, Deshi Ye, Yan Feng, Chun Chen(参考訳) 拡散モデルは, GANよりも高品質な画像を生成する大きな可能性を示しているが, サンプリング速度の遅いため, 実用化は困難である。 そこで,N/2$step の教師サンプルと学生サンプルの出力画像を段階的にアライメントすることで,高速サンプリングを行う。 本稿では,この蒸留系加速法をさらに改良し,特に数段のサンプラーに対して,提案する \textbf{c}lassifier-based \textbf{f}eature \textbf{d}istillation (cfd) により,さらに改善できると主張する。 出力画像を整理する代わりに、教師の特徴分布をデータセットに依存しない分類器で生徒に蒸留し、その重要な特徴に焦点を合わせ、パフォーマンスを向上させる。 モデルをさらに最適化するために、データセット指向の損失も導入します。 CIFAR-10実験は, 高品質かつ高速サンプリングを実現する上で, 提案手法の優位性を示した。 コードはまもなくリリースされる。

Although diffusion model has shown great potential for generating higher quality images than GANs, slow sampling speed hinders its wide application in practice. Progressive distillation is thus proposed for fast sampling by progressively aligning output images of $N$-step teacher sampler with $N/2$-step student sampler. In this paper, we argue that this distillation-based accelerating method can be further improved, especially for few-step samplers, with our proposed \textbf{C}lassifier-based \textbf{F}eature \textbf{D}istillation (CFD). Instead of aligning output images, we distill teacher's sharpened feature distribution into the student with a dataset-independent classifier, making the student focus on those important features to improve performance. We also introduce a dataset-oriented loss to further optimize the model. Experiments on CIFAR-10 show the superiority of our method in achieving high quality and fast sampling. Code will be released soon.
翻訳日:2022-11-23 18:02:30 公開日:2022-11-22
# 視覚学習者のための暗黙的神経表現の再考

Rethinking Implicit Neural Representations for vision Learners ( http://arxiv.org/abs/2211.12040v1 )

ライセンス: Link先を確認
Yiran Song, Qianyu Zhou, Lizhuang Ma(参考訳) Inlicit Neural Representation (INR) はコンピュータビジョンにおける連続信号のパラメータ化に有効である。 しかし、ほとんどのINRメソッドは、画像/ビデオ圧縮、超解像度、画像生成などの低レベルなタスクに限定されている。 ハイレベルなタスクやディープネットワークへのINRの探索方法に関する質問はまだ未調査である。 既存のINRメソッドには2つの問題がある。 1)INRの狭い理論的定義は、ハイレベルなタスクには適用できない。 2)ディープネットワークにおける表現能力の欠如。 以上の事実に動機づけられたinrsの定義を,新しい視点から再構成し,低レベルと高レベルの両方の課題に取り組むinrsの最初の研究である革新的暗黙的ニューラルネットワーク(inrn)を提案する。 具体的には、2つの異なる積み重ね方と対応する損失関数とともに、inrnにおける基本ブロックの3つの重要な設計を示す。 低レベルタスク (画像適合) と高レベル視覚タスク (画像分類, オブジェクト検出, インスタンスセグメント化) の両方について解析を行い, 提案手法の有効性を実証した。

Implicit Neural Representations (INRs) are powerful to parameterize continuous signals in computer vision. However, almost all INRs methods are limited to low-level tasks, e.g., image/video compression, super-resolution, and image generation. The questions on how to explore INRs to high-level tasks and deep networks are still under-explored. Existing INRs methods suffer from two problems: 1) narrow theoretical definitions of INRs are inapplicable to high-level tasks; 2) lack of representation capabilities to deep networks. Motivated by the above facts, we reformulate the definitions of INRs from a novel perspective and propose an innovative Implicit Neural Representation Network (INRN), which is the first study of INRs to tackle both low-level and high-level tasks. Specifically, we present three key designs for basic blocks in INRN along with two different stacking ways and corresponding loss functions. Extensive experiments with analysis on both low-level tasks (image fitting) and high-level vision tasks (image classification, object detection, instance segmentation) demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-23 18:02:09 公開日:2022-11-22
# 物理シーンに先行する劣化性神経放射場

Deblurred Neural Radiance Field with Physical Scene Priors ( http://arxiv.org/abs/2211.12046v1 )

ライセンス: Link先を確認
Dogyoon Lee, Minhyeok Lee, Chajin Shin, Sangyoun Lee(参考訳) ニューラル・ラジアンス・フィールド(nerf)は、多視点画像と対のキャリブレーションカメラパラメータからの新たなビュー合成により、優れた3次元(3d)再構成品質を示している。 しかし、従来のNeRFベースのシステムは厳密な制御の下で実証されており、露光、照明変更、ぼやけなどのノイズの存在など、より理想的なシナリオにはほとんど注意が払われていない。 特に、実際の状況ではしばしばぼやけが発生するが、ぼやけた画像に対処できるNeRFはほとんど注目されていない。 ぼやけた画像に対してNeRFを研究した数少ない研究は、3次元空間における幾何学的・外観的整合性を考慮していない。 これにより、構築されたシーンの知覚的品質が低下し、一貫性が損なわれる。 そこで本研究では,2つの物理的先行条件に制約された,ぼやけた画像のための新しいクリーンなNeRFフレームワークであるDP-NeRFを提案する。 これらの優先順位は、カメラによる画像取得中の実際のぼやけたプロセスに由来する。 DP-NeRFは、物理先行値と適応重みによる3次元整合性を付与し、深さとぼかしの関係を考慮した色組成誤差を改良する。 本研究では,2種類のぼかしを有する合成シーンと実シーン,すなわちカメラモーションのぼかしとデフォーカスのぼかしについて実験を行った。 その結果,DP-NeRFは3次元形状と外観の整合性を確保するため,構築したNeRFの知覚品質を向上させることができた。 さらに,包括的アブレーション解析によるモデルの有効性を示す。

Neural Radiance Field(NeRF) has exhibited outstanding three-dimensional(3D) reconstruction quality via the novel view synthesis from multi-view images and paired calibrated camera parameters. However, previous NeRF-based systems have been demonstrated under strictly controlled settings, with little attention paid to less ideal scenarios, including with the presence of noise such as exposure, illumination changes, and blur. In particular, though blur frequently occurs in real situations, NeRF that can handle blurred images has received little attention. The few studies that have investigated NeRF for blurred images have not considered geometric and appearance consistency in 3D space, which is one of the most important factors in 3D reconstruction. This leads to inconsistency and the degradation of the perceptual quality of the constructed scene. Hence, this paper proposes a DP-NeRF, a novel clean NeRF framework for blurred images, which is constrained with two physical priors. These priors are derived from the actual blurring process during image acquisition by the camera. DP-NeRF proposes rigid blurring kernel to impose 3D consistency utilizing the physical priors and adaptive weight proposal to refine the color composition error in consideration of the relationship between depth and blur. We present extensive experimental results for synthetic and real scenes with two types of blur: camera motion blur and defocus blur. The results demonstrate that DP-NeRF successfully improves the perceptual quality of the constructed NeRF ensuring 3D geometric and appearance consistency. We further demonstrate the effectiveness of our model with comprehensive ablation analysis.
翻訳日:2022-11-23 18:01:52 公開日:2022-11-22
# カモフラージュ物体検出のための変形点サンプリングによるグローバルローカルアグリゲーション

Global-Local Aggregation with Deformable Point Sampling for Camouflaged Object Detection ( http://arxiv.org/abs/2211.12048v1 )

ライセンス: Link先を確認
Minhyeok Lee, Suhwan Cho, Chaewon Park, Dogyoon Lee, Jungho Lee, Sangyoun Lee(参考訳) camouflaged object detection(cod)タスクは、背景と非常に似た色やテクスチャを持つオブジェクトを見つけて、セグメンテーションすることを目的としている。 任務の難しさにもかかわらず、CODは医療、救命、反軍事分野で注目を集めている。 我々は,CODの難しさを克服するために,変形可能な点サンプリング手法を用いたグローバルな集約アーキテクチャを提案する。 さらに,CODタスクにおいて重要なオブジェクトのグローバル情報,背景情報,境界情報を統合するグローバルローカルアグリゲーション変換器を提案する。 提案した変換器は特徴チャネルからグローバル情報を取得し,変形点サンプリング法を用いて分割パッチから重要なローカル情報を効果的に抽出する。 これにより、カモフラージュオブジェクトのグローバルおよびローカル情報を効果的に統合するとともに、codにおける重要な境界情報を有効に活用できることを示す。 提案手法は,3つの一般的なデータセットを用いて評価し,最先端の性能を実現する。 提案手法の有効性を比較実験により検証した。

The camouflaged object detection (COD) task aims to find and segment objects that have a color or texture that is very similar to that of the background. Despite the difficulties of the task, COD is attracting attention in medical, lifesaving, and anti-military fields. To overcome the difficulties of COD, we propose a novel global-local aggregation architecture with a deformable point sampling method. Further, we propose a global-local aggregation transformer that integrates an object's global information, background, and boundary local information, which is important in COD tasks. The proposed transformer obtains global information from feature channels and effectively extracts important local information from the subdivided patch using the deformable point sampling method. Accordingly, the model effectively integrates global and local information for camouflaged objects and also shows that important boundary information in COD can be efficiently utilized. Our method is evaluated on three popular datasets and achieves state-of-the-art performance. We prove the effectiveness of the proposed method through comparative experiments.
翻訳日:2022-11-23 18:01:27 公開日:2022-11-22
# 画像復調のための適応動的フィルタリングネットワーク

Adaptive Dynamic Filtering Network for Image Denoising ( http://arxiv.org/abs/2211.12051v1 )

ライセンス: Link先を確認
Hao Shen, Zhong-Qiu Zhao, Wandi Zhang(参考訳) 画像デノーミングネットワークでは、機能スケーリングは受動的フィールドサイズを拡大し、計算コストを削減するために広く利用されている。 しかし、この慣行は高周波情報の損失を招き、大規模な特性を考慮できない。 近年、動的畳み込みは高周波情報(エッジ、コーナー、テクスチャなど)の処理において強力な能力を発揮しているが、従来の作品はフィルタ生成における十分な空間的コンテクスト情報を欠いている。 これらの問題を緩和するため,我々は動的畳み込みを用いて高周波・マルチスケール特徴の学習を改善することを提案する。 具体的には,動的畳み込みを改善するために空間的に拡張されたカーネル生成(sekg)モジュールを設計し,計算量が非常に少ない空間的コンテキスト情報の学習を可能にした。 SEKG モジュールをベースとして,動的畳み込みブロック (DCB) とマルチスケール動的畳み込みブロック (MDCB) を提案する。 前者は動的畳み込みにより高周波情報を強化し、スキップ接続を介して低周波情報を保存する。 後者は、共有適応動的カーネルと拡張畳み込みの概念を利用して、効率的なマルチスケール特徴抽出を実現する。 提案するマルチディメンジョン機能統合(MFI)機構は,マルチスケール機能をさらに融合させ,正確かつコンテキストに富んだ特徴表現を提供する。 最後に,adfnet と呼ばれる dcb と mdcb を用いた効率的な分別ネットワークを構築する。 実世界および合成ガウスノイズデータセットにおける計算複雑性の低い性能を実現する。 ソースコードはhttps://github.com/it-hao/ADFNetで入手できる。

In image denoising networks, feature scaling is widely used to enlarge the receptive field size and reduce computational costs. This practice, however, also leads to the loss of high-frequency information and fails to consider within-scale characteristics. Recently, dynamic convolution has exhibited powerful capabilities in processing high-frequency information (e.g., edges, corners, textures), but previous works lack sufficient spatial contextual information in filter generation. To alleviate these issues, we propose to employ dynamic convolution to improve the learning of high-frequency and multi-scale features. Specifically, we design a spatially enhanced kernel generation (SEKG) module to improve dynamic convolution, enabling the learning of spatial context information with a very low computational complexity. Based on the SEKG module, we propose a dynamic convolution block (DCB) and a multi-scale dynamic convolution block (MDCB). The former enhances the high-frequency information via dynamic convolution and preserves low-frequency information via skip connections. The latter utilizes shared adaptive dynamic kernels and the idea of dilated convolution to achieve efficient multi-scale feature extraction. The proposed multi-dimension feature integration (MFI) mechanism further fuses the multi-scale features, providing precise and contextually enriched feature representations. Finally, we build an efficient denoising network with the proposed DCB and MDCB, named ADFNet. It achieves better performance with low computational complexity on real-world and synthetic Gaussian noisy datasets. The source code is available at https://github.com/it-hao/ADFNet.
翻訳日:2022-11-23 18:01:11 公開日:2022-11-22
# cddsa: 医用画像セグメンテーションのためのコントラスト領域の異方性とスタイル拡張

CDDSA: Contrastive Domain Disentanglement and Style Augmentation for Generalizable Medical Image Segmentation ( http://arxiv.org/abs/2211.12081v1 )

ライセンス: Link先を確認
Ran Gu, Guotai Wang, Jiangshan Lu, Jingyang Zhang, Wenhui Lei, Yinan Chen, Wenjun Liao, Shichuan Zhang, Kang Li, Dimitris N. Metaxas, Shaoting Zhang(参考訳) 臨床応用医療画像セグメンテーションには, ドメインシフトや異なるスタイルの未確認画像への一般化が不可欠であり, ドメイン・ジェネリゼーション(DG)を実現する上では, ドメイン固有の特徴とドメイン不変特徴を分離する能力が重要である。 しかし、既存のDG法は、高い一般化性を得るために効果的な解離を達成できない。 この問題に対処するため,医用画像分割のためのCDDSA(Contrastive Domain Disentanglement and Style Augmentation)フレームワークを提案する。 まず、ドメイン不変解剖学的表現とドメイン固有スタイルコードに画像が分解され、前者はドメインシフトに影響されないセグメント化モデルに送られ、異方性ネットワークは、解剖学的コードとスタイルコードを組み合わせたデコーダによって正規化され、入力画像が再構成される。 第二に, 整合性を向上するために, 異なる領域と同一領域のスタイル符号をそれぞれコンパクトかつ分散させるために, 対照的な損失が提案されている。 第3に、一般化性をさらに向上するため、解剖学的構造を共有した様々な見えないスタイルの画像を合成するために、アンタングル表現に基づくスタイル拡張手法を提案する。 本手法は,眼球部および椎間板領域の多部位画像データセットと鼻咽喉頭癌MRI(NPC-MRI)データセットを用いて,鼻咽頭Gross tumor Volume (GTVnx) の分類を行った。 実験の結果,提案したCDDSAは異なる領域にまたがって顕著な一般化が可能であり,領域一般化可能なセグメンテーションにおいていくつかの最先端手法よりも優れていた。

Generalization to previously unseen images with potential domain shifts and different styles is essential for clinically applicable medical image segmentation, and the ability to disentangle domain-specific and domain-invariant features is key for achieving Domain Generalization (DG). However, existing DG methods can hardly achieve effective disentanglement to get high generalizability. To deal with this problem, we propose an efficient Contrastive Domain Disentanglement and Style Augmentation (CDDSA) framework for generalizable medical image segmentation. First, a disentangle network is proposed to decompose an image into a domain-invariant anatomical representation and a domain-specific style code, where the former is sent to a segmentation model that is not affected by the domain shift, and the disentangle network is regularized by a decoder that combines the anatomical and style codes to reconstruct the input image. Second, to achieve better disentanglement, a contrastive loss is proposed to encourage the style codes from the same domain and different domains to be compact and divergent, respectively. Thirdly, to further improve generalizability, we propose a style augmentation method based on the disentanglement representation to synthesize images in various unseen styles with shared anatomical structures. Our method was validated on a public multi-site fundus image dataset for optic cup and disc segmentation and an in-house multi-site Nasopharyngeal Carcinoma Magnetic Resonance Image (NPC-MRI) dataset for nasopharynx Gross Tumor Volume (GTVnx) segmentation. Experimental results showed that the proposed CDDSA achieved remarkable generalizability across different domains, and it outperformed several state-of-the-art methods in domain-generalizable segmentation.
翻訳日:2022-11-23 18:00:45 公開日:2022-11-22
# 長期音声認識のためのブレンド画像の教師付きコントラスト学習

Supervised Contrastive Learning on Blended Images for Long-tailed Recognition ( http://arxiv.org/abs/2211.11938v1 )

ライセンス: Link先を確認
Minki Jeong, Changick Kim(参考訳) 実世界のデータは長い尾の分布を持ち、クラス毎のサンプル数はトレーニングクラスで等しくありません。 不均衡データはバイアス付き特徴空間を形成し、認識モデルの性能を劣化させる。 本稿では,潜在特徴空間のバランスをとるために,新しい長尾認識手法を提案する。 まず,ロングテールデータのバイアスを軽減するために,ミックスアップによるデータ拡張手法を提案する。 さらに,混合画像のための教師付きコントラスト学習手法であるSupervised contrastive learning on Mixed Classes (SMC)を提案する。 SMCは、元の画像のクラスラベルに基づいて、正のセットを生成する。 正の組合せ比は、トレーニング損失の正の重み付けとなる。 クラス混合に基づく損失を伴うSMCは、より多様なデータ空間を探索し、モデルの一般化能力を高める。 各種ベンチマーク実験により,本手法の有効性が示された。

Real-world data often have a long-tailed distribution, where the number of samples per class is not equal over training classes. The imbalanced data form a biased feature space, which deteriorates the performance of the recognition model. In this paper, we propose a novel long-tailed recognition method to balance the latent feature space. First, we introduce a MixUp-based data augmentation technique to reduce the bias of the long-tailed data. Furthermore, we propose a new supervised contrastive learning method, named Supervised contrastive learning on Mixed Classes (SMC), for blended images. SMC creates a set of positives based on the class labels of the original images. The combination ratio of positives weights the positives in the training loss. SMC with the class-mixture-based loss explores more diverse data space, enhancing the generalization capability of the model. Extensive experiments on various benchmarks show the effectiveness of our one-stage training method.
翻訳日:2022-11-23 17:54:48 公開日:2022-11-22
# Conv2Former: 視覚認識のためのシンプルなトランスフォーマースタイルのConvNet

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition ( http://arxiv.org/abs/2211.11943v1 )

ライセンス: Link先を確認
Qibin Hou, Cheng-Ze Lu, Ming-Ming Cheng, Jiashi Feng(参考訳) 本稿では,視覚認識のための最先端手法の設計を試みず,畳み込みを用いた空間特徴の符号化をより効率的に行う方法について検討する。 近年の畳み込みニューラルネットワーク(convnets)と視覚トランスフォーマー(vision transformers)の設計原理を比較することにより,畳み込み変調演算を活用し,自己着脱を単純化する。 このような単純なアプローチは、畳み込み層にネストした大きなカーネル(>=7x7)をうまく活用できることを示す。 我々はConv2Formerと呼ばれる畳み込み変調を用いた階層型ConvNetのファミリーを構築する。 私たちのネットワークはシンプルで、フォローも簡単です。 実験によると、私たちのConv2Formerは、すべてのImageNet分類、COCOオブジェクト検出、ADE20kセマンティックセマンティックセグメンテーションにおいて、一般的なConvNetやビジョントランスフォーマーよりも優れています。

This paper does not attempt to design a state-of-the-art method for visual recognition but investigates a more efficient way to make use of convolutions to encode spatial features. By comparing the design principles of the recent convolutional neural networks ConvNets) and Vision Transformers, we propose to simplify the self-attention by leveraging a convolutional modulation operation. We show that such a simple approach can better take advantage of the large kernels (>=7x7) nested in convolutional layers. We build a family of hierarchical ConvNets using the proposed convolutional modulation, termed Conv2Former. Our network is simple and easy to follow. Experiments show that our Conv2Former outperforms existent popular ConvNets and vision Transformers, like Swin Transformer and ConvNeXt in all ImageNet classification, COCO object detection and ADE20k semantic segmentation.
翻訳日:2022-11-23 17:54:35 公開日:2022-11-22
# UpCycling: 未ラベルシーンを共有せずに半教師付き3次元物体検出

UpCycling: Semi-supervised 3D Object Detection without Sharing Raw-level Unlabeled Scenes ( http://arxiv.org/abs/2211.11950v1 )

ライセンス: Link先を確認
Sunwook Hwang, Youngseok Kim, Seongwon Kim, Saewoong Bahk, Hyung-Sin Kim(参考訳) 半教師付き学習(SSL)は3Dアノテーションの膨大な負担を軽減するために自動運転に注目が集まっている。 本稿では,プライバシ保護のための非ラベル付き非識別中間機能(すなわちスマッシュデータ)から学習する,新たな3次元オブジェクト検出用SSLフレームワークであるUpCyclingを提案する。 中間機能は、推論パイプラインによって自然に生成されるため、自動運転車で追加の計算を必要としない。 しかし、機能レベルでの3Dシーンの拡大は重要な問題であることが判明した: 最新の半教師付き3Dオブジェクト検出器に拡張手法を適用すると、中間的な特徴が歪み、擬似ラベルが大きなノイズに悩まされる。 sslを高度に有効に利用しながら歪み問題を解決するために,マルチタイプの3dシーン機能を安全に強化し,高品質な監督を提供するハイブリッド擬似ラベル,f-gt(feature-level ground truth sampling)およびf-rot(f-rot)を導入する。 代表的な3Dオブジェクト検出モデルであるSECOND-IoUとPV-RCNNにUpCyclingを実装し、広く使われているデータセット(Waymo、KITTI、Lyft)で実験を行う。 プライバシをゼロの生のポイントシーンで保存する一方で、UpCyclingはドメイン適応と部分ラベルシナリオの両方において、生のポイントシーンを利用する最先端のSSLメソッドよりも大幅に優れています。

Semi-supervised Learning (SSL) has received increasing attention in autonomous driving to relieve enormous burden for 3D annotation. In this paper, we propose UpCycling, a novel SSL framework for 3D object detection with zero additional raw-level point cloud: learning from unlabeled de-identified intermediate features (i.e., smashed data) for privacy preservation. The intermediate features do not require additional computation on autonomous vehicles since they are naturally produced by the inference pipeline. However, augmenting 3D scenes at a feature level turns out to be a critical issue: applying the augmentation methods in the latest semi-supervised 3D object detectors distorts intermediate features, which causes the pseudo-labels to suffer from significant noise. To solve the distortion problem while achieving highly effective SSL, we introduce hybrid pseudo labels, feature-level Ground Truth sampling (F-GT) and Rotation (F-RoT), which safely augment unlabeled multi-type 3D scene features and provide high-quality supervision. We implement UpCycling on two representative 3D object detection models, SECOND-IoU and PV-RCNN, and perform experiments on widely-used datasets (Waymo, KITTI, and Lyft). While preserving privacy with zero raw-point scene, UpCycling significantly outperforms the state-of-the-art SSL methods that utilize raw-point scenes, in both domain adaptation and partial-label scenarios.
翻訳日:2022-11-23 17:54:17 公開日:2022-11-22
# Teach-DETR: 教師によるより良いトレーニング

Teach-DETR: Better Training DETR with Teachers ( http://arxiv.org/abs/2211.11953v1 )

ライセンス: Link先を確認
Linjiang Huang, Kaixin Lu, Guanglu Song, Liang Wang, Si Liu, Yu Liu, Hongsheng Li(参考訳) 本稿では,多用途の教師検出器からより優れたdetr型検出器を学習するための新しい学習手法である teach-detr を提案する。 教師検出器からの予測ボックスは,より正確で頑健なdetrモデルを訓練するために,rcnnまたはdetrに基づく検出器の知識を伝達する効果的な媒体であることを示す。 この新たなトレーニングスキームは、複数の教師検出器から予測されたボックスを容易に組み込むことができ、それぞれが生徒のDETRに並列監視を提供する。 提案手法では,追加パラメータは導入せず,トレーニング中に元の検出器に無視できない計算コストを付加する。 推論中、Teach-DETRはオーバーヘッドをゼロにし、非最大抑制を必要としないメリットを維持する。 広範な実験により,detr系検出器の一貫性が向上した。 具体的には,Swin-Largeバックボーンと36エポックトレーニングスケジュールを備えた最先端検出器DINOを,MSCOCO 2017検証セットの平均精度で57.8%から58.9%に改善する。 コードはhttps://github.com/LeonHLJ/Teach-DETRで入手できる。

In this paper, we present a novel training scheme, namely Teach-DETR, to learn better DETR-based detectors from versatile teacher detectors. We show that the predicted boxes from teacher detectors are effective medium to transfer knowledge of teacher detectors, which could be either RCNN-based or DETR-based detectors, to train a more accurate and robust DETR model. This new training scheme can easily incorporate the predicted boxes from multiple teacher detectors, each of which provides parallel supervisions to the student DETR. Our strategy introduces no additional parameters and adds negligible computational cost to the original detector during training. During inference, Teach-DETR brings zero additional overhead and maintains the merit of requiring no non-maximum suppression. Extensive experiments show that our method leads to consistent improvement for various DETR-based detectors. Specifically, we improve the state-of-the-art detector DINO with Swin-Large backbone and 36-epoch training schedule, from 57.8% to 58.9% in terms of mean average precision on MSCOCO 2017 validation set. Code will be available at https://github.com/LeonHLJ/Teach-DETR.
翻訳日:2022-11-23 17:53:48 公開日:2022-11-22
# 変態同変3次元物体検出による自律走行

Transformation-Equivariant 3D Object Detection for Autonomous Driving ( http://arxiv.org/abs/2211.11962v1 )

ライセンス: Link先を確認
Hai Wu and Chenglu Wen and Wei Li and Xin Li and Ruigang Yang and Cheng Wang(参考訳) 3次元物体検出は、最近自動運転に注目が集まっている。 3dシーンのオブジェクトは、さまざまな方向で配布される。 通常の検出器は回転と反射変換のバリエーションを明示的にモデル化しない。 そのため、堅牢な検出には大規模ネットワークと広範なデータ拡張が必要である。 最近の同変ネットワークは、複数の変換点雲に共有ネットワークを適用することで、変換変動を明示的にモデル化し、オブジェクト幾何学モデリングに大きな可能性を示している。 しかし、計算コストが大きく、推論速度も遅いため、自動運転における3次元物体検出にそのようなネットワークを適用することは困難である。 本研究では,計算コストと速度問題を克服する効率的な変換同変3次元検出器tedを提案する。 TEDはまずスパース・コンボリューション・バックボーンを適用し、マルチチャネル変換等価なボクセル特徴を抽出し、その後、これらの同変特徴を高速な3Dオブジェクト検出のための軽量でコンパクトな表現に整列し集約する。 高度に競争力のあるKITTIの3D車検出リーダーボードでは、TEDは競争効率の高い全ての応募品の1位にランクインした。

3D object detection received increasing attention in autonomous driving recently. Objects in 3D scenes are distributed with diverse orientations. Ordinary detectors do not explicitly model the variations of rotation and reflection transformations. Consequently, large networks and extensive data augmentation are required for robust detection. Recent equivariant networks explicitly model the transformation variations by applying shared networks on multiple transformed point clouds, showing great potential in object geometry modeling. However, it is difficult to apply such networks to 3D object detection in autonomous driving due to its large computation cost and slow reasoning speed. In this work, we present TED, an efficient Transformation-Equivariant 3D Detector to overcome the computation cost and speed issues. TED first applies a sparse convolution backbone to extract multi-channel transformation-equivariant voxel features; and then aligns and aggregates these equivariant features into lightweight and compact representations for high-performance 3D object detection. On the highly competitive KITTI 3D car detection leaderboard, TED ranked 1st among all submissions with competitive efficiency.
翻訳日:2022-11-23 17:53:29 公開日:2022-11-22
# 構造光を用いた多視点ニューラルサーフェス再構成

Multi-View Neural Surface Reconstruction with Structured Light ( http://arxiv.org/abs/2211.11971v1 )

ライセンス: Link先を確認
Chunyu Li, Taisuke Hashimoto, Eiichi Matsumoto, Hiroharu Kato(参考訳) 微分可能レンダリング(DR)に基づく3次元オブジェクト再構成はコンピュータビジョンにおいて活発な研究課題である。 DRベースの手法は、形状と外観の両方を最適化し、高い視覚的生殖力を実現することにより、レンダリング画像とターゲット画像の差を最小限に抑える。 しかし、ほとんどの手法は、幾何学的曖昧さのため、テクスチャのないオブジェクトに対して不適当である。 この問題を解決するために、DRに基づく多視点3Dオブジェクト再構成に構造化光(SL)を用いたアクティブセンシングを導入し、任意のシーンやカメラポーズの未知の形状と外観を学習する。 より具体的には、暗黙的表面、色表現、カメラポーズのdrに基づく最適化における追加制約として、構造化光によって計算された異なるビューのピクセル間の対応を利用する。 カメラポーズを同時に最適化できるため,スチャレス領域において高い再構成精度を実現し,従来のsl法に必要なカメラポーズ校正への取り組みを低減できる。 合成データと実データの両方を用いた実験の結果,従来のdrm法とsl法を上回って,特にテクスチャレスや光沢のある物体に対して高品質な表面再構成を行った。

Three-dimensional (3D) object reconstruction based on differentiable rendering (DR) is an active research topic in computer vision. DR-based methods minimize the difference between the rendered and target images by optimizing both the shape and appearance and realizing a high visual reproductivity. However, most approaches perform poorly for textureless objects because of the geometrical ambiguity, which means that multiple shapes can have the same rendered result in such objects. To overcome this problem, we introduce active sensing with structured light (SL) into multi-view 3D object reconstruction based on DR to learn the unknown geometry and appearance of arbitrary scenes and camera poses. More specifically, our framework leverages the correspondences between pixels in different views calculated by structured light as an additional constraint in the DR-based optimization of implicit surface, color representations, and camera poses. Because camera poses can be optimized simultaneously, our method realizes high reconstruction accuracy in the textureless region and reduces efforts for camera pose calibration, which is required for conventional SL-based methods. Experiment results on both synthetic and real data demonstrate that our system outperforms conventional DR- and SL-based methods in a high-quality surface reconstruction, particularly for challenging objects with textureless or shiny surfaces.
翻訳日:2022-11-23 17:53:13 公開日:2022-11-22
# Pred&Guide:セミスーパービジョンドメイン適応のためのラベル付きターゲットクラス予測

Pred&Guide: Labeled Target Class Prediction for Guiding Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2211.11975v1 )

ライセンス: Link先を確認
Megh Manoj Bhalerao, Anurag Singh, Soma Biswas(参考訳) 半教師付きドメイン適応は、関連するラベル豊富なソースドメインとターゲットドメインのラベル付き例を使用して、ターゲットドメインに属するデータを分類することを目的としている。 本稿では,少数のラベル付き対象例の予測と実際のクラスラベルとの矛盾を利用して,半教師付き設定でドメイン適応を効果的に導く,新しいフレームワークpred&guideを提案する。 Pred&Guide は,次の3つの段階から構成される。(1) すべての対象サンプルを均等に扱うために, 自己学習を伴う教師なしドメイン適応を行う(2) ラベル予測段階において, 少数のラベル付き対象サンプルのラベルを予測するために現在のモデルを用いる(3) ラベル予測の正確性を用いて, ドメイン適応プロセスの指導を効果的に行う。 広範な実験により、提案されているpred&guideフレームワークが、office-homeとdomainnetという2つの大規模ベンチマークデータセットで最先端の結果を得ることが示された。

Semi-supervised domain adaptation aims to classify data belonging to a target domain by utilizing a related label-rich source domain and very few labeled examples of the target domain. Here, we propose a novel framework, Pred&Guide, which leverages the inconsistency between the predicted and the actual class labels of the few labeled target examples to effectively guide the domain adaptation in a semi-supervised setting. Pred&Guide consists of three stages, as follows (1) First, in order to treat all the target samples equally, we perform unsupervised domain adaptation coupled with self-training; (2) Second is the label prediction stage, where the current model is used to predict the labels of the few labeled target examples, and (3) Finally, the correctness of the label predictions are used to effectively weigh source examples class-wise to better guide the domain adaptation process. Extensive experiments show that the proposed Pred&Guide framework achieves state-of-the-art results for two large-scale benchmark datasets, namely Office-Home and DomainNet.
翻訳日:2022-11-23 17:52:52 公開日:2022-11-22
# 視点知識を用いた3次元ポーズ推定のための弱教師付き事前学習

Weakly-supervised Pre-training for 3D Human Pose Estimation via Perspective Knowledge ( http://arxiv.org/abs/2211.11983v1 )

ライセンス: Link先を確認
Zhongwei Qiu, Kai Qiu, Jianlong Fu, Dongmei Fu(参考訳) 現代のディープラーニングに基づく3dポーズ推定アプローチは、多くの3dポーズアノテーションを必要とする。 しかし、既存の3Dデータセットには多様性がなく、現在の手法の性能と一般化能力に制限がある。 既存の手法では2Dポーズアノテーションを用いて3Dポーズを推定するが、主に2Dポーズから2D構造的制約を抽出し、画像に隠された3D情報を無視する。 本稿では,3次元ポーズを監督せずに2次元画像から直接弱い3次元情報を抽出する手法を提案する。 まず,2次元ポジショニングアノテーションと視点事前知識を用いて,キーポイントがカメラから近づいたり遠ざかったりする関係を,相対的深さと呼ぶ。 2次元ポーズデータセット(MCPC)を収集し,相対深度ラベルを生成する。 MCPCに基づいて,画像中の2点間の深度関係を識別する弱教師付き事前学習(WSP)戦略を提案する。 WSPは,3次元ポーズ推定の深度と一般化能力の向上を図り,複数の画像上の2つのキーポイントの相対深さの学習を可能にする。 3Dポーズデータセットを微調整した後、WSPは2つの広く使用されているベンチマークで最先端の結果を得る。

Modern deep learning-based 3D pose estimation approaches require plenty of 3D pose annotations. However, existing 3D datasets lack diversity, which limits the performance of current methods and their generalization ability. Although existing methods utilize 2D pose annotations to help 3D pose estimation, they mainly focus on extracting 2D structural constraints from 2D poses, ignoring the 3D information hidden in the images. In this paper, we propose a novel method to extract weak 3D information directly from 2D images without 3D pose supervision. Firstly, we utilize 2D pose annotations and perspective prior knowledge to generate the relationship of that keypoint is closer or farther from the camera, called relative depth. We collect a 2D pose dataset (MCPC) and generate relative depth labels. Based on MCPC, we propose a weakly-supervised pre-training (WSP) strategy to distinguish the depth relationship between two points in an image. WSP enables the learning of the relative depth of two keypoints on lots of in-the-wild images, which is more capable of predicting depth and generalization ability for 3D human pose estimation. After fine-tuning on 3D pose datasets, WSP achieves state-of-the-art results on two widely-used benchmarks.
翻訳日:2022-11-23 17:52:30 公開日:2022-11-22
# レベル-S$^2$fM: 入射面のニューラルレベルセット上の運動からの構造

Level-S$^2$fM: Structure from Motion on Neural Level Set of Implicit Surfaces ( http://arxiv.org/abs/2211.12018v1 )

ライセンス: Link先を確認
Yuxi Xiao and Nan Xue and Tianfu Wu and Gui-Song Xia(参考訳) 本稿では,神経インクリメンタルなStructure-from-Motion(SfM)アプローチであるLevel-S$^2$fMを提案する。 本定式化では,暗黙の面と放射界の座標MLPを同時に学習し,SIFTによって確立されたキーポイント対応から主に得られるカメラポーズとシーン形状を推定する。 提案手法は,座標mlpの最適化のためのインクリメンタルなsfmパイプラインの開始時に避けられない2視点と少数視点の設定により新たな課題に直面するが,2次元対応で伝達される強い帰納的バイアスは実現可能であり,ボリュームレンダリングで使用されるレイサンプリングスキームと,暗黙的曲面のゼロレベル集合を見つける球面トレースとの関係を利用して,これらの課題を回避することを約束する。 そこで我々は,段階的なSfMのパイプラインを再検討し,2次元幾何初期化,カメラポーズ登録,3Dポイント三角測量,およびニューラル暗黙曲面の新たな視点におけるバンドル調整のキーコンポーネントを更新する。 我々のレベルS^2$fMは、暗示面のゼロレベル集合を情報的トップダウン正規化として扱い、再構成された3Dポイントを管理し、SDFを問合せ、NBA(Neural BA)による推定ジオメトリを調整し、最終的に3D再構成の有望な結果を得る。 さらに、Level-S$^2$fMは、ニューラル3D再構成のためのカメラポーズの要求を緩和した。

This paper presents a neural incremental Structure-from-Motion (SfM) approach, Level-S$^2$fM. In our formulation, we aim at simultaneously learning coordinate MLPs for the implicit surfaces and the radiance fields, and estimating the camera poses and scene geometry, which is mainly sourced from the established keypoint correspondences by SIFT. Our formulation would face some new challenges due to inevitable two-view and few-view configurations at the beginning of incremental SfM pipeline for the optimization of coordinate MLPs, but we found that the strong inductive biases conveying in the 2D correspondences are feasible and promising to avoid those challenges by exploiting the relationship between the ray sampling schemes used in volumetric rendering and the sphere tracing of finding the zero-level set of implicit surfaces. Based on this, we revisit the pipeline of incremental SfM and renew the key components of two-view geometry initialization, the camera pose registration, and the 3D points triangulation, as well as the Bundle Adjustment in a novel perspective of neural implicit surfaces. Because the coordinate MLPs unified the scene geometry in small MLP networks, our Level-S$^2$fM treats the zero-level set of the implicit surface as an informative top-down regularization to manage the reconstructed 3D points, reject the outlier of correspondences by querying SDF, adjust the estimated geometries by NBA (Neural BA), finally yielding promising results of 3D reconstruction. Furthermore, our Level-S$^2$fM alleviated the requirement of camera poses for neural 3D reconstruction.
翻訳日:2022-11-23 17:52:09 公開日:2022-11-22
# ViFi-Loc:カメラ音声対応GANを用いたマルチモーダル歩行者位置推定

ViFi-Loc: Multi-modal Pedestrian Localization using GAN with Camera-Phone Correspondences ( http://arxiv.org/abs/2211.12021v1 )

ライセンス: Link先を確認
Hansi Liu, Kristin Dana, Marco Gruteser, Hongsheng Lu(参考訳) スマートシティとV2Xシステムでは、歩行者の正確な位置の取得は交通安全にとって不可欠である。 現在のシステムは、センサー融合によって人の位置を検知し推定するために、カメラと無線センサーを採用している。 しかし、マルチモーダルデータが関連付けられない場合、標準融合アルゴリズムは適用できない。 例えば、歩行者はカメラの視野から外れたり、カメラのモダリティからのデータが欠落している。 この課題に対処し,より正確な歩行者の位置推定を行うため,gan(generative adversarial network)アーキテクチャを提案する。 訓練中は、歩行者のカメラと電話のデータ通信のリンクを学習する。 推定中は、GPS、IMU、FTMからなる歩行者の携帯電話データのみに基づいて、精密な位置推定を生成する。 その結果,GANは5つの屋外シーンで1~2mの局所化誤差で3次元座標を生成することがわかった。 さらに,提案モデルが自己学習を支援することを示す。 生成された座標は歩行者のバウンディングボックス座標と関連付けることができ、追加のカメラ電話データ対応を得ることができる。 これにより推論中の自動データ収集が可能になる。 拡張データセットを微調整した後、ローカライズ精度は最大26%向上した。

In Smart City and Vehicle-to-Everything (V2X) systems, acquiring pedestrians' accurate locations is crucial to traffic safety. Current systems adopt cameras and wireless sensors to detect and estimate people's locations via sensor fusion. Standard fusion algorithms, however, become inapplicable when multi-modal data is not associated. For example, pedestrians are out of the camera field of view, or data from camera modality is missing. To address this challenge and produce more accurate location estimations for pedestrians, we propose a Generative Adversarial Network (GAN) architecture. During training, it learns the underlying linkage between pedestrians' camera-phone data correspondences. During inference, it generates refined position estimations based only on pedestrians' phone data that consists of GPS, IMU and FTM. Results show that our GAN produces 3D coordinates at 1 to 2 meter localization error across 5 different outdoor scenes. We further show that the proposed model supports self-learning. The generated coordinates can be associated with pedestrian's bounding box coordinates to obtain additional camera-phone data correspondences. This allows automatic data collection during inference. After fine-tuning on the expanded dataset, localization accuracy is improved by up to 26%.
翻訳日:2022-11-23 17:51:34 公開日:2022-11-22
# 微分可能なファジィ$\mathcal{ALC}$:記号接地のためのニューラルシンボリック表現言語

Differentiable Fuzzy $\mathcal{ALC}$: A Neural-Symbolic Representation Language for Symbol Grounding ( http://arxiv.org/abs/2211.12006v1 )

ライセンス: Link先を確認
Xuan Wu, Xinhao Zhu, Yizheng Zhao, Xinyu Dai(参考訳) ニューラルシンボリックコンピューティングは、堅牢なニューラルラーニングとサウンドシンボリック推論を単一のフレームワークに統合することを目的としており、これら2つの相補的な強みを利用する。 ニューラルシンボリックコンピューティングにおける中心的な課題は、ニューラルネットワークとシンボリック推論の定式化を、共通の意味論を持つ1つのフレームワークに統一することである。 本稿では,この役割に対する微分可能なファジィ$\mathcal{ALC}$ (DF-$\mathcal{ALC}$) を,所望の意味を持つニューラルシンボリック表現言語として提案する。 DF-$\mathcal{ALC}$は、説明論理の$\mathcal{ALC}$と記号接地のためのニューラルモデルを統合する。 神経モデルによって学習される基底は、$\mathcal{alc}$ の知識ベースと意味的に一貫性を持たなければならないという制約に対する階層的損失を定義する。 そして, 満足度を最大化することで, 接地における意味論を捉えることは, 合理的に接地を是正できないことがわかった。 さらに,シンボル接地問題に適応するDFの規則に基づく損失を定義する。 その結果, DF-$\mathcal{ALC}$は, 低リソース環境においても, 教師なし学習方式で画像オブジェクト検出器の性能を向上させることができた。

Neural-symbolic computing aims at integrating robust neural learning and sound symbolic reasoning into a single framework, so as to leverage the complementary strengths of both of these, seemingly unrelated (maybe even contradictory) AI paradigms. The central challenge in neural-symbolic computing is to unify the formulation of neural learning and symbolic reasoning into a single framework with common semantics, that is, to seek a joint representation between a neural model and a logical theory that can support the basic grounding learned by the neural model and also stick to the semantics of the logical theory. In this paper, we propose differentiable fuzzy $\mathcal{ALC}$ (DF-$\mathcal{ALC}$) for this role, as a neural-symbolic representation language with the desired semantics. DF-$\mathcal{ALC}$ unifies the description logic $\mathcal{ALC}$ and neural models for symbol grounding; in particular, it infuses an $\mathcal{ALC}$ knowledge base into neural models through differentiable concept and role embeddings. We define a hierarchical loss to the constraint that the grounding learned by neural models must be semantically consistent with $\mathcal{ALC}$ knowledge bases. And we find that capturing the semantics in grounding solely by maximizing satisfiability cannot revise grounding rationally. We further define a rule-based loss for DF adapting to symbol grounding problems. The experiment results show that DF-$\mathcal{ALC}$ with rule-based loss can improve the performance of image object detectors in an unsupervised learning way, even in low-resource situations.
翻訳日:2022-11-23 17:46:26 公開日:2022-11-22
# ソフトインターベンションによる因果的抽象化

Causal Abstraction with Soft Interventions ( http://arxiv.org/abs/2211.12270v1 )

ライセンス: Link先を確認
Riccardo Massidda, Atticus Geiger, Thomas Icard, Davide Bacciu(参考訳) 因果抽象は、複数の因果モデルが異なる詳細レベルで同じシステムをどのように表現できるかを記述する理論を提供する。 既存の理論的提案では、抽象モデルの分析を因果変数を定数に固定する「ハード」介入に限定している。 本研究では,因果抽象を「ソフト」な介入に拡張し,新たな因果接続を付加することなく変数に非定数関数を割り当てる。 具体的には (i)beckersおよびhalpern(2019)からの$\tau$-abstractionをソフト介入に一般化する。 (ii)ソフト・インターベンション間のユニークなマップ$\omega$を確保するためのソフト・抽象化のさらなる定義を提案する。 (iii)ソフト抽象化のコンストラクティブな定義により、介入写像 $\omega$ が特定の明示的な形式を持つことが保証される。

Causal abstraction provides a theory describing how several causal models can represent the same system at different levels of detail. Existing theoretical proposals limit the analysis of abstract models to "hard" interventions fixing causal variables to be constant values. In this work, we extend causal abstraction to "soft" interventions, which assign possibly non-constant functions to variables without adding new causal connections. Specifically, (i) we generalize $\tau$-abstraction from Beckers and Halpern (2019) to soft interventions, (ii) we propose a further definition of soft abstraction to ensure a unique map $\omega$ between soft interventions, and (iii) we prove that our constructive definition of soft abstraction guarantees the intervention map $\omega$ has a specific and necessary explicit form.
翻訳日:2022-11-23 17:45:49 公開日:2022-11-22
# 教師なし再確認のための信頼度誘導型セントロイド

Confidence-guided Centroids for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2211.11921v1 )

ライセンス: Link先を確認
Yunqi Miao, Jiankang Deng, Guiguang Ding, Jungong Han(参考訳) 教師なし人物再識別(ReID)は,識別ラベルを活用せずに特徴抽出器を訓練することを目的としている。 不完全なクラスタリング結果に対する盲目的な信頼のため、学習は必然的に信頼できない擬似ラベルによって誤解される。 擬似ラベルリファインメントは従来から研究されてきたが、一般的にはカメラIDや身体部分予測などの補助情報を利用する。 本研究は疑似ラベルを洗練するためにクラスタの内部特性を探索する。 この目的のために,信頼性誘導型CGC (Confidence-Guided Centroids) が提案されている。 高信頼のサンプルはセントロイドの形成にのみ関与するため、低信頼のサンプル、すなわち境界サンプルの識別情報は対応するセントロイドに寄与しない。 新しいcentroidsを考えると、サンプルが割り当てられたcentroidsからのみ学習するために強制される現在の学習方式は無意識である。 そこで我々は,この状況を改善するために信頼度ガイド付き擬似ラベル(cgl)を提案する。これによりサンプルは,もともと割り当てられたセントロイドだけでなく,そのアイデンティティ情報に埋め込まれる可能性のある他のセントロイドにもアプローチできる。 信頼度の高いセンタロイドとラベルを付与することで,補助情報を利用した最先端の擬似ラベルリファインメント手法と同等の性能が得られる。

Unsupervised person re-identification (ReID) aims to train a feature extractor for identity retrieval without exploiting identity labels. Due to the blind trust in imperfect clustering results, the learning is inevitably misled by unreliable pseudo labels. Albeit the pseudo label refinement has been investigated by previous works, they generally leverage auxiliary information such as camera IDs and body part predictions. This work explores the internal characteristics of clusters to refine pseudo labels. To this end, Confidence-Guided Centroids (CGC) are proposed to provide reliable cluster-wise prototypes for feature learning. Since samples with high confidence are exclusively involved in the formation of centroids, the identity information of low-confidence samples, i.e., boundary samples, are NOT likely to contribute to the corresponding centroid. Given the new centroids, current learning scheme, where samples are enforced to learn from their assigned centroids solely, is unwise. To remedy the situation, we propose to use Confidence-Guided pseudo Label (CGL), which enables samples to approach not only the originally assigned centroid but other centroids that are potentially embedded with their identity information. Empowered by confidence-guided centroids and labels, our method yields comparable performance with, or even outperforms, state-of-the-art pseudo label refinement works that largely leverage auxiliary information.
翻訳日:2022-11-23 17:43:26 公開日:2022-11-22
# シングルエンコーダで視線を測る軽量アンサンブル「One Eye」

One Eye is All You Need: Lightweight Ensembles for Gaze Estimation with Single Encoders ( http://arxiv.org/abs/2211.11936v1 )

ライセンス: Link先を確認
Rishi Athavale, Lakshmi Sritan Motati, Rohan Kalahasty(参考訳) 近年,視線推定の精度は急速に向上している。 しかしながら、これらのモデルは、様々なコンピュータビジョン(CV)アルゴリズムや技術(小さなResNetやインセプションネットワークやアンサンブルモデルなど)を活用することができず、他のCV問題の結果を改善することが示されている。 さらに、現在の視線推定モデルは、両目または顔全体の使用を必要とするが、現実世界のデータは、常に両目を高解像度で持つとは限らない。 そこで本研究では,resnetとinceptionモデルアーキテクチャを実装し,単眼画像のみを用いて予測を行う視線推定モデルを提案する。 さらに,複数の個別アーキテクチャからの予測を主題固有の予測に用いるアンサンブルキャリブレーションネットワークを提案する。 軽量アーキテクチャを用いることで,モデルパラメータ数が非常に少ないGazeCaptureデータセット上で高い性能を実現する。 入力として2つの目を使用する場合,キャリブレーション無しで1.591cm,アンサンブルキャリブレーションモデルで1.439cmの予測誤差が得られる。 1つの目だけを入力にすると、テストセットの平均予測誤差はキャリブレーション無しで2.312cm、アンサンブルキャリブレーションモデルで1.951cmである。 また,テストセットの右目画像の誤差も有意に小さく,将来の視線推定ツールの設計において重要である可能性が示唆された。

Gaze estimation has grown rapidly in accuracy in recent years. However, these models often fail to take advantage of different computer vision (CV) algorithms and techniques (such as small ResNet and Inception networks and ensemble models) that have been shown to improve results for other CV problems. Additionally, most current gaze estimation models require the use of either both eyes or an entire face, whereas real-world data may not always have both eyes in high resolution. Thus, we propose a gaze estimation model that implements the ResNet and Inception model architectures and makes predictions using only one eye image. Furthermore, we propose an ensemble calibration network that uses the predictions from several individual architectures for subject-specific predictions. With the use of lightweight architectures, we achieve high performance on the GazeCapture dataset with very low model parameter counts. When using two eyes as input, we achieve a prediction error of 1.591 cm on the test set without calibration and 1.439 cm with an ensemble calibration model. With just one eye as input, we still achieve an average prediction error of 2.312 cm on the test set without calibration and 1.951 cm with an ensemble calibration model. We also notice significantly lower errors on the right eye images in the test set, which could be important in the design of future gaze estimation-based tools.
翻訳日:2022-11-23 17:43:02 公開日:2022-11-22
# ニューラルテキスト生成のためのBest-k$検索アルゴリズム

Best-$k$ Search Algorithm for Neural Text Generation ( http://arxiv.org/abs/2211.11924v1 )

ライセンス: Link先を確認
Jiacheng Xu, Caiming Xiong, Silvio Savarese, Yingbo Zhou(参考訳) 現代の自然言語生成パラダイムは、モデルから品質シーケンスを得るための優れた復号戦略を必要とする。 ビーム探索は高品質だが多様性の少ない出力をもたらす;確率的アプローチは高いばらつきと時には低い品質に苦しむが、出力はより自然で創造的になる傾向がある。 本研究では,品質と多様性のバランスをとる決定論的探索アルゴリズムを提案する。 まず,vanilla best-first search (bfs) アルゴリズムを調査し,次にbest-k$ searchアルゴリズムを提案する。 BFSにインスパイアされた私たちは、最初のノードではなく、上位の$k$ノードを拡張して、効率と多様性を高めました。 ヒーププルーニングに伴う最近発見されたノードの重み付けは、検索手順の完全性を保証する。 質問生成,コモンセンス生成,テキスト要約,翻訳を含む4つのNLGタスクの実験結果から,提案手法は高いテキスト品質を維持しつつ,より多様で自然な結果が得られることが示された。 提案アルゴリズムはパラメータフリー,軽量,効率的,使いやすい。

Modern natural language generation paradigms require a good decoding strategy to obtain quality sequences out of the model. Beam search yields high-quality but low diversity outputs; stochastic approaches suffer from high variance and sometimes low quality, but the outputs tend to be more natural and creative. In this work, we propose a deterministic search algorithm balancing both quality and diversity. We first investigate the vanilla best-first search (BFS) algorithm and then propose the Best-$k$ Search algorithm. Inspired by BFS, we greedily expand the top $k$ nodes, instead of only the first node, to boost efficiency and diversity. Upweighting recently discovered nodes accompanied by heap pruning ensures the completeness of the search procedure. Experiments on four NLG tasks, including question generation, commonsense generation, text summarization, and translation, show that best-$k$ search yields more diverse and natural outputs compared to strong baselines, while our approach maintains high text quality. The proposed algorithm is parameter-free, lightweight, efficient, and easy to use.
翻訳日:2022-11-23 17:36:33 公開日:2022-11-22
# botsim:商用タスク指向対話システムのためのエンドツーエンドボットシミュレーションフレームワーク

BotSIM: An End-to-End Bot Simulation Framework for Commercial Task-Oriented Dialog Systems ( http://arxiv.org/abs/2211.11982v1 )

ライセンス: Link先を確認
Guangsen Wang, Samson Tan, Shafiq Joty, Gang Wu, Jimmy Au, Steven Hoi(参考訳) 商用テキストベースタスク指向対話(TOD)システムのためのデータ効率のよいエンドツーエンドボットシミュレーションツールキットBotSIMを提案する。 BotSIMは3つの主要コンポーネントから構成される。 1) 意味レベルのダイアログをボット定義から推論し,モデルに基づく言い換えを通じてユーザクエリを生成することができるジェネレータ 2) 対話エージェントとの会話をシミュレートするアジェンダベースの対話ユーザシミュレータ(ABUS) 3)シミュレーションされた会話を分析し、ボットの健康状況を可視化し、ボットのトラブルシューティングと改善のための実行可能な修復提案を提供する。 2つの商用ボットプラットフォームにおけるケーススタディを通じて、エンドツーエンド評価、修復、マルチインテントダイアログ生成におけるbotsimの有効性を実証する。 BotSIMの"ジェネレーション・シミュレーション・リメディエーション"パラダイムは、エンド・ツー・エンドのボット評価とイテレーションプロセスを促進する。 1) 手動テストケース作成努力の削減 2) 広範囲なダイアログシミュレーションにより,NLUおよびエンドツーエンドのパフォーマンスの観点から,ボットの総合的なゲージを可能にする。 3)アクション可能な提案によるボットトラブルシューティングプロセスの改善。 システムのデモはhttps://tinyurl.com/mryu74cdとhttps://youtu.be/qli5isoly30のデモビデオで見ることができる。

We present BotSIM, a data-efficient end-to-end Bot SIMulation toolkit for commercial text-based task-oriented dialog (TOD) systems. BotSIM consists of three major components: 1) a Generator that can infer semantic-level dialog acts and entities from bot definitions and generate user queries via model-based paraphrasing; 2) an agenda-based dialog user Simulator (ABUS) to simulate conversations with the dialog agents; 3) a Remediator to analyze the simulated conversations, visualize the bot health reports and provide actionable remediation suggestions for bot troubleshooting and improvement. We demonstrate BotSIM's effectiveness in end-to-end evaluation, remediation and multi-intent dialog generation via case studies on two commercial bot platforms. BotSIM's "generation-simulation-remediation" paradigm accelerates the end-to-end bot evaluation and iteration process by: 1) reducing manual test cases creation efforts; 2) enabling a holistic gauge of the bot in terms of NLU and end-to-end performance via extensive dialog simulation; 3) improving the bot troubleshooting process with actionable suggestions. A demo of our system can be found at https://tinyurl.com/mryu74cd and a demo video at https://youtu.be/qLi5iSoly30.
翻訳日:2022-11-23 17:36:12 公開日:2022-11-22
# ArzEn-ST: コード変換されたエジプトアラビア語 - 英語のための3方向音声翻訳コーパス

ArzEn-ST: A Three-way Speech Translation Corpus for Code-Switched Egyptian Arabic - English ( http://arxiv.org/abs/2211.12000v1 )

ライセンス: Link先を確認
Injy Hamed, Nizar Habash, Slim Abdennadher, Ngoc Thang Vu(参考訳) 本稿では,エジプトのアラビア語音声翻訳コーパスであるArzEn-STの収集について紹介する。 このコーパスは、バイリンガル話者との非公式なインタビューを通じて収集されたArzEn音声コーパスの拡張である。 本研究では,エジプト語と英語の両方向の翻訳を収集し,三方向の音声翻訳コーパスを形成する。 翻訳ガイドラインとコーパスを公開しています。 また,機械翻訳および音声翻訳タスクのベースラインシステムに対する結果についても報告する。 我々は、言語学的観点からコードスイッチング現象の研究を動機づけ、促進し、NLPシステムの訓練と評価に使用できる貴重なリソースであると信じている。

We present our work on collecting ArzEn-ST, a code-switched Egyptian Arabic - English Speech Translation Corpus. This corpus is an extension of the ArzEn speech corpus, which was collected through informal interviews with bilingual speakers. In this work, we collect translations in both directions, monolingual Egyptian Arabic and monolingual English, forming a three-way speech translation corpus. We make the translation guidelines and corpus publicly available. We also report results for baseline systems for machine translation and speech translation tasks. We believe this is a valuable resource that can motivate and facilitate further research studying the code-switching phenomenon from a linguistic perspective and can be used to train and evaluate NLP systems.
翻訳日:2022-11-23 17:35:53 公開日:2022-11-22
# HaRiM$^+$: 幻覚リスクを伴う概要品質の評価

HaRiM$^+$: Evaluating Summary Quality with Hallucination Risk ( http://arxiv.org/abs/2211.12118v1 )

ライセンス: Link先を確認
Seonil Son, Junsoo Park, Jeong-in Hwang, Junghwa Lee, Hyungjong Noh, Yeonsoo Lee(参考訳) 要約モデルを開発する際の課題の1つは、生成されたテキストの現実的矛盾を測定することの難しさから生じる。 本研究では,(miao et al., 2021) が提案する信頼感過剰化目標を幻覚的リスク測定として再解釈し,生成した要約の質をよりよく推定する。 本稿では,トークン確率に基づいて幻覚リスクを計算するために,既製の要約モデルのみを必要とする基準フリー計量HaRiM+を提案する。 デプロイにはモデルやアドホックモジュールの追加トレーニングは必要ありません。 要約品質評価において,HaRiM+は,FRANK,QAGS,SummEvalの3つの要約品質アノテーションセットに対して,人間の判断に対する最先端の相関を記録する。 要約モデルの利用に資する私たちの作業が,自動評価と要約生成の両方の進展を促進することを願っています。

One of the challenges of developing a summarization model arises from the difficulty in measuring the factual inconsistency of the generated text. In this study, we reinterpret the decoder overconfidence-regularizing objective suggested in (Miao et al., 2021) as a hallucination risk measurement to better estimate the quality of generated summaries. We propose a reference-free metric, HaRiM+, which only requires an off-the-shelf summarization model to compute the hallucination risk based on token likelihoods. Deploying it requires no additional training of models or ad-hoc modules, which usually need alignment to human judgments. For summary-quality estimation, HaRiM+ records state-of-the-art correlation to human judgment on three summary-quality annotation sets: FRANK, QAGS, and SummEval. We hope that our work, which merits the use of summarization models, facilitates the progress of both automated evaluation and generation of summary.
翻訳日:2022-11-23 17:35:43 公開日:2022-11-22
# 生物医学的キーフレーズ生成のための大規模データセット

A Large-Scale Dataset for Biomedical Keyphrase Generation ( http://arxiv.org/abs/2211.12124v1 )

ライセンス: Link先を確認
Mael Houbre, Florian Boudin and Beatrice Daille(参考訳) キーフレーズ生成(keyphrase generation)とは、文書の主要なトピックを強調する一連の単語やフレーズを生成するタスクである。 生体医学領域ではキーフレーズ生成のためのデータセットは少なく、生成モデルのトレーニングにおけるサイズに関する期待を満たしていない。 本稿では,PubMedの要約から500万以上の文書を収集した,最初の大規模バイオメディカルキーフレーズ生成データセットであるkp-biomedを紹介する。 いくつかの生成モデルのトレーニングとリリースを行い、大規模なデータセットを使用することで、現在および不在のキーフレーズ生成のパフォーマンスが大幅に向上することを示す一連の実験を行った。 データセットはCC-BY-NC v4.0ライセンスでhttps://huggingface.co/ datasets/taln-ls2n/kpbiomedで利用可能である。

Keyphrase generation is the task consisting in generating a set of words or phrases that highlight the main topics of a document. There are few datasets for keyphrase generation in the biomedical domain and they do not meet the expectations in terms of size for training generative models. In this paper, we introduce kp-biomed, the first large-scale biomedical keyphrase generation dataset with more than 5M documents collected from PubMed abstracts. We train and release several generative models and conduct a series of experiments showing that using large scale datasets improves significantly the performances for present and absent keyphrase generation. The dataset is available under CC-BY-NC v4.0 license at https://huggingface.co/ datasets/taln-ls2n/kpbiomed.
翻訳日:2022-11-23 17:35:26 公開日:2022-11-22
# 真実への収束:反復的制約編集による誤り訂正

Converge to the Truth: Factual Error Correction via Iterative Constrained Editing ( http://arxiv.org/abs/2211.12130v1 )

ライセンス: Link先を確認
Jiangjie Chen, Rui Xu, Wenxuan Zeng, Changzhi Sun, Lei Li, Yanghua Xiao(参考訳) 虚偽のクレーム文を仮定すれば、最小限の編集でそれを自動修正できるだろうか? 既存のメソッドでは、教師付きトレーニングのために多数の偽および訂正されたクレームを必要とするか、発話内の複数のトークンにまたがる十分なエラーを処理しないかのどちらかである。 本稿では,最小限の編集による事実誤り訂正(FEC)手法であるVENCEを提案する。 VENCEは、FEC問題を目標密度関数に対する反復サンプリング編集動作として定式化する。 我々は、オフラインで訓練された事実検証モデルから、予測真理度スコアでターゲット関数を慎重に設計する。 VENCEは、入力トークンに関する真理度スコアの逆計算勾配と、遠隔教師付き言語モデル(T5)を用いた編集動作に基づいて、最も確率の高い編集位置をサンプリングする。 公開データセットでの実験では、VENCEは以前の最遠距離で監督された手法よりもよく測定されたSARIの基準を5.3(または11.8%の相対的な改善)改善している。

Given a possibly false claim sentence, how can we automatically correct it with minimal editing? Existing methods either require a large number of pairs of false and corrected claims for supervised training or do not handle well errors spanning over multiple tokens within an utterance. In this paper, we propose VENCE, a novel method for factual error correction (FEC) with minimal edits. VENCE formulates the FEC problem as iterative sampling editing actions with respect to a target density function. We carefully design the target function with predicted truthfulness scores from an offline trained fact verification model. VENCE samples the most probable editing positions based on back-calculated gradients of the truthfulness score concerning input tokens and the editing actions using a distantly-supervised language model (T5). Experiments on a public dataset show that VENCE improves the well-adopted SARI metric by 5.3 (or a relative improvement of 11.8%) over the previous best distantly-supervised methods.
翻訳日:2022-11-23 17:35:14 公開日:2022-11-22
# 因果ニュースコーパスによる事象因果関係の同定 -- 共有タスク3, ケース2022

Event Causality Identification with Causal News Corpus -- Shared Task 3, CASE 2022 ( http://arxiv.org/abs/2211.12154v1 )

ライセンス: Link先を確認
Fiona Anting Tan, Hansi Hettiarachchi, Ali H\"urriyeto\u{g}lu, Tommaso Caselli, Onur Uca, Farhana Ferdousi Liza, Nelleke Oostdijk(参考訳) イベント因果性識別 ケース2022の共有タスクは、因果性ニュースコーパスに取り組んでいる2つのサブタスクを含む。 サブタスク1は、ある文が因果関係を含むか否かを予測するために参加者に要求する。 これは教師付きバイナリ分類タスクです。 サブタスク2では、参加者は因果文ごとに原因、効果、信号のスパンを特定する必要があった。 これは教師付きシーケンスラベリングタスクと見なすことができる。 両方のサブタスクに対して、参加者は保留テストセットの予測をアップロードし、それぞれSubtask 1と2のバイナリF1とマクロF1スコアに基づいてランク付けした。 本論文では,コンペに成果を提出した17チームと受講したシステム記述書12件について要約する。 1位と2位のF1得点はそれぞれ86.19%、54.15%だった。 トップパフォーマンスのアプローチには、ターゲットタスクに微調整された事前訓練された言語モデルが含まれていた。 本論文では,これらのアプローチを議論し,参加者のシステム間におけるエラーの分析を行う。

The Event Causality Identification Shared Task of CASE 2022 involved two subtasks working on the Causal News Corpus. Subtask 1 required participants to predict if a sentence contains a causal relation or not. This is a supervised binary classification task. Subtask 2 required participants to identify the Cause, Effect and Signal spans per causal sentence. This could be seen as a supervised sequence labeling task. For both subtasks, participants uploaded their predictions for a held-out test set, and ranking was done based on binary F1 and macro F1 scores for Subtask 1 and 2, respectively. This paper summarizes the work of the 17 teams that submitted their results to our competition and 12 system description papers that were received. The best F1 scores achieved for Subtask 1 and 2 were 86.19% and 54.15%, respectively. All the top-performing approaches involved pre-trained language models fine-tuned to the targeted task. We further discuss these approaches and analyze errors across participants' systems in this paper.
翻訳日:2022-11-23 17:34:56 公開日:2022-11-22
# PESE:ポインタネットワークに基づくエンコーダ・デコーダアーキテクチャを用いたイベント構造抽出

PESE: Event Structure Extraction using Pointer Network based Encoder-Decoder Architecture ( http://arxiv.org/abs/2211.12157v1 )

ライセンス: Link先を確認
Alapan Kuila and Sudeshan Sarkar(参考訳) イベント抽出(EE)の課題は、テキストからイベントとイベント関連の議論情報を見つけ、構造化形式で表現することである。 これまでのほとんどの作業では、複数のサブ構造を別々に識別し、それらを集約して完全なイベント構造を得ることで、この問題を解決しようと試みている。 メソッドの問題は、イベント参加者(イベントトリガー、引数、ロール)間のすべての依存関係を識別できないことだ。 本稿では,各イベントレコードをトリガ句,トリガタイプ,引数句,対応するロール情報を含むユニークなタプル形式で表現する。 提案するポインタネットワークベースのエンコーダ-デコーダモデルでは,イベント参加者間のインタラクションを利用してイベントタプルを生成し,真のエンドツーエンドソリューションをEEタスクに提示する。 ACE2005データセットを用いて本モデルの評価を行い,最先端手法と比較して競争性能を向上し,本モデルの有効性を実証した。

The task of event extraction (EE) aims to find the events and event-related argument information from the text and represent them in a structured format. Most previous works try to solve the problem by separately identifying multiple substructures and aggregating them to get the complete event structure. The problem with the methods is that it fails to identify all the interdependencies among the event participants (event-triggers, arguments, and roles). In this paper, we represent each event record in a unique tuple format that contains trigger phrase, trigger type, argument phrase, and corresponding role information. Our proposed pointer network-based encoder-decoder model generates an event tuple in each time step by exploiting the interactions among event participants and presenting a truly end-to-end solution to the EE task. We evaluate our model on the ACE2005 dataset, and experimental results demonstrate the effectiveness of our model by achieving competitive performance compared to the state-of-the-art methods.
翻訳日:2022-11-23 17:34:41 公開日:2022-11-22
# GDPRによるセラピスト・パティエント・ダイアログの収集

GDPR Compliant Collection of Therapist-Patient-Dialogues ( http://arxiv.org/abs/2211.12360v1 )

ライセンス: Link先を確認
Tobias Mayer, Neha Warikoo, Oliver Grimm, Andreas Reif, Iryna Gurevych(参考訳) 世界保健機関(WHO)のGlobal Burden of Disease Listによると、精神疾患は最も不安定な疾患の1つであり、近年の診断と治療効果を改善するために、研究者は個々のバイオマーカーを同定しようと試みている。 しかし、神経生物学データの収集は費用と時間を要する。 もう1つの潜在的な情報源は、すでに臨床ルーチンの一部であり、セラピスト-患者対話である。 様々な治療パラメーターの予測因子としての言語の役割を研究する先駆的な研究はいくつかあるが、例えば患者セラピスト同盟は大規模な研究はない。 これらの研究を行う上での大きな障害は、機械学習モデルをトレーニングするために必要な、大きなデータセットの可用性である。 これらの会話は臨床医の日常的な日常の一部だが、収集には様々な倫理的(データの使用目的)、法的(データプライバシ)、技術的(データフォーマッティング)の制限が伴う。 これらの制限のいくつかは、匿名化の難しさの増加や記録の転写など、治療対話の領域に特有である。 本稿では,欧州連合(eu)の一般データプライバシ規則に基づく精神科診療所におけるセラピスト-患者対話の収集に直面する課題について,自然言語処理(nlp)研究のためのデータの利用を目標として詳述する。 本稿では、手順の各ステップの概要を述べ、この分野でさらなる研究を動機付ける潜在的な落とし穴を指摘した。

According to the Global Burden of Disease list provided by the World Health Organization (WHO), mental disorders are among the most debilitating disorders.To improve the diagnosis and the therapy effectiveness in recent years, researchers have tried to identify individual biomarkers. Gathering neurobiological data however, is costly and time-consuming. Another potential source of information, which is already part of the clinical routine, are therapist-patient dialogues. While there are some pioneering works investigating the role of language as predictors for various therapeutic parameters, for example patient-therapist alliance, there are no large-scale studies. A major obstacle to conduct these studies is the availability of sizeable datasets, which are needed to train machine learning models. While these conversations are part of the daily routine of clinicians, gathering them is usually hindered by various ethical (purpose of data usage), legal (data privacy) and technical (data formatting) limitations. Some of these limitations are particular to the domain of therapy dialogues, like the increased difficulty in anonymisation, or the transcription of the recordings. In this paper, we elaborate on the challenges we faced in starting our collection of therapist-patient dialogues in a psychiatry clinic under the General Data Privacy Regulation of the European Union with the goal to use the data for Natural Language Processing (NLP) research. We give an overview of each step in our procedure and point out the potential pitfalls to motivate further research in this field.
翻訳日:2022-11-23 17:34:22 公開日:2022-11-22
# HyperTuning: バックプロパゲーションのない大規模言語モデルへの適応

HyperTuning: Toward Adapting Large Language Models without Back-propagation ( http://arxiv.org/abs/2211.12485v1 )

ライセンス: Link先を確認
Jason Phang, Yi Mao, Pengcheng He, Weizhu Chen(参考訳) 異なるタスクのために大きな言語モデルを微調整することはコストと非効率がかかり、チューニングされたパラメータの数を減らすメソッドでさえ、完全な勾配に基づく最適化が必要である。 固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いた新しいモデル適応手法であるHyperTuningを提案する。 少数の例から,凍結したT5モデルに対してソフトプレフィックスやLoRAパラメータを生成する,T5ベースのハイパーモデルであるHyperT5によるハイパーチューニングの簡単なセットアップを示す。 まず、パラメータを生成するためにハイパーモデルをトレーニングする修正された条件付き言語モデリングの目的と、多数の多様な言語タスクでマルチタスクの微調整(MTF)の2つの段階でHyperT5をトレーニングする。 P3, MetaICL および Super-Natural Instructions データセット上で HyperT5 を評価し,未確認タスクのパラメータを効果的に生成可能であることを示す。 さらに,パラメータ効率向上のための初期化としてハイパーモデル生成パラメータを用いると,性能が向上することを示す。 したがってハイパーチューニングは、下流のさまざまなアプリケーションに大規模な言語モデルを活用するための柔軟で効率的な方法である。

Fine-tuning large language models for different tasks can be costly and inefficient, and even methods that reduce the number of tuned parameters still require full gradient-based optimization. We propose HyperTuning, a novel approach to model adaptation that uses a hypermodel to generate task-specific parameters for a fixed downstream model. We demonstrate a simple setup for hypertuning with HyperT5, a T5-based hypermodel that produces soft prefixes or LoRA parameters for a frozen T5 model from few-shot examples. We train HyperT5 in two stages: first, hyperpretraining with a modified conditional language modeling objective that trains a hypermodel to generate parameters; second, multi-task fine-tuning (MTF) on a large number of diverse language tasks. We evaluate HyperT5 on P3, MetaICL and Super-NaturalInstructions datasets, and show that it can effectively generate parameters for unseen tasks. Moreover, we show that using hypermodel-generated parameters as initializations for further parameter-efficient fine-tuning improves performance. HyperTuning can thus be a flexible and efficient way to leverage large language models for diverse downstream applications.
翻訳日:2022-11-23 17:33:56 公開日:2022-11-22
# 3次元畳み込みアテンションネットワークを用いた脳MRI-PET合成

Brain MRI-to-PET Synthesis using 3D Convolutional Attention Networks ( http://arxiv.org/abs/2211.12082v1 )

ライセンス: Link先を確認
Ramy Hussein, David Shin, Moss Zhao, Jia Guo, Guido Davidzon, Michael Moseley, Greg Zaharchuk(参考訳) 脳血流の正確な定量化は、幅広い神経疾患の診断と評価に不可欠である。 放射線標識水(15O-water)を用いたPETはヒトのCBF測定における金標準であると考えられている。 しかしPET画像は、その禁止コストと、通常現場でのサイクロトロン生産を必要とする短命な放射性医薬品トレーサの使用により、広く利用できない。 対照的に磁気共鳴イメージング(mri)はより容易にアクセスでき、電離放射線は含まない。 本研究では,マルチシーケンスMRIスキャンから金標準の15O-PET CBFを予測するための注意機構を備えた畳み込みエンコーダデコーダネットワークを提案する。 予測モデルへの入力には、一般的なMRIシーケンス(T1-weighted、T2-FLAIR、動脈スピンラベリング)が含まれる。 健常者および脳血管疾患患者126名を対象に,5倍のクロスバリデーションを施行し,それぞれ15O-water PET/MRIを同時施行した。 その結果, PET CBF 測定の精度(平均 SSIM 0.924 と PSNR 38.8 dB )が向上し, PET 合成法と従来の PET 合成法より精度が高いことがわかった。 また,CBF値が異常に低い血管領域を同定するための合意性を評価することで,提案アルゴリズムの臨床的意義を示す。 このような方法は、放射線の懸念、アクセスの欠如、ロジスティックな課題のためにPETイメージングを行なえない大きなコホートにおいて、より広く正確なCBF評価を可能にする。

Accurate quantification of cerebral blood flow (CBF) is essential for the diagnosis and assessment of a wide range of neurological diseases. Positron emission tomography (PET) with radiolabeled water (15O-water) is considered the gold-standard for the measurement of CBF in humans. PET imaging, however, is not widely available because of its prohibitive costs and use of short-lived radiopharmaceutical tracers that typically require onsite cyclotron production. Magnetic resonance imaging (MRI), in contrast, is more readily accessible and does not involve ionizing radiation. This study presents a convolutional encoder-decoder network with attention mechanisms to predict gold-standard 15O-water PET CBF from multi-sequence MRI scans, thereby eliminating the need for radioactive tracers. Inputs to the prediction model include several commonly used MRI sequences (T1-weighted, T2-FLAIR, and arterial spin labeling). The model was trained and validated using 5-fold cross-validation in a group of 126 subjects consisting of healthy controls and cerebrovascular disease patients, all of whom underwent simultaneous $15O-water PET/MRI. The results show that such a model can successfully synthesize high-quality PET CBF measurements (with an average SSIM of 0.924 and PSNR of 38.8 dB) and is more accurate compared to concurrent and previous PET synthesis methods. We also demonstrate the clinical significance of the proposed algorithm by evaluating the agreement for identifying the vascular territories with abnormally low CBF. Such methods may enable more widespread and accurate CBF evaluation in larger cohorts who cannot undergo PET imaging due to radiation concerns, lack of access, or logistic challenges.
翻訳日:2022-11-23 17:27:56 公開日:2022-11-22
# プロキシを用いた多次元コンテンツに基づく医用画像検索

Multimorbidity Content-Based Medical Image Retrieval Using Proxies ( http://arxiv.org/abs/2211.12185v1 )

ライセンス: Link先を確認
Yunyan Xing, Benjamin J. Meyer, Mehrtash Harandi, Tom Drummond, Zongyuan Ge(参考訳) コンテンツベースの医用画像検索は、コンピュータ支援診断システムの説明性を改善し、医療専門家に意思決定支援を提供する重要な診断ツールである。 放射線画像などの医用画像データはしばしば多生性であり、単一のサンプルには複数の病理組織が存在する可能性がある。 そのため、医療領域の画像検索システムはマルチラベルシナリオのために設計されなければならない。 本稿では、分類とコンテンツに基づく画像検索の両方に使用できる新しいマルチラベルメトリック学習法を提案する。 このようにしたモデルでは,疾患の存在を予測して診断を支援し,同様の病的内容のサンプルをユーザに返却することで,これらの予測の証拠を提供することができる。 実際には、検索された画像には病理報告が添付され、さらに診断プロセスが補助される。 提案手法では,特徴ベクトル間の距離を類似度の測定値として使用できるロバスト特徴空間の効率的な学習を実現するために,プロキシ特徴ベクトルを利用する。 既存のプロキシベースのメソッドとは異なり、トレーニングサンプルは複数のクラスラベルにまたがる複数のプロキシに割り当てることができる。 このマルチラベルプロキシ割り当ては、医療画像データに存在する疾患間の複雑な関係を符号化する特徴空間をもたらす。 本手法は,最先端画像検索システムとベースラインアプローチを上回っている。 分類とコンテンツに基づく画像検索へのアプローチの有効性を2つのマルチモービディティー・ラジオロジー・データセットで実証した。

Content-based medical image retrieval is an important diagnostic tool that improves the explainability of computer-aided diagnosis systems and provides decision making support to healthcare professionals. Medical imaging data, such as radiology images, are often multimorbidity; a single sample may have more than one pathology present. As such, image retrieval systems for the medical domain must be designed for the multi-label scenario. In this paper, we propose a novel multi-label metric learning method that can be used for both classification and content-based image retrieval. In this way, our model is able to support diagnosis by predicting the presence of diseases and provide evidence for these predictions by returning samples with similar pathological content to the user. In practice, the retrieved images may also be accompanied by pathology reports, further assisting in the diagnostic process. Our method leverages proxy feature vectors, enabling the efficient learning of a robust feature space in which the distance between feature vectors can be used as a measure of the similarity of those samples. Unlike existing proxy-based methods, training samples are able to assign to multiple proxies that span multiple class labels. This multi-label proxy assignment results in a feature space that encodes the complex relationships between diseases present in medical imaging data. Our method outperforms state-of-the-art image retrieval systems and a set of baseline approaches. We demonstrate the efficacy of our approach to both classification and content-based image retrieval on two multimorbidity radiology datasets.
翻訳日:2022-11-23 17:27:27 公開日:2022-11-22
# 合成トレースを用いた画像スプライシング検出と局所化アルゴリズム

Attacking Image Splicing Detection and Localization Algorithms Using Synthetic Traces ( http://arxiv.org/abs/2211.12314v1 )

ライセンス: Link先を確認
Shengbang Fang, Matthew C Stamm(参考訳) 近年のディープラーニングの進歩により、画像スプライシング検出とローカライゼーションアルゴリズムの新しいクラスの開発が可能になった。 これらのアルゴリズムは、シームズニューラルネットワークを用いて、分析中またはトレーニング中に暗黙的に、ローカライズされた不整合を検出することによって、スプライシング内容を特定する。 同時に、ディープラーニングは、敵の例やgan(generative adversarial network)ベースの攻撃など、新たな形の反フォレンス攻撃を可能にした。 しかし、これまで画像スプライシング検出と局所化アルゴリズムに対する反法医学的攻撃は示されていない。 本稿では,EXIF-Net,Nossprint,Forensic similarity Graphsなどの最先端のスプライシング検出およびローカライズアルゴリズムを騙し得る,GANベースの新たなアンチ・フォレンジック・アタックを提案する。 この攻撃は、シームズニューラルネットワークのセットに対して反法医学的ジェネレータを逆さまに訓練することで、合成法医学的トレースを作成することができる。 分析では、これらの合成痕跡は本物に見え、画像全体を通して自己整合である。 一連の実験を通して,攻撃画像に視覚的に検出可能なアーティファクトを導入することなく,法医学的なスプライシング検出とローカライズアルゴリズムを騙すことができることを示した。 さらに,本攻撃が既存の代替攻撃手法を上回っていることを実証する。 %

Recent advances in deep learning have enabled forensics researchers to develop a new class of image splicing detection and localization algorithms. These algorithms identify spliced content by detecting localized inconsistencies in forensic traces using Siamese neural networks, either explicitly during analysis or implicitly during training. At the same time, deep learning has enabled new forms of anti-forensic attacks, such as adversarial examples and generative adversarial network (GAN) based attacks. Thus far, however, no anti-forensic attack has been demonstrated against image splicing detection and localization algorithms. In this paper, we propose a new GAN-based anti-forensic attack that is able to fool state-of-the-art splicing detection and localization algorithms such as EXIF-Net, Noiseprint, and Forensic Similarity Graphs. This attack operates by adversarially training an anti-forensic generator against a set of Siamese neural networks so that it is able to create synthetic forensic traces. Under analysis, these synthetic traces appear authentic and are self-consistent throughout an image. Through a series of experiments, we demonstrate that our attack is capable of fooling forensic splicing detection and localization algorithms without introducing visually detectable artifacts into an attacked image. Additionally, we demonstrate that our attack outperforms existing alternative attack approaches. %
翻訳日:2022-11-23 17:27:07 公開日:2022-11-22
# 音声タグのオントロジー学習と評価

Ontology-aware Learning and Evaluation for Audio Tagging ( http://arxiv.org/abs/2211.12195v1 )

ライセンス: Link先を確認
Haohe Liu, Qiuqiang Kong, Xubo Liu, Xinhao Mei, Wenwu Wang, Mark D. Plumbley(参考訳) 本研究は,従来の平均精度(map)指標の限界を克服するために,音声タグづけタスクの新たな評価基準を定義し,それらの関係を考慮せずに,異なる種類の音を独立したクラスとして扱う。 また、音響ラベリングの曖昧さのため、トレーニングおよび評価セットのラベルは正確かつ徹底的であることが保証されていないため、mAPによるロバストな評価が困難である。 提案手法では,評価中にAudioSetオントロジー情報を利用することで,平均平均精度(OmAP)がmAPの弱点に対処する。 具体的には,対象クラスへのオントロジーグラフ距離に基づいてモデル予測における偽陽性事象の重み付けを行う。 OmAP測度はまた、オントロジーグラフの粗いレベルが異なる評価によってモデルパフォーマンスに関する洞察を提供する。 我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。 オントロジー情報を活用することの重要性をさらに検証するために、オントロジー距離に基づいて二元交叉エントロピー(BCE)損失を再重み付けする新しい損失関数(OBCE)を提案する。 実験の結果,OBCEはAudioSetタグ付けタスクにおいて,mAPとOmAPの両方のメトリクスを改善することができることがわかった。

This study defines a new evaluation metric for audio tagging tasks to overcome the limitation of the conventional mean average precision (mAP) metric, which treats different kinds of sound as independent classes without considering their relations. Also, due to the ambiguities in sound labeling, the labels in the training and evaluation set are not guaranteed to be accurate and exhaustive, which poses challenges for robust evaluation with mAP. The proposed metric, ontology-aware mean average precision (OmAP) addresses the weaknesses of mAP by utilizing the AudioSet ontology information during the evaluation. Specifically, we reweight the false positive events in the model prediction based on the ontology graph distance to the target classes. The OmAP measure also provides more insights into model performance by evaluations with different coarse-grained levels in the ontology graph. We conduct human evaluations and demonstrate that OmAP is more consistent with human perception than mAP. To further verify the importance of utilizing the ontology information, we also propose a novel loss function (OBCE) that reweights binary cross entropy (BCE) loss based on the ontology distance. Our experiment shows that OBCE can improve both mAP and OmAP metrics on the AudioSet tagging task.
翻訳日:2022-11-23 17:26:32 公開日:2022-11-22
# ロバストな高次元チューニングフリー多重テスト

Robust High-dimensional Tuning Free Multiple Testing ( http://arxiv.org/abs/2211.11959v1 )

ライセンス: Link先を確認
Jianqing Fan, Zhipeng Lou, Mengxin Yu(参考訳) 高次元データのスタイリングの特徴は、多くの変数が重い尾を持ち、ロバストな統計的推論が大規模な統計的推論の有効性にとって重要であることである。 しかし、Winsorization、Huberization、Central of meansといった既存の開発では、境界付けられた第2モーメントが必要であり、変数依存のチューニングパラメータが伴うため、大規模な問題への応用が困難になる。 これらの制約を解放するために,本論文では,非漸近的な視点から,一点と二点の両問題における位置パラメータを推定するための有名なHodges-Lehmann (HL) 推定器を再検討する。 本研究では,新たに開発した非漸近的バハドゥル表現に基づくhl推定器に対するberry-esseen不等式と cram\'{e}r型不等式を開発し,重み付きブートストラップアプローチによるデータ駆動信頼区間を構築する。 これらの結果から、HL推定器を大規模研究に拡張し、グローバルヌルのテストや偽発見比例制御による大規模多重検定のための \emph{tuning-free} と \emph{moment-free} の高次元推論手順を提案する。 結果として得られるチューニングフリーおよびモーメントフリーの方法は、所定のレベルで偽発見比率を制御することが説得力強く示される。 シミュレーション研究は、我々の進歩した理論をさらに支持する。

A stylized feature of high-dimensional data is that many variables have heavy tails, and robust statistical inference is critical for valid large-scale statistical inference. Yet, the existing developments such as Winsorization, Huberization and median of means require the bounded second moments and involve variable-dependent tuning parameters, which hamper their fidelity in applications to large-scale problems. To liberate these constraints, this paper revisits the celebrated Hodges-Lehmann (HL) estimator for estimating location parameters in both the one- and two-sample problems, from a non-asymptotic perspective. Our study develops Berry-Esseen inequality and Cram\'{e}r type moderate deviation for the HL estimator based on newly developed non-asymptotic Bahadur representation, and builds data-driven confidence intervals via a weighted bootstrap approach. These results allow us to extend the HL estimator to large-scale studies and propose \emph{tuning-free} and \emph{moment-free} high-dimensional inference procedures for testing global null and for large-scale multiple testing with false discovery proportion control. It is convincingly shown that the resulting tuning-free and moment-free methods control false discovery proportion at a prescribed level. The simulation studies lend further support to our developed theory.
翻訳日:2022-11-23 17:26:11 公開日:2022-11-22
# PromptTTS: テキスト記述による制御可能なテキスト音声合成

PromptTTS: Controllable Text-to-Speech with Text Descriptions ( http://arxiv.org/abs/2211.12171v1 )

ライセンス: Link先を確認
Zhifang Guo, Yichong Leng, Yihan Wu, Sheng Zhao, Xu Tan(参考訳) GPT-3 や DALLE-2 などのテキストや画像の生成を誘導するプロンプトとしてテキスト記述を使用することが近年注目されている。 本研究では,テキストや画像生成以外にも,テキスト記述を利用して音声合成をガイドする可能性を探る。 そこで我々は,スタイル記述とコンテンツ記述の両方を入力としてプロンプトを取り,対応する音声を合成するtts(text-to-speech)システムを開発した。 具体的には、プロンプトから対応する表現を抽出するスタイルエンコーダとコンテンツエンコーダと、抽出されたスタイルおよびコンテンツ表現に従って音声を合成する音声デコーダとからなる。 ユーザが韻律やピッチなどのスタイル要素を理解するために音響知識を必要とする従来の制御可能なTTSとは異なり、PromptTTSは、テキスト記述の方が音声スタイルを表現する自然な方法であるため、よりユーザフレンドリーである(例:「おばあちゃんが友達にゆっくりささやく」)。 PromptTTSのタスクをベンチマークするために、プロンプト付きTSデータセットがないことを考慮し、スタイルと内容情報と対応する音声を含むプロンプトを含むデータセットを構築し、リリースする。 実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。 オーディオサンプルとデータセットは公開されています。

Using a text description as prompt to guide the generation of text or images (e.g., GPT-3 or DALLE-2) has drawn wide attention recently. Beyond text and image generation, in this work, we explore the possibility of utilizing text descriptions to guide speech synthesis. Thus, we develop a text-to-speech (TTS) system (dubbed as PromptTTS) that takes a prompt with both style and content descriptions as input to synthesize the corresponding speech. Specifically, PromptTTS consists of a style encoder and a content encoder to extract the corresponding representations from the prompt, and a speech decoder to synthesize speech according to the extracted style and content representations. Compared with previous works in controllable TTS that require users to have acoustic knowledge to understand style factors such as prosody and pitch, PromptTTS is more user-friendly since text descriptions are a more natural way to express speech style (e.g., ''A lady whispers to her friend slowly''). Given that there is no TTS dataset with prompts, to benchmark the task of PromptTTS, we construct and release a dataset containing prompts with style and content information and the corresponding speech. Experiments show that PromptTTS can generate speech with precise style control and high speech quality. Audio samples and our dataset are publicly available.
翻訳日:2022-11-23 17:19:20 公開日:2022-11-22
# Imaginary Opponent Modelによる意思決定

Decision-making with Imaginary Opponent Models ( http://arxiv.org/abs/2211.11940v1 )

ライセンス: Link先を確認
Jing Sun, Shuo chen, Cong Zhang, Jie Zhang(参考訳) 反対モデリングは、他のエージェントのモデルを構築することによって、制御エージェントの意思決定の恩恵を受けている。 既存の手法では、相手の観察や行動へのアクセスを前提としており、相手の行動が観察できない場合や入手が難しい場合は不可能である。 本稿では,局所的な情報(エージェントの観察,行動,報酬など)を用いた仮想的相手モデリングを実現するための,新しいマルチエージェント分布型アクター批判アルゴリズムを提案する。 具体的には,「textit{imaginary opponent model}」とよばれる,相手の行動を局所的な観察で予測し,それに応じて決定する,相手の推測的信念を維持している。 さらに、分布批評家はポリシーの戻り分布をモデル化する。 役者の質を反映しており、役者が依存する想像上の相手モデルの訓練を導くことができる。 広範な実験により,本手法はデータ無しで相手の行動のモデル化に成功し,より高速な収束速度でベースライン法に対して優れた性能をもたらすことを確認した。

Opponent modeling has benefited a controlled agent's decision-making by constructing models of other agents. Existing methods commonly assume access to opponents' observations and actions, which is infeasible when opponents' behaviors are unobservable or hard to obtain. We propose a novel multi-agent distributional actor-critic algorithm to achieve imaginary opponent modeling with purely local information (i.e., the controlled agent's observations, actions, and rewards). Specifically, the actor maintains a speculated belief of the opponents, which we call the \textit{imaginary opponent models}, to predict opponents' actions using local observations and makes decisions accordingly. Further, the distributional critic models the return distribution of the policy. It reflects the quality of the actor and thus can guide the training of the imaginary opponent model that the actor relies on. Extensive experiments confirm that our method successfully models opponents' behaviors without their data and delivers superior performance against baseline methods with a faster convergence speed.
翻訳日:2022-11-23 17:18:13 公開日:2022-11-22
# 順序グラフによる強化因果構造学習

Reinforcement Causal Structure Learning on Order Graph ( http://arxiv.org/abs/2211.12151v1 )

ライセンス: Link先を確認
Dezhi Yang, Guoxian Yu, Jun Wang, Zhengtian Wu, Maozu Guo(参考訳) 観測データの因果関係を記述した有向非巡回グラフ(DAG)の学習は非常に難しいが重要な課題である。 観測データの量と品質に制限があり、因果グラフの非識別性のため、単一の正確なDAGを推測することはほぼ不可能である。 いくつかの方法は、マルコフ連鎖モンテカルロ(MCMC)を介してDAG空間を探索するためにDAGの後方分布を近似するが、DAG空間は超指数的成長の性質を超越しており、DAG全体の分布を正確に特徴づけることは非常に困難である。 本稿では,mcmcの代わりに順序グラフを用いて異なるdagトポロジカル順序をモデル化し,問題のサイズを小さくする,rcl-og(reinforcement causal structure learning on order graph)を提案する。 RCL-OGはまず、効率よく順序の後方分布を近似する新しい報酬機構を備えた強化学習を定義し、深いQ-ラーニングを用いてノード間の報酬の更新と転送を行う。 次に、順序グラフ上のノードの確率遷移モデルを取得し、異なる順序の後方確率を計算する。 このようにして、このモデルをサンプルして高い確率で順序を得ることができる。 合成およびベンチマークデータセットの実験により、RCL-OGは正確な後続確率近似を提供し、競合因果探索アルゴリズムよりも優れた結果が得られることが示された。

Learning directed acyclic graph (DAG) that describes the causality of observed data is a very challenging but important task. Due to the limited quantity and quality of observed data, and non-identifiability of causal graph, it is almost impossible to infer a single precise DAG. Some methods approximate the posterior distribution of DAGs to explore the DAG space via Markov chain Monte Carlo (MCMC), but the DAG space is over the nature of super-exponential growth, accurately characterizing the whole distribution over DAGs is very intractable. In this paper, we propose {Reinforcement Causal Structure Learning on Order Graph} (RCL-OG) that uses order graph instead of MCMC to model different DAG topological orderings and to reduce the problem size. RCL-OG first defines reinforcement learning with a new reward mechanism to approximate the posterior distribution of orderings in an efficacy way, and uses deep Q-learning to update and transfer rewards between nodes. Next, it obtains the probability transition model of nodes on order graph, and computes the posterior probability of different orderings. In this way, we can sample on this model to obtain the ordering with high probability. Experiments on synthetic and benchmark datasets show that RCL-OG provides accurate posterior probability approximation and achieves better results than competitive causal discovery algorithms.
翻訳日:2022-11-23 17:17:55 公開日:2022-11-22
# 有給ギビングに関する調査実験における文脈帯域:実験内成果と政策学習

Contextual Bandits in a Survey Experiment on Charitable Giving: Within-Experiment Outcomes versus Policy Learning ( http://arxiv.org/abs/2211.12004v1 )

ライセンス: Link先を確認
Susan Athey, Undral Byambadalai, Vitor Hadad, Sanath Kumar Krishnamurthy, Weiwen Leung, Joseph Jay Williams(参考訳) 本研究では,対象とする治療方針を学習するための適応的な実験(‘contextual bandit’’)を設計し,実施する。 この設計は、2つの競合する目標のバランスをとる: 実験中の被験者の成果を最適化すること(`cumulative regret minimization')と、政策学習、すなわち実験後に使用した場合の福祉を最大化する割り当て規則(`simple regret minimization'')を学ぶために最も有用なデータを集めることである。 パイロットデータを収集し, シミュレーション実験を行い, 代替実験設計の評価を行った。 次に,選択したアルゴリズムを実装する。 最後に、収集したデータに固定された第2のシミュレーション研究を行い、アルゴリズムの利点を評価する。 この設定における学習ポリシーの値は、標準の累積後悔最小化やポリシー学習アルゴリズムを用いて適応的に収集するよりも、一様ランダム化によってデータを収集する場合の方が高い。 そこで本研究では,政策学習の観点から一様ランダム化による適応的実験に対する単純なヒューリスティックを提案し,代替バンディットアルゴリズムに対する累積後悔の増加を犠牲にして改善する。 ヒューリスティックは既存の文脈的バンディットアルゴリズムを修飾する (i)腕を速すぎないようにゆっくりと崩壊する割当確率に下限を課すこと、 (ii)データを適応的に収集した後、十分なデータが収集された腕から選択するポリシー学習を制限する。

We design and implement an adaptive experiment (a ``contextual bandit'') to learn a targeted treatment assignment policy, where the goal is to use a participant's survey responses to determine which charity to expose them to in a donation solicitation. The design balances two competing objectives: optimizing the outcomes for the subjects in the experiment (``cumulative regret minimization'') and gathering data that will be most useful for policy learning, that is, for learning an assignment rule that will maximize welfare if used after the experiment (``simple regret minimization''). We evaluate alternative experimental designs by collecting pilot data and then conducting a simulation study. Next, we implement our selected algorithm. Finally, we perform a second simulation study anchored to the collected data that evaluates the benefits of the algorithm we chose. Our first result is that the value of a learned policy in this setting is higher when data is collected via a uniform randomization rather than collected adaptively using standard cumulative regret minimization or policy learning algorithms. We propose a simple heuristic for adaptive experimentation that improves upon uniform randomization from the perspective of policy learning at the expense of increasing cumulative regret relative to alternative bandit algorithms. The heuristic modifies an existing contextual bandit algorithm by (i) imposing a lower bound on assignment probabilities that decay slowly so that no arm is discarded too quickly, and (ii) after adaptively collecting data, restricting policy learning to select from arms where sufficient data has been gathered.
翻訳日:2022-11-23 17:16:59 公開日:2022-11-22
# セルフアンサンブル保護:トレーニングチェックポイントは優れたデータプロテクター

Self-Ensemble Protection: Training Checkpoints Are Good Data Protectors ( http://arxiv.org/abs/2211.12005v1 )

ライセンス: Link先を確認
Sizhe Chen, Geng Yuan, Xinwen Cheng, Yifan Gong, Minghai Qin, Yanzhi Wang, Xiaolin Huang(参考訳) 深層学習においてデータがますます重要になるにつれて、企業はデータ公開に非常に慎重になるでしょう。 データ上の良質なモデルのトレーニングを防止するために、知覚不能な摂動を追加できる。 このような混乱はトレーニングプロセス全体を損なうことを目的としているため、単一のモデルではなく、DNNトレーニングの脆弱性を反映すべきである。 この新しいアイデアに基づいて、トレーニングにおいて常に認識されていない(正しく分類されていない)敵の例を求める。 本稿では, チェックポイントの勾配をモデル化し, 提案した自己アンサンブル保護(SEP)を作成した。これは, 1) 通常の訓練中に無視された例を学習すると, 通常の例を無視したDNNが得られる傾向があり, 2) チェックポイントのクロスモデル勾配は直交に近いため, 従来のアンサンブルでは異なるアーキテクチャを持つDNNと同じくらい多様である。 つまり、我々の素晴らしいアンサンブルのパフォーマンスは、1つのモデルのトレーニングの計算だけを必要とするのです。 3つのデータセットと5つのアーキテクチャの9つのベースラインによる広範囲な実験により、sepは新たな最先端であることを確認した。たとえば、小さな$\ell_\infty=2/255$摂動により、cifar-10 resnet18の精度は94.56\%から14.68\%に低下し、最もよく知られたメソッドによる41.35\%である。コードはhttps://github.com/sizhe-chen/sepで入手できる。

As data become increasingly vital for deep learning, a company would be very cautious about releasing data, because the competitors could use the released data to train high-performance models, thereby posing a tremendous threat to the company's commercial competence. To prevent training good models on the data, imperceptible perturbations could be added to it. Since such perturbations aim at hurting the entire training process, they should reflect the vulnerability of DNN training, rather than that of a single model. Based on this new idea, we seek adversarial examples that are always unrecognized (never correctly classified) in training. In this paper, we uncover them by modeling checkpoints' gradients, forming the proposed self-ensemble protection (SEP), which is very effective because (1) learning on examples ignored during normal training tends to yield DNNs ignoring normal examples; (2) checkpoints' cross-model gradients are close to orthogonal, meaning that they are as diverse as DNNs with different architectures in conventional ensemble. That is, our amazing performance of ensemble only requires the computation of training one model. By extensive experiments with 9 baselines on 3 datasets and 5 architectures, SEP is verified to be a new state-of-the-art, e.g., our small $\ell_\infty=2/255$ perturbations reduce the accuracy of a CIFAR-10 ResNet18 from 94.56\% to 14.68\%, compared to 41.35\% by the best-known method.Code is available at https://github.com/Sizhe-Chen/SEP.
翻訳日:2022-11-23 17:16:31 公開日:2022-11-22
# 畳み込みニューラル生成符号化:自然画像への予測符号化のスケーリング

Convolutional Neural Generative Coding: Scaling Predictive Coding to Natural Images ( http://arxiv.org/abs/2211.12047v1 )

ライセンス: Link先を確認
Alexander Ororbia, Ankur Mali(参考訳) 本研究では,畳み込み/畳み込みに基づく計算を行う場合の予測符号化の一般化である畳み込みニューラルネットワーク生成符号化(conv-ngc)を開発した。 具体的には,より正確な自然画像の内部表現/再構成モデルを動的に形成するために,潜在状態マップを段階的に洗練する柔軟な神経生物学的動機付けアルゴリズムを具体的に実装する。 得られたセンサ処理システムの性能は、Color-MNIST、CIFAR-10、Street House View Numbers (SVHN) などのベンチマークデータセットで評価される。 我々は,脳にインスパイアされたニューラルシステムが,再建作業や画像復調作業における効果について検討し,誤りのバックプロパゲーションによって訓練された畳み込み自動符号化システムと競合し,アウト・オブ・ディストリビューション(全90k CINIC-10テストセットを含む)に関しては,それらより優れていることを発見した。

In this work, we develop convolutional neural generative coding (Conv-NGC), a generalization of predictive coding to the case of convolution/deconvolution-based computation. Specifically, we concretely implement a flexible neurobiologically-motivated algorithm that progressively refines latent state maps in order to dynamically form a more accurate internal representation/reconstruction model of natural images. The performance of the resulting sensory processing system is evaluated on several benchmark datasets such as Color-MNIST, CIFAR-10, and Street House View Numbers (SVHN). We study the effectiveness of our brain-inspired neural system on the tasks of reconstruction and image denoising and find that it is competitive with convolutional auto-encoding systems trained by backpropagation of errors and notably outperforms them with respect to out-of-distribution reconstruction (including on the full 90k CINIC-10 test set).
翻訳日:2022-11-23 17:10:41 公開日:2022-11-22
# 未ペアビデオキャプションのためのソースビジュアルおよびターゲット言語ドメインの調整

Aligning Source Visual and Target Language Domains for Unpaired Video Captioning ( http://arxiv.org/abs/2211.12148v1 )

ライセンス: Link先を確認
Fenglin Liu, Xian Wu, Chenyu You, Shen Ge, Yuexian Zou, Xu Sun(参考訳) 教師付きビデオキャプションモデルのトレーニングには、ビデオキャプチャペアの結合が必要だ。 しかし、多くのターゲット言語では、十分なペアデータがない。 そこで本研究では,対象言語でビデオキャプチャペアを結合せずにモデルを訓練することを目的とした,非ペアビデオキャプションタスクを提案する。 この課題を解決するためには、まずビデオからピボットへのキャプションモデルを用いてピボット言語でキャプションを生成し、次にピボットからターゲットへの翻訳モデルを用いてピボットのキャプションをターゲット言語に翻訳する2段階のパイプラインシステムを用いる。 しかし このようなパイプラインシステムでは 1) 視覚情報は翻訳モデルに到達できず,視覚に無関係なキャプションを生成する。 2) 生成したピボットキャプションの誤りは翻訳モデルに伝達され, 結果として, 広範囲なターゲットキャプションとなる。 これらの問題に対処するため,我々はUnpaired Video Captioning with Visual Injection System (UVC-VI)を提案する。 UVC-VIはまずVisual Injection Module (VIM)を導入し、ソースのビジュアルとターゲットの言語ドメインを調整して、ターゲットの言語ドメインにソースのビジュアル情報を注入する。 一方、VIMはピボットモデルのエンコーダとピボットモデルのデコーダを直接接続し、ピボットキャプションの生成を完全にスキップすることで、エンドツーエンドの推論を可能にする。 VIMのクロスモダリティ注入を強化するため、UVC-VIはさらにプラグイン可能なビデオエンコーダ、すなわちMultimodal Collaborative Encoder (MCE)を導入する。 実験の結果, UVC-VIはパイプラインシステムを上回る性能を示し, 教師付きシステムを上回る性能を示した。 さらに,既存の監視システムとMCEを併用することで,CIDErのスコアとMSVDとMSR-VTTのデータセットの現在の最先端モデルとの相対的マージンを4%,7%達成することができる。

Training supervised video captioning model requires coupled video-caption pairs. However, for many targeted languages, sufficient paired data are not available. To this end, we introduce the unpaired video captioning task aiming to train models without coupled video-caption pairs in target language. To solve the task, a natural choice is to employ a two-step pipeline system: first utilizing video-to-pivot captioning model to generate captions in pivot language and then utilizing pivot-to-target translation model to translate the pivot captions to the target language. However, in such a pipeline system, 1) visual information cannot reach the translation model, generating visual irrelevant target captions; 2) the errors in the generated pivot captions will be propagated to the translation model, resulting in disfluent target captions. To address these problems, we propose the Unpaired Video Captioning with Visual Injection system (UVC-VI). UVC-VI first introduces the Visual Injection Module (VIM), which aligns source visual and target language domains to inject the source visual information into the target language domain. Meanwhile, VIM directly connects the encoder of the video-to-pivot model and the decoder of the pivot-to-target model, allowing end-to-end inference by completely skipping the generation of pivot captions. To enhance the cross-modality injection of the VIM, UVC-VI further introduces a pluggable video encoder, i.e., Multimodal Collaborative Encoder (MCE). The experiments show that UVC-VI outperforms pipeline systems and exceeds several supervised systems. Furthermore, equipping existing supervised systems with our MCE can achieve 4% and 7% relative margins on the CIDEr scores to current state-of-the-art models on the benchmark MSVD and MSR-VTT datasets, respectively.
翻訳日:2022-11-23 17:10:20 公開日:2022-11-22
# 画像分類モデルの視覚的評価のためのヒューマン・コンタプリタブル・プロトタイプの開発

Towards Human-Interpretable Prototypes for Visual Assessment of Image Classification Models ( http://arxiv.org/abs/2211.12173v1 )

ライセンス: Link先を確認
Poulami Sinhamahapatra, Lena Heidemann, Maureen Monnet, Karsten Roscher(参考訳) ブラックボックス人工知能(AI)モデルの説明は、信頼できるAIの基盤であり、AIモデルが人間の重要な決定を確実に支援できるような、安全クリティカルなアプリケーションでの使用の前提となる。 しかし、ポストホックのモデルを説明する代わりに、形状やテクスチャ、オブジェクトの部分といった意味のある高レベルな概念を利用する人間に似た推論プロセスに基づいて、解釈可能な設計のモデルが必要です。 このような概念の学習は、しばしば明示的な仕様とアノテーションを事前に必要とすることで妨げられる。 ProtoPNetのようなプロトタイプベースの学習アプローチは、教師なしの方法で視覚的に意味のあるプロトタイプを発見すると主張している。 本研究は, 信頼性のあるモデル評価ケースの一部として, 人的分析を可能にするために, プロトタイプが満たさなければならない特性の集合を提案し, それらの特性を照らして既存の手法を分析する。 ゲーム『Guess Who?』を考えると、これらのプロトタイプはまだ明確な説明に向けて長い道のりがある。 本研究では,学習したプロトタイプの多くが人間の理解に有用ではないことを示すユーザスタディを行うことで,これらの知見を定量的に検証する。 既存の手法の欠落したリンクについて議論し,真に人間解釈可能なプロトタイプへの進歩を動機とする実世界の潜在的なアプリケーションを提案する。

Explaining black-box Artificial Intelligence (AI) models is a cornerstone for trustworthy AI and a prerequisite for its use in safety critical applications such that AI models can reliably assist humans in critical decisions. However, instead of trying to explain our models post-hoc, we need models which are interpretable-by-design built on a reasoning process similar to humans that exploits meaningful high-level concepts such as shapes, texture or object parts. Learning such concepts is often hindered by its need for explicit specification and annotation up front. Instead, prototype-based learning approaches such as ProtoPNet claim to discover visually meaningful prototypes in an unsupervised way. In this work, we propose a set of properties that those prototypes have to fulfill to enable human analysis, e.g. as part of a reliable model assessment case, and analyse such existing methods in the light of these properties. Given a 'Guess who?' game, we find that these prototypes still have a long way ahead towards definite explanations. We quantitatively validate our findings by conducting a user study indicating that many of the learnt prototypes are not considered useful towards human understanding. We discuss about the missing links in the existing methods and present a potential real-world application motivating the need to progress towards truly human-interpretable prototypes.
翻訳日:2022-11-23 17:09:42 公開日:2022-11-22
# 特徴選択と外挿によるNAS加速の精度予測

Accuracy Prediction for NAS Acceleration using Feature Selection and Extrapolation ( http://arxiv.org/abs/2211.12419v1 )

ライセンス: Link先を確認
Tal Hakim(参考訳) 候補となるニューラルネットワークの精度を予測することは、NASベースのソリューションの重要な能力である。 候補アーキテクチャが他の既知のアーキテクチャと類似した特性を持つ場合、予測タスクは既存の回帰アルゴリズムを使用して比較的単純である。 しかし、候補アーキテクチャが既知のアーキテクチャの空間外にある場合、回帰モデルは外挿予測を実行する必要があり、これは困難なタスクであるだけでなく、決定木に基づく最も一般的な回帰アルゴリズムファミリを使用して技術的に不可能である。 この作業では、2つの問題に対処しようとしています。 1つは特徴選択による回帰精度の向上であり、もう1つは精度予測タスクの補間における回帰アルゴリズムの評価である。 NAAP-440データセットを新しい表構造で拡張し、評価に使用するNAAP-440eを導入する。 従来のベースラインと比較して,従来のベースラインに比べて,平均絶対誤差を維持しつつ,約2倍のモノトニック性違反を達成しながら,新しいベースラインでは候補アーキテクチャの3倍のトレーニングプロセスが要求されるという劇的な改善が観察された。 この研究で使用された拡張データセットとコードはNAAP-440リポジトリで公開されている。

Predicting the accuracy of candidate neural architectures is an important capability of NAS-based solutions. When a candidate architecture has properties that are similar to other known architectures, the prediction task is rather straightforward using off-the-shelf regression algorithms. However, when a candidate architecture lies outside of the known space of architectures, a regression model has to perform extrapolated predictions, which is not only a challenging task, but also technically impossible using the most popular regression algorithm families, which are based on decision trees. In this work, we are trying to address two problems. The first one is improving regression accuracy using feature selection, whereas the other one is the evaluation of regression algorithms on extrapolating accuracy prediction tasks. We extend the NAAP-440 dataset with new tabular features and introduce NAAP-440e, which we use for evaluation. We observe a dramatic improvement from the old baseline, namely, the new baseline requires 3x shorter training processes of candidate architectures, while maintaining the same mean-absolute-error and achieving almost 2x fewer monotonicity violations, compared to the old baseline's best reported performance. The extended dataset and code used in the study have been made public in the NAAP-440 repository.
翻訳日:2022-11-23 17:08:39 公開日:2022-11-22
# 適応型プロトタイプネットワーク

Adaptive Prototypical Networks ( http://arxiv.org/abs/2211.12479v1 )

ライセンス: Link先を確認
Manas Gogoi, Sambhavi Tiwari and Shekhar Verma(参考訳) ショット学習のためのプロトタイプ的ネットワークは、エンコーダ内の埋め込み関数を学習し、埋め込み空間に類似した機能を持つ画像を埋め込もうとする。 しかし、このプロセスでは、タスクのサポートセットのサンプルは互いに独立して埋め込まれており、クラス間の近接性を考慮していない。 したがって、タスク内の類似したクラスが存在する場合、埋め込みは埋め込み空間内で互いに近くなり、場合によってはいくつかの領域で重なり合う傾向があり、分類には好ましくない。 本稿では,メタテストフェーズにおいて,各クラスの組込みを直感的に他のクラスから切り離し,空間的特徴の類似性のみでなく,個別のクラスラベルに基づいてグループ化する手法を提案する。 これは、新しいタスクのサポートセットサンプルとラベルを使用して分類のためにエンコーダネットワークをトレーニングすることで実現される。 ベンチマークデータセットで行った大規模な実験は、プロトタイプネットワークや他の標準的な数ショット学習モデルと比較して、メタテストの精度が向上したことを示している。

Prototypical network for Few shot learning tries to learn an embedding function in the encoder that embeds images with similar features close to one another in the embedding space. However, in this process, the support set samples for a task are embedded independently of one other, and hence, the inter-class closeness is not taken into account. Thus, in the presence of similar-looking classes in a task, the embeddings will tend to be close to each other in the embedding space and even possibly overlap in some regions, which is not desirable for classification. In this paper, we propose an approach that intuitively pushes the embeddings of each of the classes away from the others in the meta-testing phase, thereby grouping them closely based on the distinct class labels rather than only the similarity of spatial features. This is achieved by training the encoder network for classification using the support set samples and labels of the new task. Extensive experiments conducted on benchmark data sets show improvements in meta-testing accuracy when compared with Prototypical Networks and also other standard few-shot learning models.
翻訳日:2022-11-23 17:08:20 公開日:2022-11-22
# 深部ニューラルネットワーク記述評価のためのトップダウンランダム化に基づく正当性チェックの欠点

Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network Explanations ( http://arxiv.org/abs/2211.12486v1 )

ライセンス: Link先を確認
Alexander Binder, Leander Weber, Sebastian Lapuschkin, Gr\'egoire Montavon, Klaus-Robert M\"uller, Wojciech Samek(参考訳) 説明の評価は信頼できるモデルへの重要なステップであるが、慎重に行う必要があり、採用されているメトリクスは十分に理解する必要がある。 特にモデルランダム化テストは、しばしば過大評価され、ある説明方法を選択または破棄する唯一の基準と見なされる。 このテストの欠点を解決するため、ランダム化に基づく正当性チェック[1]とモデル出力忠実度測定(例:[25])の間の説明方法のランク付けにおいて、実験的なギャップを観察することから始める。 モデルランダム化に基づく正当性チェックの限界を,説明評価のために同定する。 まず,0画素の共分散で生成した非形式的帰属写像は,このようなチェックで容易に高いスコアが得られることを示す。 次に,トップダウンモデルのランダム化がフォワードパスアクティベーションのスケールを高い確率で維持することを示す。 すなわち、大きなアクティベーションを持つチャネルは、その上にネットワークがランダム化されても、出力に強く貢献する能力が高い。 したがって、ランダム化後の説明はある程度の差異しか期待できない。 これは観測された実験ギャップを説明する。 要約すると、これらの結果は、ランク帰属法に対する基準としてモデルランダム化に基づく正当性チェックが不十分であることを示す。

While the evaluation of explanations is an important step towards trustworthy models, it needs to be done carefully, and the employed metrics need to be well-understood. Specifically model randomization testing is often overestimated and regarded as a sole criterion for selecting or discarding certain explanation methods. To address shortcomings of this test, we start by observing an experimental gap in the ranking of explanation methods between randomization-based sanity checks [1] and model output faithfulness measures (e.g. [25]). We identify limitations of model-randomization-based sanity checks for the purpose of evaluating explanations. Firstly, we show that uninformative attribution maps created with zero pixel-wise covariance easily achieve high scores in this type of checks. Secondly, we show that top-down model randomization preserves scales of forward pass activations with high probability. That is, channels with large activations have a high probility to contribute strongly to the output, even after randomization of the network on top of them. Hence, explanations after randomization can only be expected to differ to a certain extent. This explains the observed experimental gap. In summary, these results demonstrate the inadequacy of model-randomization-based sanity checks as a criterion to rank attribution methods.
翻訳日:2022-11-23 17:08:03 公開日:2022-11-22
# 一般化ゼロショット学習における視覚特徴の伝達性について

On the Transferability of Visual Features in Generalized Zero-Shot Learning ( http://arxiv.org/abs/2211.12494v1 )

ライセンス: Link先を確認
Paola Cascante-Bonilla, Leonid Karlinsky, James Seale Smith, Yanjun Qi, Vicente Ordonez(参考訳) Generalized Zero-Shot Learning (GZSL) は、属性のセットを補助情報として、事前訓練された畳み込みニューラルネットワークから抽出された視覚的特徴を用いて、目に見えないクラスに一般化可能な分類器を訓練することを目的としている。 近年のgzsl法では,これらの機能の能力を活用するための様々な手法が検討されているが,未検討の表現学習技術の広範な成長がみられている。 本研究では,異なる特徴抽出器を用いたgzsl手法の有用性を調査し,これらのモデルの事前学習目標,データセット,アーキテクチャ設計が特徴表現能力にどのように影響するかを検討する。 私たちの結果は 1)GZSLに生成成分を用いる方法は,最近の特徴抽出器を使用する場合に,より有利である。 2) 自己教師付き学習目標と知識蒸留を用いて事前学習した特徴抽出装置は,より優れた特徴表現を提供し,最近のgzsl技術で使用する場合,最大15%の性能を上げる。 3) より大きなデータセットで事前訓練した特定の特徴抽出器は,必ずしもGZSL法の性能を向上するとは限らない。 さらに,より最近のマルチモーダル事前訓練モデルであるCLIPに対して,GZSL法がどのような効果を発揮するかを検討する。 GZSLタスクは、CLIPのインターネットスケール事前トレーニングとともに生成ベースのGZSLメソッドの恩恵を受け、きめ細かいデータセットで最先端のパフォーマンスを実現する。 GZSLの表現学習問題を解析するためのモジュラーフレームワークを以下にリリースする。

Generalized Zero-Shot Learning (GZSL) aims to train a classifier that can generalize to unseen classes, using a set of attributes as auxiliary information, and the visual features extracted from a pre-trained convolutional neural network. While recent GZSL methods have explored various techniques to leverage the capacity of these features, there has been an extensive growth of representation learning techniques that remain under-explored. In this work, we investigate the utility of different GZSL methods when using different feature extractors, and examine how these models' pre-training objectives, datasets, and architecture design affect their feature representation ability. Our results indicate that 1) methods using generative components for GZSL provide more advantages when using recent feature extractors; 2) feature extractors pre-trained using self-supervised learning objectives and knowledge distillation provide better feature representations, increasing up to 15% performance when used with recent GZSL techniques; 3) specific feature extractors pre-trained with larger datasets do not necessarily boost the performance of GZSL methods. In addition, we investigate how GZSL methods fare against CLIP, a more recent multi-modal pre-trained model with strong zero-shot performance. We found that GZSL tasks still benefit from generative-based GZSL methods along with CLIP's internet-scale pre-training to achieve state-of-the-art performance in fine-grained datasets. We release a modular framework for analyzing representation learning issues in GZSL here: https://github.com/uvavision/TV-GZSL
翻訳日:2022-11-23 17:07:41 公開日:2022-11-22
# 教師なしプレーヤ分類を用いたサッカー動作スポッティングのためのグラフベース手法

A Graph-Based Method for Soccer Action Spotting Using Unsupervised Player Classification ( http://arxiv.org/abs/2211.12334v1 )

ライセンス: Link先を確認
Alejandro Cartas and Coloma Ballester and Gloria Haro(参考訳) アクション・スポッティング(英: action spotting)は、サッカー・ビデオにおける特定のアクションの発生時刻を特定するタスクである。 近年は多くの注目を集め、強力な手法が導入されている。 アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。 モデルがシーケンスのグローバルな視覚的特徴を利用するため、ほとんどのアプローチは後者に焦点を当てている。 この作品では前者に焦点を当てます a) グラフ内のノードとしてプレイヤー、審判、ゴールキーパーを識別し、表現すること b) 時間的相互作用をグラフのシーケンスとしてモデル化する。 プレイヤー識別タスクやプレイヤー分類タスクでは、アノテートされたベンチマークで97.72%の精度が得られる。 本手法は,アクションスポッティングタスクにおいて,57.83%の平均mAPを他の音響的モダリティと組み合わせることで全体の性能を得る。 このパフォーマンスは類似のグラフベースメソッドを上回り、重い計算方法と競合する結果をもたらす。 コードとデータはhttps://github.com/ipcv/soccer_action_spottingで入手できる。

Action spotting in soccer videos is the task of identifying the specific time when a certain key action of the game occurs. Lately, it has received a large amount of attention and powerful methods have been introduced. Action spotting involves understanding the dynamics of the game, the complexity of events, and the variation of video sequences. Most approaches have focused on the latter, given that their models exploit the global visual features of the sequences. In this work, we focus on the former by (a) identifying and representing the players, referees, and goalkeepers as nodes in a graph, and by (b) modeling their temporal interactions as sequences of graphs. For the player identification, or player classification task, we obtain an accuracy of 97.72% in our annotated benchmark. For the action spotting task, our method obtains an overall performance of 57.83% average-mAP by combining it with other audiovisual modalities. This performance surpasses similar graph-based methods and has competitive results with heavy computing methods. Code and data are available at https://github.com/IPCV/soccer_action_spotting.
翻訳日:2022-11-23 17:07:15 公開日:2022-11-22
# ホークス過程の逐次変化点検出によるサプライチェーンネットワーク障害のオンライン検出

Online Detection Of Supply Chain Network Disruptions Using Sequential Change-Point Detection for Hawkes Processes ( http://arxiv.org/abs/2211.12091v1 )

ライセンス: Link先を確認
Khurram Yamin, Haoyun Wang, Benoit Montreuil, Yao Xie(参考訳) 本稿では,大型家具会社から受信したサプライチェーンデータに基づいて,Covid-19パンデミックによる変貌や変化点の検出を試みる。 そこで我々は,同社の時空間順序データに修正CUSUM(Cumulative Sum)プロシージャと,GLR(Generalized Likelihood Ratio)に基づく手法を利用する。 空間データを識別し、それぞれの順序を対応するノードと時間を有するイベントとして扱うことにより、多次元自己および相互にエキサイティングな点過程であるhawkesプロセスネットワークを用いて順序データをモデル化する。 私たちは、この方法論を同社の最も注文された商品に全国規模で適用し、単一の州に深く掘り下げる。 この項目は, 国内に比べて頻繁に注文されるため, 異なるデータ空間で有効性を示すことができる。 さらに、空間的詳細の異なるレベルにまたがる使用可能性を示す。

In this paper, we attempt to detect an inflection or change-point resulting from the Covid-19 pandemic on supply chain data received from a large furniture company. To accomplish this, we utilize a modified CUSUM (Cumulative Sum) procedure on the company's spatial-temporal order data as well as a GLR (Generalized Likelihood Ratio) based method. We model the order data using the Hawkes Process Network, a multi-dimensional self and mutually exciting point process, by discretizing the spatial data and treating each order as an event that has a corresponding node and time. We apply the methodologies on the company's most ordered item on a national scale and perform a deep dive into a single state. Because the item was ordered infrequently in the state compared to the nation, this approach allows us to show efficacy upon different degrees of data sparsity. Furthermore, it showcases use potential across differing levels of spatial detail.
翻訳日:2022-11-23 17:01:09 公開日:2022-11-22
# mgadn:多変量時系列のための多タスクグラフ異常検出ネットワーク

MGADN: A Multi-task Graph Anomaly Detection Network for Multivariate Time Series ( http://arxiv.org/abs/2211.12141v1 )

ライセンス: Link先を確認
Weixuan Xiong, Xiaochen Sun(参考訳) 時系列の異常検出、特に多変量時系列(複数センサ付き時系列)は数年にわたって注目されてきた。 既存の手法は大きな進歩を遂げているが、解決すべき課題はいくつかある。 まず、ニューラルネットワークを含む既存の手法は、タイムスタンプの観点からのみ関係に集中する。 正確に言うと、彼らは過去のデータがどのように未来に影響を与えるのかを知りたいだけだ。 しかし、あるセンサーが風速などの他のセンサーに干渉することで温度が低下することがある。 第2に,時系列異常検出モデルには,予測モデルと再構成モデルという2つのカテゴリが存在する。 予測モデルは、スパース異常に直面した場合に能力が不足しながら、タイムリー表現の学習に適している。 逆に、再構築モデルは反対です。 したがって、タイムスタンプとセンサーの両方の観点から、どのように効率的に関係を得られるかが主要なトピックとなる。 提案手法では,グラフニューラルネットワークから派生したGATを用いて,センサ間の接続を求める。 そしてLSTMは、タイムリーに関係を得るために使用される。 提案手法は,vae(variational auto-encoder)による予測損失と再構成損失を両立させるように設計されている。 このモデルでは,2種類のモデルを活用するためにマルチタスク最適化アルゴリズムが用いられている。

Anomaly detection of time series, especially multivariate time series(time series with multiple sensors), has been focused on for several years. Though existing method has achieved great progress, there are several challenging problems to be solved. Firstly, existing method including neural network only concentrate on the relationship in terms of timestamp. To be exact, they only want to know how does the data in the past influence which in the future. However, one sensor sometimes intervenes in other sensor such as the speed of wind may cause decrease of temperature. Secondly, there exist two categories of model for time series anomaly detection: prediction model and reconstruction model. Prediction model is adept at learning timely representation while short of capability when faced with sparse anomaly. Conversely, reconstruction model is opposite. Therefore, how can we efficiently get the relationship both in terms of both timestamp and sensors becomes our main topic. Our approach uses GAT, which is originated from graph neural network, to obtain connection between sensors. And LSTM is used to obtain relationships timely. Our approach is also designed to be double headed to calculate both prediction loss and reconstruction loss via VAE(Variational Auto-Encoder). In order to take advantage of two sorts of model, multi-task optimization algorithm is used in this model.
翻訳日:2022-11-23 17:00:52 公開日:2022-11-22
# BESS: 大規模知識グラフ補完のためのバランスのとれたエンティティサンプリングと共有

BESS: Balanced Entity Sampling and Sharing for Large-Scale Knowledge Graph Completion ( http://arxiv.org/abs/2211.12281v1 )

ライセンス: Link先を確認
Alberto Cattaneo, Daniel Justus, Harry Mellor, Douglas Orr, Jerome Maloberti, Zhenying Liu, Thorin Farnsworth, Andrew Fitzgibbon, Blazej Banaszewski, Carlo Luschi(参考訳) 我々は、OGB-LSC@NeurIPS 2022のWikiKG90Mv2トラックに受賞申請を提示する。 このタスクは、90M+ノードと600M+エッジからなる大規模知識グラフWikiKG90Mv2上のリンク予測である。 我々のソリューションは、TransE, TransH, RotatE, DistMult, ComplEx)と2つの異なる損失関数(log-sigmoid, sampled softmax cross-entropy)を組み合わせた85ドルの知識グラフ埋め込みモデルを用いている。 それぞれのモデルは、kgeトレーニングのための新しい分散フレームワークであるbes(balanced entity sampling and sharing)を使用して、graphcore bow pod$_{16}$で並列にトレーニングされる。 最終モデルは,0.2922の検証MRRと0.2562のテストチェレンジMRRを達成し,第1位を獲得した。 コードは、https://github.com/graphcore/distributed-kge-poplar/tree/2022-ogb-submissionで公開されている。

We present the award-winning submission to the WikiKG90Mv2 track of OGB-LSC@NeurIPS 2022. The task is link-prediction on the large-scale knowledge graph WikiKG90Mv2, consisting of 90M+ nodes and 600M+ edges. Our solution uses a diverse ensemble of $85$ Knowledge Graph Embedding models combining five different scoring functions (TransE, TransH, RotatE, DistMult, ComplEx) and two different loss functions (log-sigmoid, sampled softmax cross-entropy). Each individual model is trained in parallel on a Graphcore Bow Pod$_{16}$ using BESS (Balanced Entity Sampling and Sharing), a new distribution framework for KGE training and inference based on balanced collective communications between workers. Our final model achieves a validation MRR of 0.2922 and a test-challenge MRR of 0.2562, winning the first place in the competition. The code is publicly available at: https://github.com/graphcore/distributed-kge-poplar/tree/2022-ogb-submission.
翻訳日:2022-11-23 17:00:33 公開日:2022-11-22
# ポリトープレンズによるニューラルネットワークの解釈

Interpreting Neural Networks through the Polytope Lens ( http://arxiv.org/abs/2211.12312v1 )

ライセンス: Link先を確認
Sid Black, Lee Sharkey, Leo Grinsztajn, Eric Winsor, Dan Braun, Jacob Merizian, Kip Parker, Carlos Ram\'on Guevara, Beren Millidge, Gabriel Alfour, Connor Leahy(参考訳) 機械的な解釈は、ニューラルネットワークがナッツ・アンド・ボルトレベルで学んだことを説明することを目的としている。 ニューラルネットワーク表現の基本的なプリミティブは何ですか? 以前のメカニックな記述では、ネットワークが学習した表現を理解するために、個々のニューロンまたはそれらの線形結合を用いた。 しかし、ニューロンとその線形結合が記述の正しい基本単位ではないという手がかりがある: 方向付けは、ニューラルネットワークが表現を構造化するためにどのように非線形を使用するかを記述できない。 さらに、個々のニューロンとその組み合わせの多くの例は多意味(つまり複数の無関係な意味を持つ)である。 多義性は、神経ユニットに特定の特徴を割り当てることができないため、ニューロンや方向の観点でネットワークの解釈を困難にする。 これらの問題に支障を来さない記述の基本的な単位を見つけるために、単に方向を拡大して、(ReLUのような)断片的に線形な活性化関数が活性化空間を多くの離散ポリトープに分割する方法を研究する。 この視点をポリトープレンズと呼んでいます ポリトープレンズはニューラルネットワークの挙動を具体的に予測し、畳み込み画像分類器と言語モデルの両方の実験を通して評価する。 具体的には、ポリトープは活性化空間の単意味領域(方向は一般に単意味的ではないが)を識別するのに使用でき、ポリトープ境界の密度は意味境界を反映していることを示す。 我々はまた、ポリトープレンズを通して機械的解釈可能性がどのように見えるかというビジョンを概説する。

Mechanistic interpretability aims to explain what a neural network has learned at a nuts-and-bolts level. What are the fundamental primitives of neural network representations? Previous mechanistic descriptions have used individual neurons or their linear combinations to understand the representations a network has learned. But there are clues that neurons and their linear combinations are not the correct fundamental units of description: directions cannot describe how neural networks use nonlinearities to structure their representations. Moreover, many instances of individual neurons and their combinations are polysemantic (i.e. they have multiple unrelated meanings). Polysemanticity makes interpreting the network in terms of neurons or directions challenging since we can no longer assign a specific feature to a neural unit. In order to find a basic unit of description that does not suffer from these problems, we zoom in beyond just directions to study the way that piecewise linear activation functions (such as ReLU) partition the activation space into numerous discrete polytopes. We call this perspective the polytope lens. The polytope lens makes concrete predictions about the behavior of neural networks, which we evaluate through experiments on both convolutional image classifiers and language models. Specifically, we show that polytopes can be used to identify monosemantic regions of activation space (while directions are not in general monosemantic) and that the density of polytope boundaries reflect semantic boundaries. We also outline a vision for what mechanistic interpretability might look like through the polytope lens.
翻訳日:2022-11-23 17:00:11 公開日:2022-11-22
# 希少事象推定のための深層強化学習手法

A Deep Reinforcement Learning Approach to Rare Event Estimation ( http://arxiv.org/abs/2211.12470v1 )

ライセンス: Link先を確認
Anthony Corso, Kyu-Young Kim, Shubh Gupta, Grace Gao, Mykel J. Kochenderfer(参考訳) 自律システムの設計における重要なステップは、失敗が起こる確率を評価することである。 安全クリティカルな領域では、モンテカルロサンプリングによるポリシーの評価が非効率になるように、故障確率は非常に小さい。 稀な事象推定のための適応的重要度サンプリング手法が開発されているが、長い地平線を持つ逐次システムには適していない。 本研究では,逐次意思決定システムにおいて,希少事象の確率を効率的に推定できる2つの適応的重要度サンプリングアルゴリズムを開発した。 これらのアルゴリズムの基礎は、状態依存的な提案分布と軌道上の目標分布とのクルバック・リーブラー分岐の最小化であるが、結果として得られるアルゴリズムは、ポリシー勾配と値に基づく強化学習に類似している。 我々は,推定のばらつきを低減し,最適提案分布におけるマルチモダリティの問題に対処するために,多重重要サンプリングを適用する。 我々は,連続的および離散的動作空間を持つ制御タスクに対する我々のアプローチを実証し,複数のベースラインに対する精度向上を示す。

An important step in the design of autonomous systems is to evaluate the probability that a failure will occur. In safety-critical domains, the failure probability is extremely small so that the evaluation of a policy through Monte Carlo sampling is inefficient. Adaptive importance sampling approaches have been developed for rare event estimation but do not scale well to sequential systems with long horizons. In this work, we develop two adaptive importance sampling algorithms that can efficiently estimate the probability of rare events for sequential decision making systems. The basis for these algorithms is the minimization of the Kullback-Leibler divergence between a state-dependent proposal distribution and a target distribution over trajectories, but the resulting algorithms resemble policy gradient and value-based reinforcement learning. We apply multiple importance sampling to reduce the variance of our estimate and to address the issue of multi-modality in the optimal proposal distribution. We demonstrate our approach on a control task with both continuous and discrete actions spaces and show accuracy improvements over several baselines.
翻訳日:2022-11-23 16:59:26 公開日:2022-11-22
# 反復線形化によるディープニューラルネットワークの学習

Learning Deep Neural Networks by Iterative Linearisation ( http://arxiv.org/abs/2211.12345v1 )

ライセンス: Link先を確認
Adrian Goldwaser and Hong Ge(参考訳) ディープニューラルネットワークの優れた実世界性能が注目されている。 過度に適合する能力にもかかわらず、このような大きなモデルは小さなモデルよりもうまく機能する。 この現象は、しばしば実践者によってスケーリング法と呼ばれる。 スケーリング法則が存在する理由と、過度な適合を避ける/制御する方法を研究することは、基本的な関心事である。 一つのアプローチは、ニューラルネットワークの無限幅限界(例えば、神経接核、ガウス過程)を検討することであるが、実際、それらは有限ネットワークが特徴を学習しないため、完全には説明できない。 さらに、有限ネットワーク(すなわち特徴ベクトルの内部積)に対する経験的カーネルは、無限幅ネットワークとは対照的にトレーニング中に大きく変化する。 本研究では,反復線形化学習法を導出する。 我々は,無限幅法則の有限類型間の補間として反復線形化を正当化し,特徴を学習しない有限類型と,それを行う標準勾配降下訓練を行う。 繰り返し線形化トレーニングがうまく機能する予備的な結果を示し,同等のパフォーマンスを達成するのに,機能学習がどの程度必要かに注目した。 また,ニューラルネットワークのトレーニング行動に関する新たな知見を提供する。

The excellent real-world performance of deep neural networks has received increasing attention. Despite the capacity to overfit significantly, such large models work better than smaller ones. This phenomenon is often referred to as the scaling law by practitioners. It is of fundamental interest to study why the scaling law exists and how it avoids/controls overfitting. One approach has been looking at infinite width limits of neural networks (e.g., Neural Tangent Kernels, Gaussian Processes); however, in practise, these do not fully explain finite networks as their infinite counterparts do not learn features. Furthermore, the empirical kernel for finite networks (i.e., the inner product of feature vectors), changes significantly during training in contrast to infinite width networks. In this work we derive an iterative linearised training method. We justify iterative lineralisation as an interpolation between finite analogs of the infinite width regime, which do not learn features, and standard gradient descent training which does. We show some preliminary results where iterative linearised training works well, noting in particular how much feature learning is required to achieve comparable performance. We also provide novel insights into the training behaviour of neural networks.
翻訳日:2022-11-23 16:58:35 公開日:2022-11-22
# OLGA : 移動型の算術的単語問題(AWP)生成のためのオントロジーとLSTMに基づくアプローチ

OLGA : An Ontology and LSTM-based approach for generating Arithmetic Word Problems (AWPs) of transfer type ( http://arxiv.org/abs/2211.12164v1 )

ライセンス: Link先を確認
Suresh Kumar and P Sreenivasa Kumar(参考訳) 算術語問題(awps)の機械生成は量と数学的関係を表現し、一貫性を持たなければならないため困難である。 ML-solversは、言語の変化に一貫性のある大量の注釈付きトレーニングセットを必要とする。 整合性チェックにはドメイン知識のエクスプロイトが必要であるが、LSTMベースのアプローチは言語のバリエーションのあるテキストを生成するのに適している。 これらを組み合わせることで、エージェント間のオブジェクト転送を含む、TC型(Transfer-Case)の一貫性のある単語問題を生成するシステムOLGAを提案する。 トレーニング用に一貫した2エージェントTCプロブレムのデータセットを提供するが、LSTMベースのジェネレータの出力の36%しか一貫性がない。 我々は以前提案したTC-Ontologyの拡張を用いて問題の整合性を決定する。 残りの64%のうち約40%は小さなエラーがあり、同じオントロジーを使って修復する。 一貫性と修復プロセスをチェックするため、私たちは自動生成問題のインスタンス固有表現(abox)を構築します。 このタスクには文分類器とBERTモデルを使用します。 これらのLMのトレーニングセットは、文部がオントロジークラス名で注釈付けされる問題テキストである。 3エージェント問題の方が長いため、LSTMベースのアプローチによって生じる一貫した問題の割合はさらに低下する。 そこで本研究では,一貫した2エージェント問題を3エージェント問題に拡張するオントロジーに基づく手法を提案する。 全体として,本手法は2~3個のエージェントを含む多数のTC型AFPを生成する。 ABoxは問題のすべての情報を持っているので、どんなアノテーションも生成できます。 他の種類のAWPを生成するために提案されたアプローチを採用することは、今後の興味深い作業である。

Machine generation of Arithmetic Word Problems (AWPs) is challenging as they express quantities and mathematical relationships and need to be consistent. ML-solvers require a large annotated training set of consistent problems with language variations. Exploiting domain-knowledge is needed for consistency checking whereas LSTM-based approaches are good for producing text with language variations. Combining these we propose a system, OLGA, to generate consistent word problems of TC (Transfer-Case) type, involving object transfers among agents. Though we provide a dataset of consistent 2-agent TC-problems for training, only about 36% of the outputs of an LSTM-based generator are found consistent. We use an extension of TC-Ontology, proposed by us previously, to determine the consistency of problems. Among the remaining 64%, about 40% have minor errors which we repair using the same ontology. To check consistency and for the repair process, we construct an instance-specific representation (ABox) of an auto-generated problem. We use a sentence classifier and BERT models for this task. The training set for these LMs is problem-texts where sentence-parts are annotated with ontology class-names. As three-agent problems are longer, the percentage of consistent problems generated by an LSTM-based approach drops further. Hence, we propose an ontology-based method that extends consistent 2-agent problems into consistent 3-agent problems. Overall, our approach generates a large number of consistent TC-type AWPs involving 2 or 3 agents. As ABox has all the information of a problem, any annotations can also be generated. Adopting the proposed approach to generate other types of AWPs is interesting future work.
翻訳日:2022-11-23 16:51:39 公開日:2022-11-22
# システム一般化に関する短い調査

A Short Survey of Systematic Generalization ( http://arxiv.org/abs/2211.11956v1 )

ライセンス: Link先を確認
Yuanpeng Li(参考訳) この調査には、体系的な一般化と、機械学習の対処方法の歴史が含まれている。 我々は,従来の改善と最近の改善の関連情報を要約し,整理することを目的とする。 まず体系的一般化の定義を考察し、その後に古典主義と接続主義を導入する。 次に、異なるタイプのコネクティニストと、一般化へのアプローチについて論じる。 変数結合と因果性の2つの重要な問題について議論する。 言語、視覚、VQA分野の体系的な一般化を考察する。 様々な側面からの最近の改善について論じる。 体系的一般化は人工知能において長い歴史を持つ。 多くのコントリビューションのごく一部しかカバーできませんでした。 この論文が背景を提供し、今後の研究における発見に有益であることを願っている。

This survey includes systematic generalization and a history of how machine learning addresses it. We aim to summarize and organize the related information of both conventional and recent improvements. We first look at the definition of systematic generalization, then introduce Classicist and Connectionist. We then discuss different types of Connectionists and how they approach the generalization. Two crucial problems of variable binding and causality are discussed. We look into systematic generalization in language, vision, and VQA fields. Recent improvements from different aspects are discussed. Systematic generalization has a long history in artificial intelligence. We could cover only a small portion of many contributions. We hope this paper provides a background and is beneficial for discoveries in future work.
翻訳日:2022-11-23 16:49:56 公開日:2022-11-22
# 模倣:クリーンな模倣学習実装

imitation: Clean Imitation Learning Implementations ( http://arxiv.org/abs/2211.11972v1 )

ライセンス: Link先を確認
Adam Gleave, Mohammad Taufeeque, Juan Rocamonde, Erik Jenner, Steven H. Wang, Sam Toyer, Maximilian Ernestus, Nora Belrose, Scott Emmons, Stuart Russell(参考訳) 模倣はpytorchの模倣と報酬学習アルゴリズムのオープンソース実装を提供する。 3つの逆強化学習(irl)アルゴリズム,3つの模倣学習アルゴリズム,選好比較アルゴリズムを含む。 実装は以前の結果とベンチマークされ、自動テストはコードの98%をカバーする。 さらに、これらのアルゴリズムはモジュラー方式で実装されており、フレームワークで新しいアルゴリズムを簡単に開発できる。 ドキュメントや例を含む私たちのソースコードは、https://github.com/humancompatibleai/imitationで利用可能です。

imitation provides open-source implementations of imitation and reward learning algorithms in PyTorch. We include three inverse reinforcement learning (IRL) algorithms, three imitation learning algorithms and a preference comparison algorithm. The implementations have been benchmarked against previous results, and automated tests cover 98% of the code. Moreover, the algorithms are implemented in a modular fashion, making it simple to develop novel algorithms in the framework. Our source code, including documentation and examples, is available at https://github.com/HumanCompatibleAI/imitation
翻訳日:2022-11-23 16:49:49 公開日:2022-11-22
# 大域的相互作用を捉えるための動的グラフ上の学習可能なスペクトルウェーブレット

Learnable Spectral Wavelets on Dynamic Graphs to Capture Global Interactions ( http://arxiv.org/abs/2211.11979v1 )

ライセンス: Link先を確認
Anson Bastos, Abhishek Nadgeri, Kuldeep Singh, Toyotaro Suzumura, Manish Singh(参考訳) この環境では静的手法が限られた性能を示すため、進化(動的)グラフの学習が研究者の注目を集めている。 動的グラフの既存の手法は局所的な近傍集約によって空間的特徴を学習し、これは基本的に低域信号と局所的な相互作用のみをキャプチャする。 本研究では,動的に進化するグラフの表現を効果的に学習するために,グローバル機能を組み込む現在のアプローチを超越した。 動的グラフのスペクトルを捉えることでこれを実現することを提案する。 グラフスペクトルを学習するための静的手法は、グラフが時間とともに進化するにつれてスペクトルの進化の歴史を考慮しないので、この進化スペクトルを捉えるためにグラフウェーブレットを学習するための新しいアプローチを提案する。 さらに、これらの学習可能なウェーブレットの形で動的に捕捉されたスペクトルを局所的および大域的相互作用を組み込むための空間的特徴に統合するフレームワークを提案する。 8つの標準データセットを実験した結果,本手法は動的グラフの様々なタスクで関連する手法を著しく上回っている。

Learning on evolving(dynamic) graphs has caught the attention of researchers as static methods exhibit limited performance in this setting. The existing methods for dynamic graphs learn spatial features by local neighborhood aggregation, which essentially only captures the low pass signals and local interactions. In this work, we go beyond current approaches to incorporate global features for effectively learning representations of a dynamically evolving graph. We propose to do so by capturing the spectrum of the dynamic graph. Since static methods to learn the graph spectrum would not consider the history of the evolution of the spectrum as the graph evolves with time, we propose a novel approach to learn the graph wavelets to capture this evolving spectra. Further, we propose a framework that integrates the dynamically captured spectra in the form of these learnable wavelets into spatial features for incorporating local and global interactions. Experiments on eight standard datasets show that our method significantly outperforms related methods on various tasks for dynamic graphs.
翻訳日:2022-11-23 16:49:42 公開日:2022-11-22
# 縦断医療記録に基づく伝統的・深層学習モデルの説明可能性

Explainability of Traditional and Deep Learning Models on Longitudinal Healthcare Records ( http://arxiv.org/abs/2211.12002v1 )

ライセンス: Link先を確認
Lin Lee Cheong (1), Tesfagabir Meharizghi (1), Wynona Black (2), Yang Guang (1) and Weilin Meng (2) ((1) Amazon ML Solutions Lab, (2) Merck & Co., Inc)(参考訳) 近年の深層学習の進歩は、様々な医療イベントを予測するために、長期医療記録における深層学習モデルのトレーニングに関心を向けている。 しかし、予測性能は必要だが不十分であり、持続的な使用を臨床医に納得させるために必要なモデルの説明と推論が必要とされる。 モデル(伝統的と深い)と様々な説明可能性法の比較は十分に研究されていないため、説明可能性の厳密な評価が欠落することが多い。 さらに, 説明可能性を評価する上で必要となる根拠真理は, 臨床医の視点にもよる。 我々の研究は、縦型医療データにおいて、グローバルおよび個人ごとの予測レベルにおいて、従来の(XGBoost)モデルと深層学習(LSTM with Attention)モデル間の説明可能性性能を初めて評価した1つである。 3つの一般的な方法を用いて説明可能性を比較した。 1)シェープリー加法説明(shap) 2)層間相関伝播(lrp)、及び 3)注意。 これらの実装は、デザインされた地上構造と現実世界の医療クレームデータセットを備えた合成データセットに適用された。 総じて, SHAPまたはLPPを用いたLSTMは, XGBoostと比較して, グローバルレベルとローカルレベルの両方において優れた説明性を示し, 点積注意によるLSTMは合理的な説明が得られなかった。 医療データ量の急増と深層学習の進展により、医療環境における深層学習モデルの導入を成功させる上で、説明可能性を評価する必要性が重要である。

Recent advances in deep learning have led to interest in training deep learning models on longitudinal healthcare records to predict a range of medical events, with models demonstrating high predictive performance. Predictive performance is necessary but insufficient, however, with explanations and reasoning from models required to convince clinicians for sustained use. Rigorous evaluation of explainability is often missing, as comparisons between models (traditional versus deep) and various explainability methods have not been well-studied. Furthermore, ground truths needed to evaluate explainability can be highly subjective depending on the clinician's perspective. Our work is one of the first to evaluate explainability performance between and within traditional (XGBoost) and deep learning (LSTM with Attention) models on both a global and individual per-prediction level on longitudinal healthcare data. We compared explainability using three popular methods: 1) SHapley Additive exPlanations (SHAP), 2) Layer-Wise Relevance Propagation (LRP), and 3) Attention. These implementations were applied on synthetically generated datasets with designed ground-truths and a real-world medicare claims dataset. We showed that overall, LSTMs with SHAP or LRP provides superior explainability compared to XGBoost on both the global and local level, while LSTM with dot-product attention failed to produce reasonable ones. With the explosion of the volume of healthcare data and deep learning progress, the need to evaluate explainability will be pivotal towards successful adoption of deep learning models in healthcare settings.
翻訳日:2022-11-23 16:49:25 公開日:2022-11-22
# X$^2$-VLM:視覚言語タスクのためのオールインワン事前学習モデル

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks ( http://arxiv.org/abs/2211.12402v1 )

ライセンス: Link先を確認
Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang, Wangchunshu Zhou(参考訳) ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。 複数の粒度で視覚言語アライメントを学習できる統一的なアプローチである多粒度視覚言語事前学習を提案する。 本稿では,画像と映像の符号化を1つのモデルに統一し,大規模データでモデルを拡大する手法を提案する。 X$^2$-VLMは、画像テキストタスクとビデオテキストタスクの両方のためのモジュラーアーキテクチャを備えた訓練済みのVLMである。 実験の結果、X$^2$-VLMは、画像テキストとビデオテキストの両方のタスクに対して、ベースおよび大規模で最高の性能を示し、性能とモデルスケールのトレードオフが良好であることがわかった。 さらに、X$^2$-VLMのモジュラ設計により、任意の言語やドメインで使用されるX$^2$-VLMの高い転送性が得られることを示す。 例えば、テキストエンコーダをxlm-rに置き換えることで、x$^2$-vlmは、多言語事前学習なしで最先端の多言語マルチモーダル事前学習モデルを上回る。 コードと事前訓練されたモデルはgithub.com/zengyan-97/X2-VLMで入手できる。

Vision language pre-training aims to learn alignments between vision and language from a large amount of data. We proposed multi-grained vision language pre-training, a unified approach which can learn vision language alignments in multiple granularity. This paper advances the proposed method by unifying image and video encoding in one model and scaling up the model with large-scale data. We present X$^2$-VLM, a pre-trained VLM with a modular architecture for both image-text tasks and video-text tasks. Experiment results show that X$^2$-VLM performs the best on base and large scale for both image-text and video-text tasks, making a good trade-off between performance and model scale. Moreover, we show that the modular design of X$^2$-VLM results in high transferability for X$^2$-VLM to be utilized in any language or domain. For example, by simply replacing the text encoder with XLM-R, X$^2$-VLM outperforms state-of-the-art multilingual multi-modal pre-trained models without any multilingual pre-training. The code and pre-trained models will be available at github.com/zengyan-97/X2-VLM.
翻訳日:2022-11-23 16:43:36 公開日:2022-11-22
# 高分子分類のためのフォトニック量子コンピューティング

Photonic Quantum Computing For Polymer Classification ( http://arxiv.org/abs/2211.12207v1 )

ライセンス: Link先を確認
Alexandrina Stoyanova, Taha Hammadia, Arno Ricou, Bogdan Penkovsky(参考訳) 高分子構造の二項分類に対する古典量子ハイブリッド手法を提案する。 2つのポリマークラス (VIS) と近赤外 (NIR) はポリマーギャップの大きさに基づいて定義される。 このハイブリッドアプローチは,線形量子フォトニック回路(lqpcs)によって実装されたガウスカーネル法,量子エンハンスドランダムキッチンシンク,変分量子分類器の3つの手法の1つと,古典的ディープニューラルネットワーク(dnn)特徴抽出器を組み合わせたものである。 後者は、サンプル化学構造に関する古典的なデータ情報から抽出する。 また、LQPCに供給されるコンパクトな2次元データベクトルを生成するデータ次元を縮小する。 我々はganらによって提案されたphotonicベースのデータ埋め込み方式を採用する。 [EPJ Quantum Technol. 9, 16 (2022)] 古典的な2次元データベクトルを高次元フォック空間に埋め込む。 このハイブリッド古典量子戦略により、数光子しか持たないフォック状態を利用することで、ノイズの多い中間スケール量子互換分類器を精度良く得ることができる。 3つのハイブリッド法のいずれかを用いて得られたモデルは、VISおよびNIRポリマーの分類に成功した。 精度は0.86から0.88までのスコアと同等である。 これらの結果から, フォトニック量子コンピューティングを用いたハイブリッドアプローチは, 実ポリマーデータにおける化学と構造-適合相関パターンを捉えることが示唆された。 彼らはまた、多くの論理量子ビットが利用可能であるときに複雑な化学構造に量子コンピューティングを採用するという視点も開けている。

We present a hybrid classical-quantum approach to the binary classification of polymer structures. Two polymer classes visual (VIS) and near-infrared (NIR) are defined based on the size of the polymer gaps. The hybrid approach combines one of the three methods, Gaussian Kernel Method, Quantum-Enhanced Random Kitchen Sinks or Variational Quantum Classifier, implemented by linear quantum photonic circuits (LQPCs), with a classical deep neural network (DNN) feature extractor. The latter extracts from the classical data information about samples chemical structure. It also reduces the data dimensions yielding compact 2-dimensional data vectors that are then fed to the LQPCs. We adopt the photonic-based data-embedding scheme, proposed by Gan et al. [EPJ Quantum Technol. 9, 16 (2022)] to embed the classical 2-dimensional data vectors into the higher-dimensional Fock space. This hybrid classical-quantum strategy permits to obtain accurate noisy intermediate-scale quantum-compatible classifiers by leveraging Fock states with only a few photons. The models obtained using either of the three hybrid methods successfully classified the VIS and NIR polymers. Their accuracy is comparable as measured by their scores ranging from 0.86 to 0.88. These findings demonstrate that our hybrid approach that uses photonic quantum computing captures chemistry and structure-property correlation patterns in real polymer data. They also open up perspectives of employing quantum computing to complex chemical structures when a larger number of logical qubits is available.
翻訳日:2022-11-23 16:43:14 公開日:2022-11-22
# 故障データを用いた視覚赤外人物ReIDのためのマルチモーダルデータ拡張

Multimodal Data Augmentation for Visual-Infrared Person ReID with Corrupted Data ( http://arxiv.org/abs/2211.11925v1 )

ライセンス: Link先を確認
Arthur Josi, Mahdi Alehdaghi, Rafael M. O. Cruz, Eric Granger(参考訳) 複雑なカメラネットワーク上の個人の再識別(ReID)は、特に現実世界の監視条件下では難しい課題である。 RGBと赤外線カメラで撮影された画像から個人を認識するために、可視赤外線(V-I)人物ReIDに対して、いくつかのディープラーニングモデルが提案されている。 しかし、RGB や IR 画像がテスト時に劣化した場合(ノイズ、ぼかし、気象条件など)、性能は著しく低下する可能性がある。 一般化能力を向上させるために様々なデータ拡張(DA)手法が検討されているが、これらはV-I人物ReIDには適用されない。 本稿では,このマルチモーダル設定に対処するためのDA戦略を提案する。 VとIの両方のモダリティを考えると、この戦略は深い人物のReIDモデルの精度に対する腐敗の影響を減らすことができる。 腐敗はモダリティ特有のものであり、追加のモダリティはしばしば補完的な情報を提供する。 我々のマルチモーダルDA戦略は、モダリティコラボレーションを促進し、一般化能力を強化するために特別に設計されている。 例えば、モダリティの時間的マスキングは、モデルに情報的モダリティを選択するよう強制する。 ローカルdaは、モダリティ内とモダリティ間の機能の選択の高度化も検討されている。 SYSU-MM01, RegDB, ThermalWORLDデータセットの劣化バージョンに基づいて, 複雑度と効率性の観点から, マルチモーダルDA戦略を用いたV-I人物ReIDのトレーニングベースライン融合モデルの影響を評価した。 結果から,v-i reidモデルでは共有モダリティ知識と個人モダリティ知識の両方を活用でき,noやunimodal daでトレーニングされたモデルよりも優れることがわかった。 GitHubコード:https://github.com/art2611/ML-MDA。

The re-identification (ReID) of individuals over a complex network of cameras is a challenging task, especially under real-world surveillance conditions. Several deep learning models have been proposed for visible-infrared (V-I) person ReID to recognize individuals from images captured using RGB and IR cameras. However, performance may decline considerably if RGB and IR images captured at test time are corrupted (e.g., noise, blur, and weather conditions). Although various data augmentation (DA) methods have been explored to improve the generalization capacity, these are not adapted for V-I person ReID. In this paper, a specialized DA strategy is proposed to address this multimodal setting. Given both the V and I modalities, this strategy allows to diminish the impact of corruption on the accuracy of deep person ReID models. Corruption may be modality-specific, and an additional modality often provides complementary information. Our multimodal DA strategy is designed specifically to encourage modality collaboration and reinforce generalization capability. For instance, punctual masking of modalities forces the model to select the informative modality. Local DA is also explored for advanced selection of features within and among modalities. The impact of training baseline fusion models for V-I person ReID using the proposed multimodal DA strategy is assessed on corrupted versions of the SYSU-MM01, RegDB, and ThermalWORLD datasets in terms of complexity and efficiency. Results indicate that using our strategy provides V-I ReID models the ability to exploit both shared and individual modality knowledge so they can outperform models trained with no or unimodal DA. GitHub code: https://github.com/art2611/ML-MDA.
翻訳日:2022-11-23 16:42:54 公開日:2022-11-22
# 無人宇宙機画像のセマンティック画像分割のための合成データ

Synthetic Data for Semantic Image Segmentation of Imagery of Unmanned Spacecraft ( http://arxiv.org/abs/2211.11941v1 )

ライセンス: Link先を確認
William S. Armstrong, Spencer Drakontaidis, Nicholas Lui(参考訳) 宇宙空間で活動している他の宇宙船から撮影された宇宙船の画像は、特に深層学習に必要なスケールでは、入手が困難である。 セマンティックイメージのセグメンテーション、オブジェクト検出、ローカライゼーション、ポーズ推定は、多くのアプリケーションで強力な結果をもたらすよく研究された領域であり、自律的な宇宙船の運用やランデブーにおいて非常に有用である。 しかし、近年の研究では、広範・共通領域におけるこれらの強い成果が、地球上の特定の産業応用にも及ばないことが示されている。 そこで本研究では, セマンティックセグメンテーションのためにラベル付けされた合成画像データを生成する手法を提案し, 無人宇宙船の2次元単眼画像からなる合成画像データセットの試作を行い, 自律宇宙船のランデブー領域のさらなる研究を可能にする。 また、これらの合成データに対して強力なベンチマーク結果(S{\o}rensen-Dice coefficient 0.8723)を提示し、特にターゲット宇宙船とその構成が分かっていれば、この課題に対して良好な画像分割モデルを訓練することは可能であることを示唆した。

Images of spacecraft photographed from other spacecraft operating in outer space are difficult to come by, especially at a scale typically required for deep learning tasks. Semantic image segmentation, object detection and localization, and pose estimation are well researched areas with powerful results for many applications, and would be very useful in autonomous spacecraft operation and rendezvous. However, recent studies show that these strong results in broad and common domains may generalize poorly even to specific industrial applications on earth. To address this, we propose a method for generating synthetic image data that are labelled for semantic segmentation, generalizable to other tasks, and provide a prototype synthetic image dataset consisting of 2D monocular images of unmanned spacecraft, in order to enable further research in the area of autonomous spacecraft rendezvous. We also present a strong benchmark result (S{\o}rensen-Dice coefficient 0.8723) on these synthetic data, suggesting that it is feasible to train well-performing image segmentation models for this task, especially if the target spacecraft and its configuration are known.
翻訳日:2022-11-23 16:42:27 公開日:2022-11-22
# 深層学習に基づくコンピュータビジョンによるクリケットにおける球の配送と追跡のセグメンテーション

Deep-Learning-Based Computer Vision Approach For The Segmentation Of Ball Deliveries And Tracking In Cricket ( http://arxiv.org/abs/2211.12009v1 )

ライセンス: Link先を確認
Kumail Abbas, Muhammad Saeed, M. Imad Khan, Khandakar Ahmed, Hua Wang(参考訳) 最近、クリケットにおけるテクノロジーの採用が大幅に増加している。 この傾向は、同様のコンピュータビジョンに基づく研究で行われている重複作業の問題を生み出している。 我々の研究は、ディープラーニングモデルであるMobileNetとYOLOを使ってクリケット放送でボールの配送をセグメント化することで、これらの問題の1つを解決しようとしている。 我々の研究の成果はクリケットのコーチや選手が試合中に行われるボールの成果を分析するのに利用できる。 本稿では,ボールのみを配信する映像をセグメント化して抽出する手法を提案する。 ビデオ撮影は、ビデオの全シーンを構成する一連の連続したフレームである。 被写体検出モデルは、映像の正確な抽出という観点で高い精度に達するために適用される。 ボール配達のための大規模な映像データセットを構築するための概念実証が提案され、意味論の抽出のためにこれらのショットをさらに処理する方法が提案されている。 これらのビデオショットにおけるボール追跡は、提案したデータセットの有用性のサンプルとして、別のRetinaNetモデルを使用して行われる。 また、Y軸に沿ってボールを追跡することにより、ボールが着地するクリケットピッチ上の位置も抽出する。 ビデオ撮影は、完全なピッチ、良い長さ、短いピッチのデリバリに分類される。

There has been a significant increase in the adoption of technology in cricket recently. This trend has created the problem of duplicate work being done in similar computer vision-based research works. Our research tries to solve one of these problems by segmenting ball deliveries in a cricket broadcast using deep learning models, MobileNet and YOLO, thus enabling researchers to use our work as a dataset for their research. The output from our research can be used by cricket coaches and players to analyze ball deliveries which are played during the match. This paper presents an approach to segment and extract video shots in which only the ball is being delivered. The video shots are a series of continuous frames that make up the whole scene of the video. Object detection models are applied to reach a high level of accuracy in terms of correctly extracting video shots. The proof of concept for building large datasets of video shots for ball deliveries is proposed which paves the way for further processing on those shots for the extraction of semantics. Ball tracking in these video shots is also done using a separate RetinaNet model as a sample of the usefulness of the proposed dataset. The position on the cricket pitch where the ball lands is also extracted by tracking the ball along the y-axis. The video shot is then classified as a full-pitched, good-length or short-pitched delivery.
翻訳日:2022-11-23 16:42:05 公開日:2022-11-22
# YOLOの解説:Grad-CAMによるオブジェクト検出の解説

Explaining YOLO: Leveraging Grad-CAM to Explain Object Detections ( http://arxiv.org/abs/2211.12108v1 )

ライセンス: Link先を確認
Armin Kirchknopf, Djordje Slijepcevic, Ilkay Wunderlich, Michael Breiter, Johannes Traxler, Matthias Zeppelzauer(参考訳) 視覚物体検出装置の説明可能性の問題について検討する。 具体的には、モデルアーキテクチャにGrad-CAMをどのように統合し、結果を解析するかを、YOLOオブジェクト検出器の例で示す。 個別検出のための帰属に基づく説明の計算方法を示し,結果の正規化が解釈に大きな影響を与えることを見出した。

We investigate the problem of explainability for visual object detectors. Specifically, we demonstrate on the example of the YOLO object detector how to integrate Grad-CAM into the model architecture and analyze the results. We show how to compute attribution-based explanations for individual detections and find that the normalization of the results has a great impact on their interpretation.
翻訳日:2022-11-23 16:41:45 公開日:2022-11-22
# OCTET: オブジェクト指向の対実的説明

OCTET: Object-aware Counterfactual Explanations ( http://arxiv.org/abs/2211.12380v1 )

ライセンス: Link先を確認
Mehdi Zemni, Micka\"el Chen, \'Eloi Zablocki, H\'edi Ben-Younes, Patrick P\'erez, Matthieu Cord(参考訳) 近年、ディープビジョンモデルは、例えば自律運転のような安全クリティカルなアプリケーションに広くデプロイされ、そのようなモデルの説明可能性への懸念が高まっている。 説明方法のうち、反事実説明は、説明すべきモデルの出力を変更する入力画像の最小かつ解釈可能な変更を見つけることを目的としている。 このような説明は、エンドユーザーがモデルの決定に影響を及ぼす主要な要因を指し示している。 しかし、従来の手法では、例えば都市シーンのような、多くのオブジェクトで訓練された画像上の決定モデルを説明するのに苦労していた。 本稿では,反事実的説明生成のためのオブジェクト指向フレームワークを用いてこの問題に取り組むことを提案する。 近年のジェネレーティブ・モデリングに触発された本手法では,オブジェクトレベルの操作を容易にするために,クエリ画像を潜在空間に符号化する。 これにより、エンドユーザーに対して、探索方向(例えば、オブジェクトの空間的変位、スタイル変更など)が、デファクトジェネレーション中に探索される制御を提供する。 運転シーンの非現実的説明ベンチマークに関する一連の実験を行い,提案手法が,セマンティクスのセグメンテーションモデルなど,分類以外にも適用可能であることを示す。 分析を完了させるために,意思決定モデル理解における反事実的説明の有用性を計測するユーザスタディを設計・実施する。 コードはhttps://github.com/valeoai/OCTET.comで入手できる。

Nowadays, deep vision models are being widely deployed in safety-critical applications, e.g., autonomous driving, and explainability of such models is becoming a pressing concern. Among explanation methods, counterfactual explanations aim to find minimal and interpretable changes to the input image that would also change the output of the model to be explained. Such explanations point end-users at the main factors that impact the decision of the model. However, previous methods struggle to explain decision models trained on images with many objects, e.g., urban scenes, which are more difficult to work with but also arguably more critical to explain. In this work, we propose to tackle this issue with an object-centric framework for counterfactual explanation generation. Our method, inspired by recent generative modeling works, encodes the query image into a latent space that is structured in a way to ease object-level manipulations. Doing so, it provides the end-user with control over which search directions (e.g., spatial displacement of objects, style modification, etc.) are to be explored during the counterfactual generation. We conduct a set of experiments on counterfactual explanation benchmarks for driving scenes, and we show that our method can be adapted beyond classification, e.g., to explain semantic segmentation models. To complete our analysis, we design and run a user study that measures the usefulness of counterfactual explanations in understanding a decision model. Code is available at https://github.com/valeoai/OCTET.
翻訳日:2022-11-23 16:41:39 公開日:2022-11-22
# パラメータ空間における線形補間は微調整言語モデルに十分である

Linear Interpolation In Parameter Space is Good Enough for Fine-Tuned Language Models ( http://arxiv.org/abs/2211.12092v1 )

ライセンス: Link先を確認
Mark Rofin, Nikita Balagansky, Daniil Gavrilov(参考訳) 高次元空間における2点間の連続補間を得る最も単純な方法は、それらの間の線を引くことである。 従来,モデルパラメータ間の一般的な接続に着目してきたが,微調整後の事前学習モデルの線形補間について検討した。 驚くことに、微調整モデルに対する中間点の性能低下なしに線形補間を行うことができた。 制御可能なテキスト生成では、そのような補間はモデルが所望のテキスト属性(例えばポジティブ感情)に向かって移動するか、あるいはそれに対するものと見なすことができ、これは推論速度のオーバーヘッドなしに制御可能なテキスト生成のさらなる方法の根拠として使用できる。

The simplest way to obtain continuous interpolation between two points in high dimensional space is to draw a line between them. While previous works focused on the general connectivity between model parameters, we explored linear interpolation for parameters of pre-trained models after fine-tuning. Surprisingly, we could perform linear interpolation without a performance drop in intermediate points for fine-tuned models. For controllable text generation, such interpolation could be seen as moving a model towards or against the desired text attribute (e.g., positive sentiment), which could be used as grounds for further methods for controllable text generation without inference speed overhead.
翻訳日:2022-11-23 16:41:14 公開日:2022-11-22
# 変圧器の単純性バイアスとスパースブール関数の学習能力

Simplicity Bias in Transformers and their Ability to Learn Sparse Boolean Functions ( http://arxiv.org/abs/2211.12316v1 )

ライセンス: Link先を確認
Satwik Bhattamishra, Arkil Patel, Varun Kanade and Phil Blunsom(参考訳) NLPタスクにおけるTransformerの成功にもかかわらず、最近の研究は、繰り返し発生するモデルと比較して、いくつかの形式言語をモデル化するのに苦労していることが判明した。 このことは、トランスフォーマーが実際になぜうまく機能するのか、また、リカレントモデルよりも良く一般化できるプロパティがあるかどうかという疑問を提起する。 本研究では,ブール関数に関する広範な実証的研究を行い,以下のことを実証する。 (i)ランダムトランスフォーマーは比較的感度の低い機能に対して偏りがある。 (2) ブール関数の訓練では,トランスフォーマーとLSTMの両方が低感度の学習関数を優先し,最終的に低感度の関数に収束する。 3) 感度の低い疎ブール関数について, LSTMは過度に適合し, 一般化精度が劣る一方, ノイズラベルの存在下においてもトランスフォーマーは完全に一般化することがわかった。 以上の結果から,変換器の帰納バイアスと繰り返しモデルとの差が強く,表現性に制限があるにもかかわらず,変換器の効果的な一般化性能を説明するのに役立つ可能性が示唆された。

Despite the widespread success of Transformers on NLP tasks, recent works have found that they struggle to model several formal languages when compared to recurrent models. This raises the question of why Transformers perform well in practice and whether they have any properties that enable them to generalize better than recurrent models. In this work, we conduct an extensive empirical study on Boolean functions to demonstrate the following: (i) Random Transformers are relatively more biased towards functions of low sensitivity. (ii) When trained on Boolean functions, both Transformers and LSTMs prioritize learning functions of low sensitivity, with Transformers ultimately converging to functions of lower sensitivity. (iii) On sparse Boolean functions which have low sensitivity, we find that Transformers generalize near perfectly even in the presence of noisy labels whereas LSTMs overfit and achieve poor generalization accuracy. Overall, our results provide strong quantifiable evidence that suggests differences in the inductive biases of Transformers and recurrent models which may help explain Transformer's effective generalization performance despite relatively limited expressiveness.
翻訳日:2022-11-23 16:41:01 公開日:2022-11-22
# トランスファー学習による偽ニュースと噂検出に対する感情認識型マルチタスクアプローチ

An Emotion-Aware Multi-Task Approach to Fake News and Rumour Detection using Transfer Learning ( http://arxiv.org/abs/2211.12374v1 )

ライセンス: Link先を確認
Arjun Choudhry, Inder Khatri, Minni Jain, Dinesh Kumar Vishwakarma(参考訳) ソーシャルネットワーキングサイト、ブログ、オンライン記事は、世界中のインターネットユーザーにとって即時ニュース源である。 しかし、ソーシャルメディア上の全てのテキストの真正さを規定する厳格な規制がないため、これらのテキストのいくつかは偽ニュースや噂である可能性が高い。 彼らの偽りの性質と即時伝播能力は社会に悪影響を及ぼす可能性がある。 これにより、ウェブ上の偽ニュースや噂をより効果的に検出する必要がある。 本研究では,情報伝達学習を用いて,感情クラスラベルを用いて4つの偽ニュース検出とうわさ検出データセットをアノテートする。 テキストの正統性と偽ニュースに対する内在的な感情と噂検出との相関関係を示し,同一の感情クラス内でも偽ニュースと実際のニュースが異なった表現で表現されることがしばしばあり,機能抽出の改善に利用できることを示す。 これに基づいて,偽ニュースと噂検出のためのマルチタスクフレームワークを提案し,テキストの感情と正当性の両方を予測する。 より包括的な比較のために、シングルタスクとマルチタスク設定でさまざまなディープラーニングモデルをトレーニングします。 クロスドメイン設定における偽ニュース検出のためのマルチタスクアプローチの性能をさらに分析し、データセットをまたがる汎用化の有効性を検証し、感情がドメインに依存しない機能として機能することを確認する。 実験結果は、ドメイン内設定とクロスドメイン設定の両方において、精度、精度、リコール、F1スコアにおいて、我々のマルチタスクモデルが一貫してシングルタスクモデルを上回っていることを検証する。 また,シングルタスク学習モデルとマルチタスク学習モデルの性能差を質的に分析する。

Social networking sites, blogs, and online articles are instant sources of news for internet users globally. However, in the absence of strict regulations mandating the genuineness of every text on social media, it is probable that some of these texts are fake news or rumours. Their deceptive nature and ability to propagate instantly can have an adverse effect on society. This necessitates the need for more effective detection of fake news and rumours on the web. In this work, we annotate four fake news detection and rumour detection datasets with their emotion class labels using transfer learning. We show the correlation between the legitimacy of a text with its intrinsic emotion for fake news and rumour detection, and prove that even within the same emotion class, fake and real news are often represented differently, which can be used for improved feature extraction. Based on this, we propose a multi-task framework for fake news and rumour detection, predicting both the emotion and legitimacy of the text. We train a variety of deep learning models in single-task and multi-task settings for a more comprehensive comparison. We further analyze the performance of our multi-task approach for fake news detection in cross-domain settings to verify its efficacy for better generalization across datasets, and to verify that emotions act as a domain-independent feature. Experimental results verify that our multi-task models consistently outperform their single-task counterparts in terms of accuracy, precision, recall, and F1 score, both for in-domain and cross-domain settings. We also qualitatively analyze the difference in performance in single-task and multi-task learning models.
翻訳日:2022-11-23 16:40:40 公開日:2022-11-22
# 変分に基づく原因効果の同定

Variation-based Cause Effect Identification ( http://arxiv.org/abs/2211.12016v1 )

ライセンス: Link先を確認
Mohamed Amine ben Salem and Karim Said Barsim and Bin Yang(参考訳) 現実のシステムにおける複雑なデータ生成プロセスの基盤となる真のメカニズムのマイニングは、データ駆動モデルの解釈可能性を促進するための基本的なステップである。 そこで本研究では,2変量系の因果発見のための変分に基づく原因影響同定(VCEI)フレームワークを提案する。 我々の枠組みは、既存の非循環因果関係を前提として、原因とメカニズム(ICM)の独立原理に依存しており、この原理を実践的に実現している。 主に1つの共変量の限界分布が原因であると主張される2つの設定を人工的に構築し,不可分な変動が保証される。 これはマージンのサンプルを再重み付けすることで達成され、結果分布はいくつかの不一致測度に従ってこのマージンと明確に区別される。 因果方向では、このような変動が効果発生機構に影響を与えないことが期待されている。 したがって、これらの変動の条件に対する影響を定量化すると、真の因果方向が明らかになる。 さらに,この手法をカーネルに基づく最大平均偏差で定式化し,原因・効果共変量のデータ型に対するすべての制約を解除し,そのような人工的な介入を凸最適化問題とする。 我々は、VCEIが原則として、他の原因効果識別フレームワークと競合していることを示す実データおよび合成データに関する一連の実験を行った。

Mining genuine mechanisms underlying the complex data generation process in real-world systems is a fundamental step in promoting interpretability of, and thus trust in, data-driven models. Therefore, we propose a variation-based cause effect identification (VCEI) framework for causal discovery in bivariate systems from a single observational setting. Our framework relies on the principle of independence of cause and mechanism (ICM) under the assumption of an existing acyclic causal link, and offers a practical realization of this principle. Principally, we artificially construct two settings in which the marginal distributions of one covariate, claimed to be the cause, are guaranteed to have non-negligible variations. This is achieved by re-weighting samples of the marginal so that the resultant distribution is notably distinct from this marginal according to some discrepancy measure. In the causal direction, such variations are expected to have no impact on the effect generation mechanism. Therefore, quantifying the impact of these variations on the conditionals reveals the genuine causal direction. Moreover, we formulate our approach in the kernel-based maximum mean discrepancy, lifting all constraints on the data types of cause-and-effect covariates, and rendering such artificial interventions a convex optimization problem. We provide a series of experiments on real and synthetic data showing that VCEI is, in principle, competitive to other cause effect identification frameworks.
翻訳日:2022-11-23 16:35:09 公開日:2022-11-22
# マルチタスクベンチマークによるテキスト対画像モデルの人間評価

Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark ( http://arxiv.org/abs/2211.12112v1 )

ライセンス: Link先を確認
Vitali Petsiuk, Alexander E. Siemenn, Saisamrit Surbehera, Zad Chin, Keith Tyser, Gregory Hunter, Arvind Raghavan, Yann Hicke, Bryan A. Plummer, Ori Kerret, Tonio Buonassisi, Kate Saenko, Armando Solar-Lezama, Iddo Drori(参考訳) テキストから画像へのモデルを評価するための新しいマルチタスクベンチマークを提供する。 我々は,最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルの比較を行う。 20人のコンピュータサイエンスの大学院生が3つのタスクで、それぞれ10のプロンプトで2つのモデルを評価し、3600のレーティングを提供した。 テキストから画像への生成は、多くの最近のモデルが様々なプロンプトで現実的な高解像度画像を作成する能力を示している点まで急速に進歩している。 しかし、現在のテキストから画像への方法や視覚言語理解に関するより広範な研究は、複数の属性と関係を持つ多くのオブジェクトを含む複雑なテキストプロンプトに未だに苦労している。 テキストプロンプトのさまざまな機能を扱うモデルの能力をキャプチャする複数のアプリケーションに対して,32タスクのスイートを含む,新たなtext-to-imageベンチマークを導入する。 例えば、モデルに同じオブジェクトのさまざまな数を生成するように要求したり、異なる属性を持つ複数のオブジェクトでテキストプロンプトを計測したりすることで、オブジェクトと属性を正しく一致させることができる。 提案するマルチタスク・ベンチマークは,複数のプロンプトに対してテキスト・ツー・イメージの結果を主観的に評価するのではなく,3つの難易度(易易度,中度,硬度)の課題タスクと,生成された画像に対する人間の評価からなる。

We provide a new multi-task benchmark for evaluating text-to-image models. We perform a human evaluation comparing the most common open-source (Stable Diffusion) and commercial (DALL-E 2) models. Twenty computer science AI graduate students evaluated the two models, on three tasks, at three difficulty levels, across ten prompts each, providing 3,600 ratings. Text-to-image generation has seen rapid progress to the point that many recent models have demonstrated their ability to create realistic high-resolution images for various prompts. However, current text-to-image methods and the broader body of research in vision-language understanding still struggle with intricate text prompts that contain many objects with multiple attributes and relationships. We introduce a new text-to-image benchmark that contains a suite of thirty-two tasks over multiple applications that capture a model's ability to handle different features of a text prompt. For example, asking a model to generate a varying number of the same object to measure its ability to count or providing a text prompt with several objects that each have a different attribute to identify its ability to match objects and attributes correctly. Rather than subjectively evaluating text-to-image results on a set of prompts, our new multi-task benchmark consists of challenge tasks at three difficulty levels (easy, medium, and hard) and human ratings for each generated image.
翻訳日:2022-11-23 16:34:46 公開日:2022-11-22
# EDICT: 結合変換による厳密な拡散インバージョン

EDICT: Exact Diffusion Inversion via Coupled Transformations ( http://arxiv.org/abs/2211.12446v1 )

ライセンス: Link先を確認
Bram Wallace, Akash Gokul, Nikhil Naik(参考訳) 拡散過程(逆変換と呼ばれる)に入力された画像を生成する初期ノイズベクトルを見つけることは、拡散モデル(DDM)を実画像編集に応用する上で重要な問題である。 インバージョンによる実際の画像編集の最先端のアプローチでは、拡散暗黙的モデル(DDIM)をデノナイズし、元の条件が与えられた経路に沿って画像が中間状態に決定的にノイズを与える。 しかし、実画像に対するDDIMの逆変換は、局所線形化仮定に依存するため不安定であり、エラーの伝播を招き、誤った画像再構成とコンテンツの損失をもたらす。 これらの問題を緩和するために、アフィン結合層からインスピレーションを得る逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。 EDICTは、相互に交互に反転する2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。 最先端の潜伏拡散モデルである安定拡散を用いて,EDICTが高忠実度で実画像の再構成に成功したことを示す。 MS-COCOのような複雑な画像データセットでは、EDICT再構成はDDIMを著しく上回り、2倍の平均2乗誤差を改善する。 実画像から反転したノイズベクトルを用いることで,局所的およびグローバル的な意味的編集から画像スタイライゼーションまで,元の画像構造への忠実性を維持しながら,幅広い画像編集を可能にする。 EDICTはモデルトレーニングやファインタニング、プロンプトチューニング、追加データを必要としないため、事前訓練されたDDMと組み合わせることができる。 コードは間もなく利用可能になる。

Finding an initial noise vector that produces an input image when fed into the diffusion process (known as inversion) is an important problem in denoising diffusion models (DDMs), with applications for real image editing. The state-of-the-art approach for real image editing with inversion uses denoising diffusion implicit models (DDIMs) to deterministically noise the image to the intermediate state along the path that the denoising would follow given the original conditioning. However, DDIM inversion for real images is unstable as it relies on local linearization assumptions, which result in the propagation of errors, leading to incorrect image reconstruction and loss of content. To alleviate these problems, we propose Exact Diffusion Inversion via Coupled Transformations (EDICT), an inversion method that draws inspiration from affine coupling layers. EDICT enables mathematically exact inversion of real and model-generated images by maintaining two coupled noise vectors which are used to invert each other in an alternating fashion. Using Stable Diffusion, a state-of-the-art latent diffusion model, we demonstrate that EDICT successfully reconstructs real images with high fidelity. On complex image datasets like MS-COCO, EDICT reconstruction significantly outperforms DDIM, improving the mean square error of reconstruction by a factor of two. Using noise vectors inverted from real images, EDICT enables a wide range of image edits--from local and global semantic edits to image stylization--while maintaining fidelity to the original image structure. EDICT requires no model training/finetuning, prompt tuning, or extra data and can be combined with any pretrained DDM. Code will be made available shortly.
翻訳日:2022-11-23 16:34:22 公開日:2022-11-22
# modeldiff: 学習アルゴリズムを比較するフレームワーク

ModelDiff: A Framework for Comparing Learning Algorithms ( http://arxiv.org/abs/2211.12491v1 )

ライセンス: Link先を確認
Harshay Shah, Sung Min Park, Andrew Ilyas, Aleksander Madry(参考訳) そこでは,2つの異なる学習アルゴリズムを用いて学習したモデルの違いを見つけることを目的とする。 まず、この目標を特徴変換(つまり、ある学習アルゴリズムで訓練されたモデルの予測を変える入力変換)を区別する1つとして定式化する。 次に,datamodelsフレームワーク(ilyas et al., 2022)を活用して,トレーニングデータの使い方に基づいて学習アルゴリズムを比較する手法であるmodeldiffを提案する。 3つのケーススタディを通じてModelDiffを実演し、データ拡張、事前トレーニング、異なるSGDハイパーパラメータで訓練されたモデルを比較した。 私たちのコードはhttps://github.com/MadryLab/modeldiffで利用可能です。

We study the problem of (learning) algorithm comparison, where the goal is to find differences between models trained with two different learning algorithms. We begin by formalizing this goal as one of finding distinguishing feature transformations, i.e., input transformations that change the predictions of models trained with one learning algorithm but not the other. We then present ModelDiff, a method that leverages the datamodels framework (Ilyas et al., 2022) to compare learning algorithms based on how they use their training data. We demonstrate ModelDiff through three case studies, comparing models trained with/without data augmentation, with/without pre-training, and with different SGD hyperparameters. Our code is available at https://github.com/MadryLab/modeldiff .
翻訳日:2022-11-23 16:33:54 公開日:2022-11-22
# プログラム合成のための遺伝的アルゴリズム

Genetic Algorithm for Program Synthesis ( http://arxiv.org/abs/2211.11937v1 )

ライセンス: Link先を確認
Yutaka Nagashima(参考訳) 帰納的プログラム合成ツールは、仕様を入力として、その仕様を満たすプログラムを導出する。 このアプローチの欠点は、そのような正しいプログラムの検索スペースは巨大になりがちであり、リアルなタイムアウト内で正しいプログラムを導出することが難しいことである。 このようなプログラム導出を高速化するために, 進化的計算を用いて, 帰納的プログラム合成ツール suslik の探索戦略を改善する。 クロスバリデーションは,進化的計算によってもたらされる改善が予測できない問題に一般化することを示す。

A deductive program synthesis tool takes a specification as input and derives a program that satisfies the specification. The drawback of this approach is that search spaces for such correct programs tend to be enormous, making it difficult to derive correct programs within a realistic timeout. To speed up such program derivation, we improve the search strategy of a deductive program synthesis tool, SuSLik, using evolutionary computation. Our cross-validation shows that the improvement brought by evolutionary computation generalises to unforeseen problems.
翻訳日:2022-11-23 16:33:38 公開日:2022-11-22
# スパイクニューラルネットワークのプルーニングと再生による適応的スパース構造構築

Adaptive Sparse Structure Development with Pruning and Regeneration for Spiking Neural Networks ( http://arxiv.org/abs/2211.12219v1 )

ライセンス: Link先を確認
Bing Han, Feifei Zhao, Yi Zeng, Wenxuan Pan(参考訳) スパイキングニューラルネットワーク(snn)は、より生物学的に有理で計算効率が高い。 したがって、SNNは、複雑な構造と固定された構造によって引き起こされるディープニューラルネットワークのエネルギー問題を緩和するために、脳発達のスパース構造的可塑性を描くという自然な利点がある。 しかし、以前のsns圧縮作業は脳発達の可塑性機構からの深いインスピレーションを欠いている。 本稿では, 樹状突起塑性を用いたシナプス拘束, 神経切断, シナプス再生を導入したSNN (SD-SNN) の適応的構造発達法を提案する。 シナプス的拘束と神経プルーニングはSNNの大量の冗長性を検出・除去し,シナプス的再生と組み合わせることでオーバープルーニングを効果的に予防・修復できることがわかった。 さらに, 神経栄養仮説, 神経切断速度, シナプス再生速度は, 学習前後に適応的に調整され, 最終的にSNNの構造安定性に繋がった。 空間的 (MNIST, CIFAR-10) と時間的ニューロモルフィック (N-MNIST, DVS-Gesture) のデータセットによる実験結果から, 本手法は様々なタスクに対する適切な圧縮率を柔軟に学習し, ネットワークエネルギー消費を大幅に削減し, 優れた性能を実現することができることを示した。 具体的には、空間的MNISTデータセットに対して、SD-SNNは99.51\%の精度をプルーニングレート49.83\%で達成し、圧縮のないベースラインと比較して0.05\%の精度向上を実現した。 ニューロモルフィックDVS-Gestureデータセットでは、圧縮率が55.50.%に達すると、1.09.%の改善を伴う98.20.%の精度が得られる。

Spiking Neural Networks (SNNs) are more biologically plausible and computationally efficient. Therefore, SNNs have the natural advantage of drawing the sparse structural plasticity of brain development to alleviate the energy problems of deep neural networks caused by their complex and fixed structures. However, previous SNNs compression works are lack of in-depth inspiration from the brain development plasticity mechanism. This paper proposed a novel method for the adaptive structural development of SNN (SD-SNN), introducing dendritic spine plasticity-based synaptic constraint, neuronal pruning and synaptic regeneration. We found that synaptic constraint and neuronal pruning can detect and remove a large amount of redundancy in SNNs, coupled with synaptic regeneration can effectively prevent and repair over-pruning. Moreover, inspired by the neurotrophic hypothesis, neuronal pruning rate and synaptic regeneration rate were adaptively adjusted during the learning-while-pruning process, which eventually led to the structural stability of SNNs. Experimental results on spatial (MNIST, CIFAR-10) and temporal neuromorphic (N-MNIST, DVS-Gesture) datasets demonstrate that our method can flexibly learn appropriate compression rate for various tasks and effectively achieve superior performance while massively reducing the network energy consumption. Specifically, for the spatial MNIST dataset, our SD-SNN achieves 99.51\% accuracy at the pruning rate 49.83\%, which has a 0.05\% accuracy improvement compared to the baseline without compression. For the neuromorphic DVS-Gesture dataset, 98.20\% accuracy with 1.09\% improvement is achieved by our method when the compression rate reaches 55.50\%.
翻訳日:2022-11-23 16:33:26 公開日:2022-11-22
# seq2seqトランジションベースシステムによる参照分解能

Coreference Resolution through a seq2seq Transition-Based System ( http://arxiv.org/abs/2211.12142v1 )

ライセンス: Link先を確認
Bernd Bohnet, Chris Alberti, Michael Collins(参考訳) 最近のコリファレンスレゾリューションシステムのほとんどは、参照を識別し、コリファレンスを解決するために可能なスパン以上の検索アルゴリズムを使用している。 代わりに,テキスト・ツー・テキスト(seq2seq)パラダイムを用いて言及とリンクを共同で予測するコリファレンスレゾリューションシステムを提案する。 トランジッションシステムとしてコリファレンスシステムを実装し,基礎となる言語モデルとして多言語t5を使用する。 英語用83.3F1スコア(Dobrovolskii,2021年)とアラビア語用68.5F1スコア(+4.1高)と中国語用74.3F1スコア(+5.3)を用いて,CoNLL-2012データセットの最先端精度を得る。 さらに,ゼロショット設定,数ショット設定,すべてのトレーニングデータを用いた教師付き設定実験にsemeval-2010データセットを使用する。 従来の4言語中3言語に対するゼロショットF1スコアは,従来の5つのテスト言語に対する教師付き最新結果をはるかに上回っている。

Most recent coreference resolution systems use search algorithms over possible spans to identify mentions and resolve coreference. We instead present a coreference resolution system that uses a text-to-text (seq2seq) paradigm to predict mentions and links jointly. We implement the coreference system as a transition system and use multilingual T5 as an underlying language model. We obtain state-of-the-art accuracy on the CoNLL-2012 datasets with 83.3 F1-score for English (a 2.3 higher F1-score than previous work (Dobrovolskii, 2021)) using only CoNLL data for training, 68.5 F1-score for Arabic (+4.1 higher than previous work) and 74.3 F1-score for Chinese (+5.3). In addition we use the SemEval-2010 data sets for experiments in the zero-shot setting, a few-shot setting, and supervised setting using all available training data. We get substantially higher zero-shot F1-scores for 3 out of 4 languages than previous approaches and significantly exceed previous supervised state-of-the-art results for all five tested languages.
翻訳日:2022-11-23 16:31:47 公開日:2022-11-22
# 周辺地域のネットワークモデルを用いたCOVID-19シーケンスデータの評価

Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network Model ( http://arxiv.org/abs/2211.10546v2 )

ライセンス: Link先を確認
Sarwan Ali(参考訳) SARS-CoV-2は、ヒトの新型コロナウイルス感染症の原因である。 多くの新型コロナウイルスと同様、異なる宿主に適応し、異なる系統に進化することができる。 主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。 スパイクタンパク質の構造を理解し、どのように摂動するかを理解することは、系統が懸念されているかどうかを理解し、決定するのに不可欠である。 これらは、現在の流行を特定し、コントロールし、将来のパンデミックを防ぐために重要である。 機械学習(ML)メソッドは、利用可能なシーケンシングデータの量を考えると、この取り組みの実行可能なソリューションである。 しかし、そのようなML法はユークリッド空間における固定長の数値特徴ベクトルを適用する必要がある。 同様に、ユークリッド空間は、生物配列の分類とクラスタリングのタスクに取り組む際に最適な選択ではないと考えられている。 本研究では,タンパク質(スパイク)配列を配列類似性ネットワーク(SSN)に変換する手法を設計する。 次に、分類やクラスタリングといった典型的なタスクに対して、グラフマイニング領域からの古典的なアルゴリズムの入力としてSSNを使うことができる。 提案手法はクラスタリングの結果から,現在のSOTA法より優れていることを示す。 同様に、よく知られたNode2Vecベースの埋め込みを使用して、他のベースライン埋め込みアプローチよりも高い分類精度を達成することができる。

The SARS-CoV-2 coronavirus is the cause of the COVID-19 disease in humans. Like many coronaviruses, it can adapt to different hosts and evolve into different lineages. It is well-known that the major SARS-CoV-2 lineages are characterized by mutations that happen predominantly in the spike protein. Understanding the spike protein structure and how it can be perturbed is vital for understanding and determining if a lineage is of concern. These are crucial to identifying and controlling current outbreaks and preventing future pandemics. Machine learning (ML) methods are a viable solution to this effort, given the volume of available sequencing data, much of which is unaligned or even unassembled. However, such ML methods require fixed-length numerical feature vectors in Euclidean space to be applicable. Similarly, euclidean space is not considered the best choice when working with the classification and clustering tasks for biological sequences. For this purpose, we design a method that converts the protein (spike) sequences into the sequence similarity network (SSN). We can then use SSN as an input for the classical algorithms from the graph mining domain for the typical tasks such as classification and clustering to understand the data. We show that the proposed alignment-free method is able to outperform the current SOTA method in terms of clustering results. Similarly, we are able to achieve higher classification accuracy using well-known Node2Vec-based embedding compared to other baseline embedding approaches.
翻訳日:2022-11-23 16:26:00 公開日:2022-11-22
# 複数のBCIタスクを用いた脳波復号のためのフェデレーションディープトランスファー学習

Federated deep transfer learning for EEG decoding using multiple BCI tasks ( http://arxiv.org/abs/2211.10976v2 )

ライセンス: Link先を確認
Xiaoxi Wei and A. Aldo Faisal(参考訳) ディープラーニングはBCIデコーディングで成功している。 しかし、非常にデータに富んでいて、複数のソースからデータをプールする必要がある。 様々なソースからの脳波データにより、負の転送による復号性能が低下する。 近年,脳波デコードのための転送学習は治療として提案され,最近のbciコンペティション(例えばbeetl)の対象となっているが,多くの被験者からのデータの組み合わせには2つの合併症がある。 第一に、プライバシーは、非常に個人的な脳データを共有する必要があるため保護されない(そしてますます厳格な情報ガバナンスの境界を越えてコピーされる)。 さらに、BCIデータは異なるソースから収集され、しばしば異なるBCIタスクに基づいており、再利用性を制限すると考えられている。 本稿では,前回のscsnの作業に基づいて,複数のデータセットを分離した分割共通分離ネットワーク(mf-scsn)であるfederated deep transfer learning手法を実演する。 このフレームワークは、異なる画像タスク(例えば、手と足のデータセットや、片手と舌のデータセットなど)から得られる異なるソースデータセットを使用してbciデコーダを訓練する。 したがって、プライバシ保護転送学習技術を導入することで、既存のBCIデータセットの再利用性とスケーラビリティを解放する。 neurips 2021 beetl competition bciタスクにおけるfederated transfer learning法の評価を行った。 提案するアーキテクチャはベースラインデコーダを3%上回った。 さらに,ベースラインや他の転送学習アルゴリズムと比較して,脳データのプライバシを異なるデータセンターから保護する。

Deep learning has been successful in BCI decoding. However, it is very data-hungry and requires pooling data from multiple sources. EEG data from various sources decrease the decoding performance due to negative transfer. Recently, transfer learning for EEG decoding has been suggested as a remedy and become subject to recent BCI competitions (e.g. BEETL), but there are two complications in combining data from many subjects. First, privacy is not protected as highly personal brain data needs to be shared (and copied across increasingly tight information governance boundaries). Moreover, BCI data are collected from different sources and are often based on different BCI tasks, which has been thought to limit their reusability. Here, we demonstrate a federated deep transfer learning technique, the Multi-dataset Federated Separate-Common-Separate Network (MF-SCSN) based on our previous work of SCSN, which integrates privacy-preserving properties into deep transfer learning to utilise data sets with different tasks. This framework trains a BCI decoder using different source data sets obtained from different imagery tasks (e.g. some data sets with hands and feet, vs others with single hands and tongue, etc). Therefore, by introducing privacy-preserving transfer learning techniques, we unlock the reusability and scalability of existing BCI data sets. We evaluated our federated transfer learning method on the NeurIPS 2021 BEETL competition BCI task. The proposed architecture outperformed the baseline decoder by 3%. Moreover, compared with the baseline and other transfer learning algorithms, our method protects the privacy of the brain data from different data centres.
翻訳日:2022-11-23 16:25:38 公開日:2022-11-22
# 物理インフォームドニューラルネットワークトレーニングにおける座標点の分配のためのカリキュラムベース戦略

A Curriculum-Training-Based Strategy for Distributing Collocation Points during Physics-Informed Neural Network Training ( http://arxiv.org/abs/2211.11396v2 )

ライセンス: Link先を確認
Marcus M\"unzer, Chris Bard(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、損失関数において、物理方程式や微分に基づく用語を持つことが多い。 これらの項を評価するために、出力解をコロケーション点の分布を用いてサンプリングする。 しかし、ドメイン上のコロケーションポイント数がトレーニング期間を通じて増加する密度ベースの戦略は、複数の空間次元に対してうまくスケールしない。 本稿では,ネットワークトレーニング中の軽量なコロケーション点分布のためのカリキュラム学習に基づく手法を提案する。 本手法を,ベースラインMHDシミュレーションから得られた部分試料から完全2次元磁気流体力学(MHD)溶液を回収するPINNに適用する。 カリキュラムのコロケーションポイント戦略は,トレーニング時間を大幅に短縮し,再構築されたソリューションの品質を同時に向上させる。

Physics-informed Neural Networks (PINNs) often have, in their loss functions, terms based on physical equations and derivatives. In order to evaluate these terms, the output solution is sampled using a distribution of collocation points. However, density-based strategies, in which the number of collocation points over the domain increases throughout the training period, do not scale well to multiple spatial dimensions. To remedy this issue, we present here a curriculum-training-based method for lightweight collocation point distributions during network training. We apply this method to a PINN which recovers a full two-dimensional magnetohydrodynamic (MHD) solution from a partial sample taken from a baseline MHD simulation. We find that the curriculum collocation point strategy leads to a significant decrease in training time and simultaneously enhances the quality of the reconstructed solution.
翻訳日:2022-11-23 16:25:10 公開日:2022-11-22
# 畳み込みオートエンコーダ状態ネットワークを用いた時空間乱流のモデリング

Modelling spatiotemporal turbulent dynamics with the convolutional autoencoder echo state network ( http://arxiv.org/abs/2211.11379v2 )

ライセンス: Link先を確認
Alberto Racca and Nguyen Anh Khoa Doan and Luca Magri(参考訳) 乱流の時空間力学はカオス的で予測が難しい。 これにより、精度が高く安定した低次モデルの設計が困難になる。 本研究の目的は, 乱流状態の非線形分解を力学の低次表現のために提案することである。 乱流を時空間問題と時空間問題に分ける。 まず、乱流力学が生きている多様体である潜在空間を計算する(つまり、乱流引力の数値近似である)。 遅延空間は一連の非線形フィルタリング演算によって発見され、畳み込みオートエンコーダ(CAE)によって実行される。 CAEは空間の分解を提供する。 第二に、エコー状態ネットワーク(ESN)によって実行される潜在空間における乱流状態の時間的進化を予測する。 ESNは時間分解を提供する。 第3に、CAEとESNを組み立てることで、畳み込み自己符号化エコー状態ネットワーク(CAE-ESN)という自律力学系を得る。 これは乱流の還元次モデルである。 CAE-ESNを二次元流れで試験する。 訓練後、CAE-ESNは、 (i) 物理空間よりも自由度1%未満の乱流の潜在空間表現を見出す。 二 準周期的及び乱流的両方の流れを時間的かつ統計的に予測すること。 (iii)異なるフローレジーム(レイノルズ数)に対して堅牢であり、 (iv) 支配方程式を解くよりも乱流を予測するのに計算時間が1%未満である。 この研究は、非線形分解とデータからの乱流の低次モデリングの新しい可能性を開く。

The spatiotemporal dynamics of turbulent flows is chaotic and difficult to predict. This makes the design of accurate and stable reduced-order models challenging. The overarching objective of this paper is to propose a nonlinear decomposition of the turbulent state for a reduced-order representation of the dynamics. We divide the turbulent flow into a spatial problem and a temporal problem. First, we compute the latent space, which is the manifold onto which the turbulent dynamics live (i.e., it is a numerical approximation of the turbulent attractor). The latent space is found by a series of nonlinear filtering operations, which are performed by a convolutional autoencoder (CAE). The CAE provides the decomposition in space. Second, we predict the time evolution of the turbulent state in the latent space, which is performed by an echo state network (ESN). The ESN provides the decomposition in time. Third, by assembling the CAE and the ESN, we obtain an autonomous dynamical system: the convolutional autoncoder echo state network (CAE-ESN). This is the reduced-order model of the turbulent flow. We test the CAE-ESN on a two-dimensional flow. We show that, after training, the CAE-ESN (i) finds a latent-space representation of the turbulent flow that has less than 1% of the degrees of freedom than the physical space; (ii) time-accurately and statistically predicts the flow in both quasiperiodic and turbulent regimes; (iii) is robust for different flow regimes (Reynolds numbers); and (iv) takes less than 1% of computational time to predict the turbulent flow than solving the governing equations. This work opens up new possibilities for nonlinear decompositions and reduced-order modelling of turbulent flows from data.
翻訳日:2022-11-23 16:24:58 公開日:2022-11-22
# CLAWSAT:ロバストと正確なコードモデルの両方を目指して

CLAWSAT: Towards Both Robust and Accurate Code Models ( http://arxiv.org/abs/2211.11711v2 )

ライセンス: Link先を確認
Jinghan Jia and Shashank Srikant and Tamara Mitrovska and Chuang Gan and Shiyu Chang and Sijia Liu and Una-May O'Reilly(参考訳) コントラスト学習(cl)と敵対学習を統合し,コードモデルのロバスト性と正確性を同時に最適化する。 既存の作業とは違って、標準的なコード変換操作であるコード難読化は、堅牢で正確なコードモデルの両方を達成することができるコードの補完的な‘ビュー’を生成する新しい手段を提供する。 私たちの知る限りでは、これはコードモデルにおける(マルチビュー)コードの難読化の堅牢性と正確性を調査し、活用する最初の体系的な研究です。 具体的には,まず,自己指導型事前学習段階におけるCLの頑健性向上の視点として,対向符号を採用する。 これにより、下流タスクの堅牢性と転送性が改善される。 次に, 教師付き微調整段階において, 適切な時間的重み付きスケジュール付き対人訓練により, 事前学習した符号モデルの堅牢性と精度をさらに向上させることができることを示す。 上記の2つのモジュールの上に構築されたCLAWSATは、コードのための新しい自己教師型学習(SSL)フレームワークで、$\underline{\textrm{CL}}$と$\underline{\textrm{a}}$dversarial vie$\underline{\textrm{w}}$s (CLAW)と$\underline{\textrm{s}}$taggered $\underline{\textrm{a}}$dversarial $\underline{\textrm{t}}$raining (SAT)を統合する。 pythonとjavaの3つのダウンストリームタスクの評価において、clawsatは一貫して最高の堅牢性と正確性をもたらすことが示されている(例えば、pythonのコード要約タスクでは11$\%$と6$$$$$$$である)。 さらに,学習前モデルの特徴と解釈可能性を分析し,CLAWにおける逆学習の有効性を実証した。

We integrate contrastive learning (CL) with adversarial learning to co-optimize the robustness and accuracy of code models. Different from existing works, we show that code obfuscation, a standard code transformation operation, provides novel means to generate complementary `views' of a code that enable us to achieve both robust and accurate code models. To the best of our knowledge, this is the first systematic study to explore and exploit the robustness and accuracy benefits of (multi-view) code obfuscations in code models. Specifically, we first adopt adversarial codes as robustness-promoting views in CL at the self-supervised pre-training phase. This yields improved robustness and transferability for downstream tasks. Next, at the supervised fine-tuning stage, we show that adversarial training with a proper temporally-staggered schedule of adversarial code generation can further improve robustness and accuracy of the pre-trained code model. Built on the above two modules, we develop CLAWSAT, a novel self-supervised learning (SSL) framework for code by integrating $\underline{\textrm{CL}}$ with $\underline{\textrm{a}}$dversarial vie$\underline{\textrm{w}}$s (CLAW) with $\underline{\textrm{s}}$taggered $\underline{\textrm{a}}$dversarial $\underline{\textrm{t}}$raining (SAT). On evaluating three downstream tasks across Python and Java, we show that CLAWSAT consistently yields the best robustness and accuracy ($\textit{e.g.}$ 11$\%$ in robustness and 6$\%$ in accuracy on the code summarization task in Python). We additionally demonstrate the effectiveness of adversarial learning in CLAW by analyzing the characteristics of the loss landscape and interpretability of the pre-trained models.
翻訳日:2022-11-23 16:24:36 公開日:2022-11-22
# 物語情報と物語の蒸留について

On Narrative Information and the Distillation of Stories ( http://arxiv.org/abs/2211.12423v1 )

ライセンス: Link先を確認
Dylan R. Ashley, Vincent Herrmann, Zachary Friggstad, J\"urgen Schmidhuber(参考訳) 物語を語る行為は、それが人間であることの基本的な部分である。 本稿では,物語情報の概念を紹介し,物語を構成する要素とストーリー間の情報空間の重なりを規定する。 対照的な学習手法を用いて、現代のニューラルネットワークを用いて物語を蒸留し、物語情報の表現を抽出する方法を示す。 次に、進化的アルゴリズムがこれを利用して一連の物語テンプレートを抽出し、これらのテンプレートが、私たちが導入した新しい曲線フィッティングアルゴリズムと組み合わせて、音楽アルバムを並べ替えて、それらのストーリーを自動的に誘導する方法をデモする。 その過程で、これらの物語情報テンプレートが既存のアルバムに存在しているという強い統計的証拠を与える。 ここでは音楽アルバムのみを実験していますが、私たちの作品の前提は、(ほぼ)独立したメディアのあらゆる形態にまで広がっています。

The act of telling stories is a fundamental part of what it means to be human. This work introduces the concept of narrative information, which we define to be the overlap in information space between a story and the items that compose the story. Using contrastive learning methods, we show how modern artificial neural networks can be leveraged to distill stories and extract a representation of the narrative information. We then demonstrate how evolutionary algorithms can leverage this to extract a set of narrative templates and how these templates -- in tandem with a novel curve-fitting algorithm we introduce -- can reorder music albums to automatically induce stories in them. In the process of doing so, we give strong statistical evidence that these narrative information templates are present in existing albums. While we experiment only with music albums here, the premises of our work extend to any form of (largely) independent media.
翻訳日:2022-11-23 16:23:49 公開日:2022-11-22
# 視覚的に接地したコモンセンス知識獲得

Visually Grounded Commonsense Knowledge Acquisition ( http://arxiv.org/abs/2211.12054v1 )

ライセンス: Link先を確認
Yuan Yao, Tianyu Yu, Ao Zhang, Mengdi Li, Ruobing Xie, Cornelius Weber, Zhiyuan Liu, Haitao Zheng, Stefan Wermter, Tat-Seng Chua, Maosong Sun(参考訳) 大規模なコモンセンス知識ベースは、コモンセンス知識の自動抽出(CKE)が基本的で困難な問題である幅広いAIアプリケーションを促進する。 テキストからのCKEは、テキスト内のコモンセンスの本質的な疎さと報告バイアスに悩まされていることで知られている。 一方、視覚知覚には、現実世界のエンティティ(人、can_hold、 bottle)に関する豊富なコモンセンス知識が含まれており、基礎となるコモンセンス知識を取得するための有望な情報源となる。 本稿では,ckeを遠方の教師付きマルチインスタンス学習問題として定式化し,モデルが画像インスタンスに人間のアノテーションを使わずにエンティティペアに関するイメージの袋から常識関係を要約する手法を提案する。 この問題に対処するために、CLEVERは、バッグ内の各画像の深い理解に視覚言語事前学習モデルを活用し、バッグから情報的インスタンスを選択して、新しいコントラスト的注意機構を通じて常識的エンティティ関係を要約する。 CLEVERは有望な品質でコモンセンスの知識を抽出し,3.9AUCと6.4mAUCで事前学習した言語モデルに基づく手法より優れていることを示す。 予測されたコモンセンススコアは、0.78のスピアマン係数を持つ人間の判断と強い相関を示す。 さらに、抽出したコモンセンスを合理的な解釈性のある画像にグラウンド化することもできる。 データとコードはhttps://github.com/thunlp/CLEVERで取得できる。

Large-scale commonsense knowledge bases empower a broad range of AI applications, where the automatic extraction of commonsense knowledge (CKE) is a fundamental and challenging problem. CKE from text is known for suffering from the inherent sparsity and reporting bias of commonsense in text. Visual perception, on the other hand, contains rich commonsense knowledge about real-world entities, e.g., (person, can_hold, bottle), which can serve as promising sources for acquiring grounded commonsense knowledge. In this work, we present CLEVER, which formulates CKE as a distantly supervised multi-instance learning problem, where models learn to summarize commonsense relations from a bag of images about an entity pair without any human annotation on image instances. To address the problem, CLEVER leverages vision-language pre-training models for deep understanding of each image in the bag, and selects informative instances from the bag to summarize commonsense entity relations via a novel contrastive attention mechanism. Comprehensive experimental results in held-out and human evaluation show that CLEVER can extract commonsense knowledge in promising quality, outperforming pre-trained language model-based methods by 3.9 AUC and 6.4 mAUC points. The predicted commonsense scores show strong correlation with human judgment with a 0.78 Spearman coefficient. Moreover, the extracted commonsense can also be grounded into images with reasonable interpretability. The data and codes can be obtained at https://github.com/thunlp/CLEVER.
翻訳日:2022-11-23 16:23:16 公開日:2022-11-22
# 帰納的関係予測のためのクラスタサンプリングによる関係依存型コントラスト学習

Relation-dependent Contrastive Learning with Cluster Sampling for Inductive Relation Prediction ( http://arxiv.org/abs/2211.12266v1 )

ライセンス: Link先を確認
Jianfeng Wu, Sijie Mai, Haifeng Hu(参考訳) 関係予測は、エンティティ間の欠落関係を予測することを目的とした、知識グラフ補完のために設計されたタスクである。 帰納的関係予測のための近年のサブグラフベースモデルに注目が集まっており、候補三重項を取り巻く抽出されたサブグラフに基づいて、未知の実体の関係を予測できる。 しかし、不明瞭な関係を予測できないため、完全に帰納的ではない。 さらに、パラメータ化された関係埋め込みを学習するモデルにのみ依存するため、関係の役割に十分な注意を払わないため、長い尾関係の予測が不正確になる。 本稿では,相関学習をクラスタリングアルゴリズムに基づく新しいサンプリング法に適応させた帰納的関係予測のための関係依存的コントラスト学習(recole)を提案する。 ReCoLeは関係の埋め込みを直接学習する代わりに、学習済みのGNNベースのエンコーダを各関係に割り当て、関係の影響を強化する。 GNNベースのエンコーダはコントラスト学習によって最適化され、ロングテール関係における良好な性能が保証される。 さらに、クラスタサンプリング手法はReCoLeに、目に見えない関係とエンティティの両方を扱う能力を備えている。 実験の結果、recoleは一般的に使用されるインダクティブデータセットで最先端のメソッドよりも優れていることが示唆された。

Relation prediction is a task designed for knowledge graph completion which aims to predict missing relationships between entities. Recent subgraph-based models for inductive relation prediction have received increasing attention, which can predict relation for unseen entities based on the extracted subgraph surrounding the candidate triplet. However, they are not completely inductive because of their disability of predicting unseen relations. Moreover, they fail to pay sufficient attention to the role of relation as they only depend on the model to learn parameterized relation embedding, which leads to inaccurate prediction on long-tail relations. In this paper, we introduce Relation-dependent Contrastive Learning (ReCoLe) for inductive relation prediction, which adapts contrastive learning with a novel sampling method based on clustering algorithm to enhance the role of relation and improve the generalization ability to unseen relations. Instead of directly learning embedding for relations, ReCoLe allocates a pre-trained GNN-based encoder to each relation to strengthen the influence of relation. The GNN-based encoder is optimized by contrastive learning, which ensures satisfactory performance on long-tail relations. In addition, the cluster sampling method equips ReCoLe with the ability to handle both unseen relations and entities. Experimental results suggest that ReCoLe outperforms state-of-the-art methods on commonly used inductive datasets.
翻訳日:2022-11-23 16:22:51 公開日:2022-11-22
# 形状感劣化型連続学習のロバスト性, 一般化, 予測について

On the Robustness, Generalization, and Forgetting of Shape-Texture Debiased Continual Learning ( http://arxiv.org/abs/2211.11174v2 )

ライセンス: Link先を確認
Zenglin Shi, Ying Sun, Joo Hwee Lim, Mengmi Zhang(参考訳) ニューラルネットワークの破滅的な忘れ問題に対処することによって、新しいタスクを学ぶ際に、古いタスクの優れたパフォーマンスを維持するための継続的な学習が進歩している。 本稿では,分布シフト(データ破損やドメインシフトなど)に対する継続的に訓練されたモデルの脆弱性に対応して,分布のロバスト性をさらに考慮し,連続学習を進化させる。 そこで,この目的のために,形文不偏連続学習を提案する。 鍵となるアイデアは、各タスクの一般化とロバストな表現を、シェイプテキストのデバイアストレーニングで学習することだ。 本研究では,標準連続学習を形状・テクスチュア・デバイアスド連続学習に変換するために,形状・テクスチュア・デバイアスドデータ生成とオンライン形状・テクスチュア・デバイアスド自己蒸留を提案する。 6つのデータセットの実験では、一般化とロバスト性の改善、および忘れの低減に対するアプローチの利点が示されている。 損失景観の平坦性に関する我々の分析は、その利点を説明する。 さらに,視覚トランスフォーマーなどの新たな高度なアーキテクチャと容易に組み合わせることができ,exemplar-free continual learningのようなより困難なシナリオにも適用できる。

Tremendous progress has been made in continual learning to maintain good performance on old tasks when learning new tasks by tackling the catastrophic forgetting problem of neural networks. This paper advances continual learning by further considering its out-of-distribution robustness, in response to the vulnerability of continually trained models to distribution shifts (e.g., due to data corruptions and domain shifts) in inference. To this end, we propose shape-texture debiased continual learning. The key idea is to learn generalizable and robust representations for each task with shape-texture debiased training. In order to transform standard continual learning to shape-texture debiased continual learning, we propose shape-texture debiased data generation and online shape-texture debiased self-distillation. Experiments on six datasets demonstrate the benefits of our approach in improving generalization and robustness, as well as reducing forgetting. Our analysis on the flatness of the loss landscape explains the advantages. Moreover, our approach can be easily combined with new advanced architectures such as vision transformer, and applied to more challenging scenarios such as exemplar-free continual learning.
翻訳日:2022-11-23 16:16:51 公開日:2022-11-22
# SegNeRF: ニューラルラジアンス場を用いた3次元部分分割

SegNeRF: 3D Part Segmentation with Neural Radiance Fields ( http://arxiv.org/abs/2211.11215v2 )

ライセンス: Link先を確認
Jesus Zarzar, Sara Rojas, Silvio Giancola, and Bernard Ghanem(参考訳) ニューラル・ラジアンス・フィールド(NeRF)の最近の進歩は、新規なビュー合成や3次元再構成などの生成タスクにおいて素晴らしいパフォーマンスを誇っている。 ニューラル・ラミアンス・フィールドに基づく手法では,ポーズ画像のみに依存することで,暗黙的に3d世界を表現できる。 しかし、3dパートセグメンテーションのような差別的タスクの領域ではほとんど研究されていない。 本研究では,segnerf:通常の放射場とセマンティクス場を統合したニューラルフィールド表現を提案することで,このギャップを埋めることを試みる。 SegNeRFは、以前の作品から新しいビュー合成と3D再構成を行う能力を継承し、少数の画像から3D部分のセグメンテーションを可能にする。 partnet での広範な実験により,segnerf は被写体に対してさえ,ポーズ画像から幾何学的,外観的,意味的情報を同時予測できることがわかった。 予測セマンティックフィールドにより、SegNeRFは2Dノベルビューセグメンテーションに対して$\textbf{30.30%}$と$\textbf{37.46%}$の平均mIoUを達成でき、3D部分セグメンテーションのために$\textbf{37.46%}$を達成できる。 さらに、SegNeRFは、野生で撮影されたオブジェクトの1つのイメージから、対応する部分のセグメンテーションから明示的な3Dモデルを生成することができる。

Recent advances in Neural Radiance Fields (NeRF) boast impressive performances for generative tasks such as novel view synthesis and 3D reconstruction. Methods based on neural radiance fields are able to represent the 3D world implicitly by relying exclusively on posed images. Yet, they have seldom been explored in the realm of discriminative tasks such as 3D part segmentation. In this work, we attempt to bridge that gap by proposing SegNeRF: a neural field representation that integrates a semantic field along with the usual radiance field. SegNeRF inherits from previous works the ability to perform novel view synthesis and 3D reconstruction, and enables 3D part segmentation from a few images. Our extensive experiments on PartNet show that SegNeRF is capable of simultaneously predicting geometry, appearance, and semantic information from posed images, even for unseen objects. The predicted semantic fields allow SegNeRF to achieve an average mIoU of $\textbf{30.30%}$ for 2D novel view segmentation, and $\textbf{37.46%}$ for 3D part segmentation, boasting competitive performance against point-based methods by using only a few posed images. Additionally, SegNeRF is able to generate an explicit 3D model from a single image of an object taken in the wild, with its corresponding part segmentation.
翻訳日:2022-11-23 16:16:29 公開日:2022-11-22
# STGlow: 歩行者軌道予測のためのデュアルグラフマーを備えたフローベース生成フレームワーク

STGlow: A Flow-based Generative Framework with Dual Graphormer for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2211.11220v2 )

ライセンス: Link先を確認
Rongqin Liang, Yuanman Li, Jiantao Zhou, and Xia Li(参考訳) 歩行者追跡予測タスクはインテリジェントシステムの必須コンポーネントであり、その応用は自動運転、ロボットナビゲーション、監視システムの異常検出に限定されるが、それらに限定されない。 歩行者の行動行動の多様性と複雑な社会的相互作用のため、歩行者の将来の軌跡を正確に予測することは困難である。 既存のアプローチでは、様々な軌道を生成するためにGANまたはCVAEを採用するのが一般的である。 しかし、GANベースの手法は遅延空間におけるデータを直接モデル化しないため、基礎となるデータ分布に対する完全なサポートが得られず、CVAEベースの手法は、ログのような観測範囲の低い境界を最適化し、学習された分布を基礎となる分布から逸脱させる。 上記の制限により、既存のアプローチは、しばしば非常に偏りや不自然な軌道を生成する。 本稿では,歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新しい生成フローベースフレームワークを提案する。 従来の手法と異なり,動作動作の正確なログ類似性を最適化することで,より正確なデータ分布をモデル化できる。 さらに,本手法は人間の動作行動の進化をシミュレートする物理的意味をもち,流れの進行過程が徐々に複雑な動作挙動を単純な動作に分解する一方,逆過程は複雑な動作行動への単純な動作の進化を表す。 さらに,時間依存性と相互空間相互作用をより適切にモデル化するために,グラフ構造と組み合わせた双対グラフマーを導入する。 いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。

Pedestrian trajectory prediction task is an essential component of intelligent systems, and its applications include but are not limited to autonomous driving, robot navigation, and anomaly detection of monitoring systems. Due to the diversity of motion behaviors and the complex social interactions among pedestrians, accurately forecasting the future trajectory of pedestrians is challenging. Existing approaches commonly adopt GANs or CVAEs to generate diverse trajectories. However, GAN-based methods do not directly model data in a latent space, which makes them fail to have full support over the underlying data distribution; CVAE-based methods optimize a lower bound on the log-likelihood of observations, causing the learned distribution to deviate from the underlying distribution. The above limitations make existing approaches often generate highly biased or unnatural trajectories. In this paper, we propose a novel generative flow based framework with dual graphormer for pedestrian trajectory prediction (STGlow). Different from previous approaches, our method can more accurately model the underlying data distribution by optimizing the exact log-likelihood of motion behaviors. Besides, our method has clear physical meanings to simulate the evolution of human motion behaviors, where the forward process of the flow gradually degrades the complex motion behavior into a simple behavior, while its reverse process represents the evolution of a simple behavior to the complex motion behavior. Further, we introduce a dual graphormer combining with the graph structure to more adequately model the temporal dependencies and the mutual spatial interactions. Experimental results on several benchmarks demonstrate that our method achieves much better performance compared to previous state-of-the-art approaches.
翻訳日:2022-11-23 16:16:00 公開日:2022-11-22
# 全球オブジェクト中心表現を用いた合成シーンモデリング

Compositional Scene Modeling with Global Object-Centric Representations ( http://arxiv.org/abs/2211.11500v2 )

ライセンス: Link先を確認
Tonglin Chen, Bin Li, Zhimeng Shen and Xiangyang Xue(参考訳) 同じオブジェクトの外観は、視点とオブジェクト間の閉塞により、異なるシーンイメージで変化する可能性がある。 人間は、メモリ内の標準画像に基づいて閉塞された部分を完成させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。 この能力を達成することは、特に教師なしの学習環境下で、機械学習にとって依然として課題である。 このような人間の能力に触発された本研究では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。 各対象の表現は、世界的不変情報(例えば、対象の標準表現)を特徴付ける内在的な部分と、シーンに依存した情報(例えば、位置や大きさ)を特徴付ける外在的な部分とに分けられる。 各オブジェクトの固有表現を推定するために、潜在的な隠蔽対象の表現をオブジェクトの正準表現と整合させるパッチマッチング戦略を採用し、償却変分推論によって決定されるオブジェクトのカテゴリに基づいて最も確率の高い正準表現をサンプリングする。 4つのオブジェクト中心学習ベンチマークを用いて広範な実験を行い,提案手法がセグメンテーションや再構成の面での最先端技術を上回るだけでなく,優れたグローバルオブジェクト識別性能を実現することを実証した。

The appearance of the same object may vary in different scene images due to perspectives and occlusions between objects. Humans can easily identify the same object, even if occlusions exist, by completing the occluded parts based on its canonical image in the memory. Achieving this ability is still a challenge for machine learning, especially under the unsupervised learning setting. Inspired by such an ability of humans, this paper proposes a compositional scene modeling method to infer global representations of canonical images of objects without any supervision. The representation of each object is divided into an intrinsic part, which characterizes globally invariant information (i.e. canonical representation of an object), and an extrinsic part, which characterizes scene-dependent information (e.g., position and size). To infer the intrinsic representation of each object, we employ a patch-matching strategy to align the representation of a potentially occluded object with the canonical representations of objects, and sample the most probable canonical representation based on the category of object determined by amortized variational inference. Extensive experiments are conducted on four object-centric learning benchmarks, and experimental results demonstrate that the proposed method not only outperforms state-of-the-arts in terms of segmentation and reconstruction, but also achieves good global object identification performance.
翻訳日:2022-11-23 16:15:35 公開日:2022-11-22
# NeRF-RPN:NeRFにおける物体検出のための一般的なフレームワーク

NeRF-RPN: A general framework for object detection in NeRFs ( http://arxiv.org/abs/2211.11646v2 )

ライセンス: Link先を確認
Benran Hu, Junkai Huang, Yichen Liu, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,NeRF上で直接動作する最初の重要な物体検出フレームワークであるNeRF-RPNを提案する。 NeRF-RPNは、事前訓練されたNeRFモデルにより、シーン内のすべてのオブジェクトの境界ボックスを検出することを目的としている。 マルチスケールの3次元ニューラルボリューム特徴を組み込んだ新しいボクセル表現を利用することで,NeRF内の物体の3次元境界ボックスを任意の視点でレンダリングすることなく直接回帰できることを実証する。 NeRF-RPNは一般的なフレームワークであり、クラスラベルなしでオブジェクトを検出できる。 我々は、NeRF-RPNを様々なバックボーンアーキテクチャ、RPNヘッド設計、損失関数で実験した。 それらはすべて、エンドツーエンドでトレーニングでき、高品質な3dバウンディングボックスを推定できる。 NeRFのオブジェクト検出の今後の研究を容易にするため、我々は、注意深くラベル付けしてクリーンアップした合成データと実世界のデータの両方からなる新しいベンチマークデータセットを構築した。 NeRF-RPNによる3D領域の提案を視覚化するために、https://youtu.be/M8_4Ih1CJjEをクリックしてください。 コードとデータセットが利用可能になる。

This paper presents the first significant object detection framework, NeRF-RPN, which directly operates on NeRF. Given a pre-trained NeRF model, NeRF-RPN aims to detect all bounding boxes of objects in a scene. By exploiting a novel voxel representation that incorporates multi-scale 3D neural volumetric features, we demonstrate it is possible to regress the 3D bounding boxes of objects in NeRF directly without rendering the NeRF at any viewpoint. NeRF-RPN is a general framework and can be applied to detect objects without class labels. We experimented the NeRF-RPN with various backbone architectures, RPN head designs and loss functions. All of them can be trained in an end-to-end manner to estimate high quality 3D bounding boxes. To facilitate future research in object detection for NeRF, we built a new benchmark dataset which consists of both synthetic and real-world data with careful labeling and clean up. Please click https://youtu.be/M8_4Ih1CJjE for visualizing the 3D region proposals by our NeRF-RPN. Code and dataset will be made available.
翻訳日:2022-11-23 16:15:11 公開日:2022-11-22
# ディープビジョンアルゴリズムの逆ロバスト性に向けて

Towards Adversarial Robustness of Deep Vision Algorithms ( http://arxiv.org/abs/2211.10670v2 )

ライセンス: Link先を確認
Hanshu Yan(参考訳) 深層学習法はコンピュータビジョンタスクの解法において大きな成功を収めており、画像処理、解析、理解のために人工知能システムで広く利用されている。 しかし、深層ニューラルネットワークは入力データにおける敵の摂動に弱いことが示されている。 そのため、ディープニューラルネットワークのセキュリティ問題が前面に浮かび上がっている。 ディープビジョンアルゴリズムの敵対的堅牢性を包括的に研究することが不可欠である。 本講演は,画像分類モデルと画像復調器の対角的堅牢性に焦点を当てた。 深部ビジョンアルゴリズムのロバスト性について3つの視点から論じる。 1)ロバスト性評価(難聴者のロバスト性評価のためのObsAtkを提案する) 2)堅牢性向上(HAT、TisODE、CIFSはビジョンモデルを強化するために開発されている)、 3)新しい領域への可逆的ロバスト性と一般化能力の関係(可逆的ロバストなデノイザーが実世界のノイズに対処できることが分かる)。

Deep learning methods have achieved great success in solving computer vision tasks, and they have been widely utilized in artificially intelligent systems for image processing, analysis, and understanding. However, deep neural networks have been shown to be vulnerable to adversarial perturbations in input data. The security issues of deep neural networks have thus come to the fore. It is imperative to study the adversarial robustness of deep vision algorithms comprehensively. This talk focuses on the adversarial robustness of image classification models and image denoisers. We will discuss the robustness of deep vision algorithms from three perspectives: 1) robustness evaluation (we propose the ObsAtk to evaluate the robustness of denoisers), 2) robustness improvement (HAT, TisODE, and CIFS are developed to robustify vision models), and 3) the connection between adversarial robustness and generalization capability to new domains (we find that adversarially robust denoisers can deal with unseen types of real-world noise).
翻訳日:2022-11-23 16:14:52 公開日:2022-11-22
# 精度ブースター:dnnトレーニングのためのエポック駆動混合マニサブロック浮動小数点

Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for DNN Training ( http://arxiv.org/abs/2211.10737v2 )

ライセンス: Link先を確認
Simla Burcu Harma, Canberk S\"onmez, Babak Falsafi, Martin Jaggi, Yunho Oh(参考訳) DNNモデルの複雑さ、サイズ、トレーニングデータの量に対する前例のない成長は、コンピューティングの需要の増大と最小限のエンコーディングの探索につながった。 近年,HBFP(Hybrid Block Floating-Point)は,演算処理の大部分を8ビット固定点に変換することで,加速器のシリコン供給を最小化する技術として提唱されている。 本稿では,HBFP設計空間を大規模に探索し,最小マンティサ符号化,ブロックサイズの変化,層間およびエポック間の混合マンティサビット幅について検討する。 我々は,6ビットのマンティッサのみを使用するエポック駆動混合マンティッサHBFPであるAccuracy Boostersを提案し,トレーニング中の算術演算の99.7\%を4ビットのマンティッサに変換する。 高精度ブースターは、FP32と比較してHBFPトレーニングアクセラレータのシリコン供給を16.98\times$で削減し、FP32の精度を保留または上回る。

The unprecedented growth in DNN model complexity, size and the amount of training data have led to a commensurate increase in demand for computing and a search for minimal encoding. Recent research advocates Hybrid Block Floating-Point (HBFP) as a technique that minimizes silicon provisioning in accelerators by converting the majority of arithmetic operations in training to 8-bit fixed-point. In this paper, we perform a full-scale exploration of the HBFP design space including minimal mantissa encoding, varying block sizes, and mixed mantissa bit-width across layers and epochs. We propose Accuracy Boosters, an epoch-driven mixed-mantissa HBFP that uses 6-bit mantissa only in the last epoch and converts $99.7\%$ of all arithmetic operations in training to 4-bit mantissas. Accuracy Boosters enable reducing silicon provisioning for an HBFP training accelerator by $16.98\times$ as compared to FP32, while preserving or outperforming FP32 accuracy.
翻訳日:2022-11-23 16:14:39 公開日:2022-11-22
# CoPEM:自動運転のための協調知覚誤差モデル

CoPEM: Cooperative Perception Error Models for Autonomous Driving ( http://arxiv.org/abs/2211.11175v2 )

ライセンス: Link先を確認
Andrea Piazzoni, Jim Cherian, Roshan Vijay, Lap-Pui Chau, Justin Dauwels(参考訳) 本稿では,仮想テスト環境におけるV2Xソリューションの効果的かつ効率的な統合を実現するための協調知覚誤りモデル(coPEM)の概念を紹介する。 我々は,(車載)自律車両知覚(av)におけるオクルージョン問題に焦点をあて,オクルード対象物に対する誤検出誤差を顕示する。 車両間コミュニケーション(V2X)に基づく協調認識(CP)ソリューションは,AVを取り巻く世界の新たな視点を活用することで,このような問題を回避することを目的としている。 このアプローチでは、主にカメラとLiDARを含む多くのセンサーを、道路インフラストラクチャーまたは他の交通車両の一部として環境に同時に配置する必要がある。 しかし、仮想シミュレーションパイプラインに多数のセンサーモデルを実装することは、しばしば計算コストを禁ずる。 そこで本稿では,知覚誤りモデル(PEM)を拡張して,そのような協調認識ソリューションを効率よく実装し,それらに関連する誤りや不確実性に対処する。 AVが達成可能な安全性を、衝突の主原因となる交通事故シナリオと比較することにより、そのアプローチを実証する。

In this paper, we introduce the notion of Cooperative Perception Error Models (coPEMs) towards achieving an effective and efficient integration of V2X solutions within a virtual test environment. We focus our analysis on the occlusion problem in the (onboard) perception of Autonomous Vehicles (AV), which can manifest as misdetection errors on the occluded objects. Cooperative perception (CP) solutions based on Vehicle-to-Everything (V2X) communications aim to avoid such issues by cooperatively leveraging additional points of view for the world around the AV. This approach usually requires many sensors, mainly cameras and LiDARs, to be deployed simultaneously in the environment either as part of the road infrastructure or on other traffic vehicles. However, implementing a large number of sensor models in a virtual simulation pipeline is often prohibitively computationally expensive. Therefore, in this paper, we rely on extending Perception Error Models (PEMs) to efficiently implement such cooperative perception solutions along with the errors and uncertainties associated with them. We demonstrate the approach by comparing the safety achievable by an AV challenged with a traffic scenario where occlusion is the primary cause of a potential collision.
翻訳日:2022-11-23 16:14:20 公開日:2022-11-22
# ストリーミングエンドツーエンドasrのための逐次サンプリングチャンクコンフォメータ

Sequentially Sampled Chunk Conformer for Streaming End-to-End ASR ( http://arxiv.org/abs/2211.11419v2 )

ライセンス: Link先を確認
Fangyuan Wang, Xiyuan Wang, Bo Xu(参考訳) 本稿では,End-to-End (E2E) ASR ストリーミングのための逐次サンプリング型チャンクコンバータ SSC-Conformer について詳細に検討する。 ssc-conformerは、並列エンコーダにおけるチャンクワイズマルチヘッドセルフアテンション(ssc-mhsa)の逐次サンプリングにより、線形複素性を維持しつつ効率的なクロスチャンク相互作用を実現することにより、大幅な性能向上を実現する。 さらに、チャンクド畳み込みを利用してチャンク回りの将来のコンテキストを利用し、畳み込み層のカジュアル畳み込みと統合することで、cerをさらに削減する。 提案するssc-conformerをaishell-1ベンチマークで検証し,実験結果から,ストリーミングe2e asrの最先端性能はlmリコーリングを伴わないcer 5.33%で達成できることを確認した。 また、線形複雑性のため、SC-Conformerは大きなバッチサイズでトレーニングでき、より効率的に推論できる。

This paper presents an in-depth study on a Sequentially Sampled Chunk Conformer, SSC-Conformer, for streaming End-to-End (E2E) ASR. The SSC-Conformer first demonstrates the significant performance gains from using the sequentially sampled chunk-wise multi-head self-attention (SSC-MHSA) in the Conformer encoder by allowing efficient cross-chunk interactions while keeping linear complexities. Furthermore, it explores taking advantage of chunked convolution to make use of the chunk-wise future context and integrates with casual convolution in the convolution layers to further reduce CER. We verify the proposed SSC-Conformer on the AISHELL-1 benchmark and experimental results show that a state-of-the-art performance for streaming E2E ASR is achieved with CER 5.33% without LM rescoring. And, owing to its linear complexity, the SSC-Conformer can train with large batch sizes and infer more efficiently.
翻訳日:2022-11-23 16:14:02 公開日:2022-11-22
# ECM-OPCC:Octree-based Point Cloud Compressionのための効率的なコンテキストモデル

ECM-OPCC: Efficient Context Model for Octree-based Point Cloud Compression ( http://arxiv.org/abs/2211.10916v2 )

ライセンス: Link先を確認
Yiqi Jin and Ziyu Zhu and Tongda Xu and Yuhuan Lin and Yan Wang(参考訳) 近年,ディープラーニング手法がポイントクラウド圧縮に有望な結果をもたらしている。 octreeベースのポイントクラウド圧縮では、前回の研究では、祖先ノードと兄弟ノードの情報も現在のノードを予測するのに等しく重要であることが示されている。 しかし、これらの作業は、不十分な文脈を採用するか、耐え難いデコード複雑性をもたらす(例:600s)。 この問題に対処するため,我々は十分かつ効率的なコンテキストモデルを提案し,ポイントクラウドのための効率的なディープラーニングコーデックを設計する。 具体的には,まず,デコード効率を維持しつつ自己回帰的コンテキストを利用するためのウィンドウ制約付きマルチグループ符号化戦略を提案する。 そこで本研究では,現在のノードを祖先と兄弟に依存させる2重変圧器アーキテクチャを提案する。 また,モデル強化のためのランダムマスキングプリトレイン法を提案する。 実験結果から, 損失点圧縮と損失点圧縮の両面において, 最先端の性能を実現することができた。 さらに, 従来のオクツリー圧縮法と比較して, 符号化時間を98%削減した。

Recently, deep learning methods have shown promising results in point cloud compression. For octree-based point cloud compression, previous works show that the information of ancestor nodes and sibling nodes are equally important for predicting current node. However, those works either adopt insufficient context or bring intolerable decoding complexity (e.g. >600s). To address this problem, we propose a sufficient yet efficient context model and design an efficient deep learning codec for point clouds. Specifically, we first propose a window-constrained multi-group coding strategy to exploit the autoregressive context while maintaining decoding efficiency. Then, we propose a dual transformer architecture to utilize the dependency of current node on its ancestors and siblings. We also propose a random-masking pre-train method to enhance our model. Experimental results show that our approach achieves state-of-the-art performance for both lossy and lossless point cloud compression. Moreover, our multi-group coding strategy saves 98% decoding time compared with previous octree-based compression method.
翻訳日:2022-11-23 16:13:38 公開日:2022-11-22
# マルチモーダル対話における理解を高めるための(皮肉な)発話

Explaining (Sarcastic) Utterances to Enhance Affect Understanding in Multimodal Dialogues ( http://arxiv.org/abs/2211.11049v2 )

ライセンス: Link先を確認
Shivani Kumar, Ishani Mondal, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) アイデアと概念を交換する主要なメディアとして会話が出現する。 聴取者の視点からは, 発声の真の意味を理解する上で, サルカズム, ユーモア, 感情など, 様々な感情的特徴を識別することが最重要である。 しかし、これらの次元に影響を与えることを学ぶ上で直面する大きなハードルの1つは、比喩的言語、虚構、比喩、皮肉の存在である。 発声された発話の徹底的かつ明示的な提示を構成する検出システムは、対話全体の理解を改善すると仮定した。 そこで我々は,皮肉な発話の背後にある隠れた皮肉を解き明かすことを目的として,Sarcasm Explanation in Dialoguesの課題を探求する。 本研究では,マルチモーダル(サーシスティック)対話インスタンスを入力として,自然言語文をその説明として生成するディープニューラルネットワークであるmosesを提案する。 その後,サルカム検出,ユーモア識別,感情認識などの会話対話設定において,様々な自然言語理解タスクに対して生成した説明を活用する。 MOSESは,ROUGE,BLEU,METEORなどの異なる評価指標において,SEDの最先端システムよりも平均約2%優れていた。 さらに, 生成した説明の活用は, 影響分類のための3つの下流課題 – サーカズム検出タスクでは平均14% f1-score, ユーモア識別および感情認識タスクでは約2%の改善 – を前進させる。 また,結果の質を評価するため,広範な分析を行った。

Conversations emerge as the primary media for exchanging ideas and conceptions. From the listener's perspective, identifying various affective qualities, such as sarcasm, humour, and emotions, is paramount for comprehending the true connotation of the emitted utterance. However, one of the major hurdles faced in learning these affect dimensions is the presence of figurative language, viz. irony, metaphor, or sarcasm. We hypothesize that any detection system constituting the exhaustive and explicit presentation of the emitted utterance would improve the overall comprehension of the dialogue. To this end, we explore the task of Sarcasm Explanation in Dialogues, which aims to unfold the hidden irony behind sarcastic utterances. We propose MOSES, a deep neural network, which takes a multimodal (sarcastic) dialogue instance as an input and generates a natural language sentence as its explanation. Subsequently, we leverage the generated explanation for various natural language understanding tasks in a conversational dialogue setup, such as sarcasm detection, humour identification, and emotion recognition. Our evaluation shows that MOSES outperforms the state-of-the-art system for SED by an average of ~2% on different evaluation metrics, such as ROUGE, BLEU, and METEOR. Further, we observe that leveraging the generated explanation advances three downstream tasks for affect classification - an average improvement of ~14% F1-score in the sarcasm detection task and ~2% in the humour identification and emotion recognition task. We also perform extensive analyses to assess the quality of the results.
翻訳日:2022-11-23 16:08:33 公開日:2022-11-22
# マルチタスク視覚言語プロンプトチューニング

Multitask Vision-Language Prompt Tuning ( http://arxiv.org/abs/2211.11720v2 )

ライセンス: Link先を確認
Sheng Shen, Shijia Yang, Tianjun Zhang, Bohan Zhai, Joseph E. Gonzalez, Kurt Keutzer, Trevor Darrell(参考訳) タスク固有の学習プロンプトベクトルの条件付けであるPrompt Tuningは、大規模な事前学習された視覚言語モデルを複数の下流タスクに適用するためのデータ効率とパラメータ効率の手法として登場した。 しかし、既存のアプローチでは、スクラッチとは独立して各タスクのプロンプトベクトルを学習することを検討しており、異なるビジョン言語タスク間で共有可能な豊富な知識を活用できていない。 本稿では,視覚言語モデルのプロンプトチューニングにクロスタスク知識を組み込んだマルチタスク視覚言語プロンプトチューニング(mvlpt)を提案する。 具体的には (i)複数のソースタスクから単一の転送可能なプロンプトを学習し、対象タスクごとにプロンプトを初期化する効果を示す。 (ii)プロンプトベクトルを共有することで,複数の対象タスクが相互に利益を享受し,マルチタスクプロンプトチューニングによって協調的に学習できることを示す。 提案するMVLPTを,テキストプロンプトチューニング,視覚プロンプトチューニング,統合視覚言語プロンプトチューニングという3つの代表的プロンプトチューニング手法を用いてベンチマークする。 20のビジョンタスクの結果、提案手法は全単一タスクベースラインのプロンプトチューニング手法より優れており、数ショットのELEVATERベンチマークとクロスタスクの一般化ベンチマークで新しい最先端の設定を行う。 クロスタスクの知識が最も効果的である場所を理解するため、プロンプトチューニング法ごとに20個のビジョンタスクを400個の組み合わせて、タスク転送可能性に関する大規模研究を行う。 その結果,各プロンプトチューニング手法において最も優れたMVLPTは異なるタスクの組み合わせを好んでおり,視覚的類似性やラベルの類似性によって多くのタスクが互いに有利であることがわかった。 コードはhttps://github.com/sIncerass/MVLPTで入手できる。

Prompt Tuning, conditioning on task-specific learned prompt vectors, has emerged as a data-efficient and parameter-efficient method for adapting large pretrained vision-language models to multiple downstream tasks. However, existing approaches usually consider learning prompt vectors for each task independently from scratch, thereby failing to exploit the rich shareable knowledge across different vision-language tasks. In this paper, we propose multitask vision-language prompt tuning (MVLPT), which incorporates cross-task knowledge into prompt tuning for vision-language models. Specifically, (i) we demonstrate the effectiveness of learning a single transferable prompt from multiple source tasks to initialize the prompt for each target task; (ii) we show many target tasks can benefit each other from sharing prompt vectors and thus can be jointly learned via multitask prompt tuning. We benchmark the proposed MVLPT using three representative prompt tuning methods, namely text prompt tuning, visual prompt tuning, and the unified vision-language prompt tuning. Results in 20 vision tasks demonstrate that the proposed approach outperforms all single-task baseline prompt tuning methods, setting the new state-of-the-art on the few-shot ELEVATER benchmarks and cross-task generalization benchmarks. To understand where the cross-task knowledge is most effective, we also conduct a large-scale study on task transferability with 20 vision tasks in 400 combinations for each prompt tuning method. It shows that the most performant MVLPT for each prompt tuning method prefers different task combinations and many tasks can benefit each other, depending on their visual similarity and label similarity. Code is available at https://github.com/sIncerass/MVLPT.
翻訳日:2022-11-23 16:08:05 公開日:2022-11-22
# ベイズ一般化の複雑さについて

On the Complexity of Bayesian Generalization ( http://arxiv.org/abs/2211.11033v2 )

ライセンス: Link先を確認
Yu-Zhe Shi, Manjie Xu, John E. Hopcroft, Kun He, Joshua B. Tenenbaum, Song-Chun Zhu, Ying Nian Wu, Wenjuan Han, Yixin Zhu(参考訳) 我々は、多様かつ自然な視覚スペクトルにおいて、概念一般化を大規模に考える。 確立された計算モード(すなわち規則ベースまたは類似性ベース)は、主に孤立的に研究され、限定的および抽象的な問題空間に焦点を当てている。 本研究では,これらの2つのモードを,問題空間のスケールアップ時に検討し,概念の複雑さ$$が多様になる。 具体的には、$representational \ level$で、視覚的概念が表現空間にマッピングされたときに複雑さがどのように変化するかを答えようとしている。 先行心理学文献では、2種類の複雑性(主観的複雑性と視覚的複雑さ)(griffiths and tenenbaum, 2003)が逆u関係(donderi, 2006; sun and firestone, 2021)を築いていることが示されている。 モデルでは視覚的概念を記述するために高いRoAの属性を使用し、記述長は視覚的複雑性の増大と逆U関係に該当する。 例えば$computational \ level$ では、表現の複雑さが規則と類似性に基づく一般化のシフトにどのように影響するかを問う。 カテゴリー条件付きビジュアルモデリングは、視覚属性とカテゴリー属性の共起頻度を推定するので、自然視覚の世界の前兆となる可能性があると仮定する。 実験結果から,相対的主観的複雑性の表現は規則に基づく一般化において比較的低い主観的複雑性の表現よりも優れており,その傾向は類似性に基づく一般化では逆であることがわかった。

We consider concept generalization at a large scale in the diverse and natural visual spectrum. Established computational modes (i.e., rule-based or similarity-based) are primarily studied isolated and focus on confined and abstract problem spaces. In this work, we study these two modes when the problem space scales up, and the $complexity$ of concepts becomes diverse. Specifically, at the $representational \ level$, we seek to answer how the complexity varies when a visual concept is mapped to the representation space. Prior psychology literature has shown that two types of complexities (i.e., subjective complexity and visual complexity) (Griffiths and Tenenbaum, 2003) build an inverted-U relation (Donderi, 2006; Sun and Firestone, 2021). Leveraging Representativeness of Attribute (RoA), we computationally confirm the following observation: Models use attributes with high RoA to describe visual concepts, and the description length falls in an inverted-U relation with the increment in visual complexity. At the $computational \ level$, we aim to answer how the complexity of representation affects the shift between the rule- and similarity-based generalization. We hypothesize that category-conditioned visual modeling estimates the co-occurrence frequency between visual and categorical attributes, thus potentially serving as the prior for the natural visual world. Experimental results show that representations with relatively high subjective complexity outperform those with relatively low subjective complexity in the rule-based generalization, while the trend is the opposite in the similarity-based generalization.
翻訳日:2022-11-23 16:07:31 公開日:2022-11-22
# L3Cube-MahaSBERT と HindSBERT:Hindi と Marathi のための文 BERT モデルとベンチマーク BERT 文表現

L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi ( http://arxiv.org/abs/2211.11187v2 )

ライセンス: Link先を確認
Ananya Joshi, Aditi Kajale, Janhavi Gadre, Samruddhi Deode, Raviraj Joshi(参考訳) バニラBERTモデルからの文表現は文類似性タスクではうまく機能しない。 STSまたはNLIデータセットで特別にトレーニングされた文-BERTモデルは、最先端のパフォーマンスを提供する。 しかし、これらの特殊なデータセットがないため、低リソース言語向けにこれらのモデルを構築するのは簡単ではない。 この研究はヒンディー語とマラティ語という2つの低資源インド語に焦点をあてている。 機械翻訳を用いて合成nliとstsデータセットを用いてこれらの言語の文型モデルを訓練する。 nli事前学習とstsb微調整の戦略は,ヒンディー語とマラティ語の高性能文相似性モデルの生成に有効であることを示した。 この単純な戦略を用いて訓練されたバニラBERTモデルは、複雑な訓練戦略を用いて訓練された多言語LaBSEよりも優れていた。 これらのモデルは、下流のテキスト分類と類似性タスクで評価される。 これらのモデルを実テキスト分類データセット上で評価することにより、合成データトレーニングから得られた埋め込みが実際のデータセットに一般化可能であることを示し、低リソース言語に対する効果的なトレーニング戦略を示す。 また、高速テキストモデル、多言語BERTモデル(mBERT, IndicBERT, xlm-RoBERTa, MuRIL)、多言語文埋め込みモデル(LASER, LaBSE)、L3Cube-MahaBERTとHindBERTに基づく単言語BERTモデルの比較分析を行った。 本稿では,Marathi と Hindi の最先端文-BERT モデルである L3Cube-MahaSBERT と HindSBERT をそれぞれリリースする。 私たちの作品は、低リソースの文埋め込みモデルを構築するためのガイドとしても役立ちます。

Sentence representation from vanilla BERT models does not work well on sentence similarity tasks. Sentence-BERT models specifically trained on STS or NLI datasets are shown to provide state-of-the-art performance. However, building these models for low-resource languages is not straightforward due to the lack of these specialized datasets. This work focuses on two low-resource Indian languages, Hindi and Marathi. We train sentence-BERT models for these languages using synthetic NLI and STS datasets prepared using machine translation. We show that the strategy of NLI pre-training followed by STSb fine-tuning is effective in generating high-performance sentence-similarity models for Hindi and Marathi. The vanilla BERT models trained using this simple strategy outperform the multilingual LaBSE trained using a complex training strategy. These models are evaluated on downstream text classification and similarity tasks. We evaluate these models on real text classification datasets to show embeddings obtained from synthetic data training are generalizable to real datasets as well and thus represent an effective training strategy for low-resource languages. We also provide a comparative analysis of sentence embeddings from fast text models, multilingual BERT models (mBERT, IndicBERT, xlm-RoBERTa, MuRIL), multilingual sentence embedding models (LASER, LaBSE), and monolingual BERT models based on L3Cube-MahaBERT and HindBERT. We release L3Cube-MahaSBERT and HindSBERT, the state-of-the-art sentence-BERT models for Marathi and Hindi respectively. Our work also serves as a guide to building low-resource sentence embedding models.
翻訳日:2022-11-23 16:07:01 公開日:2022-11-22
# 畳み込みガウスニューラルプロセスを用いた環境センサ配置のためのアクティブラーニング

Active Learning with Convolutional Gaussian Neural Processes for Environmental Sensor Placement ( http://arxiv.org/abs/2211.10381v2 )

ライセンス: Link先を確認
Tom R. Andersson, Wessel P. Bruinsma, Stratis Markou, James Requeima, Alejandro Coca-Castro, Anna Vaughan, Anna-Louise Ellis, Matthew Lazzara, Daniel C. Jones, J. Scott Hosking, Richard E. Turner(参考訳) 環境測定ステーションの展開は、特に南極のようなアクセスが難しい遠隔地において、コストと時間がかかる作業である。 したがって、センサを可能な限り効率的に配置することが重要であり、測定のインフォメーション性を最大化する。 これは、確率モデルを既存のデータに適合させ、モデルの不確かさを最大に減少させる配置を特定することで対処できる。 この目的のために最も広く使用されるモデルはガウス過程(GP)である。 しかし,非定常時空間データの複雑な挙動を捉えるgp共分散の設計は難しい課題である。 さらに、GPの計算コストは、大規模な環境データセットにスケールすることを困難にしている。 本研究では,畳み込み型ガウスニューラルプロセス(ConvGNP)を用いてこれらの問題に対処する。 ConvGNPは、ニューラルネットワークを使用してGP予測をパラメータ化するメタ学習モデルである。 私たちのモデルはデータ駆動、フレキシブル、効率的であり、グリッド化または分散したモダリティの複数の入力予測を可能としています。 南極上空の模擬表面温度場を地中事実として,ConvGNPは予測性能において非定常GPベースラインを著しく上回っていることを示す。 次に、南極センサー設置玩具実験でconvgnpを使用し、有望な結果を得る。

Deploying environmental measurement stations can be a costly and time-consuming procedure, especially in remote regions that are difficult to access, such as Antarctica. Therefore, it is crucial that sensors are placed as efficiently as possible, maximising the informativeness of their measurements. This can be tackled by fitting a probabilistic model to existing data and identifying placements that would maximally reduce the model's uncertainty. The models most widely used for this purpose are Gaussian processes (GPs). However, designing a GP covariance which captures the complex behaviour of non-stationary spatiotemporal data is a difficult task. Further, the computational cost of GPs makes them challenging to scale to large environmental datasets. In this work, we explore using a convolutional Gaussian neural process (ConvGNP) to address these issues. A ConvGNP is a meta-learning model that uses neural networks to parameterise a GP predictive. Our model is data-driven, flexible, efficient, and permits multiple input predictors of gridded or scattered modalities. Using simulated surface air temperature fields over Antarctica as ground truth, we show that a ConvGNP significantly outperforms a non-stationary GP baseline in terms of predictive performance. We then use the ConvGNP in an Antarctic sensor placement toy experiment, yielding promising results.
翻訳日:2022-11-23 16:06:32 公開日:2022-11-22
# 自動コピー/ペースト攻撃によるディープニューラルネットワークの診断

Diagnostics for Deep Neural Networks with Automated Copy/Paste Attacks ( http://arxiv.org/abs/2211.10024v2 )

ライセンス: Link先を確認
Stephen Casper, Kaivalya Hariharan, Dylan Hadfield-Menell(参考訳) ディープニューラルネットワーク(DNN)は強力だが、重大なリスクをもたらすミスを犯す可能性がある。 テストセットでうまく機能するモデルは、デプロイメントの安全性を暗示しないため、欠陥を理解するための追加ツールを持つことが重要である。 敵対的な例は弱点を明らかにするのに役立つが、人間が一般化可能で行動可能な結論を導き出すことはしばしば困難である。 以前のいくつかの研究は、人間による解釈可能な攻撃を研究することでこの問題に対処した。 これらを3つのコントリビューションで構築しています。 まず,Natural Adversarial Features Using Embeddings (SNAFUE) と呼ばれる手法を導入し,非関係な誤分類を誘発するために,ある自然な画像を別の場所に貼り付ける「コピー/ペースト」攻撃を完全自動で検出する手法を提案する。 次に、ImageNet分類器をレッドチーム化して、簡単に記述可能な何百もの脆弱性を特定します。 第三に、この手法をトロヤ群を再発見しようとする他の解釈可能性ツールと比較する。 以上の結果から,SNAFUEはDNNの解釈や逆データ生成に有用であることが示唆された。 コードはhttps://github.com/thestephencasper/snafueで入手できる。

Deep neural networks (DNNs) are powerful, but they can make mistakes that pose significant risks. A model performing well on a test set does not imply safety in deployment, so it is important to have additional tools to understand its flaws. Adversarial examples can help reveal weaknesses, but they are often difficult for a human to interpret or draw generalizable, actionable conclusions from. Some previous works have addressed this by studying human-interpretable attacks. We build on these with three contributions. First, we introduce a method termed Search for Natural Adversarial Features Using Embeddings (SNAFUE) which offers a fully-automated method for finding "copy/paste" attacks in which one natural image can be pasted into another in order to induce an unrelated misclassification. Second, we use this to red team an ImageNet classifier and identify hundreds of easily-describable sets of vulnerabilities. Third, we compare this approach with other interpretability tools by attempting to rediscover trojans. Our results suggest that SNAFUE can be useful for interpreting DNNs and generating adversarial data for them. Code is available at https://github.com/thestephencasper/snafue
翻訳日:2022-11-23 16:06:10 公開日:2022-11-22
# 視覚言語モデルを用いた指導強化によるロボットスキル獲得

Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models ( http://arxiv.org/abs/2211.11736v2 )

ライセンス: Link先を確認
Ted Xiao and Harris Chan and Pierre Sermanet and Ayzaan Wahid and Anthony Brohan and Karol Hausman and Sergey Levine and Jonathan Tompson(参考訳) 近年、自然言語の指示に従うロボット操作ポリシーの学習において、多くの進歩がなされている。 このような手法は通常、特定のタスクを念頭に置いて収集されたロボット言語データのコーパスから学習する。 近年,CLIP や ViLD のような大規模事前学習型視覚言語モデル (VLM) がロボット工学に応用されている。 これらの事前訓練されたモデルは、ロボットデータの自動ラベラーとして機能し、インターネット規模の知識を既存のデータセットに効果的にインポートして、基礎的真理のアノテーションに反映されていないタスクにも役立てることができるだろうか? そこで本稿では,CLIPのセマンティック理解を活用して知識を大規模データセット上に伝播させ,拡張されたデータセット上で言語条件のポリシーを訓練する半教師付き言語ラベルを用いて,言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)を提案する。 この方法では、高価なヒトラベルに比べて有用な言語記述を安価に取得でき、大規模データセットのラベルカバレッジをより効率的にすることができる。 実世界のロボット操作領域では8万のデモのうち96.5%がクラウドソースの言語アノテーションを含まない。 DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。

In recent years, much progress has been made in learning robotic manipulation policies that follow natural language instructions. Such methods typically learn from corpora of robot-language data that was either collected with specific tasks in mind or expensively re-labelled by humans with rich language descriptions in hindsight. Recently, large-scale pretrained vision-language models (VLMs) like CLIP or ViLD have been applied to robotics for learning representations and scene descriptors. Can these pretrained models serve as automatic labelers for robot data, effectively importing Internet-scale knowledge into existing datasets to make them useful even for tasks that are not reflected in their ground truth annotations? To accomplish this, we introduce Data-driven Instruction Augmentation for Language-conditioned control (DIAL): we utilize semi-supervised language labels leveraging the semantic understanding of CLIP to propagate knowledge onto large datasets of unlabelled demonstration data and then train language-conditioned policies on the augmented datasets. This method enables cheaper acquisition of useful language descriptions compared to expensive human labels, allowing for more efficient label coverage of large-scale datasets. We apply DIAL to a challenging real-world robotic manipulation domain where 96.5% of the 80,000 demonstrations do not contain crowd-sourced language annotations. DIAL enables imitation learning policies to acquire new capabilities and generalize to 60 novel instructions unseen in the original dataset.
翻訳日:2022-11-23 16:05:49 公開日:2022-11-22
# siameseネットワークと合成データに基づく新しい転送学習方式

Novel transfer learning schemes based on Siamese networks and synthetic data ( http://arxiv.org/abs/2211.11308v2 )

ライセンス: Link先を確認
Dominik Stallmann and Philip Kenneweg and Barbara Hammer(参考訳) 巨大な画像コーパスでトレーニングされたディープネットワークに基づく転送学習スキームは、コンピュータビジョンにおける最先端の技術を提供する。 ここで、教師付きおよび半教師付きアプローチは、比較可能な小さなデータセットでうまく機能する効率的な技術を構成する。 しかし、これらのアプリケーションは現在、適切なディープネットワークモデルが利用できるアプリケーションドメインに限定されている。 本稿では,マイクロ流体単一細胞培養におけるCHO-K1サスペンション成長の自動解析によるバイオテクノロジー分野における重要な応用分野について述べる。 本稿では,最近導入されたツインベイアーキテクチャを,現実的な合成データに基づいて学習し,その専門的な学習手順をトランスファー学習領域に変更する,新しいトランスファー学習方式を提案する。 特定のドメインでは、ラベルがほとんど存在せず、アノテーションはコストがかかることが多い。 本研究では,不変共有表現と適切な目標変数を用いて自然データと合成データを同時にリトレーニングし,異なる顕微鏡技術ノロジーから未知のデータを扱うことを学ぶ新しいトランスファー学習戦略について検討する。 画像処理における最先端の伝達学習手法と従来の画像処理技術に比較して,我々のTwin-VAEアーキテクチャの多様性が優れていることを示す。 ソースコードはhttps://github.com/dstallmann/transfer_learning_twinvaeで公開されている。 データセットはhttps://pub.uni-bielefeld.de/record/2960030で利用可能です。

Transfer learning schemes based on deep networks which have been trained on huge image corpora offer state-of-the-art technologies in computer vision. Here, supervised and semi-supervised approaches constitute efficient technologies which work well with comparably small data sets. Yet, such applications are currently restricted to application domains where suitable deepnetwork models are readily available. In this contribution, we address an important application area in the domain of biotechnology, the automatic analysis of CHO-K1 suspension growth in microfluidic single-cell cultivation, where data characteristics are very dissimilar to existing domains and trained deep networks cannot easily be adapted by classical transfer learning. We propose a novel transfer learning scheme which expands a recently introduced Twin-VAE architecture, which is trained on realistic and synthetic data, and we modify its specialized training procedure to the transfer learning domain. In the specific domain, often only few to no labels exist and annotations are costly. We investigate a novel transfer learning strategy, which incorporates a simultaneous retraining on natural and synthetic data using an invariant shared representation as well as suitable target variables, while it learns to handle unseen data from a different microscopy tech nology. We show the superiority of the variation of our Twin-VAE architecture over the state-of-the-art transfer learning methodology in image processing as well as classical image processing technologies, which persists, even with strongly shortened training times and leads to satisfactory results in this domain. The source code is available at https://github.com/dstallmann/transfer_learning_twinvae, works cross-platform, is open-source and free (MIT licensed) software. We make the data sets available at https://pub.uni-bielefeld.de/record/2960030.
翻訳日:2022-11-23 16:05:24 公開日:2022-11-22
# 統合失調症認知のための2+1D処理への3次元脳画像の分解

Decomposing 3D Neuroimaging into 2+1D Processing for Schizophrenia Recognition ( http://arxiv.org/abs/2211.11557v2 )

ライセンス: Link先を確認
Mengjiao Hu, Xudong Jiang, Kang Sim, Juan Helen Zhou, Cuntai Guan(参考訳) 深層学習は自然画像と医用画像の両方の認識に成功している。 しかし、特に統合失調症やうつ病などの精神疾患において、特定のスライスで目に見える変化が見られない3dニューロイメージングデータの認識にはギャップがある。 本研究では,2+1Dフレームワークを用いて3次元データを処理し,3次元ニューロイメージング認識のための巨大なImageNetデータセット上に事前トレーニングされた,強力な2次元畳み込みニューラルネットワーク(CNN)ネットワークを活用することを提案する。 具体的には、3次元磁気共鳴イメージング(MRI)の計測値(灰物質、白物質、髄液)を隣接するボクセル位置に応じて2次元スライスに分解し、ImageNetで事前訓練された2次元CNNモデルに入力し、3つのビュー(軸、コロナ、サジタル)から特徴マップを抽出する。 機能マップ上でアクティベーションパターンが分散しているため、グローバルプーリングは冗長な情報を削除するために適用される。 2次元cnnモデルで未処理の3次元の文脈情報を集約するために, チャネルワイズおよびスライスワイズ畳み込みを提案する。 最終予測のためにマルチメトリック情報とマルチビュー情報が融合される。 提案手法は,手作業による特徴ベース機械学習,サポートベクタマシン(SVM)分類器と3次元CNNモデルを用いたディープ・フィーチャー・アプローチを,ノースウェスタン大学統合失調症データセット上で,より優れたクロスバリデーション結果を用いて,スクラッチからトレーニングし,その結果を別の独立したデータセットで再現する。

Deep learning has been successfully applied to recognizing both natural images and medical images. However, there remains a gap in recognizing 3D neuroimaging data, especially for psychiatric diseases such as schizophrenia and depression that have no visible alteration in specific slices. In this study, we propose to process the 3D data by a 2+1D framework so that we can exploit the powerful deep 2D Convolutional Neural Network (CNN) networks pre-trained on the huge ImageNet dataset for 3D neuroimaging recognition. Specifically, 3D volumes of Magnetic Resonance Imaging (MRI) metrics (grey matter, white matter, and cerebrospinal fluid) are decomposed to 2D slices according to neighboring voxel positions and inputted to 2D CNN models pre-trained on the ImageNet to extract feature maps from three views (axial, coronal, and sagittal). Global pooling is applied to remove redundant information as the activation patterns are sparsely distributed over feature maps. Channel-wise and slice-wise convolutions are proposed to aggregate the contextual information in the third view dimension unprocessed by the 2D CNN model. Multi-metric and multi-view information are fused for final prediction. Our approach outperforms handcrafted feature-based machine learning, deep feature approach with a support vector machine (SVM) classifier and 3D CNN models trained from scratch with better cross-validation results on publicly available Northwestern University Schizophrenia Dataset and the results are replicated on another independent dataset.
翻訳日:2022-11-23 16:04:57 公開日:2022-11-22
# 大規模屋内シーンのための多視点逆レンダリング

Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes ( http://arxiv.org/abs/2211.10206v2 )

ライセンス: Link先を確認
Zhen Li, Lingli Wang, Mofang Cheng, Cihui Pan, Jiaqi Yang(参考訳) 本稿では,実世界の大規模室内シーンを対象とした多視点逆レンダリング手法を提案する。 大規模シーンのグローバル照明を複数の環境マップとして単純化した従来の表現とは異なり、テクスチャベース照明(TBL)と呼ばれるコンパクトな表現を提案する。 3dメッシュとhdrテクスチャで構成され、大きなシーン全体の直接および無限バウンス間接照明を効率的にモデル化する。 さらに,tblを基礎として,材料最適化の効率を著しく向上し,レンダリングノイズを緩和する,予め計算された照度を持つハイブリッド照明表現を提案する。 材料間のあいまいさを物理的に解消するために, セマンティックセグメンテーションと部屋セグメンテーションの先行に基づく3段階の材料最適化戦略を提案する。 実験の結果,提案手法は, 物質編集, 編集可能な新規ビュー合成, ライティングなど, 物理的に理性のある混合現実の応用を可能にする。 プロジェクトのページはhttps://lzleejean.github.io/IRTexにある。

We present a multi-view inverse rendering method for large-scale real-world indoor scenes that reconstructs global illumination and physically-reasonable SVBRDFs. Unlike previous representations, where the global illumination of large scenes is simplified as multiple environment maps, we propose a compact representation called Texture-based Lighting (TBL). It consists of 3D meshs and HDR textures, and efficiently models direct and infinite-bounce indirect lighting of the entire large scene. Based on TBL, we further propose a hybrid lighting representation with precomputed irradiance, which significantly improves the efficiency and alleviate the rendering noise in the material optimization. To physically disentangle the ambiguity between materials, we propose a three-stage material optimization strategy based on the priors of semantic segmentation and room segmentation. Extensive experiments show that the proposed method outperforms the state-of-the-arts quantitatively and qualitatively, and enables physically-reasonable mixed-reality applications such as material editing, editable novel view synthesis and relighting. The project page is at https://lzleejean.github.io/IRTex.
翻訳日:2022-11-23 16:04:27 公開日:2022-11-22
# SMAUG: 効率的なビデオランゲージ事前学習のためのスパースマスクオートエンコーダ

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training ( http://arxiv.org/abs/2211.11446v2 )

ライセンス: Link先を確認
Yuanze Lin, Chen Wei, Huiyu Wang, Alan Yuille, Cihang Xie(参考訳) 強力なマルチモーダル表現を学ぶには,ビデオ言語事前学習が不可欠である。 しかし、通常は大量の計算を必要とする。 本稿では,ビデオ言語モデルのための効率的な事前学習フレームワークであるSMAUGを開発する。 SMAUGの基盤コンポーネントはマスク付きオートエンコーダである。 テキスト入力のみをマスクする先行作品とは異なり、マスキング戦略は視覚とテキストのモダリティを考慮し、より優れたクロスモーダルアライメントを提供し、事前トレーニングコストを節約する。 さらに,事前学習のための"重要"空間領域と時間枠のみを選択するために,コンテキスト情報を活用する時空トークンスパーシフィケーションモジュールを導入する。 これらすべての設計を結合することで,テキスト対ビデオ検索とビデオ質問応答タスクの競合性能を享受できると同時に,事前トレーニングコストを1.9倍以上削減できる。 例えば、私たちのSMAUGは、この2つのビデオ言語タスクで6つの人気のあるベンチマークで競合するパフォーマンスを達成するために、事前トレーニングに約50 NVIDIA A6000 GPU時間しか必要としません。

Video-language pre-training is crucial for learning powerful multi-modal representation. However, it typically requires a massive amount of computation. In this paper, we develop SMAUG, an efficient pre-training framework for video-language models. The foundation component in SMAUG is masked autoencoders. Different from prior works which only mask textual inputs, our masking strategy considers both visual and textual modalities, providing a better cross-modal alignment and saving more pre-training costs. On top of that, we introduce a space-time token sparsification module, which leverages context information to further select only "important" spatial regions and temporal frames for pre-training. Coupling all these designs allows our method to enjoy both competitive performances on text-to-video retrieval and video question answering tasks, and much less pre-training costs by 1.9X or more. For example, our SMAUG only needs about 50 NVIDIA A6000 GPU hours for pre-training to attain competitive performances on these two video-language tasks across six popular benchmarks.
翻訳日:2022-11-23 15:55:33 公開日:2022-11-22