このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220529となっている論文です。

PDF登録状況(公開日: 20220529)

TitleAuthorsAbstract論文公表日・翻訳日
# 準備・測定シナリオの文脈性に関する解決可能な基準

Solvable Criterion for the Contextuality of any Prepare-and-Measure Scenario ( http://arxiv.org/abs/2003.06426v4 )

ライセンス: Link先を確認
Victor Gitton and Mischa P. Woods(参考訳) 準備と測定のシナリオと呼ばれる任意の量子状態と測定のセットから始まり、準備と測定のシナリオに関連する量子統計の運用上非コンテキストのオントロジモデルを構築する。 操作的非文脈的オントロジモデル(英語版)(operationally noncontextual ontological model)は、標準的なspekens noncontextual ontological model for tomographically complete scenarios(英語版)と一致し、非トモグラフィ的に完備なケースを還元空間という新しい概念でカバーする。 単位分離可能性(unit separability)と呼ばれる数学的基準は、関連する古典性基準(classicity criterion)として定式化されている。 この基準を用いて、オンティック空間の濃度に新たな上限を導出する。 次に、単位分離可能性基準を線形制約の(おそらく無限の)集合として再キャストし、そこから非古典性を目撃したり、シナリオの古典性を証明したりするアルゴリズムテストの2つの分離階層を得る。 最後に,一般化確率論の枠組みで結果を再構成し,そのような理論における単純埋め込み可能性の意義について考察する。

Starting from arbitrary sets of quantum states and measurements, referred to as the prepare-and-measure scenario, an operationally noncontextual ontological model of the quantum statistics associated with the prepare-and-measure scenario is constructed. The operationally noncontextual ontological model coincides with standard Spekkens noncontextual ontological models for tomographically complete scenarios, while covering the non-tomographically complete case with a new notion of a reduced space, which we motivate following the guiding principles of noncontextuality. A mathematical criterion, called unit separability, is formulated as the relevant classicality criterion -- the name is inspired by the usual notion of quantum state separability. Using this criterion, we derive a new upper bound on the cardinality of the ontic space. Then, we recast the unit separability criterion as a (possibly infinite) set of linear constraints, from which we obtain two separate hierarchies of algorithmic tests to witness the non-classicality or certify the classicality of a scenario. Finally, we reformulate our results in the framework of generalized probabilistic theories and discuss the implications for simplex-embeddability in such theories.
翻訳日:2023-05-29 06:14:04 公開日:2022-05-29
# 連絡・安全・幸福--新型コロナウイルスパンデミックにおけるソーシャルロボットの役割分析

Liaison, safeguard, and well-being: analyzing the role of social robots during the COVID-19 pandemic ( http://arxiv.org/abs/2007.03941v4 )

ライセンス: Link先を確認
Laura Aymerich-Franch, Iliana Ferrer(参考訳) 新型コロナウイルスのパンデミックにおける実環境におけるソーシャルロボットの実装について検討する。 特に,社会ロボットが採用されている分野,その役割と課題,実装中のロボットモデルを分析した。 このために、新型コロナウイルスの感染拡大以来、世界中で86の異なる社会ロボットによる240件の配備事例を追跡分析した。 この期間におけるソーシャルロボットの採用は,危機管理におけるこの技術の利用に強く関係していることがわかった。 社会的ロボットが人間同士の直接接触を最小化するための連絡役、伝染リスクのない環境を確保するための安全対策、精神と身体の健康を守るためのコーチといった役割を果たす能力は、この文脈での採用を説明する上で鍵となる。 本研究の成果は,パンデミック時の実生活環境におけるソーシャルロボットの利用状況の概観を示すものである。

We examine the implementation of social robots in real-world settings during the COVID-19 pandemic. In particular, we analyze the areas in which social robots are being adopted, the roles and tasks being fulfilled, and the robot models being implemented. For this, we traced back and analyzed 240 deployment cases with 86 different social robots worldwide that have been adopted since the coronavirus outbreak. We found that social robot adoption during this period was strongly related to the use of this technology for crisis management. The social robots' capacity to perform the roles of liaison to minimize direct contact among humans, safeguard to ensure contagion risk-free environments, and well-being coach to protect mental and physical health, is key to explaining adoption within this context. The results of the study offer a complete overview of social robots' utilization in real life settings during the pandemic.
翻訳日:2023-05-10 23:38:50 公開日:2022-05-29
# スピン対ホッピングによるミニマリストスターク多体局在問題の厳密解

Exact solution of the minimalist Stark many body localization problem in terms of spin pair hopping ( http://arxiv.org/abs/2110.08965v4 )

ライセンス: Link先を確認
Alexander L. Burin(参考訳) 局所4スピンホッピング保存双極子モーメントを持つ周期的スピン鎖上の多くの体局在問題は、奇数または偶数位置でのスピンの転回後のスピンペアホッピングモデルと等価となる。 後者の問題の固有状態は、翻訳的に不変な(群 I) あるいは制限された(群 II) クリロフ部分空間を持つ非局所状態の2つの群と、すべての移動体(群 III) またはいくつかの移動体スピン(群 IV)を持つ有限スピン輸送を持つ他の2つの群を含む4つの群に分けられる。 これらのグループは、最近Refsで調査されたようなシステムで実験的に調べることができる。 [1, 2].

Stark many body localization problem on a periodic spin chain with local four spin hopping conserving dipole moment becomes equivalent to a spin pair hopping model after overturn of spins in odd or even positions. Eigenstates of the latter problem are separated into four groups including two groups of delocalized states with translationally invariant unrestricted (group I) or restricted (group II) Krylov subspaces and other two with confined spin transport having either all mobile (group III) or some immobile spins (group IV). These groups can be examined experimentally in systems like those recently investigated in Refs. [1, 2].
翻訳日:2023-03-11 04:31:43 公開日:2022-05-29
# 非可換加法観測による位相共存状態の統計的アンサンブル

Statistical ensembles for phase coexistence states specified by noncommutative additive observables ( http://arxiv.org/abs/2111.10532v2 )

ライセンス: Link先を確認
Yasushi Yoneta, Akira Shimizu(参考訳) 相共存状態における共存相は、すべての相共存相に対して同じ値を取るため、温度や化学ポテンシャルのような熱力学的力では区別できない。 したがって、相共存状態を調べるためには、相共存相を識別する全ての添加可観測物がマクロ的に定値であるアンサンブルを用いる必要がある。 従来のマイクロカノニカル・アンサンブルはこのようなアンサンブルとして用いられるが、一部の添加物が相互に通勤せず、新しいアンサンブルが刻まれている場合には、不確定となる。 一階位相遷移領域においても、一般に非可換な加法的観測値が常にマクロ的に定値であるような新しいアンサンブルのクラスを提案する。 これらのアンサンブルを用いて,一般量子系の位相共存状態を構成するための具体的手法を提案する。 さらに、これらのアンサンブルは解析的性質の良さから実用的な計算に便利である。 この定式化が量子系の相共存状態をうまく与えることを証明するために、ハミルトニアンに可換でない加法可観測(次数パラメータ)によって相が区別される二次元系に適用する。 著者の知る限りでは、このような量子系の有限温度で位相界面によって分離された相共存状態を得る最初の研究である。

Coexisting phases in a phase coexistence state cannot be distinguished by thermodynamic forces, such as temperature and chemical potential, because the forces take the same values over all coexisting phases. Therefore, to investigate a phase coexistence state, it is necessary to employ an ensemble in which all additive observables that distinguish the coexisting phases have macroscopically definite values. Although the microcanonical ensemble is conventionally employed as such an ensemble, it becomes ill-defined when some of the additive observables do not commute with each other, and a new ensemble has been craved. We propose a novel class of ensembles such that the additive observables, which are generally noncommutative, always have macroscopically definite values even in a first-order phase transition region. Using these ensembles, we propose a concrete method to construct phase coexistence states of general quantum systems. Furthermore, these ensembles are convenient for practical calculations because of good analytic properties. To demonstrate that our formulation successfully gives phase coexistence states of quantum systems, we apply it to a two-dimensional system whose coexisting phases are distinguished by an additive observable (order parameter) that does not commute with the Hamiltonian. To the author's best knowledge, this is the first work that obtains phase coexistence states separated by phase interfaces at finite temperature in such a quantum system.
翻訳日:2023-03-07 08:10:53 公開日:2022-05-29
# 階層運動方程式における「階層」の集合バス座標マッピング

Collective bath coordinate mapping of "hierarchy" in hierarchical equations of motion ( http://arxiv.org/abs/2112.09861v2 )

ライセンス: Link先を確認
Tatsushi Ikeda and Akira Nakayama(参考訳) 階層運動方程式の理論 (HEOM) は調和振動子環境と結合した力学の正確な評価を与える標準的な方法の1つである。 しかし、この理論は非マルコフ的かつ非摂動的環境効果を捉えるために導入された補助要素の集合である階層構造のために数値的に要求される。 システムバス結合が比較的強くなると、必要な計算資源と精度は、現在処理可能なレシエーションを超えて移動する。 本稿では、階層構造を量子フォッカー・プランク方程式の形式として集合浴座標といくつかの補助座標の連続空間にマッピングするHEOM理論の新たな表現を示す。 この表現はバス座標分布の厳密な時間発展をもたらし、特に強い系-バスカップリングが存在する場合、元のヘム理論よりも安定で効率的である。 環境に結合したビブロニックシステムモデルに対するこのアプローチの適合性を実証する。

The theory of hierarchical equations of motion (HEOM) is one of the standard methods to give exact evaluations of the dynamics as coupled to harmonic oscillator environments. However, the theory is numerically demanding due to its hierarchy, which is the set of auxiliary elements introduced to capture the non-Markovian and non-perturbative effects of environments. When system-bath coupling becomes relatively strong, the required computational resources and precision move beyond the regime that can be currently handled. This article presents a new representation of HEOM theory in which the hierarchy is mapped into a continuous space of a collective bath coordinate and several auxiliary coordinates as the form of the quantum Fokker-Planck equation. This representation gives a rigorous time evolution of the bath coordinate distribution and is more stable and efficient than the original HEOM theory, particularly when there is a strong system-bath coupling. We demonstrate the suitability of this approach to treat vibronic system models coupled to environments.
翻訳日:2023-03-04 05:02:53 公開日:2022-05-29
# 有限時間ビットリセットにおける作業ペナルティの逆線形対指数的スケーリング

Inverse linear versus exponential scaling of work penalty in finite-time bit reset ( http://arxiv.org/abs/2112.10449v3 )

ライセンス: Link先を確認
Yi-Zheng Zhen, Dario Egloff, Kavan Modi, Oscar Dahlsten(参考訳) ビットリセットは不可逆コンピューティングの基本的な操作である。 このコストはコンピュータ内のエネルギーを消費し、将来の不可逆コンピュータの速度とエネルギー効率の限界を生じさせる。 最近、[Phys. Rev. Lett. 127, 190602 (2021)] において、有限時間リセットプロトコルでは、準静的プロトコルの上の追加作業は、常に2レベルシステムを考慮して最小化され、熱力学的な速度制限によって下限化されることを示した。 重要な疑問は、ビットリセットエラーや最大エネルギーシフトを含むプロトコルパラメータを理解することであり、このペナルティはプロトコル時間において指数関数的に減少する。 ここでは、この問題に対処するための分析結果と、プロトコルの具体例の数値シミュレーションについて述べる。

Bit reset is a basic operation in irreversible computing. This costs work and dissipates energy in the computer, creating a limit on speeds and energy efficiency of future irreversible computers. It was recently shown in [Phys. Rev. Lett. 127, 190602 (2021)] that for a finite-time reset protocol, the additional work on top of the quasistatic protocol can always be minimized by considering a two-level system, and then be lower bounded through a thermodynamical speed limit. An important question is to understand under what protocol parameters, including bit reset error and maximum energy shift, this penalty decreases exponentially vs inverse linearly in the protocol time. Here we provide several analytical results to address this question, as well as numerical simulations of specific examples of protocols.
翻訳日:2023-03-04 01:05:13 公開日:2022-05-29
# 数体量子カオスの検出:飽和時の時間外順序相関器

Detecting few-body quantum chaos: out-of-time ordered correlators at saturation ( http://arxiv.org/abs/2202.09443v3 )

ライセンス: Link先を確認
Dragan Markovi\'c and Mihailo \v{C}ubrovi\'c(参考訳) カオス小体量子力学系(量子ヘノン・ハイレス系(弱カオス)、BMN行列量子力学(強カオス)、ガウス乱数行列アンサンブル)における時間外順序相関器(OTOC)の時間依存性と飽和を数値的および解析的に研究する。 量子力学 OTOC の成長パターンは複雑で非普遍的であり、関連する時間スケールでは明確な指数的構造は存在しない(これは多体系、すなわち分野の文献で見られる指数的成長とは矛盾しない)。 一方、otocの高原(飽和)値は、単純で普遍的な方法で温度とともに長い時間で減少する: $\exp(\mathrm{const)。 強いカオス(ランダム行列を含む)と$\exp(\mathrm{const. }/T^2)$。 弱いカオスに対して$です。 小さな行列と十分に複雑な演算子に対しては、飽和OTOCが温度とともに成長する別の高温状態が存在する。 したがって、高原OTOC値は、少数体の量子カオスの有意義な指標である。 また,AdS/CFT双対性に関する知見の一般的な結果についても論じる。

We study numerically and analytically the time dependence and saturation of out-of-time ordered correlators (OTOC) in chaotic few-body quantum-mechanical systems: quantum Henon-Heiles system (weakly chaotic), BMN matrix quantum mechanics (strongly chaotic) and Gaussian random matrix ensembles. The growth pattern of quantum-mechanical OTOC is complex and nonuniversal, with no clear exponential regime at relevant timescales in any of the examples studied (which is not in contradiction to the exponential growth found in the literature for many-body systems, i.e. fields). On the other hand, the plateau (saturated) value of OTOC reached at long times decreases with temperature in a simple and universal way: $\exp(\mathrm{const.}/T^2)$ for strong chaos (including random matrices) and $\exp(\mathrm{const.}/T)$ for weak chaos. For small matrices and sufficiently complex operators, there is also another, high-temperature regime where the saturated OTOC grows with temperature. Therefore, the plateau OTOC value is a meaningful indicator of few-body quantum chaos. We also discuss some general consequences of our findings for the AdS/CFT duality.
翻訳日:2023-02-24 17:14:37 公開日:2022-05-29
# 有限温度におけるダブルクエンチ過程における変成的動的量子相転移

Metamorphic dynamical quantum phase transition in double-quench processes at finite temperatures ( http://arxiv.org/abs/2202.10532v3 )

ライセンス: Link先を確認
Xu-Yang Hou, Qu-Cheng Gao, Hao Guo, and Chih-Chun Chien(参考訳) 一般的な枠組みを導出し、具体例を解析することにより、1次元の2バンド系における動的量子相転移(DQPT)のクラスをダブルクエンチプロセスで示す。 このタイプのDQPTが発生すると、Loschmidt振幅は消滅し、第2のクエンチの後、レート関数は特異であり、最終状態は初期状態と重複しない。 このタイプのDQPTは、通常のDQPTと区別するためにメタモルフィックDQPTと命名され、離散時間点においてゼロのロシミト振幅と特異速度関数しか示さない。 変成DQPTは0度でも有限温度でも起こる。 Su-Schrieffer-Heeger (SSH) モデルと Kitaev 連鎖の例は、メタモルフィック DQPT の条件と振舞いを示している。 通常のDQPTは、多くのシステムで実験的に実現されているため、二重クエンチを持つ同様のセットアップは、メタモルフィックDQPTを示す。 その結果,量子系の動的進化に対するさらなる制御が得られた。

By deriving a general framework and analyzing concrete examples, we demonstrate a class of dynamical quantum phase transitions (DQPTs) in one-dimensional two-band systems going through double-quench processes. When this type of DQPT occurs, the Loschmidt amplitude vanishes and the rate function remains singular after the second quench, meaning the final state continually has no overlap with the initial state. This type of DQPT is named metamorphic DQPT to differentiate it from ordinary DQPTs that only exhibit zero Loschmidt amplitude and singular rate function at discrete time points. The metamorphic DQPTs occur at zero as well as finite temperatures. Our examples of the Su-Schrieffer-Heeger (SSH) model and Kitaev chain illustrate the conditions and behavior of the metamorphic DQPT. Since ordinary DQPTs have been experimentally realized in many systems, similar setups with double quenches will demonstrate the metamorphic DQPT. Our findings thus provide additional controls of dynamical evolution of quantum systems.
翻訳日:2023-02-24 07:57:12 公開日:2022-05-29
# 絶対圧縮と誤差補償を伴う分散手法

Distributed Methods with Absolute Compression and Error Compensation ( http://arxiv.org/abs/2203.02383v2 )

ライセンス: Link先を確認
Marina Danilova, Eduard Gorbunov(参考訳) 分散最適化手法は、数百万から数十億のパラメータでニューラルネットワークをトレーニングするなど、大規模な問題を解決するためによく用いられる。 このようなアプリケーションでは、例えば(確率的な)勾配(英語版)のような完全なベクトルの通信は、特に労働者の数が大きければ、非常に高価である。 通信圧縮はこの問題を軽減するための強力なアプローチであり、特にバイアスド圧縮とエラー補償の手法は実用的効率のために非常に人気がある。 Sahu et al. (2021) は、ある意味では、このクラスがEC-SGDの最適圧縮器を含むことを示す絶対圧縮演算子のクラスに対して、エラー補償SGD (EC-SGD) の新しい解析法を提案する。 しかし、この分析はいわゆる$(M,\sigma^2)$-bounded noise assumptionの下でのみ行われた。 本稿では、任意のサンプリング戦略に対する絶対圧縮によるEC-SGDの解析を一般化し、(強く)凸問題に対する絶対圧縮を伴う誤り補償ループレス確率変数低減法(EC-LSVRG)の最初の解析を提案する。 われわれのレートは、この設定で既に知られている値で向上する。 数値実験は理論的な結果を裏付けるものだ。

Distributed optimization methods are often applied to solving huge-scale problems like training neural networks with millions and even billions of parameters. In such applications, communicating full vectors, e.g., (stochastic) gradients, iterates, is prohibitively expensive, especially when the number of workers is large. Communication compression is a powerful approach to alleviating this issue, and, in particular, methods with biased compression and error compensation are extremely popular due to their practical efficiency. Sahu et al. (2021) propose a new analysis of Error Compensated SGD (EC-SGD) for the class of absolute compression operators showing that in a certain sense, this class contains optimal compressors for EC-SGD. However, the analysis was conducted only under the so-called $(M,\sigma^2)$-bounded noise assumption. In this paper, we generalize the analysis of EC-SGD with absolute compression to the arbitrary sampling strategy and propose the first analysis of Error Compensated Loopless Stochastic Variance Reduced Gradient method (EC-LSVRG) with absolute compression for (strongly) convex problems. Our rates improve upon the previously known ones in this setting. Numerical experiments corroborate our theoretical findings.
翻訳日:2023-02-23 03:38:17 公開日:2022-05-29
# 安定剤試験によるカラー可能ハイパーグラフ状態の検証

Verification of colorable hypergraph states with stabilizer test ( http://arxiv.org/abs/2203.09989v2 )

ライセンス: Link先を確認
Hong Tao, and Xiaoqian Zhang, and Lei Shao, and Xiaoqing Tan(参考訳) 実のところ、多体量子状態は、ある数学的な問題を解くか、測定ベースの量子計算において量子システムをシミュレートするために極めて不可欠である。 しかし、ハイパーグラフ状態のような大規模量子状態の検証方法は、多体量子システムにとって非常に難しい課題である。 本稿では,スタビライザテストを用いて,カラー化可能なハイパーグラフ状態の検証を行うための新しいフォールトトレラントソリューションを提案する。 適応安定化器試験と比較して,本プロトコルは,Pauli-X と Pauli-Z のみを測定することで劇的に促進されている。 アプライアンスに関しては、盲点量子コンピューティングにも適用される。

Many-body quantum states, as a matter of fact, are extremely essential to solve certain mathematical problems or simulate quantum systems in measurement-based quantum computation. However, how to verify large scale quantum states, such as hypergraph states, is an exceedingly hard task for multi-body quantum systems. Here, we propose a novel fault-tolerant solution for verification of colorable hypergraph states by using stabilizer test. Compared with the adaptive stabilizer test, our protocol is dramatically facilitating by making only Pauli-X and Pauli-Z measurement. As to appliance, it will be also applied to blind quantum computing.
翻訳日:2023-02-21 12:32:36 公開日:2022-05-29
# EU Code Weekにおける参加メカニズムの調査

Investigating Participation Mechanisms in EU Code Week ( http://arxiv.org/abs/2205.14740v1 )

ライセンス: Link先を確認
Christel Sirocchi, Annika Ostergren Pofantis, Alessandro Bogliolo(参考訳) デジタル・コンピテンス(digital competence、dc)は、あらゆる面でデジタルテクノロジーを信頼し、批判的かつ責任ある利用するための、幅広いスキル、態度、知識のセットである。 DCは、ますますデジタル化する世界で生産的でフルフィルな人生を遂行する上で、すべての人々にとって基本的なものです。 しかし、偏見、誤解、認識の欠如はDCの拡散を減らし、デジタルトランスフォーメーションを阻害し、国や人々がその潜在能力を完全に認識することを妨げている。 カリキュラムにおけるインフォマティクスの教育は、教育機関によってますます支持されているが、教師の技能向上や支援といった深刻な課題に直面しており、大きな成果を観察するには数年を要する。 これに応えて、EU Code Weekを含む非公式な環境でのコンピューティングリテラシーを促進する草の根運動は、多様性を促進し、デジタルスキルの重要性を認識しながら、コンピューティングスキルを開発するというビジョンを掲げている。 コードウィークの参加は、社会経済的要因や人口統計学的要因の影響を受けうる公的な参加の形態である。 第1に、eu加盟国へのコードウィークの参加について、より効果的な啓発キャンペーンを知らせるために、浸透、保持、人口構成、空間分布の観点から詳細な包括的な統計記述を提供すること、第2に、社会経済的要因がコードウィークの関与に与える影響を調査することである。 この研究は、異なる地理的規模における参加と収入の強い負の相関を同定する。 また、「精神社会的」と「資源的」の見解に忠実な参加を促すメカニズム、すなわち、収入が公的なエンゲージメントに与える影響について最も広く受け入れられている2つの説明を示唆している。

Digital competence (DC) is a broad set of skills, attitudes, and knowledge for confident, critical and responsible use of digital technologies in every aspect of life. DC is fundamental to all people in conducting a productive and fulfilling life in an increasingly digital world. However, prejudices, misconceptions, and lack of awareness reduce the diffusion of DC, hindering digital transformation and preventing countries and people from realising their full potential. Teaching Informatics in the curriculum is increasingly supported by the institutions but faces serious challenges, such as teacher upskilling and support, and will require several years to observe sizeable outcomes. In response, grassroots movements promoting computing literacy in an informal setting have grown, including EU Code Week, whose vision is to develop computing skills while promoting diversity and raising awareness of the importance of digital skills. Code Week participation is a form of public engagement that could be affected by socio-economic and demographic factors, as any other form of participation. The aim of the manuscript is twofold: first, to offer a detailed and comprehensive statistical description of Code Week's participation in the EU Member States in terms of penetration, retention, demographic composition, and spatial distribution in order to inform more effective awareness-raising campaigns; second, to investigate the impact of socio-economic factors on Code Week involvement. The study identifies a strong negative correlation between participation and income at different geographical scales. It also suggests underlying mechanisms driving participation that are coherent with the "psychosocial" and the "resource" views, i.e. the two most widely accepted explanations of the effect of income on public engagement.
翻訳日:2023-02-19 17:20:16 公開日:2022-05-29
# YASM (Yet Another Surveillance Mechanism)

YASM (Yet Another Surveillance Mechanism) ( http://arxiv.org/abs/2205.14601v1 )

ライセンス: Link先を確認
Kaspar Rosager Ludvigsen, Shishir Nagaraja, Angela Daly(参考訳) 児童性的虐待物質検出(csamd)におけるクライアント側スキャン(css)は、ユビキタスマススキャンを表す。 Appleはこうした画像のためにシステムをスキャンすることを提案した。 CSAMDはその後後退したが、欧州連合はCSSに児童の性的虐待と暗号化の弱体化への対処と予防を強制的に提案することを決定した。 CSSは、プライバシーやサイバーセキュリティ、法律を考慮せずに、個人資産、写真、テキストの大量監視を行う。 最初に、CSSが制限されているかどうかについて議論し、画像の暗号化処理方法や、CSAMDがプライバシを保存する方法について議論する。 第2部では、欧州人権条約においてcssが一般的に引き起こされる可能性のある人権侵害について分析する。 焦点は、システムが個人に与える害であり、提案されている児童虐待規制についてもコメントする。 アンチウイルスソフトウェアに見られるように、cssは目的を果たせないため問題視されている。 CSAMのような問題を解決するためのコストは、利点よりも高く、変化しそうにない。 提案されているcsamdは、ソース資料が記述されているように、プライバシやセキュリティを保持するものではない。 また、cssが一般的に公正な裁判権、プライバシーと表現の自由を侵害する可能性があることもわかりました。 写真は、合法的な加害者に対する裁判を容認できないか、公正な裁判のために彼らの権利を侵害する可能性があり、また、プライバシの権利を侵害する国家の法的レベルでプライバシーを保護するための保護が欠如しているため、この種のスキャンが表現の自由が要求する法的テストに合格できるかどうかは不明である。 最後に、テクノソリューションストの議論に頼り、サイバーセキュリティに関する知識を無視しているため、提案された規制に関する重大な問題を見つけます。

Client-Side Scanning (CSS) see in the Child Sexual Abuse Material Detection (CSAMD) represent ubiquitous mass scanning. Apple proposed to scan their systems for such imagery. CSAMD was since pushed back, but the European Union decided to propose forced CSS to combat and prevent child sexual abuse and weaken encryption. CSS is mass surveillance of personal property, pictures and text, without considerations of privacy and cybersecurity and the law. We first argue why CSS should be limited or not used and discuss issues with the way pictures cryptographically are handled and how the CSAMD preserves privacy. In the second part, we analyse the possible human rights violations which CSS in general can cause within the regime of the European Convention on Human Rights. The focus is the harm which the system may cause to individuals, and we also comment on the proposed Child Abuse Regulation. We find that CSS is problematic because they can rarely fulfil their purposes, as seen with antivirus software. The costs for attempting to solve issues such as CSAM outweigh the benefits and is not likely to change. The CSAMD as proposed is not likely to preserve the privacy or security in the way of which it is described source materials. We also find that CSS in general would likely violate the Right to a Fair Trial, Right to Privacy and Freedom of Expression. Pictures could have been obtained in a way that could make any trial against a legitimate perpetrator inadmissible or violate their right for a fair trial, the lack of any safeguards to protect privacy on national legal level, which would violate the Right for Privacy, and it is unclear if the kind of scanning could pass the legal test which Freedom of Expression requires. Finally, we find significant issues with the proposed Regulation, as it relies on techno-solutionist arguments and disregards knowledge on cybersecurity.
翻訳日:2023-02-19 17:19:10 公開日:2022-05-29
# 平衡外開自由フェルミオン鎖における対数否定性:正確に解ける場合

Logarithmic negativity in out-of-equilibrium open free-fermion chains: An exactly solvable case ( http://arxiv.org/abs/2205.02139v2 )

ライセンス: Link先を確認
Vincenzo Alba, Federico Carollo(参考訳) 強結合鎖におけるフェルミオン対数ネガティビティの準粒子画像から、利得と損失の散逸を導出した。 フェルミオンN'eel状態からの量子クエンチ後のダイナミクスに焦点を当てる。 無限鎖に埋め込まれた隣接区間と非連結区間の間の負性を考える。 その結果,大きなサブシステムと長時間の標準水力力学的限界が成立し,その比率が固定された。 さらに, 散逸率が区間の大きさに反比例する弱散逸限界を考える。 相互情報の場合と同様に、2つの間隔で共有される準粒子の絡み合った対の数にネガティリティが比例することを示す。 重要なことに、ユニタリの場合とは対照的に、準粒子の負性含量はR'enyi指数1/2のR'enyiエントロピーでは与えられず、一般的には熱力学量とは関係がない。

We derive the quasiparticle picture for the fermionic logarithmic negativity in a tight-binding chain subject to gain and loss dissipation. We focus on the dynamics after the quantum quench from the fermionic N\'eel state. We consider the negativity between both adjacent and disjoint intervals embedded in an infinite chain. Our result holds in the standard hydrodynamic limit of large subsystems and long times, with their ratio fixed. Additionally, we consider the weakly-dissipative limit, in which the dissipation rates are inversely proportional to the size of the intervals. We show that the negativity is proportional to the number of entangled pairs of quasiparticles that are shared between the two intervals, as is the case for the mutual information. Crucially, in contrast with the unitary case, the negativity content of quasiparticles is not given by the R\'enyi entropy with R\'enyi index 1/2, and it is in general not easily related to thermodynamic quantities.
翻訳日:2023-02-14 09:08:39 公開日:2022-05-29
# 非互換三重量子測定の最適化

Optimizing incompatible triple quantum measurements ( http://arxiv.org/abs/2205.14561v1 )

ライセンス: Link先を確認
Hui-Hui Qin and Shao-Ming Fei(参考訳) 統計的距離と関節測定可能性の枠組みにおける3つの不整合量子測定の最適近似について検討する。 物理レビュー a 99, 312107 (2019)] で示される不確実性の不等式の下限に従って, 2種類の三重相不整合非バイアス量子ビット測定に対する最適結合測定可能な近似の解析式を与える。 また、測定過程における最小近似誤差を与える対応する状態を得る。 この結果は、そのような統計距離に基づく不確実性関係の実験的な検証をもたらす。

We investigate the optimal approximation to triple incompatible quantum measurements within the framework of statistical distance and joint measurability. According to the lower bound of the uncertainty inequality presented in [Physical Review A 99, 312107 (2019)], we give the analytical expressions of the optimal jointly measurable approximation to two kinds of triple incompatible unbiased qubit measurements. We also obtain the corresponding states which give the minimal approximation errors in measuring process. The results give rise to plausible experimental verifications of such statistical distance based uncertainty relations.
翻訳日:2023-02-11 09:03:57 公開日:2022-05-29
# 2つのパラメトリック駆動機械振動子を持つ光学系における負の空洞光子スペクトル関数

Negative cavity photon spectral function in an optomechanical system with two parametrically-driven mechanical oscillators ( http://arxiv.org/abs/2205.15314v1 )

ライセンス: Link先を確認
Ali Motazedifard, A. Dalafi and M. H. Naderi(参考訳) 負のキャビティ光子スペクトル関数(cpsf)を実現するための実験的に実現可能な光力学スキームを提案する。 検討中のシステムは、バネ係数のコヒーレント時間変調を通じてパラメトリック駆動しながら、放射圧を介して共通のキャビティモードと線形に結合する2つのメカニカル(フォノニック)モードからなる光機械システム(oms)である。 その結果, 周波数依存性の有効空洞減衰率 (ECDR) がシステム内で誘導されることが判明した。 さらに, 一般化線形応答理論(glrt)の枠組みで得られたキャビティ遅延グリーン関数の運動方程式を用いて, システムの安定状態を維持しつつ, 協調性と変調パラメータを制御して負のcpsfに対応する負のecdrを実現できることを示す。 しかし、そのような負性性は標準的な空洞光学系では決して起こらない。 また,2つの変調メカニカル自由度の存在は,単一の変調メカニカルオシレータ(mo)のセットアップと比較して,より小さいパラメトリック駆動でcpsfのネガティビティを制御可能であることを見出した。 興味深いことに、導入された負性度は、完全なチューナブルなオプティメカニカルフィルタにつながる異常な(修正された)オプティメカニカルな透過性(OMIT)と、ユニティと結合されたクビットキャビティ集団のインバージョン上のプローブ反射に対応する負の有効温度(NET)を実現するために、新しいプラットフォームを開く可能性がある。

We propose an experimentally feasible optomechanical scheme to realize a negative cavity photon spectral function (CPSF). The system under consideration is an optomechanical system (OMS) consisting of two mechanical (phononic) modes which are linearly coupled to a common cavity mode via the radiation pressure while parametrically driven through the coherent time-modulation of their spring coefficients. We find that, in the red-detuned and weak-coupling regimes, a frequency-dependent effective cavity damping rate (ECDR) is induced in the system. Furthermore, using the equations of motion for the cavity retarded Green's function obtained in the framework of a generalized linear response theory (GLRT), we show that a negative ECDR corresponding to a negative CPSF can be realized by controlling the cooperativities and modulation parameters while the system still remains in the stable regime. Nevertheless, such a negativity never occurs in a standard cavity optomechanical system. Besides, we find that the presence of two modulated mechanical degrees of freedom provides more controllability on the negativity of CPSF with a smaller parametric drive in comparison to the setup with a single modulated mechanical oscillator (MO). Interestingly, the introduced negativity may open a new platform to realize an extraordinary (modified) optomechanically induced transparency (OMIT) leading to perfect tunable optomechanical filters, and a negative effective temperature (NET) corresponding, respectively, to the probe reflection above the unity and the coupled qubit-cavity population inversion.
翻訳日:2023-02-11 09:03:16 公開日:2022-05-29
# 量子システムにおけるコルーディングサーバを用いた秘密共有と対称的個人情報検索への統一的アプローチ

Unified Approach to Secret Sharing and Symmetric Private Information Retrieval with Colluding Servers in Quantum Systems ( http://arxiv.org/abs/2205.14622v1 )

ライセンス: Link先を確認
Masahito Hayashi and Seunghoan Song(参考訳) 本稿では,SSとSPIRの古典的線形プロトコルを特徴付けるマルチターゲットモノトーンスパンプログラム(MMSP)を用いて,秘密共有の量子バージョン(SS)と対称プライベート情報検索(SPIR)の2つのキー量子セキュアタスクを統一的に扱う。 特に、SSの2種類の量子拡張が知られている: 1つは古典量子(CQ)設定であり、送信される秘密は古典的情報であり、共有は量子システムである。 もうひとつはquantum-quantum(qq)設定で、送信される秘密は量子状態であり、共有は量子システムである。 ここでは,情報収集によって秘密を回復するエンドユーザーとディーラーとの事前の絡み合いを許容し,CQ設定を変更することで定義される第3の絡み合い支援(EA)設定を新たに導入する。 ea 設定の ss の線形バージョンが mmsp に直接リンクしていることを示すため、ss の線形量子バージョンを mmsp を介して cq ad qq 設定で特徴付ける。 さらに,MMSPにリンクするSPIRのEA設定についても紹介する。 さらに,最大距離分離可能符号(MDS)の量子バージョンとの関係についても検討する。

This paper unifiedly addresses two kinds of key quantum secure tasks, i.e., quantum versions of secret sharing (SS) and symmetric private information retrieval (SPIR) by using multi-target monotone span program (MMSP), which characterizes the classical linear protocols of SS and SPIR. In particular, two kinds of quantum extensions of SS are known; One is the classical-quantum (CQ) setting, in which the secret to be sent is classical information and the shares are quantum systems. The other is the quantum-quantum (QQ) setting, in which the secret to be sent is a quantum state and the shares are quantum systems. We newly introduce the third setting, i.e., the entanglement-assisted (EA) setting, which is defined by modifying the CQ setting with allowing prior entanglement between the dealer and the end-user who recovers the secret by collecting the shares. Showing that the linear version of SS with the EA setting is directly linked to MMSP, we characterize linear quantum versions of SS with the CQ ad QQ settings via MMSP. Further, we also introduce the EA setting of SPIR, which is shown to link to MMSP. In addition, we discuss the relation with the quantum version of maximum distance separable (MDS) codes.
翻訳日:2023-02-11 09:00:53 公開日:2022-05-29
# 磁気トンネル接合型シナプスを用いた量子化深部ニューラルネットワークの訓練

Training of Quantized Deep Neural Networks using a Magnetic Tunnel Junction-Based Synapse ( http://arxiv.org/abs/1912.12636v2 )

ライセンス: Link先を確認
Tzofnat Greenberg Toledo, Ben Perach, Itay Hubara, Daniel Soudry and Shahar Kvatinsky(参考訳) 深層ニューラルネットワークの計算複雑性とメモリ強度のソリューションとして、量子ニューラルネットワーク(QNN)が積極的に研究されている。 これにより、精度を犠牲にすることなく、定量化された重みとアクティベーション値による推論とトレーニングの両方をサポートするアルゴリズムの開発が進められている。 最近の例は、三進ニューラルネットワーク(TNN)と二進ニューラルネットワーク(BNN)の確率的トレーニングのためのGXNORフレームワークである。 本稿では,磁気トンネル接合(MTJ)デバイスを用いてQNNトレーニングを支援する方法について述べる。 本稿では,MTJ確率的動作を用いて量子化更新をサポートする新しいハードウェアシナプス回路を提案する。 提案回路は、qnnトレーニングのニアメモリ(pnm)を処理可能とし、データ移動を減少させる。 MNIST,SVHN,CIFAR10データセットに対するMTJベースのTNNの確率的トレーニングをシミュレーションし,それぞれ98.61%,93.99%,82.71%の精度を達成した(GXNORアルゴリズムと比較して1%未満)。 提案したシナプス回路は,フィードフォワードに18.3TOP/W,ウェイト更新に3TOP/Wの3次ネットワークをトレーニングできることを示した。

Quantized neural networks (QNNs) are being actively researched as a solution for the computational complexity and memory intensity of deep neural networks. This has sparked efforts to develop algorithms that support both inference and training with quantized weight and activation values, without sacrificing accuracy. A recent example is the GXNOR framework for stochastic training of ternary (TNN) and binary (BNN) neural networks. In this paper, we show how magnetic tunnel junction (MTJ) devices can be used to support QNN training. We introduce a novel hardware synapse circuit that uses the MTJ stochastic behavior to support the quantize update. The proposed circuit enables processing near memory (PNM) of QNN training, which subsequently reduces data movement. We simulated MTJ-based stochastic training of a TNN over the MNIST, SVHN, and CIFAR10 datasets and achieved an accuracy of 98.61%, 93.99% and 82.71%, respectively (less than 1% degradation compared to the GXNOR algorithm). We evaluated the synapse array performance potential and showed that the proposed synapse circuit can train ternary networks in situ, with 18.3TOPs/W for feedforward and 3TOPs/W for weight update.
翻訳日:2023-01-17 07:26:45 公開日:2022-05-29
# L6DNet:小さなデータセットを用いたロバストで高精度なオブジェクト空間推定のためのLight 6 DoFネットワーク

L6DNet: Light 6 DoF Network for Robust and Precise Object Pose Estimation with Small Datasets ( http://arxiv.org/abs/2002.00911v6 )

ライセンス: Link先を確認
Mathieu Gonzalez, Amine Kacete, Albert Murienne, Eric Marchand(参考訳) オブジェクトの3Dポーズを推定することは、拡張現実やロボットアプリケーションの中で考慮すべき課題である。 本稿では,単一のrgb-d画像から6自由度物体ポーズ推定を行う新しい手法を提案する。 データ駆動型と幾何学的という2段階のハイブリッドパイプラインを採用しています。 データ駆動のステップは、画像内のオブジェクト2D位置をローカルパッチから推定する分類CNNと、カメラ座標系におけるキーポイントのセットの3D位置を予測するために訓練された回帰CNNから構成される。 ポーズ情報を抽出するための幾何学的ステップは、カメラ座標系における3d点と、登録誤差を最小化し、対応するワールド座標系における3d点とを整合させ、ポーズを計算することである。 標準データセットLineModの実験は、我々のアプローチが最先端の手法よりも堅牢で正確であることを示している。 このアプローチは、視覚サーボによって6つのdof位置決めタスクを達成するためにも検証される。

Estimating the 3D pose of an object is a challenging task that can be considered within augmented reality or robotic applications. In this paper, we propose a novel approach to perform 6 DoF object pose estimation from a single RGB-D image. We adopt a hybrid pipeline in two stages: data-driven and geometric respectively. The data-driven step consists of a classification CNN to estimate the object 2D location in the image from local patches, followed by a regression CNN trained to predict the 3D location of a set of keypoints in the camera coordinate system. To extract the pose information, the geometric step consists in aligning the 3D points in the camera coordinate system with the corresponding 3D points in world coordinate system by minimizing a registration error, thus computing the pose. Our experiments on the standard dataset LineMod show that our approach is more robust and accurate than state-of-the-art methods. The approach is also validated to achieve a 6 DoF positioning task by visual servoing.
翻訳日:2023-01-04 09:16:26 公開日:2022-05-29
# 弾性における物理インフォームドニューラルネットワーク解のエネルギーベース誤差境界

Energy-based error bound of physics-informed neural network solutions in elasticity ( http://arxiv.org/abs/2010.09088v2 )

ライセンス: Link先を確認
Mengwu Guo, Ehsan Haghighat(参考訳) 弾性問題に対する物理インフォームドニューラルネットワークの解法として,エネルギーに基づく後部誤差境界を提案する。 物理インフォームドニューラルネットワークの混合形式から許容変位-応力解対を求め、提案した誤差境界を解対によって定義される構成的関係誤差として定式化する。 このような誤差推定器は、ニューラルネットワークの離散化のグローバルエラーの上限を提供する。 物理的に変形したニューラルネットワークの解の漸近的挙動と同様に、境界性が実証例で研究されている。

An energy-based a posteriori error bound is proposed for the physics-informed neural network solutions of elasticity problems. An admissible displacement-stress solution pair is obtained from a mixed form of physics-informed neural networks, and the proposed error bound is formulated as the constitutive relation error defined by the solution pair. Such an error estimator provides an upper bound of the global error of neural network discretization. The bounding property, as well as the asymptotic behavior of the physics-informed neural network solutions, are studied in a demonstrating example.
翻訳日:2022-10-06 04:46:35 公開日:2022-05-29
# (参考訳) 自然言語処理手法を用いたurduニュース記事推薦モデル

Urdu News Article Recommendation Model using Natural Language Processing Techniques ( http://arxiv.org/abs/2206.11862v1 )

ライセンス: CC BY 4.0
Syed Zain Abbas, Dr. Arif ur Rahman, Abdul Basit Mughal, Syed Mujtaba Haider(参考訳) urduにはいくつかのオンライン新聞があるが、ユーザーが探しているコンテンツを見つけるのは難しい。 提案するフレームワークは,Urduニュースをユーザの興味によって予測し,ニュース検索時間を短縮する上で有効である。 この目的のために、NLP技術は前処理に使われ、その後、コサイン類似性を持つTF-IDFは、ユーザの好みに応じて最高の類似性と推奨ニュースを得るために使用される。 さらに、BERT言語モデルも類似性のために使用されており、TF-IDFと比較してBERTモデルとの類似性を高めることにより、アプローチはBERT言語モデルとよりよく機能し、興味のあるニュースをユーザに推奨する。 記事の類似度が60%を超えると、このニュースが推奨される。

There are several online newspapers in urdu but for the users it is difficult to find the content they are looking for because these most of them contain irrelevant data and most users did not get what they want to retrieve. Our proposed framework will help to predict Urdu news in the interests of users and reduce the users searching time for news. For this purpose, NLP techniques are used for pre-processing, and then TF-IDF with cosine similarity is used for gaining the highest similarity and recommended news on user preferences. Moreover, the BERT language model is also used for similarity, and by using the BERT model similarity increases as compared to TF-IDF so the approach works better with the BERT language model and recommends news to the user on their interest. The news is recommended when the similarity of the articles is above 60 percent.
翻訳日:2022-06-27 04:11:22 公開日:2022-05-29
# (参考訳) 機械学習を用いた言語間ニュース記事の類似性検索における翻訳単語の活用

Exploiting Transliterated Words for Finding Similarity in Inter-Language News Articles using Machine Learning ( http://arxiv.org/abs/2206.11860v1 )

ライセンス: CC BY 4.0
Sameea Naeem, Dr. Arif ur Rahman, Syed Mujtaba Haider, Abdul Basit Mughal(参考訳) 2つの言語間ニュース記事の類似性を見つけることは自然言語処理(NLP)の課題である。 利用者の母国語以外の言語で類似したニュース記事を見つけることは困難であり、2つの言語間ニュース記事間の類似性を見つけるために機械学習に基づく自動システムが必要である。 本稿では、英語ニュース記事がウルドゥーニュース記事と類似しているか否かを示す英語ウルドゥー語訳文の組み合わせを用いた機械学習モデルを提案する。 既存の類似性を見つけるためのアプローチは、アーカイブがUrduのような低リソース言語の記事と英語のニュース記事を含む場合に大きな欠点がある。 既存の類似性を見つけるためのアプローチは、Urduのような低リソース言語と英語のニュース記事を含むアーカイブに欠点がある。 私たちはウルドゥー語と英語のニュース記事のリンクに辞書を使った。 機械翻訳やテキストから音声への変換といったウルドゥー語の処理アプリケーションでは英語のテキストを同時に処理できないため、本研究は英語とウルドゥー語のニュース記事の類似性を求める手法を提案した。

Finding similarities between two inter-language news articles is a challenging problem of Natural Language Processing (NLP). It is difficult to find similar news articles in a different language other than the native language of user, there is a need for a Machine Learning based automatic system to find the similarity between two inter-language news articles. In this article, we propose a Machine Learning model with the combination of English Urdu word transliteration which will show whether the English news article is similar to the Urdu news article or not. The existing approaches to find similarities has a major drawback when the archives contain articles of low-resourced languages like Urdu along with English news article. The existing approaches to find similarities has drawback when the archives contain low-resourced languages like Urdu along with English news articles. We used lexicon to link Urdu and English news articles. As Urdu language processing applications like machine translation, text to speech, etc are unable to handle English text at the same time so this research proposed technique to find similarities in English and Urdu news articles based on transliteration.
翻訳日:2022-06-27 04:02:54 公開日:2022-05-29
# (参考訳) 雑音ラベル付きテキスト分類のためのコンテキストベース仮想逆学習

Context-based Virtual Adversarial Training for Text Classification with Noisy Labels ( http://arxiv.org/abs/2206.11851v1 )

ライセンス: CC BY 4.0
Do-Myoung Lee, Yeachan Kim, Chang-gyun Seo(参考訳) ディープニューラルネットワーク(DNN)は十分なトレーニング時間を与えるとノイズラベルを完全に記憶する能力が高く、残念ながらその記憶はパフォーマンスを劣化させる。 近年、準教師付き学習におけるDNNの一般化をさらに向上させるため、仮想敵訓練(VAT)が注目されている。 VATの背後にある駆動力は、入力と摂動入力の一貫性を強制することによって、モデルがデータポイントを過度に適合させないことである。 この戦略は、神経モデルによるノイズサンプルの学習を防止し、モデルにクリーンサンプルの一般化を促すことで、ノイズラベルから学習する上で有用である。 本稿では,テキスト分類器が雑音ラベルに過度に適合しないようにコンテキストベース仮想敵訓練(convat)を提案する。 従来の手法とは異なり,提案手法は入力よりも文脈レベルで逆学習を行う。 分類器はそのラベルを学習するだけでなく、各データポイントの文脈意味を保存してノイズの多いラベルからの学習を緩和するコンテキスト近傍も学習させる。 2種類のラベルノイズを持つ4つのテキスト分類データセットについて広範な実験を行った。 包括的実験結果から,提案手法は極めてノイズの多い設定でも十分に機能することが明らかとなった。

Deep neural networks (DNNs) have a high capacity to completely memorize noisy labels given sufficient training time, and its memorization, unfortunately, leads to performance degradation. Recently, virtual adversarial training (VAT) attracts attention as it could further improve the generalization of DNNs in semi-supervised learning. The driving force behind VAT is to prevent the models from overfitting data points by enforcing consistency between the inputs and the perturbed inputs. This strategy could be helpful in learning from noisy labels if it prevents neural models from learning noisy samples while encouraging the models to generalize clean samples. In this paper, we propose context-based virtual adversarial training (ConVAT) to prevent a text classifier from overfitting to noisy labels. Unlike the previous works, the proposed method performs the adversarial training at the context level rather than the inputs. It makes the classifier not only learn its label but also its contextual neighbors, which alleviates the learning from noisy labels by preserving contextual semantics on each data point. We conduct extensive experiments on four text classification datasets with two types of label noises. Comprehensive experimental results clearly show that the proposed method works quite well even with extremely noisy settings.
翻訳日:2022-06-27 03:54:18 公開日:2022-05-29
# 言語習得によるマルチモーダル事前学習の多言語化

Generalizing Multimodal Pre-training into Multilingual via Language Acquisition ( http://arxiv.org/abs/2206.11091v1 )

ライセンス: Link先を確認
Liang Zhang, Anwen Hu, Qin Jin(参考訳) 英語のVision-Language Pre-Training (VLP)は、様々な下流タスクで大きな成功を収めている。 この成功を、M-VLP(Multilingual Vision-Language Pre-Training)を通じて、英語以外の言語に一般化する試みが行われている。 しかし、多くの言語があるため、m-vlpモデルは膨大な計算リソースを必要とし、柔軟に新しい言語に拡張できないことが多い。 本研究では,モノリンガルな視覚-言語事前学習モデルを多言語に容易に一般化できる,MLA(textbf{M}ulti\textbf{L}ingual \textbf{A}cquisition)フレームワークを提案する。 具体的には、最先端のモノリンガルVLPモデルに基づく軽量言語習得エンコーダを設計する。 さらに,言語習得エンコーダ,すなわちNative Language TransferステージとLanguage Exposureステージを最適化するための2段階のトレーニング戦略を提案する。 多言語学習データと計算リソースをはるかに少なくすることで,多言語画像テキストおよびビデオテキスト検索ベンチマークにおいて最先端のパフォーマンスを実現する。

English-based Vision-Language Pre-training (VLP) has achieved great success in various downstream tasks. Some efforts have been taken to generalize this success to non-English languages through Multilingual Vision-Language Pre-training (M-VLP). However, due to the large number of languages, M-VLP models often require huge computing resources and cannot be flexibly extended to new languages. In this work, we propose a \textbf{M}ulti\textbf{L}ingual \textbf{A}cquisition (MLA) framework that can easily generalize a monolingual Vision-Language Pre-training model into multilingual. Specifically, we design a lightweight language acquisition encoder based on state-of-the-art monolingual VLP models. We further propose a two-stage training strategy to optimize the language acquisition encoder, namely the Native Language Transfer stage and the Language Exposure stage. With much less multilingual training data and computing resources, our model achieves state-of-the-art performance on multilingual image-text and video-text retrieval benchmarks.
翻訳日:2022-06-26 12:13:04 公開日:2022-05-29
# BN-HTRd: 文書レベルのオフラインバングラ手書き文字認識(HTR)と行分割のためのベンチマークデータセット

BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla Handwritten Text Recognition (HTR) and Line Segmentation ( http://arxiv.org/abs/2206.08977v1 )

ライセンス: Link先を確認
Md. Ataur Rahman, Nazifa Tabassum, Mitu Paul, Riya Pal, Mohammad Khairul Islam(参考訳) 単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。 BN-HTRdデータセットはBBC Bangla News corpusに基づいている。 これらのテキストはその後、手書きの人々が記入した注釈を生成するのに使われた。 私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。 エンド・ツー・エンドの文書認識、単語スポッティング、単語や行のセグメンテーションなど、さまざまな手書き分類タスクの基盤として採用することができる。 また,Banglaの手書き文書画像を教師なしで対応する行に分割する手法を提案する。 ラインセグメンテーションのアプローチは,様々な書体スタイルの変動に対処し,複雑な手書きテキスト行のカービリニアな性質を正確にセグメンテーションする。 多くの前処理と形態演算とともに、ハフ線と円変換は異なる線形成分を区別するために用いられる。 これらのコンポーネントを対応するラインに配置するために、教師なしのクラスタリングアプローチに従いました。 我々のセグメンテーション手法の平均成功率は、平均平均精度(map)0.547のfmメトリクス(f-measureと類似)で81.57%である。

We introduce a new dataset for offline Handwritten Text Recognition (HTR) from images of Bangla scripts comprising words, lines, and document-level annotations. The BN-HTRd dataset is based on the BBC Bangla News corpus, meant to act as ground truth texts. These texts were subsequently used to generate the annotations that were filled out by people with their handwriting. Our dataset includes 788 images of handwritten pages produced by approximately 150 different writers. It can be adopted as a basis for various handwriting classification tasks such as end-to-end document recognition, word-spotting, word or line segmentation, and so on. We also propose a scheme to segment Bangla handwritten document images into corresponding lines in an unsupervised manner. Our line segmentation approach takes care of the variability involved in different writing styles, accurately segmenting complex handwritten text lines of curvilinear nature. Along with a bunch of pre-processing and morphological operations, both Hough line and circle transforms were employed to distinguish different linear components. In order to arrange those components into their corresponding lines, we followed an unsupervised clustering approach. The average success rate of our segmentation technique is 81.57% in terms of FM metrics (similar to F-measure) with a mean Average Precision (mAP) of 0.547.
翻訳日:2022-06-26 12:11:23 公開日:2022-05-29
# 消費者意思決定のための脳波信号の知的分析:ニューロマーケティングに関する研究

Intelligent analysis of EEG signals to assess consumer decisions: A Study on Neuromarketing ( http://arxiv.org/abs/2206.07484v1 )

ライセンス: Link先を確認
Nikunj Phutela, Abhilash P, Kaushik Sreevathsan, B N Krupa(参考訳) ニューロマーケティング(neuromarketing)は、神経科学とマーケティングを組み合わせることで、消費者の意思決定に影響を及ぼす要因を理解する新興分野である。 本研究は,脳波信号の分析により,消費者の広告(広告)や製品に対する肯定的・否定的な反応を理解する方法を提案する。 これらの信号を18〜22歳のボランティアから低コストの単電極ヘッドセットで記録する。 naive bayes (nb), support vector machine (svm), k-nearest neighbor and decision tree, and the proposed deep learning (dl) model などの機械学習手法を用いて,詳細な主観依存 (sd) と主観独立 (si) 分析を行った。 SVMとNBはSD解析の精度0.63(Acc.)を得た。 SI分析では、SVMは広告、製品、ジェンダーに基づく分析に優れていた。 さらに、DLモデルの性能は、特に製品および広告に基づく分析において、SVMと同等であった。

Neuromarketing is an emerging field that combines neuroscience and marketing to understand the factors that influence consumer decisions better. The study proposes a method to understand consumers' positive and negative reactions to advertisements (ads) and products by analysing electroencephalogram (EEG) signals. These signals are recorded using a low-cost single electrode headset from volunteers belonging to the ages 18-22. A detailed subject dependent (SD) and subject independent (SI) analysis was performed employing machine learning methods like Naive Bayes (NB), Support Vector Machine (SVM), k-nearest neighbour and Decision Tree and the proposed deep learning (DL) model. SVM and NB yielded an accuracy (Acc.) of 0.63 for the SD analysis. In SI analysis, SVM performed better for the advertisement, product and gender-based analysis. Furthermore, the performance of the DL model was on par with that of SVM, especially, in product and ads-based analysis.
翻訳日:2022-06-19 23:34:51 公開日:2022-05-29
# 1つの学習フレームワークで複数のタスクに取り組む

Tackling Multiple Tasks with One Single Learning Framework ( http://arxiv.org/abs/2206.06322v1 )

ライセンス: Link先を確認
Michael X. Yang(参考訳) Deep Multi-Task Learning (DMTL)は機械学習コミュニティで広く研究され、幅広い現実世界のアプリケーションに適用されている。 DMTLにおける最適知識共有の探索は、時間次元においてタスク関係が変化するため、逐次学習問題にとってより困難である。 本稿では、ニューラルネットワーク階層(階層軸)と時間変動タスク関係(時間軸)の最適共有を同時に検討する、階層的テンポラル活性化ネットワーク(HTAN)と呼ばれるフレキシブルで効率的なフレームワークを提案する。 HTANはタスク関係をエンコードする時間変動アクティベーション関数のセットを学習する。 さらに, DMTL性能を向上させるために, 変調SPDNetと逆学習による機能正規化を提案する。 HTAN-SPD フレームワークは逐次 DMTL において SOTA 手法よりも優れていることを示す。

Deep Multi-Task Learning (DMTL) has been widely studied in the machine learning community and applied to a broad range of real-world applications. Searching for the optimal knowledge sharing in DMTL is more challenging for sequential learning problems, as the task relationship will change in the temporal dimension. In this paper, we propose a flexible and efficient framework called HierarchicalTemporal Activation Network (HTAN) to simultaneously explore the optimal sharing of the neural network hierarchy (hierarchical axis) and the time-variant task relationship (temporal axis). HTAN learns a set of time-variant activation functions to encode the task relation. A functional regularization implemented by a modulated SPDNet and adversarial learning is further proposed to enhance the DMTL performance. Comprehensive experiments on several challenging applications demonstrate that our HTAN-SPD framework outperforms SOTA methods significantly in sequential DMTL.
翻訳日:2022-06-19 23:33:16 公開日:2022-05-29
# (参考訳) マイクロコントローラクラスのハードウェアのための機械学習

Machine Learning for Microcontroller-Class Hardware -- A Review ( http://arxiv.org/abs/2205.14550v1 )

ライセンス: CC BY 4.0
Swapnil Sayan Saha, Sandeep Singh Sandha, Mani Srivastava(参考訳) 機械学習の進歩は、マイクロコントローラのようなローエンドのインターネット・オブ・シング・ノードにインテリジェンスをもたらす新たな機会を開いた。 従来の機械学習デプロイメントはメモリと計算フットプリントが高く、超リソース制約のマイクロコントローラノードへの直接デプロイを妨げる。 本稿では,マイクロコントローラクラスデバイスにおいてオンボード機械学習を実現するという,ユニークな課題について述べる。 近年、研究者はリソース制限されたアプリケーションに特殊なモデル開発サイクルを使用して、計算と遅延の予算が所望の精度を維持しながら限界内にあることを保証している。 マイクロコントローラクラスデバイス向けの機械学習モデル開発に広く適用可能なクローズドループワークフローを導入し、アプリケーションのいくつかのクラスが特定のインスタンスを採用することを示す。 モデル開発における様々な段階に関する定性的および数値的な知見を,いくつかの応用例を示して提示する。 最後に,オープンリサーチの課題と未解決の課題を明らかにする。

The advancements in machine learning opened a new opportunity to bring intelligence to the low-end Internet-of-Things nodes such as microcontrollers. Conventional machine learning deployment has high memory and compute footprint hindering their direct deployment on ultra resource-constrained microcontroller nodes. This paper highlights the unique challenges of enabling onboard machine learning for microcontroller class devices. Recently, researchers have used a specialized model development cycle for resource-limited applications to ensure the compute and latency budget is within the limits while still maintaining the desired accuracy. We introduce a closed-loop widely applicable workflow of machine learning model development for microcontroller class devices and show that several classes of applications adopt a specific instance of it. We present both qualitative and numerical insights into different stages of model development by showcasing several applications. Finally, we identify the open research challenges and unsolved questions demanding careful considerations moving forward.
翻訳日:2022-06-04 17:21:46 公開日:2022-05-29
# (参考訳) ワンショット一般化のモデル

A Model of One-Shot Generalization ( http://arxiv.org/abs/2205.14553v1 )

ライセンス: CC BY 4.0
Thomas Laurent, James H. von Brecht, and Xavier Bresson(参考訳) ワンショット一般化と呼ばれる現象を研究するための理論的枠組みを提供する。 この現象は、アルゴリズムが1つのタスク内で転送学習を実行する能力を指しており、トレーニングセットに1つの例があるテストポイントを正しく分類することを意味する。 簡単なデータモデルを提案し、この現象を2つの方法で研究する。 まず,非漸近的ベースライン -- 最接近分類に基づくカーネルメソッドは,カーネルの選択やトレーニングセットのサイズとは無関係に,ワンショット一般化はできないことを証明した。 第2に、データモデルに対する最も直接的なニューラルネットワークアーキテクチャが、ほぼ完璧にワンショット一般化できることを実証的に示します。 この極端な差は、ワンショット一般化メカニズムがニューラルネットワークの実証的成功に部分的に責任があると信じている。

We provide a theoretical framework to study a phenomenon that we call one-shot generalization. This phenomenon refers to the ability of an algorithm to perform transfer learning within a single task, meaning that it correctly classifies a test point that has a single exemplar in the training set. We propose a simple data model and use it to study this phenomenon in two ways. First, we prove a non-asymptotic base-line -- kernel methods based on nearest-neighbor classification cannot perform one-shot generalization, independently of the choice of the kernel and the size of the training set. Second, we empirically show that the most direct neural network architecture for our data model performs one-shot generalization almost perfectly. This stark differential leads us to believe that the one-shot generalization mechanism is partially responsible for the empirical success of neural networks.
翻訳日:2022-06-04 16:31:38 公開日:2022-05-29
# (参考訳) 時間制約による映像雨滴除去

Feature-Aligned Video Raindrop Removal with Temporal Constraints ( http://arxiv.org/abs/2205.14574v1 )

ライセンス: CC BY 4.0
Wending Yan, Lu Xu, Wenhan Yang and Robby T. Tan(参考訳) 従来の雨滴除去法は雨滴の位置の検出に重点を置いており、塗装技術や生成ネットワークを使って雨滴の背景を復元している。 しかし、雨滴の大きさや外観が多様であるため、単一画像とビデオの両方において検出は困難である。 さらに、雨害とは異なり、雨滴は複数のフレームで同じ地域を覆う傾向にある。 これらの問題に対処するため,本手法では2段階の雨滴除去手法を用いる。 最初のステージは単一イメージモジュールで、初期クリーンな結果を生成する。 第2段階は多重フレームモジュールであり、プロセス中に複数の入力フレームを利用し、隣接する出力フレーム間の時間的一貫性を適用することにより、時間的制約を用いて初期結果をさらに洗練する。 我々の単一画像モジュールは、雨滴除去ネットワークを用いて、最初の雨滴除去結果を生成し、入力と初期出力の差を表すマスクを作成する。 マスクと連続フレームの初期結果が得られると、複数のフレームモジュールが画像レベルと特徴レベルの両方でフレームを整列し、クリーンな背景を得る。 本手法は最初, フレームのアライメントに光学的流れを用い, さらに変形可能な畳み込み層を用いて特徴レベルのフレームアライメントを実現する。 小さな雨滴を除去し、適切な背景を復元するために、隣接するフレームからターゲットフレームを予測する。 ビデオレインドロップ除去モジュールである第2ステージが,地上の真実を伴わずにビデオデータから自己学習できるように,教師なしの損失が提案されている。 実映像における実験結果から,本手法の定量的・質的性能が実証された。

Existing adherent raindrop removal methods focus on the detection of the raindrop locations, and then use inpainting techniques or generative networks to recover the background behind raindrops. Yet, as adherent raindrops are diverse in sizes and appearances, the detection is challenging for both single image and video. Moreover, unlike rain streaks, adherent raindrops tend to cover the same area in several frames. Addressing these problems, our method employs a two-stage video-based raindrop removal method. The first stage is the single image module, which generates initial clean results. The second stage is the multiple frame module, which further refines the initial results using temporal constraints, namely, by utilizing multiple input frames in our process and applying temporal consistency between adjacent output frames. Our single image module employs a raindrop removal network to generate initial raindrop removal results, and create a mask representing the differences between the input and initial output. Once the masks and initial results for consecutive frames are obtained, our multiple-frame module aligns the frames in both the image and feature levels and then obtains the clean background. Our method initially employs optical flow to align the frames, and then utilizes deformable convolution layers further to achieve feature-level frame alignment. To remove small raindrops and recover correct backgrounds, a target frame is predicted from adjacent frames. A series of unsupervised losses are proposed so that our second stage, which is the video raindrop removal module, can self-learn from video data without ground truths. Experimental results on real videos demonstrate the state-of-art performance of our method both quantitatively and qualitatively.
翻訳日:2022-06-04 16:30:25 公開日:2022-05-29
# (参考訳) GATに基づくCRFの平均場推定

Mean Field inference of CRFs based on GAT ( http://arxiv.org/abs/2205.15312v1 )

ライセンス: CC BY 4.0
LingHong Xing, XiangXiang Ma, GuangSheng Luo(参考訳) 本稿では,完全連結対crfsモデルに対する平均場推定法の改良を提案する。 改良された方法では、メッセージパッシング操作を元の線形畳み込みから現在のグラフアテンション操作に変更し、推論アルゴリズムの処理をGATモデルの前方処理に変換する。 平均場推定ラベル分布と組み合わせると、単項ポテンシャルのみを持つ分類器の出力と同値である。 そこで本研究では,残差構造を有するグラフ注意ネットワークモデルを提案し,ピクセルレベルの画像意味セグメンテーションタスクやテキストアノテーションタスクなど,すべてのシーケンスアノテーションタスクに適用可能なモデルアプローチを提案する。

In this paper we propose an improved mean-field inference algorithm for the fully connected paired CRFs model. The improved method Message Passing operation is changed from the original linear convolution to the present graph attention operation, while the process of the inference algorithm is turned into the forward process of the GAT model. Combined with the mean-field inferred label distribution, it is equivalent to the output of a classifier with only unary potential. To this end, we propose a graph attention network model with residual structure, and the model approach is applicable to all sequence annotation tasks, such as pixel-level image semantic segmentation tasks as well as text annotation tasks.
翻訳日:2022-06-04 16:12:31 公開日:2022-05-29
# (参考訳) 受容トークンを用いたマスク蒸留

Masked Distillation with Receptive Tokens ( http://arxiv.org/abs/2205.14589v1 )

ライセンス: CC BY 4.0
Tao Huang, Yuan Zhang, Shan You, Fei Wang, Chen Qian, Jian Cao, Chang Xu(参考訳) 特徴マップからの蒸留は,特徴判別性と局所化前処理の両方を良好に伝達できるため,濃密な予測タスクにかなり有効である。 しかし、すべてのピクセルがパフォーマンスに等しく貢献する訳ではなく、良い生徒は教師にとって本当に重要なことから学ぶべきである。 本稿では,これらの興味のピクセル(pois)を特徴マップにローカライズするためのレセプティブトークン(receptive token)と呼ばれる学習可能な埋め込みについて紹介する。 そして、その蒸留を画素単位で再構築することで行う。 このようにして、蒸留マスクは実際に教師の特徴地図内の画素依存性のパターンを示す。 そこで我々は,より精巧で有益なピクセル依存性を調査し,蒸留をさらに強化するために,複数の受容トークンを採用する。 マスクの集合を得るためには,通常のタスク損失ではなく教師の固定によって受容トークンを学習し,またDice損失を利用して学習マスクの多様性を向上する。 MasKDと呼ばれる手法はシンプルで実用的であり,アプリケーション内でのタスクの事前処理は不要である。 実験の結果、マスキングはオブジェクト検出とセマンティクスセグメンテーションベンチマークで一貫して最先端のパフォーマンスを達成できることがわかった。 コードは、https://github.com/hunto/MasKD で入手できる。

Distilling from the feature maps can be fairly effective for dense prediction tasks since both the feature discriminability and localization priors can be well transferred. However, not every pixel contributes equally to the performance, and a good student should learn from what really matters to the teacher. In this paper, we introduce a learnable embedding dubbed receptive token to localize those pixels of interests (PoIs) in the feature map, with a distillation mask generated via pixel-wise attention. Then the distillation will be performed on the mask via pixel-wise reconstruction. In this way, a distillation mask actually indicates a pattern of pixel dependencies within feature maps of teacher. We thus adopt multiple receptive tokens to investigate more sophisticated and informative pixel dependencies to further enhance the distillation. To obtain a group of masks, the receptive tokens are learned via the regular task loss but with teacher fixed, and we also leverage a Dice loss to enrich the diversity of learned masks. Our method dubbed MasKD is simple and practical, and needs no priors of tasks in application. Experiments show that our MasKD can achieve state-of-the-art performance consistently on object detection and semantic segmentation benchmarks. Code is available at: https://github.com/hunto/MasKD .
翻訳日:2022-06-04 16:05:09 公開日:2022-05-29
# (参考訳) BiasEnsemble: バイアス除去の重要性を再考する

BiasEnsemble: Revisiting the Importance of Amplifying Bias for Debiasing ( http://arxiv.org/abs/2205.14594v1 )

ライセンス: CC BY 4.0
Jungsoo Lee, Jeonghoon Park, Daeyoung Kim, Juyoung Lee, Edward Choi, Jaegul Choo(参考訳) 画像分類において、"debiasing"は、データセットバイアスや、データサンプルの周辺属性とターゲットクラスとの強い相関性が低いように分類器を訓練することを目的としている。 例えば、データセット内のカエルクラスが主に湿地背景のカエル画像(例えばバイアスアライメントサンプル)で構成されている場合でも、デバイアス分類器は、ビーチでカエルを正しく分類することができる(すなわちバイアスコンプライシングサンプル)。 最近のデバイアス化アプローチでは、デバイアス化に一般的に2つのコンポーネント、バイアスモデル$f_B$とデバイアスモデル$f_D$が使用される。 $f_B$はバイアスアライメントされたサンプルにフォーカスするように訓練されているが、$f_D$は主に、$f_B$が学習に失敗するサンプルに集中することでバイアスコンフリクトなサンプルでトレーニングされている。 最先端のデバイアス技術は$f_D$をトレーニングすることを目的としていますが、これまで見落とされたコンポーネントである$f_B$のトレーニングに重点を置いています。 実験分析の結果,f_B$のトレーニングセットからバイアス分散サンプルを除去することが,f_D$の劣化性能向上に重要であることがわかった。 これは、バイアス競合サンプルが$f_b$のバイアスを増幅するためにノイズサンプルとして動作するという事実による。 そこで本研究では,新たなバイアスサンプル選択法であるbiasensembleを提案する。バイアス強調モデルを用いて,$f_b$をトレーニングするためのバイアス増幅データセットを構築することにより,バイアス強調サンプルを除去する。 当社のシンプルかつ効果的なアプローチは、既存の重み付けベースのデバイアスアプローチに直接適用でき、一貫したパフォーマンス向上と、合成データと実世界のデータセットの両方における最先端のパフォーマンスを達成することができます。

In image classification, "debiasing" aims to train a classifier to be less susceptible to dataset bias, the strong correlation between peripheral attributes of data samples and a target class. For example, even if the frog class in the dataset mainly consists of frog images with a swamp background (i.e., bias-aligned samples), a debiased classifier should be able to correctly classify a frog at a beach (i.e., bias-conflicting samples). Recent debiasing approaches commonly use two components for debiasing, a biased model $f_B$ and a debiased model $f_D$. $f_B$ is trained to focus on bias-aligned samples while $f_D$ is mainly trained with bias-conflicting samples by concentrating on samples which $f_B$ fails to learn, leading $f_D$ to be less susceptible to the dataset bias. While the state-of-the-art debiasing techniques have aimed to better train $f_D$, we focus on training $f_B$, an overlooked component until now. Our empirical analysis reveals that removing the bias-conflicting samples from the training set for $f_B$ is important for improving the debiasing performance of $f_D$. This is due to the fact that the bias-conflicting samples work as noisy samples for amplifying the bias for $f_B$. To this end, we propose a novel biased sample selection method BiasEnsemble which removes the bias-conflicting samples via leveraging additional biased models to construct a bias-amplified dataset for training $f_B$. Our simple yet effective approach can be directly applied to existing reweighting-based debiasing approaches, obtaining consistent performance boost and achieving the state-of-the-art performance on both synthetic and real-world datasets.
翻訳日:2022-06-04 15:51:02 公開日:2022-05-29
# (参考訳) 残留ニューラルネットワークはニューラル正規微分方程式を識別するか?

Do Residual Neural Networks discretize Neural Ordinary Differential Equations? ( http://arxiv.org/abs/2205.14612v1 )

ライセンス: CC BY 4.0
Michael E. Sander, Pierre Ablin and Gabriel Peyr\'e(参考訳) 神経常微分方程式(neural ordinary differential equation、neural odes)は、残留ニューラルネットワーク(resnets)の連続アナログである。 本研究では,resnetによって定義される離散ダイナミクスが,神経odeの連続的なダイナミクスに近いかどうかを調べる。 まず、resnetの隠れた状態軌道と対応する神経odeの解との間の距離を定量化する。 我々の境界は厳密であり、負の側では、残関数が深さが滑らかでなければ、深さ N で 0 に近づかない。 正の面から、この滑らかさは線形残留関数と十分小さい初期損失を持つResNetの勾配降下によって保存されることを示す。 N 上 1 の速度で制限されたニューラルODE に対して暗黙の正規化を保証し、深さと最適化時間を均一に行う。 本分析の副産物として,ネットワークの後方通過を介してフライ上のアクティベーションを回復することにより,再ネットを訓練するためにメモリフリーな離散随伴法を用いることを検討し,残余関数が入力のリプシッツである場合,理論的に大深度で成功することを示す。 次に,2次ODE積分法であるHunの手法により,残関数が深さの滑らかな場合の随伴法による勾配推定がより良くなることを示す。 実験により, 随伴法が大深度で成功し, ヒューン法が成功するためにはより少ない層を必要とすることを確認した。 我々は最後に、残層におけるメモリ消費を伴わずに非常に深いResNetを微調整するために、adjointメソッドをうまく利用した。

Neural Ordinary Differential Equations (Neural ODEs) are the continuous analog of Residual Neural Networks (ResNets). We investigate whether the discrete dynamics defined by a ResNet are close to the continuous one of a Neural ODE. We first quantify the distance between the ResNet's hidden state trajectory and the solution of its corresponding Neural ODE. Our bound is tight and, on the negative side, does not go to 0 with depth N if the residual functions are not smooth with depth. On the positive side, we show that this smoothness is preserved by gradient descent for a ResNet with linear residual functions and small enough initial loss. It ensures an implicit regularization towards a limit Neural ODE at rate 1 over N, uniformly with depth and optimization time. As a byproduct of our analysis, we consider the use of a memory-free discrete adjoint method to train a ResNet by recovering the activations on the fly through a backward pass of the network, and show that this method theoretically succeeds at large depth if the residual functions are Lipschitz with the input. We then show that Heun's method, a second order ODE integration scheme, allows for better gradient estimation with the adjoint method when the residual functions are smooth with depth. We experimentally validate that our adjoint method succeeds at large depth, and that Heun method needs fewer layers to succeed. We finally use the adjoint method successfully for fine-tuning very deep ResNets without memory consumption in the residual layers.
翻訳日:2022-06-04 15:31:59 公開日:2022-05-29
# (参考訳) 外分布データを用いた全スライド画像の頸腺細胞検出

Cervical Glandular Cell Detection from Whole Slide Image with Out-Of-Distribution Data ( http://arxiv.org/abs/2205.14625v1 )

ライセンス: CC BY 4.0
Ziquan Wei, Shenghua Cheng, Xiuli Liu and Shaoqun Zeng(参考訳) 頸部腺癌スクリーニングのコンピュータ診断において,頸部腺細胞(gc)の検出は重要なステップである。 扁平上皮が主要細胞である頚椎スミアのGCを正確に認識することは困難である。 スメア全体に存在するout-of-distribution(ood)データは、gc検出のための機械学習システムの信頼性を低下させる。 しかし,SOTA(State-Of-The-Art)深層学習モデルでは,興味のある領域の病理学者よりも高い確率でFP(Mass False Positive)予測を行うことができた。 本稿では,8つの隣り合う自己注意機構を用いてFP問題を解こうとするGCのモルフォロジー的事前知識に基づく新しいPolarNetを提案する。 これはGCの核の極方向を推定する。 プラグインモジュールとして、PolarNetは深い機能と一般的なオブジェクト検出モデルの信頼性をガイドすることができる。 実験の結果, 4つの異なるフレームワークをベースとした一般的なモデルでは, FPを小さな画像集合で拒否し, 平均精度(mAP)を$\text{0.007}\sim\text{0.015}$で向上させることができることがわかった。 PolarNetをプラグインすることで、デプロイされたC++プログラムは、外部WSIからの上位20個のGC検出の精度を8.8\%向上し、計算時間14.4秒を犠牲にした。 コードは \href{https://github.com/Chrisa142857/PolarNet-GCdet}{https://github.com/Chrisa142857/PolarNet-GCdet} で公開されている。

Cervical glandular cell (GC) detection is a key step in computer-aided diagnosis for cervical adenocarcinomas screening. It is challenging to accurately recognize GCs in cervical smears in which squamous cells are the major. Widely existing Out-Of-Distribution (OOD) data in the entire smear leads decreasing reliability of machine learning system for GC detection. Although, the State-Of-The-Art (SOTA) deep learning model can outperform pathologists in preselected regions of interest, the mass False Positive (FP) prediction with high probability is still unsolved when facing such gigapixel whole slide image. This paper proposed a novel PolarNet based on the morphological prior knowledge of GC trying to solve the FP problem via a self-attention mechanism in eight-neighbor. It estimates the polar orientation of nucleus of GC. As a plugin module, PolarNet can guide the deep feature and predicted confidence of general object detection models. In experiments, we discovered that general models based on four different frameworks can reject FP in small image set and increase the mean of average precision (mAP) by $\text{0.007}\sim\text{0.015}$ in average, where the highest exceeds the recent cervical cell detection model 0.037. By plugging PolarNet, the deployed C++ program improved by 8.8\% on accuracy of top-20 GC detection from external WSIs, while sacrificing 14.4 s of computational time. Code is available in \href{https://github.com/Chrisa142857/PolarNet-GCdet}{https://github.com/Chrisa142857/PolarNet-GCdet}.
翻訳日:2022-06-04 14:20:22 公開日:2022-05-29
# (参考訳) 物理活性化関数(PAFs):物理インフォームドニューラルネットワーク(PINNs)へのより効率的な物理誘導のためのアプローチ

Physical Activation Functions (PAFs): An Approach for More Efficient Induction of Physics into Physics-Informed Neural Networks (PINNs) ( http://arxiv.org/abs/2205.14630v1 )

ライセンス: CC BY 4.0
Jassem Abbasi (1), P{\aa}l {\O}steb{\o} Andersen (1) ((1) University of Stavanger)(参考訳) 近年,科学計算におけるディープラーニング(DL)手法と解析的あるいは数値的アプローチのギャップは,物理情報ニューラルネットワーク(PINN)の進化によって埋められている。 しかしながら、PINNのトレーニングや物理モデルの最適インターリーブには、多くの複雑さがある。 本稿では,Physical Activation Function(PAF)の概念を紹介した。 この概念は、すべてのニューロンにReLU、tanh、sigmoidのような一般的な活性化関数(AF)を使う代わりに、それらの数学的表現が研究現象の物理法則から受け継がれるような一般的なAFを使用することができる。 PAFの公式は、問題の解析解における項にインスピレーションを与えることができる。 PDEシステムの初期条件や境界条件のような調査現象に関連する数学的公式にインスピレーションを与えることができることを示した。 本研究では,高調波振動,バーガー,対流対流方程式,不均質拡散方程式を含む複数のpdesに対するpafの利点を検証する。 PAFの主な利点は、物理現象とその基礎となる数学的モデルの調査と、PINNのより効率的な制約とインターリーブであった。 この制約により、トレーニング外分布のテストデータに対するpinnの予測が大幅に改善された。 さらに, PAFの適用により, PINNのサイズが75%まで減少した。 また、ピンのトレーニングのアップグレードに特筆すべきケースでは、損失項の値が1桁から2桁削減された。 最適な値を見つけるのに必要なイテレーションも大幅に削減された。 PAFの使用は、より複雑なPINNの生成に役立ち、より長い範囲の予測に有効である、と結論付けている。

In recent years, the gap between Deep Learning (DL) methods and analytical or numerical approaches in scientific computing is tried to be filled by the evolution of Physics-Informed Neural Networks (PINNs). However, still, there are many complications in the training of PINNs and optimal interleaving of physical models. Here, we introduced the concept of Physical Activation Functions (PAFs). This concept offers that instead of using general activation functions (AFs) such as ReLU, tanh, and sigmoid for all the neurons, one can use generic AFs that their mathematical expression is inherited from the physical laws of the investigating phenomena. The formula of PAFs may be inspired by the terms in the analytical solution of the problem. We showed that the PAFs can be inspired by any mathematical formula related to the investigating phenomena such as the initial or boundary conditions of the PDE system. We validated the advantages of PAFs for several PDEs including the harmonic oscillations, Burgers, Advection-Convection equation, and the heterogeneous diffusion equations. The main advantage of PAFs was in the more efficient constraining and interleaving of PINNs with the investigating physical phenomena and their underlying mathematical models. This added constraint significantly improved the predictions of PINNs for the testing data that was out-of-training distribution. Furthermore, the application of PAFs reduced the size of the PINNs up to 75% in different cases. Also, the value of loss terms was reduced by 1 to 2 orders of magnitude in some cases which is noteworthy for upgrading the training of the PINNs. The iterations required for finding the optimum values were also significantly reduced. It is concluded that using the PAFs helps in generating PINNs with less complexity and much more validity for longer ranges of prediction.
翻訳日:2022-06-04 13:43:54 公開日:2022-05-29
# (参考訳) anchor prediction: トピックモデリングアプローチ

Anchor Prediction: A Topic Modeling Approach ( http://arxiv.org/abs/2205.14631v1 )

ライセンス: CC BY 4.0
Jean Dupuy, Adrien Guille and Julien Jacques(参考訳) ウィキペディアのようなハイパーリンクで接続されたドキュメントのネットワークはユビキタスである。 ハイパーリンクは著者によって挿入され、テキストを充実させ、ネットワーク経由のナビゲーションを容易にする。 しかし、著者は関連するハイパーリンクのほんの一部だけを挿入する傾向がある。 本稿では,アンカー予測と呼ばれるアノテーションについて述べる。 概念的には、リンク予測やエンティティリンクに近いが、それを解決するのに特定の方法を開発する必要があるタスクである。 ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクは、ソースドキュメント内のアンカーを自動的に識別する。 本研究では,ソース文書中のアンカーの局所的コンテキストと対象文書の全内容の関数として,文書間の指向されたリンクをモデル化するコンテキスト化関係トピックモデルcrtmを提案する。 このモデルは、先の言及やタイトルの辞書や外部の知識グラフに頼ることなく、対象ドキュメントに与えられたソースドキュメント内のアンカーを予測するために使うことができる。 作者は、新しいドキュメントと接続すべきターゲットドキュメントセットを指定して、ハイパーリンクを自動的に提案することで、CRTMの恩恵を受けることができる。 また、読んでいるドキュメントの間にハイパーリンクを動的に挿入することで、読者にもメリットがあります。 いくつかのウィキペディアコーパス(英語、イタリア語、ドイツ語)で実施された実験は、アンカー予測の実用的有用性を強調し、我々のアプローチの妥当性を示す。

Networks of documents connected by hyperlinks, such as Wikipedia, are ubiquitous. Hyperlinks are inserted by the authors to enrich the text and facilitate the navigation through the network. However, authors tend to insert only a fraction of the relevant hyperlinks, mainly because this is a time consuming task. In this paper we address an annotation, which we refer to as anchor prediction. Even though it is conceptually close to link prediction or entity linking, it is a different task that require developing a specific method to solve it. Given a source document and a target document, this task consists in automatically identifying anchors in the source document, i.e words or terms that should carry a hyperlink pointing towards the target document. We propose a contextualized relational topic model, CRTM, that models directed links between documents as a function of the local context of the anchor in the source document and the whole content of the target document. The model can be used to predict anchors in a source document, given the target document, without relying on a dictionary of previously seen mention or title, nor any external knowledge graph. Authors can benefit from CRTM, by letting it automatically suggest hyperlinks, given a new document and the set of target document to connect to. It can also benefit to readers, by dynamically inserting hyperlinks between the documents they're reading. Experiments conducted on several Wikipedia corpora (in English, Italian and German) highlight the practical usefulness of anchor prediction and demonstrate the relevancy of our approach.
翻訳日:2022-06-04 13:05:54 公開日:2022-05-29
# (参考訳) 音声認識を用いた話者識別

Speaker Identification using Speech Recognition ( http://arxiv.org/abs/2205.14649v1 )

ライセンス: CC BY 4.0
Syeda Rabia Arshad, Syed Mujtaba Haider, Abdul Basit Mughal(参考訳) 音声データは、電話の会話、ビデオ会議、ボイスメッセージの増加と共に、世界中で日々増加している。 本研究は、ピッチ、振幅、周波数などの人間の声の生体特性に基づいて、音声ファイル内の話者を識別するメカニズムを提供する。 限られたデータセットで音声表現を学習できる教師なし学習モデルを提案する。 この研究でlibrispeechデータセットが使われ,単語誤り率1.8。

The audio data is increasing day by day throughout the globe with the increase of telephonic conversations, video conferences and voice messages. This research provides a mechanism for identifying a speaker in an audio file, based on the human voice biometric features like pitch, amplitude, frequency etc. We proposed an unsupervised learning model where the model can learn speech representation with limited dataset. Librispeech dataset was used in this research and we were able to achieve word error rate of 1.8.
翻訳日:2022-06-04 12:48:54 公開日:2022-05-29
# (参考訳) グラフオートエンコーダによる表現学習への貢献と音楽推薦への応用

Contributions to Representation Learning with Graph Autoencoders and Applications to Music Recommendation ( http://arxiv.org/abs/2205.14651v1 )

ライセンス: CC BY 4.0
Guillaume Salha-Galvan(参考訳) グラフオートエンコーダ(GAE)と変分グラフオートエンコーダ(VGAE)は、教師なしノード埋め込み法の2つの強力なグループとして出現し、リンク予測やコミュニティ検出といったグラフベースの機械学習問題に様々な応用を行った。 それでも、このPh.D.プロジェクトの初期には、GAEとVGAEのモデルも重要な制約に悩まされ、業界で採用されるのを防いだ。 本論文では,グラフ表現を含む産業レベルの問題に対処するために,これらのモデルを改善するためのいくつかの貢献について述べる。 まず,従来のGAEモデルとVGAEモデルのスケーラビリティ問題を克服し,数百万のノードとエッジを持つ大規模グラフ上でこれらのモデルを効果的にトレーニングする2つの戦略を提案する。 これらの戦略はグラフデジェネラシーと確率サブグラフデコード手法をそれぞれ活用している。 さらに,産業用途に広く普及している有向グラフに対して,これらのモデルの最初の拡張を提供するGravity-Inspired GAEとVGAEを紹介する。 また、動的グラフに対するGAEおよびVGAEモデルの拡張についても検討する。 さらに,GAEモデルとVGAEモデルは必要以上に複雑であり,線形エンコーダを応用してそれらを単純化することを提案する。 最後に,グラフ上のコミュニティ検出を改善するためにモジュール性を考慮したGAEとVGAEを導入した。 本論文の最後に,音楽ストリーミングサービスdeezerから抽出した複数のグラフについて評価を行った。 グラフに基づく音楽レコメンデーション問題に重点を置いている。 特に,本手法は,利用者に推奨する類似楽曲のコミュニティの検出を改善するとともに,類似アーティストをコールド・スタート・セッティングで効果的にランク付けし,文化をまたいだ音楽ジャンルの認識をモデル化できることを示す。

Graph autoencoders (GAE) and variational graph autoencoders (VGAE) emerged as two powerful groups of unsupervised node embedding methods, with various applications to graph-based machine learning problems such as link prediction and community detection. Nonetheless, at the beginning of this Ph.D. project, GAE and VGAE models were also suffering from key limitations, preventing them from being adopted in the industry. In this thesis, we present several contributions to improve these models, with the general aim of facilitating their use to address industrial-level problems involving graph representations. Firstly, we propose two strategies to overcome the scalability issues of previous GAE and VGAE models, permitting to effectively train these models on large graphs with millions of nodes and edges. These strategies leverage graph degeneracy and stochastic subgraph decoding techniques, respectively. Besides, we introduce Gravity-Inspired GAE and VGAE, providing the first extensions of these models for directed graphs, that are ubiquitous in industrial applications. We also consider extensions of GAE and VGAE models for dynamic graphs. Furthermore, we argue that GAE and VGAE models are often unnecessarily complex, and we propose to simplify them by leveraging linear encoders. Lastly, we introduce Modularity-Aware GAE and VGAE to improve community detection on graphs, while jointly preserving good performances on link prediction. In the last part of this thesis, we evaluate our methods on several graphs extracted from the music streaming service Deezer. We put the emphasis on graph-based music recommendation problems. In particular, we show that our methods can improve the detection of communities of similar musical items to recommend to users, that they can effectively rank similar artists in a cold start setting, and that they permit modeling the music genre perception across cultures.
翻訳日:2022-06-04 12:44:34 公開日:2022-05-29
# (参考訳) COFS:制御可能な家具レイアウト合成

COFS: Controllable Furniture layout Synthesis ( http://arxiv.org/abs/2205.14657v1 )

ライセンス: CC BY 4.0
Wamiq Reyaz Para, Paul Guerrero, Niloy Mitra, Peter Wonka(参考訳) 家具レイアウトのスケーラブルな生成は、仮想現実、拡張現実、ゲーム開発、合成データ生成といった多くのアプリケーションで不可欠である。 既存の多くの手法では、レイアウトの要素に特定の順序を課すシーケンス生成問題としてこの問題に対処しており、インタラクティブな編集やシーン補完には実用的ではない。 さらに、ほとんどのメソッドは無条件にレイアウトを生成し、生成されたレイアウトに対する最小限の制御を提供する。 言語モデリングから標準トランスフォーマーアーキテクチャブロックに基づくアーキテクチャであるCOFSを提案する。 提案したモデルは、オブジェクト生成順序を指定するという不自然な要求を排除し、設計によってオブジェクト順序に不変である。 さらに、このモデルは複数のレベルでのユーザインタラクションを可能にし、生成プロセスのきめ細かい制御を可能にする。 我々のモデルは、定量的評価によって検証する他の方法よりも一貫して優れている。 既存の方法と比較して,本手法はトレーニングやサンプリングも高速である。

Scalable generation of furniture layouts is essential for many applications in virtual reality, augmented reality, game development and synthetic data generation. Many existing methods tackle this problem as a sequence generation problem which imposes a specific ordering on the elements of the layout making such methods impractical for interactive editing or scene completion. Additionally, most methods focus on generating layouts unconditionally and offer minimal control over the generated layouts. We propose COFS, an architecture based on standard transformer architecture blocks from language modeling. The proposed model is invariant to object order by design, removing the unnatural requirement of specifying an object generation order. Furthermore, the model allows for user interaction at multiple levels enabling fine grained control over the generation process. Our model consistently outperforms other methods which we verify by performing quantitative evaluations. Our method is also faster to train and sample from, compared to existing methods.
翻訳日:2022-06-04 12:42:51 公開日:2022-05-29
# (参考訳) SemEval-2022タスク11におけるSFE-AI:大規模事前学習言語モデルを用いた低リソース名前付きエンティティ認識

SFE-AI at SemEval-2022 Task 11: Low-Resource Named Entity Recognition using Large Pre-trained Language Models ( http://arxiv.org/abs/2205.14660v1 )

ライセンス: CC BY 4.0
Changyu Hou, Jun Wang, Yixuan Qiao, Peng Jiang, Peng Gao, Guotong Xie, Qizhi Lin, Xiaopeng Wang, Xiandi Jiang, Benqi Wang, Qifeng Xiao(参考訳) 大規模事前学習モデルは、名前付きエンティティ認識(NER)タスクで広く使われている。 しかし、パラメータ平均化や投票によるモデルアンサンブルは、特にオープンドメインにおいて異なるモデルの差別化の利点をフルに発揮することはできない。 本稿では,SemEval 2022 task11: MultiCoNERのNERシステムについて述べる。 本研究では,トランスフォーマー層による事前学習言語モデルを適応的にアンサンブルする効果的なシステムを提案する。 異なる入力に対して各モデルに異なる重みを割り当てることで、様々なモデルの利点を効果的に統合するためにトランスフォーマー層を採用した。 実験結果から,本手法はFarsiとオランダで優れた性能を発揮することが示された。

Large scale pre-training models have been widely used in named entity recognition (NER) tasks. However, model ensemble through parameter averaging or voting can not give full play to the differentiation advantages of different models, especially in the open domain. This paper describes our NER system in the SemEval 2022 task11: MultiCoNER. We proposed an effective system to adaptively ensemble pre-trained language models by a Transformer layer. By assigning different weights to each model for different inputs, we adopted the Transformer layer to integrate the advantages of diverse models effectively. Experimental results show that our method achieves superior performances in Farsi and Dutch.
翻訳日:2022-06-04 12:41:48 公開日:2022-05-29
# (参考訳) 現代データ集約型アプリケーションのための異種データ中心アーキテクチャ--機械学習とデータベースのケーススタディ

Heterogeneous Data-Centric Architectures for Modern Data-Intensive Applications: Case Studies in Machine Learning and Databases ( http://arxiv.org/abs/2205.14664v1 )

ライセンス: CC BY 4.0
Geraldo F. Oliveira and Amirali Boroumand and Saugata Ghose and Juan G\'omez-Luna and Onur Mutlu(参考訳) 今日のコンピューティングシステムでは、計算リソース(CPU、GPU、アクセラレータなど)とオフチップのメインメモリの間でデータを移動させ、データ上で計算を行う必要がある。 残念ながら、このデータ移動はシステム性能とエネルギー消費の大きなボトルネックとなっている。 現代の新興アプリケーションにおけるデータ移動のボトルネックを緩和する有望な実行パラダイムの1つが processing-in-memory (pim) である。 データ集約的なワークロードを加速するためにPIMをネイティブに採用することは、PIM基板が課す多くの設計制約のために、最適以下のパフォーマンスをもたらす可能性がある。 そのため、近年の多くの研究がPIMアクセラレーターとアルゴリズムを共同設計し、性能の向上とエネルギー消費の削減を図っている。 (i)各種出願ドメインからの出願、及び (i)クラウドシステム、モバイルシステム、エッジデバイスを含む様々なコンピューティング環境。 我々は,(1)エッジデバイス向け機械学習推論モデル,(2)クラウドシステム用ハイブリッドトランザクション/分析処理データベースの2つの近代データ集約型アプリケーションにおいて,PIMパラダイムを効果的に活用する,協調設計アルゴリズムとハードウェアの利点を紹介する。 我々はシステム設計における2段階のアプローチに従う。 最初のステップでは、各アプリケーションの計算およびメモリアクセスパターンを広範囲に分析し、ハードウェア/ソフトウェア要件とプロセッサ中心システムにおけるパフォーマンスおよびエネルギーボトルネックの主な原因について洞察を得る。 第2ステップでは,第1ステップからの洞察を,アルゴリズムとハードウェアアクセラレータの共同設計に活用して,アプリケーション毎に高性能でエネルギー効率の高いデータ中心アーキテクチャを実現する。

Today's computing systems require moving data back-and-forth between computing resources (e.g., CPUs, GPUs, accelerators) and off-chip main memory so that computation can take place on the data. Unfortunately, this data movement is a major bottleneck for system performance and energy consumption. One promising execution paradigm that alleviates the data movement bottleneck in modern and emerging applications is processing-in-memory (PIM), where the cost of data movement to/from main memory is reduced by placing computation capabilities close to memory. Naively employing PIM to accelerate data-intensive workloads can lead to sub-optimal performance due to the many design constraints PIM substrates impose. Therefore, many recent works co-design specialized PIM accelerators and algorithms to improve performance and reduce the energy consumption of (i) applications from various application domains; and (ii) various computing environments, including cloud systems, mobile systems, and edge devices. We showcase the benefits of co-designing algorithms and hardware in a way that efficiently takes advantage of the PIM paradigm for two modern data-intensive applications: (1) machine learning inference models for edge devices and (2) hybrid transactional/analytical processing databases for cloud systems. We follow a two-step approach in our system design. In the first step, we extensively analyze the computation and memory access patterns of each application to gain insights into its hardware/software requirements and major sources of performance and energy bottlenecks in processor-centric systems. In the second step, we leverage the insights from the first step to co-design algorithms and hardware accelerators to enable high-performance and energy-efficient data-centric architectures for each application.
翻訳日:2022-06-04 12:36:45 公開日:2022-05-29
# (参考訳) ゲームプレイと最適停止によるセキュリティ戦略の学習

Learning Security Strategies through Game Play and Optimal Stopping ( http://arxiv.org/abs/2205.14694v1 )

ライセンス: CC BY-SA 4.0
Kim Hammar and Rolf Stadler(参考訳) 強化学習を用いた自動侵入防止について検討した。 新たなアプローチとして,攻撃者と防御者の相互作用を最適な停止ゲームとして定式化し,強化学習と自己遊びを通じて攻撃と防御戦略を進化させる。 ゲーム理論の観点では、動的攻撃者に対して効果的な防御戦略を見つけることができる。 最適停止定式化は,しきい値特性を有することを示す最適戦略の構造に関する洞察を与える。 最適な防御戦略を得るために,確率近似によりナッシュ平衡を学習する架空の自己再生アルゴリズムであるt-fpを提案する。 我々は,T-FPが我々のユースケースに対して最先端のアルゴリズムより優れていることを示す。 戦略を学習し評価するための総合的な手法は、ディフェンダー戦略を漸進的に学習するシミュレーションシステムと、シミュレーションを実行する統計を生成するエミュレーションシステムと、学習戦略を評価するエミュレーションシステムである。 このアプローチは、実用的なITインフラのための効果的なディフェンダー戦略を生み出すことができると結論付けている。

We study automated intrusion prevention using reinforcement learning. Following a novel approach, we formulate the interaction between an attacker and a defender as an optimal stopping game and let attack and defense strategies evolve through reinforcement learning and self-play. The game-theoretic perspective allows us to find defender strategies that are effective against dynamic attackers. The optimal stopping formulation gives us insight into the structure of optimal strategies, which we show to have threshold properties. To obtain the optimal defender strategies, we introduce T-FP, a fictitious self-play algorithm that learns Nash equilibria through stochastic approximation. We show that T-FP outperforms a state-of-the-art algorithm for our use case. Our overall method for learning and evaluating strategies includes two systems: a simulation system where defender strategies are incrementally learned and an emulation system where statistics are produced that drive simulation runs and where learned strategies are evaluated. We conclude that this approach can produce effective defender strategies for a practical IT infrastructure.
翻訳日:2022-06-04 12:19:58 公開日:2022-05-29
# (参考訳) 不均一処理効果の推定:機械学習が複数の治療体制を満たすとき

Heterogeneous Treatment Effects Estimation: When Machine Learning meets multiple treatment regime ( http://arxiv.org/abs/2205.14714v1 )

ライセンス: CC BY 4.0
Naoufal Acharki and Josselin Garnier and Antoine Bertoncello and Ramiro Lugo(参考訳) 多くの科学・工学分野において、治療の効果を推測し、その多様性を探求することは最適化と意思決定に不可欠である。 機械学習に基づくモデル(例えばランダムフォレストやニューラルネットワーク)に加えて、バイナリ設定における条件付き平均処理効果(cate)関数を推定するために多くのメタアルゴリズムが開発されている。 しかし、処理がバイナリでない場合、このタスクはより困難になる。 本稿では,多処理体制下でのルービン因果モデルについて検討し,不均一な治療効果の推定に着目する。 我々は,<textit{meta-learning}アルゴリズムを一般化し,治療値ごとにcateを推定する。 合成および半合成シミュレーションデータセットを用いて,観察データにおける各メタリーナーの品質を評価し,特にxリーナーの性能を強調する。

In many scientific and engineering domains, inferring the effect of treatment and exploring its heterogeneity is crucial for optimization and decision making. In addition to Machine Learning based models (e.g. Random Forests or Neural Networks), many meta-algorithms have been developed to estimate the Conditional Average Treatment Effect (CATE) function in the binary setting, with the main advantage of not restraining the estimation to a specific supervised learning method. However, this task becomes more challenging when the treatment is not binary. In this paper, we investigate the Rubin Causal Model under the multi-treatment regime and we focus on estimating heterogeneous treatment effects. We generalize \textit{Meta-learning} algorithms to estimate the CATE for each possible treatment value. Using synthetic and semi-synthetic simulation datasets, we assess the quality of each meta-learner in observational data, and we highlight in particular the performances of the X-learner.
翻訳日:2022-06-04 11:21:33 公開日:2022-05-29
# (参考訳) 有益なベンチマークインスタンスを生成するためのフレームワーク

A Framework for Generating Informative Benchmark Instances ( http://arxiv.org/abs/2205.14753v1 )

ライセンス: CC BY 4.0
Nguyen Dang, \"Ozg\"ur Akg\"un, Joan Espasa, Ian Miguel, Peter Nightingale(参考訳) ベンチマークは、代替解決アプローチの相対的パフォーマンスを評価するための重要なツールである。 しかし、ベンチマークの有用性は利用可能な問題インスタンスの量と品質によって制限される。 現代の制約プログラミング言語は典型的には、インスタンスデータ上でパラメータ化されるクラスレベルのモデルの仕様を許容する。 この分離は、グレード(ソルバに対してある難易度レベルで解決可能)または2つの解法を区別できるインスタンスを定義するインスタンスデータを生成するための、自動化されたアプローチの機会を提供する。 本稿では,これら2つの特性を組み合わせて多数のベンチマークインスタンスを生成し,効果的かつ有益なベンチマークを行うためのフレームワークを提案する。 われわれはMiniZincコンペティションで使われた5つの問題を用いて、我々のフレームワークの使用を実証した。 このフレームワークは,ソルバ間のランキング作成に加えて,各ソルバの挙動のより広範な理解を提供する。例えば,ソルバ性能が平均性能と大きく異なるインスタンスのサブセットを見つけるなど。

Benchmarking is an important tool for assessing the relative performance of alternative solving approaches. However, the utility of benchmarking is limited by the quantity and quality of the available problem instances. Modern constraint programming languages typically allow the specification of a class-level model that is parameterised over instance data. This separation presents an opportunity for automated approaches to generate instance data that define instances that are graded (solvable at a certain difficulty level for a solver) or can discriminate between two solving approaches. In this paper, we introduce a framework that combines these two properties to generate a large number of benchmark instances, purposely generated for effective and informative benchmarking. We use five problems that were used in the MiniZinc competition to demonstrate the usage of our framework. In addition to producing a ranking among solvers, our framework gives a broader understanding of the behaviour of each solver for the whole instance space; for example by finding subsets of instances where the solver performance significantly varies from its average performance.
翻訳日:2022-06-04 11:19:38 公開日:2022-05-29
# (参考訳) 交戦攻撃に対する変調分類弾力性のための混合gan

Mixture GAN For Modulation Classification Resiliency Against Adversarial Attacks ( http://arxiv.org/abs/2205.15743v1 )

ライセンス: CC BY 4.0
Eyad Shtaiwi, Ahmed El Ouadrhiri, Majid Moradikia, Salma Sultana, Ahmed Abdelhadi, and Zhu Han(参考訳) ディープニューラルネットワーク(DNN)アプローチを用いた自動変調分類(AMC)は、挑戦的な無線チャネル環境が存在する場合でも従来の分類手法より優れている。 しかし、敵攻撃は、よく設計された摂動を無線チャネルに注入することにより、DNNベースのAMCの精度の低下を引き起こす。 本稿では, DNN ベースの AMC システムを敵攻撃事例から保護するための, GAN による新たな対策手法を提案する。 GANベースの目標は、DNNベースの分類器に入力する前に、敵の攻撃例を排除することである。 具体的には,提案するfgsm(fast-gradient sign method)アルゴリズムに対する防御ガンの弾力性を示した。 既存の防衛GANは画像分類用に設計されており、上記の通信システムを考慮した場合、動作しない。 そこで本提案手法では, 無線信号分類問題に直面する典型的なGANにおいて, モード崩壊問題を克服するために, ジェネレータを混合してGANをデプロイする。 シミュレーションの結果,dnnベースのamcの敵攻撃時の精度を約81%に向上させるため,提案手法の有効性が示された。

Automatic modulation classification (AMC) using the Deep Neural Network (DNN) approach outperforms the traditional classification techniques, even in the presence of challenging wireless channel environments. However, the adversarial attacks cause the loss of accuracy for the DNN-based AMC by injecting a well-designed perturbation to the wireless channels. In this paper, we propose a novel generative adversarial network (GAN)-based countermeasure approach to safeguard the DNN-based AMC systems against adversarial attack examples. GAN-based aims to eliminate the adversarial attack examples before feeding to the DNN-based classifier. Specifically, we have shown the resiliency of our proposed defense GAN against the Fast-Gradient Sign method (FGSM) algorithm as one of the most potent kinds of attack algorithms to craft the perturbed signals. The existing defense-GAN has been designed for image classification and does not work in our case where the above-mentioned communication system is considered. Thus, our proposed countermeasure approach deploys GANs with a mixture of generators to overcome the mode collapsing problem in a typical GAN facing radio signal classification problem. Simulation results show the effectiveness of our proposed defense GAN so that it could enhance the accuracy of the DNN-based AMC under adversarial attacks to 81%, approximately.
翻訳日:2022-06-04 10:59:01 公開日:2022-05-29
# CogVideo:トランスフォーマーによるテキスト対ビデオ生成のための大規模プレトレーニング

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers ( http://arxiv.org/abs/2205.15868v1 )

ライセンス: Link先を確認
Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, Jie Tang(参考訳) 大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 ビデオ生成へのその応用は、まだ多くの課題に直面している: 潜在的に巨大な計算コストは、スクラッチからトレーニングを不可能にする;テキストビデオデータセットの不足と弱さは、複雑な動きの意味論を理解するモデルを妨げる。 本研究では、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承して訓練した9Bパラメータ変換器CogVideoを提案する。 また,テキストやビデオクリップのコーディネーションを改善するために,多フレーム階層型トレーニング戦略を提案する。 最初の(おそらく)オープンソースで大規模な事前訓練されたテキスト・ビデオ・モデルとして、CogVideoは、マシンと人間の評価において、すべての公開モデルを上回っている。

Large-scale pretrained transformers have created milestones in text (GPT-3) and text-to-image (DALL-E and CogView) generation. Its application to video generation is still facing many challenges: The potential huge computation cost makes the training from scratch unaffordable; The scarcity and weak relevance of text-video datasets hinder the model understanding complex movement semantics. In this work, we present 9B-parameter transformer CogVideo, trained by inheriting a pretrained text-to-image model, CogView2. We also propose multi-frame-rate hierarchical training strategy to better align text and video clips. As (probably) the first open-source large-scale pretrained text-to-video model, CogVideo outperforms all publicly available models at a large margin in machine and human evaluations.
翻訳日:2022-06-01 12:02:12 公開日:2022-05-29
# (参考訳) efficientvit:高分解能低計算視覚認識のための線形注意の強化

EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation Visual Recognition ( http://arxiv.org/abs/2205.14756v1 )

ライセンス: CC BY 4.0
Han Cai, Chuang Gan, Song Han(参考訳) Vision Transformer (ViT)は多くの視覚タスクにおいて顕著なパフォーマンスを達成した。 しかし、ViTは高解像度のモバイルビジョンアプリケーションをターゲットにする場合、畳み込みニューラルネットワーク(CNN)よりも劣る。 vitの鍵となる計算ボトルネックは、入力解像度で二次計算複雑性を持つsoftmax attentionモジュールである。 エッジデバイスにデプロイするためのViTのコストを削減することが不可欠である。 既存の方法(swain、pvtなど)では、ローカルウィンドウ内のソフトマックスの注意を制限したり、コスト削減のためにキー/値テンソルの分解を削減したりする。 本研究では,高分解能低解像度視覚認識のための効率的なViTアーキテクチャであるEfficientViTを提案する。 ソフトマックスの注意を制限する代わりに,ソフトマックスの注意を線形注意で置き換え,その局所的特徴抽出能力を奥行き方向の畳み込みで高めることを提案する。 EfficientViTは、線形計算複雑性を楽しみながら、グローバルおよびローカルな特徴抽出機能を維持している。 COCOオブジェクトの検出とCityscapesセマンティックセグメンテーションに関する大規模な実験により,本手法の有効性が示された。 COCOデータセットでは、EfficientViTは4.4GのMACで42.6 APを獲得し、EfficientDet-D1を2.4 APで上回り、MACは27.9%減少している。 Cityscapesでは、EfficientViTは78.7 mIoUに達し、19.1GのMACはSegFormerを2.5 mIoUで上回り、計算コストは1/3以下である。 Qualcomm Snapdragon 855 CPUでは、EfficientViTはEfficientNetより3倍速く、ImageNetの精度は高い。

Vision Transformer (ViT) has achieved remarkable performance in many vision tasks. However, ViT is inferior to convolutional neural networks (CNNs) when targeting high-resolution mobile vision applications. The key computational bottleneck of ViT is the softmax attention module which has quadratic computational complexity with the input resolution. It is essential to reduce the cost of ViT to deploy it on edge devices. Existing methods (e.g., Swin, PVT) restrict the softmax attention within local windows or reduce the resolution of key/value tensors to reduce the cost, which sacrifices ViT's core advantages on global feature extractions. In this work, we present EfficientViT, an efficient ViT architecture for high-resolution low-computation visual recognition. Instead of restricting the softmax attention, we propose to replace softmax attention with linear attention while enhancing its local feature extraction ability with depthwise convolution. EfficientViT maintains global and local feature extraction capability while enjoying linear computational complexity. Extensive experiments on COCO object detection and Cityscapes semantic segmentation demonstrate the effectiveness of our method. On the COCO dataset, EfficientViT achieves 42.6 AP with 4.4G MACs, surpassing EfficientDet-D1 by 2.4 AP while having 27.9% fewer MACs. On Cityscapes, EfficientViT reaches 78.7 mIoU with 19.1G MACs, outperforming SegFormer by 2.5 mIoU while requiring less than 1/3 the computational cost. On Qualcomm Snapdragon 855 CPU, EfficientViT is 3x faster than EfficientNet while achieving higher ImageNet accuracy.
翻訳日:2022-06-01 11:40:46 公開日:2022-05-29
# (参考訳) 臨床自然言語処理における半教師付き学習のための自動データラベリングのモデル化

Modeling Disagreement in Automatic Data Labelling for Semi-Supervised Learning in Clinical Natural Language Processing ( http://arxiv.org/abs/2205.14761v1 )

ライセンス: CC BY 4.0
Hongshu Liu, Nabeel Seedat, Julia Ive(参考訳) 不確実性の正確な推定を提供する計算モデルは、医療状況における意思決定に伴うリスク管理に不可欠である。 これは、多くの最先端システムで自動的にラベル付けされたデータ(自己教師ありモード)を使用してトレーニングされているため、特に当てはまります。 本研究は,放射線学報告における観測検出問題に適用された現状予測モデルからの不確実性推定の品質について検討する。 この問題は、医療分野での自然言語処理についてはまだ検討されている。 ガウス過程 (GP) は, 高い予測性能を維持しつつ, 負対数予測確率 (NLPP) 評価指標と平均最大信頼度 (MMPCL) に基づいて, 3つの不確実性ラベルのリスクを定量化する上で, 優れた性能を提供することを示した。

Computational models providing accurate estimates of their uncertainty are crucial for risk management associated with decision making in healthcare contexts. This is especially true since many state-of-the-art systems are trained using the data which has been labelled automatically (self-supervised mode) and tend to overfit. In this work, we investigate the quality of uncertainty estimates from a range of current state-of-the-art predictive models applied to the problem of observation detection in radiology reports. This problem remains understudied for Natural Language Processing in the healthcare domain. We demonstrate that Gaussian Processes (GPs) provide superior performance in quantifying the risks of 3 uncertainty labels based on the negative log predictive probability (NLPP) evaluation metric and mean maximum predicted confidence levels (MMPCL), whilst retaining strong predictive performance.
翻訳日:2022-06-01 11:21:16 公開日:2022-05-29
# (参考訳) テンセグリティロボットのための6n-dof姿勢追跡

6N-DoF Pose Tracking for Tensegrity Robots ( http://arxiv.org/abs/2205.14764v1 )

ライセンス: CC BY 4.0
Shiyang Lu, William R. Johnson III, Kun Wang, Xiaonan Huang, Joran Booth, Rebecca Kramer-Bottiglio, Kostas Bekris(参考訳) 剛性圧縮要素(ロッド)と柔軟な引張要素(ケーブルなど)で構成されるテンセグリティロボットは、柔軟性、軽量、機械的衝撃に対する耐性など、様々な利点がある。 それでも、これらのロボットのハイブリッドソフト剛性は、その状態のローカライズと追跡を複雑にする。 この研究は、この領域で大きな課題として認識されていること、すなわち、マーカーレスで視覚に基づく手法による緊張ロボットのポーズトラッキング、およびロボットのケーブルの長さを計測できる新しいオンボードセンサーに対処することを目的としている。 特に,RGB-Dビデオから,伸縮性ロボットの各剛体要素の6-DoFポーズを推定し,ケーブルセンサからの距離を計測する反復最適化手法を提案する。 剛体要素のポーズ推定が物理的に実現可能であること、すなわちロッド間の衝突や環境との衝突が生じないことを保証するため、最適化中に物理的制約を導入する。 実世界の実験は、移動歩行を行う3バーバーテングレティロボットを用いて行われる。 モーションキャプチャシステムからの基底真理データを考えると,提案手法は1cm未満の翻訳誤差と3度回転誤差を達成し,代替案を著しく上回っている。 同時に、ロボットの動き全体を通してポーズ推定を行うことができるが、モーションキャプチャは閉塞によって失敗することが多い。

Tensegrity robots, which are composed of rigid compressive elements (rods) and flexible tensile elements (e.g., cables), have a variety of advantages, including flexibility, light weight, and resistance to mechanical impact. Nevertheless, the hybrid soft-rigid nature of these robots also complicates the ability to localize and track their state. This work aims to address what has been recognized as a grand challenge in this domain, i.e., the pose tracking of tensegrity robots through a markerless, vision-based method, as well as novel, onboard sensors that can measure the length of the robot's cables. In particular, an iterative optimization process is proposed to estimate the 6-DoF poses of each rigid element of a tensegrity robot from an RGB-D video as well as endcap distance measurements from the cable sensors. To ensure the pose estimates of rigid elements are physically feasible, i.e., they are not resulting in collisions between rods or with the environment, physical constraints are introduced during the optimization. Real-world experiments are performed with a 3-bar tensegrity robot, which performs locomotion gaits. Given ground truth data from a motion capture system, the proposed method achieves less than 1 cm translation error and 3 degrees rotation error, which significantly outperforms alternatives. At the same time, the approach can provide pose estimates throughout the robot's motion, while motion capture often fails due to occlusions.
翻訳日:2022-06-01 11:11:59 公開日:2022-05-29
# (参考訳) UPB at SemEval-2022 Task 5: Enhancing UNITER with Image Sentiment and Graph Convolutional Networks for Multimedia Automatic Misogyny Identification

UPB at SemEval-2022 Task 5: Enhancing UNITER with Image Sentiment and Graph Convolutional Networks for Multimedia Automatic Misogyny Identification ( http://arxiv.org/abs/2205.14769v1 )

ライセンス: CC BY 4.0
Andrei Paraschiv, Mihai Dascalu, Dumitru-Clementin Cercel(参考訳) 近年,ソーシャルメディアにおけるヘイトスピーチ,攻撃的,あるいは虐待的言語の検出は,ソーシャルメディアの急速な成長やメッセージの伝播,その影響から,NLP研究において重要な話題となっている。 憎悪検出において重要な役割を担っているにもかかわらず、ミソジニー検出は同じ注目を集めていない。 本稿では,semeval-2022タスク5: mami - multimedia automatic misogyny identificationに提案する分類システムについて述べる。 共有タスクは,テキストキャプションとともにミーム画像を分析することで,マルチモーダルセッティングにおける偽コンテンツを特定することを目的とした。 この目的のために,2つのモデルを提案する。1つはイメージ感情分類器で拡張され,もう1つは語彙グラフ畳み込みネットワーク(VGCN)を利用する。 さらに,上記のモデルを用いてアンサンブルを探索する。 我々の最良のモデルは、サブタスクaで71.4%、サブタスクbで67.3%のf1スコアに達します。 モデルのコードと実験をgithubで公開しています

In recent times, the detection of hate-speech, offensive, or abusive language in online media has become an important topic in NLP research due to the exponential growth of social media and the propagation of such messages, as well as their impact. Misogyny detection, even though it plays an important part in hate-speech detection, has not received the same attention. In this paper, we describe our classification systems submitted to the SemEval-2022 Task 5: MAMI - Multimedia Automatic Misogyny Identification. The shared task aimed to identify misogynous content in a multi-modal setting by analysing meme images together with their textual captions. To this end, we propose two models based on the pre-trained UNITER model, one enhanced with an image sentiment classifier, whereas the second leverages a Vocabulary Graph Convolutional Network (VGCN). Additionally, we explore an ensemble using the aforementioned models. Our best model reaches an F1-score of 71.4% in Sub-task A and 67.3% for Sub-task B positioning our team in the upper third of the leaderboard. We release the code and experiments for our models on GitHub
翻訳日:2022-06-01 10:58:08 公開日:2022-05-29
# (参考訳) 非摂食型摂動型ポストホック説明器

Unfooling Perturbation-Based Post Hoc Explainers ( http://arxiv.org/abs/2205.14772v1 )

ライセンス: CC BY 4.0
Zachariah Carmichael, Walter J Scheirer(参考訳) 人工知能(AI)の目覚ましい進歩は、医師、貸し手、裁判官、その他の専門家の関心を引き付けている。 これらの高度な意思決定者はテクノロジーについて楽観的であるが、AIシステムに詳しい人々は、意思決定プロセスの透明性の欠如に警戒している。 摂動に基づくポストホック説明器は、クエリレベルのアクセスのみを必要としながら、これらのシステムを解釈するモデルに依存しない手段を提供する。 しかし、近年の研究は、これらの説明者は逆さまに騙される可能性があることを実証している。 この発見は監査人、規制当局、その他のセンチネルに悪影響を及ぼす。 このことを念頭に置いて、いくつかの自然な疑問 - これらのブラックボックスシステムを監査するにはどうすればよいのか? そして、監査人が誠実に監査に従っていることをどうやって確認できますか。 本研究では,この問題を厳格に定式化し,摂動型説明器に対する敵攻撃に対する防御を考案する。 我々は,これらの攻撃の検出(CAD-Detect)と防御(CAD-Defend)のためのアルゴリズムを提案する。 提案手法は,ブラックボックスが意思決定過程を逆行的に隠蔽するか否かを検知し,実世界のデータに対する敵攻撃を緩和するものである。

Monumental advancements in artificial intelligence (AI) have lured the interest of doctors, lenders, judges, and other professionals. While these high-stakes decision-makers are optimistic about the technology, those familiar with AI systems are wary about the lack of transparency of its decision-making processes. Perturbation-based post hoc explainers offer a model agnostic means of interpreting these systems while only requiring query-level access. However, recent work demonstrates that these explainers can be fooled adversarially. This discovery has adverse implications for auditors, regulators, and other sentinels. With this in mind, several natural questions arise - how can we audit these black box systems? And how can we ascertain that the auditee is complying with the audit in good faith? In this work, we rigorously formalize this problem and devise a defense against adversarial attacks on perturbation-based explainers. We propose algorithms for the detection (CAD-Detect) and defense (CAD-Defend) of these attacks, which are aided by our novel conditional anomaly detection approach, KNN-CAD. We demonstrate that our approach successfully detects whether a black box system adversarially conceals its decision-making process and mitigates the adversarial attack on real-world data for the prevalent explainers, LIME and SHAP.
翻訳日:2022-06-01 10:47:22 公開日:2022-05-29
# (参考訳) 属性の結合確率分布に対する近似を用いたベイズ分類

Bayes Classification using an approximation to the Joint Probability Distribution of the Attributes ( http://arxiv.org/abs/2205.14779v1 )

ライセンス: CC BY 4.0
Patrick Hosein and Kevin Baboolal(参考訳) Naive-Bayes分類器は、その単純さ、速度、精度から広く使われている。 しかし、テストサンプルの少なくとも1つの属性値に対して、その属性値を持つ対応するトレーニングサンプルが存在しない場合、このアプローチは失敗する。 これはゼロ周波数問題として知られ、通常はラプラス・スムーシングを用いて対処される。 しかし,ラプラス平滑化はテスト試料の属性値の近傍の統計的特性を考慮していない。 ガウスのナイーブ・ベイズはこれを扱っているが、ガウスのモデルはグローバルな情報から形成される。 代わりに,テスト試料の近傍の情報を用いて条件付き確率を推定する手法を提案する。 この場合、属性値の独立性の仮定をもはや必要とせず、従って与えられたクラス上で条件付けられた合同確率分布を考えると、(ガウス的およびラプラス的アプローチとは異なり)我々のアプローチは属性値間の依存関係を考慮に入れている。 本稿では,カリフォルニア大学アーバイン校(UCI)の機械学習リポジトリから得られた幅広いデータセットに対する提案手法の性能について述べる。 また、$k$-nn分類器の結果を含み、提案手法が単純で堅牢であり、標準アプローチよりも優れています。

The Naive-Bayes classifier is widely used due to its simplicity, speed and accuracy. However this approach fails when, for at least one attribute value in a test sample, there are no corresponding training samples with that attribute value. This is known as the zero frequency problem and is typically addressed using Laplace Smoothing. However, Laplace Smoothing does not take into account the statistical characteristics of the neighbourhood of the attribute values of the test sample. Gaussian Naive Bayes addresses this but the resulting Gaussian model is formed from global information. We instead propose an approach that estimates conditional probabilities using information in the neighbourhood of the test sample. In this case we no longer need to make the assumption of independence of attribute values and hence consider the joint probability distribution conditioned on the given class which means our approach (unlike the Gaussian and Laplace approaches) takes into consideration dependencies among the attribute values. We illustrate the performance of the proposed approach on a wide range of datasets taken from the University of California at Irvine (UCI) Machine Learning Repository. We also include results for the $k$-NN classifier and demonstrate that the proposed approach is simple, robust and outperforms standard approaches.
翻訳日:2022-06-01 10:21:52 公開日:2022-05-29
# (参考訳) テキストマイニングによるcovid-19文学のマイニングと検索

COVID-19 Literature Mining and Retrieval using Text Mining Approaches ( http://arxiv.org/abs/2205.14781v1 )

ライセンス: CC BY 4.0
Sanku Satya Uday, Satti Thanuja Pavani, T. Jaya Lakshmi, Rohit Chivukula(参考訳) 新型コロナウイルス(covid-19)は2019年末に中国武漢で発生し、世界中で1億1800万人が感染し、312人が死亡した。 2020年3月10日、WHOは世界保健機関を世界的なパンデミックと宣言した。 多くの学者や研究者が、covid-19に関する最新の発見を説明する論文を発表し始めた。 大量の出版物が流入し、他の研究者が大量のデータを調べて、彼らの研究に役立つ適切なものを見つけるのが難しくなった。 そこで,提案モデルでは,研究論文の大規模コーパスから残酷なタイトルを抽出し,研究者の作業を容易にする。 このデータセットは、PubMedのPMC、WHO(World Health Organization)、bioRxiv、medRxivといった新型コロナウイルス関連の研究出版物に関する2,00,000のジャーナルから成り立っている。 この文書コーパスに加えて、トピックのリストからなる topics-rnd3 というトピックデータセットも提供している。 各トピックには、クエリ、質問、ナラティブという3種類の表現がある。 これらのデータセットは研究用に公開されており、Kaggle上でTREC-COVIDコンペティションもリリースしている。 クエリのようなトピックを使用することで、cord-19データセットで関連するドキュメントを見つけることが目標です。 本研究では,トピックs-rnd3データセットの話題に対して関連する文書を認識すべきである。 提案モデルは,Bag-of-Words,Average Word-2-Vec,Average BERT Baseモデル,Tf-Idf重み付きWord2Vecモデルといった自然言語処理(NLP)技術を用いて,クエリ,質問,物語,組み合わせのベクトルを作成する。 同様に、CORD-19データセット内のタイトルのベクトルを作成する。 ベクトルを作製した後、コサイン類似性は2つのベクトル間の類似性を見つけるために用いられる。 cosineの類似性は、あるトピックに関連するドキュメントを見つけるのに役立ちます。

The novel coronavirus disease (COVID-19) began in Wuhan, China, in late 2019 and to date has infected over 148M people worldwide, resulting in 3.12M deaths. On March 10, 2020, the World Health Organisation (WHO) declared it as a global pandemic. Many academicians and researchers started to publish papers describing the latest discoveries on covid-19. The large influx of publications made it hard for other researchers to go through a large amount of data and find the appropriate one that helps their research. So, the proposed model attempts to extract relavent titles from the large corpus of research publications which makes the job easy for the researchers. Allen Institute for AI released the CORD-19 dataset, which consists of 2,00,000 journal articles related to coronavirus-related research publications from PubMed's PMC, WHO (World Health Organization), bioRxiv, and medRxiv pre-prints. Along with this document corpus, they have also provided a topics dataset named topics-rnd3 consisting of a list of topics. Each topic has three types of representations like query, question, and narrative. These Datasets are made open for research, and also they released a TREC-COVID competition on Kaggle. Using these topics like queries, our goal is to find out the relevant documents in the CORD-19 dataset. In this research, relevant documents should be recognized for the posed topics in topics-rnd3 data set. The proposed model uses Natural Language Processing(NLP) techniques like Bag-of-Words, Average Word-2-Vec, Average BERT Base model and Tf-Idf weighted Word2Vec model to fabricate vectors for query, question, narrative, and combinations of them. Similarly, fabricate vectors for titles in the CORD-19 dataset. After fabricating vectors, cosine similarity is used for finding similarities between every two vectors. Cosine similarity helps us to find relevant documents for the given topic.
翻訳日:2022-06-01 10:09:28 公開日:2022-05-29
# ランサムウェア攻撃におけるスパースデータのための放射スパイクとスラブベイズニューラルネットワーク

Radial Spike and Slab Bayesian Neural Networks for Sparse Data in Ransomware Attacks ( http://arxiv.org/abs/2205.14759v1 )

ライセンス: Link先を確認
Jurijs Nazarovs, Jack W. Stokes, Melissa Turcotte, Justin Carroll, Itai Grady(参考訳) ランサムウェア攻撃は目覚ましいペースで増加しており、財務損失、解読不能な暗号化データ、データの漏洩、プライバシーの懸念に繋がる。 ランサムウェア攻撃の迅速な検出は、特に暗号化段階でのさらなる損傷を最小限に抑えるために必要である。 しかし、観測されたランサムウェア攻撃データの頻度と構造は、この作業を実際に行うのを困難にしている。 ランサムウェア攻撃に対応するデータは、限られたレコードと非常に不均衡なクラスを持つ、時間的、高次元のスパース信号を表す。 従来のディープラーニングモデルは、さまざまな領域で最先端の結果を達成することができたが、確率モデルのクラスであるベイジアンニューラルネットワークはランサムウェアデータの問題により適している。 これらのモデルはベイズ統計学の考えとニューラルネットワークの豊かな表現力を組み合わせる。 本稿では,近似後続分布の新たな形を含む新しいタイプのベイズ型ニューラルネットワークであるラジアルスパイクとスラブベイズ型ニューラルネットワークを提案する。 モデルは大規模アーキテクチャによく適合し、ターゲット関数のスパース構造を復元する。 このタイプの分布を用いるための理論的正当化法と、変分推論を行う計算効率の良い方法を提供する。 我々は,ランサムウェア攻撃の実際のデータセット上でのモデルの性能を実証し,ニューラルodes (ordinary differential equation) などの最先端モデルを含む,多数のベースラインの改善を示す。 さらに,低レベルのイベントをMITRE ATT\&CK戦略,テクニック,手順 (TTP) として表現することを提案する。

Ransomware attacks are increasing at an alarming rate, leading to large financial losses, unrecoverable encrypted data, data leakage, and privacy concerns. The prompt detection of ransomware attacks is required to minimize further damage, particularly during the encryption stage. However, the frequency and structure of the observed ransomware attack data makes this task difficult to accomplish in practice. The data corresponding to ransomware attacks represents temporal, high-dimensional sparse signals, with limited records and very imbalanced classes. While traditional deep learning models have been able to achieve state-of-the-art results in a wide variety of domains, Bayesian Neural Networks, which are a class of probabilistic models, are better suited to the issues of the ransomware data. These models combine ideas from Bayesian statistics with the rich expressive power of neural networks. In this paper, we propose the Radial Spike and Slab Bayesian Neural Network, which is a new type of Bayesian Neural network that includes a new form of the approximate posterior distribution. The model scales well to large architectures and recovers the sparse structure of target functions. We provide a theoretical justification for using this type of distribution, as well as a computationally efficient method to perform variational inference. We demonstrate the performance of our model on a real dataset of ransomware attacks and show improvement over a large number of baselines, including state-of-the-art models such as Neural ODEs (ordinary differential equations). In addition, we propose to represent low-level events as MITRE ATT\&CK tactics, techniques, and procedures (TTPs) which allows the model to better generalize to unseen ransomware attacks.
翻訳日:2022-05-31 18:50:38 公開日:2022-05-29
# TransforMAP: メモリアクセス予測のためのトランスフォーマー

TransforMAP: Transformer for Memory Access Prediction ( http://arxiv.org/abs/2205.14778v1 )

ライセンス: Link先を確認
Pengmiao Zhang, Ajitesh Srivastava, Anant V. Nori, Rajgopal Kannan, Viktor K. Prasanna(参考訳) データプリフェッチ(data prefetching)は、プログラムが必要となる前にデータをフェッチすることでメモリ遅延を隠蔽するテクニックである。 Prefetchingは正確なメモリアクセス予測に依存しており、タスク機械学習ベースのメソッドがますます適用される。 デルタやオフセットから学習し、1つのアクセス予測を行う従来のアプローチとは異なり、アドレス空間全体から学習し、複数のキャッシュライン予測を実行する強力なTransformerモデルに基づいてTransforMAPを開発する。 本稿では,メモリアドレスのバイナリをモデル入力として使用することを提案する。 ブロックインデックスビットマップを設計し、現在のページアドレスの下で未順序のページオフセットを学習ラベルとして収集する。 その結果,本モデルでは,ページ内で時間パターンや空間パターンを学習することができる。 現実的な実装では、複数のキャッシュラインが長い水平線で使用される可能性があるため、予測遅延を隠蔽する可能性がある。 提案手法は,最新のBest-Offset prefetcherおよびISB prefetcherよりも高い35.67%のMPKI改善と20.55%のIPC改善を実現している。

Data Prefetching is a technique that can hide memory latency by fetching data before it is needed by a program. Prefetching relies on accurate memory access prediction, to which task machine learning based methods are increasingly applied. Unlike previous approaches that learn from deltas or offsets and perform one access prediction, we develop TransforMAP, based on the powerful Transformer model, that can learn from the whole address space and perform multiple cache line predictions. We propose to use the binary of memory addresses as model input, which avoids information loss and saves a token table in hardware. We design a block index bitmap to collect unordered future page offsets under the current page address as learning labels. As a result, our model can learn temporal patterns as well as spatial patterns within a page. In a practical implementation, this approach has the potential to hide prediction latency because it prefetches multiple cache lines likely to be used in a long horizon. We show that our approach achieves 35.67% MPKI improvement and 20.55% IPC improvement in simulation, higher than state-of-the-art Best-Offset prefetcher and ISB prefetcher.
翻訳日:2022-05-31 18:50:11 公開日:2022-05-29
# チャージペイオフ時の非定常帯域:サブリニアレグレットによる計画の改善

Non-Stationary Bandits under Recharging Payoffs: Improved Planning with Sublinear Regret ( http://arxiv.org/abs/2205.14790v1 )

ライセンス: Link先を確認
Orestis Papadigenopoulos, Constantine Caramanis, Sanjay Shakkottai(参考訳) 確率的多腕バンディットセッティングは、最近は非定常体制において研究されており、各アクションの平均ペイオフは、最後に演奏されてから経過したラウンド数の非減算関数である。 このモデルは、レコメンデーションプラットフォームや広告配置システムなどのパフォーマンスを決定的に決定するユーザの自然な行動的側面を捉えます。 平均ペイオフ関数の事前知識を仮定しても、上述のモデルにおける最適計画計算はNPハードであり、最先端のアルゴリズムは1ラウンド当たり1本以上の腕をプレイできる場合の1/4$近似アルゴリズムである。 まず、平均ペイオフ関数が知られている設定に焦点を合わせます。 この設定では、ランダム化LPラウンドリングと時間関連(インターリーブ)スケジューリングの新たな組み合わせに基づいて、多項式時間(1-{1}/{e})$-approximationアルゴリズム(漸近および期待)を開発することにより、計画問題の最もよく知られている保証を大幅に改善する。 さらに,本アルゴリズムは,各ラウンドで複数のアームをプレイできる場合に,先行作業と比較して,改良された保証を実現する。 バンディット設定に移行すると、平均ペイオフ関数が未知の場合、我々のアルゴリズムがサブ線形後悔を伴うバンディットアルゴリズムにどのように変換されるかを示す。

The stochastic multi-armed bandit setting has been recently studied in the non-stationary regime, where the mean payoff of each action is a non-decreasing function of the number of rounds passed since it was last played. This model captures natural behavioral aspects of the users which crucially determine the performance of recommendation platforms, ad placement systems, and more. Even assuming prior knowledge of the mean payoff functions, computing an optimal planning in the above model is NP-hard, while the state-of-the-art is a $1/4$-approximation algorithm for the case where at most one arm can be played per round. We first focus on the setting where the mean payoff functions are known. In this setting, we significantly improve the best-known guarantees for the planning problem by developing a polynomial-time $(1-{1}/{e})$-approximation algorithm (asymptotically and in expectation), based on a novel combination of randomized LP rounding and a time-correlated (interleaved) scheduling method. Furthermore, our algorithm achieves improved guarantees -- compared to prior work -- for the case where more than one arm can be played at each round. Moving to the bandit setting, when the mean payoff functions are initially unknown, we show how our algorithm can be transformed into a bandit algorithm with sublinear regret.
翻訳日:2022-05-31 18:49:49 公開日:2022-05-29
# 教師なし異常検出における経験的リスク最小化

Diminishing Empirical Risk Minimization for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2205.14676v1 )

ライセンス: Link先を確認
Shaoshen Wang (1), Yanbin Liu (2), Ling Chen (1), Chengqi Zhang (1) ((1) Australian Artificial Intelligence Institute, University of Technology Sydney, Sydney, Australia, (2) Centre for Medical Research, The University of Western Australia, Perth, Australia)(参考訳) 非教師付き異常検出(AD)は現実的なアプリケーションでは難しい課題である。 近年,ディープニューラルネットワーク(DNN)で異常を検出する傾向が高まっている。 しかし、最も一般的なAD検出器は、異常データによる汚染情報の学習からネットワークを保護することができず、不満足な検出性能と過度な問題を引き起こす。 本研究では,既存のDNNベースの異常検出手法の動作を妨げる理由として,経験的リスク最小化(ERM)が広く採用されていることを挙げる。 ERMは、未知分布上のアルゴリズムの性能を、既知のトレーニングセットにおける損失の平均化によって近似できると仮定する。 この平均化スキームは、通常のインスタンスと異常インスタンスの区別を無視する。 ERMの限界を打破するため、我々は新しいDimishing Empirical Risk Minimization(DERM)フレームワークを提案する。 具体的には、dermはよく考案された集約戦略を通じて個々の損失の影響を適応的に調整する。 理論的には,提案するdermは,最適化過程における個々の損失の勾配寄与を直接修正し,異常値の影響を抑制することで,頑健な異常検出を行うことができる。 実証的には、DERMは18のデータセットからなる教師なしADベンチマークで最先端のパフォーマンスを誇った。

Unsupervised anomaly detection (AD) is a challenging task in realistic applications. Recently, there is an increasing trend to detect anomalies with deep neural networks (DNN). However, most popular deep AD detectors cannot protect the network from learning contaminated information brought by anomalous data, resulting in unsatisfactory detection performance and overfitting issues. In this work, we identify one reason that hinders most existing DNN-based anomaly detection methods from performing is the wide adoption of the Empirical Risk Minimization (ERM). ERM assumes that the performance of an algorithm on an unknown distribution can be approximated by averaging losses on the known training set. This averaging scheme thus ignores the distinctions between normal and anomalous instances. To break through the limitations of ERM, we propose a novel Diminishing Empirical Risk Minimization (DERM) framework. Specifically, DERM adaptively adjusts the impact of individual losses through a well-devised aggregation strategy. Theoretically, our proposed DERM can directly modify the gradient contribution of each individual loss in the optimization process to suppress the influence of outliers, leading to a robust anomaly detector. Empirically, DERM outperformed the state-of-the-art on the unsupervised AD benchmark consisting of 18 datasets.
翻訳日:2022-05-31 18:08:08 公開日:2022-05-29
# 投薬の条件平均処理効果を推定するための一般化境界とアルゴリズム

Generalization bounds and algorithms for estimating conditional average treatment effect of dosage ( http://arxiv.org/abs/2205.14692v1 )

ライセンス: Link先を確認
Alexis Bellot, Anish Dhir, Giulia Prando(参考訳) 基礎システムにおける因果関係に対する観察データと仮定の組み合わせから,治療・服用ペアの条件平均因果効果を推定するタスクについて検討した。 疫学や経済学などの分野において、意思決定のために治療と薬のペアを必要とするが、個人間の効果と多様性を正確に定量化するためのランダム化試験を実行できないという長年の課題であった。 本稿では(Shalit et al, 2017) を拡張して, 対実値と割当偏差補正の異なるアプローチに依存する連続量パラメータの文脈において, 対実値一般化誤差の新たな境界を与える。 この結果から,表現学習アルゴリズムのトレーニングに使用可能な新たな学習目標の定義が導かれ,2倍ロバスト推定法との比較を含む,いくつかのベンチマークデータセットで経験則的に新たな結果が得られた。

We investigate the task of estimating the conditional average causal effect of treatment-dosage pairs from a combination of observational data and assumptions on the causal relationships in the underlying system. This has been a longstanding challenge for fields of study such as epidemiology or economics that require a treatment-dosage pair to make decisions but may not be able to run randomized trials to precisely quantify their effect and heterogeneity across individuals. In this paper, we extend (Shalit et al, 2017) to give new bounds on the counterfactual generalization error in the context of a continuous dosage parameter which relies on a different approach to defining counterfactuals and assignment bias adjustment. This result then guides the definition of new learning objectives that can be used to train representation learning algorithms for which we show empirically new state-of-the-art performance results across several benchmark datasets for this problem, including in comparison to doubly-robust estimation methods.
翻訳日:2022-05-31 18:07:50 公開日:2022-05-29
# 強化群畳み込みニューラルネットワークによる画像の超解像

Image Super-resolution with An Enhanced Group Convolutional Neural Network ( http://arxiv.org/abs/2205.14548v1 )

ライセンス: Link先を確認
Chunwei Tian, Yixuan Yuan, Shichao Zhang, Chia-Wen Lin, Wangmeng Zuo, David Zhang(参考訳) 学習能力の強いCNNは、超解像問題を解くために広く選択されている。 しかし、cnnは画像の超解像性能を改善するためにより深いネットワークアーキテクチャに依存しているため、計算コストは一般的に増加する可能性がある。 本稿では,単一画像超解像(SISR)における異なるチャネルの相関関係から,より正確な低周波情報を抽出するために,深いチャネル特徴と広いチャネル特徴を完全に融合させることにより,浅層構造を有する拡張超解像群CNN(ESRGCNN)を提案する。 また、ESRGCNNにおける信号強調操作は、長期依存を解決するために、より長距離のコンテキスト情報を継承するのに有用である。 適応的なアップサンプリング操作をCNNに収集し、異なるサイズの低解像度画像を有する画像超解像モデルを得る。 ESRGCNNは、SISRの性能、複雑さ、実行速度、画質評価およびSISRの視覚効果の観点から、最先端技術を上回ることを報告した。 コードはhttps://github.com/hellloxiaotian/esrgcnnにある。

CNNs with strong learning abilities are widely chosen to resolve super-resolution problem. However, CNNs depend on deeper network architectures to improve performance of image super-resolution, which may increase computational cost in general. In this paper, we present an enhanced super-resolution group CNN (ESRGCNN) with a shallow architecture by fully fusing deep and wide channel features to extract more accurate low-frequency information in terms of correlations of different channels in single image super-resolution (SISR). Also, a signal enhancement operation in the ESRGCNN is useful to inherit more long-distance contextual information for resolving long-term dependency. An adaptive up-sampling operation is gathered into a CNN to obtain an image super-resolution model with low-resolution images of different sizes. Extensive experiments report that our ESRGCNN surpasses the state-of-the-arts in terms of SISR performance, complexity, execution speed, image quality evaluation and visual effect in SISR. Code is found at https://github.com/hellloxiaotian/ESRGCNN.
翻訳日:2022-05-31 17:57:39 公開日:2022-05-29
# 深層ニューラルネットワーク学習のための汎用的多重データ拡張ベースフレームワーク

A General Multiple Data Augmentation Based Framework for Training Deep Neural Networks ( http://arxiv.org/abs/2205.14606v1 )

ライセンス: Link先を確認
Binyan Hu, Yu Sun and A. K. Qin(参考訳) ディープニューラルネットワーク(DNN)は、多くのアプリケーションではアクセスできない巨大なラベル付きデータをトレーニングに頼っていることが多い。 データ拡張(DA)は、利用可能なデータから新しいラベル付きデータを作成することで、データの不足に対処する。 異なるDA法は異なる機構を持つため、DNNトレーニングのために生成されたラベル付きデータを使用することで、DNNの一般化を異なる程度に改善することができる。 複数のDAメソッド、すなわちDNNトレーニングのためのマルチDAを組み合わせることで、一般化を促進することができる。 既存のマルチDAベースのDNNトレーニング手法の中で,知識蒸留(KD)に依存しているものに大きな注目を集めている。 知識伝達を利用して、複数のDAメソッドによって生成されたラベル付きデータセットを利用する。 しかし、既存のKDベースのメソッドは、任意のDAメソッドの利点を利用することができない特定のタイプのDAメソッドしか利用できない。 任意のDA手法を利用できる汎用マルチDAベースのDNNトレーニングフレームワークを提案する。 DNNをトレーニングするために、我々のフレームワークはDNNの後半部分の一部を複数のコピーに複製する。 これらのDNNはそれぞれ、ユニークなDAと、新しく考案された損失に関連付けられており、すべてのDAメソッドによって生成されたデータと、すべてのDNNからオンラインかつ適応的な方法で出力を包括的に学習することができる。 全体的な損失、すなわち各DNNの損失の合計は、DNNの訓練に使用される。 最終的に、最高のバリデーションパフォーマンスを持つDNNの1つが推論のために選択される。 本稿では,3つのDA手法を用いて提案手法を実装し,DNNの訓練に応用する。 画像分類の一般的なベンチマーク実験は、既存の単DAおよび複数DAベースのトレーニング手法よりも、我々の手法が優れていることを示す。

Deep neural networks (DNNs) often rely on massive labelled data for training, which is inaccessible in many applications. Data augmentation (DA) tackles data scarcity by creating new labelled data from available ones. Different DA methods have different mechanisms and therefore using their generated labelled data for DNN training may help improving DNN's generalisation to different degrees. Combining multiple DA methods, namely multi-DA, for DNN training, provides a way to boost generalisation. Among existing multi-DA based DNN training methods, those relying on knowledge distillation (KD) have received great attention. They leverage knowledge transfer to utilise the labelled data sets created by multiple DA methods instead of directly combining them for training DNNs. However, existing KD-based methods can only utilise certain types of DA methods, incapable of utilising the advantages of arbitrary DA methods. We propose a general multi-DA based DNN training framework capable to use arbitrary DA methods. To train a DNN, our framework replicates a certain portion in the latter part of the DNN into multiple copies, leading to multiple DNNs with shared blocks in their former parts and independent blocks in their latter parts. Each of these DNNs is associated with a unique DA and a newly devised loss that allows comprehensively learning from the data generated by all DA methods and the outputs from all DNNs in an online and adaptive way. The overall loss, i.e., the sum of each DNN's loss, is used for training the DNN. Eventually, one of the DNNs with the best validation performance is chosen for inference. We implement the proposed framework by using three distinct DA methods and apply it for training representative DNNs. Experiments on the popular benchmarks of image classification demonstrate the superiority of our method to several existing single-DA and multi-DA based training methods.
翻訳日:2022-05-31 17:57:21 公開日:2022-05-29
# 相関ランダムグラフに対するマッチング回復しきい値

Matching recovery threshold for correlated random graphs ( http://arxiv.org/abs/2205.14650v1 )

ライセンス: Link先を確認
Jian Ding, Hang Du(参考訳) 共通の Erd\H{o}s-R\'enyi graph $\mathbf{G}(n, p)$ から独立した2つの相関グラフに対して、これらの2つのグラフの観測からそれらの \emph{latent} 頂点マッチングを復元したい。 p = n^{-\alpha+o(1)}$ for $\alpha\in (0, 1]$ とすると、正の頂点の正の分数に正しく一致するかどうかについての鋭い情報理論しきい値を確立する。 この結果は,近年のWu,Xu,Yuによる研究において一定の要因を導出する。

For two correlated graphs which are independently sub-sampled from a common Erd\H{o}s-R\'enyi graph $\mathbf{G}(n, p)$, we wish to recover their \emph{latent} vertex matching from the observation of these two graphs \emph{without labels}. When $p = n^{-\alpha+o(1)}$ for $\alpha\in (0, 1]$, we establish a sharp information-theoretic threshold for whether it is possible to correctly match a positive fraction of vertices. Our result sharpens a constant factor in a recent work by Wu, Xu and Yu.
翻訳日:2022-05-31 17:53:29 公開日:2022-05-29
# 予算制約のある1次オークションを繰り返したノンレグレット学習

No-regret Learning in Repeated First-Price Auctions with Budget Constraints ( http://arxiv.org/abs/2205.14572v1 )

ライセンス: Link先を確認
Rui Ai, Chang Wang, Chenchen Li, Jinshan Zhang, Wenhan Huang, Xiaotie Deng(参考訳) 近年、オンライン広告市場は、第2価格オークションから第1価格オークションへと徐々にシフトしている。 原価オークションにはオンライン入札戦略に関する一連の研究があるが、その問題の予算制約に対処する方法はまだ明らかになっていない。 本稿では,1次オークションを繰り返してオンライン入札戦略を学ぶための予算を持つ買い手の調査を開始する。 定常競争における最適非予測戦略に対するRLに基づく入札アルゴリズムを提案する。 我々のアルゴリズムは、全ての入札が各ラウンドの最後に明らかにされる場合、$\widetilde O(\sqrt T)$-regretを得る。 購入者が各ラウンド後にのみ当選入札を見ることができるという制限により、改良されたアルゴリズムは生存分析から開発された手法により$\widetilde O(T^{\frac{7}{12}})$-regretを得る。 我々の分析は、買い手が同じ順序の後悔を伴う有界即時ユーティリティ関数を持つというより一般的なシナリオにまで及んでいる。

Recently the online advertising market has exhibited a gradual shift from second-price auctions to first-price auctions. Although there has been a line of works concerning online bidding strategies in first-price auctions, it still remains open how to handle budget constraints in the problem. In the present paper, we initiate the study for a buyer with budgets to learn online bidding strategies in repeated first-price auctions. We propose an RL-based bidding algorithm against the optimal non-anticipating strategy under stationary competition. Our algorithm obtains $\widetilde O(\sqrt T)$-regret if the bids are all revealed at the end of each round. With the restriction that the buyer only sees the winning bid after each round, our modified algorithm obtains $\widetilde O(T^{\frac{7}{12}})$-regret by techniques developed from survival analysis. Our analysis extends to the more general scenario where the buyer has any bounded instantaneous utility function with regrets of the same order.
翻訳日:2022-05-31 17:49:46 公開日:2022-05-29
# 確率零次勾配とヘシアン推定器:分散低減と補充バイアス境界

Stochastic Zeroth Order Gradient and Hessian Estimators: Variance Reduction and Refined Bias Bounds ( http://arxiv.org/abs/2205.14737v1 )

ライセンス: Link先を確認
Yasong Feng, Tianyu Wang(参考訳) 我々は$\mathbb{R}^n$における実数値関数に対する確率零次勾配とヘッセン推定器について検討する。 ランダム直交方向に沿って有限差分を取ることにより,確率的有限差分推定器の分散を著しく低減できることを示す。 In particular, we design estimators for smooth functions such that, if one uses $ \Theta \left( k \right) $ random directions sampled from the Stiefel's manifold $ \text{St} (n,k) $ and finite-difference granularity $\delta$, the variance of the gradient estimator is bounded by $ \mathcal{O} \left( \left( \frac{n}{k} - 1 \right) + \left( \frac{n^2}{k} - n \right) \delta^2 + \frac{ n^2 \delta^4 }{ k } \right) $, and the variance of the Hessian estimator is bounded by $\mathcal{O} \left( \left( \frac{n^2}{k^2} - 1 \right) + \left( \frac{n^4}{k^2} - n^2 \right) \delta^2 + \frac{n^4 \delta^4 }{k^2} \right) $. k = n$ の場合、分散は無視できるほど小さくなる。 さらに,推定者に対するバイアスバウンダリも改善した。 滑らかな関数 $f$ に対する勾配とヘッセン推定子のバイアスは次数 $\mathcal{O} \left( \delta^2 \Gamma \right)$ であり、$\delta$ は有限差分粒度であり、$ \Gamma $ は $f$ の高階微分に依存する。 我々の結果は実証的な観察によって証明される。

We study stochastic zeroth order gradient and Hessian estimators for real-valued functions in $\mathbb{R}^n$. We show that, via taking finite difference along random orthogonal directions, the variance of the stochastic finite difference estimators can be significantly reduced. In particular, we design estimators for smooth functions such that, if one uses $ \Theta \left( k \right) $ random directions sampled from the Stiefel's manifold $ \text{St} (n,k) $ and finite-difference granularity $\delta$, the variance of the gradient estimator is bounded by $ \mathcal{O} \left( \left( \frac{n}{k} - 1 \right) + \left( \frac{n^2}{k} - n \right) \delta^2 + \frac{ n^2 \delta^4 }{ k } \right) $, and the variance of the Hessian estimator is bounded by $\mathcal{O} \left( \left( \frac{n^2}{k^2} - 1 \right) + \left( \frac{n^4}{k^2} - n^2 \right) \delta^2 + \frac{n^4 \delta^4 }{k^2} \right) $. When $k = n$, the variances become negligibly small. In addition, we provide improved bias bounds for the estimators. The bias of both gradient and Hessian estimators for smooth function $f$ is of order $\mathcal{O} \left( \delta^2 \Gamma \right)$, where $\delta$ is the finite-difference granularity, and $ \Gamma $ depends on high order derivatives of $f$. Our results are evidenced by empirical observations.
翻訳日:2022-05-31 17:49:28 公開日:2022-05-29
# IFRNet:効率的なフレーム補間のための中間機能強化ネットワーク

IFRNet: Intermediate Feature Refine Network for Efficient Frame Interpolation ( http://arxiv.org/abs/2205.14620v1 )

ライセンス: Link先を確認
Lingtong Kong, Boyuan Jiang, Donghao Luo, Wenqing Chu, Xiaoming Huang, Ying Tai, Chengjie Wang, Jie Yang(参考訳) 連続する入力から中間フレームを生成する一般的なビデオフレーム補間アルゴリズムは、通常、重いパラメータや大きな遅延を持つ複雑なモデルアーキテクチャに依存し、様々なリアルタイムアプリケーションからそれらを妨げている。 本研究では,高速な中間フレーム合成のための効率的なエンコーダデコーダネットワーク IFRNet を提案する。 まず、与えられた入力からピラミッドの特徴を抽出し、次に所望の出力を生成するまで、強力な中間特徴とともに両側中間流れ場を洗練する。 徐々に改良された中間機能は、中間フロー推定を容易にするだけでなく、文脈の詳細を補うことができるため、IFRNetは追加の合成や改良モジュールを必要としない。 さらに,その可能性を完全に解放するために,新しいタスク指向の光フロー蒸留損失を提案し,フレーム合成に向けた有用な教師の知識の学習に焦点をあてる。 一方、構造配置を改善するため、徐々に改良された中間機能に新しい幾何整合正則化項が課される。 様々なベンチマークにおける実験は、提案手法の優れた性能と高速な推論速度を示している。 コードはhttps://github.com/ltkong218/IFRNetで入手できる。

Prevailing video frame interpolation algorithms, that generate the intermediate frames from consecutive inputs, typically rely on complex model architectures with heavy parameters or large delay, hindering them from diverse real-time applications. In this work, we devise an efficient encoder-decoder based network, termed IFRNet, for fast intermediate frame synthesizing. It first extracts pyramid features from given inputs, and then refines the bilateral intermediate flow fields together with a powerful intermediate feature until generating the desired output. The gradually refined intermediate feature can not only facilitate intermediate flow estimation, but also compensate for contextual details, making IFRNet do not need additional synthesis or refinement module. To fully release its potential, we further propose a novel task-oriented optical flow distillation loss to focus on learning the useful teacher knowledge towards frame synthesizing. Meanwhile, a new geometry consistency regularization term is imposed on the gradually refined intermediate features to keep better structure layout. Experiments on various benchmarks demonstrate the excellent performance and fast inference speed of proposed approaches. Code is available at https://github.com/ltkong218/IFRNet.
翻訳日:2022-05-31 17:07:57 公開日:2022-05-29
# スーパークラスアタック

Superclass Adversarial Attack ( http://arxiv.org/abs/2205.14629v1 )

ライセンス: Link先を確認
Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki(参考訳) 敵の攻撃は分類器の予測を変更することだけに焦点を当ててきたが、その危険性はクラスをどう間違えるかに大きく依存している。 例えば、自動走行システムがペルシアの猫をシャム猫と間違えた場合、それはほとんど問題ではない。 しかし、120km/hの速さで猫を間違えると深刻な問題が発生する。 より脅威となる敵の攻撃の足場として、我々は、優れたクラスだけでなく、スーパークラスの誤分類を引き起こすスーパークラスの敵の攻撃を考える。 我々は, 精度, 速度, 安定性の観点から, 超クラス敵攻撃(既存および19の新しい手法)の包括的解析を行い, 性能向上のためのいくつかの戦略を明らかにした。 本研究はスーパークラス誤分類を対象としているが,top-kやmulti-label分類攻撃など,複数のクラスを含む他の問題にも適用できる。

Adversarial attacks have only focused on changing the predictions of the classifier, but their danger greatly depends on how the class is mistaken. For example, when an automatic driving system mistakes a Persian cat for a Siamese cat, it is hardly a problem. However, if it mistakes a cat for a 120km/h minimum speed sign, serious problems can arise. As a stepping stone to more threatening adversarial attacks, we consider the superclass adversarial attack, which causes misclassification of not only fine classes, but also superclasses. We conducted the first comprehensive analysis of superclass adversarial attacks (an existing and 19 new methods) in terms of accuracy, speed, and stability, and identified several strategies to achieve better performance. Although this study is aimed at superclass misclassification, the findings can be applied to other problem settings involving multiple classes, such as top-k and multi-label classification attacks.
翻訳日:2022-05-31 17:07:38 公開日:2022-05-29
# 階層記憶に基づく動的グラフ学習による起因推定需要予測

Dynamic Graph Learning Based on Hierarchical Memory for Origin-Destination Demand Prediction ( http://arxiv.org/abs/2205.14593v1 )

ライセンス: Link先を確認
Ruixing Zhang, Liangzhe Han, Boyi Liu, Jiayuan Zeng, Leilei Sun(参考訳) 近年、交通予測に時空間的手法を適用する急速な成長が見られる。 しかし、OD対の数は通常は駅数に対して2次であるため、OD要求の予測は依然として難しい問題である。 この場合、既存の時空間法のほとんどは、そのような大規模な空間的関係を扱えない。 そこで本研究では,OD要求予測のための動的グラフ表現学習フレームワークを提案する。 特に、階層型メモリ更新器は、まず各ノードの時間認識表現を維持するために提案され、その表現は、最近観測されたODトリップに従って、連続時間および複数の離散時間方法で更新される。 第2に、原点と目的地を2つの異なる意味エンティティとして扱うランダムな時空間経路に沿って隣ノードの表現を集約する時空間伝播機構を提供する。 最後に、目的関数は、最新のノード表現に従って将来のOD要求を導出し、OD予測におけるデータ空間の問題に取り組むように設計されている。 実世界の2つのデータセットに対して大規模な実験を行い,提案手法の優位性を実証した。 コードとデータはhttps://github.com/rising0321/hmodで入手できる。

Recent years have witnessed a rapid growth of applying deep spatiotemporal methods in traffic forecasting. However, the prediction of origin-destination (OD) demands is still a challenging problem since the number of OD pairs is usually quadratic to the number of stations. In this case, most of the existing spatiotemporal methods fail to handle spatial relations on such a large scale. To address this problem, this paper provides a dynamic graph representation learning framework for OD demands prediction. In particular, a hierarchical memory updater is first proposed to maintain a time-aware representation for each node, and the representations are updated according to the most recently observed OD trips in continuous-time and multiple discrete-time ways. Second, a spatiotemporal propagation mechanism is provided to aggregate representations of neighbor nodes along a random spatiotemporal route which treats origin and destination as two different semantic entities. Last, an objective function is designed to derive the future OD demands according to the most recent node representations, and also to tackle the data sparsity problem in OD prediction. Extensive experiments have been conducted on two real-world datasets, and the experimental results demonstrate the superiority of the proposed method. The code and data are available at https://github.com/Rising0321/HMOD.
翻訳日:2022-05-31 16:51:40 公開日:2022-05-29
# グラフ構造に基づくデータ拡張方法

Graph Structure Based Data Augmentation Method ( http://arxiv.org/abs/2205.14619v1 )

ライセンス: Link先を確認
Kyung Geun Kim, Byeong Tak Lee(参考訳) 本稿では,グラフ構造を持つ医療波形データに適用可能な,グラフに基づく新しいデータ拡張手法を提案する。 心電図 (ECG) や脳波 (EEG) などの医療波形データを記録する過程では, 鉛位置のずれにより, 測定値間の角状摂動が存在する。 大きな角摂動を持つデータサンプルは、アルゴリズムによる予測タスクで不正確になることが多い。 医療波形データに固有のグラフ構造を活用し,性能とロバスト性を向上させるグラフベースデータ拡張手法を設計した。 さらに, グラフ強化による性能向上は, 敵攻撃に対するテストによる堅牢性から生じることを示した。 性能向上の基礎は直交するので、グラフ拡張は既存のデータ拡張技術と併用して、最終的なパフォーマンスをさらに向上させることができる。 我々は,グラフ拡張法がデータ拡張の新たな可能性を開くと考えている。

In this paper, we propose a novel graph-based data augmentation method that can generally be applied to medical waveform data with graph structures. In the process of recording medical waveform data, such as electrocardiogram (ECG) or electroencephalogram (EEG), angular perturbations between the measurement leads exist due to discrepancies in lead positions. The data samples with large angular perturbations often cause inaccuracy in algorithmic prediction tasks. We design a graph-based data augmentation technique that exploits the inherent graph structures within the medical waveform data to improve both performance and robustness. In addition, we show that the performance gain from graph augmentation results from robustness by testing against adversarial attacks. Since the bases of performance gain are orthogonal, the graph augmentation can be used in conjunction with existing data augmentation techniques to further improve the final performance. We believe that our graph augmentation method opens up new possibilities to explore in data augmentation.
翻訳日:2022-05-31 16:51:20 公開日:2022-05-29
# マルコフポテンシャルゲームにおける独立学習と分散学習

Independent and Decentralized Learning in Markov Potential Games ( http://arxiv.org/abs/2205.14590v1 )

ライセンス: Link先を確認
Chinmay Maheshwari and Manxi Wu and Druv Pai and Shankar Sastry(参考訳) マルチエージェント強化学習ダイナミクスを提案し、無限水平割引マルコフポテンシャルゲームにおける収束特性を解析する。 我々は、プレイヤーが現実の状態とそれぞれの報酬を各ステージでのみ観察できる、独立的で分散化された設定に焦点を当てる。 プレイヤーはゲームモデルについての知識がなく、互いに協調することができない。 学習力学の各段階において、プレイヤーは、現実の1段階の報酬に基づいて、各時点の報酬を非同期に評価する摂動Q関数の見積を更新する。 そして、プレイヤーは、推定Q-関数に基づいて、スムーズな最適1段偏差戦略を組み込むことで、それぞれのポリシーを独立に更新する。 学習ダイナミクスの重要な特徴は、q関数の見積もりがポリシーよりも高速なタイムスケールで更新されることです。 学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおいて定常ナッシュ平衡に収束することを示す。 この結果は,2つの時間スケール非同期確率近似の理論と,マルコフポテンシャルゲームにおける方針更新の軌跡に沿ったポテンシャル関数の単調性に関する新しい解析に基づいている。

We propose a multi-agent reinforcement learning dynamics, and analyze its convergence properties in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players can only observe the realized state and their own reward in every stage. Players do not have knowledge of the game model, and cannot coordinate with each other. In each stage of our learning dynamics, players update their estimate of a perturbed Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating a smoothed optimal one-stage deviation strategy based on the estimated Q-function. A key feature of the learning dynamics is that the Q-function estimates are updated at a faster timescale than the policies. We prove that the policies induced by our learning dynamics converge to a stationary Nash equilibrium in Markov potential games with probability 1. Our results build on the theory of two timescale asynchronous stochastic approximation, and new analysis on the monotonicity of potential function along the trajectory of policy updates in Markov potential games.
翻訳日:2022-05-31 16:23:44 公開日:2022-05-29
# CoNT: 対照的なニューラルテキスト生成

CoNT: Contrastive Neural Text Generation ( http://arxiv.org/abs/2205.14690v1 )

ライセンス: Link先を確認
Chenxin An, Jiangtao Feng, Kai Lv, Lingpeng Kong, Xipeng Qiu and Xuanjing Huang(参考訳) 近年、露出バイアス問題を緩和する新たなソリューションとして、コントラスト学習がニューラルテキスト生成への関心を高めている。 自動回帰復号に常に依存するタスクを生成するのに不可欠なシーケンスレベルのトレーニング信号を導入する。 しかしながら、ニューラルテキスト生成におけるコントラスト学習を用いた従来の手法は、通常、性能が劣る。 本稿では,その基礎となる理由を分析し,新しいコントラスト型ニューラルテキスト生成フレームワークであるCoNTを提案する。 CoNTは、コントラスト学習が生成タスクにおいて3つの側面から広く採用されるのを防ぐボトルネック、すなわち、コントラスト的な例の構築、コントラスト的な損失の選択、デコーディングの戦略に対処する。 我々は,機械翻訳,要約,コードコメント生成,データ-テキスト生成,コモンセンス生成を含む10のベンチマークを用いて,CoNTを5世代タスクで検証する。 実験結果から、CoNTは従来のトレーニングフレームワークよりも、説得力のあるマージンを持つ10のベンチマークで明らかに優れていた。 特に、CoNTは、機械翻訳における1.50 BLEUと要約における1.77 ROUGE-1という、テキスト生成における最も競争力のあるコントラスト学習手法をそれぞれ上回っている。 要約、コードコメント生成(外部データなし)、データ対テキスト生成に関する新たな最先端を実現する。

Recently, contrastive learning attracts increasing interests in neural text generation as a new solution to alleviate the exposure bias problem. It introduces a sequence-level training signal which is crucial to generation tasks that always rely on auto-regressive decoding. However, previous methods using contrastive learning in neural text generation usually lead to inferior performance. In this paper, we analyse the underlying reasons and propose a new Contrastive Neural Text generation framework, CoNT. CoNT addresses bottlenecks that prevent contrastive learning from being widely adopted in generation tasks from three aspects -- the construction of contrastive examples, the choice of the contrastive loss, and the strategy in decoding. We validate CoNT on five generation tasks with ten benchmarks, including machine translation, summarization, code comment generation, data-to-text generation and commonsense generation. Experimental results show that CoNT clearly outperforms the conventional training framework on all the ten benchmarks with a convincing margin. Especially, CoNT surpasses previous the most competitive contrastive learning method for text generation, by 1.50 BLEU on machine translation and 1.77 ROUGE-1 on summarization, respectively. It achieves new state-of-the-art on summarization, code comment generation (without external data) and data-to-text generation.
翻訳日:2022-05-31 16:19:40 公開日:2022-05-29
# VD-PCR:代名詞参照分解能によるビジュアルダイアログの改善

VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution ( http://arxiv.org/abs/2205.14693v1 )

ライセンス: Link先を確認
Xintong Yu, Hongming Zhang, Ruixin Hong, Yangqiu Song, Changshui Zhang(参考訳) ビジュアルダイアログタスクは、ビジュアル環境に基づいたマルチラウンドダイアログで人間と対話するaiエージェントを必要とする。 共通の言語現象として、代名詞は通信効率を向上させるためにダイアログでしばしば使用される。 その結果、代名詞(つまり、代名詞を名詞句に接地させる)の解決は、対話を理解するための必須のステップである。 本稿では,暗黙的・明示的両面でのPronoun Coreference Resolutionを用いたビジュアルダイアログ理解向上のための新しいフレームワークであるVD-PCRを提案する。 まず,モデルが代名詞を理解するのを暗黙的に支援するために,代名詞コリファレンス分解能と視覚対話タスクの合同訓練を行うための新しい手法を設計する。 第2に,代名詞とその参照詞のコア参照関係がダイアログラウンドの関連性を示すことを確認した後,視覚的ダイアログモデルの入力において,無関係な履歴ラウンドを明示することを提案する。 pruned inputを使えば、モデルは関連するダイアログ履歴に集中でき、無関係なダイアログの邪魔を無視できる。 提案した暗黙的および明示的手法により、VD-PCRはVisDialデータセット上で最先端の実験結果を得る。

The visual dialog task requires an AI agent to interact with humans in multi-round dialogs based on a visual environment. As a common linguistic phenomenon, pronouns are often used in dialogs to improve the communication efficiency. As a result, resolving pronouns (i.e., grounding pronouns to the noun phrases they refer to) is an essential step towards understanding dialogs. In this paper, we propose VD-PCR, a novel framework to improve Visual Dialog understanding with Pronoun Coreference Resolution in both implicit and explicit ways. First, to implicitly help models understand pronouns, we design novel methods to perform the joint training of the pronoun coreference resolution and visual dialog tasks. Second, after observing that the coreference relationship of pronouns and their referents indicates the relevance between dialog rounds, we propose to explicitly prune the irrelevant history rounds in visual dialog models' input. With pruned input, the models can focus on relevant dialog history and ignore the distraction in the irrelevant one. With the proposed implicit and explicit methods, VD-PCR achieves state-of-the-art experimental results on the VisDial dataset.
翻訳日:2022-05-31 16:19:17 公開日:2022-05-29
# 記憶から知識を分離する: 検索による即興学習

Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning ( http://arxiv.org/abs/2205.14704v1 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Ningyu Zhang, Xiaozhuan Liang, Shumin Deng, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 素早い学習アプローチは、パラメトリックベースの学習パラダイムに従っている間、より優れた数ショットのパフォーマンスを誘導することで、自然言語処理に波を巻き起こしている。 特に、バニラ・プロンプト・ラーニングは、完全に教師されたトレーニングや、低ショットデータによる浅層パターンの過剰適合において、ロートによる非定型インスタンスの利用に苦労する可能性がある。 このような制約を緩和するため、モデルが一般化と記憶のバランスをとるのを助けるために、記憶から知識を分離する動機を持つレトロプロンプトを開発した。 バニラの素早い学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックの知識ストアを構築し、入力、トレーニング、推論のプロセス中に検索メカニズムを実装し、トレーニングコーパスから関連するコンテキストを抽出する機能を付加して強化の手がかりとする。 大規模な実験では、RetroPromptは、数ショットとゼロショットの両方でパフォーマンスが向上することを示した。 さらに,提案するretropromptは,新たなデータセットによって,より優れた一般化能力が得られることを示す。 メモリ化の詳細な分析により、RetroPromptはメモリ化における言語モデルへの依存を減らすことができ、下流タスクの一般化を改善することができる。

Prompt learning approaches have made waves in natural language processing by inducing better few-shot performance while they still follow a parametric-based learning paradigm; the oblivion and rote memorization problems in learning may encounter unstable generalization issues. Specifically, vanilla prompt learning may struggle to utilize atypical instances by rote during fully-supervised training or overfit shallow patterns with low-shot data. To alleviate such limitations, we develop RetroPrompt with the motivation of decoupling knowledge from memorization to help the model strike a balance between generalization and memorization. In contrast with vanilla prompt learning, RetroPrompt constructs an open-book knowledge-store from training instances and implements a retrieval mechanism during the process of input, training and inference, thus equipping the model with the ability to retrieve related contexts from the training corpus as cues for enhancement. Extensive experiments demonstrate that RetroPrompt can obtain better performance in both few-shot and zero-shot settings. Besides, we further illustrate that our proposed RetroPrompt can yield better generalization abilities with new datasets. Detailed analysis of memorization indeed reveals RetroPrompt can reduce the reliance of language models on memorization; thus, improving generalization for downstream tasks.
翻訳日:2022-05-31 16:18:58 公開日:2022-05-29
# 会話としての学習:情報獲得のための対話システム

Learning as Conversation: Dialogue Systems Reinforced for Information Acquisition ( http://arxiv.org/abs/2205.14748v1 )

ライセンス: Link先を確認
Pengshan Cai, Hui Wan, Fei Liu, Mo Yu, Hong Yu, Sachindra Joshi(参考訳) そこで本研究では,教師ボットと会話することで,文章を読まずに情報や知識を得る会話として学習するための,aiを利用した新しいチャットボットを提案する。 情報獲得指向対話システムでは,ドメイン内対話データを使わずに様々なドメインにシステムを転送し,ユーザに対して情報的かつ注意深い対話を行うことができる。 3つの大規模公開データコーパスにおける主観的・客観的な評価は,知識集約的かつ注意深い会話を実現するシステムの有効性を実証し,利用者の理解獲得を支援する。 私たちのコードとデータセットは、フォローアップリサーチのために公開されています。

We propose novel AI-empowered chat bots for learning as conversation where a user does not read a passage but gains information and knowledge through conversation with a teacher bot. Our information-acquisition-oriented dialogue system employs a novel adaptation of reinforced self-play so that the system can be transferred to various domains without in-domain dialogue data, and can carry out conversations both informative and attentive to users. Our extensive subjective and objective evaluations on three large public data corpora demonstrate the effectiveness of our system to deliver knowledge-intensive and attentive conversations and help end users substantially gain knowledge without reading passages. Our code and datasets are publicly available for follow-up research.
翻訳日:2022-05-31 16:18:30 公開日:2022-05-29
# LiDARを用いた大規模2次元3次元建築地図の作成

Towards an unsupervised large-scale 2D and 3D building mapping with LiDAR ( http://arxiv.org/abs/2205.14585v1 )

ライセンス: Link先を確認
Hunsoo Song, Jinha Jung(参考訳) 2dおよび3dビルディングマップは、人間の活動とその地球とその環境への影響を理解するための貴重な情報を提供する。 建築地図の品質向上に多大な努力を払っているにもかかわらず、現在の大規模建築地図には多くの誤りがあり、2次元建築情報しか提供できない。 本研究では,大規模ビルディングマッピングに適した空中LiDARデータを用いた最先端の2Dおよび3Dビルディング抽出アルゴリズムを提案する。 本アルゴリズムは完全に教師なしの方法で動作し,トレーニングラベルやトレーニング手順を必要としない。 本アルゴリズムは, 形態的フィルタリングと平面性に基づくフィルタリングの単純な操作のみを必要とするが, 正確な2次元および3次元ビルディングマップを生成することができる。 デンバーとニューヨーク市の大規模データセット(550 sqkm)における定量的および定性的評価により,パラメータチューニングなしでも,ディープラーニングに基づくMicrosoftのビルディングマッピングアルゴリズムよりも優れた性能を示した。 ランドスケープの異なる条件におけるより広範な評価により、我々のアルゴリズムはスケーラブルであり、適切なパラメータ選択によりさらに改善できることを確認した。 我々のアルゴリズムは、より計算効率が良く、より正確で、より説明しやすい、他の画像ベースビルディング抽出アルゴリズムよりも有利である。 提案する2dおよび3dビルディングマップを高精度に作成するアルゴリズムは,空飛ぶlidarデータを用いたグローバルな2dおよび3dビルディングマッピングへの大きな可能性をもたらす。

A 2D and 3D building map provides invaluable information for understanding human activities and their impacts on Earth and its environment. Despite enormous efforts to improve the quality of building maps, current large-scale building maps have lots of errors and are limited to providing only 2D building information. This study presents a state-of-the-art 2D and 3D building extraction algorithm with airborne LiDAR data that is suitable for large-scale building mapping. Our algorithm operates in a fully unsupervised manner and does not require either any training label or training procedure. Our algorithm requires only simple operations of morphological filtering and planarity-based filtering but can produce an accurate 2D and 3D building map. A quantitative and qualitative evaluation in a large-scale dataset (-550 sqkm) of Denver and New York City showed that our algorithm outperforms the deep learning-based Microsoft's building mapping algorithm even without any parameter tuning. More extensive evaluations in different conditions of landscapes confirmed that our algorithm is scalable and can be improved further with appropriate parameter selection. Our algorithm is more advantageous than other image-based building extraction algorithms in that it is more computationally efficient, more accurate, and more explainable. Our proposed algorithm that can produce an accurate large-scale 2D and 3D building map provides a great potential towards a global-scale 2D and 3D building mapping with airborne LiDAR data.
翻訳日:2022-05-31 16:07:53 公開日:2022-05-29
# 結合誘導型および誘導型ニューラルロジカル推論

Joint Abductive and Inductive Neural Logical Reasoning ( http://arxiv.org/abs/2205.14591v1 )

ライセンス: Link先を確認
Zhenwei Tang, Shichao Pei, Xi Peng, Fuzhen Zhuang, Xiangliang Zhang, Robert Hoehndorf(参考訳) 神経論理推論(NLR)は知識発見と人工知能の基本的な課題である。 nlrの目的は、クエリと回答の分散表現に基づく構造化知識ベース上での論理操作によるマルチホップクエリへの応答である。 従来の神経論理的推論者は、論理理論の観点から帰納的推論(inductive reasoning)を行うことができるが、各概念が一組の実体の要約であるような帰納的推論(abductive reasoning)を行うような記述的概念的回答は提供できない。 特に、帰納的推論タスクは、各クエリの説明を記述的概念で推論しようと試み、ユーザにとって分かりやすく、応用オントロジーの分野において非常に有用である。 本研究では,概念を取り入れ,表現し,運用する上での課題を解決するために,ai-nlr(joint abductive and inductive neural logical reasoning)の問題を定式化する。 我々はAI-NLRのためのABINという独自のソリューションを提案する。 まず,説明論理に基づく存在論的公理を取り入れ,概念の源泉を提供する。 そして、概念とクエリをファジィ集合として表現し、すなわち、要素がメンバシップの度合いを持つ集合を概念とクエリをエンティティでブリッジする。 さらに,概念とクエリのファジィ集合表現の上に概念を含む演算子を設計し,最適化と推論を行う。 2つの実世界のデータセットに対する大規模な実験結果からAI-NLRに対するABINの有効性が示された。

Neural logical reasoning (NLR) is a fundamental task in knowledge discovery and artificial intelligence. NLR aims at answering multi-hop queries with logical operations on structured knowledge bases based on distributed representations of queries and answers. While previous neural logical reasoners can give specific entity-level answers, i.e., perform inductive reasoning from the perspective of logic theory, they are not able to provide descriptive concept-level answers, i.e., perform abductive reasoning, where each concept is a summary of a set of entities. In particular, the abductive reasoning task attempts to infer the explanations of each query with descriptive concepts, which make answers comprehensible to users and is of great usefulness in the field of applied ontology. In this work, we formulate the problem of the joint abductive and inductive neural logical reasoning (AI-NLR), solving which needs to address challenges in incorporating, representing, and operating on concepts. We propose an original solution named ABIN for AI-NLR. Firstly, we incorporate description logic-based ontological axioms to provide the source of concepts. Then, we represent concepts and queries as fuzzy sets, i.e., sets whose elements have degrees of membership, to bridge concepts and queries with entities. Moreover, we design operators involving concepts on top of the fuzzy set representation of concepts and queries for optimization and inference. Extensive experimental results on two real-world datasets demonstrate the effectiveness of ABIN for AI-NLR.
翻訳日:2022-05-31 15:31:53 公開日:2022-05-29
# ハイパーボールに基づく適応的粒度クラスタリング法

An adaptive granularity clustering method based on hyper-ball ( http://arxiv.org/abs/2205.14592v1 )

ライセンス: Link先を確認
Shu-yin Xia, Jiang Xie, Guo-yin Wang(参考訳) クラスタ分析の目的は、その類似性に応じて要素を分類することである。 その応用範囲は天文学からバイオインフォマティクス、パターン認識まで幅広い。 本手法は, 類似分布を持つデータがハイパーボールとなり, 隣接するハイパーボールがクラスタとなるという考え方に基づいている。 大規模ファースト」の認知則に基づき、この方法は単純で非パラメトリックな方法で形状を考慮せずにクラスターを識別できる。 いくつかのデータセットの実験結果から,アルゴリズムの有効性が示された。

The purpose of cluster analysis is to classify elements according to their similarity. Its applications range from astronomy to bioinformatics and pattern recognition. Our method is based on the idea that the data with similar distribution form a hyper-ball and the adjacent hyper-balls form a cluster. Based on the cognitive law of "large scale first", this method can identify clusters without considering shape in a simple and non-parametric way. Experimental results on several datasets demonstrate the effectiveness of the algorithm.
翻訳日:2022-05-31 15:31:31 公開日:2022-05-29
# 観測摂動下における安全強化学習のロバスト性について

On the Robustness of Safe Reinforcement Learning under Observational Perturbations ( http://arxiv.org/abs/2205.14691v1 )

ライセンス: Link先を確認
Zuxin Liu, Zijian Guo, Zhepeng Cen, Huan Zhang, Jie Tan, Bo Li, Ding Zhao(参考訳) 安全強化学習(RL)は、安全制約を満たしつつタスク報酬を最大化する政策を訓練する。 先行研究は性能最適性に重点を置いているが、多くの安全なRL問題の最適解は、慎重に設計された観測摂動に対して堅牢で安全ではない。 我々は、安全なRL設定で有効な状態敵攻撃を設計するユニークな特性を正式に分析する。 本稿では,標準RLタスクのベースライン逆攻撃手法が安全RLに必ずしも有効ではないことを示すとともに,コストを最大化し,報酬を最大化する2つの新しいアプローチを提案する。 興味深く直観的な発見の1つは、最大報酬攻撃は安全でない行為を誘発し、報酬を維持して密かに攻撃を行うことができるため、強いことである。 さらに,より効果的なRL学習フレームワークを提案し,総合的な実験を通じて評価する。 この研究は、RLにおける観測ロバスト性と安全性の間の継承された接続に光を当て、将来の安全なRL研究のための先駆的な研究を提供する。

Safe reinforcement learning (RL) trains a policy to maximize the task reward while satisfying safety constraints. While prior works focus on the performance optimality, we find that the optimal solutions of many safe RL problems are not robust and safe against carefully designed observational perturbations. We formally analyze the unique properties of designing effective state adversarial attackers in the safe RL setting. We show that baseline adversarial attack techniques for standard RL tasks are not always effective for safe RL and proposed two new approaches - one maximizes the cost and the other maximizes the reward. One interesting and counter-intuitive finding is that the maximum reward attack is strong, as it can both induce unsafe behaviors and make the attack stealthy by maintaining the reward. We further propose a more effective adversarial training framework for safe RL and evaluate it via comprehensive experiments. This work sheds light on the inherited connection between observational robustness and safety in RL and provides a pioneer work for future safe RL studies.
翻訳日:2022-05-31 15:31:23 公開日:2022-05-29
# 逆影響に対する自動走行プランナーのロバスト性の評価

Evaluating Automated Driving Planner Robustness against Adversarial Influence ( http://arxiv.org/abs/2205.14697v1 )

ライセンス: Link先を確認
Andres Molina-Markham, Silvia G. Ionescu, Erin Lanus, Derek Ng, Sam Sommerer, Joseph J. Rushanan(参考訳) 自動運転プランナーの堅牢性を評価することは、決定的かつ困難な課題である。 車両の評価手法は確立されているが、自律的な部品を持つ車両が敵のエージェントと道路を共有している現実をまだ説明していない。 提案手法は,確率的信頼モデルに基づき,機械学習を利用したプランナーの保護の堅牢性を評価することを目的としている。 すべての車両に対して同じ評価データセットを用いて安全性を評価する確立された慣行とは対照的に、敵意評価は基本的に特定の保護を破ろうとするプロセスが必要であると論じる。 そこで本研究では,安全でない行動を効果的に誘発する条件を敵が判断することの難しさを推定することに基づく評価手法を提案する。 この種の推論には、脅威、保護、および守るべき計画決定の側面に関する正確な記述が必要である。 提案手法は,カメラを用いた物体検出装置に依存したプランナーの保護を評価することで実証する。

Evaluating the robustness of automated driving planners is a critical and challenging task. Although methodologies to evaluate vehicles are well established, they do not yet account for a reality in which vehicles with autonomous components share the road with adversarial agents. Our approach, based on probabilistic trust models, aims to help researchers assess the robustness of protections for machine learning-enabled planners against adversarial influence. In contrast with established practices that evaluate safety using the same evaluation dataset for all vehicles, we argue that adversarial evaluation fundamentally requires a process that seeks to defeat a specific protection. Hence, we propose that evaluations be based on estimating the difficulty for an adversary to determine conditions that effectively induce unsafe behavior. This type of inference requires precise statements about threats, protections, and aspects of planning decisions to be guarded. We demonstrate our approach by evaluating protections for planners relying on camera-based object detectors.
翻訳日:2022-05-31 15:31:02 公開日:2022-05-29
# 条件付きカバーの診断による校正予測分布

Calibrated Predictive Distributions via Diagnostics for Conditional Coverage ( http://arxiv.org/abs/2205.14568v1 )

ライセンス: Link先を確認
Biprateep Dey and David Zhao and Jeffrey A. Newman and Brett H. Andrews and Rafael Izbicki and Ann B. Lee(参考訳) 不確実性定量化は、AIアルゴリズムの予測能力を評価するために重要である。 多くの作業(フローの正規化やベイズニューラルネットワークを含む)は、入力特徴の$\mathbf{X}$を与えられた変数Yの予測分布(PD)全体を記述することに費やされている。 しかし、オフ・ザ・シェルフ PD は通常条件付きキャリブレーションには程遠い。つまり、入力 $\mathbf{X}$ が与えられた事象の発生確率は予測された確率と大きく異なる。 現在の予測推論(コンフォメーション予測など)に関するほとんどの研究は、人口全体(平均で$\mathbf{x}$ 以上)の平均的な不確実性を提供するだけでなく、個々のインスタンスに対する正確な不確実性を備えたおよそ条件付の予測セットを構築することに関するものである。 条件付きPD全体の取得と評価の問題は、アプローチが困難すぎるとしばしば信じられている。 本研究では,再校正と検証が実際に達成可能な目標であることを示す。 提案手法は確率積分変換(PIT)のスコアを$\mathbf{X}$に対して回帰するという考え方に依存する。 この回帰により、特徴空間全体にわたる条件付きカバレッジの完全な診断が可能となり、不特定PDの再分類に使用できる。 我々は,本修正した予測帯域を,分布シフトによる設定や高次元配列データを含む合成データに対する最先端予測アルゴリズムと比較した。 最後に、画像データ(つまり、測光赤方偏移)を用いて、銀河距離の測定のための校正PDを評価・生成する物理科学への応用を実証する。

Uncertainty quantification is crucial for assessing the predictive ability of AI algorithms. A large body of work (including normalizing flows and Bayesian neural networks) has been devoted to describing the entire predictive distribution (PD) of a target variable Y given input features $\mathbf{X}$. However, off-the-shelf PDs are usually far from being conditionally calibrated; i.e., the probability of occurrence of an event given input $\mathbf{X}$ can be significantly different from the predicted probability. Most current research on predictive inference (such as conformal prediction) concerns constructing prediction sets, that do not only provide correct uncertainties on average over the entire population (that is, averaging over $\mathbf{X}$), but that are also approximately conditionally calibrated with accurate uncertainties for individual instances. It is often believed that the problem of obtaining and assessing entire conditionally calibrated PDs is too challenging to approach. In this work, we show that recalibration as well as validation are indeed attainable goals in practice. Our proposed method relies on the idea of regressing probability integral transform (PIT) scores against $\mathbf{X}$. This regression gives full diagnostics of conditional coverage across the entire feature space and can be used to recalibrate misspecified PDs. We benchmark our corrected prediction bands against oracle bands and state-of-the-art predictive inference algorithms for synthetic data, including settings with distributional shift and dependent high-dimensional sequence data. Finally, we demonstrate an application to the physical sciences in which we assess and produce calibrated PDs for measurements of galaxy distances using imaging data (i.e., photometric redshifts).
翻訳日:2022-05-31 15:24:16 公開日:2022-05-29
# 高次元における分散ロジスティック回帰の条件付きランダム化試験

A Conditional Randomization Test for Sparse Logistic Regression in High-Dimension ( http://arxiv.org/abs/2205.14613v1 )

ライセンス: Link先を確認
Binh T. Nguyen, Bertrand Thirion, Sylvain Arlot(参考訳) 正しい信頼度を持つ分類モデルの関連する変数を特定することは、高次元において中心であるが難しいタスクである。 統計と機械学習におけるスパースロジスティック回帰(sparse logistic regression)の中核的な役割にもかかわらず、$p$の機能がサンプルの$n$のそれよりも大きいという状況下では、正確な推論のための優れたソリューションが依然として欠けている。 本稿では,条件付きランダム化テスト(CRT)の改善によってこの問題に対処する。 元のCRTアルゴリズムは、テスト統計の分布をほとんど仮定せず、p値を出力する方法としてPromiseを示す。 軽度高次元問題においても計算コストが禁じられているため,蒸留法に基づく高速解法が提案されている。 しかし、それらは非現実的な仮説に依拠し、低電力の解をもたらす。 これを改善するために,$\ell_1$-penalized logistic regression problem の幾何を考慮した変数蒸留ステップとデコリレーションステップを組み合わせたアルゴリズムである \emph{CRT-logit} を提案する。 本手法の理論的解析を行い,大規模な脳画像とゲノムデータセットの実験とともにシミュレーションにおける有効性を示す。

Identifying the relevant variables for a classification model with correct confidence levels is a central but difficult task in high-dimension. Despite the core role of sparse logistic regression in statistics and machine learning, it still lacks a good solution for accurate inference in the regime where the number of features $p$ is as large as or larger than the number of samples $n$. Here, we tackle this problem by improving the Conditional Randomization Test (CRT). The original CRT algorithm shows promise as a way to output p-values while making few assumptions on the distribution of the test statistics. As it comes with a prohibitive computational cost even in mildly high-dimensional problems, faster solutions based on distillation have been proposed. Yet, they rely on unrealistic hypotheses and result in low-power solutions. To improve this, we propose \emph{CRT-logit}, an algorithm that combines a variable-distillation step and a decorrelation step that takes into account the geometry of $\ell_1$-penalized logistic regression problem. We provide a theoretical analysis of this procedure, and demonstrate its effectiveness on simulations, along with experiments on large-scale brain-imaging and genomics datasets.
翻訳日:2022-05-31 15:23:45 公開日:2022-05-29
# 逐次学習課題における記憶の影響

The impact of memory on learning sequence-to-sequence tasks ( http://arxiv.org/abs/2205.14683v1 )

ライセンス: Link先を確認
Alireza Seif, Sarah A.M. Loos, Gennaro Tucci, \'Edgar Rold\'an, Sebastian Goldt(参考訳) 機械翻訳などの分野におけるニューラルネットワークの最近の成功は、seq2seq(learning sequence-to-sequence)タスクに新たな注目を集めている。 ニューラルネットワークの可解モデルを用いて分類と回帰を研究する豊富な文献があるが、seq2seqタスクの学習はこの観点からはそれほど研究されていない。 本稿では、ssou(stochastic switching-ornstein-uhlenbeck)モデルを用いて、シーケンス内のメモリの程度や非マルコフ性を明確に制御するseq2seqタスクのための単純なモデルを提案する。 シーケンス中のメモリ量を定量化するために,非マルコビアン性の尺度を導入する。 このタスクで訓練された最小の自己回帰学習モデルに対して、SSOUプロセスの定常状態の異なる位相に対応する2つの学習体制を同定する。 これらの位相は、シーケンス統計を管理する2つの異なる時間スケール間の相互作用から生じる。 さらに,ARモデルのメモリを増大させると常に性能が向上するが,入力シーケンスの非マルコビアン性は向上または低下する。 最後に、繰り返しおよび畳み込みニューラルネットワークを用いた実験により、より複雑なニューラルネットワークアーキテクチャが観察されることを示した。

The recent success of neural networks in machine translation and other fields has drawn renewed attention to learning sequence-to-sequence (seq2seq) tasks. While there exists a rich literature that studies classification and regression using solvable models of neural networks, learning seq2seq tasks is significantly less studied from this perspective. Here, we propose a simple model for a seq2seq task that gives us explicit control over the degree of memory, or non-Markovianity, in the sequences -- the stochastic switching-Ornstein-Uhlenbeck (SSOU) model. We introduce a measure of non-Markovianity to quantify the amount of memory in the sequences. For a minimal auto-regressive (AR) learning model trained on this task, we identify two learning regimes corresponding to distinct phases in the stationary state of the SSOU process. These phases emerge from the interplay between two different time scales that govern the sequence statistics. Moreover, we observe that while increasing the memory of the AR model always improves performance, increasing the non-Markovianity of the input sequences can improve or degrade performance. Finally, our experiments with recurrent and convolutional neural networks show that our observations carry over to more complicated neural network architectures.
翻訳日:2022-05-31 15:23:23 公開日:2022-05-29
# #BackLivesMatterと#StopAsianHateで何が語られているのか? 潜在ディリクレ配置モデルによるオンライン社会運動におけるTwitterトピックの探索と分類

What are People Talking about in #BackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model ( http://arxiv.org/abs/2205.14725v1 )

ライセンス: Link先を確認
Xin Tong, Yixuan Li, Jiayi Li, Rongqi Bei, Luyao Zhang(参考訳) マイノリティグループはソーシャルメディアを使って社会運動を組織し、社会的な影響を生んでいる。 ブラック・ライブズ・マター(BLM)とストップ・アジア・ヘイト(SAH)は、Twitter上に広がり、人種差別に対する抗議活動や活動を促進し、少数派グループが直面する他の社会的課題に対する大衆の認識を高めている。 しかし、これまでの研究では、ツイートやユーザとのインタビューの質的な分析がほとんどであり、全ツイートを包括的かつ有効に表現することはできない。 厳密で定量化され、データ中心のアプローチで、BLMとSAHダイアログ内のTwitterトピックを探索する研究はほとんどない。 そこで本研究では,BLMとSAHのトピックを包括的に分析するための混合メソッドアプローチを採用した。 1)高レベルな単語や話題を理解するために潜在ディリクレ割当モデルを実装し,(2)ツイート中の特定のテーマを特定するオープンコーディング分析を行った。 われわれは#blacklivesmatterと#stopasianhateハッシュタグで100万以上のツイートを収集し、それらのトピックを比較した。 以上の結果から,このツイートは,社会正義,社会運動,情緒的感情など,各運動に特有のサブトピックを持ちながら,様々な影響力のあるトピックを議論していることが明らかとなった。 本研究は、特にソーシャルメディアプラットフォームにおける社会運動のトピック分析と、AI、倫理、社会全般の相互作用に関する文献に寄与する。

Minority groups have been using social media to organize social movements that create profound social impacts. Black Lives Matter (BLM) and Stop Asian Hate (SAH) are two successful social movements that have spread on Twitter that promote protests and activities against racism and increase the public's awareness of other social challenges that minority groups face. However, previous studies have mostly conducted qualitative analyses of tweets or interviews with users, which may not comprehensively and validly represent all tweets. Very few studies have explored the Twitter topics within BLM and SAH dialogs in a rigorous, quantified and data-centered approach. Therefore, in this research, we adopted a mixed-methods approach to comprehensively analyze BLM and SAH Twitter topics. We implemented (1) the latent Dirichlet allocation model to understand the top high-level words and topics and (2) open-coding analysis to identify specific themes across the tweets. We collected more than one million tweets with the #blacklivesmatter and #stopasianhate hashtags and compared their topics. Our findings revealed that the tweets discussed a variety of influential topics in depth, and social justice, social movements, and emotional sentiments were common topics in both movements, though with unique subtopics for each movement. Our study contributes to the topic analysis of social movements on social media platforms in particular and the literature on the interplay of AI, ethics, and society in general.
翻訳日:2022-05-31 15:20:28 公開日:2022-05-29
# ComplexGen: B-Rep Chain Complex GenerationによるCAD再構成

ComplexGen: CAD Reconstruction by B-Rep Chain Complex Generation ( http://arxiv.org/abs/2205.14573v1 )

ライセンス: Link先を確認
Haoxiang Guo and Shilin Liu and Hao Pan and Yang Liu and Xin Tong and Baining Guo(参考訳) 本稿では,境界表現 (b-rep) におけるcadモデルの再構成を,異なる順序の幾何学的プリミティブ,すなわち頂点,辺,表面パッチの検出と,鎖複体として局所的にモデル化されたプリミティブの対応と捉え,これらの包括的構造をより完全かつ正規化した再構築をモデル化することで達成できることを示す。 複雑な生成問題を2つのステップで解決する。 まず,入力点クラウド処理のためのスパースcnnエンコーダと,幾何学的プリミティブを生成する三経路トランスフォーマデコーダと,それらの推定確率との相互関係からなる新しいニューラルフレームワークを提案する。 第2に,ニューラルネットワークが予測する確率的構造を考慮し,構造的妥当性制約の下での確率を最大化し,幾何改良を適用した大域的最適化を解くことにより,一定のB-Rep連鎖複合体を復元する。 大規模CADデータセットの大規模な実験により、B-Rep連鎖構造をモデル化することで、学習のためのより正確な検出と最適化のためのより制約のある再構築が可能になり、構造的により忠実で完全なCADB-Repモデルが以前の結果よりも実現された。

We view the reconstruction of CAD models in the boundary representation (B-Rep) as the detection of geometric primitives of different orders, i.e. vertices, edges and surface patches, and the correspondence of primitives, which are holistically modeled as a chain complex, and show that by modeling such comprehensive structures more complete and regularized reconstructions can be achieved. We solve the complex generation problem in two steps. First, we propose a novel neural framework that consists of a sparse CNN encoder for input point cloud processing and a tri-path transformer decoder for generating geometric primitives and their mutual relationships with estimated probabilities. Second, given the probabilistic structure predicted by the neural network, we recover a definite B-Rep chain complex by solving a global optimization maximizing the likelihood under structural validness constraints and applying geometric refinements. Extensive tests on large scale CAD datasets demonstrate that the modeling of B-Rep chain complex structure enables more accurate detection for learning and more constrained reconstruction for optimization, leading to structurally more faithful and complete CAD B-Rep models than previous results.
翻訳日:2022-05-31 14:40:24 公開日:2022-05-29
# 非可視性:提案なしアモーダル・パノプティクス・セグメンテーション

Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation ( http://arxiv.org/abs/2205.14637v1 )

ライセンス: Link先を確認
Rohit Mohan and Abhinav Valada(参考訳) amodal panoptic segmentationは、世界の知覚と認知的理解を結びつけることを目的としている。 視覚的なシーン領域のセマンティックラベルと、閉鎖される可能性のあるリージョンを含む、トラフィック参加者インスタンス全体の形状を同時に予測する。 本稿では,この課題をマルチラベル・マルチクラス問題として解決する提案フリー・フレームワークを定式化した。まず,アモーダルマスクを異なる層に相対的オクルージョン順序に従って割り当て,その後,背景セマンティクスを学習しながら,各層にアモーダルインスタンス回帰を採用する。 本稿では,共有バックボーンと,複数のモジュールからなる非対称なデュアルデコーダを組み込んだ \net アーキテクチャを提案する。このアーキテクチャは,イントラスケールとクロススケールの機能集約,デコーダ間の双方向的特徴伝達,グローバルインスタンスレベルとローカルピクセルレベルのオクルージョン推論の統合を実現する。 さらに, 隠蔽マスクの埋め込みを明示的に活用することにより, 複雑な隠蔽シナリオのあいまいさを解消するアモーダルマスク精錬器を提案する。 BDD100K-APSとKITTI-360-APSデータセットの大規模な評価は、我々のアプローチが両方のベンチマークで新しい最先端を設定できたことを示している。

Amodal panoptic segmentation aims to connect the perception of the world to its cognitive understanding. It entails simultaneously predicting the semantic labels of visible scene regions and the entire shape of traffic participant instances, including regions that may be occluded. In this work, we formulate a proposal-free framework that tackles this task as a multi-label and multi-class problem by first assigning the amodal masks to different layers according to their relative occlusion order and then employing amodal instance regression on each layer independently while learning background semantics. We propose the \net architecture that incorporates a shared backbone and an asymmetrical dual-decoder consisting of several modules to facilitate within-scale and cross-scale feature aggregations, bilateral feature propagation between decoders, and integration of global instance-level and local pixel-level occlusion reasoning. Further, we propose the amodal mask refiner that resolves the ambiguity in complex occlusion scenarios by explicitly leveraging the embedding of unoccluded instance masks. Extensive evaluation on the BDD100K-APS and KITTI-360-APS datasets demonstrate that our approach set the new state-of-the-art on both benchmarks.
翻訳日:2022-05-31 14:40:01 公開日:2022-05-29
# 対話モデリングにおける局所性学習と等方性

Learning Locality and Isotropy in Dialogue Modeling ( http://arxiv.org/abs/2205.14583v1 )

ライセンス: Link先を確認
Han Wu, Haochen Tan, Mingjie Zhan, Gangming Zhao, Shaoqing Lu, Ding Liang and Linqi Song(参考訳) 既存の対話モデリング手法は、トランスフォーマーと大規模事前学習言語モデルを用いて、様々な対話タスクにおいて有望な性能を達成している。 しかし、近年の研究により、これらの手法によって生成された文脈表現は異方性の問題に苦しむことが明らかになった。 本稿では,生成した表現も会話的ではなく,文脈モデリング段階における会話構造情報を失うことを見出した。 この目的のために,対話モデリングにおける2つの特性,すなわち局所性と等方性を特定し,対話表現のキャリブレーションであるsimdrcを用いて等方的・対話的特徴空間を構築する方法を提案する。 実験結果から,本手法は,3つの対話課題における現状のモデルよりも,自動評価指標と人的評価指標で有意に優れていた。 さらに詳細な分析を行い,提案手法の有効性を確認した。

Existing dialogue modeling methods have achieved promising performance on various dialogue tasks with the aid of Transformer and the large-scale pre-trained language models. However, some recent studies revealed that the context representations produced by these methods suffer the problem of anisotropy. In this paper, we find that the generated representations are also not conversational, losing the conversation structure information during the context modeling stage. To this end, we identify two properties in dialogue modeling, i.e., locality and isotropy, and present a simple method for dialogue representation calibration, namely SimDRC, to build isotropic and conversational feature spaces. Experimental results show that our approach significantly outperforms the current state-of-the-art models on three dialogue tasks across the automatic and human evaluation metrics. More in-depth analyses further confirm the effectiveness of our proposed approach.
翻訳日:2022-05-31 14:39:34 公開日:2022-05-29
# proxymix: ソースフリードメイン適応のためのラベル精製によるプロキシベースのミックスアップトレーニング

ProxyMix: Proxy-based Mixup Training with Label Refinery for Source-Free Domain Adaptation ( http://arxiv.org/abs/2205.14566v1 )

ライセンス: Link先を確認
Yuhe Ding, Lijun Sheng, Jian Liang, Aihua Zheng, Ran He(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。 プライバシの懸念と重いデータ伝達のため、ターゲット学習のためのソースデータの代わりにトレーニング済みのソースモデルを利用する、ソースフリーなUDAが近年人気を集めている。 いくつかの研究は、生成モデルで未知のソースドメインを復元しようとするが、追加のネットワークパラメータを導入する。 他の研究では、ソースモデルを擬似ラベルで微調整することを提案し、ノイズの多い擬似ラベルは決定境界を誤認し、不満足な結果をもたらす可能性がある。 これらの課題に対処するために,ラベルリプライ(ProxyMix)を用いたProxyベースのMixupトレーニング法を提案する。 まず、追加のパラメータを避け、ソースモデルで情報を調べるために、proxymixは分類器の重みをクラスプロトタイプとして定義し、次にクラスバランスの取れたプロキシソースドメインをプロトタイプの最も近い隣人によって構築し、未認識のソースドメインとターゲットドメインを橋渡しします。 擬似ラベルの信頼性を向上させるために,未ラベル対象データに対するソフトな擬似ラベルを生成するための周波数重み付け集約戦略を提案する。 提案手法は,対象特徴の内部構造を活用し,対象特徴を意味近傍にプルし,勾配更新時の低周波クラスサンプルの重みを増加させる。 プロキシドメインと信頼性の高い疑似ラベルを用いて,提案手法では,プロキシとターゲットドメインを整合させ,予測の一貫性を強要し,ノイズラベルの負の影響を緩和する2種類のミックスアップ正規化(すなわち,ドメイン間およびドメイン内ミックスアップ)を用いる。 3つの2D画像と1つの3Dポイントクラウドオブジェクト認識ベンチマークの実験は、ProxyMixがソースフリーなUDAタスクに最先端のパフォーマンスをもたらすことを示した。

Unsupervised domain adaptation (UDA) aims to transfer knowledge from a labeled source domain to an unlabeled target domain. Owing to privacy concerns and heavy data transmission, source-free UDA, exploiting the pre-trained source models instead of the raw source data for target learning, has been gaining popularity in recent years. Some works attempt to recover unseen source domains with generative models, however introducing additional network parameters. Other works propose to fine-tune the source model by pseudo labels, while noisy pseudo labels may misguide the decision boundary, leading to unsatisfied results. To tackle these issues, we propose an effective method named Proxy-based Mixup training with label refinery (ProxyMix). First of all, to avoid additional parameters and explore the information in the source model, ProxyMix defines the weights of the classifier as the class prototypes and then constructs a class-balanced proxy source domain by the nearest neighbors of the prototypes to bridge the unseen source domain and the target domain. To improve the reliability of pseudo labels, we further propose the frequency-weighted aggregation strategy to generate soft pseudo labels for unlabeled target data. The proposed strategy exploits the internal structure of target features, pulls target features to their semantic neighbors, and increases the weights of low-frequency classes samples during gradient updating. With the proxy domain and the reliable pseudo labels, we employ two kinds of mixup regularization, i.e., inter- and intra-domain mixup, in our framework, to align the proxy and the target domain, enforcing the consistency of predictions, thereby further mitigating the negative impacts of noisy labels. Experiments on three 2D image and one 3D point cloud object recognition benchmarks demonstrate that ProxyMix yields state-of-the-art performance for source-free UDA tasks.
翻訳日:2022-05-31 14:21:02 公開日:2022-05-29
# SKFlow:スーパーカーネルによる光フローの学習

SKFlow: Learning Optical Flow with Super Kernels ( http://arxiv.org/abs/2205.14623v1 )

ライセンス: Link先を確認
Shangkun Sun, Yuanqi Chen, Yu Zhu, Guodong Guo, Ge Li(参考訳) 光フロー推定はコンピュータビジョンにおいて古典的だが難しい課題である。 光の流れを正確に予測する上で重要な要素の1つは、フレーム間の閉塞を軽減することである。 しかし, 隠蔽領域をモデル化するための局所的な証拠が不十分なため, 現時点の光学的フロー推定法では依然として問題となっている。 本稿では,光学的フロー推定におけるオクルージョンの影響を改善するためのCNNアーキテクチャであるSuper Kernel Flow Network (SKFlow)を提案する。 SKFlowは、拡張された受容野をもたらすスーパーカーネルの利点を生かし、欠落したマッチング情報を補完し、隠蔽された動きを回復する。 円錐接続とハイブリッド深度畳み込みを利用した効率的なスーパーカーネル設計を提案する。 広範な実験により、複数のベンチマーク、特にオクルード領域におけるskflowの有効性が実証された。 imagenetで事前トレーニングされたバックボーンや計算量の増加がなければ、skflowは説得力のあるパフォーマンスを実現し、現在sintelベンチマークで公開されているメソッドのうち、$\textbf{1st}$をランク付けする。 難易度の高いシンテルの最終パステストセットでは、SKFlowの平均終点誤差は2.23ドルに達し、これは最高の結果である2.47ドルを9.72セントで上回る。

Optical flow estimation is a classical yet challenging task in computer vision. One of the essential factors in accurately predicting optical flow is to alleviate occlusions between frames. However, it is still a thorny problem for current top-performing optical flow estimation methods due to insufficient local evidence to model occluded areas. In this paper, we propose Super Kernel Flow Network (SKFlow), a CNN architecture to ameliorate the impacts of occlusions on optical flow estimation. SKFlow benefits from the super kernels which bring enlarged receptive fields to complement the absent matching information and recover the occluded motions. We present efficient super kernel designs by utilizing conical connections and hybrid depth-wise convolutions. Extensive experiments demonstrate the effectiveness of SKFlow on multiple benchmarks, especially in the occluded areas. Without pre-trained backbones on ImageNet and with modest increase in computation, SKFlow achieves compelling performance and ranks $\textbf{1st}$ among current published methods on Sintel benchmark. On the challenging Sintel final pass test set, SKFlow attains the average end-point error of $2.23$, which surpasses the best published result $2.47$ by $9.72\%$.
翻訳日:2022-05-31 14:20:24 公開日:2022-05-29
# view to count: 教師の少ない群衆のためのアンカーによるランク付けの学習

Glance to Count: Learning to Rank with Anchors for Weakly-supervised Crowd Counting ( http://arxiv.org/abs/2205.14659v1 )

ライセンス: Link先を確認
Zheng Xiong, Liangyu Chai, Wenxi Liu, Yongtuo Liu, Sucheng Ren and Shengfeng He(参考訳) 群衆の画像は、おそらくアノテートする最も面倒なデータの一つだ。 本稿では,高コントラストの群集数を持つ2つの画像のバイナリランキングをトレーニング指導として活用する,高密度ラベル付き群集データの大量需要削減に尽力し,より弱い教師付き設定を提案する。 この新しい環境下でのトレーニングを可能にするために,クラウドカウント回帰問題をランキングポテンシャル予測問題に変換する。 特に、カウントの順序を示す2つの画像の潜在的なスコアを予測する、シャムのランキングネットワークを調整します。 したがって、最終的な目標は、すべての群衆画像に適切なポテンシャルを割り当て、彼らの注文がランキングラベルに従うことを保証することである。 一方、ポテンシャルは相対的な群衆の大きさを示すが、正確な群衆数を得ることはできない。 この問題を推論段階で「アンカー」を導入することで解決する。 具体的には、アンカーは数ラベルを持つ少数の画像であり、単純な線形写像関数によってポテンシャルスコアから対応する数を参照するために使われる。 本研究では,様々な組み合わせの監督を行うための広範囲な実験を行い,提案手法が既存の弱い監督手法よりも高い性能を示すことを示す。

Crowd image is arguably one of the most laborious data to annotate. In this paper, we devote to reduce the massive demand of densely labeled crowd data, and propose a novel weakly-supervised setting, in which we leverage the binary ranking of two images with high-contrast crowd counts as training guidance. To enable training under this new setting, we convert the crowd count regression problem to a ranking potential prediction problem. In particular, we tailor a Siamese Ranking Network that predicts the potential scores of two images indicating the ordering of the counts. Hence, the ultimate goal is to assign appropriate potentials for all the crowd images to ensure their orderings obey the ranking labels. On the other hand, potentials reveal the relative crowd sizes but cannot yield an exact crowd count. We resolve this problem by introducing "anchors" during the inference stage. Concretely, anchors are a few images with count labels used for referencing the corresponding counts from potential scores by a simple linear mapping function. We conduct extensive experiments to study various combinations of supervision, and we show that the proposed method outperforms existing weakly-supervised methods without additional labeling effort by a large margin.
翻訳日:2022-05-31 14:20:04 公開日:2022-05-29
# 塩分マップに基づくデータ拡張

Saliency Map Based Data Augmentation ( http://arxiv.org/abs/2205.14686v1 )

ライセンス: Link先を確認
Jalal Al-afandi, B\'alint Magyar, Andr\'as Horv\'ath(参考訳) データ拡張は、一見関連する2つの利点を持つ、一般的に適用されるテクニックである。 この方法では、新しいサンプルを生成するトレーニングセットのサイズを増加させ、適用された変換に対するネットワークの不変性を高めることができる。 残念なことに、全ての画像は分類に関して関連する特徴と関係のない特徴の両方を含んでいるため、この不変性はクラス固有でなければならない。 本稿では,ニューラルネットワークの特定領域への非分散を制限し,分類タスクにおけるテスト精度を高めるために,サリエンシマップを用いた新しい手法を提案する。

Data augmentation is a commonly applied technique with two seemingly related advantages. With this method one can increase the size of the training set generating new samples and also increase the invariance of the network against the applied transformations. Unfortunately all images contain both relevant and irrelevant features for classification therefore this invariance has to be class specific. In this paper we will present a new method which uses saliency maps to restrict the invariance of neural networks to certain regions, providing higher test accuracy in classification tasks.
翻訳日:2022-05-31 14:19:44 公開日:2022-05-29
# AutoDisc: 大規模言語モデル圧縮のための自動蒸留スケジュール

AutoDisc: Automatic Distillation Schedule for Large Language Model Compression ( http://arxiv.org/abs/2205.14570v1 )

ライセンス: Link先を確認
Chen Zhang, Yang Yang, Qifan Wang, Jiahao Liu, Jingang Wang, Wei Wu, Dawei Song(参考訳) 教師-学生パラダイムによって駆動される知識蒸留は、言語モデル圧縮の事実上の方法の1つである。 近年の研究では、教師と学生の容量ギャップに直面する場合、従来の蒸留は効果が低いことが判明し、そのギャップを埋めるために教師助手による蒸留を導入した。 関係として、教師から生徒に知識を伝達するためには、教師助手の規模とパフォーマンスが不可欠である。 しかし、既存の教師アシスタントベース手法では、教師アシスタントのスケールを手動で選択するが、最適なスケールパフォーマンストレードオフでは教師アシスタントの識別に失敗する。 そこで本研究では,大規模言語モデル圧縮のための自動蒸留スケジュール(AutoDisc)を提案する。 特にAutoDiscは、まずグリッドとプルーニングで異なるスケールの教師アシスタント候補を指定し、それから2つの近似で全ての候補を1対1の最適化で最適化する。 最高の教師アシスタントスケールは、スケールパフォーマンストレードオフに応じて自動的に選択される。 AutoDiscは言語理解ベンチマークGLUEで広範な実験によって評価されている。 実験の結果, オートディスクの性能と適用性が向上した。 さらに10億以上のパラメータを持つ言語モデルにAutoDiscを適用し、AutoDiscのスケーラビリティを示す。

Driven by the teacher-student paradigm, knowledge distillation is one of the de facto ways for language model compression. Recent studies have uncovered that conventional distillation is less effective when facing a large capacity gap between the teacher and the student, and introduced teacher assistant-based distillation to bridge the gap. As a connection, the scale and the performance of the teacher assistant is crucial for transferring the knowledge from the teacher to the student. However, existing teacher assistant-based methods manually select the scale of the teacher assistant, which fails to identify the teacher assistant with the optimal scale-performance tradeoff. To this end, we propose an Automatic Distillation Schedule (AutoDisc) for large language model compression. In particular, AutoDisc first specifies a set of teacher assistant candidates at different scales with gridding and pruning, and then optimizes all candidates in an once-for-all optimization with two approximations. The best teacher assistant scale is automatically selected according to the scale-performance tradeoff. AutoDisc is evaluated with an extensive set of experiments on a language understanding benchmark GLUE. Experimental results demonstrate the improved performance and applicability of our AutoDisc. We further apply AutoDisc on a language model with over one billion parameters and show the scalability of AutoDisc.
翻訳日:2022-05-31 14:17:23 公開日:2022-05-29
# L3Cube-MahaNLP:Marathi自然言語処理データセット、モデル、ライブラリ

L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models, and Library ( http://arxiv.org/abs/2205.14728v1 )

ライセンス: Link先を確認
Raviraj Joshi(参考訳) インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。 さらに、人気のあるNLPライブラリは、Marathi言語をサポートしていない。 L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目指している。 我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。 また,教師なし言語モデリングタスクのための単言語Marathiコーパスも公開している。 全体として、MahaCorpus、MahaSent、MahaNER、MahaHateのデータセットとその対応するMahaBERTモデルをこれらのデータセットで微調整する。 ベンチマークデータセットに先んじて、Marathiの有用なリソースを準備したいと思っています。 リソースはhttps://github.com/l3cube-pune/MarathiNLPで入手できる。

Despite being the third most popular language in India, the Marathi language lacks useful NLP resources. Moreover, popular NLP libraries do not have support for the Marathi language. With L3Cube-MahaNLP, we aim to build resources and a library for Marathi natural language processing. We present datasets and transformer models for supervised tasks like sentiment analysis, named entity recognition, and hate speech detection. We have also published a monolingual Marathi corpus for unsupervised language modeling tasks. Overall we present MahaCorpus, MahaSent, MahaNER, and MahaHate datasets and their corresponding MahaBERT models fine-tuned on these datasets. We aim to move ahead of benchmark datasets and prepare useful resources for Marathi. The resources are available at https://github.com/l3cube-pune/MarathiNLP.
翻訳日:2022-05-31 14:17:04 公開日:2022-05-29
# cped: 会話型aiのための大規模中国語パーソナライズおよび感情対話データセット

CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI ( http://arxiv.org/abs/2205.14727v1 )

ライセンス: Link先を確認
Yirong Chen, Weiquan Fan, Xiaofen Xing, Jianxin Pang, Minlie Huang, Wenjing Han, Qianfeng Tie, Xiangmin Xu(参考訳) 人間の言語表現は、客観的な真理条件ではなく、状況の主観的な矛盾に基づいており、これは認知処理後の話者の個性と感情が会話に重要な影響を与えることを意味する。 しかし、会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。 大規模な事前学習言語モデルが広く用いられてきたが,対話システムでは話者の個性や感情を理解することは困難である。 会話生成過程におけるパーソナリティと感情の両方を考察するために,共感と個人的特徴に関する多元的知識からなる,中国の大規模パーソナライズ・感情対話データセットであるcpedを提案する。 これらの知識は、性別、ビッグファイブの性格特性、13の感情、19の対話行為、10の場面をカバーする。 CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。 著作権請求,プライバシー問題,ビデオプラットフォームのサービス規約に従って,音声機能とビデオ機能を備えたテキストデータセットをリリースする。 CPED構築プロセスの詳細な説明と、個人認識、会話における感情認識、パーソナライズされた感情的会話生成など、会話型AIのための3つのタスクを紹介する。 最後に、これらのタスクのベースラインシステムを提供し、会話における話者の個性と感情の機能を検討する。 我々のモチベーションは、対話型AI研究のための新しいオープンベンチマークとして、NLPコミュニティが広く採用するデータセットを提案することです。 完全なデータセットはhttps://github.com/scutcyr/cpedで入手できる。

Human language expression is based on the subjective construal of the situation instead of the objective truth conditions, which means that speakers' personalities and emotions after cognitive processing have an important influence on conversation. However, most existing datasets for conversational AI ignore human personalities and emotions, or only consider part of them. It's difficult for dialogue systems to understand speakers' personalities and emotions although large-scale pre-training language models have been widely used. In order to consider both personalities and emotions in the process of conversation generation, we propose CPED, a large-scale Chinese personalized and emotional dialogue dataset, which consists of multi-source knowledge related to empathy and personal characteristic. These knowledge covers gender, Big Five personality traits, 13 emotions, 19 dialogue acts and 10 scenes. CPED contains more than 12K dialogues of 392 speakers from 40 TV shows. We release the textual dataset with audio features and video features according to the copyright claims, privacy issues, terms of service of video platforms. We provide detailed description of the CPED construction process and introduce three tasks for conversational AI, including personality recognition, emotion recognition in conversations as well as personalized and emotional conversation generation. Finally, we provide baseline systems for these tasks and consider the function of speakers' personalities and emotions on conversation. Our motivation is to propose a dataset to be widely adopted by the NLP community as a new open benchmark for conversational AI research. The full dataset is available at https://github.com/scutcyr/CPED.
翻訳日:2022-05-31 14:16:17 公開日:2022-05-29
# 深層強化学習における表現ギャップ

Representation Gap in Deep Reinforcement Learning ( http://arxiv.org/abs/2205.14557v1 )

ライセンス: Link先を確認
Qiang He, Huangyuan Su, Jieyu Zhang, Xinwen Hou(参考訳) 深い強化学習は、エージェントが高次元情報から良いポリシーを学ぶことを約束する。 表現学習は無関係で冗長な情報を取り除き、関連する情報を保持する。 我々は、作用値関数の表現能力を検討し、その固有性質である \textit{representation gap} とその対象作用値関数を理論的に明らかにする。 この表現のギャップは好ましい。 しかし,実演実験により,その対象値関数,すなわち表現ギャップの望ましくない不活性値(\textit{representation overlap})と比較して,作用値関数の表現が同様に大きくなることを示す。 表現の重複は表現能力の喪失につながり、さらに最適化された学習性能をもたらす。 表現ギャップを活性化するために,本論文では,行動値関数の表現を目標から切り離すことで,政策評価フェーズを規則化する,シンプルで効果的なフレームワークである「アンダーライン{P}olicy \underline{O}ptimization from \underline{P}reventing \underline{R}epresentation \underline{O}verlaps (POPRO)を提案する。 また,poproの収束率保証を提供する。 体育連続制御スイートにおけるPOPROの評価を行った。 実験の結果, 画素入力を用いたPOPROは, 状態ベース特徴を用いた手法のサンプル効率よりも優れ, あるいは並列であることがわかった。

Deep reinforcement learning gives the promise that an agent learns good policy from high-dimensional information. Whereas representation learning removes irrelevant and redundant information and retains pertinent information. We consider the representation capacity of action value function and theoretically reveal its inherent property, \textit{representation gap} with its target action value function. This representation gap is favorable. However, through illustrative experiments, we show that the representation of action value function grows similarly compared with its target value function, i.e. the undesirable inactivity of the representation gap (\textit{representation overlap}). Representation overlap results in a loss of representation capacity, which further leads to sub-optimal learning performance. To activate the representation gap, we propose a simple but effective framework \underline{P}olicy \underline{O}ptimization from \underline{P}reventing \underline{R}epresentation \underline{O}verlaps (POPRO), which regularizes the policy evaluation phase through differing the representation of action value function from its target. We also provide the convergence rate guarantee of POPRO. We evaluate POPRO on gym continuous control suites. The empirical results show that POPRO using pixel inputs outperforms or parallels the sample-efficiency of methods that use state-based features.
翻訳日:2022-05-31 14:12:50 公開日:2022-05-29
# 強化学習における表現伝達の有益性

Provable Benefits of Representational Transfer in Reinforcement Learning ( http://arxiv.org/abs/2205.14571v1 )

ライセンス: Link先を確認
Alekh Agarwal, Yuda Song, Wen Sun, Kaiwen Wang, Mengdi Wang, Xuezhou Zhang(参考訳) エージェントが複数のソースタスクで事前トレーニングを行い、共有表現を発見し、その後、ターゲットタスクで適切なポリシーを学ぶために使用されるrlにおける表現転送の問題について検討する。 本稿では,ソースとターゲットタスク間のタスク関連性の概念を新たに提案し,この仮定の下で表現伝達のための新しいアプローチを開発する。 具体的には、ソースタスクへのジェネレーティブアクセスが与えられると、それに続く線形rl技術を用いて、ターゲットタスクへのオンラインアクセスのみを含む、最適化に近いポリシーに迅速に収束する表現を見つけることができることを示す。 サンプルの複雑さは、対象タスクの真理の特徴を知るのに近く、ソースタスクでの事前表現学習結果に匹敵する。 我々は,生成的アクセスを必要とせず,より低い範囲で肯定的な結果を補完し,深層探査を必要とする豊かな観察mdpについて経験的評価を行い,その検証を行った。

We study the problem of representational transfer in RL, where an agent first pretrains in a number of source tasks to discover a shared representation, which is subsequently used to learn a good policy in a target task. We propose a new notion of task relatedness between source and target tasks, and develop a novel approach for representational transfer under this assumption. Concretely, we show that given generative access to source tasks, we can discover a representation, using which subsequent linear RL techniques quickly converge to a near-optimal policy, with only online access to the target task. The sample complexity is close to knowing the ground truth features in the target task, and comparable to prior representation learning results in the source tasks. We complement our positive results with lower bounds without generative access, and validate our findings with empirical evaluation on rich observation MDPs that require deep exploration.
翻訳日:2022-05-31 14:12:21 公開日:2022-05-29
# 連続生成ニューラルネットワーク

Continuous Generative Neural Networks ( http://arxiv.org/abs/2205.14627v1 )

ライセンス: Link先を確認
Giovanni S. Alberti, Matteo Santacesaria and Silvia Sciutto(参考訳) 本研究では,連続生成ニューラルネットワーク(CGNN),すなわち連続環境における生成モデルについて述べる。 このアーキテクチャはdcganに触発され、1つの完全連結層、いくつかの畳み込み層、非線形活性化関数を持つ。 連続的な$l^2$設定では、各層の空間の寸法はコンパクトに支持されたウェーブレットのマルチレゾリューション解析のスケールに置き換えられる。 本稿では,畳み込みフィルタおよびCGNNが注入可能であることを保証する非線形性について述べる。 この理論は、逆問題への応用を見つけ、CGNNによって生成される多様体に属する未知の(おそらく非線形)無限次元逆問題に対するリプシッツ安定性推定を導出することができる。 画像劣化を含むいくつかの数値シミュレーションは、このアプローチを実証し、検証する。

In this work, we present and study Continuous Generative Neural Networks (CGNNs), namely, generative models in the continuous setting. The architecture is inspired by DCGAN, with one fully connected layer, several convolutional layers and nonlinear activation functions. In the continuous $L^2$ setting, the dimensions of the spaces of each layer are replaced by the scales of a multiresolution analysis of a compactly supported wavelet. We present conditions on the convolutional filters and on the nonlinearity that guarantee that a CGNN is injective. This theory finds applications to inverse problems, and allows for deriving Lipschitz stability estimates for (possibly nonlinear) infinite-dimensional inverse problems with unknowns belonging to the manifold generated by a CGNN. Several numerical simulations, including image deblurring, illustrate and validate this approach.
翻訳日:2022-05-31 14:08:53 公開日:2022-05-29
# 敵対的ネットワークに基づく特徴-表現合成(SE-CTES)アプローチとその医療への応用

A Generative Adversarial Network-based Selective Ensemble Characteristic-to-Expression Synthesis (SE-CTES) Approach and Its Applications in Healthcare ( http://arxiv.org/abs/2205.14751v1 )

ライセンス: Link先を確認
Yuxuan Li, Ying Lin and Chenang Liu(参考訳) 特徴と表現の因果関係を調べることは、医療分析において重要な役割を果たす。 与えられた特徴を用いた表現の効果的な合成は、健康リスク管理と医療的意思決定に多大な貢献をする。 例えば、与えられた治療特性から得られる生理的症状を予測することは、疾患予防およびパーソナライズされた治療戦略設計に有用である。 そこで本研究の目的は,与えられた特徴に基づく表現を効果的に合成することである。 しかし、特性から表現への写像は通常、比較的低次元空間から高次元空間への写像であるが、回帰モデルのような既存の手法のほとんどは、そのような写像を効果的に扱えない。 さらに、特徴と表現の関係は決定論的パターンだけでなく確率的パターンも含んでいる。 これらの課題に対処するために, GAN(Generative Adversarial Network)に触発された, 選択的アンサンブル特性発現合成(SE-CTES)手法を提案する。 The novelty of the proposed method can be summarized into three aspects: (1) GAN-based architecture for deep neural networks are incorporated to learn the relatively low dimensional mapping to high dimensional mapping containing both deterministic and stochastic patterns; (2) the weights of the two mismatching errors in the GAN-based architecture are proposed to be different to reduce the learning bias in the training process; and (3) a selective ensemble learning framework is proposed to reduce the prediction bias and improve the synthesis stability. 提案手法の有効性を検証するために,大規模数値シミュレーション研究と実世界の医療ケーススタディを適用し,提案手法が有望であることを実証した。

Investigating the causal relationships between characteristics and expressions plays a critical role in healthcare analytics. Effective synthesis for expressions using given characteristics can make great contributions to health risk management and medical decision-making. For example, predicting the resulting physiological symptoms on patients from given treatment characteristics is helpful for the disease prevention and personalized treatment strategy design. Therefore, the objective of this study is to effectively synthesize the expressions based on given characteristics. However, the mapping from characteristics to expressions is usually from a relatively low dimension space to a high dimension space, but most of the existing methods such as regression models could not effectively handle such mapping. Besides, the relationship between characteristics and expressions may contain not only deterministic patterns, but also stochastic patterns. To address these challenges, this paper proposed a novel selective ensemble characteristic-to-expression synthesis (SE-CTES) approach inspired by generative adversarial network (GAN). The novelty of the proposed method can be summarized into three aspects: (1) GAN-based architecture for deep neural networks are incorporated to learn the relatively low dimensional mapping to high dimensional mapping containing both deterministic and stochastic patterns; (2) the weights of the two mismatching errors in the GAN-based architecture are proposed to be different to reduce the learning bias in the training process; and (3) a selective ensemble learning framework is proposed to reduce the prediction bias and improve the synthesis stability. To validate the effectiveness of the proposed approach, extensive numerical simulation studies and a real-world healthcare case study were applied and the results demonstrated that the proposed method is very promising.
翻訳日:2022-05-31 14:07:26 公開日:2022-05-29
# 事前知識のない非定常カーネル帯域最適化アルゴリズム

An Optimization-based Algorithm for Non-stationary Kernel Bandits without Prior Knowledge ( http://arxiv.org/abs/2205.14775v1 )

ライセンス: Link先を確認
Kihyuk Hong, Yuhang Li, Ambuj Tewari(参考訳) 我々は,非定常なカーネルバンドに対する事前知識を必要としないアルゴリズムを提案する。 このアルゴリズムは探索と利用のバランスをとる最適化問題を解くことによって得られるランダム化戦略に従う。 報酬関数の変化が検出されたときに再起動することで、非定常に適応する。 このアルゴリズムは、非定常カーネルバンディット設定における以前の作業よりも、より強固な動的後悔を味わう。 さらに、線形カーネルを用いて非定常線形バンドイット設定に適用した場合、このアルゴリズムは最小限の最適値であり、非定常線形バンドイット文献の開問題を解く。 我々は、観測データに特徴マッピングを動的に適応するためにニューラルネットワークを使用するようにアルゴリズムを拡張した。 我々は神経接核理論を用いて拡張の動的後悔の限界を証明する。 我々のアルゴリズムと拡張が様々な非定常性に適応できることを実証的に証明する。

We propose an algorithm for non-stationary kernel bandits that does not require prior knowledge of the degree of non-stationarity. The algorithm follows randomized strategies obtained by solving optimization problems that balance exploration and exploitation. It adapts to non-stationarity by restarting when a change in the reward function is detected. Our algorithm enjoys a tighter dynamic regret bound than previous work on the non-stationary kernel bandit setting. Moreover, when applied to the non-stationary linear bandit setting by using a linear kernel, our algorithm is nearly minimax optimal, solving an open problem in the non-stationary linear bandit literature. We extend our algorithm to use a neural network for dynamically adapting the feature mapping to observed data. We prove a dynamic regret bound of the extension using the neural tangent kernel theory. We demonstrate empirically that our algorithm and the extension can adapt to varying degrees of non-stationarity.
翻訳日:2022-05-31 14:06:55 公開日:2022-05-29
# 失われた不変性原理-不変リスク最小化の相互双対

The Missing Invariance Principle Found -- the Reciprocal Twin of Invariant Risk Minimization ( http://arxiv.org/abs/2205.14546v1 )

ライセンス: Link先を確認
Dongsung Huh and Avinash Baidya(参考訳) 機械学習モデルは、トレーニング中にラベルと散発的に相関する特徴に依存する結果、お粗末な分散(ood)データに一般化することが多い。 近年,特徴条件付きクラス期待値$\mathbb{e}_e[y|f(x)]$を環境全体に保存することにより,不変機能のみを使用する予測子を学習するために,irm(invariant risk minimization)手法が提案されている。 しかし、近年の研究では、ITMが様々なタスク設定で失敗する可能性が示されている。 ここでは, 故障の原因となるITMの定式化の根本的な欠陥を同定する。 次に、クラス条件付き特徴期待値である $\mathbb{E}_e[f(x)|y]$ を環境全体にわたって保存し、IRMの欠陥を補正する不変性MRIという相補的な概念を導入する。 また,MRI-v1 と呼ばれる,MRI の簡易な実用版も導入した。 この制約はconvexであり、irmの実用バージョンであるirm-v1よりも優れており、非凸制約を課している。 一般的な線形問題設定では、MRI-v1は十分な環境が与えられた不変予測器を保証できる。 また、画像ベース非線形問題においてMRIがIRMを強く上回り、ほぼ最適OOD一般化を実現することを実証的に実証した。

Machine learning models often generalize poorly to out-of-distribution (OOD) data as a result of relying on features that are spuriously correlated with the label during training. Recently, the technique of Invariant Risk Minimization (IRM) was proposed to learn predictors that only use invariant features by conserving the feature-conditioned class expectation $\mathbb{E}_e[y|f(x)]$ across environments. However, more recent studies have demonstrated that IRM can fail in various task settings. Here, we identify a fundamental flaw of IRM formulation that causes the failure. We then introduce a complementary notion of invariance, MRI, that is based on conserving the class-conditioned feature expectation $\mathbb{E}_e[f(x)|y]$ across environments, that corrects for the flaw in IRM. Further, we introduce a simplified, practical version of the MRI formulation called as MRI-v1. We note that this constraint is convex which confers it with an advantage over the practical version of IRM, IRM-v1, which imposes non-convex constraints. We prove that in a general linear problem setting, MRI-v1 can guarantee invariant predictors given sufficient environments. We also empirically demonstrate that MRI strongly out-performs IRM and consistently achieves near-optimal OOD generalization in image-based nonlinear problems.
翻訳日:2022-05-31 13:27:24 公開日:2022-05-29
# 3d-c2ft:多視点3次元再構成用粗細変換器

3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction ( http://arxiv.org/abs/2205.14575v1 )

ライセンス: Link先を確認
Leslie Ching Ow Tiong, Dick Sigmund, Andrew Beng Jin Teoh(参考訳) 近年,多視点3次元再構成問題に対してトランスフォーマーモデルが適用されている。 しかし、マルチビュー機能を探究するためのアテンションメカニズムの設計や、エンコーディング・デコーディングモジュールの強化にそれらの関係を利用する上での課題が残っている。 本稿では、多視点特徴を符号化し、欠陥のある3Dオブジェクトを修正するための新しい粗粒度(C2F)アテンション機構を導入することで、3D粗粒度変換器(3D-C2FT)を提案する。 C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。 提案モデルはShapeNetとMulti-view Real-lifeデータセットを用いて評価する。 実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。

Recently, the transformer model has been successfully employed for the multi-view 3D reconstruction problem. However, challenges remain on designing an attention mechanism to explore the multiview features and exploit their relations for reinforcing the encoding-decoding modules. This paper proposes a new model, namely 3D coarse-to-fine transformer (3D-C2FT), by introducing a novel coarse-to-fine(C2F) attention mechanism for encoding multi-view features and rectifying defective 3D objects. C2F attention mechanism enables the model to learn multi-view information flow and synthesize 3D surface correction in a coarse to fine-grained manner. The proposed model is evaluated by ShapeNet and Multi-view Real-life datasets. Experimental results show that 3D-C2FT achieves notable results and outperforms several competing models on these datasets.
翻訳日:2022-05-31 13:26:09 公開日:2022-05-29
# 属性情報埋め込みとクロスモーダルコントラスト学習に基づくマイクロ表現認識

Micro-Expression Recognition Based on Attribute Information Embedding and Cross-modal Contrastive Learning ( http://arxiv.org/abs/2205.14643v1 )

ライセンス: Link先を確認
Yanxin Song, Jianzong Wang, Tianbo Wu, Zhangcheng Huang, Jing Xiao(参考訳) 顔のマイクロ表現認識は近年注目されている。 マイクロエクスプレッションは短寿命・低強度の特徴を持ち,既存のマイクロエクスプレッションの数が限られている高性能分類器の訓練は困難である。 したがって、マイクロ表現の認識は課題である。 本稿では,属性情報埋め込みとクロスモーダルコントラスト学習に基づくマイクロ表現認識手法を提案する。 3d cnnを用いて,マイクロ表現シーケンスのrgb特徴とフロー特徴を抽出し,それらを融合し,bert networkを用いて顔行動符号化システムにおけるテキスト情報を抽出する。 クロスモーダルコントラスト損失により,視覚ネットワークに属性情報を埋め込み,限られたサンプルの場合のマイクロ表現認識の表現能力を向上させる。 我々はCASME II と MMEW データベースで広範な実験を行い、精度はそれぞれ77.82% と 71.04% である。 比較実験により、この手法は他のマイクロ表現認識法よりも優れた認識効果を示す。

Facial micro-expressions recognition has attracted much attention recently. Micro-expressions have the characteristics of short duration and low intensity, and it is difficult to train a high-performance classifier with the limited number of existing micro-expressions. Therefore, recognizing micro-expressions is a challenge task. In this paper, we propose a micro-expression recognition method based on attribute information embedding and cross-modal contrastive learning. We use 3D CNN to extract RGB features and FLOW features of micro-expression sequences and fuse them, and use BERT network to extract text information in Facial Action Coding System. Through cross-modal contrastive loss, we embed attribute information in the visual network, thereby improving the representation ability of micro-expression recognition in the case of limited samples. We conduct extensive experiments in CASME II and MMEW databases, and the accuracy is 77.82% and 71.04%, respectively. The comparative experiments show that this method has better recognition effect than other methods for micro-expression recognition.
翻訳日:2022-05-31 13:24:07 公開日:2022-05-29