このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221008となっている論文です。

PDF登録状況(公開日: 20221008)

TitleAuthorsAbstract論文公表日・翻訳日
# 不規則導波路結合量子配列におけるキラリティー駆動非局在化

Chirality-driven delocalization in disordered waveguide-coupled quantum arrays ( http://arxiv.org/abs/2012.06886v2 )

ライセンス: Link先を確認
G. Fedorovich, D. Kornovan, A. Poddubny, M. Petrov(参考訳) 導波路モードを介してキラルに結合した1次元量子エミッタアレイにおける方向非対称結合と乱れの競合を理論的に検討した。 本計算では, 固有状態空間プロファイルに対する非自明な位相図を, 乱れや方向性強度に非単調に示す。 カップリング非対称性の増大により、バルク中のアンダーソン局在から非局在状態を経て配列端でのキラリティー誘起局在へと遷移する。 反対に、この遷移は強い障害に悩まされるのではなく、むしろ鋭くなっている。 我々の発見は、キラル相互作用と障害が重要な役割を果たす導波路量子電磁力学の急速に発達する分野において重要である。

We study theoretically the competition between directional asymmetric coupling and disorder in a one-dimensional array of quantum emitters chirally coupled through a waveguide mode. Our calculation reveals highly nontrivial phase diagram for the eigenstates spatial profile, nonmonotonously depending on the disorder and directionality strength. The increase of the coupling asymmetry drives the transition from Anderson localization in the bulk through delocalized states to chirality-induced localization at the array edge. Counterintuitively, this transition is not smeared by strong disorder but becomes sharper instead. Our findings could be important for the rapidly developing field of the waveguide quantum electrodynamics, where the chiral interactions and disorder play crucial roles.
翻訳日:2023-04-21 01:13:34 公開日:2022-10-08
# FakeNewsLab: 偽ニュースから真実を消し去るのを防ぐバイアスと落とし穴の実験的研究

FakeNewsLab: Experimental Study on Biases and Pitfalls Preventing us from Distinguishing True from False News ( http://arxiv.org/abs/2110.11729v2 )

ライセンス: Link先を確認
Giancarlo Ruffo, Alfonso Semeraro(参考訳) ソーシャルメディア上での誤情報の投稿や拡散は、ニュースの真実性に関する個人的な判断によって、ほんの数分で大規模かつ深いカスケードを引き起こす可能性がある。 個人が情報にさらされると、コンテンツ(あるいはソース)が信頼できるかどうかを判断し、最終的に共有するには、通常は数秒かかる。 噂を検証する機会は、しばしばワンクリックで終わるが、多くのユーザーは正しい評価をすることができない。 この現象を7,298名のボランティアによるwebベースのアンケートで検討し,20件のニュースを真偽か偽かを問うた。 興味深いことに、偽ニュースは真のニュースよりも頻繁に正しく識別されるが、タイトルだけでなく記事全体を表示することは、驚くほど、一般的な正確さを増さない。 また、ニュースの原情報源を表示することでユーザーを誤解させる場合もあるが、群衆の真の知恵は個人が正しく分類する能力を積極的に支援することができる。 最後に、ブラウジング活動が並列なファクトチェックアクティビティを示唆する参加者は、よりよいパフォーマンスを示し、若い大人であると宣言する。 この研究は、偽ニュースデータセットを構築する際に人間の注釈に影響を及ぼす一連の落とし穴を強調しており、それによって、自動化された偽ニュース検出の研究が促進される。

Misinformation posting and spreading in Social Media is ignited by personal decisions on the truthfulness of news that may cause wide and deep cascades at a large scale in a fraction of minutes. When individuals are exposed to information, they usually take a few seconds to decide if the content (or the source) is reliable, and eventually to share it. Although the opportunity to verify the rumour is often just one click away, many users fail to make a correct evaluation. We studied this phenomenon with a web-based questionnaire that was compiled by 7,298 different volunteers, where the participants were asked to mark 20 news as true or false. Interestingly, false news is correctly identified more frequently than true news, but showing the full article instead of just the title, surprisingly, does not increase general accuracy. Also, displaying the original source of the news may contribute to mislead the user in some cases, while a genuine wisdom of the crowd can positively assist individuals' ability to classify correctly. Finally, participants whose browsing activity suggests a parallel fact-checking activity, show better performance and declare themselves as young adults. This work highlights a series of pitfalls that can influence human annotators when building false news datasets, which in turn fuel the research on the automated fake news detection; furthermore, these findings challenge the common rationale of AI that suggest users to read the full article before re-sharing.
翻訳日:2023-03-10 19:33:13 公開日:2022-10-08
# 方程式の2次非線形系を解く量子アルゴリズム

Quantum Algorithm for Solving a Quadratic Nonlinear System of Equations ( http://arxiv.org/abs/2112.01655v3 )

ライセンス: Link先を確認
Cheng Xue, Xiao-Fan Xu, Yu-Chun Wu, Guo-Ping Guo(参考訳) 方程式の二次非線形系(QNSE)を解くことは、非線形科学の基本的な、しかし重要なタスクである。 我々は,n$-dimensional qnse を解くための効率的な量子アルゴリズムを提案する。 このアルゴリズムは, ホモトピー摂動法と線形化法を用いて線形方程式の有限次元系にQNSEを埋め込み, 量子線形系ソルバを用いて線形方程式を解き, 成功確率$\Omega(1)$でQNSEの正規化された完全解に対して$\epsilon$-closeとなる状態を得る。 このアルゴリズムの複雑性は$o({\rm polylog}(n/\epsilon))$であり、これは最適な古典的アルゴリズムを次元n$で指数関数的に改善し、$\epsilon$への依存はほぼ最適である。 したがって,本アルゴリズムはqnseの解を指数関数的に加速し,あらゆる非線形問題に適用し,非線形科学の研究の進展に寄与する。

Solving a quadratic nonlinear system of equations (QNSE) is a fundamental, but important, task in nonlinear science. We propose an efficient quantum algorithm for solving $n$-dimensional QNSE. Our algorithm embeds QNSE into a finite-dimensional system of linear equations using the homotopy perturbation method and a linearization technique; then we solve the linear equations with a quantum linear system solver and obtain a state which is $\epsilon$-close to the normalized exact solution of the QNSE with success probability $\Omega(1)$. The complexity of our algorithm is $O({\rm polylog}(n/\epsilon))$, which provides an exponential improvement over the optimal classical algorithm in dimension $n$, and the dependence on $\epsilon$ is almost optimal. Therefore, our algorithm exponentially accelerates the solution of QNSE and has wide applications in all kinds of nonlinear problems, contributing to the research progress of nonlinear science.
翻訳日:2023-03-06 00:19:07 公開日:2022-10-08
# アナログ量子近似最適化アルゴリズム

Analog Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2112.07461v2 )

ライセンス: Link先を確認
Nancy Barraza, Gabriel Alvarado Barrios, Jie Peng, Lucas Lamata, Enrique Solano, and Francisco Albarr\'an-Arriagada(参考訳) 本稿では,現在の量子アニーラに適した量子近似最適化アルゴリズムのアナログ版を提案する。 このアルゴリズムの中心的な考え方は、断熱進化を定義するスケジュール関数を最適化することである。 これは、任意の関数を生成するポテンシャルを持つ固定時間における補間法に基づくスケジュール関数の適切なパラメトリゼーションを選択することで達成される。 このアルゴリズムは、量子優位性に向かっている現在の量子アニールのコヒーレンス時間の間に展開される最適化問題の近似結果を提供する。

We present an analog version of the quantum approximate optimization algorithm suitable for current quantum annealers. The central idea of this algorithm is to optimize the schedule function, which defines the adiabatic evolution. It is achieved by choosing a suitable parametrization of the schedule function based on interpolation methods for a fixed time, with the potential to generate any function. This algorithm provides an approximate result of optimization problems that may be developed during the coherence time of current quantum annealers on their way toward quantum advantage.
翻訳日:2023-03-04 14:11:36 公開日:2022-10-08
# リニア光学ネットワークにおけるマルチレール符号化によるマルチパーティタイト絡み合いの発生と評価

Generation and evaluation of multipartite entanglement with multi-rail encoding in linear optics networks ( http://arxiv.org/abs/2203.14322v2 )

ライセンス: Link先を確認
Jun-Yi Wu(参考訳) 線形光学ネットワークはマルチモード干渉計システムであり、区別できない光子入力は古典的コンピュータではシミュレートできない非古典的干渉を生じさせる。 このような非古典的干渉は、そのモードを異なるパーティに分割する場合、そのサブシステム間の絡み合いの存在を意味する。 このようなシステムの絡み合いは、自然にマルチレール(マルチモード)量子レジスタに符号化される。 二成分の絡み合いについては、理論上はマルチレール符号化による生成・検出方式(njp 19(10):103032, 2017)が提案され、実験的に実現されている(optica, 7(11):1517, 2020)。 本稿では、線形光学ネットワークの固定された局所光子数部分空間における多重レール符号化離散可変実マルチパートエンタングルメント(GME)の検出理論の確立をさらに進める。 また、離散可変(単一光子)と連続可変(定常状態)の両方の光源を用いたGME生成方式を提案する。 このスキームにより、連続変数系における離散変数 GME を明らかにすることができる。 また、連続変数入力に基づく生成方式について、光子損失の影響を数値解析する。

A linear optics network is a multimode interferometer system, where indistinguishable photon inputs can create nonclassical interference that can not be simulated with classical computers. Such nonclassical interference implies the existence of entanglement among its subsystems, if we divide its modes into different parties. Entanglement in such systems is naturally encoded in multi-rail (multi-mode) quantum registers. For bipartite entanglement, a generation and detection scheme with multi-rail encoding has been theoretically proposed [NJP 19(10):103032, 2017] and experimentally realized [Optica, 7(11):1517, 2020]. In this paper, we will take a step further to establish a theory for the detection of multi-rail-encoded discrete-variable genuine multipartite entanglement (GME) in fixed local-photon-number subspaces of linear optics networks. We also propose a scheme for GME generation with both discrete-variable (single photons) and continuous-variable (squeezed states) light sources. This scheme allows us to reveal the discrete-variable GME in continuous-variable systems. The effect of photon losses is also numerically analyzed for the generation scheme based on continuous-variable inputs.
翻訳日:2023-02-20 17:00:00 公開日:2022-10-08
# Happenstance: セマンティック検索を利用して、Reddit上のロシア・ウクライナ戦争に関するロシア国営メディアのナラティブを追跡

Happenstance: Utilizing Semantic Search to Track Russian State Media Narratives about the Russo-Ukrainian War On Reddit ( http://arxiv.org/abs/2205.14484v2 )

ライセンス: Link先を確認
Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric(参考訳) ロシア連邦がウクライナに侵攻してから数週間の間に、ロシア国営メディアは誤った情報や全くの虚偽情報を流し出した。 本研究では,この協調情報キャンペーンについて,ロシア政府から英語を話す聴衆に伝えられる最も顕著なメディアの物語を理解するために検討した。 そこで,我々はまず,ロシア親ロシア派のプロパガンダサイトであるwaronfakes.comを含む10種類の記事に対して,大言語モデルmpnetを用いて文レベルの話題分析を行った。 このエコシステム内では、Katehon.comのような小さなWebサイトが、後に他のロシアのサイトによって反映されたトピックのパブリッシングに非常に効果的であったことを示す。 ロシアの情報ナラティブを分析した後、r/russiaと他の10の政治サブredditに関するナラティブとトピックの対応を分析する。 MPNetとセマンティックサーチアルゴリズムを用いて、これらのサブレディットのコメントをロシアのウェブサイトから抽出したトピックの集合にマッピングし、r/ロシアコメントの39.6%がロシアのプロパガンダウェブサイトの物語に対応していることがわかった。

In the buildup to and in the weeks following the Russian Federation's invasion of Ukraine, Russian state media outlets output torrents of misleading and outright false information. In this work, we study this coordinated information campaign in order to understand the most prominent state media narratives touted by the Russian government to English-speaking audiences. To do this, we first perform sentence-level topic analysis using the large-language model MPNet on articles published by ten different pro-Russian propaganda websites including the new Russian "fact-checking" website waronfakes.com. Within this ecosystem, we show that smaller websites like katehon.com were highly effective at publishing topics that were later echoed by other Russian sites. After analyzing this set of Russian information narratives, we then analyze their correspondence with narratives and topics of discussion on the r/Russia and 10 other political subreddits. Using MPNet and a semantic search algorithm, we map these subreddits' comments to the set of topics extracted from our set of Russian websites, finding that 39.6% of r/Russia comments corresponded to narratives from pro-Russian propaganda websites compared to 8.86% on r/politics.
翻訳日:2023-02-19 17:18:38 公開日:2022-10-08
# 自動運転システムにおけるフォールトトレラントシステムアーキテクチャの信頼性

Reliability of fault-tolerant system architectures for automated driving systems ( http://arxiv.org/abs/2210.04040v1 )

ライセンス: Link先を確認
Tim Maurice Julitz, Antoine Tordeux and Manuel L\"ower(参考訳) 高水準の自動運転機能は、ドライバーの監督なしで動作します。 システム自体がハードウェア要素の故障時に適切な応答を提供する必要がある。 これはドメインECUとロックステップモードで動作するマルチコアプロセッサを使ったフォールトトレラントアプローチを必要とする。 耐故障性車両システムに適したアーキテクチャの選択は、現在困難である。 ロックステップCPUは、多数冗長性やM-out-of-N(M$oo$N$)アーキテクチャの実装を可能にする。 構造的冗長性に加えて、ECUアーキテクチャの多様性冗長性は耐障害性にも関係している。 1つのECU(チップ上のシステム)を持つアーキテクチャと、複数の通信ECUで構成されるアーキテクチャである。 シングルECUシステムは高い信頼性を達成する一方、マルチECUシステムは多様性の冗長性の増加により、共通原因やカスケード障害などの依存障害に対してより堅牢である。 しかし、異なるタイプのアーキテクチャがシステムの信頼性にどのように影響するかは、まだ完全には分かっていない。 この作業は、CPUとセンサー番号、M$oo$N$式、ハードウェア要素の信頼性に関するアーキテクチャを設計することを目的としている。 その結果、異なるアーキテクチャタイプを直接比較できる。 信頼性を計算し,高い安全要件を達成するための努力を定量化する。 Markovプロセスは、コンポーネントの数と失敗率を変えることで、センサーとCPUアーキテクチャの比較を可能にする。 その目的は、システムの生存確率と耐障害性を評価し、適切なセンサー-cpuアーキテクチャを設計することである。 その結果,システムアーキテクチャは信頼性に大きく影響することがわかった。 しかし、適切なシステムアーキテクチャは、多くの冗長性のない並列システムでは提供されない信頼性と自己診断のトレードオフを持つ必要がある。

Automated driving functions at high levels of autonomy operate without driver supervision. The system itself must provide suitable responses in case of hardware element failures. This requires fault-tolerant approaches using domain ECUs and multicore processors operating in lockstep mode. The selection of a suitable architecture for fault-tolerant vehicle systems is currently challenging. Lockstep CPUs enable the implementation of majority redundancy or M-out-of-N ($M$oo$N$) architectures. In addition to structural redundancy, diversity redundancy in the ECU architecture is also relevant to fault tolerance. Two fault-tolerant ECU architecture groups exist: architectures with one ECU (system on a chip) and architectures consisting of multiple communicating ECUs. The single-ECU systems achieve higher reliability, whereas the multi-ECU systems are more robust against dependent failures, such as common-cause or cascading failures, due to their increased potential for diversity redundancy. Yet, it remains not fully understood how different types of architectures influence the system reliability. The work aims to design architectures with respect to CPU and sensor number, $M$oo$N$ expression, and hardware element reliability. The results enable a direct comparison of different architecture types. We calculate their reliability and quantify the effort to achieve high safety requirements. Markov processes allow comparing sensor and CPU architectures by varying the number of components and failure rates. The objective is to evaluate systems' survival probability and fault tolerance and design suitable sensor-CPU architectures. The results show that the system architecture strongly influences the reliability. However, a suitable system architecture must have a trade-off between reliability and self-diagnostics that parallel systems without majority redundancies do not provide.
翻訳日:2023-02-19 11:36:51 公開日:2022-10-08
# 移動窓を用いたマルチスキャンマルチターゲット追跡手法

A Moving Window Based Approach to Multi-scan Multi-Target Tracking ( http://arxiv.org/abs/2210.04008v1 )

ライセンス: Link先を確認
Diluka Moratuwage, Changbeom Shim, and Yuthika Punchihewa(参考訳) マルチターゲット状態推定(multi-target state estimation)とは、ノイズやクラッタで汚染された測定値を用いて、監視領域におけるターゲット数とその軌跡を推定することである。 ベイズパラダイムにおいて、マルチターゲット推定の最も一般的なアプローチは、マルチターゲットフィルタリング密度を再帰的に伝播し、各タイムステップに設定された現在の測定値で更新することである。 比較として、マルチターゲットスムースティングは、現在の時間段階まですべての測定値を使用し、マルチターゲット後部密度を用いて、マルチターゲット状態の全履歴を再帰的に伝播する。 最近の一般化ラベル付きマルチバーヌーリスムーザ(glmb smoother)は、ラベルを初期から現在までの時系列マップに再帰的に更新することで、ラベル付きマルチオブジェクト後段を伝播する解析的再帰である。 本稿では,glmbスムーザを用いたマルチターゲットトラッキングのための移動ウィンドウベースソリューションを提案する。これにより,ウィンドウ内のアソシエーションマップのみを更新できるため,実用的な実装に適した効率的な近似ソリューションを実現する。

Multi-target state estimation refers to estimating the number of targets and their trajectories in a surveillance area using measurements contaminated with noise and clutter. In the Bayesian paradigm, the most common approach to multi-target estimation is by recursively propagating the multi-target filtering density, updating it with current measurements set at each timestep. In comparison, multi-target smoothing uses all measurements up to current timestep and recursively propagates the entire history of multi-target state using the multi-target posterior density. The recent Generalized Labeled Multi-Bernoulli (GLMB) smoother is an analytic recursion that propagate the labeled multi-object posterior by recursively updating labels to measurement association maps from the beginning to current timestep. In this paper, we propose a moving window based solution for multi-target tracking using the GLMB smoother, so that only those association maps in a window (consisting of latest maps) get updated, resulting in an efficient approximate solution suitable for practical implementations.
翻訳日:2023-02-19 11:36:33 公開日:2022-10-08
# 分離断面積のケーススタディによる変動解析

Variability Analysis of Isolated Intersections Through Case Study ( http://arxiv.org/abs/2210.03908v1 )

ライセンス: Link先を確認
Savithramma R M, R Sumathi, Sudhira H S(参考訳) 都市部の人口と経済成長により、民間車の利用が激化し、道路の交通量や渋滞が増大している。 市内の交通管理は関係当局にとって課題であり、信号化された交差点は交通管理の主要な関心事である。 トラフィックパターンと現在のトラフィック信号操作を解釈することは、適切なアクションを取るための詳細な洞察を提供する。 この観点から,インド・カルナタカ州トゥムクル(層2市)から選択された交差点で総合的研究を行った。 データは飽和流、組成、容積、容量対容量比などのトラフィックパラメータを推定する。 統計結果は現在、安定した交通条件を確認しているが、持続性は保証されていない。 カルナタカ市立都市土地利用交通局によると、交通量の増加に伴い、今後は交通渋滞が増す中、研究交差点の幹線道路3本に沿って、容量と容量の比率が0.73以上になる。 最近の研究で得られた統計結果は報告を維持した。 実験の結果、グリーンタイムの40%は研究交差点の1つでウェイステージとなり、さらに待ち時間が長くなり、燃料消費と排出が増加した。 研究交差点全体のサービスレベルは計算遅延と容量対容量比に基づいてクラスCである。 本研究は、交差点運転におけるサービス水準の向上と、市の安定的な交通状況を維持するための治療の可能性を提案する。 本研究は,都市交通管理当局による適切な対応と実施を支援する。

Population and economic growth of urban areas have led to intensive use of private vehicles, thereby increasing traffic volume and congestion on roads. The traffic management in the city is a challenge for concerned authorities, and the signalized intersections are the primary interest of traffic management. Interpreting traffic patterns and current traffic signal operations can provide thorough insights to take appropriate actions. In this view, a comprehensive study is conducted at selected intersections from Tumakuru (tier-2 city), Karnataka, India. Data estimates traffic parameters such as saturation flow, composition, volume, and volume-to-capacity ratio. The statistical results currently confirm the stable traffic condition but do not ensure sustainability. The volume-to-capacity ratio is greater than 0.73 along three major arterial roads of study intersections, indicating congestion in the future as the traffic volume is increasing gradually, as per the Directorate of Urban Land Use and Transportation, Government of Karnataka. The statistical results obtained through the current study uphold the report. The empirical results showed 40% of green time wastage at one of the study intersections, which results in additional waiting delays, thereby increasing fuel consumption and emissions. The overall service level of the study intersections is of class C based on computed delay and volume-to-capacity ratio. The study suggests possible treatments for improving the service level at the intersection operations and sustaining the city's stable traffic condition. The study supports city traffic management authorities in identifying suitable treatment and implementing accordingly.
翻訳日:2023-02-19 11:36:14 公開日:2022-10-08
# グループフェアネス制約下でセットを最大化する幸福度(技術報告)

Happiness Maximizing Sets under Group Fairness Constraints (Technical Report) ( http://arxiv.org/abs/2208.06553v3 )

ライセンス: Link先を確認
Jiping Zheng and Yuan Ma and Wei Ma and Yanhao Wang and Xiaoyang Wang(参考訳) データベースから幸福最大化集合(HMS)を見つける、すなわち、任意の非負の線形効用関数に対して最良のスコアを保持するタプルの小さなサブセットを選択することは、多重基準決定において重要な問題である。 個人からHMSを抽出し、雇用や入社などのデータ駆動型アルゴリズム決定を支援する場合、HMSが偏見や差別のない異なるグループの候補を適切に表現できることは不可欠である。 しかし、HMS問題はデータベースコミュニティで広く研究されたが、既存のアルゴリズムはグループフェアネスを考慮しておらず、いくつかのグループを表現していないソリューションを提供するかもしれない。 本稿では,最小幸福度を最大化するだけでなく,各グループから選択したタプルの数が,予め定義された下限と上限に収まることを保証したHMS(FairHMS)の公正な変種を提案する。 バニラHMS問題と同様に、FairHMSは3次元以上のNPハードであることを示す。 そこで,2次元データベース上でのFairHMSに対して,IntCovと呼ばれる正確な区間被覆に基づくアルゴリズムを提案する。 そこで本研究では,多次元データベース上のfairhmsに対するbigreedyと呼ばれるビコライトリア近似アルゴリズムを提案する。 また,BiGreedyの実用効率を向上させるため,適応型サンプリング戦略を設計する。 実世界および合成データセットに関する広範な実験により,提案手法の有効性と有効性を確認した。

Finding a happiness maximizing set (HMS) from a database, i.e., selecting a small subset of tuples that preserves the best score with respect to any nonnegative linear utility function, is an important problem in multi-criteria decision-making. When an HMS is extracted from a set of individuals to assist data-driven algorithmic decisions such as hiring and admission, it is crucial to ensure that the HMS can fairly represent different groups of candidates without bias and discrimination. However, although the HMS problem was extensively studied in the database community, existing algorithms do not take group fairness into account and may provide solutions that under-represent some groups. In this paper, we propose and investigate a fair variant of HMS (FairHMS) that not only maximizes the minimum happiness ratio but also guarantees that the number of tuples chosen from each group falls within predefined lower and upper bounds. Similar to the vanilla HMS problem, we show that FairHMS is NP-hard in three and higher dimensions. Therefore, we first propose an exact interval cover-based algorithm called IntCov for FairHMS on two-dimensional databases. Then, we propose a bicriteria approximation algorithm called BiGreedy for FairHMS on multi-dimensional databases by transforming it into a submodular maximization problem under a matroid constraint. We also design an adaptive sampling strategy to improve the practical efficiency of BiGreedy. Extensive experiments on real-world and synthetic datasets confirm the efficacy and efficiency of our proposal.
翻訳日:2023-02-19 10:32:27 公開日:2022-10-08
# 2次元量子渦の相互摩擦と拡散

Mutual friction and diffusion of two-dimensional quantum vortices ( http://arxiv.org/abs/2205.04065v2 )

ライセンス: Link先を確認
Zain Mehdi, Joseph J. Hope, Stuart S. Szigeti, and Ashton S. Bradley(参考訳) 超流動と熱原子間のエネルギー減衰相互作用を以前に無視した原子超流動における熱損傷渦運動の顕微鏡的オープン量子システム理論を提案する。 この機構は渦コア運動と強く結合し、相互摩擦による渦エネルギーの散逸や熱ゆらぎによる渦のブラウン運動を引き起こす。 我々は, パラメータを組み込まずに, 実験値と良好な定量的一致を与える無次元相互摩擦係数の解析式を導出する。 本研究は,2次元原子超流動層における相互摩擦と量子化渦拡散の微視的起源を提供するため,散逸理論と実験の間に既存の2次元の差を埋めるものである。

We present a microscopic open quantum systems theory of thermally-damped vortex motion in oblate atomic superfluids that includes previously neglected energy-damping interactions between superfluid and thermal atoms. This mechanism couples strongly to vortex core motion and causes dissipation of vortex energy due to mutual friction, as well as Brownian motion of vortices due to thermal fluctuations. We derive an analytic expression for the dimensionless mutual friction coefficient that gives excellent quantitative agreement with experimentally measured values, without any fitted parameters. Our work closes an existing two orders of magnitude gap between dissipation theory and experiments, previously bridged by fitted parameters, and provides a microscopic origin for the mutual friction and diffusion of quantized vortices in two-dimensional atomic superfluids.
翻訳日:2023-02-13 20:49:49 公開日:2022-10-08
# 二次元原子配列に結合した不純物における協調光子貯蔵のための最適ジオメトリ

Optimized geometries for cooperative photon storage in an impurity coupled to a two-dimensional atomic array ( http://arxiv.org/abs/2207.02908v2 )

ライセンス: Link先を確認
Samuel Buckley-Bonanno, Stefan Ostermann, Oriol Rubies-Bigorda, Taylor L. Patti and Susanne F. Yelin(参考訳) 二次元秩序原子配列の集合モードは、埋め込み原子不純物の放射環境を変更することができる。 非中心ブラベイ格子およびハニカム格子の有効不純物減衰率を比較することにより,不純物の放出線幅に対する格子形状の役割を解析した。 格子幾何学が不純物に対する有効崩壊率を決定する上で重要な役割を果たすことを示す。 特に、不純物の近傍の数が最大で、近傍の異なる距離の数が最小である格子に最小の有効減衰率が現れることが判明した。 さらに,不純物の間欠的配置と置換的配置の選択において,より低い減衰率とより長い光子保存を示すことで,前者が常に勝つことを示した。 間質配置では格子面の最適不純物位置が決定されるが、これは格子プラケットの中心には必ずしも見つからない。

The collective modes of two-dimensional ordered atomic arrays can modify the radiative environment of embedded atomic impurities. We analyze the role of the lattice geometry on the impurity's emission linewidth by comparing the effective impurity decay rate obtained for all non-centered Bravais lattices and an additional honeycomb lattice. We demonstrate that the lattice geometry plays a crucial role in determining the effective decay rate for the impurity. In particular, we find that the minimal effective decay rate appears in lattices where the number of the impurity's nearest neighbours is maximal and the number of distinct distances among nearest neighbours is minimal. We further show that, in the choice between interstitial and substitutional placement of the impurity, the former always wins by exhibiting a lower decay rate and longer photon storage. For interstitial placements, we determine the optimal impurity position in the lattice plane, which is not necessarily found in the center of the lattice plaquette.
翻訳日:2023-02-06 09:29:25 公開日:2022-10-08
# 雑音動的デカップリングの有効性

Efficacy of noisy dynamical decoupling ( http://arxiv.org/abs/2209.09039v2 )

ライセンス: Link先を確認
Jiaan Qi, Xiansong Xu, Dario Poletti, Hui Khoon Ng(参考訳) 動的デカップリング(英: Dynamical Decoupling、DD)とは、量子系における徐々に進化するノイズを平均化することを目的としたパルスシーケンスを含む、エラー軽減のための確立された一連の手法である。 ここでは,現在の量子デバイスにおいて重要なシナリオにおいて,ノイズパルスが存在する場合にその効果について再検討する: ゲート制御誤差のあるパルスと,全ての計算ゲートにおけるノイズを低減するためにddを使用する計算環境である。 我々は、周期的な(あるいは普遍的な)DDのよく知られたスキームと、そのパワーをスケールアップするために拡張されたDDに焦点を当てる。 これら2つのスキームの分析から得られた定性的な結論は、他のddアプローチにも当てはまる。 ノイズパルスが存在する場合、DDは必ずしもエラーを軽減するとは限らない。 これは、不完全なDDパルスからの付加ノイズが、元のバックグラウンドノイズを平均化する能力の増大に勝らない場合に限る。 我々はddが有用であるときに境界づけられる破断条件を示し、さらに、付加されたノイズがエラー緩和の利点を得られなくなる前にddパルスシーケンスをどの程度結合できるかという点において、連結ddの性能に限界があることを見いだす。

Dynamical decoupling (DD) refers to a well-established family of methods for error mitigation, comprising pulse sequences aimed at averaging away slowly evolving noise in quantum systems. Here, we revisit the question of its efficacy in the presence of noisy pulses in scenarios important for quantum devices today: pulses with gate control errors, and the computational setting where DD is used to reduce noise in every computational gate. We focus on the well-known schemes of periodic (or universal) DD, and its extension, concatenated DD, for scaling up its power. The qualitative conclusions from our analysis of these two schemes nevertheless apply to other DD approaches. In the presence of noisy pulses, DD does not always mitigate errors. It does so only when the added noise from the imperfect DD pulses do not outweigh the increased ability in averaging away the original background noise. We present breakeven conditions that delineate when DD is useful, and further find that there is a limit in the performance of concatenated DD, specifically in how far one can concatenate the DD pulse sequences before the added noise no longer offers any further benefit in error mitigation.
翻訳日:2023-01-26 02:13:58 公開日:2022-10-08
# 古典的LCCからのNLTSハミルトニアン

NLTS Hamiltonians from classical LTCs ( http://arxiv.org/abs/2210.02999v2 )

ライセンス: Link先を確認
Zhiyang He and Chinmay Nirkhe(参考訳) 我々は、[Anshu, Breuckmann, and Nirkhe, 2022], [Cross, He, Natarajan, Szegedy, and Zhu, 2022] と [Eldar and Harrow, 2017] のアイデアに基づく NLTS Hamiltonian の族を完全に自己完結した構成を提供する。 重要なことに、最適パラメータ量子LDPC符号は必要とせず、拡張器グラフ上の繰り返し符号のような単純な古典的なLCCから構築することができる。 さらに、anshu, breuckmann, nirkheの構築から一定のレートの要求を取り除く。

We provide a completely self-contained construction of a family of NLTS Hamiltonians [Freedman and Hastings, 2014] based on ideas from [Anshu, Breuckmann, and Nirkhe, 2022], [Cross, He, Natarajan, Szegedy, and Zhu, 2022] and [Eldar and Harrow, 2017]. Crucially, it does not require optimal-parameter quantum LDPC codes and can be built from simple classical LTCs such as the repetition code on an expander graph. Furthermore, it removes the constant-rate requirement from the construction of Anshu, Breuckmann, and Nirkhe.
翻訳日:2023-01-23 14:52:19 公開日:2022-10-08
# 量子電池の最適制御法

Optimal Control Methods for Quantum Batteries ( http://arxiv.org/abs/2210.04028v1 )

ライセンス: Link先を確認
Francesco Mazzoncini, Vasco Cavina, Gian Marcello Andolina, Paolo Andrea Erdman, Vittorio Giovannetti(参考訳) いくつかの量子電池の最適充電過程について検討し, 外部磁場の有限時間変調により, 与えられた電池に蓄積されるエネルギーを最大化する方法について検討した。 最適制御理論の高度なツールを用いてこの問題にアプローチし、時間依存外部場のよく知られたバンバン挙動の出現など、最適解のいくつかの特徴の普遍性を強調した。 この技術は一般的に,外部の力(直接充電)によってエネルギーが電池に汲み上げられたり,外部の充電器(経由充電)からエネルギーが供給されたりする特定のケースに応用される。 本稿では, 量子ビットと高調波発振器からなる特定の系に着目し, 最適帯電問題は, 最適制御法に基づく解析・数値的手法を組み合わせることで, 明示的に解くことができる。 しかし,本手法はより複雑な設定に適用でき,充電過程における多体効果の研究が促進される。

We investigate the optimal charging processes for several models of quantum batteries, finding how to maximize the energy stored in a given battery with a finite-time modulation of a set of external fields. We approach the problem using advanced tools of optimal control theory, highlighting the universality of some features of the optimal solutions, for instance the emergence of the well-known Bang-Bang behavior of the time-dependent external fields. The technique presented here is general, and we apply it to specific cases in which the energy is both pumped into the battery by external forces (direct charging) or transferred into it from an external charger (mediated charging). In this article we focus on particular systems that consist of coupled qubits and harmonic oscillators, for which the optimal charging problem can be explicitly solved using a combined analytical-numerical approach based on our optimal control techniques. However, our approach can be applied to more complex setups, thus fostering the study of many-body effects in the charging process.
翻訳日:2023-01-23 05:45:03 公開日:2022-10-08
# 任意のキューディットの量子情報マスキングを低次元多部系で実現できる

Quantum information masking of an arbitrary qudit can be realized in multipartite lower dimensional systems ( http://arxiv.org/abs/2210.03978v1 )

ライセンス: Link先を確認
Wei-Min Shang, Xing-Yan Fan, Fu-Lin Zhang, and Jing-Ling Chen(参考訳) 量子情報マスキング(quantum information masking)は、元の量子情報をサブシステムから隠蔽し、量子相関を介して拡散するプロトコルである。 本研究では,マルチパートシナリオにおける量子情報のマスキングを明示的に研究し,k-レベル量子状態のすべてを,局所次元 d < k と k の上限が量子シングルトン境界よりも密接な m-量子系 (m > 4) にマスキングできることを示す。 マスキングプロセスを直感的に観察するために、明示的に制御された操作を提供する。 提案手法は,多部量子システム間の量子相関の多さをよく示し,量子情報処理のセキュリティへの応用の可能性を示した。

Quantum information masking is a protocol that hides the original quantum information from subsystems and spreads it over quantum correlation, which is available to multipartite except bipartite systems. In this work, we explicitly study the quantum information masking in multipartite scenario and prove that all the k-level quantum states can be masked into a m-qudit systems (m > 4) whose local dimension d < k and the upper bound of k is tighter than the quantum Singleton bound. In order to observe the masking process intuitively, explicitly controlled operations are provided. Our scheme well demonstrates the abundance of quantum correlation between multipartite quantum system and has potential application in the security of quantum information processing.
翻訳日:2023-01-23 05:44:45 公開日:2022-10-08
# アンダーソン塔からの古典的スカイミオンの再構成--量子ダーウィン主義の行動

Reconstruction of classical skyrmions from Anderson towers: quantum Darwinism in action ( http://arxiv.org/abs/2210.03922v1 )

ライセンス: Link先を確認
O.M. Sotnikov, E.A. Stepanov, M.I. Katsnelson, F. Mila, V.V. Mazurenko(参考訳) 量子スノーミオンの概念の発展は、古典的トポロジカルに保護された磁気テクスチャの基礎研究と実践的な応用の範囲を広げることを目的としており、新しい量子技術を作るための道を開く可能性がある。 これは、古典的skyrmionとその量子的な対応との間の接続を確立することを要求するものである: skyrmion wave関数は、古典的skyrmionを表す古典的スピンの非共線形構成よりも本質的により複雑なオブジェクトである。 これまでのところ、このような量子-古典的関係は、異なる物理観測値のレベルでのみ確立されていた。 本研究では,量子スピンハミルトニアンのスペクトルの低エネルギー部分のみを用いて,古典的skyrmionスピン秩序を再構成できることを示す。 これはアンダーソンの状態塔(tos)のアイデアを柔軟に対称性のない数値化することで実現でき、既知の、未知の古典的なスピン配置を、損失関数の適切な選択で研究することができる。 量子系のスペクトルにおけるTOSの存在は、古典的スカイミオン磁化プロファイルが実際の測定結果から得られるという先入観を保証していないことを示す。 この手順は環境との相互作用による適切なデコヒーレンス機構によって補完されるべきである。 後者は測定の前に tos 固有関数の特定の組み合わせを選択し、実実験で測定される高エンタングル量子空力状態から古典的非線形磁気秩序への遷移を保証する。 スカイミオンの文脈で得られた結果は、量子反強磁性の問題を新たに見ることができた。

The development of the quantum skyrmion concept is aimed at expanding the scope of the fundamental research and practical applications for classical topologically-protected magnetic textures, and potentially paves the way for creating new quantum technologies. Undoubtedly, this calls for establishing a connection between a classical skyrmion and its quantum counterpart: a skyrmion wave function is an intrinsically more complex object than a non-collinear configuration of classical spins representing the classical skyrmion. Up to date, such a quantum-classical relation was only established on the level of different physical observables, but not for classical and quantum states per se. In this work, we show that the classical skyrmion spin order can be reconstructed using only the low-energy part of the spectrum of the corresponding quantum spin Hamiltonian. This can be done by means of a flexible symmetry-free numerical realization of Anderson's idea of the towers of states (TOS) that allows one to study known, as well as unknown, classical spin configurations with a proper choice of the loss function. We show that the existence of the TOS in the spectrum of the quantum systems does not guarantee a priori that the classical skyrmion magnetization profile can be obtained as an outcome of the actual measurement. This procedure should be complemented by a proper decoherence mechanism due to the interaction with the environment. The later selects a specific combination of the TOS eigenfunctions before the measurement and, thus, ensures the transition from a highly-entangled quantum skyrmionic state to a classical non-collinear magnetic order that is measured in real experiments. The results obtained in the context of skyrmions allow us to take a fresh look at the problem of quantum antiferromagnetism.
翻訳日:2023-01-23 05:44:28 公開日:2022-10-08
# 量子空間における相似性変換電子ハミルトニアンの成長減少

Growth reduction of similarity transformed electronic Hamiltonians in qubit space ( http://arxiv.org/abs/2210.03875v1 )

ライセンス: Link先を確認
Robert A. Lang, Aadithya Ganeshram, Artur F. Izmaylov(参考訳) 変動量子固有解器(VQE)による電子構造問題の正確な解決は、現在および短期デバイスで利用可能な量子資源によって妨げられる。 vqe の回路深度要件を緩和する一つのアプローチは、電子ハミルトニアンをある程度の電子相関を組み込んだ類似性変換によって「前処理」し、残りの相関を回路 ansatz で処理する。 これは、ユニタリ変換されたハミルトニアンで測定すべき項の数を相当に増やすことでしばしば生じる。 本研究では,n-量子ビットパウリ積の非制限プールから元素を抽出し,変換ハミルトニアンの新たな用語の出現を最小限に抑えるための効率的な手法を提案する。 エネルギー勾配と予測成長を考慮に入れた演算子選択基準を利用することで、その後のVQE最適化に使用される実効ハミルトニアンのパウリ積を著しく減少させることができる。

Accurately solving the electronic structure problem through the variational quantum eigensolver (VQE) is hindered by the available quantum resources of current and near-term devices. One approach to relieving the circuit depth requirements for VQE is to "pre-process" the electronic Hamiltonian by a similarity transformation incorporating some degree of electronic correlation, with the remaining correlation left to be addressed by the circuit ansatz. This often comes at the price of a substantial increase in the number of terms to measure in the unitarily transformed Hamiltonian. In this work, we propose an efficient approach to sampling elements from the unrestricted pool of N-qubit Pauli products which minimize the onset of new terms in the transformed Hamiltonian, while facilitating substantial energy lowering. We find that utilizing an operator selection criteria which takes into account both energy gradients and expected growth can substantially reduce the number of Pauli products in effective Hamiltonians used for a subsequent VQE optimization.
翻訳日:2023-01-23 05:43:56 公開日:2022-10-08
# 数論と言語: 2進計量を用いた1497言語における名詞複数化のモデル化

Number Theory Meets Linguistics: Modelling Noun Pluralisation Across 1497 Languages Using 2-adic Metrics ( http://arxiv.org/abs/2211.13124v1 )

ライセンス: Link先を確認
Gregory Baker and Diego Molla-Aliod(参考訳) p進計量を最小化する線形回帰問題としての多元化の単純な機械学習モデルは、インド・ヨーロッパ語、オーストロネシア語、トランス・ニューギニア語、シノ・ティベタン語、ニロ・サハラン語、オト・メアンジャン語、アトランティック・コンゴ語族の言語において、最も強固なユークリッド空間レグレッセプタを実質的に上回っている。 インド・ヨーロッパ語においても、p-進の方言として異なる名詞をモデル化する証拠は不十分である。

A simple machine learning model of pluralisation as a linear regression problem minimising a p-adic metric substantially outperforms even the most robust of Euclidean-space regressors on languages in the Indo-European, Austronesian, Trans New-Guinea, Sino-Tibetan, Nilo-Saharan, Oto-Meanguean and Atlantic-Congo language families. There is insufficient evidence to support modelling distinct noun declensions as a p-adic neighbourhood even in Indo-European languages.
翻訳日:2023-01-23 05:40:18 公開日:2022-10-08
# 連続ベクトル空間における数学的表現の意味表現

Semantic Representations of Mathematical Expressions in a Continuous Vector Space ( http://arxiv.org/abs/2211.08142v1 )

ライセンス: Link先を確認
Neeraj Gangwar, Nickvash Kani(参考訳) 数学的な表記法はSTEM文献の大部分を構成するが、公式の意味表現を見つけることは難しい問題である。 数学的表記は正確であり、その意味は小さな文字のシフトによって著しく変化するので、自然テキストを扱う方法は必ずしも数学的表現にうまく機能しない。 本研究では,連続ベクトル空間における数式表現のアプローチについて述べる。 視覚的に異なるが数学的に等価な表現を訓練したシーケンシャル・ツー・シーケンス・アーキテクチャのエンコーダを用いてベクトル表現を生成する(埋め込み)。 このアプローチをオートエンコーダと比較し,前者が数学的意味論を捉えるのに優れていることを示す。 最後に、将来のプロジェクトを高速化するために、等価超越表現対と代数表現対のコーパスを公表する。

Mathematical notation makes up a large portion of STEM literature, yet, finding semantic representations for formulae remains a challenging problem. Because mathematical notation is precise and its meaning changes significantly with small character shifts, the methods that work for natural text do not necessarily work well for mathematical expressions. In this work, we describe an approach for representing mathematical expressions in a continuous vector space. We use the encoder of a sequence-to-sequence architecture, trained on visually different but mathematically equivalent expressions, to generate vector representations (embeddings). We compare this approach with an autoencoder and show that the former is better at capturing mathematical semantics. Finally, to expedite future projects, we publish a corpus of equivalent transcendental and algebraic expression pairs.
翻訳日:2023-01-23 05:40:01 公開日:2022-10-08
# SYKリンドブレディアンにおける動的量子相転移

Dynamical quantum phase transitions in SYK Lindbladians ( http://arxiv.org/abs/2210.04093v1 )

ライセンス: Link先を確認
Kohei Kawabata, Anish Kulkarni, Jiachen Li, Tokiro Numasawa, Shinsei Ryu(参考訳) リンドブラッド・マスター方程式により記述されたSachdev-Ye-Kitaevモデル(SYK)の開量子力学について検討し、SYKモデルをマヨラナフェルミオン作用素の線型あるいは二次的なジャンプ作用素を持つマルコフ貯水池に結合する。 私たちにとって特に興味深いのは、散逸形因子の時間的進化であり、これは初期密度行列と時間進化密度行列の間の平均的な重なりをロシミットエコーの開量子一般化として定量化する。 散逸形式因子は動的量子相転移を示す。 ブラックホールとワームホールの2カップリングSYKモデルにおける熱相転移に類似した,多数のフェルミオンフレーバーの限界における不連続な動的相転移を解析的に示す。 また,二結合sykモデルでは対応する相を持たない連続的な動的相転移も見いだす。 さらに, 有限個のフェルミオンフレーバーにおいても, 動的量子相転移のシグネチャが残っていることを数値的に示す。

We study the open quantum dynamics of the Sachdev-Ye-Kitaev (SYK) model described by the Lindblad master equation, where the SYK model is coupled to Markovian reservoirs with jump operators that are either linear or quadratic in the Majorana fermion operators. Of particular interest for us is the time evolution of the dissipative form factor, which quantifies the average overlap between the initial and time-evolved density matrices as an open quantum generalization of the Loschmidt echo. We find that the dissipative form factor exhibits dynamical quantum phase transitions. We analytically demonstrate a discontinuous dynamical phase transition in the limit of large number of fermion flavors, which is formally akin to the thermal phase transition in the two-coupled SYK model between the black-hole and wormhole phases. We also find continuous dynamical phase transitions that do not have counterparts in the two-coupled SYK model. Furthermore, we numerically show that signatures of the dynamical quantum phase transitions remain to appear even in the finite number of fermion flavors.
翻訳日:2023-01-23 05:39:48 公開日:2022-10-08
# 【論文】単光子検出の基本限界

[Dissertation] Fundamental Limits to Single-Photon Detection ( http://arxiv.org/abs/2210.04089v1 )

ライセンス: Link先を確認
Tzula B. Propp(参考訳) 量子力学は、光の性質とその検出との間の密接な関係を固める。 歴史的に、光検出の量子理論は一般的に2つのカテゴリに分類されている: まず、光電子が検出されたときに観測可能な量子場を決定することを試みる。 第2のタイプは現象学理論であり、特定の光検出器の詳細をモデル化するのに非常に注意を払っている。 この論文では、光検出過程のすべての段階を含む完全量子力学的かつ十分に現実的なモデルを構築することにより、光検出に関する現代の文献におけるこれらの2つのモデル間のギャップを埋める。 我々は、正の演算子値測度(POVM)の言語を用いて量子情報理論の枠組み内でこれを達成している。 この論文には以前に3つの論文(Propp, Tz)で発表された資料が含まれている。 B & van Enk, S. J. (2019)。 非線形増幅について:光子計数における量子限界の改善 オプティクスエクスプレス27,16,23454-23463 さようなら、Tz。 B & van Enk, S. J. (2019)。 単一光子検出のための量子ネットワーク。 物理書評 A, 100, 033836。 さようなら、Tz。 B & van Enk, S. J. (2020)。 任意の単一光子ウェーブパックに投影する方法。 フィジカルレビューa,102,053707。

Quantum mechanics cements the intimate relationship between the nature of light and its detection. Historically, quantum theories of photodetection have generally fallen into two categories: the first tries to determine what quantum field observable is measured when photoelectrons are detected, laying the theoretical groundwork for photodetection being possible. The second type are phenomenological theories, which take great care to model the details of specific photodetectors. In this dissertation, we fill in the gap between these two models in the modern literature on photodetection by constructing a fully quantum mechanical and sufficiently realistic model that includes all stages of the photodetection process: transmission, amplification, and a final classical measurement. We accomplish this within the framework of quantum information theory using the language of positive operator valued measures (POVMs). This dissertation contains material previously published in three papers: Propp, Tz. B & van Enk, S. J. (2019). On nonlinear amplification: improved quantum limits for photon counting. Optics Express 27, 16, 23454-23463. Propp, Tz. B & van Enk, S. J. (2019). Quantum networks for single photon detection. Physical Review A, 100, 033836. Propp, Tz. B & van Enk, S. J. (2020). How to project onto an arbitrary single-photon wavepacket. Physical Review A, 102, 053707.
翻訳日:2023-01-23 05:39:26 公開日:2022-10-08
# 近接地平線不安定性による地平線の温度特性:経路積分的アプローチ

Thermality of horizon through near horizon instability: a path integral approach ( http://arxiv.org/abs/2210.04056v1 )

ライセンス: Link先を確認
Gaurang Ramakant Kane, Bibhas Ranjan Majhi(参考訳) 最近の研究では、質量のない無電荷の放出粒子の近傍の地平線ハミルトンが、静止したブラックホールと同様に、その特定の運動に対して有効に$\sim xp$であることが明らかになった。 これは自然によって不安定であり、いくつかの興味深い物理現象を説明する可能性がある。 経路積分カーネルから、まず状態の密度を計算する。 また, [phys. rev. d 85, 025011 (2012)] という考え方に従うと, 地平線近傍では, 経路積分アプローチにより, シュロディンガー版のハミルトニアンに対応する有効経路を計算する。 後者の結果は自然に複雑で、地平線を通って粒子の確率を逃がす情報を持っているように見える。 どちらの方法でも、ホーキング温度の正しい表現を同定する。 さらに、複素経路アプローチをカー時空のようなより一般的なブラックホールに拡張することに成功した。 このような複雑な経路は地平線によって与えられる近地平線不安定性の性質の結果であると考え、地平線の熱化機構は予兆的な局所不安定性を通じて説明できるという事実を再び補強した。

Recent investigations revealed that the near horizon Hamiltonian of a massless, chargeless outgoing particle, for its particular motion in static as well as stationary black holes, is effectively $\sim xp$ kind. This is unstable by nature and has the potential to explain a few interesting physical phenomena. From the path integral kernel, we first calculate the density of states. Also, following the idea of [Phys. Rev. D 85, 025011 (2012)] here, in the vicinity of the horizon, we calculate the effective path corresponding to its Schrodinger version of Hamiltonian through the path integral approach. The latter result appears to be complex in nature and carries the information of escaping the probability of the particle through the horizon. In both ways, we identify the correct expression of Hawking temperature. Moreover, here we successfully extend the complex path approach to a more general black hole like Kerr spacetime. We feel that such a complex path is an outcome of the nature of near horizon instability provided by the horizon and, therefore, once again bolstered the fact that the thermalization mechanism of the horizon may be explained through the aforesaid local instability.
翻訳日:2023-01-23 05:38:39 公開日:2022-10-08
# 多モードJaynes-Cummingsモデルによる損失共振器内における量子Rabi振動の崩壊と再生

Multi-mode Jaynes-Cummings model results for the collapse and the revival of the quantum Rabi oscillations in a lossy resonant cavity ( http://arxiv.org/abs/2210.04039v1 )

ライセンス: Link先を確認
Najirul Islam and Shyamal Biswas(参考訳) 損失共振器内の2レベル系に注入されたコヒーレント光子の低平均値に対する崩壊と量子ラビ振動の復活に関する理論的結果が数値的に得られた。 我々は,マルチモードのJaynes-Cummingsモデルを採用し,特に空洞壁への"Ohmic"損失,空洞からの漏れ,空洞開口面からの自然放出による損失について検討した。 この点についてbrune et al (phys. rev. lett. 76, 1800 (1996)) による実験データと比較した。

We have numerically obtained theoretical results for the collapse and the revival of the quantum Rabi oscillations for low average number of coherent photons injected on a two-level system in a lossy resonant cavity. We have adopted the multimode Jaynes-Cummings model for the same and especially treated the ``Ohmic" loss to the walls of the cavity, the leakage from the cavity, and the loss due to the spontaneous emission through the open surface of the cavity. We have compared our results with the experimental data obtained by Brune et al [Phys. Rev. Lett. 76, 1800 (1996)] in this regard.
翻訳日:2023-01-23 05:38:18 公開日:2022-10-08
# 重畳重力場における絡み合いと量子テレポーテーション

Entanglement and quantum teleportation under superposed gravitational fields ( http://arxiv.org/abs/2210.04034v1 )

ライセンス: Link先を確認
Yue Li, Baocheng Zhang, and Li You(参考訳) 重力場が二成分状態の絡み合いに及ぼす影響は、最近の重力場の重ね合わせ状態の考え方に基づいて研究されている。 従来の考察と異なり, 相互作用の最終段階において, 重力場が二部晶系から一元的に分離できない場合について検討する。 異なる重力場状態が直交すると、初期積状態に対して絡み合いが生じることはない。 異なる重力場状態が非直交状態であれば、絡み合いが生成でき、生成された絡み合いの量は異なる重力場状態間の重なりパラメータに依存する。 量子テレポーテーションによる状態の移動に対する重力場の影響も研究され、これは量子テレポーテーションをマクロな物体を用いて行うことができるため、観測可能な効果をもたらす可能性がある。

The influence of gravitational field on entanglement of bipartite states is investigated based on the recent idea of superposition states of gravitational field. Different from earlier considerations, we study the case where the gravitational field cannot be separated unitarily from the bipartite system in the final stage of the interaction. When the different gravitational field states are orthogonal, entanglement cannot be generated for an initial product state. If the different gravitational field states are non-orthogonal, entanglement can be generated and the amount of generated entanglement depends on an overlap parameter between different gravitational field states. The influence of gravitational field on the transfer of the state through quantum teleportation is also studied, which might lead to an observable effect since the quantum teleportation can be performed using macroscopic object.
翻訳日:2023-01-23 05:38:06 公開日:2022-10-08
# 量子ラビ振動下におけるアインシュタイン係数とレート方程式の一般化

Generalization of the Einstein coefficients and rate equations under the quantum Rabi oscillation ( http://arxiv.org/abs/2210.04032v1 )

ライセンス: Link先を確認
Najirul Islam and Shyamal Biswas(参考訳) 量子場理論の観点からアインシュタイン係数とレート方程式を一般化し、基礎過程と量子ラビ振動を非零ラビ周波数の光・物質相互作用の1つの基底に持つ。 損失共振キャビティ内の2レベル系の量子ラビ振動のマルチモードjaynes-cummingsモデルによる解析結果を得た。 (i)熱光子及び熱光子 (ii)コヒーレント場の光子を注入する。 これらの場合の光間相互作用のカップリング定数を正規化した。 本研究はBrune et al [Phys. Rev. Lett 76, 1800 (1996)]により得られた基礎実験データとよく一致した。 また、この点における人口動態を一般化されたアインシュタイン速度方程式を適用して研究した。

We have generalized Einstein coefficients and rate equations from quantum field theoretic point of view by bringing the fundamental processes and the quantum Rabi oscillation in a single footing for the light-matter interactions for nonzero Rabi frequency. We have analytically obtained multimode Jaynes-Cummings model results for the quantum Rabi oscillations of a two-level system in a lossy resonant cavity containing (i) thermal photons and (ii) injected photons of a coherent field. We have renormalized the coupling constant for the light-matter interactions for these cases. Our results match well with the seminal experimental data obtained in this regard by Brune et al [Phys. Rev. Lett 76, 1800 (1996)]. We also have studied the population dynamics in this regard by applying the generalized Einstein rate equations.
翻訳日:2023-01-23 05:37:54 公開日:2022-10-08
# 空間認識マッチングとクロス・トランスフォーマーによるファウショット学習の改善

Improving Few-shot Learning by Spatially-aware Matching and CrossTransformer ( http://arxiv.org/abs/2001.01600v2 )

ライセンス: Link先を確認
Hongguang Zhang, Philip H. S. Torr, Piotr Koniusz(参考訳) 現在の数ショット学習モデルは、固定解像度入力の下でいわゆるメタラーニング設定における視覚オブジェクトの関係をキャプチャする。 しかし、そのようなモデルは、対象クラスからのサンプルが少ないため、スケールとオブジェクト間の位置ミスマッチの下での一般化能力に制限がある。 したがって、比較画像の対間のスケールと位置を一致させるメカニズムが欠如しているため、性能が低下する。 画像コンテンツの重要性は、オブジェクトとそのクラスラベルによって異なる。ジェネリックオブジェクトやシーンは、そのグローバルな外観に依存しているが、きめ細かいオブジェクトは、よりローカライズされたビジュアルパターンに依存している。 そこで,本稿では,数発学習シナリオにおけるスケールと位置ミスマッチの影響について検討し,複数のスケールと位置のマッチングを効果的に行うための空間認識マッチング(sm)スキームを提案し,最適なマッチングペアに最高重みを与えることで画像関係を学習する。 smは、サポートとクエリデータの間の最も関連する場所とスケールをアクティベートするように訓練される。 本研究は,様々なショット学習モデルとバックボーンにSMを適用し,総合的な評価を行う。 さらに、補助的な自己超越性判別器を用いて、使用する特徴ベクトルの空間的およびスケールレベルの指標を訓練・予測する。 最後に, 空間対応マッチングプロセスにおいて, 自己および相互接続を利用する新しい変圧器ベースのパイプラインを開発した。 提案する設計はbackboneおよび/またはcomparatorの選択と直交する。

Current few-shot learning models capture visual object relations in the so-called meta-learning setting under a fixed-resolution input. However, such models have a limited generalization ability under the scale and location mismatch between objects, as only few samples from target classes are provided. Therefore, the lack of a mechanism to match the scale and location between pairs of compared images leads to the performance degradation. The importance of image contents varies across coarse-to-fine scales depending on the object and its class label, e.g., generic objects and scenes rely on their global appearance while fine-grained objects rely more on their localized visual patterns. In this paper, we study the impact of scale and location mismatch in the few-shot learning scenario, and propose a novel Spatially-aware Matching (SM) scheme to effectively perform matching across multiple scales and locations, and learn image relations by giving the highest weights to the best matching pairs. The SM is trained to activate the most related locations and scales between support and query data. We apply and evaluate SM on various few-shot learning models and backbones for comprehensive evaluations. Furthermore, we leverage an auxiliary self-supervisory discriminator to train/predict the spatial- and scale-level index of feature vectors we use. Finally, we develop a novel transformer-based pipeline to exploit self- and cross-attention in a spatially-aware matching process. Our proposed design is orthogonal to the choice of backbone and/or comparator.
翻訳日:2023-01-14 02:37:02 公開日:2022-10-08
# ハイブリッド適応速度支援ナビゲーションフィルタとINS/DVL融合への応用

A Hybrid Adaptive Velocity Aided Navigation Filter with Application to INS/DVL Fusion ( http://arxiv.org/abs/2211.01329v1 )

ライセンス: Link先を確認
Barak Or and Itzik Klein(参考訳) 自律型水中車両(AUV)は多くの水中用途で一般的に使われている。 通常、慣性センサとドップラー速度ログは非線形フィルタでAUVナビゲーションソリューションを推定するために使用される。 プロセスノイズ共分散行列は、慣性センサの特性に応じて調整される。 この行列はフィルタの精度、堅牢性、性能に大きな影響を与える。 一般的な実践は、この行列がAUV操作中に固定されていると仮定することである。 しかし、不確かさの程度は不明であるため、時代によって異なる。 したがって、この行列の適応チューニングはフィルタ性能を著しく向上させる可能性がある。 本研究では,学習に基づく適応速度支援ナビゲーションフィルタを提案する。 そのために、手作りの特徴を生成して、瞬間的なシステムノイズ共分散行列をチューニングする。 プロセスノイズ共分散が学習されると、モデルベースのナビゲーションフィルタに入力される。 シミュレーション結果は,他の適応的アプローチと比較して,我々のアプローチの利点を示す。

Autonomous underwater vehicles (AUV) are commonly used in many underwater applications. Usually, inertial sensors and Doppler velocity log readings are used in a nonlinear filter to estimate the AUV navigation solution. The process noise covariance matrix is tuned according to the inertial sensors' characteristics. This matrix greatly influences filter accuracy, robustness, and performance. A common practice is to assume that this matrix is fixed during the AUV operation. However, it varies over time as the amount of uncertainty is unknown. Therefore, adaptive tuning of this matrix can lead to a significant improvement in the filter performance. In this work, we propose a learning-based adaptive velocity-aided navigation filter. To that end, handcrafted features are generated and used to tune the momentary system noise covariance matrix. Once the process noise covariance is learned, it is fed into the model-based navigation filter. Simulation results show the benefits of our approach compared to other adaptive approaches.
翻訳日:2022-11-06 15:18:44 公開日:2022-10-08
# good ai for good: 北欧諸国のai戦略が持続可能な開発目標にどう対処するか

Good AI for Good: How AI Strategies of the Nordic Countries Address the Sustainable Development Goals ( http://arxiv.org/abs/2210.09010v1 )

ライセンス: Link先を確認
Andreas Theodorou, Juan Carlos Nieves, Virginia Dignum(参考訳) 人工知能(ai)は、世界的な持続可能な開発のための力である。 この機会を踏まえると、既存のAIのガイドラインや勧告の多くは、AIが国連の持続可能な開発目標(SDG)の達成にどのように貢献できるかについて明確なガイダンスを提供することを期待している。 これは特に北欧諸国のai戦略に当てはまるもので、少なくともsdgの達成に関して、彼らの高いランクと全体的な政治的焦点を考慮するとよいだろう。 本稿では、これらの戦略文書がSDGをどの程度参照しているかを特定するために、トピックモデリング技術に基づく10の異なる国や組織からのAIレコメンデーションの分析を行う。 この分析は、これらの文書がどれだけSDGを参照しているかに大きな違いは示していない。 さらに、北欧諸国はSDGに対する長期的なコミットメントにもかかわらず、他国と変わらない。 さらに重要なことに、 \textit{gender equal} (sdg 5) と \textit{inequality} (sdg 10) への言及や、aiの開発と利用による環境への影響、特に地球上の生命への影響は、ガイドラインから明らかに欠落している。

Developed and used responsibly Artificial Intelligence (AI) is a force for global sustainable development. Given this opportunity, we expect that the many of the existing guidelines and recommendations for trustworthy or responsible AI will provide explicit guidance on how AI can contribute to the achievement of United Nations' Sustainable Development Goals (SDGs). This would in particular be the case for the AI strategies of the Nordic countries, at least given their high ranking and overall political focus when it comes to the achievement of the SDGs. In this paper, we present an analysis of existing AI recommendations from 10 different countries or organisations based on topic modelling techniques to identify how much these strategy documents refer to the SDGs. The analysis shows no significant difference on how much these documents refer to SDGs. Moreover, the Nordic countries are not different from the others albeit their long-term commitment to SDGs. More importantly, references to \textit{gender equality} (SDG 5) and \textit{inequality} (SDG 10), as well as references to environmental impact of AI development and use, and in particular the consequences for life on earth, are notably missing from the guidelines.
翻訳日:2022-10-30 12:09:49 公開日:2022-10-08
# GANの正規化と正規化に関するシステム調査

A Systematic Survey of Regularization and Normalization in GANs ( http://arxiv.org/abs/2008.08930v6 )

ライセンス: Link先を確認
Ziqiang Li, Muhammad Usman, Rentuo Tao, Pengfei Xia, Huanhuan Chen, Bin Li(参考訳) 深層ニューラルネットワークの開発により,gans(generative adversarial network)がさまざまなシナリオで広く採用されている。 元のganはネットワークの無限容量の非パラメトリックな仮定に基づいて提案された。 しかし、GANが事前情報なしでターゲット分布に適合できるかどうかは不明である。 自信過剰な仮定のため、非収束性、モード崩壊、勾配消滅など、GANの訓練において多くの問題が未解決のままである。 正規化と正規化は、トレーニングを安定させ、差別を改善するために事前情報を導入する一般的な方法である。 ごく少数の正規化法と正規化法が提案されているが、我々の知る限り、いくつかの包括的・限定的な範囲の研究とは別に、主にこれらの手法の目的と開発に焦点を当てた総合的な調査は存在しない。 本研究では, GANsトレーニングの異なる視点から, 正規化と正規化技術に関する総合的な調査を行う。 まず,gans訓練の異なる視点を体系的に記述し,正規化と正規化の異なる目的を得る。 これらの目的に基づき,新しい分類法を提案する。 さらに,様々なデータセットにおける主流手法の性能を比較検討し,最先端ganによく採用されている正規化および正規化手法の適用について検討した。 最後に,本領域における今後の研究の方向性について述べる。 本研究におけるGANの正規化と正規化に関するコードと研究はhttps://github.com/iceli1007/GANs-Regularization-Reviewにまとめられている。

Generative Adversarial Networks (GANs) have been widely applied in different scenarios thanks to the development of deep neural networks. The original GAN was proposed based on the non-parametric assumption of the infinite capacity of networks. However, it is still unknown whether GANs can fit the target distribution without any prior information. Due to the overconfident assumption, many issues remain unaddressed in GANs' training, such as non-convergence, mode collapses, gradient vanishing. Regularization and normalization are common methods of introducing prior information to stabilize training and improve discrimination. Although a handful number of regularization and normalization methods have been proposed for GANs, to the best of our knowledge, there exists no comprehensive survey which primarily focuses on objectives and development of these methods, apart from some in-comprehensive and limited scope studies. In this work, we conduct a comprehensive survey on the regularization and normalization techniques from different perspectives of GANs training. First, we systematically describe different perspectives of GANs training and thus obtain the different objectives of regularization and normalization. Based on these objectives, we propose a new taxonomy. Furthermore, we compare the performance of the mainstream methods on different datasets and investigate the applications of regularization and normalization techniques that have been frequently employed in state-of-the-art GANs. Finally, we highlight potential future directions of research in this domain. Code and studies related to the regularization and normalization of GANs in this work is summarized on https://github.com/iceli1007/GANs-Regularization-Review.
翻訳日:2022-10-27 11:42:34 公開日:2022-10-08
# 質問応答におけるトップk文書検索のための拡張ベクトル

Enhanced vectors for top-k document retrieval in Question Answering ( http://arxiv.org/abs/2210.10584v1 )

ライセンス: Link先を確認
Mohammed Hammad(参考訳) 現代のアプリケーション、特に"検索"をユースケースとして含む情報検索Webアプリは、徐々に"回答"モジュールへと移行している。 会話型チャットボットは、ユーザーにとってより魅力的であることが証明された。 正確な回答は計算コストが高いため、回答を含むデータベースから最も関連する文書やパスを先取りする手法がいくつか開発されている。 そこで本研究では,エビデンス文書を効率的にかつ正確に検索し,ユーザクエリの関連文書を見逃さないようにする手法を提案する。 私たちは、各ドキュメント(または私たちの場合のパッセージ)をユニークな識別子に割り当て、それらを効率的にインデックス化できる密集したベクトルを作成することで、そうします。 より正確には、識別子を用いて、その文に対応する関連する質問のランダムにサンプリングされたコンテキストウインドウワードとその文語自体を予測する。 これは自然に経路識別子をベクトル空間に埋め込み、he情報内容に妥協することなく埋め込みが問題に近付くようにする。 このアプローチにより、約4ミリ秒でリアルタイムクエリベクトルを効率的に作成できる。

Modern day applications, especially information retrieval webapps that involve "search" as their use cases are gradually moving towards "answering" modules. Conversational chatbots which have been proved to be more engaging to users, use Question Answering as their core. Since, precise answering is computationally expensive, several approaches have been developed to prefetch the most relevant documents/passages from the database that contain the answer. We propose a different approach that retrieves the evidence documents efficiently and accurately, making sure that the relevant document for a given user query is not missed. We do so by assigning each document (or passage in our case), a unique identifier and using them to create dense vectors which can be efficiently indexed. More precisely, we use the identifier to predict randomly sampled context window words of the relevant question corresponding to the passage along with the words of passage itself. This naturally embeds the passage identifier into the vector space in such a way that the embedding is closer to the question without compromising he information content. This approach enables efficient creation of real-time query vectors in ~4 milliseconds.
翻訳日:2022-10-23 20:36:56 公開日:2022-10-08
# マルコフとi.d.設定のための適応KL-UCBに基づく帯域幅アルゴリズム

Adaptive KL-UCB based Bandit Algorithms for Markovian and i.i.d. Settings ( http://arxiv.org/abs/2009.06606v4 )

ライセンス: Link先を確認
Arghyadip Roy, Sanjay Shakkottai, R. Srikant(参考訳) 後悔に基づくマルチアームバンド問題(MAB)の定式化では、まれに例外を除いて、多くの文献は報酬の単位による武器に焦点を当てている。 本稿では、各アームの報酬が1つのパラメータ指数族に属さないマルコフ連鎖を形成するMAB問題に対する後悔の保証を得る問題を考察する。 このような問題における対数的後悔を達成することは難しくない:標準のkullback-leibler upper confidence bound (kl-ucb) のバリエーションが仕事を行う。 i.i.d.報酬はマルコフ報酬の特別な場合であり、基礎となるモデルが真にマルコフ的であるかi.i.d.であるかとは無関係に動作するアルゴリズムを設計することは困難であり、この問題を克服するために、各腕からの報酬が真にマルコフかi.i.dであるかを特定する新しいアルゴリズムを導入する。 我々のアルゴリズムは、標準のKL-UCBからKL-UCBの特殊バージョンに切り換えるが、腕の報酬がマルコフ的であることを判断すると、i.d.とマルコフ的設定の両方に対する後悔は少なくなる。

In the regret-based formulation of Multi-armed Bandit (MAB) problems, except in rare instances, much of the literature focuses on arms with i.i.d. rewards. In this paper, we consider the problem of obtaining regret guarantees for MAB problems in which the rewards of each arm form a Markov chain which may not belong to a single parameter exponential family. To achieve a logarithmic regret in such problems is not difficult: a variation of standard Kullback-Leibler Upper Confidence Bound (KL-UCB) does the job. However, the constants obtained from such an analysis are poor for the following reason: i.i.d. rewards are a special case of Markov rewards and it is difficult to design an algorithm that works well independent of whether the underlying model is truly Markovian or i.i.d. To overcome this issue, we introduce a novel algorithm that identifies whether the rewards from each arm are truly Markovian or i.i.d. using a total variation distance-based test. Our algorithm then switches from using a standard KL-UCB to a specialized version of KL-UCB when it determines that the arm reward is Markovian, thus resulting in low regrets for both i.i.d. and Markovian settings.
翻訳日:2022-10-18 11:50:29 公開日:2022-10-08
# 治療効果推定のための不均一特徴空間の伝達学習

Transfer Learning on Heterogeneous Feature Spaces for Treatment Effects Estimation ( http://arxiv.org/abs/2210.06183v1 )

ライセンス: Link先を確認
Ioana Bica, Mihaela van der Schaar(参考訳) 異なる特徴空間を持つソース領域からの関連情報を活用することにより、対象領域に対する条件平均処理効果(CATE)の推定を改善する問題を考察する。 CATE推定のための異種移動学習問題は、臨床共変量と限られたデータが利用可能な新規患者に対する治療の効果を評価したいと願う医療などの分野において、至るところで行われている。 本稿では、異種特徴空間を扱うために表現学習を使用する複数のビルディングブロックと、ドメイン間の潜在的な成果関数間の情報を転送するための共有層とプライベート層を持つ柔軟なマルチタスクアーキテクチャを導入することで、この問題に対処する。 次に,これらのビルディングブロックを用いて,標準CATE学習者の伝達学習等価性を回復する方法を示す。 ヘテロジニアス変換学習のための新しい半合成データシミュレーションベンチマークでは、データセット間の異種変換因果効果学習者の性能改善を実証するだけでなく、転送の観点からこれらの学習者の違いについての洞察を提供する。

Consider the problem of improving the estimation of conditional average treatment effects (CATE) for a target domain of interest by leveraging related information from a source domain with a different feature space. This heterogeneous transfer learning problem for CATE estimation is ubiquitous in areas such as healthcare where we may wish to evaluate the effectiveness of a treatment for a new patient population for which different clinical covariates and limited data are available. In this paper, we address this problem by introducing several building blocks that use representation learning to handle the heterogeneous feature spaces and a flexible multi-task architecture with shared and private layers to transfer information between potential outcome functions across domains. Then, we show how these building blocks can be used to recover transfer learning equivalents of the standard CATE learners. On a new semi-synthetic data simulation benchmark for heterogeneous transfer learning we not only demonstrate performance improvements of our heterogeneous transfer causal effect learners across datasets, but also provide insights into the differences between these learners from a transfer perspective.
翻訳日:2022-10-13 16:08:19 公開日:2022-10-08
# smart cup: 飲料類分類と鮮度検出のためのインピーダンスセンシングに基づく流体吸入モニタリングシステム

Smart Cup: An impedance sensing based fluid intake monitoring system for beverages classification and freshness detection ( http://arxiv.org/abs/2210.06285v1 )

ライセンス: Link先を確認
Mengxi Liu and Sizhen Bian and Bo Zhou and Agnes Gr\"unerbl and Paul Lukowicz(参考訳) 本稿では,飲料の種類や鮮度を正確に認識できる新しい飲料摂取監視システムを提案する。 市販カップに炭素電極を装着することで、システムはカップ内の流体の電気化学的インピーダンススペクトルを測定する。 異なる飲料に関する電気化学インピーダンススペクトルの周波数感度と, 酒類分類における振幅, 位相, 実物, 想像上の成分の重要性について検討した。 その結果、低周波領域(100Hzから1000Hz)の特徴は、高周波領域よりも飲料の分類に有意義な情報を提供することがわかった。 炭酸飲料とジュースを含む20種類の飲料を教師あり機械学習を用いてほぼ完全な精度で分類した。 また, 4種類の乳汁と果汁について検討した鮮度認識においても, 同じ性能を示した。

This paper presents a novel beverage intake monitoring system that can accurately recognize beverage kinds and freshness. By mounting carbon electrodes on the commercial cup, the system measures the electrochemical impedance spectrum of the fluid in the cup. We studied the frequency sensitivity of the electrochemical impedance spectrum regarding distinct beverages and the importance of features like amplitude, phase, and real and imaginary components for beverage classification. The results show that features from a low-frequency domain (100 Hz to 1000 Hz) provide more meaningful information for beverage classification than the higher frequency domain. Twenty beverages, including carbonated drinks and juices, were classified with nearly perfect accuracy using a supervised machine learning approach. The same performance was also observed in the freshness recognition, where four different kinds of milk and fruit juice were studied.
翻訳日:2022-10-13 16:07:56 公開日:2022-10-08
# 離散ウェーブレット変換を用いた畳み込みニューラルネットワークに基づく画像透かし

Convolutional Neural Network-Based Image Watermarking using Discrete Wavelet Transform ( http://arxiv.org/abs/2210.06179v1 )

ライセンス: Link先を確認
Alireza Tavakoli, Zahra Honjani and Hedieh Sajedi(参考訳) インターネットが普及するにつれて、デジタル画像はより頻繁に使われ、転送される。 この現象は情報へのアクセスを容易にするが、セキュリティ上の懸念を引き起こし、違法な使用、コピー、デジタルコンテンツ盗難を許すことで知的財産権を侵害する。 デジタル画像におけるウォーターマーク(wms)の使用は、セキュリティを維持する最も一般的な方法の1つである。 透かしは、原画像にデジタル透かしを加え、画像の所有権を証明し宣言する。 透かしは、テキストか画像のいずれかで、画像に過度に、あるいは隠れて置かれるので、削除が難しいことが期待できる。 本稿では,畳み込みニューラルネットワーク(CNN)とウェーブレット変換を組み合わせて,透かしを埋め込み抽出するための透かしネットワークを提案する。 ネットワークはホストイメージの解像度とは独立しており、あらゆる種類の透かしを受け付け、パフォーマンスを維持しながら11のCNN層しか持たない。 2つの用語は、抽出された透かしと元の透かしの類似度と、ホスト画像と透かしの類似度を測る。

As the Internet becomes more popular, digital images are used and transferred more frequently. Although this phenomenon facilitates easy access to information, it also creates security concerns and violates intellectual property rights by allowing illegal use, copying, and digital content theft. Using watermarks (WMs) in digital images is one of the most common ways to maintain security. Watermarking is proving and declaring ownership of an image by adding a digital watermark to the original image. Watermarks can be either text or an image placed overtly or covertly in an image and are expected to be challenging to remove. This paper proposes a combination of convolutional neural networks (CNNs) and wavelet transforms to obtain a watermarking network for embedding and extracting watermarks. The network is independent of the host image resolution, can accept all kinds of watermarks, and has only 11 CNN layers while keeping performance. Two terms measure performance; the similarity between the extracted watermark and the original one and the similarity between the host image and the watermarked one.
翻訳日:2022-10-13 16:06:28 公開日:2022-10-08
# 網膜OCT表面セグメンテーションのための動的プログラムの微分可能な深層学習ネットワーク

A deep learning network with differentiable dynamic programming for retina OCT surface segmentation ( http://arxiv.org/abs/2210.06335v1 )

ライセンス: Link先を確認
Hui Xie, Weiyu Xu, Xiaodong Wu(参考訳) 光コヒーレンス・トモグラフィー(OCT)画像における多重面分割は、弱い画像境界の頻繁な存在によってさらに複雑になる。 近年,この課題に対して多くの深層学習(dl)ベースの手法が開発されている。 残念なことに、医用画像のトレーニングデータが不足しているため、DLネットワークが表面の滑らかさを含む対象表面のグローバルな構造を学ぶことは困難である。 このギャップを埋めるために、制約付き微分可能な動的プログラムモジュールで特徴学習のためのU-Netをシームレスに統一し、網膜OCT表面セグメンテーションのエンドツーエンド学習を実現し、表面の滑らかさを明示することを提案する。 下流モデル最適化モジュールからのフィードバックを効果的に活用し、特徴学習をガイドし、ターゲット表面のグローバルな構造をより良くする。 Duke AMD (age-related macular degeneration) と JHU MS (multiple sclerosis) OCT データセットによる網膜層分画の精度は有望であった。

Multiple-surface segmentation in Optical Coherence Tomography (OCT) images is a challenge problem, further complicated by the frequent presence of weak image boundaries. Recently, many deep learning (DL) based methods have been developed for this task and yield remarkable performance. Unfortunately, due to the scarcity of training data in medical imaging, it is challenging for DL networks to learn the global structure of the target surfaces, including surface smoothness. To bridge this gap, this study proposes to seamlessly unify a U-Net for feature learning with a constrained differentiable dynamic programming module to achieve an end-to-end learning for retina OCT surface segmentation to explicitly enforce surface smoothness. It effectively utilizes the feedback from the downstream model optimization module to guide feature learning, yielding a better enforcement of global structures of the target surfaces. Experiments on Duke AMD (age-related macular degeneration) and JHU MS (multiple sclerosis) OCT datasets for retinal layer segmentation demonstrated very promising segmentation accuracy.
翻訳日:2022-10-13 15:39:42 公開日:2022-10-08
# blab reporter: ブルーアマゾンをカバーする自動ジャーナリズム

BLAB Reporter: Automated journalism covering the Blue Amazon ( http://arxiv.org/abs/2210.06431v1 )

ライセンス: Link先を確認
Yan V. Sym, Jo\~ao Gabriel M. Campos, Fabio G. Cozman(参考訳) ブラジルのブルーアマゾンを取材するロボットジャーナリストであるBLAB Reporterを紹介します。 レポーターは自然言語生成のためのパイプラインアーキテクチャに基づいており、ブラジルポルトガル語で毎日のレポート、ニュース要約、奇妙な事実を提供している。 公開ソースから構造化データを収集、保存、分析することで、robot-journalistはドメイン知識を使用してtwitterでテキストを生成し、公開する。 コードとコーパスが公開されています

This demo paper introduces the BLAB Reporter, a robot-journalist covering the Brazilian Blue Amazon. The Reporter is based on a pipeline architecture for Natural Language Generation; it offers daily reports, news summaries and curious facts in Brazilian Portuguese. By collecting, storing and analysing structured data from publicly available sources, the robot-journalist uses domain knowledge to generate and publish texts in Twitter. Code and corpus are publicly available
翻訳日:2022-10-13 14:21:22 公開日:2022-10-08
# infocse:情報集約型文埋め込みのコントラスト学習

InfoCSE: Information-aggregated Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2210.06432v1 )

ライセンス: Link先を確認
Xing Wu, Chaochen Gao, Zijia Lin, Jizhong Han, Zhongyuan Wang, Songlin Hu(参考訳) コントラスト学習は文の埋め込み学習において広く研究されており、同じ文の異なる視点の埋め込みが近いと仮定している。 この仮定によってもたらされる制約は弱く、優れた文表現は元の文の断片を再構築することもできます。 そこで本稿では,教師なし文埋め込み学習のための情報集約型コントラスト学習フレームワークinfocseを提案する。 InfoCSEは[CLS]位置の表現を強制的に強制し、Masked言語モデルタスクとよく設計されたネットワークを導入することで、より密集した文情報を集約する。 提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。 実験の結果、InfoCSEは、BERTベースで平均2.60%、BERT大規模で1.77%、SimCSEよりも優れており、教師なしの文表現学習法で最先端の結果が得られた。 私たちのコードはhttps://github.com/caskcsg/sentemb/infoで利用可能です。

Contrastive learning has been extensively studied in sentence embedding learning, which assumes that the embeddings of different views of the same sentence are closer. The constraint brought by this assumption is weak, and a good sentence representation should also be able to reconstruct the original sentence fragments. Therefore, this paper proposes an information-aggregated contrastive learning framework for learning unsupervised sentence embeddings, termed InfoCSE. InfoCSE forces the representation of [CLS] positions to aggregate denser sentence information by introducing an additional Masked language model task and a well-designed network. We evaluate the proposed InfoCSE on several benchmark datasets w.r.t the semantic text similarity (STS) task. Experimental results show that InfoCSE outperforms SimCSE by an average Spearman correlation of 2.60% on BERT-base, and 1.77% on BERT-large, achieving state-of-the-art results among unsupervised sentence representation learning methods. Our code are available at https://github.com/caskcsg/sentemb/info
翻訳日:2022-10-13 14:21:14 公開日:2022-10-08
# 時空間ピラミドグラフ畳み込みネットワークを用いた説明可能なfMRI脳デコーディング

Explainable fMRI-based Brain Decoding via Spatial Temporal-pyramid Graph Convolutional Network ( http://arxiv.org/abs/2210.05713v1 )

ライセンス: Link先を確認
Ziyuan Ye, Youzhi Qu, Zhichao Liang, Mo Wang, Quanying Liu(参考訳) 脳のデコーディングは、神経活動を用いて脳の状態を特定することを目的としており、認知神経科学と神経工学にとって重要である。 しかし、既存のfmriベースの脳デコードのための機械学習手法は、分類性能の低下や説明可能性の低下に苦しむ。 本稿では,機能的脳活動の時空間グラフ表現を捉えるために,生物学的にインスパイアされたアーキテクチャである時空間ピラミドグラフ畳み込みネットワーク(STpGCN)を提案する。 情報処理と脳内時間統合を模倣する多スケールの時空間経路とボトムアップ経路を設計することにより、STpGCNはグラフを介して脳活動の多スケール時空間依存性を明示的に活用し、高い脳復号性能を達成することができる。 さらに,脳ネットワークの観点からタスク関連脳領域に自動アノテートすることにより,デコード結果を説明するbrainnetxと呼ばれる感度解析手法を提案する。 我々は,Human Connectome Project (HCP) S1200から23の認知タスク下でのfMRIデータに関する広範な実験を行った。 その結果、STpGCNは、競合するベースラインモデルと比較して脳のデコード性能を著しく改善し、BrainNetXはタスク関連脳領域のアノテートに成功した。 これらの領域に基づくポストホック解析により、STpGCNの階層構造がモデルの説明可能性、堅牢性、一般化に大きく貢献することが示された。 複数の認知タスクにおける脳の情報表現の洞察を提供するだけでなく、fMRIに基づく脳のデコーディングの明るい未来を示す。

Brain decoding, aiming to identify the brain states using neural activity, is important for cognitive neuroscience and neural engineering. However, existing machine learning methods for fMRI-based brain decoding either suffer from low classification performance or poor explainability. Here, we address this issue by proposing a biologically inspired architecture, Spatial Temporal-pyramid Graph Convolutional Network (STpGCN), to capture the spatial-temporal graph representation of functional brain activities. By designing multi-scale spatial-temporal pathways and bottom-up pathways that mimic the information process and temporal integration in the brain, STpGCN is capable of explicitly utilizing the multi-scale temporal dependency of brain activities via graph, thereby achieving high brain decoding performance. Additionally, we propose a sensitivity analysis method called BrainNetX to better explain the decoding results by automatically annotating task-related brain regions from the brain-network standpoint. We conduct extensive experiments on fMRI data under 23 cognitive tasks from Human Connectome Project (HCP) S1200. The results show that STpGCN significantly improves brain decoding performance compared to competing baseline models; BrainNetX successfully annotates task-relevant brain regions. Post hoc analysis based on these regions further validates that the hierarchical structure in STpGCN significantly contributes to the explainability, robustness and generalization of the model. Our methods not only provide insights into information representation in the brain under multiple cognitive tasks but also indicate a bright future for fMRI-based brain decoding.
翻訳日:2022-10-13 14:19:26 公開日:2022-10-08
# セマンティクスセグメンテーションのためのシーケンシャルセンシング

Sequential Ensembling for Semantic Segmentation ( http://arxiv.org/abs/2210.05387v1 )

ライセンス: Link先を確認
Rawal Khirodkar, Brandon Smith, Siddhartha Chandra, Amit Agrawal, Antonio Criminisi(参考訳) ディープラーニングに基づくセマンティクスセグメンテーションに対するアンサンブルアプローチは、競合ベンチマークや下流アプリケーションの増加にもかかわらず、十分に検討されていない。 本研究では,複数のデータ集合に対して,独立に学習された最先端のモデルの予測をテスト時に組み合わせる手法について検討し,その評価を行った。 さらに, 逐次アンサンブルネットワークの強化にインスパイアされた新しい手法を提案し, ナイーブアンサンブルベースラインを著しく上回っている。 提案手法は,前モデルが予測したクラス確率を付加入力として予測したモデル列を学習する。 このアプローチの大きな利点は、動的計算のオフロードを可能にすることで、モバイルデバイスにモデルをデプロイするのに役立つことだ。 提案するAdaptive modulation(ADON)ブロックは,前段確率を用いた様々な層における空間的特徴変調を可能にする。 私たちのアプローチでは、トレーニング中に高度なサンプル選択戦略を必要とせず、複数のニューラルアーキテクチャで動作する。 私たちは、Cityscapes、ADE-20K、COCO-Stuff、PASCAL-Contextといった挑戦的なデータセットに基づいて、単純なアンサンブルベースラインを大幅に改善し、新しい最先端技術を設定しました。

Ensemble approaches for deep-learning-based semantic segmentation remain insufficiently explored despite the proliferation of competitive benchmarks and downstream applications. In this work, we explore and benchmark the popular ensembling approach of combining predictions of multiple, independently-trained, state-of-the-art models at test time on popular datasets. Furthermore, we propose a novel method inspired by boosting to sequentially ensemble networks that significantly outperforms the naive ensemble baseline. Our approach trains a cascade of models conditioned on class probabilities predicted by the previous model as an additional input. A key benefit of this approach is that it allows for dynamic computation offloading, which helps deploy models on mobile devices. Our proposed novel ADaptive modulatiON (ADON) block allows spatial feature modulation at various layers using previous-stage probabilities. Our approach does not require sophisticated sample selection strategies during training and works with multiple neural architectures. We significantly improve over the naive ensemble baseline on challenging datasets such as Cityscapes, ADE-20K, COCO-Stuff, and PASCAL-Context and set a new state-of-the-art.
翻訳日:2022-10-12 14:45:41 公開日:2022-10-08
# グラフ表現学習におけるホモフィリーとヘテロフィリーの壁分割

Break the Wall Between Homophily and Heterophily for Graph Representation Learning ( http://arxiv.org/abs/2210.05382v1 )

ライセンス: Link先を確認
Xiao Liu, Lijun Zhang, Hui Guan(参考訳) ホモフィリーとヘテロフィリーは、2つの連結ノードが同様の性質を持つかどうかを記述するグラフの固有の性質である。 多くのグラフニューラルネットワーク(GNN)モデルが提案されているが、ホモフィリーのスペクトル全体に対してうまく一般化できるようにモデルをどのように設計するかは定かではない。 本研究は, グラフ表現学習に不可欠なエゴノード特徴, 集約ノード特徴, グラフ構造特徴を含む3つのグラフ特徴を特定することで, 課題に対処する。 さらに、omnipotent graph neural network(omnipotent graph neural network)と呼ばれる新しいgnnモデルも提案している。 合成データと実データの両方に関する広範な実験は、最先端の手法と比較して、我々のognnの優越性(平均ランク 1.56)を示している。

Homophily and heterophily are intrinsic properties of graphs that describe whether two linked nodes share similar properties. Although many Graph Neural Network (GNN) models have been proposed, it remains unclear how to design a model so that it can generalize well to the whole spectrum of homophily. This work addresses the challenge by identifying three graph features, including the ego node feature, the aggregated node feature, and the graph structure feature, that are essential for graph representation learning. It further proposes a new GNN model called OGNN (Omnipotent Graph Neural Network) that extracts all three graph features and adaptively fuses them to achieve generalizability across the whole spectrum of homophily. Extensive experiments on both synthetic and real datasets demonstrate the superiority (average rank 1.56) of our OGNN compared with state-of-the-art methods.
翻訳日:2022-10-12 14:28:23 公開日:2022-10-08
# GRANITE: 基本ブロックスループット推定のためのグラフニューラルネットワークモデル

GRANITE: A Graph Neural Network Model for Basic Block Throughput Estimation ( http://arxiv.org/abs/2210.03894v1 )

ライセンス: Link先を確認
Ondrej Sykora and Phitchaya Mangpo Phothilimthana and Charith Mendis and Amir Yazdanbakhsh(参考訳) 分析ハードウェアパフォーマンスモデルは、望ましいハードウェアパフォーマンスメトリクスを素早く推定する。 しかし、高度なマイクロアーキテクチャを持つ現代のプロセッサ向けのこれらの分析モデルの開発は、非常に困難な作業であり、ターゲットマイクロアーキテクチャの内部構造をしっかりと理解する必要がある。 本稿では,各種マイクロアーキテクチャにおける基本ブロックのスループットを推定する機械学習モデルであるGRANITEを紹介する。 GRANITEは基本ブロックのグラフ表現を使用し、命令間の構造的およびデータ的依存関係の両方をキャプチャする。 この表現は、グラフでキャプチャされた関係情報を活用するグラフニューラルネットワークを使用して処理され、より正確なスループット推定を可能にする基本ブロックのリッチなニューラルネットワーク表現を学習する。 提案手法は,x86-64ターゲットの様々な基本ブロックおよびマイクロアーキテクチャに対して平均6.9%の誤差で,基本ブロック性能評価のための新しい最先端技術を構築した。 最近の作業と比較して、トレーニングと推論のスループットを約3.0倍改善しながらエラーを1.7%削減した。 さらに,独立した多層フィードフォワードデコーダネットワークを用いたマルチタスク学習を提案する。 その結果,この手法により学習モデルの精度が向上し,マイクロアーキテクチャごとのトレーニングコストが大幅に削減された。 本研究は, アブレーション実験を広範囲に実施し, 先行研究との比較を行い, 基本ブロック性能推定のための高精度な手法のセットを導出する。

Analytical hardware performance models yield swift estimation of desired hardware performance metrics. However, developing these analytical models for modern processors with sophisticated microarchitectures is an extremely laborious task and requires a firm understanding of target microarchitecture's internal structure. In this paper, we introduce GRANITE, a new machine learning model that estimates the throughput of basic blocks across different microarchitectures. GRANITE uses a graph representation of basic blocks that captures both structural and data dependencies between instructions. This representation is processed using a graph neural network that takes advantage of the relational information captured in the graph and learns a rich neural representation of the basic block that allows more precise throughput estimation. Our results establish a new state-of-the-art for basic block performance estimation with an average test error of 6.9% across a wide range of basic blocks and microarchitectures for the x86-64 target. Compared to recent work, this reduced the error by 1.7% while improving training and inference throughput by approximately 3.0x. In addition, we propose the use of multi-task learning with independent multi-layer feed forward decoder networks. Our results show that this technique further improves precision of all learned models while significantly reducing per-microarchitecture training costs. We perform an extensive set of ablation studies and comparisons with prior work, concluding a set of methods to achieve high accuracy for basic block performance estimation.
翻訳日:2022-10-11 19:52:11 公開日:2022-10-08
# 低ランクランダムテンソルのほとんどロスレス圧縮

Almost-lossless compression of a low-rank random tensor ( http://arxiv.org/abs/2210.04041v1 )

ライセンス: Link先を確認
Minh Thanh Vu(参考訳) 本研究では, ランダムな有限アルファベットテンソルの漸近的な圧縮限界を定め, 低ランクの正準多進分解を許容する。

In this work, we establish an asymptotic limit of almost-lossless compression of a random, finite alphabet tensor which admits a low-rank canonical polyadic decomposition.
翻訳日:2022-10-11 19:51:51 公開日:2022-10-08
# 後方深部bsde法の収束と最適停止問題への応用

Convergence of the Backward Deep BSDE Method with Applications to Optimal Stopping Problems ( http://arxiv.org/abs/2210.04118v1 )

ライセンス: Link先を確認
Chengfan Gao, Siping Gao, Ruimeng Hu, Zimu Zhu(参考訳) 最適停止問題は金融市場の中核的な問題の一つであり、アメリカやベルムダンの価格設定など幅広い応用がある。 深部 bsde 法 (han, jentzen and e, pnas, 115(34):8505-8510, 2018) は高次元前方後方確率微分方程式 (fbsdes) の解法に大きな力を示し、多くの応用に影響を与えた。 しかし、この手法は後向き確率微分方程式(BSDEs)を前方に解くため、一般的にBSDEを後方に走らせる必要のある最適停止問題には使用できない。 この難しさを克服するため、最近の論文 (Wang, Chen, Sudjianto, Liu and Shen, arXiv:1807.06622, 2018) では、最適な停止問題を解決するために、後方深度BSDE法を提案した。 本稿では,後方深部BSDE法に対する厳密な理論を提案する。 具体的には 1. 後方誤差推定,すなわち,数値解の誤差をトレーニング損失関数で有界化することができる。 2. 損失関数の上界を与えるが、これは普遍近似の十分小さい対象である。 証明された理論と一貫した性能を示す2つの数値例を示す。

The optimal stopping problem is one of the core problems in financial markets, with broad applications such as pricing American and Bermudan options. The deep BSDE method [Han, Jentzen and E, PNAS, 115(34):8505-8510, 2018] has shown great power in solving high-dimensional forward-backward stochastic differential equations (FBSDEs), and inspired many applications. However, the method solves backward stochastic differential equations (BSDEs) in a forward manner, which can not be used for optimal stopping problems that in general require running BSDE backwardly. To overcome this difficulty, a recent paper [Wang, Chen, Sudjianto, Liu and Shen, arXiv:1807.06622, 2018] proposed the backward deep BSDE method to solve the optimal stopping problem. In this paper, we provide the rigorous theory for the backward deep BSDE method. Specifically, 1. We derive the a posteriori error estimation, i.e., the error of the numerical solution can be bounded by the training loss function; and; 2. We give an upper bound of the loss function, which can be sufficiently small subject to universal approximations. We give two numerical examples, which present consistent performance with the proved theory.
翻訳日:2022-10-11 19:51:48 公開日:2022-10-08
# 重み付きニューラルネットワークを用いたGST/NIRISのストークスプロファイルからの視線速度とドップラー幅の推定

Inferring Line-of-Sight Velocities and Doppler Widths from Stokes Profiles of GST/NIRIS Using Stacked Deep Neural Networks ( http://arxiv.org/abs/2210.04122v1 )

ライセンス: Link先を確認
Haodi Jiang, Qin Li, Yan Xu, Wynne Hsu, Kwangsu Ahn, Wenda Cao, Jason T. L. Wang, Haimin Wang(参考訳) ストークス反転による高品質の磁場と速度場を得ることは太陽物理学において重要である。 本稿では,近赤外画像分光偏光計 (NIRIS) によるビッグベア・ソーラー天文台 (BBSO) の1.6 m Goode Solar Telescope (GST) のストークスプロファイルから,視線速度とドップラー幅を推定するための新しいディープラーニング手法である Stacked Deep Neural Networks (SDNN) を提案する。 SDNNのトレーニングデータは、BBSOが使用するMilne-Eddington(ME)インバージョンコードによって作成される。 本研究では,sdnnを定量的に評価し,そのインバージョン結果をmeインバージョンコードと,複数のサポートベクトル回帰,多層パーセプトロン,ピクセルレベルの畳み込みニューラルネットワークなどの機械学習(ml)アルゴリズムと比較した。 本研究の主な成果は以下の通りである。 まず,sdnnが推定したロス速度は平均0.9に近いピアソン積-モーメント相関係数のme計算値と高い相関関係を示す。 第二に、SDNNはMEの反転符号よりもスムーズでクリーンなLOS速度とドップラー幅マップを生成する。 第3に、SDNNが作成したマップは、関連するMLアルゴリズムよりもMEマップに近いため、SDNNの学習能力はMLアルゴリズムよりも優れている。 最後に、GST/NIRISに基づくMEとSDNNの逆転結果と、太陽ダイナミクス観測所に搭載されたヘリオサイスミック・磁気画像装置によるNOAA 12673の観測結果を比較した。 また,経験的評価を伴うベクトル磁場推定のためのSDNNの拡張についても論じる。

Obtaining high-quality magnetic and velocity fields through Stokes inversion is crucial in solar physics. In this paper, we present a new deep learning method, named Stacked Deep Neural Networks (SDNN), for inferring line-of-sight (LOS) velocities and Doppler widths from Stokes profiles collected by the Near InfraRed Imaging Spectropolarimeter (NIRIS) on the 1.6 m Goode Solar Telescope (GST) at the Big Bear Solar Observatory (BBSO). The training data of SDNN is prepared by a Milne-Eddington (ME) inversion code used by BBSO. We quantitatively assess SDNN, comparing its inversion results with those obtained by the ME inversion code and related machine learning (ML) algorithms such as multiple support vector regression, multilayer perceptrons and a pixel-level convolutional neural network. Major findings from our experimental study are summarized as follows. First, the SDNN-inferred LOS velocities are highly correlated to the ME-calculated ones with the Pearson product-moment correlation coefficient being close to 0.9 on average. Second, SDNN is faster, while producing smoother and cleaner LOS velocity and Doppler width maps, than the ME inversion code. Third, the maps produced by SDNN are closer to ME's maps than those from the related ML algorithms, demonstrating the better learning capability of SDNN than the ML algorithms. Finally, comparison between the inversion results of ME and SDNN based on GST/NIRIS and those from the Helioseismic and Magnetic Imager on board the Solar Dynamics Observatory in flare-prolific active region NOAA 12673 is presented. We also discuss extensions of SDNN for inferring vector magnetic fields with empirical evaluation.
翻訳日:2022-10-11 19:51:22 公開日:2022-10-08
# データを浪費するな - 機械学習型気候モデルエミュレーションのための全データを活用するトランスファー学習

Don't Waste Data: Transfer Learning to Leverage All Data for Machine-Learnt Climate Model Emulation ( http://arxiv.org/abs/2210.04001v1 )

ライセンス: Link先を確認
Raghul Parthipan and Damon J. Wischik(参考訳) シミュレーション時に余分なコストを伴わずに、機械学習による気候モデルのトレーニングで利用可能なすべてのデータから学ぶには、どうすればよいのか? 通常、トレーニングデータは粗い粒度の高解像度データを含む。 しかし、この粗いデータだけを保持すると、残りの高解像度データは捨てられる。 我々は、さまざまな機械学習モデルに適用可能な転送学習アプローチを使用して、すべての高解像度データを活用する。 3つのカオスシステムを用いてスタビリシートレーニングを行い,一般化性能の向上と予測能力の向上を実現した。 匿名のコードはhttps://www.dropbox.com/sh/0o1pks1i90mix3q/AAAMGfyD7EyOkdnA_Hp5ZpiWa? dl=0

How can we learn from all available data when training machine-learnt climate models, without incurring any extra cost at simulation time? Typically, the training data comprises coarse-grained high-resolution data. But only keeping this coarse-grained data means the rest of the high-resolution data is thrown out. We use a transfer learning approach, which can be applied to a range of machine learning models, to leverage all the high-resolution data. We use three chaotic systems to show it stabilises training, gives improved generalisation performance and results in better forecasting skill. Our anonymised code is at https://www.dropbox.com/sh/0o1pks1i90mix3q/AAAMGfyD7EyOkdnA_Hp5ZpiWa?dl=0
翻訳日:2022-10-11 19:35:46 公開日:2022-10-08
# feddef:ロバストなフェデレーション学習に基づくネットワーク侵入検出システム

FedDef: Robust Federated Learning-based Network Intrusion Detection Systems Against Gradient Leakage ( http://arxiv.org/abs/2210.04052v1 )

ライセンス: Link先を確認
Jiahui Chen, Yi Zhao, Qi Li, Ke Xu(参考訳) ディープラーニング手法は、悪意のあるトラフィックを検出するために、異常に基づくネットワーク侵入検知システム(NIDS)に広く応用されている。 dlベースの手法の利用シナリオを拡張するために、ff(federated learning)フレームワークでは、個々のデータプライバシを尊重して、複数の個人によるモデルを共同でトレーニングすることができる。 しかし、flベースのnidsが既存の防御の下で既存のプライバシー攻撃に対していかに強固であるかは、まだ体系的に評価されていない。 そこで本稿では,flベースのnidss用に設計された2つのプライバシ評価指標を提案する。2つのリコンストラクションアタックを利用して,トラフィック特徴のプライバシスコアを取得するためのトレーニングデータを復元し,さらに,再構成された良性トラフィックと敵対的な例を生成して他のnidssに対する回避率を評価するジェネラティブ・アドバーサリー・ネットワーク(gan)による攻撃を行う。 我々は,既存の防衛が,対応する敵トラフィックがSOTA NIDS きつねを回避できるような保護をほとんど提供していないことを示す実験を行う。 さらに,より堅牢なflベースのnidsを構築するために,入力距離を最大化することにより,勾配距離と強力なプライバシー保護を最小化し,高い実用性を実現するための理論的保証を備えた,新しい最適化ベースの入力摂動防御戦略を提案する。 4つのデータセットに対する4つの既存の防御を実験的に評価し、最適なパラメータの組み合わせでモデル精度の損失を3%以下に抑えながら、我々の防衛が強力なプライバシ保証で全てのベースラインを上回っていることを示す。

Deep learning methods have been widely applied to anomaly-based network intrusion detection systems (NIDS) to detect malicious traffic. To expand the usage scenarios of DL-based methods, the federated learning (FL) framework allows intelligent techniques to jointly train a model by multiple individuals on the basis of respecting individual data privacy. However, it has not yet been systematically evaluated how robust FL-based NIDSs are against existing privacy attacks under existing defenses. To address this issue, in this paper we propose two privacy evaluation metrics designed for FL-based NIDSs, including leveraging two reconstruction attacks to recover the training data to obtain the privacy score for traffic features, followed by Generative Adversarial Network (GAN) based attack that generates adversarial examples with the reconstructed benign traffic to evaluate evasion rate against other NIDSs. We conduct experiments to show that existing defenses provide little protection that the corresponding adversarial traffic can even evade the SOTA NIDS Kitsune. To build a more robust FL-based NIDS, we further propose a novel optimization-based input perturbation defense strategy with theoretical guarantee that achieves both high utility by minimizing the gradient distance and strong privacy protection by maximizing the input distance. We experimentally evaluate four existing defenses on four datasets and show that our defense outperforms all the baselines with strong privacy guarantee while maintaining model accuracy loss within 3% under optimal parameter combination.
翻訳日:2022-10-11 19:35:32 公開日:2022-10-08
# SlenderGNN: 正確、ロバスト、解釈可能なGNNとその成功の理由

SlenderGNN: Accurate, Robust, and Interpretable GNN, and the Reasons for its Success ( http://arxiv.org/abs/2210.04081v1 )

ライセンス: Link先を確認
Jaemin Yoo, Meng-Chieh Lee, Shubhranshu Shekhar, Christos Faloutsos(参考訳) 正確かつ解釈可能なGNNを同時に設計できるだろうか? また、ネットワーク効果のないホモフィリー、ヘテロフィリー、あるいはノイズの多いエッジを扱うことは堅牢なのだろうか? 望ましい特性をすべて備えたSlenderGNNを提案する。 a) 正確です。 b)堅牢で,かつ (c)解釈可能。 その結果、人気のあるGNNモデル(例えば、機能の組み合わせ、構造正規化など)の根本的な違いを強調し、SlenderGNNの成功の理由と、他のGNN亜種が時々失敗する理由を明らかにするGNNLinフレームワークが生まれました。 我々の注意深い設計のおかげで、SlenderGNNは提案したすべての「正当性チェック」をパスし、最近の10のGNNモデルと比較すると、ホモフィリグラフとヘテロフィリグラフの両方の9つの実世界のデータセットに対して、最も高い総合的精度を達成する。 具体的には、SlenderGNNは線形GNNの精度を超え、最大64倍のパラメータを持つ非線形モデルの精度を超える。

Can we design a GNN that is accurate and interpretable at the same time? Could it also be robust to handle the case of homophily, heterophily, or even noisy edges without network effects? We propose SlenderGNN that has all desirable properties: (a) accurate, (b) robust, and (c) interpretable. For the reasons of its success, we had to dig deeper: The result is our GNNLin framework which highlights the fundamental differences among popular GNN models (e.g., feature combination, structural normalization, etc.) and thus reveals the reasons for the success of our SlenderGNN, as well as the reasons for occasional failures of other GNN variants. Thanks to our careful design, SlenderGNN passes all the 'sanity checks' we propose, and it achieves the highest overall accuracy on 9 real-world datasets of both homophily and heterophily graphs, when compared against 10 recent GNN models. Specifically, SlenderGNN exceeds the accuracy of linear GNNs and matches or exceeds the accuracy of nonlinear models with up to 64 times fewer parameters.
翻訳日:2022-10-11 19:34:59 公開日:2022-10-08
# 協調的ドメインブロック:フェデレーションNLPによる悪性ドメインの検出

Collaborative Domain Blocking: Using federated NLP To Detect Malicious Domains ( http://arxiv.org/abs/2210.04088v1 )

ライセンス: Link先を確認
Mohammad Ismail Daud(参考訳) 現在のコンテンツフィルタリングとブロック手法は、様々な回避技術に影響を受けやすく、新しい脅威に対処するのは比較的遅い。 これは、クラウドソースブロックリストに見られる正規表現規則に基づく浅層パターン認識を用いたこれらの手法によるものである。 そこで本稿では,ネットワーク指向コンテンツと対話するドメインの深いテキストパターンを調べることによって,上記の問題に対する対処を目的とした新しいシステムを提案する。 さらに,プライバシを損なうことなくネットワーク上でブロックされるべきかどうかに関して,ユーザが相互にローカル化された知識や経験を活用できるフェデレーション学習の利用を提案する。 本実験は,実環境における提案手法の有望性を示すものである。 また,提案システムの実装方法に関するデータ駆動型勧告も提供する。

Current content filtering and blocking methods are susceptible to various circumvention techniques and are relatively slow in dealing with new threats. This is due to these methods using shallow pattern recognition that is based on regular expression rules found in crowdsourced block lists. We propose a novel system that aims to remedy the aforementioned issues by examining deep textual patterns of network-oriented content relating to the domain being interacted with. Moreover, we propose to use federated learning that allows users to take advantage of each other's localized knowledge/experience regarding what should or should not be blocked on a network without compromising privacy. Our experiments show the promise of our proposed approach in real world settings. We also provide data-driven recommendations on how to best implement the proposed system.
翻訳日:2022-10-11 19:34:37 公開日:2022-10-08
# どうやって行くのですか。 変圧器を用いた移動モード情報学習による次の位置予測の改善

How do you go where? Improving next location prediction by learning travel mode information using transformers ( http://arxiv.org/abs/2210.04095v1 )

ライセンス: Link先を確認
Ye Hong, Henry Martin, Martin Raubal(参考訳) 次に訪れる個人の位置を予測することは、持続可能な輸送オプションのパーソナライズと最適化のために必要となる、人の移動分析の重要な問題である。 本稿では,過去の研究でしばしば見過ごされる行動次元である過去の位置,時間,旅行モードに基づいて,個人が次に訪れる場所を予測するトランスフォーマデコーダベースのニューラルネットワークを提案する。 特に、次の旅行モードの予測は、ネットワークの学習をガイドする補助的なタスクとして設計されている。 評価のために,600人以上の個人を含む2つの大規模・長期GPS追跡データセットに適用する。 提案手法は,2つのデータセットのf1-scoreの8.05%と5.60%の相対的な増加率で,最先端の次の位置予測手法を有意に上回っている。 我々は,時間的特徴,旅行モード情報,補助タスクが予測結果に与える影響を定量化する広範なアブレーション研究を行う。 さらに,モデルに次のモード予測を含む場合の性能上限を実験的に決定する。 最後に,位置情報予測の性能は,個人が選択した次の移動モードと大きく異なることを示す。 これらの結果は、移動予測タスクにおける移動行動のさらなる次元についてより体系的に検討する可能性を示している。 私たちのモデルと実験のソースコードはhttps://github.com/mie-lab/location-mode-predictionで閲覧できます。

Predicting the next visited location of an individual is a key problem in human mobility analysis, as it is required for the personalization and optimization of sustainable transport options. Here, we propose a transformer decoder-based neural network to predict the next location an individual will visit based on historical locations, time, and travel modes, which are behaviour dimensions often overlooked in previous work. In particular, the prediction of the next travel mode is designed as an auxiliary task to help guide the network's learning. For evaluation, we apply this approach to two large-scale and long-term GPS tracking datasets involving more than 600 individuals. Our experiments show that the proposed method significantly outperforms other state-of-the-art next location prediction methods by a large margin (8.05% and 5.60% relative increase in F1-score for the two datasets, respectively). We conduct an extensive ablation study that quantifies the influence of considering temporal features, travel mode information, and the auxiliary task on the prediction results. Moreover, we experimentally determine the performance upper bound when including the next mode prediction in our model. Finally, our analysis indicates that the performance of location prediction varies significantly with the chosen next travel mode by the individual. These results show potential for a more systematic consideration of additional dimensions of travel behaviour in human mobility prediction tasks. The source code of our model and experiments is available at https://github.com/mie-lab/location-mode-prediction.
翻訳日:2022-10-11 19:34:25 公開日:2022-10-08
# PropertyDAG: 生物配列設計のための部分順序・混合変数特性の多目的ベイズ最適化

PropertyDAG: Multi-objective Bayesian optimization of partially ordered, mixed-variable properties for biological sequence design ( http://arxiv.org/abs/2210.04096v1 )

ライセンス: Link先を確認
Ji Won Park, Samuel Stanton, Saeed Saremi, Andrew Watkins, Henri Dwyer, Vladimir Gligorijevic, Richard Bonneau, Stephen Ra and Kyunghyun Cho(参考訳) ベイズ最適化は、生物配列の広大な設計空間における探索・探索トレードオフをナビゲートするためのサンプル効率のよいフレームワークを提供する。 超体積改善(EHVI)のような多目的獲得関数を用いて利害の様々な特性を共同で最適化することは可能であるが、このアプローチは階層的な依存構造を持つ目的を考慮しない。 本稿では,Paretoフロンティアのいくつかの領域が,目的の指定した$\textit{partial ordering}$に従って他の領域よりも優先される場合を考える。 例えば、抗体を設計する際には、生きた細胞培養で表現できる場合に限ってターゲット抗原への結合親和性を最大化したいと思います。 一般に、各性質がいくつかの実現可能性条件を満たす親特性に最適化されるような性質に対する部分順序を導いたいかもしれない。 この目的のために、我々は、従来の多目的bo上で動作し、目的に対してこの望ましい順序を課すためのフレームワークである propertydag を提示します。 ペニシリン生産タスク,おもちゃの数値問題,実世界の抗体設計タスクにおいて,複数のシミュレーションされた能動学習繰り返しの性能を示す。

Bayesian optimization offers a sample-efficient framework for navigating the exploration-exploitation trade-off in the vast design space of biological sequences. Whereas it is possible to optimize the various properties of interest jointly using a multi-objective acquisition function, such as the expected hypervolume improvement (EHVI), this approach does not account for objectives with a hierarchical dependency structure. We consider a common use case where some regions of the Pareto frontier are prioritized over others according to a specified $\textit{partial ordering}$ in the objectives. For instance, when designing antibodies, we would like to maximize the binding affinity to a target antigen only if it can be expressed in live cell culture -- modeling the experimental dependency in which affinity can only be measured for antibodies that can be expressed and thus produced in viable quantities. In general, we may want to confer a partial ordering to the properties such that each property is optimized conditioned on its parent properties satisfying some feasibility condition. To this end, we present PropertyDAG, a framework that operates on top of the traditional multi-objective BO to impose this desired ordering on the objectives, e.g. expression $\rightarrow$ affinity. We demonstrate its performance over multiple simulated active learning iterations on a penicillin production task, toy numerical problem, and a real-world antibody design task.
翻訳日:2022-10-11 19:34:01 公開日:2022-10-08
# CPUおよびGPU上での動的グラフニューラルネットワーク推論のブートネック解析

Bottleneck Analysis of Dynamic Graph Neural Network Inference on CPU and GPU ( http://arxiv.org/abs/2210.03900v1 )

ライセンス: Link先を確認
Hanqiu Chen, Yahya Alhinai, Yihan Jiang, Eunjee Na, Cong Hao(参考訳) dynamic graph neural network (dgnn) は、現実世界の動的特徴のキャプチャに広く使われているため、ますます人気が高まっている。 アルゴリズムの観点から設計された様々な動的グラフニューラルネットワークは、時間情報をグラフ処理に組み込むことに成功した。 有望なアルゴリズム性能にもかかわらず、DGNNをハードウェアにデプロイすることは、モデルの複雑さ、多様性、時間依存性の性質など、さらなる課題をもたらす。 一方、DGNNと静的グラフニューラルネットワークの違いにより、静的グラフニューラルネットワークのハードウェア関連最適化はDGNNには適さない。 本稿では、異なる特性を持つ8種類のdgnnを選択し、cpuとgpuの両方でプロファイルする。 プロファイリングの結果を要約して分析し、ハードウェア上のDGNNのボトルネックを詳細に把握し、将来のDGNNアクセラレーションの潜在的な最適化機会を特定する。 次に,ハードウェアにおけるdgnnパフォーマンスのボトルネックについて,時間的データ依存性,ワークロードの不均衡,データ移動,gpuウォームアップなどの詳細な分析を行う。 我々はソフトウェアとハードウェアの両方の観点からいくつかの最適化を提案する。 本稿では,DGNN Codeのハードウェア性能に関する詳細な分析をhttps://github.com/sharc-lab/DGNN_analysisで公開する。

Dynamic graph neural network (DGNN) is becoming increasingly popular because of its widespread use in capturing dynamic features in the real world. A variety of dynamic graph neural networks designed from algorithmic perspectives have succeeded in incorporating temporal information into graph processing. Despite the promising algorithmic performance, deploying DGNNs on hardware presents additional challenges due to the model complexity, diversity, and the nature of the time dependency. Meanwhile, the differences between DGNNs and static graph neural networks make hardware-related optimizations for static graph neural networks unsuitable for DGNNs. In this paper, we select eight prevailing DGNNs with different characteristics and profile them on both CPU and GPU. The profiling results are summarized and analyzed, providing in-depth insights into the bottlenecks of DGNNs on hardware and identifying potential optimization opportunities for future DGNN acceleration. Followed by a comprehensive survey, we provide a detailed analysis of DGNN performance bottlenecks on hardware, including temporal data dependency, workload imbalance, data movement, and GPU warm-up. We suggest several optimizations from both software and hardware perspectives. This paper is the first to provide an in-depth analysis of the hardware performance of DGNN Code is available at https://github.com/sharc-lab/DGNN_analysis.
翻訳日:2022-10-11 19:25:42 公開日:2022-10-08
# ハードウェア欠陥のあるMIMOシステムにおける信号検出:ニューラルネットワーク上のメッセージパッシング

Signal Detection in MIMO Systems with Hardware Imperfections: Message Passing on Neural Networks ( http://arxiv.org/abs/2210.03911v1 )

ライセンス: Link先を確認
Dawei Gao, Qinghua Guo, Guisheng Liao, Yonina C. Eldar, Yonghui Li, Yanguang Yu, and Branka Vucetic(参考訳) 本稿では,電力増幅器非線形性や位相/量子不均衡といったハードウェア障害を有するマルチ入力多重出力(mimo)通信システムにおける信号検出について検討する。 ハードウェアの不完全性の複雑な複合効果に対処するために、ニューラルネットワーク(nn)技術、特にディープニューラルネットワーク(dnn)は、ハードウェア障害の影響を直接補償するために研究されている。 しかし、パイロット信号が限られているDNNの訓練は困難であり、実用化を妨げている。 そこで本研究では,MIMOシステムにおけるハードウェア不完全性を考慮した効率の良いベイズ信号検出手法について検討する。 複合ハードウェアの不完全な特徴付けはしばしば複雑な信号モデルにつながり、ベイズ信号の検出が困難になる。 この問題に対処するために、まずNNにハードウェア不完全なMIMOシステムを"モデル化"するよう訓練し、訓練されたNNに基づいてベイズ推論を実行する。 MIMO システムを NN でモデル化することにより,MIMO システムの信号フローに基づく NN アーキテクチャの設計が可能となり,NN 層数やパラメータの最小化が可能となった。 次に、学習したNNを因子グラフで表現し、ユニタリ近似メッセージパッシング(UAMP)アルゴリズムを利用して、効率の良いメッセージパッシングに基づくベイズ信号検出器を設計する。 提案するベイズ検出器を用いたターボ受信機の実装についても検討した。 シミュレーション結果から,提案手法は最先端手法よりも極めて優れた性能を示すことが示された。

In this paper, we investigate signal detection in multiple-input-multiple-output (MIMO) communication systems with hardware impairments, such as power amplifier nonlinearity and in-phase/quadrature imbalance. To deal with the complex combined effects of hardware imperfections, neural network (NN) techniques, in particular deep neural networks (DNNs), have been studied to directly compensate for the impact of hardware impairments. However, it is difficult to train a DNN with limited pilot signals, hindering its practical applications. In this work, we investigate how to achieve efficient Bayesian signal detection in MIMO systems with hardware imperfections. Characterizing combined hardware imperfections often leads to complicated signal models, making Bayesian signal detection challenging. To address this issue, we first train an NN to "model" the MIMO system with hardware imperfections and then perform Bayesian inference based on the trained NN. Modelling the MIMO system with NN enables the design of NN architectures based on the signal flow of the MIMO system, minimizing the number of NN layers and parameters, which is crucial to achieving efficient training with limited pilot signals. We then represent the trained NN with a factor graph, and design an efficient message passing based Bayesian signal detector, leveraging the unitary approximate message passing (UAMP) algorithm. The implementation of a turbo receiver with the proposed Bayesian detector is also investigated. Extensive simulation results demonstrate that the proposed technique delivers remarkably better performance than state-of-the-art methods.
翻訳日:2022-10-11 19:25:23 公開日:2022-10-08
# ハードウェア駆動協調最適化によるDNNの低誤差近似乗算器設計

Low Error-Rate Approximate Multiplier Design for DNNs with Hardware-Driven Co-Optimization ( http://arxiv.org/abs/2210.03916v1 )

ライセンス: Link先を確認
Yao Lu, Jide Zhang, Su Zheng, Zhen Li, Lingli Wang(参考訳) 本稿では,2つの近似3*3乗算器を提案し,asap-7nmプロセスライブラリの合成結果から,面積を31.38%,36.17%,消費電力を36.73%,35.66%削減できることを確認した。 それらは2*2乗算器で集約され、DNN重みの分布に基づいて低い誤差率の8*8乗算器を生成する。 ハードウェア駆動型ソフトウェアによる協調最適化手法を提案し,再学習によるDNNの精度向上を図る。 提案する2つの近似3ビット乗算器に基づいて、誤差率の低い近似8ビット乗算器をdnn用に設計する。 正確な8ビット符号なし乗算器と比較すると、我々の設計は公開データセット上の他の近似乗算器よりも大きな利点を得ることができる。

In this paper, two approximate 3*3 multipliers are proposed and the synthesis results of the ASAP-7nm process library justify that they can reduce the area by 31.38% and 36.17%, and the power consumption by 36.73% and 35.66% compared with the exact multiplier, respectively. They can be aggregated with a 2*2 multiplier to produce an 8*8 multiplier with low error rate based on the distribution of DNN weights. We propose a hardware-driven software co-optimization method to improve the DNN accuracy by retraining. Based on the proposed two approximate 3-bit multipliers, three approximate 8-bit multipliers with low error-rate are designed for DNNs. Compared with the exact 8-bit unsigned multiplier, our design can achieve a significant advantage over other approximate multipliers on the public dataset.
翻訳日:2022-10-11 19:24:57 公開日:2022-10-08
# 動的テンソル製品回帰

Dynamic Tensor Product Regression ( http://arxiv.org/abs/2210.03961v1 )

ライセンス: Link先を確認
Aravind Reddy, Zhao Song, Lichen Zhang(参考訳) 本稿では,emph{Dynamic Tensor Product Regression}の研究を開始する。 1つは行列 $a_1\in \mathbb{r}^{n_1\times d_1},\ldots,a_q\in \mathbb{r}^{n_q\times d_q}$ とラベルベクトル $b\in \mathbb{r}^{n_1\ldots n_q}$ を持ち、目的は行列 $a$ を行列 $a_1, a_2, \dots, a_q$ のテンソル積とする回帰問題を解くことである。 各時間ステップで、1つの行列 $a_i$ がスパース変化を受け取り、目標はテンソル積 $a_1\otimes\ldots \otimes a_q$ のスケッチを維持することで、回帰解を迅速に更新できるようにすることである。 ラウンド毎にソリューションをスクラッチから再計算するのは非常に遅いため、新しいデザインマトリックスでソリューションを迅速に更新できるアルゴリズムを開発することが重要である。 我々の主な成果は、動的ツリーデータ構造であり、単一のマトリックスへの更新は、ツリー全体を通して素早く伝播できる。 我々のデータ構造はテンソル積回帰だけでなく、テンソル積スプライン回帰(リッジ回帰の一般化)の動的バージョンを解き、テンソル積の低ランク近似を維持するためにも利用できることを示す。

In this work, we initiate the study of \emph{Dynamic Tensor Product Regression}. One has matrices $A_1\in \mathbb{R}^{n_1\times d_1},\ldots,A_q\in \mathbb{R}^{n_q\times d_q}$ and a label vector $b\in \mathbb{R}^{n_1\ldots n_q}$, and the goal is to solve the regression problem with the design matrix $A$ being the tensor product of the matrices $A_1, A_2, \dots, A_q$ i.e. $\min_{x\in \mathbb{R}^{d_1\ldots d_q}}~\|(A_1\otimes \ldots\otimes A_q)x-b\|_2$. At each time step, one matrix $A_i$ receives a sparse change, and the goal is to maintain a sketch of the tensor product $A_1\otimes\ldots \otimes A_q$ so that the regression solution can be updated quickly. Recomputing the solution from scratch for each round is very slow and so it is important to develop algorithms which can quickly update the solution with the new design matrix. Our main result is a dynamic tree data structure where any update to a single matrix can be propagated quickly throughout the tree. We show that our data structure can be used to solve dynamic versions of not only Tensor Product Regression, but also Tensor Product Spline regression (which is a generalization of ridge regression) and for maintaining Low Rank Approximations for the tensor product.
翻訳日:2022-10-11 19:24:42 公開日:2022-10-08
# 競合強度の順序的潜在変数モデル

An Ordinal Latent Variable Model of Conflict Intensity ( http://arxiv.org/abs/2210.03971v1 )

ライセンス: Link先を確認
Niklas Stoehr, Lucas Torroba Hennigen, Josef Valvoda, Robert West, Ryan Cotterell, Aaron Schein(参考訳) 国際関係の定量的なモニタリングのために、政治イベントはニュースから抽出され、「全体」パターンに解析される。 この結果、分析に集約統計を必要とする大規模なデータ収集が実現した。 ゴールドスタインスケール(Goldstein Scale)は、専門家による尺度で、個々の事象を1次元のスケールで比較する尺度である。 しかし、このスケールは死亡者数や加害者、被害者の種類を無視している。 この情報は一般的に質的な紛争評価において考慮される。 この制限に対処するために、我々はイベントに関連する全主語-述語-量化子-オブジェクトタプルに対する確率的生成モデルを提案する。 コンフリクト強度を、コンフリクトの事象タイプと高い死亡率を関連付ける解釈可能な順序的潜在変数として扱う。 ベイズ的アプローチをとると、データから衝突強度スケールを学び、最適な強度クラス数を見つける。 欠落したデータを入力してモデルを評価する。 私たちのスケールは、自己回帰的な予測と、武力紛争に対するグローバルなオンラインの注意と比較して、オリジナルのgoldsteinスケールよりも有益であることが証明されます。

For the quantitative monitoring of international relations, political events are extracted from the news and parsed into "who-did-what-to-whom" patterns. This has resulted in large data collections which require aggregate statistics for analysis. The Goldstein Scale is an expert-based measure that ranks individual events on a one-dimensional scale from conflictual to cooperative. However, the scale disregards fatality counts as well as perpetrator and victim types involved in an event. This information is typically considered in qualitative conflict assessment. To address this limitation, we propose a probabilistic generative model over the full subject-predicate-quantifier-object tuples associated with an event. We treat conflict intensity as an interpretable, ordinal latent variable that correlates conflictual event types with high fatality counts. Taking a Bayesian approach, we learn a conflict intensity scale from data and find the optimal number of intensity classes. We evaluate the model by imputing missing data. Our scale proves to be more informative than the original Goldstein Scale in autoregressive forecasting and when compared with global online attention towards armed conflicts.
翻訳日:2022-10-11 19:23:58 公開日:2022-10-08
# 磁場を用いたボール・ソケット関節ポーズ推定

Ball-and-socket joint pose estimation using magnetic field ( http://arxiv.org/abs/2210.03984v1 )

ライセンス: Link先を確認
Tai Hoang, Alona Kharchenko, Simon Trendel, Rafael Hostettler(参考訳) Roboy 3.0は、人体の筋骨格系を模倣するオープンソースの腱駆動型ヒューマノイドロボットである。 Roboy 3.0は、人間が遠隔での身体的プレゼンスを達成するための、リモートロボット体(またはロボットアバター)として開発されている。 人工筋肉と腱は、3自由度首、肩、手首の形状によく似ている。 Roboy 3.0 3DoFジョイントはボール・アンド・ソケットジョイントとして実装されている。 業界は1-DoFジョイントポーズセンシングの明確なソリューションを提供しているが、ボールとソケットのジョイントタイプには当てはまらない。 本稿では,ボール・ソケット接合部のポーズを推定するカスタムソリューションを提案する。 磁石の配列をボールに埋め込み、3d磁気センサの配列をソケットに埋め込む。 そして、関節回転に伴う磁場の変化に基づいて、関節の向きを推定することができる。 LSTMとDVBFのようなベイズフィルタを用いた2つのニューラルネットワーク手法の性能評価を行った。 その結果, 平均二乗誤差(MSE)を達成するためには, DVBFはLSTMよりも時間トレーニングやハイパーパラメータチューニングが有意に必要であり, DVBFはセンサノイズに対処できることがわかった。 どちらの手法も37Hzでリアルタイムに関節ポーズを推定でき、MSEは約0.03 radで3つの自由度を組み合わせられる。 LSTMモデルは、Roboy 3.0の肩関節と首関節の関節ポーズ推定に使用され、使用される。 ソフトウェア実装とPCB設計はhttps://github.com/Roboy/ball_and_socket_estimatorでオープンソース化されている。

Roboy 3.0 is an open-source tendon-driven humanoid robot that mimics the musculoskeletal system of the human body. Roboy 3.0 is being developed as a remote robotic body - or a robotic avatar - for humans to achieve remote physical presence. Artificial muscles and tendons allow it to closely resemble human morphology with 3-DoF neck, shoulders and wrists. Roboy 3.0 3-DoF joints are implemented as ball-and-socket joints. While industry provides a clear solution for 1-DoF joint pose sensing, it is not the case for the ball-and-socket joint type. In this paper we present a custom solution to estimate the pose of a ball-and-socket joint. We embed an array of magnets into the ball and an array of 3D magnetic sensors into the socket. We then, based on the changes in the magnetic field as the joint rotates, are able to estimate the orientation of the joint. We evaluate the performance of two neural network approaches using the LSTM and Bayesian-filter like DVBF. Results show that in order to achieve the same mean square error (MSE) DVBFs require significantly more time training and hyperparameter tuning compared to LSTMs, while DVBF cope with sensor noise better. Both methods are capable of real-time joint pose estimation at 37 Hz with MSE of around 0.03 rad for all three degrees of freedom combined. The LSTM model is deployed and used for joint pose estimation of Roboy 3.0's shoulder and neck joints. The software implementation and PCB designs are open-sourced under https://github.com/Roboy/ball_and_socket_estimator
翻訳日:2022-10-11 19:23:33 公開日:2022-10-08
# トラヒック物体検出のための検出ヘッド構成の再考

Rethinking the Detection Head Configuration for Traffic Object Detection ( http://arxiv.org/abs/2210.03883v1 )

ライセンス: Link先を確認
Yi Shi, Jiang Wu, Shixuan Zhao, Gangyao Gao, Tao Deng and Hongmei Yan(参考訳) オブジェクト検出モデルでは,マルチスケール検出が重要な役割を果たす。 しかし、研究者は通常、異なる入力解像度のマルチスケール特徴を組み合わせた検出ヘッドを合理的に設定する方法について空白を感じている。 オブジェクト分布と検出ヘッドの間に異なる一致関係が、異なる入力解像度で存在することがわかった。 そこで本研究では,MHD-Netと呼ばれる検出ヘッドとオブジェクト分布のマッチングに基づく,軽量なトラフィックオブジェクト検出ネットワークを提案する。 主に3つの部分からなる。 ひとつは検出ヘッドとオブジェクト分散マッチング戦略で、検出ヘッドの合理的な構成を導くことで、マルチスケール機能を活用して、非常に異なるスケールでオブジェクトを効果的に検出する。 2つ目は、複数の検出ヘッドをリッチな特徴表現を持つ2つの検出ヘッドのみに置き換えて、検出精度、モデルパラメータ、FLOP、検出速度のバランスを良くするクロススケール検出ヘッド構成ガイドラインである。 3つ目はレセプティブ・フィールド拡大法であり、拡張畳み込みモジュールとbackboneの浅い特徴を組み合わせることで、モデルパラメータを非常にわずかに増加させるコストで検出精度をさらに向上させる。 提案したモデルでは,BDD100Kデータセットと提案したETFOD-v2データセットの他のモデルよりも高い競争性能を実現している。 コードは利用可能だ。

Multi-scale detection plays an important role in object detection models. However, researchers usually feel blank on how to reasonably configure detection heads combining multi-scale features at different input resolutions. We find that there are different matching relationships between the object distribution and the detection head at different input resolutions. Based on the instructive findings, we propose a lightweight traffic object detection network based on matching between detection head and object distribution, termed as MHD-Net. It consists of three main parts. The first is the detection head and object distribution matching strategy, which guides the rational configuration of detection head, so as to leverage multi-scale features to effectively detect objects at vastly different scales. The second is the cross-scale detection head configuration guideline, which instructs to replace multiple detection heads with only two detection heads possessing of rich feature representations to achieve an excellent balance between detection accuracy, model parameters, FLOPs and detection speed. The third is the receptive field enlargement method, which combines the dilated convolution module with shallow features of backbone to further improve the detection accuracy at the cost of increasing model parameters very slightly. The proposed model achieves more competitive performance than other models on BDD100K dataset and our proposed ETFOD-v2 dataset. The code will be available.
翻訳日:2022-10-11 19:07:46 公開日:2022-10-08
# LW-ISP:ISPとディープラーニングを備えた軽量モデル

LW-ISP: A Lightweight Model with ISP and Deep Learning ( http://arxiv.org/abs/2210.03904v1 )

ライセンス: Link先を確認
Hongyang Chen and Kaisheng Ma(参考訳) 低レベルタスクのディープラーニング(DL)ベースの手法は、ハードウェアの見通し、エラーの蓄積、撮像効果の観点から、従来のカメラよりも多くの利点がある。 近年,画像信号処理(ISP)パイプラインを置き換えるためのディープラーニングの応用が相次いでいるが,実際の着陸にはまだまだ長い道のりがある。 本稿では,ISPパイプラインにおけるリアルタイム高速処理を実現する学習手法の可能性を示す。 RAWデータからRGB画像へのイメージマッピングを暗黙的に学習する新しいアーキテクチャであるLW-ISPを提案する。 U-Netアーキテクチャに基づいて,低レベルタスクに適した細粒度アテンションモジュールとプラグアンドプレイアップサンプリングブロックを提案する。 特に,学生モデルの学習を導くために,クリーン画像の暗黙的特徴と再構成情報を蒸留するために不均一蒸留アルゴリズムを設計する。 実験の結果、lw-ispは従来の最良法に比べて0.38db改善を達成し、モデルパラメータと計算は23倍81倍短縮された。 推論効率は少なくとも15倍加速している。 ベルやホイッスルがなければ、LW-ISPは画像のデノゲーションやエンハンスメントを含むISPサブタスクにおいて、非常に競争力のある結果を得た。

The deep learning (DL)-based methods of low-level tasks have many advantages over the traditional camera in terms of hardware prospects, error accumulation and imaging effects. Recently, the application of deep learning to replace the image signal processing (ISP) pipeline has appeared one after another; however, there is still a long way to go towards real landing. In this paper, we show the possibility of learning-based method to achieve real-time high-performance processing in the ISP pipeline. We propose LW-ISP, a novel architecture designed to implicitly learn the image mapping from RAW data to RGB image. Based on U-Net architecture, we propose the fine-grained attention module and a plug-and-play upsampling block suitable for low-level tasks. In particular, we design a heterogeneous distillation algorithm to distill the implicit features and reconstruction information of the clean image, so as to guide the learning of the student model. Our experiments demonstrate that LW-ISP has achieved a 0.38 dB improvement in PSNR compared to the previous best method, while the model parameters and calculation have been reduced by 23 times and 81 times. The inference efficiency has been accelerated by at least 15 times. Without bells and whistles, LW-ISP has achieved quite competitive results in ISP subtasks including image denoising and enhancement.
翻訳日:2022-10-11 19:07:24 公開日:2022-10-08
# 触覚センシングによる手指物体の一般的な6次元ポーズ追跡の強化

Enhancing Generalizable 6D Pose Tracking of an In-Hand Object with Tactile Sensing ( http://arxiv.org/abs/2210.04026v1 )

ライセンス: Link先を確認
Xiaomeng Xu, Yun Liu, Weihang Chen, Haocheng Yuan, He Wang, Jing Xu, Rui Chen, Li Yi(参考訳) オブジェクトを保持し、操作しながら、人間はオブジェクトを視覚を通して追跡し、複雑なタスクを達成するためにタッチする。 しかし、現在ではロボット研究の大多数が視覚信号のみから物体の状態を認識しており、ロボット操作能力を大幅に制限している。 この研究は、以前に見つからなかった手動物体を追跡するために、TAG-Trackという触覚で拡張可能な6Dポーズトラッキング設計を提示した。 TEG-Trackは連続した触覚センシング信号から手動物体の触覚的キューを抽出する。 このようなヒントは、既存の一般化可能なビジュアルトラッカーを強化する幾何学的運動最適化スキームに組み込まれている。 本手法を実際のシナリオでテストし,汎用的な視覚触覚追跡に関する今後の研究を可能にするために,実際の視覚触覚物体ポーズ追跡データセットを収集する。 実験により, TEG-Trackは, 合成と実の両方で, 最先端の一般化可能な6Dポーズトラッカーを大幅に改善することが示された。

While holding and manipulating an object, humans track the object states through vision and touch so as to achieve complex tasks. However, nowadays the majority of robot research perceives object states just from visual signals, hugely limiting the robotic manipulation abilities. This work presents a tactile-enhanced generalizable 6D pose tracking design named TEG-Track to track previously unseen in-hand objects. TEG-Track extracts tactile kinematic cues of an in-hand object from consecutive tactile sensing signals. Such cues are incorporated into a geometric-kinematic optimization scheme to enhance existing generalizable visual trackers. To test our method in real scenarios and enable future studies on generalizable visual-tactile tracking, we collect a real visual-tactile in-hand object pose tracking dataset. Experiments show that TEG-Track significantly improves state-of-the-art generalizable 6D pose trackers in both synthetic and real cases.
翻訳日:2022-10-11 19:07:04 公開日:2022-10-08
# 運動場と表面正常者の視覚ローミング

Visual Looming from Motion Field and Surface Normals ( http://arxiv.org/abs/2210.04108v1 )

ライセンス: Link先を確認
Juan Yepes and Daniel Raviv(参考訳) ルーミングは伝統的にオブザーバーの網膜における物体の相対的膨張として定義されており、脅威の知覚のための基本的な視覚的な手がかりであり、衝突のない航行を達成するために使用できる。 本稿では,3次元の局所面に対する観察者の6自由度運動から生じる2次元運動場から定量的に視角を得るための新しい解を得る。 また,視力低下と表面正常との関係も示した。 そこで本研究では,光流れの空間微分から距離を知ることなく視覚の略奪を推定する新しい手法を提案する。 シミュレーションの結果,地すべり推定は地すべり推定に非常に近いことが示唆された。 さらに,KITTIデータセットの実際のデータを用いた視覚的略奪の結果を示す。 手法の利点や限界についても論じる。

Looming, traditionally defined as the relative expansion of objects in the observer's retina, is a fundamental visual cue for perception of threat and can be used to accomplish collision free navigation. In this paper we derive novel solutions for obtaining visual looming quantitatively from the 2D motion field resulting from a six-degree-of-freedom motion of an observer relative to a local surface in 3D. We also show the relationship between visual looming and surface normals. We present novel methods to estimate visual looming from spatial derivatives of optical flow without the need for knowing range. Simulation results show that estimations of looming are very close to ground truth looming under some assumptions of surface orientations. In addition, we present results of visual looming using real data from the KITTI dataset. Advantages and limitations of the methods are discussed as well.
翻訳日:2022-10-11 19:06:51 公開日:2022-10-08
# ディープラーニングによる非平衡軌道の計算

Computing non-equilibrium trajectories by a deep learning approach ( http://arxiv.org/abs/2210.04042v1 )

ライセンス: Link先を確認
Eric Simonnet(参考訳) 複雑な系における稀かつ極端な事象の発生を予測することは、非平衡物理学においてよく知られた問題である。 これらの出来事は人類社会に大きな影響を与える可能性がある。 過去10年間に新たなアプローチが登場し、テール分布の推定が向上した。 彼らはしばしば、重い直接アンサンブルシミュレーションを行うことなく大きな偏差の概念を使用する。 特によく知られたアプローチは、最小の行動原理を導出し、その最小値を見つけることである。 詳細なバランスのない非平衡系における稀な反応性事象の解析は理論上も計算上も難しい。 これらはfreidlin-wentzell作用によって小さなノイズの限界に記述される。 本稿では,ニューラルネットワークを用いた幾何作用を最小化する新しい手法であるdeep gmamを提案する。 これは古典的なgMAMアプローチの自然で単純な機械学習の定式化に依存している。 提案手法の詳細な説明に加えて,多くの例を挙げる。 これには複素確率(部分)微分方程式における双モーダルスイッチ、準ポテンシャル推定、バーガー乱流における極端な事象が含まれる。

Predicting the occurence of rare and extreme events in complex systems is a well-known problem in non-equilibrium physics. These events can have huge impacts on human societies. New approaches have emerged in the last ten years, which better estimate tail distributions. They often use large deviation concepts without the need to perform heavy direct ensemble simulations. In particular, a well-known approach is to derive a minimum action principle and to find its minimizers. The analysis of rare reactive events in non-equilibrium systems without detailed balance is notoriously difficult either theoretically and computationally. They are described in the limit of small noise by the Freidlin-Wentzell action. We propose here a new method which minimizes the geometrical action instead using neural networks: it is called deep gMAM. It relies on a natural and simple machine-learning formulation of the classical gMAM approach. We give a detailed description of the method as well as many examples. These include bimodal switches in complex stochastic (partial) differential equations, quasi-potential estimates, and extreme events in Burgers turbulence.
翻訳日:2022-10-11 18:58:00 公開日:2022-10-08
# セマンティックマスク世界モデルによるエンドツーエンドの都市自律走行のサンプル効率とロバスト性

Enhance Sample Efficiency and Robustness of End-to-end Urban Autonomous Driving via Semantic Masked World Model ( http://arxiv.org/abs/2210.04017v1 )

ライセンス: Link先を確認
Zeyu Gao, Yao Mu, Ruoyan Shen, Chen Chen, Yangang Ren, Jianyu Chen, Shengbo Eben Li, Ping Luo, Yanfeng Lu(参考訳) エンドツーエンドの自動運転は、前面カメラからの生のピクセルを制御信号に直接マッピングすることで、運転システム全体の性能を最大化することができる。 最近の高度な手法は、高次元の観測をコンパクトな潜在空間にマッピングする潜在世界モデルを構築している。 しかし、従来の研究で提案された世界モデルに埋め込まれた潜伏状態には、大量のタスク関連情報が含まれており、サンプリング効率が低く、入力摂動に対する堅牢性が低い。 一方、トレーニングデータ分布は、通常不均衡であり、学習されたポリシーは、運転中のコーナーケースに対処するのは難しい。 上記の課題を解決するために,有意なタスク関連特徴を抽出し,フィルタ機能を介して意味マスクを再構築する潜時フィルタを導入したセマンティックマスク再帰世界モデル(SEM2)を提案し,共通データと複数のコーナーケースデータを単一のバッチで集約し,データ分散のバランスをとるマルチソースデータサンプリング器を用いて訓練を行った。 CARLAの広範囲な実験により,本手法はサンプル効率と入力順列に対する堅牢性の観点から,最先端の手法よりも優れていることが示された。

End-to-end autonomous driving provides a feasible way to automatically maximize overall driving system performance by directly mapping the raw pixels from a front-facing camera to control signals. Recent advanced methods construct a latent world model to map the high dimensional observations into compact latent space. However, the latent states embedded by the world model proposed in previous works may contain a large amount of task-irrelevant information, resulting in low sampling efficiency and poor robustness to input perturbations. Meanwhile, the training data distribution is usually unbalanced, and the learned policy is hard to cope with the corner cases during the driving process. To solve the above challenges, we present a semantic masked recurrent world model (SEM2), which introduces a latent filter to extract key task-relevant features and reconstruct a semantic mask via the filtered features, and is trained with a multi-source data sampler, which aggregates common data and multiple corner case data in a single batch, to balance the data distribution. Extensive experiments on CARLA show that our method outperforms the state-of-the-art approaches in terms of sample efficiency and robustness to input permutations.
翻訳日:2022-10-11 18:33:01 公開日:2022-10-08
# マルチタスク動的システム

Multi-Task Dynamical Systems ( http://arxiv.org/abs/2210.04023v1 )

ライセンス: Link先を確認
Alex Bird, Christopher K. I. Williams, Christopher Hawthorne(参考訳) 時系列データセットは、しばしば同じドメインから、個人、製品、組織などの異なるエンティティから、様々なシーケンスで構成されている。 時系列モデルが個々のシーケンス(特定の特徴をキャプチャする)にどのように特化できるかに興味を持ちながら、シーケンス間で共通性を共有することで統計力を保っている。 本稿では,マルチタスク学習(MTL)を時系列モデルに拡張する一般的な手法であるMTDSについて述べる。 提案手法は,すべてのモデルパラメータを変調可能な階層型潜在変数の集合を動的システムに提供する。 我々の知る限りでは、これはMTLの新たな発展であり、入力を制御せずに時系列に適用される。 MTDSをマルチタスクリカレントニューラルネットワーク(RNN)を用いて歩く人々のモーションキャプチャーデータに適用し,マルチタスク薬理力学モデルを用いた患者薬物応答データに適用した。

Time series datasets are often composed of a variety of sequences from the same domain, but from different entities, such as individuals, products, or organizations. We are interested in how time series models can be specialized to individual sequences (capturing the specific characteristics) while still retaining statistical power by sharing commonalities across the sequences. This paper describes the multi-task dynamical system (MTDS); a general methodology for extending multi-task learning (MTL) to time series models. Our approach endows dynamical systems with a set of hierarchical latent variables which can modulate all model parameters. To our knowledge, this is a novel development of MTL, and applies to time series both with and without control inputs. We apply the MTDS to motion-capture data of people walking in various styles using a multi-task recurrent neural network (RNN), and to patient drug-response data using a multi-task pharmacodynamic model.
翻訳日:2022-10-11 18:32:38 公開日:2022-10-08
# メモリ使用量最小化によるリアルタイムDNN推論のためのデマンド層化

Demand Layering for Real-Time DNN Inference with Minimized Memory Usage ( http://arxiv.org/abs/2210.04024v1 )

ライセンス: Link先を確認
Mingoo Ji, Saehanseul Yi, Changjin Koo, Sol Ahn, Dongjoo Seo, Nikil Dutt, Jong-Chan Kim(参考訳) ディープニューラルネットワーク(dnn)を実行すると、そのモデルパラメータが実行前にgpuメモリにロードされ、gpuメモリの負荷が大幅に増大する。 スワップデバイスとしてCPUメモリを活用することにより、GPUメモリ使用量を削減する研究がある。 しかし、このアプローチは、CPUとGPUが共通のメモリを共有する統合GPUを持つほとんどの組み込みシステムでは適用できない。 本稿では,gpuの共同実行パートナーとして高速ソリッドステートドライブ(ssd)を採用し,dnnの層別実行を活用した需要階層化について述べる。 本手法では,DNNを層単位でロード・実行し,メモリ使用量を単一層の順に最小化する。 また,層実行に伴うインターリーブされたパラメータローディングによる遅延のほとんどを隠蔽するパイプラインアーキテクチャも開発した。 我々の実装では、96.5%のメモリ削減と、代表的DNNの平均遅延オーバーヘッドが14.8%であった。 さらに、メモリ遅延トレードオフを利用することで、若干のメモリ使用量の増加(88.4%削減されたまま)で、ほぼゼロの遅延オーバーヘッド(1ミリ秒未満)を実現できる。

When executing a deep neural network (DNN), its model parameters are loaded into GPU memory before execution, incurring a significant GPU memory burden. There are studies that reduce GPU memory usage by exploiting CPU memory as a swap device. However, this approach is not applicable in most embedded systems with integrated GPUs where CPU and GPU share a common memory. In this regard, we present Demand Layering, which employs a fast solid-state drive (SSD) as a co-running partner of a GPU and exploits the layer-by-layer execution of DNNs. In our approach, a DNN is loaded and executed in a layer-by-layer manner, minimizing the memory usage to the order of a single layer. Also, we developed a pipeline architecture that hides most additional delays caused by the interleaved parameter loadings alongside layer executions. Our implementation shows a 96.5% memory reduction with just 14.8% delay overhead on average for representative DNNs. Furthermore, by exploiting the memory-delay tradeoff, near-zero delay overhead (under 1 ms) can be achieved with a slightly increased memory usage (still an 88.4% reduction), showing the great potential of Demand Layering.
翻訳日:2022-10-11 18:32:22 公開日:2022-10-08
# バイレベル最適化によるモデルプルーニングの進展

Advancing Model Pruning via Bi-level Optimization ( http://arxiv.org/abs/2210.04092v1 )

ライセンス: Link先を確認
Yihua Zhang, Yuguang Yao, Parikshit Ram, Pu Zhao, Tianlong Chen, Mingyi Hong, Yanzhi Wang, Sijia Liu(参考訳) 実用アプリケーションにおけるデプロイメントの制約は、大規模なディープラーニングモデル、すなわち重量空間の促進を必要とする。 Lottery Ticket hypothesis (LTH)で説明されているように、プルーニングもまた一般化能力を改善する可能性がある。 LTHの中核にあるイテレーティブ・マグニチュード・プルーニング(IMP)は、「勝利のチケット」を見つけるのに成功しているプルーニング法である。 しかし、ターゲットプルーニング比が増加するにつれてIMPの計算コストは著しく増大する。 計算オーバーヘッドを低減するために、様々な効率的な「ワンショット」プルーニング手法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。 これは、プルーニング精度とプルーニング効率のギャップをいかに埋めるかという疑問を提起する。 そこで我々は,モデルプルーニングのアルゴリズムの進歩を追求する。 具体的には、新鮮で新しい2段階最適化(BLO)の観点からプルーニング問題を定式化する。 我々は,BLO解釈がIMPで使用されるプルーニング訓練学習パラダイムの効率的な実装のための技術的基盤となることを示す。 また,提案手法であるbi-level optimization-oriented pruning method (bip) は,双線形問題構造を持つblo問題の特殊クラスであることを示す。 このような双線型性を利用して、理論上BiPが一階最適化と同じくらい容易に解けることを示し、計算効率を継承する。 5つのモデルアーキテクチャと4つのデータセットによる構造化プルーニングと非構造化プルーニングの両方に関する広範な実験を通じて、BiPがIMPよりも優れた当選チケットを得られることを示し、同じモデルの精度と疎度でIMPよりも2-7倍のスピードアップを示した。

The deployment constraints in practical applications necessitate the pruning of large-scale deep learning models, i.e., promoting their weight sparsity. As illustrated by the Lottery Ticket Hypothesis (LTH), pruning also has the potential of improving their generalization ability. At the core of LTH, iterative magnitude pruning (IMP) is the predominant pruning method to successfully find 'winning tickets'. Yet, the computation cost of IMP grows prohibitively as the targeted pruning ratio increases. To reduce the computation overhead, various efficient 'one-shot' pruning methods have been developed, but these schemes are usually unable to find winning tickets as good as IMP. This raises the question of how to close the gap between pruning accuracy and pruning efficiency? To tackle it, we pursue the algorithmic advancement of model pruning. Specifically, we formulate the pruning problem from a fresh and novel viewpoint, bi-level optimization (BLO). We show that the BLO interpretation provides a technically-grounded optimization base for an efficient implementation of the pruning-retraining learning paradigm used in IMP. We also show that the proposed bi-level optimization-oriented pruning method (termed BiP) is a special class of BLO problems with a bi-linear problem structure. By leveraging such bi-linearity, we theoretically show that BiP can be solved as easily as first-order optimization, thus inheriting the computation efficiency. Through extensive experiments on both structured and unstructured pruning with 5 model architectures and 4 data sets, we demonstrate that BiP can find better winning tickets than IMP in most cases, and is computationally as efficient as the one-shot pruning schemes, demonstrating 2-7 times speedup over IMP for the same level of model accuracy and sparsity.
翻訳日:2022-10-11 18:32:00 公開日:2022-10-08
# リアルタイム時間グラフ学習に向けて

Towards Real-Time Temporal Graph Learning ( http://arxiv.org/abs/2210.04114v1 )

ライセンス: Link先を確認
Deniz Gurevin, Mohsin Shan, Tong Geng, Weiwen Jiang, Caiwen Ding and Omer Khan(参考訳) 近年,グラフ表現学習が盛んになり,グラフの特徴を捉えたノード埋め込みの生成が目指されている。 これを実現する方法の1つは、ランダムウォークと呼ばれるテクニックを使用して、グラフ内のノードシーケンスをキャプチャし、Word2Vecと呼ばれる自然言語処理技術を使用して各ノードの埋め込みを学習する。 これらの埋め込みは、リンク予測やノード分類といった分類タスクのためのグラフデータの深層学習に使用される。 事前の作業は、事前収集されたテンポラリグラフデータで動作し、グラフの更新をリアルタイムに処理するように設計されていない。 実世界のグラフは動的に変化し、その時間更新全体が事前に利用できない。 本稿では、時間グラフ構築を行い、低次元ノード埋め込みを生成し、オンライン環境で多層ニューラルネットワークモデルを訓練するエンドツーエンドグラフ学習パイプラインを提案する。 ニューラルネットワークモデルのトレーニングは、多くのシーケンシャルに連結された低次元カーネル上で繰り返し行列演算を行うため、主なパフォーマンスボトルネックとして認識される。 モデルトレーニングの性能を高めるために,これらの低次元カーネルの微細粒並列性を解き放つことを提案する。

In recent years, graph representation learning has gained significant popularity, which aims to generate node embeddings that capture features of graphs. One of the methods to achieve this is employing a technique called random walks that captures node sequences in a graph and then learns embeddings for each node using a natural language processing technique called Word2Vec. These embeddings are then used for deep learning on graph data for classification tasks, such as link prediction or node classification. Prior work operates on pre-collected temporal graph data and is not designed to handle updates on a graph in real-time. Real world graphs change dynamically and their entire temporal updates are not available upfront. In this paper, we propose an end-to-end graph learning pipeline that performs temporal graph construction, creates low-dimensional node embeddings, and trains multi-layer neural network models in an online setting. The training of the neural network models is identified as the main performance bottleneck as it performs repeated matrix operations on many sequentially connected low-dimensional kernels. We propose to unlock fine-grain parallelism in these low-dimensional kernels to boost performance of model training.
翻訳日:2022-10-11 18:31:30 公開日:2022-10-08
# 適応サンプリングを用いた高精度小型モデル

Accurate Small Models using Adaptive Sampling ( http://arxiv.org/abs/2210.03921v1 )

ライセンス: Link先を確認
Abhishek Ghose(参考訳) テストデータと同じ分布からトレーニングデータを描画するのではなく、異なるトレーニング分布を学習することで、特に小さなモデルサイズで精度が向上することが多い。 これにより、解釈可能性やリソース制約のある環境に魅力的な、正確な小さなモデルを構築することができる。 ここでは、この原理が一般的かつ効果的であることを実証的に示し、タスク/モデルファミリにまたがって使用することができ、従来のモデルの予測精度を専門技術と競合する程度に向上させることができる。 私たちが考えるタスクは、クラスタ化とプロトタイプベースの分類です。 また,木数や樹当たりの最大深さなど,複数のサイズの制約に対応するために,この原則がどのように適用されるかを説明するために,ランダムな森林についても検討する。 複数のデータセットを用いた結果が示され、統計的に有意であることが示されている。

We highlight the utility of a certain property of model training: instead of drawing training data from the same distribution as test data, learning a different training distribution often improves accuracy, especially at small model sizes. This provides a way to build accurate small models, which are attractive for interpretability and resource-constrained environments. Here we empirically show that this principle is both general and effective: it may be used across tasks/model families, and it can augment prediction accuracy of traditional models to the extent they are competitive with specialized techniques. The tasks we consider are explainable clustering and prototype-based classification. We also look at Random Forests to illustrate how this principle may be applied to accommodate multiple size constraints, e.g., number of trees and maximum depth per tree. Results using multiple datasets are presented and are shown to be statistically significant.
翻訳日:2022-10-11 18:22:47 公開日:2022-10-08
# APE: 事前学習したエンコーダを素早く学習する

APE: Aligning Pretrained Encoders to Quickly Learn Aligned Multimodal Representations ( http://arxiv.org/abs/2210.03927v1 )

ライセンス: Link先を確認
Elan Rosenfeld, Preetum Nakkiran, Hadi Pouransari, Oncel Tuzel, Fartash Faghri(参考訳) 近年の学習指向型マルチモーダル表現の進歩は、大規模でノイズの多いペアモダリティデータセット上での大規模ニューラルネットワークのトレーニングが中心となっている。 本研究では、トレーニング時間とデータを大幅に減らして、同様の結果が得られるかどうかを問う。 我々は、既存の訓練済みの単調エンコーダと、下流の関心事に関連するアライメントデータの慎重なキュレーションを生かして、これを実現する。 我々は,既存のエンコーダを小さな補助関数で整列させる自然なアプローチについて検討し,この手法が多くの設定において,オーバーフィッティングやトレーニングコストの低減,分散シフトへのロバスト性に富む一方で,アートの状態(あるいはより優れた状態)と競合することを見出した。 適切に選択されたアライメント分布により,imagenet zero-shot分類の精度は,2桁の時間とデータを用いながら,前回より77%少ないパラメータをトレーニングした。

Recent advances in learning aligned multimodal representations have been primarily driven by training large neural networks on massive, noisy paired-modality datasets. In this work, we ask whether it is possible to achieve similar results with substantially less training time and data. We achieve this by taking advantage of existing pretrained unimodal encoders and careful curation of alignment data relevant to the downstream task of interest. We study a natural approach to aligning existing encoders via small auxiliary functions, and we find that this method is competitive with (or outperforms) state of the art in many settings while being less prone to overfitting, less costly to train, and more robust to distribution shift. With a properly chosen alignment distribution, our method surpasses prior state of the art for ImageNet zero-shot classification on public data while using two orders of magnitude less time and data and training 77% fewer parameters.
翻訳日:2022-10-11 18:22:32 公開日:2022-10-08
# Asymptotically unbiased Instance-wise regularized partial AUC Optimization: Theory and Algorithm

Asymptotically Unbiased Instance-wise Regularized Partial AUC Optimization: Theory and Algorithm ( http://arxiv.org/abs/2210.03967v1 )

ライセンス: Link先を確認
Huiyang Shao, Qianqian Xu, Zhiyong Yang, Shilong Bao, Qingming Huang(参考訳) ROC曲線下の部分領域(PAUC)は、一方向部分AUC(OPAUC)と二方向部分AUC(TPAUC)を含み、決定制約を考慮しなければならない場合に広く採用されている、特定の偽正のレートおよび/または真正のレート間隔内のバイナリ分類器の平均性能を測定する。 その結果,ここ数年でPAUC最適化が機械学習コミュニティの注目を集めている。 それでも、既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。 幸いなことに、最近の研究は分布的ロバスト最適化によるpauc最適化問題の偏りのない定式化を示している。 しかしながら、これは、特にtpaucのスケーラビリティの制限されたw.r.t.サンプルサイズと収束速度の遅いaucのペアワイズな定式化に基づいている。 この問題に対処するため, 漸近的に偏りのない事例的手法で, 問題を単純化する手法を提案する。 OPAUC と TPAUC の双方に対して、インスタンスワイズ関数の極小正規化問題を非凸的に包含する。 これに加えて、効率的な解法は、サンプルサイズと時間複雑度$O(\epsilon^{-1/3})$の線形パーイテレーション計算複雑性を楽しみ、$\epsilon$定常点に達する。 さらに,ミニマックスの修正は,一般化誤差を副生成物として理論的解析を促進することも見出した。 既存の結果と比較すると、より容易に証明でき、実数値出力の仮説に対処できる新しい誤差境界が提示される。 最後に,いくつかのベンチマークデータセットにおける広範囲な実験を行い,本手法の有効性を実証した。

The Partial Area Under the ROC Curve (PAUC), typically including One-way Partial AUC (OPAUC) and Two-way Partial AUC (TPAUC), measures the average performance of a binary classifier within a specific false positive rate and/or true positive rate interval, which is a widely adopted measure when decision constraints must be considered. Consequently, PAUC optimization has naturally attracted increasing attention in the machine learning community within the last few years. Nonetheless, most of the existing methods could only optimize PAUC approximately, leading to inevitable biases that are not controllable. Fortunately, a recent work presents an unbiased formulation of the PAUC optimization problem via distributional robust optimization. However, it is based on the pair-wise formulation of AUC, which suffers from the limited scalability w.r.t. sample size and a slow convergence rate, especially for TPAUC. To address this issue, we present a simpler reformulation of the problem in an asymptotically unbiased and instance-wise manner. For both OPAUC and TPAUC, we come to a nonconvex strongly concave minimax regularized problem of instance-wise functions. On top of this, we employ an efficient solver enjoys a linear per-iteration computational complexity w.r.t. the sample size and a time-complexity of $O(\epsilon^{-1/3})$ to reach a $\epsilon$ stationary point. Furthermore, we find that the minimax reformulation also facilitates the theoretical analysis of generalization error as a byproduct. Compared with the existing results, we present new error bounds that are much easier to prove and could deal with hypotheses with real-valued outputs. Finally, extensive experiments on several benchmark datasets demonstrate the effectiveness of our method.
翻訳日:2022-10-11 18:22:11 公開日:2022-10-08
# エクストリーム・マルチラベル学習に関する調査研究

A Survey on Extreme Multi-label Learning ( http://arxiv.org/abs/2210.03968v1 )

ライセンス: Link先を確認
Tong Wei, Zhen Mao, Jiang-Xin Shi, Yu-Feng Li, Min-Ling Zhang(参考訳) マルチレーベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。 既存のマルチラベル学習アルゴリズムは様々なタスクで優れた性能を達成しているが、ターゲットラベル空間のサイズは巨大ではないと暗黙的に仮定しており、現実のシナリオでは制限される可能性がある。 さらに、計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。 そのため、eXtreme Multi-label Learning (XML) は重要な課題となり、多くの効果的なアプローチが提案されている。 XMLを十分に理解するために,本稿では調査研究を行う。 まず,教師あり学習の観点からxmlの形式的定義を明らかにする。 そして、異なるモデルアーキテクチャと問題の課題に基づいて、各カテゴリのメソッドの長所と短所について徹底的に議論する。 実証的研究を行うために、コード実装や有用なツールを含むXMLに関する豊富なリソースを収集します。 最後に、新しい評価指標、テールラベル問題、弱い教師付きXMLなど、XMLにおける研究方向を提案する。

Multi-label learning has attracted significant attention from both academic and industry field in recent decades. Although existing multi-label learning algorithms achieved good performance in various tasks, they implicitly assume the size of target label space is not huge, which can be restrictive for real-world scenarios. Moreover, it is infeasible to directly adapt them to extremely large label space because of the compute and memory overhead. Therefore, eXtreme Multi-label Learning (XML) is becoming an important task and many effective approaches are proposed. To fully understand XML, we conduct a survey study in this paper. We first clarify a formal definition for XML from the perspective of supervised learning. Then, based on different model architectures and challenges of the problem, we provide a thorough discussion of the advantages and disadvantages of each category of methods. For the benefit of conducting empirical studies, we collect abundant resources regarding XML, including code implementations, and useful tools. Lastly, we propose possible research directions in XML, such as new evaluation metrics, the tail label problem, and weakly supervised XML.
翻訳日:2022-10-11 18:21:38 公開日:2022-10-08
# サービスメッシュ上の複数のサービスのパフォーマンス目標を動的に満たす

Dynamically meeting performance objectives for multiple services on a service mesh ( http://arxiv.org/abs/2210.04002v1 )

ライセンス: Link先を確認
Forough Shahab Samani, Rolf Stadler(参考訳) サービスプロバイダがさまざまな負荷下でエンドツーエンドの管理目標を達成するためのフレームワークを提案する。 動的制御動作は強化学習(RL)エージェントによって実行される。 istioとkubernetesプラットフォームがサポートするサービスメッシュ上で、基本的な情報サービスを実装した実験室テストベッドの実験と評価も行っています。 サービス要求のエンドツーエンド遅延境界、スループット目標、サービス差別化など、さまざまな管理目標について検討する。 これらの目的は、RLエージェントが最適化するために学んだ報酬関数、すなわちリクエストルーティングとリクエストブロッキングの制御アクションを実行することでマッピングされる。 テストベッドではなくシミュレータ上で制御ポリシを計算し,学習プロセスを桁違いに高速化する。 提案手法では,システムモデルをテストベッド上で学習し,様々な管理目的に対して最適に近い制御ポリシを生成するシミュレータをインスタンス化する。 学習したポリシーは、見えないロードパターンを使用してテストベッドで評価される。

We present a framework that lets a service provider achieve end-to-end management objectives under varying load. Dynamic control actions are performed by a reinforcement learning (RL) agent. Our work includes experimentation and evaluation on a laboratory testbed where we have implemented basic information services on a service mesh supported by the Istio and Kubernetes platforms. We investigate different management objectives that include end-to-end delay bounds on service requests, throughput objectives, and service differentiation. These objectives are mapped onto reward functions that an RL agent learns to optimize, by executing control actions, namely, request routing and request blocking. We compute the control policies not on the testbed, but in a simulator, which speeds up the learning process by orders of magnitude. In our approach, the system model is learned on the testbed; it is then used to instantiate the simulator, which produces near-optimal control policies for various management objectives. The learned policies are then evaluated on the testbed using unseen load patterns.
翻訳日:2022-10-11 18:21:21 公開日:2022-10-08
# 意味画像合成のための双対ピラミッド生成逆ネットワーク

Dual Pyramid Generative Adversarial Networks for Semantic Image Synthesis ( http://arxiv.org/abs/2210.04085v1 )

ライセンス: Link先を確認
Shijie Li, Ming-Ming Cheng, Juergen Gall(参考訳) セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。 コンテンツ生成や画像編集などのタスクに非常に関係がある。 しかし、現在の最先端のアプローチでは、様々なスケールで画像に写実的なオブジェクトを生成するのに苦労している。 特に、小さなオブジェクトは消える傾向があり、大きなオブジェクトはしばしばパッチのコラージュとして生成される。 この問題に対処するため, 空間適応正規化ブロックの条件付けを全規模で学習し, スケール情報を双方向に使用し, 異なるスケールでの監視を統一するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。 定性的かつ定量的な結果から,提案手法は,最先端の手法で生成した画像に比べて,小さくて大きな物体がよりリアルに見える画像を生成することを示す。

The goal of semantic image synthesis is to generate photo-realistic images from semantic label maps. It is highly relevant for tasks like content generation and image editing. Current state-of-the-art approaches, however, still struggle to generate realistic objects in images at various scales. In particular, small objects tend to fade away and large objects are often generated as collages of patches. In order to address this issue, we propose a Dual Pyramid Generative Adversarial Network (DP-GAN) that learns the conditioning of spatially-adaptive normalization blocks at all scales jointly, such that scale information is bi-directionally used, and it unifies supervision at different scales. Our qualitative and quantitative results show that the proposed approach generates images where small and large objects look more realistic compared to images generated by state-of-the-art methods.
翻訳日:2022-10-11 17:31:56 公開日:2022-10-08
# MultiStyleGAN:シングルガンを用いた複数ワンショット顔スタイリング

MultiStyleGAN: Multiple One-shot Face Stylizations using a Single GAN ( http://arxiv.org/abs/2210.04120v1 )

ライセンス: Link先を確認
Viraj Shah and Svetlana Lazebnik(参考訳) 画像スタイリングは任意の入力画像に参照スタイルを適用することを目的としている。 一般的なシナリオはワンショットスタイリングであり、参照スタイルごとに1つの例しか使用できない。 ワンショットの顔スタイリングで成功したアプローチはJoJoGANであり、単一のスタイルの参照画像上に事前訓練されたStyleGAN2ジェネレータを微調整する。 しかし、各スタイルごとに新しいモデルを微調整することなく、複数のスタイライゼーションを生成することはできない。 本研究では,複数の異なる顔スタイライゼーションを一度に生成できるマルチスタイルgan法を提案する。 提案手法の鍵となるコンポーネントは学習可能なスタイル変換モジュールで,潜時符号を入力とし,潜時空間の異なる領域への線形写像を学習し,各スタイルの異なるコードを生成する。 我々のモデルは本質的に複数のスタイルで訓練されているため、オーバーフィッティングを軽減し、それによってスタイル化の品質が向上する。 この方法では、画像のスタイライゼーションを一度に12ドル以上学習でき、トレーニング時間も最大8ドルまで改善できます。 既存の手法よりも有意義な改善を示すユーザスタディを通じて,結果を支援する。

Image stylization aims at applying a reference style to arbitrary input images. A common scenario is one-shot stylization, where only one example is available for each reference style. A successful recent approach for one-shot face stylization is JoJoGAN, which fine-tunes a pre-trained StyleGAN2 generator on a single style reference image. However, it cannot generate multiple stylizations without fine-tuning a new model for each style separately. In this work, we present a MultiStyleGAN method that is capable of producing multiple different face stylizations at once by fine-tuning a single generator. The key component of our method is a learnable Style Transformation module that takes latent codes as input and learns linear mappings to different regions of the latent space to produce distinct codes for each style, resulting in a multistyle space. Our model inherently mitigates overfitting since it is trained on multiple styles, hence improving the quality of stylizations. Our method can learn upwards of $12$ image stylizations at once, bringing upto $8\times$ improvement in training time. We support our results through user studies that indicate meaningful improvements over existing methods.
翻訳日:2022-10-11 17:31:41 公開日:2022-10-08
# カスケードリファインメントネットワークによるポイントクラウドアップサンプリング

Point Cloud Upsampling via Cascaded Refinement Network ( http://arxiv.org/abs/2210.03942v1 )

ライセンス: Link先を確認
Hang Du, Xuejun Yan, Jingjing Wang, Di Xie, Shiliang Pu(参考訳) ポイントクラウドアップサンプリングは、密度が高く、均一で、表面への近接点集合を生成することに焦点を当てている。 従来のアプローチでは、単一ステージネットワークを慎重に設計することで、これらの目的を達成している。 代わりに、粗雑な方法でポイントクラウドをサンプリングすることは、まともなソリューションです。 しかし、既存の粗大なアップサンプリング手法は、トレーニング中に複雑で時間がかかる追加のトレーニング戦略を必要とする。 本稿では,同一のネットワークアーキテクチャを持つが,異なる目的を達成できる3つの世代からなる,シンプルで効果的なカスケード改良ネットワークを提案する。 特に、最初の2つのアップサンプリング段階は、密だが粗い点を徐々に生成し、最後の精製段階はさらに粗い点をより良い位置に調整する。 複数段階間の学習対立を緩和し,新たな点の回帰の難しさを軽減するため,各段階が入力形状に関する点オフセットを予測することを推奨する。 このようにして、提案するカスケード改良ネットワークは、余分な学習戦略なしで容易に最適化できる。 さらに,グローバルおよび局所的な形状コンテキストを学習するために,トランスベース特徴抽出モジュールを設計した。 推論フェーズでは、利用可能な計算資源に応じてモデルの有効性と効率を動的に調整できる。 合成データと実データの両方に関する広範な実験は、提案手法が既存の最先端手法よりも優れていることを示している。

Point cloud upsampling focuses on generating a dense, uniform and proximity-to-surface point set. Most previous approaches accomplish these objectives by carefully designing a single-stage network, which makes it still challenging to generate a high-fidelity point distribution. Instead, upsampling point cloud in a coarse-to-fine manner is a decent solution. However, existing coarse-to-fine upsampling methods require extra training strategies, which are complicated and time-consuming during the training. In this paper, we propose a simple yet effective cascaded refinement network, consisting of three generation stages that have the same network architecture but achieve different objectives. Specifically, the first two upsampling stages generate the dense but coarse points progressively, while the last refinement stage further adjust the coarse points to a better position. To mitigate the learning conflicts between multiple stages and decrease the difficulty of regressing new points, we encourage each stage to predict the point offsets with respect to the input shape. In this manner, the proposed cascaded refinement network can be easily optimized without extra learning strategies. Moreover, we design a transformer-based feature extraction module to learn the informative global and local shape context. In inference phase, we can dynamically adjust the model efficiency and effectiveness, depending on the available computational resources. Extensive experiments on both synthetic and real-scanned datasets demonstrate that the proposed approach outperforms the existing state-of-the-art methods.
翻訳日:2022-10-11 17:22:13 公開日:2022-10-08
# arabsign: アラビア語連続手話認識のためのマルチモダリティデータセットとベンチマーク

ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic Sign Language Recognition ( http://arxiv.org/abs/2210.03951v1 )

ライセンス: Link先を確認
Hamzah Luqman(参考訳) 近年,手話認識が研究者の関心を集めている。 ヨーロッパやアジアの手話認識には様々なアプローチが提案されているが、アラビア語手話(arsl)に類似したシステムを開発する試みはごくわずかである。 これは部分的には、文レベルでのデータセットの欠如によるものである。 本稿では、連続的なArSLデータセットであるArabSignを提案することで、大きな貢献をすることを目指している。 提案するデータセットは、6人の署名者が行った9,335のサンプルで構成されている。 記録された文の総時間はおよそ10時間であり、平均文の長さは3.1符号である。 arabsignデータセットはkinect v2カメラを使用して記録され、各文に対して3種類の情報(色、深さ、骨格関節点)を同時に記録する。 さらに、ArSLの言語的特徴を研究するのに役立つ、ArSLおよびアラビア語構造に基づくデータセットのアノテーションを提供する。 このデータセットをベンチマークするために、連続ArSL認識のためのエンコーダデコーダモデルを提案する。 提案したデータセットで評価した結果,エンコーダ・デコーダモデルでは平均単語誤り率(WER)が0.50であり,アテンション機構が0.62であるのに対し,アテンション機構が優れていた。 データとコードはgithub.com/Hamzah-Luqman/ArabSignで入手できる

Sign language recognition has attracted the interest of researchers in recent years. While numerous approaches have been proposed for European and Asian sign languages recognition, very limited attempts have been made to develop similar systems for the Arabic sign language (ArSL). This can be attributed partly to the lack of a dataset at the sentence level. In this paper, we aim to make a significant contribution by proposing ArabSign, a continuous ArSL dataset. The proposed dataset consists of 9,335 samples performed by 6 signers. The total time of the recorded sentences is around 10 hours and the average sentence's length is 3.1 signs. ArabSign dataset was recorded using a Kinect V2 camera that provides three types of information (color, depth, and skeleton joint points) recorded simultaneously for each sentence. In addition, we provide the annotation of the dataset according to ArSL and Arabic language structures that can help in studying the linguistic characteristics of ArSL. To benchmark this dataset, we propose an encoder-decoder model for Continuous ArSL recognition. The model has been evaluated on the proposed dataset, and the obtained results show that the encoder-decoder model outperformed the attention mechanism with an average word error rate (WER) of 0.50 compared with 0.62 with the attention mechanism. The data and code are available at github.com/Hamzah-Luqman/ArabSign
翻訳日:2022-10-11 17:21:49 公開日:2022-10-08
# デタチングとブースティング:スケール不変自己教師付き単眼深度推定のためのデュアルエンジン

Detaching and Boosting: Dual Engine for Scale-Invariant Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2210.03952v1 )

ライセンス: Link先を確認
Peizhe Jiang and Wei Yang and Xiaoqing Ye and Xiao Tan and Meng Wu(参考訳) 自己監督シナリオにおける単眼深度推定 (MDE) は, 地中真理深度を考慮しない, 有望な手法として現れた。 継続的な努力にもかかわらず、MDEは、特にすべてのトレーニングサンプルが単一のカメラからのものである場合、変更のスケールに敏感である。 一方,カメラの動きは,推定深度とスケール変化の重結合を生じさせるため,さらに劣化する。 本稿では,自己教師付きmdeに対して,ssf(scale-invariant features)を分離し,さらにsif(scale-invariant features)を促進させるスケール不変性アプローチを提案する。 具体的には、SSFをデタッチするために、カメラズーム処理を模倣して、単純だが効果的なデータ拡張を提案する。 さらに、動的クロスアテンションモジュールは、マルチスケールのクロスアテンション機能を適応的に融合することにより、SIFを強化するように設計されている。 KITTIデータセットの広範囲な実験により, MDE では脱着戦略とブースティング戦略が相互に相補的であることが示され,本手法は既存の 0.097 から 0.090 w.r.t の絶対相対誤差に対して新たな State-of-The-Art 性能を実現する。 コードは近々公開される予定だ。

Monocular depth estimation (MDE) in the self-supervised scenario has emerged as a promising method as it refrains from the requirement of ground truth depth. Despite continuous efforts, MDE is still sensitive to scale changes especially when all the training samples are from one single camera. Meanwhile, it deteriorates further since camera movement results in heavy coupling between the predicted depth and the scale change. In this paper, we present a scale-invariant approach for self-supervised MDE, in which scale-sensitive features (SSFs) are detached away while scale-invariant features (SIFs) are boosted further. To be specific, a simple but effective data augmentation by imitating the camera zooming process is proposed to detach SSFs, making the model robust to scale changes. Besides, a dynamic cross-attention module is designed to boost SIFs by fusing multi-scale cross-attention features adaptively. Extensive experiments on the KITTI dataset demonstrate that the detaching and boosting strategies are mutually complementary in MDE and our approach achieves new State-of-The-Art performance against existing works from 0.097 to 0.090 w.r.t absolute relative error. The code will be made public soon.
翻訳日:2022-10-11 17:21:26 公開日:2022-10-08
# 接触型人間の動き予測

Contact-aware Human Motion Forecasting ( http://arxiv.org/abs/2210.03954v1 )

ライセンス: Link先を確認
Wei Mao, Miaomiao Liu, Richard Hartley, Mathieu Salzmann(参考訳) 本稿では,3dシーンと過去の人間の動きとが与える将来のポーズを予測することで,シーン認識型3dヒューマンモーション予測の課題に取り組む。 このタスクの重要な課題は、人間とシーン間の一貫性を確保することであり、人間とシーンの相互作用を説明することである。 このような相互作用を暗黙的にモデル化しようとする以前の試みは、局所的なポーズと大域的な動きの間に明確な制約がないため、"ghost motion"のような人工物を生み出す傾向があった。 ここでは,人間同士の接触を明示的にモデル化することを提案する。 この目的のために,各関節と各3次元シーンポイント間の接触関係を瞬時にキャプチャする距離ベースの接触マップを導入する。 次に,過去とシーンポイントの雲から将来の接触マップを予測し,予測した接触マップ上で条件付けして,将来の人間のポーズを予測する2段階のパイプラインを開発する。 学習中,我々は,接点マップと将来のポーズを用いて,事前定義された条件により,グローバル動作とローカルポーズの一貫性を明示的に推奨する。 本手法は,合成データと実データの両方において,最先端のヒューマンモーション予測とヒューマンシンセシス手法を上回っている。 私たちのコードはhttps://github.com/wei-mao-2019/ContAwareMotionPred.comから入手可能です。

In this paper, we tackle the task of scene-aware 3D human motion forecasting, which consists of predicting future human poses given a 3D scene and a past human motion. A key challenge of this task is to ensure consistency between the human and the scene, accounting for human-scene interactions. Previous attempts to do so model such interactions only implicitly, and thus tend to produce artifacts such as "ghost motion" because of the lack of explicit constraints between the local poses and the global motion. Here, by contrast, we propose to explicitly model the human-scene contacts. To this end, we introduce distance-based contact maps that capture the contact relationships between every joint and every 3D scene point at each time instant. We then develop a two-stage pipeline that first predicts the future contact maps from the past ones and the scene point cloud, and then forecasts the future human poses by conditioning them on the predicted contact maps. During training, we explicitly encourage consistency between the global motion and the local poses via a prior defined using the contact maps and future poses. Our approach outperforms the state-of-the-art human motion forecasting and human synthesis methods on both synthetic and real datasets. Our code is available at https://github.com/wei-mao-2019/ContAwareMotionPred.
翻訳日:2022-10-11 17:21:02 公開日:2022-10-08
# 複数統計テストによる画像上のロバストグラフ構造学習

Robust Graph Structure Learning over Images via Multiple Statistical Tests ( http://arxiv.org/abs/2210.03956v1 )

ライセンス: Link先を確認
Yaohua Wang, FangYi Zhang, Ming Lin, Senzhang Wang, Xiuyu Sun, Rong Jin(参考訳) グラフ構造学習は、データからグラフの接続性を学ぶことを目的としている。 多くの場合、画像には明示的なグラフ構造がないため、多くのコンピュータビジョン関連のタスクで特に重要である。 画像間のグラフを構築する自然な方法は、各画像をノードとして扱い、一対の画像類似性を対応するエッジに重みとして割り当てることである。 画像間の対の類似性は特徴表現のノイズに敏感であり、信頼できないグラフ構造をもたらすことはよく知られている。 我々はこの問題を統計的テストの観点から扱う。 各ノードの特徴ベクトルを独立したサンプルとして見ることにより、特徴表現の類似性に基づいて2ノード間のエッジを作成するかどうかを、${\it single}$statistical testと考えることができる。 エッジ作成の決定におけるロバスト性を改善するために、複数のサンプルを${\it multiple}$統計テストで描画して統合し、より信頼性の高い類似度尺度を生成する。 対応するエレガントな行列形式 $\mathcal{B}\textbf{-Attention}$ は効率性のために設計されている。 グラフ構造学習における複数のテストの有効性を,複数のクラスタリングおよびReIDベンチマークデータセット上で理論的および経験的に検証する。 ソースコードはhttps://github.com/Thomas-wyh/B-Attention.comで入手できる。

Graph structure learning aims to learn connectivity in a graph from data. It is particularly important for many computer vision related tasks since no explicit graph structure is available for images for most cases. A natural way to construct a graph among images is to treat each image as a node and assign pairwise image similarities as weights to corresponding edges. It is well known that pairwise similarities between images are sensitive to the noise in feature representations, leading to unreliable graph structures. We address this problem from the viewpoint of statistical tests. By viewing the feature vector of each node as an independent sample, the decision of whether creating an edge between two nodes based on their similarity in feature representation can be thought as a ${\it single}$ statistical test. To improve the robustness in the decision of creating an edge, multiple samples are drawn and integrated by ${\it multiple}$ statistical tests to generate a more reliable similarity measure, consequentially more reliable graph structure. The corresponding elegant matrix form named $\mathcal{B}\textbf{-Attention}$ is designed for efficiency. The effectiveness of multiple tests for graph structure learning is verified both theoretically and empirically on multiple clustering and ReID benchmark datasets. Source codes are available at https://github.com/Thomas-wyh/B-Attention.
翻訳日:2022-10-11 17:20:41 公開日:2022-10-08
# fbnet:ポイントクラウド補完のためのフィードバックネットワーク

FBNet: Feedback Network for Point Cloud Completion ( http://arxiv.org/abs/2210.03974v1 )

ライセンス: Link先を確認
Xuejun Yan, Hongyu Yan, Jingjing Wang, Hang Du, Zhihong Wu, Di Xie, Shiliang Pu, Li Lu(参考訳) point cloud learningの急速な発展は、point cloudの完成を新しい時代へと導いた。 しかし,既存の補完手法の情報フローはフィードフォワードのみであり,低レベルの特徴学習を改善するために高レベル情報を再利用することは稀である。 そこで本稿では,ポイントクラウド補完のための新しいフィードバックネットワーク(FBNet)を提案する。 まず、部分入力を階層グラフベースネットワーク(HGNet)に入力し、粗い形状を生成する。 次に、いくつかの Feedback-Aware Completion (FBAC) ブロックをカスケードし、繰り返し展開します。 隣接する2つの時間ステップ間のフィードバック接続は、現在の形状生成を改善するためにきめ細かい特徴を利用する。 フィードバック接続を構築する主な課題は、現在の機能とその後の機能との寸法ミスマッチである。 これに対処するため、精巧に設計されたポイントクロストランスは、クロスアテンション戦略によるフィードバック機能からの効率的な情報を活用し、フィードバック機能を強化したプレゼンス機能を洗練する。 いくつかのデータセットにおける定量的および定性的な実験は、ポイント完了タスクの最先端手法と比較して提案されたFBNetの優位性を示している。

The rapid development of point cloud learning has driven point cloud completion into a new era. However, the information flows of most existing completion methods are solely feedforward, and high-level information is rarely reused to improve low-level feature learning. To this end, we propose a novel Feedback Network (FBNet) for point cloud completion, in which present features are efficiently refined by rerouting subsequent fine-grained ones. Firstly, partial inputs are fed to a Hierarchical Graph-based Network (HGNet) to generate coarse shapes. Then, we cascade several Feedback-Aware Completion (FBAC) Blocks and unfold them across time recurrently. Feedback connections between two adjacent time steps exploit fine-grained features to improve present shape generations. The main challenge of building feedback connections is the dimension mismatching between present and subsequent features. To address this, the elaborately designed point Cross Transformer exploits efficient information from feedback features via cross attention strategy and then refines present features with the enhanced feedback features. Quantitative and qualitative experiments on several datasets demonstrate the superiority of proposed FBNet compared to state-of-the-art methods on point completion task.
翻訳日:2022-10-11 17:20:20 公開日:2022-10-08
# AdaptivePose++: マルチパーソンポース回帰のための強力なシングルステージネットワーク

AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose Regression ( http://arxiv.org/abs/2210.04014v1 )

ライセンス: Link先を確認
Yabo Xiao, Xiaojuan Wang, Dongdong Yu, Kai Su, Lei Jin, Mei Song, Shuicheng Yan, Jian Zhao(参考訳) 多人数のポーズ推定は一般的にトップダウンとボトムアップのパラダイムに従う。 両者は、人間インスタンスと対応するキーポイントの関係を構築するために余分なステージ(トップダウンパラダイムやボトムアップパラダイムにおけるグループ化プロセスで、$ヒューマン検出)を使用しており、高い計算コストと冗長な2段階パイプラインに繋がる。 上記の課題に対処するため,人間の部位を適応点として表現し,粒度の細かい身体表現法を提案する。 新規なボディ表現は、多様なポーズ情報を十分にエンコードでき、ヒトのインスタンスと対応するキーポイントとの関係を単一のフォワードパスで効果的にモデル化することができる。 提案するボディ表現では,AdaptivePoseと呼ばれるコンパクトなシングルステージ多人数ポーズ回帰ネットワークが提供される。 推測中,提案するネットワークは,複雑なポストプロセスやリファインメントを伴わずに複数人のポーズを形成するために,単一のステップデコード操作だけでよい。 2d/3d多人数ポーズ推定タスクにadaptiveposeを用い,adaptiveposeの有効性を検証する。 ベルとホイッスルがなければ、精度とスピードの面で、MS COCOとCrowdPoseで最も競争力のあるパフォーマンスを達成できます。 さらに, MuCo-3DHP と MuPoTS-3D の優れた性能は, 3次元シーンの有効性と一般化性を示す。 コードはhttps://github.com/buptxyb666/AdaptivePoseで入手できる。

Multi-person pose estimation generally follows top-down and bottom-up paradigms. Both of them use an extra stage ($\boldsymbol{e.g.,}$ human detection in top-down paradigm or grouping process in bottom-up paradigm) to build the relationship between the human instance and corresponding keypoints, thus leading to the high computation cost and redundant two-stage pipeline. To address the above issue, we propose to represent the human parts as adaptive points and introduce a fine-grained body representation method. The novel body representation is able to sufficiently encode the diverse pose information and effectively model the relationship between the human instance and corresponding keypoints in a single-forward pass. With the proposed body representation, we further deliver a compact single-stage multi-person pose regression network, termed as AdaptivePose. During inference, our proposed network only needs a single-step decode operation to form the multi-person pose without complex post-processes and refinements. We employ AdaptivePose for both 2D/3D multi-person pose estimation tasks to verify the effectiveness of AdaptivePose. Without any bells and whistles, we achieve the most competitive performance on MS COCO and CrowdPose in terms of accuracy and speed. Furthermore, the outstanding performance on MuCo-3DHP and MuPoTS-3D further demonstrates the effectiveness and generalizability on 3D scenes. Code is available at https://github.com/buptxyb666/AdaptivePose.
翻訳日:2022-10-11 17:20:02 公開日:2022-10-08
# Fast-ParC: ConvNet と ViT のための位置対応グローバルカーネル

Fast-ParC: Position Aware Global Kernel for ConvNets and ViTs ( http://arxiv.org/abs/2210.04020v1 )

ライセンス: Link先を確認
Tao Yang, Haokui Zhang, Wenze Hu, Changwen Chen, Xiaoyu Wang(参考訳) 近年、トランスフォーマーモデルは様々な分野で大きな進歩を遂げている。 コンピュータビジョンの分野では、視覚トランスフォーマー(ViT)も畳み込みニューラルネットワーク(ConvNet)の強力な代替手段となるが、どちらも独自のメリットを持っているため、ConvNetを置き換えることはできない。 例えば、ViTは注意機構を持つグローバルな特徴の抽出に長けており、一方でConvNetは強い帰納バイアスのために局所的な関係をモデル化する上でより効率的である。 自然界のアイデアは、新しい構造を設計するためにConvNetsとViTsの強みを組み合わせることである。 本稿では,位置認識型円形畳み込み(parc)と呼ばれる新しい基本ニューラルネットワーク演算子とその高速化バージョンであるfast-parcを提案する。 parcオペレータは、グローバルカーネルと円畳み込みを使い、位置埋め込みを利用して位置感度を維持しながら、グローバルな特徴を捉えることができる。 我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。 この加速により、大きな特徴マップを持つモデルの初期段階でグローバル畳み込みを使用できるが、それでも3x3や7x7カーネルと同等の計算コストを維持できる。 提案する操作はプラグアンドプレイ方式で使用できる。 1) ViT を純ConvNet アーキテクチャに変換し、より広いハードウェアサポートを享受し、より高い推論速度を達成する。 2)ConvNetsの深層における従来の畳み込みを置き換え,有効受容場を大きくすることで精度を向上させる。 実験結果から、我々のParC opは従来のConvNetの受容領域を効果的に拡大し、VTモデルとConvNetモデルの両方を3つの一般的な視覚タスク、画像分類、オブジェクトに適用できることがわかった。

Transformer models have made tremendous progress in various fields in recent years. In the field of computer vision, vision transformers (ViTs) also become strong alternatives to convolutional neural networks (ConvNets), yet they have not been able to replace ConvNets since both have their own merits. For instance, ViTs are good at extracting global features with attention mechanisms while ConvNets are more efficient in modeling local relationships due to their strong inductive bias. A natural idea that arises is to combine the strengths of both ConvNets and ViTs to design new structures. In this paper, we propose a new basic neural network operator named position-aware circular convolution (ParC) and its accelerated version Fast-ParC. The ParC operator can capture global features by using a global kernel and circular convolution while keeping location sensitiveness by employing position embeddings. Our Fast-ParC further reduces the O(n2) time complexity of ParC to O(n log n) using Fast Fourier Transform. This acceleration makes it possible to use global convolution in the early stages of models with large feature maps, yet still maintains the overall computational cost comparable with using 3x3 or 7x7 kernels. The proposed operation can be used in a plug-and-play manner to 1) convert ViTs to pure-ConvNet architecture to enjoy wider hardware support and achieve higher inference speed; 2) replacing traditional convolutions in the deep stage of ConvNets to improve accuracy by enlarging the effective receptive field. Experiment results show that our ParC op can effectively enlarge the receptive field of traditional ConvNets, and adopting the proposed op benefits both ViTs and ConvNet models on all three popular vision tasks, image classification, object
翻訳日:2022-10-11 17:19:37 公開日:2022-10-08
# シルエット・歩行・RGBを用いたマルチモーダルヒューマン認証

Multi-Modal Human Authentication Using Silhouettes, Gait and RGB ( http://arxiv.org/abs/2210.04050v1 )

ライセンス: Link先を確認
Yuxiang Guo, Cheng Peng, Chun Pong Lau, Rama Chellappa(参考訳) 全身ベースのヒューマン認証は、遠隔生体認証シナリオに有望なアプローチである。 現在の文献では、RGB画像に基づく身体認識と、体型と歩行パターンに基づく歩行認識に焦点が当てられている。 本研究では,RGBデータとシルエットデータを組み合わせたDME(Dual-Modal Ensemble)を提案する。 DME内では、従来の歩行分析で用いられる二重ヘリカル歩行パターンにインスパイアされたGaitPatternを提案する。 GaitPatternは広い視野角での堅牢な識別性能に貢献している。 CASIA-Bデータセットの大規模な実験結果から,提案手法が最先端認識システムより優れていることが示された。 また,新たに収集したBRIARデータセットを用いて実験結果を提供する。

Whole-body-based human authentication is a promising approach for remote biometrics scenarios. Current literature focuses on either body recognition based on RGB images or gait recognition based on body shapes and walking patterns; both have their advantages and drawbacks. In this work, we propose Dual-Modal Ensemble (DME), which combines both RGB and silhouette data to achieve more robust performances for indoor and outdoor whole-body based recognition. Within DME, we propose GaitPattern, which is inspired by the double helical gait pattern used in traditional gait analysis. The GaitPattern contributes to robust identification performance over a large range of viewing angles. Extensive experimental results on the CASIA-B dataset demonstrate that the proposed method outperforms state-of-the-art recognition systems. We also provide experimental results using the newly collected BRIAR dataset.
翻訳日:2022-10-11 17:19:05 公開日:2022-10-08
# 単一画像からの3次元点雲生成のためのフローベースGAN

Flow-based GAN for 3D Point Cloud Generation from a Single Image ( http://arxiv.org/abs/2210.04072v1 )

ライセンス: Link先を確認
Yao Wei, George Vosselman and Michael Ying Yang(参考訳) 単一の2D画像から3Dポイントクラウドを生成することは、3Dシーン理解アプリケーションにとって非常に重要である。 画像に示される物体の3次元形状全体を再構築するために、既存のディープラーニングベースのアプローチでは、点雲の明示的または暗黙的な生成モデルを用いている。 本研究では,任意の解像度で点雲をサンプリングするためのフローベースの明示的生成モデルを継承し,暗黙的生成逆ネットワーク (gans) を活用し,点雲の詳細な3次元構造を改善することにより,この問題を軽減することを目的とする。 大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。 さらに,PASCAL3D+データセットから得られた実画像と,クロスカテゴリ合成画像を用いて,本手法の一般化能力を実証した。

Generating a 3D point cloud from a single 2D image is of great importance for 3D scene understanding applications. To reconstruct the whole 3D shape of the object shown in the image, the existing deep learning based approaches use either explicit or implicit generative modeling of point clouds, which, however, suffer from limited quality. In this work, we aim to alleviate this issue by introducing a hybrid explicit-implicit generative modeling scheme, which inherits the flow-based explicit generative models for sampling point clouds with arbitrary resolutions while improving the detailed 3D structures of point clouds by leveraging the implicit generative adversarial networks (GANs). We evaluate on the large-scale synthetic dataset ShapeNet, with the experimental results demonstrating the superior performance of the proposed method. In addition, the generalization ability of our method is demonstrated by performing on cross-category synthetic images as well as by testing on real images from PASCAL3D+ dataset.
翻訳日:2022-10-11 17:18:52 公開日:2022-10-08
# 表情認識のための自己教師付きコントラスト学習の再検討

Revisiting Self-Supervised Contrastive Learning for Facial Expression Recognition ( http://arxiv.org/abs/2210.03853v1 )

ライセンス: Link先を確認
Yuxuan Shu and Xiao Gu and Guang-Zhong Yang and Benny Lo(参考訳) ほとんどの高度な表情認識作業の成功は、大規模な注釈付きデータセットに大きく依存している。 しかし、表情データセットのクリーンで一貫性のあるアノテーションを取得するには大きな課題がある。 一方, 自己指導型コントラスト学習は, 簡易かつ効果的なインスタンス識別訓練戦略により, アノテーション問題を回避する可能性が高くなっている。 それでも、複雑な顔表現に直面した場合にさらに困難となるインスタンスレベルの差別には、固有の欠点がある。 本稿では,自己指導型コントラスト学習の利用を再考し,表現固有の表現を強制し,アイデンティティや顔スタイリングなどの他の顔属性からの干渉を最小限に抑えるための3つの中核戦略を検討する。 実験の結果,提案手法は,分類的・次元的な表情認識タスクにおいて,最先端の自己教師型学習法よりも優れていた。

The success of most advanced facial expression recognition works relies heavily on large-scale annotated datasets. However, it poses great challenges in acquiring clean and consistent annotations for facial expression datasets. On the other hand, self-supervised contrastive learning has gained great popularity due to its simple yet effective instance discrimination training strategy, which can potentially circumvent the annotation issue. Nevertheless, there remain inherent disadvantages of instance-level discrimination, which are even more challenging when faced with complicated facial representations. In this paper, we revisit the use of self-supervised contrastive learning and explore three core strategies to enforce expression-specific representations and to minimize the interference from other facial attributes, such as identity and face styling. Experimental results show that our proposed method outperforms the current state-of-the-art self-supervised learning methods, in terms of both categorical and dimensional facial expression recognition tasks.
翻訳日:2022-10-11 17:11:44 公開日:2022-10-08
# 軽量物体検出システムに向けて

Towards Light Weight Object Detection System ( http://arxiv.org/abs/2210.03861v1 )

ライセンス: Link先を確認
Dharma KC, Venkata Ravi Kiran Dayana, Meng-Lin Wu, Venkateswara Rao Cherukuri, Hau Hwang(参考訳) トランスフォーマーは分類タスクやオブジェクト検出タスクのバックボーンとして一般的な選択肢である。 しかし、その高いレイテンシは軽量なオブジェクト検出システムへの適応に課題をもたらす。 本稿では,変圧器アーキテクチャで使用されるセルフアテンション層の近似について述べる。 この近似により、分類システムの遅延を低減し、精度の低下を最小限に抑える。 また,マルチレゾリューション特徴融合のためのトランスコーダ層を用いた手法を提案する。 この特徴融合により、パラメータ数を著しく増加させることなく、最先端の軽量物体検出システムの精度が向上する。 最後に、新しいトランスフォーマーのようなアーキテクチャの設計を導くために、一般化トランスフォーマー(gformer)と呼ばれるトランスフォーマーアーキテクチャの抽象化を提供する。

Transformers are a popular choice for classification tasks and as backbones for object detection tasks. However, their high latency brings challenges in their adaptation to lightweight object detection systems. We present an approximation of the self-attention layers used in the transformer architecture. This approximation reduces the latency of the classification system while incurring minimal loss in accuracy. We also present a method that uses a transformer encoder layer for multi-resolution feature fusion. This feature fusion improves the accuracy of the state-of-the-art lightweight object detection system without significantly increasing the number of parameters. Finally, we provide an abstraction for the transformer architecture called Generalized Transformer (gFormer) that can guide the design of novel transformer-like architectures.
翻訳日:2022-10-11 17:11:28 公開日:2022-10-08
# 解釈可能な修正による細粒度セグメンテーションの改善:化石セグメンテーションを事例として

Improving Fine-Grain Segmentation via Interpretable Modifications: A Case Study in Fossil Segmentation ( http://arxiv.org/abs/2210.03879v1 )

ライセンス: Link先を確認
Indu Panigrahi, Ryan Manzuk, Adam Maloof, Ruth Fong(参考訳) ほとんどの解釈可能性の研究は、何千もの共通のオブジェクトの画像を含むデータセットに焦点を当てている。 しかし、医学や地球科学などの多くの高インパクトデータセットには、ドメインエキスパートの知識を必要とする細粒のオブジェクトが含まれており、収集や注釈に時間を要する。 その結果、これらのデータセットは注釈付きイメージをほとんど含んでおらず、現在のマシンビジョンモデルはそれらに対して集中的にトレーニングすることができない。 したがって、モデルが小さな微粒のデータセットから学べる情報を最大化するために解釈可能性技術を適用することは重要な取り組みである。 本研究では,Mask R-CNNを用いて古サンゴの化石を岩石サンプル画像に分割し,モデルの弱点を特定し緩和するための一般的なパラダイムを提案する。 特に,マスクr-cnnが異なる種類の化石を区別できないことや,テクスチャの異なる化石を分割する上での非一貫性を露呈するために,画像摂動を適用する。 これらの欠点に対処するため,画像分類における体系的な誤りを画像分割に補正する既存のモデル編集手法を拡張し,その手法の新たな適用法を提案する。 広範な実験を通じて,与えられたクラスに対してすべての画素を1つの画像で摂動させることで,モデルを編集することが最も効果的であることが判明した。 我々のパラダイムは、小さな細粒度データセットで訓練された他のセグメンテーションモデルにも一般化されるかもしれない。

Most interpretability research focuses on datasets containing thousands of images of commonplace objects. However, many high-impact datasets, such as those in medicine and the geosciences, contain fine-grain objects that require domain-expert knowledge to recognize and are time-consuming to collect and annotate. As a result, these datasets contain few annotated images, and current machine vision models cannot train intensively on them. Thus, adapting interpretability techniques to maximize the amount of information that models can learn from small, fine-grain datasets is an important endeavor. Using a Mask R-CNN to segment ancient reef fossils in rock sample images, we present a general paradigm for identifying and mitigating model weaknesses. Specifically, we apply image perturbations to expose the Mask R-CNN's inability to distinguish between different classes of fossils and its inconsistency in segmenting fossils with different textures. To address these shortcomings, we extend an existing model-editing method for correcting systematic mistakes in image classification to image segmentation and introduce a novel application of the technique: encouraging a greater separation between positive and negative pixels for a given class. Through extensive experiments, we find that editing the model by perturbing all pixels for a given class in one image is most effective (compared to using multiple images and/or fewer pixels). Our paradigm may also generalize to other segmentation models trained on small, fine-grain datasets.
翻訳日:2022-10-11 17:11:18 公開日:2022-10-08
# 顔偽造検出用マルチスケールウェーブレット変圧器

Multi-Scale Wavelet Transformer for Face Forgery Detection ( http://arxiv.org/abs/2210.03899v1 )

ライセンス: Link先を確認
Jie Liu, Jingjing Wang, Peng Zhang, Chunmao Wang, Di Xie, Shiliang Pu(参考訳) 現在、多くの顔偽造検出手法は、空間的および周波数的特徴を集約し、汎化能力を高め、クロスデータセットシナリオで有望な性能を得る。 しかし、これらの手法は表現能力を制限する1つのレベル周波数情報のみを利用する。 これらの限界を克服するために, 顔偽造検出のための多スケールウェーブレットトランスフォーマフレームワークを提案する。 具体的には、マルチスケールおよびマルチ周波数ウェーブレット表現をフル活用するために、バックボーンネットワークの異なる段階におけるマルチスケールウェーブレット表現を徐々に集約する。 周波数特徴を空間的特徴と融合させるため、周波数ベースの空間的注意は、空間的特徴抽出器を偽造トレースに集中させるように設計されている。 一方,周波数特徴と空間特徴を融合させるために,クロスモダリティ注意が提案されている。 これら2つの注目モジュールは、効率的な統一トランスブロックによって計算される。 様々な実験により,提案手法はデータセット内およびクロスデータセットの両方に対して効率的かつ効果的であることが示された。

Currently, many face forgery detection methods aggregate spatial and frequency features to enhance the generalization ability and gain promising performance under the cross-dataset scenario. However, these methods only leverage one level frequency information which limits their expressive ability. To overcome these limitations, we propose a multi-scale wavelet transformer framework for face forgery detection. Specifically, to take full advantage of the multi-scale and multi-frequency wavelet representation, we gradually aggregate the multi-scale wavelet representation at different stages of the backbone network. To better fuse the frequency feature with the spatial features, frequency-based spatial attention is designed to guide the spatial feature extractor to concentrate more on forgery traces. Meanwhile, cross-modality attention is proposed to fuse the frequency features with the spatial features. These two attention modules are calculated through a unified transformer block for efficiency. A wide variety of experiments demonstrate that the proposed method is efficient and effective for both within and cross datasets.
翻訳日:2022-10-11 17:10:53 公開日:2022-10-08
# 点雲における3次元Dense Captioningのコンテキストモデリング

Contextual Modeling for 3D Dense Captioning on Point Clouds ( http://arxiv.org/abs/2210.03925v1 )

ライセンス: Link先を確認
Yufeng Zhong, Long Xu, Jiebo Luo, Lin Ma(参考訳) 3D高密度キャプションは視覚言語タスクとして,一組の点群から各物体を識別し,特定することを目的としており,それぞれの位置を記述するための特異な自然言語文を生成する。 しかし, 既存の手法では, 対象間関係のマイニングに主眼を置き, 文脈情報, 特に点群内の非対象詳細情報や背景環境を無視して, 不正確な相対的位置情報などの低品質な記述に繋がる。 本稿では,ポイントクラウドの非対象的詳細と背景環境を提供するためのコンテキスト情報として,ポイントクラウドクラスタリング機能を初めて活用し,これらを3次元高密度キャプションタスクに組み込む。 本稿では,グローバル・コンテクスト・モデリング(gcm)とローカル・コンテクスト・モデリング(lcm)という2つのモジュールを提案する。 特に、gcmモジュールは、全オブジェクト間のオブジェクト間関係をグローバルコンテキスト情報でキャプチャし、ポイントクラウド全体のより完全なシーン情報を取得する。 LCMモジュールは、対象オブジェクトの隣接オブジェクトとローカルコンテキスト情報の影響を利用して、オブジェクト表現を豊かにする。 このようなグローバルかつ局所的なコンテキストモデリング戦略により、提案モデルはオブジェクト表現とコンテキスト情報を効果的に特徴付けることができ、それによって位置するオブジェクトの包括的かつ詳細な記述を生成することができる。 ScanRefer と Nr3D データセットの大規模な実験により,提案手法が3次元高密度キャプションタスクに新たな記録を設定し,点雲の文脈モデルの有効性を検証した。

3D dense captioning, as an emerging vision-language task, aims to identify and locate each object from a set of point clouds and generate a distinctive natural language sentence for describing each located object. However, the existing methods mainly focus on mining inter-object relationship, while ignoring contextual information, especially the non-object details and background environment within the point clouds, thus leading to low-quality descriptions, such as inaccurate relative position information. In this paper, we make the first attempt to utilize the point clouds clustering features as the contextual information to supply the non-object details and background environment of the point clouds and incorporate them into the 3D dense captioning task. We propose two separate modules, namely the Global Context Modeling (GCM) and Local Context Modeling (LCM), in a coarse-to-fine manner to perform the contextual modeling of the point clouds. Specifically, the GCM module captures the inter-object relationship among all objects with global contextual information to obtain more complete scene information of the whole point clouds. The LCM module exploits the influence of the neighboring objects of the target object and local contextual information to enrich the object representations. With such global and local contextual modeling strategies, our proposed model can effectively characterize the object representations and contextual information and thereby generate comprehensive and detailed descriptions of the located objects. Extensive experiments on the ScanRefer and Nr3D datasets demonstrate that our proposed method sets a new record on the 3D dense captioning task, and verify the effectiveness of our raised contextual modeling of point clouds.
翻訳日:2022-10-11 17:10:38 公開日:2022-10-08
# 階層的少数ショット物体検出:問題、ベンチマーク及び方法

Hierarchical Few-Shot Object Detection: Problem, Benchmark and Method ( http://arxiv.org/abs/2210.03940v1 )

ライセンス: Link先を確認
Lu Zhang, Yang Wang, Jiaogen Zhou, Chenbo Zhang, Yinglu Zhang, Jihong Guan, Yatao Bian, Shuigeng Zhou(参考訳) FSOD(Few-shot Object Detection)は、オブジェクトをいくつかの例で検出する。 しかし、既存のFSOD法は実生活において広く存在する対象の階層的細粒度圏構造を考慮していない。 例えば、動物は分類学的に秩序、家族、属、種等に分類される。 本稿では,階層的少数ショットオブジェクト検出(Hi-FSOD)という,FSODパラダイムの階層的カテゴリを持つオブジェクトの検出を目的とした,新たな課題を提案する。 この目的のために、私たちは176,350のワイルドバード画像を含む、最初の大規模で高品質なhi-fsodベンチマークデータセットhifsod-birdを構築しました。 全ての分類は4段階の分類で、32の順序、132の家系、572の属、1,432の種からなる。 一方,階層的コントラスト学習手法であるHi-FSOD法では,オブジェクトの特徴分布が階層的分類と一致し,モデルの一般化力が強化されるように特徴空間を制約する手法が提案されている。 一方、確率的損失は、子ノードが分類学における親ノードの分類誤差を補正できるように設計されている。 ベンチマークデータセットHiFSOD-Birdの大規模な実験により、我々の手法HiCLPLが既存のFSOD法より優れていることが示された。

Few-shot object detection (FSOD) is to detect objects with a few examples. However, existing FSOD methods do not consider hierarchical fine-grained category structures of objects that exist widely in real life. For example, animals are taxonomically classified into orders, families, genera and species etc. In this paper, we propose and solve a new problem called hierarchical few-shot object detection (Hi-FSOD), which aims to detect objects with hierarchical categories in the FSOD paradigm. To this end, on the one hand, we build the first large-scale and high-quality Hi-FSOD benchmark dataset HiFSOD-Bird, which contains 176,350 wild-bird images falling to 1,432 categories. All the categories are organized into a 4-level taxonomy, consisting of 32 orders, 132 families, 572 genera and 1,432 species. On the other hand, we propose the first Hi-FSOD method HiCLPL, where a hierarchical contrastive learning approach is developed to constrain the feature space so that the feature distribution of objects is consistent with the hierarchical taxonomy and the model's generalization power is strengthened. Meanwhile, a probabilistic loss is designed to enable the child nodes to correct the classification errors of their parent nodes in the taxonomy. Extensive experiments on the benchmark dataset HiFSOD-Bird show that our method HiCLPL outperforms the existing FSOD methods.
翻訳日:2022-10-11 17:10:07 公開日:2022-10-08
# 0-1多次元クナップサック問題の探索空間の探索と探索

Finding and Exploring Promising Search Space for the 0-1 Multidimensional Knapsack Problem ( http://arxiv.org/abs/2210.03918v1 )

ライセンス: Link先を確認
Hongbo Li, Jitao Xu and Minghao Yin(参考訳) 0-1多次元クナップサック問題(MKP)は古典的なNPハード組合せ最適化問題である。 本稿では,MKPの進化計算と大規模近傍探索をシミュレートした新しいヒューリスティックアルゴリズムを提案する。 一連の解を保持し、解集合から情報を抽象化して良好な部分割当を生成する。 高品質な解を見つけるために、優れた部分代入によって指定された有望な探索空間を探索するために整数プログラミングを用いる。 一般的なベンチマークセットによる大規模な実験により,我々の手法は,TPTEAやDQPSOといったアートヒューリスティックアルゴリズムのソリューション品質よりも優れていることが示された。 8つの大小のインスタンスに対する新しい下位境界を見つける

The 0-1 multidimensional knapsack problem(MKP) is a classical NP-hard combinatorial optimization problem. In this paper, we propose a novel heuristic algorithm simulating evolutionary computation and large neighbourhood search for the MKP. It maintains a set of solutions and abstracts information from the solution set to generate good partial assignments. To find high-quality solutions, integer programming is employed to explore the promising search space specified by the good partial assignments. Extensive experimentation with commonly used benchmark sets shows that our approach outperforms the state of the art heuristic algorithms, TPTEA and DQPSO, in solution quality. It finds new lower bound for 8 large and hard instances
翻訳日:2022-10-11 17:03:02 公開日:2022-10-08
# 完全帰納的知識グラフ補完のための関係メッセージパッシング

Relational Message Passing for Fully Inductive Knowledge Graph Completion ( http://arxiv.org/abs/2210.03994v1 )

ライセンス: Link先を確認
Yuxia Geng, Jiaoyan Chen, Wen Zhang, Jeff Z. Pan, Mingyang Chen, Huajun Chen, Song Jiang(参考訳) 知識グラフ補完(KGC)では、KG埋め込みが学習された時に見つからない新しい実体や関係を含む三重項を予測することが重要な課題となっている。 メッセージパッシングによるサブグラフ推論は、有望で人気のあるソリューションです。 最近の手法は良い成果を上げていますが (i)通常、見当たらない実体のみを含む三重項を予測でき、見当たらない実体と見当たらない関係の両方で、より現実的な完全な帰納的状況に対処できない。 (ii) 関係パターンが十分に活用されていないエンティティを渡るメッセージパッシングをしばしば行う。 本研究では,完全帰納的kgcに対して,新しいリレーショナルメッセージパッシングネットワークを用いたrmpiという新しい手法を提案する。 グラフ変換、グラフプルーニング、関係認識近傍の注意、空のサブグラフへの対処など、グラフ解析のための関係パターンをフル活用するために、関係間のメッセージを直接渡し、KGのオントロジスキーマで定義された関係セマンティクスを利用することができる。 複数のベンチマークに対する広範囲な評価により、rmpiに関連する技術の有効性と、完全なインダクティブkgcをサポートする既存の手法よりも優れた性能を示している。 RMPIは最先端の部分帰納的KGC法と同等であり、非常に有望な結果が得られる。 私たちのコードとデータはhttps://github.com/zjukg/rmpiで入手できます。

In knowledge graph completion (KGC), predicting triples involving emerging entities and/or relations, which are unseen when the KG embeddings are learned, has become a critical challenge. Subgraph reasoning with message passing is a promising and popular solution. Some recent methods have achieved good performance, but they (i) usually can only predict triples involving unseen entities alone, failing to address more realistic fully inductive situations with both unseen entities and unseen relations, and (ii) often conduct message passing over the entities with the relation patterns not fully utilized. In this study, we propose a new method named RMPI which uses a novel Relational Message Passing network for fully Inductive KGC. It passes messages directly between relations to make full use of the relation patterns for subgraph reasoning with new techniques on graph transformation, graph pruning, relation-aware neighborhood attention, addressing empty subgraphs, etc., and can utilize the relation semantics defined in the ontological schema of KG. Extensive evaluation on multiple benchmarks has shown the effectiveness of techniques involved in RMPI and its better performance compared with the existing methods that support fully inductive KGC. RMPI is also comparable to the state-of-the-art partially inductive KGC methods with very promising results achieved. Our codes and data are available at https://github.com/zjukg/RMPI.
翻訳日:2022-10-11 17:02:51 公開日:2022-10-08
# アリコロニーシステムのための自己組織化巣移動ダイナミクス合成

Self-organizing nest migration dynamics synthesis for ant colony systems ( http://arxiv.org/abs/2210.03975v1 )

ライセンス: Link先を確認
Matin Macktoobian(参考訳) そこで本研究では,新たな営巣地への移動を可能にする,アリコロニーの新しい動的アプローチを提案する。 言い換えれば、アリコロニーの移動は自己組織的表現型レベルの集団行動である。 この目的のために、まずアリの経路のグラフの端を分割する。 すると、それぞれのセグメントは独自のフェロモンプロファイルによって、アリをホストすることができる。 したがって、複数のアリが同時にエッジを占有することができる。 この区分的な縁の定式化により、アリは経路決定の過程でより多くの選択オプションを持ち、コロニーの創発的行動の多様性を増大させる。 セグメントの連続フェロモンダイナミクスに照らして、各エッジは沈殿過程と蒸発過程の両方が統一された時空間的部分的連続フェロモンプロファイルを持つ。 提案する移動機構のパッシブダイナミクスは、アリコロニーが外部の監督を必要とせず、自己組織的な方法で新しい巣の近傍に移動できるように十分にリッチである。 特に,200個のノードと4000個のエッジからなる経路グラフを横断する500個のアリを含むコロニーに適用したマイグレーションダイナミクスをテストするために,広範なシミュレーションを行った。 得られた結果は,我々の戦略の有効性を示す。

In this study, we synthesize a novel dynamical approach for ant colonies enabling them to migrate to new nest sites in a self-organizing fashion. In other words, we realize ant colony migration as a self-organizing phenotype-level collective behavior. For this purpose, we first segment the edges of the graph of ants' pathways. Then, each segment, attributed to its own pheromone profile, may host an ant. So, multiple ants may occupy an edge at the same time. Thanks to this segment-wise edge formulation, ants have more selection options in the course of their pathway determination, thereby increasing the diversity of their colony's emergent behaviors. In light of the continuous pheromone dynamics of segments, each edge owns a spatio-temporal piece-wise continuous pheromone profile in which both deposit and evaporation processes are unified. The passive dynamics of the proposed migration mechanism is sufficiently rich so that an ant colony can migrate to the vicinity of a new nest site in a self-organizing manner without any external supervision. In particular, we perform extensive simulations to test our migration dynamics applied to a colony including 500 ants traversing a pathway graph comprising 200 nodes and 4000 edges which are segmented based on various resolutions. The obtained results exhibit the effectiveness of our strategy.
翻訳日:2022-10-11 17:02:05 公開日:2022-10-08
# ヴィジュアルマニフォールドの運動計画

Motion Planning on Visual Manifolds ( http://arxiv.org/abs/2210.04047v1 )

ライセンス: Link先を確認
M Seetha Ramaiah(参考訳) 本稿では,視覚構成空間 (visual configuration space,vcs) と呼ばれる構成空間の概念の代替的キャラクタリゼーションを提案する。 この新しい特徴付けにより、身体的エージェント(例えばロボット)は自身の身体構造を発見し、ランダムなポーズで自身のイメージセットを使用して、身近な空間で障害物のない動きを計画できる。 ここでは,エージェントや障害物,環境の幾何学的知識を前提としない。 我々はVCSの有用性を実証する。 (a)ロボット運動計画のための幾何学自由モデルの構築と作業 b)ヒトの赤ちゃんが運動バブリングを通して、周囲の空間で物体に到達する方法を説明し、 (c)仮想環境におけるデジタルアバターのための自然なヘッドモーションアニメーションを自動生成する。 この研究は、エージェントの画像を用いた多様体と多様体学習の形式主義に基づいており、視覚多様体の運動計画(Motion Planning on Visual Manifolds)と呼ぶ。

In this thesis, we propose an alternative characterization of the notion of Configuration Space, which we call Visual Configuration Space (VCS). This new characterization allows an embodied agent (e.g., a robot) to discover its own body structure and plan obstacle-free motions in its peripersonal space using a set of its own images in random poses. Here, we do not assume any knowledge of geometry of the agent, obstacles or the environment. We demonstrate the usefulness of VCS in (a) building and working with geometry-free models for robot motion planning, (b) explaining how a human baby might learn to reach objects in its peripersonal space through motor babbling, and (c) automatically generating natural looking head motion animations for digital avatars in virtual environments. This work is based on the formalism of manifolds and manifold learning using the agent's images and hence we call it Motion Planning on Visual Manifolds.
翻訳日:2022-10-11 17:01:48 公開日:2022-10-08
# 生起点雲から段階的に非符号距離関数を学習する

Learning Consistency-Aware Unsigned Distance Functions Progressively from Raw Point Clouds ( http://arxiv.org/abs/2210.02757v2 )

ライセンス: Link先を確認
Junsheng Zhou, Baorui Ma, Yu-Shen Liu, Yi Fang and Zhizhong Han(参考訳) 点雲の表面再構成は3次元コンピュータビジョンにおいて重要な課題である。 最新の手法のほとんどは、閉じた面を持つ形状やシーンの再構築に制限された点雲から符号付き距離関数(sdf)を学習することでこの問題を解決する。 その他の方法では、未署名距離関数(UDF)を用いて、大規模な地上真実から未署名距離の形状やシーンを表現しようとした。 しかし, 学習したudfは点雲の非連続性のため, 表面近傍の滑らかな距離場を提供することは困難である。 本稿では,無符号距離関数を生点雲から直接学習する新しい手法を提案する。 フィールド一貫性の制約により3dクエリを表面まで移動させることで,より正確なサーフェスを段階的に見積もることを可能にした。 具体的には, 動的に問合せの移動対象を探索することで, 3次元問合せと近似面の関係を徐々に推測するためにニューラルネットワークを訓練し, その結果, 表面近傍に一貫した場が形成される。 一方,学習されたUDFの勾配場から直接表面を抽出する多角化アルゴリズムを導入する。 合成および実走査データの表面再構成実験の結果, 広く使用されているベンチマークにおいて, 最先端技術よりも顕著な改善が見られた。

Surface reconstruction for point clouds is an important task in 3D computer vision. Most of the latest methods resolve this problem by learning signed distance functions (SDF) from point clouds, which are limited to reconstructing shapes or scenes with closed surfaces. Some other methods tried to represent shapes or scenes with open surfaces using unsigned distance functions (UDF) which are learned from large scale ground truth unsigned distances. However, the learned UDF is hard to provide smooth distance fields near the surface due to the noncontinuous character of point clouds. In this paper, we propose a novel method to learn consistency-aware unsigned distance functions directly from raw point clouds. We achieve this by learning to move 3D queries to reach the surface with a field consistency constraint, where we also enable to progressively estimate a more accurate surface. Specifically, we train a neural network to gradually infer the relationship between 3D queries and the approximated surface by searching for the moving target of queries in a dynamic way, which results in a consistent field around the surface. Meanwhile, we introduce a polygonization algorithm to extract surfaces directly from the gradient field of the learned UDF. The experimental results in surface reconstruction for synthetic and real scan data show significant improvements over the state-of-the-art under the widely used benchmarks.
翻訳日:2022-10-11 17:01:34 公開日:2022-10-08
# パラグラフレベル質問生成のための生成言語モデル

Generative Language Models for Paragraph-Level Question Generation ( http://arxiv.org/abs/2210.03992v1 )

ライセンス: Link先を確認
Asahi Ushio and Fernando Alva-Manchego and Jose Camacho-Collados(参考訳) 強力な生成モデルが近年の質問生成(QG)の進展につながっている。 しかし,QG研究の進歩を測ることは困難である。 本稿では,QGを標準QG設定に変換することで,既存の質問応答データセットを統一するQG用マルチリンガルベンチマークであるQG-Benchを紹介する。 これには、英語用のSQuADのような汎用データセット、10のドメインと2つのスタイルのデータセット、および8つの異なる言語のデータセットが含まれる。 参照としてQG-Benchを用いて、タスクの言語モデルの性能を広範囲に分析する。 まず、微調整生成言語モデルに基づく堅牢なQGベースラインを提案する。 次に,標準指標に基づく自動評価を広範囲な手作業による評価で補完し,qgモデルの評価の難しさを浮き彫りにする。 最後に、これらのモデルのドメイン適応性だけでなく、英語以外の言語における多言語モデルの有効性も分析する。 QG-Bench は https://github.com/asahi417/lm-question-generation という論文で示された細かな調整されたモデルとともにリリースされた。

Powerful generative models have led to recent progress in question generation (QG). However, it is difficult to measure advances in QG research since there are no standardized resources that allow a uniform comparison among approaches. In this paper, we introduce QG-Bench, a multilingual and multidomain benchmark for QG that unifies existing question answering datasets by converting them to a standard QG setting. It includes general-purpose datasets such as SQuAD for English, datasets from ten domains and two styles, as well as datasets in eight different languages. Using QG-Bench as a reference, we perform an extensive analysis of the capabilities of language models for the task. First, we propose robust QG baselines based on fine-tuning generative language models. Then, we complement automatic evaluation based on standard metrics with an extensive manual evaluation, which in turn sheds light on the difficulty of evaluating QG models. Finally, we analyse both the domain adaptability of these models as well as the effectiveness of multilingual models in languages other than English. QG-Bench is released along with the fine-tuned models presented in the paper https://github.com/asahi417/lm-question-generation, which are also available as a demo https://autoqg.net/.
翻訳日:2022-10-11 16:37:45 公開日:2022-10-08
# ngram-OAXE:非自己回帰機械翻訳のためのフレーズベース順序非依存的クロスエントロピー

ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2210.03999v1 )

ライセンス: Link先を確認
Cunxiao Du and Zhaopeng Tu and Longyue Wang and Jing Jiang(参考訳) 近年,非自己回帰翻訳(NAT)におけるマルチモーダリティの効果を向上し,標準的なクロスエントロピー損失における語順誤りのペナルティを除去する訓練が試みられている。 フレーズ間の再順序付けが一般的に起こる直観から始め、我々は、ngram句間の再順序付けを許すだけでoaxeを拡張し、フレーズ内の単語順序の厳密な一致を依然として要求する。 言語ペアとデータスケールにわたるNATベンチマークに関する大規模な実験は、我々のアプローチの有効性と普遍性を示している。 %解析の結果,ngram-oaxe はフレーズ翻訳のモデル化が容易なマルチモダリティ問題を緩和することがわかった。 さらなる分析により、ngram-oaxeはngram句の翻訳を実際に改善し、文構造をよりよくモデル化してより流動的な翻訳を生成することが示された。

Recently, a new training oaxe loss has proven effective to ameliorate the effect of multimodality for non-autoregressive translation (NAT), which removes the penalty of word order errors in the standard cross-entropy loss. Starting from the intuition that reordering generally occurs between phrases, we extend oaxe by only allowing reordering between ngram phrases and still requiring a strict match of word order within the phrases. Extensive experiments on NAT benchmarks across language pairs and data scales demonstrate the effectiveness and universality of our approach. %Further analyses show that the proposed ngram-oaxe alleviates the multimodality problem with a better modeling of phrase translation. Further analyses show that ngram-oaxe indeed improves the translation of ngram phrases, and produces more fluent translation with a better modeling of sentence structure.
翻訳日:2022-10-11 16:37:24 公開日:2022-10-08
# 可変要約長を用いたEDUレベルの抽出要約

EDU-level Extractive Summarization with Varying Summary Lengths ( http://arxiv.org/abs/2210.04029v1 )

ライセンス: Link先を確認
Yuping Wu, Ching-Hsun Tseng, Jiayu Shang, Shengzhong Mao, Goran Nenadic, Xiao-Jun Zeng(参考訳) 抽出モデルは通常、文書からトップk重要文を要約としてテキスト要約を定式化する。 細粒度初等談話単位(edu)の抽出を悪用する作業は少なく,抽出単位の選択に関する分析や正当化は少ない。 このようなギャップを埋めるために,本稿ではまずオラクル分析を行い,EDUと文に基づくモデルの性能の上限を比較する。 この分析は、EDUが有能な情報を失うことなく文よりも簡潔で正確な要約を行うことを正当化するために、理論的および実験的な観点から証拠を提供する。 そして,このEDUのメリットを考慮し,Varying summary Lengths(EDU-VL)を用いたEDUレベルの抽出モデルを提案し,それに対応する学習アルゴリズムを開発した。 EDU-VLは文書中のEDUの確率をエンコードし予測し、様々な$k$値に基づいて異なる長さのEDUレベルの候補要約をエンコードし、エンドツーエンドのトレーニング方法で最適な候補要約を選択する。 最後に,提案手法を単文書および複数文書のベンチマークデータセットで実験し,最新モデルとの比較により性能が向上したことを示す。

Extractive models usually formulate text summarization as extracting top-k important sentences from document as summary. Few work exploited extracting finer-grained Elementary Discourse Unit (EDU) and there is little analysis and justification for the extractive unit selection. To fill such a gap, this paper firstly conducts oracle analysis to compare the upper bound of performance for models based on EDUs and sentences. The analysis provides evidences from both theoretical and experimental perspectives to justify that EDUs make more concise and precise summary than sentences without losing salient information. Then, considering this merit of EDUs, this paper further proposes EDU-level extractive model with Varying summary Lengths (EDU-VL) and develops the corresponding learning algorithm. EDU-VL learns to encode and predict probabilities of EDUs in document, and encode EDU-level candidate summaries with different lengths based on various $k$ values and select the best candidate summary in an end-to-end training manner. Finally, the proposed and developed approach is experimented on single and multi-document benchmark datasets and shows the improved performances in comparison with the state-of-the-art models.
翻訳日:2022-10-11 16:37:07 公開日:2022-10-08
# 対話応答選択のためのタスク適応型事前学習について

On Task-Adaptive Pretraining for Dialogue Response Selection ( http://arxiv.org/abs/2210.04073v1 )

ライセンス: Link先を確認
Tzu-Hsiang Lin, Ta-Chung Chi, Anna Rumshisky(参考訳) 対話応答選択(DRS)の最近の進歩は、まず、BERT~\cite{devlin-etal-2019-bert}でモデルを初期化し、対話特化またはきめ細かな事前訓練タスクで対話データに適応させることによって、TaP(textit{task-adaptive pre-training)アプローチに基づいている。 しかし、BERTが最良の初期化選択であるかどうか、あるいは、提案した対話特化学習タスクが実際にMLM+NSPよりも優れているかどうかは不明である。 本稿は,従来の研究における仮定を検証し,DSSの改善の源泉を理解することを目的とする。 我々は,RoBERTaの初期化はBERTと同等の性能を示し,MLM+NSPは従来提案されていたすべてのTAPタスクより優れていることを示す。 さらなる分析によると、改善の主な原因はTAPステップによるもので、NSPタスクは一般的なNLUタスクとは異なる、DSSにとって不可欠である。

Recent advancements in dialogue response selection (DRS) are based on the \textit{task-adaptive pre-training (TAP)} approach, by first initializing their model with BERT~\cite{devlin-etal-2019-bert}, and adapt to dialogue data with dialogue-specific or fine-grained pre-training tasks. However, it is uncertain whether BERT is the best initialization choice, or whether the proposed dialogue-specific fine-grained learning tasks are actually better than MLM+NSP. This paper aims to verify assumptions made in previous works and understand the source of improvements for DRS. We show that initializing with RoBERTa achieve similar performance as BERT, and MLM+NSP can outperform all previously proposed TAP tasks, during which we also contribute a new state-of-the-art on the Ubuntu corpus. Additional analyses shows that the main source of improvements comes from the TAP step, and that the NSP task is crucial to DRS, different from common NLU tasks.
翻訳日:2022-10-11 16:36:46 公開日:2022-10-08
# KALM:長期文書理解のためのローカル・ドキュメント・グローバルコンテキストの知識認識統合

KALM: Knowledge-Aware Integration of Local, Document, and Global Contexts for Long Document Understanding ( http://arxiv.org/abs/2210.04105v1 )

ライセンス: Link先を確認
Shangbin Feng, Zhaoxuan Tan, Wenqian Zhang, Zhenyu Lei, Yulia Tsvetkov(参考訳) 事前訓練言語モデル(LM)の出現に伴い、下流タスクのためのLMを作成するために、コモンセンスとドメイン固有の知識を注入することに注力する研究が増えている。 これらの研究は、事前学習されたLMとともに、記号的知識表現のデファクトスタンダードである知識グラフを活用する。 既存のアプローチは外部の知識を活用するが、ローカル(文など)から文書レベル、グローバルな知識に至るまで、様々なコンテキストを表す知識グラフを共同で組み込んで、これらのコンテキスト間で知識に富み、解釈可能な交換を可能にするかは、未解決のままである。 このようなリッチな文脈化は、標準の事前訓練されたLMが典型的には入力シーケンス長によって拘束されるため、長い文書理解タスクに特に有用である。 これらの課題を踏まえて,長文理解のためのローカル,文書レベル,グローバルコンテキストの知識を協調的に活用する知識認識言語モデルであるKALMを提案する。 KALMはまず、長いドキュメントと知識グラフを3つの知識認識コンテキスト表現にエンコードする。 その後、各コンテキストをコンテキスト固有のレイヤで処理し、その後、解釈可能な知識交換を容易にするコンテキスト融合層によって、包括的なドキュメント表現を導出する。 大規模な実験により、KALMは6つのデータセット/セットにまたがる3つの長い文書理解タスクで最先端のパフォーマンスを達成する。 さらなる分析により、3つの知識認識コンテキストは相補的であり、それらは全てモデルのパフォーマンスに寄与し、異なるコンテキストの重要度と情報交換パターンは異なるタスクとデータセットに関して異なることが判明した。

With the advent of pre-trained language models (LMs), increasing research efforts have been focusing on infusing commonsense and domain-specific knowledge to prepare LMs for downstream tasks. These works attempt to leverage knowledge graphs, the de facto standard of symbolic knowledge representation, along with pre-trained LMs. While existing approaches leverage external knowledge, it remains an open question how to jointly incorporate knowledge graphs representing varying contexts, from local (e.g., sentence), to document-level, to global knowledge, to enable knowledge-rich and interpretable exchange across these contexts. Such rich contextualization can be especially beneficial for long document understanding tasks since standard pre-trained LMs are typically bounded by the input sequence length. In light of these challenges, we propose KALM, a Knowledge-Aware Language Model that jointly leverages knowledge in local, document-level, and global contexts for long document understanding. KALM first encodes long documents and knowledge graphs into the three knowledge-aware context representations. It then processes each context with context-specific layers, followed by a context fusion layer that facilitates interpretable knowledge exchange to derive an overarching document representation. Extensive experiments demonstrate that KALM achieves state-of-the-art performance on three long document understanding tasks across 6 datasets/settings. Further analyses reveal that the three knowledge-aware contexts are complementary and they all contribute to model performance, while the importance and information exchange patterns of different contexts vary with respect to different tasks and datasets.
翻訳日:2022-10-11 16:36:24 公開日:2022-10-08
# 単一GPUを用いたデータ効率:小言語モデルにおける転送手法の探索

Data-Efficiency with a Single GPU: An Exploration of Transfer Methods for Small Language Models ( http://arxiv.org/abs/2210.03871v1 )

ライセンス: Link先を確認
Alon Albalak, Akshat Shrivastava, Chinnadhurai Sankar, Adithya Sagar, Mike Ross(参考訳) マルチタスク学習(MTL)、命令チューニング、プロンプトは、最近、大規模言語モデルの新しいタスクへの一般化性を改善することが示されている。 しかし、そのような手法の利点は、より小さな言語モデルでは十分に文書化されていない。 本研究では,その影響を探索し,分離する。 (i)モデルサイズ。 (ii)汎用MTL (iii)ドメイン内MTL (iv)指示調律、及び (v) パラメータが5億未満のモデルに対するわずかな微調整。 ゼロショット設定実験では,一般目的のMLLから平均31%の相対的改善が得られ,ドメイン内MLLから37.6%の相対的改善が得られた。 大規模モデルに対する先行研究とは対照的に,命令チューニングは小モデルに対してわずか2%の性能向上をもたらす。

Multi-task learning (MTL), instruction tuning, and prompting have recently been shown to improve the generalizability of large language models to new tasks. However, the benefits of such methods are less well-documented in smaller language models, with some studies finding contradictory results. In this work, we explore and isolate the effects of (i) model size, (ii) general purpose MTL, (iii) in-domain MTL, (iv) instruction tuning, and (v) few-shot fine-tuning for models with fewer than 500 million parameters. Our experiments in the zero-shot setting demonstrate that models gain 31% relative improvement, on average, from general purpose MTL, with an additional 37.6% relative gain from in-domain MTL. Contradictory to prior works on large models, we find that instruction tuning provides a modest 2% performance improvement for small models.
翻訳日:2022-10-11 16:27:47 公開日:2022-10-08
# 自分を見失うな! 明示的自己他者認識による共感応答生成

Don't Lose Yourself! Empathetic Response Generation via Explicit Self-Other Awareness ( http://arxiv.org/abs/2210.03884v1 )

ライセンス: Link先を確認
Weixiang Zhao, Yanyan Zhao, Xin Lu, Bing Qin(参考訳) 人間のようなチャットボットを実現するための重要なステップとして、共感的な応答生成が益々増えている。 以前の試みは不完全であり、共感の初期の側面にのみ焦点を合わせ、他の認識を通じてユーザーの感情や思考を自動的に模倣するので、共感を引き出すには不十分である。 しかし、彼らはシステムの維持を無視し、自己認識と呼ばれる共感を達成する上で重要なプロセスであるシステム自身の見解を考慮に入れている。 そこで本研究では,自覚を明示した共感応答(EmpSOA)を提案する。 具体的には、自己他者分化、自己他者変調、自己他者世代という3つの段階が、自己他者認識情報を共感応答生成のプロセスに明確に維持、調整、注入するために考案される。 ベンチマークデータセットの自動評価と人的評価は、より共感的な反応を生成するためにEmpSOAの優位性を示している。

As a critical step to achieve human-like chatbots, empathetic response generation has attained increasing interests. Previous attempts are incomplete and not sufficient enough to elicit empathy because they only focus on the initial aspect of empathy to automatically mimic the feelings and thoughts of the user via other-awareness. However, they ignore to maintain and take the own views of the system into account, which is a crucial process to achieve the empathy called self-other awareness. To this end, we propose to generate Empathetic response with explicit Self-Other Awareness (EmpSOA). Specifically, three stages, self-other differentiation, self-other modulation and self-other generation, are devised to clearly maintain, regulate and inject the self-other aware information into the process of empathetic response generation. Both automatic and human evaluations on the benchmark dataset demonstrate the superiority of EmpSOA to generate more empathetic responses.
翻訳日:2022-10-11 16:27:31 公開日:2022-10-08
# 補助テキスト翻訳タスクによるエンドツーエンドテキスト画像翻訳の改善

Improving End-to-End Text Image Translation From the Auxiliary Text Translation Task ( http://arxiv.org/abs/2210.03887v1 )

ライセンス: Link先を確認
Cong Ma, Yaping Zhang, Mei Tu, Xu Han, Linghui Wu, Yang Zhao, Yu Zhou(参考訳) 近年,画像に埋め込まれたソース言語を対象言語に翻訳することを目的としたエンドツーエンドのテキスト画像翻訳 (TIT) が注目されている。 しかし、データ空間は、エンドツーエンドのテキスト画像翻訳の性能を制限する。 マルチタスク学習(multi-task learning)は、補完的なタスクから知識を探索することでこの問題を緩和する非自明な方法である。 本稿では,テキスト翻訳を補助タスクとしてエンドツーエンドモデルを訓練する,新しいテキスト翻訳強化テキスト画像翻訳を提案する。 モデルパラメータとマルチタスクのトレーニングを共有することで,大規模テキスト並列コーパスを最大限に活用することができる。 実験の結果,提案手法は既存のエンドツーエンドの手法よりも優れており,テキスト翻訳と認識タスクを併用したマルチタスク学習の方が優れた結果が得られることがわかった。

End-to-end text image translation (TIT), which aims at translating the source language embedded in images to the target language, has attracted intensive attention in recent research. However, data sparsity limits the performance of end-to-end text image translation. Multi-task learning is a non-trivial way to alleviate this problem via exploring knowledge from complementary related tasks. In this paper, we propose a novel text translation enhanced text image translation, which trains the end-to-end model with text translation as an auxiliary task. By sharing model parameters and multi-task training, our model is able to take full advantage of easily-available large-scale text parallel corpus. Extensive experimental results show our proposed method outperforms existing end-to-end methods, and the joint multi-task learning with both text translation and recognition tasks achieves better results, proving translation and recognition auxiliary tasks are complementary.
翻訳日:2022-10-11 16:27:16 公開日:2022-10-08
# トークン分類データにおけるラベルエラーの検出

Detecting Label Errors in Token Classification Data ( http://arxiv.org/abs/2210.03920v1 )

ライセンス: Link先を確認
Wei-Chen Wang, Jonas Mueller(参考訳) 特に、多くのラベルをきめ細かなベースで選択しなければならないトークン分類のようなタスクでは、誤ラベルの例が現実のデータで一般的な問題である。 ここではトークン分類データセットにラベルエラーを含む文を見つける作業について検討する。 本研究では,(任意の)トークン分類モデルによって出力される予測クラス確率に基づいて,トークン/文をスコアする11種類の簡単な手法について検討する。 conll-2003のエンティティ認識データにおける実世界のラベル誤りに基づく精度・リコール評価において、異なるトークン分類モデルに適用した場合、ラベルエラーを含む文を一貫して検出する簡易かつ効果的な手法を同定する。

Mislabeled examples are a common issue in real-world data, particularly for tasks like token classification where many labels must be chosen on a fine-grained basis. Here we consider the task of finding sentences that contain label errors in token classification datasets. We study 11 different straightforward methods that score tokens/sentences based on the predicted class probabilities output by a (any) token classification model (trained via any procedure). In precision-recall evaluations based on real-world label errors in entity recognition data from CoNLL-2003, we identify a simple and effective method that consistently detects those sentences containing label errors when applied with different token classification models.
翻訳日:2022-10-11 16:26:59 公開日:2022-10-08
# constgcn: 文書レベル関係抽出のための制約付き透過型グラフ畳み込みネットワーク

ConstGCN: Constrained Transmission-based Graph Convolutional Networks for Document-level Relation Extraction ( http://arxiv.org/abs/2210.03949v1 )

ライセンス: Link先を確認
Ji Qi, Bin Xu, Kaisheng Zeng, Jinxin Liu, Jifan Yu, Qi Gao, Juanzi Li, Lei Hou(参考訳) グラフニューラルネットワークによる文書レベルの関係抽出は、トレーニングと推論の基本的なグラフ構築ギャップに直面している。ゴールデングラフ構造はトレーニング時にのみ利用できるため、ほとんどのメソッドはヒューリスティックあるいは構文規則を採用して、擬似プロキシとして事前グラフを構築する。 本稿では,先行するグラフ構成を必要とせず,エンティティ間の知識に基づく情報伝達を行う新しいグラフ畳み込みネットワークである$\textbf{constgcn}$を提案する。 具体的には、関係空間に沿って他のすべてのエンティティから情報を集約することでエンティティ表現を更新し、関係認識空間情報をモデル化する。 非決定的な関係空間を通過する情報の流れを制御するために、ファクトトリプル間のノイズコントラスト推定から学習したスコアの伝達を用いて伝播を制約する。 実験の結果,本手法はDocREデータセットに対する従来のSOTA(State-of-the-art)アプローチよりも優れていることがわかった。

Document-level relation extraction with graph neural networks faces a fundamental graph construction gap between training and inference - the golden graph structure only available during training, which causes that most methods adopt heuristic or syntactic rules to construct a prior graph as a pseudo proxy. In this paper, we propose $\textbf{ConstGCN}$, a novel graph convolutional network which performs knowledge-based information propagation between entities along with all specific relation spaces without any prior graph construction. Specifically, it updates the entity representation by aggregating information from all other entities along with each relation space, thus modeling the relation-aware spatial information. To control the information flow passing through the indeterminate relation spaces, we propose to constrain the propagation using transmitting scores learned from the Noise Contrastive Estimation between fact triples. Experimental results show that our method outperforms the previous state-of-the-art (SOTA) approaches on the DocRE dataset.
翻訳日:2022-10-11 16:26:45 公開日:2022-10-08
# CTCに基づく非自己回帰機械翻訳のための非単調遅延アライメント

Non-Monotonic Latent Alignments for CTC-Based Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2210.03953v1 )

ライセンス: Link先を確認
Chenze Shao and Yang Feng(参考訳) 非自己回帰翻訳(NAT)モデルは、典型的にはクロスエントロピー損失(英語版)で訓練され、これはモデル出力を目標文と垂直に調整し、単語位置の小さなシフトを高度に罰する。 ラテントアライメントモデルは、CTC損失とともに全ての単調ラテントアライメントを疎外することにより、明示的なアライメントを緩和する。 しかし、機械翻訳において一般的にグローバルな単語の並べ替えがあるため、非単調なアライメントを扱うことはできない。 本研究ではNATの非単調遅延アライメントについて検討する。 我々は、アライメント空間を非単調アライメントに拡張し、大域的な単語の並べ替えを可能にし、ターゲット文と重なるすべてのアライメントについて検討する。 対象文へのアライメントを非単調に一致させ、非単調マッチングのf1スコアを最大化するために潜在アライメントモデルを訓練する。 大規模なWMTベンチマーク実験により,提案手法はCTCモデルにおける翻訳性能を大幅に向上させることが示された。 最善のモデルはwmt14 en-de上で30.06 bleuを達成し,非自己回帰モデルと自己回帰モデルの間のギャップを埋める。

Non-autoregressive translation (NAT) models are typically trained with the cross-entropy loss, which forces the model outputs to be aligned verbatim with the target sentence and will highly penalize small shifts in word positions. Latent alignment models relax the explicit alignment by marginalizing out all monotonic latent alignments with the CTC loss. However, they cannot handle non-monotonic alignments, which is non-negligible as there is typically global word reordering in machine translation. In this work, we explore non-monotonic latent alignments for NAT. We extend the alignment space to non-monotonic alignments to allow for the global word reordering and further consider all alignments that overlap with the target sentence. We non-monotonically match the alignments to the target sentence and train the latent alignment model to maximize the F1 score of non-monotonic matching. Extensive experiments on major WMT benchmarks show that our method substantially improves the translation performance of CTC-based models. Our best model achieves 30.06 BLEU on WMT14 En-De with only one-iteration decoding, closing the gap between non-autoregressive and autoregressive models.
翻訳日:2022-10-11 16:26:28 公開日:2022-10-08
# SDA:コントラスト表現学習のための簡易離散化

SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning ( http://arxiv.org/abs/2210.03963v1 )

ライセンス: Link先を確認
Zhenyu Mao, Dongsheng Zhu, Jinghui Lu, Rui Zhao, Fei Tan(参考訳) コントラスト学習は教師なし文表現学習において最先端の結果を得る。 コントラスト学習において重要な役割を担っているが、文に適用されるデータ拡張方法は十分に研究されていない。 現在のSOTA法であるSimCSEは、トリミング、単語削除、同義語置換といった離散的な拡張よりも優れた、連続的な拡張として単純なドロップアウト機構を利用する。 そこで我々は,既存の手法を再検討し,意味的一貫性と表現の多様性のバランスという,合理的なデータ拡張手法のデシラタを仮説化しようと試みる。 本仮説では, 句読点挿入, 肯定補助, 二重否定の3つの簡易かつ効果的な離散文拡張法を提案する。 句読点、副詞、否定語は語彙レベルで最小の雑音として作用し、多様な文表現を生み出す。 文をランダムに修飾する従来の拡張法とは異なり、拡張規則は意味的に一貫性があり文法的に正しい文を生成するためによく設計されている。 英語と中国語のセマンティクスの類似性データセットについて広範な実験を行った。 その結果,提案手法の堅牢性と有効性を示した。

Contrastive learning methods achieve state-of-the-art results in unsupervised sentence representation learning. Although playing essential roles in contrastive learning, data augmentation methods applied on sentences have not been fully explored. Current SOTA method SimCSE utilizes a simple dropout mechanism as continuous augmentation which outperforms discrete augmentations such as cropping, word deletion and synonym replacement. To understand the underlying rationales, we revisit existing approaches and attempt to hypothesize the desiderata of reasonable data augmentation methods: balance of semantic consistency and expression diversity. Based on the hypothesis, we propose three simple yet effective discrete sentence augmentation methods, i.e., punctuation insertion, affirmative auxiliary and double negation. The punctuation marks, auxiliaries and negative words act as minimal noises in lexical level to produce diverse sentence expressions. Unlike traditional augmentation methods which randomly modify the sentence, our augmentation rules are well designed for generating semantically consistent and grammatically correct sentences. We conduct extensive experiments on both English and Chinese semantic textual similarity datasets. The results show the robustness and effectiveness of the proposed methods.
翻訳日:2022-10-11 16:26:04 公開日:2022-10-08
# テキスト生成モデルのための鳥眼トランスフォーマー

Bird-Eye Transformers for Text Generation Models ( http://arxiv.org/abs/2210.03985v1 )

ライセンス: Link先を確認
Lei Sha, Yuhang Song, Yordan Yordanov, Tommaso Salvatori, Thomas Lukasiewicz(参考訳) トランスフォーマーは、機械翻訳の成功以来、テキスト生成モデルにとって欠かせないモジュールとなっている。 以前の研究は、トランスフォーマーがクェリキー値のドット積の注意に起因しており、完全に連結されたトークングラフによる堅牢な帰納バイアスを与えている。 しかし,自己注意には厳しい限界があることが判明した。 i+1)-thトークンを予測する場合、自己注意はi-thトークンのみを情報収集として取り、それと同じようなトークンに対して高い注意重みを与える傾向がある。 したがって、iトークン以前に発生した歴史的情報のほとんどは考慮されていない。 本稿では,鳥眼トランスフォーマー(BET)と呼ばれる新しいアーキテクチャを提案する。このアーキテクチャは,自己注意を再重み付けし,重要な歴史的情報にもっと焦点を合わせることで,トランスフォーマーの性能を向上させるための一歩である。 我々は,機械翻訳(2データセット)や言語モデル(3データセット)など,複数のテキスト生成タスクの実験を行った。 これらの実験結果から,提案手法は,~all~datasetsのベースライントランスフォーマタアーキテクチャよりも優れた性能が得られることがわかった。 コードは: \url{https://sites.google.com/view/bet-transformer/home} でリリースされる。

Transformers have become an indispensable module for text generation models since their great success in machine translation. Previous works attribute the~success of transformers to the query-key-value dot-product attention, which provides a robust inductive bias by the fully connected token graphs. However, we found that self-attention has a severe limitation. When predicting the (i+1)-th token, self-attention only takes the i-th token as an information collector, and it tends to give a high attention weight to those tokens similar to itself. Therefore, most of the historical information that occurred before the i-th token is not taken into consideration. Based on this observation, in this paper, we propose a new architecture, called bird-eye transformer(BET), which goes one step further to improve the performance of transformers by reweighting self-attention to encourage it to focus more on important historical information. We have conducted experiments on multiple text generation tasks, including machine translation (2 datasets) and language models (3 datasets). These experimental~results show that our proposed model achieves a better performance than the baseline transformer architectures on~all~datasets. The code is released at: \url{https://sites.google.com/view/bet-transformer/home}.
翻訳日:2022-10-11 16:25:47 公開日:2022-10-08
# KubernetesでGPUを共有するクラウドネイティブなロボットアプリケーション

Cloud Native Robotic Applications with GPU Sharing on Kubernetes ( http://arxiv.org/abs/2210.03936v1 )

ライセンス: Link先を確認
Giovanni Toffetti, Leonardo Militano, Se\'an Murphy, Remo Maurer, Mark Straub(参考訳) 本稿では、Kubernetes(k8s)クラスタとリアルで異質なロボットハードウェアを組み合わせた、ZHAWのRobotic Applications Programmingコースの教育経験について論じる。 我々は、学生にとってシームレスな‘シミュレーション・トゥ・リアル’体験と、ディープラーニングワークロードをサポートするために、ネットワークやGPUの共有に遭遇した主な欠点の観点から、ソリューションの主な利点について論じる。 今後のコースエディションでこれらの欠点を避けるために、現在および前向きな代替策を説明し、k8sクラスタに複数のロボティクスアプリケーションをデプロイするための、よりクラウドネイティブなアプローチを提案する。

In this paper we discuss our experience in teaching the Robotic Applications Programming course at ZHAW combining the use of a Kubernetes (k8s) cluster and real, heterogeneous, robotic hardware. We discuss the main advantages of our solutions in terms of seamless ``simulation to real'' experience for students and the main shortcomings we encountered with networking and sharing GPUs to support deep learning workloads. We describe the current and foreseen alternatives to avoid these drawbacks in future course editions and propose a more cloud-native approach to deploying multiple robotics applications on a k8s cluster.
翻訳日:2022-10-11 16:10:51 公開日:2022-10-08
# 対人攻撃に対するシンメトリーサブグループ防衛

Symmetry Subgroup Defense Against Adversarial Attacks ( http://arxiv.org/abs/2210.04087v1 )

ライセンス: Link先を確認
Blerta Lindqvist(参考訳) 敵対的な攻撃と防御は畳み込みニューラルネットワーク(cnns)の不分散の欠如、すなわちサンプルを分類するcnnができないことやそれらの対称変換を無視する。 対称性変換に関するcnnの不変性の欠如は、変換元のサンプルを分類する場合は有害であるが、変換された逆のサンプルを分類する場合は必ずしも有害ではない。 原画像では、不変性の欠如は、対称変換された原サンプルが正しいラベルと異なる分類がなされていることを意味する。 しかし, 逆境画像では, 対称変換された逆境画像は, 不正な逆境ラベルとは異なる分類がなされている。 CNNの非分散の欠如は、対称変換された逆数サンプルを正しい分類に戻すか? 本稿では,ゼロ知識の敵から完全知識の敵まで幅広い脅威モデルを提案する。 我々は、画素強度反転のさらなる人工対称性を含むクライン四対称性部分群を考案することによる完全知識の敵に対する防御を基礎とする。 部分群の閉包性は、精度評価のためのフレームワークを提供するだけでなく、適応的で完全知識の敵が適用できる変換を限定する。 我々は、対称防御のみを使用することで、敵のサンプルを使わず、モデルアーキテクチャやパラメータに何も変更することなく、pgdの敵意攻撃を防御することができ、imagenetの完全知識の敵に対してさえ、pgdの敵意防衛を最大50%超えている。 提案手法は,非敵試料の分類精度を維持・超えている。

Adversarial attacks and defenses disregard the lack of invariance of convolutional neural networks (CNNs), that is, the inability of CNNs to classify samples and their symmetric transformations the same. The lack of invariance of CNNs with respect to symmetry transformations is detrimental when classifying transformed original samples but not necessarily detrimental when classifying transformed adversarial samples. For original images, the lack of invariance means that symmetrically transformed original samples are classified differently from their correct labels. However, for adversarial images, the lack of invariance means that symmetrically transformed adversarial images are classified differently from their incorrect adversarial labels. Might the CNN lack of invariance revert symmetrically transformed adversarial samples to the correct classification? This paper answers this question affirmatively for a threat model that ranges from zero-knowledge adversaries to perfect-knowledge adversaries. We base our defense against perfect-knowledge adversaries on devising a Klein four symmetry subgroup that incorporates an additional artificial symmetry of pixel intensity inversion. The closure property of the subgroup not only provides a framework for the accuracy evaluation but also confines the transformations that an adaptive, perfect-knowledge adversary can apply. We find that by using only symmetry defense, no adversarial samples, and by changing nothing in the model architecture and parameters, we can defend against white-box PGD adversarial attacks, surpassing the PGD adversarial training defense by up to ~50% even against a perfect-knowledge adversary for ImageNet. The proposed defense also maintains and surpasses the classification accuracy for non-adversarial samples.
翻訳日:2022-10-11 16:10:39 公開日:2022-10-08
# 効率的な学習画像圧縮のためのプログレッシブモデルとオーバーフィットの活用

Leveraging progressive model and overfitting for efficient learned image compression ( http://arxiv.org/abs/2210.04112v1 )

ライセンス: Link先を確認
Honglei Zhang, Francesco Cricri, Hamed Rezazadegan Tavakoli, Emre Aksu, Miska M. Hannuksela(参考訳) ディープラーニングは過去10年間、コンピュータビジョンと画像/ビデオ処理の分野で圧倒的に支配的だった。 しかし、画像やビデオの圧縮では、離散コサイン変換(DCT)と線形フィルタに基づく従来の手法に遅れがある。 オートエンコーダアーキテクチャ上に構築された学習画像圧縮(lic)システムは近年大きな注目を集めている。 それでも提案されたlicシステムは、圧縮性能または復号化の複雑さのため、Versatile Video Coding (VVC/H.266) 規格のような最先端の伝統的な技術に劣っている。 限られたビットレート範囲でVVC/H.266より優れていると主張したが、GPUシステムで2K画像をデコードするのに40秒以上かかるという提案がある。 本稿では,マルチスケールプログレッシブ(MSP)確率モデルと潜在表現オーバーフィッティング(LOF)技術を用いた,強力で柔軟なlicフレームワークを提案する。 事前定義されたプロファイルの異なるフレームワークでは、圧縮効率と計算複雑性のバランスポイントを達成できる。 実験の結果,提案フレームワークはVVC/H.266標準よりも2.5%,1.0%,1.3%のBjontegaardデルタビットレート(BDレート)の削減を実現している。 さらに重要なことに、2K画像の復号時に20倍以上のスピードアップが生じるため、復号複雑性はO(n)からO(1)に減少する。

Deep learning is overwhelmingly dominant in the field of computer vision and image/video processing for the last decade. However, for image and video compression, it lags behind the traditional techniques based on discrete cosine transform (DCT) and linear filters. Built on top of an autoencoder architecture, learned image compression (LIC) systems have drawn enormous attention in recent years. Nevertheless, the proposed LIC systems are still inferior to the state-of-the-art traditional techniques, for example, the Versatile Video Coding (VVC/H.266) standard, due to either their compression performance or decoding complexity. Although claimed to outperform the VVC/H.266 on a limited bit rate range, some proposed LIC systems take over 40 seconds to decode a 2K image on a GPU system. In this paper, we introduce a powerful and flexible LIC framework with multi-scale progressive (MSP) probability model and latent representation overfitting (LOF) technique. With different predefined profiles, the proposed framework can achieve various balance points between compression efficiency and computational complexity. Experiments show that the proposed framework achieves 2.5%, 1.0%, and 1.3% Bjontegaard delta bit rate (BD-rate) reduction over the VVC/H.266 standard on three benchmark datasets on a wide bit rate range. More importantly, the decoding complexity is reduced from O(n) to O(1) compared to many other LIC systems, resulting in over 20 times speedup when decoding 2K images.
翻訳日:2022-10-11 16:10:11 公開日:2022-10-08
# 非常に高いメモリレートを持つ連想記憶モデル:逐次加算学習による画像記憶

An associative memory model with very high memory rate: Image storage by sequential addition learning ( http://arxiv.org/abs/2210.03893v1 )

ライセンス: Link先を確認
Hiroshi Inazawa(参考訳) 本稿では,1つのニューロン群(「キューボール」)と1層ニューラルネットワーク(「リコールネット」)からなる記憶と記憶に関するニューラルネットワークシステムを提案する。 このシステムは、キューボールの1つのキューニューロンとリコールネットのニューロンとの双方向記憶学習を実現する。 多くのパターンを記憶し、そのパターンや類似したパターンをいつでも記憶することができる。 さらに、パターンをほとんど同時にリコールする。 このモデルのリコール状況は、1つのリコール時にほぼ同時に、さまざまな類似のリコールに似ています。 また、予め記憶されたパターンに影響を与えずに、システム内で追加の学習を行うこともできる。 さらに、メモリレート(記憶パターン数/ニューロン総数)は100%近く、このシステムでは0.987である。 最後に、このシステムの重要な側面はパターンデータ制約である。

In this paper, we present a neural network system related to about memory and recall that consists of one neuron group (the "cue ball") and a one-layer neural net (the "recall net"). This system realizes the bidirectional memorization learning between one cue neuron in the cue ball and the neurons in the recall net. It can memorize many patterns and recall these patterns or those that are similar at any time. Furthermore, the patterns are recalled at most the same time. This model's recall situation seems to resemble human recall of a variety of similar things almost simultaneously when one thing is recalled. It is also possible for additional learning to occur in the system without affecting the patterns memorized in advance. Moreover, the memory rate (the number of memorized patterns / the total number of neurons) is close to 100%; this system's rate is 0.987. Finally, pattern data constraints become an important aspect of this system.
翻訳日:2022-10-11 15:52:28 公開日:2022-10-08
# カーネルによる次世代POI勧告のためのサブ構造探査

Kernel-based Substructure Exploration for Next POI Recommendation ( http://arxiv.org/abs/2210.03969v1 )

ライセンス: Link先を確認
Wei Ju, Yifang Qin, Ziyue Qiao, Xiao Luo, Yifan Wang, Yanjie Fu, Ming Zhang(参考訳) GPS対応デバイスと位置情報ベースのソーシャルネットワーク(LBSN)の普及の恩恵を受けるPOI勧告は、レコメンダシステムにおいてますます重要な役割を果たす。 利用者に、過去の訪問状況や現在の状況に基づいて、興味のある訪問先を見つけるための便利な機能を提供することを目指している。 既存のほとんどの手法は、リカレントニューラルネットワーク(RNN)を利用して、レコメンデーションのためのシーケンシャルな影響を探索する。 有効性にもかかわらず、これらの手法は、POI間の位相的地理的影響を無視するだけでなく、高次逐次サブストラクチャのモデル化にも失敗する。 上記の課題に対処するために,地理的および逐次的影響の両特性を協調的に組み合わせた,次のPOIレコメンデーションのためのカーネルベースグラフニューラルネットワーク(KBGNN)を提案する。 KBGNNは地理的モジュールと逐次モジュールで構成される。 一方、地理的グラフを構築し、メッセージパッシングニューラルネットワークを活用して、地形的地理的影響を捉える。 一方,グラフカーネルニューラルネットワークを用いて,ユーザの嗜好を捉えるために,ユーザが認識するシーケンシャルグラフの高次シーケンシャルな部分構造を探索する。 最後に、2つの別々のグラフから抽出された地理情報と順序情報を統合するために、一貫性学習フレームワークを導入する。 このように、2つのモジュールは相互に強化するために知識を効果的に交換する。 2つの実世界のLBSNデータセットに対して行われた大規模な実験は、提案手法が最先端技術よりも優れた性能を示した。 私たちのコードはhttps://github.com/fang6ang/kbgnnで利用可能です。

Point-of-Interest (POI) recommendation, which benefits from the proliferation of GPS-enabled devices and location-based social networks (LBSNs), plays an increasingly important role in recommender systems. It aims to provide users with the convenience to discover their interested places to visit based on previous visits and current status. Most existing methods usually merely leverage recurrent neural networks (RNNs) to explore sequential influences for recommendation. Despite the effectiveness, these methods not only neglect topological geographical influences among POIs, but also fail to model high-order sequential substructures. To tackle the above issues, we propose a Kernel-Based Graph Neural Network (KBGNN) for next POI recommendation, which combines the characteristics of both geographical and sequential influences in a collaborative way. KBGNN consists of a geographical module and a sequential module. On the one hand, we construct a geographical graph and leverage a message passing neural network to capture the topological geographical influences. On the other hand, we explore high-order sequential substructures in the user-aware sequential graph using a graph kernel neural network to capture user preferences. Finally, a consistency learning framework is introduced to jointly incorporate geographical and sequential information extracted from two separate graphs. In this way, the two modules effectively exchange knowledge to mutually enhance each other. Extensive experiments conducted on two real-world LBSN datasets demonstrate the superior performance of our proposed method over the state-of-the-arts. Our codes are available at https://github.com/Fang6ang/KBGNN.
翻訳日:2022-10-11 15:51:08 公開日:2022-10-08
# シミュレータとしての認知モデル--道徳的意思決定の場合

Cognitive Models as Simulators: The Case of Moral Decision-Making ( http://arxiv.org/abs/2210.04121v1 )

ライセンス: Link先を確認
Ardavan S. Nobandegani, Thomas R. Shultz, Irina Rish(参考訳) 望ましいパフォーマンスを達成するために、現在のAIシステムは、しばしば大量のトレーニングデータを必要とする。 これは、データ収集が高価かつ時間を要する領域において特に問題となる。例えば、AIシステムは人間と多くの対話を必要とし、フィードバックを収集する。 この研究では、aiシステムが人間ではなく認知モデルと対話し、フィードバックを収集することで、彼らのトレーニングプロセスが安価で速くなるという、$\textit{cognitive models as simulators}$というアイデアを実証する。 本稿では,この概念をモラル意思決定の文脈において活用し,強化学習(rl)エージェントに,行動科学や脳科学の正準的課題であるultimatum game(ug)の認知モデルとのインタラクションを通じて公平性について学習させる。 興味深いことに、これらのRLエージェントは、シミュレーションされたUG応答子の感情状態に応じて、行動に合理的に適応することを学ぶ。 私たちの研究は、人間のシミュレータとして認知モデルを使用することが、aiシステムのトレーニングに効果的なアプローチであることを示唆している。

To achieve desirable performance, current AI systems often require huge amounts of training data. This is especially problematic in domains where collecting data is both expensive and time-consuming, e.g., where AI systems require having numerous interactions with humans, collecting feedback from them. In this work, we substantiate the idea of $\textit{cognitive models as simulators}$, which is to have AI systems interact with, and collect feedback from, cognitive models instead of humans, thereby making their training process both less costly and faster. Here, we leverage this idea in the context of moral decision-making, by having reinforcement learning (RL) agents learn about fairness through interacting with a cognitive model of the Ultimatum Game (UG), a canonical task in behavioral and brain sciences for studying fairness. Interestingly, these RL agents learn to rationally adapt their behavior depending on the emotional state of their simulated UG responder. Our work suggests that using cognitive models as simulators of humans is an effective approach for training AI systems, presenting an important way for computational cognitive science to make contributions to AI.
翻訳日:2022-10-11 15:50:43 公開日:2022-10-08
# DIMES: 組合せ最適化問題のための微分可能なメタソルバー

DIMES: A Differentiable Meta Solver for Combinatorial Optimization Problems ( http://arxiv.org/abs/2210.04123v1 )

ライセンス: Link先を確認
Ruizhong Qiu, Zhiqing Sun, Yiming Yang(参考訳) 近年, NP-hard Combinatorial Optimization (CO) 問題を解く上で, 深層強化学習(DRL)モデルが有望な結果を示している。 しかし、ほとんどのDRLソルバは、トラベルセールスマン問題(TSP)のようなグラフ上の組合せ最適化問題に対して数百のノードにしかスケールできない。 本稿では,新しい手法,すなわちdimsを提案することで,大規模組合せ最適化におけるスケーラビリティ問題に対処する。 コストのかかる自己回帰的復号法や離散解の反復的洗練に苦しむ従来のDRL法とは異なり、DIMESは候補解の基底分布をパラメータ化するためのコンパクトな連続空間を導入する。 このような連続空間は、安定的な強化ベースのトレーニングと超並列サンプリングによる微調整を可能にする。 さらに,モデルパラメータの微調整段階における効果的な初期化を可能にするメタ学習フレームワークを提案する。 DIMESは、トラベリングセールスマン問題や最大独立セット問題のための大規模なベンチマークデータセットにおいて、最近のDRLベースの手法よりも優れていることを示す。

Recently, deep reinforcement learning (DRL) models have shown promising results in solving NP-hard Combinatorial Optimization (CO) problems. However, most DRL solvers can only scale to a few hundreds of nodes for combinatorial optimization problems on graphs, such as the Traveling Salesman Problem (TSP). This paper addresses the scalability challenge in large-scale combinatorial optimization by proposing a novel approach, namely, DIMES. Unlike previous DRL methods which suffer from costly autoregressive decoding or iterative refinements of discrete solutions, DIMES introduces a compact continuous space for parameterizing the underlying distribution of candidate solutions. Such a continuous space allows stable REINFORCE-based training and fine-tuning via massively parallel sampling. We further propose a meta-learning framework to enable the effective initialization of model parameters in the fine-tuning stage. Extensive experiments show that DIMES outperforms recent DRL-based methods on large benchmark datasets for Traveling Salesman Problems and Maximal Independent Set problems.
翻訳日:2022-10-11 15:50:22 公開日:2022-10-08
# 乳房密度予測のための深層学習モデルに対する可変ラベルの効果

The effect of variable labels on deep learning models trained to predict breast density ( http://arxiv.org/abs/2210.04106v1 )

ライセンス: Link先を確認
Steven Squires, Elaine F. Harkness, D. Gareth Evans and Susan M. Astley(参考訳) 目的: 乳房密度が高いと, マンモグラフィスクリーニングの有効性が低下し, 乳癌の発生リスクが増大する。 正確で信頼性の高い自動密度推定は、リスクの直接予測や密度関連情報をさらなる予測モデルに渡すために使用できる。 専門家による密度評価は、がんのリスクとリーダー間の変異と強い関係を示している。 研究目的と臨床目的の両方に自動手法をどのように活用するかを考える場合,ラベルの変動がモデル性能に与える影響が重要である。 方法: 画像のサブセットを密度ラベルで利用して深層移動学習モデルを訓練し, ラベルの変動が表現から予測へのマッピングに与える影響を評価する。 次に2つのエンド・ツー・エンドのディープラーニングモデルを作成し,ラベル変動が生成したモデル表現に与える影響を調べる。 結果: 学習された表現からラベルへのマッピングは, 読者のスコアの変動によって大きく変化する。 分布の変化を除去したラベルのトレーニングにより、Spearmanの相関係数は0.751\pm0.002$から0.815\pm0.006$に上昇する。 しかし、表現効果を調べるために異なるモデルを訓練すると、スピアマンのランク相関係数が$0.846\pm0.006$と$0.850\pm0.006$で、密度予測に関してモデル表現の品質に統計的に有意な差は示さない。 結論: 表現とマンモグラフィ密度予測のマッピングはラベル変動に大きく影響することが示された。 しかし,ラベルの変動がモデル表現に与える影響は限られている。

Purpose: High breast density is associated with reduced efficacy of mammographic screening and increased risk of developing breast cancer. Accurate and reliable automated density estimates can be used for direct risk prediction and passing density related information to further predictive models. Expert reader assessments of density show a strong relationship to cancer risk but also inter-reader variation. The effect of label variability on model performance is important when considering how to utilise automated methods for both research and clinical purposes. Methods: We utilise subsets of images with density labels to train a deep transfer learning model which is used to assess how label variability affects the mapping from representation to prediction. We then create two end-to-end deep learning models which allow us to investigate the effect of label variability on the model representation formed. Results: We show that the trained mappings from representations to labels are altered considerably by the variability of reader scores. Training on labels with distribution variation removed causes the Spearman rank correlation coefficients to rise from $0.751\pm0.002$ to either $0.815\pm0.006$ when averaging across readers or $0.844\pm0.002$ when averaging across images. However, when we train different models to investigate the representation effect we see little difference, with Spearman rank correlation coefficients of $0.846\pm0.006$ and $0.850\pm0.006$ showing no statistically significant difference in the quality of the model representation with regard to density prediction. Conclusions: We show that the mapping between representation and mammographic density prediction is significantly affected by label variability. However, the effect of the label variability on the model representation is limited.
翻訳日:2022-10-11 15:35:36 公開日:2022-10-08
# メタDMoE: メタ蒸留によるドメインシフトへの適応

Meta-DMoE: Adapting to Domain Shift by Meta-Distillation from Mixture-of-Experts ( http://arxiv.org/abs/2210.03885v1 )

ライセンス: Link先を確認
Tao Zhong, Zhixiang Chi, Li Gu, Yang Wang, Yuanhao Yu, Jin Tang(参考訳) 本稿では,ドメインシフトの問題に取り組む。 既存のほとんどのメソッドは単一のモデルを使って複数のソースドメインでトレーニングを行い、同じトレーニングされたモデルがすべての未確認ターゲットドメインで使用されている。 このような解は、各対象領域が独自の特殊性を示し、適用されないため、準最適である。 さらに、複数のソースドメインから広範な知識を学ぶための単一モデルのトレーニングを期待することは直観に反する。 このモデルは、ドメイン不変の特徴のみを学ぶことに偏りがあり、負の知識伝達をもたらす可能性がある。 本研究では,ドメインシフトに対処するための知識蒸留プロセスとして定式化された,教師なしテスト時間適応のための新しいフレームワークを提案する。 具体的には,moe (mixed-of-experts) を教員として取り入れ,各専門家はそれぞれの専門性を最大化するために,異なるソースドメインで個別に訓練される。 テストタイムターゲットドメインが与えられたら、ラベルなしデータの小さなセットをサンプリングして、MoEから知識を問い合わせる。 ソースドメインは対象ドメインと相関しているため、トランスフォーマーベースのアグリゲータは、それらの相互接続を調べてドメイン知識を組み合わせる。 出力を監視信号として処理し、学生予測ネットワークを対象領域に適応させる。 我々はさらにメタラーニングを用いて、肯定的な知識と学生ネットワークを抽出し、迅速な適応を実現する。 実験により,提案手法は最先端技術より優れ,各部品の有効性が検証された。 私たちのコードはhttps://github.com/n3il666/Meta-DMoEで利用可能です。

In this paper, we tackle the problem of domain shift. Most existing methods perform training on multiple source domains using a single model, and the same trained model is used on all unseen target domains. Such solutions are sub-optimal as each target domain exhibits its own speciality, which is not adapted. Furthermore, expecting the single-model training to learn extensive knowledge from the multiple source domains is counterintuitive. The model is more biased toward learning only domain-invariant features and may result in negative knowledge transfer. In this work, we propose a novel framework for unsupervised test-time adaptation, which is formulated as a knowledge distillation process to address domain shift. Specifically, we incorporate Mixture-of-Experts (MoE) as teachers, where each expert is separately trained on different source domains to maximize their speciality. Given a test-time target domain, a small set of unlabeled data is sampled to query the knowledge from MoE. As the source domains are correlated to the target domains, a transformer-based aggregator then combines the domain knowledge by examining the interconnection among them. The output is treated as a supervision signal to adapt a student prediction network toward the target domain. We further employ meta-learning to enforce the aggregator to distill positive knowledge and the student network to achieve fast adaptation. Extensive experiments demonstrate that the proposed method outperforms the state-of-the-art and validates the effectiveness of each proposed component. Our code is available at https://github.com/n3il666/Meta-DMoE.
翻訳日:2022-10-11 15:23:10 公開日:2022-10-08
# スパイク共分散モデルのスペクトル補正および正規化線形判別解析

Spectrally-Corrected and Regularized Linear Discriminant Analysis for Spiked Covariance Model ( http://arxiv.org/abs/2210.03859v1 )

ライセンス: Link先を確認
Hua Li, Wenya Luo, Zhidong Bai, Huanchao Zhou, Zhangni Pu(参考訳) 本稿では,スペクトル補正および正規化線形判別分析(scrlda)と呼ばれる線形判別解析の改良を提案する。 本手法は,サンプルスペクトル補正共分散行列の設計アイデアと正規化判別分析を統合する。 SCRLDA法は、共分散行列がスパイクモデルに従うという仮定の下で、分類問題のために特別に設計されている。 実データ解析とシミュレーションデータ解析により,提案した分類器は古典的R-LDAよりも優れており,計算複雑性の低減を図りながら,KNN,SVM分類器と同等の競争力を持つことが示された。

In this paper, we propose an improved linear discriminant analysis, called spectrally-corrected and regularized linear discriminant analysis (SCRLDA). This method integrates the design ideas of the sample spectrally-corrected covariance matrix and the regularized discriminant analysis. The SCRLDA method is specially designed for classification problems under the assumption that the covariance matrix follows a spiked model. Through the real and simulated data analysis, it is shown that our proposed classifier outperforms the classical R-LDA and can be as competitive as the KNN, SVM classifiers while requiring lower computational complexity.
翻訳日:2022-10-11 15:15:44 公開日:2022-10-08
# TAME: 複数のエキスパートによるタスク非依存連続学習

TAME: Task Agnostic Continual Learning using Multiple Experts ( http://arxiv.org/abs/2210.03869v1 )

ライセンス: Link先を確認
Haoran Zhu and Maryam Majzoubi and Arihant Jain and Anna Choromanska(参考訳) 生涯学習の目標は、非定常分布から連続的に学習することであり、非定常性は典型的に異なる一連のタスクによって課される。 先行研究は主に理想主義的な設定と考えられており、タスクのアイデンティティは少なくともトレーニングで知られている。 本稿では,タスクの同一性が分かっておらず,学習機械が観察からそれらを推測する必要がある,いわゆるタスク非依存の設定に着目する。 我々はTAME(Task-Agnostic continual learning using Multiple Experts)と呼ぶアルゴリズムを用いて,タスクエキスパートネットワーク間のデータ分散と切り替えを自動的にオンラインに検出する。 トレーニングにおいて、タスク間の切り替え戦略は、非常に単純な観察に基づいており、新しいタスク毎に、この新しいタスクの開始を示す損失関数の値に統計的に重要なずれが生じている。 推論では、専門家間の切り替えは、テストサンプルを関連する専門家ネットワークに転送するセレクタネットワークによって制御される。 セレクタネットワークはランダムにランダムに描画されるデータの小さなサブセットで訓練される。 我々は,タスクエキスパートネットワークとセレクタネットワークの成長をオンラインプルーニングを用いて制御する。 実験の結果,本手法が連続学習データセットのベンチマークに有効であることを示し,従来のタスク非依存手法よりも優れており,トレーニングとテストの両方においてタスクの同一性を認める手法も同等のモデルサイズで採用していることが示された。

The goal of lifelong learning is to continuously learn from non-stationary distributions, where the non-stationarity is typically imposed by a sequence of distinct tasks. Prior works have mostly considered idealistic settings, where the identity of tasks is known at least at training. In this paper we focus on a fundamentally harder, so-called task-agnostic setting where the task identities are not known and the learning machine needs to infer them from the observations. Our algorithm, which we call TAME (Task-Agnostic continual learning using Multiple Experts), automatically detects the shift in data distributions and switches between task expert networks in an online manner. At training, the strategy for switching between tasks hinges on an extremely simple observation that for each new coming task there occurs a statistically-significant deviation in the value of the loss function that marks the onset of this new task. At inference, the switching between experts is governed by the selector network that forwards the test sample to its relevant expert network. The selector network is trained on a small subset of data drawn uniformly at random. We control the growth of the task expert networks as well as selector network by employing online pruning. Our experimental results show the efficacy of our approach on benchmark continual learning data sets, outperforming the previous task-agnostic methods and even the techniques that admit task identities at both training and testing, while at the same time using a comparable model size.
翻訳日:2022-10-11 15:15:33 公開日:2022-10-08
# グラフフレームレットによる一般化エネルギーと勾配流れ

Generalized energy and gradient flow via graph framelets ( http://arxiv.org/abs/2210.04124v1 )

ライセンス: Link先を確認
Andi Han, Dai Shi, Zhiqi Shao, Junbin Gao(参考訳) 本研究では,エネルギー勾配流の観点からフレームレット型グラフニューラルネットワークの理論的理解について述べる。 フレームレットモデルをいくつかのエネルギーの離散勾配流として見ることにより、周波数成分の異なる重み行列を用いて低周波と高周波の両方を誘導できることを示す。 これは、ホモ親和グラフとヘテロ親和グラフの両方において優れた経験的性能を示す。 次に,フレームレット分解による一般化エネルギーを提案し,その勾配流れがグラフニューラルネットワークに繋がることを示す。 次に,提案モデルがより柔軟なダイナミクスにどのようにつながるかを説明し,グラフニューラルネットワークの表現力を高める可能性を示した。

In this work, we provide a theoretical understanding of the framelet-based graph neural networks through the perspective of energy gradient flow. By viewing the framelet-based models as discretized gradient flows of some energy, we show it can induce both low-frequency and high-frequency-dominated dynamics, via the separate weight matrices for different frequency components. This substantiates its good empirical performance on both homophilic and heterophilic graphs. We then propose a generalized energy via framelet decomposition and show its gradient flow leads to a novel graph neural network, which includes many existing models as special cases. We then explain how the proposed model generally leads to more flexible dynamics, thus potentially enhancing the representation power of graph neural networks.
翻訳日:2022-10-11 15:15:11 公開日:2022-10-08
# アダプティブノードサンプリングによる階層グラフ変換器

Hierarchical Graph Transformer with Adaptive Node Sampling ( http://arxiv.org/abs/2210.03930v1 )

ライセンス: Link先を確認
Zaixi Zhang, Qi Liu, Qingyong Hu, Chee-Kong Lee(参考訳) Transformerアーキテクチャは自然言語処理やコンピュータビジョンを含む多くの領域で大きな成功を収めている。 しかし、グラフ構造化データに関しては、特に大きなグラフでは、トランスフォーマーは競合性能に達していない。 本稿では,現在のグラフトランスフォーマーの主な欠点を明らかにする。(1)グラフトランスフォーマーにおける既存のノードサンプリング戦略は,グラフ特性やトレーニングプロセスに依存しない。 2)ほとんどのサンプリング戦略は, 近隣住民にのみ焦点をあて, グラフ内の長距離依存を無視している。 我々は,既存のサンプリング戦略が準最適であることを示すために,合成データセットに関する実験的研究を行う。 上記の問題に対処するために,グラフトランスフォーマタにおけるノードサンプリングの最適化戦略を,注意重みに報奨が関係し,訓練手順が変化する敵対的バンディット問題として定式化する。 一方,計算複雑性を低減しつつ長距離相互作用を捉えるために,グラフ粗粒化を用いた階層的注意スキームを提案する。 最後に,実世界のデータセットについて広範な実験を行い,既存のグラフトランスフォーマーや一般的なgnnよりも優れていることを示す。

The Transformer architecture has achieved remarkable success in a number of domains including natural language processing and computer vision. However, when it comes to graph-structured data, transformers have not achieved competitive performance, especially on large graphs. In this paper, we identify the main deficiencies of current graph transformers:(1) Existing node sampling strategies in Graph Transformers are agnostic to the graph characteristics and the training process. (2) Most sampling strategies only focus on local neighbors and neglect the long-range dependencies in the graph. We conduct experimental investigations on synthetic datasets to show that existing sampling strategies are sub-optimal. To tackle the aforementioned problems, we formulate the optimization strategies of node sampling in Graph Transformer as an adversary bandit problem, where the rewards are related to the attention weights and can vary in the training procedure. Meanwhile, we propose a hierarchical attention scheme with graph coarsening to capture the long-range interactions while reducing computational complexity. Finally, we conduct extensive experiments on real-world datasets to demonstrate the superiority of our method over existing graph transformers and popular GNNs.
翻訳日:2022-10-11 15:08:14 公開日:2022-10-08
# 大きな言語モデルでHTMLを理解する

Understanding HTML with Large Language Models ( http://arxiv.org/abs/2210.03945v1 )

ライセンス: Link先を確認
Izzeddin Gur, Ofir Nachum, Yingjie Miao, Mustafa Safdari, Austin Huang, Aakanksha Chowdhery, Sharan Narang, Noah Fiedel, Aleksandra Faust(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。 しかし、Webページの生のHTMLを解析し、Webベースのタスクの自動化、クローリング、ブラウザによる検索など、HTMLを理解する能力は、完全には研究されていない。 我々は,HTML理解モデル(微調整LDM)と,その機能の詳細を3つのタスクで分析する。 (i)HTML要素のセマンティック分類 (ii)HTML入力のための記述生成、および (iii)htmlページの自律的なwebナビゲーション。 従来の研究はHTML理解のための専用のアーキテクチャとトレーニング手順を開発してきたが、LLMは標準自然言語コーパスで事前訓練され、HTML理解タスクに非常に適していることを示す。 例えば、微調整されたLLMは、タスクデータセットにのみ訓練されたモデルよりもセマンティック分類において12%精度が高い。 さらに、miniwobベンチマークからデータを微調整すると、以前の最良の教師付きモデルよりも192倍少ないデータで50%のタスクを完了した。 我々が評価したLCMのうち、T5ベースのモデルは双方向エンコーダデコーダアーキテクチャのために理想的であることを示す。 HTML 理解のための LLM のさらなる研究を促進するために,CommonCrawl から抽出,自動ラベル付けされた大規模 HTML データセットを作成し,オープンソース化する。

Large language models (LLMs) have shown exceptional performance on a variety of natural language tasks. Yet, their capabilities for HTML understanding -- i.e., parsing the raw HTML of a webpage, with applications to automation of web-based tasks, crawling, and browser-assisted retrieval -- have not been fully explored. We contribute HTML understanding models (fine-tuned LLMs) and an in-depth analysis of their capabilities under three tasks: (i) Semantic Classification of HTML elements, (ii) Description Generation for HTML inputs, and (iii) Autonomous Web Navigation of HTML pages. While previous work has developed dedicated architectures and training procedures for HTML understanding, we show that LLMs pretrained on standard natural language corpora transfer remarkably well to HTML understanding tasks. For instance, fine-tuned LLMs are 12% more accurate at semantic classification compared to models trained exclusively on the task dataset. Moreover, when fine-tuned on data from the MiniWoB benchmark, LLMs successfully complete 50% more tasks using 192x less data compared to the previous best supervised model. Out of the LLMs we evaluate, we show evidence that T5-based models are ideal due to their bidirectional encoder-decoder architecture. To promote further research on LLMs for HTML understanding, we create and open-source a large-scale HTML dataset distilled and auto-labeled from CommonCrawl.
翻訳日:2022-10-11 15:07:57 公開日:2022-10-08
# Weisfeiler--Lehmanがダイナミックに: 分散グラフと動的グラフのためのグラフニューラルネットワークの表現力の分析

Weisfeiler--Lehman goes Dynamic: An Analysis of the Expressive Power of Graph Neural Networks for Attributed and Dynamic Graphs ( http://arxiv.org/abs/2210.03990v1 )

ライセンス: Link先を確認
Silvia Beddar-Wiesing, Giuseppe Alessio D'Inverno, Caterina Graziani, Veronica Lachi, Alice Moallemy-Oureh, Franco Scarselli, Josephine Maria Thomas(参考訳) グラフニューラルネットワーク(GNN)は、グラフ処理のための大規模な関係モデルである。 GNNの表現力に関する最近の理論的研究は2つの問題に焦点を当てている。 一方、GNNはグラフを識別する能力においてWeisfeiler-Lehmanテスト(1-WL)と同じくらい強力であることが証明されている。 さらに、1-WL による同値性は展開同値性に等しいことが示されている。 一方、GNNは1-WL/展開同値の制約を変調するグラフ上の普遍近似器であることが判明した。 しかし、これらの結果はノード属性を持つ静的無向等質グラフにのみ適用される。 対照的に、現実のアプリケーションは、動的やノード、エッジ属性など、様々なグラフ特性を含むことが多い。 本稿では,特に関心のある2種類のグラフに対して,GNNの表現力に関する理論的解析を行う。 動的グラフは現代の応用で広く使われており、理論解析には新しいアプローチが必要である。 属性型は全てのグラフ型の標準形式として機能するが、これは全てのグラフ型がノードとエッジ(SAUHG)の属性を持つ静的無方向性ホモジニアスグラフに失われることなく変換可能であることが示されている。 本研究は汎用GNNモデルを考察し,これらの領域に対して適切な1-WLテストを提案する。 そして、GNNの表現力に関する結果は、動的および属性グラフを区別する1-WLテストと同じ能力を持つこと、GNNが1-WL/アンフォールディング同値であり、GNNが1-WL/アンフォールディング同値であることを示すことによって拡張される。 さらに,SAUHGの近似能力の証明は実用的応用のほとんどを含むものであり,望まれる精度を達成できるGNNのアーキテクチャ上のヒントを導出することができる構造的である。

Graph Neural Networks (GNNs) are a large class of relational models for graph processing. Recent theoretical studies on the expressive power of GNNs have focused on two issues. On the one hand, it has been proven that GNNs are as powerful as the Weisfeiler-Lehman test (1-WL) in their ability to distinguish graphs. Moreover, it has been shown that the equivalence enforced by 1-WL equals unfolding equivalence. On the other hand, GNNs turned out to be universal approximators on graphs modulo the constraints enforced by 1-WL/unfolding equivalence. However, these results only apply to Static Undirected Homogeneous Graphs with node attributes. In contrast, real-life applications often involve a variety of graph properties, such as, e.g., dynamics or node and edge attributes. In this paper, we conduct a theoretical analysis of the expressive power of GNNs for these two graph types that are particularly of interest. Dynamic graphs are widely used in modern applications, and its theoretical analysis requires new approaches. The attributed type acts as a standard form for all graph types since it has been shown that all graph types can be transformed without loss to Static Undirected Homogeneous Graphs with attributes on nodes and edges (SAUHG). The study considers generic GNN models and proposes appropriate 1-WL tests for those domains. Then, the results on the expressive power of GNNs are extended by proving that GNNs have the same capability as the 1-WL test in distinguishing dynamic and attributed graphs, the 1-WL equivalence equals unfolding equivalence and that GNNs are universal approximators modulo 1-WL/unfolding equivalence. Moreover, the proof of the approximation capability holds for SAUHGs, which include most of those used in practical applications, and it is constructive in nature allowing to deduce hints on the architecture of GNNs that can achieve the desired accuracy.
翻訳日:2022-10-11 15:07:35 公開日:2022-10-08
# stasy:スコアベースの表データ合成

STaSy: Score-based Tabular data Synthesis ( http://arxiv.org/abs/2210.04018v1 )

ライセンス: Link先を確認
Jayoung Kim, Chaejeong Lee, Noseong Park(参考訳) タブラルデータ合成は機械学習における長年の研究トピックである。 統計手法から深層生成法まで、過去数十年にわたって様々な方法が提案されてきた。 しかし、実世界の表データの複雑な性質のため、必ずしも成功しなかった。 本稿では,スコアベース表データ合成(stasy)と呼ばれる新しいモデルと,スコアベース生成モデリングのパラダイムに基づく学習戦略を提案する。 スコアベースの生成モデルが生成モデルで多くの問題を解決したという事実にもかかわらず、表データ合成の改善の余地はまだ残っている。 提案したトレーニング戦略には,自己評価学習手法と微調整戦略が組み込まれており,復調スコアマッチングトレーニングを安定化することにより,サンプリング品質と多様性をさらに向上させる。 さらに, 生成的タスクのトリレンマとして, サンプリング品質, 多様性, 時間について, 厳密な実験を行った。 15のベンチマーク表と7のベースラインを用いた実験では,タスク依存評価や多様性の観点から既存手法よりも優れていた。

Tabular data synthesis is a long-standing research topic in machine learning. Many different methods have been proposed over the past decades, ranging from statistical methods to deep generative methods. However, it has not always been successful due to the complicated nature of real-world tabular data. In this paper, we present a new model named Score-based Tabular data Synthesis (STaSy) and its training strategy based on the paradigm of score-based generative modeling. Despite the fact that score-based generative models have resolved many issues in generative models, there still exists room for improvement in tabular data synthesis. Our proposed training strategy includes a self-paced learning technique and a fine-tuning strategy, which further increases the sampling quality and diversity by stabilizing the denoising score matching training. Furthermore, we also conduct rigorous experimental studies in terms of the generative task trilemma: sampling quality, diversity, and time. In our experiments with 15 benchmark tabular datasets and 7 baselines, our method outperforms existing methods in terms of task-dependant evaluations and diversity.
翻訳日:2022-10-11 15:07:03 公開日:2022-10-08
# ラベルのない教師なし表現学習のロバスト性

Robustness of Unsupervised Representation Learning without Labels ( http://arxiv.org/abs/2210.04076v1 )

ライセンス: Link先を確認
Aleksandar Petrov and Marta Kwiatkowska(参考訳) 教師なし表現学習は、大きなラベルなしデータセットを活用し、教師なし学習と競合する。 しかし、非ロバストエンコーダは下流のタスクロバスト性に影響を与える可能性がある。 近年,ロバスト表現エンコーダが注目されている。 それでも、すべての先行作業は下流分類タスクを使用して堅牢性を評価する。 代わりに,モデルやタスクに依存しないラベルフリーな教師なしロバストネス尺度のファミリーを提案する。 我々は、最先端の表現エンコーダをベンチマークし、他のどの表現も支配していないことを示す。 FGSMおよびPGD攻撃に対する教師なし拡張を提供する。 敵の訓練で使用する場合、認証された堅牢性を含む、最も教師なしの堅牢性対策を改善する。 本研究の結果を線形プローブを用いて検証した結果,MOCOv2では,正解精度が3倍に向上し,偽装攻撃の成功率が2倍に低下し,正解性も向上した。

Unsupervised representation learning leverages large unlabeled datasets and is competitive with supervised learning. But non-robust encoders may affect downstream task robustness. Recently, robust representation encoders have become of interest. Still, all prior work evaluates robustness using a downstream classification task. Instead, we propose a family of unsupervised robustness measures, which are model- and task-agnostic and label-free. We benchmark state-of-the-art representation encoders and show that none dominates the rest. We offer unsupervised extensions to the FGSM and PGD attacks. When used in adversarial training, they improve most unsupervised robustness measures, including certified robustness. We validate our results against a linear probe and show that, for MOCOv2, adversarial training results in 3 times higher certified accuracy, a 2-fold decrease in impersonation attack success rate and considerable improvements in certified robustness.
翻訳日:2022-10-11 15:06:48 公開日:2022-10-08
# モデルロバスト性を改善する統合確率的ニューラルネットワークと重みセンシング

Unified Probabilistic Neural Architecture and Weight Ensembling Improves Model Robustness ( http://arxiv.org/abs/2210.04083v1 )

ライセンス: Link先を確認
Sumegha Premchandar, Sandeep Madireddy, Sanket Jantre, Prasanna Balaprakash(参考訳) 安全クリティカルなアプリケーションには、正確な不確かさを校正した堅牢な機械学習モデルが不可欠である。 確率的機械学習、特にベイズ形式主義は、分布的推定と不確実性に関する推論を通じてロバスト性を取り入れた体系的枠組みを提供する。 近年の研究では、ニューラルネットワークの重み空間の不確実性を利用してアンサンブル予測を生成する近似推論アプローチが最先端であることが示されている。 しかし、アーキテクチャの選択は主にアドホックであり、アーキテクチャ空間からの認識の不確実性を無視している。 そこで本研究では,確率的ニューラルネットワーク探索と近似ベイズ推定の進歩を活かし,ニューラルネットワークアーキテクチャと重みの結合分布を形成するアンサンブルを生成する,統一確率的アーキテクチャと重みセンシングニューラルアーキテクチャ探索(uraenas)を提案する。 提案手法は, CIFAR-10の分布内分布(精度0.86%, ECE 42%)と, CIFAR-10-Cの分布外分布(精度2.43%, ECE 30%)を基本決定論的アプローチと比較して有意な改善を示した。

Robust machine learning models with accurately calibrated uncertainties are crucial for safety-critical applications. Probabilistic machine learning and especially the Bayesian formalism provide a systematic framework to incorporate robustness through the distributional estimates and reason about uncertainty. Recent works have shown that approximate inference approaches that take the weight space uncertainty of neural networks to generate ensemble prediction are the state-of-the-art. However, architecture choices have mostly been ad hoc, which essentially ignores the epistemic uncertainty from the architecture space. To this end, we propose a Unified probabilistic architecture and weight ensembling Neural Architecture Search (UraeNAS) that leverages advances in probabilistic neural architecture search and approximate Bayesian inference to generate ensembles form the joint distribution of neural network architectures and weights. The proposed approach showed a significant improvement both with in-distribution (0.86% in accuracy, 42% in ECE) CIFAR-10 and out-of-distribution (2.43% in accuracy, 30% in ECE) CIFAR-10-C compared to the baseline deterministic approach.
翻訳日:2022-10-11 15:06:36 公開日:2022-10-08
# (fusionformer):3次元ポーズ推定のためのトランスフォーマーを用いたフュージョンネットワークによる関節運動シナジーの探索

(Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network Based On Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2210.04006v1 )

ライセンス: Link先を確認
Xinwei Yu(参考訳) 現在の3次元人物ポーズ推定タスクでは、ポーズ系列出力の効率を向上させるために、低入力ビデオフレームシナリオにおける予測安定性をさらに向上し、従来の手法では局所的なジョイント情報の理解を欠いている。 \cite{9878888}considers the temporal relationship of a single joint in this work.However, we found that there is a certain predictive correlation between the trajectories of different joints in time.Therefore, our proposed \textbf{Fusionformer} method introduces a self-trajectory module and a cross-trajectory module based on the spatio-temporal module.After that, the global spatio-temporal features and local joint trajectory features are fused through a linear network in a parallel manner.To eliminate the influence of bad 2D poses on 3D projections, finally we also introduce a pose refinement network to balance the consistency of 3D projections.In addition, we evaluate the proposed method on two benchmark datasets (Human3.6M, MPI-INF-3DHP). その結果,Human3.6Mデータセットでは,それぞれ2.4\%MPJPEと4.3\%P-MPJPEの改善が見られた。

For the current 3D human pose estimation task, in order to improve the efficiency of pose sequence output, we try to further improve the prediction stability in low input video frame scenarios.Many previous methods lack the understanding of local joint information.\cite{9878888}considers the temporal relationship of a single joint in this work.However, we found that there is a certain predictive correlation between the trajectories of different joints in time.Therefore, our proposed \textbf{Fusionformer} method introduces a self-trajectory module and a cross-trajectory module based on the spatio-temporal module.After that, the global spatio-temporal features and local joint trajectory features are fused through a linear network in a parallel manner.To eliminate the influence of bad 2D poses on 3D projections, finally we also introduce a pose refinement network to balance the consistency of 3D projections.In addition, we evaluate the proposed method on two benchmark datasets (Human3.6M, MPI-INF-3DHP). Comparing our method with the baseline method poseformer, the results show an improvement of 2.4\% MPJPE and 4.3\% P-MPJPE on the Human3.6M dataset, respectively.
翻訳日:2022-10-11 14:59:44 公開日:2022-10-08
# 樹木検出のための合成森林画像の深層学習アルゴリズム

Training Deep Learning Algorithms on Synthetic Forest Images for Tree Detection ( http://arxiv.org/abs/2210.04104v1 )

ライセンス: Link先を確認
Vincent Grondin, Fran\c{c}ois Pomerleau, Philippe Gigu\`ere,(参考訳) 森林環境におけるビジョンに基づくセグメンテーションは,森林の伐採やフォワードといった自律的操作において重要な機能である。 ディープラーニングアルゴリズムは、オブジェクト検出などの視覚的なタスクを実行するための有望な結果を示す。 しかし、これらのアルゴリズムの教師付き学習プロセスは、大量の画像からのアノテーションを必要とする。 本研究では,シミュレートフォレスト環境を用いて,ピクセルレベルアノテーションを用いた43kのリアル合成画像の自動生成と,木検出のためのディープラーニングアルゴリズムのトレーニングを行う。 これにより、以下の質問に答えることができます。 一 厳しい森林環境下での深層学習にどのようなパフォーマンスを期待すべきか。 二 どのアノテーションが訓練に最も重要であるか、及び 三 RGBと深度の間に何のモダリティを使うか。 また,実画像のバウンディングボックス,セグメンテーションマスク,キーポイントを直接予測することにより,合成データセットで学習した特徴の転送学習能力を報告した。 コードはgithubで入手できる(https://github.com/norlab-ulaval/perceptreev1)。

Vision-based segmentation in forested environments is a key functionality for autonomous forestry operations such as tree felling and forwarding. Deep learning algorithms demonstrate promising results to perform visual tasks such as object detection. However, the supervised learning process of these algorithms requires annotations from a large diversity of images. In this work, we propose to use simulated forest environments to automatically generate 43 k realistic synthetic images with pixel-level annotations, and use it to train deep learning algorithms for tree detection. This allows us to address the following questions: i) what kind of performance should we expect from deep learning in harsh synthetic forest environments, ii) which annotations are the most important for training, and iii) what modality should be used between RGB and depth. We also report the promising transfer learning capability of features learned on our synthetic dataset by directly predicting bounding box, segmentation masks and keypoints on real images. Code available on GitHub (https://github.com/norlab-ulaval/PercepTreeV1).
翻訳日:2022-10-11 14:59:25 公開日:2022-10-08
# グラフニューラルネットワークのためのグラフネットワークの学習

Learning the Network of Graphs for Graph Neural Networks ( http://arxiv.org/abs/2210.03907v1 )

ライセンス: Link先を確認
Yixiang Shan, Jielong Yang, Xing Liu, Yixing Gao, Hechang Chen and Shuzhi Sam Ge(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを扱う多くのシナリオで大きな成功を収めている。 しかし、多くの実際のアプリケーションでは、gnnを適用する際に3つの問題があります。グラフが未知、ノードが騒がしい、グラフが騒がしい接続を持つ、の3つです。 これらの問題を解決するために,GL-GNNと呼ばれる新しいグラフニューラルネットワークを提案する。 我々のモデルは複数のサブモジュールを含み、各サブモジュールは重要なデータ特徴を選択し、グラフが未知のときにデータサンプルの対応するキー関係グラフを学習する。 GL-GNNはサブモジュールのネットワークを学習することでグラフのネットワークを得る。 学習したグラフは、グラフのネットワーク上のアグリゲーション手法によりさらに融合される。 本モデルでは,データサンプルの複数関係グラフとグラフの関係ネットワークを同時に学習し,重要なデータ特徴と重要なデータサンプルの関係を選択することにより,第2および第3の問題を解決する。 本手法は,グラフが未知な場合の7つのデータセットに対する14のベースライン法と,グラフが未知な場合の2つのデータセットに対する11のベースライン法とを比較した。 その結果,本手法はベースライン法よりも精度が高く,データセットから重要な特徴やグラフエッジを選択できることがわかった。 私たちのコードは、 \url{https://github.com/Looomo/GL-GNN}で公開されます。

Graph neural networks (GNNs) have achieved great success in many scenarios with graph-structured data. However, in many real applications, there are three issues when applying GNNs: graphs are unknown, nodes have noisy features, and graphs contain noisy connections. Aiming at solving these problems, we propose a new graph neural network named as GL-GNN. Our model includes multiple sub-modules, each sub-module selects important data features and learn the corresponding key relation graph of data samples when graphs are unknown. GL-GNN further obtains the network of graphs by learning the network of sub-modules. The learned graphs are further fused using an aggregation method over the network of graphs. Our model solves the first issue by simultaneously learning multiple relation graphs of data samples as well as a relation network of graphs, and solves the second and the third issue by selecting important data features as well as important data sample relations. We compare our method with 14 baseline methods on seven datasets when the graph is unknown and 11 baseline methods on two datasets when the graph is known. The results show that our method achieves better accuracies than the baseline methods and is capable of selecting important features and graph edges from the dataset. Our code will be publicly available at \url{https://github.com/Looomo/GL-GNN}.
翻訳日:2022-10-11 14:56:36 公開日:2022-10-08
# AlphaTuning:大規模事前学習言語モデルの量子化を考慮したパラメータ適応

AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models ( http://arxiv.org/abs/2210.03858v1 )

ライセンス: Link先を確認
Se Jung Kwon, Jeonghoon Kim, Jeongin Bae, Kang Min Yoo, Jin-Hwa Kim, Baeseong Park, Byeongwook Kim, Jung-Woo Ha, Nako Sung and Dongsoo Lee(参考訳) パラメータ効率のよい微調整手法による大規模言語モデルの適応への関心が高まっている。 しかし、モデル自体の高速化とモデル圧縮による推論効率の向上は、まだ十分に検討されていない。 モデル圧縮は、メモリフットプリントを削減し、低精度計算を可能にし、最終的にコスト効率のよい推論を可能にする。 パラメータ効率の良い適応とモデル圧縮を組み合わせるために,事前学習後の言語モデルの量子化と,対象タスクの量子化パラメータの一部のみを微調整したアルファチューニングを提案する。 具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータと別のスケーリングファクタに分解する。 適応フェーズでは、すべてのタスクに対してバイナリ値が凍結され、ダウンストリームタスクにはスケーリング係数が微調整される。 GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。

There are growing interests in adapting large-scale language models using parameter-efficient fine-tuning methods. However, accelerating the model itself and achieving better inference efficiency through model compression has not been thoroughly explored yet. Model compression could provide the benefits of reducing memory footprints, enabling low-precision computations, and ultimately achieving cost-effective inference. To combine parameter-efficient adaptation and model compression, we propose AlphaTuning consisting of post-training quantization of the pre-trained language model and fine-tuning only some parts of quantized parameters for a target task. Specifically, AlphaTuning works by employing binary-coding quantization, which factorizes the full-precision parameters into binary parameters and a separate set of scaling factors. During the adaptation phase, the binary values are frozen for all tasks, while the scaling factors are fine-tuned for the downstream task. We demonstrate that AlphaTuning, when applied to GPT-2 and OPT, performs competitively with full fine-tuning on a variety of downstream tasks while achieving >10x compression ratio under 4-bit quantization and >1,000x reduction in the number of trainable parameters.
翻訳日:2022-10-11 14:50:06 公開日:2022-10-08
# 電子商取引クエリ理解のための拡張トークン分類による短文事前学習

Short Text Pre-training with Extended Token Classification for E-commerce Query Understanding ( http://arxiv.org/abs/2210.03915v1 )

ライセンス: Link先を確認
Haoming Jiang, Tianyu Cao, Zheng Li, Chen Luo, Xianfeng Tang, Qingyu Yin, Danqing Zhang, Rahul Goutam, Bing Yin(参考訳) eコマースクエリ理解は,検索クエリから意味を抽出することで,顧客のショッピング意図を推測するプロセスである。 自然言語処理におけるMLM(Pre-trained masked language model)の最近の進歩は、効果的なクエリ理解モデルを開発する上で非常に魅力的である。 具体的には、MLMは文中のマスキングトークンを復元することでコンテキストテキストの埋め込みを学習する。 このような事前学習プロセスは十分な文脈情報に依存する。 しかし、通常は短いテキストである検索クエリでは効果が低い。 短い検索クエリにマスキングを適用すると、ほとんどのコンテキスト情報が失われ、検索クエリの意図が変更される可能性がある。 検索クエリにおけるMLM事前学習の課題を軽減するために,拡張トークン分類(ETC)と呼ばれる,短いテキストに特化して設計された新しい事前学習タスクを提案する。 入力テキストをマスキングする代わりに、ジェネレータネットワークを介してトークンを挿入することで入力を拡張し、拡張された入力に挿入されたトークンを識別するために識別器を訓練する。 Eコマースストアで実験を行い,ETCの有効性を実証した。

E-commerce query understanding is the process of inferring the shopping intent of customers by extracting semantic meaning from their search queries. The recent progress of pre-trained masked language models (MLM) in natural language processing is extremely attractive for developing effective query understanding models. Specifically, MLM learns contextual text embedding via recovering the masked tokens in the sentences. Such a pre-training process relies on the sufficient contextual information. It is, however, less effective for search queries, which are usually short text. When applying masking to short search queries, most contextual information is lost and the intent of the search queries may be changed. To mitigate the above issues for MLM pre-training on search queries, we propose a novel pre-training task specifically designed for short text, called Extended Token Classification (ETC). Instead of masking the input text, our approach extends the input by inserting tokens via a generator network, and trains a discriminator to identify which tokens are inserted in the extended input. We conduct experiments in an E-commerce store to demonstrate the effectiveness of ETC.
翻訳日:2022-10-11 14:49:43 公開日:2022-10-08
# まばらな教師は知識に密集し

Sparse Teachers Can Be Dense with Knowledge ( http://arxiv.org/abs/2210.03923v1 )

ライセンス: Link先を確認
Yi Yang, Chen Zhang, Dawei Song(参考訳) プレトレーニング言語モデルの蒸留の最近の進歩は、知識の表現性以外にも、真に理解可能な教師を実現するために、学生の親しみを考慮すべきである。 パイロット実験の結果,過剰なパラメータを持つ教師は,表現力に富み,生徒にやさしい知識を生み出すことができることがわかった。 そこで,生徒の親しみの結果として得られるパラメータを取り除くために,教師のパラメータごとに学習可能な総合スコアを指導する教師のトリックを提案する。 knowledgableスコアは、基本的に表現力と学生フレンドリーなスコアの補間である。 学生が親しみやすいパラメータを除去しながら、表現的パラメータを確実に保持することを目的としている。 glueベンチマークの広範な実験により,提案する教師は知識に密接な関係にあり,競争ベースラインと比較し,説得力のある成績を示すことができることが示された。

Recent advances in distilling pretrained language models have discovered that, besides the expressiveness of knowledge, the student-friendliness should be taken into consideration to realize a truly knowledgable teacher. Based on a pilot study, we find that over-parameterized teachers can produce expressive yet student-unfriendly knowledge, and are thus limited in overall knowledgableness. To remove the parameters that result in student-unfriendliness, we propose a sparse teacher trick under the guidance of an overall knowledgable score for each teacher parameter. The knowledgable score is essentially an interpolation of the expressiveness and student-friendliness scores. The aim is to ensure that the expressive parameters are retained while the student-unfriendly ones are removed. Extensive experiments on the GLUE benchmark show that the proposed sparse teachers can be dense with knowledge and lead to students with compelling performance in comparison with a series of competitive baselines.
翻訳日:2022-10-11 14:49:27 公開日:2022-10-08
# 高次目的:高解像度日時衛星画像を用いた電力アクセス計測

A Higher Purpose: Measuring Electricity Access Using High-Resolution Daytime Satellite Imagery ( http://arxiv.org/abs/2210.03909v1 )

ライセンス: Link先を確認
Zeal Shah, Simone Fobi, Gabriel Cadamuro, Jay Taneja(参考訳) 世界中の政府や国際機関は、社会経済の発展のために普遍的なエネルギーアクセスを達成するための投資を行っている。 しかし、開発環境では、電化の監視は不正確で、頻繁に行われ、高価である。 本研究では,大規模な電化進展の高分解能モニタリング技術を開発した。 特に、私たちの3つのユニークな貢献は (i)電気アクセスのある地域を特定すること。 二 電化区域(電化施設の割合/数)における電化度の定量化及び (iii)電化地域における顧客タイプの違い(住宅・非住宅電化構造物の割合/数を推定する。) 我々は、高解像度50cmの衛星画像と畳み込みニューラルネットワーク(CNN)を組み合わせて、一連の分類と回帰モデルを訓練する。 我々は,ビルの配置,ビルディングタイプ(リシデンシャル/非リシデンシャル),ビルの電化状況に関するユニークな基底真理データセットを用いてモデルを評価する。 区分けモデルでは,帯電地域の識別精度が92%,帯電した建物(低・高)が85%,帯電した建物(低/高)が69%,帯電した建物(低/高)が69%であった。 筆者らの回帰分析では, 電化建物数と住宅電化建物数の推定において, 78%, 80%のR^2$スコアが得られた。 また、先例のない地域でのモデルの適用可能性を示し、新興国における電化の一貫性と高分解能の測定の可能性を評価し、改善の機会を強調して結論付ける。

Governments and international organizations the world over are investing towards the goal of achieving universal energy access for improving socio-economic development. However, in developing settings, monitoring electrification efforts is typically inaccurate, infrequent, and expensive. In this work, we develop and present techniques for high-resolution monitoring of electrification progress at scale. Specifically, our 3 unique contributions are: (i) identifying areas with(out) electricity access, (ii) quantifying the extent of electrification in electrified areas (percentage/number of electrified structures), and (iii) differentiating between customer types in electrified regions (estimating the percentage/number of residential/non-residential electrified structures). We combine high-resolution 50 cm daytime satellite images with Convolutional Neural Networks (CNNs) to train a series of classification and regression models. We evaluate our models using unique ground truth datasets on building locations, building types (residential/non-residential), and building electrification status. Our classification models show a 92% accuracy in identifying electrified regions, 85% accuracy in estimating percent of (low/high) electrified buildings within the region, and 69% accuracy in differentiating between (low/high) percentage of electrified residential buildings. Our regressions show $R^2$ scores of 78% and 80% in estimating the number of electrified buildings and number of residential electrified building in images respectively. We also demonstrate the generalizability of our models in never-before-seen regions to assess their potential for consistent and high-resolution measurements of electrification in emerging economies, and conclude by highlighting opportunities for improvement.
翻訳日:2022-10-11 14:47:55 公開日:2022-10-08
# 空間時間モデリングのデカップリングによるビデオ質問応答の微視的理解

Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal Modeling ( http://arxiv.org/abs/2210.03941v1 )

ライセンス: Link先を確認
Hsin-Ying Lee, Hung-Ting Su, Bing-Chen Tsai, Tsung-Han Wu, Jia-Fong Yeh, Winston H. Hsu(参考訳) 最近の大規模ビデオ言語事前学習はビデオ質問応答において大きな進歩を遂げたが、映像言語モデルの空間モデリングの設計は画像言語モデルよりも細粒度が低い。 微粒な視覚的理解を学習するために、空間時間モデルとハイブリッドパイプライン、デカップリング空間時間エンコーダを提案し、画像とビデオ言語エンコーダを統合する。 前者は時間とは独立に大きめにサンプリングされたフレームから空間的意味論を符号化し、後者は低い空間的かつ高い時間的解像度で時間的ダイナミクスをモデル化する。 ビデオQAにおける時間的関係の学習を支援するために,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象である時間的参照モデリングを提案する。 広範な実験によって、我々のモデルは、大きなデータセットのオーダーで事前トレーニングされた以前の作業よりも優れています。

While recent large-scale video-language pre-training made great progress in video question answering, the design of spatial modeling of video-language models is less fine-grained than that of image-language models; existing practices of temporal modeling also suffer from weak and noisy alignment between modalities. To learn fine-grained visual understanding, we decouple spatial-temporal modeling and propose a hybrid pipeline, Decoupled Spatial-Temporal Encoders, integrating an image- and a video-language encoder. The former encodes spatial semantics from larger but sparsely sampled frames independently of time, while the latter models temporal dynamics at lower spatial but higher temporal resolution. To help the video-language model learn temporal relations for video QA, we propose a novel pre-training objective, Temporal Referring Modeling, which requires the model to identify temporal positions of events in video sequences. Extensive experiments demonstrate that our model outperforms previous work pre-trained on orders of magnitude larger datasets.
翻訳日:2022-10-11 14:39:19 公開日:2022-10-08
# 連続的名前付きエンティティ認識のための多種多様な他クラスによる因果効果の蒸留

Distilling Causal Effect from Miscellaneous Other-Class for Continual Named Entity Recognition ( http://arxiv.org/abs/2210.03980v1 )

ライセンス: Link先を確認
Junhao Zheng, Zhanxian Liang, Haibin Chen, Qianli Ma(参考訳) CL-NER(Continuous Learning for Named Entity Recognition)は、データストリームから時間とともに多くのエンティティタイプを学ぶことを目的としている。 しかし、新しいエンティティタイプと同じ方法でOther-Classを学習するだけで、破滅的な忘れを増幅し、パフォーマンスが大幅に低下する。 主な原因は、Other-Classサンプルは通常古いエンティティタイプを含み、これらのOther-Classサンプルの古い知識は適切に保存されていないことである。 因果推論により,古いデータからの因果効果の欠如によって,忘れが原因であることが判明する。 この目的のために、新しいエンティティタイプと他のクラスの両方から因果関係を取得するための統一因果フレームワークを提案する。 さらに,ラベルノイズの影響を軽減するためにカリキュラム学習を適用し,新しいエンティティタイプと他のクラスとの因果効果のバランスをとるための自己適応ウェイトを導入する。 3つのベンチマークデータセットにおける実験結果から,本手法は最先端の手法よりも高いマージンを示した。 さらに, CL-NERの性能向上のため, 既存の最先端手法と組み合わせることができる。

Continual Learning for Named Entity Recognition (CL-NER) aims to learn a growing number of entity types over time from a stream of data. However, simply learning Other-Class in the same way as new entity types amplifies the catastrophic forgetting and leads to a substantial performance drop. The main cause behind this is that Other-Class samples usually contain old entity types, and the old knowledge in these Other-Class samples is not preserved properly. Thanks to the causal inference, we identify that the forgetting is caused by the missing causal effect from the old data. To this end, we propose a unified causal framework to retrieve the causality from both new entity types and Other-Class. Furthermore, we apply curriculum learning to mitigate the impact of label noise and introduce a self-adaptive weight for balancing the causal effects between new entity types and Other-Class. Experimental results on three benchmark datasets show that our method outperforms the state-of-the-art method by a large margin. Moreover, our method can be combined with the existing state-of-the-art methods to improve the performance in CL-NER
翻訳日:2022-10-11 14:31:26 公開日:2022-10-08
# すべてのステップは平等に重要か? イベントのベンチマーク基本性検出

Are All Steps Equally Important? Benchmarking Essentiality Detection of Events ( http://arxiv.org/abs/2210.04074v1 )

ライセンス: Link先を確認
Hongming Zhang, Yueguan Wang, Yuqian Deng, Haoyu Wang, Muhao Chen, Dan Roth(参考訳) 自然言語は、しばしば異なる粒度のイベントを記述し、より粗い(ゴール)イベントは、しばしば(ステップ)イベントのきめ細かいシーケンスに分解される。 イベントプロセスを理解する上で批判的だが見過ごされている課題は、ステップイベントが中央の目標に対して等しく重要ではないという事実にある。 本稿では,このギャップを,現在のモデルが目標イベントに向けての異なるステップイベントの重要性をいかに理解できるかを検討することによって埋める。 認知研究によって議論されるように、このような能力により、機械は、前提条件と日常生活のタスクに必要な努力について人間の常識を模倣することができる。 私たちの研究は、コミュニティガイドラインwebサイトwikihowから(goal, step)ペアの高品質なコーパスにコントリビュートしています。 高いIAAは、人間が出来事について一貫した理解を持っていることを示している。 様々な統計的、大規模に事前訓練されたNLUモデルを評価するにも拘わらず、既存のSOTAモデルは皆、人間に大きく遅れている。

Natural language often describes events in different granularities, such that more coarse-grained (goal) events can often be decomposed into fine-grained sequences of (step) events. A critical but overlooked challenge in understanding an event process lies in the fact that the step events are not equally important to the central goal. In this paper, we seek to fill this gap by studying how well current models can understand the essentiality of different step events towards a goal event. As discussed by cognitive studies, such an ability enables the machine to mimic human's commonsense reasoning about preconditions and necessary efforts of daily-life tasks. Our work contributes with a high-quality corpus of (goal, step) pairs from a community guideline website WikiHow, where the steps are manually annotated with their essentiality w.r.t. the goal. The high IAA indicates that humans have a consistent understanding of the events. Despite evaluating various statistical and massive pre-trained NLU models, we observe that existing SOTA models all perform drastically behind humans, indicating the need for future investigation of this crucial yet challenging task.
翻訳日:2022-10-11 14:31:06 公開日:2022-10-08
# 自動ジャーナリズムのための計算アーキテクチャの比較

Comparing Computational Architectures for Automated Journalism ( http://arxiv.org/abs/2210.04107v1 )

ライセンス: Link先を確認
Yan V. Sym, Jo\~ao Gabriel M. Campos, Marcos M. Jos\'e, Fabio G. Cozman(参考訳) NLGシステムの大部分はテンプレートベースまたはパイプラインベースのアーキテクチャに従って設計されている。 データからテキストへの生成のための最近のニューラルモデルは、明示的な中間表現なしで自然言語における非言語的入力を処理するエンドツーエンドのディープラーニングフレーバーと共に提案されている。 本研究は、ブラジルポルトガル語のテキストを構造化データから生成する最もよく用いられる手法を比較した。 その結果、生成プロセスの明示的な中間ステップは、ニューラルネットワークのエンドツーエンドアーキテクチャによって生成されたものよりも優れたテキストを生成し、データの幻覚を回避し、未認識の入力にもっと一般化することを示唆する。 コードとコーパスは公開されている。

The majority of NLG systems have been designed following either a template-based or a pipeline-based architecture. Recent neural models for data-to-text generation have been proposed with an end-to-end deep learning flavor, which handles non-linguistic input in natural language without explicit intermediary representations. This study compares the most often employed methods for generating Brazilian Portuguese texts from structured data. Results suggest that explicit intermediate steps in the generation process produce better texts than the ones generated by neural end-to-end architectures, avoiding data hallucination while better generalizing to unseen inputs. Code and corpus are publicly available.
翻訳日:2022-10-11 14:30:49 公開日:2022-10-08
# CLIP-PAE: 絡み合った、解釈可能な、制御可能なテキストガイド画像操作のための関連特徴抽出のための投影拡張埋め込み

CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Image Manipulation ( http://arxiv.org/abs/2210.03919v1 )

ライセンス: Link先を確認
Chenliang Zhou, Fancheng Zhong, Cengiz Oztireli(参考訳) 最近導入されたContrastive Language- Image Pre-Training (CLIP) は、画像とテキストを結合した潜在空間に埋め込むことでブリッジする。 これにより、テキストによる説明を提供することで、入力画像を操作することを目的とした文献を多用する扉を開く。 しかし、画像とテキストの埋め込みの相違により、最適化対象としてテキスト埋め込みを使用することで、結果の画像に望ましくないアーティファクトをしばしば導入する。 絡み合い、解釈可能性、制御性も操作の保証が難しい。 これらの問題を緩和するために,関連するプロンプトにまたがるコーパス部分空間を定義し,特定の画像特性をキャプチャする。 テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。 提案手法は単純で汎用的なパラダイムであり,任意のCLIPベースの画像操作アルゴリズムにスムーズに組み込むことができる。 本手法の有効性を示すために,いくつかの理論および経験的研究を行った。 ケーススタディとして,テキスト誘導型セマンティックフェイス編集の手法を用いる。 我々はPAEが、最先端の品質と精度で、より不整合で、解釈可能で、制御可能な画像操作を促進することを定量的に、質的に証明する。

Recently introduced Contrastive Language-Image Pre-Training (CLIP) bridges images and text by embedding them into a joint latent space. This opens the door to ample literature that aims to manipulate an input image by providing a textual explanation. However, due to the discrepancy between image and text embeddings in the joint space, using text embeddings as the optimization target often introduces undesired artifacts in the resulting images. Disentanglement, interpretability, and controllability are also hard to guarantee for manipulation. To alleviate these problems, we propose to define corpus subspaces spanned by relevant prompts to capture specific image characteristics. We introduce CLIP Projection-Augmentation Embedding (PAE) as an optimization target to improve the performance of text-guided image manipulation. Our method is a simple and general paradigm that can be easily computed and adapted, and smoothly incorporated into any CLIP-based image manipulation algorithm. To demonstrate the effectiveness of our method, we conduct several theoretical and empirical studies. As a case study, we utilize the method for text-guided semantic face editing. We quantitatively and qualitatively demonstrate that PAE facilitates a more disentangled, interpretable, and controllable image manipulation with state-of-the-art quality and accuracy.
翻訳日:2022-10-11 14:22:00 公開日:2022-10-08
# EgoTaskQA:Egocentric Videoにおけるヒューマンタスクの理解

EgoTaskQA: Understanding Human Tasks in Egocentric Videos ( http://arxiv.org/abs/2210.03929v1 )

ライセンス: Link先を確認
Baoxiong Jia, Ting Lei, Song-Chun Zhu, Siyuan Huang(参考訳) ビデオ観察によるヒューマンタスクの理解は、インテリジェントエージェントにとって必須の機能である。 このような能力の課題は、位置するアクションの詳細な理解、オブジェクト状態(状態変化など)への影響、そしてそれらの因果依存性の理解を困難にすることにある。 これらの課題は、マルチタスクからの自然な並列性と、マルチエージェントコラボレーションにおける部分的観察によってさらに悪化する。 ほとんどの先行研究では、アクションローカライゼーションや将来の予測をビデオからそのようなタスク理解を評価するための間接的指標として活用している。 直感的な評価を行うために,実世界のエゴセントリックなビデオに対する質問回答を通じて,タスク理解の重要な次元をひとつのホームとして提供するEgoTaskQAベンチマークを導入する。 我々は,(1)行動依存と影響,(2)意図と目標,(3)他者に対するエージェントの信念を理解することを目的とした質問を細心の注意を払って設計する。 これらの質問は、空間的、時間的、因果的タスクの診断的理解を提供するために、記述的(どの状態?)、予測的(何が起こるか?)、説明的(何が起こるか?)、反事実的(何が起こるか?)の4つのタイプに分けられる。 我々は,我々のベンチマークで最先端のビデオ推論モデルを評価し,人間の複雑な目標指向の自己中心的ビデオ理解における大きなギャップを示す。 この取り組みにより、ビジョンコミュニティは、ゴール指向のビデオ理解と推論によって前進することを期待しています。

Understanding human tasks through video observations is an essential capability of intelligent agents. The challenges of such capability lie in the difficulty of generating a detailed understanding of situated actions, their effects on object states (i.e., state changes), and their causal dependencies. These challenges are further aggravated by the natural parallelism from multi-tasking and partial observations in multi-agent collaboration. Most prior works leverage action localization or future prediction as an indirect metric for evaluating such task understanding from videos. To make a direct evaluation, we introduce the EgoTaskQA benchmark that provides a single home for the crucial dimensions of task understanding through question-answering on real-world egocentric videos. We meticulously design questions that target the understanding of (1) action dependencies and effects, (2) intents and goals, and (3) agents' beliefs about others. These questions are divided into four types, including descriptive (what status?), predictive (what will?), explanatory (what caused?), and counterfactual (what if?) to provide diagnostic analyses on spatial, temporal, and causal understandings of goal-oriented tasks. We evaluate state-of-the-art video reasoning models on our benchmark and show their significant gaps between humans in understanding complex goal-oriented egocentric videos. We hope this effort will drive the vision community to move onward with goal-oriented video understanding and reasoning.
翻訳日:2022-10-11 14:05:07 公開日:2022-10-08
# ViewFool: 視覚認識のロバスト性の評価

ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints ( http://arxiv.org/abs/2210.03895v1 )

ライセンス: Link先を確認
Yinpeng Dong, Shouwei Ruan, Hang Su, Caixin Kang, Xingxing Wei, Jun Zhu(参考訳) 近年の研究では、視覚認識モデルは分布シフトに対するロバスト性に欠けることが示された。 しかし、現在の研究は主に2次元画像変換に対するモデルロバスト性を考慮しており、3次元世界における視点変化の探索は少ない。 一般に、視点の変化は様々な現実の応用(例えば、自律運転)で見られ、視点の堅牢性を評価することが不可欠である。 本稿では,視覚認識モデルに誤解をもたらす敵の視点を見つけるために,ViewFoolという新しい手法を提案する。 現実世界のオブジェクトを神経放射野(neural radiance field, nerf)として符号化することで、viewfoolは、エントロピック・レギュラライザ(entropic regularizer)の下で、さまざまな敵対的視点の分布を特徴付け、実際のカメラのポーズの変動を処理し、実際のオブジェクトとその神経表現との間の現実のギャップを緩和する。 実験は、共通の画像分類器が生成された逆視点に対して極めて脆弱であることを検証する。 viewfoolに基づき、イメージ分類器の視点ロバスト性をベンチマークするための新しい分散データセットであるimagenet-vを導入する。 多様なアーキテクチャ、客観的関数、データ拡張を備えた40の分類器の評価結果から、ImageNet-Vでのテストではモデル性能が大幅に低下し、ビューフールを効果的なデータ拡張戦略として活用し、視点の堅牢性を向上させることが可能になった。

Recent studies have demonstrated that visual recognition models lack robustness to distribution shift. However, current work mainly considers model robustness to 2D image transformations, leaving viewpoint changes in the 3D world less explored. In general, viewpoint changes are prevalent in various real-world applications (e.g., autonomous driving), making it imperative to evaluate viewpoint robustness. In this paper, we propose a novel method called ViewFool to find adversarial viewpoints that mislead visual recognition models. By encoding real-world objects as neural radiance fields (NeRF), ViewFool characterizes a distribution of diverse adversarial viewpoints under an entropic regularizer, which helps to handle the fluctuations of the real camera pose and mitigate the reality gap between the real objects and their neural representations. Experiments validate that the common image classifiers are extremely vulnerable to the generated adversarial viewpoints, which also exhibit high cross-model transferability. Based on ViewFool, we introduce ImageNet-V, a new out-of-distribution dataset for benchmarking viewpoint robustness of image classifiers. Evaluation results on 40 classifiers with diverse architectures, objective functions, and data augmentations reveal a significant drop in model performance when tested on ImageNet-V, which provides a possibility to leverage ViewFool as an effective data augmentation strategy to improve viewpoint robustness.
翻訳日:2022-10-11 14:04:22 公開日:2022-10-08
# KG-MTT-BERT:マルチタイプ医療テキスト分類のための知識グラフ強化BERT

KG-MTT-BERT: Knowledge Graph Enhanced BERT for Multi-Type Medical Text Classification ( http://arxiv.org/abs/2210.03970v1 )

ライセンス: Link先を確認
Yong He, Cheng Wang, Shun Zhang, Nan Li, Zhaorong Li, Zhenyu Zeng(参考訳) 電子健康記録(ehr)システムの普及により、医療改善の有望な分野として医療テキスト学習が最近登場している。 さまざまな長さ、混合テキストタイプ、医療用ジャーゴンなど、医療用テキストの複雑さは、効果的なディープラーニングモデルを開発する上で大きな課題となる。 BERTは、テキスト分類や質問応答など、多くのNLPタスクで最先端の結果を提示している。 しかし、スタンドアロンのbertモデルは、医用テキスト、特に長い臨床記録の複雑さに対処できない。 そこで本研究では,医学知識グラフの統合により,長文および多型テキストに対するBERTモデルを拡張することにより,KG-MTT-BERT(Knowledge Graph Enhanced Multi-Type Text BERT)と呼ばれる新しいモデルを開発する。 本モデルは,診断関連グループ(DRG)の分類において,すべてのベースラインや最先端モデルよりも優れている。 また,本モデルがマルチタイプテキストを効果的に扱えること,医療知識グラフの統合が性能を大幅に向上することを示した。

Medical text learning has recently emerged as a promising area to improve healthcare due to the wide adoption of electronic health record (EHR) systems. The complexity of the medical text such as diverse length, mixed text types, and full of medical jargon, poses a great challenge for developing effective deep learning models. BERT has presented state-of-the-art results in many NLP tasks, such as text classification and question answering. However, the standalone BERT model cannot deal with the complexity of the medical text, especially the lengthy clinical notes. Herein, we develop a new model called KG-MTT-BERT (Knowledge Graph Enhanced Multi-Type Text BERT) by extending the BERT model for long and multi-type text with the integration of the medical knowledge graph. Our model can outperform all baselines and other state-of-the-art models in diagnosis-related group (DRG) classification, which requires comprehensive medical text for accurate classification. We also demonstrated that our model can effectively handle multi-type text and the integration of medical knowledge graph can significantly improve the performance.
翻訳日:2022-10-11 14:02:34 公開日:2022-10-08