このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230223となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# TikTok上のChatGPTによる中絶(ミス)情報提供 Talking Abortion (Mis)information with ChatGPT on TikTok ( http://arxiv.org/abs/2303.13524v1 ) ライセンス: Link先を確認 | Filipo Sharevski and Jennifer Vander Loop and Peter Jachim and Amy Devine and Emma Pieroni | (参考訳) そこで本研究では,ChatGPTが在宅中絶治療のプロンプトに応答するTikTokビデオの精度とエンゲージメントに対するユーザの認識を検討した。
チャットボットの反応はやや曖昧で紛らわしいが、それでも「在宅」中絶を試みる前に健康専門家との相談を推奨した。
私たちはChatGPTを使って、2つのTikTokビデオの変種を作成しました。
ランダムに各変異体に100人の参加者を露出させた結果,ChatGPTのテキスト合成が誤情報であると考える傾向が認められた。
同じ印象の下、tiktok自身は、最初の結果を収集した後、すべてのビデオに誤った情報警告ラベル(中絶に関する事実を入手する)を付けた。
その後、別の50人の参加者で再び動画をテストすることに決め、ラベルが中絶の誤情報の知覚に影響を与えないことを発見したが、chatgptが歌詞のアウトプットのプロンプトに明示的に反応した場合を除いては。
また、回答者の60%以上が、チャットボットを信頼できる健康情報源として否定的、あるいは過激な意見を表明していることも判明した。 In this study, we tested users' perception of accuracy and engagement with TikTok videos in which ChatGPT responded to prompts about "at-home" abortion remedies. The chatbot's responses, though somewhat vague and confusing, nonetheless recommended consulting with health professionals before attempting an "at-home" abortion. We used ChatGPT to create two TikTok video variants - one where users can see ChatGPT explicitly typing back a response, and one where the text response is presented without any notion to the chatbot. We randomly exposed 100 participants to each variant and found that the group of participants unaware of ChatGPT's text synthetization was more inclined to believe the responses were misinformation. Under the same impression, TikTok itself attached misinformation warning labels ("Get the facts about abortion") to all videos after we collected our initial results. We then decided to test the videos again with another set of 50 participants and found that the labels did not affect the perceptions of abortion misinformation except in the case where ChatGPT explicitly responded to a prompt for a lyrical output. We also found that more than 60% of the participants expressed negative or hesitant opinions about chatbots as sources of credible health information. | 翻訳日:2023-03-31 16:35:26 公開日:2023-02-23 |
# BACKスラッシュによるBACK置換によるBACKプロパゲーション BACKpropagation through BACK substitution with a BACKslash ( http://arxiv.org/abs/2303.15449v1 ) ライセンス: Link先を確認 | Alan Edelman and Ekin Akyurek and Yuyang Wang | (参考訳) 線形代数による逆プロパゲーションの定式化は、方程式の三角系上の一般化された '`backslash'' あるいはガウス的排除を用いて勾配の計算を可能にする。
一般に行列要素は作用素である。
本論文は3つの貢献がある: 1. 自動分化の伝統的な治療を(作用的)操作理論に基づくグラフベースアプローチに置き換えることは知的価値である。
2.演算子は実装オプションとしてju liaのようなプログラミング言語のソフトウェアの行列に簡単に配置できる。
3) 演算子の逆転を可能にする新しい表記法である ``transpose dot'' 演算子 ``$\{\}^{T_\bullet}$'' を導入する。
本稿では,Julia \cite{bezanson2017julia} のような線形代数演算子からなる固有プログラミング言語における演算子アプローチのエレガンスを実証し,この抽象化をコードで実現できることを示す。
我々の実装は、一般化線形代数が演算子を行列の要素として許容し、コードを書き直すことなく、ソフトウェアが正しい答えを与える完了まで実行可能であることを示す。 We present a linear algebra formulation of backpropagation which allows the calculation of gradients by using a generically written ``backslash'' or Gaussian elimination on triangular systems of equations. Generally the matrix elements are operators. This paper has three contributions: 1. It is of intellectual value to replace traditional treatments of automatic differentiation with a (left acting) operator theoretic, graph-based approach. 2. Operators can be readily placed in matrices in software in programming languages such as Ju lia as an implementation option. 3. We introduce a novel notation, ``transpose dot'' operator ``$\{\}^{T_\bullet}$'' that allows the reversal of operators. We demonstrate the elegance of the operators approach in a suitable programming language consisting of generic linear algebra operators such as Julia \cite{bezanson2017julia}, and that it is possible to realize this abstraction in code. Our implementation shows how generic linear algebra can allow operators as elements of matrices, and without rewriting any code, the software carries through to completion giving the correct answer. | 翻訳日:2023-03-31 16:07:31 公開日:2023-02-23 |
# 新型コロナウイルス(covid-19)パンデミックに対する人々の態度に対するセレブリティの影響を探る--ソーシャルメディア共有感情分析 Exploring celebrity influence on public attitude towards the COVID-19 pandemic: social media shared sentiment analysis ( http://arxiv.org/abs/2303.16759v1 ) ライセンス: Link先を確認 | Brianna M White, Chad A Melton, Parya Zareie, Robert L Davis, Robert A Bednarczyk, Arash Shaban-Nejad | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、健康関連感情に対するオンラインメディアの普及など、新たな健康コミュニケーションの機会をもたらした。
人々は、新型コロナウイルス(covid-19)パンデミックの影響に関する感情を共有するために、ソーシャルメディアに目を向けた。
本稿では,スポーツ選手,政治家,ニュースパーソナリティー等における社会的メッセージの共有が,一般論議の方向性を決定する上で果たす役割について検討する。
2020年1月1日から2022年3月1日までの約1300万ツイートを収集した。
DistilRoBERTaモデルは、新型コロナウイルス(COVID-19)ワクチンに関連するTwitterの投稿(つぶやき)を、公共の目の中の人々の言及と組み合わせて比較するために使われた。
以上の結果から、COVID-19パンデミックの最初の2年間、Personsが公開眼で共有したメッセージと共通の感情的内容の一貫性のあるパターンの存在が、世論に影響を与え、オンラインの論議を大いに刺激したことが示唆された。
パンデミックが進むにつれて、ソーシャルネットワーク上で共有される公衆の感情は、リスク認識、政治的イデオロギー、公衆の目で共有される健康保護行動によって形成され、しばしば負の光で表される。 The COVID-19 pandemic has introduced new opportunities for health communication, including an increase in the public use of online outlets for health-related emotions. People have turned to social media networks to share sentiments related to the impacts of the COVID-19 pandemic. In this paper we examine the role of social messaging shared by Persons in the Public Eye (i.e. athletes, politicians, news personnel) in determining overall public discourse direction. We harvested approximately 13 million tweets ranging from 1 January 2020 to 1 March 2022. The sentiment was calculated for each tweet using a fine-tuned DistilRoBERTa model, which was used to compare COVID-19 vaccine-related Twitter posts (tweets) that co-occurred with mentions of People in the Public Eye. Our findings suggest the presence of consistent patterns of emotional content co-occurring with messaging shared by Persons in the Public Eye for the first two years of the COVID-19 pandemic influenced public opinion and largely stimulated online public discourse. We demonstrate that as the pandemic progressed, public sentiment shared on social networks was shaped by risk perceptions, political ideologies and health-protective behaviours shared by Persons in the Public Eye, often in a negative light. | 翻訳日:2023-03-31 15:50:41 公開日:2023-02-23 |
# 近傍ゲートと長距離ゲートを用いた短ランダム量子回路による近似ユニタリ$t$-Designs Approximate unitary $t$-designs by short random quantum circuits using nearest-neighbor and long-range gates ( http://arxiv.org/abs/1809.06957v2 ) ライセンス: Link先を確認 | Aram Harrow and Saeed Mehraban | (参考訳) p(t) \cdot n^{1/d}$-depth local random quantum circuits with 2 qudit near-neighbor gates on a $d$-dimensional lattice with n qudits with n qudits are approximately $t$-designs in various measures. (英語)
これらは「モノミカル」測度を含み、つまり、この族からのランダム回路の単項は、ハール測度から生じる値に近い期待を持つことを意味する。
以前は、Bandao-Harrow-Horodecki (BHH) による$poly(t)\cdot n$が$D=1$であった。
また,Brown と Fawzi による空間的ランダム回路の「スクランブル」および「デカップリング」境界も改善する。
その結果、多項式階層(PH)が無限であり、あるカウント問題の平均値が$\#P$-hardであると仮定すると、これらの回路からの全変動距離のサンプリングは古典的コンピュータでは困難である。
以前は、定数深さの量子回路の出力からの正確なサンプリングは、PHが無限であるという仮定の下で古典的なコンピュータでは難しいことが知られていた。
しかし、この戦略を用いた近似サンプリングの硬さを示すためには、量子回路は「反集中」と呼ばれる性質を持ち、すなわち出力がほぼ最大エントロピーを持つ必要がある。
単項2-設計は所望の反集中性を持つ。
この結果から, 線形深度からサブ線形値まで, 相互作用の幾何に依存する反集束のレベルに必要な深度を改良した。
これは、google quantum ai groupによる2次元格子上の49量子ビットのサンプリングタスクの実行に関する最近の提案と関係しており、その予想は、$o(\sqrt n)$ suffices for anti-concentrationである。
また,異なるモデルを用いてo(log(n) loglog(n))の深さで抗濃縮が可能であることを証明した。 We prove that $poly(t) \cdot n^{1/D}$-depth local random quantum circuits with two qudit nearest-neighbor gates on a $D$-dimensional lattice with n qudits are approximate $t$-designs in various measures. These include the "monomial" measure, meaning that the monomials of a random circuit from this family have expectation close to the value that would result from the Haar measure. Previously, the best bound was $poly(t)\cdot n$ due to Brandao-Harrow-Horodecki (BHH) for $D=1$. We also improve the "scrambling" and "decoupling" bounds for spatially local random circuits due to Brown and Fawzi. One consequence of our result is that assuming the polynomial hierarchy (PH) is infinite and that certain counting problems are $\#P$-hard on average, sampling within total variation distance from these circuits is hard for classical computers. Previously, exact sampling from the outputs of even constant-depth quantum circuits was known to be hard for classical computers under the assumption that PH is infinite. However, to show the hardness of approximate sampling using this strategy requires that the quantum circuits have a property called "anti-concentration", meaning roughly that the output has near-maximal entropy. Unitary 2-designs have the desired anti-concentration property. Thus our result improves the required depth for this level of anti-concentration from linear depth to a sub-linear value, depending on the geometry of the interactions. This is relevant to a recent proposal by the Google Quantum AI group to perform such a sampling task with 49 qubits on a two-dimensional lattice and confirms their conjecture that $O(\sqrt n)$ depth suffices for anti-concentration. We also prove that anti-concentration is possible in depth O(log(n) loglog(n)) using a different model. | 翻訳日:2023-03-25 04:50:36 公開日:2023-02-23 |
# ヒルベルト空間還元による絡み合った島 Entanglement Islands from Hilbert Space Reduction ( http://arxiv.org/abs/2211.17004v2 ) ライセンス: Link先を確認 | Debarshi Basu, Qiang Wen and Shangjie Zhou | (参考訳) 本稿では、純粋に量子情報の観点から、 textit{Island formula} を理解することを試みる。
島相は、状態が埋め込まれた量子状態とヒルベルト空間の性質であることを示す。
より明確に言うと、ある部分集合の状態が別の部分集合の状態に完全にエンコードされた量子系において、システムのヒルベルト空間は減少し、減少密度行列と関連するエントロピー量を計算する方法も本質的に変化する。
このようなヒルベルト空間の減少は量子系の新しい島式をもたらすが、これはブラックホールの蒸発の過程でユニタリ性を救うために最近提案された重力における同じ島式である。
この文脈では、Mathur/AMPSパラドックスに簡単な解を与える。
さらに, 絡み合う島々が出現する非重力場理論構成を提案し, 島相の絡み合い構造を説明するとともに, 実験室における島相の実現方法を提案する。 In this paper we try to understand the \textit{Island formula} from a purely quantum information perspective. We propose that the island phase is a property of the quantum state and the Hilbert space where the state is embedded in. More explicitly we show that, in a quantum system when the state of a subset is totally encoded in the state of another subset, the Hilbert space of the system will reduce, and the way we compute the reduced density matrix and related entropy quantities will also change essentially. Such reductions of the Hilbert space result in a new island formula in quantum systems, which we conjecture to be the same island formula in gravity recently proposed to rescue the unitarity in the process of black hole evaporation. In this context, we give a simple resolution to the Mathur/AMPS paradox. Furthermore, we propose a non-gravitational field theory configuration where entanglement islands emerge, give a description for the entanglement structure of the island phase and propose how to realize the island phase in the lab. | 翻訳日:2023-03-25 03:47:19 公開日:2023-02-23 |
# 古典的および量子古典的システムに対するガリレイ群の射影表現 Projective representation of the Galilei group for classical and quantum-classical systems ( http://arxiv.org/abs/2107.03623v2 ) ライセンス: Link先を確認 | A.D. Berm\'udez Manjarres | (参考訳) ガリレイ群の物理的に関係のないユニタリ非射影表現は、古典力学のクープマン・ヴォン・ノイマンの定式化において可能である。
この古典的な表現はガリレイ環の中心電荷の消滅によって特徴づけられる。
これは質量が中心電荷の役割を担う量子の場合とは対照的である。
ここでは、直構成により、古典力学は、質量が代数の中心電荷であるガリレイ群の射影表現も可能であることを示す。
結果をある種の量子古典ハイブリッドシステムに拡張する。 A physically relevant unitary irreducible non-projective representation of the Galilei group is possible in the Koopman-von Neumann formulation of classical mechanics. This classical representation is characterized by the vanishing of the central charge of the Galilei algebra. This is in contrast to the quantum case where the mass plays the role of the central charge. Here we show, by direct construction, that classical mechanics also allows for a projective representation of the Galilei group where the mass is the central charge of the algebra. We extend the result to certain kind of quantum-classical hybrid systems. | 翻訳日:2023-03-23 02:17:57 公開日:2023-02-23 |
# 古典システムに対するシュウィンガー作用原理 The Schwinger action principle for classical systems ( http://arxiv.org/abs/2107.03982v2 ) ライセンス: Link先を確認 | A. D. Berm\'udez Manjarres | (参考訳) シュウィンガーの作用原理を用いて古典力学のクープマン・フォン・ノイマン操作版における運動方程式を得る。
我々は解析を非散逸系に限定する。
シュウィンガーの作用原理は速度非依存力の変分原理として解釈できることを示した。 We use the Schwinger action principle to obtain the equations of motion in the Koopman-von Neumann operational version of classical mechanics. We restrict our analysis to non-dissipative systems. We show that the Schwinger action principle can be interpreted as a variational principle for velocity-independent forces. | 翻訳日:2023-03-23 02:00:32 公開日:2023-02-23 |
# Schr\\odinger-Heisenberg変分量子アルゴリズム Schr\"odinger-Heisenberg Variational Quantum Algorithms ( http://arxiv.org/abs/2112.07881v2 ) ライセンス: Link先を確認 | Zhong-Xia Shang, Ming-Cheng Chen, Xiao Yuan, Chao-Yang Lu, Jian-Wei Pan | (参考訳) 近年のブレークスルーは、数十から数百量子ビットの中間規模の量子コンピューティングの可能性を開き、化学や凝縮物質物理学のような古典的課題を解決する可能性を示した。
しかし、古典的コンピュータを超越するのに非常に高い精度が要求されるため、回路の奥行きが著しく制限され、現在は0.1-1%程度である。
そこで,量子ハードウェア上で現実的に実装される仮想ハイゼンベルク回路を,測定可観測性に効果的に作用する仮想ハイゼンベルク回路と,実際の浅いシュランガー回路を組み込むことにより,この問題を解決するためのシュランガー・ハイゼンベルク変分量子アルゴリズムのパラダイムを提案する。
我々はクリフォード仮想回路を選択し、そのハミルトニアンに対する効果はゴッテマン・クニルの定理に従って効率よく古典的に実装できる。
しかし、これは状態表現性を大幅に拡大し、より大きなユニタリt-設計を実現する。
本手法は、従来より深く正確な回路でしか実現できない正確な量子シミュレーションと計算を可能にする。
このことは, XXZモデルの基底状態エネルギーに対して, ランダム状態のより良い近似と高忠実解を求める数値実験で検証されている。
効果的な量子エラー緩和と共に、我々の研究は、近距離量子デバイスを用いた正確な量子コンピューティングアルゴリズムを実現する方法を広げている。 Recent breakthroughs have opened the possibility to intermediate-scale quantum computing with tens to hundreds of qubits, and shown the potential for solving classical challenging problems, such as in chemistry and condensed matter physics. However, the extremely high accuracy needed to surpass classical computers poses a critical demand to the circuit depth, which is severely limited by the non-negligible gate infidelity, currently around 0.1-1%. Here, by incorporating a virtual Heisenberg circuit, which acts effectively on the measurement observables, to a real shallow Schr\"odinger circuit, which is implemented realistically on the quantum hardware, we propose a paradigm of Schr\"odinger-Heisenberg variational quantum algorithms to resolve this problem. We choose a Clifford virtual circuit, whose effect on the Hamiltonian can be efficiently and classically implemented according to the Gottesman-Knill theorem. Yet, it greatly enlarges the state expressivity, realizing much larger unitary t-designs. Our method enables accurate quantum simulation and computation that otherwise is only achievable with much deeper and more accurate circuits conventionally. This has been verified in our numerical experiments for a better approximation of random states and a higher-fidelity solution to the ground state energy of the XXZ model. Together with effective quantum error mitigation, our work paves the way for realizing accurate quantum computing algorithms with near-term quantum devices. | 翻訳日:2023-03-04 12:06:46 公開日:2023-02-23 |
# 非マルコフ開量子系の鎖のテンソルネットワークシミュレーション Tensor network simulation of chains of non-Markovian open quantum systems ( http://arxiv.org/abs/2201.05529v2 ) ライセンス: Link先を確認 | Gerald E. Fux, Dainius Kilda, Brendon W. Lovett, Jonathan Keeling | (参考訳) 本稿では,量子システムの連鎖のダイナミクスとマルチタイム相関を計算するための一般的な数値解法を提案する。
この方法は、一般(おそらく非マルコフ的)開量子系に対するプロセステンソル形式と、1D鎖に対する時間発展ブロックデシミテーション(TEBD)を組み合わせる。
システム環境相関から生じる数値的複雑性を体系的に低減し、それを完全な多体問題に統合し、幅広い応用を数値的に実現可能にする。
本手法のパワーは, 強結合熱鉛を用いた短鎖XYZハイゼンベルク鎖の個々のスピンの熱化を研究することで説明できる。
以上の結果より, 単一浴に結合した鎖の完全熱化が確認され, 加熱浴と冷浴の間にチェーンを配置した場合, 低温, 中, 高周波状態において顕著な有効温度が明らかとなった。 We introduce a general numerical method to compute dynamics and multi-time correlations of chains of quantum systems, where each system may couple strongly to a structured environment. The method combines the process tensor formalism for general (possibly non-Markovian) open quantum systems with time evolving block decimation (TEBD) for 1D chains. It systematically reduces the numerical complexity originating from system-environment correlations before integrating them into the full many-body problem, making a wide range of applications numerically feasible. We illustrate the power of this method by studying the thermalization of individual spins of a short XYZ Heisenberg chain with strongly coupled thermal leads. Our results confirm the complete thermalization of the chain when coupled to a single bath, and reveal distinct effective temperatures in low, mid, and high frequency regimes when the chain is placed between a hot and a cold bath. | 翻訳日:2023-03-01 04:32:16 公開日:2023-02-23 |
# 宇宙転位時空におけるクーロンポテンシャル下のフェシュバッハ・ヴィラーズ発振器(FVO)について On the Feshbach-Villars oscillators (FVO) under coulomb potential in the cosmic dislocation space-time ( http://arxiv.org/abs/2302.13805v1 ) ライセンス: Link先を確認 | Abdelmalek Bouzenada and Abdelmalek Boumali and Marwan Al-Raeei | (参考訳) 本稿では,coulomb型ポテンシャルによって引き起こされる宇宙転位時空における巨大で相対論的feshbach-villars発振子の量子力学的ダイナミクスについて検討する。
クライン=ゴルドン方程式の第1次フェシュバッハ・ヴィラース版は運動方程式を見つけるために用いられる。
波動関数と関連するエネルギーが計算されている(自由の場合と相互作用の場合の両方)。
この相互作用に対する転位トポロジーの影響を分析する。
その結果,研究中の量子系に対する転位の影響について検討した。 In this paper, we investigate the quantum mechanical dynamics of the massive and relativistic Feshbach-Villars oscillator in cosmic dislocation space-time induced by a coulomb-type potential. The first-order Feshbach-Villars version of the Klein-Gordon equation is used to find movement equations. Wave functions and associated energy have been calculated (both in the free case and in the interaction case). We analyse the impact of dislocation topology on this interaction. As a result, the effect of the dislocation on the quantum system under study is examined. | 翻訳日:2023-02-28 15:30:19 公開日:2023-02-23 |
# ChatGPT博士、私が聞きたいことを教えてください。知識の速さが健康にどんな影響を及ぼすか Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts health answer correctness ( http://arxiv.org/abs/2302.13793v1 ) ライセンス: Link先を確認 | Guido Zuccon, Bevan Koopman | (参考訳) ChatGPTのような生成事前学習言語モデル(GPLM)は、事前学習フェーズ中にモデルが観察するパラメータの知識を符号化する。
この知識は、ユーザがプロンプトで指定したタスクに対処するために推論で使用される。
例えば、質問応答タスクでは、GPLMは学習時に学んだ知識と言語パターンを活用して、ユーザ質問に対する回答を生成する。
モデル自体にエンコードされた知識とは別に、gplmsが生成する回答はプロンプトで提供される知識を活用できる。
例えば、GPLMは検索-then-generateパラダイムに統合され、検索エンジンが質問に関連する文書を検索するために使用され、文書の内容はプロンプトを介してGPLMに転送される。
本稿では,ChatGPTが生成した解の正当性の違いを,モデル知識と素早い知識との組み合わせで比較する。
我々は、モデルから健康アドバイスを求める消費者の文脈でこれを研究する。
この文脈におけるChatGPTの有効性の測定は別として、プロンプトに渡された知識がモデルに符号化された知識を覆すことができることを示す。
この研究は、生成事前学習言語モデルに基づくより堅牢で透明な質問応答システムの開発に重要な意味を持つ。 Generative pre-trained language models (GPLMs) like ChatGPT encode in the model's parameters knowledge the models observe during the pre-training phase. This knowledge is then used at inference to address the task specified by the user in their prompt. For example, for the question-answering task, the GPLMs leverage the knowledge and linguistic patterns learned at training to produce an answer to a user question. Aside from the knowledge encoded in the model itself, answers produced by GPLMs can also leverage knowledge provided in the prompts. For example, a GPLM can be integrated into a retrieve-then-generate paradigm where a search engine is used to retrieve documents relevant to the question; the content of the documents is then transferred to the GPLM via the prompt. In this paper we study the differences in answer correctness generated by ChatGPT when leveraging the model's knowledge alone vs. in combination with the prompt knowledge. We study this in the context of consumers seeking health advice from the model. Aside from measuring the effectiveness of ChatGPT in this context, we show that the knowledge passed in the prompt can overturn the knowledge encoded in the model and this is, in our experiments, to the detriment of answer correctness. This work has important implications for the development of more robust and transparent question-answering systems based on generative pre-trained language models. | 翻訳日:2023-02-28 15:29:10 公開日:2023-02-23 |
# 自然言語から人格の特徴を学習するニューラルネットワーク Neural networks for learning personality traits from natural language ( http://arxiv.org/abs/2302.13782v1 ) ライセンス: Link先を確認 | Giorgia Adorni | (参考訳) パーソナリティは心理学において最も影響力のある研究トピックの1つと考えられており、精神や身体の健康など多くの連続した結果を予測し、人間の行動を説明する。
コミュニケーション手段としてソーシャルネットワークが広く使われるようになるにつれて、個人の本質を文章のみに基づいて自動的かつ正確に読むことができるモデルの開発がますます重要になっている。
特に、社会科学とコンピュータ科学の融合により、研究者はインターネット上のテキストデータから「隠された」情報を抽出し研究するための自動アプローチを開発するようになった。
この論文プロジェクトの性質は極めて実験的であり,本研究の背後にある動機は,本研究について詳細な分析を行うことである。
目的は、あるテキストが参照する対象の個性を定義することができる適切な意味空間を特定することである。
出発点は、心理学文献が5つの主要な性格特性(Big Five)のマーカーとして定義する形容詞の辞書である。
本研究では,隠れた人格の特徴をいかに簡単に学習できるかを理解するため,完全接続型ニューラルネットワークの実装に着手した。
最後に,2013年にトマス・ミコロフによって考案された分布アルゴリズムを用いて,教師なしの方法で単語の文脈を学習する畳み込みニューラルネットワークを用いた。
このようにして、テキスト上の意味情報を含む埋め込みを構築し、概念を線形関係に変換する「意味の幾何学」の一種を得る。
この最後の実験では、個々の筆記スタイルが性格の特徴と大きく結びついていると仮定する。 Personality is considered one of the most influential research topics in psychology, as it predicts many consequential outcomes such as mental and physical health and explains human behaviour. With the widespread use of social networks as a means of communication, it is becoming increasingly important to develop models that can automatically and accurately read the essence of individuals based solely on their writing. In particular, the convergence of social and computer sciences has led researchers to develop automatic approaches for extracting and studying "hidden" information in textual data on the internet. The nature of this thesis project is highly experimental, and the motivation behind this work is to present detailed analyses on the topic, as currently there are no significant investigations of this kind. The objective is to identify an adequate semantic space that allows for defining the personality of the object to which a certain text refers. The starting point is a dictionary of adjectives that psychological literature defines as markers of the five major personality traits, or Big Five. In this work, we started with the implementation of fully-connected neural networks as a basis for understanding how simple deep learning models can provide information on hidden personality characteristics. Finally, we use a class of distributional algorithms invented in 2013 by Tomas Mikolov, which consists of using a convolutional neural network that learns the contexts of words in an unsupervised way. In this way, we construct an embedding that contains the semantic information on the text, obtaining a kind of "geometry of meaning" in which concepts are translated into linear relationships. With this last experiment, we hypothesize that an individual writing style is largely coupled with their personality traits. | 翻訳日:2023-02-28 15:28:29 公開日:2023-02-23 |
# 数学的単語問題(MWP)におけるChatGPTの独立性評価 An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP) ( http://arxiv.org/abs/2302.13814v1 ) ライセンス: Link先を確認 | Paulo Shakarian, Abhinav Koyyalamudi, Noel Ngu, Lakshmivihari Mareedu | (参考訳) DRAW-1Kデータセットから,ChatGPTとして知られる市販の大規模言語モデル(LLM)の算術語問題(MWP)の性能について検討した。
われわれの知る限り、これがChatGPTの独立した評価である。
chatgptのパフォーマンスは、その成果を示す必要条件によって劇的に変化し、提供する場合の20%が失敗し、そうでない場合の84%が失敗していることがわかった。
さらに、MWPに関するいくつかの要因は、未知の数と、前者と比較して失敗の確率が高くなっており、特に(全ての実験において)故障の確率は加算および減算演算の数とともに線形に増加することを注意する。
また、MWPに対するChatGPTの応答のデータセットをリリースし、LLM性能のキャラクタリゼーションに関するさらなる研究を支援し、現在のベースライン機械学習モデルを用いて、ChatGPTがMWPに正しく答えられるかどうかを予測する。
この分野のさらなる研究を支援するため、ChatGPTの回答からなるデータセットをリリースした。 We study the performance of a commercially available large language model (LLM) known as ChatGPT on math word problems (MWPs) from the dataset DRAW-1K. To our knowledge, this is the first independent evaluation of ChatGPT. We found that ChatGPT's performance changes dramatically based on the requirement to show its work, failing 20% of the time when it provides work compared with 84% when it does not. Further several factors about MWPs relating to the number of unknowns and number of operations that lead to a higher probability of failure when compared with the prior, specifically noting (across all experiments) that the probability of failure increases linearly with the number of addition and subtraction operations. We also have released the dataset of ChatGPT's responses to the MWPs to support further work on the characterization of LLM performance and present baseline machine learning models to predict if ChatGPT can correctly answer an MWP. We have released a dataset comprised of ChatGPT's responses to support further research in this area. | 翻訳日:2023-02-28 15:18:31 公開日:2023-02-23 |
# 量子状態の現実について:$\psi$-ontic モデルに対するno-go定理 On the reality of the quantum state once again: A no-go theorem for $\psi$-ontic models ( http://arxiv.org/abs/2201.11842v2 ) ライセンス: Link先を確認 | Gabriele Carcassi, Andrea Oldofredi, Christine A. Aidala | (参考訳) 本稿では,Harrigan と Spekkens (HS) が定義した$\psi$-ontic モデルでは量子論を再現できないことを示す。
確率に焦点をあてる代わりに、情報理論的な考察を用いて、$\psi$-onticモデルのすべての純粋状態は、量子力学に明確に違反して互いに直交しなければならないことを示す。
それを考えると
(i)Pusey,Barrett and Rudolph (PBR)は以前、HSが定義した$\psi$-epistemic Modelも量子力学に矛盾することを示した。
(II) HS分類はこれらの2種類のモデルによって枯渇しており、HS分類自体が量子論を再現できるモデルに空間を残さないため問題である、と結論付けている。 In this paper we show that $\psi$-ontic models, as defined by Harrigan and Spekkens (HS), cannot reproduce quantum theory. Instead of focusing on probability, we use information theoretic considerations to show that all pure states of $\psi$-ontic models must be orthogonal to each other, in clear violation of quantum mechanics. Given that (i) Pusey, Barrett and Rudolph (PBR) previously showed that $\psi$-epistemic models, as defined by HS, also contradict quantum mechanics, and (ii) the HS categorization is exhausted by these two types of models, we conclude that the HS categorization itself is problematic as it leaves no space for models that can reproduce quantum theory. | 翻訳日:2023-02-27 18:02:47 公開日:2023-02-23 |
# 定常状態操作による量子ビット動的写像の古典的容量の改善 Improving classical capacity of qubit dynamical maps through stationary state manipulation ( http://arxiv.org/abs/2302.11519v2 ) ライセンス: Link先を確認 | Katarzyna Siudzi\'nska | (参考訳) 位相共変チャネルの特殊クラスに対するホールボおよび絡み合い支援古典容量の進化を解析した。
特に,チャネルの定常状態を変化させることで,その非ユニタリ性度と密接な関係を保ちながら,これらの容量を向上できることを示す。
チャネルが非ユニタリであれば大きいほど容量は大きくなる。
チャネルパラメータは動的写像、時間局所生成器、メモリカーネルのレベルで混合して設計され、構成法を提案する。
高度に非ユニタリな写像に対しては、ユニタリ写像の絡み合いを補助する古典的容量を超える古典的容量を一時的に増加させる。
これは、非ユニタリ性が量子絡み合いよりも情報遷移の目的のためにより良い量子資源になることを示している。 We analyze the evolution of Holevo and entanglement-assisted classical capacities for a special class of phase-covariant channels. In particular, we show that these capacities can be improved by changing the stationary state of the channel, which is closely related to its non-unitality degree. The more non-unital the channel, the greater its capacity. The channel parameters are engineered through mixtures on the level of dynamical maps, time-local generators, and memory kernels, for which we propose construction methods. For highly non-unital maps, we achieve a temporary increase in the classical capacity that exceeds the entanglement-assisted classical capacity of the unital map. This shows that non-unitality can become a better quantum resource for information transition purposes than quantum entanglement. | 翻訳日:2023-02-27 15:44:41 公開日:2023-02-23 |
# Beyond Moments: 漸近的に最適なエラーでアフィン変換をロバストに学習する Beyond Moments: Robustly Learning Affine Transformations with Asymptotically Optimal Error ( http://arxiv.org/abs/2302.12289v1 ) ライセンス: Link先を確認 | He Jia, Pravesh K . Kothari, Santosh S. Vempala | (参考訳) 本稿では,標準ハイパーキューブの未知のアフィン変換をロバストに学習するための多項式時間アルゴリズムを提案する。
具体的には、未知のアフィン変換 $x \rightarrow Ax+s$ を $d$-dimensional hypercube $[-1,1]^d$ 上の一様分布に適用して得た分布 $D$ から得られた$\epsilon$ のサンプルを与えられた場合、我々のアルゴリズムは、分布の総変動距離が$D$ から$D$ までの$\hat{D}$ がpoly$(d)$時間とサンプルを用いて$O(\epsilon)$ となるように$\hat{A}, \hat{s}$ を構築する。
全変動距離は、我々の設定における情報理論上最も強い距離の概念であり、この距離における我々の回復保証は、$\epsilon$を乗じる絶対定数まで最適である。
特に、$a$ の列が単位長に正規化されている場合、全変動距離保証は、$a$ と $a'$、$\sum_{i =1}^d \|a_i-\hat{a}_i\|_2 = o(\epsilon)$ の列ベクトル間の$\ell_2$ 距離の和の境界を意味する。
対照的に、最も強い既知の先行結果は、個々の$a_i$sとそれらの推定値の間の距離で有界な$\epsilon^{O(1)}$(相対)しか得られず、全変動距離で有界な$O(d\epsilon)$に変換される。
我々の重要な革新はICAに対する新しいアプローチであり、これは古典的なモーメントの方法の難しさを回避し、代わりにアフィン変換の正しさを示す新しい幾何学的証明に依存する。
本アルゴリズムは,証明書の要件が満たされない場合に未知のアフィン変換の推定を反復的に改善する新しい手法に基づいている。 We present a polynomial-time algorithm for robustly learning an unknown affine transformation of the standard hypercube from samples, an important and well-studied setting for independent component analysis (ICA). Specifically, given an $\epsilon$-corrupted sample from a distribution $D$ obtained by applying an unknown affine transformation $x \rightarrow Ax+s$ to the uniform distribution on a $d$-dimensional hypercube $[-1,1]^d$, our algorithm constructs $\hat{A}, \hat{s}$ such that the total variation distance of the distribution $\hat{D}$ from $D$ is $O(\epsilon)$ using poly$(d)$ time and samples. Total variation distance is the information-theoretically strongest possible notion of distance in our setting and our recovery guarantees in this distance are optimal up to the absolute constant factor multiplying $\epsilon$. In particular, if the columns of $A$ are normalized to be unit length, our total variation distance guarantee implies a bound on the sum of the $\ell_2$ distances between the column vectors of $A$ and $A'$, $\sum_{i =1}^d \|a_i-\hat{a}_i\|_2 = O(\epsilon)$. In contrast, the strongest known prior results only yield a $\epsilon^{O(1)}$ (relative) bound on the distance between individual $a_i$'s and their estimates and translate into an $O(d\epsilon)$ bound on the total variation distance. Our key innovation is a new approach to ICA (even to outlier-free ICA) that circumvents the difficulties in the classical method of moments and instead relies on a new geometric certificate of correctness of an affine transformation. Our algorithm is based on a new method that iteratively improves an estimate of the unknown affine transformation whenever the requirements of the certificate are not met. | 翻訳日:2023-02-27 15:38:34 公開日:2023-02-23 |
# ZoeDepth:相対深さとメートル深さを組み合わせたゼロショット転送 ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth ( http://arxiv.org/abs/2302.12288v1 ) ライセンス: Link先を確認 | Shariq Farooq Bhat, Reiner Birkl, Diana Wofk, Peter Wonka, Matthias M\"uller | (参考訳) 本稿では,単一画像からの深度推定の問題に取り組む。
既存の研究は、メートル法スケール、すなわち相対深度推定や特定のデータセットの最先端結果、すなわちメートル法深度推定を無視する一般化性能に焦点を当てている。
我々は,両世界を組み合わせた最初のアプローチを提案し,メートル法スケールを維持しつつ,優れた一般化性能を持つモデルを実現する。
我々のフラッグシップモデルであるZoeD-M12-NKは、相対深度を用いて12のデータセットで事前トレーニングされ、計量深度を使用して2つのデータセットで微調整されます。
我々は、各ドメインにメートル法ビンモジュールと呼ばれる新しいビン調整設計の軽量ヘッドを使用する。
推論中、各入力画像は潜在分類器を使用して適切な頭部に自動的にルーティングされる。
我々のフレームワークは、相対深度事前学習とメートル法微調整に使用されるデータセットに依存する複数の設定を許容する。
事前トレーニングなしでは、NYU Depth v2屋内データセットのSOTA(State of the Art)を大幅に改善することができます。
12のデータセットを事前トレーニングし、NYU Depth v2屋内データセットを微調整することで、相対絶対誤差(REL)の合計で21%のSOTAをさらに改善できる。
最後に、ZoeD-M12-NKは、複数のデータセット(NYU Depth v2とKITTI)を大きなパフォーマンス低下なしに共同でトレーニングし、屋内および屋外のドメインから8つの目に見えないデータセットに対して前例のないゼロショットの一般化性能を達成する最初のモデルである。
コードと事前トレーニングされたモデルはhttps://github.com/isl-org/zoedepthで公開されている。 This paper tackles the problem of depth estimation from a single image. Existing work either focuses on generalization performance disregarding metric scale, i.e. relative depth estimation, or state-of-the-art results on specific datasets, i.e. metric depth estimation. We propose the first approach that combines both worlds, leading to a model with excellent generalization performance while maintaining metric scale. Our flagship model, ZoeD-M12-NK, is pre-trained on 12 datasets using relative depth and fine-tuned on two datasets using metric depth. We use a lightweight head with a novel bin adjustment design called metric bins module for each domain. During inference, each input image is automatically routed to the appropriate head using a latent classifier. Our framework admits multiple configurations depending on the datasets used for relative depth pre-training and metric fine-tuning. Without pre-training, we can already significantly improve the state of the art (SOTA) on the NYU Depth v2 indoor dataset. Pre-training on twelve datasets and fine-tuning on the NYU Depth v2 indoor dataset, we can further improve SOTA for a total of 21% in terms of relative absolute error (REL). Finally, ZoeD-M12-NK is the first model that can jointly train on multiple datasets (NYU Depth v2 and KITTI) without a significant drop in performance and achieve unprecedented zero-shot generalization performance to eight unseen datasets from both indoor and outdoor domains. The code and pre-trained models are publicly available at https://github.com/isl-org/ZoeDepth . | 翻訳日:2023-02-27 15:37:45 公開日:2023-02-23 |
# 非対称ギャップエンジニアリングジョセフソン接合と3次元トランスモン量子ビットのキャラクタリゼーション Characterization of Asymmetric Gap-Engineered Josephson Junctions and 3D Transmon Qubits ( http://arxiv.org/abs/2302.12280v1 ) ライセンス: Link先を確認 | Zach Steffen, S. K. Dutta, Haozhi Wang, Kungang Li, Yizhou Huang, Yi-Hsiang Huang, Advait Mathur, F. C. Wellstood, B. S. Palmer | (参考訳) 我々は、非対称ギャップエンジニアリングジャンクションとトランスモンデバイスを構築し、特徴付ける。
非対称なギャップを持つジョセフソン接合を作るために、tiはal反電極の超伝導ギャップを補間し下げるために用いられた。
ジョセフソン接合のDC IV測定では、通常のAl/AlOx/Al接合と比較して、超伝導ギャップ以下の電圧バイアスに対して、ギャップが小さく、余分な電流が大きい。
Al/AlOx/Al/Ti 3Dトランスモンのエネルギー緩和時間はT1 = 1 {\mu}sであり、標準Al/AlOx/Al 3DトランスモンのT1 = 134 {\mu}sよりも2桁短い。
Al層とTi層の間に意図的に障害を加えると、近接効果とサブギャップ電流が減少し、緩和時間はT1 = 32 {\mu}sに増加する。 We have fabricated and characterized asymmetric gap-engineered junctions and transmon devices. To create Josephson junctions with asymmetric gaps, Ti was used to proximitize and lower the superconducting gap of the Al counter-electrode. DC IV measurements of these small, proximitized Josephson junctions show a reduced gap and larger excess current for voltage biases below the superconducting gap when compared to standard Al/AlOx/Al junctions. The energy relaxation time constant for an Al/AlOx/Al/Ti 3D transmon was T1 = 1 {\mu}s, over two orders of magnitude shorter than the measured T1 = 134 {\mu}s of a standard Al/AlOx/Al 3D transmon. Intentionally adding disorder between the Al and Ti layers reduces the proximity effect and subgap current while increasing the relaxation time to T1 = 32 {\mu}s. | 翻訳日:2023-02-27 15:37:14 公開日:2023-02-23 |
# 連続監視開量子電池におけるデーモニックエルゴトロピー Daemonic ergotropy in continuously-monitored open quantum batteries ( http://arxiv.org/abs/2302.12279v1 ) ライセンス: Link先を確認 | Daniele Morrone, Matteo A. C. Rossi, Marco G. Genoni | (参考訳) 相関した補助系で行った測定から得られた情報を利用して量子系から抽出できる作業量を増やすことができる。
デーモニック・エルゴトロピーの概念は、量子構造におけるこの仕事の抽出促進を適切に記述し、定量化するために導入された。
本稿では,エネルギー貯蔵型量子デバイスと相互作用する環境を測定することで情報を得る,連続監視型オープン量子システムのコンテキストにおけるこのアイデアの適用について検討する。
まず、対応するデーモニックエルゴトロピーは、エルゴトロピーと対応する無条件状態のエネルギーの間に値を取ることを示す。
この上界は、被測定の種類とは独立に、初期純状態と環境に対する完全に効率的な射影測定とを仮定して達成される。
一方、測定が非効率である場合や初期状態が混合された場合、デーモンのエルゴトロピーは一般に測定戦略に依存する。
このシナリオは、古典場によって駆動され、自発的に放出される光子がホモダイン、ヘテロダイン、あるいは光検出によって連続的に観測される2段階の原子であるオープン量子電池のパラダイム的例を通して研究される。 The amount of work that can be extracted from a quantum system can be increased by exploiting the information obtained from a measurement performed on a correlated ancillary system. The concept of daemonic ergotropy has been introduced to properly describe and quantify this work extraction enhancement in the quantum regime. We here explore the application of this idea in the context of continuously-monitored open quantum systems, where information is gained by measuring the environment interacting with the energy-storing quantum device. We first show that the corresponding daemonic ergotropy takes values between the ergotropy and the energy of the corresponding unconditional state. The upper bound is achieved by assuming an initial pure state and a perfectly efficient projective measurement on the environment, independently of the kind of measurement performed. On the other hand, if the measurement is inefficient or the initial state is mixed, the daemonic ergotropy is generally dependent on the measurement strategy. This scenario is investigated via a paradigmatic example of an open quantum battery: a two-level atom driven by a classical field and whose spontaneously emitted photons are continuously monitored via either homodyne, heterodyne, or photo-detection. | 翻訳日:2023-02-27 15:36:58 公開日:2023-02-23 |
# reluネットワークのための定常性概念のテスト:ハードネス、正規性、ロバストアルゴリズム Testing Stationarity Concepts for ReLU Networks: Hardness, Regularity, and Robust Algorithms ( http://arxiv.org/abs/2302.12261v1 ) ライセンス: Link先を確認 | Lai Tian, Anthony Man-Cho So | (参考訳) reluアクティベーション関数を持つニューラルネットワークの実証的損失に対する定常性テストの計算問題について検討した。
ハードネス: ある一階近似定常性の概念を1次線形関数に対してチェックすることはコ-NPハードであることを示す。
これは、現代の非スムースニューラルネットワークに対する一定の定常性概念の検証は、一般に計算的に難解であることを意味する。
共役として、abs正規形式の関数に対するいわゆる一階極小性テストが共np完全であることを証明し、griewank と walther (2019, siam j. optim., vol. 29 p284) によって予想された。
規則性: クラーク, Fr'エチェット, および2層ReLUネットワークの経験的損失のサブディファレンシャルを制限することによる等式型部分ディファレンシャル連鎖則の妥当性について, 必要かつ十分な条件を確立する。
この新しい条件は単純で効率的にチェックできる。
ロバストアルゴリズム:clarkeとfr\'echet部分微分の両方の観点から近似定常性をテストするアルゴリズムスキームを導入する。
試験点が静止点に十分近く、一定の資格が満たされた場合に、我々のスキームは偽陽性または偽陰誤りを起こさない。
これは2層reluネットワークの実用的かつロバストな定常性試験手法である。 We study the computational problem of the stationarity test for the empirical loss of neural networks with ReLU activation functions. Our contributions are: Hardness: We show that checking a certain first-order approximate stationarity concept for a piecewise linear function is co-NP-hard. This implies that testing a certain stationarity concept for a modern nonsmooth neural network is in general computationally intractable. As a corollary, we prove that testing so-called first-order minimality for functions in abs-normal form is co-NP-complete, which was conjectured by Griewank and Walther (2019, SIAM J. Optim., vol. 29, p284). Regularity: We establish a necessary and sufficient condition for the validity of an equality-type subdifferential chain rule in terms of Clarke, Fr\'echet, and limiting subdifferentials of the empirical loss of two-layer ReLU networks. This new condition is simple and efficiently checkable. Robust algorithms: We introduce an algorithmic scheme to test near-approximate stationarity in terms of both Clarke and Fr\'echet subdifferentials. Our scheme makes no false positive or false negative error when the tested point is sufficiently close to a stationary one and a certain qualification is satisfied. This is the first practical and robust stationarity test approach for two-layer ReLU networks. | 翻訳日:2023-02-27 15:36:35 公開日:2023-02-23 |
# 物理学インフォームド深層学習による微分方程式の解法--ベンチマークテストを用いたハンドオンチュートリアル Solving differential equations using physics informed deep learning: a hand-on tutorial with benchmark tests ( http://arxiv.org/abs/2302.12260v1 ) ライセンス: Link先を確認 | Hubert Baty, Leo Baty | (参考訳) 本稿では,深層学習とニューラルネットワークを用いた微分方程式の解法を,方程式の知識を取り入れて再検討する。
これはトレーニングプロセスの最適化手順中に損失関数に専門用語を追加することによって行われる。
いわゆる物理インフォームドニューラルネットワーク(PINN)は、標準的な積分法に関してこのアプローチの利点と欠点を強調するために、様々な学術的な常微分方程式でテストされる。
トレーニングプロセスに可能な限りの少ないデータを使用する可能性に注目します。
ペナリゼーション項を通じて物理法則を強制することにより微分方程式を解くピンの原理を概説する。
単純な方程式モデルに関するチュートリアルは、通常の微分方程式の方法の実践方法を説明している。
ベンチマークテストでは、問題の非線型性が弱い場合、非常に少量のトレーニングデータが解を予測するのに十分であることが示されている。
しかし、一部の部分的あるいは全体の時間積分区間でトレーニングデータの事前知識が必要となるような、強非線型問題ではそうではない。 We revisit the original approach of using deep learning and neural networks to solve differential equations by incorporating the knowledge of the equation. This is done by adding a dedicated term to the loss function during the optimization procedure in the training process. The so-called physics-informed neural networks (PINNs) are tested on a variety of academic ordinary differential equations in order to highlight the benefits and drawbacks of this approach with respect to standard integration methods. We focus on the possibility to use the least possible amount of data into the training process. The principles of PINNs for solving differential equations by enforcing physical laws via penalizing terms are reviewed. A tutorial on a simple equation model illustrates how to put into practice the method for ordinary differential equations. Benchmark tests show that a very small amount of training data is sufficient to predict the solution when the non linearity of the problem is weak. However, this is not the case in strongly non linear problems where a priori knowledge of training data over some partial or the whole time integration interval is necessary. | 翻訳日:2023-02-27 15:36:13 公開日:2023-02-23 |
# クロスモーダル検索訓練におけるデータ漏洩 : 事例研究 Data leakage in cross-modal retrieval training: A case study ( http://arxiv.org/abs/2302.12258v1 ) ライセンス: Link先を確認 | Benno Weck and Xavier Serra | (参考訳) テキストベースの音声検索の最近の進歩は、適切なデータセットのリリースによって大きく推進された。
このようなデータセットを手動で作成するのは大変な作業なので、オンラインリソースからデータを取得することは、大規模なデータセットを作成するための安価なソリューションになり得る。
提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。
本分析では,評価データへのトレーニングデータの漏洩を引き起こす複数の重複を含むことを見出した。
このデータ漏洩は、最終的に以前のベンチマークで過度に楽観的な検索性能評価につながる。
オンラインで利用可能なデータセットに対して,新たなトレーニング,バリデーション,テスト分割を提案する。
テストデータの弱い汚染を避けるため、同様の記録設定を共有するオーディオファイルをプールする。
私たちの実験では、新しい分割がより難しいベンチマークとなることが分かりました。 The recent progress in text-based audio retrieval was largely propelled by the release of suitable datasets. Since the manual creation of such datasets is a laborious task, obtaining data from online resources can be a cheap solution to create large-scale datasets. We study the recently proposed SoundDesc benchmark dataset, which was automatically sourced from the BBC Sound Effects web page. In our analysis, we find that SoundDesc contains several duplicates that cause leakage of training data to the evaluation data. This data leakage ultimately leads to overly optimistic retrieval performance estimates in previous benchmarks. We propose new training, validation, and testing splits for the dataset that we make available online. To avoid weak contamination of the test data, we pool audio files that share similar recording setups. In our experiments, we find that the new splits serve as a more challenging benchmark. | 翻訳日:2023-02-27 15:35:55 公開日:2023-02-23 |
# 内在拡散モデルを用いた分子構造モデリング Modeling Molecular Structures with Intrinsic Diffusion Models ( http://arxiv.org/abs/2302.12255v1 ) ライセンス: Link先を確認 | Gabriele Corso | (参考訳) 100年以上前のその基礎から、構造生物学の分野は、分子の性質とその相互作用を3D空間で取る構造の研究によって理解し、分析しようと努力してきた。
しかし、このアプローチの根本的な課題は、全ての分子系に対して単一ではなく全体の構造分布をモデル化することを余儀なくされる粒子の動的性質である。
本論文は, 生物複合体の柔軟性に関する科学的知識と拡散生成モデルを組み合わせた新しい手法である内在拡散モデリングを提案する。
これらの自由度に関する知識は、拡散過程が定義される多様体の定義に変換される。
この多様体は次元を著しく減少させ、生成空間の滑らかさを増加させ、より高速で正確な生成プロセスを可能にする。
本稿では, 分子コンホメータ生成と分子ドッキングという, 計算化学と生物学の2つの基本的課題に対するこのアプローチの有効性を示す。
いずれのタスクにおいても,従来の計算手法を上回って,スケーラブルプログラムの精度を前例のないレベルまで向上させる,最初のディープラーニング手法を構築した。 Since its foundations, more than one hundred years ago, the field of structural biology has strived to understand and analyze the properties of molecules and their interactions by studying the structure that they take in 3D space. However, a fundamental challenge with this approach has been the dynamic nature of these particles, which forces us to model not a single but a whole distribution of structures for every molecular system. This thesis proposes Intrinsic Diffusion Modeling, a novel approach to this problem based on combining diffusion generative models with scientific knowledge about the flexibility of biological complexes. The knowledge of these degrees of freedom is translated into the definition of a manifold over which the diffusion process is defined. This manifold significantly reduces the dimensionality and increases the smoothness of the generation space allowing for significantly faster and more accurate generative processes. We demonstrate the effectiveness of this approach on two fundamental tasks at the basis of computational chemistry and biology: molecular conformer generation and molecular docking. In both tasks, we construct the first deep learning method to outperform traditional computational approaches achieving an unprecedented level of accuracy for scalable programs. | 翻訳日:2023-02-27 15:35:43 公開日:2023-02-23 |
# 軍藩の目新しさを特徴付けること Characterizing Novelty in the Military Domain ( http://arxiv.org/abs/2302.12314v1 ) ライセンス: Link先を確認 | Theresa Chadwick, James Chao, Christianne Izumigawa, George Galdorisi, Hector Ortiz-Pena, Elias Loup, Nicholas Soultanian, Mitch Manzanares, Adrian Mai, Richmond Yen, and Douglas S. Lange | (参考訳) 人工知能(ai)でエージェントを利用する上で重要な要因は、その新規性に対する堅牢性である。
aiエージェントには、エンジニアかトレーニングされたモデルが含まれる。
工学モデルには、エンジニアによって知られ、重要と見なされる環境のこれらの側面に関する知識が含まれる。
学習されたモデルは、トレーニングデータによる接続に基づいて、環境の側面の埋め込みを形成する。
しかし、運用環境では、リッチな環境はトレーニングセットやエンジニアリングされたモデルで見られるような課題を提示しがちである。
さらに悪いことに、敵対的な環境は相手によって変わることになる。
国防高等研究計画局(DARPA)のプログラムは、新規性に堅牢なエージェントの開発と評価に必要な科学の開発を目指している。
この能力は、ミッションクリティカルな環境の中でAIが想定される役割の前に必要となる。
aiの科学とオープンワールドノベルティのための学習(sail-on)の一環として、我々は可能な軍事ドメインノベルティタイプをノベルティ理論の一部として開発されたドメインに依存しないオントロジーにマッピングしている。
数学的および存在論的にノベルティの空間を特徴づけることで、DARPA SAIL-ONプログラムから得られたエージェント設計を、関連する軍事環境で実験することができる。
実験室で使用されているのと同じ技術を用いて、新規性を検出し、特徴付けし、適応するエージェント能力を測定することができる。 A critical factor in utilizing agents with Artificial Intelligence (AI) is their robustness to novelty. AI agents include models that are either engineered or trained. Engineered models include knowledge of those aspects of the environment that are known and considered important by the engineers. Learned models form embeddings of aspects of the environment based on connections made through the training data. In operation, however, a rich environment is likely to present challenges not seen in training sets or accounted for in engineered models. Worse still, adversarial environments are subject to change by opponents. A program at the Defense Advanced Research Project Agency (DARPA) seeks to develop the science necessary to develop and evaluate agents that are robust to novelty. This capability will be required, before AI has the role envisioned within mission critical environments. As part of the Science of AI and Learning for Open-world Novelty (SAIL-ON), we are mapping possible military domain novelty types to a domain-independent ontology developed as part of a theory of novelty. Characterizing the possible space of novelty mathematically and ontologically will allow us to experiment with agent designs that are coming from the DARPA SAIL-ON program in relevant military environments. Utilizing the same techniques as being used in laboratory experiments, we will be able to measure agent ability to detect, characterize, and accommodate novelty. | 翻訳日:2023-02-27 15:28:56 公開日:2023-02-23 |
# あまり頻度の低い言語でAIのパフォーマンスをテストする Testing AI performance on less frequent aspects of language reveals insensitivity to underlying meaning ( http://arxiv.org/abs/2302.12313v1 ) ライセンス: Link先を確認 | Vittoria Dentella, Elliot Murphy, Gary Marcus and Evelina Leivada | (参考訳) 計算手法とビッグデータ可用性の進歩は、最近AIアプリケーションのブレークスルーに変換された。
ボトムアップの課題の成功によって、大きな言語モデルの「人間的な」パフォーマンスは、アルゴリズムが言語のパフォーマンスをどのように達成するかという問題を提起している。
多くのAIシステムにまたがる一般化における体系的な欠点を考えると、この研究では、言語性能が大規模言語モデルにおける言語知識によって実際に導かれるかどうかを問う。
この目的のために,我々はGPT-3に文法判断タスクを付与し,大規模言語モデルの学習データを構成する可能性が低い低頻度な構成について質問する。
これには、文法的な「イラストレーション」、意味的な異常、複雑なネストした階層、自己埋め込みが含まれる。
GPT-3は全てのプロンプトで失敗し、しばしば、あまり頻度の低い文法構造で使われる高周波語でさえ理解の欠如を示す回答を提供する。
この研究は、AIのような言語能力の主張の境界に光を当て、LLMの次の単語予測能力は、トレーニングデータを超えた堅牢性の問題に直面するかもしれない、と論じている。 Advances in computational methods and big data availability have recently translated into breakthroughs in AI applications. With successes in bottom-up challenges partially overshadowing shortcomings, the 'human-like' performance of Large Language Models has raised the question of how linguistic performance is achieved by algorithms. Given systematic shortcomings in generalization across many AI systems, in this work we ask whether linguistic performance is indeed guided by language knowledge in Large Language Models. To this end, we prompt GPT-3 with a grammaticality judgement task and comprehension questions on less frequent constructions that are thus unlikely to form part of Large Language Models' training data. These included grammatical 'illusions', semantic anomalies, complex nested hierarchies and self-embeddings. GPT-3 failed for every prompt but one, often offering answers that show a critical lack of understanding even of high-frequency words used in these less frequent grammatical constructions. The present work sheds light on the boundaries of the alleged AI human-like linguistic competence and argues that, far from human-like, the next-word prediction abilities of LLMs may face issues of robustness, when pushed beyond training data. | 翻訳日:2023-02-27 15:28:35 公開日:2023-02-23 |
# d2d対応線形連合学習のための符号化行列計算 Coded Matrix Computations for D2D-enabled Linearized Federated Learning ( http://arxiv.org/abs/2302.12305v1 ) ライセンス: Link先を確認 | Anindya Bijoy Das, Aditya Ramamoorthy, David J. Love, Christopher G. Brinton | (参考訳) Federated Learning(FL)は、クライアントデバイスに分散したデータのグローバルモデルをトレーニングするための一般的なテクニックである。
他の分散トレーニングテクニックと同様に、FLはストラグラー(スローまたはフェール)クライアントに影響を受けやすい。
最近の研究は、デバイス間デバイス(D2D)のオフロードを通じてこの問題に対処することを提案した。
本稿では,FLにおけるD2Dデータ伝送から生じる通信遅延やプライバシー問題を大幅に低減できる,符号化行列計算のためのストラグラー最適化手法を提案する。
さらに,提案手法は,生成されたデータ行列がスパースする場合の局所計算速度を大幅に向上させる。
提案手法がベースライン法よりも優れていることを示す数値評価を行った。 Federated learning (FL) is a popular technique for training a global model on data distributed across client devices. Like other distributed training techniques, FL is susceptible to straggler (slower or failed) clients. Recent work has proposed to address this through device-to-device (D2D) offloading, which introduces privacy concerns. In this paper, we propose a novel straggler-optimal approach for coded matrix computations which can significantly reduce the communication delay and privacy issues introduced from D2D data transmissions in FL. Moreover, our proposed approach leads to a considerable improvement of the local computation speed when the generated data matrix is sparse. Numerical evaluations confirm the superiority of our proposed method over baseline approaches. | 翻訳日:2023-02-27 15:28:17 公開日:2023-02-23 |
# 不確実性注入:ロバスト最適化のための深層学習法 Uncertainty Injection: A Deep Learning Method for Robust Optimization ( http://arxiv.org/abs/2302.12304v1 ) ライセンス: Link先を確認 | Wei Cui and Wei Yu | (参考訳) 本稿では,頑健な最適化問題を解決するためのディープラーニングモデルのトレーニングのための不確実性注入のパラダイムを提案する。
ディープラーニングに関する既存の研究の多くはモデル学習能力に重点を置いており、入力データの質と正確性を保証することができる。
しかし、最適化問題に対するディープラーニングの現実的な応用においては、この場合の問題パラメータである入力の精度が大きな役割を果たす。
これは、多くの場合、問題パラメータを正確に取得することは費用がかかるか、あるいは不可能な場合が多いためであり、それに応じて、入力の不確実性を考慮し、これらの不確実性に対して堅牢なソリューションを作成することができる学習アルゴリズムを開発することが好ましい。
本稿では,不確実性を暗黙的に説明し,統計的に堅牢な解を生成する機械学習モデルをトレーニングするための新しい不確実性注入方式を提案する。
さらに,無線通信を,チャネル係数などの問題パラメータに不確実性が共通するアプリケーションフィールドとして識別する。
本研究では,マルチユーザマルチインプットマルチプル出力(mimo)ダウンリンク伝送におけるロバスト電力負荷と,デバイス間通信(d2d)ネットワークにおけるロバスト電力制御について検討した。 This paper proposes a paradigm of uncertainty injection for training deep learning model to solve robust optimization problems. The majority of existing studies on deep learning focus on the model learning capability, while assuming the quality and accuracy of the inputs data can be guaranteed. However, in realistic applications of deep learning for solving optimization problems, the accuracy of inputs, which are the problem parameters in this case, plays a large role. This is because, in many situations, it is often costly or sometime impossible to obtain the problem parameters accurately, and correspondingly, it is highly desirable to develop learning algorithms that can account for the uncertainties in the input and produce solutions that are robust against these uncertainties. This paper presents a novel uncertainty injection scheme for training machine learning models that are capable of implicitly accounting for the uncertainties and producing statistically robust solutions. We further identify the wireless communications as an application field where uncertainties are prevalent in problem parameters such as the channel coefficients. We show the effectiveness of the proposed training scheme in two applications: the robust power loading for multiuser multiple-input-multiple-output (MIMO) downlink transmissions; and the robust power control for device-to-device (D2D) networks. | 翻訳日:2023-02-27 15:28:05 公開日:2023-02-23 |
# 単一量子の運動量を測定する方法 How to measure the momentum of single quanta ( http://arxiv.org/abs/2302.12303v1 ) ライセンス: Link先を確認 | J. K. Freericks | (参考訳) フォン・ノイマン測定理論は、古典的機械で観測可能な量子の絡み合いとデコヒーレンスや崩壊に基づくが、ほとんどの運動量の測定には容易には適用できない。
実際、量子粒子の運動量を測定する方法はほとんどの量子力学教科書では議論されていない。
その代わり、私たちはしばしば、位置と運動量が同時に測定できないという伝承を教えます。
しかし、運動量を測定するほとんどの方法は、運動量を推測する測位を含む。
本チュートリアルレビューでは,運動量を測定する実実験について検討し,計測の数学的モデルを抽象化するのではなく,実実験に焦点をあてた測定理論の指導をいかに改善できるかを述べる。 The von Neumann theory of measurement, based on an entanglement of the quantum observable with a classical machine followed by decoherence or collapse, does not readily apply to most measurements of momentum. Indeed, how we measure the momentum of a quantum particle is not even discussed in most quantum mechanics textbooks. Instead, we often teach the lore that position and momentum cannot be measured at the same time. Yet, most ways to measure momentum actually involve measuring position to infer momentum. In this tutorial review, I examine real experiments that measure momentum and describe how one can improve our teaching of the theory of measurement when we focus on real experiments, rather than abstract mathematical models of measurement. | 翻訳日:2023-02-27 15:27:41 公開日:2023-02-23 |
# 変化検出研究のためのアライメント型マルチテンポラル・マルチリゾリューション衛星画像データセット An Aligned Multi-Temporal Multi-Resolution Satellite Image Dataset for Change Detection Research ( http://arxiv.org/abs/2302.12301v1 ) ライセンス: Link先を確認 | Rahul Deshmukh, Constantine J. Roros, Amith Kashyap, Avinash C. Kak | (参考訳) 本稿では,変化検出のための多時間・多解像度衛星画像データセットについて述べる。
当社のデータセットは、複数の衛星から情報を融合して、単一の衛星で完全には見えない地球表面の変化を検出する研究者にとって有用であると期待しています。
私たちが提示したデータセットは、LandsatとSentinelの画像の時間並列スタックでSpaceNet-7データセットを拡張することで作成されました。
SpaceNet-7データセットは、101AOI(Areas-of-Interest)で記録された時系列のプラネット画像で構成されている。
我々のデータセットでは、トレーニングを意図した60個のAOIに対して、ランドサットとセンチネルの画像の時間的に平行なデータキューブでPlanetデータキューブを拡張する。
一方、高解像度のプラネット画像とランドサット画像とセンチネル画像の時間的アライメントは、プラネット画像の時間的解像度が1ヶ月であるため、それぞれ1ヶ月にわたって収集された最高のデータのモザイクである。
ランドサットとセンチネルの画像が惑星の画像と組み合わせられるかという選択肢があるときはいつでも、最も雲の少ない画像を選択します。
データセットの特に重要な特徴は、高精細度画像と低精細画像が、この論文で提示されたmuraフレームワークと空間的に整合していることです。
アライメント計算の基礎は、nasaのaropアルゴリズムのような多項式による衛星間ミスアライメント誤差のモデル化である。
我々は、データセットの時間次元のクロスサテライト画像の整列に使用されるMuRAフレームワークと、データセットの時間次元の"T"について、データセット MuRA-T を命名した。 This paper presents an aligned multi-temporal and multi-resolution satellite image dataset for research in change detection. We expect our dataset to be useful to researchers who want to fuse information from multiple satellites for detecting changes on the surface of the earth that may not be fully visible in any single satellite. The dataset we present was created by augmenting the SpaceNet-7 dataset with temporally parallel stacks of Landsat and Sentinel images. The SpaceNet-7 dataset consists of time-sequenced Planet images recorded over 101 AOIs (Areas-of-Interest). In our dataset, for each of the 60 AOIs that are meant for training, we augment the Planet datacube with temporally parallel datacubes of Landsat and Sentinel images. The temporal alignments between the high-res Planet images, on the one hand, and the Landsat and Sentinel images, on the other, are approximate since the temporal resolution for the Planet images is one month -- each image being a mosaic of the best data collected over a month. Whenever we have a choice regarding which Landsat and Sentinel images to pair up with the Planet images, we have chosen those that had the least cloud cover. A particularly important feature of our dataset is that the high-res and the low-res images are spatially aligned together with our MuRA framework presented in this paper. Foundational to the alignment calculation is the modeling of inter-satellite misalignment errors with polynomials as in NASA's AROP algorithm. We have named our dataset MuRA-T for the MuRA framework that is used for aligning the cross-satellite images and "T" for the temporal dimension in the dataset. | 翻訳日:2023-02-27 15:27:30 公開日:2023-02-23 |
# 生成言語モデルはどの言語でもっとも形式的か?
言語間の形式分布の分析 In What Languages are Generative Language Models the Most Formal? Analyzing Formality Distribution across Languages ( http://arxiv.org/abs/2302.12299v1 ) ライセンス: Link先を確認 | As{\i}m Ersoy, Gerson Vizcarra, Tasmiah Tahsin Mayeesha, Benjamin Muller | (参考訳) 多言語生成言語モデル (LM) は、様々な言語で流用されるようになっている。
コーパスを複数の言語で結合させることで、高リソース言語から低リソース言語への強力な移行を可能にする。
しかし、これらのモデルの予測にどのような文化バイアスが引き起こされるのかはまだ分かっていない。
本研究では,文化の影響が強い言語特性,形式性に着目した。
我々はXGLMとBLOOMの予測の形式性分布を5言語で解析する。
我々は,言語毎の1200世代を形式的,非公式,あるいは非接着的に分類し,迅速な形式化が予測に与える影響を測定する。
全体としては、モデルや言語にまたがる行動の多様性を観察します。
例えば、XGLM は BLOOM よりもはるかに多く、非公式なプロンプトで条件付けられたとき、アラビア語とベンガル語で非公式のテキストを生成する。
また,両モデルとも中和時に形式的スタイルに非常に偏りがあるにもかかわらず,形式的テキストを駆使した場合でも,モデルがかなりの量の非公式な予測を生成することがわかった。
本研究は6000の注釈付きサンプルを用いてリリースし, 生成多言語LMの形式性に関する今後の研究の道を開く。 Multilingual generative language models (LMs) are increasingly fluent in a large variety of languages. Trained on the concatenation of corpora in multiple languages, they enable powerful transfer from high-resource languages to low-resource ones. However, it is still unknown what cultural biases are induced in the predictions of these models. In this work, we focus on one language property highly influenced by culture: formality. We analyze the formality distributions of XGLM and BLOOM's predictions, two popular generative multilingual language models, in 5 languages. We classify 1,200 generations per language as formal, informal, or incohesive and measure the impact of the prompt formality on the predictions. Overall, we observe a diversity of behaviors across the models and languages. For instance, XGLM generates informal text in Arabic and Bengali when conditioned with informal prompts, much more than BLOOM. In addition, even though both models are highly biased toward the formal style when prompted neutrally, we find that the models generate a significant amount of informal predictions even when prompted with formal text. We release with this work 6,000 annotated samples, paving the way for future work on the formality of generative multilingual LMs. | 翻訳日:2023-02-27 15:27:01 公開日:2023-02-23 |
# 複数の視点を持つ時間的概念ドリフトにおけるマスケプ言語モデルの動的ベンチマーク Dynamic Benchmarking of Masked Language Models on Temporal Concept Drift with Multiple Views ( http://arxiv.org/abs/2302.12297v1 ) ライセンス: Link先を確認 | Katerina Margatina, Shuai Wang, Yogarshi Vyas, Neha Anna John, Yassine Benajiba, Miguel Ballesteros | (参考訳) 時間的概念ドリフトは、時間とともに変化するデータの問題を指す。
NLPでは、言語(例えば、新しい表現、つまり変化)と事実知識(例えば、新しい概念、更新された事実)が時間とともに進化する。
後者に着目して、我々は、時間的概念ドリフトの効果を評価するために設計された一連のテストに対して、11ドルの事前訓練されたマスク付き言語モデル(MLM)をベンチマークする。
具体的には,(1) Wikidata から得られた実データの時間的粒度(月,四半期,年)の時間的テストセットを動的に生成し,(2) 総合的な分析を確実にするため,(2) テストのきめ細かい分割(更新,更新,変更のない事実)を構築し,(3) MDM を3つの異なる方法で評価する,という総合的な枠組みを提供する。
従来の作業とは対照的に,mlmの堅牢性を明らかにすることを目的としたフレームワークでは,複数の評価の視点を活用することで,mlmが時代遅れになった場合の信号を提供する。 Temporal concept drift refers to the problem of data changing over time. In NLP, that would entail that language (e.g. new expressions, meaning shifts) and factual knowledge (e.g. new concepts, updated facts) evolve over time. Focusing on the latter, we benchmark $11$ pretrained masked language models (MLMs) on a series of tests designed to evaluate the effect of temporal concept drift, as it is crucial that widely used language models remain up-to-date with the ever-evolving factual updates of the real world. Specifically, we provide a holistic framework that (1) dynamically creates temporal test sets of any time granularity (e.g. month, quarter, year) of factual data from Wikidata, (2) constructs fine-grained splits of tests (e.g. updated, new, unchanged facts) to ensure comprehensive analysis, and (3) evaluates MLMs in three distinct ways (single-token probing, multi-token generation, MLM scoring). In contrast to prior work, our framework aims to unveil how robust an MLM is over time and thus to provide a signal in case it has become outdated, by leveraging multiple views of evaluation. | 翻訳日:2023-02-27 15:26:41 公開日:2023-02-23 |
# フックインジェクションによるクリーナーマジック状態 Cleaner magic states with hook injection ( http://arxiv.org/abs/2302.12292v1 ) ライセンス: Link先を確認 | Craig Gidney | (参考訳) 本稿では,故意のフックエラー機構を,表面コードにマジック状態を注入するための制御ノブとして利用できることを示す。
このアプローチの極限と利点は、ブロッホ球の XY あるいは YZ 平面における状態しか注入できないことである。
これは、対象平面からの摂動がエラーとして検出できるため、忠実度を高める。
私はモンテカルロサンプリングを用いて、この手法が以前の注入技術よりも優れていることを示し、デジタル化された回路ノイズ下でより小さな時空コストでエラー率を達成する。 In this paper, I show how an intentional hook error mechanism can be used as a control knob for injecting magic states into surface codes. The limitation, and benefit, of this approach is that it can only inject states in the XY or YZ plane of the Bloch sphere. This increases fidelity, because perturbations out of the target plane can be detected as errors. I use Monte Carlo sampling to show that this technique outperforms previous injection techniques, achieving lower error rates at smaller spacetime cost under digitized circuit noise. | 翻訳日:2023-02-27 15:26:16 公開日:2023-02-23 |
# 金融ポートフォリオ最適化:シャープ比最大化のためのQUBO式 Financial Portfolio Optimization: a QUBO Formulation for Sharpe Ratio Maximization ( http://arxiv.org/abs/2302.12291v1 ) ライセンス: Link先を確認 | Mirko Mattesi, Luca Asproni, Christian Mattia, Simone Tufano, Giacomo Ranieri, Davide Caputo and Davide Corbelletto | (参考訳) ポートフォリオ最適化タスクは、期待されるリターンと関連するリスクの条件を満たす資産のバスケットを特定する手順として、金融サービス文献で長い間研究されてきた。
この課題に取り組むためのよく知られたアプローチはシャープ比の最大化であり、擬似プログラミングのような問題修正が達成できる。
このクラスでQUBOにマップされた問題は量子アニーリングデバイスによって解決でき、高品質な解を見つけることが期待されている。
本研究では,シャープ比最大化のためのQUBO定式化を提案し,その結果をQuantum Computing State-of-the-artモデルと古典的ベンチマークと比較する。
提案する定式化に必要な仮定の下では,シャープ比の値として測定した解の質について有意義な考察を行う。 The Portfolio Optimization task has long been studied in the Financial Services literature as a procedure to identify the basket of assets that satisfy desired conditions on the expected return and the associated risk. A well-known approach to tackle this task is the maximization of the Sharpe Ratio, achievable with a problem reformulation as Quadratic Programming. The problems in this class mapped to a QUBO can be solved via Quantum Annealing devices, which are expected to find high quality solutions. In this work we propose a QUBO formulation for the Sharpe Ratio maximization and compare the results both with the Quantum Computing state-of-the-art model and a classical benchmark. Under the assumptions that we require for the proposed formulation, we derive meaningful considerations about the solution quality found, measured as the value of Sharpe Ratio. | 翻訳日:2023-02-27 15:26:04 公開日:2023-02-23 |
# 線形関数上の静的不偏性進化アルゴリズムのタイトランタイム境界 Tight Runtime Bounds for Static Unary Unbiased Evolutionary Algorithms on Linear Functions ( http://arxiv.org/abs/2302.12338v1 ) ライセンス: Link先を確認 | Carola Doerr and Duri Andrea Janett and Johannes Lengler | (参考訳) 2013年のセミナー論文で、ウィットは、(1+1)進化的アルゴリズムの標準ビット変異は、任意の線型関数の最適値を見つけるのに(1+o(1))n \ln n/p_1$ を必要とし、ちょうど1ビットをフリップする確率 $p_1$ が$\Theta(1)$ であることを示した。
本稿では、この結果が標準ビット突然変異を任意の非バイアス突然変異演算子に置き換えた場合、どのように一般化するかを検討する。
ウィットによる下界に対する確率的支配論はもはや成り立たないので、この状況は特に異なる。
特に、最適に近いところから始めることは必ずしも利点ではなく、onemaxは任意の開始位置の最も簡単な関数ではない。
それでも、Witt の結果が、$p_1$ が小さすぎることと、フリップしたビットの数が有界予想~$\mu$ であれば、続くことを示す。
特に、これは高速遺伝アルゴリズムで使われる重く尾の突然変異演算子を含むが、全てではない。
また、unbounded $\mu$のアルゴリズムが最適に近い質的に異なる軌跡を持つことを示す例を示す。 In a seminal paper in 2013, Witt showed that the (1+1) Evolutionary Algorithm with standard bit mutation needs time $(1+o(1))n \ln n/p_1$ to find the optimum of any linear function, as long as the probability $p_1$ to flip exactly one bit is $\Theta(1)$. In this paper we investigate how this result generalizes if standard bit mutation is replaced by an arbitrary unbiased mutation operator. This situation is notably different, since the stochastic domination argument used for the lower bound by Witt no longer holds. In particular, starting closer to the optimum is not necessarily an advantage, and OneMax is no longer the easiest function for arbitrary starting position. Nevertheless, we show that Witt's result carries over if $p_1$ is not too small and if the number of flipped bits has bounded expectation~$\mu$. Notably, this includes some of the heavy-tail mutation operators used in fast genetic algorithms, but not all of them. We also give examples showing that algorithms with unbounded $\mu$ have qualitatively different trajectories close to the optimum. | 翻訳日:2023-02-27 15:19:58 公開日:2023-02-23 |
# 物理にない深層学習の限界について--一階双曲保存則に基づく交通フローモデルを用いたイラスト On the Limitations of Physics-informed Deep Learning: Illustrations Using First Order Hyperbolic Conservation Law-based Traffic Flow Models ( http://arxiv.org/abs/2302.12337v1 ) ライセンス: Link先を確認 | Archie J. Huang, Shaurya Agarwal | (参考訳) 2017年に導入されて以来、物理インフォームド・ディープ・ラーニング(PIDL)は、偏微分方程式(PDE)の観点から物理法則によって支配されるシステムの進化を理解することで人気が高まっている。
しかしながら、実証的な証拠は、ある種のPDEを学ぶためのPIDLの限界を示している。
本稿では,
(a)PIDLアーキテクチャのトレーニングの課題を示す。
b)一階スカラー双曲的保存則とその放物型法を学習するpidlアーキテクチャの性能と対比する。
(c) 交通ネットワークにおける各種センシングシナリオに対応するトレーニングデータサンプリングの効果について検討する。
(d)交通流の予測と予測におけるPIDL制限の影響についてコメントすること。
本稿では,交通流モデル(LWR PDE)の学習と拡散に伴う変動のPIDL結果の相違について述べる。
その結果,PIDLは解の非滑らか性による双曲型LWR方程式の学習において重要な課題を経験していることが示唆された。
一方, 拡散項を付加した放物型PDEアーキテクチャは, 衝撃波が存在する場合でも, 密度データの再集合に成功した。 Since its introduction in 2017, physics-informed deep learning (PIDL) has garnered growing popularity in understanding the evolution of systems governed by physical laws in terms of partial differential equations (PDEs). However, empirical evidence points to the limitations of PIDL for learning certain types of PDEs. In this paper, we (a) present the challenges in training PIDL architecture, (b) contrast the performance of PIDL architecture in learning a first order scalar hyperbolic conservation law and its parabolic counterpart, (c) investigate the effect of training data sampling, which corresponds to various sensing scenarios in traffic networks, (d) comment on the implications of PIDL limitations for traffic flow estimation and prediction in practice. Detailed in the case study, we present the contradistinction in PIDL results between learning the traffic flow model (LWR PDE) and its variation with diffusion. The outcome indicates that PIDL experiences significant challenges in learning the hyperbolic LWR equation due to the non-smoothness of its solution. On the other hand, the architecture with parabolic PDE, augmented with the diffusion term, leads to the successful reassembly of the density data even with the shockwaves present. | 翻訳日:2023-02-27 15:19:32 公開日:2023-02-23 |
# 物理学インフォームド深層学習:輸送への応用 Physics Informed Deep Learning: Applications in Transportation ( http://arxiv.org/abs/2302.12336v1 ) ライセンス: Link先を確認 | Archie J. Huang, Shaurya Agarwal | (参考訳) 近年の機械学習 - 物理インフォームド・ディープ・ラーニング (PIDL) - は、交通状態推定などの輸送アプリケーションに特有の利点をもたらす。
深層学習(DL)と制御物理方程式の利点を統合し,交通状況の把握において従来のセンシング手法を補完する可能性を示す。
本稿ではまず,交通流理論の保存則を「物理」と説明し,PIDLニューラルネットワークのアーキテクチャを示し,未観測領域の交通条件を学習する上での有効性を実証する。
また,フォグコンピューティング基盤を用いたデータ収集シナリオについても述べる。
車両の速度を推定するケーススタディを行い, PIDLは, 収束時間と復元精度の観点から, 同じ学習構造を持つ通常のDLニューラルネットワークの性能を上回ることを示した。
奨励的な結果は、少量のトレーニングデータによるリアルタイム輸送アプリケーションにおけるpidlの広範な可能性を示している。 A recent development in machine learning - physics-informed deep learning (PIDL) - presents unique advantages in transportation applications such as traffic state estimation. Consolidating the benefits of deep learning (DL) and the governing physical equations, it shows the potential to complement traditional sensing methods in obtaining traffic states. In this paper, we first explain the conservation law from the traffic flow theory as ``physics'', then present the architecture of a PIDL neural network and demonstrate its effectiveness in learning traffic conditions of unobserved areas. In addition, we also exhibit the data collection scenario using fog computing infrastructure. A case study on estimating the vehicle velocity is presented and the result shows that PIDL surpasses the performance of a regular DL neural network with the same learning architecture, in terms of convergence time and reconstruction accuracy. The encouraging results showcase the broad potential of PIDL for real-time applications in transportation with a low amount of training data. | 翻訳日:2023-02-27 15:19:10 公開日:2023-02-23 |
# パラメータ制御のための自動アルゴリズム構成法 Using Automated Algorithm Configuration for Parameter Control ( http://arxiv.org/abs/2302.12334v1 ) ライセンス: Link先を確認 | Deyao Chen, Maxim Buzdalov, Carola Doerr, Nguyen Dang | (参考訳) 動的アルゴリズム構成(DAC)は、データ駆動方式でアルゴリズムのパラメータを制御するためのポリシーを自動的に学習する方法の問題に取り組む。
この問題は近年、進化的コミュニティからかなりの注目を集めている。
したがって、DACの異なる解法の有効性と限界について構造的理解を得るための優れたベンチマーク収集が望ましい。
理論的性質と基底真理情報をよく理解したDACベンチマークを提案する最近の研究に続いて、我々は新しいDACベンチマークとして、OneMax問題を解決するための1+(\lambda,\lambda)$~Genetic Algorithmのキーパラメータを$\lambda$で制御することを提案している。
本稿では,ベンチマーク上での(静的な)自動アルゴリズム構成を用いてDAC問題の解法について検討し,アプローチの性能を大幅に向上させる手法を提案する。
我々のアプローチは、十分に大きな問題サイズに関する以前の理論的研究から得られたベンチマークのデフォルトパラメータ制御ポリシーを一貫して上回ることができる。
また,パラメータ制御サーチポリシの展望に関する新たな知見を提示し,真の最適ポリシーの数値近似を用いて,ベンチマークのより強力なベースラインを求める手法を提案する。 Dynamic Algorithm Configuration (DAC) tackles the question of how to automatically learn policies to control parameters of algorithms in a data-driven fashion. This question has received considerable attention from the evolutionary community in recent years. Having a good benchmark collection to gain structural understanding on the effectiveness and limitations of different solution methods for DAC is therefore strongly desirable. Following recent work on proposing DAC benchmarks with well-understood theoretical properties and ground truth information, in this work, we suggest as a new DAC benchmark the controlling of the key parameter $\lambda$ in the $(1+(\lambda,\lambda))$~Genetic Algorithm for solving OneMax problems. We conduct a study on how to solve the DAC problem via the use of (static) automated algorithm configuration on the benchmark, and propose techniques to significantly improve the performance of the approach. Our approach is able to consistently outperform the default parameter control policy of the benchmark derived from previous theoretical work on sufficiently large problem sizes. We also present new findings on the landscape of the parameter-control search policies and propose methods to compute stronger baselines for the benchmark via numerical approximations of the true optimal policies. | 翻訳日:2023-02-27 15:18:56 公開日:2023-02-23 |
# 空間フェアネスの監査 Auditing for Spatial Fairness ( http://arxiv.org/abs/2302.12333v1 ) ライセンス: Link先を確認 | Dimitris Sacharidis, Giorgos Giannopoulos, George Papastefanatos, Kostas Stefanidis | (参考訳) 本稿では,保護属性が位置にある場合のアルゴリズム的公正性について検討する。
年齢や収入などの保護された属性を扱うため、標準的なアプローチは、ドメインを事前に定義されたグループに識別し、グループ間でアルゴリズム的な結果を比較することである。
しかし、このアイデアをロケーションに適用すると、gerrymanderingの懸念が高まり、統計的バイアスが生じる可能性がある。
以前の研究はこれらの懸念に対処するが、他の問題を提起する一方で、空間的不公平を示す可能性のある地域を特定することができない。
アルゴリズム的公平性の確立した概念と同様に、空間的公平性は位置からの結果の統計的独立性として定義する。
これは空間の各領域に対して、結果の分布が領域内外と同一であることが要求されることを意味する。
結果分布の局所的不一致を許容するために、2つの競合する仮説が観測された結果についてどの程度うまく説明できるかを比較する。
ヌル仮説は空間的公平性を仮定し、後者は領域内外の異なる分布を許容する。
適合性の良さは度合試験によって評価される。
2つの仮説が観測結果をどのようにうまく説明するかに有意な差がなければ、このアルゴリズムは空間的に公平である。 This paper studies algorithmic fairness when the protected attribute is location. To handle protected attributes that are continuous, such as age or income, the standard approach is to discretize the domain into predefined groups, and compare algorithmic outcomes across groups. However, applying this idea to location raises concerns of gerrymandering and may introduce statistical bias. Prior work addresses these concerns but only for regularly spaced locations, while raising other issues, most notably its inability to discern regions that are likely to exhibit spatial unfairness. Similar to established notions of algorithmic fairness, we define spatial fairness as the statistical independence of outcomes from location. This translates into requiring that for each region of space, the distribution of outcomes is identical inside and outside the region. To allow for localized discrepancies in the distribution of outcomes, we compare how well two competing hypotheses explain the observed outcomes. The null hypothesis assumes spatial fairness, while the alternate allows different distributions inside and outside regions. Their goodness of fit is then assessed by a likelihood ratio test. If there is no significant difference in how well the two hypotheses explain the observed outcomes, we conclude that the algorithm is spatially fair. | 翻訳日:2023-02-27 15:18:36 公開日:2023-02-23 |
# 超伝導量子ビットにおける準粒子の非平衡密度と平衡エネルギー分布の共存 Coexistence of nonequilibrium density and equilibrium energy distribution of quasiparticles in a superconducting qubit ( http://arxiv.org/abs/2302.12330v1 ) ライセンス: Link先を確認 | Thomas Connolly, Pavel D. Kurilovich, Spencer Diamond, Heekun Nho, Charlotte G. L. B{\o}ttcher, Leonid I. Glazman, Valla Fatemi, Michel H. Devoret | (参考訳) 超伝導量子ビットで典型的に観測される準粒子の密度は、平衡で期待される値を超える。
この平衡外準粒子密度は、フォノン浴と平衡のエネルギー分布を持つことができるか?
ここでは, ジョセフソン接合の両面の超伝導ギャップに差があるトランスモン量子ビットにおける電荷パリティスイッチングの熱的活性化を測定することにより, この疑問に肯定的に答える。
次に、デバイス間のギャップ非対称性を利用してパリティを操作する方法を示す。 The density of quasiparticles typically observed in superconducting qubits exceeds the value expected in equilibrium by many orders of magnitude. Can this out-of-equilibrium quasiparticle density still possess an energy distribution in equilibrium with the phonon bath? Here, we answer this question affirmatively by measuring the thermal activation of charge-parity switching in a transmon qubit with a difference in superconducting gap on the two sides of the Josephson junction. We then demonstrate how the gap asymmetry of the device can be exploited to manipulate its parity. | 翻訳日:2023-02-27 15:18:15 公開日:2023-02-23 |
# キャプションとしての要約:自動テキスト要約による科学文書のフィギュアキャプションの生成 Summaries as Captions: Generating Figure Captions for Scientific Documents with Automated Text Summarization ( http://arxiv.org/abs/2302.12324v1 ) ライセンス: Link先を確認 | Chieh-Yang Huang, Ting-Yao Hsu, Ryan Rossi, Ani Nenkova, Sungchul Kim, Gromit Yeuk-Yin Chan, Eunyee Koh, Clyde Lee Giles, Ting-Hao 'Kenneth' Huang | (参考訳) 効果的なフィギュアキャプションは、科学的な人物の明確な理解には不可欠であるが、科学的な記事ではよくある問題である。
arXiv cs.CL論文の研究では、53.88%のキャプションが、ドメインの専門家によって不愉快または悪く評価され、より良いキャプション生成の必要性が示された。
以前の図キャプション生成の取り組みでは、視覚コンテンツと複雑な文脈情報を理解するモデルを作成することを目的としたビジョンタスクとして扱われていた。
しかし,本研究では,75%以上の文字キャプションのトークンが対応する文字キャプションの段落と一致していることが示され,言語技術がこの課題を解決できる可能性が示唆された。
本稿では,テキスト要約手法を用いて,科学的文書に文字キャプションを生成する手法を提案する。
提案手法は,対象図形を参照する文を抽出し,簡潔なキャプションに要約する。
実世界のarXiv論文(81.2%が学術会議で発表された)の実験では,テキストデータのみを用いた手法が,自動評価と人的評価の両方において従来の手法よりも優れていた。
データ駆動による2つの課題の調査も実施しました。
(i)質の低い作者書きのキャプション
(二 優れたキャプションの基準がないこと。)
その結果,従来のキャプションを無害と評価したキャプションを改良し,30個以上のキャプションでトレーニングしたモデルで高品質キャプションを生成できることがわかった。
また、良いキャプションには、しばしばその図の高レベルなテイクアウトが含まれていることもわかりました。
本研究は,学術論文の字幕生成におけるテキスト要約の有効性を証明し,先行するビジョンベースアプローチを上回っている。
我々の発見は、将来の人物キャプションシステムに実際的な意味を持ち、科学的コミュニケーションの明確さを向上させる。 Effective figure captions are crucial for clear comprehension of scientific figures, yet poor caption writing remains a common issue in scientific articles. Our study of arXiv cs.CL papers found that 53.88% of captions were rated as unhelpful or worse by domain experts, showing the need for better caption generation. Previous efforts in figure caption generation treated it as a vision task, aimed at creating a model to understand visual content and complex contextual information. Our findings, however, demonstrate that over 75% of figure captions' tokens align with corresponding figure-mentioning paragraphs, indicating great potential for language technology to solve this task. In this paper, we present a novel approach for generating figure captions in scientific documents using text summarization techniques. Our approach extracts sentences referencing the target figure, then summarizes them into a concise caption. In the experiments on real-world arXiv papers (81.2% were published at academic conferences), our method, using only text data, outperformed previous approaches in both automatic and human evaluations. We further conducted data-driven investigations into the two core challenges: (i) low-quality author-written captions and (ii) the absence of a standard for good captions. We found that our models could generate improved captions for figures with original captions rated as unhelpful, and the model trained on captions with more than 30 tokens produced higher-quality captions. We also found that good captions often include the high-level takeaway of the figure. Our work proves the effectiveness of text summarization in generating figure captions for scholarly articles, outperforming prior vision-based approaches. Our findings have practical implications for future figure captioning systems, improving scientific communication clarity. | 翻訳日:2023-02-27 15:18:08 公開日:2023-02-23 |
# 凸・非凸問題に対する安全な分散オンライン最適化の動的回帰解析 Dynamic Regret Analysis of Safe Distributed Online Optimization for Convex and Non-convex Problems ( http://arxiv.org/abs/2302.12320v1 ) ライセンス: Link先を確認 | Ting-Jui Chang, Sapana Chaudhary, Dileep Kalathil, Shahin Shahrampour | (参考訳) 本稿では,線形安全制約の未知集合に対する安全な分散オンライン最適化について述べる。
エージェントのネットワークは、各エージェントに部分的に観察可能なグローバルな時間変化関数を、共同で最小化することを目的としている。
したがって、エージェントは、後見において最善の最小化系列と競合する安全な一連のアクションを生成するために、局所的な通信に従事しなければならず、これらの2つのシーケンス間のギャップは動的後悔によって定量化される。
提案する分散安全なオンライン勾配勾配降下法(D-Safe-OGD)は,各エージェントが協調的に制約パラメータを推定し,推定可能な集合を構築し,最適化フェーズにおける行動選択の安全性を確保する。
凸関数に対して、D-Safe-OGD は $O(T^{2/3} \sqrt{\log T} + T^{1/3}C_T^*)$ の動的後悔境界を達成する。
さらに、ある非凸問題に対して$O(T^{2/3} \sqrt{\log T} + T^{2/3}C_T^*)$の動的後悔境界が証明される。 This paper addresses safe distributed online optimization over an unknown set of linear safety constraints. A network of agents aims at jointly minimizing a global, time-varying function, which is only partially observable to each individual agent. Therefore, agents must engage in local communications to generate a safe sequence of actions competitive with the best minimizer sequence in hindsight, and the gap between the two sequences is quantified via dynamic regret. We propose distributed safe online gradient descent (D-Safe-OGD) with an exploration phase, where all agents estimate the constraint parameters collaboratively to build estimated feasible sets, ensuring the action selection safety during the optimization phase. We prove that for convex functions, D-Safe-OGD achieves a dynamic regret bound of $O(T^{2/3} \sqrt{\log T} + T^{1/3}C_T^*)$, where $C_T^*$ denotes the path-length of the best minimizer sequence. We further prove a dynamic regret bound of $O(T^{2/3} \sqrt{\log T} + T^{2/3}C_T^*)$ for certain non-convex problems, which establishes the first dynamic regret bound for a safe distributed algorithm in the non-convex setting. | 翻訳日:2023-02-27 15:17:36 公開日:2023-02-23 |
# ファクトかアーティファクトか?
種々のannアーキテクチャにおける層間相関伝播の修正 Fact or Artifact? Revise Layer-wise Relevance Propagation on various ANN Architectures ( http://arxiv.org/abs/2302.12317v1 ) ライセンス: Link先を確認 | Marco Landt-Hayen, Willi Rath, Martin Claus and Peer Kr\"oger | (参考訳) layer-wise associated propagation (lrp) は、様々な人工ニューラルネットワーク(ann)アーキテクチャに対する洞察を明らかにするために広く使われている強力な技術である。
LRPは画像分類の文脈でよく用いられる。
入力サンプルのどの部分が高い関連性を持ち、従ってモデル予測に最も影響を与えるのかを理解することを目的とする。
関連性は、各入力ピクセルに特定のスコアをアトリビュートするために、ネットワークを通して遡ることができる。
関連スコアは組み合わせてヒートマップとして表示され、人間に分類モデルの直感的な視覚的理解を与える。
分類エンジンを詳細に理解するためにブラックボックスを開くことは、ドメインの専門家がANNモデルへの信頼を得るために不可欠である。
しかし、得られた関連地図に含まれるモデルにかかわるアーティファクトの観点では落とし穴があり、容易に見逃すことができる。
しかし、正当な解釈のために、これらのアーティファクトは無視してはならない。
本稿では,地理空間および合成データの分類器として訓練された各種ANNアーキテクチャにLRPを適用し,改訂する。
ネットワークアーキテクチャによって、モデル焦点を制御する技術を示し、成果物から事実を分離するために得られた関連マップの品質を改善するためのガイダンスを与える。 Layer-wise relevance propagation (LRP) is a widely used and powerful technique to reveal insights into various artificial neural network (ANN) architectures. LRP is often used in the context of image classification. The aim is to understand, which parts of the input sample have highest relevance and hence most influence on the model prediction. Relevance can be traced back through the network to attribute a certain score to each input pixel. Relevance scores are then combined and displayed as heat maps and give humans an intuitive visual understanding of classification models. Opening the black box to understand the classification engine in great detail is essential for domain experts to gain trust in ANN models. However, there are pitfalls in terms of model-inherent artifacts included in the obtained relevance maps, that can easily be missed. But for a valid interpretation, these artifacts must not be ignored. Here, we apply and revise LRP on various ANN architectures trained as classifiers on geospatial and synthetic data. Depending on the network architecture, we show techniques to control model focus and give guidance to improve the quality of obtained relevance maps to separate facts from artifacts. | 翻訳日:2023-02-27 15:17:10 公開日:2023-02-23 |
# 超伝導アルミニウムデバイスにおける1/fフラックスノイズのモデル:外部磁場の影響 Model for 1/f Flux noise in Superconducting Aluminum Devices: Impact of External Magnetic Fields ( http://arxiv.org/abs/2302.12316v1 ) ライセンス: Link先を確認 | Nava Aquino, Jos\'e Alberto and de Sousa, Rog\'erio | (参考訳) 超伝導量子干渉デバイス(SQUID)およびアルミニウム製の関連回路は、1/\omega$フラックスノイズ($\omega$は周波数)を表示することが知られている。
最近の実験では、10-100$~gの範囲で外部磁場を印加するとノイズが1つのローレンツ系にピークの$\omega=0$に変化した。
スピンリラクゼーションの二重および直接の機構が共存する独立な不純物スピンフリップに基づくモデルが、これらの実験を説明することができる。
このモデルでは、外部磁場の応用により量子ビット内のフラックスノイズの影響を低減できることを示した。 Superconducting quantum interference devices (SQUIDs) and related circuits made of aluminum are known to display $1/\omega$ flux noise, where $\omega$ is frequency. A recent experiment showed that the application of an external magnetic field in the $10-100$~G range changed the noise to a single Lorentzian peaked at $\omega=0$. Here it is shown that a model based on independent impurity spin flips with coexisting cross and direct mechanisms of spin relaxation may explain these experiments. The model shows that application of an external magnetic field can be used to reduce the impact of flux noise in qubits. | 翻訳日:2023-02-27 15:16:52 公開日:2023-02-23 |
# 一般確率理論における自己双対性と非直交状態判別を伴う絡み合い構造の多様性 The Diversity of Entanglement Structures with Self-Duality and Non-Orthogonal State Discrimination in General Probabilistic Theories ( http://arxiv.org/abs/2302.12361v1 ) ライセンス: Link先を確認 | Hayato Arai | (参考訳) この論文は一般確率理論(GPT)とエンタングルメント構造(ES)を扱う。
ESはGPTにおける量子合成系の構造であり、SES(Standard Entanglement Structure)として一意に決定されるものではない。
SESとして様々なESを決定する合理的な仮定を見つけることは重要な問題である。
この問題を解決するために、この論文はESの多様性を探求する。
この論文の話題はおおむね2つの部分に分けられる。
まず、この論文はESにおける国家の差別を考察する。
主要な結果として、この論文は、ESにおける与えられた測定値が標準量子論よりも優れた性能を持つような等価条件を与える。
第二に、この論文は対称性と自己双対性に焦点を当てている。
主な結果として、この論文は対称条件によるSESの導出を与える。
一方、この論文は、小さな誤りのある物理実験によってSESと区別できないとしても、無限に多くの自己双対ESが存在することを明らかにしている。 This thesis deals with General Probabilistic Theories (GPTs) and Entanglement Structures (ESs). An ES is a possible structure of a quantum composite system in GPTs, which is not uniquely determined as the Standard Entanglement Structure (SES). It is an important problem to find reasonable postulates that determine various ESs as the SES. In order to solve this problem, this thesis explores the diversity of ESs. The topics of this thesis are roughly divided into two parts. First, this thesis considers state discrimination in ESs. As a main result, this thesis gives equivalent conditions for a given measurement in ESs to have a performance superior to standard quantum theory. Second, this thesis focuses on symmetry and self-duality. As a main result, this thesis gives derivations of the SES by symmetric conditions. On the other hand, this thesis clarifies that there are infinitely many self-dual ESs, even if they cannot be distinguished from the SES by a certain physical experiment with small errors. | 翻訳日:2023-02-27 15:11:55 公開日:2023-02-23 |
# 実践的知識蒸留:DNNを駆使してDNNを打ち負かす Practical Knowledge Distillation: Using DNNs to Beat DNNs ( http://arxiv.org/abs/2302.12360v1 ) ライセンス: Link先を確認 | Chung-Wei Lee, Pavlos Anastasios Apostolopulos, Igor L. Markov | (参考訳) 表型データセットについては,データとモデル蒸留,およびデータデノイジングについて検討する。
これらの技術は勾配ブースティングモデルとDNNアーキテクチャの両方を改善する。
勾配向上はグラフデータ上でDNNよりも優れていることが知られているが、100K以上の行を持つデータセットのギャップを埋めて、DNNに小さなデータセットの利点を与える。
我々はこれらの結果を,DNNの性能向上に役立てるために,入力データ蒸留と最適化アンサンブルにより拡張する。
実用的な方法の理論的正当化として,古典的クロスエントロピー知識蒸留と等価性を証明する。
また,小データセット上でのXGBoostに対するDNNアンサンブルの優位性を質的に説明する。
産業用エンドツーエンドのリアルタイムMLプラットフォームにおいて、毎秒4Mのプロダクション推論を行うため、高速なリアルタイム推論に好適な1つの勾配ブースティングモデルにモデルのアンサンブルを蒸留するデータサンプリングに基づくモデル学習ワークフローを開発する。
経験的評価により,提案手法の組み合わせは,世界規模で展開されている複数のプロダクションアプリケーションにおいて,先行最良モデルよりもモデル精度を一貫して向上することが示された。 For tabular data sets, we explore data and model distillation, as well as data denoising. These techniques improve both gradient-boosting models and a specialized DNN architecture. While gradient boosting is known to outperform DNNs on tabular data, we close the gap for datasets with 100K+ rows and give DNNs an advantage on small data sets. We extend these results with input-data distillation and optimized ensembling to help DNN performance match or exceed that of gradient boosting. As a theoretical justification of our practical method, we prove its equivalence to classical cross-entropy knowledge distillation. We also qualitatively explain the superiority of DNN ensembles over XGBoost on small data sets. For an industry end-to-end real-time ML platform with 4M production inferences per second, we develop a model-training workflow based on data sampling that distills ensembles of models into a single gradient-boosting model favored for high-performance real-time inference, without performance loss. Empirical evaluation shows that the proposed combination of methods consistently improves model accuracy over prior best models across several production applications deployed worldwide. | 翻訳日:2023-02-27 15:11:40 公開日:2023-02-23 |
# 効果的な政策改善のためのAlphaZeroにおけるターゲット探索制御 Targeted Search Control in AlphaZero for Effective Policy Improvement ( http://arxiv.org/abs/2302.12359v1 ) ライセンス: Link先を確認 | Alexandre Trudeau, Michael Bowling | (参考訳) AlphaZero (AlphaZero) は、チェス、ショギ、囲碁における超人的な遊びを実現する自己学習アルゴリズムである。
効果的なポリシー改善オペレータとして、alphazeroの検索には、検索ツリーに現れる状態の正確な値見積が必要である。
AlphaZeroは、ゲームの初期状態から始まるセルフプレイマッチをトレーニングし、最初の数回の動作でのみアクションをサンプリングし、ゲームツリー内のより深い状態の探索を制限する。
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
様々な開始状態から自己プレイの軌跡を始めることで、Go-Exploitはゲームツリーをより効果的に探索し、より一般化した値関数を学ぶことができる。
Go-Exploitは、より独立した価値目標をトレーニングし、価値トレーニングを改善する。
最後に、Go-Exploit固有の探索は探索行動の必要性を減らし、より搾取的な政策の下での訓練を可能にする。
Connect Four と 9x9 Go のゲームでは、Go-Exploit が標準の AlphaZero よりも高いサンプル効率で学習し、参照相手に対するパフォーマンスが向上し、ヘッド・ツー・ヘッドプレイが実現した。
また、より効率的なAlphaZeroの再実装であるKataGoとGo-Exploitを比較し、Go-Exploitがより効果的な検索制御戦略を持っていることを示す。
さらに、Go-Exploitのサンプル効率は、KataGoの他のイノベーションが組み込まれたときに改善される。 AlphaZero is a self-play reinforcement learning algorithm that achieves superhuman play in chess, shogi, and Go via policy iteration. To be an effective policy improvement operator, AlphaZero's search requires accurate value estimates for the states appearing in its search tree. AlphaZero trains upon self-play matches beginning from the initial state of a game and only samples actions over the first few moves, limiting its exploration of states deeper in the game tree. We introduce Go-Exploit, a novel search control strategy for AlphaZero. Go-Exploit samples the start state of its self-play trajectories from an archive of states of interest. Beginning self-play trajectories from varied starting states enables Go-Exploit to more effectively explore the game tree and to learn a value function that generalizes better. Producing shorter self-play trajectories allows Go-Exploit to train upon more independent value targets, improving value training. Finally, the exploration inherent in Go-Exploit reduces its need for exploratory actions, enabling it to train under more exploitative policies. In the games of Connect Four and 9x9 Go, we show that Go-Exploit learns with a greater sample efficiency than standard AlphaZero, resulting in stronger performance against reference opponents and in head-to-head play. We also compare Go-Exploit to KataGo, a more sample efficient reimplementation of AlphaZero, and demonstrate that Go-Exploit has a more effective search control strategy. Furthermore, Go-Exploit's sample efficiency improves when KataGo's other innovations are incorporated. | 翻訳日:2023-02-27 15:11:18 公開日:2023-02-23 |
# Auto-HeG: 好ましくないグラフ上のグラフニューラルネットワーク Auto-HeG: Automated Graph Neural Network on Heterophilic Graphs ( http://arxiv.org/abs/2302.12357v1 ) ライセンス: Link先を確認 | Xin Zheng, Miao Zhang, Chunyang Chen, Qin Zhang, Chuan Zhou, Shirui Pan | (参考訳) graph neural architecture search (nas) は強力なグラフニューラルネットワーク (gnns) を自動設計し、人間の努力を軽減している。
しかし、既存のグラフnas法は、主にホモフィリー仮定の下で動作し、他の重要なグラフプロパティ、すなわち様々な実世界のアプリケーションで広く存在するヘテロフィリーを見落としている。
現在まで、NASを用いた自動異種グラフ学習は研究の空白となっている。
ヘテロフィルグラフの複雑さと多様性のため、ヘテロフィルグラフNASの重要な課題は主にヘテロフィル特異的な探索空間と戦略の開発にある。
そこで本稿では,表現的学習能力を持つヘテロ親和性GNNモデルを自動的に構築するための,ヘテロ親和性グラフ上の新しいグラフニューラルネットワークであるAuto-HeGを提案する。
特にAuto-HeGは、検索空間設計、スーパーネットトレーニング、アーキテクチャ選択など、自動異種グラフ学習のあらゆる段階にヘテロフィリーを組み込んでいる。
マイクロレベルとマクロレベルの共同設計による多種多様なメッセージパッシング方式により、我々はまず総合的なヘテロ親和性GNN検索空間を構築し、Auto-HeGは複雑なグラフと様々なヘテロフィリエを統合できる。
プログレッシブ・スーパーネットのトレーニング戦略では,ヘテロフィリの層別変動に応じて初期探索空間を動的に縮小し,コンパクトかつ効率的なスーパーネットを実現する。
ヘテロフィリ認識距離の基準をガイダンスとして, ヘテロフィリティックなアーキテクチャ選択を行うことにより, 特殊かつ表現性の高いヘテロフィリティックなGNNアーキテクチャを導出する。
大規模な実験は、人間設計モデルやグラフNASモデルに優れたヘテロ親和性GNNを開発する上で、Auto-HeGの優位性を示している。 Graph neural architecture search (NAS) has gained popularity in automatically designing powerful graph neural networks (GNNs) with relieving human efforts. However, existing graph NAS methods mainly work under the homophily assumption and overlook another important graph property, i.e., heterophily, which exists widely in various real-world applications. To date, automated heterophilic graph learning with NAS is still a research blank to be filled in. Due to the complexity and variety of heterophilic graphs, the critical challenge of heterophilic graph NAS mainly lies in developing the heterophily-specific search space and strategy. Therefore, in this paper, we propose a novel automated graph neural network on heterophilic graphs, namely Auto-HeG, to automatically build heterophilic GNN models with expressive learning abilities. Specifically, Auto-HeG incorporates heterophily into all stages of automatic heterophilic graph learning, including search space design, supernet training, and architecture selection. Through the diverse message-passing scheme with joint micro-level and macro-level designs, we first build a comprehensive heterophilic GNN search space, enabling Auto-HeG to integrate complex and various heterophily of graphs. With a progressive supernet training strategy, we dynamically shrink the initial search space according to layer-wise variation of heterophily, resulting in a compact and efficient supernet. Taking a heterophily-aware distance criterion as the guidance, we conduct heterophilic architecture selection in the leave-one-out pattern, so that specialized and expressive heterophilic GNN architectures can be derived. Extensive experiments illustrate the superiority of Auto-HeG in developing excellent heterophilic GNNs to human-designed models and graph NAS models. | 翻訳日:2023-02-27 15:10:49 公開日:2023-02-23 |
# オンライン戦略分類の基礎的境界 Fundamental Bounds on Online Strategic Classification ( http://arxiv.org/abs/2302.12355v1 ) ライセンス: Link先を確認 | Saba Ahmadi, Avrim Blum, Kunhe Yang | (参考訳) 本研究では,戦略エージェントが事前定義された方法で観察可能な特徴を操作グラフでモデル化し,肯定的な分類を受けるためのオンラインバイナリ分類の問題点について検討する。
この設定は,非戦略的オンライン分類と根本的に異なる。
例えば、非ストラテジックの場合、ターゲット関数が既知のクラス$H$に属している場合、$\ln|H|$の誤り境界は半可算アルゴリズムによって達成可能であるが、戦略的な設定では$o(\Delta)$の誤りを決定論的アルゴリズムが達成できないことを示し、$\Delta$は演算グラフの最大次数である(|H|=O(\Delta)$のときでさえ)。
誤差付き$O(\Delta\ln|H|)$を得るアルゴリズムを得る。
また、これを非依存設定に拡張し、$\Delta$乗算後悔を持つアルゴリズムを得るとともに、決定論的アルゴリズムが$o(\Delta)$乗算後悔を達成できないことを示す。
次に,エージェントの反応前後にランダムな選択がなされているかどうかに基づいて2つのランダム化モデルについて検討し,基本的な違いを示す。
第1のモデルでは、学習者は各ラウンドにおいて、戦略エージェントが応答する各頂点(正に分類される確率)に期待値を誘導する分類器上の確率分布を決定論的に選択する。
このモデルの学習者は、線形後悔に苦しむ必要がある。
一方、第2のモデルでは、次のエージェントを選択する相手が学習者の確率分布に応答しなければならないが、エージェントはこの分布から引き出された実際の仮説分類器に応答する。
意外なことに、このモデルは学習者にとってより有利であることが示され、不愉快かつ適応的な双方の敵に対するサブ線形後悔境界を達成するランダム化アルゴリズムを設計した。 We study the problem of online binary classification where strategic agents can manipulate their observable features in predefined ways, modeled by a manipulation graph, in order to receive a positive classification. We show this setting differs in fundamental ways from non-strategic online classification. For instance, whereas in the non-strategic case, a mistake bound of $\ln|H|$ is achievable via the halving algorithm when the target function belongs to a known class $H$, we show that no deterministic algorithm can achieve a mistake bound $o(\Delta)$ in the strategic setting, where $\Delta$ is the maximum degree of the manipulation graph (even when $|H|=O(\Delta)$). We obtain an algorithm achieving mistake bound $O(\Delta\ln|H|)$. We also extend this to the agnostic setting and obtain an algorithm with a $\Delta$ multiplicative regret, and we show no deterministic algorithm can achieve $o(\Delta)$ multiplicative regret. Next, we study two randomized models based on whether the random choices are made before or after agents respond, and show they exhibit fundamental differences. In the first model, at each round the learner deterministically chooses a probability distribution over classifiers inducing expected values on each vertex (probabilities of being classified as positive), which the strategic agents respond to. We show that any learner in this model has to suffer linear regret. On the other hand, in the second model, while the adversary who selects the next agent must respond to the learner's probability distribution over classifiers, the agent then responds to the actual hypothesis classifier drawn from this distribution. Surprisingly, we show this model is more advantageous to the learner, and we design randomized algorithms that achieve sublinear regret bounds against both oblivious and adaptive adversaries. | 翻訳日:2023-02-27 15:10:17 公開日:2023-02-23 |
# ロバスト性伝達の硬さについて:対称差分仮説空間上のラデマッハ複雑性から On the Hardness of Robustness Transfer: A Perspective from Rademacher Complexity over Symmetric Difference Hypothesis Space ( http://arxiv.org/abs/2302.12351v1 ) ライセンス: Link先を確認 | Yuyang Deng, Nidham Gazagnadou, Junyuan Hong, Mehrdad Mahdavi, Lingjuan Lyu | (参考訳) 近年の研究では、$\ell_\infty$攻撃下での対角的堅牢な学習は、標準的なドメイン適応よりも異なるドメインに一般化することが難しいことが示されている。
異なるドメイン間で堅牢性を伝達する方法は、ドメイン適応分野において重要な問題である。
対数的堅牢な領域適応(あるいはロバスト性移動)の背景にある根本的な困難さを調べるために、クロスドメインの一般化を制御する重要な複雑性尺度、すなわち、逆数的ラデマッハ複雑性を {\displaystyle {\em symmetric difference hypothesis space} $\mathcal{H} \Delta \mathcal{H}$ で解析することを提案する。
線形モデルの場合、この複雑性の逆バージョンは常に非逆バージョンよりも大きいことを示し、これは逆ロバストなドメイン適応の本質的な困難さを明らかにする。
この複雑性尺度の上限も確立する。
次に,2次分類設定における逆ラデマチャー複雑性を上界化することにより,ReLUニューラルネットワーククラスに拡張する。
最後に、ロバストなドメイン適応は確かに難しいが、ロバストな学習と標準ドメイン適応の間には正の関係がある。
標準リスクの観点でドメイン適応を支援する「emph{how adversarial training」について説明する。
この結果から, 対向的堅牢な領域適応の一般化理論の研究が始められ, 対向的堅牢な分散学習, フェデレーション学習シナリオなどの異種情報源から光を放つことができた。 Recent studies demonstrated that the adversarially robust learning under $\ell_\infty$ attack is harder to generalize to different domains than standard domain adaptation. How to transfer robustness across different domains has been a key question in domain adaptation field. To investigate the fundamental difficulty behind adversarially robust domain adaptation (or robustness transfer), we propose to analyze a key complexity measure that controls the cross-domain generalization: the adversarial Rademacher complexity over {\em symmetric difference hypothesis space} $\mathcal{H} \Delta \mathcal{H}$. For linear models, we show that adversarial version of this complexity is always greater than the non-adversarial one, which reveals the intrinsic hardness of adversarially robust domain adaptation. We also establish upper bounds on this complexity measure. Then we extend them to the ReLU neural network class by upper bounding the adversarial Rademacher complexity in the binary classification setting. Finally, even though the robust domain adaptation is provably harder, we do find positive relation between robust learning and standard domain adaptation. We explain \emph{how adversarial training helps domain adaptation in terms of standard risk}. We believe our results initiate the study of the generalization theory of adversarially robust domain adaptation, and could shed lights on distributed adversarially robust learning from heterogeneous sources, e.g., federated learning scenario. | 翻訳日:2023-02-27 15:09:43 公開日:2023-02-23 |
# 二重非パラメトリック帯域としてのリワード学習 : 最適設計とスケーリング法則 Reward Learning as Doubly Nonparametric Bandits: Optimal Design and Scaling Laws ( http://arxiv.org/abs/2302.12349v1 ) ライセンス: Link先を確認 | Kush Bhatia, Wenshuo Guo, Jacob Steinhardt | (参考訳) オブジェクト操作や運転といった複雑なタスクに対する報酬関数の指定は、手作業で難しい。
報酬学習は、選択したクエリポリシーに対する人間のフィードバックを使って報酬モデルを学ぶことによって、この問題に対処しようとする。
これにより、報酬仕様の負担をクエリの最適な設計にシフトする。
本稿では,報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。
我々のフレームワークは、再生カーネルヒルベルト空間(RKHS)のサブセットに属する非パラメトリック関数として報酬とポリシーをモデル化する。
学習者はoracleの真の報酬へのアクセスを受け取り、真の報酬の下でうまく機能するポリシーを出力しなければならない。
この設定のために、まずリッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。
次に,問合せ集合の選択に関してこれらのリスク境界を最適化し,rkhss上のある線形作用素の固有値スペクトルに依存する有限サンプル統計率を求めることにより,問合せ設計問題を解く。
これらの結果の一般性にもかかわらず、我々の境界はより専門的な問題のために開発された以前の境界よりも強い。
具体的には,ガウス過程(GP)バンディット最適化の問題が,我々のフレームワークの特別な場合であり,我々の限界がMate\'ernカーネルの既知の後悔の保証と整合していることを示す。 Specifying reward functions for complex tasks like object manipulation or driving is challenging to do by hand. Reward learning seeks to address this by learning a reward model using human feedback on selected query policies. This shifts the burden of reward specification to the optimal design of the queries. We propose a theoretical framework for studying reward learning and the associated optimal experiment design problem. Our framework models rewards and policies as nonparametric functions belonging to subsets of Reproducing Kernel Hilbert Spaces (RKHSs). The learner receives (noisy) oracle access to a true reward and must output a policy that performs well under the true reward. For this setting, we first derive non-asymptotic excess risk bounds for a simple plug-in estimator based on ridge regression. We then solve the query design problem by optimizing these risk bounds with respect to the choice of query set and obtain a finite sample statistical rate, which depends primarily on the eigenvalue spectrum of a certain linear operator on the RKHSs. Despite the generality of these results, our bounds are stronger than previous bounds developed for more specialized problems. We specifically show that the well-studied problem of Gaussian process (GP) bandit optimization is a special case of our framework, and that our bounds either improve or are competitive with known regret guarantees for the Mat\'ern kernel. | 翻訳日:2023-02-27 15:09:15 公開日:2023-02-23 |
# metaldc: 高速オンデバイス適応のための低次元計算分類器のメタ学習 MetaLDC: Meta Learning of Low-Dimensional Computing Classifiers for Fast On-Device Adaption ( http://arxiv.org/abs/2302.12347v1 ) ライセンス: Link先を確認 | Yejia Liu, Shijin Duan, Xiaolin Xu, Shaolei Ren | (参考訳) インテリジェントエッジデバイス上での未認識タスクの高速モデル更新は極めて重要であるが、計算能力の制限のため困難である。
本稿では,脳にインスパイアされた超効率的な低次元計算分類器をメタトレーニングし,最小の計算コストで小型デバイスへの高速適応を実現するmetaldcを提案する。
具体的には、メタLDCメタは、小さなデバイス上で見えないタスクの高速適応のために最終(バイナリ)クラス層が微調整されることを明示的に考慮して、オフラインで表現をトレーニングする。
従来のニューラルネットワークとは異なり、MetaLDCは、デバイス上の超効率的な推論を可能にする、新興のLCCフレームワークに基づいて設計されている。
我々の実験では,SOTAベースラインと比較して,MetaLDCは高い精度,ランダムビット誤りに対する堅牢性,コスト効率のよいハードウェア計算を実現している。 Fast model updates for unseen tasks on intelligent edge devices are crucial but also challenging due to the limited computational power. In this paper,we propose MetaLDC, which meta-trains braininspired ultra-efficient low-dimensional computing classifiers to enable fast adaptation on tiny devices with minimal computational costs. Concretely, during the meta-training stage, MetaLDC meta trains a representation offline by explicitly taking into account that the final (binary) class layer will be fine-tuned for fast adaptation for unseen tasks on tiny devices; during the meta-testing stage, MetaLDC uses closed-form gradients of the loss function to enable fast adaptation of the class layer. Unlike traditional neural networks, MetaLDC is designed based on the emerging LDC framework to enable ultra-efficient on-device inference. Our experiments have demonstrated that compared to SOTA baselines, MetaLDC achieves higher accuracy, robustness against random bit errors, as well as cost-efficient hardware computation. | 翻訳日:2023-02-27 15:08:52 公開日:2023-02-23 |
# chill: 大きな言語モデルを用いた臨床ノートからのゼロショットカスタム解釈可能な特徴抽出 CHiLL: Zero-shot Custom Interpretable Feature Extraction from Clinical Notes with Large Language Models ( http://arxiv.org/abs/2302.12343v1 ) ライセンス: Link先を確認 | Denis Jered McInerney, Geoffrey Young, Jan-Willem van de Meent, Byron C. Wallace | (参考訳) 大規模言語モデル(LLM)は、NLPの高速かつ劇的な進歩をもたらし、現在、新しいタスクで強力な少数およびゼロショット機能を提供し、アノテーションの必要性を減らしている。
これは医療分野にとって特にエキサイティングなもので、監督がスキャンされ、費用がかかることが多い。
同時に、モデル予測が極めて正確で、盲目的に信頼できることは滅多にない。
したがって、臨床医は不透明なLDMよりも「解釈可能な」分類器を好む傾向がある。
例えば、リスク予測ツールは、手動で作成した予測器上で定義された線形モデルであることが多い。
そこで我々は,LLMを用いて,ゼロショット特徴抽出による線形モデルの高レベル特徴の自然言語指定を可能にするCHiLL(Crafting High-Level Latents)を提案する。
このアプローチは、医師が自身のドメインの専門知識を使って、(しばしば行われているように)生のehrから手作業で抽出する必要なしに、下流のタスクにとって臨床的に有意義な特徴を創造できるようにすることを約束する。
我々は、現実世界のリスク予測タスクに動機付けられているが、再現可能なプロキシとして、MIMIC-IIIとMIMIC-CXRデータと標準予測タスク(例:30日可読化)を用いてアプローチを評価している。
自動抽出された特徴を用いた線形モデルは参照特徴を用いたモデルと互換性があり、"Bag-of-Words"特徴を用いた線形モデルよりも高い解釈性が得られる。
学習した機能重みが臨床上の期待に合致していることを確認する。 Large Language Models (LLMs) have yielded fast and dramatic progress in NLP, and now offer strong few- and zero-shot capabilities on new tasks, reducing the need for annotation. This is especially exciting for the medical domain, in which supervision is often scant and expensive. At the same time, model predictions are rarely so accurate that they can be trusted blindly. Clinicians therefore tend to favor "interpretable" classifiers over opaque LLMs. For example, risk prediction tools are often linear models defined over manually crafted predictors that must be laboriously extracted from EHRs. We propose CHiLL (Crafting High-Level Latents), which uses LLMs to permit natural language specification of high-level features for linear models via zero-shot feature extraction using expert-composed queries. This approach has the promise to empower physicians to use their domain expertise to craft features which are clinically meaningful for a downstream task of interest, without having to manually extract these from raw EHR (as often done now). We are motivated by a real-world risk prediction task, but as a reproducible proxy, we use MIMIC-III and MIMIC-CXR data and standard predictive tasks (e.g., 30-day readmission) to evaluate our approach. We find that linear models using automatically extracted features are comparably performant to models using reference features, and provide greater interpretability than linear models using "Bag-of-Words" features. We verify that learned feature weights align well with clinical expectations. | 翻訳日:2023-02-27 15:08:32 公開日:2023-02-23 |
# 非線型モデルにおけるランクに基づく因果探索 Rank-Based Causal Discovery for Post-Nonlinear Models ( http://arxiv.org/abs/2302.12341v1 ) ライセンス: Link先を確認 | Grigor Keropyan, David Strieder, Mathias Drton | (参考訳) 経験的観察から因果関係を学ぶことは科学研究の中心的な課題である。
一般的な方法は、相互作用する変数の集合間のノイズの多い関数関係を仮定する構造因果モデルを採用することである。
因果方向の特異な識別性を確保するために、研究者は構造因果モデルの制限されたサブクラスを考える。
ポスト非線形(PNL)因果モデル(英語版)は、そのような制限されたサブクラスに対して最も柔軟な選択肢の1つである。
しかし、PNLモデルの学習は二変量の場合を超えては十分に研究されていない。
既存の手法では, 残差依存性を最小化し, 残差からの独立性をテストし, 因果方向を決定することで, 非線形関数関係を学習する。
しかし、これらの手法は過度に適合しやすいため、実際に適切に調整することは困難である。
代替案として, ランクに基づく手法を用いて関数パラメータを推定するpnl因果探索法を提案する。
この新しいアプローチは、PNLモデルの自然な不変性を利用して、因果方向を見つけるために使用される独立性テストから非線形関数を推定する。
本手法の一貫性を証明し,数値実験の結果を検証する。 Learning causal relationships from empirical observations is a central task in scientific research. A common method is to employ structural causal models that postulate noisy functional relations among a set of interacting variables. To ensure unique identifiability of causal directions, researchers consider restricted subclasses of structural causal models. Post-nonlinear (PNL) causal models constitute one of the most flexible options for such restricted subclasses, containing in particular the popular additive noise models as a further subclass. However, learning PNL models is not well studied beyond the bivariate case. The existing methods learn non-linear functional relations by minimizing residual dependencies and subsequently test independence from residuals to determine causal orientations. However, these methods can be prone to overfitting and, thus, difficult to tune appropriately in practice. As an alternative, we propose a new approach for PNL causal discovery that uses rank-based methods to estimate the functional parameters. This new approach exploits natural invariances of PNL models and disentangles the estimation of the non-linear functions from the independence tests used to find causal orientations. We prove consistency of our method and validate our results in numerical experiments. | 翻訳日:2023-02-27 15:08:06 公開日:2023-02-23 |
# テキストからVictim Countを抽出する Extracting Victim Counts from Text ( http://arxiv.org/abs/2302.12367v1 ) ライセンス: Link先を確認 | Mian Zhong, Shehzaad Dhuliawala, Niklas Stoehr | (参考訳) 人道的セクターの意思決定者は危機時のタイムリーかつ正確な情報に頼っている。
地震で民間人が何人負傷したかを知ることは、適切な援助を割り当てるのに不可欠である。
このような犠牲者数に関する情報は、新聞や他の報道からのフルテキストのイベント記述でのみ利用可能である。
数字は異なるフォーマットを持ち、数値推論を必要とする可能性がある。
これにより、純粋に文字列マッチングベースのアプローチが不十分になる。
その結果、犠牲者以外の負傷者、転居者、または虐待された犠牲者の細かな数値は、しばしば抽出されず、目立たないままである。
我々は,質問応答(QA)タスクとして,回帰的,分類的目的を持った被害者数抽出を行った。
regex,dependency parse,semantic role labeling-based approach,advanced text-to-text modelを比較した。
モデル精度を超えて、このセンシティブなタスクの鍵となる抽出信頼性と堅牢性を解析する。
特に,モデルキャリブレーションについて考察し,少数ショットとアウト・オブ・ディストリビューション性能について検討する。
最終的に、異なるデシラタとデータドメインを選択するモデルについて包括的に推奨する。
私たちの研究は、実世界のユースケースに数値に焦点をあてた大規模言語モデルを適用した最初のもののひとつです。 Decision-makers in the humanitarian sector rely on timely and exact information during crisis events. Knowing how many civilians were injured during an earthquake is vital to allocate aids properly. Information about such victim counts is often only available within full-text event descriptions from newspapers and other reports. Extracting numbers from text is challenging: numbers have different formats and may require numeric reasoning. This renders purely string matching-based approaches insufficient. As a consequence, fine-grained counts of injured, displaced, or abused victims beyond fatalities are often not extracted and remain unseen. We cast victim count extraction as a question answering (QA) task with a regression or classification objective. We compare regex, dependency parsing, semantic role labeling-based approaches, and advanced text-to-text models. Beyond model accuracy, we analyze extraction reliability and robustness which are key for this sensitive task. In particular, we discuss model calibration and investigate few-shot and out-of-distribution performance. Ultimately, we make a comprehensive recommendation on which model to select for different desiderata and data domains. Our work is among the first to apply numeracy-focused large language models in a real-world use case with a positive impact. | 翻訳日:2023-02-27 14:59:25 公開日:2023-02-23 |
# less is more: 迅速な敵のトレーニングのためのデータプルーニング Less is More: Data Pruning for Faster Adversarial Training ( http://arxiv.org/abs/2302.12366v1 ) ライセンス: Link先を確認 | Yize Li, Pu Zhao, Xue Lin, Bhavya Kailkhura, Ryan Goldh | (参考訳) ディープニューラルネットワーク(DNN)は、敵の例に敏感であり、現実の世界で脆弱で信頼性の低いパフォーマンスをもたらす。
現在、対戦訓練(AT)はDNNを強固にするための最も効果的な手法の1つであるが、計算的には非常に高価である(例えば、通常の訓練よりも5-10倍高い)。
この課題に対処するため、既存のアプローチでは、"fast at"と呼ばれるシングルステップ at にフォーカスし、逆例生成のオーバーヘッドを削減する。
残念ながら、これらのアプローチは強力な敵に対して失敗することが知られている。
頑健さを損なうことなく計算効率を向上させるため,本論文では,問題時の効率を異なる視点で考察する。
具体的には,データプルーニングを利用してデータレベルでの冗長性を最小化する。
広範囲な実験により、atに基づくデータプルーニングは、かなり高速でありながら、その非プルーニングと同等または優れたロバスト(そしてクリーンな)精度を達成できることが示されている。
例えば、提案された戦略は、CIFAR-10のトレーニングを3.44X、CIFAR-100のトレーニングを2.02Xまで加速させる。
さらに、データプルーニング手法は、既存の逆加速度トリックと容易に整合して、CIFAR-10の5.66Xと5.12X、TRADESとMARTのCIFAR-100の3.67Xと3.07Xをそれぞれ得ることができる。 Deep neural networks (DNNs) are sensitive to adversarial examples, resulting in fragile and unreliable performance in the real world. Although adversarial training (AT) is currently one of the most effective methodologies to robustify DNNs, it is computationally very expensive (e.g., 5-10X costlier than standard training). To address this challenge, existing approaches focus on single-step AT, referred to as Fast AT, reducing the overhead of adversarial example generation. Unfortunately, these approaches are known to fail against stronger adversaries. To make AT computationally efficient without compromising robustness, this paper takes a different view of the efficient AT problem. Specifically, we propose to minimize redundancies at the data level by leveraging data pruning. Extensive experiments demonstrate that the data pruning based AT can achieve similar or superior robust (and clean) accuracy as its unpruned counterparts while being significantly faster. For instance, proposed strategies accelerate CIFAR-10 training up to 3.44X and CIFAR-100 training to 2.02X. Additionally, the data pruning methods can readily be reconciled with existing adversarial acceleration tricks to obtain the striking speed-ups of 5.66X and 5.12X on CIFAR-10, 3.67X and 3.07X on CIFAR-100 with TRADES and MART, respectively. | 翻訳日:2023-02-27 14:59:06 公開日:2023-02-23 |
# MesoGraph: 組織像による悪性中皮腫サブタイプの自動プロファイリング MesoGraph: Automatic Profiling of Malignant Mesothelioma Subtypes from Histological Images ( http://arxiv.org/abs/2302.12653v1 ) ライセンス: Link先を確認 | Mark Eastwood and Heba Sailem and Silviu Tudor and Xiaohong Gao and Judith Offman and Emmanouil Karteris and Angeles Montero Fernandez and Danny Jonigk and William Cookson and Miriam Moffatt and Sanjay Popat and Fayyaz Minhas and Jan Lukas Robertus | (参考訳) 悪性中皮腫はエピテリオイド,サルコマチド,二相性という3つの組織学的サブタイプに分類される。
二相性腫瘍は両細胞型の有意な集団を示す。
このサブタイピングは、現在の診断ガイドラインによって主観的で制限されており、3種類のシステムを用いて、上皮およびサルコパチド成分の相対比の連続性を特徴づける際、専門家の胸部病理医の間でも異なる可能性がある。
本研究では, 組織領域をセルレゾリューションに分解できるモデルを学ぶために, ランキング損失を低減した新しいデュアルタスクグラフニューラルネットワーク (GNN) アーキテクチャを開発した。
これにより、サンプル中の全ての細胞のサルコカトイド関連スコアに従って、腫瘍サンプルの定量的なプロファイリングが可能になる。
提案手法では,コアレベルラベルのみを使用し,予測タスクをデュアルマルチインスタンス学習(MIL)問題として扱う。
組織は細胞レベルでの形態的特徴と局所的な特徴を持つ細胞グラフで表される。
我々はMesobankの外部の多中心テストセットを使用し、モデルの性能を実証する。
予測したスコアに基づいて細胞の形態的特徴を解析し,モデルで同定された形態的差異のいくつかは病理学者が使用する既知の差異と一致していることを見出した。
さらに,モデルスコアは患者生存率2.30の予測値であることが示唆された。
提案されたアプローチのコードは、データセットとともに、https://github.com/measty/MesoGraph.comで公開されている。 Malignant mesothelioma is classified into three histological subtypes, Epithelioid, Sarcomatoid, and Biphasic according to the relative proportions of epithelioid and sarcomatoid tumor cells present. Biphasic tumors display significant populations of both cell types. This subtyping is subjective and limited by current diagnostic guidelines and can differ even between expert thoracic pathologists when characterising the continuum of relative proportions of epithelioid and sarcomatoid components using a three class system. In this work, we develop a novel dual-task Graph Neural Network (GNN) architecture with ranking loss to learn a model capable of scoring regions of tissue down to cellular resolution. This allows quantitative profiling of a tumor sample according to the aggregate sarcomatoid association score of all the cells in the sample. The proposed approach uses only core-level labels and frames the prediction task as a dual multiple instance learning (MIL) problem. Tissue is represented by a cell graph with both cell-level morphological and regional features. We use an external multi-centric test set from Mesobank, on which we demonstrate the predictive performance of our model. We validate our model predictions through an analysis of the typical morphological features of cells according to their predicted score, finding that some of the morphological differences identified by our model match known differences used by pathologists. We further show that the model score is predictive of patient survival with a hazard ratio of 2.30. The code for the proposed approach, along with the dataset, is available at: https://github.com/measty/MesoGraph. | 翻訳日:2023-02-27 13:28:36 公開日:2023-02-23 |
# 拡張ディープニューラル演算子を用いた学習剛性化学速度論 Learning stiff chemical kinetics using extended deep neural operators ( http://arxiv.org/abs/2302.12645v1 ) ライセンス: Link先を確認 | Somdatta Goswami, Ameya D. Jagtap, Hessam Babaee, Bryan T. Susi, and George Em Karniadakis | (参考訳) ニューラルネットワークを用いて, 挑戦的化学動力学方程式の解プロパゲータを学習する。
Specifically, we apply the deep operator network (DeepONet) along with its extensions, such as the autoencoder-based DeepONet and the newly proposed Partition-of-Unity (PoU-) DeepONet to study a range of examples, including the ROBERS problem with three species, the POLLU problem with 25 species, pure kinetics of the syngas skeletal model for $CO/H_2$ burning, which contains 11 species and 21 reactions and finally, a temporally developing planar $CO/H_2$ jet flame (turbulent flame) using the same syngas mechanism.
これらの数値例を通して提案手法の利点を実証した。
具体的には,合成ガスモデルに対してDeepONetを訓練するために,初期条件の異なる骨格運動モデルを解く。
第1のケースでは、同値比と初期温度値に基づいて初期条件をパラメータ化する。
第2のケースでは、2次元の時間的に発生するCO/H_2$ジェット火炎を直接数値シミュレーションする。
そして,異なる時間スナップショットで格子点のサブセットが訪れた熱化学状態による運動モデルの初期化を行う。
剛性問題は従来の剛性解法で解くのに計算コストがかかる。
そこで本研究では, 強固な化学動力学を解くために, ニューラルネットワークを用いたサーロゲートモデルを開発することを目的とした。
かつてオフラインで訓練されたこの演算子は、任意に大きな時間発展のための熱化学状態を正確に統合することができ、硬い積分スキームに比べて大きな計算ゲインをもたらす。 We utilize neural operators to learn the solution propagator for the challenging chemical kinetics equation. Specifically, we apply the deep operator network (DeepONet) along with its extensions, such as the autoencoder-based DeepONet and the newly proposed Partition-of-Unity (PoU-) DeepONet to study a range of examples, including the ROBERS problem with three species, the POLLU problem with 25 species, pure kinetics of the syngas skeletal model for $CO/H_2$ burning, which contains 11 species and 21 reactions and finally, a temporally developing planar $CO/H_2$ jet flame (turbulent flame) using the same syngas mechanism. We have demonstrated the advantages of the proposed approach through these numerical examples. Specifically, to train the DeepONet for the syngas model, we solve the skeletal kinetic model for different initial conditions. In the first case, we parametrize the initial conditions based on equivalence ratios and initial temperature values. In the second case, we perform a direct numerical simulation of a two-dimensional temporally developing $CO/H_2$ jet flame. Then, we initialize the kinetic model by the thermochemical states visited by a subset of grid points at different time snapshots. Stiff problems are computationally expensive to solve with traditional stiff solvers. Thus, this work aims to develop a neural operator-based surrogate model to solve stiff chemical kinetics. The operator, once trained offline, can accurately integrate the thermochemical state for arbitrarily large time advancements, leading to significant computational gains compared to stiff integration schemes. | 翻訳日:2023-02-27 13:28:12 公開日:2023-02-23 |
# FG-SSA:畳み込みニューラルネットワークにおける線形複雑度の特徴量に基づく信号選択アルゴリズム FG-SSA: Features Gradient-based Signals Selection Algorithm of Linear Complexity for Convolutional Neural Networks ( http://arxiv.org/abs/2302.12711v1 ) ライセンス: Link先を確認 | Yuto Omae, Yusuke Sakai, Hirotaka Takahashi | (参考訳) 近年,多信号の時間領域データによる分類のための畳み込みニューラルネットワーク(CNN)が開発されている。
一部の信号は正しい分類に重要であるが、そうでない信号もある。
分類のための重要な信号を含んでいないデータがcnn入力層として取り込まれると、計算、メモリ、およびデータ収集コストが増加する。
したがって、入力層から重要でない信号を識別・除去することが重要である。
そこで本研究では,gradle-camの計算プロセスで得られた特徴量勾配を利用して,分類のための重要でない信号の検出と除去に使用可能な勾配に基づく信号選択アルゴリズム(fg-ssa)を提案する。
N を信号数として定義すると、提案アルゴリズムの計算複雑性は線形時間 O(N) であり、計算コストは低い。
本研究では,人間の活動の加速度信号からなるオープンデータセットであるOPPORTUNITY Activity Recognitionデータセットを用いて,アルゴリズムの有効性を検証する。
さらに,FG-SSAにより除去された15個の加速度信号(5個の3軸センサ)から平均6.55個の信号を確認した。
そのため,提案アルゴリズムのFG-SSAは,CNNに基づく分類では重要でない信号の発見と除去に効果がある。 Recently, many convolutional neural networks (CNNs) for classification by time domain data of multisignals have been developed. Although some signals are important for correct classification, others are not. When data that do not include important signals for classification are taken as the CNN input layer, the calculation, memory, and data collection costs increase. Therefore, identifying and eliminating nonimportant signals from the input layer are important. In this study, we proposed features gradient-based signals selection algorithm (FG-SSA), which can be used for finding and removing nonimportant signals for classification by utilizing features gradient obtained by the calculation process of grad-CAM. When we define N as the number of signals, the computational complexity of the proposed algorithm is linear time O(N), that is, it has a low calculation cost. We verified the effectiveness of the algorithm using the OPPORTUNITY Activity Recognition dataset, which is an open dataset comprising acceleration signals of human activities. In addition, we checked the average 6.55 signals from a total of 15 acceleration signals (five triaxial sensors) that were removed by FG-SSA while maintaining high generalization scores of classification. Therefore, the proposed algorithm FG-SSA has an effect on finding and removing signals that are not important for CNN-based classification. | 翻訳日:2023-02-27 13:10:30 公開日:2023-02-23 |
# 時系列データによる異種処理効果推定における競合イベントの影響の把握 Understanding the Impact of Competing Events on Heterogeneous Treatment Effect Estimation from Time-to-Event Data ( http://arxiv.org/abs/2302.12718v1 ) ライセンス: Link先を確認 | Alicia Curth and Mihaela van der Schaar | (参考訳) 競合イベントの存在下での時間-時間データからヘテロジニアス処理効果(HTE)を推定する問題について検討する。
その実践的関連性は大きいが、時間とイベントや競合するイベントを使わずにHTE推定を研究している人たちに比べて、この問題はほとんど注目されていない。
提案手法は,HTEを推定するための結果モデリング手法であり,既存の時間-時間データの予測モデルを,将来的な結果のプラグイン推定手段としてどのように利用できるかを検討する。
次に,hte推定の新たな課題 -- 標準連結問題に加えて -- について検討し,この設定に因果効果の定義が複数存在すること,すなわち総的,直接的,分離可能な効果 -- から,望ましい治療効果の解釈と関連する推定によって,競合イベントが共変シフトの新たな源として作用することを見出す。
hteの推定に汎用的な機械学習予測モデルを使用する場合,これらの課題がいつどのように作用するかを理論的に解析し,実証的に示す。 We study the problem of inferring heterogeneous treatment effects (HTEs) from time-to-event data in the presence of competing events. Albeit its great practical relevance, this problem has received little attention compared to its counterparts studying HTE estimation without time-to-event data or competing events. We take an outcome modeling approach to estimating HTEs, and consider how and when existing prediction models for time-to-event data can be used as plug-in estimators for potential outcomes. We then investigate whether competing events present new challenges for HTE estimation -- in addition to the standard confounding problem --, and find that, because there are multiple definitions of causal effects in this setting -- namely total, direct and separable effects --, competing events can act as an additional source of covariate shift depending on the desired treatment effect interpretation and associated estimand. We theoretically analyze and empirically illustrate when and how these challenges play a role when using generic machine learning prediction models for the estimation of HTEs. | 翻訳日:2023-02-27 13:00:10 公開日:2023-02-23 |
# ポアソン類似問題に対する暗黙GNNソルバー An Implicit GNN Solver for Poisson-like problems ( http://arxiv.org/abs/2302.10891v2 ) ライセンス: Link先を確認 | Matthieu Nastorg (CNRS, Inria, LISN, IFPEN), Michele-Alessandro Bucci (CNRS, Inria, LISN), Thibault Faney (IFPEN), Jean-Marc Gratien (IFPEN), Guillaume Charpiat (CNRS, Inria, LISN), Marc Schoenauer (CNRS, Inria, LISN) | (参考訳) 本稿では,境界条件が混在するポアソンPDE問題に対して,新しいグラフニューラルネットワーク(GNN)アプローチである$\Psi$-GNNを提案する。
暗黙的な層理論を活用することで、$\psi$-gnnは'無限に'ディープネットワークをモデル化し、ソリューションを達成するために必要なメッセージパス層の数を経験的にチューニングすることを避ける。
元々のアーキテクチャは、物理的なアプリケーションにとって重要な前提条件である境界条件を明示的に考慮し、最初に提供されたソリューションに適応することができる。
$\Psi$-GNN は ''physics-informed' 損失を使ってトレーニングされ、トレーニングプロセスは設計によって安定しており、初期化には敏感である。
さらに、このアプローチの一貫性が理論的に証明され、その柔軟性と一般化効率が実験的に証明される:同じ学習モデルは、異なる境界条件だけでなく、様々な大きさの非構造化メッシュを正確に扱うことができる。
我々の知る限りでは、$\Psi$-GNNは、様々な非構造領域、境界条件、初期解を処理し、収束保証も提供できる物理インフォームドGNNベースの最初の方法である。 This paper presents $\Psi$-GNN, a novel Graph Neural Network (GNN) approach for solving the ubiquitous Poisson PDE problems with mixed boundary conditions. By leveraging the Implicit Layer Theory, $\Psi$-GNN models an ''infinitely'' deep network, thus avoiding the empirical tuning of the number of required Message Passing layers to attain the solution. Its original architecture explicitly takes into account the boundary conditions, a critical prerequisite for physical applications, and is able to adapt to any initially provided solution. $\Psi$-GNN is trained using a ''physics-informed'' loss, and the training process is stable by design, and insensitive to its initialization. Furthermore, the consistency of the approach is theoretically proven, and its flexibility and generalization efficiency are experimentally demonstrated: the same learned model can accurately handle unstructured meshes of various sizes, as well as different boundary conditions. To the best of our knowledge, $\Psi$-GNN is the first physics-informed GNN-based method that can handle various unstructured domains, boundary conditions and initial solutions while also providing convergence guarantees. | 翻訳日:2023-02-26 13:49:06 公開日:2023-02-23 |
# 最短ベクトル問題に対する変分量子解 Variational quantum solutions to the Shortest Vector Problem ( http://arxiv.org/abs/2202.06757v5 ) ライセンス: Link先を確認 | Martin R. Albrecht, Milo\v{s} Prokop, Yixin Shen, Petros Wallden | (参考訳) 基本的な計算問題は、最短ベクトル問題(SVP)として知られるユークリッド格子における最短ゼロベクトルを見つけることである。
この問題は量子コンピュータでも難しいと考えられており、量子後暗号において重要な役割を果たす。
本研究では,(効率のよい)ノイズ中間量子(NISQ)デバイスを用いてSVPを解く方法について検討する。
具体的には、その問題を適切なハミルトニアンの基底状態を見つける問題にマップする。
特に
i) 格子列挙のための新しい境界を確立することにより、SVPを解くために任意の格子(resp.~random q-ary lattice)の次元当たりの量子ビット数に対する新しい境界(resp.~estimates)を得ることができる。
(ii)提案により最適化空間からゼロベクトルを除外する
a) 異なる古典的最適化ループ、または、代わりに
(b)ハミルトニアンへの新しい写像。
これらの改良により、量子エミュレーションにおいて最大28次元のSVPを解くことができる。
最後に、最も優れた古典的アルゴリズムであっても難しい格子のインスタンスを解くために必要なNISQデバイスのサイズを例示し、そのようなインスタンスに約10^3$のノイズ量子ビットで対処できることを見出した。 A fundamental computational problem is to find a shortest non-zero vector in Euclidean lattices, a problem known as the Shortest Vector Problem (SVP). This problem is believed to be hard even on quantum computers and thus plays a pivotal role in post-quantum cryptography. In this work we explore how (efficiently) Noisy Intermediate Scale Quantum (NISQ) devices may be used to solve SVP. Specifically, we map the problem to that of finding the ground state of a suitable Hamiltonian. In particular, (i) we establish new bounds for lattice enumeration, this allows us to obtain new bounds (resp.~estimates) for the number of qubits required per dimension for any lattices (resp.~random q-ary lattices) to solve SVP; (ii) we exclude the zero vector from the optimization space by proposing (a) a different classical optimisation loop or alternatively (b) a new mapping to the Hamiltonian. These improvements allow us to solve SVP in dimension up to 28 in a quantum emulation, significantly more than what was previously achieved, even for special cases. Finally, we extrapolate the size of NISQ devices that is required to be able to solve instances of lattices that are hard even for the best classical algorithms and find that with approximately $10^3$ noisy qubits such instances can be tackled. | 翻訳日:2023-02-25 21:07:38 公開日:2023-02-23 |
# ベイズはメタレベルでバーンスタインと出会う:PAC-Bayesを用いたメタラーニングの高速化分析 Bayes meets Bernstein at the Meta Level: an Analysis of Fast Rates in Meta-Learning with PAC-Bayes ( http://arxiv.org/abs/2302.11709v1 ) ライセンス: Link先を確認 | Charles Riou, Pierre Alquier and Badr-Eddine Ch\'erief-Abdellatif | (参考訳) Bernsteinの条件は、機械学習における高速な速度を保証する重要な仮定である。
例えば、$\pi$のGibbsアルゴリズムは、標準的な$O(\sqrt{d_{\pi}/n})$とは対照的に、$O(d_{\pi}/n)$の余剰リスクを持ち、$n$は観測数を表し、$d_{\pi}$は以前の$\pi$に依存する複雑性パラメータである。
本稿では,メタ分布によって生成される$t$タスク(それぞれ$n$観察)から以前の$\pi$を学習する際に,メタ学習の文脈でgibbsアルゴリズムを調べる。
我々の主な結果は、ベルンシュタインの状態が観測レベルでの妥当性に関わらず常にメタレベルに留まっていることである。
これは、タスク間で$d_\pi$という用語を減少させる$\pi$以前のgibbsを学ぶ追加コストが、期待される$o(1/\sqrt{t})$ではなく$o(1/t)$となることを意味する。
さらに、この結果は、離散事前、ガウス先行、ガウス先行の混合の3つの異なる設定における標準レートをどのように改善するかを示す。 Bernstein's condition is a key assumption that guarantees fast rates in machine learning. For example, the Gibbs algorithm with prior $\pi$ has an excess risk in $O(d_{\pi}/n)$, as opposed to the standard $O(\sqrt{d_{\pi}/n})$, where $n$ denotes the number of observations and $d_{\pi}$ is a complexity parameter which depends on the prior $\pi$. In this paper, we examine the Gibbs algorithm in the context of meta-learning, i.e., when learning the prior $\pi$ from $T$ tasks (with $n$ observations each) generated by a meta distribution. Our main result is that Bernstein's condition always holds at the meta level, regardless of its validity at the observation level. This implies that the additional cost to learn the Gibbs prior $\pi$, which will reduce the term $d_\pi$ across tasks, is in $O(1/T)$, instead of the expected $O(1/\sqrt{T})$. We further illustrate how this result improves on standard rates in three different settings: discrete priors, Gaussian priors and mixture of Gaussians priors. | 翻訳日:2023-02-24 16:49:21 公開日:2023-02-23 |
# 深層ニューラルネットワークによるビッグデータ解析のための予算制約モデルの構築 A Deep Neural Network Based Approach to Building Budget-Constrained Models for Big Data Analysis ( http://arxiv.org/abs/2302.11707v1 ) ライセンス: Link先を確認 | Rui Ming, Haiping Xu, Shannon E. Gibbs, Donghui Yan, Ming Shao | (参考訳) ディープラーニングアプローチでは、正確なモデルトレーニングと予測のために、さまざまな入力機能や変数に関するデータの収集が必要である。
入力機能に関するデータ収集はコストがかかるため、機能のサブセットを選択して予算制約モデル(bcm)を開発することでコストを削減することが不可欠である。
本稿では,深層ニューラルネットワーク(dnn)を用いたビッグデータ解析における重要でない特徴の排除手法を提案する。
DNNモデルが開発されると、弱いリンクと弱いニューロンを特定し、与えられた予算内にモデルコストをもたらすためにいくつかの入力特徴を取り除く。
実験の結果,提案手法は有効であり,特定の予算内で適切なBCMのユーザ選択を支援する。 Deep learning approaches require collection of data on many different input features or variables for accurate model training and prediction. Since data collection on input features could be costly, it is crucial to reduce the cost by selecting a subset of features and developing a budget-constrained model (BCM). In this paper, we introduce an approach to eliminating less important features for big data analysis using Deep Neural Networks (DNNs). Once a DNN model has been developed, we identify the weak links and weak neurons, and remove some input features to bring the model cost within a given budget. The experimental results show our approach is feasible and supports user selection of a suitable BCM within a given budget. | 翻訳日:2023-02-24 16:48:53 公開日:2023-02-23 |
# 因果不整形変分オートエンコーダ Causally Disentangled Generative Variational AutoEncoder ( http://arxiv.org/abs/2302.11737v1 ) ライセンス: Link先を確認 | SeungHwan An, Kyungwoo Song, Jong-June Jeon | (参考訳) 本稿では,因果不整合表現と因果不整合生成(CDG)を同時に実現する変分自動エンコーダ(VAE)の新しい教師付き学習手法を提案する。
本稿では,cdgを生成モデルとして,因果的不等角表現に従って出力を正確にデコードできることを示す。
エンコーダの教師付き正規化はcdgによる生成モデルを得るのに十分でないことがわかった。
そこで本研究では,CDGを実現するためのデコーダと因果効果について検討する。
さらに,モデルがどのように因果的不整合生成であるかを測る一般化計量を提案する。
画像と表のデータセットによる数値的な結果が議論を裏付ける。 We propose a new supervised learning method for Variational AutoEncoder (VAE) which has a causally disentangled representation and achieves the causally disentangled generation (CDG) simultaneously. In this paper, CDG is defined as a generative model able to decode an output precisely according to the causally disentangled representation. We found that the supervised regularization of the encoder is not enough to obtain a generative model with CDG. Consequently, we explore sufficient and necessary conditions for the decoder and the causal effect to achieve CDG. Moreover, we propose a generalized metric measuring how a model is causally disentangled generative. Numerical results with the image and tabular datasets corroborate our arguments. | 翻訳日:2023-02-24 16:38:48 公開日:2023-02-23 |
# 安定化器近似 II: H$_2$O から C$_6$H$_6$ へ Stabilizer Approximation II: From H$_2$O To C$_6$H$_6$ ( http://arxiv.org/abs/2302.11734v1 ) ライセンス: Link先を確認 | Jianan Wang, Chuixiong Wu, Fen Zuo | (参考訳) 水やベンゼンなどの複雑な分子の研究に安定化剤法を適用した。
最小のSTO-3Gでは、前者は14量子ビット、後者は72量子ビットを必要とする。
非常に顕著なことに、すべての結合長で最高の安定化状態を見つけることができる。
以前に研究されたH$_2$、LiH、BeH$_2$分子と同様に、安定剤状態も真の基底状態、特に分子が強く歪んだときに非常によく近似する。
これらの結果は、システムが強い静的相関を伴う場合、安定化状態が自然な参照状態となることを示唆する。
そして量子コンピューティングの言語では、安定化状態が化学シミュレーションの自然な初期状態になることを期待する。 We apply the stabilizer method to the study of some complicated molecules, such as water and benzene. In the minimal STO-3G basis, the former requires 14 qubits, and the latter 72 qubits, which is very challenging. Quite remarkably, We are still able to find the best stabilizer states at all the bond lengths. Just as the previously studied H$_2$, LiH and BeH$_2$ molecules, here the stabilizer states also approximate the true ground states very well, especially when the molecules are strongly distorted. These results suggest stabilizer states could serve as natural reference states when the system involves strong static correlation. And in the language of quantum computing, one would expect stabilizer states to be natural initial states for chemical simulation. | 翻訳日:2023-02-24 16:38:37 公開日:2023-02-23 |
# クラス増分学習のための分類器の分離学習 Detachedly Learn a Classifier for Class-Incremental Learning ( http://arxiv.org/abs/2302.11730v1 ) ライセンス: Link先を確認 | Ziheng Li, Shibo Jie, and Zhi-Hong Deng | (参考訳) 継続的学習では、モデルは一連のタスクで機能抽出子と分類子を継続的に学習する必要がある。
本稿では,事前学習された特徴抽出器に基づく分類器の学習方法について述べる。
本稿では,バニラ体験リプレイ(ER)の失敗は,従来のタスクの不要な再学習と,知識劣化と予測バイアスの原因である現在のタスクとを区別する能力の欠如から生じる,確率論的解析について述べる。
これらの弱点を克服するため、我々は新しいリプレイ戦略タスク認識体験リプレイを提案する。
更新プロセスから古いタスクのリプレイロスと分類器の重みを再バランスさせ、以前の知識をそのまま保持し、エピソディックメモリの過剰化を緩和する。
実験の結果,本手法は最先端の手法よりも優れていた。 In continual learning, model needs to continually learn a feature extractor and classifier on a sequence of tasks. This paper focuses on how to learn a classifier based on a pretrained feature extractor under continual learning setting. We present an probabilistic analysis that the failure of vanilla experience replay (ER) comes from unnecessary re-learning of previous tasks and incompetence to distinguish current task from the previous ones, which is the cause of knowledge degradation and prediction bias. To overcome these weaknesses, we propose a novel replay strategy task-aware experience replay. It rebalances the replay loss and detaches classifier weight for the old tasks from the update process, by which the previous knowledge is kept intact and the overfitting on episodic memory is alleviated. Experimental results show our method outperforms current state-of-the-art methods. | 翻訳日:2023-02-24 16:38:24 公開日:2023-02-23 |
# 境界を意識した亀裂セグメンテーションのための畳み込み変換ネットワーク A Convolutional-Transformer Network for Crack Segmentation with Boundary Awareness ( http://arxiv.org/abs/2302.11728v1 ) ライセンス: Link先を確認 | Huaqi Tao, Bingxi Liu, Jinqiang Cui and Hong Zhang | (参考訳) ひび割れは、製造された建物の安全性と耐久性を評価する上で重要な役割を担っている。
しかし, ひび割れの長期的・鋭い特徴と複雑な背景は, ひび割れの分断を極めて困難にしている。
本稿では,この課題を解決するために,エンコーダ・デコーダアーキテクチャに基づく新しい畳み込み変換ネットワークを提案する。
特に,Dilated Residual Block (DRB) と境界認識モジュール (BAM) を設計した。
DRBはひび割れの局所的な詳細に注意を払い、必要に応じて他のブロックの特徴次元を調整する。
そして、BAMは、拡張クラックラベルから境界特徴を学習する。
さらに、DRBは、グローバル情報をキャプチャして効果的なエンコーダとして機能する軽量トランスフォーマーと組み合わせられている。
実験結果から,提案ネットワークは2つの典型的なデータセット上で,最先端のアルゴリズムよりも優れた性能を示した。
データセット、コード、トレーニングされたモデルはhttps://github.com/HqiTao/CT-cracksegで研究することができる。 Cracks play a crucial role in assessing the safety and durability of manufactured buildings. However, the long and sharp topological features and complex background of cracks make the task of crack segmentation extremely challenging. In this paper, we propose a novel convolutional-transformer network based on encoder-decoder architecture to solve this challenge. Particularly, we designed a Dilated Residual Block (DRB) and a Boundary Awareness Module (BAM). The DRB pays attention to the local detail of cracks and adjusts the feature dimension for other blocks as needed. And the BAM learns the boundary features from the dilated crack label. Furthermore, the DRB is combined with a lightweight transformer that captures global information to serve as an effective encoder. Experimental results show that the proposed network performs better than state-of-the-art algorithms on two typical datasets. Datasets, code, and trained models are available for research at https://github.com/HqiTao/CT-crackseg. | 翻訳日:2023-02-24 16:38:07 公開日:2023-02-23 |
# 非定常環境における旧データ再利用時の漸近的非偏平政策評価 Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old Data in Nonstationary Environments ( http://arxiv.org/abs/2302.11725v1 ) ライセンス: Link先を確認 | Vincent Liu, Yash Chandak, Philip Thomas, Martha White | (参考訳) 本研究では,非定常環境におけるコンテキストバンディットと有限地平線強化学習におけるオフポリシー政策評価問題について考察する。
古いデータを再利用することはポリシー評価に不可欠であるが、古いデータを再利用する既存の推定者は、信頼できる信頼区間を得ることができないような大きなバイアスをもたらす。
調査サンプリングと呼ばれる関連分野から着想を得た、回帰支援DR推定器と呼ばれる二重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
この推定器は、いくつかの既存のオフポリシー評価手法を統一し、補助情報と回帰アプローチを用いて改善する。
我々は,新しい推定器が漸近的に偏りがないことを証明し,サンプル信頼区間の大きな構成に一貫した分散推定器を提供する。
最後に、新しい推定器が現在および将来の政策値の推定を改善し、いくつかの非定常レコメンデーション環境において、厳密かつ有効な間隔推定を提供することを示す。 In this work, we consider the off-policy policy evaluation problem for contextual bandits and finite horizon reinforcement learning in the nonstationary setting. Reusing old data is critical for policy evaluation, but existing estimators that reuse old data introduce large bias such that we can not obtain a valid confidence interval. Inspired from a related field called survey sampling, we introduce a variant of the doubly robust (DR) estimator, called the regression-assisted DR estimator, that can incorporate the past data without introducing a large bias. The estimator unifies several existing off-policy policy evaluation methods and improves on them with the use of auxiliary information and a regression approach. We prove that the new estimator is asymptotically unbiased, and provide a consistent variance estimator to a construct a large sample confidence interval. Finally, we empirically show that the new estimator improves estimation for the current and future policy values, and provides a tight and valid interval estimation in several nonstationary recommendation environments. | 翻訳日:2023-02-24 16:37:53 公開日:2023-02-23 |
# {}^{28}$si/sigeスピン量子ビットにおける近距離近傍の空間雑音相関 Spatial noise correlations beyond nearest-neighbor in ${}^{28}$Si/SiGe spin qubits ( http://arxiv.org/abs/2302.11717v1 ) ライセンス: Link先を確認 | Juan S. Rojas-Arias, Akito Noiri, Peter Stano, Takashi Nakajima, Jun Yoneda, Kenta Takeda, Takashi Kobayashi, Amir Sammak, Giordano Scappucci, Daniel Loss, Seigo Tarucha | (参考訳) 等方清浄si/sige量子ドットで定義される非近接量子ビットの量子エネルギーゆらぎの相関を検出する。
低周波(ノイズが最も強い)では、相関係数は200nm離隔した隣り合うクビットペアに対して10%に達する。
観測されたノイズを電気的起源に割り当てると、単純な理論モデルは測定を定量的に再現し、量子間距離との相関の多項式減衰を予測する。
本研究では,量子ドットスピン量子ビットを配列に配置したノイズの長距離相関を定量化し,その拡張性と耐障害性に不可欠であることを示す。 We detect correlations in qubit-energy fluctuations of non-neighboring qubits defined in isotopically purified Si/SiGe quantum dots. At low frequencies (where the noise is strongest), the correlation coefficient reaches 10% for a next-nearest-neighbor qubit-pair separated by 200 nm. Assigning the observed noise to be of electrical origin, a simple theoretical model quantitatively reproduces the measurements and predicts a polynomial decay of correlations with interqubit distance. Our results quantify long-range correlations of noise dephasing quantum-dot spin qubits arranged in arrays, essential for scalability and fault-tolerance of such systems. | 翻訳日:2023-02-24 16:37:34 公開日:2023-02-23 |
# 分散検出の効率的な方法 An efficient method for Out-of-Distribution Detection ( http://arxiv.org/abs/2302.11716v1 ) ライセンス: Link先を確認 | Mingyu Xu, Kexin Wang, Zheng Lian | (参考訳) アウト・オブ・ディストリビューション(OOD)データの検出は、オープンな世界で信頼性の高い機械学習システムを構築する上で重要である。
以前の方法は、追加データを使用するか、トレーニングデータの情報を使用する必要がある。
モデルのパラメータ情報のみを使用する方法は、比較的貧弱である。
モデルパラメータ情報のみを用いたOOD検出の効率的な手法を提案する。
本手法の有効性を検証するため,4つのベンチマークデータセットを用いて実験を行った。
実験の結果,我々のRGはAUROCの平均4.57倍の既存手法よりも優れていた。
一方,本手法は実装が容易であり,OODデータの追加や微調整処理は不要である。
事前訓練されたモデルの1つの前方通過でOOD検出を実現することができる。 Detecting out-of-distribution (OOD) data is critical to building reliable machine learning systems in the open world. The previous methods either need to use additional data or use the information of training data. The method of using only the parameter information of the model is relatively poor. We propose an efficient method for OOD detection using only model parameter information. To verify the effectiveness of our method, we conduct experiments on four benchmark datasets. Experimental results demonstrate that our RG outperforms existing state-of-the-art approaches by 4.57\% in average AUROC. Meanwhile, our method is easy to implement and does not require additional OOD data or fine-tuning process. We can realize OOD detection in only one forward pass of any pretrained model. | 翻訳日:2023-02-24 16:37:22 公開日:2023-02-23 |
# 特徴の重要性から距離メトリクスへ:因果推論に対するほぼ正確なマッチングアプローチ From Feature Importance to Distance Metric: An Almost Exact Matching Approach for Causal Inference ( http://arxiv.org/abs/2302.11715v1 ) ライセンス: Link先を確認 | Quinn Lanners, Harsh Parikh, Alexander Volfovsky, Cynthia Rudin, and David Page | (参考訳) 我々の目標は、監査可能で、トラブルシュートが容易で、正確な治療効果の推定値が得られ、高次元データにスケーラブルな観測因果推定法を作ることである。
我々は、これらの目標を達成するほぼ実効的なマッチングアプローチについて述べる。
(i)成果モデリングを通して距離計量を学ぶこと。
(ii)距離計量を用いて一致群を作成すること、
(iii)一致群を用いて治療効果を推定する。
提案手法は距離計量を構成するために可変重要度測定を用いており,様々なアプリケーションに適用可能な柔軟な手法である。
潜在的な共同設立者数における問題のスケーラビリティに集中して、LASSOでアプローチを運用します。
lassoの成果モデリングが(線形モデルを正しく指定する必要なしに)すべての共同創設者を一貫して識別する設定で、パフォーマンス保証を導き出します。
また,より一般的な非パラメトリックな結果モデリングの拡張とともに,一致の聴取性を示す実験結果も提供する。 Our goal is to produce methods for observational causal inference that are auditable, easy to troubleshoot, yield accurate treatment effect estimates, and scalable to high-dimensional data. We describe an almost-exact matching approach that achieves these goals by (i) learning a distance metric via outcome modeling, (ii) creating matched groups using the distance metric, and (iii) using the matched groups to estimate treatment effects. Our proposed method uses variable importance measurements to construct a distance metric, making it a flexible method that can be adapted to various applications. Concentrating on the scalability of the problem in the number of potential confounders, we operationalize our approach with LASSO. We derive performance guarantees for settings where LASSO outcome modeling consistently identifies all confounders (importantly without requiring the linear model to be correctly specified). We also provide experimental results demonstrating the auditability of matches, as well as extensions to more general nonparametric outcome modeling. | 翻訳日:2023-02-24 16:37:11 公開日:2023-02-23 |
# 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか? Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? ( http://arxiv.org/abs/2302.11713v1 ) ライセンス: Link先を確認 | Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang | (参考訳) 大規模言語モデルは、知識集約的な疑問に答える創発的な能力を示している。
ウェブスケールのビジュアルおよび言語事前学習の最近の進歩により、これらのモデルは、質問に答える視覚情報についても理解できますか?
この疑問に答えるために,情報検索に焦点をあてたビジュアル質問回答データセットであるInfoSeekを紹介した。
質問・回答ペアを求める高品質な視覚情報の自然な分布を収集するために,多段階のヒューマンアノテーションを行う。
また、既存のビジュアルエンティティ認識データセットとWikidataを組み合わせて、大規模で自動で収集されたデータセットを構築し、モデル微調整と検証に100万以上の例を提供する。
InfoSeekに基づいて、事前学習された様々なビジュアルQAシステムを分析し、異なる事前学習されたモデルの特徴について洞察を得た。
分析の結果、最先端のマルチモーダル事前学習モデルでは、質問に答えることは困難であるが、この能力は、自動化されたinfoseekデータセットの微調整によって改善されている。
我々は,次世代のマルチモーダル事前学習の理解と発展の道を開くことを願っている。 Large language models have demonstrated an emergent capability in answering knowledge intensive questions. With recent progress on web-scale visual and language pre-training, do these models also understand how to answer visual information seeking questions? To answer this question, we present InfoSeek, a Visual Question Answering dataset that focuses on asking information-seeking questions, where the information can not be answered by common sense knowledge. We perform a multi-stage human annotation to collect a natural distribution of high-quality visual information seeking question-answer pairs. We also construct a large-scale, automatically collected dataset by combining existing visual entity recognition datasets and Wikidata, which provides over one million examples for model fine-tuning and validation. Based on InfoSeek, we analyzed various pre-trained Visual QA systems to gain insights into the characteristics of different pre-trained models. Our analysis shows that it is challenging for the state-of-the-art multi-modal pre-trained models to answer visual information seeking questions, but this capability is improved through fine-tuning on the automated InfoSeek dataset. We hope our analysis paves the way to understand and develop the next generation of multi-modal pre-training. | 翻訳日:2023-02-24 16:36:55 公開日:2023-02-23 |
# 拡散優先による画像生成の制御と条件付きテキスト Controlled and Conditional Text to Image Generation with Diffusion Prior ( http://arxiv.org/abs/2302.11710v1 ) ライセンス: Link先を確認 | Pranav Aggarwal, Hareesh Ravi, Naveen Marri, Sachin Kelkar, Fengbin Chen, Vinh Khuc, Midhun Harikumar, Ritiz Tambi, Sudharshan Reddy Kakumanu, Purvak Lapsiya, Alvin Ghouas, Sarah Saber, Malavika Ramprasad, Baldo Faieta, Ajinkya Kale | (参考訳) 雑音拡散モデルは、テキストから多様で高品質な画像を生成することで顕著な性能を示している。
テキストから直接画像を生成するStable DiffusionやImagenといったモデルに加えて、数多くのテクニックが提案されている。
DALLE-2では、テキストからCLIPイメージの埋め込みを生成するDiffusion Priorと、CLIPイメージの埋め込みから画像を生成するDiffusion Decoderという2段階のプロセスがある。
拡散プリミティブの機能と中間CLIP表現の利点について検討する。
Diffusion Priorはメモリで使用でき、より大規模なDiffusion Decoderを変更することなく、特定のドメインに対して生成を制限できる。
さらに,色ヒストグラムなどの条件情報を用いて拡散先行法を訓練して生成を制御できることが示唆された。
提案手法がドメイン固有生成のためのプロンプトエンジニアリングやカラーコンディショニング生成のための既存のベースラインよりも優れていることを定量的かつ定性的に示す。
我々は、我々の観察と結果が、拡散に先立ってさらなる研究を行い、その能力を明らかにすると信じている。 Denoising Diffusion models have shown remarkable performance in generating diverse, high quality images from text. Numerous techniques have been proposed on top of or in alignment with models like Stable Diffusion and Imagen that generate images directly from text. A lesser explored approach is DALLE-2's two step process comprising a Diffusion Prior that generates a CLIP image embedding from text and a Diffusion Decoder that generates an image from a CLIP image embedding. We explore the capabilities of the Diffusion Prior and the advantages of an intermediate CLIP representation. We observe that Diffusion Prior can be used in a memory and compute efficient way to constrain the generation to a specific domain without altering the larger Diffusion Decoder. Moreover, we show that the Diffusion Prior can be trained with additional conditional information such as color histogram to further control the generation. We show quantitatively and qualitatively that the proposed approaches perform better than prompt engineering for domain specific generation and existing baselines for color conditioned generation. We believe that our observations and results will instigate further research into the diffusion prior and uncover more of its capabilities. | 翻訳日:2023-02-24 16:36:34 公開日:2023-02-23 |
# Svetlichnyの不等式違反に基づく多部量子暗号 Multipartite quantum cryptography based on the violation of Svetlichny's inequality ( http://arxiv.org/abs/2302.11771v1 ) ライセンス: Link先を確認 | Yang Xiang | (参考訳) 多部暗号は特定の任務に有用である。
本稿では、3つの分離されたオブザーバが3ドル粒子GHZ状態のシーケンスを用いてキーの集合を安全に共有できる量子鍵分布方式を提案する。
svetlichnyの不等式を破って盗聴を検証できることを証明し、盗聴者が2人の被験者の計測結果を完全に制御できたとしても、このスキームはキー分布の安全性を保証する。
このスキームは、n$-party keyディストリビューションの場合にも簡単に拡張でき、$n$-partite svetlichnyの不等式違反により、一般化スキームの安全性が保証される。
GHZ状態は最大の絡み合いを持つため、その完全な独占は、我々のプロトコルのデバイス非依存のセキュリティを保証する。
しかし、量子絡み合いは伝送中にしばしば減衰する脆弱な資源であるため、極小の絡み合いを持つ量子状態を用いる条件下でプロトコルの秘密鍵レートを導出する必要がある。
次に、デバイス非依存のシナリオにおいて、Werner状態に対する3つの鍵分配プロトコルの抽出可能な秘密鍵レートを算出する。
抽出可能な秘密鍵レートの値は、werner状態の可視性値が増加するにつれて単調に1ドル近くなり、werner状態がghz状態になると最大値が1ドルに達する。 Multipartite cryptography is useful for some particular missions. In this paper, we present a quantum key distribution scheme in which three separated observers can securely share a set of keys by using a sequence of $3$-particle GHZ states. We prove that the violation of Svetlichny's inequality can be utilized to test for eavesdropping, and even when the eavesdropper can completely control the outcomes of two participants' measurements, our scheme still ensures the security of the keys distribution. This scheme can be easily extended to the case of $N$-party keys distribution, and the violation of $N$-partite Svetlichny's inequality guarantees the security of the generalized scheme. Since the GHZ state has maximum entanglement, its perfect monogamy guarantee the device-independent security of our protocol. However quantum entanglement is a vulnerable resource which is often decayed during transmission, so we need here to derive the secret-key rate of our protocol under the condition of using quantum states with non-maximal entanglement. We then calculate the extractable secret-key rate of the three-party key distribution protocol for the Werner state in the device-independent scenario. We find that the value of the extractable secret-key rate monotonously approaches $1$ as the value of the visibility of the Werner state increases, and it reaches its maximum value $1$ when the Werner state becomes the GHZ state. | 翻訳日:2023-02-24 16:30:50 公開日:2023-02-23 |
# 弱勾配制約による平面パラメトリック曲線の適応近似暗黙化 Adaptive Approximate Implicitization of Planar Parametric Curves via Weak Gradient Constraints ( http://arxiv.org/abs/2302.11767v1 ) ライセンス: Link先を確認 | Minghao Guo, Yan Gao, Zheng Pan | (参考訳) パラメトリック曲線を暗黙化と呼ばれる暗黙的形式に変換することは、幾何学的モデリングや関連する応用において、常に一般的だが挑戦的な問題であった。
しかし、既存の手法は主に幾何学的特徴の維持と合理的な暗黙の度合いの選択という問題に悩まされている。
本論文には2つの貢献がある。
まず,多項式曲線と非多項曲線の両方に対して,形状保存を効率的に行う新しい正規化制約(弱勾配制約と呼ばれる)を導入する。
次に,多項式と非多項曲線に対する近似的暗黙化の2つの適応アルゴリズムを提案し,弱勾配制約の挙動に基づく「オプティカル」の暗黙的次数を求める。
より正確には、このアイデアは、出力の弱い勾配損失に明らかな改善がないまで、徐々に暗黙の度合いを増している。
実験の結果,提案手法の有効性と品質が示された。 Converting a parametric curve into the implicit form, which is called implicitization, has always been a popular but challenging problem in geometric modeling and related applications. However, the existing methods mostly suffer from the problems of maintaining geometric features and choosing a reasonable implicit degree. The present paper has two contributions. We first introduce a new regularization constraint(called the weak gradient constraint) for both polynomial and non-polynomial curves, which efficiently possesses shape preserving. We then propose two adaptive algorithms of approximate implicitization for polynomial and non-polynomial curves respectively, which find the ``optimal'' implicit degree based on the behavior of the weak gradient constraint. More precisely, the idea is gradually increasing the implicit degree, until there is no obvious improvement in the weak gradient loss of the outputs. Experimental results have shown the effectiveness and high quality of our proposed methods. | 翻訳日:2023-02-24 16:30:26 公開日:2023-02-23 |
# MUTANT:多文コード混在のHinglishデータセット MUTANT: A Multi-sentential Code-mixed Hinglish Dataset ( http://arxiv.org/abs/2302.11766v1 ) ライセンス: Link先を確認 | Rahul Gupta, Vivek Srivastava, Mayank Singh | (参考訳) マルチセンテンシャル長列テキストデータは、自然言語処理と生成に関連するいくつかの興味深い研究方向を展開する。
英語や他の単言語言語のための高品質なロングシーケンスデータセットはいくつか見てきたが、hinglish(ヒンディー語-英語のコード混合)のようなコード混合言語のためのそのようなリソースを構築することには大きな努力はない。
本稿では,多言語記事から多文コード混合テキスト(MCT)を識別する新しいタスクを提案する。
ユースケースとして,2つの異なるデータソースからの多言語記事を活用して,先駆的な多言語コード混合hinglishデータセット,すなわちミュータントを構築する。
本稿では,トークンレベルの言語認識パイプラインを提案し,マルチセンテンシャルフレームワークにコード混合度を測定する既存のメトリクスを拡張し,多言語記事中のmctを自動的に識別する。
MUTANTデータセットは67kの記事と85kのHinglish MCTからなる。
今後の研究を促進するため、我々は一般公開する。 The multi-sentential long sequence textual data unfolds several interesting research directions pertaining to natural language processing and generation. Though we observe several high-quality long-sequence datasets for English and other monolingual languages, there is no significant effort in building such resources for code-mixed languages such as Hinglish (code-mixing of Hindi-English). In this paper, we propose a novel task of identifying multi-sentential code-mixed text (MCT) from multilingual articles. As a use case, we leverage multilingual articles from two different data sources and build a first-of-its-kind multi-sentential code-mixed Hinglish dataset i.e., MUTANT. We propose a token-level language-aware pipeline and extend the existing metrics measuring the degree of code-mixing to a multi-sentential framework and automatically identify MCT in the multilingual articles. The MUTANT dataset comprises 67k articles with 85k identified Hinglish MCTs. To facilitate future research, we make the publicly available. | 翻訳日:2023-02-24 16:30:10 公開日:2023-02-23 |
# 断続的に観察可能なマルコフ決定過程 Intermittently Observable Markov Decision Processes ( http://arxiv.org/abs/2302.11761v1 ) ライセンス: Link先を確認 | Gongpu Chen and Soung-Chang Liew | (参考訳) 本稿では間欠的状態情報を用いたMDPについて検討する。
我々は、コントローラが信頼できない通信チャネルを介してプロセスの状態情報を知覚するシナリオを考える。
地平線全体にわたる状態情報の伝達はベルヌーイ損失過程としてモデル化される。
したがって、状態情報損失の存在下での行動選択に最適な政策を見出すことが課題である。
まず、構造的結果を確立するため、MDPの信念として問題を定式化する。
予測総割引報酬に対する状態情報損失の影響を系統的に検討した。
そして、状態空間が木構造に整理された木MDPとして問題を再構築する。
木MDPに対する2つの有限状態近似が開発され、最適に近いポリシーを効率的に見つけることができる。
最後に,有限状態近似に対するネスト値反復アルゴリズムを提案し,標準値反復よりも高速であることが証明された。
数値実験の結果,本手法の有効性が示された。 This paper investigates MDPs with intermittent state information. We consider a scenario where the controller perceives the state information of the process via an unreliable communication channel. The transmissions of state information over the whole time horizon are modeled as a Bernoulli lossy process. Hence, the problem is finding an optimal policy for selecting actions in the presence of state information losses. We first formulate the problem as a belief MDP to establish structural results. The effect of state information losses on the expected total discounted reward is studied systematically. Then, we reformulate the problem as a tree MDP whose state space is organized in a tree structure. Two finite-state approximations to the tree MDP are developed to find near-optimal policies efficiently. Finally, we put forth a nested value iteration algorithm for the finite-state approximations, which is proved to be faster than standard value iteration. Numerical results demonstrate the effectiveness of our methods. | 翻訳日:2023-02-24 16:29:52 公開日:2023-02-23 |
# 判別クラスプロトタイプ学習によるオープンワールドオブジェクト検出 Open-World Object Detection via Discriminative Class Prototype Learning ( http://arxiv.org/abs/2302.11757v1 ) ライセンス: Link先を確認 | Jinan Yu, Liyan Ma, Zhenglin Li, Yan Peng, Shaorong Xie | (参考訳) オープンワールドオブジェクト検出(OWOD)は、オブジェクト検出とインクリメンタルラーニングとオープンセットラーニングを組み合わせた難しい問題である。
標準的なオブジェクト検出と比較して、OWOD設定は次のようになる。
1)見知らぬクラスを特定しながら、トレーニング中に見る物体を検出し、
2)対応するアノテーションが利用可能になったとき,識別された未知のオブジェクトの知識を段階的に学習する。
そこで,我々はocpl(open-world object detection via discriminative class prototype learning,pea),esc (embedd space compressor) およびcsc (cosine similarity-based classifier) の2つの提案から,ocplと呼ぶ新しい効率的なowodソリューションを提案する。
提案する全てのモジュールは、既知のクラスと未知クラスの重複する分布を最小化するために、特徴空間に既知のクラスの識別的埋め込みを学ぶことを目的としています。
PASCAL VOCおよびMS-COCOベンチマークで行った大規模な実験により,提案手法の有効性が示された。 Open-world object detection (OWOD) is a challenging problem that combines object detection with incremental learning and open-set learning. Compared to standard object detection, the OWOD setting is task to: 1) detect objects seen during training while identifying unseen classes, and 2) incrementally learn the knowledge of the identified unknown objects when the corresponding annotations is available. We propose a novel and efficient OWOD solution from a prototype perspective, which we call OCPL: Open-world object detection via discriminative Class Prototype Learning, which consists of a Proposal Embedding Aggregator (PEA), an Embedding Space Compressor (ESC) and a Cosine Similarity-based Classifier (CSC). All our proposed modules aim to learn the discriminative embeddings of known classes in the feature space to minimize the overlapping distributions of known and unknown classes, which is beneficial to differentiate known and unknown classes. Extensive experiments performed on PASCAL VOC and MS-COCO benchmark demonstrate the effectiveness of our proposed method. | 翻訳日:2023-02-24 16:29:42 公開日:2023-02-23 |
# 条件付き変分オートエンコーダによる多様体次元の学習 Learning Manifold Dimensions with Conditional Variational Autoencoders ( http://arxiv.org/abs/2302.11756v1 ) ライセンス: Link先を確認 | Yijia Zheng, Tong He, Yixuan Qiu, David Wipf | (参考訳) 可変オートエンコーダ (VAE) とその条件拡張 (CVAE) は、複数の領域にわたる最先端の結果が得られるが、その正確な振る舞いは、特に低次元多様体上または近辺にあるデータ(画像など)の文脈において、完全には理解されていない。
例えば、先行研究は、グローバル最適vae解が正しい多様体次元を学習できることを示唆しているが、真のデータ分布からサンプルを生成するのに必要な(しかし十分ではない)条件は、厳密に証明されていない。
さらに、様々な種類の条件変数が導入された場合や、データサポートが多様体の和に拡張された場合(例えば、mnist の桁や関連する場合)、そのような考慮がどう変化するかは、まだ不明である。
本稿では,まずvae大域的ミニマが正しい多様体次元を回復できることを証明し,これらの点について考察する。
次に、この結果をより一般的なCVAEに拡張し、条件変数によってモデルがサンプル間で異なる次元の多様体を適応的に学習できるような実践的なシナリオを示す。
CVAE設計選択の実践的意味を持つ本分析は,合成データセットと実世界のデータセットの数値結果からも裏付けられる。 Although the variational autoencoder (VAE) and its conditional extension (CVAE) are capable of state-of-the-art results across multiple domains, their precise behavior is still not fully understood, particularly in the context of data (like images) that lie on or near a low-dimensional manifold. For example, while prior work has suggested that the globally optimal VAE solution can learn the correct manifold dimension, a necessary (but not sufficient) condition for producing samples from the true data distribution, this has never been rigorously proven. Moreover, it remains unclear how such considerations would change when various types of conditioning variables are introduced, or when the data support is extended to a union of manifolds (e.g., as is likely the case for MNIST digits and related). In this work, we address these points by first proving that VAE global minima are indeed capable of recovering the correct manifold dimension. We then extend this result to more general CVAEs, demonstrating practical scenarios whereby the conditioning variables allow the model to adaptively learn manifolds of varying dimension across samples. Our analyses, which have practical implications for various CVAE design choices, are also supported by numerical results on both synthetic and real-world datasets. | 翻訳日:2023-02-24 16:29:24 公開日:2023-02-23 |
# VLSP 2022 -- EVJVQAチャレンジ:多言語視覚質問応答 VLSP 2022 -- EVJVQA Challenge: Multilingual Visual Question Answering ( http://arxiv.org/abs/2302.11752v1 ) ライセンス: Link先を確認 | Ngan Luu-Thuy Nguyen, Nghia Hieu Nguyen, Duong T.D Vo, Khanh Quoc Tran, Kiet Van Nguyen | (参考訳) VQA(Visual Question Answering)は自然言語処理(NLP)とコンピュータビジョン(CV)の課題であり、研究者から大きな注目を集めている。
英語はリソースに富む言語であり、視覚的な質問応答のためのデータセットやモデルで様々な発展を目撃してきた。
他の言語での視覚的な質問応答も、リソースやモデルのために開発される。
加えて、独自の対象と文化的特徴を持つ、特定の国の視覚コンテンツをターゲットにした多言語データセットは存在しない。
ベトナム語、英語、日本語の3つの言語に対する33,000組以上の質問応答を含む、多言語vqaシステムやモデルを評価するためにベトナムから撮影された約5,000枚の画像を含む、研究コミュニティにevjvqaというベンチマークデータセットを提供する。
EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答の課題に対するベンチマークデータセットとして使用されている。
この作業は、様々な大学や組織から62の参加者を惹きつけた。
本稿では,課題の組織の詳細,共有タスク参加者が採用する手法の概要,その結果について述べる。
最高パフォーマンスはF1スコアの0.4392、プライベートテストセットのBLUEの0.4009である。
トップ2チームが提案した多言語QAシステムは、事前訓練された視覚モデルにViT、事前訓練された言語モデルにmT5を使用している。
EVJVQAは、NLPとCV研究者が視覚的質問応答システムのための多言語モデルやシステムをさらに探求するために、難しいデータセットである。 Visual Question Answering (VQA) is a challenging task of natural language processing (NLP) and computer vision (CV), attracting significant attention from researchers. English is a resource-rich language that has witnessed various developments in datasets and models for visual question answering. Visual question answering in other languages also would be developed for resources and models. In addition, there is no multilingual dataset targeting the visual content of a particular country with its own objects and cultural characteristics. To address the weakness, we provide the research community with a benchmark dataset named EVJVQA, including 33,000+ pairs of question-answer over three languages: Vietnamese, English, and Japanese, on approximately 5,000 images taken from Vietnam for evaluating multilingual VQA systems or models. EVJVQA is used as a benchmark dataset for the challenge of multilingual visual question answering at the 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022). This task attracted 62 participant teams from various universities and organizations. In this article, we present details of the organization of the challenge, an overview of the methods employed by shared-task participants, and the results. The highest performances are 0.4392 in F1-score and 0.4009 in BLUE on the private test set. The multilingual QA systems proposed by the top 2 teams use ViT for the pre-trained vision model and mT5 for the pre-trained language model, a powerful pre-trained language model based on the transformer architecture. EVJVQA is a challenging dataset that motivates NLP and CV researchers to further explore the multilingual models or systems for visual question answering systems. | 翻訳日:2023-02-24 16:28:59 公開日:2023-02-23 |
# 機械学習モデル市場におけるワンショットフェデレーション学習のためのデータ自由多様性に基づくアンサンブル選択 Data-Free Diversity-Based Ensemble Selection For One-Shot Federated Learning in Machine Learning Model Market ( http://arxiv.org/abs/2302.11751v1 ) ライセンス: Link先を確認 | Naibo Wang, Wenjie Feng, Fusheng Liu, Moming Duan, See-Kiong Ng | (参考訳) 訓練された機械学習モデルの登場により、複数のよく訓練されたモデルの集団的知性を活用して、ワンショットフェデレーション学習とアンサンブル学習による結果モデルのパフォーマンスを向上させる、機械学習モデル市場という新しい概念が推進された。
しかし、アンサンブル学習のための市場で利用可能なモデルの選択は、すべてのモデルを使用することが必ずしも最善のアプローチであるとは限らないため、時間がかかります。
したがって、アンサンブルのベースモデルの優れたサブセットを見つけることができる効果的なアンサンブル選択戦略を持つことが重要である。
従来のアンサンブル選択技術は適用できないが、連邦学習環境における当事者のローカルデータセットにアクセスできない。
本稿では,モデルマーケットなどの実践的応用において,ワンショットフェデレーション学習によるモデルに対するアンサンブル選択問題に対処するために,データ自由多様性に基づく新しい手法DeDESを提案する。
実験により,本手法は5つのデータセットと4つの異なるモデル構造に対して,より優れた性能と高効率を実現することができることがわかった。 The emerging availability of trained machine learning models has put forward the novel concept of Machine Learning Model Market in which one can harness the collective intelligence of multiple well-trained models to improve the performance of the resultant model through one-shot federated learning and ensemble learning in a data-free manner. However, picking the models available in the market for ensemble learning is time-consuming, as using all the models is not always the best approach. It is thus crucial to have an effective ensemble selection strategy that can find a good subset of the base models for the ensemble. Conventional ensemble selection techniques are not applicable, as we do not have access to the local datasets of the parties in the federated learning setting. In this paper, we present a novel Data-Free Diversity-Based method called DeDES to address the ensemble selection problem for models generated by one-shot federated learning in practical applications such as model markets. Experiments showed that our method can achieve both better performance and higher efficiency over 5 datasets and 4 different model structures under the different data-partition strategies. | 翻訳日:2023-02-24 16:28:33 公開日:2023-02-23 |
# hera: パーソナライズドレコメンデーションのための異種対応マルチテナント推論サーバ Hera: A Heterogeneity-Aware Multi-Tenant Inference Server for Personalized Recommendations ( http://arxiv.org/abs/2302.11750v1 ) ライセンス: Link先を確認 | Yujeong Choi, John Kim, Minsoo Rhu | (参考訳) 低レイテンシの提供はレコメンデーションサービスのデプロイにおける基本的な要件ですが、高リソースユーティリティの実現は、データセンタの費用対効果の維持にも不可欠です。
モデルの複数のワーカを同時に配置することは、クエリレベルの並列性とサーバスループットを最大化する効果的な方法だが、共有リソースにおける並行ワーカーによる干渉は、サーバクエリがSLAを満たすのを防ぐことができる。
heraはマルチテナントのレコメンデーションモデルのヘテロジニアスメモリ要件を利用して、生産的なコロケーションモデルとそのリソース割り当てをインテリジェントに決定し、高いスループットを実現しながら高速な応答時間を提供する。
我々は,Heraが有効利用率を平均37.3%向上し,必要なサーバを26%削減し,ベースラインリコメデーション推論サーバを大幅に改善したことを示す。 While providing low latency is a fundamental requirement in deploying recommendation services, achieving high resource utility is also crucial in cost-effectively maintaining the datacenter. Co-locating multiple workers of a model is an effective way to maximize query-level parallelism and server throughput, but the interference caused by concurrent workers at shared resources can prevent server queries from meeting its SLA. Hera utilizes the heterogeneous memory requirement of multi-tenant recommendation models to intelligently determine a productive set of co-located models and its resource allocation, providing fast response time while achieving high throughput. We show that Hera achieves an average 37.3% improvement in effective machine utilization, enabling 26% reduction in required servers, significantly improving upon the baseline recommedation inference server. | 翻訳日:2023-02-24 16:28:14 公開日:2023-02-23 |
# 絡み合うことからの教え:2次元の解解量子臨界点は共形ではない The teaching from entanglement: 2D deconfined quantum critical points are not conformal ( http://arxiv.org/abs/2302.11742v1 ) ライセンス: Link先を確認 | Yuan Da Liao, Gaopei Pan, Weilun Jiang, Yang Qi and Zi Yang Meng | (参考訳) 量子臨界点(deconfined quantum critical point, dqcp)は、ランダウ-ギンツブルク-ウィルソンの対称性と自発的崩壊のパラダイムを超えた、量子相転移の謎めいたインカーネーション(enigmatic incarnation of the quantum phase transition)である。
スピン/ボソンおよびフェルミオン表現の様々な2次元量子多体格子モデルは、最先端の数値技術と場理論解析で試験されてきたが、結論はまだ議論の余地がある。
量子磁石SrCu$_2$(BO$_3$)$_2$におけるDQCPの実験的実現と2D材料の超伝導量子臨界度は、一階遷移または中間相を示す。
格子スケールの細部と連続限界からの要求との緊張関係は,不整合臨界スケーリング挙動や総称共形ブートストラップ境界違反の形では解決されていない。
ここでは、この数十年にわたる論争を、量子絡みの新たな基本的視点から解決する。
フェルミオンDQCPにおける絡み合いエントロピーを前例のない精度で計算するインクリメンタルアルゴリズムを開発し、対数補正の普遍係数は負であり、共形場理論の正の要求に反することを示した。
他の2次元DQCP格子モデル(フェルミオンとスピン系の両方)の結果と合わせて、2次元DQCPモデルは整合固定点ではなく、DQCPの発見における実験的困難さを自然に説明できる。
これは20年前に提唱されたランダウ-ギンツブルク-ウィルソンのパラダイムを超えて量子相転移が真に明らかでない発見の始まりを告げるものである。 The deconfined quantum critical point (DQCP) -- the enigmatic incarnation of the quantum phase transition beyond the Landau-Ginzburg-Wilson paradigm of symmetries and their spontaneous breaking -- has been proposed and actively pursued for more than two decades. Various 2D quantum many-body lattice models, both in spin/boson and fermion representations have been tested with the state-of-the-art numerical techniques and field-theoretical analyses, and yet, the conclusion is still controversial. Experimental realizations of DQCP in the quantum magnet SrCu$_2$(BO$_3$)$_2$ and superconducting quantum criticality in 2D material have either shown first order transition or intermediate phase. The tensions between the lattice scale details and the requirements from continuum limits, manifested in the form of the inconsistent critical scaling behavior and violations of generic conformal bootstrap bound, have not been resolved. Here we solve these decades-long controversies from the new and fundamental perspective of the quantum entanglement. We develop the incremental algorithm to compute the entanglement entropy at a fermionic DQCP with unprecedentedly accurate data and reveal the universal coefficient of the logarithmic correction therein is negative and at odds with positivity requirement of the conformal field theory. Together with results in other 2D DQCP lattice models (both in fermion and spin systems), our discoveries clearly demonstrate the 2D DQCP models are not conformal fixed point and naturally explain the experimental difficulties in finding DQCP therein. This marks the end of the beginning of unambiguous finding of the quantum phase transitions truely beyond the Landau-Ginzburg-Wilson paradigm, since its suggestion two decades ago. | 翻訳日:2023-02-24 16:27:57 公開日:2023-02-23 |
# FiTs:知識を意識した質問応答のための微粒な2段階学習 FiTs: Fine-grained Two-stage Training for Knowledge-aware Question Answering ( http://arxiv.org/abs/2302.11799v1 ) ライセンス: Link先を確認 | Qichen Ye, Bowen Cao, Nuo Chen, Weiyuan Xu, Yuexian Zou | (参考訳) 知識を意識した質問応答(kaqa: knowledge-aware question answering)は、オープンドメインのqaとドメイン固有のqaの両方に不可欠な知識ベースに関する質問に答えるモデルを必要とします。
言語モデル(PLM)からの言語知識と知識グラフ(KG)からの事実知識を統合して複雑な問題に答えようとする最近のKAQAシステムの有望な結果にもかかわらず、PLMやKGからの表現を効果的に融合させるボトルネックが存在する。
(i)それらの間の意味的・分布的ギャップ
(ii)両モダリティから提供される知識に対する共同推論の難しさ。
この2つの問題に対処するため, KAQAシステムの性能を向上させるための細粒度2段階トレーニングフレームワーク (FiT) を提案する。
知識認識ファインチューニングと呼ばれる第2段階は、アライメントされた表現に基づいてモデルの共同推論能力を改善することを目的としている。
詳細は、QAの監督に加えて、2つの補助的な自己監督タスクを通して、訓練後のモデルを微調整する。
広汎な実験により,本手法はコモンセンス推論(CommonsenseQA, OpenbookQA)と医療質問応答(MedQA-USMILE)の3つのベンチマークにおいて,最先端のパフォーマンスを達成することが示された。 Knowledge-aware question answering (KAQA) requires the model to answer questions over a knowledge base, which is essential for both open-domain QA and domain-specific QA, especially when language models alone cannot provide all the knowledge needed. Despite the promising result of recent KAQA systems which tend to integrate linguistic knowledge from pre-trained language models (PLM) and factual knowledge from knowledge graphs (KG) to answer complex questions, a bottleneck exists in effectively fusing the representations from PLMs and KGs because of (i) the semantic and distributional gaps between them, and (ii) the difficulties in joint reasoning over the provided knowledge from both modalities. To address the above two problems, we propose a Fine-grained Two-stage training framework (FiTs) to boost the KAQA system performance: The first stage aims at aligning representations from the PLM and the KG, thus bridging the modality gaps between them, named knowledge adaptive post-training. The second stage, called knowledge-aware fine-tuning, aims to improve the model's joint reasoning ability based on the aligned representations. In detail, we fine-tune the post-trained model via two auxiliary self-supervised tasks in addition to the QA supervision. Extensive experiments demonstrate that our approach achieves state-of-the-art performance on three benchmarks in the commonsense reasoning (i.e., CommonsenseQA, OpenbookQA) and medical question answering (i.e., MedQA-USMILE) domains. | 翻訳日:2023-02-24 16:21:43 公開日:2023-02-23 |
# ゼロショットテキスト駆動画像編集のための領域認識拡散 Region-Aware Diffusion for Zero-shot Text-driven Image Editing ( http://arxiv.org/abs/2302.11797v1 ) ライセンス: Link先を確認 | Nisha Huang, Fan Tang, Weiming Dong, Tong-Yee Lee, Changsheng Xu | (参考訳) テキスト記述の指導の下での画像操作は最近、幅広い注目を集めている。
本研究では,テキストプロンプトの指導により,画像の地域編集に焦点をあてる。
現在のマスクベースの画像編集方法とは異なり、エンティティレベルの画像編集のための新しい領域認識拡散モデル(rdm)を提案する。
画像の忠実度と推論速度のバランスをとるために、遅延空間拡散と方向誘導の強化を組み合わせて集中拡散パイプラインを設計する。
また,非編集領域における画像コンテンツを保存するために,関心領域を編集し,関心領域を保存するための地域認識エンティティ編集を導入する。
提案するRDMは, 定性的, 定量的な実験により, ベースライン法を超えて検証する。
その結果, rdmは, 視覚品質, 全体的な調和, 非編集領域コンテンツ保存, テキスト・画像意味の一貫性において, 従来のアプローチよりも優れていた。
コードはhttps://github.com/haha-lisa/RDM-Region-Aware-Diffusion-Modelで公開されている。 Image manipulation under the guidance of textual descriptions has recently received a broad range of attention. In this study, we focus on the regional editing of images with the guidance of given text prompts. Different from current mask-based image editing methods, we propose a novel region-aware diffusion model (RDM) for entity-level image editing, which could automatically locate the region of interest and replace it following given text prompts. To strike a balance between image fidelity and inference speed, we design the intensive diffusion pipeline by combing latent space diffusion and enhanced directional guidance. In addition, to preserve image content in non-edited regions, we introduce regional-aware entity editing to modify the region of interest and preserve the out-of-interest region. We validate the proposed RDM beyond the baseline methods through extensive qualitative and quantitative experiments. The results show that RDM outperforms the previous approaches in terms of visual quality, overall harmonization, non-editing region content preservation, and text-image semantic consistency. The codes are available at https://github.com/haha-lisa/RDM-Region-Aware-Diffusion-Model. | 翻訳日:2023-02-24 16:21:13 公開日:2023-02-23 |
# 合成画像と実画像のブリッジ化 : トランスファラブル・複数一貫性支援ファンドス画像拡張フレームワーク Bridging Synthetic and Real Images: a Transferable and Multiple Consistency aided Fundus Image Enhancement Framework ( http://arxiv.org/abs/2302.11795v1 ) ライセンス: Link先を確認 | Erjian Guo, Huazhu Fu, Luping Zhou, Dong Xu | (参考訳) 深層学習に基づく画像強調モデルは, 臨床観察の不確実性と誤診のリスクを軽減するため, 眼底画像の可読性が大幅に向上した。
しかし、異なる品質でペア画像を得るのが難しいため、既存の手法では合成画像対を訓練データとして採用する必要がある。
合成画像と実画像のドメインシフトは、臨床データに対するそのようなモデルの一般化を必然的に妨げている。
本研究では,画像強調とドメイン適応を同時に行うために,エンドツーエンドの教師支援フレームワークを提案する。
学生ネットワークは合成ペアを教師付き強化に使用し、強化された地盤に頼らずに実底画像の教師・生徒予測一貫性を強制することにより、強化モデルを定式化し、ドメインシフトを低減する。
また,教師ネットワークと学生ネットワークのバックボーンとして,マルチステージ型マルチアテンション誘導拡張ネットワーク(MAGE-Net)を提案する。
mage-netでは,多段階強調モジュールと網膜構造保存モジュールを用いて,マルチスケール機能を段階的に統合するとともに,眼底画像の画質向上のための網膜構造保存を同時に行う。
実データと合成データの両方に関する包括的な実験は、我々のフレームワークがベースラインアプローチよりも優れていることを示す。
また,本手法は下流臨床にも有用である。 Deep learning based image enhancement models have largely improved the readability of fundus images in order to decrease the uncertainty of clinical observations and the risk of misdiagnosis. However, due to the difficulty of acquiring paired real fundus images at different qualities, most existing methods have to adopt synthetic image pairs as training data. The domain shift between the synthetic and the real images inevitably hinders the generalization of such models on clinical data. In this work, we propose an end-to-end optimized teacher-student framework to simultaneously conduct image enhancement and domain adaptation. The student network uses synthetic pairs for supervised enhancement, and regularizes the enhancement model to reduce domain-shift by enforcing teacher-student prediction consistency on the real fundus images without relying on enhanced ground-truth. Moreover, we also propose a novel multi-stage multi-attention guided enhancement network (MAGE-Net) as the backbones of our teacher and student network. Our MAGE-Net utilizes multi-stage enhancement module and retinal structure preservation module to progressively integrate the multi-scale features and simultaneously preserve the retinal structures for better fundus image quality enhancement. Comprehensive experiments on both real and synthetic datasets demonstrate that our framework outperforms the baseline approaches. Moreover, our method also benefits the downstream clinical tasks. | 翻訳日:2023-02-24 16:20:55 公開日:2023-02-23 |
# MADDPGにおけるGumbel-Softmaxの再検討 Revisiting the Gumbel-Softmax in MADDPG ( http://arxiv.org/abs/2302.11793v1 ) ライセンス: Link先を確認 | Callum Rhys Tilbury, Filippos Christianos, Stefano V. Albrecht | (参考訳) MADDPGはマルチエージェント強化学習(MARL)におけるアルゴリズムであり、一般的な単エージェント法であるDDPGをマルチエージェントシナリオに拡張する。
DDPGは、状態-作用値関数の勾配が存在する連続的な行動空間向けに設計されたアルゴリズムである。
このアルゴリズムが離散作用空間で動作するためには、離散勾配推定を行う必要がある。
maddpgでは、gumbel-softmax (gs) 推定器が使用されている -- 離散分布を同様の連続分布に緩和する再パラメータ化である。
しかし、この手法は統計的に偏りがあり、最近のMARLベンチマークでは、このバイアスにより、アクション空間が離散的なグリッドワールド環境でのMADDPGの性能が低下することが示唆されている。
幸いにもGSの代替品は数多く存在し、幅広い特性を誇っている。
本稿では,これらの選択肢のいくつかを探索し,離散グリッドワールドシナリオのためのMADDPGに統合する。
さまざまなパフォーマンス指標に対する対応する影響を計測して分析する。
提案した推定器の1つは、いくつかのタスクにおいて元のGSよりもはるかに優れた性能を示し、最大で55%高いリターンを達成し、より高速な収束を実現している。 MADDPG is an algorithm in multi-agent reinforcement learning (MARL) that extends the popular single-agent method, DDPG, to multi-agent scenarios. Importantly, DDPG is an algorithm designed for continuous action spaces, where the gradient of the state-action value function exists. For this algorithm to work in discrete action spaces, discrete gradient estimation must be performed. For MADDPG, the Gumbel-Softmax (GS) estimator is used -- a reparameterisation which relaxes a discrete distribution into a similar continuous one. This method, however, is statistically biased, and a recent MARL benchmarking paper suggests that this bias makes MADDPG perform poorly in grid-world situations, where the action space is discrete. Fortunately, many alternatives to the GS exist, boasting a wide range of properties. This paper explores several of these alternatives and integrates them into MADDPG for discrete grid-world scenarios. The corresponding impact on various performance metrics is then measured and analysed. It is found that one of the proposed estimators performs significantly better than the original GS in several tasks, achieving up to 55% higher returns, along with faster convergence. | 翻訳日:2023-02-24 16:20:34 公開日:2023-02-23 |
# 感情因遷移グラフによる共感応答生成 Empathetic Response Generation via Emotion Cause Transition Graph ( http://arxiv.org/abs/2302.11787v1 ) ライセンス: Link先を確認 | Yushan Qian, Bo Wang, Ting-En Lin, Yinhe Zheng, Ying Zhu, Dongming Zhao, Yuexian Hou, Yuchuan Wu, Yongbin Li | (参考訳) 共感的対話は、感情的要因(例えば、感情の状態)と認知的要因(例えば、感情の原因)の両方の知覚を必要とする人間のような行動である。
初期の作業における感情状態の他に,共感的対話における感情要因の研究も行われている。
これらのアプローチは、話者に対する共感を示すために、コンテキスト内の感情原因の理解と重複に焦点を当てている。
しかし、実際の共感的反応は、文脈的原因を繰り返すだけでなく、しばしば、文脈的原因から反応的要因への論理的かつ感情中心の遷移を示す。
本研究では,共感対話における2つのターン間の感情原因の自然な遷移を明示的にモデル化する感情原因遷移グラフを提案する。
このグラフでは、次のターンで起こる感情の概念語を、特定の概念認識デコーダによって予測し、使用することで、共感応答を生成することができる。
ベンチマークデータセットにおける自動的および人間的実験結果から,本手法は既存モデルよりも共感的,一貫性,情報的,特定の応答を産出することが示された。 Empathetic dialogue is a human-like behavior that requires the perception of both affective factors (e.g., emotion status) and cognitive factors (e.g., cause of the emotion). Besides concerning emotion status in early work, the latest approaches study emotion causes in empathetic dialogue. These approaches focus on understanding and duplicating emotion causes in the context to show empathy for the speaker. However, instead of only repeating the contextual causes, the real empathic response often demonstrate a logical and emotion-centered transition from the causes in the context to those in the responses. In this work, we propose an emotion cause transition graph to explicitly model the natural transition of emotion causes between two adjacent turns in empathetic dialogue. With this graph, the concept words of the emotion causes in the next turn can be predicted and used by a specifically designed concept-aware decoder to generate the empathic response. Automatic and human experimental results on the benchmark dataset demonstrate that our method produces more empathetic, coherent, informative, and specific responses than existing models. | 翻訳日:2023-02-24 16:20:14 公開日:2023-02-23 |
# 超軽量意味セグメンテーションのための因子化ピラミッド学習による効率的な文脈統合 Efficient Context Integration through Factorized Pyramidal Learning for Ultra-Lightweight Semantic Segmentation ( http://arxiv.org/abs/2302.11785v1 ) ライセンス: Link先を確認 | Nadeem Atif, Saquib Mazhar, Debajit Sarma, M. K. Bhuyan and Shaik Rafi Ahamed | (参考訳) セマンティックセグメンテーションは、入力画像の各ピクセルを分類するピクセルレベルの予測タスクである。
畳み込みニューラルネットワーク(CNN)のようなディープラーニングモデルは、この領域で優れたパフォーマンスを達成するために非常に成功した。
しかし,自動運転などのモバイルアプリケーションでは,画像ストリームのリアルタイム処理が要求される。
したがって、効率的なアーキテクチャの実現と精度の向上が最重要となる。
CNNの精度とモデルサイズは本質的に競合関係にあるため、精度とモデルサイズの間の適切なトレードオフを達成することが課題である。
そこで本稿では,豊かな文脈情報を効率的に集約する新しいfplモジュールを提案する。
一方、複数の拡張レートを持つ畳み込みフィルタのバンクを使用し、より正確な精度を達成するのに欠かせない、マルチスケールのコンテキストアグリゲーションをもたらす。
一方、パラメータは、採用フィルタの慎重な分解によって減少し、軽量モデルの実現に不可欠である。
さらに,空間ピラミッドを2段階に分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
また,入力画像のダウンサンプリング版を用いて,浅層・深部特徴の融合操作を行うために,FIR(Feature-Image Reinforcement)ユニットを設計した。
これにより、モデルパラメータを増加させずに精度が向上する。
fplモジュールとfirユニットに基づいて、最先端の精度と効率のトレードオフを実現する、fplnetと呼ばれる超軽量リアルタイムネットワークを提案する。
具体的には、0.5百万パラメータ未満で、Cityscapesの検証とテストセットで66.93\%と66.28\% mIoUを達成した。
さらに、FPLNetは処理速度が95.5フレーム/秒(FPS)である。 Semantic segmentation is a pixel-level prediction task to classify each pixel of the input image. Deep learning models, such as convolutional neural networks (CNNs), have been extremely successful in achieving excellent performances in this domain. However, mobile application, such as autonomous driving, demand real-time processing of incoming stream of images. Hence, achieving efficient architectures along with enhanced accuracy is of paramount importance. Since, accuracy and model size of CNNs are intrinsically contentious in nature, the challenge is to achieve a decent trade-off between accuracy and model size. To address this, we propose a novel Factorized Pyramidal Learning (FPL) module to aggregate rich contextual information in an efficient manner. On one hand, it uses a bank of convolutional filters with multiple dilation rates which leads to multi-scale context aggregation; crucial in achieving better accuracy. On the other hand, parameters are reduced by a careful factorization of the employed filters; crucial in achieving lightweight models. Moreover, we decompose the spatial pyramid into two stages which enables a simple and efficient feature fusion within the module to solve the notorious checkerboard effect. We also design a dedicated Feature-Image Reinforcement (FIR) unit to carry out the fusion operation of shallow and deep features with the downsampled versions of the input image. This gives an accuracy enhancement without increasing model parameters. Based on the FPL module and FIR unit, we propose an ultra-lightweight real-time network, called FPLNet, which achieves state-of-the-art accuracy-efficiency trade-off. More specifically, with only less than 0.5 million parameters, the proposed network achieves 66.93\% and 66.28\% mIoU on Cityscapes validation and test set, respectively. Moreover, FPLNet has a processing speed of 95.5 frames per second (FPS). | 翻訳日:2023-02-24 16:19:56 公開日:2023-02-23 |
# 量子因果モデルにおける反事実の意味論 A Semantics for Counterfactuals in Quantum Causal Models ( http://arxiv.org/abs/2302.11783v1 ) ライセンス: Link先を確認 | Ardra Kooderi Suresh, Markus Frembs, Eric G. Cavalcanti | (参考訳) 量子因果モデルの枠組みにおいて,真珠の古典的反事実形式論におけるアブダクション,行動,予測の3段階の手順を一般化することにより,反事実クエリの評価のための形式論を導入する。
この目的のために、我々はパールの「古典的構造因果モデル」の概念の適切な拡張を定義し、これは「量子構造因果モデル」と類似している。
古典的(確率的)構造的因果モデルは全て量子構造的因果モデルに拡張でき、古典的構造的因果モデル内で定式化できる反事実的クエリは量子拡張における対応するクエリと一致することを証明できるが、後者はより表現豊かである。
量子因果モデルにおける反事実は、異なる形式で現れる: 我々は、行動ステップで介入が実行されるかどうかによって、アクティブとパッシブの反事実クエリを区別する。
これは、反事実が常にアクティブな意味で解釈される古典的な場合とは対照的である。
この区別の結果、量子因果モデルが古典的な場合に存在する因果依存と反ファクト依存の関連を破り、(パッシブ)量子因果関係は因果依存を伴わずに反ファクト依存を許容する。
これは古典的因果モデルと量子因果モデルの間に重要な違いを生じさせ、後者は相対論的因果構造に忠実でありながらベルの不等式に反する量子相関を再現できるという事実を根底にある。 We introduce a formalism for the evaluation of counterfactual queries in the framework of quantum causal models, by generalising the three-step procedure of abduction, action, and prediction in Pearl's classical formalism of counterfactuals. To this end, we define a suitable extension of Pearl's notion of a "classical structural causal model", which we denote analogously by "quantum structural causal model". We show that every classical (probabilistic) structural causal model can be extended to a quantum structural causal model, and prove that counterfactual queries that can be formulated within a classical structural causal model agree with their corresponding queries in the quantum extension - but the latter is more expressive. Counterfactuals in quantum causal models come in different forms: we distinguish between active and passive counterfactual queries, depending on whether or not an intervention is to be performed in the action step. This is in contrast to the classical case, where counterfactuals are always interpreted in the active sense. As a consequence of this distinction, we observe that quantum causal models break the connection between causal and counterfactual dependence that exists in the classical case: (passive) quantum counterfactuals allow counterfactual dependence without causal dependence. This illuminates an important distinction between classical and quantum causal models, which underlies the fact that the latter can reproduce quantum correlations that violate Bell inequalities while being faithful to the relativistic causal structure. | 翻訳日:2023-02-24 16:19:30 公開日:2023-02-23 |
# 表データのための埋め込み:調査 Embeddings for Tabular Data: A Survey ( http://arxiv.org/abs/2302.11777v1 ) ライセンス: Link先を確認 | Rajat Singh, Srikanta Bedathur | (参考訳) 同じ列(属性)を持つ行(サンプル)からなるタブラルデータは、金融サービス、医療、研究、小売、物流など、様々な産業において最も広く使われているデータタイプの一つである。
テーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。
これらのテーブルに格納されたデータは、様々な決定を行うための重要な情報源となる。
計算能力とインターネット接続が増大するにつれて、これらの企業が蓄積するデータは指数関数的に増加し、データベースが大規模になり、保守と運用が困難になるだけでなく、データベースタスクの量も増加する。
このようにして、様々な学習手法を応用して、大規模で複雑なテーブルのための様々なデータベースタスクを支援する新しい研究ラインが始められた。
本研究では,表データ学習の課題を,古典的学習段階と現代的機械学習段階の2段階に分けた。
古典的学習段階は、svm、線形回帰およびロジスティック回帰、および木に基づく手法などのモデルで構成されている。
これらのモデルは小型のテーブルに適している。
しかしながら、これらのモデルが対応できるタスクの数は分類と回帰に限られる。
対照的に、Modern Machine Learning Phaseには、ディープラーニングを使用してテーブルエンティティの潜在空間表現を学習するモデルが含まれている。
本調査の目的は,構造化データの表現を学習するために実践者が用いる様々なアプローチを精査し,その効果を比較することである。 Tabular data comprising rows (samples) with the same set of columns (attributes, is one of the most widely used data-type among various industries, including financial services, health care, research, retail, and logistics, to name a few. Tables are becoming the natural way of storing data among various industries and academia. The data stored in these tables serve as an essential source of information for making various decisions. As computational power and internet connectivity increase, the data stored by these companies grow exponentially, and not only do the databases become vast and challenging to maintain and operate, but the quantity of database tasks also increases. Thus a new line of research work has been started, which applies various learning techniques to support various database tasks for such large and complex tables. In this work, we split the quest of learning on tabular data into two phases: The Classical Learning Phase and The Modern Machine Learning Phase. The classical learning phase consists of the models such as SVMs, linear and logistic regression, and tree-based methods. These models are best suited for small-size tables. However, the number of tasks these models can address is limited to classification and regression. In contrast, the Modern Machine Learning Phase contains models that use deep learning for learning latent space representation of table entities. The objective of this survey is to scrutinize the varied approaches used by practitioners to learn representation for the structured data, and to compare their efficacy. | 翻訳日:2023-02-24 16:19:02 公開日:2023-02-23 |
# データを見るな!
ディファレンシャルプライバシがデータサイエンスのプラクティスをどのように再構成するか Don't Look at the Data! How Differential Privacy Reconfigures the Practices of Data Science ( http://arxiv.org/abs/2302.11775v1 ) ライセンス: Link先を確認 | Jayshree Sarathy, Sophia Song, Audrey Haque, Tania Schlatter, Salil Vadhan | (参考訳) 学術、政府、業界全体において、データスチュワードは、データ対象のプライバシーを保護しながら、研究者がデータセットをよりオープンにアクセスできるようにするための圧力に直面している。
差分プライバシー(DP)は、オープンアクセスとともにプライバシーを提供する有望な方法のひとつだが、DPとデータサイエンスの緊張関係についてさらなる調査が必要である。
本研究では,dpデータ解析のプロトタイプを用いて,機密データに関するプライバシ保護統計を公表し,dpの利用に関する認識や課題,機会を理解するために,非専門家である19人のデータ実践者との面接を行った。
DPはセンシティブなデータセットに広範なアクセスを提供することを約束していますが、データサイエンスワークフローのすべてのステージに課題を導入しています。
我々は、データ科学者を新たなプライバシー制約に関連付ける際に生じる倫理とガバナンスの問題を特定し、DPとデータサイエンスをよりうまく統合するように提案する。 Across academia, government, and industry, data stewards are facing increasing pressure to make datasets more openly accessible for researchers while also protecting the privacy of data subjects. Differential privacy (DP) is one promising way to offer privacy along with open access, but further inquiry is needed into the tensions between DP and data science. In this study, we conduct interviews with 19 data practitioners who are non-experts in DP as they use a DP data analysis prototype to release privacy-preserving statistics about sensitive data, in order to understand perceptions, challenges, and opportunities around using DP. We find that while DP is promising for providing wider access to sensitive datasets, it also introduces challenges into every stage of the data science workflow. We identify ethics and governance questions that arise when socializing data scientists around new privacy constraints and offer suggestions to better integrate DP and data science. | 翻訳日:2023-02-24 16:18:39 公開日:2023-02-23 |
# 意味融合階層グラフ転送学習による都市間交通予測 Cross-City Traffic Prediction via Semantic-Fused Hierarchical Graph Transfer Learning ( http://arxiv.org/abs/2302.11774v1 ) ライセンス: Link先を確認 | Kehua Chen, Jindong Han, Siyuan Feng, Hai Yang | (参考訳) 正確な交通予測は都市管理に役立ち、交通効率を向上させる。
近年,データ駆動手法はトラヒック予測や従来の手法よりも優れている。
しかし、データ駆動方式は通常、トレーニングのために大量のデータを必要とするが、データ不足は低開発地域や新しく構築された地域ではユビキタスである。
この問題に取り組むために、トランスファーラーニングを通じて、データ豊富な都市からデータ収集都市へメタ知識を抽出できる。
さらに、都市地域間の関係は、例えば近接性やPOI類似性など、様々な意味グラフにまとめることができる。
本稿では,意味論的に融合した階層的グラフ転送学習(sf-hgtl)モデルを提案する。
詳細は階層的なグラフ変換とメタ知識検索を用いて,様々な粒度の知識伝達を実現する。
さらに,メタセマンティクスノードを導入し,パラメータの数を減らし,セマンティクス間で情報を共有する。
その後、ベースモデルのパラメータは、タスクの不均一性の観点からトラフィック状態を予測するために融合セマンティック埋め込みによって生成される。
実世界の5つのデータセットで実験を行い、他のベースラインと比較することにより、SF-HGTLモデルの有効性を検証する。 Accurate traffic prediction benefits urban management and improves transportation efficiency. Recently, data-driven methods have been widely applied in traffic prediction and outperformed traditional methods. However, data-driven methods normally require massive data for training, while data scarcity is ubiquitous in low-developmental or newly constructed regions. To tackle this problem, we can extract meta knowledge from data-rich cities to data-scarce cities via transfer learning. Besides, relations among urban regions can be organized into various semantic graphs, e.g. proximity and POI similarity, which is barely considered in previous studies. In this paper, we propose Semantic-Fused Hierarchical Graph Transfer Learning (SF-HGTL) model to achieve knowledge transfer across cities with fused semantics. In detail, we employ hierarchical graph transformation followed by meta-knowledge retrieval to achieve knowledge transfer in various granularity. In addition, we introduce meta semantic nodes to reduce the number of parameters as well as share information across semantics. Afterwards, the parameters of the base model are generated by fused semantic embeddings to predict traffic status in terms of task heterogeneity. We implement experiments on five real-world datasets and verify the effectiveness of our SF-HGTL model by comparing it with other baselines. | 翻訳日:2023-02-24 16:18:20 公開日:2023-02-23 |
# FedIL: 収束分析による分散化未ラベルデータからのフェデレーションインクリメンタルラーニング FedIL: Federated Incremental Learning from Decentralized Unlabeled Data with Convergence Analysis ( http://arxiv.org/abs/2302.11823v1 ) ライセンス: Link先を確認 | Nan Yang, Dong Yuan, Charles Z Liu, Yongkun Deng and Wei Bao | (参考訳) 既存のフェデレーション学習手法の多くは、クライアントがトレーニングを行うための完全なラベル付きデータを持っていると仮定しているが、実際には、ユーザのプライバシの懸念、ラベル付けコストの上昇、専門知識の欠如などにより、クライアントがタスク固有のラベルを取得することは困難である。
この研究は、サーバを小さなラベル付きデータセットで検討し、ラベルなしデータを複数のクライアントで半教師付き学習に使用することを意図している。
本稿では,FedIL(Federated Incremental Learning)という一般化モデルを用いた新しいフレームワークを提案し,FedIL(Federated Acremental Learning)のシナリオにおいて,サーバ内のラベル付きデータとクライアント内のラベルなしデータをどのように利用するかという問題に対処する。
FedILはIterative similarity Fusionを使用して、未ラベルデータの予測にサーバ-クライアントの一貫性を強制し、インクリメンタルな信頼を使って各クライアントに信頼できる擬似ラベルセットを確立する。
我々は、FedILが正規化とコサイン類似によりモデル収束を加速することを示し、Banach Fixed Point Theoremによって証明された。
コードはhttps://anonymous.4open.science/r/fedilで入手できる。 Most existing federated learning methods assume that clients have fully labeled data to train on, while in reality, it is hard for the clients to get task-specific labels due to users' privacy concerns, high labeling costs, or lack of expertise. This work considers the server with a small labeled dataset and intends to use unlabeled data in multiple clients for semi-supervised learning. We propose a new framework with a generalized model, Federated Incremental Learning (FedIL), to address the problem of how to utilize labeled data in the server and unlabeled data in clients separately in the scenario of Federated Learning (FL). FedIL uses the Iterative Similarity Fusion to enforce the server-client consistency on the predictions of unlabeled data and uses incremental confidence to establish a credible pseudo-label set in each client. We show that FedIL will accelerate model convergence by Cosine Similarity with normalization, proved by Banach Fixed Point Theorem. The code is available at https://anonymous.4open.science/r/fedil. | 翻訳日:2023-02-24 16:12:28 公開日:2023-02-23 |
# EfficientFace: 正確な顔検出のための特徴強調機能付き効率的なディープネットワーク EfficientFace: An Efficient Deep Network with Feature Enhancement for Accurate Face Detection ( http://arxiv.org/abs/2302.11816v1 ) ライセンス: Link先を確認 | Guangtao Wang, Jun Li, Zhijian Wu, Jianhua Xu, Jifeng Shen and Wankou Yang | (参考訳) 近年,深層畳み込みニューラルネットワーク(cnn)による顔検出が著しく進んでいる。
特に、軽量CNNベースのアーキテクチャは、リアルタイム検出作業を容易にする低複雑さ構造のため、大きな成功を収めている。
しかし、現在の軽量cnnベースの顔検出装置では、効率性が不十分な特徴表現、不均衡なアスペクト比と咬合を持つ顔を扱う能力が不十分である。
その結果, 深部重度検出器の後方での遅延特性が低下した。
本研究は,精度を犠牲にすることなく効率的な顔検出を実現するため,機能強化のための3つのモジュールを含む効率的な深部顔検出器を考案する。
まず,低レベルの特徴と高レベルの特徴を融合させることにより,ボトムアップ情報伝達を容易にする新しいクロススケール機能融合戦略を設計する。
さらに、これは顔の位置を推定し、顔の特徴の記述力を高めるためにも役立ちます。
第2に,様々なアスペクト比の顔を考慮した受容場拡張モジュールを提案する。
第3に,隠蔽顔の表現能力を向上させるためのアテンションメカニズムモジュールを追加する。
提案手法は,4つのベンチマークで効率性を評価し,その有効性を実験的に実証した。
特に,本モデルはそれぞれ95.1% (イージー),94.0% (medium) および90.1% (hard) を達成し,最先端のmogface検出器の計算コストはわずか1/15のヘビーウェイトモデルと競合している。 In recent years, deep convolutional neural networks (CNN) have significantly advanced face detection. In particular, lightweight CNNbased architectures have achieved great success due to their lowcomplexity structure facilitating real-time detection tasks. However, current lightweight CNN-based face detectors trading accuracy for efficiency have inadequate capability in handling insufficient feature representation, faces with unbalanced aspect ratios and occlusion. Consequently, they exhibit deteriorated performance far lagging behind the deep heavy detectors. To achieve efficient face detection without sacrificing accuracy, we design an efficient deep face detector termed EfficientFace in this study, which contains three modules for feature enhancement. To begin with, we design a novel cross-scale feature fusion strategy to facilitate bottom-up information propagation, such that fusing low-level and highlevel features is further strengthened. Besides, this is conducive to estimating the locations of faces and enhancing the descriptive power of face features. Secondly, we introduce a Receptive Field Enhancement module to consider faces with various aspect ratios. Thirdly, we add an Attention Mechanism module for improving the representational capability of occluded faces. We have evaluated EfficientFace on four public benchmarks and experimental results demonstrate the appealing performance of our method. In particular, our model respectively achieves 95.1% (Easy), 94.0% (Medium) and 90.1% (Hard) on validation set of WIDER Face dataset, which is competitive with heavyweight models with only 1/15 computational costs of the state-of-the-art MogFace detector. | 翻訳日:2023-02-24 16:12:05 公開日:2023-02-23 |
# FTM:時間グラフ表現学習のためのフレームレベルタイムラインモデリング手法 FTM: A Frame-level Timeline Modeling Method for Temporal Graph Representation Learning ( http://arxiv.org/abs/2302.11814v1 ) ライセンス: Link先を確認 | Bowen Cao, Qichen Ye, Weiyuan Xu, Yuexian Zou | (参考訳) グラフ構造化データの学習表現は、グラフ分析タスクに不可欠である。
静的グラフでは顕著な進歩がなされているが、時相グラフの研究はまだ初期段階にある。
時間的グラフ表現学習アプローチのボトルネックは、グラフ属性が情報を共有し、明示的に収集する近傍集約戦略である。
既存の近傍集約戦略では、短期的特徴と時間的グラフ属性の長期的特徴のいずれも捉えられず、不十分なモデル性能や、表現学習法の頑健さやドメイン一般性さえも生ずる。
そこで本研究では,短期的特徴と長期的特徴の両方を捉えるのに役立つフレームレベルタイムラインモデリング(ftm)手法を提案する。
特に,短期的特徴を保存し,長期的特徴としてグラフ進化の固有ダイナミクスを捉えるためにタイムライン集約モジュールを組み込んだ新しいリンクベースフレーミング手法を提案する。
我々の手法は、ほとんどの時間的GNNで簡単に組み立てることができる。
共通データセットに対する大規模な実験により、下流タスクにおけるバックボーンメソッドの能力、堅牢性、およびドメインの汎用性に大きな改善がもたらされた。
私たちのコードはhttps://github.com/yeeeqichen/FTM.orgで参照できます。 Learning representations for graph-structured data is essential for graph analytical tasks. While remarkable progress has been made on static graphs, researches on temporal graphs are still in its beginning stage. The bottleneck of the temporal graph representation learning approach is the neighborhood aggregation strategy, based on which graph attributes share and gather information explicitly. Existing neighborhood aggregation strategies fail to capture either the short-term features or the long-term features of temporal graph attributes, leading to unsatisfactory model performance and even poor robustness and domain generality of the representation learning method. To address this problem, we propose a Frame-level Timeline Modeling (FTM) method that helps to capture both short-term and long-term features and thus learns more informative representations on temporal graphs. In particular, we present a novel link-based framing technique to preserve the short-term features and then incorporate a timeline aggregator module to capture the intrinsic dynamics of graph evolution as long-term features. Our method can be easily assembled with most temporal GNNs. Extensive experiments on common datasets show that our method brings great improvements to the capability, robustness, and domain generality of backbone methods in downstream tasks. Our code can be found at https://github.com/yeeeqichen/FTM. | 翻訳日:2023-02-24 16:11:36 公開日:2023-02-23 |
# Deep OC-SORT:Adaptive Re-Identificationによる多歩行者追跡 Deep OC-SORT: Multi-Pedestrian Tracking by Adaptive Re-Identification ( http://arxiv.org/abs/2302.11813v1 ) ライセンス: Link先を確認 | Gerard Maggiolino, Adnan Ahmad, Jinkun Cao, Kris Kitani | (参考訳) 動きに基づくMOT(Motion-based association for Multi-Object Tracking)は、最近、強力な物体検出装置の台頭とともに、再び注目されている。
それにもかかわらず、機能劣化に対するロバスト性に欠ける単純なヒューリスティックモデルを超えて外観を取り入れる作業はほとんど行われていない。
本稿では,既存の高性能モーションベース手法にオブジェクトの外観を適応的に統合する新しい手法を提案する。
純粋な動きに基づくOC-SORT法に基づいて, 63.9 HOTAと64.9 HOTAのMOT17でMOT20と2位となる。
また,難易度の高いdancetrackベンチマークにおいて,より厳密に設計された手法と比較しても61.3hotaを達成した。
コードとモデルは \url{https://github.com/GerardMaggiolino/Deep-OC-SORT} で公開されている。 Motion-based association for Multi-Object Tracking (MOT) has recently re-achieved prominence with the rise of powerful object detectors. Despite this, little work has been done to incorporate appearance cues beyond simple heuristic models that lack robustness to feature degradation. In this paper, we propose a novel way to leverage objects' appearances to adaptively integrate appearance matching into existing high-performance motion-based methods. Building upon the pure motion-based method OC-SORT, we achieve 1st place on MOT20 and 2nd place on MOT17 with 63.9 and 64.9 HOTA, respectively. We also achieve 61.3 HOTA on the challenging DanceTrack benchmark as a new state-of-the-art even compared to more heavily-designed methods. The code and models are available at \url{https://github.com/GerardMaggiolino/Deep-OC-SORT}. | 翻訳日:2023-02-24 16:11:16 公開日:2023-02-23 |
# 教師の介入:超高精度変圧器の量子化意識訓練の収束性向上 Teacher Intervention: Improving Convergence of Quantization Aware Training for Ultra-Low Precision Transformers ( http://arxiv.org/abs/2302.11812v1 ) ライセンス: Link先を確認 | Minsoo Kim, Kyuhong Shim, Seongmin Park, Wonyong Sung, Jungwook Choi | (参考訳) BERTのような事前訓練されたトランスフォーマーモデルは、幅広いアプリケーションで大きな成功を収めてきたが、モデルの複雑さが大幅に増大した。
量子化対応トレーニング(QAT)は、実装コストとエネルギー消費を減らすための有望な方法である。
しかし、2ビット以下のアグレッシブな量子化は、特に下流データセットが豊富でない場合、不安定な収束による相当な精度の低下を引き起こす。
本研究は,超高精度事前学習型変圧器の高速収束QATのための,TI(Teacher Intervention)と呼ばれる能動的知識蒸留法を提案する。
TIは教師からの無傷信号と階層的信号伝達を介し、伝播量子化誤差の干渉を除去し、QATの損失面を平滑化し、収束を早める。
さらに, 量子化からの変圧器層部分の復元を安定化するための段階的介入機構を提案する。
提案手法は,下流微調整タスクの多様な特性にかかわらず,QATの高速収束とモデル精度の向上を可能にする。
TIは、自然言語処理の精巧な変換とコンピュータビジョンを、最先端のQAT手法と比較して大幅に低減し、優れた精度を実現していることを示す。 Pre-trained Transformer models such as BERT have shown great success in a wide range of applications, but at the cost of substantial increases in model complexity. Quantization-aware training (QAT) is a promising method to lower the implementation cost and energy consumption. However, aggressive quantization below 2-bit causes considerable accuracy degradation due to unstable convergence, especially when the downstream dataset is not abundant. This work proposes a proactive knowledge distillation method called Teacher Intervention (TI) for fast converging QAT of ultra-low precision pre-trained Transformers. TI intervenes layer-wise signal propagation with the intact signal from the teacher to remove the interference of propagated quantization errors, smoothing loss surface of QAT and expediting the convergence. Furthermore, we propose a gradual intervention mechanism to stabilize the recovery of subsections of Transformer layers from quantization. The proposed schemes enable fast convergence of QAT and improve the model accuracy regardless of the diverse characteristics of downstream fine-tuning tasks. We demonstrate that TI consistently achieves superior accuracy with significantly lower fine-tuning iterations on well-known Transformers of natural language processing as well as computer vision compared to the state-of-the-art QAT methods. | 翻訳日:2023-02-24 16:10:59 公開日:2023-02-23 |
# 新しい効率的なマルチビュートラヒック関連オブジェクト検出フレームワーク A novel efficient Multi-view traffic-related object detection framework ( http://arxiv.org/abs/2302.11810v1 ) ライセンス: Link先を確認 | Kun Yang, Jing Liu, Dingkang Yang, Hanqi Wang, Peng Sun, Yanni Zhang, Yan Liu, Liang Song | (参考訳) インテリジェントな交通システムアプリケーションの開発が急速に進み、車両の知覚を高めるために大量の多視点ビデオデータが出現した。
しかし,映像データから空間的時間的冗長性を生かして映像分析を効率的に行うことは課題である。
そこで我々は,多視点ビデオデータを用いた効率的な物体検出を実現するために,CEVASという新しいトラフィック関連フレームワークを提案する。
簡単に言うと、キャプチャされた画像から適切な関心領域を生成するために、きめ細かい入力フィルタリングポリシーを導入する。
また,オブジェクトの情報を空間的冗長性で管理する共有オブジェクトマネージャを設計し,その結果を他の車両と共有する。
さらに,コンテンツ認識モデル選択ポリシーを導出し,検出手法を適応的に選択する。
実験の結果,本フレームワークは,最先端手法と同じ検出精度を達成しつつ,応答遅延を著しく低減することがわかった。 With the rapid development of intelligent transportation system applications, a tremendous amount of multi-view video data has emerged to enhance vehicle perception. However, performing video analytics efficiently by exploiting the spatial-temporal redundancy from video data remains challenging. Accordingly, we propose a novel traffic-related framework named CEVAS to achieve efficient object detection using multi-view video data. Briefly, a fine-grained input filtering policy is introduced to produce a reasonable region of interest from the captured images. Also, we design a sharing object manager to manage the information of objects with spatial redundancy and share their results with other vehicles. We further derive a content-aware model selection policy to select detection methods adaptively. Experimental results show that our framework significantly reduces response latency while achieving the same detection accuracy as the state-of-the-art methods. | 翻訳日:2023-02-24 16:10:40 公開日:2023-02-23 |
# PLU-Net:マルチスケール特徴融合の抽出 PLU-Net: Extraction of multi-scale feature fusion ( http://arxiv.org/abs/2302.11806v1 ) ライセンス: Link先を確認 | Weihu Song | (参考訳) 深層学習アルゴリズムは近年,医療画像分割において顕著な成果を上げている。
これらのネットワークは、画像境界や細部を膨大なパラメータで扱えないため、セグメンテーションの結果は不十分である。
この問題に対処するために、アラス空間ピラミッドプーリング(ASPP)を開発し、それをSqueeze-and-Excitation block(SEブロック)と組み合わせ、ネットワークの下部に広範かつマルチスケールの受容場を用いてより詳細な意味情報を得るPSモジュールを提示する。
また、ローカルガイドブロック(LGブロック)とSEブロックの組み合わせによりLSブロックを形成し、特徴マップのより豊富なローカル特徴を得られるようにし、各ダウンサンプリングプロセスにより多くのエッジ情報を保持できるようにし、境界セグメンテーションの性能を向上させる。
我々はPLU-Netを提案し、PSモジュールとLSブロックをU-Netに統合する。
我々はPLU-Netを3つのベンチマークデータセットでテストし、その結果より少ないパラメータとFLOPで、医学的セマンティックセグメンテーションタスクよりも優れていることを示した。 Deep learning algorithms have achieved remarkable results in medical image segmentation in recent years. These networks are unable to handle with image boundaries and details with enormous parameters, resulting in poor segmentation results. To address the issue, we develop atrous spatial pyramid pooling (ASPP) and combine it with the Squeeze-and-Excitation block (SE block), as well as present the PS module, which employs a broader and multi-scale receptive field at the network's bottom to obtain more detailed semantic information. We also propose the Local Guided block (LG block) and also its combination with the SE block to form the LS block, which can obtain more abundant local features in the feature map, so that more edge information can be retained in each down sampling process, thereby improving the performance of boundary segmentation. We propose PLU-Net and integrate our PS module and LS block into U-Net. We put our PLU-Net to the test on three benchmark datasets, and the results show that by fewer parameters and FLOPs, it outperforms on medical semantic segmentation tasks. | 翻訳日:2023-02-24 16:10:25 公開日:2023-02-23 |
# ソースフリードメイン適応に関する包括的調査 A Comprehensive Survey on Source-free Domain Adaptation ( http://arxiv.org/abs/2302.11803v1 ) ライセンス: Link先を確認 | Zhiqi Yu, Jingjing Li, Zhekai Du, Lei Zhu, Heng Tao Shen | (参考訳) 過去10年間で、ドメイン適応は、ソースドメインからの知識を活用することで、ターゲットドメインのパフォーマンス向上を目的とした、転送学習の分野として広く研究されている。
従来のドメイン適応手法では、ソースデータとターゲットドメインデータの両方へのアクセスを同時に想定することが多いが、プライバシと機密性の懸念のため、現実のシナリオでは不可能である。
その結果、近年、ソースフリードメイン適応(sfda)の研究が注目を集めており、ソーストレーニングモデルとラベルなしターゲットデータのみを使用してターゲットドメインに適応している。
SFDAの研究が急速に爆発したにもかかわらず、この分野ではタイムリーで包括的な調査は行われていない。
このギャップを埋めるために,sfdaの最近の進歩を包括的に調査し,転送学習の枠組みに基づいた統一的な分類体系に整理する。
それぞれの手法を独立に提示する代わりに、各手法のいくつかのコンポーネントをモジュール化し、それぞれの手法の合成特性からそれらの関係と力学をより明確に記述する。
さらに,Office-31,Office-Home,VisDAの3つの評価基準を用いた30以上のSFDA法の結果を比較し,各種技術経路の有効性とそれらの組み合わせ効果について検討した。
さらに,SFDAおよび関連分野の応用について紹介する。
sfdaが直面する課題の分析から、今後の研究の方向性と潜在的な設定に関する洞察を提供する。 Over the past decade, domain adaptation has become a widely studied branch of transfer learning that aims to improve performance on target domains by leveraging knowledge from the source domain. Conventional domain adaptation methods often assume access to both source and target domain data simultaneously, which may not be feasible in real-world scenarios due to privacy and confidentiality concerns. As a result, the research of Source-Free Domain Adaptation (SFDA) has drawn growing attention in recent years, which only utilizes the source-trained model and unlabeled target data to adapt to the target domain. Despite the rapid explosion of SFDA work, yet there has no timely and comprehensive survey in the field. To fill this gap, we provide a comprehensive survey of recent advances in SFDA and organize them into a unified categorization scheme based on the framework of transfer learning. Instead of presenting each approach independently, we modularize several components of each method to more clearly illustrate their relationships and mechanics in light of the composite properties of each method. Furthermore, we compare the results of more than 30 representative SFDA methods on three popular classification benchmarks, namely Office-31, Office-home, and VisDA, to explore the effectiveness of various technical routes and the combination effects among them. Additionally, we briefly introduce the applications of SFDA and related fields. Drawing from our analysis of the challenges facing SFDA, we offer some insights into future research directions and potential settings. | 翻訳日:2023-02-24 16:10:04 公開日:2023-02-23 |
# 医用画像分割のためのパッチネットワーク Patch Network for medical image Segmentation ( http://arxiv.org/abs/2302.11802v1 ) ライセンス: Link先を確認 | Weihu Song and Heng Yu and Jianhua Wu | (参考訳) 医療画像の正確かつ高速な分割は臨床的に不可欠であるが、現在の研究方法には、高速な推論速度を持つ畳み込みニューラルネットワークや、画像文脈特徴の学習が困難であるトランスフォーマなどがある。
本稿では,swainトランスフォーマーの概念を畳み込みニューラルネットワークに組み込んだパッチネットワーク(pnet)を提案する。
polyp(cvc-clinicdbおよびetis-laribpolypdb)、skin(isic-2018 skin lesion segmentation challenge dataset)セグメンテーションデータセット上でpnetをテストした。
我々のPNetは、速度と精度の両方でSOTA性能を達成する。 Accurate and fast segmentation of medical images is clinically essential, yet current research methods include convolutional neural networks with fast inference speed but difficulty in learning image contextual features, and transformer with good performance but high hardware requirements. In this paper, we present a Patch Network (PNet) that incorporates the Swin Transformer notion into a convolutional neural network, allowing it to gather richer contextual information while achieving the balance of speed and accuracy. We test our PNet on Polyp(CVC-ClinicDB and ETIS- LaribPolypDB), Skin(ISIC-2018 Skin lesion segmentation challenge dataset) segmentation datasets. Our PNet achieves SOTA performance in both speed and accuracy. | 翻訳日:2023-02-24 16:09:40 公開日:2023-02-23 |
# 多部量子XORゲームにおける量子絡み合いのパワーについて On the power of quantum entanglement in multipartite quantum XOR games ( http://arxiv.org/abs/2302.11800v1 ) ライセンス: Link先を確認 | Marius Junge, Carlos Palazuelos | (参考訳) この論文では、$k\geq 3$とすると、プレイヤーが分離可能な戦略に制限されたときに、絡み合ったバイアスがゲームのバイアスよりも任意に大きいような$k$-player quantum XORゲームが存在することを示す。
特に量子の絡み合いは、これらのゲームをプレイするためのローカル操作や古典的なコミュニケーションよりもはるかに強力なリソースである。
この結果は、直交バイアスが常に一方向古典的コミュニケーションバイアスの普遍定数倍で上界であることが最近証明されたバイパルタイトの場合と強く対照的である。 In this paper we show that, given $k\geq 3$, there exist $k$-player quantum XOR games for which the entangled bias can be arbitrarily larger than the bias of the game when the players are restricted to separable strategies. In particular, quantum entanglement can be a much more powerful resource than local operations and classical communication to play these games. This result shows a strong contrast to the bipartite case, where it was recently proved that the entangled bias is always upper bounded by a universal constant times the one-way classical communication bias. | 翻訳日:2023-02-24 16:09:26 公開日:2023-02-23 |
# 物体のダイナミクスと相互作用の分離による物体中心映像の予測 Object-Centric Video Prediction via Decoupling of Object Dynamics and Interactions ( http://arxiv.org/abs/2302.11850v1 ) ライセンス: Link先を確認 | Angel Villar-Corrales, Ismail Wahdan and Sven Behnke | (参考訳) 本研究では,映像系列の合成構造を抽出し,オブジェクトの動的・相互作用を視覚的観察からモデル化し,将来の映像状態を予測し,その後の映像フレームを生成するという,オブジェクト中心の映像予測作業のための新しい枠組みを提案する。
有意義な時空間的対象表現を学習し、オブジェクトの状態を正確に予測することを目的として、時空間ダイナミクスとオブジェクトインタラクションの処理を分離し、予測性能を向上させる2つの新しいオブジェクト中心ビデオ予測モジュールを提案する。
実験では、OCVP予測器を用いたオブジェクト中心予測フレームワークが、一貫性と正確なオブジェクト表現を維持しながら、2つの異なるデータセット上でオブジェクト非依存のビデオ予測モデルより優れていることを示す。 We propose a novel framework for the task of object-centric video prediction, i.e., extracting the compositional structure of a video sequence, as well as modeling objects dynamics and interactions from visual observations in order to predict the future object states, from which we can then generate subsequent video frames. With the goal of learning meaningful spatio-temporal object representations and accurately forecasting object states, we propose two novel object-centric video predictor (OCVP) transformer modules, which decouple the processing of temporal dynamics and object interactions, thus presenting an improved prediction performance. In our experiments, we show how our object-centric prediction framework utilizing our OCVP predictors outperforms object-agnostic video prediction models on two different datasets, while maintaining consistent and accurate object representations. | 翻訳日:2023-02-24 16:03:21 公開日:2023-02-23 |
# 文書接地ダイアログに対する粗大な知識選択 Coarse-to-Fine Knowledge Selection for Document Grounded Dialogs ( http://arxiv.org/abs/2302.11849v1 ) ライセンス: Link先を確認 | Yeqin Zhang, Haomin Fu, Cheng Fu, Haiyang Yu, Yongbin Li, Cam-Tu Nguyen | (参考訳) 多文書接地対話システム(英: multi-document grounded dialogue systems、dgds)は、ユーザの要求に応える対話エージェントのクラスである。
これまでの研究は、知識検索モデルの改善や、外部知識をパラメトリック生成モデルに統合するより効果的な方法を提案することを目的としている。
しかし、これらの手法は単粒度言語単位(例えば、文、文書のスパンなど)から知識を取得することに重点を置いており、長文の正確な知識を効果的かつ効率的に取得するには不十分である。
本稿では,粗粒度知識検索と細粒度知識抽出の両方を統一フレームワークで最適化することを目的としたre3gを提案する。
特に、前者は検索・検索プロセスにおいて、関連する通路を効率的に発見し、後者は、その通路内の細粒度スパンを効果的に抽出し、パラメトリック回答生成モデル(bart,t5)に組み込む。
DialDoc共有タスクの実験は,本手法の有効性を示す。 Multi-document grounded dialogue systems (DGDS) belong to a class of conversational agents that answer users' requests by finding supporting knowledge from a collection of documents. Most previous studies aim to improve the knowledge retrieval model or propose more effective ways to incorporate external knowledge into a parametric generation model. These methods, however, focus on retrieving knowledge from mono-granularity language units (e.g. passages, sentences, or spans in documents), which is not enough to effectively and efficiently capture precise knowledge in long documents. This paper proposes Re3G, which aims to optimize both coarse-grained knowledge retrieval and fine-grained knowledge extraction in a unified framework. Specifically, the former efficiently finds relevant passages in a retrieval-and-reranking process, whereas the latter effectively extracts finer-grain spans within those passages to incorporate into a parametric answer generation model (BART, T5). Experiments on DialDoc Shared Task demonstrate the effectiveness of our method. | 翻訳日:2023-02-24 16:03:07 公開日:2023-02-23 |
# StudyFormer : X線画像のための注意に基づく動的マルチビュー分類器 StudyFormer : Attention-Based and Dynamic Multi View Classifier for X-ray images ( http://arxiv.org/abs/2302.11840v1 ) ライセンス: Link先を確認 | Lucas Wannenmacher, Michael Fitzke, Diane Wilson, Andre Dourson | (参考訳) 胸部X線画像は診断に一般的に使われており、これらの画像の解釈を支援するためにAIモデルが開発されている。
しかしながら、これらのモデルの多くはX線の1つのビューからの情報に依存しており、複数のビューが利用可能である可能性がある。
本研究では,複数の視点からの情報を組み合わせて,X線画像分類の性能を向上させる手法を提案する。
我々のアプローチは、各ビューから特徴マップを抽出するために畳み込みニューラルネットワークを使用し、次にビジョントランスフォーマーを用いて実装されたアテンションメカニズムを用いる。
得られたモデルは41のラベルでマルチラベルの分類を実行でき、シングルビューモデルと従来のマルチビューの分類アーキテクチャの両方より優れている。
提案手法の有効性を,363,000枚のX線画像を用いた実験により実証した。 Chest X-ray images are commonly used in medical diagnosis, and AI models have been developed to assist with the interpretation of these images. However, many of these models rely on information from a single view of the X-ray, while multiple views may be available. In this work, we propose a novel approach for combining information from multiple views to improve the performance of X-ray image classification. Our approach is based on the use of a convolutional neural network to extract feature maps from each view, followed by an attention mechanism implemented using a Vision Transformer. The resulting model is able to perform multi-label classification on 41 labels and outperforms both single-view models and traditional multi-view classification architectures. We demonstrate the effectiveness of our approach through experiments on a dataset of 363,000 X-ray images. | 翻訳日:2023-02-24 16:02:49 公開日:2023-02-23 |
# シャープネスを意識した最小化:必然的正規化の視点 Sharpness-Aware Minimization: An Implicit Regularization Perspective ( http://arxiv.org/abs/2302.11836v1 ) ライセンス: Link先を確認 | Kayhan Behdin, Rahul Mazumder | (参考訳) Sharpness-Aware Minimization (SAM)は、フラットな(よりシャープでない)ソリューションを得ることによって、ディープニューラルネットワークの一般化を改善することを目的とした、最近の最適化フレームワークである。
SAMは数値的に成功したため、最近の論文ではフレームワークの理論的側面について研究されている。
本研究では,暗黙の正則化レンズを用いてSAMを研究し,SAMが一般化する理由を理論的に説明する。
そこで本研究では,最小二乗線形回帰問題の検討を行い,アルゴリズムの過程でsam誤差に対するバイアス分散トレードオフを示す。
SAMの偏差はGD (Gradient Descent) に比べて低かったが, ばらつきは大きかった。
これはSAMがGDより優れていることを示しているが、特にアルゴリズムが 'emph{stopped early} である場合、これはしばしば、計算コストの禁止による大規模なニューラルネットワークのトレーニングにおいてである。
結果はカーネル回帰や確率最適化に拡張し,バニラトレーニングにおいてsamの暗黙的正規化がいかに改善できるかを議論した。 Sharpness-Aware Minimization (SAM) is a recent optimization framework aiming to improve the deep neural network generalization, through obtaining flatter (i.e. less sharp) solutions. As SAM has been numerically successful, recent papers have studied the theoretical aspects of the framework. In this work, we study SAM through an implicit regularization lens, and present a new theoretical explanation of why SAM generalizes well. To this end, we study the least-squares linear regression problem and show a bias-variance trade-off for SAM's error over the course of the algorithm. We show SAM has lower bias compared to Gradient Descent (GD), while having higher variance. This shows SAM can outperform GD, specially if the algorithm is \emph{stopped early}, which is often the case when training large neural networks due to the prohibitive computational cost. We extend our results to kernel regression, as well as stochastic optimization and discuss how implicit regularization of SAM can improve upon vanilla training. | 翻訳日:2023-02-24 16:02:35 公開日:2023-02-23 |
# 経済abmの校正における性能向上のための探索戦略の組み合わせ Combining search strategies to improve performance in the calibration of economic ABMs ( http://arxiv.org/abs/2302.11835v1 ) ライセンス: Link先を確認 | Aldo Glielmo, Marco Favorito, Debmallya Chanda and Domenico Delli Gatti | (参考訳) 経済学と金融学におけるエージェントベースモデル(ABM)の校正は通常、非常に大きなパラメータ空間における微分自由探索を伴う。
本研究では、実データ上でよく知られたマクロ経済ABMの校正における多くの探索手法をベンチマークし、異なる手法を組み合わせた「混合戦略」の性能を更に評価する。
ランダム・フォレスト・サロゲートに基づく手法は特に効率的であり, 探索手法の組み合わせは, 一つの手法のバイアスが軽減されるため, 一般に性能が向上することがわかった。
これらの観察から,キャリブレーション実行中の探索手法を自動的に選択し,結合する強化学習(rl)方式を提案する。
RLエージェントは、それが正常に動作し続ける限りのみ、特定のメソッドを利用し続けるが、特定のメソッドがパフォーマンス高原に達すると、新しい戦略を探索する。
その結果得られるrl検索方式は、テストされた他の方法やメソッドの組み合わせよりも優れており、事前の情報や試行やエラー手順に依存しない。 Calibrating agent-based models (ABMs) in economics and finance typically involves a derivative-free search in a very large parameter space. In this work, we benchmark a number of search methods in the calibration of a well-known macroeconomic ABM on real data, and further assess the performance of "mixed strategies" made by combining different methods. We find that methods based on random-forest surrogates are particularly efficient, and that combining search methods generally increases performance since the biases of any single method are mitigated. Moving from these observations, we propose a reinforcement learning (RL) scheme to automatically select and combine search methods on-the-fly during a calibration run. The RL agent keeps exploiting a specific method only as long as this keeps performing well, but explores new strategies when the specific method reaches a performance plateau. The resulting RL search scheme outperforms any other method or method combination tested, and does not rely on any prior information or trial and error procedure. | 翻訳日:2023-02-24 16:02:16 公開日:2023-02-23 |
# 自己回帰隠れマルコフモデルの非線形ダイナミクスおよび非ユークリッド観測空間への一般化 Generalization of Auto-Regressive Hidden Markov Models to Non-Linear Dynamics and Non-Euclidean Observation Space ( http://arxiv.org/abs/2302.11834v1 ) ライセンス: Link先を確認 | Michele Ginesi and Paolo Fiorini | (参考訳) 潜在変数モデルは、ロボット工学、音声認識、経済学など、異なる文脈で時系列の教師なしセグメンテーションを行うために広く使われている。
最も広く使われている潜在変数モデルの1つは自己回帰型隠れマルコフモデル(arhmm)であり、マルコフ連鎖ダイナミクスによって制御される潜在モードと観測状態の線形自己回帰ダイナミクスを組み合わせたものである。
本稿では,ARHMMの2つの一般化を提案する。
まず,非線形基底関数の線形結合として記述した,直交空間におけるより一般的なarダイナミクスを提案する。
次に,向きを適切に記述するために,単位四元数空間における線形ダイナミクスを提案する。
これらの拡張により、観測状態のより複雑なダイナミクスを記述することができる。
この拡張はARHMM向けに提案されているが、オート回帰隠れ半マルコフモデルのような観測空間におけるARダイナミックスを持つ他の潜在変数モデルに容易に拡張できる。 Latent variable models are widely used to perform unsupervised segmentation of time series in different context such as robotics, speech recognition, and economics. One of the most widely used latent variable model is the Auto-Regressive Hidden Markov Model (ARHMM), which combines a latent mode governed by a Markov chain dynamics with a linear Auto-Regressive dynamics of the observed state. In this work, we propose two generalizations of the ARHMM. First, we propose a more general AR dynamics in Cartesian space, described as a linear combination of non-linear basis functions. Second, we propose a linear dynamics in unit quaternion space, in order to properly describe orientations. These extensions allow to describe more complex dynamics of the observed state. Although this extension is proposed for the ARHMM, it can be easily extended to other latent variable models with AR dynamics in the observed space, such as Auto-Regressive Hidden semi-Markov Models. | 翻訳日:2023-02-24 16:01:57 公開日:2023-02-23 |
# 超高精細低光度画像強調のための埋め込みフーリエ Embedding Fourier for Ultra-High-Definition Low-Light Image Enhancement ( http://arxiv.org/abs/2302.11831v1 ) ライセンス: Link先を確認 | Chongyi Li and Chun-Le Guo and Man Zhou and Zhexin Liang and Shangchen Zhou and Ruicheng Feng and Chen Change Loy | (参考訳) UHD(Ultra-High-Definition)写真は、高度な撮像装置の標準構成となっている。
この新規格は、低照度画像強調(LLIE)の既存のアプローチ、特に高効率を維持しながら、関節輝度向上とノイズ除去の複雑な問題に対処するための多くの課題を公表している。
空間領域における問題に対処する既存の手法とは異なり、フーリエ変換をカスケードネットワークに組み込む新しい解である uhdfour を提案する。
私たちのアプローチは、フーリエ領域におけるいくつかのユニークな特徴によって動機付けられています。
1)ほとんどの輝度情報は振幅に集中し,ノイズは位相と密接に関連している。
2)高分解能画像とその低解像度バージョンは、類似の振幅パターンを共有しており、フーリエをネットワークに埋め込むことにより、低光画像の振幅と位相を別々に処理し、輝度向上時のノイズの増幅を回避する。
さらに、UHDFourは、低解像度の条件下で振幅と位相拡張を実装し、少ない計算で高解像度のスケールを調整することで、UHD画像にスケーラブルである。
このデータセットには、2,150個の低ノイズ/通常の4k画像ペアが含まれており、異なるシナリオでキャプチャされた様々な暗黒とノイズレベルを持つ。
本データセットでは,UHD画像処理のための既存のLLIE手法の性能を系統的に解析し,その利点を実証する。
当社の新しいフレームワークは、データセットと組み合わせることで、llieのフロンティアをuhdへと押し上げると思います。
コードとデータセットはhttps://li-chongyi.github.io/UHDFour.orgで公開されている。 Ultra-High-Definition (UHD) photo has gradually become the standard configuration in advanced imaging devices. The new standard unveils many issues in existing approaches for low-light image enhancement (LLIE), especially in dealing with the intricate issue of joint luminance enhancement and noise removal while remaining efficient. Unlike existing methods that address the problem in the spatial domain, we propose a new solution, UHDFour, that embeds Fourier transform into a cascaded network. Our approach is motivated by a few unique characteristics in the Fourier domain: 1) most luminance information concentrates on amplitudes while noise is closely related to phases, and 2) a high-resolution image and its low-resolution version share similar amplitude patterns.Through embedding Fourier into our network, the amplitude and phase of a low-light image are separately processed to avoid amplifying noise when enhancing luminance. Besides, UHDFour is scalable to UHD images by implementing amplitude and phase enhancement under the low-resolution regime and then adjusting the high-resolution scale with few computations. We also contribute the first real UHD LLIE dataset, \textbf{UHD-LL}, that contains 2,150 low-noise/normal-clear 4K image pairs with diverse darkness and noise levels captured in different scenarios. With this dataset, we systematically analyze the performance of existing LLIE methods for processing UHD images and demonstrate the advantage of our solution. We believe our new framework, coupled with the dataset, would push the frontier of LLIE towards UHD. The code and dataset are available at https://li-chongyi.github.io/UHDFour. | 翻訳日:2023-02-24 16:01:40 公開日:2023-02-23 |
# コミットメントオプティマイザを操作するための学習 Learning to Manipulate a Commitment Optimizer ( http://arxiv.org/abs/2302.11829v1 ) ライセンス: Link先を確認 | Yurong Chen, Xiaotie Deng, Jiarui Gan, Yuhao Li | (参考訳) 最近の研究では、Stackelbergのゲームでは、フォロワーは真のベストレスポンス行動から逸脱してリーダーを操ることができることが示されている。
このような操作は計算可能であり、従者にとって非常に有益である。
一方、彼らはリーダーにとって大きな損失を被り、時にはファーストマウバーの優位を完全に破ることもある。
コミットメントオプティマイザへの警告として、これらの発見が示すリスクは、操作が依存する厳密な情報によってある程度軽減されているように見える。
つまり、フォロワーは両方の選手の報酬に関する完全な情報を知っているのに対し、リーダーは自分の報酬しか知らない。
本稿では,情報アドバンテージを緩和した操作問題について検討する。
我々は、まずはリーダーの報酬に関する情報をフォロワが与えず、リーダーと対話することで操作を学ぶ必要があるというシナリオを考えます。
フォロワーは、最善の応答行動に対するリーダーの最適なコミットメントを照会することで必要な情報を集めることができる。
その結果,情報アドバンテージは,従者の操作には必ずしも不可欠ではないことが示唆された。従者は,多項式時間において,リーダーの最適コミットメントを多項式的に多数のクエリで操作する最適な方法を学ぶことができる。 It is shown in recent studies that in a Stackelberg game the follower can manipulate the leader by deviating from their true best-response behavior. Such manipulations are computationally tractable and can be highly beneficial for the follower. Meanwhile, they may result in significant payoff losses for the leader, sometimes completely defeating their first-mover advantage. A warning to commitment optimizers, the risk these findings indicate appears to be alleviated to some extent by a strict information advantage the manipulations rely on. That is, the follower knows the full information about both players' payoffs whereas the leader only knows their own payoffs. In this paper, we study the manipulation problem with this information advantage relaxed. We consider the scenario where the follower is not given any information about the leader's payoffs to begin with but has to learn to manipulate by interacting with the leader. The follower can gather necessary information by querying the leader's optimal commitments against contrived best-response behaviors. Our results indicate that the information advantage is not entirely indispensable to the follower's manipulations: the follower can learn the optimal way to manipulate in polynomial time with polynomially many queries of the leader's optimal commitment. | 翻訳日:2023-02-24 16:01:11 公開日:2023-02-23 |
# 単眼単発6Dオブジェクトポース推定のためのオープンチャレンジ Open Challenges for Monocular Single-shot 6D Object Pose Estimation ( http://arxiv.org/abs/2302.11827v1 ) ライセンス: Link先を確認 | Stefan Thalhammer, Peter H\"onig, Jean-Baptiste Weibel, Markus Vincze | (参考訳) オブジェクトのポーズ推定は、ロボット操作、ビンピック、拡張現実、シーン理解を可能にする非自明なタスクである。
単眼物体のポーズ推定は、高性能なディープラーニングベースのソリューションの台頭とともにかなりの勢いを増し、センサが安価で推論が速いため、コミュニティにとって特に興味深い。
先行研究は多種多様なポーズ推定問題に対する芸術の包括的状態を確立する。
その広い範囲は将来有望な方向を特定するのを困難にしている。
我々は,ロボット工学でよく用いられる単発モノクロ6Dオブジェクトのポーズ推定の問題の範囲を狭め,そのような傾向を識別することができる。
ロボティクスとコンピュータビジョンに関する最近の論文をレビューすることで、両方の分野の連合に最先端の芸術が確立される。
その後、研究者が関連する研究のアイデアを定式化し、技術の現状を効果的に進めるための有望な研究方向を特定した。
例えば、メソッドはドメインシフトを克服するのに十分な高度であり、オクルージョンハンドリングは根本的な課題である。
また,ロボット工学を進歩させる上での課題として,新規なオブジェクトポーズ推定や課題処理といった課題も強調する。 Object pose estimation is a non-trivial task that enables robotic manipulation, bin picking, augmented reality, and scene understanding, to name a few use cases. Monocular object pose estimation gained considerable momentum with the rise of high-performing deep learning-based solutions and is particularly interesting for the community since sensors are inexpensive and inference is fast. Prior works establish the comprehensive state of the art for diverse pose estimation problems. Their broad scopes make it difficult to identify promising future directions. We narrow down the scope to the problem of single-shot monocular 6D object pose estimation, which is commonly used in robotics, and thus are able to identify such trends. By reviewing recent publications in robotics and computer vision, the state of the art is established at the union of both fields. Following that, we identify promising research directions in order to help researchers to formulate relevant research ideas and effectively advance the state of the art. Findings include that methods are sophisticated enough to overcome the domain shift and that occlusion handling is a fundamental challenge. We also highlight problems such as novel object pose estimation and challenging materials handling as central challenges to advance robotics. | 翻訳日:2023-02-24 16:00:53 公開日:2023-02-23 |
# MossFormer: 畳み込み型単一頭部変圧器を用いたモノラル音声分離の性能限界を押し上げる MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-Head Transformer with Convolution-Augmented Joint Self-Attentions ( http://arxiv.org/abs/2302.11824v1 ) ライセンス: Link先を確認 | Shengkui Zhao, Bin Ma | (参考訳) 変圧器に基づくモデルでは、モノーラル音声分離の性能が大幅に向上した。
しかし、最近提案された上限よりもまだ性能の差がある。
現在のデュアルパストランスフォーマーモデルの主な制限は、長距離要素相互作用と局所的特徴パターンの非効率なモデリングである。
本研究では、畳み込み強化された共用自己アテンションを持つゲート型シングルヘッドトランスフォーマーアーキテクチャ(\textit{MossFormer} (\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former})を提案する。
デュアルパスアーキテクチャにおけるチャンク間の間接的要素的相互作用を効果的に解決するため、mossformerは、局所チャンクに対してフルコンピューティングのセルフアテンションと、全シーケンス上で線形化された低コストのセルフアテンションを同時に行う、ジョイントローカルおよびグローバル自己アテンションアーキテクチャを採用する。
共同注意により、MossFormerモデルの全シーケンス要素間相互作用を直接実現できる。
さらに,シングルヘッドの自己注意を簡略化した強力な注意ゲーティング機構を応用した。
注意深い長距離モデリングに加えて、位置ワイドな局所パターンモデリングのための畳み込みによるMossFormerも強化する。
その結果、MossFormerは以前のモデルを大きく上回り、WSJ0-2/3mix と WHAM!
ベンチマーク。
本モデルでは,WSJ0-3mix上のSI-SDRi上界は21.2dB,WSJ0-2mix上の上限は23.1dB以下である。 Transformer based models have provided significant performance improvements in monaural speech separation. However, there is still a performance gap compared to a recent proposed upper bound. The major limitation of the current dual-path Transformer models is the inefficient modelling of long-range elemental interactions and local feature patterns. In this work, we achieve the upper bound by proposing a gated single-head transformer architecture with convolution-augmented joint self-attentions, named \textit{MossFormer} (\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former}). To effectively solve the indirect elemental interactions across chunks in the dual-path architecture, MossFormer employs a joint local and global self-attention architecture that simultaneously performs a full-computation self-attention on local chunks and a linearised low-cost self-attention over the full sequence. The joint attention enables MossFormer model full-sequence elemental interaction directly. In addition, we employ a powerful attentive gating mechanism with simplified single-head self-attentions. Besides the attentive long-range modelling, we also augment MossFormer with convolutions for the position-wise local pattern modelling. As a consequence, MossFormer significantly outperforms the previous models and achieves the state-of-the-art results on WSJ0-2/3mix and WHAM!/WHAMR! benchmarks. Our model achieves the SI-SDRi upper bound of 21.2 dB on WSJ0-3mix and only 0.3 dB below the upper bound of 23.1 dB on WSJ0-2mix. | 翻訳日:2023-02-24 16:00:35 公開日:2023-02-23 |
# 半教師付きグラフ学習で資金洗浄を発見 Catch Me If You Can: Semi-supervised Graph Learning for Spotting Money Laundering ( http://arxiv.org/abs/2302.11880v1 ) ライセンス: Link先を確認 | Md. Rezaul Karim and Felix Hermsen and Sisay Adugna Chala and Paola de Perthuis and Avikarsha Mandal | (参考訳) マネーロンダリング(英: money laundering)とは、犯罪者が金融サービスを使って大量の違法な金を追跡不能な目的地に移動し、それを合法的な金融システムに統合するプロセスである。
反マネーロンダリング(AML)を施行するためには、これらの活動を正確かつ確実に特定することが極めて重要である。
AMLに対する多大な努力にもかかわらず、わずかに違法な活動が妨げられている。
銀行口座間の送金の所定のグラフから、既存のアプローチはマネーロンダリングの検出を試みた。
特に、いくつかのアプローチでは、密集したサブグラフ検出の構造的・行動的ダイナミクスを採用しており、資金洗浄が銀行口座の連鎖を通じて資金の大量流出を伴うことを考慮しない。
いくつかのアプローチでは、トランザクションを多部グラフ形式でモデル化し、ソースから目的地へのお金の完全な流れを検出する。
しかし、既存の手法では検出精度が低く、信頼性が低い。
本稿では,金融取引のグラフ上で半教師付きグラフ学習手法を用いて,マネーロンダリングの可能性があるノードを特定する。
実験結果から,本手法は実取引および合成取引グラフから資金洗浄を行うことができることが示唆された。 Money laundering is the process where criminals use financial services to move massive amounts of illegal money to untraceable destinations and integrate them into legitimate financial systems. It is very crucial to identify such activities accurately and reliably in order to enforce an anti-money laundering (AML). Despite tremendous efforts to AML only a tiny fraction of illicit activities are prevented. From a given graph of money transfers between accounts of a bank, existing approaches attempted to detect money laundering. In particular, some approaches employ structural and behavioural dynamics of dense subgraph detection thereby not taking into consideration that money laundering involves high-volume flows of funds through chains of bank accounts. Some approaches model the transactions in the form of multipartite graphs to detect the complete flow of money from source to destination. However, existing approaches yield lower detection accuracy, making them less reliable. In this paper, we employ semi-supervised graph learning techniques on graphs of financial transactions in order to identify nodes involved in potential money laundering. Experimental results suggest that our approach can sport money laundering from real and synthetic transaction graphs. | 翻訳日:2023-02-24 15:54:39 公開日:2023-02-23 |
# 混合言語GANの学習改善 Improved Training of Mixture-of-Experts Language GANs ( http://arxiv.org/abs/2302.11875v1 ) ライセンス: Link先を確認 | Yekun Chai, Qiyue Yin, Junge Zhang | (参考訳) 画像生成の劇的な成功にもかかわらず、生成的敵ネットワーク(gans)は依然として離散的な要素、特に人間の言語を合成する上で大きな課題に直面している。
生成訓練の難しさは、識別器から得られた限定的な表現能力と不規則な学習信号から生じる。
本研究では,(1)言語GANの表現能力の向上と,(2)特徴統計アライメント(Feature Statistics Alignment, FSA)のパラダイムを応用して,詳細な学習信号を描画し,ジェネレータの訓練を推進できることを実証的に示す。
具体的には、FSAは有限次元の特徴空間において、偽データの分布の平均統計をできるだけ近い実サンプルに近づけるように強制する。
合成および実ベンチマークに関する実証的研究は, 定量的評価において優れた性能を示し, 本手法の有効性を示した。 Despite the dramatic success in image generation, Generative Adversarial Networks (GANs) still face great challenges in synthesizing sequences of discrete elements, in particular human language. The difficulty in generator training arises from the limited representation capacity and uninformative learning signals obtained from the discriminator. In this work, we (1) first empirically show that the mixture-of-experts approach is able to enhance the representation capacity of the generator for language GANs and (2) harness the Feature Statistics Alignment (FSA) paradigm to render fine-grained learning signals to advance the generator training. Specifically, FSA forces the mean statistics of the distribution of fake data to approach that of real samples as close as possible in the finite-dimensional feature space. Empirical study on synthetic and real benchmarks shows the superior performance in quantitative evaluation and demonstrates the effectiveness of our approach to adversarial text generation. | 翻訳日:2023-02-24 15:54:18 公開日:2023-02-23 |
# 523画像ネット分類器の選択予測と不確かさ推定性能から何が学べるか What Can We Learn From The Selective Prediction And Uncertainty Estimation Performance Of 523 Imagenet Classifiers ( http://arxiv.org/abs/2302.11874v1 ) ライセンス: Link先を確認 | Ido Galil, Mohammed Dabbah, Ran El-Yaniv | (参考訳) リスクに敏感なタスクにデプロイする場合、ディープニューラルネットワークには不確実性推定機構を含める必要がある。
本稿では, 深層建築とその訓練体制との関係について検討し, 対応する選択予測と不確実性推定性能について検討する。
auroc, ece, aurcなど,これまで提案されていた最も一般的な推定パフォーマンス指標と,選択的精度制約のカバレッジについて検討した。
本稿では,一般的なリポジトリで利用可能な523の既存のdeep imagenet分類器の選択的予測と不確実性推定性能について,新規かつ包括的に検討する。
我々は,不確実性推定に影響を及ぼす未知の要因を多数同定し,各指標間の関係を考察した。
蒸留法に基づくトレーニング体制は,バニラトレーニングやデータセットの事前トレーニング,敵のトレーニングなど,他のトレーニング手法よりも不確実性を常に評価している。
さらに、不確実性推定性能において、他のモデルよりも優れたViTモデルのサブセットを見つける。
例えば、ViTモデルでは、ImageNetでは前例のない99%のトップ1選択精度が47%のカバレッジ(95%のトップ1選択精度が80%)で、競合するEfficientNet-V2-XLでは、任意のレベルのカバレッジではこれらの精度制約が得られない。
ICLR 2023(distributionのクラスアウト検出をベンチマークするフレームワークとそのImageNetへの適用)にも掲載した同伴論文では,これらの分類器の性能をdistributionのクラスアウト設定で検証している。 When deployed for risk-sensitive tasks, deep neural networks must include an uncertainty estimation mechanism. Here we examine the relationship between deep architectures and their respective training regimes, with their corresponding selective prediction and uncertainty estimation performance. We consider some of the most popular estimation performance metrics previously proposed including AUROC, ECE, AURC as well as coverage for selective accuracy constraint. We present a novel and comprehensive study of selective prediction and the uncertainty estimation performance of 523 existing pretrained deep ImageNet classifiers that are available in popular repositories. We identify numerous and previously unknown factors that affect uncertainty estimation and examine the relationships between the different metrics. We find that distillation-based training regimes consistently yield better uncertainty estimations than other training schemes such as vanilla training, pretraining on a larger dataset and adversarial training. Moreover, we find a subset of ViT models that outperform any other models in terms of uncertainty estimation performance. For example, we discovered an unprecedented 99% top-1 selective accuracy on ImageNet at 47% coverage (and 95% top-1 accuracy at 80%) for a ViT model, whereas a competing EfficientNet-V2-XL cannot obtain these accuracy constraints at any level of coverage. Our companion paper, also published in ICLR 2023 (A framework for benchmarking class-out-of-distribution detection and its application to ImageNet), examines the performance of these classifiers in a class-out-of-distribution setting. | 翻訳日:2023-02-24 15:54:00 公開日:2023-02-23 |
# 深層学習は脳機能ネットワークから若年者および高齢者の多脳障害の基礎となる共通スペクトルを明らかにする Deep learning reveals the common spectrum underlying multiple brain disorders in youth and elders from brain functional networks ( http://arxiv.org/abs/2302.11871v1 ) ライセンス: Link先を確認 | Mianxin Liu, Jingyang Zhang, Yao Wang, Yan Zhou, Fang Xie, Qihao Guo, Feng Shi, Han Zhang, Qian Wang, Dinggang Shen | (参考訳) 人間の早期および後期の脳障害は、脳機能の病理的変化を共有する可能性がある。
しかし、病理学的共通性に関する神経画像データによる重要な証拠はいまだ発見されていない。
この仮説を探求するために,多地点機能磁気共鳴画像データ(n=4,410,6サイト)を用いて,健康なコントロールから5つの異なる脳疾患を分類する深層学習モデルを構築した。
本モデルでは,6地点のデータに対する62.6(1.9)%の総合分類精度を達成し,既定モード,エグゼクティブコントロール,ビジュアルネットワーク,辺縁ネットワークなど,様々な空間スケールで,一般的に影響を受ける機能サブネットの集合を検出する。
個人データに対する深層的特徴表現では,障害のある若年・高齢の患者が継続的に分散しているのが観察され,これは「障害のスペクトラム」という臨床概念と一致している。
早期および後期の脳障害の根底にあるスペクトルは、寿命における障害の共生性の理解を促進する。 Brain disorders in the early and late life of humans potentially share pathological alterations in brain functions. However, the key evidence from neuroimaging data for pathological commonness remains unrevealed. To explore this hypothesis, we build a deep learning model, using multi-site functional magnetic resonance imaging data (N=4,410, 6 sites), for classifying 5 different brain disorders from healthy controls, with a set of common features. Our model achieves 62.6(1.9)% overall classification accuracy on data from the 6 investigated sites and detects a set of commonly affected functional subnetworks at different spatial scales, including default mode, executive control, visual, and limbic networks. In the deep-layer feature representation for individual data, we observe young and aging patients with disorders are continuously distributed, which is in line with the clinical concept of the "spectrum of disorders". The revealed spectrum underlying early- and late-life brain disorders promotes the understanding of disorder comorbidities in the lifespan. | 翻訳日:2023-02-24 15:53:33 公開日:2023-02-23 |
# 分布シフト下における確率予測のための適応サンプリング Adaptive Sampling for Probabilistic Forecasting under Distribution Shift ( http://arxiv.org/abs/2302.11870v1 ) ライセンス: Link先を確認 | Luca Masserano and Syama Sundar Rangapuram and Shubham Kapoor and Rajbir Singh Nirwan and Youngsuk Park and Michael Bohlke-Schneider | (参考訳) 現実世界の時系列は、マクロ経済サイクルや新型コロナウイルス(COVID-19)のパンデミックなど、外的かつ破壊的な出来事を通じて、時間とともに変化する。
本稿では,予測に関係のある時系列履歴の一部を選択する適応型サンプリング戦略を提案する。
ベイズ最適化により関連する時間ステップ上の離散分布を学習することでこれを達成する。
このアイデアを,一様サンプリングで事前学習し,適応サンプリングで軽量適応アーキテクチャを訓練する2段階の手法でインスタンス化する。
本研究では,本手法が分散シフトに適応し,ベースモデルの予測誤差を5つのデータセットのうち3つで著しく低減することを示す。 The world is not static: This causes real-world time series to change over time through external, and potentially disruptive, events such as macroeconomic cycles or the COVID-19 pandemic. We present an adaptive sampling strategy that selects the part of the time series history that is relevant for forecasting. We achieve this by learning a discrete distribution over relevant time steps by Bayesian optimization. We instantiate this idea with a two-step method that is pre-trained with uniform sampling and then training a lightweight adaptive architecture with adaptive sampling. We show with synthetic and real-world experiments that this method adapts to distribution shift and significantly reduces the forecasting error of the base model for three out of five datasets. | 翻訳日:2023-02-24 15:53:14 公開日:2023-02-23 |
# A2S-NAS:ハイパースペクトル画像分類のための非対称スペクトル空間ニューラルネットワーク探索 A2S-NAS: Asymmetric Spectral-Spatial Neural Architecture Search For Hyperspectral Image Classification ( http://arxiv.org/abs/2302.11868v1 ) ライセンス: Link先を確認 | Lin Zhan, Jiayuan Fan, Peng Ye, Jianjian Cao | (参考訳) 既存のDeep Learning-based Hyperspectral Image (HSI) 分類作業は、固定サイズの受容野の限界に悩まされており、様々な大きさと任意の形状の地上物体のスペクトル空間的特徴に障害をもたらす。
一方、多くの先行研究はHSIの非対称スペクトル空間次元を無視している。
上記の課題に対処するため,非対称スペクトル空間次元を克服し,重要な特徴を捉えるための多段階探索アーキテクチャを提案する。
まず、スペクトル空間次元上の非対称プールは、HSIの本質的特徴を極大に保持する。
そして、選択可能な範囲の受容場を持つ3D畳み込みは、固定サイズの畳み込みカーネルの制約を克服する。
最後に、これら2つの検索可能な操作を各ステージの異なるレイヤに拡張し、最終的なアーキテクチャを構築します。
Indian Pines と Houston University を含む2つの挑戦的 HSI ベンチマークで大規模な実験を行い,本手法の有効性を関連する研究と比較した。 Existing deep learning-based hyperspectral image (HSI) classification works still suffer from the limitation of the fixed-sized receptive field, leading to difficulties in distinctive spectral-spatial features for ground objects with various sizes and arbitrary shapes. Meanwhile, plenty of previous works ignore asymmetric spectral-spatial dimensions in HSI. To address the above issues, we propose a multi-stage search architecture in order to overcome asymmetric spectral-spatial dimensions and capture significant features. First, the asymmetric pooling on the spectral-spatial dimension maximally retains the essential features of HSI. Then, the 3D convolution with a selectable range of receptive fields overcomes the constraints of fixed-sized convolution kernels. Finally, we extend these two searchable operations to different layers of each stage to build the final architecture. Extensive experiments are conducted on two challenging HSI benchmarks including Indian Pines and Houston University, and results demonstrate the effectiveness of the proposed method with superior performance compared with the related works. | 翻訳日:2023-02-24 15:52:59 公開日:2023-02-23 |
# 単一物体追跡における変圧器 : 実験的検討 Transformers in Single Object Tracking: An Experimental Survey ( http://arxiv.org/abs/2302.11867v1 ) ライセンス: Link先を確認 | Janani Thangavel, Thanikasalam Kokul, Amirthalingam Ramanan, and Subha Fernando | (参考訳) シングルオブジェクトトラッキングは、コンピュータビジョンにおいてよく知られ、挑戦的な研究トピックである。
過去20年間、多くの研究者がこの問題を解くために様々なアルゴリズムを提案し、有望な結果を得た。
近年、トランスフォーマーベースのトラッキングアプローチは、追跡ロバスト性が優れているため、単一オブジェクトトラッキングの新しい時代を告げている。
トラッカの性能分析のための調査研究がいくつか行われているが、単一物体追跡におけるトランスフォーマーの導入後、別の調査研究が必要である。
本研究では,変圧器追跡手法の文献と性能を分析することを目的とした。
そこで我々は、Transformer Trackingアプローチの詳細な文献分析を行い、その追跡堅牢性と計算効率を、挑戦的なベンチマークデータセット上で評価する。
さらに、異なるトラッキングシナリオでパフォーマンスを測定して、その強度と弱点を見つけました。
我々の調査は、Transformer Trackingアプローチの基礎となる原則、直面している課題、今後の方向性に関する洞察を提供する。 Single object tracking is a well-known and challenging research topic in computer vision. Over the last two decades, numerous researchers have proposed various algorithms to solve this problem and achieved promising results. Recently, Transformer-based tracking approaches have ushered in a new era in single object tracking due to their superior tracking robustness. Although several survey studies have been conducted to analyze the performance of trackers, there is a need for another survey study after the introduction of Transformers in single object tracking. In this survey, we aim to analyze the literature and performances of Transformer tracking approaches. Therefore, we conduct an in-depth literature analysis of Transformer tracking approaches and evaluate their tracking robustness and computational efficiency on challenging benchmark datasets. In addition, we have measured their performances on different tracking scenarios to find their strength and weaknesses. Our survey provides insights into the underlying principles of Transformer tracking approaches, the challenges they face, and their future directions. | 翻訳日:2023-02-24 15:52:41 公開日:2023-02-23 |
# 物理センサ観測を用いた接地グラフネットワークシミュレータ Grounding Graph Network Simulators using Physical Sensor Observations ( http://arxiv.org/abs/2302.11864v1 ) ライセンス: Link先を確認 | Jonas Linkerh\"agner, Niklas Freymuth, Paul Maria Scheikl, Franziska Mathis-Ullrich, Gerhard Neumann | (参考訳) 現実を正確にモデル化する物理シミュレーションは、機械工学やロボット運動計画といった多くの工学分野において重要である。
近年、学習グラフネットワークシミュレータは、従来のシミュレータの計算コストのほんの一部しか必要とせず、正確なメッシュベースのシミュレーションを作成した。
しかし、結果として得られる予測器は、既存のメッシュベースのシミュレータが生成したデータから学習に限定されるため、ポイントクラウドデータのような現実世界の感覚情報を含めることはできない。
これらの予測器は、初期状態からのみ複雑な物理系をシミュレートする必要があるため、長期予測のための高い誤差蓄積を示す。
本研究では,実世界の観測データに対して,地上グラフネットワークシミュレータに感覚情報を統合する。
特に,ポイントクラウドデータを利用して変形可能なオブジェクトのメッシュ状態を予測する。
結果として得られたモデルは、未知の物質特性のようなシミュレーションにおける不確実性の下でも、長い時間的地平線上で正確な予測を可能にする。
ポイントクラウドは通常、各ステップ、特にオンライン設定では利用できないので、インプテーションベースのモデルを採用しています。
このモデルは提供時にのみ追加情報を利用することができ、標準のグラフネットワークシミュレータを利用する。
我々は,軟体と剛体間のメッシュベースの相互作用を予測する一連のタスクに対して,我々のアプローチを実験的に検証した。
本手法は,既存のグラフネットワークシミュレータが故障した場合の安定シミュレーションを正確に予測するために,追加のポイントクラウド情報を利用する。 Physical simulations that accurately model reality are crucial for many engineering disciplines such as mechanical engineering and robotic motion planning. In recent years, learned Graph Network Simulators produced accurate mesh-based simulations while requiring only a fraction of the computational cost of traditional simulators. Yet, the resulting predictors are confined to learning from data generated by existing mesh-based simulators and thus cannot include real world sensory information such as point cloud data. As these predictors have to simulate complex physical systems from only an initial state, they exhibit a high error accumulation for long-term predictions. In this work, we integrate sensory information to ground Graph Network Simulators on real world observations. In particular, we predict the mesh state of deformable objects by utilizing point cloud data. The resulting model allows for accurate predictions over longer time horizons, even under uncertainties in the simulation, such as unknown material properties. Since point clouds are usually not available for every time step, especially in online settings, we employ an imputation-based model. The model can make use of such additional information only when provided, and resorts to a standard Graph Network Simulator, otherwise. We experimentally validate our approach on a suite of prediction tasks for mesh-based interactions between soft and rigid bodies. Our method results in utilization of additional point cloud information to accurately predict stable simulations where existing Graph Network Simulators fail. | 翻訳日:2023-02-24 15:52:25 公開日:2023-02-23 |
# ターゲット拡張による領域外ロバスト性 Out-of-Domain Robustness via Targeted Augmentations ( http://arxiv.org/abs/2302.11861v1 ) ライセンス: Link先を確認 | Irena Gao, Shiori Sagawa, Pang Wei Koh, Tatsunori Hashimoto, Percy Liang | (参考訳) あるドメインでトレーニングされたモデルは、例えば野生生物の監視モデルが新しいカメラの場所にデプロイされる場合など、目に見えないドメインのパフォーマンス低下を被ることが多い。
本研究では、外部ドメイン(OOD)一般化のためのデータ拡張を設計するための原則について研究する。
特に、ドメインに依存しないいくつかの機能が堅牢である実世界のシナリオ、すなわちドメイン毎に異なるいくつかの機能は予測OODである。
例えば、上記の野生生物モニタリングアプリケーションでは、画像の背景はカメラの場所によって異なるが、生息地のタイプを示す。
線形設定に関する理論的解析に動機づけられ,ロバストな特徴を保ちながらスプリアスなドメイン依存特徴を選択的にランダム化する目標拡張法を提案する。
対象の拡張によってOOD性能が向上し、より少ないドメインでモデルを一般化できることを示す。
対照的に、ドメイン依存機能のランダム化に失敗したジェネリック拡張や、すべてのドメイン依存機能のランダム化を行うドメイン不変拡張といった既存のアプローチは、いずれもOODが不十分である。
実世界の3つのデータセットの実験では、ターゲット拡張によってOODのパフォーマンスが3.2~15.2%向上した。 Models trained on one set of domains often suffer performance drops on unseen domains, e.g., when wildlife monitoring models are deployed in new camera locations. In this work, we study principles for designing data augmentations for out-of-domain (OOD) generalization. In particular, we focus on real-world scenarios in which some domain-dependent features are robust, i.e., some features that vary across domains are predictive OOD. For example, in the wildlife monitoring application above, image backgrounds vary across camera locations but indicate habitat type, which helps predict the species of photographed animals. Motivated by theoretical analysis on a linear setting, we propose targeted augmentations, which selectively randomize spurious domain-dependent features while preserving robust ones. We prove that targeted augmentations improve OOD performance, allowing models to generalize better with fewer domains. In contrast, existing approaches such as generic augmentations, which fail to randomize domain-dependent features, and domain-invariant augmentations, which randomize all domain-dependent features, both perform poorly OOD. In experiments on three real-world datasets, we show that targeted augmentations set new states-of-the-art for OOD performance by 3.2-15.2%. | 翻訳日:2023-02-24 15:52:03 公開日:2023-02-23 |
# フローベースターゲット自由エネルギー摂動による分子系の正確な自由エネルギー推定 Accurate Free Energy Estimations of Molecular Systems Via Flow-based Targeted Free Energy Perturbation ( http://arxiv.org/abs/2302.11855v1 ) ライセンス: Link先を確認 | Soo Jung Lee, Amr H. Mahmoud, Markus A. Lill | (参考訳) TFEP(Targeted Free Energy Perturbation)法は、2つの状態間の自由エネルギー差を推定するための標準手法の時間的およびコンピュータ集約的な成層化プロセスを克服することを目的としている。
これを達成するため、tfepはこれらの状態の高次元確率密度間の写像関数を用いる。
フローニューラルネットワークの正規化の単射性と可逆性は、そのようなマッピング関数として機能する要件を満たす。
自由エネルギー計算の理論的可能性にもかかわらず、TFEPはエントロピー補正、エネルギーベーストレーニングの制限、自由度の高い大規模システムの密度関数を学習する際のモード崩壊といった課題のために、実際には採用されていない。
本研究では,ダミー原子のエントロピー寄与の理論的基礎を探求することにより,流れに基づくTFEPを2つの状態における可変原子数系に拡張し,結合粒子を含むモデル系に対する解析的導出による推論を検証した。
また,ハイブリッドトポロジのシステムを扱うためにtfepフレームワークを拡張し,tfepアーキテクチャを改善するための補助追加を提案し,大規模分子システムに対する相対自由エネルギー差の正確な予測を示す。
本研究は,生体分子に対する高速かつ高精度な深層学習型tfep法を初めて応用し,薬物設計の文脈において有効な自由エネルギー推定法として導入するものである。 The Targeted Free Energy Perturbation (TFEP) method aims to overcome the time-consuming and computer-intensive stratification process of standard methods for estimating the free energy difference between two states. To achieve this, TFEP uses a mapping function between the high-dimensional probability densities of these states. The bijectivity and invertibility of normalizing flow neural networks fulfill the requirements for serving as such a mapping function. Despite its theoretical potential for free energy calculations, TFEP has not yet been adopted in practice due to challenges in entropy correction, limitations in energy-based training, and mode collapse when learning density functions of larger systems with a high number of degrees of freedom. In this study, we expand flow-based TFEP to systems with variable number of atoms in the two states of consideration by exploring the theoretical basis of entropic contributions of dummy atoms, and validate our reasoning with analytical derivations for a model system containing coupled particles. We also extend the TFEP framework to handle systems of hybrid topology, propose auxiliary additions to improve the TFEP architecture, and demonstrate accurate predictions of relative free energy differences for large molecular systems. Our results provide the first practical application of the fast and accurate deep learning-based TFEP method for biomolecules and introduce it as a viable free energy estimation method within the context of drug design. | 翻訳日:2023-02-24 15:51:40 公開日:2023-02-23 |
# 深層学習による古絵画の素織物における交差点検出 Crossing Points Detection in Plain Weave for Old Paintings with Deep Learning ( http://arxiv.org/abs/2302.11924v1 ) ライセンス: Link先を確認 | A. Delgado, L. Alba-Carcel\'en, J.J. Murillo-Fuentes | (参考訳) 絵画の傑作に関する法医学的な研究では、その支援の分析が重要である。
平織り織物では、縦糸と横糸の密度を主特徴とし、縦軸と横糸との角度差も有用である。
これらの特徴は、キャンバスを通してローカルに研究することができる。
本研究では,これらの局所密度と角度の研究を行うためのツールとして,深層学習を提案する。
Vel\'azquez氏、Rubens氏、Ribera氏らによる36の絵画のサンプルでモデルをトレーニングしました。
データ準備と拡張は、パイプラインの第一段階で処理される。
次に、スレッド間の交差点の教師付きセグメンテーションに焦点を当てる。
インセプションとDice損失を持つU-Netはこのタスクのよい選択として提示される。
次に、断面交差点に基づいて密度と角度を推定する。
本稿では,いくつかのキャンバスの解析結果と周波数領域の手法との比較結果について報告する。
この新たなアプローチは、頻度分析ツールが失敗する場合にも成功し、結果も改善する、と結論付けた。
さらに,提案手法では,to-be-processedイメージの一部のラベリングは不要である。
ケーススタディとして,このアルゴリズムをvel\'azquez と murillo による2組のキャンバスの解析に適用し,同じロールの生地が使用されていると結論づける。 In the forensic studies of painting masterpieces, the analysis of the support is of major importance. For plain weave fabrics, the densities of vertical and horizontal threads are used as main features, while angle deviations from the vertical and horizontal axis are also of help. These features can be studied locally through the canvas. In this work, deep learning is proposed as a tool to perform these local densities and angle studies. We trained the model with samples from 36 paintings by Vel\'azquez, Rubens or Ribera, among others. The data preparation and augmentation are dealt with at a first stage of the pipeline. We then focus on the supervised segmentation of crossing points between threads. The U-Net with inception and Dice loss are presented as good choices for this task. Densities and angles are then estimated based on the segmented crossing points. We report test results of the analysis of a few canvases and a comparison with methods in the frequency domain, widely used in this problem. We concluded that this new approach succeeds in some cases where the frequency analysis tools fail, while improving the results in others. Besides, our proposal does not need the labeling of part of the to-be-processed image. As case studies, we apply this novel algorithm to the analysis of two pairs of canvases by Vel\'azquez and Murillo, to conclude that the fabrics used came from the same roll. | 翻訳日:2023-02-24 15:45:14 公開日:2023-02-23 |
# 自動運転車における知覚誤差のシミュレーションについて On the Simulation of Perception Errors in Autonomous Vehicles ( http://arxiv.org/abs/2302.11919v1 ) ライセンス: Link先を確認 | Andrea Piazzoni, Jim Cherian, Justin Dauwels, Lap-Pui Chau | (参考訳) 自律走行車(AV)のバーチャルテストは安全性評価に不可欠と認識されているものの、AVシミュレータはまだ活発な開発が続けられている。
特に難しい問題のひとつは、S&P(Sensing and Perception)サブシステムをシミュレーションループに効果的に組み込むことである。
本稿では,知覚誤差がAV安全性に与える影響を,センサ自体をモデル化することなく解析できる仮想シミュレーションコンポーネントである知覚誤りモデル(PEM)を定義する。
本稿では,パラメトリックモデリングのための汎用的なデータ駆動手法を提案し,それをオープンソース駆動ソフトウェアであるapolloと,パブリックavデータセットであるnuscenesを用いて評価する。
さらに,オープンソースの車両シミュレータSVLにPEMを実装した。
さらに、カメラ、LiDAR、カメラ-LiDARのセットアップを評価することにより、PEMベースの仮想テストの有用性を示す。
仮想テストでは,現状の評価基準の限界が強調され,提案手法はavの安全性に対する知覚誤差の影響を検証できる。 Even though virtual testing of Autonomous Vehicles (AVs) has been well recognized as essential for safety assessment, AV simulators are still undergoing active development. One particularly challenging question is to effectively include the Sensing and Perception (S&P) subsystem into the simulation loop. In this article, we define Perception Error Models (PEM), a virtual simulation component that can enable the analysis of the impact of perception errors on AV safety, without the need to model the sensors themselves. We propose a generalized data-driven procedure towards parametric modeling and evaluate it using Apollo, an open-source driving software, and nuScenes, a public AV dataset. Additionally, we implement PEMs in SVL, an open-source vehicle simulator. Furthermore, we demonstrate the usefulness of PEM-based virtual tests, by evaluating camera, LiDAR, and camera-LiDAR setups. Our virtual tests highlight limitations in the current evaluation metrics, and the proposed approach can help study the impact of perception errors on AV safety. | 翻訳日:2023-02-24 15:44:52 公開日:2023-02-23 |
# 構造化行動空間の多元的最適化 Diverse Policy Optimization for Structured Action Space ( http://arxiv.org/abs/2302.11917v1 ) ライセンス: Link先を確認 | Wenhao Li, Baoxiang Wang, Shanchao Yang and Hongyuan Zha | (参考訳) 政策の多様性を高めることは、強化学習(RL)における堅牢性、探索、移動に有益である。
本稿では,コンポーザビリティと局所依存性の2つの特性を持つ構造化アクション空間を持つrlタスクという,未検討の環境における多様なポリシーを求めることを目的とする。
複雑なアクション構造、非一様報酬ランドスケープ、構造化されたアクションの性質による微妙なハイパーパラメータチューニングは、既存のアプローチのスケーリングをうまく妨げている。
本稿では,構成された行動空間におけるポリシーを,確率的RLフレームワークに従ってエネルギーベースモデル(EBM)としてモデル化する,単純かつ効果的なRL手法であるDPOを提案する。
最近提案された新規かつ強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
外部層はGFlowNetによってサンプリングされた多様なポリシーを使用して、内部層でのGFlowNetトレーニングをサポートするEBMベースのポリシーを更新します。
ATSCとBattleベンチマークの実験では、DPOは挑戦的なシナリオにおいて驚くほど多様なポリシーを効果的に発見でき、既存の最先端の手法を大幅に上回っている。 Enhancing the diversity of policies is beneficial for robustness, exploration, and transfer in reinforcement learning (RL). In this paper, we aim to seek diverse policies in an under-explored setting, namely RL tasks with structured action spaces with the two properties of composability and local dependencies. The complex action structure, non-uniform reward landscape, and subtle hyperparameter tuning due to the properties of structured actions prevent existing approaches from scaling well. We propose a simple and effective RL method, Diverse Policy Optimization (DPO), to model the policies in structured action space as the energy-based models (EBM) by following the probabilistic RL framework. A recently proposed novel and powerful generative model, GFlowNet, is introduced as the efficient, diverse EBM-based policy sampler. DPO follows a joint optimization framework: the outer layer uses the diverse policies sampled by the GFlowNet to update the EBM-based policies, which supports the GFlowNet training in the inner layer. Experiments on ATSC and Battle benchmarks demonstrate that DPO can efficiently discover surprisingly diverse policies in challenging scenarios and substantially outperform existing state-of-the-art methods. | 翻訳日:2023-02-24 15:44:35 公開日:2023-02-23 |
# 多値ニューラルネットワークi : 多値連想メモリ Multi-Valued Neural Networks I A Multi-Valued Associative Memory ( http://arxiv.org/abs/2302.11909v1 ) ライセンス: Link先を確認 | Dmitry Maximov, Vladimir I. Goncharenko, Yury S. Legovich | (参考訳) 多値連想メモリの新しい概念を導入し、ファジィニューラルネットワークで類似のメモリを一般化した。
我々は、ファジィ連想記憶を閾値で拡張し、数値のないネットワークの概念を導入し、その特性を調べ、多値の場合の学習アルゴリズムを提供する。
我々は、そのような多値連想メモリに与えられたネットワーク変数パターンのペアを格納できる条件を発見した。
多値ニューラルネットワークでは、全ての変数は数ではなく、格子の要素や部分集合、すなわちこれらはすべて部分的に順序づけられている。
格子演算は入力によるネットワーク出力を構築するために使用される。
本稿では、格子がブラウワーであると仮定し、他の格子演算とともに使用する意味を決定し、ニューラルネットワークの出力を決定する。
航空機・航空機の軌道を分類するネットワークの例を示した。 A new concept of a multi-valued associative memory is introduced, generalizing a similar one in fuzzy neural networks. We expand the results on fuzzy associative memory with thresholds, to the case of a multi-valued one: we introduce the novel concept of such a network without numbers, investigate its properties, and give a learning algorithm in the multi-valued case. We discovered conditions under which it is possible to store given pairs of network variable patterns in such a multi-valued associative memory. In the multi-valued neural network, all variables are not numbers, but elements or subsets of a lattice, i.e., they are all only partially-ordered. Lattice operations are used to build the network output by inputs. In this paper, the lattice is assumed to be Brouwer and determines the implication used, together with other lattice operations, to determine the neural network output. We gave the example of the network use to classify aircraft/spacecraft trajectories. | 翻訳日:2023-02-24 15:44:14 公開日:2023-02-23 |
# 混合性の幾何学 The Geometry of Mixability ( http://arxiv.org/abs/2302.11905v1 ) ライセンス: Link先を確認 | Armando J. Cabrera Pacheco, Robert C. Williamson | (参考訳) 混合損失関数は、学習速度の速さを特徴付けるため、オンライン環境でのエキスパートアドバイスによる予測の文脈において、基本的な重要性である。
By re-interpreting properness from the point of view of differential geometry, we provide a simple geometric characterization of mixability for the binary and multi-class cases: a proper loss function $\ell$ is $\eta$-mixable if and only if the superpredition set $\textrm{spr}(\eta \ell)$ of the scaled loss function $\eta \ell$ slides freely inside the superprediction set $\textrm{spr}(\ell_{\log})$ of the log loss $\ell_{\log}$, under fairly general assumptions on the differentiability of $\ell$.
提案手法は,損失関数に関するいくつかの概念を'コーディネートフリー'な方法で扱う方法を提供し,二進数と多クラスの場合の混合損失関数に対して得られた過去の結果を整理する。 Mixable loss functions are of fundamental importance in the context of prediction with expert advice in the online setting since they characterize fast learning rates. By re-interpreting properness from the point of view of differential geometry, we provide a simple geometric characterization of mixability for the binary and multi-class cases: a proper loss function $\ell$ is $\eta$-mixable if and only if the superpredition set $\textrm{spr}(\eta \ell)$ of the scaled loss function $\eta \ell$ slides freely inside the superprediction set $\textrm{spr}(\ell_{\log})$ of the log loss $\ell_{\log}$, under fairly general assumptions on the differentiability of $\ell$. Our approach provides a way to treat some concepts concerning loss functions (like properness) in a ''coordinate-free'' manner and reconciles previous results obtained for mixable loss functions for the binary and the multi-class cases. | 翻訳日:2023-02-24 15:43:59 公開日:2023-02-23 |
# FAIR Digital Object Frameworkの概念モデルに向けて Towards a conceptual model for the FAIR Digital Object Framework ( http://arxiv.org/abs/2302.11894v1 ) ライセンス: Link先を確認 | Luiz Olavo Bonino da Silva Santos, Tiago Prince Sales, Claudenir M. Fonseca and Giancarlo Guizzardi | (参考訳) FAIR原則は、デジタルオブジェクトのファインダビリティ、アクセシビリティ、相互運用性、再利用性を改善することを目的として、データおよびサービスエコシステムに期待される多くの振る舞いを定義します。
原則の重要な願望は、自律的な計算エージェントが‘グローバルデータエコシステムの自己ガイドによる探索’を実行でき、遭遇したさまざまなタイプ、フォーマット、アクセスメカニズム、プロトコルで適切に行動できるシナリオに導くことである。
インターネットやWorld Wide Webのような現在の情報基盤によるこれらの期待された行動の一部のサポートの欠如は、ここ数年、FAIRデジタルオブジェクト(FDO)運動のようなイニシアチブの出現を動機づけた。
この動きは、デジタルオブジェクトを公正な原則に従って公開し、探求できるインフラを目指している。
本稿では,公平なデジタルオブジェクトのためのオントロジ駆動概念モデルに向けた研究の現状について報告する。
概念モデルは、メタデータと記述したデジタルオブジェクトの区別、情報的価値と計算的表現形式の両方の観点からのデジタルオブジェクトの分類、異なる種類の公正デジタルオブジェクトの関係など、公正な原則に関連するデジタルオブジェクトの側面をカバーしている。 The FAIR principles define a number of expected behaviours for the data and services ecosystem with the goal of improving the findability, accessibility, interoperability, and reusability of digital objects. A key aspiration of the principles is that they would lead to a scenario where autonomous computational agents are capable of performing a ``self-guided exploration of the global data ecosystem,'' and act properly with the encountered variety of types, formats, access mechanisms and protocols. The lack of support for some of these expected behaviours by current information infrastructures such as the internet and the World Wide Web motivated the emergence, in the last years, of initiatives such as the FAIR Digital Objects (FDOs) movement. This movement aims at an infrastructure where digital objects can be exposed and explored according to the FAIR principles. In this paper, we report the current status of the work towards an ontology-driven conceptual model for FAIR Digital Objects. The conceptual model covers aspects of digital objects that are relevant to the FAIR principles such as the distinction between metadata and the digital object it describes, the classification of digital objects in terms of both their informational value and their computational representation format, and the relation between different types of FAIR Digital Objects. | 翻訳日:2023-02-24 15:43:42 公開日:2023-02-23 |
# クラスアウト分布検出のためのベンチマークフレームワークとそのImageNetへの応用 A framework for benchmarking class-out-of-distribution detection and its application to ImageNet ( http://arxiv.org/abs/2302.11893v1 ) ライセンス: Link先を確認 | Ido Galil, Mohammed Dabbah, Ran El-Yaniv | (参考訳) リスクに敏感なタスクのためにデプロイされた場合、ディープニューラルネットワークは、トレーニング対象のディストリビューション外のラベル付きインスタンスを検出する必要がある。
本稿では,画像分類器が,学習過程において真のラベルが出現しないインスタンスを,様々なレベルの検出困難度で検出する能力のベンチマークを行うための新しいフレームワークを提案する。
我々はこの手法をImageNetに適用し、525の事前訓練済み、公開されているImageNet-1k分類器をベンチマークする。
imagenet-1k分類器のベンチマークを生成するコードは、上記の525モデル用に用意されたベンチマークとともに、https://github.com/mdabbah/cood_benchmarkingで入手できる。
The usefulness of the proposed framework and its advantage over alternative existing benchmarks is demonstrated by analyzing the results obtained for these models, which reveals numerous novel observations including: (1) knowledge distillation consistently improves class-out-of-distribution (C-OOD) detection performance; (2) a subset of ViTs performs better C-OOD detection than any other model; (3) the language--vision CLIP model achieves good zero-shot detection performance, with its best instance outperforming 96% of all other models evaluated; (4) accuracy and in-distribution ranking are positively correlated to C-OOD detection; and (5) we compare various confidence functions for C-OOD detection.
ICLR 2023 (What Can We Learn From The Selective Prediction And Uncertainty Estimation Performance of 523 Imagenet Classifiers) にも掲載され、これらの分類器の不確実性推定性能(評価、校正、選択予測性能)を非分布環境で検証した。 When deployed for risk-sensitive tasks, deep neural networks must be able to detect instances with labels from outside the distribution for which they were trained. In this paper we present a novel framework to benchmark the ability of image classifiers to detect class-out-of-distribution instances (i.e., instances whose true labels do not appear in the training distribution) at various levels of detection difficulty. We apply this technique to ImageNet, and benchmark 525 pretrained, publicly available, ImageNet-1k classifiers. The code for generating a benchmark for any ImageNet-1k classifier, along with the benchmarks prepared for the above-mentioned 525 models is available at https://github.com/mdabbah/COOD_benchmarking. The usefulness of the proposed framework and its advantage over alternative existing benchmarks is demonstrated by analyzing the results obtained for these models, which reveals numerous novel observations including: (1) knowledge distillation consistently improves class-out-of-distribution (C-OOD) detection performance; (2) a subset of ViTs performs better C-OOD detection than any other model; (3) the language--vision CLIP model achieves good zero-shot detection performance, with its best instance outperforming 96% of all other models evaluated; (4) accuracy and in-distribution ranking are positively correlated to C-OOD detection; and (5) we compare various confidence functions for C-OOD detection. Our companion paper, also published in ICLR 2023 (What Can We Learn From The Selective Prediction And Uncertainty Estimation Performance Of 523 Imagenet Classifiers), examines the uncertainty estimation performance (ranking, calibration, and selective prediction performance) of these classifiers in an in-distribution setting. | 翻訳日:2023-02-24 15:43:21 公開日:2023-02-23 |
# ジョイント重み付け平均(jwa)オペレーター The Joint Weighted Average (JWA) Operator ( http://arxiv.org/abs/2302.11885v1 ) ライセンス: Link先を確認 | Stephen B. Broomell, Christian Wagner | (参考訳) 情報収集は人や機械による意思決定、特にノイズや不確実性の存在において重要なツールである。
伝統的に、アグリゲーションのアプローチは、情報ソースに価値または重みを付与するものと、その情報源から生じる証拠に価値を付与するものの2つのカテゴリに大別される。
後者は特に物理科学において広く普及し、線形次数統計学を基礎とし、非線形集計を可能にする。
前者は社会科学で人気があり、情報源について解釈可能な洞察を提供する。
これまでのところ、限定的な作業は両方のアプローチを統合することを目指しており、どちらのアプローチも異なる程度に適用している。
本稿では, 両者のアプローチを部分的に適用するのではなく, 統合する手法を提案し, 新たに重み付け平均演算子を開発した。
この演算子は,従来の演算子では実現できない合成幾何生成結果を活用することで,ソースとエビデンスの両方の価値に関する先行的信念を統合するための体系的アプローチを提供する。
我々は、機械学習から心理学まで、分野をまたがるオペレーターの可能性を結論付け、強調する。 Information aggregation is a vital tool for human and machine decision making, especially in the presence of noise and uncertainty. Traditionally, approaches to aggregation broadly diverge into two categories, those which attribute a worth or weight to information sources and those which attribute said worth to the evidence arising from said sources. The latter is pervasive in particular in the physical sciences, underpinning linear order statistics and enabling non-linear aggregation. The former is popular in the social sciences, providing interpretable insight on the sources. Thus far, limited work has sought to integrate both approaches, applying either approach to a different degree. In this paper, we put forward an approach which integrates--rather than partially applies--both approaches, resulting in a novel joint weighted averaging operator. We show how this operator provides a systematic approach to integrating a priori beliefs about the worth of both source and evidence by leveraging compositional geometry--producing results unachievable by traditional operators. We conclude and highlight the potential of the operator across disciplines, from machine learning to psychology. | 翻訳日:2023-02-24 15:42:51 公開日:2023-02-23 |
# PT対称干渉計における秩序不変2光子量子相関 Order-invariant two-photon quantum correlations in PT-symmetric interferometers ( http://arxiv.org/abs/2302.11884v1 ) ライセンス: Link先を確認 | Tom A. W. Wolterink, Matthias Heinrich, Stefan Scheel, Alexander Szameit | (参考訳) 線形フォトニック量子ネットワークにおける多光子相関は行列永久性によって制御される。
しかし、これらの重要な代数的対象の体系的な性質はほとんど知られておらず、計算は計算が難しい。
そのため、個々のビルディングブロックからネットワークの全体多光子挙動を予測することは、通常直観に反する。
この研究では、2光子挙動が順序の逆転の下で不変である連結2モード線形光変換の列を同定する。
異なる組成のパリティ時間対称複素干渉計配置における系統的挙動を実験的に検証した。
この結果は,小規模の非エルミートネットワークにおいても,量子相関を直感的に保存する新たな方法の導出となる。 Multiphoton correlations in linear photonic quantum networks are governed by matrix permanents. Yet, surprisingly few systematic properties of these crucial algebraic objects are known, while their calculation is a computationally hard task. As such, predicting the overall multiphoton behavior of a network from its individual building blocks typically defies intuition. In this work we identify sequences of concatenated two-mode linear optical transformations whose two-photon behavior is invariant under reversal of the order. We experimentally verify this systematic behavior in parity-time-symmetric complex interferometer arrangements of varying composition. Our results underline new ways in which quantum correlations may be preserved in counterintuitive ways even in small-scale non-Hermitian networks. | 翻訳日:2023-02-24 15:42:32 公開日:2023-02-23 |
# PIFON-EPT:物理インフォームドフーリエネットワークを用いたMR特性トモグラフィ PIFON-EPT: MR-Based Electrical Property Tomography Using Physics-Informed Fourier Networks ( http://arxiv.org/abs/2302.11883v1 ) ライセンス: Link先を確認 | Xinling Yu, Jos\'e E. C. Serrall\'es, Ilias I. Giannakopoulos, Ziyue Liu, Luca Daniel, Riccardo Lattanzi, Zheng Zhang | (参考訳) 本稿では,電気特性(EP)トモグラフィ(EPT)のための物理インフォームドフーリエネットワーク(PIFON)について紹介する。
本手法は,雑音および不完全磁気共鳴(mr)測定に基づく逆散乱問題を解くことで,epsをグローバルに学習することができる。
\textit{methods:} 私たちは、$b_1^{+}$ netとep netという2つの完全に接続されたニューラルネットワークを使って、$b_1^{+}$フィールドとepsを任意の場所で学習します。
ランダムフーリエ特徴マッピングは$b_1^{+}$ netに埋め込まれており、$b_1^{+}$フィールドをより効率的に学習することができる。
これら2つのニューラルネットワークは、勾配降下による物理インフォームド損失とデータミスマッチ損失の組合せを最小化することにより、共同で訓練される。
\textit{Results:} PIFON-EPTによるEPの物理的に一貫した再構成と関心領域全体の送信が,全容積のノイズMR測定の半分が欠落している場合でも可能であることを示した。
平均誤差はファントム全体の体積に対して、相対的な誘電率、導電率、およびB_{1}^{+}$に対して$2.49\%、$4.09\%、$0.32\%であった。
B_z$をゼロと仮定した実験では、PIFON-EPTは境界条件を必要とせず、異なるEP値の領域間の界面付近で正確なEP予測を得ることができた。
\textit{Conclusion:} この研究はPIFON-EPTの実現可能性を示し、電気的特性推定の正確かつ効果的な方法である可能性が示唆された。
\textit{Significance:} PIFON-EPTは、他のMRベースのEPT技術を改善する可能性を示すMR測定を効率的にデノイズ化することができる。
さらに,不完全擬似雑音MR測定からEPと$B_{1}^{+}$フィールドを同時に再構成できるのは,MRベースのEPT法が初めてである。 \textit{Objective:} In this paper, we introduce Physics-Informed Fourier Networks (PIFONs) for Electrical Properties (EP) Tomography (EPT). Our novel deep learning-based method is capable of learning EPs globally by solving an inverse scattering problem based on noisy and/or incomplete magnetic resonance (MR) measurements. \textit{Methods:} We use two separate fully-connected neural networks, namely $B_1^{+}$ Net and EP Net, to learn the $B_1^{+}$ field and EPs at any location. A random Fourier features mapping is embedded into $B_1^{+}$ Net, which allows it to learn the $B_1^{+}$ field more efficiently. These two neural networks are trained jointly by minimizing the combination of a physics-informed loss and a data mismatch loss via gradient descent. \textit{Results:} We showed that PIFON-EPT could provide physically consistent reconstructions of EPs and transmit field in the whole domain of interest even when half of the noisy MR measurements of the entire volume was missing. The average error was $2.49\%$, $4.09\%$ and $0.32\%$ for the relative permittivity, conductivity and $B_{1}^{+}$, respectively, over the entire volume of the phantom. In experiments that admitted a zero assumption of $B_z$, PIFON-EPT could yield accurate EP predictions near the interface between regions of different EP values without requiring any boundary conditions. \textit{Conclusion:} This work demonstrated the feasibility of PIFON-EPT, suggesting it could be an accurate and effective method for electrical properties estimation. \textit{Significance:} PIFON-EPT can efficiently de-noise MR measurements, which shows the potential to improve other MR-based EPT techniques. Furthermore, it is the first time that MR-based EPT methods can reconstruct the EPs and $B_{1}^{+}$ field simultaneously from incomplete simulated noisy MR measurements. | 翻訳日:2023-02-24 15:42:22 公開日:2023-02-23 |
# mfbe:faqのマルチフィールド情報を活用した高密度検索 MFBE: Leveraging Multi-Field Information of FAQs for Efficient Dense Retrieval ( http://arxiv.org/abs/2302.11953v1 ) ライセンス: Link先を確認 | Debopriyo Banerjee, Mausam Jain and Ashish Kulkarni | (参考訳) NLPにおける質問応答の領域では、FAQ(Frequently Asked Questions)の検索は重要なサブ領域であり、多くの言語で研究されている。
ここで、ユーザクエリに応答して、検索システムは、通常、関連するfaqを知識ベースから返す。
このようなシステムの有効性は、クエリとFAQ間のセマンティックマッチングをリアルタイムで確立する能力に依存する。
このタスクは、クエリとFAQ間の本質的に語彙的なギャップ、FAQタイトルの十分なコンテキストの欠如、ラベル付きデータの不足、高い検索レイテンシによって困難になる。
本稿では,モデルトレーニングと推論の両方において,faqフィールド(質問,回答,カテゴリなど)の複数の組み合わせを利用するbi-encoderベースのクエリ-faqマッチングモデルを提案する。
提案するマルチフィールドバイエンコーダ(MFBE)モデルは,複数のFAQフィールドから得られる追加コンテキストの恩恵を受け,最小ラベル付きデータでも良好に動作する。
この主張を、プロプライエタリとオープンソースの公開データセットの実験を通じて、教師なしと教師なしの両方で実証的にサポートしています。
本モデルは,最高性能のベースラインに対して,内部データセットとオープンデータセットのfaq検索タスクに対して,約27%と20%の精度を達成する。 In the domain of question-answering in NLP, the retrieval of Frequently Asked Questions (FAQ) is an important sub-area which is well researched and has been worked upon for many languages. Here, in response to a user query, a retrieval system typically returns the relevant FAQs from a knowledge-base. The efficacy of such a system depends on its ability to establish semantic match between the query and the FAQs in real-time. The task becomes challenging due to the inherent lexical gap between queries and FAQs, lack of sufficient context in FAQ titles, scarcity of labeled data and high retrieval latency. In this work, we propose a bi-encoder-based query-FAQ matching model that leverages multiple combinations of FAQ fields (like, question, answer, and category) both during model training and inference. Our proposed Multi-Field Bi-Encoder (MFBE) model benefits from the additional context resulting from multiple FAQ fields and performs well even with minimal labeled data. We empirically support this claim through experiments on proprietary as well as open-source public datasets in both unsupervised and supervised settings. Our model achieves around 27% and 20% better top-1 accuracy for the FAQ retrieval task on internal and open datasets, respectively over the best performing baseline. | 翻訳日:2023-02-24 15:37:21 公開日:2023-02-23 |
# RGB-Dセマンティックセグメンテーションのための画素差分畳み込みネットワーク Pixel Difference Convolutional Network for RGB-D Semantic Segmentation ( http://arxiv.org/abs/2302.11951v1 ) ライセンス: Link先を確認 | Jun Yang, Lizhi Bai, Yaoru Sun, Chunqi Tian, Maoyu Mao, Guorun Wang | (参考訳) rgb-dセマンティクスセグメンテーションは、奥行きデータを利用できるため畳み込みニューラルネットワークで前進することができる。
物体は2次元の外観だけでは容易に識別できないが、局所的なピクセル差と奥行きの幾何学的パターンにより、うまく分離できる場合もある。
固定グリッドカーネル構造を考えると、CNNは詳細できめ細かい情報をキャプチャする能力に欠けるため、正確なピクセルレベルのセマンティックセマンティックセグメンテーションを達成できない。
そこで本研究では,深部データの局所範囲における強度と勾配情報を,それぞれRGBデータに対するグローバル範囲に集約することにより,詳細な固有パターンを捉えるための差分畳み込みネットワーク(PDCNet)を提案する。
正確には、pdcnetは深度分岐とrgb分岐からなる。
深度情報と勾配情報の両方を集約することで,深度データの局所的および詳細な幾何学的情報を検討するために,深度差畳み込み(PDC)を提案する。
RGB ブランチでは,CPDC を拡張する軽量な Cascade Large Kernel (CLK) を提供し,RGB データのグローバルなコンテキストを享受し,パフォーマンスをさらに向上する。
したがって、モーダルデータの局所的および大域的画素差は、情報伝達過程中にpdcnetにシームレスに組み込まれる。
NYUDv2とSUN RGB-Dの2つの挑戦的なベンチマークデータセットの実験により、私たちのPDCNetがセマンティックセグメンテーションタスクの最先端のパフォーマンスを達成することが明らかになった。 RGB-D semantic segmentation can be advanced with convolutional neural networks due to the availability of Depth data. Although objects cannot be easily discriminated by just the 2D appearance, with the local pixel difference and geometric patterns in Depth, they can be well separated in some cases. Considering the fixed grid kernel structure, CNNs are limited to lack the ability to capture detailed, fine-grained information and thus cannot achieve accurate pixel-level semantic segmentation. To solve this problem, we propose a Pixel Difference Convolutional Network (PDCNet) to capture detailed intrinsic patterns by aggregating both intensity and gradient information in the local range for Depth data and global range for RGB data, respectively. Precisely, PDCNet consists of a Depth branch and an RGB branch. For the Depth branch, we propose a Pixel Difference Convolution (PDC) to consider local and detailed geometric information in Depth data via aggregating both intensity and gradient information. For the RGB branch, we contribute a lightweight Cascade Large Kernel (CLK) to extend PDC, namely CPDC, to enjoy global contexts for RGB data and further boost performance. Consequently, both modal data's local and global pixel differences are seamlessly incorporated into PDCNet during the information propagation process. Experiments on two challenging benchmark datasets, i.e., NYUDv2 and SUN RGB-D reveal that our PDCNet achieves state-of-the-art performance for the semantic segmentation task. | 翻訳日:2023-02-24 15:36:57 公開日:2023-02-23 |
# スキンケア製品の有効性評価:リアルな短期的顔面孔シミュレーション Evaluating the Efficacy of Skincare Product: A Realistic Short-Term Facial Pore Simulation ( http://arxiv.org/abs/2302.11950v1 ) ライセンス: Link先を確認 | Ling Li, Bandara Dissanayake, Tatsuya Omotezako, Yunjie Zhong, Qing Zhang, Rizhao Cai, Qian Zheng, Dennis Sng, Weisi Lin, Yufei Wang, Alex C Kot | (参考訳) 顔に対するスキンケア製品の効果をシミュレートすることは、スキンケア製品の皮膚診断および製品推奨における効果を伝える新しい方法になり得る。
さらに、このようなシミュレーションにより、肌の状態を予測し、皮膚の健康を良く管理できる。
しかし,今日,効果的なシミュレーションが欠如している。
本稿では,スキンケア製品を用いて顔の毛穴の変化を明らかにする最初のシミュレーションモデルを提案する。
シミュレーションパイプラインは、トレーニングデータ確立と顔孔シミュレーションの2つのステップから構成される。
訓練データを確立するために, 短期(8週間)臨床研究から多彩な細孔質指標を持つ顔像を収集した。
人々はしばしば、臨床データに大きな摂動をもたらす重要な皮膚変動(自然リズム、外部ストレスなどによる)を経験する。
この問題に対処するために,データをクリーンにし,顔孔の変化を表す代表インデックスを選択するスライディングウィンドウ機構を提案する。
顔孔シミュレーションステージは、顔孔を局所化するunetベースのセグメンテーションモジュール、時間依存のワーピングハイパーパラメータを予測するレグレッションモジュール、およびワーピングハイパーパラメーターと毛穴セグメンテーションラベルを入力として正確に変形する変形モジュールの3つのモジュールで構成されている。
提案するシミュレーションは, 顔孔の変化をリアルに再現することができる。
そしてこの研究は、皮膚のシミュレーションとスキンケア製品開発における将来の研究の道を開くだろう。 Simulating the effects of skincare products on face is a potential new way to communicate the efficacy of skincare products in skin diagnostics and product recommendations. Furthermore, such simulations enable one to anticipate his/her skin conditions and better manage skin health. However, there is a lack of effective simulations today. In this paper, we propose the first simulation model to reveal facial pore changes after using skincare products. Our simulation pipeline consists of 2 steps: training data establishment and facial pore simulation. To establish training data, we collect face images with various pore quality indexes from short-term (8-weeks) clinical studies. People often experience significant skin fluctuations (due to natural rhythms, external stressors, etc.,), which introduces large perturbations in clinical data. To address this problem, we propose a sliding window mechanism to clean data and select representative index(es) to represent facial pore changes. Facial pore simulation stage consists of 3 modules: UNet-based segmentation module to localize facial pores; regression module to predict time-dependent warping hyperparameters; and deformation module, taking warping hyperparameters and pore segmentation labels as inputs, to precisely deform pores accordingly. The proposed simulation is able to render realistic facial pore changes. And this work will pave the way for future research in facial skin simulation and skincare product developments. | 翻訳日:2023-02-24 15:36:30 公開日:2023-02-23 |
# 畳み込みニューラルネットワークを用いた繊維昇降ロープのリアルタイム損傷検出 Real-Time Damage Detection in Fiber Lifting Ropes Using Convolutional Neural Networks ( http://arxiv.org/abs/2302.11947v1 ) ライセンス: Link先を確認 | Tuomas Jalonen, Mohammad Al-Sa'd, Roope Mellanen, Serkan Kiranyaz, and Moncef Gabbouj | (参考訳) クレーンの吊り上げロープによる健康と安全の危険は、損傷の定期的な検査を義務付ける。
この作業は時間がかかり、ヒューマンエラーを起こしやすいため、操作が停止し、ロープを早期に廃棄する可能性がある。
そこで本研究では,損傷したロープを自動検出する深層学習とコンピュータビジョン手法を提案する。
具体的には、畳み込みニューラルネットワーク(CNN)を用いて合成繊維ロープ画像の損傷を検出する新しい視覚ベースシステムを提案する。
カメラをベースとする装置を用いて, 吊り上げロープの表面を撮影し, 進行的な摩耗・触角を捉え, また, ロープの健康状態が著しく低下する様子を捉えた。
ケネクラネスの専門家は、ロープの状態に応じて収集した画像に注釈を付ける。
次に、画像の事前処理を行い、cnnモデルを体系的に設計し、その検出と予測性能を評価し、計算の複雑さを分析し、他の様々なモデルと比較する。
実験の結果、提案されたモデルは96.4%の精度、95.8%の精度、97.2%のリコール、96.5%のF1スコア、99.2%のAUCで他の手法よりも優れていた。
さらに、モデルのリアルタイム運用、メモリフットプリントの低さ、さまざまな環境や運用条件への堅牢性、産業システムへの展開適性などが実証された。 The health and safety hazards posed by worn crane lifting ropes mandate periodic inspection for damage. This task is time-consuming, prone to human error, halts operation, and may result in the premature disposal of ropes. Therefore, we propose using deep learning and computer vision methods to automate the process of detecting damaged ropes. Specifically, we present a novel vision-based system for detecting damage in synthetic fiber rope images using convolutional neural networks (CNN). We use a camera-based apparatus to photograph the lifting rope's surface, while in operation, and capture the progressive wear-and-tear as well as the more significant degradation in the rope's health state. Experts from Konecranes annotate the collected images in accordance with the rope's condition; normal or damaged. Then, we pre-process the images, design a CNN model in a systematic manner, evaluate its detection and prediction performance, analyze its computational complexity, and compare it with various other models. Experimental results show the proposed model outperforms other techniques with 96.4% accuracy, 95.8% precision, 97.2% recall, 96.5% F1-score, and 99.2% AUC. Besides, they demonstrate the model's real-time operation, low memory footprint, robustness to various environmental and operational conditions, and adequacy for deployment in industrial systems. | 翻訳日:2023-02-24 15:36:05 公開日:2023-02-23 |
# 対実的状況テスト: 公平さによる差別の発見 Counterfactual Situation Testing: Uncovering Discrimination under Fairness given the Difference ( http://arxiv.org/abs/2302.11944v1 ) ライセンス: Link先を確認 | Jose M. Alvarez and Salvatore Ruggieri | (参考訳) 分類器の識別を検出するための因果的データマイニングフレームワークであるcst(counterfactual situation testing)を提案する。
cstは、行動可能で意味のある方法で答えることを目的としており、直感的な質問は「モデルの結果が、個人、または苦情が、異なる保護された状態であったとしたら、何だったのか?
これは、反実的推論を用いた差異から公正性の概念を運用することによって、Tanh et al. (2011) の法的根拠による状況検証を拡張している。
どんな苦情に対しても、分類器が制御およびテストグループを構築するために使用するデータセットにおいて、類似した保護されたインスタンスと非保護されたインスタンスを見つけ、比較します。
訴追者を取り巻く双方のグループを構築する状況テストとは違って,訴追者側が因果的知識を用いて生成した反事実に基づくテストグループを構築する。
counterfactualは、変更時に保護された属性が、分類器が使用する一見中立的な属性にどのように影響するかを反映することを目的としている。
CSTでは、各グループ内の類似した個人を比較検討するが、不一致者とその反事実との相違が考えられるため、双方で異同する。
2つの分類シナリオの枠組みを評価することで,Kusnerら (2017) の対実フェアネス条件を満たした場合でも, 状況検査よりも多くの事例が明らかになった。 We present counterfactual situation testing (CST), a causal data mining framework for detecting discrimination in classifiers. CST aims to answer in an actionable and meaningful way the intuitive question "what would have been the model outcome had the individual, or complainant, been of a different protected status?" It extends the legally-grounded situation testing of Thanh et al. (2011) by operationalizing the notion of fairness given the difference using counterfactual reasoning. For any complainant, we find and compare similar protected and non-protected instances in the dataset used by the classifier to construct a control and test group, where a difference between the decision outcomes of the two groups implies potential individual discrimination. Unlike situation testing, which builds both groups around the complainant, we build the test group on the complainant's counterfactual generated using causal knowledge. The counterfactual is intended to reflect how the protected attribute when changed affects the seemingly neutral attributes used by the classifier, which is taken for granted in many frameworks for discrimination. Under CST, we compare similar individuals within each group but dissimilar individuals across both groups due to the possible difference between the complainant and its counterfactual. Evaluating our framework on two classification scenarios, we show that it uncovers a greater number of cases than situation testing, even when the classifier satisfies the counterfactual fairness condition of Kusner et al. (2017). | 翻訳日:2023-02-24 15:35:42 公開日:2023-02-23 |
# 半監督グローバルフィールド再構築のための不確かさガイド付き自己組織化訓練 Uncertainty Guided Ensemble Self-Training for Semi-Supervised Global Field Reconstruction ( http://arxiv.org/abs/2302.11940v1 ) ライセンス: Link先を確認 | Yunyang Zhang, Zhiqiang Gong, Xiaoyu Zhao, Wen Yao | (参考訳) 限られたセンサーからグローバルに正確な複雑な物理分野を回復することは、航空宇宙工学の計測と制御に不可欠である。
フィールドを復元するための一般的な再構築手法、特により多くのパラメータとより優れた表現能力を持つディープラーニングは、通常、望ましくない大量のラベル付きデータを必要とする。
そこで本研究では, 未ラベルデータを用いた不確実性誘導アンサンブル自己学習(UGE-ST)を提案する。
疑似ラベルの精度を向上し,騒音の影響を改善すべく,アンサンブル教師とプリトレーニング学生による新しい自己学習枠組みを最初に提案する。
一方,疑似ラベルの高信頼領域に着目し,自己学習における誤った擬似ラベルの効果を緩和し,再構成モデルの性能を向上させるために,不確実性誘導学習が提案されている。
実験では、翼の圧力速度場再構成や航空機システムの温度場再構築などにより、UGE-STが教師あり学習と同じ精度で最大90%のデータを節約できることが示された。 Recovering a globally accurate complex physics field from limited sensor is critical to the measurement and control in the aerospace engineering. General reconstruction methods for recovering the field, especially the deep learning with more parameters and better representational ability, usually require large amounts of labeled data which is unaffordable. To solve the problem, this paper proposes Uncertainty Guided Ensemble Self-Training (UGE-ST), using plentiful unlabeled data to improve reconstruction performance. A novel self-training framework with the ensemble teacher and pretraining student designed to improve the accuracy of the pseudo-label and remedy the impact of noise is first proposed. On the other hand, uncertainty-guided learning is proposed to encourage the model to focus on the highly confident regions of pseudo-labels and mitigate the effects of wrong pseudo-labeling in self-training, improving the performance of the reconstruction model. Experiments include the pressure velocity field reconstruction of airfoil and the temperature field reconstruction of aircraft system indicate that our UGE-ST can save up to 90% of the data with the same accuracy as supervised learning. | 翻訳日:2023-02-24 15:35:12 公開日:2023-02-23 |
# 予習lmによる電力時系列予測 Power Time Series Forecasting by Pretrained LM ( http://arxiv.org/abs/2302.11939v1 ) ライセンス: Link先を確認 | Tian Zhou, PeiSong Niu, Xue Wang, Liang Sun, Rong Jin | (参考訳) 時系列データの多様性とドメイン依存は、学習を時系列予測に移行する上で大きな課題となる。
本研究では,自然言語や画像データに基づいて事前学習したトランスモデルを用いて,残差ブロックの自己付着層やフィードフォワード層を変更することなく,最小限の修正で時系列予測を行う手法の有効性について検討する。
The Frozen Pretrained Transformer (FPT) として知られるこのモデルは、Zero-Shot、Few-Shot、および通常のサンプルサイズ条件下での時系列予測タスクの微調整によって評価される。
その結果, 自然言語や画像による事前学習は, 事前学習データと同程度の微調整に焦点をあてた従来の研究とは対照的に, 相互モダリティ時系列予測タスクにおいて, 同等あるいは最先端のパフォーマンスをもたらすことが示された。
さらに、FPTの普遍性と機能に関する包括的な理論的分析を提供する。
コードはhttps://anonymous.4open.science/r/Pretrained-LM-for-TSForcasting-C561で公開されている。 The diversity and domain dependence of time series data pose significant challenges in transferring learning to time series forecasting. In this study, we examine the effectiveness of using a transformer model that has been pre-trained on natural language or image data and then fine-tuned for time series forecasting with minimal modifications, specifically, without altering the self-attention and feedforward layers of the residual blocks. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on time series forecasting tasks under Zero-Shot, Few-Shot, and normal sample size conditions. Our results demonstrate that pre-training on natural language or images can lead to a comparable or state-of-the-art performance in cross-modality time series forecasting tasks, in contrast to previous studies that focused on fine-tuning within the same modality as the pre-training data. Additionally, we provide a comprehensive theoretical analysis of the universality and the functionality of the FPT. The code is publicly available at https://anonymous.4open.science/r/Pretrained-LM-for-TSForcasting-C561. | 翻訳日:2023-02-24 15:34:39 公開日:2023-02-23 |
# ディープメトリック学習による身体的ロボットコラボレーションの安全性向上 Improving safety in physical human-robot collaboration via deep metric learning ( http://arxiv.org/abs/2302.11933v1 ) ライセンス: Link先を確認 | Maryam Rezayati, Grammatiki Zanni, Ying Zaoshi, Davide Scaramuzza, Hans Wernher van de Venn | (参考訳) ロボットとの直接の物理的相互作用は、フレキシブルな生産シナリオではますます重要になっているが、保護フェンスのないロボットもまた、オペレーターにとって大きなリスクをもたらす。
リスク電位を低く抑えるために、物理的な接触があった場合や安全距離に違反した場合など、比較的簡単な操作方法が定められている。
人間のケガは概ね避けられるが、人間とロボットの真の協力は不可能であり、このようなシステムで作業する利点は、その可能性を最大限に発揮できないという共通点がある。
ヒトとロボットの協調シナリオでは、ロボットの動作をオペレーターや現在の状況に適応させる、より洗練されたソリューションが必要である。
最も重要なことは、自由ロボット運動の間、物理的接触は意味のある相互作用を許容し、衝突として認識されないことである。
しかし、今後のシステムにとって重要な課題は、ロボットのプロプリセプションと機械学習アルゴリズムを使って人間の接触を検出することだ。
この研究はDeep Metric Learning(DML)アプローチを用いて、非接触ロボットの動き、物理的人間とロボットの相互作用を目的とした意図的な接触、衝突状況の区別を行う。
得られた結果は有望であり、DMLが98.6\%の精度を達成していることを示し、これは既存の標準(DMLなしで訓練されたディープラーニングネットワーク)よりも4\%高い。
また、対象ロボットデータでモデルを再訓練することなく接触(非接触・意図的・偶発的接触の識別)を検出することにより、他のロボット(ターゲットロボット)に容易に移植できる有望な一般化能力を示す。 Direct physical interaction with robots is becoming increasingly important in flexible production scenarios, but robots without protective fences also pose a greater risk to the operator. In order to keep the risk potential low, relatively simple measures are prescribed for operation, such as stopping the robot if there is physical contact or if a safety distance is violated. Although human injuries can be largely avoided in this way, all such solutions have in common that real cooperation between humans and robots is hardly possible and therefore the advantages of working with such systems cannot develop its full potential. In human-robot collaboration scenarios, more sophisticated solutions are required that make it possible to adapt the robot's behavior to the operator and/or the current situation. Most importantly, during free robot movement, physical contact must be allowed for meaningful interaction and not recognized as a collision. However, here lies a key challenge for future systems: detecting human contact by using robot proprioception and machine learning algorithms. This work uses the Deep Metric Learning (DML) approach to distinguish between non-contact robot movement, intentional contact aimed at physical human-robot interaction, and collision situations. The achieved results are promising and show show that DML achieves 98.6\% accuracy, which is 4\% higher than the existing standards (i.e. a deep learning network trained without DML). It also indicates a promising generalization capability for easy portability to other robots (target robots) by detecting contact (distinguishing between contactless and intentional or accidental contact) without having to retrain the model with target robot data. | 翻訳日:2023-02-24 15:34:09 公開日:2023-02-23 |
# 完全二部グラフ上の高忠実性量子状態伝達アルゴリズム A high-fidelity quantum state transfer algorithm on the complete bipartite graph ( http://arxiv.org/abs/2302.11931v1 ) ライセンス: Link先を確認 | Dan Li, Jia-Ni Huang, Yu-Qian Zhou and Yu-Guang Yang | (参考訳) 高忠実度量子状態転送は、量子通信とスケーラブルな量子計算に不可欠である。
離散時間量子ウォーク探索アルゴリズムに基づく完全二部グラフ上の現在の量子状態伝達アルゴリズムは、場合によっては低忠実度に悩まされる。
そこで本研究では,完全二部グラフ上での2段階の量子状態伝達アルゴリズムを提案する。
このアルゴリズムは1つのマークされた頂点を持つ一般化グローバーウォークによって達成される。
一般化されたグローバー・ウォークのコイン演算子とクエリオラクルはどちらもパラメトリックユニタリ行列であり、送信機と受信機の位置と完全な二部グラフのサイズに基づいて柔軟に設計される。
我々は、アルゴリズムの忠実度が1-2\epsilon_{1}-\epsilon_{2}-2\sqrt{2}\sqrt{\epsilon_{1}\epsilon_{2}}$または1-(2+2\sqrt{2})\epsilon_{1}-\epsilon_{2}-(2+2\sqrt{2})\sqrt{\epsilon_{1}\epsilon_{2}}$より大きいことを証明している。
このアルゴリズムは、任意の場合において完全二部グラフ上で高忠実な量子状態移動を達成するための新しいアプローチを提供し、量子情報処理の潜在的応用を提供する。 High-fidelity quantum state transfer is critical for quantum communication and scalable quantum computation. Current quantum state transfer algorithms on the complete bipartite graph, which are based on discrete-time quantum walk search algorithms, suffer from low fidelity in some cases. To solve this problem, in this paper we propose a two-stage quantum state transfer algorithm on the complete bipartite graph. The algorithm is achieved by the generalized Grover walk with one marked vertex. The generalized Grover walk's coin operators and the query oracles are both parametric unitary matrices, which are designed flexibly based on the positions of the sender and receiver and the size of the complete bipartite graph. We prove that the fidelity of the algorithm is greater than $1-2\epsilon_{1}-\epsilon_{2}-2\sqrt{2}\sqrt{\epsilon_{1}\epsilon_{2}}$ or $1-(2+2\sqrt{2})\epsilon_{1}-\epsilon_{2}-(2+2\sqrt{2})\sqrt{\epsilon_{1}\epsilon_{2}}$ for any adjustable parameters $\epsilon_{1}$ and $\epsilon_{2}$ when the sender and receiver are in the same partition or different partitions of the complete bipartite graph. The algorithm provides a novel approach to achieve high-fidelity quantum state transfer on the complete bipartite graph in any case, which will offer potential applications for quantum information processing. | 翻訳日:2023-02-24 15:33:41 公開日:2023-02-23 |
# 画像時系列間の解剖学的変動を比較する指標 A metric to compare the anatomy variation between image time series ( http://arxiv.org/abs/2302.11929v1 ) ライセンス: Link先を確認 | Alphin J Thottupattu, Jayanthi Sivaswamy | (参考訳) 成長、老化、疾患の進行といった生物学的プロセスは、一般的に異なる時点、すなわち画像時系列(TS)に基づく分析で観察される。
2つの個体/集団の生物学的過程を表すTSの比較は興味深い。
このような比較には、TS間の差を定量化する計量が望ましい。
2つのTSは、2つの異なる主題/集団平均解剖の進化を表す。
本稿では, ts間の経路を解き, 定量化し, サブジェクト間解剖学的(形状)差を求める。
提案した計量は、曲線を比較するために設計された Fr\'echet 距離の一般化版である。
提案法をシミュレートおよび成人および胎児神経テンプレートを用いて評価した。
その結果、計量はTS間の経路と形状の違いを分離し定量化できることがわかった。 Biological processes like growth, aging, and disease progression are generally studied with follow-up scans taken at different time points, i.e., with image time series (TS) based analysis. Comparison between TS representing a biological process of two individuals/populations is of interest. A metric to quantify the difference between TS is desirable for such a comparison. The two TS represent the evolution of two different subject/population average anatomies through two paths. A method to untangle and quantify the path and inter-subject anatomy(shape) difference between the TS is presented in this paper. The proposed metric is a generalized version of Fr\'echet distance designed to compare curves. The proposed method is evaluated with simulated and adult and fetal neuro templates. Results show that the metric is able to separate and quantify the path and shape differences between TS. | 翻訳日:2023-02-24 15:33:06 公開日:2023-02-23 |
# Metropolis-adjusted Langevin アルゴリズムによる制約の効率的な処理 Efficiently handling constraints with Metropolis-adjusted Langevin algorithm ( http://arxiv.org/abs/2302.11971v1 ) ライセンス: Link先を確認 | Jinyuan Chang, Cheng Yong Tang, Yuanzheng Zhu | (参考訳) 本研究では,対象分布のサポートに制約のある設定において,メトロポリス調整ランジュバンアルゴリズムの性能について検討する。
得られたマルコフ鎖の厳密な解析を行い、その収束を確立し、混合時間に対して上界を導出する。
以上の結果から,メトロポリス調整型ランゲヴィンアルゴリズムは,この課題に対処する上で極めて有効であることが示される: 得られた混合時間境界は,アセプション・リジェクトのステップを使わずに競合するアルゴリズムの最もよく知られた境界よりも優れている。
我々の数値実験は,これらの理論的な知見を裏付けるものであり,メトロポリス調整ランジュバンアルゴリズムは,対象分布の制約を扱う際に有望な性能を示す。 In this study, we investigate the performance of the Metropolis-adjusted Langevin algorithm in a setting with constraints on the support of the target distribution. We provide a rigorous analysis of the resulting Markov chain, establishing its convergence and deriving an upper bound for its mixing time. Our results demonstrate that the Metropolis-adjusted Langevin algorithm is highly effective in handling this challenging situation: the mixing time bound we obtain is superior to the best known bounds for competing algorithms without an accept-reject step. Our numerical experiments support these theoretical findings, indicating that the Metropolis-adjusted Langevin algorithm shows promising performance when dealing with constraints on the support of the target distribution. | 翻訳日:2023-02-24 15:26:34 公開日:2023-02-23 |
# ArtiFact: 汎用・ロバスト合成画像検出のための人工・実画像付き大規模データセット ArtiFact: A Large-Scale Dataset with Artificial and Factual Images for Generalizable and Robust Synthetic Image Detection ( http://arxiv.org/abs/2302.11970v1 ) ライセンス: Link先を確認 | Md Awsafur Rahman, Bishmoy Paul, Najibul Haque Sarker, Zaber Ibn Abdul Hakim, Shaikh Anowarul Fattah | (参考訳) 合成画像生成は新しい機会を開いたが、プライバシー、信頼性、セキュリティに関する脅威も生み出した。
偽画像の検出は違法な活動を防ぐために最重要であり、以前の研究では、生成モデルはそれらを検出するために利用される合成画像にユニークなパターンを残すことが示されている。
しかし、一般化の根本的な問題は依然として残っており、最先端の検出器でさえ、訓練中に決して見えない発電機に直面すると困難に直面する。
実世界の障害に直面した合成画像検出器の一般化性とロバスト性を評価するため,多種多様なジェネレータ,オブジェクトカテゴリ,実世界の課題からなる大規模データセットArtiFactを提案する。
さらに,マルチクラス分類手法とフィルタストライド低減戦略を組み合わせることで,社会的プラットフォーム障害に対処し,目に見えない生成物から合成画像を検出する。
提案されたソリューションは、テスト1で8.34%、テスト2で1.26%、ICIP 2022のIEEE VIP CUPでテスト3で15.08%、他のチームを上回っている。 Synthetic image generation has opened up new opportunities but has also created threats in regard to privacy, authenticity, and security. Detecting fake images is of paramount importance to prevent illegal activities, and previous research has shown that generative models leave unique patterns in their synthetic images that can be exploited to detect them. However, the fundamental problem of generalization remains, as even state-of-the-art detectors encounter difficulty when facing generators never seen during training. To assess the generalizability and robustness of synthetic image detectors in the face of real-world impairments, this paper presents a large-scale dataset named ArtiFact, comprising diverse generators, object categories, and real-world challenges. Moreover, the proposed multi-class classification scheme, combined with a filter stride reduction strategy addresses social platform impairments and effectively detects synthetic images from both seen and unseen generators. The proposed solution outperforms other teams by 8.34% on Test 1, 1.26% on Test 2, and 15.08% on Test 3 in the IEEE VIP CUP at ICIP 2022. | 翻訳日:2023-02-24 15:26:21 公開日:2023-02-23 |
# 車両通信におけるQoS予測の話:無線環境統計からネットワーク・アクセス・スループット予測へ The Story of QoS Prediction in Vehicular Communication: From Radio Environment Statistics to Network-Access Throughput Prediction ( http://arxiv.org/abs/2302.11966v1 ) ライセンス: Link先を確認 | Alexandros Palaios, Christian L. Vielhaus, Daniel F. K\"ulzer, Cara Watermann, Rodrigo Hernangomez, Sanket Partani, Philipp Geuer, Anton Krause, Raja Sattiraju, Martin Kasparick, Gerhard Fettweis, Frank H. P. Fitzek, Hans D. Schotten, and Slawomir Stanczak | (参考訳) セルラーネットワークが第6世代(6G)へと進化するにつれて、機械学習(ML)はネットワークの能力を改善するための重要な技術であると見なされる。
mlは予測システムのための方法論を提供し、それによってネットワークを積極的なものにすることができる。
このネットワークの積極的な振る舞いは、例えば、特定のQuality of Service(QoS)要件を持続するために利用することができる。
pqos(predictive quality of service)では,特に自動車分野において,安全とエンタテインメントの両方に関わる,さまざまな新しいユースケースが登場している。
そこで本研究では,ストリーミングアプリケーションやhdマッピングアプリケーションなど,スループットの最大予測を考察する。
本稿では、詳細なサンプリング手順、データセット特性の詳細な分析、提供された結果における分割の影響、データ可用性など、考慮されていない側面を強調したMLワークフロー全体について論じる。
信頼性の高いMLモデルは、ライフサイクル中に多くの課題に直面しなければなりません。
収集したデータの基盤となる特性をより深く理解することで、MLテクノロジ上に信頼性を構築することができるかを強調します。
特徴工学と異なる分割がトレーニングプロセスに与える影響について論じ、ランダムな分割が2倍以上の性能を過大評価することを示した。
さらに,ネットワーク情報が最も有効であることが判明した多様な入力特徴集合を調査し,誤りを半分に削減した。
私たちのコントリビューションのひとつは、さまざまなシナリオにおける複数のMLモデルの検証です。
また、明示可能なAI(XAI)を使用して、MLが明示的にプログラムされることなく、無線ネットワークの基本原理を学習できることを示します。
私たちのデータは、計測チームの完全なコントロール下にあるデプロイネットワークから収集され、さまざまな車両シナリオと無線環境をカバーしています。 As cellular networks evolve towards the 6th Generation (6G), Machine Learning (ML) is seen as a key enabling technology to improve the capabilities of the network. ML provides a methodology for predictive systems, which, in turn, can make networks become proactive. This proactive behavior of the network can be leveraged to sustain, for example, a specific Quality of Service (QoS) requirement. With predictive Quality of Service (pQoS), a wide variety of new use cases, both safety- and entertainment-related, are emerging, especially in the automotive sector. Therefore, in this work, we consider maximum throughput prediction enhancing, for example, streaming or HD mapping applications. We discuss the entire ML workflow highlighting less regarded aspects such as the detailed sampling procedures, the in-depth analysis of the dataset characteristics, the effects of splits in the provided results, and the data availability. Reliable ML models need to face a lot of challenges during their lifecycle. We highlight how confidence can be built on ML technologies by better understanding the underlying characteristics of the collected data. We discuss feature engineering and the effects of different splits for the training processes, showcasing that random splits might overestimate performance by more than twofold. Moreover, we investigate diverse sets of input features, where network information proved to be most effective, cutting the error by half. Part of our contribution is the validation of multiple ML models within diverse scenarios. We also use Explainable AI (XAI) to show that ML can learn underlying principles of wireless networks without being explicitly programmed. Our data is collected from a deployed network that was under full control of the measurement team and covered different vehicular scenarios and radio environments. | 翻訳日:2023-02-24 15:26:01 公開日:2023-02-23 |
# 説明の一般化可能性 The Generalizability of Explanations ( http://arxiv.org/abs/2302.11965v1 ) ライセンス: Link先を確認 | Hanxiao Tan | (参考訳) 根拠がないため、説明可能性法を客観的に評価することが本質的な研究の方向性である。
これまでの評価の大部分は、人間の評価、感度テスト、塩分濃度チェックの3つのカテゴリにまとめることができる。
本稿では,一般化可能性の観点から新しい評価手法を提案する。
自動エンコーダを用いて,生成した説明の分布を学習し,その学習可能性と学習した分布特性の妥当性を観察する。
まず,提案手法の評価アイデアをlimeで簡潔に示し,その後,複数の一般的な説明可能性法を定量的に評価した。
また、SmoothGradによる説明の平滑化は、説明の一般化可能性を大幅に向上させる。 Due to the absence of ground truth, objective evaluation of explainability methods is an essential research direction. So far, the vast majority of evaluations can be summarized into three categories, namely human evaluation, sensitivity testing, and salinity check. This work proposes a novel evaluation methodology from the perspective of generalizability. We employ an Autoencoder to learn the distributions of the generated explanations and observe their learnability as well as the plausibility of the learned distributional features. We first briefly demonstrate the evaluation idea of the proposed approach at LIME, and then quantitatively evaluate multiple popular explainability methods. We also find that smoothing the explanations with SmoothGrad can significantly enhance the generalizability of explanations. | 翻訳日:2023-02-24 15:25:30 公開日:2023-02-23 |
# 高速対人訓練における破滅的オーバーフィッティングの考察--自己適合の視点から Investigating Catastrophic Overfitting in Fast Adversarial Training: A Self-fitting Perspective ( http://arxiv.org/abs/2302.11963v1 ) ライセンス: Link先を確認 | Zhengbao He, Tao Li, Sizhe Chen and Xiaolin Huang | (参考訳) 高速対人訓練は、堅牢なネットワークを構築するための効率的なアプローチを提供するが、破滅的なオーバーフィッティング(CO)と呼ばれる深刻な問題に悩まされる可能性がある。
本稿では,fgsmの例を初めてデータ情報と自己情報に分離し,"自己適合"と呼ばれる興味深い現象を明らかにした。
自己適合、すなわちDNNは単段階摂動に埋め込まれた自己情報を学び、自然にCOが発生する。
自己適合が発生すると、ネットワークは明らかな「チャネル分化」現象を経験し、自己情報を認識するための畳み込みチャネルが支配的になり、一方、データ情報のチャンネルは抑圧される。
このようにして、ネットワークは十分な自己情報を持つ画像のみを認識することを学び、他の種類のデータに対する一般化能力を失う。
自己適合性に基づいて,COを緩和し,COを多段階対人訓練に拡張する既存手法に関する新たな知見を提供する。
本研究は, 対人訓練における自己学習のメカニズムを明らかにし, 異なる種類の情報を抑制してCOを緩和するための新たな視点を開く。 Although fast adversarial training provides an efficient approach for building robust networks, it may suffer from a serious problem known as catastrophic overfitting (CO), where the multi-step robust accuracy suddenly collapses to zero. In this paper, we for the first time decouple the FGSM examples into data-information and self-information, which reveals an interesting phenomenon called "self-fitting". Self-fitting, i.e., DNNs learn the self-information embedded in single-step perturbations, naturally leads to the occurrence of CO. When self-fitting occurs, the network experiences an obvious "channel differentiation" phenomenon that some convolution channels accounting for recognizing self-information become dominant, while others for data-information are suppressed. In this way, the network learns to only recognize images with sufficient self-information and loses generalization ability to other types of data. Based on self-fitting, we provide new insight into the existing methods to mitigate CO and extend CO to multi-step adversarial training. Our findings reveal a self-learning mechanism in adversarial training and open up new perspectives for suppressing different kinds of information to mitigate CO. | 翻訳日:2023-02-24 15:25:19 公開日:2023-02-23 |
# 確率および分散誘導立方体ニュートン法の統一収束理論 Unified Convergence Theory of Stochastic and Variance-Reduced Cubic Newton Methods ( http://arxiv.org/abs/2302.11962v1 ) ライセンス: Link先を確認 | El Mahdi Chayti and Nikita Doikov and Martin Jaggi | (参考訳) 確率的設定において広く知られている立方体-ニュートン法を研究し,ヘルパーフレームワークと呼ばれる分散還元を用いる一般的な枠組みを提案する。
これまでのすべての研究において、これらの手法は非常に大きなバッチ(勾配とヘッセンの両方)と様々な強い仮定で提案された。
本研究では,大規模なバッチを伴わずにそのようなメソッドを使用できる可能性を検討するとともに,すべてのメソッドが動作するのに十分な,非常に単純な仮定を用いる。
さらに,これらの手法を勾配支配関数に適用する。
一般の場合、収束(一階法に比較して)を近似局所最小値に改善し、勾配支配関数に対しては近似大域最小値に収束することを示す。 We study the widely known Cubic-Newton method in the stochastic setting and propose a general framework to use variance reduction which we call the helper framework. In all previous work, these methods were proposed with very large batches (both in gradients and Hessians) and with various and often strong assumptions. In this work, we investigate the possibility of using such methods without large batches and use very simple assumptions that are sufficient for all our methods to work. In addition, we study these methods applied to gradient-dominated functions. In the general case, we show improved convergence (compared to first-order methods) to an approximate local minimum, and for gradient-dominated functions, we show convergence to approximate global minima. | 翻訳日:2023-02-24 15:24:56 公開日:2023-02-23 |
# シャープ校正ガウス過程 Sharp Calibrated Gaussian Processes ( http://arxiv.org/abs/2302.11961v1 ) ライセンス: Link先を確認 | Alexandre Capone, Geoff Pleiss, Sandra Hirche | (参考訳) ガウス過程は様々な工学や科学的応用の主軸であるが、不確実性推定は頻繁な保証を満足せず、実際は誤解されることがある。
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに頼っている。
これを改善するために,バニラガウス過程の後方分散に着想を得た計算を用いて予測量子化を生成するキャリブレーション手法を提案するが,経験的キャリブレーション制約を満たすために選択された異なるハイパーパラメータセットを用いる。
これにより、既存のアプローチよりもかなり柔軟なキャリブレーションアプローチが得られる。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
さらに、校正回帰に使用される場合だけでなく、ベイズ最適化アルゴリズムの設計に報知する既存のアプローチよりも優れている。 While Gaussian processes are a mainstay for various engineering and scientific applications, the uncertainty estimates don't satisfy frequentist guarantees, and can be miscalibrated in practice. State-of-the-art approaches for designing calibrated models rely on inflating the Gaussian process posterior variance, which yields confidence intervals that are potentially too coarse. To remedy this, we present a calibration approach that generates predictive quantiles using a computation inspired by the vanilla Gaussian process posterior variance, but using a different set of hyperparameters, chosen to satisfy an empirical calibration constraint. This results in a calibration approach that is considerably more flexible than existing approaches. Our approach is shown to yield a calibrated model under reasonable assumptions. Furthermore, it outperforms existing approaches not only when employed for calibrated regression, but also to inform the design of Bayesian optimization algorithms. | 翻訳日:2023-02-24 15:24:43 公開日:2023-02-23 |
# 大規模言語モデルによる文の単純化 Sentence Simplification via Large Language Models ( http://arxiv.org/abs/2302.11957v1 ) ライセンス: Link先を確認 | Yutao Feng and Jipeng Qiang and Yun Li and Yunhao Yuan and Yi Zhu | (参考訳) 文の単純化は、複雑な文を本来の意味を保ちながら、より単純な文に言い換えることを目的としている。
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する能力を示した。
しかし、LLMが高品質な文単純化システムとして機能するかどうかはまだ分かっていない。
本研究では,LLMのゼロ/フェーショット学習能力を,複数のベンチマークテストセットで評価することにより実証的に解析する。
実験の結果,LLMは最先端の文単純化手法よりも優れており,人間のアノテーションと同等であると判断された。 Sentence Simplification aims to rephrase complex sentences into simpler sentences while retaining original meaning. Large Language models (LLMs) have demonstrated the ability to perform a variety of natural language processing tasks. However, it is not yet known whether LLMs can be served as a high-quality sentence simplification system. In this work, we empirically analyze the zero-/few-shot learning ability of LLMs by evaluating them on a number of benchmark test sets. Experimental results show LLMs outperform state-of-the-art sentence simplification methods, and are judged to be on a par with human annotators. | 翻訳日:2023-02-24 15:24:27 公開日:2023-02-23 |
# 潜在因子分析のためのアダム強化粒子群最適化器 An Adam-enhanced Particle Swarm Optimizer for Latent Factor Analysis ( http://arxiv.org/abs/2302.11956v1 ) ライセンス: Link先を確認 | Jia Chen, Renyu Zhang, Yuanyi Liu | (参考訳) 大規模な不完全行列から潜在的な情報を掘り出すことは、課題の重要な問題である。
潜時因子分析モデル(lfa)は潜時情報をアライズするために深く研究されている。
近年,Swarm Intelligence 関連 LFA モデルが提案され,高効率で LFA の最適化プロセス,すなわち Particle Swarm Optimization (PSO)-LFA モデルを改善するために広く採用されている。
しかし、pso-lfaモデルのハイパーパラメータは手動でチューニングしなければならないため、広く採用するには不都合であり、学習率を固定値として制限する。
この問題に対処するため,Adam-adjusting hyper-parameters PSOアルゴリズムを用いて潜在因子を改良したAdam-enhanced Hierarchical PSO-LFAモデルを提案する。
まず, 粒子に対するadamインクリメンタルベクトルを設計し, adam-enhanced evolution process を構成する。
第2に、提案したAdam強化PSOプロセスにより、ターゲット行列の潜伏因子を逐次精製する。
4つの実データセットに対する実験結果から,提案モデルがピアで高い予測精度を実現することを示す。 Digging out the latent information from large-scale incomplete matrices is a key issue with challenges. The Latent Factor Analysis (LFA) model has been investigated in depth to an alyze the latent information. Recently, Swarm Intelligence-related LFA models have been proposed and adopted widely to improve the optimization process of LFA with high efficiency, i.e., the Particle Swarm Optimization (PSO)-LFA model. However, the hyper-parameters of the PSO-LFA model have to tune manually, which is inconvenient for widely adoption and limits the learning rate as a fixed value. To address this issue, we propose an Adam-enhanced Hierarchical PSO-LFA model, which refines the latent factors with a sequential Adam-adjusting hyper-parameters PSO algorithm. First, we design the Adam incremental vector for a particle and construct the Adam-enhanced evolution process for particles. Second, we refine all the latent factors of the target matrix sequentially with our proposed Adam-enhanced PSO's process. The experimental results on four real datasets demonstrate that our proposed model achieves higher prediction accuracy with its peers. | 翻訳日:2023-02-24 15:24:17 公開日:2023-02-23 |
# 高精度潜時要因解析のための動的近傍粒子群最適化器 A Dynamic-Neighbor Particle Swarm Optimizer for Accurate Latent Factor Analysis ( http://arxiv.org/abs/2302.11954v1 ) ライセンス: Link先を確認 | Jia Chen, Yixian Chun, Yuanyi Liu, Renyu Zhang and Yang Hu | (参考訳) 高次元および不完全行列は、通常、多くの貴重な潜在情報を含むが、潜在因子分析モデルによってよく表される。
LFAモデルの性能は最適化プロセスに大きく依存している。
したがって、いくつかの先行研究では、lfaモデルの最適化プロセスを強化するために粒子群最適化を用いる。
しかし、Swarm内の粒子は静的な進化経路に従い、グローバルな最良の情報しか共有しないため、粒子の探索領域が最適以下の問題を引き起こす。
この問題に対処するため,本論文では,二つの主観を持つ動的近傍協調型階層型PSO強化LFAモデルを提案する。
まず、隣人が協力する戦略は、ランダムに選択された隣人の粒子の進化速度を高める。
第二に、ダイナミックなハイパーパラメータタニングである。
提案したDHPLモデルを評価するために,2つのベンチマークデータセットの大規模な実験を行った。
その結果、DHPL は HDI 行列を表す既存の PSO 内蔵 LFA モデルよりも高い精度を達成できることが示された。 High-Dimensional and Incomplete matrices, which usually contain a large amount of valuable latent information, can be well represented by a Latent Factor Analysis model. The performance of an LFA model heavily rely on its optimization process. Thereby, some prior studies employ the Particle Swarm Optimization to enhance an LFA model's optimization process. However, the particles within the swarm follow the static evolution paths and only share the global best information, which limits the particles' searching area to cause sub-optimum issue. To address this issue, this paper proposes a Dynamic-neighbor-cooperated Hierarchical PSO-enhanced LFA model with two-fold main ideas. First is the neighbor-cooperated strategy, which enhances the randomly chosen neighbor's velocity for particles' evolution. Second is the dynamic hyper-parameter tunning. Extensive experiments on two benchmark datasets are conducted to evaluate the proposed DHPL model. The results substantiate that DHPL achieves a higher accuracy without hyper-parameters tunning than the existing PSO-incorporated LFA models in representing an HDI matrix. | 翻訳日:2023-02-24 15:23:56 公開日:2023-02-23 |
# 伝統的対拡張文脈性:一方を拒絶しながら他方を受け入れることができない Traditional vs extended contextuality: Impossibility of accepting one while rejecting the other ( http://arxiv.org/abs/2302.11995v1 ) ライセンス: Link先を確認 | Ehtibar Dzhafarov and Janne V. Kujala | (参考訳) 文脈性(Contextuality)は、もともとランダム変数の連続的に連結されたシステム(外乱/信号のないシステム)に対してのみ定義された。
contextity-by-default theory (cbd) は任意のシステムに対する文脈性の概念の拡張を提供する。
このような拡張は時々懐疑的になる。
我々は, (a) 相互接続された任意のシステムに対して, (a) それらの要件が満たされるが, (2) ある種の不整合接続されたシステムに対して侵害されるような,一連の従属的要件(すなわち,その表現形式よりも概念そのものを扱うもの)を開発することができるか,という疑問を提起する。
このような要求の集合は、CbD だけでなく、CbD のような文脈性の拡張も不可能であることを示す。
これは任意の拡張文脈性理論 \T が、すべての系が一貫した連結である理論 \T' と文脈的に同値であるという事実から従う。
文脈同値性は次のように意味する: \T と \T' の系の間には、対応する系と \T' の系が、明確に定義された意味では、互いに単なる再構成であり、それらが文脈的または非文脈的であるような単射対応が存在する。 Contextuality was originally defined only for consistently connected systems of random variables (those without disturbance/signaling). Contextuality-by-Default theory (CbD) offers an extension of the notion of contextuality to arbitrary systems, by defining it in terms of the systems' couplings subject to certain constraints. Such extensions are sometimes met with skepticism. We pose the question of whether it is possible to develop a set of substantive requirements (i.e., those addressing a notion itself rather than its presentation form) such that (a) for any consistently connected system these requirements are satisfied, but (2) they are violated for some inconsistently connected systems. We show that no such set of requirements is possible, not only for CbD but for all possible CbD-like extensions of contextuality. This follows from the fact that any extended contextuality theory \T is contextually equivalent to a theory \T' in which all systems are consistently connected. The contextual equivalence means the following: there is a bijective correspondence between the systems in \T and \T' such that the corresponding systems in \T and \T' are, in a well-defined sense, mere reformulations of each other, and they are contextual or noncontextual together. | 翻訳日:2023-02-24 15:18:07 公開日:2023-02-23 |
# 拡散確率モデルを用いたメトリック指向音声強調 Metric-oriented Speech Enhancement using Diffusion Probabilistic Model ( http://arxiv.org/abs/2302.11989v1 ) ライセンス: Link先を確認 | Chen Chen, Yuchen Hu, Weiwei Weng, Eng Siong Chng | (参考訳) ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって監視されるノイズからクリーンへの変換の学習に焦点を当てている。
しかしながら、タスク固有の評価基準(例えば、PSSQ)は通常微分不可能であり、トレーニング基準で直接構築することはできない。
このトレーニング目標と評価基準のミスマッチは、おそらく準最適性能をもたらす。
そこで本研究では,拡散確率モデルにおける最近の進歩を活かし,その逆プロセスにメトリック指向学習戦略を統合する,mose(metric-oriented speech enhancement method)を提案する。
具体的には,評価基準を後方報酬として考慮し,その逆過程をメートル法化方向に導く,アクタ批判に基づくフレームワークを設計する。
実験結果から,MOSEは明らかにメトリック指向トレーニングの恩恵を受けており,すべての評価指標において生成基準を超越していることが示された。 Deep neural network based speech enhancement technique focuses on learning a noisy-to-clean transformation supervised by paired training data. However, the task-specific evaluation metric (e.g., PESQ) is usually non-differentiable and can not be directly constructed in the training criteria. This mismatch between the training objective and evaluation metric likely results in sub-optimal performance. To alleviate it, we propose a metric-oriented speech enhancement method (MOSE), which leverages the recent advances in the diffusion probabilistic model and integrates a metric-oriented training strategy into its reverse process. Specifically, we design an actor-critic based framework that considers the evaluation metric as a posterior reward, thus guiding the reverse process to the metric-increasing direction. The experimental results demonstrate that MOSE obviously benefits from metric-oriented training and surpasses the generative baselines in terms of all evaluation metrics. | 翻訳日:2023-02-24 15:17:24 公開日:2023-02-23 |
# 蒸留分別クラスタリングによる教師なしドメイン適応 Unsupervised Domain Adaptation via Distilled Discriminative Clustering ( http://arxiv.org/abs/2302.11984v1 ) ライセンス: Link先を確認 | Hui Tang, Yaowei Wang, and Kui Jia | (参考訳) 教師なしドメイン適応は、共通のラベル空間を共有するが、異なる分布に従うラベル付きソースドメインデータを与えられたラベル付きターゲットドメインで分類する問題に対処する。
最近の手法のほとんどは、2つのドメイン間の特徴分布を明示的に整列するアプローチを取っている。
異なるのは、ドメイン適応性の基本的な仮定に動機づけられ、近縁のラベル付きソースデータによって提供される強い特権情報によって、対象データの識別的クラスタリングとしてドメイン適応問題を再キャストする。
技術的には、ターゲットデータを適応的にフィルタリングするエントロピー最小化の頑健な変種、ソフトフィッシャーライクな基準、およびセントロイド分類によるクラスタ順序付けに基づくクラスタリング目的を用いる。
ターゲットクラスタリングのための識別源情報を抽出するために,ラベル付きソースデータよりも並列で教師付き学習目標を用いてネットワークを協調訓練することを提案する。
ドメイン適応のための蒸留分別クラスタリング法をDisClusterDAと呼ぶ。
また、disclusterdaの構成的目的がクラス的に純粋でコンパクトな機能分布をどのように学習するかを示す幾何学的直観を与える。
マルチソースドメイン適応データを含む5つの人気のあるベンチマークデータセットについて,注意深いアブレーション研究と広範な実験を行う。
一般的に使用されるバックボーンネットワークに基づいて、DisClusterDAはこれらのベンチマークで既存のメソッドより優れている。
また、DisClusterDAフレームワークでは、ドメイン間のクラスレベルの特徴分布の整合を明示的に学習する損失項を追加することで、適応性能に悪影響を及ぼすが、異なるアルゴリズムフレームワークでのより慎重な研究が実施される。 Unsupervised domain adaptation addresses the problem of classifying data in an unlabeled target domain, given labeled source domain data that share a common label space but follow a different distribution. Most of the recent methods take the approach of explicitly aligning feature distributions between the two domains. Differently, motivated by the fundamental assumption for domain adaptability, we re-cast the domain adaptation problem as discriminative clustering of target data, given strong privileged information provided by the closely related, labeled source data. Technically, we use clustering objectives based on a robust variant of entropy minimization that adaptively filters target data, a soft Fisher-like criterion, and additionally the cluster ordering via centroid classification. To distill discriminative source information for target clustering, we propose to jointly train the network using parallel, supervised learning objectives over labeled source data. We term our method of distilled discriminative clustering for domain adaptation as DisClusterDA. We also give geometric intuition that illustrates how constituent objectives of DisClusterDA help learn class-wisely pure, compact feature distributions. We conduct careful ablation studies and extensive experiments on five popular benchmark datasets, including a multi-source domain adaptation one. Based on commonly used backbone networks, DisClusterDA outperforms existing methods on these benchmarks. It is also interesting to observe that in our DisClusterDA framework, adding an additional loss term that explicitly learns to align class-level feature distributions across domains does harm to the adaptation performance, though more careful studies in different algorithmic frameworks are to be conducted. | 翻訳日:2023-02-24 15:17:09 公開日:2023-02-23 |
# きめ細かい物体のカテゴリーレベルの形状推定 Category-level Shape Estimation for Densely Cluttered Objects ( http://arxiv.org/abs/2302.11983v1 ) ライセンス: Link先を確認 | Zhenyu Wu, Ziwei Wang, Jiwen Lu and Haibin Yan | (参考訳) 密集したクラッタ内の物体の形状を正確に推定することは、ロボットのパッキングに重要な役割を果たす。
しかし、充填物は通常、激しい閉塞を伴う密集したクラッタに積み重ねられ、同じカテゴリーの異なる事例で物体の形が著しく変化する。
これらはそれぞれ、大きなオブジェクトのセグメンテーションエラーと不正確なシェープリカバリを引き起こし、デプロイメント中のシェイプ推定のパフォーマンスを低下させる。
本稿では,密集した物体に対するカテゴリレベルの形状推定手法を提案する。
本フレームワークは,多視点視覚情報融合により各オブジェクトを分割して高いセグメンテーション精度を達成し,様々な幾何学的変換でカテゴリテンプレートを変形してインスタンス形状を復元し,拡張された一般化能力を得る。
具体的には,まず,オブジェクトクラッタの多視点rgb-d画像を収集し,ポイントクラウド再構成を行う。
次に、多視点RGB画像の視覚情報を表す特徴マップと、取得した多視点RGB画像のインスタンスセグメンテーションマスクを投影して、クラッタ点クラウドを分割するクラッタ点クラウドから学習した画素親和性とを融合する。
最後に、部分的に観察されたインスタンスポイントクラウドと対応するカテゴリテンプレートからインスタンス形状情報を取得し、テンプレートに関する変形パラメータを予測して形状推定を行う。
シミュレーション環境と実世界における実験により,様々な形状の密集した日常物体の形状推定精度が向上した。 Accurately estimating the shape of objects in dense clutters makes important contribution to robotic packing, because the optimal object arrangement requires the robot planner to acquire shape information of all existed objects. However, the objects for packing are usually piled in dense clutters with severe occlusion, and the object shape varies significantly across different instances for the same category. They respectively cause large object segmentation errors and inaccurate shape recovery on unseen instances, which both degrade the performance of shape estimation during deployment. In this paper, we propose a category-level shape estimation method for densely cluttered objects. Our framework partitions each object in the clutter via the multi-view visual information fusion to achieve high segmentation accuracy, and the instance shape is recovered by deforming the category templates with diverse geometric transformations to obtain strengthened generalization ability. Specifically, we first collect the multi-view RGB-D images of the object clutters for point cloud reconstruction. Then we fuse the feature maps representing the visual information of multi-view RGB images and the pixel affinity learned from the clutter point cloud, where the acquired instance segmentation masks of multi-view RGB images are projected to partition the clutter point cloud. Finally, the instance geometry information is obtained from the partially observed instance point cloud and the corresponding category template, and the deformation parameters regarding the template are predicted for shape estimation. Experiments in the simulated environment and real world show that our method achieves high shape estimation accuracy for densely cluttered everyday objects with various shapes. | 翻訳日:2023-02-24 15:16:42 公開日:2023-02-23 |
# Plotは1000ワードの価値:科学的なPlotによるモデル情報ステルス攻撃 A Plot is Worth a Thousand Words: Model Information Stealing Attacks via Scientific Plots ( http://arxiv.org/abs/2302.11982v1 ) ライセンス: Link先を確認 | Boyang Zhang, Xinlei He, Yun Shen, Tianhao Wang, Yang Zhang | (参考訳) 高度な機械学習(ML)モデルを構築するには、最高のアーキテクチャとハイパーパラメータ設定を見つけるためには、専門家の知識と多くの試行が必要だ。
以前の研究は、モデル情報を活用して、メンバーシップ推論、敵の例の生成など他の攻撃を支援することを実証している。
したがって、例えばハイパーパラメータなどの情報は秘密にしておく必要がある。
敵がターゲットのMLモデルの出力を利用してモデルの情報を盗むことはよく知られている。
本稿では,モデル情報盗用のための新たなサイドチャネル,すなわち,モデル性能の実証に広く用いられ,容易にアクセス可能なモデル科学的プロットを見出す。
私たちの攻撃は単純で簡単です。
我々は、画像分類器である攻撃モデルの訓練データを生成するために、影モデルトレーニング技術を利用する。
3つのベンチマークデータセットの大規模な評価から,提案した攻撃は,畳み込みニューラルネットワーク(CNN)に基づいて,画像分類器のアーキテクチャ/ハイパーパラメータを効果的に推測できることが示された。
また,攻撃の成功は主に科学的プロットの形状によるものであることを明らかにし,さらに様々なシナリオにおいて攻撃が堅牢であることを示す。
本研究は,攻撃手法の単純さと有効性から,科学的プロットがモデル情報盗難攻撃の有効なサイドチャネルとなっていることを示す。
攻撃を軽減するため,プロットユーティリティを維持しつつ,元の攻撃の精度を低減できる防御機構を提案する。
しかし、そのような防御は適応攻撃によって回避できる。 Building advanced machine learning (ML) models requires expert knowledge and many trials to discover the best architecture and hyperparameter settings. Previous work demonstrates that model information can be leveraged to assist other attacks, such as membership inference, generating adversarial examples. Therefore, such information, e.g., hyperparameters, should be kept confidential. It is well known that an adversary can leverage a target ML model's output to steal the model's information. In this paper, we discover a new side channel for model information stealing attacks, i.e., models' scientific plots which are extensively used to demonstrate model performance and are easily accessible. Our attack is simple and straightforward. We leverage the shadow model training techniques to generate training data for the attack model which is essentially an image classifier. Extensive evaluation on three benchmark datasets shows that our proposed attack can effectively infer the architecture/hyperparameters of image classifiers based on convolutional neural network (CNN) given the scientific plot generated from it. We also reveal that the attack's success is mainly caused by the shape of the scientific plots, and further demonstrate that the attacks are robust in various scenarios. Given the simplicity and effectiveness of the attack method, our study indicates scientific plots indeed constitute a valid side channel for model information stealing attacks. To mitigate the attacks, we propose several defense mechanisms that can reduce the original attacks' accuracy while maintaining the plot utility. However, such defenses can still be bypassed by adaptive attacks. | 翻訳日:2023-02-24 15:16:14 公開日:2023-02-23 |
# データシミュレーションによる教師なし雑音適応 Unsupervised Noise adaptation using Data Simulation ( http://arxiv.org/abs/2302.11981v1 ) ライセンス: Link先を確認 | Chen Chen, Yuchen Hu, Heqing Zou, Linhui Sun, Eng Siong Chng | (参考訳) 深層ニューラルネットワークに基づく音声強調手法は教師付き学習パラダイムを用いてノイズからクリーンへの変換を学習することを目的としている。
しかし、そのような訓練されたウェル変換は、トレーニングセットに含まれない目に見えないノイズに対して脆弱である。
本稿では,音声強調における教師なし雑音適応問題に焦点をあて,対象領域データの基底的真理が完全に利用できない場合について述べる。
具体的には,数分間の未ペア対象ドメインデータを用いて,逆クリーン・ノイズ変換を効率よく学習するための生成逆ネットワークに基づく手法を提案する。
そして、この変換を利用して、拡張モデルのドメイン適応に十分なシミュレーションデータを生成する。
実験の結果,本手法はトレーニングセットとテストセット間のドメインミスマッチを効果的に軽減し,最良ベースラインをはるかに超えることがわかった。 Deep neural network based speech enhancement approaches aim to learn a noisy-to-clean transformation using a supervised learning paradigm. However, such a trained-well transformation is vulnerable to unseen noises that are not included in training set. In this work, we focus on the unsupervised noise adaptation problem in speech enhancement, where the ground truth of target domain data is completely unavailable. Specifically, we propose a generative adversarial network based method to efficiently learn a converse clean-to-noisy transformation using a few minutes of unpaired target domain data. Then this transformation is utilized to generate sufficient simulated data for domain adaptation of the enhancement model. Experimental results show that our method effectively mitigates the domain mismatch between training and test sets, and surpasses the best baseline by a large margin. | 翻訳日:2023-02-24 15:15:51 公開日:2023-02-23 |
# 非線形確率システムのデータ駆動可観測性解析 Data-Driven Observability Analysis for Nonlinear Stochastic Systems ( http://arxiv.org/abs/2302.11979v1 ) ライセンス: Link先を確認 | Pierre-Fran\c{c}ois Massiani, Mona Buisson-Fenet, Friedrich Solowjow, Florent Di Meglio, Sebastian Trimpe | (参考訳) 可観測性と拡張性は力学系の重要な性質である。
これらの特性の確立は、特に分析モデルが利用できず、測定データから直接推測される場合、困難である。
ノイズの存在は、識別可能性の標準概念が決定論的システムに適合するので、この分析をさらに複雑にする。
確率システムの出力の分布を比較することで決定論的概念を拡張した分布微分可能性を構築した。
まず、両概念が線形システムを含むシステムのクラスに等価であることを示す。
次に,出力データから分布の識別性を評価・定量化する手法を提案する。
具体的には, 2 つの初期状態の区別に必要なデータ量を測定し, 識別可能性の連続スペクトルを誘導する。
2つの状態が高信頼で識別可能なしきい値を決定するための統計的テストを提案する。
シミュレーションで状態空間上の識別可能性マップを計算し,ハードウェア上のセンサ構成を比較することで,これらのツールを説明する。 Distinguishability and, by extension, observability are key properties of dynamical systems. Establishing these properties is challenging, especially when no analytical model is available and they are to be inferred directly from measurement data. The presence of noise further complicates this analysis, as standard notions of distinguishability are tailored to deterministic systems. We build on distributional distinguishability, which extends the deterministic notion by comparing distributions of outputs of stochastic systems. We first show that both concepts are equivalent for a class of systems that includes linear systems. We then present a method to assess and quantify distributional distinguishability from output data. Specifically, our quantification measures how much data is required to tell apart two initial states, inducing a continuous spectrum of distinguishability. We propose a statistical test to determine a threshold above which two states can be considered distinguishable with high confidence. We illustrate these tools by computing distinguishability maps over the state space in simulation, then leverage the test to compare sensor configurations on hardware. | 翻訳日:2023-02-24 15:15:37 公開日:2023-02-23 |
# ディープラーニングは抽象化を学ぶか?
体系的な調査枠組み Does Deep Learning Learn to Abstract? A Systematic Probing Framework ( http://arxiv.org/abs/2302.11978v1 ) ライセンス: Link先を確認 | Shengnan An, Zeqi Lin, Bei Chen, Qiang Fu, Nanning Zheng, Jian-Guang Lou | (参考訳) 抽象化は、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用する、ディープラーニングモデルにとって望ましい機能である。
同時に、ディープラーニングモデルにおけるこの能力の存在とさらなる特性の両方について明確な理解が欠如している。
本稿では,トランスファービリティの観点からディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
この枠組みに基づいて一連の制御実験を行い、2つの探索済み事前学習言語モデル(PLM)、T5、GPT2が抽象化能力を持つことを示す。
We also conduct in-depth analysis, thus shedding further light: (1) the whole training phase exhibits a "memorize-then-abstract" two-stage process; (2) the learned abstract concepts are gathered in a few middle-layer attention heads, rather than being evenly distributed throughout the model; (3) the probed abstraction capabilities exhibit robustness against concept mutations, and are more robust to low-level/source-side mutations than high-level/target-side ones; (4) generic pre-training is critical to the emergence of abstraction capability, and PLMs exhibit better abstraction with larger model sizes and data scales. Abstraction is a desirable capability for deep learning models, which means to induce abstract concepts from concrete instances and flexibly apply them beyond the learning context. At the same time, there is a lack of clear understanding about both the presence and further characteristics of this capability in deep learning models. In this paper, we introduce a systematic probing framework to explore the abstraction capability of deep learning models from a transferability perspective. A set of controlled experiments are conducted based on this framework, providing strong evidence that two probed pre-trained language models (PLMs), T5 and GPT2, have the abstraction capability. We also conduct in-depth analysis, thus shedding further light: (1) the whole training phase exhibits a "memorize-then-abstract" two-stage process; (2) the learned abstract concepts are gathered in a few middle-layer attention heads, rather than being evenly distributed throughout the model; (3) the probed abstraction capabilities exhibit robustness against concept mutations, and are more robust to low-level/source-side mutations than high-level/target-side ones; (4) generic pre-training is critical to the emergence of abstraction capability, and PLMs exhibit better abstraction with larger model sizes and data scales. | 翻訳日:2023-02-24 15:15:21 公開日:2023-02-23 |
# LightCTS: 関連時系列予測のための軽量フレームワーク LightCTS: A Lightweight Framework for Correlated Time Series Forecasting ( http://arxiv.org/abs/2302.11974v1 ) ライセンス: Link先を確認 | Zhichen Lai, Dalin Zhang, Huan Li, Christian S. Jensen, Hua Lu, Yan Zhao | (参考訳) 関連時系列予測(CTS)は,交通管理やサーバ負荷制御など,多くの実用アプリケーションにおいて重要な役割を担っている。
CTS予測の精度を向上させるために、多くのディープラーニングモデルが提案されている。
しかし、モデルはますます複雑で計算集約的になりつつあり、精度の向上に苦慮している。
この研究の目的は、リソース制約のあるデバイスにデプロイしながら精度を保ちながら、はるかに効率的で軽量なモデルを実現することである。
この目的を達成するために、一般的なCTS予測モデルを特徴付け、軽量CTS予測の方向を示す2つの観測結果を得る。
そこで本研究では,計算コストがはるかに高い交互積み重ねではなく,時間演算子と空間演算子の平易な積み重ねを採用するlightctsフレームワークを提案する。
さらに、LightCTSはL-TCNとGL-Formerと呼ばれる軽量時空間演算モジュールを備えており、特徴抽出能力を向上することなく計算効率を向上させる。
LightCTSはまた、余分な時間的特徴を減らし、その後の計算を高速化する最後の圧縮スキームを含んでいる。
シングルステップおよびマルチステップの予測ベンチマークデータセットによる実験では、LightCTSは計算とストレージのオーバーヘッドを大幅に削減して、ほぼ最先端の精度を実現できることが示された。 Correlated time series (CTS) forecasting plays an essential role in many practical applications, such as traffic management and server load control. Many deep learning models have been proposed to improve the accuracy of CTS forecasting. However, while models have become increasingly complex and computationally intensive, they struggle to improve accuracy. Pursuing a different direction, this study aims instead to enable much more efficient, lightweight models that preserve accuracy while being able to be deployed on resource-constrained devices. To achieve this goal, we characterize popular CTS forecasting models and yield two observations that indicate directions for lightweight CTS forecasting. On this basis, we propose the LightCTS framework that adopts plain stacking of temporal and spatial operators instead of alternate stacking that is much more computationally expensive. Moreover, LightCTS features light temporal and spatial operator modules, called L-TCN and GL-Former, that offer improved computational efficiency without compromising their feature extraction capabilities. LightCTS also encompasses a last-shot compression scheme to reduce redundant temporal features and speed up subsequent computations. Experiments with single-step and multi-step forecasting benchmark datasets show that LightCTS is capable of nearly state-of-the-art accuracy at much reduced computational and storage overheads. | 翻訳日:2023-02-24 15:15:05 公開日:2023-02-23 |
# 量子散逸とヴィリアル定理 Quantum dissipation and the virial theorem ( http://arxiv.org/abs/2302.12008v1 ) ライセンス: Link先を確認 | Aritra Ghosh, Malay Bandyopadhyay | (参考訳) 本稿では,古典系と量子系の両方の散逸系に対する有望な仮想定理について考察する。
古典的な定式化を議論し、ランダムな力(ノイズ)の興味深い効果をヴィリアル定理の文脈で明示する。
その後、散逸量子発振器、すなわち量子熱浴と結合した量子発振器に対する一般化されたビリアル定理を導出する。
このような熱浴は、初期状態の一定の分布を持つ独立調和振動子の無限集合としてモデル化される。
この状況では、量子ノイズの非マルコフ的性質は、ヴィリアル定理において新しい入浴誘導項をもたらす。
また,熱雑音を有する電気回路の場合を考察し,ビリアル定理の文脈における非マルコフ量子ノイズの役割を解析する。 In this short note, we study the celebrated virial theorem for dissipative systems, both classical and quantum. The classical formulation is discussed and an intriguing effect of the random force (noise) is made explicit in the context of the virial theorem. Subsequently, we derive a generalized virial theorem for a dissipative quantum oscillator, i.e. a quantum oscillator coupled with a quantum heat bath. Such a heat bath is modelled as an infinite collection of independent harmonic oscillators with a certain distribution of initial conditions. In this situation, the non-Markovian nature of the quantum noise leads to novel bath-induced terms in the virial theorem. We also consider the case of an electrical circuit with thermal noise and analyze the role of non-Markovian quantum noise in the context of the virial theorem. | 翻訳日:2023-02-24 15:07:06 公開日:2023-02-23 |
# K-SHAP:匿名状態対応ペアのためのポリシークラスタリングアルゴリズム K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs ( http://arxiv.org/abs/2302.11996v1 ) ライセンス: Link先を確認 | Andrea Coletta, Svitlana Vyetrenko, Tucker Balch | (参考訳) 観察データからエージェントの行動を学ぶことで、意思決定プロセスの理解が向上し、環境や他のエージェントとの相互作用を説明する能力が向上した。
複数の学習手法が文献で提案されているが、まだ研究されていない特定の設定が一つある: エージェントのアイデンティティが匿名のままであるマルチエージェントシステム。
例えば、市場参加者戦略を特定するラベル付きデータは通常、プロプライエタリであり、複数の市場参加者のインタラクションから生じる匿名のステートアクションペアのみが公開されています。
その結果、エージェントアクションのシーケンスは観測不能となり、既存の作業の適用性が制限される。
本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するK-SHAPと呼ばれるポリシークラスタリングアルゴリズムを提案する。
我々は、問題を模倣学習(il)タスクとして捉え、異なる環境状態における全てのエージェントの振る舞いを模倣できる世界政治を学ぶ。
我々は,shap(shapley additive descriptions)と呼ばれる付加的特徴帰属法を用いて,各匿名観察を説明するために,世界政治を利用する。
最後に,これらの説明をクラスタリングすることで,異なるエージェントポリシーやグループ観察を識別できることを示す。
シミュレーションされた市場データと実世界の金融データセットに対するアプローチを評価した。
我々は,提案手法が既存の手法を著しくかつ一貫して上回り,異なるエージェント戦略を特定していることを示す。 Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies. | 翻訳日:2023-02-24 15:05:32 公開日:2023-02-23 |
# SPINDLE: 生テキストをグラフアテンションでLambda用語に紡ぐ SPINDLE: Spinning Raw Text into Lambda Terms with Graph Attention ( http://arxiv.org/abs/2302.12050v1 ) ライセンス: Link先を確認 | Konstantinos Kogkalidis, Michael Moortgat, Richard Moot | (参考訳) 本稿では, 原文入力を, {\lambda} で表現された意味合成のためのプログラムに変換する, オランダ語に対する効率的かつ正確なパーサを実装したオープンソースの Python モジュール SPINDLE について述べる。
パーサーは近年の多くの画期的な進歩を統合している。
その出力は多様型論理文法のhi-res導出から成り、構文の2つの直交軸、すなわち深い機能的構造と依存関係の関係を捉えている。
これらは、3つの相互依存システムによって生成される: 文法解析の整形性を主張する静的型チェッカー、異種グラフの畳み込みに基づく最先端で構造的に認識可能なスーパータガー、シンクホーン反復に基づく大規模並列証明探索コンポーネント。
ソフトウェアに詰め込まれているのは、エンドユーザーの利用を容易にするために、証明の可視化と推論のための便利なユーティリティと余分な機能である。 This paper describes SPINDLE - an open source Python module implementing an efficient and accurate parser for written Dutch that transforms raw text input to programs for meaning composition, expressed as {\lambda} terms. The parser integrates a number of breakthrough advances made in recent years. Its output consists of hi-res derivations of a multimodal type-logical grammar, capturing two orthogonal axes of syntax, namely deep function-argument structures and dependency relations. These are produced by three interdependent systems: a static type-checker asserting the well-formedness of grammatical analyses, a state-of-the-art, structurally-aware supertagger based on heterogeneous graph convolutions, and a massively parallel proof search component based on Sinkhorn iterations. Packed in the software are also handy utilities and extras for proof visualization and inference, intended to facilitate end-user utilization. | 翻訳日:2023-02-24 14:59:36 公開日:2023-02-23 |
# インクリメンタル設定による自動音声認識の評価 Evaluating Automatic Speech Recognition in an Incremental Setting ( http://arxiv.org/abs/2302.12049v1 ) ライセンス: Link先を確認 | Ryan Whetten, Mir Tahsin Imtiaz, Casey Kennington | (参考訳) 自動音声認識の信頼性が高まり、日常的利用が拡大している。
しかし、研究目的において、どのモデルでタスクを選択するべきかは、特にスピードと精度の要件がある場合、しばしば不明確である。
本稿では, 単語誤り率, 遅延, 既に認識されている単語の英語テストデータへの更新回数などの指標を用いて, 6つの音声認識器を体系的に評価し, インクリメンタル認識のための2つの手法の提案と比較を行った。
さらに,インクリメンタルな認識を評価するための新たな指標として,毎秒のリボケを提案するとともに,モデル全体のパフォーマンスに関する洞察を提供することを実証する。
一般的に、ローカルの認識器はより高速で、クラウドベースの認識器よりも少ない更新を必要とする。
最後に、metaのwav2vecモデルは最速で、mozillaのdeepspeechモデルは予測の中で最も安定していると思います。 The increasing reliability of automatic speech recognition has proliferated its everyday use. However, for research purposes, it is often unclear which model one should choose for a task, particularly if there is a requirement for speed as well as accuracy. In this paper, we systematically evaluate six speech recognizers using metrics including word error rate, latency, and the number of updates to already recognized words on English test data, as well as propose and compare two methods for streaming audio into recognizers for incremental recognition. We further propose Revokes per Second as a new metric for evaluating incremental recognition and demonstrate that it provides insights into overall model performance. We find that, generally, local recognizers are faster and require fewer updates than cloud-based recognizers. Finally, we find Meta's Wav2Vec model to be the fastest, and find Mozilla's DeepSpeech model to be the most stable in its predictions. | 翻訳日:2023-02-24 14:59:17 公開日:2023-02-23 |
# ドメイン適応によるドメイン一般化:逆フーリエ振幅アプローチ Domain Generalisation via Domain Adaptation: An Adversarial Fourier Amplitude Approach ( http://arxiv.org/abs/2302.12047v1 ) ライセンス: Link先を確認 | Minyoung Kim, Da Li, Timothy Hospedales | (参考訳) 我々は、ドメイン適応(DA)タスクとしてドメイン一般化(DG)問題に取り組み、最悪の対象ドメインを逆向きに合成し、最悪の対象ドメインにモデルを適用することにより、モデルの堅牢性を向上させる。
セマンティクスの保存が難しいデータを合成するために、フーリエ振幅画像を生成し、それらをソース領域の位相画像と組み合わせ、振幅スペクトルが主に画像のスタイルを決定するという信号処理から広く信じられている予想を利用する。
適応のための最悪の領域を合成するために、分類器と振幅発生器を逆向きに訓練する。
具体的には、ターゲット領域の性能とモデル仮説空間における分類器の誤差を関連付けるDAから、最大分類器誤差(MCD)原理を利用する。
ベイズ仮説モデリングにより、原領域が与えられた分類器の後方分布としてモデル仮説空間を効果的に表現し、逆 MCD の最小化を実現する。
大規模DomainNetデータセットを含むDomainBedベンチマークでは、提案手法は最先端のドメイン一般化性能を大幅に向上させる。 We tackle the domain generalisation (DG) problem by posing it as a domain adaptation (DA) task where we adversarially synthesise the worst-case target domain and adapt a model to that worst-case domain, thereby improving the model's robustness. To synthesise data that is challenging yet semantics-preserving, we generate Fourier amplitude images and combine them with source domain phase images, exploiting the widely believed conjecture from signal processing that amplitude spectra mainly determines image style, while phase data mainly captures image semantics. To synthesise a worst-case domain for adaptation, we train the classifier and the amplitude generator adversarially. Specifically, we exploit the maximum classifier discrepancy (MCD) principle from DA that relates the target domain performance to the discrepancy of classifiers in the model hypothesis space. By Bayesian hypothesis modeling, we express the model hypothesis space effectively as a posterior distribution over classifiers given the source domains, making adversarial MCD minimisation feasible. On the DomainBed benchmark including the large-scale DomainNet dataset, the proposed approach yields significantly improved domain generalisation performance over the state-of-the-art. | 翻訳日:2023-02-24 14:59:00 公開日:2023-02-23 |
# アダプティブマスキングによる生成的感情伝達 Generative Sentiment Transfer via Adaptive Masking ( http://arxiv.org/abs/2302.12045v1 ) ライセンス: Link先を確認 | Yingze Xie, Jie Xu, LiQiang Qiao, Yun Liu, Feiren Huang, Chaozhuo Li | (参考訳) Sentiment Transferは、入力テキストを修正して、元のセマンティックコンテンツを保持しながら、与えられた感情の極性を満たすことを目的としている。
感情伝達の核心は、感情情報をコンテンツ情報から正確に分離することにある。
既存の明示的なアプローチは、単に事前の言語知識と手作業によるルールに基づいて感情トークンを識別し、マスクする。
本稿では,マスキング位置を学習可能なパラメータとして捉えるとともに,アテンション機構に基づいて適応型タスク関連マスクを学習する新しいam-stモデルを提案する。
さらに, 感情認識型マスク言語モデルを提案し, 文脈と感情の極性の両方を取り入れ, 包括的に多項目意味を捉えることにより, マスク位置の空白を埋める。
AM-STは2つの一般的なデータセットに対して徹底的に評価され,提案手法の優位性を示す実験結果が得られた。 Sentiment transfer aims at revising the input text to satisfy a given sentiment polarity while retaining the original semantic content. The nucleus of sentiment transfer lies in precisely separating the sentiment information from the content information. Existing explicit approaches generally identify and mask sentiment tokens simply based on prior linguistic knowledge and manually-defined rules, leading to low generality and undesirable transfer performance. In this paper, we view the positions to be masked as the learnable parameters, and further propose a novel AM-ST model to learn adaptive task-relevant masks based on the attention mechanism. Moreover, a sentiment-aware masked language model is further proposed to fill in the blanks in the masked positions by incorporating both context and sentiment polarity to capture the multi-grained semantics comprehensively. AM-ST is thoroughly evaluated on two popular datasets, and the experimental results demonstrate the superiority of our proposal. | 翻訳日:2023-02-24 14:58:37 公開日:2023-02-23 |
# うつ病早期発見のためのソーシャルメディアの探索 Exploring Social Media for Early Detection of Depression in COVID-19 Patients ( http://arxiv.org/abs/2302.12044v1 ) ライセンス: Link先を確認 | Jiageng Wu, Xian Wu, Yining Hua, Shixu Lin, Yefeng Zheng, Jie Yang | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界的な健康に深刻な打撃を与えた。
3年が経過したにもかかわらず、世界は引き続きウイルスと闘っている。
新型コロナウイルス(COVID-19)がうつ病を経験しやすく、感染した個人と世界の両方に長期にわたる影響をもたらす可能性がある個人のメンタルヘルスに影響を及ぼすとの懸念が高まっている。
早期発見と介入は、新型コロナウイルス患者のうつ病のリスクを減少させる可能性がある。
本稿では,ソーシャルメディア分析による新型コロナウイルス感染とうつ病との関連について検討した。
まず、感染前後のソーシャルメディア活動に関する情報を含む、新型コロナウイルス(covid-19)患者のデータセットを管理した。
第2に,うつ病リスクの高いCOVID-19患者の特徴を明らかにするために,このデータセットを広範囲に分析した。
第3に,抑うつリスクの早期予測のためのディープニューラルネットワークを提案する。
本モデルは,日常の気分変動を精神信号とみなし,知識蒸留による文章的・感情的特徴を取り入れたモデルである。
実験の結果,提案手法は抑うつリスクの検出において,auroc 0.9317,auprc 0.8116の基準値を上回ることがわかった。
我々のモデルは、公衆衛生機関が高リスク患者への迅速な介入を開始できる可能性を持っている The COVID-19 pandemic has caused substantial damage to global health. Even though three years have passed, the world continues to struggle with the virus. Concerns are growing about the impact of COVID-19 on the mental health of infected individuals, who are more likely to experience depression, which can have long-lasting consequences for both the affected individuals and the world. Detection and intervention at an early stage can reduce the risk of depression in COVID-19 patients. In this paper, we investigated the relationship between COVID-19 infection and depression through social media analysis. Firstly, we managed a dataset of COVID-19 patients that contains information about their social media activity both before and after infection. Secondly,We conducted an extensive analysis of this dataset to investigate the characteristic of COVID-19 patients with a higher risk of depression. Thirdly, we proposed a deep neural network for early prediction of depression risk. This model considers daily mood swings as a psychiatric signal and incorporates textual and emotional characteristics via knowledge distillation. Experimental results demonstrate that our proposed framework outperforms baselines in detecting depression risk, with an AUROC of 0.9317 and an AUPRC of 0.8116. Our model has the potential to enable public health organizations to initiate prompt intervention with high-risk patients | 翻訳日:2023-02-24 14:58:19 公開日:2023-02-23 |
# 会話エージェントと子ども:子どもに学習させよう Conversational Agents and Children: Let Children Learn ( http://arxiv.org/abs/2302.12043v1 ) ライセンス: Link先を確認 | Casey Kennington and Jerry Alan Fails and Katherine Landau Wright and Maria Soledad Pera | (参考訳) オンライン情報発見を事例として,本稿では,子どもが単にリソースを探すのではなく,オンラインリソースを追求する上で,意図せずともガイドできる(会話的)エージェントを設計,開発,展開する必要性について論じる。
エージェントは「子供たちに学習させる」べきであり、教師とファシリテーターの機能を身につけるために構築されるべきであり、子どもたちは幅広いユースケースで様々な技術と相互作用し、技術的かつ批判的な思考能力を開発することができる。 Using online information discovery as a case study, in this position paper we discuss the need to design, develop, and deploy (conversational) agents that can -- non-intrusively -- guide children in their quest for online resources rather than simply finding resources for them. We argue that agents should "let children learn" and should be built to take on a teacher-facilitator function, allowing children to develop their technical and critical thinking abilities as they interact with varied technology in a broad range of use cases. | 翻訳日:2023-02-24 14:58:00 公開日:2023-02-23 |
# モデリング前処理技術の比較 A Comparison of Modeling Preprocessing Techniques ( http://arxiv.org/abs/2302.12042v1 ) ライセンス: Link先を確認 | Tosan Johnson, Alice J. Liu, Syed Raza, Aaron McGuire | (参考訳) 本稿では,構造化データの予測性能の観点から様々なデータ処理手法の性能を比較する。
本稿では,eXtreme Gradient Boosting(XGBoost)モデルに着目し,ツリーベースバイナリ分類モデルの事前処理手法の同定と推奨を行う。
様々な構造、相互作用、複雑さの3つのデータセットが構築され、レンディングクラブの現実世界のデータセットによって補われた。
特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。
モデル予測変数を含む選択した手法の相対比較により性能を評価する。
本論文は,前処理方法論の3つのグループによって提示され,各セクションは一般化された観察によって構成される。
各観察には1つ以上の好ましい方法論が推奨されている。
特徴選択法のうち、置換に基づく特徴重要度、正規化、およびxgboostの特徴重要度は推奨されない。
相関係数の低減は性能の低下も示している。
代わりに、XGBoostの重要さは、最も一貫性があり、最高の性能を示している。
符号化手法の分類は、データセット構造間の性能の差別性を示す。
普遍的な `best'' 法は存在しなかったが、周波数符号化は最も複雑なデータセット (lending club) で最高の性能を示したが、すべての合成データセット (すなわち、より単純な) において最も低い性能を示した。
最後に,木インプテーションは極めて貧弱で可変なモデル性能を示したが,指標インプテーションの欠如はインプテーション法の性能の面で支配的であった。 This paper compares the performance of various data processing methods in terms of predictive performance for structured data. This paper also seeks to identify and recommend preprocessing methodologies for tree-based binary classification models, with a focus on eXtreme Gradient Boosting (XGBoost) models. Three data sets of various structures, interactions, and complexity were constructed, which were supplemented by a real-world data set from the Lending Club. We compare several methods for feature selection, categorical handling, and null imputation. Performance is assessed using relative comparisons among the chosen methodologies, including model prediction variability. This paper is presented by the three groups of preprocessing methodologies, with each section consisting of generalized observations. Each observation is accompanied by a recommendation of one or more preferred methodologies. Among feature selection methods, permutation-based feature importance, regularization, and XGBoost's feature importance by weight are not recommended. The correlation coefficient reduction also shows inferior performance. Instead, XGBoost importance by gain shows the most consistency and highest caliber of performance. Categorical featuring encoding methods show greater discrimination in performance among data set structures. While there was no universal ``best'' method, frequency encoding showed the greatest performance for the most complex data sets (Lending Club), but had the poorest performance for all synthetic (i.e., simpler) data sets. Finally, missing indicator imputation dominated in terms of performance among imputation methods, whereas tree imputation showed extremely poor and highly variable model performance. | 翻訳日:2023-02-24 14:57:50 公開日:2023-02-23 |
# 法領域における自然言語処理 Natural Language Processing in the Legal Domain ( http://arxiv.org/abs/2302.12039v1 ) ライセンス: Link先を確認 | Daniel Martin Katz, Dirk Hartung, Lauritz Gerlach, Abhik Jana, Michael J. Bommarito II | (参考訳) 本稿では,NLP & Lawの分野の現状を概説し,最近の技術・実体開発に焦点をあてる。
この分析を支援するために,過去10年間に発行された600以上のNLP & Law関連論文のほぼ完全なコーパスを構築し,分析した。
我々の分析はいくつかの主要な傾向を浮き彫りにしている。
すなわち、過去10年間にわたって書かれた論文やタスク、言語の増加を文書化しています。
この適用状況において研究者が展開する手法の高度化を観察する。
徐々に、そして確実に、法的なNLPは、一般的なNLPの方法論的洗練だけでなく、より広い科学コミュニティで観察されるデータ可用性とコード再現性の専門的な標準とも一致し始めている。
これらの傾向は、この分野の将来によく影響すると考えているが、学術分野と商業分野の双方ではまだ多くの疑問が残っている。 In this paper, we summarize the current state of the field of NLP & Law with a specific focus on recent technical and substantive developments. To support our analysis, we construct and analyze a nearly complete corpus of more than six hundred NLP & Law related papers published over the past decade. Our analysis highlights several major trends. Namely, we document an increasing number of papers written, tasks undertaken, and languages covered over the course of the past decade. We observe an increase in the sophistication of the methods which researchers deployed in this applied context. Slowly but surely, Legal NLP is beginning to match not only the methodological sophistication of general NLP but also the professional standards of data availability and code reproducibility observed within the broader scientific community. We believe all of these trends bode well for the future of the field, but many questions in both the academic and commercial sphere still remain open. | 翻訳日:2023-02-24 14:57:19 公開日:2023-02-23 |
# 流れの正規化のための次元の呪いについて On the curse of dimensionality for Normalizing Flows ( http://arxiv.org/abs/2302.12024v1 ) ライセンス: Link先を確認 | Andrea Coccaro and Marco Letizia and Humberto Reyes-Gonzalez and Riccardo Torre | (参考訳) 正規化フローは、複雑なターゲット分布の効率的なサンプリングを可能にするだけでなく、構築による密度推定も可能にするため、生成モデルの強力なブランドとして登場した。
本稿では, 実数値非体積保存 (RealNVP), Masked Autoregressive Flow (MAF), Coupling Rational Quadratic Spline (C-RQS), Autoregressive Rational Quadratic Spline (A-RQS) の4つの異なるアーキテクチャを考慮し, アフィン型と有理型2次スプライン型の結合と自己回帰型を詳細に比較する。
4次元から1000次元までの複雑さの増加の異なる対象分布に注目した。
性能は1次元のワッサーシュタイン距離、1次元のコルモゴロフ・スミルノフ試験、相関行列の差のフロベニウスノルム、およびトレーニング時間という異なる数値で議論される。
以上の結果から,A-RQSアルゴリズムは精度とトレーニング速度の両面で際立っていることがわかった。
それでも、すべてのアルゴリズムは、あまり微調整することなく、Tesla V100 GPU上で、限られたトレーニングデータと妥当な時間で、複雑なディストリビューションを学習することができる。
唯一の例外はC-RQSであり、訓練にかなり時間がかかり、必ずしも精度が良いとは限らない。
すべてのアルゴリズムはTensorFlow2とTensorFlow Probabilityを使用して実装され、GitHubで公開されている。 Normalizing Flows have emerged as a powerful brand of generative models, as they not only allow for efficient sampling of complicated target distributions, but also deliver density estimation by construction. We propose here an in-depth comparison of coupling and autoregressive flows, both of the affine and rational quadratic spline type, considering four different architectures: Real-valued Non-Volume Preserving (RealNVP), Masked Autoregressive Flow (MAF), Coupling Rational Quadratic Spline (C-RQS), and Autoregressive Rational Quadratic Spline (A-RQS). We focus on different target distributions of increasing complexity with dimensionality ranging from 4 to 1000. The performances are discussed in terms of different figures of merit: the one-dimensional Wasserstein distance, the one-dimensional Kolmogorov-Smirnov test, the Frobenius norm of the difference between correlation matrices, and the training time. Our results indicate that the A-RQS algorithm stands out both in terms of accuracy and training speed. Nonetheless, all the algorithms are generally able, without much fine-tuning, to learn complex distributions with limited training data and in a reasonable time, of the order of hours on a Tesla V100 GPU. The only exception is the C-RQS, which takes significantly longer to train, and does not always provide good accuracy. All algorithms have been implemented using TensorFlow2 and TensorFlow Probability and made available on GitHub. | 翻訳日:2023-02-24 14:56:44 公開日:2023-02-23 |
# ランダムな教師は良い教師です Random Teachers are Good Teachers ( http://arxiv.org/abs/2302.12091v1 ) ライセンス: Link先を確認 | Felix Sarnthein, Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann | (参考訳) 本研究では,教師・学生学習のダイナミクスによって引き起こされる暗黙の規則化について検討する。
その効果を分離するために,教師を訓練するのではなく,教師をランダムに初期化する簡単な実験を述べる。
驚くべきことに, 学生をそのような無作為な教師に蒸留する場合, 結果モデルとその表現は, 既に非常に興味深い特性を有しており, 1) 蒸留した生徒は, 調査精度の面では, 教師よりも強い改善が観察されている。
2)学習表現は異なるタスク間で高い転送性を持つが、ランダム入力でトレーニングすると強く低下する。
3)学生検問所は、いわゆる宝くじを見つけるために十分であり、すなわち、完全なネットワークと同じ性能を持つ、識別可能でスパースなネットワークを含んでいる。
これらの観察は,機械学習におけるいくつかの重要な領域において興味深い結果をもたらす: 1) 自己蒸留は,(1) テキストの知識に頼らずに勾配力学に存在する暗黙の正規化に基づいてのみ機能し,(2) 自己教師型学習はデータ拡張がなくても特徴を学習でき,(3) SGD は,バッチ注文に関して学生チェックポイントから初期化されると既に安定している。
最後に、損失の風景の興味深い局所的性質に光を当てた: 機能学習のプロセスは、生徒が教師と密接に初期化されると強く増幅されます。
これは、これまで未調査のままだった風景の性質に関する興味深い疑問を提起する。 In this work, we investigate the implicit regularization induced by teacher-student learning dynamics. To isolate its effect, we describe a simple experiment where instead of trained teachers, we consider teachers at random initialization. Surprisingly, when distilling a student into such a random teacher, we observe that the resulting model and its representations already possess very interesting characteristics; (1) we observe a strong improvement of the distilled student over its teacher in terms of probing accuracy. (2) The learnt representations are highly transferable between different tasks but deteriorate strongly if trained on random inputs. (3) The student checkpoint suffices to discover so-called lottery tickets, i.e. it contains identifiable, sparse networks that are as performant as the full network. These observations have interesting consequences for several important areas in machine learning: (1) Self-distillation can work solely based on the implicit regularization present in the gradient dynamics without relying on any \textit{dark knowledge}, (2) self-supervised learning can learn features even in the absence of data augmentation and (3) SGD already becomes stable when initialized from the student checkpoint with respect to batch orderings. Finally, we shed light on an intriguing local property of the loss landscape: the process of feature learning is strongly amplified if the student is initialized closely to the teacher. This raises interesting questions about the nature of the landscape that have remained unexplored so far. | 翻訳日:2023-02-24 14:50:13 公開日:2023-02-23 |
# GKP誤差補正における雑音伝搬のロバスト抑制 Robust suppression of noise propagation in GKP error-correction ( http://arxiv.org/abs/2302.12088v1 ) ライセンス: Link先を確認 | Christian Siegele and Philippe Campagne-Ibarcq | (参考訳) 複雑な状態の準備と対照的な直線方向論理演算は、ゴッテマン、キータエフ、プレスキル(GKP)によって提案されたボソニック符号化の目印である。
最近報告されたイオンと超伝導回路におけるGKP量子ビットの生成と誤り訂正は、そのような符号化量子ビットに基づく量子コンピューティングアーキテクチャの将来を大いに約束する。
しかし、これらの実験は、符号化された量子ビットを伝搬し破壊する可能性のある2段階のアシラリーシステム(TLS)によるエラーシンドロームの測定に依存している。
2つの発振器とTLSからなる単純なモジュールを提案し、2つの実験的にアクセス可能な量子ゲートと基本フィードバック制御を用いて、そのような伝播誤差から保護された誤り訂正GKP量子ビットを実装する。
周期gkp状態の理想化において、プロトコルパラメータを最適化する効率的な数値手法を開発し、tlsのフリップから生じる符号化量子ビットの誤差と位相空間における振動子状態の拡散が、個々の演算に対するノイズ強度が減少するにつれて指数関数的に抑制されることを示す。
提案手法は,GKP量子ビットを用いたフォールトトレラント量子計算への主な障害を回避している。 Straightforward logical operations contrasting with complex state preparation are the hallmarks of the bosonic encoding proposed by Gottesman, Kitaev and Preskill (GKP). The recently reported generation and error-correction of GKP qubits in trapped ions and superconducting circuits thus holds great promise for the future of quantum computing architectures based on such encoded qubits. However, these experiments rely on the measurement of error-syndromes via an ancillary two-level system (TLS), whose noise may propagate and corrupt the encoded qubit. We propose a simple module composed of two oscillators and a TLS, operated with two experimentally accessible quantum gates and elementary feedback controls to implement an error-corrected GKP qubit protected from such propagating errors. In the idealized setting of periodic GKP states, we develop efficient numerical methods to optimize our protocol parameters and show that errors of the encoded qubit stemming from flips of the TLS and diffusion of the oscillators state in phase-space may be exponentially suppressed as the noise strength over individual operations is decreased. Our approach circumvents the main roadblock towards fault-tolerant quantum computation with GKP qubits. | 翻訳日:2023-02-24 14:49:41 公開日:2023-02-23 |
# 畳み込みニューラルネットワークのための皮膚科診断説明可能性ベンチマーク Dermatological Diagnosis Explainability Benchmark for Convolutional Neural Networks ( http://arxiv.org/abs/2302.12084v1 ) ライセンス: Link先を確認 | Raluca Jalaboi, Ole Winther, Alfiia Galimzianova | (参考訳) 近年, 深層学習(DL)の成功に支えられて, 皮膚科応用のための機械学習手法の開発に大きく進展している。
現在までに、画像から病気を診断することは、皮膚科におけるDLの最も検討された応用の1つである。
畳み込みニューラルネットワーク(ConvNets)は、訓練効率と精度から医療画像において最も一般的な(DL)手法であるが、説明可能性の限界からブラックボックスと呼ばれることが多い。
ConvNetの決定メカニズムに関する洞察を得るための一般的な方法は、勾配クラスアクティベーションマップ(Grad-CAM)である。
Grad-CAM説明可能性の定量的評価は、ConvNetアーキテクチャの説明可能性ベンチマークを可能にする皮膚疾患診断説明可能性データセットであるDermXDBのリリースによって、最近可能になった。
本稿では,このタスクで使用される最も一般的なConvNetアーキテクチャを特定し,それらのGrad-CAM説明とDermXDBが提供する説明マップを比較した。
DenseNet121、EfficientNet-B0、InceptionV3、InceptionResNetV2、MobileNet、MobileNetV2、NASNetMobile、ResNet50、ResNet50V2、VGG16、Xceptionの11のアーキテクチャを特定した。
臨床皮膚疾患データセット上のすべてのアーキテクチャを事前トレーニングし,dermxdbサブセットで微調整した。
DermXDBホールトアウトサブセットの検証結果は、説明可能性F1スコアが0.35-0.46であり、Xceptionは最も高い説明可能性を示す。
nasnetmobileは、中途半端な診断性能にもかかわらず、最も特性レベルの説明感度が高いと報告しています。
これらの結果は、望まれるアプリケーションとターゲット市場に適したアーキテクチャを選択することの重要性、追加の説明可能性データセットの必要性、さらに定量的分析に依存する説明可能性ベンチマークの必要性を裏付けるものである。 In recent years, large strides have been taken in developing machine learning methods for dermatological applications, supported in part by the success of deep learning (DL). To date, diagnosing diseases from images is one of the most explored applications of DL within dermatology. Convolutional neural networks (ConvNets) are the most common (DL) method in medical imaging due to their training efficiency and accuracy, although they are often described as black boxes because of their limited explainability. One popular way to obtain insight into a ConvNet's decision mechanism is gradient class activation maps (Grad-CAM). A quantitative evaluation of the Grad-CAM explainability has been recently made possible by the release of DermXDB, a skin disease diagnosis explainability dataset which enables explainability benchmarking of ConvNet architectures. In this paper, we perform a literature review to identify the most common ConvNet architectures used for this task, and compare their Grad-CAM explanations with the explanation maps provided by DermXDB. We identified 11 architectures: DenseNet121, EfficientNet-B0, InceptionV3, InceptionResNetV2, MobileNet, MobileNetV2, NASNetMobile, ResNet50, ResNet50V2, VGG16, and Xception. We pre-trained all architectures on an clinical skin disease dataset, and fine-tuned them on a DermXDB subset. Validation results on the DermXDB holdout subset show an explainability F1 score of between 0.35-0.46, with Xception displaying the highest explainability performance. NASNetMobile reports the highest characteristic-level explainability sensitivity, despite it's mediocre diagnosis performance. These results highlight the importance of choosing the right architecture for the desired application and target market, underline need for additional explainability datasets, and further confirm the need for explainability benchmarking that relies on quantitative analyses. | 翻訳日:2023-02-24 14:49:21 公開日:2023-02-23 |
# 畳み込みニューラルネットワークを用いたヒト疾患症状関係の探索的解析 Explorative analysis of human disease-symptoms relations using the Convolutional Neural Network ( http://arxiv.org/abs/2302.12075v1 ) ライセンス: Link先を確認 | Zolzaya Dashdorj and Stanislav Grigorev and Munguntsatsral Dovdondash | (参考訳) 医療・生物医学研究の分野では、疾患の症状間の関係を理解することは、早期診断と疾患間の隠れた関係の決定に不可欠である。
本研究は, 疾患予測タスクにおける症状タイプの範囲を理解することを目的とした。
本研究では,先行した症状に基づくヒト疾患データセットを解析し,畳み込みニューラルネットワークとサポートベクトルマシンに基づく各疾患の予測可能性の度合いを示す。
K-平均と主成分分析を用いて疾患のあいまいさを研究する。
以上の結果から,機械学習は症状の特徴を考慮し,早期に98~100%の精度で疾患を診断できる可能性が示唆された。
以上の結果から,異常な症状が早期診断に有効であることが示唆された。
また,異常症状が疾患予測タスクの精度を高めることも強調した。 In the field of health-care and bio-medical research, understanding the relationship between the symptoms of diseases is crucial for early diagnosis and determining hidden relationships between diseases. The study aimed to understand the extent of symptom types in disease prediction tasks. In this research, we analyze a pre-generated symptom-based human disease dataset and demonstrate the degree of predictability for each disease based on the Convolutional Neural Network and the Support Vector Machine. Ambiguity of disease is studied using the K-Means and the Principal Component Analysis. Our results indicate that machine learning can potentially diagnose diseases with the 98-100% accuracy in the early stage, taking the characteristics of symptoms into account. Our result highlights that types of unusual symptoms are a good proxy for disease early identification accurately. We also highlight that unusual symptoms increase the accuracy of the disease prediction task. | 翻訳日:2023-02-24 14:48:46 公開日:2023-02-23 |
# 分散強化pc-kriging surrogateモデルによる多重極限状態関数を用いた構造信頼性解析のためのアクティブラーニング Active learning for structural reliability analysis with multiple limit state functions through variance-enhanced PC-Kriging surrogate models ( http://arxiv.org/abs/2302.12074v1 ) ライセンス: Link先を確認 | J. Moran A., P.G. Morato and P. Rigo | (参考訳) サーロゲートモデルのトレーニングのための既存のアクティブ戦略は、指定された極限状態関数近傍の設計空間領域を目標とし、正確な構造的信頼性を推定する。
多くの実用工学的応用において、修復、故障などの様々な損傷条件は確率的に特徴づけられ、複数の性能関数を推定する必要がある。
本研究では,複数の制限状態に関連付けられた精度を保ちながら,限られた計算予算下でのトレーニングサンプルを効率的に選択する能動的学習手法の能力について検討する。
特に,pcクリッグ型サロゲートモデルでは,残欠型クロスバリデーション誤り情報からの分散補正を考慮した学習が盛んに行われているが,逐次学習ではu関数由来のメトリクスに依存する。
提案するアクティブ・ラーニング・アプローチは, 高度に非線形な構造的信頼性設定で検証されるが, より実用的な応用では, 船舶が沖合の風構造に衝突した後に, 故障や修理イベントが確率的に予測される。
その結果,統一アクティブ学習方式において,指定された多重極限状態関数を連続的にターゲットすることで,バランスの取れた計算予算管理を効果的に実現できることが示されている。 Existing active strategies for training surrogate models yield accurate structural reliability estimates by aiming at design space regions in the vicinity of a specified limit state function. In many practical engineering applications, various damage conditions, e.g. repair, failure, should be probabilistically characterized, thus demanding the estimation of multiple performance functions. In this work, we investigate the capability of active learning approaches for efficiently selecting training samples under a limited computational budget while still preserving the accuracy associated with multiple surrogated limit states. Specifically, PC-Kriging-based surrogate models are actively trained considering a variance correction derived from leave-one-out cross-validation error information, whereas the sequential learning scheme relies on U-function-derived metrics. The proposed active learning approaches are tested in a highly nonlinear structural reliability setting, whereas in a more practical application, failure and repair events are stochastically predicted in the aftermath of a ship collision against an offshore wind substructure. The results show that a balanced computational budget administration can be effectively achieved by successively targeting the specified multiple limit state functions within a unified active learning scheme. | 翻訳日:2023-02-24 14:48:33 公開日:2023-02-23 |
# 単語ベクトル埋め込みを用いたモンゴル市民のフィードバック分析のためのディープラーニングモデル Deep learning model for Mongolian Citizens Feedback Analysis using Word Vector Embeddings ( http://arxiv.org/abs/2302.12069v1 ) ライセンス: Link先を確認 | Zolzaya Dashdorj and Tsetsentsengel Munkhbayar and Stanislav Grigorev | (参考訳) 長年にわたって大量のフィードバックが収集された。
多くのフィードバック分析モデルが英語を中心に開発されている。
フィードバックの概念を認識することは、自然言語処理に応用可能なコーパスやツール(語彙コーパス、文構造ルールなど)を持たない言語において、困難かつ不可欠である。
しかし,本稿では,2つの単語埋め込みを用いたモンゴル語のフィードバック分類について検討する。
提案手法の結果を比較した。
2012年から2018年にかけて収集されたcyrillicのフィードバックデータを使用する。
その結果,2つの分類タスクにおいて,単語の埋め込みが80.1%と82.7%の精度で深層学習に基づくモデルを改善することが示唆された。 A large amount of feedback was collected over the years. Many feedback analysis models have been developed focusing on the English language. Recognizing the concept of feedback is challenging and crucial in languages which do not have applicable corpus and tools employed in Natural Language Processing (i.e., vocabulary corpus, sentence structure rules, etc). However, in this paper, we study a feedback classification in Mongolian language using two different word embeddings for deep learning. We compare the results of proposed approaches. We use feedback data in Cyrillic collected from 2012-2018. The result indicates that word embeddings using their own dataset improve the deep learning based proposed model with the best accuracy of 80.1% and 82.7% for two classification tasks. | 翻訳日:2023-02-24 14:48:09 公開日:2023-02-23 |
# CLIPに10のカウントを教える Teaching CLIP to Count to Ten ( http://arxiv.org/abs/2302.12066v1 ) ライセンス: Link先を確認 | Roni Paiss, Ariel Ephrat, Omer Tov, Shiran Zada, Inbar Mosseri, Michal Irani and Tali Dekel | (参考訳) CLIPのような大規模な視覚言語モデル(VLM)は、リッチな共同画像テキスト表現を学び、ゼロショット分類やテキスト・ツー・イメージ生成など、多くの下流タスクの進歩を促進する。
それでも、既存のVLMは文書化された限界を顕著に示しており、カウントのような構成概念をカプセル化できない。
本稿では,VLMの定量的理解を改善するための簡易かつ効果的な手法を提案する。
具体的には,訓練済みのVLMを本来の目的に合わせて微調整するために,新たなカウントコントラスト損失を提案する。
私たちの計数損失は、画像と不正確なオブジェクト数を含むキャプションからなる、自動生成された偽の例にデプロイされます。
例えば、3匹の犬を描いた画像は、「庭で遊んでいる6匹の犬」というキャプションと組み合わせられる。
我々の損失は、正しいキャプションとその否定的な例として機能する偽物との区別を促進する。
私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
さらに,モデルのオブジェクトカウントに対する理解度を評価するための新しい画像テキストカウントベンチマーク「countbench」を提案する。
この課題に対する最先端のベースラインモデルに対する大幅な改善を示す。
最後に,画像検索やテキストコンディション画像生成にカウントアウェアクリップモデルを活用することで,既存のモデルよりも特定のオブジェクト数を高い信頼性で生成できることを実証する。 Large vision-language models (VLMs), such as CLIP, learn rich joint image-text representations, facilitating advances in numerous downstream tasks, including zero-shot classification and text-to-image generation. Nevertheless, existing VLMs exhibit a prominent well-documented limitation - they fail to encapsulate compositional concepts such as counting. We introduce a simple yet effective method to improve the quantitative understanding of VLMs, while maintaining their overall performance on common benchmarks. Specifically, we propose a new counting-contrastive loss used to finetune a pre-trained VLM in tandem with its original objective. Our counting loss is deployed over automatically-created counterfactual examples, each consisting of an image and a caption containing an incorrect object count. For example, an image depicting three dogs is paired with the caption "Six dogs playing in the yard". Our loss encourages discrimination between the correct caption and its counterfactual variant which serves as a hard negative example. To the best of our knowledge, this work is the first to extend CLIP's capabilities to object counting. Furthermore, we introduce "CountBench" - a new image-text counting benchmark for evaluating a model's understanding of object counting. We demonstrate a significant improvement over state-of-the-art baseline models on this task. Finally, we leverage our count-aware CLIP model for image retrieval and text-conditioned image generation, demonstrating that our model can produce specific counts of objects more reliably than existing ones. | 翻訳日:2023-02-24 14:47:59 公開日:2023-02-23 |
# 生存分析のための一致指標を用いた統計的学習 A Statistical Learning Take on the Concordance Index for Survival Analysis ( http://arxiv.org/abs/2302.12059v1 ) ライセンス: Link先を確認 | Alex Nowak-Vila, Kevin Elgui, Genevieve Robin | (参考訳) 生存分析分野への機械学習(ML)技術の導入により、モデリングアプローチの柔軟性が向上し、MLベースのモデルは最先端のものになる。
これらのモデルはコスト関数を最適化し、その性能をコンコーダンス指標(C-index)を用いて評価する。
統計的学習の観点からは,CインデックスのオプティマイザとMLコスト関数の関係を分析することが重要である。
我々は,c-index fisher-consistency results と余剰リスク境界を生存率解析でよく用いられるいくつかのコスト関数に提供することにより,この問題に対処した。
我々は、生存モデルの3つのネストされたファミリーの形で、それらが一貫した条件を同定する。
また, モデル仮定を行わない一般的な場合についても検討し, 計算コストは高いものの, c-インデックスと整合性を示す新しいオフ・ザ・シェルフ法を提案する。
最後に、シミュレーションデータを用いて限定的な数値実験を行い、理論的な結果を示す。 The introduction of machine learning (ML) techniques to the field of survival analysis has increased the flexibility of modeling approaches, and ML based models have become state-of-the-art. These models optimize their own cost functions, and their performance is often evaluated using the concordance index (C-index). From a statistical learning perspective, it is therefore an important problem to analyze the relationship between the optimizers of the C-index and those of the ML cost functions. We address this issue by providing C-index Fisher-consistency results and excess risk bounds for several of the commonly used cost functions in survival analysis. We identify conditions under which they are consistent, under the form of three nested families of survival models. We also study the general case where no model assumption is made and present a new, off-the-shelf method that is shown to be consistent with the C-index, although computationally expensive at inference. Finally, we perform limited numerical experiments with simulated data to illustrate our theoretical findings. | 翻訳日:2023-02-24 14:47:38 公開日:2023-02-23 |
# 自己教師型音声モデルのための韻律ベンチマークProsAudit ProsAudit, a prosodic benchmark for self-supervised speech models ( http://arxiv.org/abs/2302.12057v1 ) ライセンス: Link先を確認 | Maureen de Seyssel, Marvin Lavechin, Hadrien Titeux, Arthur Thomas, Gwendal Virlet, Andrea Santos Revilla, Guillaume Wisniewski, Bogdan Ludusan, Emmanuel Dupoux | (参考訳) 本稿では,自己教師付き学習(ssl)における構造的韻律知識を評価するための英語ベンチマークprosauditを提案する。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
プロトシンタックスタスクでは、モデルは強くて弱い韻律境界を正確に識別しなければならない。
語彙的タスクでは、モデルが単語と単語の間に挿入されたポーズを正しく区別する必要がある。
このベンチマークでは人による評価スコアも提供する。
sslの一連のモデルを評価して、見当たらない言語でトレーニングした場合でも、両方のタスクで高い確率で実行できたことを突き止めました。
しかし、非ネイティブモデルは語彙課題においてネイティブモデルよりも著しく悪く、この課題における語彙知識の重要性を強調した。
また、2つのサブタスクにおいて、より多くのデータに基づいてトレーニングされたモデルによるサイズの影響も明らかになりました。 We present ProsAudit, a benchmark in English to assess structural prosodic knowledge in self-supervised learning (SSL) speech models. It consists of two subtasks, their corresponding metrics, an evaluation dataset. In the protosyntax task, the model must correctly identify strong versus weak prosodic boundaries. In the lexical task, the model needs to correctly distinguish between pauses inserted between words and within words. We also provide human evaluation scores on this benchmark. We evaluated a series of SSL models and found that they were all able to perform above chance on both tasks, even when trained on an unseen language. However, non-native models performed significantly worse than native ones on the lexical task, highlighting the importance of lexical knowledge in this task. We also found a clear effect of size with models trained on more data performing better in the two subtasks. | 翻訳日:2023-02-24 14:47:21 公開日:2023-02-23 |
# GANを用いた画像間翻訳におけるコントラスト学習の注意機構 Attention Mechanism for Contrastive Learning in GAN-based Image-to-Image Translation ( http://arxiv.org/abs/2302.12052v1 ) ライセンス: Link先を確認 | Hanzhen Zhang, Liguo Zhou, Ruining Wang, Alois Knoll | (参考訳) 自動運転アルゴリズムを最適化するために実際の道路テストを使うことは時間がかかり、資本集約的です。
そこで本研究では,異なる領域にまたがって高品質な画像を生成可能なGANモデルを提案する。
さらにContrastive Learningを利用して、実世界から取得した画像データと3Dゲームからのシミュレーション画像を用いて、モデルを自己指導的に訓練する。
本稿では,重要度の測定に基づいて,ソース領域に関するより多くの情報を含む特徴を強調するために,注意機構モジュールも適用する。
最後に、生成された画像はデータセットとして使用され、ニューラルネットワークをトレーニングし、さまざまな下流タスクを実行し、アプローチが仮想世界と現実世界のギャップを埋めることができるかを検証する。 Using real road testing to optimize autonomous driving algorithms is time-consuming and capital-intensive. To solve this problem, we propose a GAN-based model that is capable of generating high-quality images across different domains. We further leverage Contrastive Learning to train the model in a self-supervised way using image data acquired in the real world using real sensors and simulated images from 3D games. In this paper, we also apply an Attention Mechanism module to emphasize features that contain more information about the source domain according to their measurement of significance. Finally, the generated images are used as datasets to train neural networks to perform a variety of downstream tasks to verify that the approach can fill in the gaps between the virtual and real worlds. | 翻訳日:2023-02-24 14:47:08 公開日:2023-02-23 |
# D)AOsの隠れた欠点--オンチェーンガバナンスの実証的研究 The Hidden Shortcomings of (D)AOs -- An Empirical Study of On-Chain Governance ( http://arxiv.org/abs/2302.12125v1 ) ライセンス: Link先を確認 | Rainer Feichtinger, Robin Fritsch, Yann Vonlanthen and Roger Wattenhofer | (参考訳) 分散型自律組織(DAO)は、ブロックチェーンエコシステムですでに広く使用されている、組織構造における最近のイノベーションである。
21のDAOのオンチェーンガバナンスシステムを実証的に研究し、ライブデータセットをオープンソース化します。
DAOはさまざまな規模と活動を有し,分散交換,貸与プロトコル,インフラプロジェクト,共通財資金など,幅広いプロトコルやサービスを管理する。
我々の分析では、投票権の集中、オンチェーンガバナンスシステムの重要な隠れ金融コスト、および極めて多くのポイントレスガバナンス活動が明らかにされている。 Decentralized autonomous organizations (DAOs) are a recent innovation in organizational structures, which are already widely used in the blockchain ecosystem. We empirically study the on-chain governance systems of 21 DAOs and open source the live dataset. The DAOs we study are of various size and activity, and govern a wide range of protocols and services, such as decentralized exchanges, lending protocols, infrastructure projects and common goods funding. Our analysis unveils a high concentration of voting rights, a significant hidden monetary costs of on-chain governance systems, as well as a remarkably high amount of pointless governance activity. | 翻訳日:2023-02-24 14:41:41 公開日:2023-02-23 |
# 超伝導フォトニック界面の全光学的操作 All optical operation of a superconducting photonic interface ( http://arxiv.org/abs/2302.12123v1 ) ライセンス: Link先を確認 | Frederik Thiele, Thomas Hummel, Adam N. McCaughan, Julian Brockmeier, Maximilian Protte, Victor Quiring, Sebastian Lengeling, Christof Eigner, Christine Silberhorn, Tim J. Bartley | (参考訳) 高度な電気光学処理は、電気制御と光変調と検出を組み合わせる。
量子フォトニクス応用の場合、これらのプロセスは高効率で低ノイズの単一光子レベルで実行されなければならない。
集積量子フォトニクスは、外部駆動電子回路が操作する集積チップの重要な部品を組み合わせることで、単一光子操作を実現している。
それでも、駆動エレクトロニクスと低温の運転条件を必要とする電気光学部品との間の電気的相互接続は寄生効果をもたらす可能性がある。
ここでは, 超伝導ナノワイヤ単光子検出器(SNSPD)の1Kクライオスタットの単一ステージにおけるバイアスと読み出しという, 高度なフォトニック回路から, 動作電力を同時に供給し, 計測信号を抽出する全光学インターフェースを示す。
そのため、光配線のみを用いた単一光子検出器、出力信号コンディショニング、電気光学読出しに全電力を供給することにより、低温回路を外部環境から完全に分離する。
これにより、電気接続をヒートシンクする必要がなくなり、低損失で高帯域幅の信号処理が可能になる。
この方法は、光制御や超伝導回路の読み出し、フォトニック量子コンピューティングのためのフィードフォワードといった他の先進的な電気的分離フォトニック回路を動作させる可能性を開く。 Advanced electro-optic processing combines electrical control with optical modulation and detection. For quantum photonic applications these processes must be carried out at the single photon level with high efficiency and low noise. Integrated quantum photonics has made great strides achieving single photon manipulation by combining key components on integrated chips which are operated by external driving electronics. Nevertheless, electrical interconnects between driving electronics and the electro-optic components, some of which require cryogenic operating conditions, can introduce parasitic effects. Here we show an all-optical interface which simultaneously delivers the operation power to, and extracts the measurement signal from, an advanced photonic circuit, namely, bias and readout of a superconducting nanowire single photon detector (SNSPD) on a single stage in a 1K cryostat. To do so, we supply all power for the single photon detector, output signal conditioning, and electro-optic readout using optical interconnects alone, thereby fully decoupling the cryogenic circuitry from the external environment. This removes the need to heatsink electrical connections, and potentially offers low-loss, high-bandwidth signal processing. This method opens the possibility to operate other advanced electrically decoupled photonic circuits such as optical control and readout of superconducting circuits, and feedforward for photonic quantum computing. | 翻訳日:2023-02-24 14:41:28 公開日:2023-02-23 |
# 逐次相反リスク最小化 Sequential Counterfactual Risk Minimization ( http://arxiv.org/abs/2302.12120v1 ) ライセンス: Link先を確認 | Houssam Zenati, Eustache Diemert, Matthieu Martin, Julien Mairal, Pierre Gaillard | (参考訳) CRM(Counterfactual Risk Minimization)は、オフラインデータを使用したロギングポリシーの改善を目標とする、ログ化された盗聴フィードバック問題を扱うためのフレームワークである。
本稿では,学習したポリシーを複数回展開し,新たなデータを取得することができるかを検討する。
我々はcrmの原理とその理論をこのシナリオに拡張し、「sequential counterfactual risk minimization (scrm) 」と呼ぶ。
高速化最適化手法における再起動戦略に類似した分析を用いて,CRMの性能を過大なリスクと後悔率の観点から向上させる新しい事実推定手法を提案する。
また、離散的かつ連続的なアクション設定において、我々の手法を実証的に評価し、CRMの複数デプロイの利点を実証する。 Counterfactual Risk Minimization (CRM) is a framework for dealing with the logged bandit feedback problem, where the goal is to improve a logging policy using offline data. In this paper, we explore the case where it is possible to deploy learned policies multiple times and acquire new data. We extend the CRM principle and its theory to this scenario, which we call "Sequential Counterfactual Risk Minimization (SCRM)." We introduce a novel counterfactual estimator and identify conditions that can improve the performance of CRM in terms of excess risk and regret rates, by using an analysis similar to restart strategies in accelerated optimization methods. We also provide an empirical evaluation of our method in both discrete and continuous action settings, and demonstrate the benefits of multiple deployments of CRM. | 翻訳日:2023-02-24 14:41:05 公開日:2023-02-23 |
# スペイン語話者のための量子コンピューティングオンラインワークショップとハッカソン:事例研究 Quantum computing online workshops and hackathon for Spanish speakers: A case study ( http://arxiv.org/abs/2302.12119v1 ) ライセンス: Link先を確認 | Alberto Maldonado-Romo and Lia Yeh | (参考訳) ラテンアメリカの量子ハッカソンに至るまでの一連の入門ワークショップからなる,オンラインイベントをスペイン語で開催する上での課題と調査結果について論じる。
220人のスペイン語話者が登録され、66%が量子コンピューティングの入門段階にあると自認した。
私たちは、ラテンアメリカにおける量子コンピューティングの影響と、スペイン語で量子コンピューティングに関する教育的リソースを生み出すことの重要性をよりよく理解しています。
さらに,参加者の国別調査,教育状況,量子コンピューティング,線形代数,python能力の自己報告レベル,量子における関心領域について報告する。
このイベントは、IBM Quantum、Xanadu、Multiverse Computing、Quantum Universal Education、Quantum Hispano、QMexico、Haq.ai、Dive in Learningと共同で、Quantum Universal Education with the Centro de Investigaci\'on en Computaci\'on del Instituto Polit\'ecnico Nacional (CIC-IPN)によって主催された。
これは大きなイベント、qiskit fall fest 2021の一部であり、同様の期間に世界中で組織されたいくつかのハッカソンの1つであった。
各Qiskit Fall Festハッカソンでは、参加者がIBM Qiskitフレームワークを使用してプロジェクトを開発するために、最大5人のチームを編成するよう求められた。 We discuss the challenges and findings of organizing an online event in Spanish, consisting of a series of introductory workshops leading up to a quantum hackathon for Latin America. 220 Spanish speakers were registered, 66% of whom self-identified as being at an introductory level of quantum computing. We gain a better picture of the impact of quantum computing in Latin America, and the importance of generating educational resources in Spanish about quantum computing. Additionally, we report results on surveying the participants by country; educational status; self-reported levels of quantum computing, linear algebra, and Python competency; and their areas of interest within quantum. This event was organized by Quantum Universal Education with the Centro de Investigaci\'on en Computaci\'on del Instituto Polit\'ecnico Nacional (CIC-IPN) as the host institution, in collaboration with a number of organizations and companies: IBM Quantum, Xanadu, Multiverse Computing, Quantum Universal Education, Quantum Hispano, QMexico, Haq.ai, Dive in Learning. This was part of a larger event, the Qiskit Fall Fest 2021, as one of several hackathons organized around the world in a similar span of time. In each Qiskit Fall Fest hackathon, participants were challenged to form teams of up to 5, to develop in 5 days a project using the IBM Qiskit framework. | 翻訳日:2023-02-24 14:40:49 公開日:2023-02-23 |
# 機械学習技術を用いた中小企業の財務距離予測 Financial Distress Prediction For Small And Medium Enterprises Using Machine Learning Techniques ( http://arxiv.org/abs/2302.12118v1 ) ライセンス: Link先を確認 | Yuan Gao, Biao Jiang, Jietong Zhou | (参考訳) 金融危機予測は、崩壊した構造物の数と確率を正確に予測し、国の経済の成長と安定性に関する洞察を与えることによって、経済において重要な役割を担っている。
しかし、中小企業の財政難の予測は、その本質的な曖昧さから困難であり、資金費の増大と資金の受入れ機会の低下に繋がる。
効果的なFCPのためのいくつかの戦略が開発されているが、その実装、正確性、データセキュリティは実用的アプリケーションには及ばない。
さらに、これらの戦略の多くはデータセットの一部でうまく機能するが、さまざまなデータセットに適応できない。
結果として、より優れた順序実行と異なるデータセットへの適応性のための生産的な予測モデルを開発する必要がある。
本稿では,要素クレジットとデータソースコレクションに基づくFCPの特徴選択アルゴリズムを提案する。
現在の金融危機予測モデルは、主に財務諸表に依存し、組織テストのタイムラインを無視している。
そこで本研究では,金融データや企業統治の質,市場取引データなどの薄頭成分分析を関連ベクタマシンに組み込んだ企業FCPモデルを提案する。
実験の結果, 本戦略は金融危機の予測効率を, 少ない特性因子で改善できることがわかった。 Financial Distress Prediction plays a crucial role in the economy by accurately forecasting the number and probability of failing structures, providing insight into the growth and stability of a country's economy. However, predicting financial distress for Small and Medium Enterprises is challenging due to their inherent ambiguity, leading to increased funding costs and decreased chances of receiving funds. While several strategies have been developed for effective FCP, their implementation, accuracy, and data security fall short of practical applications. Additionally, many of these strategies perform well for a portion of the dataset but are not adaptable to various datasets. As a result, there is a need to develop a productive prediction model for better order execution and adaptability to different datasets. In this review, we propose a feature selection algorithm for FCP based on element credits and data source collection. Current financial distress prediction models rely mainly on financial statements and disregard the timeliness of organization tests. Therefore, we propose a corporate FCP model that better aligns with industry practice and incorporates the gathering of thin-head component analysis of financial data, corporate governance qualities, and market exchange data with a Relevant Vector Machine. Experimental results demonstrate that this strategy can improve the forecast efficiency of financial distress with fewer characteristic factors. | 翻訳日:2023-02-24 14:40:12 公開日:2023-02-23 |
# 核融合誘起対称非負行列因子分解法によるコミュニティ検出 A Constraints Fusion-induced Symmetric Nonnegative Matrix Factorization Approach for Community Detection ( http://arxiv.org/abs/2302.12114v1 ) ライセンス: Link先を確認 | Zhigang Liu and Xin Luo | (参考訳) コミュニティは、無指向のソーシャルネットワークの基本的かつ重要な特徴であり、ネットワーク表現学習において、コミュニティ検出は不可欠であるが、厄介な問題である。
対称性および非負行列分解(SNMF)モデルは、その大きな解釈可能性とスケーラビリティのために、この問題に対処するために頻繁に採用されている。
しかし、その対称性を正確に表わすための無向ネットワークを表現するために単一の潜在因子行列を採用すると、潜在空間が減少することによる表現学習能力が失われる。
この発見に動機づけられた本論文では,3次元のアイデアを取り入れた,新規なConstraints Fusion誘発対称非負行列分解モデルを提案する。
a) 複数の潜在因子行列を有する対象非指向ネットワークを表現し、その表現学習能力を維持すること。
b) 隣接行列への学習された低ランク近似の対称性を損失関数に保存する対称性レギュラライザを組み込むことにより、対象ネットワークの対称性をよく認識する。
c) ネットワークの固有形状の局所的不変性を保ったグラフ正規化器の導入により, 対象ネットワーク内のコミュニティ構造を認識した。
産業応用による実世界の8つのソーシャルネットワークに関する広範囲な実証研究により,提案するcfsモデルは,高度に正確なコミュニティ検出結果を達成する上で,最先端のモデルを大幅に上回っていることが示された。 Community is a fundamental and critical characteristic of an undirected social network, making community detection be a vital yet thorny issue in network representation learning. A symmetric and non-negative matrix factorization (SNMF) model is frequently adopted to address this issue owing to its great interpretability and scalability. However, it adopts a single latent factor matrix to represent an undirected network for precisely representing its symmetry, which leads to loss of representation learning ability due to the reduced latent space. Motivated by this discovery, this paper proposes a novel Constraints Fusion-induced Symmetric Nonnegative Matrix Factorization (CFS) model that adopts three-fold ideas: a) Representing a target undirected network with multiple latent factor matrices, thus preserving its representation learning capacity; b) Incorporating a symmetry-regularizer that preserves the symmetry of the learnt low-rank approximation to the adjacency matrix into the loss function, thus making the resultant detector well-aware of the target network's symmetry; and c) Introducing a graph-regularizer that preserves local invariance of the network's intrinsic geometry, thus making the achieved detector well-aware of community structure within the target network. Extensively empirical studies on eight real-world social networks from industrial applications demonstrate that the proposed CFS model significantly outperforms state-of-the-art models in achieving highly-accurate community detection results. | 翻訳日:2023-02-24 14:39:52 公開日:2023-02-23 |
# Coxモデルに対する通信効率の良い分散推定と推定 Communication-Efficient Distributed Estimation and Inference for Cox's Model ( http://arxiv.org/abs/2302.12111v1 ) ライセンス: Link先を確認 | Pierre Bayle, Jianqing Fan, Zhipeng Lou | (参考訳) プライバシとオーナシップの懸念から個々のデータを共有できない多施設生物医学研究に動機づけられ,高次元スパースcox比例ハザードモデルにおける推定と推論のためのコミュニケーション効率の高い反復分散アルゴリズムを開発した。
我々の推定器は、比較的少ないイテレーションでも、非常に穏やかな条件下で理想的な全サンプル推定器と同じ収束率を達成できることを実証する。
高次元ハザード回帰係数の線形結合に対する信頼区間を構築するために,新しい縮退法を導入し,中心極限定理を確立し,漸近的に有効な分散信頼区間を生成する一貫した分散確率推定器を提供する。
さらに,decorrelated score testに基づく任意の座標要素に対して,有効かつ強力な分散仮説テストを提供する。
我々は、時間依存の共変量と検閲された生存時間を許容する。
シミュレーションデータと実データの両方に関する広範囲な数値実験は、我々の理論をさらに支持し、通信効率の高い分散推定器、信頼区間、仮説テストが代替手法によって改善することを示す。 Motivated by multi-center biomedical studies that cannot share individual data due to privacy and ownership concerns, we develop communication-efficient iterative distributed algorithms for estimation and inference in the high-dimensional sparse Cox proportional hazards model. We demonstrate that our estimator, even with a relatively small number of iterations, achieves the same convergence rate as the ideal full-sample estimator under very mild conditions. To construct confidence intervals for linear combinations of high-dimensional hazard regression coefficients, we introduce a novel debiased method, establish central limit theorems, and provide consistent variance estimators that yield asymptotically valid distributed confidence intervals. In addition, we provide valid and powerful distributed hypothesis tests for any coordinate element based on a decorrelated score test. We allow time-dependent covariates as well as censored survival times. Extensive numerical experiments on both simulated and real data lend further support to our theory and demonstrate that our communication-efficient distributed estimators, confidence intervals, and hypothesis tests improve upon alternative methods. | 翻訳日:2023-02-24 14:39:31 公開日:2023-02-23 |
# シングルピークジャンプスケジューリングゲーム Single-Peaked Jump Schelling Games ( http://arxiv.org/abs/2302.12107v1 ) ライセンス: Link先を確認 | Tobias Friedrich, Pascal Lenzner, Louise Molitor, Lars Seifert | (参考訳) 計画ゲームは、ゲーム理論の観点から、大都市圏における住宅分離の広帯域現象をモデル化する。
これらのゲームでは、異なるタイプのエージェントがそれぞれのグラフ上のノードを戦略的に選択し、それぞれのユーティリティを最大化するために住宅エリアをモデル化する。
後者は隣接ノード上のエージェントのタイプのみに依存しており、同じタイプの隣接ノードの数で単調であるユーティリティ関数を考えるのが標準的な仮定である。
この単純な仮定は、社会学的調査の結果、実世界のエージェントが実際には多様な近隣を好んでいると示唆されて以来、近年疑問視されている。
本研究は,単発効用関数を有するエージェントによるジャンプシェリングゲームの研究を通じて,現実的なエージェント行動を伴う住宅分離モデルの検討の最近の取り組みに寄与する。
このようなゲームでは、グラフには空のノードがあり、エージェントはそのようなノードに戦略的にジャンプしてそれらのユーティリティを改善することができる。
平衡の存在を調査し, 特定の条件下での存在を示す。
これとは対照的に、パスや環のような単純な位相でさえ、そのような安定状態が存在することは保証されない。
ゲームダイナミクスについては,応答サイクルの改善が実用機能におけるピーク位置とは独立に存在することを示す。
さらに、最近提案された統合の度合いに関して、アナーキーの価格と安定の価格にほぼ密接な境界が示され、多様な地区を持つエージェントの数を数え、分離強度を測るプロキシとして機能する。
最後に、高積分による有益状態の計算がNP完全であることを示し、新しい概念的寄与として、与えられた初期状態から始まる応答ダイナミクスの改善によって平衡状態が発見できるかどうかをNP完全であることが示される。 Schelling games model the wide-spread phenomenon of residential segregation in metropolitan areas from a game-theoretic point of view. In these games agents of different types each strategically select a node on a given graph that models the residential area to maximize their individual utility. The latter solely depends on the types of the agents on neighboring nodes and it has been a standard assumption to consider utility functions that are monotone in the number of same-type neighbors. This simplifying assumption has recently been challenged since sociological poll results suggest that real-world agents actually favor diverse neighborhoods. We contribute to the recent endeavor of investigating residential segregation models with realistic agent behavior by studying Jump Schelling Games with agents having a single-peaked utility function. In such games, there are empty nodes in the graph and agents can strategically jump to such nodes to improve their utility. We investigate the existence of equilibria and show that they exist under specific conditions. Contrasting this, we prove that even on simple topologies like paths or rings such stable states are not guaranteed to exist. Regarding the game dynamics, we show that improving response cycles exist independently of the position of the peak in the utility function. Moreover, we show high almost tight bounds on the Price of Anarchy and the Price of Stability with respect to the recently proposed degree of integration, which counts the number of agents with a diverse neighborhood and which serves as a proxy for measuring the segregation strength. Last but not least, we show that computing a beneficial state with high integration is NP-complete and, as a novel conceptual contribution, we also show that it is NP-hard to decide if an equilibrium state can be found via improving response dynamics starting from a given initial state. | 翻訳日:2023-02-24 14:39:12 公開日:2023-02-23 |
# 機械学習予測のための局所的およびグローバル的説明可能性指標 Local and Global Explainability Metrics for Machine Learning Predictions ( http://arxiv.org/abs/2302.12094v1 ) ライセンス: Link先を確認 | Cristian Munoz, Kleyton da Costa, Bernardo Modenesi, Adriano Koshiyama | (参考訳) 人工知能(AI)技術の急速な進歩は、ガバナンスと規制という面で、多くの新しい課題をもたらした。
aiシステムは様々な産業やセクターに統合され、意思決定者から、これらのシステムの能力や限界を包括的かつ微妙な理解を持つよう要求されている。
この需要の1つの重要な側面は、機械学習モデルの結果を説明する能力である。これは、AIシステムの透明性と信頼を促進するのに不可欠であり、機械学習モデルが倫理的に訓練されるのを助ける基本である。
本稿では,分類器モデルと回帰器モデルの予測を解釈するための定量的指標フレームワークを提案する。
提案するメトリクスはモデル非依存であり,定量化を可能にするために定義されている。
グローバルおよびローカルな特徴重要度分布に基づく解釈可能性因子;ii
特徴のばらつきがモデル出力に与える影響,およびiii。
モデル決定における機能インタラクションの複雑さ。
提案するメトリクスを、顧客の信用リスク(分類タスク)と不動産価格評価(回帰タスク)の予測に焦点を当てた、さまざまな機械学習モデルに適用するために、公開データセットを採用しています。
結果は、これらのメトリクスがモデル予測をより包括的に理解し、意思決定者とステークホルダー間のコミュニケーションを改善することによって、AIシステムの全体的な透明性と説明責任を高める方法を明らかにする。 Rapid advancements in artificial intelligence (AI) technology have brought about a plethora of new challenges in terms of governance and regulation. AI systems are being integrated into various industries and sectors, creating a demand from decision-makers to possess a comprehensive and nuanced understanding of the capabilities and limitations of these systems. One critical aspect of this demand is the ability to explain the results of machine learning models, which is crucial to promoting transparency and trust in AI systems, as well as fundamental in helping machine learning models to be trained ethically. In this paper, we present novel quantitative metrics frameworks for interpreting the predictions of classifier and regressor models. The proposed metrics are model agnostic and are defined in order to be able to quantify: i. the interpretability factors based on global and local feature importance distributions; ii. the variability of feature impact on the model output; and iii. the complexity of feature interactions within model decisions. We employ publicly available datasets to apply our proposed metrics to various machine learning models focused on predicting customers' credit risk (classification task) and real estate price valuation (regression task). The results expose how these metrics can provide a more comprehensive understanding of model predictions and facilitate better communication between decision-makers and stakeholders, thereby increasing the overall transparency and accountability of AI systems. | 翻訳日:2023-02-24 14:38:23 公開日:2023-02-23 |
# 知識蒸留による個人化分散フェデレーション学習 Personalized Decentralized Federated Learning with Knowledge Distillation ( http://arxiv.org/abs/2302.12156v1 ) ライセンス: Link先を確認 | Eunjeong Jeong, Marios Kountouris | (参考訳) フェデレーション学習(fl)におけるパーソナライゼーションは,データや行動のばらつきが高いクライアントのコーディネータとして機能する。
これらのクライアントのモデルの収束を保証するには、同じようなパターンや好みを持つユーザとの密接なコラボレーションに依存する。
しかし,分散ネットワークでは,他のユーザのモデルに関する限られた知識の下で類似性を定量化することが一般的である。
この問題に対処するために,各装置に知識蒸留技術を活用し,局所モデル間の統計的距離を識別するパーソナライズされた完全分散FLアルゴリズムを提案する。
各クライアント装置は、知識蒸留における2つの中間出力間の類似性を推定することにより、ローカルデータを共有することなく、その性能を向上させることができる。
実験により,提案アルゴリズムは,非独立かつ同一に分散したデータ分布において,より少ないイテレーションでクライアントのテスト精度を向上し,中央サーバを必要とせずとも,小さなデータセットを持つエージェントにとって有益であることを示す。 Personalization in federated learning (FL) functions as a coordinator for clients with high variance in data or behavior. Ensuring the convergence of these clients' models relies on how closely users collaborate with those with similar patterns or preferences. However, it is generally challenging to quantify similarity under limited knowledge about other users' models given to users in a decentralized network. To cope with this issue, we propose a personalized and fully decentralized FL algorithm, leveraging knowledge distillation techniques to empower each device so as to discern statistical distances between local models. Each client device can enhance its performance without sharing local data by estimating the similarity between two intermediate outputs from feeding local samples as in knowledge distillation. Our empirical studies demonstrate that the proposed algorithm improves the test accuracy of clients in fewer iterations under highly non-independent and identically distributed (non-i.i.d.) data distributions and is beneficial to agents with small datasets, even without the need for a central server. | 翻訳日:2023-02-24 14:31:40 公開日:2023-02-23 |
# 信頼できる実行環境を用いたセキュアな計算に関する調査 A Survey of Secure Computation Using Trusted Execution Environments ( http://arxiv.org/abs/2302.12150v1 ) ライセンス: Link先を確認 | Xiaoguo Li and Bowen Zhao and Guomin Yang and Tao Xiang and Jian Weng and Robert H. Deng | (参考訳) 信頼されたコンピューティングを支える重要な技術として、信頼された実行環境(TEE)は、機密性と整合性を確保しつつ、オンプレミスデータとオンプレミスデータの両方で計算タスクを起動することができる。
本稿では、TEEベースのセキュアな計算プロトコルの体系的なレビューと比較を行う。
まず,セキュアな計算プロトコルを,セキュアなアウトソース計算,セキュアな分散計算,セキュアなマルチパーティ計算の3つのカテゴリに分類する分類法を提案する。
これらのプロトコルを公平に比較するために、設定、方法論、セキュリティ、パフォーマンスの4つの側面に関する総合的な評価基準も提示する。
これらの基準に基づき、プライバシ保存機械学習や暗号化データベースクエリなど、汎用計算関数と専用計算関数の両方に対して、最先端のteeベースのセキュアな計算プロトコルをレビュー、議論、比較する。
我々の知る限り、この記事は、TEEベースのセキュアな計算プロトコルをレビューする最初の調査であり、包括的な比較は、実際にデプロイする適切なプロトコルを選択するためのガイドラインとなる。
最後に,今後の研究の方向性と課題についても論じる。 As an essential technology underpinning trusted computing, the trusted execution environment (TEE) allows one to launch computation tasks on both on- and off-premises data while assuring confidentiality and integrity. This article provides a systematic review and comparison of TEE-based secure computation protocols. We first propose a taxonomy that classifies secure computation protocols into three major categories, namely secure outsourced computation, secure distributed computation and secure multi-party computation. To enable a fair comparison of these protocols, we also present comprehensive assessment criteria with respect to four aspects: setting, methodology, security and performance. Based on these criteria, we review, discuss and compare the state-of-the-art TEE-based secure computation protocols for both general-purpose computation functions and special-purpose ones, such as privacy-preserving machine learning and encrypted database queries. To the best of our knowledge, this article is the first survey to review TEE-based secure computation protocols and the comprehensive comparison can serve as a guideline for selecting suitable protocols for deployment in practice. Finally, we also discuss several future research directions and challenges. | 翻訳日:2023-02-24 14:31:21 公開日:2023-02-23 |
# バイアスとコンプライアンスを超えて:aiにおける個別機関と複数の倫理に向けて Beyond Bias and Compliance: Towards Individual Agency and Plurality of Ethics in AI ( http://arxiv.org/abs/2302.12149v1 ) ライセンス: Link先を確認 | Thomas Krendl Gilbert, Megan Welle Brozek, Andrew Brozek | (参考訳) AI倫理は、人間の価値を機械に組み込むという問題を解決する方法について、複数の競合する物語を持つ新興分野である。
2つの主要なアプローチは、それぞれバイアスとコンプライアンスに焦点を当てている。
しかし、これらのアイデアはいずれも倫理を完全に包含していない:道徳的原則を使って特定の状況でどのように行動するかを決定する。
我々の手法は、データがラベル付けされる方法がAIの振る舞いに不可欠な役割を担っていることを示唆している。
この議論は、倫理(すなわち倫理は価値に関するものである)からの基本的な洞察と、機械学習システムの構築とスケーリングに関する実践的な経験を組み合わせる。
私たちはまず、優れたシステムを構築する方法、システムアーキテクチャに関して何が良いかを定義する方法、そして誰がその定義を提供するべきかという、基礎的な懸念に対処することで、実際に倫理的なaiを構築したいと考えています。
倫理的AIの構築は、企業とプラットフォームのユーザの間の信頼の基盤を生み出します。
しかし、ユーザーが倫理的AIの直接的な価値を経験しない限り、この信頼は不当である。
ユーザーがアルゴリズムの動作を実際に制御するまで、現在のAIソリューションには何かが欠けている。
これはAIに対する大きな不信と、AI倫理ソリューションに対する無関心を引き起こす。
本研究の目的は,複数の値と個々人の表現の自由を許容する代替経路を提案することである。
どちらも真の道徳的性格の実現に不可欠である。 AI ethics is an emerging field with multiple, competing narratives about how to best solve the problem of building human values into machines. Two major approaches are focused on bias and compliance, respectively. But neither of these ideas fully encompasses ethics: using moral principles to decide how to act in a particular situation. Our method posits that the way data is labeled plays an essential role in the way AI behaves, and therefore in the ethics of machines themselves. The argument combines a fundamental insight from ethics (i.e. that ethics is about values) with our practical experience building and scaling machine learning systems. We want to build AI that is actually ethical by first addressing foundational concerns: how to build good systems, how to define what is good in relation to system architecture, and who should provide that definition. Building ethical AI creates a foundation of trust between a company and the users of that platform. But this trust is unjustified unless users experience the direct value of ethical AI. Until users have real control over how algorithms behave, something is missing in current AI solutions. This causes massive distrust in AI, and apathy towards AI ethics solutions. The scope of this paper is to propose an alternative path that allows for the plurality of values and the freedom of individual expression. Both are essential for realizing true moral character. | 翻訳日:2023-02-24 14:31:01 公開日:2023-02-23 |
# ストリーム化確率テンソル列車分解 Streaming probabilistic tensor train decomposition ( http://arxiv.org/abs/2302.12148v1 ) ライセンス: Link先を確認 | Yunyu Huang, Yani Feng, Qifeng Liao | (参考訳) ベイジアンストリーミングテンソル分解法は,ストリーミングデータの低ランク近似を発見する新しい方法である。
しかし、ストリーミングデータが高次テンソルから来るとき、既存のベイズストリーミングテンソル分解アルゴリズムのテンソル構造は、表現と計算能力の観点からは適切ではないかもしれない。
本稿では,テンソル列(tt)分解に基づく新しいベイズ流テンソル分解法を提案する。
特に、TT分解は高次テンソルを表現する効率的なアプローチである。
SVI(Stream variational Inference)フレームワークとTT分解を利用して、高次不完全雑音型ストリーミングテンソルの潜時構造を推定できる。
合成および実世界のデータを用いた実験は、最先端のベイズ流テンソル分解法と比較してアルゴリズムの精度を示している。 The Bayesian streaming tensor decomposition method is a novel method to discover the low-rank approximation of streaming data. However, when the streaming data comes from a high-order tensor, tensor structures of existing Bayesian streaming tensor decomposition algorithms may not be suitable in terms of representation and computation power. In this paper, we present a new Bayesian streaming tensor decomposition method based on tensor train (TT) decomposition. Especially, TT decomposition renders an efficient approach to represent high-order tensors. By exploiting the streaming variational inference (SVI) framework and TT decomposition, we can estimate the latent structure of high-order incomplete noisy streaming tensors. The experiments in synthetic and real-world data show the accuracy of our algorithm compared to the state-of-the-art Bayesian streaming tensor decomposition approaches. | 翻訳日:2023-02-24 14:30:42 公開日:2023-02-23 |
# 非構造化多言語webデータからの細粒度製品情報の自動抽出 Automated Extraction of Fine-Grained Standardized Product Information from Unstructured Multilingual Web Data ( http://arxiv.org/abs/2302.12139v1 ) ライセンス: Link先を確認 | Alexander Flick and Sebastian J\"ager and Ivana Trajanovska and Felix Biessmann | (参考訳) 非構造化データから構造化情報を抽出することは、eコマースを含む現代の情報検索アプリケーションにおける重要な課題の1つである。
本稿では、近年の機械学習の進歩と、標準化された細粒度製品カテゴリ情報を含む多言語データセットを組み合わせることで、移譲学習に挑戦する際の堅牢な製品属性抽出を可能にすることを実証する。
私たちのモデルは、オンラインショップ、言語、あるいはその両方にまたがる製品属性を確実に予測できます。
さらに、当社のモデルはオンライン小売業者間の商品分類に適合することを示す。 Extracting structured information from unstructured data is one of the key challenges in modern information retrieval applications, including e-commerce. Here, we demonstrate how recent advances in machine learning, combined with a recently published multilingual data set with standardized fine-grained product category information, enable robust product attribute extraction in challenging transfer learning settings. Our models can reliably predict product attributes across online shops, languages, or both. Furthermore, we show that our models can be used to match product taxonomies between online retailers. | 翻訳日:2023-02-24 14:30:30 公開日:2023-02-23 |
# 統一計算法zxw係数の任意の有限次元に対する完全性 Completeness for arbitrary finite dimensions of ZXW-calculus, a unifying calculus ( http://arxiv.org/abs/2302.12135v1 ) ライセンス: Link先を確認 | Boldizs\'ar Po\'or, Quanlong Wang, Razin A. Shaikh, Lia Yeh, Richie Yeung, Bob Coecke | (参考訳) ZX-計算は、キュービット量子計算のための普遍的なグラフィカル言語であり、つまり、キュービット間のすべての線型写像はZX-計算で表現できる。
さらに、これは完全なグラフィカルリライトシステムであり、量子論のヒルベルト空間形式論で導出される線型写像を含む任意の方程式は、書き換えによって計算で導出することができる。
量子回路の最適化、誤り訂正、教育といった様々なタスクに量子産業や学術で広く使われている。
ZW-計算(ZW-calculus)は、量子ビット量子コンピューティングでも完備な汎用グラフィカル言語である。
実際、その完全性は ZX-計算が普遍的に完全であることを証明するために使われた。
この計算は、量子回路を業界内のフォトニックハードウェアアーキテクチャにコンパイルする方法を進歩させた。
近年、これら2つの計算を組み合わせることで、量子計算のための新しい計算法 zxw-calculus が誕生した。
この計算を用いて、グラフィカルな微分、-積分、-指数化が可能となり、量子機械学習と量子化学の領域における新しい技術の開発が可能になった。
ここで、zxw の計算を任意の有限次元、すなわち qudits に一般化する。
さらに,このグラフィカルリライトシステムは任意の有限次元に対して完全であることを示す。
これはqubits以外のユニバーサルグラフィカル言語における最初の完全性である。 The ZX-calculus is a universal graphical language for qubit quantum computation, meaning that every linear map between qubits can be expressed in the ZX-calculus. Furthermore, it is a complete graphical rewrite system: any equation involving linear maps that is derivable in the Hilbert space formalism for quantum theory can also be derived in the calculus by rewriting. It has widespread usage within quantum industry and academia for a variety of tasks such as quantum circuit optimisation, error-correction, and education. The ZW-calculus is an alternative universal graphical language that is also complete for qubit quantum computing. In fact, its completeness was used to prove that the ZX-calculus is universally complete. This calculus has advanced how quantum circuits are compiled into photonic hardware architectures in the industry. Recently, by combining these two calculi, a new calculus has emerged for qubit quantum computation, the ZXW-calculus. Using this calculus, graphical-differentiation, -integration, and -exponentiation were made possible, thus enabling the development of novel techniques in the domains of quantum machine learning and quantum chemistry. Here, we generalise the ZXW-calculus to arbitrary finite dimensions, that is, to qudits. Moreover, we prove that this graphical rewrite system is complete for any finite dimension. This is the first completeness result for any universal graphical language beyond qubits. | 翻訳日:2023-02-24 14:30:22 公開日:2023-02-23 |
# 確率回路のためのベイズ構造スコア Bayesian Structure Scores for Probabilistic Circuits ( http://arxiv.org/abs/2302.12130v1 ) ライセンス: Link先を確認 | Yang Yang, Gennaro Gala and Robert Peharz | (参考訳) 確率回路(PC)は、推定可能な確率分布の顕著な表現である。
pcにおけるパラメータ学習は厳密に研究されているが、構造学習はしばしば原理目的よりもヒューリスティックスに基づいている。
本稿では,確率的グラフィカルモデルにおける構造学習の厳密な目的としてよく知られる,決定論的PCのためのベイズ構造スコア,すなわちパラメータを疎外した構造確率を開発する。
グリーディカットセットアルゴリズムで使用する場合、我々のスコアは効率よくオーバーフィッティングを防ぎ、高速でほぼハイパーパラメータフリーな構造学習者となり、それ以前のアプローチと区別される。
実験では,ログ類似性の観点から,トレーニング時間とモデル適合のトレードオフを良好に達成する。
さらに、ベイズスコアの原理的な性質は、構造的期待最大化のような枠組みに適応するpcを解き放つ。 Probabilistic circuits (PCs) are a prominent representation of probability distributions with tractable inference. While parameter learning in PCs is rigorously studied, structure learning is often more based on heuristics than on principled objectives. In this paper, we develop Bayesian structure scores for deterministic PCs, i.e., the structure likelihood with parameters marginalized out, which are well known as rigorous objectives for structure learning in probabilistic graphical models. When used within a greedy cutset algorithm, our scores effectively protect against overfitting and yield a fast and almost hyper-parameter-free structure learner, distinguishing it from previous approaches. In experiments, we achieve good trade-offs between training time and model fit in terms of log-likelihood. Moreover, the principled nature of Bayesian scores unlocks PCs for accommodating frameworks such as structural expectation-maximization. | 翻訳日:2023-02-24 14:30:03 公開日:2023-02-23 |
# 検索強化変圧器の一般化能力について On the Generalization Ability of Retrieval-Enhanced Transformers ( http://arxiv.org/abs/2302.12128v1 ) ライセンス: Link先を確認 | Tobias Norlund, Ehsan Doostmohammadi, Richard Johansson, Marco Kuhlmann | (参考訳) Retrieval-Enhanced Transformer (RETRO) モデルに関する最近の研究は、トレーニング可能な重み付けから検索データベースへのオフロードメモリが言語モデリングを著しく改善し、より大きなサイズの非検索モデルの性能に匹敵することを示した。
この性能向上の少なくとも一部は、モデル重みと検索の両方に基づく非自明な一般化によるものであることが示唆されている。
本稿では,これら2つのコンポーネントの相対的貢献をよりよく理解しようと試みる。
検索の結果,データベースとテストデータ間のトークンの重なり合いに起因し,従来想定されていたよりも非自明な一般化は少ないことが示唆された。
より一般的には,RETROのような検索強化言語モデルの一般化を評価する上での課題が指摘されている。
コードとモデルはhttps://github.com/tobiasnorlund/retroでリリースします。 Recent work on the Retrieval-Enhanced Transformer (RETRO) model has shown that off-loading memory from trainable weights to a retrieval database can significantly improve language modeling and match the performance of non-retrieval models that are an order of magnitude larger in size. It has been suggested that at least some of this performance gain is due to non-trivial generalization based on both model weights and retrieval. In this paper, we try to better understand the relative contributions of these two components. We find that the performance gains from retrieval largely originate from overlapping tokens between the database and the test data, suggesting less non-trivial generalization than previously assumed. More generally, our results point to the challenges of evaluating the generalization of retrieval-augmented language models such as RETRO, as even limited token overlap may significantly decrease test-time loss. We release our code and model at https://github.com/TobiasNorlund/retro | 翻訳日:2023-02-24 14:29:49 公開日:2023-02-23 |
# 記述的次元に基づく連続モデル選択によるモデル変化の兆候の検出 Detecting Signs of Model Change with Continuous Model Selection Based on Descriptive Dimensionality ( http://arxiv.org/abs/2302.12127v1 ) ライセンス: Link先を確認 | Kenji Yamanishi and So Hirai | (参考訳) データストリームの背後にあるモデルの変更を検出するという問題に対処する。
このモデルはパラメトリックモデルにおける自由パラメータの数のような整数値の構造情報を参照する。
具体的には、モデルが実現されるよりも早く、モデル変更の兆候をどうやって検出できるかという問題に対処する。
この目的のために、我々は、"em descriptive dimensionality}~(ddim)の概念に基づいて、"em continuous model selection} を用いる。
これはモデル遷移期のモデル次元を定量化するために設計された実数値モデル次元である。
連続モデル選択は、与えられたデータからDdimの観点から実数値モデル次元を決定することである。
データストリームにおけるDdimの上昇を追跡することによって,モデル変化の兆候を検出する新しい手法を提案する。
本稿では,ガウス混合モデルにおけるクラスタ数の変化の兆候を自動回帰モデルで検出するために,本手法を適用した。
合成および実データを用いて, モデル次元が遷移期間にどれだけ速く移動するかの可視化と, 既存の方法で検出されるよりも早く, モデル変化の早期警報信号の蓄積が可能であることを示すことにより, その効果を実証的に実証する。 We address the issue of detecting changes of models that lie behind a data stream. The model refers to an integer-valued structural information such as the number of free parameters in a parametric model. Specifically we are concerned with the problem of how we can detect signs of model changes earlier than they are actualized. To this end, we employ {\em continuous model selection} on the basis of the notion of {\em descriptive dimensionality}~(Ddim). It is a real-valued model dimensionality, which is designed for quantifying the model dimensionality in the model transition period. Continuous model selection is to determine the real-valued model dimensionality in terms of Ddim from a given data. We propose a novel methodology for detecting signs of model changes by tracking the rise-up of Ddim in a data stream. We apply this methodology to detecting signs of changes of the number of clusters in a Gaussian mixture model and those of the order in an auto regression model. With synthetic and real data sets, we empirically demonstrate its effectiveness by showing that it is able to visualize well how rapidly model dimensionality moves in the transition period and to raise early warning signals of model changes earlier than they are detected with existing methods. | 翻訳日:2023-02-24 14:29:32 公開日:2023-02-23 |
# KHAN: 政治スタンス予測のための知識対応階層型注意ネットワーク KHAN: Knowledge-Aware Hierarchical Attention Networks for Political Stance Prediction ( http://arxiv.org/abs/2302.12126v1 ) ライセンス: Link先を確認 | Yunyong Ko, Seongeun Ryu, Soeun Han, Yeongseung Jeon, Jaehoon Kim, Sohyun Park, Kyungsik Han, Hanghang Tong, Sang-Wook Kim | (参考訳) ニュース記事の政治的スタンス予測は、エコーチャンバー効果を緩和するために広く研究されており、人々は自分の考えに没頭し、既存の信念を強化する。
これまでの政治スタンス問題の研究は、(1)ニュース記事の政治的スタンスを反映した政治的要因を特定し、(2)その要因を効果的に捉えることに焦点を当てている。
実証的な成功にもかかわらず、彼らの特定された要因が政治的スタンス予測においてどれほど有効であるかという点で十分に正当化されていない。
そこで本研究では,政治スタンス予測の重要な要因を調査するために,ユーザ調査を行い,ニュース記事の文脈とトーン(意図)と,記事に現れる実世界の実体(説明)の外部知識が,その政治スタンスを決定する上で重要であることを観察する。
本研究では,(1)階層的注意ネットワーク(han)を用いて単語と文の関係を3つのレベルで学習し,(2)実世界の外部知識を政治スタンス予測のプロセスに組み込む知識符号化(ke)を用いて,政治的スタンス予測(khan)に対する新しい知識認識アプローチを提案する。
また、対立する政治姿勢の微妙で重要な違いを考慮し、自分たちで2つの独立した政治知識グラフ(KG-libとKG-con)を構築し、異なる政治知識を融合させることを学ぶ。
実世界の3つのデータセットに対する広範な評価を通じて,(1)精度,(2)効率,(3)有効性の観点から,DASHの優位性を示す。 The political stance prediction for news articles has been widely studied to mitigate the echo chamber effect -- people fall into their thoughts and reinforce their pre-existing beliefs. The previous works for the political stance problem focus on (1) identifying political factors that could reflect the political stance of a news article and (2) capturing those factors effectively. Despite their empirical successes, they are not sufficiently justified in terms of how effective their identified factors are in the political stance prediction. Motivated by this, in this work, we conduct a user study to investigate important factors in political stance prediction, and observe that the context and tone of a news article (implicit) and external knowledge for real-world entities appearing in the article (explicit) are important in determining its political stance. Based on this observation, we propose a novel knowledge-aware approach to political stance prediction (KHAN), employing (1) hierarchical attention networks (HAN) to learn the relationships among words and sentences in three different levels and (2) knowledge encoding (KE) to incorporate external knowledge for real-world entities into the process of political stance prediction. Also, to take into account the subtle and important difference between opposite political stances, we build two independent political knowledge graphs (KG) (i.e., KG-lib and KG-con) by ourselves and learn to fuse the different political knowledge. Through extensive evaluations on three real-world datasets, we demonstrate the superiority of DASH in terms of (1) accuracy, (2) efficiency, and (3) effectiveness. | 翻訳日:2023-02-24 14:29:13 公開日:2023-02-23 |
# HLデータセット:視覚における高レベル言語概念の接地 HL Dataset: Grounding High-Level Linguistic Concepts in Vision ( http://arxiv.org/abs/2302.12189v1 ) ライセンス: Link先を確認 | Michele Cafagna, Kees van Deemter, Albert Gatt | (参考訳) 現在のキャプションデータセットは、オブジェクト中心のキャプションに焦点を当て、画像内の可視なオブジェクトを記述し、しばしば(人間にとって)明らかな(例えば「公園で食べ物を食べている人」)を記述する。
これらのデータセットは視覚的コンテンツを認識できるビジョン・アンド・ランゲージ・モデルの能力を評価するのに有用であるが、「ピクニックをする人々」のような簡単な抽象概念を表現できない。
このような概念は人間の個人的な経験によってライセンスされ、常識的な仮定の形成に寄与する。
このデータセットは、COCOデータセットの14997イメージを拡張し、134973人の注釈付き(ハイレベル)抽象キャプションを3つの軸(シーン、アクション、合理性)に沿って収集する。
このようなデータセットを記述・公開し,抽象概念のマルチモーダルな接地の評価や,モデルのビシオ言語表現の充実に利用できることを示す。
さらに,このデータセットによって実現される潜在的なタスクについて述べる。 Current captioning datasets, focus on object-centric captions, describing the visible objects in the image, often ending up stating the obvious (for humans), e.g. "people eating food in a park". Although these datasets are useful to evaluate the ability of Vision & Language models to recognize the visual content, they lack in expressing trivial abstract concepts, e.g. "people having a picnic". Such concepts are licensed by human's personal experience and contribute to forming common sense assumptions. We present the High-Level Dataset; a dataset extending 14997 images of the COCO dataset with 134973 human-annotated (high-level) abstract captions collected along three axes: scenes, actions and rationales. We describe and release such dataset and we show how it can be used to assess models' multimodal grounding of abstract concepts and enrich models' visio-lingusitic representations. Moreover, we describe potential tasks enabled by this dataset involving high- and low-level concepts interactions. | 翻訳日:2023-02-24 14:23:55 公開日:2023-02-23 |
# 単純でスケーラブルな近距離機械翻訳 Simple and Scalable Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2302.12188v1 ) ライセンス: Link先を確認 | Yuhan Dai, Zhirui Zhang, Qiuzhi Liu, Qu Cui, Weihua Li, Yichao Du, Tong Xu | (参考訳) ドメイン固有のトークンレベルの$k$-nearest-neighbor(k$NN)検索で、トレーニング済みのニューラルネットワーク翻訳(NMT)モデルを直接プラグインすることで、再トレーニングなしにドメイン適応を実現する。
概念的には魅力的だが、$k$NN-MTは、参照コーパス全体に最も近い検索を行うため、大量のストレージ要件と高い計算複雑性に悩まされている。
本稿では,翻訳性能を維持しつつ,$k$NNベースのモデルの復号化と保存効率を大幅に向上させる,シンプルでスケーラブルな近接機械翻訳フレームワークを提案する。
この目的のために、我々は、文レベルの検索によって各入力に対して非常に小さなデータストアを動的に構築し、バニラ$k$NN-MTで全データストアを検索することを回避し、さらに、学習済みNMTモデルに$k$NN検索結果を適応的に組み込むための距離対応アダプタを導入する。
静的ドメイン適応とオンライン学習という2つの一般的な条件下での機械翻訳実験により,提案手法は性能劣化のないNMTモデルで約90%の高速化を実現するだけでなく,$k$NN-MTのストレージ要求を大幅に削減することを示した。 $k$NN-MT is a straightforward yet powerful approach for fast domain adaptation, which directly plugs pre-trained neural machine translation (NMT) models with domain-specific token-level $k$-nearest-neighbor ($k$NN) retrieval to achieve domain adaptation without retraining. Despite being conceptually attractive, $k$NN-MT is burdened with massive storage requirements and high computational complexity since it conducts nearest neighbor searches over the entire reference corpus. In this paper, we propose a simple and scalable nearest neighbor machine translation framework to drastically promote the decoding and storage efficiency of $k$NN-based models while maintaining the translation performance. To this end, we dynamically construct an extremely small datastore for each input via sentence-level retrieval to avoid searching the entire datastore in vanilla $k$NN-MT, based on which we further introduce a distance-aware adapter to adaptively incorporate the $k$NN retrieval results into the pre-trained NMT models. Experiments on machine translation in two general settings, static domain adaptation and online learning, demonstrate that our proposed approach not only achieves almost 90% speed as the NMT model without performance degradation, but also significantly reduces the storage requirements of $k$NN-MT. | 翻訳日:2023-02-24 14:23:38 公開日:2023-02-23 |
# RSFDM-Net:水中画像強調のためのリアルタイム空間・周波数領域変調ネットワーク RSFDM-Net: Real-time Spatial and Frequency Domains Modulation Network for Underwater Image Enhancement ( http://arxiv.org/abs/2302.12186v1 ) ライセンス: Link先を確認 | Jingxia Jiang, Jinbin Bai, Yun Liu, Junjie Yin, Sixiang Chen, Tian Ye, Erkang Chen | (参考訳) 水中画像は通常、懸濁粒子による光の吸収と散乱による明るさと構造の混合劣化を経験する。
そこで本稿では,水中画像における色やディテールの高効率化を目的としたリアルタイム空間領域変調ネットワーク(rsfdm-net)を提案する。
具体的には,適応的フーリエゲーティング機構 (AFGM) とマルチスケール・コンボリューショナル・アテンション・モジュール (MCAM) を用いて,低周波背景情報と高周波詳細特徴を持つベクトルを生成し,グローバルな背景情報と局所的なテクスチャの詳細をモデル化するネットワークを効果的に促進する。
画像のカラーキャストと彩度低下をより正確に補正するため、同じチャンネル(r,g,b)で拡張された色情報を統合するために、画像画素をピクセルごとに処理するプライマリネットの3分岐特徴抽出(tfe)ブロックを導入する。
このブロックは3つの小さな枝で構成され、それぞれ独自の重みを持つ。
大規模な実験により、我々のネットワークは視覚的品質と量的指標の両方において最先端の手法よりも著しく優れていた。 Underwater images typically experience mixed degradations of brightness and structure caused by the absorption and scattering of light by suspended particles. To address this issue, we propose a Real-time Spatial and Frequency Domains Modulation Network (RSFDM-Net) for the efficient enhancement of colors and details in underwater images. Specifically, our proposed conditional network is designed with Adaptive Fourier Gating Mechanism (AFGM) and Multiscale Convolutional Attention Module (MCAM) to generate vectors carrying low-frequency background information and high-frequency detail features, which effectively promote the network to model global background information and local texture details. To more precisely correct the color cast and low saturation of the image, we introduce a Three-branch Feature Extraction (TFE) block in the primary net that processes images pixel by pixel to integrate the color information extended by the same channel (R, G, or B). This block consists of three small branches, each of which has its own weights. Extensive experiments demonstrate that our network significantly outperforms over state-of-the-art methods in both visual quality and quantitative metrics. | 翻訳日:2023-02-24 14:23:14 公開日:2023-02-23 |
# 埋め込み型セマンティックSQLクエリのためのスケーラブルな空間効率インデータベース解釈フレームワーク A Scalable Space-efficient In-database Interpretability Framework for Embedding-based Semantic SQL Queries ( http://arxiv.org/abs/2302.12178v1 ) ライセンス: Link先を確認 | Prabhakar Kudva, Rajesh Bordawekar, Apoorva Nitsure | (参考訳) AI-Powered Database(AI-DB)は、リレーショナルテーブル上のセマンティックSQLクエリを可能にする、自己教師付きニューラルネットワークであるデータベース埋め込みを使用する、新しいリレーショナルデータベースシステムである。
本稿では、AI-DBがサポートするセマンティックSQLクエリのランキング結果に対する、シンプルで透明で関連性の高い洞察を提供するために設計されたデータベース内解釈可能性インフラストラクチャのアーキテクチャと実装について述べる。
我々は,共起数を保存するための空間効率のよい確率的スケッチ実装を記述するために,共起数に基づく新しい解釈可能性アプローチを導入する。
このアプローチはクエリ非依存(グローバル)とクエリ固有(ローカル)の両方の解釈を提供する。
実験により、我々のデータベース内確率的アプローチは、正確な空間非効率アプローチと同じ解釈可能性品質を提供する一方で、スケーラブルで空間効率のよい実行時挙動(最大8倍の空間節約)をユーザーの介入なしに提供することを示した。 AI-Powered database (AI-DB) is a novel relational database system that uses a self-supervised neural network, database embedding, to enable semantic SQL queries on relational tables. In this paper, we describe an architecture and implementation of in-database interpretability infrastructure designed to provide simple, transparent, and relatable insights into ranked results of semantic SQL queries supported by AI-DB. We introduce a new co-occurrence based interpretability approach to capture relationships between relational entities and describe a space-efficient probabilistic Sketch implementation to store and process co-occurrence counts. Our approach provides both query-agnostic (global) and query-specific (local) interpretabilities. Experimental evaluation demonstrate that our in-database probabilistic approach provides the same interpretability quality as the precise space-inefficient approach, while providing scalable and space efficient runtime behavior (up to 8X space savings), without any user intervention. | 翻訳日:2023-02-24 14:22:53 公開日:2023-02-23 |
# EquiPocket: リガンド結合サイト予測のためのE(3)等変幾何グラフニューラルネットワーク EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction ( http://arxiv.org/abs/2302.12177v1 ) ライセンス: Link先を確認 | Yang Zhang, Wenbing Huang, Zhewei Wei, Ye Yuan, Zhaohan Ding | (参考訳) 標的タンパク質の結合部位の予測は、薬物発見の基本的な役割を担っている。
既存のディープラーニングの手法では、タンパク質をボクセルに空間的にクラスタリングし、ボクセル化タンパク質を3d cnnに供給して3d画像と見なす。
しかし、cnnベースの手法にはいくつかの重大な問題がある。
1) 不規則なタンパク質構造の表現に欠陥があること。
2) 回転に敏感である。
3) タンパク質表面を特徴付けることができないこと。
4)データ流通シフトを知らないこと。
上記の問題に対処するため、EquiPocketは、結合サイト予測のためのE(3)等価なグラフニューラルネットワーク(GNN)である。
特に、EquiPocketは3つのモジュールから構成されている: 表面原子ごとに局所的な幾何学的情報を抽出する第1のモジュール、タンパク質の化学的構造と空間的構造の両方をモデル化する第2のモジュール、表面原子を渡る同変メッセージを通して表面の幾何学を捉える第2のモジュール。
さらに,可変タンパク質サイズに起因したデータ分布シフト効果をより緩和するために,集中型注意出力層を提案する。
いくつかの代表的なベンチマークに関する広範囲な実験は、最先端のメソッドに対する我々のフレームワークの優位性を示しています。 Predicting the binding sites of the target proteins plays a fundamental role in drug discovery. Most existing deep-learning methods consider a protein as a 3D image by spatially clustering its atoms into voxels and then feed the voxelized protein into a 3D CNN for prediction. However, the CNN-based methods encounter several critical issues: 1) defective in representing irregular protein structures; 2) sensitive to rotations; 3) insufficient to characterize the protein surface; 4) unaware of data distribution shift. To address the above issues, this work proposes EquiPocket, an E(3)-equivariant Graph Neural Network (GNN) for binding site prediction. In particular, EquiPocket consists of three modules: the first one to extract local geometric information for each surface atom, the second one to model both the chemical and spatial structure of the protein, and the last one to capture the geometry of the surface via equivariant message passing over the surface atoms. We further propose a dense attention output layer to better alleviate the data distribution shift effect incurred by the variable protein size. Extensive experiments on several representative benchmarks demonstrate the superiority of our framework to the state-of-the-art methods. | 翻訳日:2023-02-24 14:22:37 公開日:2023-02-23 |
# あなたが求めた以上に:アプリケーション統合型大規模言語モデルに対する新しいプロンプトインジェクション脅威の包括的な分析 More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models ( http://arxiv.org/abs/2302.12173v1 ) ライセンス: Link先を確認 | Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz | (参考訳) 現在、LLM(Large Language Models)の機能の劇的な進歩を目の当たりにしています。
それらはすでに採用されており、統合開発環境(IDE)や検索エンジンを含む多くのシステムに統合されている。
現在のLLMの機能は自然言語のプロンプトによって変調できるが、内部機能は暗黙的であり、未評価のままである。
このプロパティは、目に見えないタスクにも適応可能であり、ターゲットの敵のプロンプトにも影響を受けやすい。
近年,プロンプトインジェクション(pi)攻撃を用いたllmの誤用法がいくつか紹介されている。
このような攻撃では、敵はLSMに悪意のあるコンテンツを生成したり、元の命令と採用したフィルタリングスキームを無効にすることができる。
最近の研究は、最先端のLLMが命令追従しているため、これらの攻撃を緩和することは困難であることを示した。
これまでのところ、これらの攻撃は敵が直接LLMを誘導していると仮定していた。
本研究では,検索とAPI呼び出し機能を備えたLLMの拡張(いわゆるApplication-Integrated LLM)により,全く新しい攻撃ベクトルが生成されることを示す。
これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
攻撃者は間接的にこのようなPI攻撃を行うことができることを示す。
この重要な知見に基づいて,アプリケーション統合LDMの脅威景観を体系的に解析し,新たな攻撃ベクトルについて検討する。
攻撃の実用性を示すために,提案する攻撃の具体的実演を合成アプリケーションで実施した。
まとめると、我々の研究は、現在の緩和技術の緊急評価と、これらの脅威からllmを守るために新しい技術が必要かどうかの調査を要請しています。 We are currently witnessing dramatic advances in the capabilities of Large Language Models (LLMs). They are already being adopted in practice and integrated into many systems, including integrated development environments (IDEs) and search engines. The functionalities of current LLMs can be modulated via natural language prompts, while their exact internal functionality remains implicit and unassessable. This property, which makes them adaptable to even unseen tasks, might also make them susceptible to targeted adversarial prompting. Recently, several ways to misalign LLMs using Prompt Injection (PI) attacks have been introduced. In such attacks, an adversary can prompt the LLM to produce malicious content or override the original instructions and the employed filtering schemes. Recent work showed that these attacks are hard to mitigate, as state-of-the-art LLMs are instruction-following. So far, these attacks assumed that the adversary is directly prompting the LLM. In this work, we show that augmenting LLMs with retrieval and API calling capabilities (so-called Application-Integrated LLMs) induces a whole new set of attack vectors. These LLMs might process poisoned content retrieved from the Web that contains malicious prompts pre-injected and selected by adversaries. We demonstrate that an attacker can indirectly perform such PI attacks. Based on this key insight, we systematically analyze the resulting threat landscape of Application-Integrated LLMs and discuss a variety of new attack vectors. To demonstrate the practical viability of our attacks, we implemented specific demonstrations of the proposed attacks within synthetic applications. In summary, our work calls for an urgent evaluation of current mitigation techniques and an investigation of whether new techniques are needed to defend LLMs against these threats. | 翻訳日:2023-02-24 14:22:08 公開日:2023-02-23 |
# 多視点胸部X線を用いた統一胸部X線と放射線診断レポート生成モデル Unified Chest X-ray and Radiology Report Generation Model with Multi-view Chest X-rays ( http://arxiv.org/abs/2302.12172v1 ) ライセンス: Link先を確認 | Hyungyung Lee, Wonjae Kim, Jin-Hwa Kim, Tackeun Kim, Jihang Kim, Leonard Sunwoo, Edward Choi | (参考訳) 医学研究で生成された合成データは、プライバシとセキュリティに敏感なデータを大規模にキュレートされたデータセットに置き換え、データ収集とアノテーションのコストを削減できる。
この取り組みの一環として,統合胸部X線および報告生成モデルであるUniXGenを提案する。
まず,胸部x線を離散視覚トークンに識別するベクトル量子化法を採用し,両タスクをシーケンス生成タスクとして定式化することにより,双方向胸部x線とレポート生成のための統一モデルを設計する。
第2に,所望のビューが利用できない場合に有用な,特定のビューを持つ胸部x線を生成するための特別なトークンをいくつか紹介する。
さらに、UnixGenは単一のビューから複数のビューへの様々な入力を柔軟に受け取り、他のX線ビューで利用可能な追加の発見を利用することができる。
我々は,多視点胸部X線の長距離入力シーケンスを高分解能および長文レポートで処理するために,計算およびメモリ効率の効率的な変換器を採用する。
広範な実験により,本モデルがタスク固有モデルのみを訓練するよりも,両生成タスクに相乗効果があることが確認された。
また、ビュー固有の特別なトークンは、データセットに存在しない場合でも、異なるビューを区別し、特定のビューを適切に生成することができ、マルチビュー胸部X線を利用して、追加のX線による異常な発見を忠実に捉えることができる。
ソースコードは、https://github.com/ttumyche/UniXGenで公開されている。 Generated synthetic data in medical research can substitute privacy and security-sensitive data with a large-scale curated dataset, reducing data collection and annotation costs. As part of this effort, we propose UniXGen, a unified chest X-ray and report generation model, with the following contributions. First, we design a unified model for bidirectional chest X-ray and report generation by adopting a vector quantization method to discretize chest X-rays into discrete visual tokens and formulating both tasks as sequence generation tasks. Second, we introduce several special tokens to generate chest X-rays with specific views that can be useful when the desired views are unavailable. Furthermore, UniXGen can flexibly take various inputs from single to multiple views to take advantage of the additional findings available in other X-ray views. We adopt an efficient transformer for computational and memory efficiency to handle the long-range input sequence of multi-view chest X-rays with high resolution and long paragraph reports. In extensive experiments, we show that our unified model has a synergistic effect on both generation tasks, as opposed to training only the task-specific models. We also find that view-specific special tokens can distinguish between different views and properly generate specific views even if they do not exist in the dataset, and utilizing multi-view chest X-rays can faithfully capture the abnormal findings in the additional X-rays. The source code is publicly available at: https://github.com/ttumyche/UniXGen. | 翻訳日:2023-02-24 14:21:22 公開日:2023-02-23 |
# 言語モデルのクロスオーバー: わずかなプロンプトによるバリエーション Language Model Crossover: Variation through Few-Shot Prompting ( http://arxiv.org/abs/2302.12170v1 ) ライセンス: Link先を確認 | Elliot Meyerson and Mark J. Nelson and Herbie Bradley and Arash Moradi and Amy K. Hoover and Joel Lehman | (参考訳) 本稿では言語モデルが自然に進化的クロスオーバーと同様の知的変分演算子を可能にするという知見を追求する。
特に、十分なスケールの言語モデルは、文脈内学習、すなわち、少数の入力パターン間の関連から学習し、そのような関連を組み込んだアウトプットを生成することができる(" few-shot prompting"とも呼ばれる)。
この能力は、単純だが強力な変動演算子、すなわち、いくつかのテキストベースのジェノタイプ(コード、平文文、方程式など)を持つ言語モデルを誘導し、対応する出力をそれらのジェノタイプの子孫として解析するために利用することができる。
このような言語モデルクロスオーバー(実装が簡単で、多くの異なるオープンソース言語モデルを利用できる)の約束は、セマンティックにリッチなテキスト表現(ドメイン固有の微調整は少ない)を進化させるシンプルなメカニズムを可能にすることである。
本稿では、バイナリビット文字列、文、方程式、テキスト・ツー・イメージプロンプト、Pythonコードの進化を通じて、言語モデルのクロスオーバーの汎用性を明らかにする。
結論として、言語モデルのクロスオーバーは、テキストとして表現可能なゲノムの進化のための有望な方法である。 This paper pursues the insight that language models naturally enable an intelligent variation operator similar in spirit to evolutionary crossover. In particular, language models of sufficient scale demonstrate in-context learning, i.e. they can learn from associations between a small number of input patterns to generate outputs incorporating such associations (also called few-shot prompting). This ability can be leveraged to form a simple but powerful variation operator, i.e. to prompt a language model with a few text-based genotypes (such as code, plain-text sentences, or equations), and to parse its corresponding output as those genotypes' offspring. The promise of such language model crossover (which is simple to implement and can leverage many different open-source language models) is that it enables a simple mechanism to evolve semantically-rich text representations (with few domain-specific tweaks), and naturally benefits from current progress in language models. Experiments in this paper highlight the versatility of language-model crossover, through evolving binary bit-strings, sentences, equations, text-to-image prompts, and Python code. The conclusion is that language model crossover is a promising method for evolving genomes representable as text. | 翻訳日:2023-02-24 14:20:54 公開日:2023-02-23 |
# 日頭負荷予測のためのディープラーニングモデルの比較評価:鍵精度ドライバの検討 A comparative assessment of deep learning models for day-ahead load forecasting: Investigating key accuracy drivers ( http://arxiv.org/abs/2302.12168v1 ) ライセンス: Link先を確認 | Sotiris Pelekis, Ioannis-Konstantinos Seisopoulos, Evangelos Spiliotis, Theodosios Pountridis, Evangelos Karakolis, Spiros Mouzakitis, Dimitris Askounis | (参考訳) 短期負荷予測(STLF)は電力グリッドの日々の運用に不可欠である。
しかし、電力需要時系列を特徴付ける非線形性、非定常性、ランダム性は、STLFを困難な課題にしている。
そのために,現在最先端の性能を達成していると考えられる様々なディープラーニングモデルを含む,日頭負荷予測の文献において,様々な予測手法が提案されている。
このようなモデルの正確性を比較するために,国家ネット集約型slfに着目し,ポルトガルの場合,多層パーセプトロン,n-ビート,長期短期記憶型ニューラルネットワーク,時間畳み込み型ネットワークといった表現型アーキテクチャの確立された自己回帰型ニューラルネットワークについて検討する。
また,各モデルの性能に影響を及ぼす要因を調査し,ケース毎に最も適した要因を特定するために,予測誤差と重要なカレンダーと天気の特徴を関連付けたポストホック解析を行う。
以上の結果から,N-BEATSは学習モデルの他の部分よりも一貫して優れていたことが示唆された。
さらに,外部要因が精度に大きく影響し,実際の性能と相対性能の両方に影響を及ぼすことがわかった。 Short-term load forecasting (STLF) is vital for the daily operation of power grids. However, the non-linearity, non-stationarity, and randomness characterizing electricity demand time series renders STLF a challenging task. To that end, different forecasting methods have been proposed in the literature for day-ahead load forecasting, including a variety of deep learning models that are currently considered to achieve state-of-the-art performance. In order to compare the accuracy of such models, we focus on national net aggregated STLF and examine well-established autoregressive neural networks of indicative architectures, namely multi-layer perceptrons, N-BEATS, long short-term memory neural networks, and temporal convolutional networks, for the case of Portugal. To investigate the factors that affect the performance of each model and identify the most appropriate per case, we also conduct a post-hoc analysis, correlating forecast errors with key calendar and weather features. Our results indicate that N-BEATS consistently outperforms the rest of the examined deep learning models. Additionally, we find that external factors can significantly impact accuracy, affecting both the actual and relative performance of the models. | 翻訳日:2023-02-24 14:20:27 公開日:2023-02-23 |
# 韻律的特徴は文分割と構文解析を改善する Prosodic features improve sentence segmentation and parsing ( http://arxiv.org/abs/2302.12165v1 ) ライセンス: Link先を確認 | Elizabeth Nielsen, Sharon Goldwater, Mark Steedman | (参考訳) 音声対話のパーシングは、明確な文境界の欠如を含む、テキストのパーシングがしない課題を示す。
従来の研究から、韻律は単文の構文解析に有効である(Tran et al. 2018)ことは分かっているが、韻律が文に区切られていない音声の構文解析に与える影響を知りたい。
英語のスイッチボードコーパスを用いた実験では,韻律が文境界のパースと正確な識別の両方において有効であることがわかった。
しかし,最高の文セグメンテーション性能を持つパーサが必ずしも最適な文セグメンテーション性能を持つパーサではないことが判明した。
最善の構文解析は、代わりに他の構成要素境界と共同で文境界をモデル化することから得られると提案する。 Parsing spoken dialogue presents challenges that parsing text does not, including a lack of clear sentence boundaries. We know from previous work that prosody helps in parsing single sentences (Tran et al. 2018), but we want to show the effect of prosody on parsing speech that isn't segmented into sentences. In experiments on the English Switchboard corpus, we find prosody helps our model both with parsing and with accurately identifying sentence boundaries. However, we find that the best-performing parser is not necessarily the parser that produces the best sentence segmentation performance. We suggest that the best parses instead come from modelling sentence boundaries jointly with other constituent boundaries. | 翻訳日:2023-02-24 14:20:06 公開日:2023-02-23 |
# テキスト・画像モデルの高速パーソナライズのためのエンコーダの設計 Designing an Encoder for Fast Personalization of Text-to-Image Models ( http://arxiv.org/abs/2302.12228v1 ) ライセンス: Link先を確認 | Rinon Gal, Moab Arar, Yuval Atzmon, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or | (参考訳) テキストから画像へのパーソナライゼーションは、学習済みの拡散モデルに、新しいユーザーが提供する概念を推論し、それらを自然言語プロンプトによって誘導された新しいシーンに埋め込むように教えることを目的としている。
しかし、現在のパーソナライゼーションアプローチは、長いトレーニング時間、高いストレージ要件、あるいはアイデンティティの喪失に苦しむ。
これらの制限を克服するため,エンコーダに基づくドメインチューニング手法を提案する。
私たちの重要な洞察は、与えられたドメインから大きな概念セットを満たすことで、一般化を改善し、同じドメインから新しい概念を素早く追加できるモデルを作ることができるということです。
具体的には、まず、特定のドメイン、例えば特定の顔から対象概念の単一イメージを入力として取り込んで、その概念を表す単語埋め込みにマッピングする方法を学ぶエンコーダという2つのコンポーネントを用いる。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージモデルのための正規化重み付けのセット。
これらのコンポーネントを併用して、目に見えない概念の学習をガイドし、単一のイメージだけでモデルをパーソナライズし、品質を維持しながら、数十分から秒間のパーソナライズを加速する5つのトレーニングをすることができる。 Text-to-image personalization aims to teach a pre-trained diffusion model to reason about novel, user provided concepts, embedding them into new scenes guided by natural language prompts. However, current personalization approaches struggle with lengthy training times, high storage requirements or loss of identity. To overcome these limitations, we propose an encoder-based domain-tuning approach. Our key insight is that by underfitting on a large set of concepts from a given domain, we can improve generalization and create a model that is more amenable to quickly adding novel concepts from the same domain. Specifically, we employ two components: First, an encoder that takes as an input a single image of a target concept from a given domain, e.g. a specific face, and learns to map it into a word-embedding representing the concept. Second, a set of regularized weight-offsets for the text-to-image model that learn how to effectively ingest additional concepts. Together, these components are used to guide the learning of unseen concepts, allowing us to personalize a model using only a single image and as few as 5 training steps - accelerating personalization from dozens of minutes to seconds, while preserving quality. | 翻訳日:2023-02-24 14:13:48 公開日:2023-02-23 |
# 雑音性フェルミオン鎖における絡み合い生成のための時空画像 Spacetime picture for entanglement generation in noisy fermion chains ( http://arxiv.org/abs/2302.12212v1 ) ライセンス: Link先を確認 | Tobias Swann, Denis Bernard, and Adam Nahum | (参考訳) ランダムユニタリ回路の研究は、エンタングルメントのレーニーエントロピーの計算が時空における古典的な統計力学問題にマッピングできることを示した。
本稿では,保存則のない無作為自由あるいは弱相互作用フェルミオン系に対する絡み合い生成の類似した時空図を考案する。
まず,自由フェルミオンモデル,すなわち最寄りのホッピングを持つマヨラナモードの1次元連鎖を空間と時間の両方でランダムに研究した。
レプリカ形式を用いて、エンタングルメントのn番目のレニエントロピーを解析し、実効モデルが仮想時間に進化するso(2n)ハイゼンベルクスピン鎖と同値であることを示す。
n = 2 の場合のコヒーレント状態経路積分に鞍点近似を適用することで、時空における二つの古典場の観点から、絡み合う純度のダイナミクスの半古典的図に到達する。
古典的な解は2つの値の間を補間する滑らかな領域壁を含み、この領域壁は時間方向に微分的に緩和される。
自由フェルミオンモデルに弱い相互作用を加えると、この時空像が変化し、情報拡散から弾道的拡散への交差を反映する。 Studies of random unitary circuits have shown that the calculation of Renyi entropies of entanglement can be mapped to classical statistical mechanics problems in spacetime. In this paper, we develop an analogous spacetime picture of entanglement generation for random free or weakly interacting fermion systems without conservation laws. We first study a free-fermion model, namely a 1D chain of Majorana modes with nearest neighbour hoppings, random in both space and time. We analyze the Nth Renyi entropy of entanglement using a replica formalism, and we show that the effective model is equivalent to an SO(2N) Heisenberg spin chain evolving in imaginary time. By applying a saddle-point approximation to the coherent states path integral for the N = 2 case, we arrive at a semiclassical picture for the dynamics of the entanglement purity, in terms of two classical fields in spacetime. The classical solutions involve a smooth domain wall that interpolates between two values, with this domain wall relaxing diffusively in the time direction. We then study how adding weak interactions to the free-fermion model modifies this spacetime picture, reflecting a crossover from diffusive to ballistic spreading of information. | 翻訳日:2023-02-24 14:13:24 公開日:2023-02-23 |
# Federated Nearest Neighbor Machine Translation Federated Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2302.12211v1 ) ライセンス: Link先を確認 | Yichao Du, Zhirui Zhang, Bingzhe Wu, Lemao Liu, Tong Xu and Enhong Chen | (参考訳) ユーザのプライバシ保護と法的規制を満たすために,フェデレートラーニング(FL)が注目されている。
従来のFLアルゴリズム(例えば、FedAvg)を用いたニューラルネットワーク翻訳(NMT)モデルのトレーニングは通常、マルチラウンドモデルベースのインタラクションに依存する。
しかし、膨大な通信オーバーヘッドと大量の同期のため、機械翻訳タスクには非実用的で非効率である。
本稿では,複数ラウンドのモデルベースインタラクションの代わりに,1ラウンドの記憶に基づくインタラクションを活用して,異なるクライアント間で知識を共有することで,低オーバーヘッドのプライバシ保存システムを構築する,新しいフェデレーション近傍機械翻訳フレームワーク(FedNN)を提案する。
このアプローチ全体は、大規模アクセス可能なデータに基づいてトレーニングされたパブリックNMTモデルに$k$-nearest-neighbor($kNN)分類器を装備し、すべてのクライアントでプライベートテキストデータによって構築された外部データストアを統合して、最終的なFLモデルを形成する。
このプロセス中にプライバシ保存を実現するために、二相データストア暗号化戦略を導入する。
大規模な実験により、FedNNは異なるFL設定で有望な性能を維持しながら、FedAvgと比較して計算と通信のコストを大幅に削減することが示された。 To protect user privacy and meet legal regulations, federated learning (FL) is attracting significant attention. Training neural machine translation (NMT) models with traditional FL algorithm (e.g., FedAvg) typically relies on multi-round model-based interactions. However, it is impractical and inefficient for machine translation tasks due to the vast communication overheads and heavy synchronization. In this paper, we propose a novel federated nearest neighbor (FedNN) machine translation framework that, instead of multi-round model-based interactions, leverages one-round memorization-based interaction to share knowledge across different clients to build low-overhead privacy-preserving systems. The whole approach equips the public NMT model trained on large-scale accessible data with a $k$-nearest-neighbor ($$kNN) classifier and integrates the external datastore constructed by private text data in all clients to form the final FL model. A two-phase datastore encryption strategy is introduced to achieve privacy-preserving during this process. Extensive experiments show that FedNN significantly reduces computational and communication costs compared with FedAvg, while maintaining promising performance in different FL settings. | 翻訳日:2023-02-24 14:13:01 公開日:2023-02-23 |
# 非定常帯域の定義 A Definition of Non-Stationary Bandits ( http://arxiv.org/abs/2302.12202v1 ) ライセンス: Link先を確認 | Yueyang Liu, Benjamin Van Roy, Kuang Xu | (参考訳) 非定常的盗賊学習の主題は近年注目を集めている。
しかし、非定常的盗賊には正式な定義がない。
緩やかに言えば、非定常バンディットは、典型的には、報酬分布が時間とともに変化するものとして文学で特徴付けられる。
この非公式な定義は曖昧であることを示す。
さらに、広く使われている後悔(動的後悔)の概念は、この曖昧な定義によって動機づけられ、それゆえ問題となる。
特に最適なエージェントであっても、動的後悔はパフォーマンスの低下を示唆する。
あいまいな定義は、しばしば過大評価され、非常にゆるやかな後悔の境界をもたらす、盗賊によって経験される非定常性の度合いの尺度も動機付けている。
本論文の主な貢献はあいまいさを解決する公式な定義である。
この定義は、後悔の新たな概念、非定常性の度合いの代替尺度、および非定常的バンディット学習の厳密な境界につながる後悔の分析を動機付けている。
後悔の分析は、あらゆるバンディット、定常または非定常、および任意のエージェントに適用される。 The subject of non-stationary bandit learning has attracted much recent attention. However, non-stationary bandits lack a formal definition. Loosely speaking, non-stationary bandits have typically been characterized in the literature as those for which the reward distribution changes over time. We demonstrate that this informal definition is ambiguous. Further, a widely-used notion of regret -- the dynamic regret -- is motivated by this ambiguous definition and thus problematic. In particular, even for an optimal agent, dynamic regret can suggest poor performance. The ambiguous definition also motivates a measure of the degree of non-stationarity experienced by a bandit, which often overestimates and can give rise to extremely loose regret bounds. The primary contribution of this paper is a formal definition that resolves ambiguity. This definition motivates a new notion of regret, an alternative measure of the degree of non-stationarity, and a regret analysis that leads to tighter bounds for non-stationary bandit learning. The regret analysis applies to any bandit, stationary or non-stationary, and any agent. | 翻訳日:2023-02-24 14:12:15 公開日:2023-02-23 |
# ニューラルネットワークによる連続名前付きエンティティ認識モデル A Neural Span-Based Continual Named Entity Recognition Model ( http://arxiv.org/abs/2302.12200v1 ) ライセンス: Link先を確認 | Yunan Zhang, Qingcai Chen | (参考訳) 連続学習(CL)が可能な名前付きエンティティ認識(NER)モデルは、エンティティタイプが継続的に増加する領域(例えばパーソナルアシスタント)において現実的に有用である。
一方、nerの学習パラダイムは、スパンベースのメソッドのような新しいパターンに進化する。
しかし、clへの可能性は完全には検討されていない。
本稿では,cl-nerにおける競合を防止するために,メモリ保存とマルチラベル予測を行うkdモデルであるspankl1を提案する。
従来のシーケンスラベリングアプローチとは異なり、SpanKLのコヒーレント最適化によるスパンとエンティティレベルの本質的に独立したモデリングは、各段階における学習を促進し、忘れを緩和する。
OntoNotes と Few-NERD から得られた合成CLデータセットの実験により、SpanKL は以前の SoTA よりも多くの点で顕著に優れており、CL から上界への最小のギャップが得られた。 Named Entity Recognition (NER) models capable of Continual Learning (CL) are realistically valuable in areas where entity types continuously increase (e.g., personal assistants). Meanwhile the learning paradigm of NER advances to new patterns such as the span-based methods. However, its potential to CL has not been fully explored. In this paper, we propose SpanKL1, a simple yet effective Span-based model with Knowledge distillation (KD) to preserve memories and multi-Label prediction to prevent conflicts in CL-NER. Unlike prior sequence labeling approaches, the inherently independent modeling in span and entity level with the designed coherent optimization on SpanKL promotes its learning at each incremental step and mitigates the forgetting. Experiments on synthetic CL datasets derived from OntoNotes and Few-NERD show that SpanKL significantly outperforms previous SoTA in many aspects, and obtains the smallest gap from CL to the upper bound revealing its high practiced value. | 翻訳日:2023-02-24 14:12:00 公開日:2023-02-23 |
# 逆ロバスト予測のためのオンライン校正回帰 Online Calibrated Regression for Adversarially Robust Forecasting ( http://arxiv.org/abs/2302.12196v1 ) ライセンス: Link先を確認 | Volodymyr Kuleshov, Shachi Deshpande | (参考訳) 不確実性を正確に推定することは、機械学習における意思決定と予測の重要な要素である。
しかし、IIDデータに対する既存の不確実性推定手法は、これらのIID仮定がもはや成り立たない場合に失敗する可能性がある。
本稿では,オンライン学習の原理を活用した不確実性推定手法を提案する。
具体的には,既存のオンライン学習手法を拡張し,精度を確保しつつ予測の不確実性に対処するオンライン校正予測というタスクを定義する。
本稿では,逆入力においても確率予測の精度とキャリブレーションを公式に保証するアルゴリズムを提案する。
本手法は,いくつかの予測タスクにおいて実用的有用性を示し,自然ベースラインよりも確率的予測が向上することを示す。
全体として、我々のアプローチは不確実性の推定を校正し、より堅牢で信頼性の高い意思決定とリスクに敏感なシナリオの予測に向けて一歩を踏み出します。 Accurately estimating uncertainty is a crucial component of decision-making and forecasting in machine learning. However, existing uncertainty estimation methods developed for IID data may fail when these IID assumptions no longer hold. In this paper, we present a novel approach to uncertainty estimation that leverages the principles of online learning. Specifically, we define a task called online calibrated forecasting which seeks to extend existing online learning methods to handle predictive uncertainty while ensuring high accuracy. We introduce algorithms for this task that provide formal guarantees on the accuracy and calibration of probabilistic predictions even on adversarial input. We demonstrate the practical utility of our methods on several forecasting tasks, showing that our probabilistic predictions improve over natural baselines. Overall, our approach advances calibrated uncertainty estimation, and takes a step towards more robust and reliable decision-making and forecasting in risk-sensitive scenarios. | 翻訳日:2023-02-24 14:11:39 公開日:2023-02-23 |
# 一般化アノテート論理の拡張と等価ニューラルネットワーク Extensions to Generalized Annotated Logic and an Equivalent Neural Architecture ( http://arxiv.org/abs/2302.12195v1 ) ライセンス: Link先を確認 | Paulo Shakarian, Gerardo I. Simari | (参考訳) ディープニューラルネットワークは、画像認識、言語翻訳、データマイニング、ゲームプレイにおいて大きな進歩をもたらしたが、説明可能性の欠如、事前知識の導入の難しさ、モジュール性といったパラダイムにはよく知られた制限がある。
ニューロシンボリックハイブリッドシステムは、計算論理のようなシンボリック推論からアイデアを取り入れることで、ディープニューラルネットワークを拡張する簡単な方法として最近登場した。
本稿では,ニューロシンボリックシステムに対する望ましい基準のリストを提案し,既存のアプローチがこれらの基準にどう対処するかを検討する。
次に,代用ニューロシンボリックハイブリッドを含む等価なニューラルアーキテクチャの構築を可能にする,一般化アノテート論理の拡張を提案する。
しかしながら、トレーニングプロセスの継続的な最適化に依存する従来のアプローチとは異なり、我々のフレームワークは離散最適化を用いた二項化ニューラルネットワークとして設計されている。
我々は、このフレームワークを実装システムで実現するために克服しなければならないいくつかの課題について、正しさの証明を提供し、議論する。 While deep neural networks have led to major advances in image recognition, language translation, data mining, and game playing, there are well-known limits to the paradigm such as lack of explainability, difficulty of incorporating prior knowledge, and modularity. Neuro symbolic hybrid systems have recently emerged as a straightforward way to extend deep neural networks by incorporating ideas from symbolic reasoning such as computational logic. In this paper, we propose a list desirable criteria for neuro symbolic systems and examine how some of the existing approaches address these criteria. We then propose an extension to generalized annotated logic that allows for the creation of an equivalent neural architecture comprising an alternate neuro symbolic hybrid. However, unlike previous approaches that rely on continuous optimization for the training process, our framework is designed as a binarized neural network that uses discrete optimization. We provide proofs of correctness and discuss several of the challenges that must be overcome to realize this framework in an implemented system. | 翻訳日:2023-02-24 14:11:26 公開日:2023-02-23 |
# 人間のフィードバックによるテキスト対画像モデルの整合 Aligning Text-to-Image Models using Human Feedback ( http://arxiv.org/abs/2302.12192v1 ) ライセンス: Link先を確認 | Kimin Lee, Hao Liu, Moonkyung Ryu, Olivia Watkins, Yuqing Du, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Shixiang Shane Gu | (参考訳) 深層生成モデルはテキストから画像への合成において印象的な結果を示している。
しかし、現在のテキストから画像へのモデルは、テキストプロンプトと不十分に一致した画像を生成することが多い。
本稿では,3段階からなる人間のフィードバックを用いて,これらのモデルを調整するための微調整手法を提案する。
まず,多様なテキストプロンプトから,モデル出力アライメントを評価する人間フィードバックを収集する。
次に、人間ラベル付き画像テキストデータセットを使用して、人間のフィードバックを予測する報酬関数をトレーニングする。
最後に、テキスト対画像モデルは、画像とテキストのアライメントを改善するために報酬重み付き確率を最大化することで微調整される。
本手法は,事前学習したモデルよりも,特定の色,数,背景を持つオブジェクトを生成する。
また、いくつかの設計選択を分析し、アライメント-忠実トレードオフのバランスをとる上で、そのような設計選択に対する慎重な調査が重要であることを発見した。
本研究は,人間のフィードバックから学習し,テキストから画像へのモデルを大幅に改善する可能性を示す。 Deep generative models have shown impressive results in text-to-image synthesis. However, current text-to-image models often generate images that are inadequately aligned with text prompts. We propose a fine-tuning method for aligning such models using human feedback, comprising three stages. First, we collect human feedback assessing model output alignment from a set of diverse text prompts. We then use the human-labeled image-text dataset to train a reward function that predicts human feedback. Lastly, the text-to-image model is fine-tuned by maximizing reward-weighted likelihood to improve image-text alignment. Our method generates objects with specified colors, counts and backgrounds more accurately than the pre-trained model. We also analyze several design choices and find that careful investigations on such design choices are important in balancing the alignment-fidelity tradeoffs. Our results demonstrate the potential for learning from human feedback to significantly improve text-to-image models. | 翻訳日:2023-02-24 14:11:08 公開日:2023-02-23 |
# mcwdst:ソーシャルメディアにおけるリアルタイム偽ニュース除去のための最小コスト重み付き有向スパンディングツリーアルゴリズム MCWDST: a Minimum-Cost Weighted Directed Spanning Tree Algorithm for Real-Time Fake News Mitigation in Social Media ( http://arxiv.org/abs/2302.12190v1 ) ライセンス: Link先を確認 | Ciprian-Octavian Truic\u{a} and Elena-Simona Apostol and Radu-C\u{a}t\u{a}lin Nicolescu and Panagiotis Karras | (参考訳) インターネットアクセスとハンドヘルドデバイスの普及により、ソーシャルメディアはかつての新聞とよく似た力を持つようになった。
人々はソーシャルメディアで手頃な情報を探し、それを数秒で手に入れることができる。
しかし、この利便性には危険が伴う。ユーザーは自由に好きなものを投稿でき、コンテンツはその真実性に関わらず、長期間オンラインに留まることができる。
偽ニュースとしても知られる不正な情報を検出する必要性が生じる。
本稿では,フェイクニュースを正確に検出し,リアルタイムに拡散するネットワークノードを免疫するエンドツーエンドソリューションを提案する。
フェイクニュースを検出するために,畳み込み層と双方向LSTM層を利用する2つの新しいスタックディープラーニングアーキテクチャを提案する。
偽ニュースの拡散を緩和するため,(1)検出ノードに対する最小コストの重み付き有向木を構築するリアルタイムネットワーク認識戦略を提案し,(2)新しいランキング関数を用いて有害性を評価して,その木内のノードを免疫する。
実世界の5つのデータセットにソリューションの有効性を示す。 The widespread availability of internet access and handheld devices confers to social media a power similar to the one newspapers used to have. People seek affordable information on social media and can reach it within seconds. Yet this convenience comes with dangers; any user may freely post whatever they please and the content can stay online for a long period, regardless of its truthfulness. A need to detect untruthful information, also known as fake news, arises. In this paper, we present an end-to-end solution that accurately detects fake news and immunizes network nodes that spread them in real-time. To detect fake news, we propose two new stack deep learning architectures that utilize convolutional and bidirectional LSTM layers. To mitigate the spread of fake news, we propose a real-time network-aware strategy that (1) constructs a minimum-cost weighted directed spanning tree for a detected node, and (2) immunizes nodes in that tree by scoring their harmfulness using a novel ranking function. We demonstrate the effectiveness of our solution on five real-world datasets. | 翻訳日:2023-02-24 14:10:54 公開日:2023-02-23 |
# ノイズとバックへ:共有自律性のための拡散 To the Noise and Back: Diffusion for Shared Autonomy ( http://arxiv.org/abs/2302.12244v1 ) ライセンス: Link先を確認 | Takuma Yoneda and Luzhe Sun and Bradly Stadie and Ge Yang and Matthew Walter | (参考訳) 共有自律は、ユーザーと自律エージェントがロボットシステムを協調的に制御する運用概念である。
多くの設定において、フルテレオペレーションとフルオートノミーの極端よりも多くの利点を提供します。
従来の共有自律性へのアプローチは、環境力学の知識、優先事項として知られるユーザ目標の離散的な空間、あるいは多くのドメインで非現実的な仮定に依存する。
最近の研究は、モデルフリーの深層強化学習(RL)で共有自律性を定式化し、これらの仮定の一部を緩和している。
特に、彼らはもはやゴール空間(例えば、ゴールが離散的または制約的である)や環境力学の知識は必要としない。
しかし、ポリシーを訓練するにはタスク固有の報酬関数の知識が必要です。
残念なことに、このような報酬仕様は困難で不安定なプロセスになり得る。
それに加えて、定式化は本質的には人間のループトレーニングに依存しており、ユーザの行動を模倣するポリシーを作成する必要がある。
本稿では,拡散モデルの前方および逆拡散過程の変調を用いた共有自律性への新しいアプローチを提案する。
我々のアプローチは既知の環境ダイナミクスやユーザ目標の空間を前提とせず、以前の作業とは対照的に、報酬のフィードバックは必要とせず、トレーニング中にユーザのポリシにアクセスする必要もない。
その代わり、我々のフレームワークは望ましい行動の空間上の分布を学習する。
次に拡散モデルを使用して、この分布からユーザのアクションをサンプルに変換する。
重要なことは、ユーザのコントロール権限を保持する方法で、このプロセスを実行することが可能であることを示す。
当社のフレームワークを,一連の困難な継続的制御タスクで評価し,その自律性を維持しながらユーザの行動を効果的に修正する能力を分析した。 Shared autonomy is an operational concept in which a user and an autonomous agent collaboratively control a robotic system. It provides a number of advantages over the extremes of full-teleoperation and full-autonomy in many settings. Traditional approaches to shared autonomy rely on knowledge of the environment dynamics, a discrete space of user goals that is known a priori, or knowledge of the user's policy -- assumptions that are unrealistic in many domains. Recent works relax some of these assumptions by formulating shared autonomy with model-free deep reinforcement learning (RL). In particular, they no longer need knowledge of the goal space (e.g., that the goals are discrete or constrained) or environment dynamics. However, they need knowledge of a task-specific reward function to train the policy. Unfortunately, such reward specification can be a difficult and brittle process. On top of that, the formulations inherently rely on human-in-the-loop training, and that necessitates them to prepare a policy that mimics users' behavior. In this paper, we present a new approach to shared autonomy that employs a modulation of the forward and reverse diffusion process of diffusion models. Our approach does not assume known environment dynamics or the space of user goals, and in contrast to previous work, it does not require any reward feedback, nor does it require access to the user's policy during training. Instead, our framework learns a distribution over a space of desired behaviors. It then employs a diffusion model to translate the user's actions to a sample from this distribution. Crucially, we show that it is possible to carry out this process in a manner that preserves the user's control authority. We evaluate our framework on a series of challenging continuous control tasks, and analyze its ability to effectively correct user actions while maintaining their autonomy. | 翻訳日:2023-02-24 14:05:20 公開日:2023-02-23 |
# デュアル量子機器とサブオブザーバブル Dual Quantum Instruments and Sub-observables ( http://arxiv.org/abs/2302.12243v1 ) ライセンス: Link先を確認 | Stanley Gudder | (参考訳) 双対楽器とサブオブザーバブルの概念を紹介する。
双対計測器は一意な可観測性を示すが、多くの準可観測性を決定する。
観測可能部分の唯一の極小拡張を定義し、逐次積と観測可能部分の条件付けを考える。
サブオブザーバブル効果代数を特徴づけ、研究する。
さらに、これらの効果代数の凸性を考える。
楽器の逐次生産について論じる。
これらの概念は多くの楽器の例で示される。
特に、L\uders, Holero, constant state instrumentについて議論する。
将来の研究の様々な予想が提示される。 We introduce the concepts of dual instruments and sub-observables. We show that although a dual instruments measures a unique observable, it determines many sub-observables. We define a unique minimal extension of a sub-observable to an observable and consider sequential products and conditioning of sub-observables. Sub-observable effect algebras are characterized and studied. Moreover, the convexity of these effect algebras is considered. The sequential product of instruments is discussed. These concepts are illustrated with many examples of instruments. In particular, we discuss L\"uders, Holero and constant state instruments. Various conjectures for future research are presented. | 翻訳日:2023-02-24 14:04:52 公開日:2023-02-23 |
# Open-Vocabulary Semantic Segmentationのためのサイドアダプタネットワーク Side Adapter Network for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2302.12242v1 ) ライセンス: Link先を確認 | Mengde Xu, Zheng Zhang, Fangyun Wei, Han Hu and Xiang Bai | (参考訳) 本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
本手法は,セマンティクスセグメンテーションタスクを領域認識問題としてモデル化する。
サイドネットワークは、マスク提案を予測する2つのブランチと、CLIPモデルでマスクのクラスを認識するために適用される注意バイアスを予測する2つのブランチを持つ凍結CLIPモデルに取り付けられる。
この分離された設計は、マスク提案のクラスを認識するための利点がある。
付属するサイドネットワークはCLIP機能を再利用できるため、非常に軽量である。
さらに、ネットワーク全体がエンドツーエンドでトレーニングされ、サイドネットワークが凍結されたCLIPモデルに適合し、予測されたマスク提案がCLIPに認識される。
私たちのアプローチは高速で正確で、追加のトレーニング可能なパラメータを追加するだけです。
複数のセマンティックセグメンテーションベンチマークに対するアプローチを評価する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
当社のアプローチが確固たるベースラインとして機能し、オープン語彙セマンティックセグメンテーションの今後の研究を容易にすることを願っている。
コードはhttps://github.com/MendelXu/SANで入手できる。 This paper presents a new framework for open-vocabulary semantic segmentation with the pre-trained vision-language model, named Side Adapter Network (SAN). Our approach models the semantic segmentation task as a region recognition problem. A side network is attached to a frozen CLIP model with two branches: one for predicting mask proposals, and the other for predicting attention bias which is applied in the CLIP model to recognize the class of masks. This decoupled design has the benefit CLIP in recognizing the class of mask proposals. Since the attached side network can reuse CLIP features, it can be very light. In addition, the entire network can be trained end-to-end, allowing the side network to be adapted to the frozen CLIP model, which makes the predicted mask proposals CLIP-aware. Our approach is fast, accurate, and only adds a few additional trainable parameters. We evaluate our approach on multiple semantic segmentation benchmarks. Our method significantly outperforms other counterparts, with up to 18 times fewer trainable parameters and 19 times faster inference speed. We hope our approach will serve as a solid baseline and help ease future research in open-vocabulary semantic segmentation. The code will be available at https://github.com/MendelXu/SAN. | 翻訳日:2023-02-24 14:04:44 公開日:2023-02-23 |
# 言語が深層学習を容易にする理由? What makes a language easy to deep-learn? ( http://arxiv.org/abs/2302.12239v1 ) ライセンス: Link先を確認 | Lukas Galke, Yoav Ram, Limor Raviv | (参考訳) ニューラルネットワークは自然言語処理の成功を促進する。
自然言語の基本的性質は構成構造であり、新しい意味を体系的に記述することができる。
しかし、ニューラルネットワークは体系的な一般化に苦しむことで知られており、緊急通信シミュレーションにおける構成構造から必ずしも恩恵を受けない。
ここでは、ニューラルネットワークが人間の学習と新しい言語を一般化するためにどのように人間と比較するかをテストする。
我々は、人工言語学習研究(もともとは人間の参加者によって行われた)を忠実に複製し、入力言語の構造の程度に関して深層ニューラルネットワークの記憶と一般化能力を評価する。
より構造化された言語入力は、より体系的な一般化と、人間とニューラルネットワークエージェントと、異なるニューラルネットワークエージェントの間のより優れた収束につながる。
次に、この構造バイアスをTransformer-based large language model (GPT-3) で再現し、一般化体系と記憶誤りに関する構造化言語入力に類似した利点を示す。
これらの結果は、言語の基本構造が体系的一般化に不可欠であることを示している。
自然言語におけるコミュニティの大きさと言語構造との関係から,低リソース言語の自動処理の課題を浮き彫りにした。
それでも、人間と機械の類似性は言語進化研究の新たな道を開く。 Neural networks drive the success of natural language processing. A fundamental property of natural languages is their compositional structure, allowing us to describe new meanings systematically. However, neural networks notoriously struggle with systematic generalization and do not necessarily benefit from a compositional structure in emergent communication simulations. Here, we test how neural networks compare to humans in learning and generalizing a new language. We do this by closely replicating an artificial language learning study (conducted originally with human participants) and evaluating the memorization and generalization capabilities of deep neural networks with respect to the degree of structure in the input language. Our results show striking similarities between humans and deep neural networks: More structured linguistic input leads to more systematic generalization and better convergence between humans and neural network agents and between different neural agents. We then replicate this structure bias found in humans and our recurrent neural networks with a Transformer-based large language model (GPT-3), showing a similar benefit for structured linguistic input regarding generalization systematicity and memorization errors. These findings show that the underlying structure of languages is crucial for systematic generalization. Due to the correlation between community size and linguistic structure in natural languages, our findings underscore the challenge of automated processing of low-resource languages. Nevertheless, the similarity between humans and machines opens new avenues for language evolution research. | 翻訳日:2023-02-24 14:04:23 公開日:2023-02-23 |
# 自己教師付き学習による適応型共形予測の改善 Improving Adaptive Conformal Prediction Using Self-Supervised Learning ( http://arxiv.org/abs/2302.12238v1 ) ライセンス: Link先を確認 | Nabeel Seedat, Alan Jeffares, Fergus Imrie, Mihaela van der Schaar | (参考訳) 共形予測は不確実性定量化のための強力な分布フリーツールであり、有限サンプル保証による有効な予測間隔を確立する。
各インスタンスの難易度にも適応する有効区間を生成するには、正規化された非整合性のスコアを別のキャリブレーションセットで計算するのが一般的な方法である。
自己教師付き学習は多くの領域で、下流の予測者の一般的な表現を学ぶために効果的に利用されている。
しかし、モデルの事前学習や表現学習を超えた自己スーパービジョンの使用は、ほとんど未開拓である。
本研究では, 自己教師付きプリテキストタスクが, 適合区間の適応性を向上させることにより, 適合レグレッサの品質を向上させる方法について検討する。
既存の予測モデルの上に自己教師付きプリテキストタスクで補助モデルをトレーニングし、自己教師付きエラーを追加機能として使用することで、非コンフォーマンティスコアを推定する。
提案手法は, 合成データと実データの両方を用いて, 効率(width), 欠陥, コンフォーメーショナル予測間隔の超過に関する付加情報の有効性を実証的に実証する。 Conformal prediction is a powerful distribution-free tool for uncertainty quantification, establishing valid prediction intervals with finite-sample guarantees. To produce valid intervals which are also adaptive to the difficulty of each instance, a common approach is to compute normalized nonconformity scores on a separate calibration set. Self-supervised learning has been effectively utilized in many domains to learn general representations for downstream predictors. However, the use of self-supervision beyond model pretraining and representation learning has been largely unexplored. In this work, we investigate how self-supervised pretext tasks can improve the quality of the conformal regressors, specifically by improving the adaptability of conformal intervals. We train an auxiliary model with a self-supervised pretext task on top of an existing predictive model and use the self-supervised error as an additional feature to estimate nonconformity scores. We empirically demonstrate the benefit of the additional information using both synthetic and real data on the efficiency (width), deficit, and excess of conformal prediction intervals. | 翻訳日:2023-02-24 14:04:01 公開日:2023-02-23 |
# 数分間の動的人間の神経体積表現の学習 Learning Neural Volumetric Representations of Dynamic Humans in Minutes ( http://arxiv.org/abs/2302.12237v1 ) ライセンス: Link先を確認 | Chen Geng, Sida Peng, Zhen Xu, Hujun Bao, Xiaowei Zhou | (参考訳) 本稿では,疎度なマルチビュー映像から動的人間の自由視点映像を迅速に再構築する課題について述べる。
いくつかの最近の研究は、動的人間を標準的な神経放射場(NeRF)と運動場として表現している。
しかし、シーンごとの最適化は通常数時間を要する。
他の一般的なnerfモデルはデータセットから事前学習し、ビジュアル忠実度を犠牲にして新しいシーンを微調整するだけで最適化時間を短縮できる。
本稿では,視覚的品質の競争力のある映像から,ダイナミックな人間のニューラルボリューム映像を学習するための新しい手法を提案する。
具体的には、ネットワークの表現力を異なる人間によりよく分配するために、新しい部分ベースのvoxelized human representationを定義する。
さらに,変形場学習の収束率を高めるために,新しい2次元運動パラメータ化手法を提案する。
実験により,レンダリング品質の面での競争力を保ちつつ,事前の最適化手法よりも100倍早く学習できることが実証された。
512 \times 512$のビデオで、100フレームでモデルをトレーニングするには、通常、RTX 3090 GPUで約5分かかります。
コードは $\href{https://zju3dv.github.io/instant_nvr}{project~page}$でリリースされる。 This paper addresses the challenge of quickly reconstructing free-viewpoint videos of dynamic humans from sparse multi-view videos. Some recent works represent the dynamic human as a canonical neural radiance field (NeRF) and a motion field, which are learned from videos through differentiable rendering. But the per-scene optimization generally requires hours. Other generalizable NeRF models leverage learned prior from datasets and reduce the optimization time by only finetuning on new scenes at the cost of visual fidelity. In this paper, we propose a novel method for learning neural volumetric videos of dynamic humans from sparse view videos in minutes with competitive visual quality. Specifically, we define a novel part-based voxelized human representation to better distribute the representational power of the network to different human parts. Furthermore, we propose a novel 2D motion parameterization scheme to increase the convergence rate of deformation field learning. Experiments demonstrate that our model can be learned 100 times faster than prior per-scene optimization methods while being competitive in the rendering quality. Training our model on a $512 \times 512$ video with 100 frames typically takes about 5 minutes on a single RTX 3090 GPU. The code will be released on our $\href{https://zju3dv.github.io/instant_nvr}{project~page}$. | 翻訳日:2023-02-24 14:03:42 公開日:2023-02-23 |
# q-flow:正規化流を伴う開量子力学の微分方程式生成モデル Q-Flow: Generative Modeling for Differential Equations of Open Quantum Dynamics with Normalizing Flows ( http://arxiv.org/abs/2302.12235v1 ) ライセンス: Link先を確認 | Owen Dugan, Peter Y. Lu, Rumen Dangovski, Di Luo, Marin Solja\v{c}i\'c | (参考訳) オープン量子システムのダイナミクスの研究は、基礎物理学と量子工学と量子計算の応用の両方においてブレークスルーを可能にする可能性を秘めている。
この問題の高次元の性質のため、カスタマイズされた深部生成ニューラルネットワークは高次元密度行列$\rho$のモデル化に役立っている。
しかしながら、\rho$ の複素値の性質と正規化制約とその複雑なダイナミクスは、オープン量子システムと近年の深層生成モデリングにおけるシームレスな接続を禁止している。
ここでは、開量子系の力学を、対応する確率分布 $Q$, Husimi Q 関数に対する偏微分方程式 (PDE) に再構成することで、その制限を解除する。
そこで本研究では,Q関数を既成の深部生成モデルとシームレスにモデル化する。
さらに, euler 法と時間依存変分原理を応用し, 高次元 pdes に支配される流れの正規化を学習する新しい手法を開発した。
提案手法をq-flowと命名し,散逸調和振動子と散逸ボソニックモデルを含むオープン量子システムシミュレーションにおけるq-flowのスケーラビリティと効率を実証する。
Q-Flowは、特に高次元システムにおいて、従来のPDEソルバや最先端の物理インフォームドニューラルネットワークソルバよりも優れている。 Studying the dynamics of open quantum systems holds the potential to enable breakthroughs both in fundamental physics and applications to quantum engineering and quantum computation. Due to the high-dimensional nature of the problem, customized deep generative neural networks have been instrumental in modeling the high-dimensional density matrix $\rho$, which is the key description for the dynamics of such systems. However, the complex-valued nature and normalization constraints of $\rho$, as well as its complicated dynamics, prohibit a seamless connection between open quantum systems and the recent advances in deep generative modeling. Here we lift that limitation by utilizing a reformulation of open quantum system dynamics to a partial differential equation (PDE) for a corresponding probability distribution $Q$, the Husimi Q function. Thus, we model the Q function seamlessly with off-the-shelf deep generative models such as normalizing flows. Additionally, we develop novel methods for learning normalizing flow evolution governed by high-dimensional PDEs, based on the Euler method and the application of the time-dependent variational principle. We name the resulting approach Q-Flow and demonstrate the scalability and efficiency of Q-Flow on open quantum system simulations, including the dissipative harmonic oscillator and the dissipative bosonic model. Q-Flow is superior to conventional PDE solvers and state-of-the-art physics-informed neural network solvers, especially in high-dimensional systems. | 翻訳日:2023-02-24 14:03:21 公開日:2023-02-23 |
# 解釈可能なマルチエージェント強化学習のための概念学習 Concept Learning for Interpretable Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.12232v1 ) ライセンス: Link先を確認 | Renos Zabounidis, Joseph Campbell, Simon Stepputtis, Dana Hughes, Katia Sycara | (参考訳) マルチエージェントロボットシステムは、人間に近い現実世界の環境でますます運用されているが、主に深いニューラルネットワーク表現を持つポリシーモデルによって制御されている。
本稿では,その概念をモデルに最初に予測させ,それを意思決定に利用させることによって,ドメインエキスパートから多エージェント強化学習によって学習されたモデルへの解釈可能な概念を組み込む手法を提案する。
これにより、専門家は、これらのハイレベルな概念を実行時の観点で、結果のコンセプトポリシーモデルを推論できるだけでなく、パフォーマンスを改善するために誤った予測を介入し、修正することができる。
シミュレーションおよび実世界の協調競争型マルチエージェントゲームにおいて,政策性能とサンプル効率の利点を生かし,解釈可能性とトレーニング安定性の向上を図っている。 Multi-agent robotic systems are increasingly operating in real-world environments in close proximity to humans, yet are largely controlled by policy models with inscrutable deep neural network representations. We introduce a method for incorporating interpretable concepts from a domain expert into models trained through multi-agent reinforcement learning, by requiring the model to first predict such concepts then utilize them for decision making. This allows an expert to both reason about the resulting concept policy models in terms of these high-level concepts at run-time, as well as intervene and correct mispredictions to improve performance. We show that this yields improved interpretability and training stability, with benefits to policy performance and sample efficiency in a simulated and real-world cooperative-competitive multi-agent game. | 翻訳日:2023-02-24 14:02:54 公開日:2023-02-23 |
# DiffusioNeRF: Denoising Diffusion Modelを用いた正則化ニューラルラジアンス場 DiffusioNeRF: Regularizing Neural Radiance Fields with Denoising Diffusion Models ( http://arxiv.org/abs/2302.12231v1 ) ライセンス: Link先を確認 | Jamie Wynn, Daniyar Turmukhambetov | (参考訳) 良好な条件下では、ニューラルレージアンス場(NeRF)は、新しいビュー合成タスクにおいて印象的な結果を示している。
NeRFは、トレーニングビューとシーンの微分可能なレンダリングとの光度差を最小限にして、シーンの色と密度場を学習する。
十分な一連のビューからトレーニングされたNeRFは、任意のカメラ位置から新しいビューを生成することができる。
しかし、シーンの幾何学とカラーフィールドは厳しい制約下にあり、特に少ない入力ビューでトレーニングされた場合、アーティファクトにつながる可能性がある。
この問題を軽減するために,ddm(denoising diffusion model)を用いて,風景形状と色彩の先行学習を行う。
我々のDDMは、合成HypersimデータセットのRGBDパッチに基づいて訓練されており、色と深さの確率分布の対数勾配を予測できる。
我々は,NeRFトレーニングにおいて,これらのRGBDパッチの対数勾配が,シーンの形状や色を規則化するのに役立つことを示した。
nerfトレーニング中、ランダムなrgbdパッチがレンダリングされ、ログ類似度の推定勾配が色と密度フィールドに再伝播される。
最も関連するデータセットであるllffの評価は、学習済みの事前学習によって再構成された幾何学の質が向上し、新しい視点への一般化が改善されたことを示している。
DTUの評価では、NeRF法で再現性が改善された。 Under good conditions, Neural Radiance Fields (NeRFs) have shown impressive results on novel view synthesis tasks. NeRFs learn a scene's color and density fields by minimizing the photometric discrepancy between training views and differentiable renders of the scene. Once trained from a sufficient set of views, NeRFs can generate novel views from arbitrary camera positions. However, the scene geometry and color fields are severely under-constrained, which can lead to artifacts, especially when trained with few input views. To alleviate this problem we learn a prior over scene geometry and color, using a denoising diffusion model (DDM). Our DDM is trained on RGBD patches of the synthetic Hypersim dataset and can be used to predict the gradient of the logarithm of a joint probability distribution of color and depth patches. We show that, during NeRF training, these gradients of logarithms of RGBD patch priors serve to regularize geometry and color for a scene. During NeRF training, random RGBD patches are rendered and the estimated gradients of the log-likelihood are backpropagated to the color and density fields. Evaluations on LLFF, the most relevant dataset, show that our learned prior achieves improved quality in the reconstructed geometry and improved generalization to novel views. Evaluations on DTU show improved reconstruction quality among NeRF methods. | 翻訳日:2023-02-24 14:02:42 公開日:2023-02-23 |
# 釣りラオ勾配流に沿ったクルバック・リーブラー分岐の明示的拡大 An Explicit Expansion of the Kullback-Leibler Divergence along its Fisher-Rao Gradient Flow ( http://arxiv.org/abs/2302.12229v1 ) ライセンス: Link先を確認 | Carles Domingo-Enrich, Aram-Alexandre Pooladian | (参考訳) V_* : \mathbb{R}^d \to \mathbb{R}$ をある(非凸かもしれない)ポテンシャル函数とし、確率測度 $\pi \propto e^{-V_*}$ を考える。
$\pi$ が複数のモードを示すとき、kullback-leibler (kl) 分岐のwasserstein勾配流に基づくサンプリング技術(例えば、langevin monte carlo)は収束率に乏しく、モード間のダイナミクスが容易にトラバースできないことが知られている。
対照的に、Lu et al. (2019; 2022) の研究は、フィッシャー・ラオ (FR) 幾何学に対する KL の勾配流は、ポテンシャル函数の \textit{independent} が$\pi$ への収束率を示すことを示した。
この短い注記では、これらの既存の結果を文献中で補うために、$e^{-t}$ の項で $\text{kl}(\rho_t^{\text{fr}}\|\pi)$ の明示的な拡張を提供し、ここで $(\rho_t^{\text{fr}})_{t\geq 0}$ は kl 分岐の fr 勾配フローである。
結果として、バーンイン時間が有限であることを保証したクリーンな漸近収束率を提供できる。
この証明は、FR勾配流と線形スケーリングによる模擬焼鈍の類似性と累積生成関数に関する事実を観察することに基づいている。
理論的な発見が本当にきついことを示す単純な合成実験で締めくくります。
我々の数値に基づいて、ワッサーシュタイン-フィッシャー-ラオ勾配流の漸近収束率は、場合によってはこの膨張と関係していると推測する。 Let $V_* : \mathbb{R}^d \to \mathbb{R}$ be some (possibly non-convex) potential function, and consider the probability measure $\pi \propto e^{-V_*}$. When $\pi$ exhibits multiple modes, it is known that sampling techniques based on Wasserstein gradient flows of the Kullback-Leibler (KL) divergence (e.g. Langevin Monte Carlo) suffer poorly in the rate of convergence, where the dynamics are unable to easily traverse between modes. In stark contrast, the work of Lu et al. (2019; 2022) has shown that the gradient flow of the KL with respect to the Fisher-Rao (FR) geometry exhibits a convergence rate to $\pi$ is that \textit{independent} of the potential function. In this short note, we complement these existing results in the literature by providing an explicit expansion of $\text{KL}(\rho_t^{\text{FR}}\|\pi)$ in terms of $e^{-t}$, where $(\rho_t^{\text{FR}})_{t\geq 0}$ is the FR gradient flow of the KL divergence. In turn, we are able to provide a clean asymptotic convergence rate, where the burn-in time is guaranteed to be finite. Our proof is based on observing a similarity between FR gradient flows and simulated annealing with linear scaling, and facts about cumulant generating functions. We conclude with simple synthetic experiments that demonstrate our theoretical findings are indeed tight. Based on our numerics, we conjecture that the asymptotic rates of convergence for Wasserstein-Fisher-Rao gradient flows are possibly related to this expansion in some cases. | 翻訳日:2023-02-24 14:02:20 公開日:2023-02-23 |
# 変化は難しい:サブ人口シフトをよく見る Change is Hard: A Closer Look at Subpopulation Shift ( http://arxiv.org/abs/2302.12254v1 ) ライセンス: Link先を確認 | Yuzhe Yang, Haoran Zhang, Dina Katabi, Marzyeh Ghassemi | (参考訳) 機械学習モデルは、トレーニングデータに不足しているサブグループでよく機能しない。
しかし、サブポピュレーションシフトを引き起こすメカニズムのばらつきや、どのようにアルゴリズムがこのような多様なシフトを大規模に一般化するかについては、ほとんど理解されていない。
本研究では,サブポピュレーションシフトの微粒化解析を行う。
まず,サブグループにおける共通シフトを分類し,説明する統一フレームワークを提案する。
次に,視覚領域,言語領域,医療領域の12の現実世界データセットで評価された20の最先端アルゴリズムの総合ベンチマークを構築した。
1万モデル以上のトレーニングから得られた結果から,この領域における今後の進歩に対する興味深い観測結果が得られた。
まず、既存のアルゴリズムはある種のシフトよりも部分群ロバスト性を改善するが、他のアルゴリズムは改善しない。
また,現在のアルゴリズムはモデル選択のためのグループ指定検証データに依存しているが,最悪のクラス精度に基づく単純な選択基準は,グループ情報なしでも驚くほど有効であることがわかった。
最後に、最悪のグループ精度(WGA)の改善を目的とする既存の作業とは異なり、WGAと他の重要なメトリクスとの根本的なトレードオフを示し、テストメトリクスを慎重に選択する必要性を強調します。
コードとデータは、https://github.com/yyzharry/subpopbenchで入手できる。 Machine learning models often perform poorly on subgroups that are underrepresented in the training data. Yet, little is understood on the variation in mechanisms that cause subpopulation shifts, and how algorithms generalize across such diverse shifts at scale. In this work, we provide a fine-grained analysis of subpopulation shift. We first propose a unified framework that dissects and explains common shifts in subgroups. We then establish a comprehensive benchmark of 20 state-of-the-art algorithms evaluated on 12 real-world datasets in vision, language, and healthcare domains. With results obtained from training over 10,000 models, we reveal intriguing observations for future progress in this space. First, existing algorithms only improve subgroup robustness over certain types of shifts but not others. Moreover, while current algorithms rely on group-annotated validation data for model selection, we find that a simple selection criterion based on worst-class accuracy is surprisingly effective even without any group information. Finally, unlike existing works that solely aim to improve worst-group accuracy (WGA), we demonstrate the fundamental tradeoff between WGA and other important metrics, highlighting the need to carefully choose testing metrics. Code and data are available at: https://github.com/YyzHarry/SubpopBench. | 翻訳日:2023-02-24 13:55:30 公開日:2023-02-23 |
# DisCO:3D GANを用いた画像歪み補正 DisCO: Portrait Distortion Correction with Perspective-Aware 3D GANs ( http://arxiv.org/abs/2302.12253v1 ) ライセンス: Link先を確認 | Zhixiang Wang, Yu-Lun Liu, Jia-Bin Huang, Shin'ichi Satoh, Sizhuo Ma, Guru Krishnan, Jian Wang | (参考訳) 近距離で撮影されたクローズアップ顔画像は、しばしば視点歪みに悩まされ、誇張された顔の特徴と非自然な外観をもたらす。
本論文では,単一クローズアップ面における遠近歪みを簡易かつ効果的に補正する手法を提案する。
まず,カメラ内在/外在パラメータと顔潜在コードを共同で最適化し,遠近差入力顔画像を用いてganインバージョンを行う。
協調最適化の曖昧さに対処するため,焦点長再パラメータ化,最適化スケジューリング,幾何正規化を開発した。
適切な焦点距離とカメラ距離でポートレートを再レンダリングすることで、これらの歪みを効果的に補正し、より自然な結果が得られる。
実験により, 視覚的品質に関する従来の手法と比較した。
野生のポートレート写真に本手法の適用性を検証するサンプルを多数紹介した。 Close-up facial images captured at close distances often suffer from perspective distortion, resulting in exaggerated facial features and unnatural/unattractive appearances. We propose a simple yet effective method for correcting perspective distortions in a single close-up face. We first perform GAN inversion using a perspective-distorted input facial image by jointly optimizing the camera intrinsic/extrinsic parameters and face latent code. To address the ambiguity of joint optimization, we develop focal length reparametrization, optimization scheduling, and geometric regularization. Re-rendering the portrait at a proper focal length and camera distance effectively corrects these distortions and produces more natural-looking results. Our experiments show that our method compares favorably against previous approaches regarding visual quality. We showcase numerous examples validating the applicability of our method on portrait photos in the wild. | 翻訳日:2023-02-24 13:55:13 公開日:2023-02-23 |
# 動的キューを用いた対向移動性向上 Boosting Adversarial Transferability using Dynamic Cues ( http://arxiv.org/abs/2302.12252v1 ) ライセンス: Link先を確認 | Muzammal Naseer, Ahmad Mahmood, Salman Khan, and Fahad Khan | (参考訳) 画像モデル間の逆摂動の伝達性は広く研究されている。
この場合、既知のサロゲート \eg、ImageNetトレーニングモデルから攻撃が発生し、画像データセットでトレーニングされた未知(ブラックボックス)モデルの決定を変更するために転送される。
しかし、画像モデルから生成される攻撃は、画像モデル内の時間的手がかりの欠如による移動物体や変化シーンの動的性質を捉えない。
これにより、Supervised Vision Transformers (ViTs)、Self-supervised ViTs (\eg, DINO)、Vision- language model (\eg, CLIP) といった表現に富んだ \emph{image} モデルから Black-box \emph{video} モデルへの敵攻撃の転送可能性の低下につながる。
本研究では,画像モデルにおいて,画像の本来の性能を犠牲にすることなく,動的手がかりを誘導する。
この目的のために, 凍結画像モデルを用いて, 運動ダイナミクスを捉えるために, \emph{temporal prompts} を最適化する。
我々の時間的プロンプトは、学習可能な変換の結果であり、敵の攻撃中に時間的勾配を最適化して動きのダイナミクスを騙すことができる。
具体的には、タスク固有のプロンプトを通じて、同じソースモデル内に空間的(イメージ)および時間的(ビデオ)キューを導入する。
このようなプロンプトの攻撃は、画像モデル用に設計されたアタックを用いて、画像間および画像間モデルからの対向転送可能性を最大化する。
攻撃結果から,攻撃者は特別なアーキテクチャや,時間分割,3次元畳み込み,データモダリティの多視点畳み込みネットワークなどを必要としないことが明らかとなった。
画像モデルは、時間とともに変化する環境の中でブラックボックスモデルを騙すために敵攻撃を最適化する効果的な代理である。
コードはhttps://bit.ly/3Xd9gRQで入手できる。 The transferability of adversarial perturbations between image models has been extensively studied. In this case, an attack is generated from a known surrogate \eg, the ImageNet trained model, and transferred to change the decision of an unknown (black-box) model trained on an image dataset. However, attacks generated from image models do not capture the dynamic nature of a moving object or a changing scene due to a lack of temporal cues within image models. This leads to reduced transferability of adversarial attacks from representation-enriched \emph{image} models such as Supervised Vision Transformers (ViTs), Self-supervised ViTs (\eg, DINO), and Vision-language models (\eg, CLIP) to black-box \emph{video} models. In this work, we induce dynamic cues within the image models without sacrificing their original performance on images. To this end, we optimize \emph{temporal prompts} through frozen image models to capture motion dynamics. Our temporal prompts are the result of a learnable transformation that allows optimizing for temporal gradients during an adversarial attack to fool the motion dynamics. Specifically, we introduce spatial (image) and temporal (video) cues within the same source model through task-specific prompts. Attacking such prompts maximizes the adversarial transferability from image-to-video and image-to-image models using the attacks designed for image models. Our attack results indicate that the attacker does not need specialized architectures, \eg, divided space-time attention, 3D convolutions, or multi-view convolution networks for different data modalities. Image models are effective surrogates to optimize an adversarial attack to fool black-box models in a changing environment over time. Code is available at https://bit.ly/3Xd9gRQ | 翻訳日:2023-02-24 13:54:58 公開日:2023-02-23 |
# VoxFormer:3Dセマンティックシーンコンプリートのためのスパースボクセルトランス VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion ( http://arxiv.org/abs/2302.12251v1 ) ライセンス: Link先を確認 | Yiming Li and Zhiding Yu and Christopher Choy and Chaowei Xiao and Jose M. Alvarez and Sanja Fidler and Chen Feng and Anima Anandkumar | (参考訳) 人間は、隠された物体やシーンの完全な3D幾何学を想像することができる。
この魅力ある能力は認識と理解に不可欠である。
本稿では,aiシステムにおいてこのような機能を実現するために,トランスフォーマティブベースの意味シーン補完フレームワークvoxformerを提案する。
私たちのフレームワークは、2段階の設計を採用しており、深さ推定から可視および占有されたvoxelクエリのスパースセットから始まり、さらにスパースクエリから高密度な3dvoxelを生成するデンシフィケーションステージから始めます。
このデザインの重要な考え方は、2d画像の視覚的な特徴が、オクルードまたは空っぽの空間ではなく、可視的なシーン構造にのみ対応していることである。
したがって、可視構造の実現と予測から始めると、より信頼性が高い。
スパースクエリの集合が得られたら、マスク付きオートエンコーダの設計を適用して、情報を全ボクセルに自己注意で伝達する。
SemanticKITTIの実験では、VoxFormerは20.0%の幾何学的改善と18.1%のセマンティクスにより芸術の状態を上回り、トレーニング中のGPUメモリを45%から16GB以下に削減している。
私たちのコードはhttps://github.com/NVlabs/VoxFormerで利用可能です。 Humans can easily imagine the complete 3D geometry of occluded objects and scenes. This appealing ability is vital for recognition and understanding. To enable such capability in AI systems, we propose VoxFormer, a Transformer-based semantic scene completion framework that can output complete 3D volumetric semantics from only 2D images. Our framework adopts a two-stage design where we start from a sparse set of visible and occupied voxel queries from depth estimation, followed by a densification stage that generates dense 3D voxels from the sparse ones. A key idea of this design is that the visual features on 2D images correspond only to the visible scene structures rather than the occluded or empty spaces. Therefore, starting with the featurization and prediction of the visible structures is more reliable. Once we obtain the set of sparse queries, we apply a masked autoencoder design to propagate the information to all the voxels by self-attention. Experiments on SemanticKITTI show that VoxFormer outperforms the state of the art with a relative improvement of 20.0% in geometry and 18.1% in semantics and reduces GPU memory during training by ~45% to less than 16GB. Our code is available on https://github.com/NVlabs/VoxFormer. | 翻訳日:2023-02-24 13:54:25 公開日:2023-02-23 |
# 深層ニューラルネットワークにおけるトレーニングダイナミクスの位相図:学習速度,深さ,幅の影響 Phase diagram of training dynamics in deep neural networks: effect of learning rate, depth, and width ( http://arxiv.org/abs/2302.12250v1 ) ライセンス: Link先を確認 | Dayal Singh Kalra and Maissam Barkeshli | (参考訳) 確率勾配降下(SGD)を長期にわたって訓練したディープニューラルネットワーク(DNN)の最適化ダイナミクスを系統的に解析し,ニューラルネットワークの学習速度,深さ,幅の影響について検討した。
損失のヘシアンの最大固有値 $\lambda^H_t$ を解析することにより、損失ランドスケープの鋭さを測定することで、ダイナミクスは4つの異なる状態を示すことができる。
(i)早期の一時的な体制。
(二)中間飽和体制
(iii)進歩的な研削体制、そして最後に
(iv)後期の「安定の最先端」体制。
初期と中間の体制は
(i)および
(ii) 学習率$\eta \equiv c/\lambda^h_0$、深さ$d$、幅$w$に応じてリッチな位相図を示す。
トレーニング損失とシャープネスの速さで定性的に異なる現象を分離した$c$のいくつかの臨界値を特定し,$d/w$への依存性を抽出する。
この結果から,DNNの深度と幅で学習率を拡大し,学習の同じ段階に留まることが示唆された。 We systematically analyze optimization dynamics in deep neural networks (DNNs) trained with stochastic gradient descent (SGD) over long time scales and study the effect of learning rate, depth, and width of the neural network. By analyzing the maximum eigenvalue $\lambda^H_t$ of the Hessian of the loss, which is a measure of sharpness of the loss landscape, we find that the dynamics can show four distinct regimes: (i) an early time transient regime, (ii) an intermediate saturation regime, (iii) a progressive sharpening regime, and finally (iv) a late time ``edge of stability" regime. The early and intermediate regimes (i) and (ii) exhibit a rich phase diagram depending on learning rate $\eta \equiv c/\lambda^H_0$, depth $d$, and width $w$. We identify several critical values of $c$ which separate qualitatively distinct phenomena in the early time dynamics of training loss and sharpness, and extract their dependence on $d/w$. Our results have implications for how to scale the learning rate with DNN depth and width in order to remain in the same phase of learning. | 翻訳日:2023-02-24 13:54:01 公開日:2023-02-23 |
# MERF:非有界シーンにおけるリアルタイムビュー合成のためのメモリ効率の良い放射場 MERF: Memory-Efficient Radiance Fields for Real-time View Synthesis in Unbounded Scenes ( http://arxiv.org/abs/2302.12249v1 ) ライセンス: Link先を確認 | Christian Reiser and Richard Szeliski and Dor Verbin and Pratul P. Srinivasan and Ben Mildenhall and Andreas Geiger and Jonathan T. Barron and Peter Hedman | (参考訳) ニューラル放射場は最先端のフォトリアリスティックビュー合成を可能にする。
しかし、既存のradianceフィールド表現は、リアルタイムレンダリングには計算集約的すぎるか、大きなシーンにスケールするにはメモリが多すぎるかのどちらかである。
本稿では,ブラウザ上での大規模シーンのリアルタイムレンダリングを実現する,メモリ効率の高いradiance field (merf)表現を提案する。
MERFはスパース特徴格子と高分解能2次元特徴平面の組み合わせにより、以前のスパース体積放射界のメモリ消費を低減する。
大規模非有界シーンを支援するために,シーン座標を効率の良いレイボックス交叉を実現しつつ,境界体積にマッピングする新しい収縮関数を導入する。
本研究では,実時間レンダリングを実現するモデルに学習中に使用するパラメータ化を焼くための無作為な手法を設計し,体積放射場の光リアルビュー合成品質を保ちながら設計する。 Neural radiance fields enable state-of-the-art photorealistic view synthesis. However, existing radiance field representations are either too compute-intensive for real-time rendering or require too much memory to scale to large scenes. We present a Memory-Efficient Radiance Field (MERF) representation that achieves real-time rendering of large-scale scenes in a browser. MERF reduces the memory consumption of prior sparse volumetric radiance fields using a combination of a sparse feature grid and high-resolution 2D feature planes. To support large-scale unbounded scenes, we introduce a novel contraction function that maps scene coordinates into a bounded volume while still allowing for efficient ray-box intersection. We design a lossless procedure for baking the parameterization used during training into a model that achieves real-time rendering while still preserving the photorealistic view synthesis quality of a volumetric radiance field. | 翻訳日:2023-02-24 13:53:38 公開日:2023-02-23 |
# 言語誘導サンプリングによる視覚表現の学習 Learning Visual Representations via Language-Guided Sampling ( http://arxiv.org/abs/2302.12248v1 ) ライセンス: Link先を確認 | Mohamed El Banani, Karan Desai, Justin Johnson | (参考訳) オブジェクトは多くのコンテキストで現れるかもしれないが、我々はそれを限られた方法で記述することが多い。
これは、言語が概念の表現と伝達のために視覚的なバリエーションを抽象化するためである。
この直感に基づく視覚学習の代替手法として,意味論的に類似した画像ペアのサンプルに言語類似性を用いる。
提案手法は,手作業による拡張や学習クラスタではなく,言語を用いてペアをサンプリングすることで,画像に基づくコントラスト学習から逸脱する。
また,学習のガイドとして事前学習された言語モデルに依存することにより,画像テキストのコントラスト学習から逸脱する手法である。
一連の実験を通して,言語誘導学習は画像イメージと画像テキスト表現学習の両方よりも優れた特徴を学習できることを示す。 Although an object may appear in numerous contexts, we often describe it in a limited number of ways. This happens because language abstracts away visual variation to represent and communicate concepts. Building on this intuition, we propose an alternative approach to visual learning: using language similarity to sample semantically similar image pairs for contrastive learning. Our approach deviates from image-based contrastive learning by using language to sample pairs instead of hand-crafted augmentations or learned clusters. Our approach also deviates from image-text contrastive learning by relying on pre-trained language models to guide the learning rather than minimize a cross-modal similarity. Through a series of experiments, we show that language-guided learning can learn better features than both image-image and image-text representation learning approaches. | 翻訳日:2023-02-24 13:53:22 公開日:2023-02-23 |
# 機能相互作用の定量化とモデル化:情報分解フレームワーク Quantifying & Modeling Feature Interactions: An Information Decomposition Framework ( http://arxiv.org/abs/2302.12247v1 ) ライセンス: Link先を確認 | Paul Pu Liang, Yun Cheng, Xiang Fan, Chun Kai Ling, Suzanne Nie, Richard Chen, Zihao Deng, Faisal Mahmood, Ruslan Salakhutdinov, Louis-Philippe Morency | (参考訳) 近年のマルチモーダルアプリケーションへの関心の高まりにより、様々な信号から情報を表現・統合するためのデータセットや手法が広く選択された。
このような経験的な進歩にもかかわらず、基本的な研究課題が残されている: 入力特徴の間に存在する相互作用の性質をどのように定量化できるか?
その後、適切なデータ駆動メソッドを使用して、これらのインタラクションを捉えるにはどうすればよいのか?
そこで本研究では,多モード分布のPID統計量(PID)と呼ぶ,入力特徴間の冗長性,特異性,シナジーの程度を定量化する情報理論手法を提案する。
高次元分布にスケールする2つの新しい推定器を用いて、マルチモーダルデータセット内の相互作用の定量化、マルチモーダルモデルによる相互作用の性質、モデル選択の原理的アプローチを実証する。
我々は、PID統計が知られている合成データセットと、PID推定がこれまで不可能であった大規模マルチモーダルベンチマークの両方について広範な実験を行った。
最後に,本手法の現実世界への適用性を示すために,病理学,ムード予測,ロボット知覚の3つのケーススタディを提示し,それぞれのアプリケーションに対して強力なマルチモーダルモデルを正確に推奨する。 The recent explosion of interest in multimodal applications has resulted in a wide selection of datasets and methods for representing and integrating information from different signals. Despite these empirical advances, there remain fundamental research questions: how can we quantify the nature of interactions that exist among input features? Subsequently, how can we capture these interactions using suitable data-driven methods? To answer this question, we propose an information-theoretic approach to quantify the degree of redundancy, uniqueness, and synergy across input features, which we term the PID statistics of a multimodal distribution. Using 2 newly proposed estimators that scale to high-dimensional distributions, we demonstrate their usefulness in quantifying the interactions within multimodal datasets, the nature of interactions captured by multimodal models, and principled approaches for model selection. We conduct extensive experiments on both synthetic datasets where the PID statistics are known and on large-scale multimodal benchmarks where PID estimation was previously impossible. Finally, to demonstrate the real-world applicability of our approach, we present three case studies in pathology, mood prediction, and robotic perception where our framework accurately recommends strong multimodal models for each application. | 翻訳日:2023-02-24 13:53:08 公開日:2023-02-23 |
# 大規模言語モデルのための連鎖型アクティブプロンプト Active Prompting with Chain-of-Thought for Large Language Models ( http://arxiv.org/abs/2302.12246v1 ) ライセンス: Link先を確認 | Shizhe Diao, Pengcheng Wang, Yong Lin, Tong Zhang | (参考訳) 大規模言語モデル(LLM)の規模が大きくなると、算術や常識推論のような推論を必要とする様々な複雑なタスクに創発的能力がもたらされる。
タスク固有のプロンプトの効果的な設計は、llmsの高品質な答えを生み出す能力にとって重要であることが知られている。
特に、複雑な問合せタスクに対する効果的なアプローチは、LLMの性能を大幅に向上させるチェーン・オブ・シークレット(CoT)推論による例ベースのプロンプトである。
しかし、現在のCoT法は人間に注釈を付けた例の固定セットに依存しており、これは必ずしも異なるタスクの最も効果的な例ではない。
本稿では,タスク固有のサンプルプロンプト(人間設計のCoT推論に注釈を付ける)を用いて,LLMを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
この目的のために、タスク固有のクエリのプールからアノテートする最も重要で有用な質問を決定するという重要な問題に対する解決策を提案する。
不確実性に基づくアクティブラーニングに関連する問題からアイデアを借用することにより,不確実性を特徴付ける指標をいくつか導入し,最も不確実性のある質問を選択する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
異なる不確実性指標,プールサイズ,ゼロショット学習,正確性不確実性関係のさらなる分析により,本手法の有効性が示された。
私たちのコードはhttps://github.com/shizhediao/active-cotで利用可能です。 The increasing scale of large language models (LLMs) brings emergent abilities to various complex tasks requiring reasoning, such as arithmetic and commonsense reasoning. It is known that the effective design of task-specific prompts is critical for LLMs' ability to produce high-quality answers. In particular, an effective approach for complex question-and-answer tasks is example-based prompting with chain-of-thought (CoT) reasoning, which significantly improves the performance of LLMs. However, current CoT methods rely on a fixed set of human-annotated exemplars, which are not necessarily the most effective examples for different tasks. This paper proposes a new method, Active-Prompt, to adapt LLMs to different tasks with task-specific example prompts (annotated with human-designed CoT reasoning). For this purpose, we propose a solution to the key problem of determining which questions are the most important and helpful ones to annotate from a pool of task-specific queries. By borrowing ideas from the related problem of uncertainty-based active learning, we introduce several metrics to characterize the uncertainty so as to select the most uncertain questions for annotation. Experimental results demonstrate the superiority of our proposed method, achieving state-of-the-art on eight complex reasoning tasks. Further analyses of different uncertainty metrics, pool sizes, zero-shot learning, and accuracy-uncertainty relationship demonstrate the effectiveness of our method. Our code will be available at https://github.com/shizhediao/active-cot. | 翻訳日:2023-02-24 13:52:49 公開日:2023-02-23 |
# きめ細かい異常検出のためのセット特徴 Set Features for Fine-grained Anomaly Detection ( http://arxiv.org/abs/2302.12245v1 ) ライセンス: Link先を確認 | Niv Cohen. Issar Tzachor, Yedid Hoshen | (参考訳) きめ細かい異常検出は、最近セグメンテーションに基づくアプローチによって支配されている。
これらのアプローチは、まずサンプルの各要素(例えばイメージパッチ)を正常または異常に分類し、その後、異常要素を含む場合、サンプル全体を異常に分類する。
しかし、そのようなアプローチは、異常が通常の要素の異常な組み合わせによって表現されるシナリオに拡張されない。
本稿では,各サンプルをモデルとする集合的特徴を各要素の分布によって提案することにより,この制限を克服する。
簡単な密度推定法を用いて各試料の異常スコアを算出する。
単純な実装アプローチは、画像レベルの論理異常検出(+3.4%)とシーケンスレベルの時系列異常検出(+2.4%)において最先端を上回っている。 Fine-grained anomaly detection has recently been dominated by segmentation based approaches. These approaches first classify each element of the sample (e.g., image patch) as normal or anomalous and then classify the entire sample as anomalous if it contains anomalous elements. However, such approaches do not extend to scenarios where the anomalies are expressed by an unusual combination of normal elements. In this paper, we overcome this limitation by proposing set features that model each sample by the distribution its elements. We compute the anomaly score of each sample using a simple density estimation method. Our simple-to-implement approach outperforms the state-of-the-art in image-level logical anomaly detection (+3.4%) and sequence-level time-series anomaly detection (+2.4%). | 翻訳日:2023-02-24 13:52:23 公開日:2023-02-23 |
# 拡散確率モデルによるグラフ構造予測 Diffusion Probabilistic Models for Graph-Structured Prediction ( http://arxiv.org/abs/2302.10506v3 ) ライセンス: Link先を確認 | Hyosoon Jang, Sangwoo Mo, Sungsoo Ahn | (参考訳) 本稿では,ノードワイドあるいはエッジワイドな対象グラフを用いた教師あり学習のためのグラフ構造化予測について検討する。
この問題を解決するために、近年の研究では、グラフニューラルネットワーク(GNN)と条件付きランダムフィールドのような従来の構造化予測アルゴリズムを組み合わせた研究が行われている。
しかし,本研究では,拡散確率モデル(DPM)の最近の成功に基づいて,新たな方向を追求する。
すなわち、DPMを用いてグラフ構造予測を行う新しいフレームワークを提案する。
完全に教師された設定では、我々のDPMは、近くのターゲットの推定値に基づいて、各ターゲット推定を反復的に更新することで、対象の依存関係をキャプチャする。
また、半教師付き環境でDPMをトレーニングするための変動予測最大化アルゴリズムを提案する。
大規模な実験により、我々のフレームワークはインダクティブノードとトランスダクティブノードの分類において、既存のニューラル構造化予測モデルより一貫して優れていることが検証された。
また,アルゴリズム推論タスクのためのフレームワークの競合性能を示す。 This paper studies graph-structured prediction for supervised learning on graphs with node-wise or edge-wise target dependencies. To solve this problem, recent works investigated combining graph neural networks (GNNs) with conventional structured prediction algorithms like conditional random fields. However, in this work, we pursue an alternative direction building on the recent successes of diffusion probabilistic models (DPMs). That is, we propose a new framework using DPMs to make graph-structured predictions. In the fully supervised setting, our DPM captures the target dependencies by iteratively updating each target estimate based on the estimates of nearby targets. We also propose a variational expectation maximization algorithm to train our DPM in the semi-supervised setting. Extensive experiments verify that our framework consistently outperforms existing neural structured prediction models on inductive and transductive node classification. We also demonstrate the competitive performance of our framework for algorithmic reasoning tasks. | 翻訳日:2023-02-24 11:59:02 公開日:2023-02-23 |
# ネットワーク支援回帰のコンフォーマル予測 Conformal Prediction for Network-Assisted Regression ( http://arxiv.org/abs/2302.10095v3 ) ライセンス: Link先を確認 | Robert Lunde, Elizaveta Levina, Ji Zhu | (参考訳) ネットワーク解析における重要な問題は、グラフ埋め込み座標や局所グラフ数のようなネットワーク共変量と、人口統計特性のような従来のノード共変量の両方を用いてノード属性を予測することである。
両種類の共変量を用いた標準回帰法が予測に使用されるが、統計的推論はノーダル要約統計がしばしば複雑な方法に依存するという事実によって複雑である。
本研究では, 共形予測のネットワークアナログが, 幅の広いネットワーク共変量に対して有限標本妥当性を達成できることを示す。
また,漸近条件付き妥当性の形式が実現可能であることを示す。
これらの手法はシミュレーションネットワークと引用ネットワークデータセットの両方で示される。 An important problem in network analysis is predicting a node attribute using both network covariates, such as graph embedding coordinates or local subgraph counts, and conventional node covariates, such as demographic characteristics. While standard regression methods that make use of both types of covariates may be used for prediction, statistical inference is complicated by the fact that the nodal summary statistics are often dependent in complex ways. We show that under a mild joint exchangeability assumption, a network analog of conformal prediction achieves finite sample validity for a wide range of network covariates. We also show that a form of asymptotic conditional validity is achievable. The methods are illustrated on both simulated networks and a citation network dataset. | 翻訳日:2023-02-24 11:58:17 公開日:2023-02-23 |
# エンタングル計測による量子冷却エンジンの実証実験 Experimental demonstration of quantum cooling engine powered by entangled measurement ( http://arxiv.org/abs/2302.09948v2 ) ライセンス: Link先を確認 | Ning-Ning Wang, Huan Cao, Chao Zhang, Xiao-Ye Xu, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, and Guang-Can Guo | (参考訳) 従来の冷蔵は外部の力または情報フィードバック機構によって駆動される。
驚いたことに、一般的に有害な量子測定と崩壊は、フィードバック機構を必要とせずに冷却エンジンを駆動するためにも使用できる。
本研究では,新しい線形光学シミュレータを用いた量子計測による量子計測冷却(QMC)を実験的に実証する。
シミュレータでは、作業物質のエネルギーレベル間隔と熱浴の温度を調整することで、異なる熱力学過程をシミュレートすることができる。
実験により, 測定対象の事前知識がなければ, QMCは発生しそうであることを示す。
また,QMCは測定ノイズに対して頑健であることを示す。
これらの実験結果は、量子測定は必ずしも有害ではなく、貴重な熱力学資源であることを示している。 Traditional refrigeration is driven either by external force or an information-feedback mechanism. Surprisingly, the quantum measurement and collapse, which are generally detrimental, can also be used to power a cooling engine even without requiring any feedback mechanism. In this work, we experimentally demonstrate quantum measurement cooling (QMC) powered by entangled measurement by using a novel linear optical simulator. In the simulator, different thermodynamic processes can be simulated by adjusting the energy-level spacing of working substance and the temperature of thermal bath. We show experimentally that, without prior knowledge about the measurement to be made, QMC remains likely to occur. We also demonstrate that QMC is robust against measurement noise. Those experimental results show that quantum measurement is not always detrimental but can be a valuable thermodynamic resource. | 翻訳日:2023-02-24 11:58:06 公開日:2023-02-23 |
# 頭部運動と表情動態から説明可能な人間中心特性 Explainable Human-centered Traits from Head Motion and Facial Expression Dynamics ( http://arxiv.org/abs/2302.09817v2 ) ライセンス: Link先を確認 | Surbhi Madan, Monika Gahalawat, Tanaya Guha, Roland Goecke and Ramanathan Subramanian | (参考訳) パーソナリティと面接特有の特徴を説明可能な予測にマルチモーダル行動手がかりの有効性を検討する。
頭部運動単位であるkinemes,行動単位と呼ばれる原子性顔面運動,発話特徴を用いて,これらの人間中心の特徴を推定する。
実験の結果、キネムとアクションユニットは複数の特性特異的な振る舞いの発見を可能にすると同時に、予測をサポートするための説明可能性も実現している。
そこで我々は,特徴予測のための3つのモードの相対的重要性を定量化する付加的な注意に基づく融合戦略について検討する。
mitインタビューと第1印象候補スクリーニング(fics)データセットにおける分類と回帰のための様々なlong-short term memory(lstm)アーキテクチャについて検討し、(1)マルチモーダルアプローチがユニモーダルアプローチよりも優れていること、(2)効率的な特性予測と説明がユニモーダルとマルチモーダルの両方で達成されていること、(3)シンスライスアプローチに従って、2秒の動作スニペットからでも効果的な特性予測が達成されていることを指摘した。 We explore the efficacy of multimodal behavioral cues for explainable prediction of personality and interview-specific traits. We utilize elementary head-motion units named kinemes, atomic facial movements termed action units and speech features to estimate these human-centered traits. Empirical results confirm that kinemes and action units enable discovery of multiple trait-specific behaviors while also enabling explainability in support of the predictions. For fusing cues, we explore decision and feature-level fusion, and an additive attention-based fusion strategy which quantifies the relative importance of the three modalities for trait prediction. Examining various long-short term memory (LSTM) architectures for classification and regression on the MIT Interview and First Impressions Candidate Screening (FICS) datasets, we note that: (1) Multimodal approaches outperform unimodal counterparts; (2) Efficient trait predictions and plausible explanations are achieved with both unimodal and multimodal approaches, and (3) Following the thin-slice approach, effective trait prediction is achieved even from two-second behavioral snippets. | 翻訳日:2023-02-24 11:57:54 公開日:2023-02-23 |
# 情景画像におけるsariency guided contrastive learning Saliency Guided Contrastive Learning on Scene Images ( http://arxiv.org/abs/2302.11461v2 ) ライセンス: Link先を確認 | Meilin Chen, Yizhou Wang, Shixiang Tang, Feng Zhu, Haiyang Yang, Lei Bai, Rui Zhao, Donglian Qi, Wanli Ouyang | (参考訳) 自己教師付き学習は、大量のラベルのないデータを活用することを約束する。
しかし、その成功は高度に計算されたデータセット、例えば、人間のクリーニングを必要とするImageNetに大きく依存している。
低精度のシーン画像から表現を直接学習することは、自己教師あり学習をより高いレベルに押し上げる上で不可欠である。
単純で明確な意味情報を含むキュレートされた画像とは異なり、シーンイメージは複雑なシーンや複数のオブジェクトを含むため、より複雑でモザイクである。
実現可能であったにもかかわらず、近年の作品は、シーン画像のオブジェクト表現に対する対照的な学習のための最も差別的な領域の発見をほとんど見落としていた。
本研究は,学習中のモデルの出力から導かれるサリエンシマップを利用して,これらの識別領域を強調し,対照的な学習全体を導く。
特に、塩分マップはまず、その識別領域を正のペアとして収穫し、その後、その塩分スコアによって異なる作物間の対比的損失を和らげる方法を導く。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
サラマンシーマップに関する我々の洞察が、シーンデータからより汎用的な教師なし表現学習に関する将来の研究を動機付けることを期待している。 Self-supervised learning holds promise in leveraging large numbers of unlabeled data. However, its success heavily relies on the highly-curated dataset, e.g., ImageNet, which still needs human cleaning. Directly learning representations from less-curated scene images is essential for pushing self-supervised learning to a higher level. Different from curated images which include simple and clear semantic information, scene images are more complex and mosaic because they often include complex scenes and multiple objects. Despite being feasible, recent works largely overlooked discovering the most discriminative regions for contrastive learning to object representations in scene images. In this work, we leverage the saliency map derived from the model's output during learning to highlight these discriminative regions and guide the whole contrastive learning. Specifically, the saliency map first guides the method to crop its discriminative regions as positive pairs and then reweighs the contrastive losses among different crops by its saliency scores. Our method significantly improves the performance of self-supervised learning on scene images by +1.1, +4.3, +2.2 Top1 accuracy in ImageNet linear evaluation, Semi-supervised learning with 1% and 10% ImageNet labels, respectively. We hope our insights on saliency maps can motivate future research on more general-purpose unsupervised representation learning from scene data. | 翻訳日:2023-02-24 11:51:13 公開日:2023-02-23 |
# サブワードプーリング戦略が言語間イベント検出に及ぼす影響 Impact of Subword Pooling Strategy on Cross-lingual Event Detection ( http://arxiv.org/abs/2302.11365v2 ) ライセンス: Link先を確認 | Shantanu Agarwal, Steven Fincke, Chris Jenkins, Scott Miller, Elizabeth Boschee | (参考訳) 事前訓練された多言語モデル(例:mBERT、XLM-RoBERTa)は、ゼロショット言語間情報抽出のための最先端技術を大幅に進歩させた。
これらの言語モデルは、単語を小さなサブワードに分割するワードセグメンテーション技術に依存している。
したがって、すべての単語ラベリングタスク(例えば、名前付きエンティティ認識、イベント検出など)は、サブワード表現を入力として、単語全体の表現を出力するプーリング戦略を必要とする。
言語間イベント検出のタスクをモチベーションの例として捉えて,プール戦略の選択が対象言語のパフォーマンスに重大な影響を与えることを示す。
例えば、英語でのトレーニングやアラビア語でのaceタスクでのテストにおけるプーリング戦略によって、パフォーマンスは最大16ドルの絶対値f_{1}$ポイントで変化する。
多様な多言語データセットにおいて、9言語にわたる5つの異なるプール戦略を用いて分析を行う。
構成全体にわたって、単語全体を表す最初のサブワードのみを取るという標準的な戦略は、通常、サブ最適である。
一方,アテンションプーリングは,最適戦略に最善か近しいかによって,言語やデータセットのバリエーションに対して頑健であることを示す。
再現性のため、コードはhttps://github.com/isi-boston/ed-poolingで利用可能です。 Pre-trained multilingual language models (e.g., mBERT, XLM-RoBERTa) have significantly advanced the state-of-the-art for zero-shot cross-lingual information extraction. These language models ubiquitously rely on word segmentation techniques that break a word into smaller constituent subwords. Therefore, all word labeling tasks (e.g. named entity recognition, event detection, etc.), necessitate a pooling strategy that takes the subword representations as input and outputs a representation for the entire word. Taking the task of cross-lingual event detection as a motivating example, we show that the choice of pooling strategy can have a significant impact on the target language performance. For example, the performance varies by up to 16 absolute $f_{1}$ points depending on the pooling strategy when training in English and testing in Arabic on the ACE task. We carry out our analysis with five different pooling strategies across nine languages in diverse multi-lingual datasets. Across configurations, we find that the canonical strategy of taking just the first subword to represent the entire word is usually sub-optimal. On the other hand, we show that attention pooling is robust to language and dataset variations by being either the best or close to the optimal strategy. For reproducibility, we make our code available at https://github.com/isi-boston/ed-pooling. | 翻訳日:2023-02-24 11:50:46 公開日:2023-02-23 |
# 塩分検出と量子化指数変調を用いたhdr画像透かし HDR image watermarking using saliency detection and quantization index modulation ( http://arxiv.org/abs/2302.11361v2 ) ライセンス: Link先を確認 | Ahmed Khan, Minoru Kuribayashi, KokSheik Wong, Vishnu Monn Baskaran | (参考訳) ハイダイナミックレンジ(HDR)画像は、インターネット上で急速に流通し、不正使用のために悪用されるリスクがある。
これらの画像を保護するため,HDR-IW法が提案された。
しかし、標準ダイナミックレンジ(SDR)画像に対する従来のIW法では、競合する要求間のトレードオフのみが同時改善ではなく管理されるという、同じ問題を継承した。
本稿では,新しいサリエンシ検出に基づく独立系HDR-IWを提案し,ロバスト性,非受容性,ペイロードを同時に改善する。
まず、ホスト画像は、提案したサルエントオブジェクト検出モデルを通過して、サリエンシマップを生成し、ホスト画像の前景と背景を分割する。
次に、二項透かしを同じマスクを用いて前景と背景に分割し、ランダムな置換アルゴリズムを用いてスクランブルする。
最後に、量子化インデックス変調を用いて、対応するホストセグメントの選択ビットプレーンに透かしセグメントを埋め込む。
実験結果から,提案手法は相反する要件を改善する点で最先端手法よりも優れていることが示唆された。 High-dynamic range (HDR) images are circulated rapidly over the internet with risks of being exploited for unauthorized usage. To protect these images, some HDR image based watermarking (HDR-IW) methods were put forward. However, they inherited the same problem faced by conventional IW methods for standard dynamic range (SDR) images, where only trade-offs among conflicting requirements are managed instead of simultaneous improvement. In this paper, a novel saliency (eye-catching object) detection based trade-off independent HDR-IW is proposed, to simultaneously improve robustness, imperceptibility and payload. First, the host image goes through our proposed salient object detection model to produce a saliency map, which is, in turn, exploited to segment the foreground and background of the host image. Next, the binary watermark is partitioned into the foregrounds and backgrounds using the same mask and scrambled using a random permutation algorithm. Finally, the watermark segments are embedded into selected bit-plane of the corresponding host segments using quantized indexed modulation. Experimental results suggest that the proposed work outperforms state-of-the-art methods in terms of improving the conflicting requirements. | 翻訳日:2023-02-24 11:50:25 公開日:2023-02-23 |
# 畳み込み・深層ニューラルネットワークの学習のための勾配強化手法 A Gradient Boosting Approach for Training Convolutional and Deep Neural Networks ( http://arxiv.org/abs/2302.11327v2 ) ライセンス: Link先を確認 | Seyedsaman Emami and Gonzalo Mart\'inez-Mu\~noz | (参考訳) ディープラーニングはコンピュータビジョンと画像分類領域に革命をもたらした。
この文脈では、畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャが最も広く適用されているモデルである。
本稿では, GB-CNN と GB-DNN に基づく畳み込みニューラルネットワーク (CNN) とディープニューラルネットワーク (Deep Neural Network) の2つの訓練手順を紹介した。
これらのモデルは、損失関数の勾配や以前のモデルの擬似残差に適合するように訓練されている。
各イテレーションで、提案手法では、前のディープnnモデルの正確なコピーに1つの密層を追加する。
以前のイテレーションでトレーニングされた高密度層の重みは、過度な適合を防ぐために凍結され、モデルが新しい高密度層に適合し、既に学んだ情報を利用して畳み込み層(GB-CNN)を微調整することができる。
異なる2次元画像分類と表付きデータセットの広範な実験を通じて、同じアーキテクチャを持つ標準CNNとDeep-NNの分類精度において優れた性能を示す。 Deep learning has revolutionized the computer vision and image classification domains. In this context Convolutional Neural Networks (CNNs) based architectures are the most widely applied models. In this article, we introduced two procedures for training Convolutional Neural Networks (CNNs) and Deep Neural Network based on Gradient Boosting (GB), namely GB-CNN and GB-DNN. These models are trained to fit the gradient of the loss function or pseudo-residuals of previous models. At each iteration, the proposed method adds one dense layer to an exact copy of the previous deep NN model. The weights of the dense layers trained on previous iterations are frozen to prevent over-fitting, permitting the model to fit the new dense as well as to fine-tune the convolutional layers (for GB-CNN) while still utilizing the information already learned. Through extensive experimentation on different 2D-image classification and tabular datasets, the presented models show superior performance in terms of classification accuracy with respect to standard CNN and Deep-NN with the same architectures. | 翻訳日:2023-02-24 11:50:06 公開日:2023-02-23 |
# 立体的姿勢推定のための立体三角測量を意識した視点整合性 View Consistency Aware Holistic Triangulation for 3D Human Pose Estimation ( http://arxiv.org/abs/2302.11301v2 ) ライセンス: Link先を確認 | Xiaoyue Wan, Zhuo Chen, Xu Zhao | (参考訳) 多視点人間のポーズ推定(HPE)の急速な発展は、単眼2D HPEの成熟と3D再構成の幾何学に起因する。
しかし,ビュー一貫性の欠如によるオクルードビューの2次元検出異常や,ポーズコヒーレンスの欠如による3次元評価が課題となっている。
この問題を解決するために、ビュー相関を確立することで2次元結果を洗練するためのマルチビューフュージョンモジュールを導入する。
次に、全体的三角測量を提案し、全体のポーズを全体として推定し、解剖前処理を行い、ポーズコヒーレンスを維持し、信頼性を向上させる。
入力が骨格構造の特徴であるPCAにより解剖学的に抽出され、抽象的から具体的までグローバルな文脈と結合関係を決定できる。
クローズドフォームソリューションの恩恵を受けると、フレームワーク全体がエンドツーエンドでトレーニングされる。
提案手法は,新しい測定基準によって評価される精度と妥当性の両方において,技術状況よりも優れる。 The rapid development of multi-view 3D human pose estimation (HPE) is attributed to the maturation of monocular 2D HPE and the geometry of 3D reconstruction. However, 2D detection outliers in occluded views due to neglect of view consistency, and 3D implausible poses due to lack of pose coherence, remain challenges. To solve this, we introduce a Multi-View Fusion module to refine 2D results by establishing view correlations. Then, Holistic Triangulation is proposed to infer the whole pose as an entirety, and anatomy prior is injected to maintain the pose coherence and improve the plausibility. Anatomy prior is extracted by PCA whose input is skeletal structure features, which can factor out global context and joint-by-joint relationship from abstract to concrete. Benefiting from the closed-form solution, the whole framework is trained end-to-end. Our method outperforms the state of the art in both precision and plausibility which is assessed by a new metric. | 翻訳日:2023-02-24 11:49:46 公開日:2023-02-23 |
# フェアガード:スマートシティにおけるハーネス論理に基づくフェアネスルール Fairguard: Harness Logic-based Fairness Rules in Smart Cities ( http://arxiv.org/abs/2302.11137v2 ) ライセンス: Link先を確認 | Yiqi Zhao, Ziyan An, Xuqing Gao, Ayan Mukhopadhyay, Meiyi Ma | (参考訳) スマートシティは、大規模センサーネットワークからデータを収集、集約、活用する計算予測フレームワークで動作する。
しかし、これらのフレームワークは複数のデータソースとアルゴリズムバイアスの傾向があり、しばしば不公平な予測結果につながる。
そこで本研究では,チャタヌーガの都市データを用いて,時間的・空間的に偏差が持続することを示す。
このようなバイアスの問題を緩和するために、複雑な時間空間領域におけるスマートシティ政策調整と生成のためのマイクロレベルの時間論理に基づくアプローチであるFairguardを導入する。
Fairguardフレームワークは2つのフェーズから構成される: まず、選択した属性間の相関を最小化することにより、時間論理条件に基づいてデータのバイアスを低減できる静的ジェネレータを開発する。
次に、予測アルゴリズムの公平性を保証するために、予測結果を制御し、論理規則を利用して将来の公平な予測を生成する動的コンポーネントを設計する。
動的フェアガードは、全体的なパフォーマンスへの影響を最小限に抑えながら、実行時に保護されたグループに対する公平性を保証することができる。 Smart cities operate on computational predictive frameworks that collect, aggregate, and utilize data from large-scale sensor networks. However, these frameworks are prone to multiple sources of data and algorithmic bias, which often lead to unfair prediction results. In this work, we first demonstrate that bias persists at a micro-level both temporally and spatially by studying real city data from Chattanooga, TN. To alleviate the issue of such bias, we introduce Fairguard, a micro-level temporal logic-based approach for fair smart city policy adjustment and generation in complex temporal-spatial domains. The Fairguard framework consists of two phases: first, we develop a static generator that is able to reduce data bias based on temporal logic conditions by minimizing correlations between selected attributes. Then, to ensure fairness in predictive algorithms, we design a dynamic component to regulate prediction results and generate future fair predictions by harnessing logic rules. Evaluations show that logic-enabled static Fairguard can effectively reduce the biased correlations while dynamic Fairguard can guarantee fairness on protected groups at run-time with minimal impact on overall performance. | 翻訳日:2023-02-24 11:49:28 公開日:2023-02-23 |
# ブラックホールやその他のカオス系の学習の複雑さ(pseudo)ランダムダイナミクス The Complexity of Learning (Pseudo)random Dynamics of Black Holes and Other Chaotic Systems ( http://arxiv.org/abs/2302.11013v2 ) ライセンス: Link先を確認 | Lisa Yang and Netta Engelhardt | (参考訳) 近年,非単位ブラックホール蒸発の半古典的予測は,高複雑さ情報の無知の結果として,ブラックホールの基本的記述として理解できることが提案されている。
この予想の妥当性は、計算複雑性において多項式的に有界なアルゴリズムは、ブラックホールのダイナミクスを正確に再構築できないことを意味する。
このような有界量子アルゴリズムは、この時間進化の下で多項式的に複素観測可能な任意の集合へのアクセスが与えられたとしても、正確に(擬)ランダムなユニタリ力学を予測できないことを証明し、これは「学習」a(擬)ランダムなユニタリは計算的に困難であることを示す。
我々は、ブラックホールやより一般的なカオス系を(pseudo)ランダムダイナミクスでモデリングする共通の単純化を用いる。
私たちが考える量子アルゴリズムは完全に一般的であり、ブラックホールの時間進化に対する彼らの試みは同様に非制約であり、線形作用素である必要はなく、任意の(例えばデコヒーリングのような)量子チャネルである。 It has been recently proposed that the naive semiclassical prediction of non-unitary black hole evaporation can be understood in the fundamental description of the black hole as a consequence of ignorance of high-complexity information. Validity of this conjecture implies that any algorithm which is polynomially bounded in computational complexity cannot accurately reconstruct the black hole dynamics. In this work, we prove that such bounded quantum algorithms cannot accurately predict (pseudo)random unitary dynamics, even if they are given access to an arbitrary set of polynomially complex observables under this time evolution; this shows that "learning" a (pseudo)random unitary is computationally hard. We use the common simplification of modeling black holes and more generally chaotic systems via (pseudo)random dynamics. The quantum algorithms that we consider are completely general, and their attempted guess for the time evolution of black holes is likewise unconstrained: it need not be a linear operator, and may be as general as an arbitrary (e.g. decohering) quantum channel. | 翻訳日:2023-02-24 11:49:10 公開日:2023-02-23 |
# R\'{e}nyi 絡み合いエントロピーの力学平均場理論とハバードモデルにおける相互情報 Dynamical mean-field theory for R\'{e}nyi entanglement entropy and mutual Information in Hubbard Model ( http://arxiv.org/abs/2302.10940v2 ) ライセンス: Link先を確認 | Surajit Bera, Arijit Haldar and Sumilan Banerjee | (参考訳) 量子絡み合いは古典的なものを欠いているが、多体状態の量子の性質を特徴づける基本的な新しい経路を提供する。
本研究では,1次元と2次元の動的平均場理論(DMFT)において,ハバードモデルにおける拡張サブシステムのエンタングルメントを計算するための新しい経路積分法(Phys. Rev. Res. 2, 033505 (2020))の実装について議論する。
新しい経路積分定式化は、下層の相互作用するフェルミオンに ``kick' を適用することで絡み合いを測定する。
また,r\'{e}nyiエンタングルメントエントロピーは,キック項の強度を積分することにより,dmftフレームワーク内で効率的に抽出できることを示した。
この方法を用いて,ハバードモデルの金属およびモット絶縁相のサブシステムサイズ関数として,第2のR\'{e}nyiエントロピーを計算する。
相関金属相におけるサブシステムR\'{e}nyiエントロピーにおける熱エントロピーから絡み合うクロスオーバーへの熱エントロピーを探索する。
第二のR\'{e}nyiエントロピーのサブシステムスケールは、共形場理論によって予測されるように、体積法則熱R\'{e}nyiエントロピーと普遍境界法則R\'{e}nyiエントロピーの対数的違反を補間するクロスオーバー公式によってよく説明されることを示す。
また,モット金属絶縁体遷移の相互情報についても検討した。 Quantum entanglement, lacking any classical counterpart, provides a fundamental new route to characterize the quantum nature of many-body states. In this work, we discuss an implementation of a new path integral method [Phys. Rev. Res. 2, 033505 (2020)] for fermions to compute entanglement for extended subsystems in the Hubbard model within dynamical mean field theory (DMFT) in one and two dimensions. The new path integral formulation measures entanglement by applying a ``kick" to the underlying interacting fermions. We show that the R\'{e}nyi entanglement entropy can be extracted efficiently within the DMFT framework by integrating over the strength of the kick term. Using this method, we compute the second R\'{e}nyi entropy as a function of subsystem size for metallic and Mott insulating phases of the Hubbard model. We explore the thermal entropy to entanglement crossover in the subsystem R\'{e}nyi entropy in the correlated metallic phase. We show that the subsystem-size scaling of second R\'{e}nyi entropy is well described by the crossover formula which interpolates between the volume-law thermal R\'{e}nyi entropy and the universal boundary-law R\'{e}nyi entanglement entropy with logarithmic violation, as predicted by conformal field theory. We also study the mutual information across the Mott metal-insulator transition. | 翻訳日:2023-02-24 11:48:54 公開日:2023-02-23 |
# pc^2$:単像3次元再構成のための投影条件点雲拡散 $PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D Reconstruction ( http://arxiv.org/abs/2302.10668v2 ) ライセンス: Link先を確認 | Luke Melas-Kyriazi, Christian Rupprecht, Andrea Vedaldi | (参考訳) 単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。
本稿では,条件付き除音拡散過程を通じてスパース点雲を生成する,単一画像3次元再構成法を提案する。
本手法では,単一のrgb画像をカメラのポーズとともに入力し,その位置を3次元ガウス分布からランダムにサンプリングした一連の3d点を物体の形に徐々に発音する。
提案手法の鍵となるのは,プロジェクション条件付けと呼ばれる幾何学的に一貫性のある条件付けプロセスである。拡散過程の各ステップにおいて,所定のカメラポーズから局所像特徴を部分復調点クラウドに投影する。
このプロジェクション・コンディショニングにより,入力画像とよく一致した高分解能スパース・ジオメトリを生成できるとともに,形状再構成後の点色予測にも利用できる。
さらに,拡散過程の確率的性質から,本手法は単一入力画像と整合した複数の異なる形状を自然に生成することができる。
先行研究とは対照的に,本手法は合成ベンチマークでうまく機能するだけでなく,複雑な実世界のデータに対して大きな質的改善を与える。 Reconstructing the 3D shape of an object from a single RGB image is a long-standing and highly challenging problem in computer vision. In this paper, we propose a novel method for single-image 3D reconstruction which generates a sparse point cloud via a conditional denoising diffusion process. Our method takes as input a single RGB image along with its camera pose and gradually denoises a set of 3D points, whose positions are initially sampled randomly from a three-dimensional Gaussian distribution, into the shape of an object. The key to our method is a geometrically-consistent conditioning process which we call projection conditioning: at each step in the diffusion process, we project local image features onto the partially-denoised point cloud from the given camera pose. This projection conditioning process enables us to generate high-resolution sparse geometries that are well-aligned with the input image, and can additionally be used to predict point colors after shape reconstruction. Moreover, due to the probabilistic nature of the diffusion process, our method is naturally capable of generating multiple different shapes consistent with a single input image. In contrast to prior work, our approach not only performs well on synthetic benchmarks, but also gives large qualitative improvements on complex real-world data. | 翻訳日:2023-02-24 11:48:19 公開日:2023-02-23 |
# RealFusion: 360{\deg} 単一画像からの任意のオブジェクトの再構成 RealFusion: 360{\deg} Reconstruction of Any Object from a Single Image ( http://arxiv.org/abs/2302.10663v2 ) ライセンス: Link先を確認 | Luke Melas-Kyriazi, Christian Rupprecht, Iro Laina, Andrea Vedaldi | (参考訳) 一つの画像から物体の完全な360{\deg}写真モデルを再構築する問題を考える。
画像にニューラルラディアンス場を合わせることで実現しますが、この問題は深刻な問題であると考えています。
そこで我々は、拡散に基づく自己条件付き画像生成装置を設計し、オブジェクトの新たなビューを「ドレームアップ」するよう促すプロンプトを設計する。
ドリームフィールドとドリームフュージョンに触発されたアプローチを用いて、与えられた入力ビュー、条件付きプリミティブ、および他の正規化子を最終的な一貫した再構築で融合する。
対象物の単眼的3次元再構成法と比較し, ベンチマーク画像における最先端の再構成結果を示す。
定性的には,入力ビューの忠実な一致と,画像に見えない物体の側面を含め,その外観と3d形状の明らかな外挿を提供する。 We consider the problem of reconstructing a full 360{\deg} photographic model of an object from a single image of it. We do so by fitting a neural radiance field to the image, but find this problem to be severely ill-posed. We thus take an off-the-self conditional image generator based on diffusion and engineer a prompt that encourages it to "dream up" novel views of the object. Using an approach inspired by DreamFields and DreamFusion, we fuse the given input view, the conditional prior, and other regularizers in a final, consistent reconstruction. We demonstrate state-of-the-art reconstruction results on benchmark images when compared to prior methods for monocular 3D reconstruction of objects. Qualitatively, our reconstructions provide a faithful match of the input view and a plausible extrapolation of its appearance and 3D shape, including to the side of the object not visible in the image. | 翻訳日:2023-02-24 11:47:56 公開日:2023-02-23 |