このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231031となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# MIMOシステムの物理層セキュリティ向上のためのマルチドメイン分極
Multi-Domain Polarization for Enhancing the Physical Layer Security of MIMO Systems ( http://arxiv.org/abs/2310.20200v1 ) ライセンス: Link先を確認 | Luping Xiang, Yao Zeng, Jie Hu, Kun Yang, Lajos Hanzo, | (参考訳) マルチ入力多重出力(MIMO)システムにおけるマルチドメイン分極を利用して無線通信システムのセキュリティを高めるために,新しい物理層セキュリティ(PLS)フレームワークが考案された。
マルチドメイン分極に基づく高度な鍵生成方式と対応する受信機を設計する。
システムの機密度を詳細に分析し、強力な計算能力を有する盗聴器の存在下での我々のアプローチの機密性を実証する。
さらに,提案手法の利点を,そのビット誤り率 (BER) ,ブロック誤り率 (BLER) ,最大秘密度 (BLER) の両面から評価した。
提案手法は,無線通信システムのセキュリティと信頼性を効果的に向上させるものである。
例えば、$4\times4$ MIMOのセットアップでは、提案されたPLSストラテジーは、従来のMIMOに比べて$2$dBの改善を示し、BLERのシステムは$2\cdot 10^{-5}で、eavesdropperのBLERは$1である。
A novel Physical Layer Security (PLS) framework is conceived for enhancing the security of the wireless communication systems by exploiting multi-domain polarization in Multiple-Input Multiple-Output (MIMO) systems. We design a sophisticated key generation scheme based on multi-domain polarization, and the corresponding receivers. An in-depth analysis of the system's secrecy rate is provided, demonstrating the confidentiality of our approach in the presence of eavesdroppers having strong computational capabilities. More explicitly, our simulation results and theoretical analysis corroborate the advantages of the proposed scheme in terms of its bit error rate (BER), block error rate (BLER), and maximum achievable secrecy rate. Our findings indicate that the innovative PLS framework effectively enhances the security and reliability of wireless communication systems. For instance, in a $4\times4$ MIMO setup, the proposed PLS strategy exhibits an improvement of $2$dB compared to conventional MIMO, systems at a BLER of $2\cdot 10^{-5}$ while the eavesdropper's BLER reaches $1$. | 翻訳日:2024-03-18 23:51:32 公開日:2023-10-31 |
# 多項式によって生成されるボーア集合と多くの変数における銅細工法
Bohr sets generated by polynomials and Coppersmith's method in many variables ( http://arxiv.org/abs/2310.20342v1 ) ライセンス: Link先を確認 | Riley Baird, Bryce Kerr, Igor Shparlinski, | (参考訳) 有限体上の多項式によってパラメトリされた係数を持つボーア集合の平均サイズ上の境界を求め、一連の一般結果を得るとともに、コンピュータ科学への応用にとって重要な特定の集合に対するよりシャープな結果を得る。
特に,多くの可変バージョンで用いられるヒューリスティックな仮定が高い確率で成り立つことを示すために,推定値を用いる。
H. Cohn と N. Heninger (2013) のヒューリスティックアルゴリズムの厳密なバージョンを得る。
We obtain bounds on the average size of Bohr sets with coefficients parametrised by polynomials over finite fields and obtain a series of general results and also some sharper results for specific sets which are important for applications to computer science. In particular, we use our estimates to show that a heuristic assumption used in the many variable version of Coppersmith's method holds with high probability. We demonstrate the use of our results on the approximate greatest common divisor problem and obtain a fully rigorous version of the heuristic algorithm of H. Cohn and N. Heninger (2013). | 翻訳日:2024-03-18 23:41:48 公開日:2023-10-31 |
# DBR半導体レーザーの同期複素ダイナミクスを用いた物理層鍵分布
Physical-layer key distribution using synchronous complex dynamics of DBR semiconductor lasers ( http://arxiv.org/abs/2310.20365v1 ) ライセンス: Link先を確認 | Anbang Wang, Yicheng Du, Qingtian Li, Longsheng Wang, Zhiwei Jia, Yuwen Qin, Yuncai Wang, | (参考訳) 光フィードバックによる半導体レーザーの共通信号誘起同期は、情報理論のセキュリティとポテンシャルを高い速度で有望な物理鍵分布を刺激した。
重要な課題は、セキュリティのために操作パラメータ空間を犠牲にすることなく、キーレートを増加させるための同期回復時間を短縮することである。
そこで本研究では,波長可変マルチセクション分散ブラッグ反射器(DBR)レーザのオープンループ同期を物理層鍵分布の解法として提案する。
実験により、同期は2つの演算パラメータ、すなわち格子部と位相部の電流に敏感であることが示された。
さらに、2つの電流のうちの1つを直接変調することで、高速な波長シフト鍵同期を実現することができる。
同期回復時間は、クローズループ同期と比較して1桁の規模で短縮される。
実験的な実装は160kmの光ファイバー距離で5.98 Mbit/sの最終的な鍵レートで実証されている。
したがって、高速可変多断面半導体レーザーは、レーザー同期を用いた高速物理層鍵分布の新しい経路を開くと信じられている。
Common-signal-induced synchronization of semiconductor lasers with optical feedback inspired a promising physical key distribution with information-theoretic security and potential in high rate. A significant challenge is the requirement to shorten the synchronization recovery time for increasing key rate without sacrificing operation parameter space for security. Here, open-loop synchronization of wavelength-tunable multi-section distributed Bragg reflector (DBR) lasers is proposed as a solution for physical-layer key distribution. Experiments show that the synchronization is sensitive to two operation parameters, i.e., currents of grating section and phase section. Furthermore, fast wavelength-shift keying synchronization can be achieved by direct modulation on one of the two currents. The synchronization recovery time is shortened by one order of magnitude compared to close-loop synchronization. An experimental implementation is demonstrated with a final key rate of 5.98 Mbit/s over 160 km optical fiber distance. It is thus believed that fast-tunable multi-section semiconductor lasers opens a new avenue of high-rate physical-layer key distribution using laser synchronization. | 翻訳日:2024-03-18 23:41:48 公開日:2023-10-31 |
# ゴッパ符号の二次関係行列符号について
On the matrix code of quadratic relationships for a Goppa code ( http://arxiv.org/abs/2310.20497v1 ) ライセンス: Link先を確認 | Rocco Mora, | (参考訳) 本稿では,Goppa符号に付随する二次関係の行列符号について,cite{CMT23}で解析を継続する。
我々は,新しいスパースおよびローランク要素を行列コードに提供し,それらの形状に応じて分類する。
この説明により、二乗自由二進ゴッパ符号に付随する行列符号の階数 2 の行列の集合、すなわち古典マッキースで使用される行列は、少なくともゴッパ多項式次数 2 の場合、予想よりもはるかに大きいことが証明される。
我々は、これらの事例に対する構造的攻撃を導出するために、 \cite{CMT23} で導入された代数的行列モデルを構築した。
我々の手法は、McEliece暗号システムに対する鍵回収攻撃に関する最近の課題をほんの数秒で解決できる。
また,任意のGoppa多項式次数に対して有効な一般的な方法として,一般的なサポート対と乗算器をサポート対とGoppa多項式に変換する方法を提案する。
In this article, we continue the analysis started in \cite{CMT23} for the matrix code of quadratic relationships associated with a Goppa code. We provide new sparse and low-rank elements in the matrix code and categorize them according to their shape. Thanks to this description, we prove that the set of rank 2 matrices in the matrix codes associated with square-free binary Goppa codes, i.e. those used in Classic McEiece, is much larger than what is expected, at least in the case where the Goppa polynomial degree is 2. We build upon the algebraic determinantal modeling introduced in \cite{CMT23} to derive a structural attack on these instances. Our method can break in just a few seconds some recent challenges about key-recovery attacks on the McEliece cryptosystem, consistently reducing their estimated security level. We also provide a general method, valid for any Goppa polynomial degree, to transform a generic pair of support and multiplier into a pair of support and Goppa polynomial. | 翻訳日:2024-03-18 23:41:48 公開日:2023-10-31 |
# モバイルアプリのプライバシを評価する - プライバシ測定のための定量的フレームワーク
Assessing Mobile Application Privacy: A Quantitative Framework for Privacy Measurement ( http://arxiv.org/abs/2311.00066v1 ) ライセンス: Link先を確認 | Joao Marono, Catarina Silva, Joao P. Barraca, Vitor Cunha, Paulo Salvador, | (参考訳) モバイルアプリケーションの普及と、その後のサービスやアプリケーションプロバイダとの個人データの共有は、重大なプライバシー上の懸念を引き起こしている。
アプリケーションマーケットプレースは、規制に準拠し、個人にデータのコントロールを提供するメカニズムを導入している。
しかし、明確な表示、ラベル、スコアに関する顕著な欠如は、これらのアプリケーションのプライバシーへの影響を解明する。
この課題に対して,本稿では,プライバシ定量化フレームワークを提案する。
このフレームワークの目的は、特定のAndroidアプリケーションを使用する際のプライバシーリスクのレベルを体系的に評価することである。
主な目標は、個人に質的なラベルを提供することで、プライバシに関する決定を下すことだ。
この研究は、プライバシを優先し、情報に基づく意思決定を促進し、プライバシ保護設計原則を定めているデジタル環境に貢献することを目的としている。
The proliferation of mobile applications and the subsequent sharing of personal data with service and application providers have given rise to substantial privacy concerns. Application marketplaces have introduced mechanisms to conform to regulations and provide individuals with control over their data. However, a notable absence persists regarding clear indications, labels or scores elucidating the privacy implications of these applications. In response to this challenge, this paper introduces a privacy quantification framework. The purpose of this framework is to systematically evaluate the level of privacy risk when using particular Android applications. The main goal is to provide individuals with qualitative labels to make informed decisions about their privacy. This work aims to contribute to a digital environment that prioritizes privacy, promotes informed decision-making, and endorses the privacy-preserving design principles incorporation. | 翻訳日:2024-03-18 23:41:48 公開日:2023-10-31 |
# 画像から粗さ表面を作製する添加剤の合成モーダル生成 A Synthetic Modal Generation of Additive Manufacturing Roughness Surfaces from Images ( http://arxiv.org/abs/2401.01345v1 ) ライセンス: Link先を確認 | T.B. Keesom, P.P. Popov, P. Dhyani, G.B. Jacobs | (参考訳) フーリエモードに基づくロガロの合成乱流法(R. S. Rogallo, NASA Technical Memorandum 81315, 1981)を応用し, 添加した表面の電子顕微鏡スキャンから粗さ場を推定・合成する手法を提案する。
合成粗さ場は滑らかであり、計算流体力学やその他の数値シミュレーションにおけるグリッドジェネレータと互換性がある。
トレーニングに20以上の表面粗さのスキャンを必要とする機械学習とは異なり、フーリエモードベースの手法は、単一物理粗さスキャンを用いて均質な合成粗さフィールドを任意のサイズと範囲に外挿することができる。
文献からの電子顕微鏡粗さ画像を用いて5種類の合成粗さ場を生成する。
スペクトルエネルギーと2点相関スペクトルの比較は、合成場がスキャンの粗さ構造とスペクトルエネルギーに密接に近似していることを示している。 A method to infer and synthetically extrapolate roughness fields from electron microscope scans of additively manufactured surfaces using an adaptation of Rogallo's synthetic turbulence method [R. S. Rogallo, NASA Technical Memorandum 81315, 1981] based on Fourier modes is presented. The resulting synthetic roughness fields are smooth and are compatible with grid generators in computational fluid dynamics or other numerical simulations. Unlike machine learning methods, which can require over twenty scans of surface roughness for training, the Fourier mode based method can extrapolate homogeneous synthetic roughness fields using a single physical roughness scan to any desired size and range. Five types of synthetic roughness fields are generated using an electron microscope roughness image from literature. A comparison of their spectral energy and two-point correlation spectra show that the synthetic fields closely approximate the roughness structures and spectral energy of the scan. | 翻訳日:2024-01-15 10:08:07 公開日:2023-10-31 |
# ユーザ個人化大言語モデル出力におけるフィルタバブルと感情分極 Filter bubbles and affective polarization in user-personalized large language model outputs ( http://arxiv.org/abs/2311.14677v1 ) ライセンス: Link先を確認 | Tomo Lazovich | (参考訳) 検索エンジンやソーシャルメディアのコンテンツランキングの歴史を振り返って、大規模言語モデル(LLM)の出現は、個々のユーザーに対してモデル出力のパーソナライズを拡大させるきっかけとなった。
これまで、パーソナライズされたレコメンデーションとランキングシステムは、フィルターバブル(ユーザの既存のバイアスを確認するコンテンツを提供する)と感情分極(異なる視点を持つ人々に対する強い否定的な感情)の開発に関連付けられてきた。
本研究は、公的人物や組織に関する事実的質問に先立って、ユーザの政治的協力を得て、主要な大規模言語モデルであるchatgpt-3.5をいかに促すかを検討する。
左利きのユーザーは、左利きの政治人物やメディアについてより肯定的な発言を受ける傾向にあり、右利きのユーザーは右利きの団体についてより肯定的な発言を見る傾向にある。
このパターンは、大統領選挙の候補者、上院の議員、およびあらゆる方面からの格付けを持つメディア組織にまたがっている。
これらのアウトプットを質的に評価する場合、特定の事実がユーザーの政治的関連に基づいて含まれたり排除されたりする証拠がある。
これらの結果から,LLMのパーソナライズには,他のパーソナライズされたインターネット技術で見られる感情分極やフィルタバブルのリスクが伴うことが示された。
この`failure mode' は、これらのモデルを収益化しパーソナライズしようとする試みが増えているため、注意深く監視されるべきである。 Echoing the history of search engines and social media content rankings, the advent of large language models (LLMs) has led to a push for increased personalization of model outputs to individual users. In the past, personalized recommendations and ranking systems have been linked to the development of filter bubbles (serving content that may confirm a user's existing biases) and affective polarization (strong negative sentiment towards those with differing views). In this work, we explore how prompting a leading large language model, ChatGPT-3.5, with a user's political affiliation prior to asking factual questions about public figures and organizations leads to differing results. We observe that left-leaning users tend to receive more positive statements about left-leaning political figures and media outlets, while right-leaning users see more positive statements about right-leaning entities. This pattern holds across presidential candidates, members of the U.S. Senate, and media organizations with ratings from AllSides. When qualitatively evaluating some of these outputs, there is evidence that particular facts are included or excluded based on the user's political affiliation. These results illustrate that personalizing LLMs based on user demographics carry the same risks of affective polarization and filter bubbles that have been seen in other personalized internet technologies. This ``failure mode" should be monitored closely as there are more attempts to monetize and personalize these models. | 翻訳日:2023-12-03 14:04:28 公開日:2023-10-31 |
# DAOにおける社会的感覚のデコード:ブロックチェーンガバナンスコミュニティの比較分析 Decoding Social Sentiment in DAO: A Comparative Analysis of Blockchain Governance Communities ( http://arxiv.org/abs/2311.14676v1 ) ライセンス: Link先を確認 | Yutong Quan, Xintong Wu, Wanlin Deng, Luyao Zhang | (参考訳) ブロックチェーンテクノロジは、ブロックチェーンプロジェクトの成功と持続可能性の重要な決定要因として効果的なガバナンスが位置する、さまざまな業界にわたる革命的な変革をリードしている。
分散型自律組織(DAO)の関与に重要なコミュニティフォーラムは、ブロックチェーンのガバナンス決定に大きな影響を与えている。
同時に、自然言語処理(NLP)、特に感情分析は、テキストデータから強力な洞察を提供する。
ソーシャルメディアの感情分析におけるnlpツールの可能性について以前の研究が検討されてきたが、ブロックチェーンガバナンスコミュニティの感情の状況を理解する上ではギャップが続いている。
DAOの最上位のフォーラムにおける言論と感情のダイナミクスはほとんど不明である。
本稿では,defiプロジェクトの主流であるaave,uniswap,curve dao,araagon, yearn.finance, merit circle, balancerの公開フォーラムにおける,進化する談話と感情ダイナミクスを深く掘り下げ,ガバナンス問題に関する議論に重点を置く。
異なる活動パターンにもかかわらず、これらの分散コミュニティの参加者は一貫して不一致の議論で肯定的な感情を表し、ガバナンスの決定に対する楽観主義を示している。
さらに,議論強度と感情ダイナミクスの相互作用の可能性も示唆し,議論量の増加がより安定的でポジティブな感情に寄与する可能性が示唆された。
この研究から得られた洞察は、ブロックチェーンガバナンスの意思決定者にとって価値があり、コミュニティの感情を解釈する上での感情分析の重要な役割と、ブロックチェーンガバナンスの展望に対するその進化する影響を強調するものだ。
この研究は、分散型ブロックチェーンガバナンスエコシステムに特に重点を置いた、ブロックチェーンと社会の交差に関する学際的な調査に大きく貢献している。 Blockchain technology is leading a revolutionary transformation across diverse industries, with effective governance standing as a critical determinant for the success and sustainability of blockchain projects. Community forums, pivotal in engaging decentralized autonomous organizations (DAOs), wield a substantial impact on blockchain governance decisions. Concurrently, Natural Language Processing (NLP), particularly sentiment analysis, provides powerful insights from textual data. While prior research has explored the potential of NLP tools in social media sentiment analysis, a gap persists in understanding the sentiment landscape of blockchain governance communities. The evolving discourse and sentiment dynamics on the forums of top DAOs remain largely unknown. This paper delves deep into the evolving discourse and sentiment dynamics on the public forums of leading DeFi projects -- Aave, Uniswap, Curve Dao, Aragon, Yearn.finance, Merit Circle, and Balancer -- placing a primary focus on discussions related to governance issues. Despite differing activity patterns, participants across these decentralized communities consistently express positive sentiments in their Discord discussions, indicating optimism towards governance decisions. Additionally, our research suggests a potential interplay between discussion intensity and sentiment dynamics, indicating that higher discussion volumes may contribute to more stable and positive emotions. The insights gained from this study are valuable for decision-makers in blockchain governance, underscoring the pivotal role of sentiment analysis in interpreting community emotions and its evolving impact on the landscape of blockchain governance. This research significantly contributes to the interdisciplinary exploration of the intersection of blockchain and society, with a specific emphasis on the decentralized blockchain governance ecosystem. | 翻訳日:2023-12-03 14:03:59 公開日:2023-10-31 |
# 自動議会: 言語モデルにおける不確かさと不一致の解決法 Automated Parliaments: A Solution to Decision Uncertainty and Misalignment in Language Models ( http://arxiv.org/abs/2311.10098v1 ) ライセンス: Link先を確認 | Thomas Forster, Jonathan Ouwerx, Shak Ragoler | (参考訳) 現代の世界でAIがより大きな役割を担っているため、AIモデルは意思決定の不確実性を克服し、人間の道徳や関心と一致し続けることが不可欠である。
本稿では,ai代表者によって構成されたaps(automated parliaments)構造を用いて,言語モデル(lms)の意思決定を改善する手法を提案する。
Delegates自身はジェネレータ、修飾器、評価器という3つのAIモデルで構成されている。
最適解の生成には,応答生成のための同時修正機構と,適度な解評価のための評価機構の2つの機構を規定する。
全体プロセスは、各ジェネレータがそのデリゲート理論に一致した応答を生成するときに始まる。
修飾子は、より自己調整できるように、他のすべての応答を変更します。
評価者はまとめて最高の応答を評価する。
最後に、修飾子とジェネレータは評価子からのフィードバックから学習する。
本研究では,単価ゼロショットプロンプトとap数ショットプロンプトを用いて,道徳的に議論のあるシナリオを評価するための評価機構を検証した。
apアーキテクチャでは、ベースラインと比較して損失値が57.3%減少した。
我々は、APの潜在的な適用の可能性、特に自動道徳議会として実施された影響について論じる。 As AI takes on a greater role in the modern world, it is essential to ensure that AI models can overcome decision uncertainty and remain aligned with human morality and interests. This research paper proposes a method for improving the decision-making of language models (LMs) via Automated Parliaments (APs) - constructs made of AI delegates each representing a certain perspective. Delegates themselves consist of three AI models: generators, modifiers, and evaluators. We specify two mechanisms for producing optimal solutions: the Simultaneous Modification mechanism for response creation and an evaluation mechanism for fairly assessing solutions. The overall process begins when each generator creates a response aligned with its delegate's theory. The modifiers alter all other responses to make them more self-aligned. The evaluators collectively assess the best end response. Finally, the modifiers and generators learn from feedback from the evaluators. In our research, we tested the evaluation mechanism, comparing the use of single-value zero-shot prompting and AP few-shot prompting in evaluating morally contentious scenarios. We found that the AP architecture saw a 57.3% reduction in its loss value compared to the baseline. We conclude by discussing some potential applications of APs and specifically their potential impact when implemented as Automated Moral Parliaments. | 翻訳日:2023-11-27 01:05:27 公開日:2023-10-31 |
# 歴史的視点から見た推論と説明におけるAIの課題 Investigating AI's Challenges in Reasoning and Explanation from a Historical Perspective ( http://arxiv.org/abs/2311.10097v1 ) ライセンス: Link先を確認 | Benji Alwis | (参考訳) 本稿では,サイバーネティックスと人工知能の分野における社会的ダイナミクス,技術進歩,先駆的な人物間の複雑な関係について概説する。
これは、マカロック、ウィーナー、ピット、ローゼンブラットといった主要な科学者間のコラボレーションと対人関係が、サイバネティクスとニューラルネットワークの開発に与える影響を探求している。
また、バックプロパゲーションアルゴリズムのような重要なイノベーションへの信用の帰結と、新興科学領域における未解決の議論の潜在的な結果についても論じている。
解釈の柔軟性、大衆の認識、そして著名な人物の影響が、新しい分野の軌跡を形作ることができることを強調する。
様々な研究手法の成功と認識を決定する上での資金、メディアの注意、同盟の役割を強調している。
さらに、シンボリックAIとニューラルネットワーク研究者の協力と統合の機会が欠如していることは、過去の議論の歴史的な手引きなしに、今日の時代においてより統一されたアプローチが可能であることを示唆している。 This paper provides an overview of the intricate relationship between social dynamics, technological advancements, and pioneering figures in the fields of cybernetics and artificial intelligence. It explores the impact of collaboration and interpersonal relationships among key scientists, such as McCulloch, Wiener, Pitts, and Rosenblatt, on the development of cybernetics and neural networks. It also discusses the contested attribution of credit for important innovations like the backpropagation algorithm and the potential consequences of unresolved debates within emerging scientific domains. It emphasizes how interpretive flexibility, public perception, and the influence of prominent figures can shape the trajectory of a new field. It highlights the role of funding, media attention, and alliances in determining the success and recognition of various research approaches. Additionally, it points out the missed opportunities for collaboration and integration between symbolic AI and neural network researchers, suggesting that a more unified approach may be possible in today's era without the historical baggage of past debates. | 翻訳日:2023-11-27 00:59:05 公開日:2023-10-31 |
# EIT:対話型講義参加演習における学生の気持評価のためのEarnest Insight Toolkit EIT: Earnest Insight Toolkit for Evaluating Students' Earnestness in Interactive Lecture Participation Exercises ( http://arxiv.org/abs/2311.10746v1 ) ライセンス: Link先を確認 | Mihran Miroyan, Shiny Weng, Rahul Shah, Lisa Yan, Narges Norouzi | (参考訳) 今日の急速に発展する教育現場では、受動的情報配信の伝統的な方法が、アクティブな学生のエンゲージメントを優先する変革的な教育的アプローチに道を譲っている。
大規模ハイブリッド教室の文脈では、学生とコースの内容の間の有意義で活発な相互作用を促進することが課題である。
本研究は,対話型講義参加演習における学生の真剣さを計測する意義について考察する。
対話型講義質問に対する学生の回答を分析し,真面目さを評価するための明確なルーリックを確立し,包括的評価を行うことで,対話型講義参加演習における学生の関与を評価するツールであるEIT(Earnest Insight Toolkit)を導入する。
EITの利用を通じて,リスクの高い学生を識別する貴重な手段を教育者に提供し,介入・支援戦略の強化と,学生のコース内容とのエンゲージメントのレベルの測定を行うことが目的である。 In today's rapidly evolving educational landscape, traditional modes of passive information delivery are giving way to transformative pedagogical approaches that prioritize active student engagement. Within the context of large-scale hybrid classrooms, the challenge lies in fostering meaningful and active interaction between students and course content. This study delves into the significance of measuring students' earnestness during interactive lecture participation exercises. By analyzing students' responses to interactive lecture poll questions, establishing a clear rubric for evaluating earnestness, and conducting a comprehensive assessment, we introduce EIT (Earnest Insight Toolkit), a tool designed to assess students' engagement within interactive lecture participation exercises - particularly in the context of large-scale hybrid classrooms. Through the utilization of EIT, our objective is to equip educators with valuable means of identifying at-risk students for enhancing intervention and support strategies, as well as measuring students' levels of engagement with course content. | 翻訳日:2023-11-27 00:45:10 公開日:2023-10-31 |
# オンラインPAC強化学習におけるインスタンス最適性に向けて Towards Instance-Optimality in Online PAC Reinforcement Learning ( http://arxiv.org/abs/2311.05638v1 ) ライセンス: Link先を確認 | Aymen Al-Marjani, Andrea Tirinzoni, Emilie Kaufmann | (参考訳) いくつかの最近の研究は、有限水平タブ状マルコフ決定過程(MDPs)における$\varepsilon$-Optimal Policyである1-\delta$という確率で、特定に必要なエピソード数に関するインスタンス依存の上限を提案している。
これらの上界はmdpの様々な複雑性測度を特徴とし、それはサブ最適ギャップの異なる概念に基づいて定義される。
しかし、現在では、決定論的遷移を持つMDPの特別な場合を除いて、これらの複雑さ対策の最適性を評価するための下限は確立されていない。
本稿では,表層表層MDPにおける近最適ポリシーのPAC識別に必要なサンプルの複雑さに対する最初のインスタンス依存下限を提案する。
さらに, \cite{wagenmaker22linearmdp} のペデルアルゴリズムのサンプル複雑性がこの下界に近づいたことを証明した。
ペデルの難解性を考慮すると,計算効率のよいアルゴリズムを用いて,下限の達成可能性に関するオープン質問を定式化する。 Several recent works have proposed instance-dependent upper bounds on the number of episodes needed to identify, with probability $1-\delta$, an $\varepsilon$-optimal policy in finite-horizon tabular Markov Decision Processes (MDPs). These upper bounds feature various complexity measures for the MDP, which are defined based on different notions of sub-optimality gaps. However, as of now, no lower bound has been established to assess the optimality of any of these complexity measures, except for the special case of MDPs with deterministic transitions. In this paper, we propose the first instance-dependent lower bound on the sample complexity required for the PAC identification of a near-optimal policy in any tabular episodic MDP. Additionally, we demonstrate that the sample complexity of the PEDEL algorithm of \cite{Wagenmaker22linearMDP} closely approaches this lower bound. Considering the intractability of PEDEL, we formulate an open question regarding the possibility of achieving our lower bound using a computationally-efficient algorithm. | 翻訳日:2023-11-19 14:28:38 公開日:2023-10-31 |
# ニュース記事(RENA)からの関係抽出 : エピデミックサーベイランスのためのツール Relation Extraction from News Articles (RENA): A Tool for Epidemic Surveillance ( http://arxiv.org/abs/2311.01472v1 ) ライセンス: Link先を確認 | Jaeff Hong, Duong Dung, Danielle Hutchinson, Zubair Akhtar, Rosalie Chen, Rebecca Dawson, Aditya Joshi, Samsung Lim, C Raina MacIntyre and Deepti Gurdasani | (参考訳) Relation extract from News Articles (RENA) は、英語のニュース記事において、重要なエンティティとその意味関係を抽出するためのブラウザベースのツールである。
Reactフレームワークを使用して構築されたこのシステムは、エレガントでユーザフレンドリなインターフェースを提供する。
ユーザはニュース記事を入力し、2つのモデルの中から選択して、提供されたテキスト内の関係の包括的なリストを生成することができる。
結果として、RENAは、ニュース記事のリアルタイム解析を許可し、伝染病監視のための重要な情報を抽出し、オープンソースのインテリジェンスベースの伝染病警告システムであるEPIWATCHに貢献する。 Relation Extraction from News Articles (RENA) is a browser-based tool designed to extract key entities and their semantic relationships in English language news articles related to infectious diseases. Constructed using the React framework, this system presents users with an elegant and user-friendly interface. It enables users to input a news article and select from a choice of two models to generate a comprehensive list of relations within the provided text. As a result, RENA allows real-time parsing of news articles to extract key information for epidemic surveillance, contributing to EPIWATCH, an open-source intelligence-based epidemic warning system. | 翻訳日:2023-11-12 19:56:06 公開日:2023-10-31 |
# 原子核のマルチコンフィグレーション時間依存密度汎関数理論:技術的および数値的側面 Multiconfigurational time-dependent density functional theory for atomic nuclei: Technical and numerical aspects ( http://arxiv.org/abs/2310.20557v1 ) ライセンス: Link先を確認 | Petar Marevi\'c and David Regnier and Denis Lacroix | (参考訳) 原子時間依存密度汎関数理論 (TDDFT) は、原子核の様々な力学現象を記述するためのツールである。
最近の研究では、複数のTDDFT軌道を混合することにより、集合空間における量子揺らぎを考慮に入れた、多構成TDDFT(Multiconfigurational TDDFT)モデルの拡張について報告した。
本稿では,モデルの技術的および数値的側面に焦点を当てる。
本稿では,混合関数の運動方程式を得るために用いられる時間依存変分原理の特性について概説する。
さらに,ハミルトニアン・カーネル,ノルム・カーネル,明示的な時間微分を持つカーネルなど,運動方程式の様々な成分の評価について検討する。
運動方程式を解く数値解法を詳述し,モデルの基礎となる主要な仮定を概説する。
技術的な議論は、$^{40}$Caの集合四重極振動を考える数値的な例で補われ、特に、収束の問題、線形依存基底の処理、エネルギー保存、相互作用の密度依存部分の処方則に焦点を当てている。 The nuclear time-dependent density functional theory (TDDFT) is a tool of choice for describing various dynamical phenomena in atomic nuclei. In a recent study, we reported an extension of the framework - the multiconfigurational TDDFT (MC-TDDFT) model - that takes into account quantum fluctuations in the collective space by mixing several TDDFT trajectories. In this article, we focus on technical and numerical aspects of the model. We outline the properties of the time-dependent variational principle that is employed to obtain the equation of motion for the mixing function. Furthermore, we discuss evaluation of various ingredients of the equation of motion, including the Hamiltonian kernel, norm kernel, and kernels with explicit time derivatives. We detail the numerical methods for resolving the equation of motion and outline the major assumptions underpinning the model. A technical discussion is supplemented with numerical examples that consider collective quadrupole vibrations in $^{40}$Ca, particularly focusing on the issues of convergence, treatment of linearly dependent bases, energy conservation, and prescriptions for the density-dependent part of an interaction. | 翻訳日:2023-11-12 19:55:15 公開日:2023-10-31 |
# 効果的なフェデレーション学習を支援するモデル初期化手法に関する総合的研究 A Comprehensive Study on Model Initialization Techniques Ensuring Efficient Federated Learning ( http://arxiv.org/abs/2311.02100v1 ) ライセンス: Link先を確認 | Ishmeet Kaur and Adwaita Janardhan Jadhav | (参考訳) 機械学習の分野の進歩は避けられないが、重要な関心事は、これらの機械学習アルゴリズムのトレーニングにデータが使われているユーザーのプライバシーを守ることだ。
フェデレートラーニング(FL)は、ローカルデータを共有せずにグローバルモデルのコラボレーションとトレーニングを可能にする、分散型でプライバシ保護の方法で機械学習モデルをトレーニングするための有望なパラダイムとして登場した。
しかし、'`モデル初期化'と呼ばれる正しい方法で各デバイスでこの学習プロセスを開始することは重要である。
モデルの初期化手法の選択は、性能、収束速度、通信効率、フェデレートされた学習システムのプライバシー保証などにおいて重要な役割を果たす。
本研究では,FLにおけるモデル初期化手法の様々な方法に関する包括的研究を深く掘り下げるとともに,各手法のメリットとデメリットを慎重に比較,分類,記述し,さまざまなFLシナリオに適用性を検討する。
クライアントのばらつき、データ非IID性、モデルの校正、セキュリティの考慮、ネットワークの制約といった要因がFLモデルの結果にどのように影響するかを強調し、戦略的初期化がこのような課題に対処し、修正する可能性を提案する。
この調査の動機は、データ品質やセキュリティ問題、ネットワーク問題など、適切なスタートが課題を克服する上で有効であることを強調することにある。
我々の洞察は、モデル初期化の複雑さを理解しながら、FLを完全に活用しようとする専門家の基盤となる。 Advancement in the field of machine learning is unavoidable, but something of major concern is preserving the privacy of the users whose data is being used for training these machine learning algorithms. Federated learning(FL) has emerged as a promising paradigm for training machine learning models in a distributed and privacy-preserving manner which enables one to collaborate and train a global model without sharing local data. But starting this learning process on each device in the right way, called ``model initialization" is critical. The choice of initialization methods used for models plays a crucial role in the performance, convergence speed, communication efficiency, privacy guarantees of federated learning systems, etc. In this survey, we dive deeper into a comprehensive study of various ways of model initialization techniques in FL.Unlike other studies, our research meticulously compares, categorizes, and delineates the merits and demerits of each technique, examining their applicability across diverse FL scenarios. We highlight how factors like client variability, data non-IIDness, model caliber, security considerations, and network restrictions influence FL model outcomes and propose how strategic initialization can address and potentially rectify many such challenges. The motivation behind this survey is to highlight that the right start can help overcome challenges like varying data quality, security issues, and network problems. Our insights provide a foundational base for experts looking to fully utilize FL, also while understanding the complexities of model initialization. | 翻訳日:2023-11-12 19:45:19 公開日:2023-10-31 |
# 動的モード分解を用いた電界信号の高速, 高精度, 解釈可能な復号 Fast, accurate, and interpretable decoding of electrocorticographic signals using dynamic mode decomposition ( http://arxiv.org/abs/2311.04225v1 ) ライセンス: Link先を確認 | Ryohei Fukuma, Kei Majima, Yoshinobu Kawahara, Okito Yamashita, Yoshiyuki Shiraishi, Haruhiko Kishima and Takufumi Yanagisawa | (参考訳) 動的モード(DM)分解は時空間信号を基本振動成分(DM)に分解する。
DMは従来のパワー特性と比較して非線形グラスマンカーネルを使用する場合のニューラルデコーディングの精度を向上させることができる。
しかし、カーネルベースの機械学習アルゴリズムには3つの制限がある。
本稿では,Grassmannカーネルに対応するマッピング関数を提案し,DMを任意の機械学習アルゴリズムで使用可能な空間的DM(sDM)特徴に明示的に変換する。
様々な運動および視覚知覚タスク中に記録された脳波信号を用いて,sdmの特徴を従来の手法と比較して復号精度と計算時間を改善することを示した。
さらに、復号化に有用なsdmの成分は、信号の高-$\gamma$ のパワーと類似した特性を示したが、試行錯誤の再現性は高かった。
提案したsDM機能は、高速で正確で解釈可能なニューラルデコーディングを可能にする。 Dynamic mode (DM) decomposition decomposes spatiotemporal signals into basic oscillatory components (DMs). DMs can improve the accuracy of neural decoding when used with the nonlinear Grassmann kernel, compared to conventional power features. However, such kernel-based machine learning algorithms have three limitations: large computational time preventing real-time application, incompatibility with non-kernel algorithms, and low interpretability. Here, we propose a mapping function corresponding to the Grassmann kernel that explicitly transforms DMs into spatial DM (sDM) features, which can be used in any machine learning algorithm. Using electrocorticographic signals recorded during various movement and visual perception tasks, the sDM features were shown to improve the decoding accuracy and computational time compared to conventional methods. Furthermore, the components of the sDM features informative for decoding showed similar characteristics to the high-$\gamma$ power of the signals, but with higher trial-to-trial reproducibility. The proposed sDM features enable fast, accurate, and interpretable neural decoding. | 翻訳日:2023-11-12 19:34:27 公開日:2023-10-31 |
# ブロッキング・コラボレーティブ・バンディット:オンライン・コラボレーティブ・フィルタリング Blocked Collaborative Bandits: Online Collaborative Filtering with Per-Item Budget Constraints ( http://arxiv.org/abs/2311.03376v1 ) ライセンス: Link先を確認 | Soumyabrata Pal, Arun Sai Suggala, Karthikeyan Shanmugam, Prateek Jain | (参考訳) 複数のユーザがいて,それぞれが関連するマルチアームのバンディット問題を持つ,<emph{blocked>コラボレーティブなバンディットの問題を考える。
これらのユーザは,同一クラスタ内のユーザの平均報酬ベクトルが同一になるように,\emph{latent}クラスタにグループ化される。
当社の目標は、ユーザの腕が$\mathsf{b}$ times以上引き出されないという \emph{constraint} の下で、全ユーザの累積報酬を最大化するアルゴリズムを設計することです。
この問題は、元々は \cite{bresler:2014} によって検討され、それに対する後悔最適化アルゴリズムの設計は未解決の問題のままである。
本研究では,ユーザ間で協調し,同時に予算制約を満たすアルゴリズムである「texttt{B-LATTICE} (Blocked Latent bAndiTs via maTrIx ComplEtion)」を提案し,累積報酬を最大化する。
理論的には、潜在構造上の一定の合理的な仮定の下では、$\mathsf{m}$ users, $\mathsf{n}$ arms, $\mathsf{t}$ rounds per user, $\mathsf{c}=o(1)$ latent clusters, \textt{b-lattice} は$\widetilde{o}(\sqrt{\mathsf{t}(1 + \mathsf{n}\mathsf{m}^{-1})}$ という予算制約の下で$\mathsf{b}=\theta(\log \mathsf{t})$ のユーザ一人当たりの後悔を達成する。
これらはこの問題に対する最初のsub-linear regret boundsであり、$\mathsf{b}=\mathsf{t}$ のときのminimax regret boundsと一致する。
経験的に、このアルゴリズムは$\mathsf{b}=1$でもベースラインよりも優れた性能を示す。
\texttt{B-LATTICE}は、各フェーズでユーザをグループに集約し、グループ内のユーザ間でコラボレーションして、報酬モデルを簡単に学習するフェーズで動作する。 We consider the problem of \emph{blocked} collaborative bandits where there are multiple users, each with an associated multi-armed bandit problem. These users are grouped into \emph{latent} clusters such that the mean reward vectors of users within the same cluster are identical. Our goal is to design algorithms that maximize the cumulative reward accrued by all the users over time, under the \emph{constraint} that no arm of a user is pulled more than $\mathsf{B}$ times. This problem has been originally considered by \cite{Bresler:2014}, and designing regret-optimal algorithms for it has since remained an open problem. In this work, we propose an algorithm called \texttt{B-LATTICE} (Blocked Latent bAndiTs via maTrIx ComplEtion) that collaborates across users, while simultaneously satisfying the budget constraints, to maximize their cumulative rewards. Theoretically, under certain reasonable assumptions on the latent structure, with $\mathsf{M}$ users, $\mathsf{N}$ arms, $\mathsf{T}$ rounds per user, and $\mathsf{C}=O(1)$ latent clusters, \texttt{B-LATTICE} achieves a per-user regret of $\widetilde{O}(\sqrt{\mathsf{T}(1 + \mathsf{N}\mathsf{M}^{-1})}$ under a budget constraint of $\mathsf{B}=\Theta(\log \mathsf{T})$. These are the first sub-linear regret bounds for this problem, and match the minimax regret bounds when $\mathsf{B}=\mathsf{T}$. Empirically, we demonstrate that our algorithm has superior performance over baselines even when $\mathsf{B}=1$. \texttt{B-LATTICE} runs in phases where in each phase it clusters users into groups and collaborates across users within a group to quickly learn their reward models. | 翻訳日:2023-11-12 19:32:15 公開日:2023-10-31 |
# ラベルなしデータを利用した拡張カテゴリによるオープンセット学習 Open-set learning with augmented categories by exploiting unlabelled data ( http://arxiv.org/abs/2002.01368v8 ) ライセンス: Link先を確認 | Emile R. Engelbrecht, Johan A. du Preez | (参考訳) 新たなカテゴリは一般的に、トレーニング中に観察できないが、テスト中に存在するカテゴリとして定義される。
しかし、部分的にラベル付けされたトレーニングデータセットは、新しいカテゴリに属する未ラベルのトレーニングサンプルを含むことができる。
この研究は、未学習データやOpen-LACUを利用して、拡張カテゴリによるオープンセット学習と呼ばれる新しい学習ポリシーの中で、観測ノーベルカテゴリーと観測ノーベルカテゴリーを一般化する最初のものである。
既存の学習方針を調査した結果,ポジティブ学習とラベルなし学習,半教師付き学習,オープンセット認識の統一政策としてopen-lacuを導入する。
次に,関連する研究分野のアルゴリズム的学習プロセスを用いて,最初のオープンラキューモデルを開発した。
提案したOpen-LACU分類器は、最先端および第一級の結果を得る。 Novel categories are commonly defined as those unobserved during training but present during testing. However, partially labelled training datasets can contain unlabelled training samples that belong to novel categories, meaning these can be present in training and testing. This research is the first to generalise between what we call observed-novel and unobserved-novel categories within a new learning policy called open-set learning with augmented category by exploiting unlabelled data or Open-LACU. After surveying existing learning policies, we introduce Open-LACU as a unified policy of positive and unlabelled learning, semi-supervised learning and open-set recognition. Subsequently, we develop the first Open-LACU model using an algorithmic training process of the relevant research fields. The proposed Open-LACU classifier achieves state-of-the-art and first-of-its-kind results. | 翻訳日:2023-11-03 18:54:25 公開日:2023-10-31 |
# 伝達とメタ学習の相対的性能の検討 Investigating Relative Performance of Transfer and Meta Learning ( http://arxiv.org/abs/2311.00727v1 ) ライセンス: Link先を確認 | Benji Alwis | (参考訳) 過去10年間、機械学習の分野は目覚ましい進歩を遂げてきた。
画像認識システムは目覚ましいレベルの精度を達成したが、広範なトレーニングデータセットに依存し続けている。
さらに、分散性能の低さという形で大きな課題が発生しており、トレーニングデータから逸脱した条件に遭遇すると、ニューラルネットワークの再トレーニングが必要になる。
この制限は、自動運転技術の進歩の鈍化に特に寄与した。
これらのプレッシャーの問題は、ニューラルネットワークが限られたデータから効果的に学習できる方法にかなりの関心を呼んだ。
本稿では,この問題の潜在的な解決策として,トランスファーラーニングとメタラーニングの2つの異なるアプローチを比較した広範囲な研究結果を示す。
包括的な目的は、多様な機械学習シナリオにおいて最も適切な方法を選択するための堅牢な基準を確立することである。
先行研究に基づき,新しいメタ学習法を導入することで,比較分析を拡張した。
その後, 異なる条件下での経過観察を行った。
最後に、トレーニングデータセットのサイズ変更がこれらのメソッドの相対的なパフォーマンスに与える影響を掘り下げました。
この包括的な調査により、それぞれのアプローチを好む条件に対する洞察が得られ、任意の状況において最も適切な方法を選択するための基準の開発が容易になった。 Over the past decade, the field of machine learning has experienced remarkable advancements. While image recognition systems have achieved impressive levels of accuracy, they continue to rely on extensive training datasets. Additionally, a significant challenge has emerged in the form of poor out-of-distribution performance, which necessitates retraining neural networks when they encounter conditions that deviate from their training data. This limitation has notably contributed to the slow progress in self-driving car technology. These pressing issues have sparked considerable interest in methods that enable neural networks to learn effectively from limited data. This paper presents the outcomes of an extensive investigation designed to compare two distinct approaches, transfer learning and meta learning, as potential solutions to this problem. The overarching objective was to establish a robust criterion for selecting the most suitable method in diverse machine learning scenarios. Building upon prior research, I expanded the comparative analysis by introducing a new meta learning method into the investigation. Subsequently, I assessed whether the findings remained consistent under varying conditions. Finally, I delved into the impact of altering the size of the training dataset on the relative performance of these methods. This comprehensive exploration has yielded insights into the conditions favoring each approach, thereby facilitating the development of a criterion for selecting the most appropriate method in any given situation | 翻訳日:2023-11-03 16:21:25 公開日:2023-10-31 |
# 通信用ビッグデータ(FAME)における機械学習とエンジニアリングを用いたフラッド分析 Fraud Analytics Using Machine-learning & Engineering on Big Data (FAME) for Telecom ( http://arxiv.org/abs/2311.00724v1 ) ライセンス: Link先を確認 | Sudarson Roy Pratihar, Subhadip Paul, Pranab Kumar Dash, Amartya Kumar Das | (参考訳) 通信業界は詐欺により全世界で4630億米ドルを失った。
データマイニングと機械学習技術(ルール指向のアプローチの一部)はこれまでも使用されてきたが、不正パターンが急速に変化するにつれ、効率は低下している。
本稿では, 自己適応型データマイニング技術とビッグデータ技術の応用による, 不正検出と新たな不正パターンの発見を, 正確, 効率的, 費用対効果の両面から行う産業化ソリューションを提案する。
国際収益シェアフルートを5%の偽陽性で検出する手法が実証された。
この研究には、ホールセールキャリアと海外のテレコムトランジットキャリアから1テラバイト以上の通話詳細な記録が使用されている。 Telecom industries lose globally 46.3 Billion USD due to fraud. Data mining and machine learning techniques (apart from rules oriented approach) have been used in past, but efficiency has been low as fraud pattern changes very rapidly. This paper presents an industrialized solution approach with self adaptive data mining technique and application of big data technologies to detect fraud and discover novel fraud patterns in accurate, efficient and cost effective manner. Solution has been successfully demonstrated to detect International Revenue Share Fraud with <5% false positive. More than 1 Terra Bytes of Call Detail Record from a reputed wholesale carrier and overseas telecom transit carrier has been used to conduct this study. | 翻訳日:2023-11-03 16:21:04 公開日:2023-10-31 |
# Transversal GANを用いた3次元PET画像のプライバシー漏洩評価 Assessing Privacy Leakage in Synthetic 3-D PET Imaging using Transversal GAN ( http://arxiv.org/abs/2206.06448v2 ) ライセンス: Link先を確認 | Robert V. Bergen, Jean-Francois Rajotte, Fereshteh Yousefirizi, Arman Rahmim, Raymond T. Ng | (参考訳) 疾患診断や画像分割のための医用画像に対するコンピュータビジョン関連アルゴリズムの訓練は,プライバシ上の懸念から難しい。
このため、データ共有を容易にするため、生成画像モデルは非常に求められている。
しかし、3次元生成モデルは未検討であり、プライバシリークの調査が必要である。
腫瘍マスクに装着した頭部・頸部PET画像を用いた3次元生成モデルTransversal GAN (TrGAN) について検討した。
画像の忠実性、実用性、プライバシーの定量的尺度を定義します。
これらの指標はトレーニングの過程で評価され、理想的な忠実さ、ユーティリティ、プライバシのトレードオフを特定し、これらのパラメータ間の関係を確立する。
trganの判別器は攻撃に対して脆弱であり、攻撃者は訓練に使用されたサンプルをほぼ完全な精度で識別できる(auc = 0.99)。
また, 生成器のみにアクセスする攻撃者は, サンプルが訓練に使われたかどうか (auc = 0.51) を確実に分類できないことを示した。
これは、TrGANジェネレータは、識別器ではなく、プライバシーのリスクを最小限に抑えつつ、優れたユーティリティと忠実さを維持しながら、合成3DPETデータを共有するために使われる可能性があることを示唆している。 Training computer-vision related algorithms on medical images for disease diagnosis or image segmentation is difficult in large part due to privacy concerns. For this reason, generative image models are highly sought after to facilitate data sharing. However, 3-D generative models are understudied, and investigation of their privacy leakage is needed. We introduce our 3-D generative model, Transversal GAN (TrGAN), using head & neck PET images which are conditioned on tumour masks as a case study. We define quantitative measures of image fidelity, utility and privacy for our model. These metrics are evaluated in the course of training to identify ideal fidelity, utility and privacy trade-offs and establish the relationships between these parameters. We show that the discriminator of the TrGAN is vulnerable to attack, and that an attacker can identify which samples were used in training with almost perfect accuracy (AUC = 0.99). We also show that an attacker with access to only the generator cannot reliably classify whether a sample had been used for training (AUC = 0.51). This suggests that TrGAN generators, but not discriminators, may be used for sharing synthetic 3-D PET data with minimal privacy risk while maintaining good utility and fidelity. | 翻訳日:2023-11-02 18:48:11 公開日:2023-10-31 |
# 赤外光波センシングによる非接触呼吸異常検出 Non-contact Respiratory Anomaly Detection using Infrared Light-wave Sensing ( http://arxiv.org/abs/2301.03713v2 ) ライセンス: Link先を確認 | Md Zobaer Islam, Brenden Martin, Carly Gotcher, Tyler Martinez, John F. O'Hara, Sabit Ekin | (参考訳) ヒト呼吸速度とそのパターンは、被験者の身体的および心理的状態に関する重要な情報を伝える。
異常呼吸は致命的な健康上の問題を示し、さらなる診断と治療につながる。
非コヒーレント赤外線光を用いた無線光波センシング(lws)は、プライバシーの懸念を生じさせることなく、安全、慎重、効率的、非侵襲的な人間の呼吸監視を約束している。
呼吸異常を識別するためには呼吸パターンの異なる種類の呼吸パターンをトレーニングする必要があるが, 呼吸波形として収集したデータを検証し, 外部中断, ユーザ移動, システム故障による異常データを捨てる必要がある。
これらのニーズに対処するために,人間の呼吸パターンを模倣するロボットを用いて,正常および異なる種類の呼吸異常をシミュレートした。
そして, 赤外線センシング技術を用いて時系列呼吸データを収集した。
3つの機械学習アルゴリズム、決定木、ランダムフォレスト、XGBoostを適用し、呼吸異常と異常データを検出する。
モデル性能をクロスバリデーション,分類精度,精度,リコールスコアで評価した。
ランダム森林モデルは、0.5mの距離で収集されたデータで96.75%の分類精度を達成した。
一般に、ランダムフォレストやXGBoostのようなアンサンブルモデルは、光波検知装置から複数の距離で収集されたデータを分類する際に、1つのモデルよりも優れている。 Human respiratory rate and its pattern convey essential information about the physical and psychological states of the subject. Abnormal breathing can indicate fatal health issues leading to further diagnosis and treatment. Wireless light-wave sensing (LWS) using incoherent infrared light shows promise in safe, discreet, efficient, and non-invasive human breathing monitoring without raising privacy concerns. The respiration monitoring system needs to be trained on different types of breathing patterns to identify breathing anomalies.The system must also validate the collected data as a breathing waveform, discarding any faulty data caused by external interruption, user movement, or system malfunction. To address these needs, this study simulated normal and different types of abnormal respiration using a robot that mimics human breathing patterns. Then, time-series respiration data were collected using infrared light-wave sensing technology. Three machine learning algorithms, decision tree, random forest and XGBoost, were applied to detect breathing anomalies and faulty data. Model performances were evaluated through cross-validation, assessing classification accuracy, precision and recall scores. The random forest model achieved the highest classification accuracy of 96.75% with data collected at a 0.5m distance. In general, ensemble models like random forest and XGBoost performed better than a single model in classifying the data collected at multiple distances from the light-wave sensing setup. | 翻訳日:2023-11-02 18:35:40 公開日:2023-10-31 |
# 一定メモリによるImageNet-1Kへのデータセット蒸留のスケールアップ Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory ( http://arxiv.org/abs/2211.10586v4 ) ライセンス: Link先を確認 | Justin Cui, Ruochen Wang, Si Si, Cho-Jui Hsieh | (参考訳) データセット蒸留(Dataset Distillation)は、大規模なデータセットをはるかに小さく、非常に情報に富んだ合成データに蒸留し、トレーニングを加速し、ストレージを削減することを目的とした、新たな分野である。
様々なデータセット蒸留法のうち、軌道整合式法(mtt)はcifar-10/100など多くのタスクでsota性能を達成している。
しかし、SGDのステップで最適化をアンロールする際のメモリ消費のために、MTTはImageNet-1Kのような大規模データセットにスケールできない。
このSOTA法を ImageNet-1K に拡張して,CIFAR の ImageNet-1K への転送に有効か?
これらの疑問に対処するために,我々はまず,メモリフットプリントの約6倍の削減で,MTTをImageNet-1Kにシームレスにスケールできるような,不規則な勾配を一定メモリの複雑さで正確に計算する手順を提案する。
さらに,mttが多数のクラスでデータセットを処理することが困難であることを発見し,その収束を大幅に改善する新しいソフトラベル割り当てを提案する。
単一のgpu上でimagenet-1k上で最大50 ipc (image per class)までスケールアップできる(以前のすべてのメソッドはimagenet-1kでは2 ipcにしかスケールできない)。
私たちのコードはhttps://github.com/justincui03/teslaで利用可能です。 Dataset Distillation is a newly emerging area that aims to distill large datasets into much smaller and highly informative synthetic ones to accelerate training and reduce storage. Among various dataset distillation methods, trajectory-matching-based methods (MTT) have achieved SOTA performance in many tasks, e.g., on CIFAR-10/100. However, due to exorbitant memory consumption when unrolling optimization through SGD steps, MTT fails to scale to large-scale datasets such as ImageNet-1K. Can we scale this SOTA method to ImageNet-1K and does its effectiveness on CIFAR transfer to ImageNet-1K? To answer these questions, we first propose a procedure to exactly compute the unrolled gradient with constant memory complexity, which allows us to scale MTT to ImageNet-1K seamlessly with ~6x reduction in memory footprint. We further discover that it is challenging for MTT to handle datasets with a large number of classes, and propose a novel soft label assignment that drastically improves its convergence. The resulting algorithm sets new SOTA on ImageNet-1K: we can scale up to 50 IPCs (Image Per Class) on ImageNet-1K on a single GPU (all previous methods can only scale to 2 IPCs on ImageNet-1K), leading to the best accuracy (only 5.9% accuracy drop against full dataset training) while utilizing only 4.2% of the number of data points - an 18.2% absolute gain over prior SOTA. Our code is available at https://github.com/justincui03/tesla | 翻訳日:2023-11-02 18:33:22 公開日:2023-10-31 |
# リニアセグメンテーションイオントラップ量子コンピュータにおけるシャットリングシーケンスの自動生成 Automated Generation of Shuttling Sequences for a Linear Segmented Ion Trap Quantum Computer ( http://arxiv.org/abs/2208.04881v2 ) ライセンス: Link先を確認 | Jonathan Durandau and Janis Wagner and Fr\'ed\'eric Mailhot and Charles-Antoine Brunet and Ferdinand Schmidt-Kaler and Ulrich Poschinger and Yves B\'erub\'e-Lauzi\`ere | (参考訳) 閉じ込められたイオン量子コンピュータプラットフォームをスケールアップするための有望なアプローチは、複数の閉じ込められたイオン量子ビットセット(イオン結晶)をセグメント化されたマイクロチップトラップに格納し、イオンの物理的移動(シャットリング)を介してそれらを相互接続することである。
量子回路を適度な複雑さで実現するには、適切な量子ビット割り当てとシャットリングスケジュールの設計が自動化を必要とする。
ここでは、これらのタスクを正確に扱うアルゴリズムを記述し、テストする。
本稿では,与えられたトラップ構造によって課される制約に従って,スケジュールのシャットリングを完全自動生成するアルゴリズムについて述べる。
さらに、初期量子ビット割り当てのための異なる手法を導入し、これをランダム回路(最大20量子ビット)と量子フーリエ変換様回路で比較し、最大40量子ビットのトッフォリゲートを一般化した。
固定構造を含む量子回路では、高度な割当てアルゴリズムにより、シャットリングのオーバーヘッドを低減することができる。 A promising approach for scaling-up trapped-ion quantum computer platforms is by storing multiple trapped-ion qubit sets ('ion crystals') in segmented microchip traps and to interconnect these via physical movement of the ions ('shuttling'). Already for realizing quantum circuits with moderate complexity, the design of suitable qubit assignments and shuttling schedules require automation. Here, we describe and test algorithms which address exactly these tasks. We describe an algorithm for fully automated generation of shuttling schedules, complying to constraints imposed by a given trap structure. Furthermore, we introduce different methods for initial qubit assignment and compare these for random circuit (of up to 20 qubits) and quantum Fourier transform-like circuits, and generalized Toffoli gates of up to 40 qubits each. We find that for quantum circuits which contain a fixed structure, advanced assignment algorithms can serve to reduce the shuttling overhead. | 翻訳日:2023-11-02 18:31:03 公開日:2023-10-31 |
# UAVビデオにおけるリアルタイムトラフィック終端検出と追跡 Real-Time Traffic End-of-Queue Detection and Tracking in UAV Video ( http://arxiv.org/abs/2302.01923v2 ) ライセンス: Link先を確認 | Russ Messenger, Md Zobaer Islam, Matthew Whitlock, Erik Spong, Nate Morton, Layne Claggett, Chris Matthews, Jordan Fox, Leland Palmer, Dane C. Johnson, John F. O'Hara, Christopher J. Crick, Jamey D. Jacob, Sabit Ekin | (参考訳) 高速道路の作業ゾーンは、事故を防止するために動的作業ゾーン警告標識を要求する自動車の過剰な蓄積の影響を受けやすい。
作業ゾーンの標識は、通常急速に変化する車両の終着点の位置に従って置かれる。
無人航空機(UAV)が捉えた映像中の移動物体の検出は、これまで広く研究されており、交通監視を含む幅広いアプリケーションで利用されている。
固定された交通カメラとは異なり、UAVはワークゾーンの交通をリアルタイムで監視し、よりコスト効率の良い方法で監視することができる。
本研究では,UAVが捉えた高速道路作業区域のリアルタイム映像を処理し,交通の終端(EOQ)を検出するための概念実証手法を提案する。
EOQは、バックグラウンドサブトラクションとブロブ検出方法を含む画像処理によってビデオ中に検出される。
車両のEOQのダイナミックなローカライゼーションにより、運転者の作業ゾーン警告標識のより高速かつより正確な移動が可能となり、作業ゾーン死亡率の低減が図られる。
この方法は、特定のイベント、交通渋滞、建設、事故によって車両が急速に蓄積している他の道路や交差点のドライバーにeoqを検知し、通知することができる。 Highway work zones are susceptible to undue accumulation of motorized vehicles which calls for dynamic work zone warning signs to prevent accidents. The work zone signs are placed according to the location of the end-of-queue of vehicles which usually changes rapidly. The detection of moving objects in video captured by Unmanned Aerial Vehicles (UAV) has been extensively researched so far, and is used in a wide array of applications including traffic monitoring. Unlike the fixed traffic cameras, UAVs can be used to monitor the traffic at work zones in real-time and also in a more cost-effective way. This study presents a method as a proof of concept for detecting End-of-Queue (EOQ) of traffic by processing the real-time video footage of a highway work zone captured by UAV. EOQ is detected in the video by image processing which includes background subtraction and blob detection methods. This dynamic localization of EOQ of vehicles will enable faster and more accurate relocation of work zone warning signs for drivers and thus will reduce work zone fatalities. The method can be applied to detect EOQ of vehicles and notify drivers in any other roads or intersections too where vehicles are rapidly accumulating due to special events, traffic jams, construction, or accidents. | 翻訳日:2023-11-02 18:21:40 公開日:2023-10-31 |
# 位相的絡み合いエントロピー上の普遍的下界 Universal lower bound on topological entanglement entropy ( http://arxiv.org/abs/2302.00689v2 ) ライセンス: Link先を確認 | Isaac H. Kim, Michael Levin, Ting-Chun Lin, Daniel Ranard, Bowen Shi | (参考訳) 二次元ギャップ基底状態のエンタングルメントエントロピーは、位相エンタングルメントエントロピー(TEE)と呼ばれる一定の補正項を持つ領域法則を満たすことが期待されている。
多くのモデルにおいて、TEEは基礎となる位相位相を特徴づける普遍的な値を取る。
しかし、TEEは真に普遍的ではなく、常に同じ位相にある定数深度回路によって関係する2つの状態でも異なることができる。
TEEとエノン理論によって予測される値との差は、しばしばスプリアストポロジ的絡み合いエントロピーと呼ばれる。
この散発的な寄与は常に非負であることを示し、アノン理論によって予測される値は普遍的な下界を与える。
この観測は、定数深さ量子回路の下で不変なteeの定義も導く。 Entanglement entropies of two-dimensional gapped ground states are expected to satisfy an area law, with a constant correction term known as the topological entanglement entropy (TEE). In many models, the TEE takes a universal value that characterizes the underlying topological phase. However, the TEE is not truly universal: it can differ even for two states related by constant-depth circuits, which are necessarily in the same phase. The difference between the TEE and the value predicted by the anyon theory is often called the spurious topological entanglement entropy. We show that this spurious contribution is always nonnegative, thus the value predicted by the anyon theory provides a universal lower bound. This observation also leads to a definition of TEE that is invariant under constant-depth quantum circuits. | 翻訳日:2023-11-02 18:21:05 公開日:2023-10-31 |
# ミニバッチ最適輸送によるフローベース生成モデルの改良と一般化 Improving and generalizing flow-based generative models with minibatch optimal transport ( http://arxiv.org/abs/2302.00482v3 ) ライセンス: Link先を確認 | Alexander Tong, Nikolay Malkin, Guillaume Huguet, Yanlei Zhang, Jarrid Rector-Brooks, Kilian Fatras, Guy Wolf, Yoshua Bengio | (参考訳) 連続正規化フロー(cnfs)は魅力的な生成的モデリング手法であるが、シミュレーションに基づく最大確率トレーニングの限界によって回避されている。
本稿では,CNFのシミュレーション不要な学習目標であるCFM(Generalized Conditional Flow Match)技術を紹介する。
cfmは拡散モデルの確率的流れを訓練するために使われるような安定した回帰目標を持っているが、決定論的フローモデルの効率的な推論を享受している。
拡散モデルとそれ以前のCNFトレーニングアルゴリズムの両方とは対照的に、CFMはソース分布をガウス的や密度評価を必要としない。
我々の目的の1つの変種は最適輸送CFM (OT-CFM) であり、これは訓練に安定であり、より高速な推論をもたらすより単純なフローを生成する。
さらに、OT-CFMはシミュレーションのない方法で動的OTを計算する最初の方法である。
CFMを用いたCNFのトレーニングは、単一セルダイナミクスの推測、教師なし画像翻訳、Schr\"odinger Bridge推論など、さまざまな条件および非条件生成タスクの結果を改善する。 Continuous normalizing flows (CNFs) are an attractive generative modeling technique, but they have been held back by limitations in their simulation-based maximum likelihood training. We introduce the generalized conditional flow matching (CFM) technique, a family of simulation-free training objectives for CNFs. CFM features a stable regression objective like that used to train the stochastic flow in diffusion models but enjoys the efficient inference of deterministic flow models. In contrast to both diffusion models and prior CNF training algorithms, CFM does not require the source distribution to be Gaussian or require evaluation of its density. A variant of our objective is optimal transport CFM (OT-CFM), which creates simpler flows that are more stable to train and lead to faster inference, as evaluated in our experiments. Furthermore, OT-CFM is the first method to compute dynamic OT in a simulation-free way. Training CNFs with CFM improves results on a variety of conditional and unconditional generation tasks, such as inferring single cell dynamics, unsupervised image translation, and Schr\"odinger bridge inference. | 翻訳日:2023-11-02 18:20:53 公開日:2023-10-31 |
# lextreme: 法的ドメインのためのマルチランゲージおよびマルチタスクベンチマーク LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain ( http://arxiv.org/abs/2301.13126v2 ) ライセンス: Link先を確認 | Joel Niklaus, Veton Matoshi, Pooja Rani, Andrea Galassi, Matthias St\"urmer, Ilias Chalkidis | (参考訳) 近年, トランスアーキテクチャの周辺における驚くべき進歩により, NLP分野は飛躍的な成長を遂げている。
進捗を測定するには、十分にキュレーションされ、挑戦的なベンチマークが不可欠である。
しかし、ほとんどのベンチマークは英語のみであり、法律上のNLPでは、特にマルチリンガルベンチマークはまだ利用できない。
さらに、多くのベンチマークは飽和しており、最高のモデルは最高の人間よりも明らかに優れており、ほぼ完璧なスコアに達している。
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。
公平な比較のために,データセットに基づくスコアと言語に基づくスコアの2つを提案する。
ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。
これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
研究者や実践者が簡単に使えるように、モデルを評価するのに必要なすべてのコードと、すべての実行で公開のWeights and Biasesプロジェクトとともに、ハグフェイスでLEXTREMEをリリースします。 Lately, propelled by the phenomenal advances around the transformer architecture, the legal NLP field has enjoyed spectacular growth. To measure progress, well curated and challenging benchmarks are crucial. However, most benchmarks are English only and in legal NLP specifically there is no multilingual benchmark available yet. Additionally, many benchmarks are saturated, with the best models clearly outperforming the best humans and achieving near perfect scores. We survey the legal NLP literature and select 11 datasets covering 24 languages, creating LEXTREME. To provide a fair comparison, we propose two aggregate scores, one based on the datasets and one on the languages. The best baseline (XLM-R large) achieves both a dataset aggregate score a language aggregate score of 61.3. This indicates that LEXTREME is still very challenging and leaves ample room for improvement. To make it easy for researchers and practitioners to use, we release LEXTREME on huggingface together with all the code required to evaluate models and a public Weights and Biases project with all the runs. | 翻訳日:2023-11-02 18:20:00 公開日:2023-10-31 |
# 付加雑音モデルにおける因果順序を求めるスケール不変なソーティング基準 A Scale-Invariant Sorting Criterion to Find a Causal Order in Additive Noise Models ( http://arxiv.org/abs/2303.18211v2 ) ライセンス: Link先を確認 | Alexander G. Reisach, Myriam Tami, Christof Seiler, Antoine Chambaz, Sebastian Weichwald | (参考訳) 付加ノイズモデル(anms)は、観測データから因果発見を行う共通のモデルクラスであり、因果発見ベンチマークのための合成データを生成するためにしばしば使用される。
ANMを指定するには、明示的な仮定で固定されていないパラメータを含むすべてのパラメータを選択する必要がある。
Reisach et al. (2021) は、分散の増加による変数のソートはしばしば因果次数に近い順序を与え、このアライメントを定量化するためにvar-sortabilityを導入することを示した。
ばらつきの増加は非現実的でスケール依存であるため、ANMデータはベンチマークで標準化されることが多い。
決定係数 $r^2$ によってキャプチャされる変数の分散の説明可能な割合は因果順序に沿って増加する傾向がある。
その結果、高い$r^2$-sortabilityとなり、すなわち$r^2$を増加させることで変数のソートが因果順序に近い順序を与える。
本研究では,r^2$-sortnregressと呼ばれる効率的なベースラインアルゴリズムを提案する。
十分高いエッジ重みが因果連鎖に沿ったノイズ寄与を相対的に減少させ、決定論的関係が増大し、R^2$が高くなることを解析的に示す。
我々は,異なるシミュレーションパラメータに対して$r^2$-sortabilityを特徴付け,共通設定で高い値を求める。
その結果,多くのANMサンプリング方式において因果発見と暗黙的なデータ生成プロセスの仮定として高いR^2$-sortabilityが示された。
実世界データでの流行は明らかではないため、明示されるべきである。
因果探索ベンチマークには、$R^2$-sortability、$R^2$-SortnRegressアルゴリズム、およびライブラリーのCausalDisco at https://causaldisco.github.io/CausalDisco/におけるANMシミュレーション手順を実装します。 Additive Noise Models (ANMs) are a common model class for causal discovery from observational data and are often used to generate synthetic data for causal discovery benchmarking. Specifying an ANM requires choosing all parameters, including those not fixed by explicit assumptions. Reisach et al. (2021) show that sorting variables by increasing variance often yields an ordering close to a causal order and introduce var-sortability to quantify this alignment. Since increasing variances may be unrealistic and are scale-dependent, ANM data are often standardized in benchmarks. We show that synthetic ANM data are characterized by another pattern that is scale-invariant: the explainable fraction of a variable's variance, as captured by the coefficient of determination $R^2$, tends to increase along the causal order. The result is high $R^2$-sortability, meaning that sorting the variables by increasing $R^2$ yields an ordering close to a causal order. We propose an efficient baseline algorithm termed $R^2$-SortnRegress that exploits high $R^2$-sortability and that can match and exceed the performance of established causal discovery algorithms. We show analytically that sufficiently high edge weights lead to a relative decrease of the noise contributions along causal chains, resulting in increasingly deterministic relationships and high $R^2$. We characterize $R^2$-sortability for different simulation parameters and find high values in common settings. Our findings reveal high $R^2$-sortability as an assumption about the data generating process relevant to causal discovery and implicit in many ANM sampling schemes. It should be made explicit, as its prevalence in real-world data is unknown. For causal discovery benchmarking, we implement $R^2$-sortability, the $R^2$-SortnRegress algorithm, and ANM simulation procedures in our library CausalDisco at https://causaldisco.github.io/CausalDisco/. | 翻訳日:2023-11-02 18:10:07 公開日:2023-10-31 |
# 自律運転のための視覚知覚システム Visual Perception System for Autonomous Driving ( http://arxiv.org/abs/2303.02257v2 ) ライセンス: Link先を確認 | Qi Zhang, Siyuan Gou, Wenbin Li | (参考訳) 最近の自動運転への関心の高まりは、安全性、効率性、利便性を高めるために急速に発展している能力に起因する。
自律運転技術の重要な側面は、その知覚システムであり、コアアルゴリズムは、視覚ベースの同時局在マッピング(SLAM)、オブジェクト検出、追跡アルゴリズムを含む、より正確なアルゴリズムを自律運転に適用している。
本研究は,自律運転者の位置認識とマッピング要件に対処しつつ,移動物体の軌跡追跡と予測を統合して衝突を防止する,自律運転のための視覚ベースの知覚システムを提案する。
このシステムは歩行者の動きをモニターし、その動きを予測し、同時に環境をマップする。
この統合アプローチは、シーン内の他の移動物体のカメラのローカライズと追跡を解決し、車両のナビゲーションを容易にするためにスパースマップを生成する。
このアプローチの性能、効率、レジリエンスは、シミュレーションと実世界の両方のデータセットの包括的な評価によって実証される。 The recent surge in interest in autonomous driving stems from its rapidly developing capacity to enhance safety, efficiency, and convenience. A pivotal aspect of autonomous driving technology is its perceptual systems, where core algorithms have yielded more precise algorithms applicable to autonomous driving, including vision-based Simultaneous Localization and Mapping (SLAMs), object detection, and tracking algorithms. This work introduces a visual-based perception system for autonomous driving that integrates trajectory tracking and prediction of moving objects to prevent collisions, while addressing autonomous driving's localization and mapping requirements. The system leverages motion cues from pedestrians to monitor and forecast their movements and simultaneously maps the environment. This integrated approach resolves camera localization and the tracking of other moving objects in the scene, subsequently generating a sparse map to facilitate vehicle navigation. The performance, efficiency, and resilience of this approach are substantiated through comprehensive evaluations of both simulated and real-world datasets. | 翻訳日:2023-11-02 18:09:10 公開日:2023-10-31 |
# 視覚画像とプログラム合成を用いた抽象的推論コーパス(ARC)のための神経多様性に着想を得た解法 A Neurodiversity-Inspired Solver for the Abstraction \& Reasoning Corpus (ARC) Using Visual Imagery and Program Synthesis ( http://arxiv.org/abs/2302.09425v3 ) ライセンス: Link先を確認 | James Ainooson, Deepayan Sanyal, Joel P. Michelson, Yuan Yang, Maithilee Kunda | (参考訳) 物理的物体に関するコア知識(例えば、その永続性、空間的変換、相互作用)は、人間と非ヒト動物の間の生物学的知性の最も基本的な構成要素の1つである。
特定の領域(例えばビジョン、NLP)におけるAI技術は近年劇的に進歩しているが、現在のAIシステムは、新しいタスクを解くためにコア知識を柔軟に適用する人間の能力に相容れない。
我々は、コア知識と組み合わせた新しいAIアプローチを提案する。
1)人間の心的イメージ能力に触発されたコア知識の視覚的表現,特にニューロダイバージェント個体の研究で観察される。
2) 木探索に基づくプログラム合成は, コア知識を柔軟に組み合わせて新たな推論戦略を構築する。
我々は,非常に難解な抽象化・推論コーパス (arc) 課題において,システムの性能を実証し,2022年のグローバル・アーカソン・チャレンジにおいて,公開可能なarc項目と4位入賞者による実験結果を共有する。 Core knowledge about physical objects -- e.g., their permanency, spatial transformations, and interactions -- is one of the most fundamental building blocks of biological intelligence across humans and non-human animals. While AI techniques in certain domains (e.g. vision, NLP) have advanced dramatically in recent years, no current AI systems can yet match human abilities in flexibly applying core knowledge to solve novel tasks. We propose a new AI approach to core knowledge that combines 1) visual representations of core knowledge inspired by human mental imagery abilities, especially as observed in studies of neurodivergent individuals; with 2) tree-search-based program synthesis for flexibly combining core knowledge to form new reasoning strategies on the fly. We demonstrate our system's performance on the very difficult Abstraction \& Reasoning Corpus (ARC) challenge, and we share experimental results from publicly available ARC items as well as from our 4th-place finish on the private test set during the 2022 global ARCathon challenge. | 翻訳日:2023-11-02 18:06:59 公開日:2023-10-31 |
# プライス理論とPiecewise-Linear分解を用いた相関器解析フレームワーク A Framework for Analyzing Cross-correlators using Price's Theorem and Piecewise-Linear Decomposition ( http://arxiv.org/abs/2304.09242v2 ) ライセンス: Link先を確認 | Zhili Xiao and Shantanu Chakrabartty | (参考訳) 2つの確率変数間の相互相関や類似性の正確な推定は、信号検出、超次元計算、連想記憶、ニューラルネットワークの中心にある。
クロス相関を推定する様々な方法に関する膨大な文献が存在するが、有限標本を用いてクロス相関を推定する最も良く簡単な方法は何か?
まだ不明です
本稿では, 推定器が真の相互相関に一様収束しているにもかかわらず, 標準経験的アプローチが最適方法ではないことを最初に論じる。
代わりに、より高い信号対雑音比(snr)を持つ相互相関子を構築するのに使用できる単純な非線形関数が多数存在することを示す。
これを実証するために、まずプライスの理論を用いて、ピースワイド線形関数の混合を用いて構築されたクロスコレレータを解析できる一般的な数学的枠組みを提示する。
このフレームワークと高次元埋め込みを用いて、最も有望なクロスコレレータのいくつかは、Huberの損失関数、マージンプロパゲーション(MP)関数、log-sum-exp(LSE)関数に基づいていることを示す。 Precise estimation of cross-correlation or similarity between two random variables lies at the heart of signal detection, hyperdimensional computing, associative memories, and neural networks. Although a vast literature exists on different methods for estimating cross-correlations, the question what is the best and simplest method to estimate cross-correlations using finite samples ? is still unclear. In this paper, we first argue that the standard empirical approach might not be the optimal method even though the estimator exhibits uniform convergence to the true cross-correlation. Instead, we show that there exists a large class of simple non-linear functions that can be used to construct cross-correlators with a higher signal-to-noise ratio (SNR). To demonstrate this, we first present a general mathematical framework using Price's Theorem that allows us to analyze cross-correlators constructed using a mixture of piece-wise linear functions. Using this framework and high-dimensional embedding, we show that some of the most promising cross-correlators are based on Huber's loss functions, margin-propagation (MP) functions, and the log-sum-exp (LSE) functions. | 翻訳日:2023-11-02 17:56:39 公開日:2023-10-31 |
# HDformer:長距離血管信号を利用した糖尿病検出用高次元トランス HDformer: A Higher Dimensional Transformer for Diabetes Detection Utilizing Long Range Vascular Signals ( http://arxiv.org/abs/2303.11340v2 ) ライセンス: Link先を確認 | Ella Lan | (参考訳) 糖尿病は世界的な懸念であり、早期発見は深刻な合併症を防ぐ可能性がある。
糖尿病患者の50%は未診断で、低所得層を悩ませている。
非侵襲的な方法がタイムリーな検出のために現れたが、その限られた精度は臨床応用に制約を与える。
本研究では, 糖尿病の診断にppg(long-range photoplethysmography)を利用する最初のトランスフォーマーであるhigher-dimensional transformer (hdformer)を提案する。
長距離PSGは、既存の研究でよく使われる30秒以下の信号と比較して、信号コンテキスト情報を最大化する。
HDformerの長距離処理の計算効率を高めるために、新しいアテンションモジュールであるTime Square Attention (TSA) が発明され、トークンの容量を10倍以上に削減し、ローカル/グローバルな依存関係を維持した。
TSAは1D入力を2D表現に変換し、隣接するポイントを1つの2Dトークンにグループ化する。
そして動的パッチを生成し、moe(gateed mixed-of-experts)ネットワークに入力し、異なる注意領域で学習を最適化する。
HDformerは標準的なMIMIC-IIIデータセットで最先端の結果(感度98.4、精度97.3、特異度92.8、AUC 0.929)を達成し、既存の研究を上回っている。
さらに,ローコストなウェアラブルをプロトタイプとして,モバイルアプリ経由でクラウド上のHDformerに接続する,エンドツーエンドソリューションを開発した。
このスケーラブルで便利で安価なアプローチは、個人に対する即時検出と継続的な監視を提供する。
糖尿病のスクリーニングや、未熟な地域社会の保護に役立つ。
hdformerの拡張された汎用性により、長距離信号の1次元時系列、特に全ての生体医学波形での効率的な処理と学習が可能になる。 Diabetes mellitus is a global concern, and early detection can prevent serious complications. 50% of people with diabetes live undiagnosed, disproportionately afflicting low-income groups. Non-invasive methods have emerged for timely detection; however, their limited accuracy constrains clinical usage. In this research, we present a novel Higher-Dimensional Transformer (HDformer), the first Transformer-based architecture which utilizes long-range photoplethysmography (PPG) to detect diabetes. The long-range PPG maximizes the signal contextual information when compared to the less-than 30 second signals commonly used in existing research. To increase the computational efficiency of HDformer long-range processing, a new attention module, Time Square Attention (TSA), is invented to reduce the volume of tokens by more than 10x, while retaining the local/global dependencies. TSA converts the 1D inputs into 2D representations, grouping the adjacent points into a single 2D token. It then generates dynamic patches and feeds them into a gated mixture-of-experts (MoE) network, optimizing the learning on different attention areas. HDformer achieves state-of-the-art results (sensitivity 98.4, accuracy 97.3, specificity 92.8, AUC 0.929) on the standard MIMIC-III dataset, surpassing existing research. Furthermore, we develop an end-to-end solution where a low-cost wearable is prototyped to connect with the HDformer in the Cloud via a mobile app. This scalable, convenient, and affordable approach provides instantaneous detection and continuous monitoring for individuals. It aids doctors in easily screening for diabetes and safeguards underprivileged communities. The enhanced versatility of HDformer allows for efficient processing and learning of long-range signals in general one-dimensional time-series sequences, particularly for all biomedical waveforms. | 翻訳日:2023-11-02 17:54:18 公開日:2023-10-31 |
# マルチエージェント強化学習のベンチマークとしての繰り返し岩盤の集団評価 Population-based Evaluation in Repeated Rock-Paper-Scissors as a Benchmark for Multiagent Reinforcement Learning ( http://arxiv.org/abs/2303.03196v2 ) ライセンス: Link先を確認 | Marc Lanctot, John Schultz, Neil Burch, Max Olan Smith, Daniel Hennes, Thomas Anthony, Julien Perolat | (参考訳) 機械学習と敵対的計画の分野の進歩は、チェッカーや古典的なUCIデータセットからGoと外交まで、ベンチマークドメインから大きな恩恵を受けている。
シーケンシャルな意思決定において、エージェント評価は専門家との相互作用がほとんどなく、望ましいレベルのパフォーマンス(例えば、人間のプロ選手を打つなど)を達成することを目的としている。
本稿では,単純なゲームロック,紙,ハサミの繰り返しプレイと,43名のトーナメント出場者によるマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいてエージェントの品質を測定するメトリクスについて述べる。
そして、いくつかのRL、オンライン学習、言語モデルアプローチが優れた反ストラテジーを学習し、うまく一般化できることを示し、最終的にはトップパフォーマンスのボットに敗れ、マルチエージェント学習の研究機会を生み出します。 Progress in fields of machine learning and adversarial planning has benefited significantly from benchmark domains, from checkers and the classic UCI data sets to Go and Diplomacy. In sequential decision-making, agent evaluation has largely been restricted to few interactions against experts, with the aim to reach some desired level of performance (e.g. beating a human professional player). We propose a benchmark for multiagent learning based on repeated play of the simple game Rock, Paper, Scissors along with a population of forty-three tournament entries, some of which are intentionally sub-optimal. We describe metrics to measure the quality of agents based both on average returns and exploitability. We then show that several RL, online learning, and language model approaches can learn good counter-strategies and generalize well, but ultimately lose to the top-performing bots, creating an opportunity for research in multiagent learning. | 翻訳日:2023-11-02 17:53:13 公開日:2023-10-31 |
# オンライン非定型モデルフリー強化学習 Online Nonstochastic Model-Free Reinforcement Learning ( http://arxiv.org/abs/2305.17552v2 ) ライセンス: Link先を確認 | Udaya Ghai, Arushi Gupta, Wenhan Xia, Karan Singh, Elad Hazan | (参考訳) 動的あるいは逆向きな環境向けに設計された頑健なモデルフリー強化学習アルゴリズムについて検討する。
伝統的な国家ベースの政策は、そのような状況下では、非モデル化された障害の存在によって課される課題に対応するのにしばしば苦労する。
さらに、線形状態に基づくポリシーの最適化は効率的な最適化の障害となり、線形力学系のような良質な環境においても非凸目的に繋がる。
モデルベース制御の最近の進歩から着想を得て,外乱信号に着目した新しい手法を提案する。
我々はこれらの信号のいくつかのカテゴリを定義し、擬似障害と呼び、それに基づいて対応するポリシークラスを開発する。
これらのポリシーを最適化するための効率的で実用的なアルゴリズムを提供する。
次に,敵対的障害に直面した強化学習エージェントのオンライン適応の課題について検討する。
提案手法は,任意のブラックボックスモデルフリーアプローチとシームレスに統合し,線形力学を扱う場合の後悔の保証を与える。
これらの後悔は、状態空間次元に依存しないバンディット線形制御の最もよく知られた結果を無条件に改善することを保証する。
本手法を各種標準RLベンチマークで評価し,ロバスト性の向上を実証した。 We investigate robust model-free reinforcement learning algorithms designed for environments that may be dynamic or even adversarial. Traditional state-based policies often struggle to accommodate the challenges imposed by the presence of unmodeled disturbances in such settings. Moreover, optimizing linear state-based policies pose an obstacle for efficient optimization, leading to nonconvex objectives, even in benign environments like linear dynamical systems. Drawing inspiration from recent advancements in model-based control, we introduce a novel class of policies centered on disturbance signals. We define several categories of these signals, which we term pseudo-disturbances, and develop corresponding policy classes based on them. We provide efficient and practical algorithms for optimizing these policies. Next, we examine the task of online adaptation of reinforcement learning agents in the face of adversarial disturbances. Our methods seamlessly integrate with any black-box model-free approach, yielding provable regret guarantees when dealing with linear dynamics. These regret guarantees unconditionally improve the best-known results for bandit linear control in having no dependence on the state-space dimension. We evaluate our method over various standard RL benchmarks and demonstrate improved robustness. | 翻訳日:2023-11-02 17:43:16 公開日:2023-10-31 |
# 回答選択における確率の増大は必ずしも正確性を改善するものではない Increasing Probability Mass on Answer Choices Does Not Always Improve Accuracy ( http://arxiv.org/abs/2305.14596v2 ) ライセンス: Link先を確認 | Sarah Wiegreffe, Matthew Finlayson, Oyvind Tafjord, Peter Clark, Ashish Sabharwal | (参考訳) 事前訓練された言語モデル(LM)が複数選択質問のような差別的なタスクに適用されると、与えられた回答選択に含まれない語彙トークンに確率質量を置く。
複数の曲面に同じ意味を持つ確率質量(バスやバスタブなど)を分散させることは、モデルの性能の過小評価を引き起こすと考えられており、これは「曲面競合」(SFC)仮説と呼ばれる。
これは様々な確率正規化法の導入の動機となった。
しかし、多くの疑問は未解決のままである。
SFCはどのように測定するか?
タスクを削減するための直接的な方法はありますか?
我々は,その影響を初めて定量化し,限定することができるsfcの数学的形式化を提案する。
我々は、それを減らす簡単な方法、すなわち、与えられた解選択の確率質量を増大させる方法を特定する。
a) 指示書にそれらを含むこと
b) ひとつの例でも、コンテキスト内学習を使うこと。
本手法は,ほとんどの事例においてSFCの影響を排除している。
3つの多様なデータセットと6つのlsmに関する実験で、さらにいくつかの驚くべき発見が得られました。
例えば、SFCの正規化とプロンプトの手法は、一部のLMのタスク性能に非効率または有害である。
複数選択タスクのためのLMを効果的に促すための実践的な洞察で締めくくった。 When pretrained language models (LMs) are applied to discriminative tasks such as multiple-choice questions, they place probability mass on vocabulary tokens that aren't among the given answer choices. Spreading probability mass across multiple surface forms with identical meaning (such as "bath" and "bathtub") is thought to cause an underestimation of a model's true performance, referred to as the "surface form competition" (SFC) hypothesis. This has motivated the introduction of various probability normalization methods. However, many core questions remain unanswered. How do we measure SFC? Are there direct ways of reducing it, and does doing so improve task performance? We propose a mathematical formalism for SFC which allows us to quantify and bound its impact for the first time. We identify a simple method for reducing it -- namely, increasing probability mass on the given answer choices by a) including them in the prompt and b) using in-context learning with even just one example. We show this method eliminates the impact of SFC in the majority of instances. Our experiments on three diverse datasets and six LMs reveal several additional surprising findings. For example, both normalization and prompting methods for reducing SFC can be ineffective or even detrimental to task performance for some LMs. We conclude with practical insights for effectively prompting LMs for multiple-choice tasks. | 翻訳日:2023-11-02 17:42:35 公開日:2023-10-31 |
# 海面の高さと速度場に基づくハイブリッド3次元渦検出技術 A Hybrid 3D Eddy Detection Technique Based on Sea Surface Height and Velocity Field ( http://arxiv.org/abs/2305.08229v3 ) ライセンス: Link先を確認 | Weiping Hua, Karen Bemis, Dujuan Kang, Sedat Ozer, Deborah Silver | (参考訳) 渦検出は海洋科学者にとって海洋循環を理解し解析する重要な課題である。
本稿では,海面の高さ (ssh) と速度場と渦の挙動を定義する幾何学的基準を組み合わせた渦検出手法を提案する。
海洋学者がエディーズの中心に求めるSSHミニマとマキシマの探索を行った。
幾何的基準は、各渦中心を囲む円形の経路に沿って速度成分を追従することにより、ネット回転や対称性などの期待される速度場特性の検証に使用される。
プログレッシブな探索は、各エディの3D領域に影響を及ぼす。
データセットから各渦構造を分離することで、水平速度、垂直速度、温度、塩分量を用いて内部渦構造の可視化が容易になる。
大久保-ワイス渦性閾値(ow)、標準巻線角、およびこの新しいssh-速度ハイブリッド法による渦検出法を赤海データセットに適用した結果、検出結果は方法、閾値、基準の選定に大きく依存していることが示唆された。
この新しいssh-velocityハイブリッド検出手法は, 回転特性が検証された渦構造を提供すること, 物性の内部構造の3次元可視化, 流線を計算せずに高速に渦足跡を推定できる。
本手法は, 内部構造の可視化と全体移動の追跡を併用し, 栄養分布と海洋循環の相互作用を理解するための輸送機構の研究を支援する。
本手法は3つの異なるデータセットに適用し,その一般性を示す。 Eddy detection is a critical task for ocean scientists to understand and analyze ocean circulation. In this paper, we introduce a hybrid eddy detection approach that combines sea surface height (SSH) and velocity fields with geometric criteria defining eddy behavior. Our approach searches for SSH minima and maxima, which oceanographers expect to find at the center of eddies. Geometric criteria are used to verify expected velocity field properties, such as net rotation and symmetry, by tracing velocity components along a circular path surrounding each eddy center. Progressive searches outward and into deeper layers yield each eddy's 3D region of influence. Isolation of each eddy structure from the dataset, using it's cylindrical footprint, facilitates visualization of internal eddy structures using horizontal velocity, vertical velocity, temperature and salinity. A quantitative comparison of Okubo-Weiss vorticity (OW) thresholding, the standard winding angle, and this new SSH-velocity hybrid methods of eddy detection as applied to the Red Sea dataset suggests that detection results are highly dependent on the choices of method, thresholds, and criteria. Our new SSH-velocity hybrid detection approach has the advantages of providing eddy structures with verified rotation properties, 3D visualization of the internal structure of physical properties, and rapid efficient estimations of eddy footprints without calculating streamlines. Our approach combines visualization of internal structure and tracking overall movement to support the study of the transport mechanisms key to understanding the interaction of nutrient distribution and ocean circulation. Our method is applied to three different datasets to showcase the generality of its application. | 翻訳日:2023-11-02 17:41:06 公開日:2023-10-31 |
# 人-ロボットインタラクションシナリオの生成を支援するサロゲート Surrogate Assisted Generation of Human-Robot Interaction Scenarios ( http://arxiv.org/abs/2304.13787v4 ) ライセンス: Link先を確認 | Varun Bhatt, Heramb Nemlekar, Matthew C. Fontaine, Bryon Tjanaka, Hejia Zhang, Ya-Chuan Hsu, Stefanos Nikolaidis | (参考訳) HRI(Human-robot Interaction)システムが進歩するにつれて、異なる環境と異なるユーザでこれらのシステムの強みや制限を評価し理解することが困難になる。
この目的のために、従来の手法は、共有制御遠隔操作タスクにおけるシステム障害を明らかにする様々なシナリオをアルゴリズムで生成している。
しかし,これらの手法では,ロボットのポリシーや人間行動のシミュレーションによって生成シナリオを直接評価する必要がある。
これらの評価の計算コストは、より複雑な領域での適用性を制限する。
そこで本研究では,人間とロボットの行動を予測するサロゲートモデルを用いたシナリオ生成システムを提案する。
共有制御遠隔操作ドメインとより複雑な共有ワークスペース協調タスクにおいて,surrogate assisted scenario generation が課題シナリオの多様なデータセットを効率的に合成することを示す。
これらの失敗は実世界の相互作用において再現可能であることを示す。 As human-robot interaction (HRI) systems advance, so does the difficulty of evaluating and understanding the strengths and limitations of these systems in different environments and with different users. To this end, previous methods have algorithmically generated diverse scenarios that reveal system failures in a shared control teleoperation task. However, these methods require directly evaluating generated scenarios by simulating robot policies and human actions. The computational cost of these evaluations limits their applicability in more complex domains. Thus, we propose augmenting scenario generation systems with surrogate models that predict both human and robot behaviors. In the shared control teleoperation domain and a more complex shared workspace collaboration task, we show that surrogate assisted scenario generation efficiently synthesizes diverse datasets of challenging scenarios. We demonstrate that these failures are reproducible in real-world interactions. | 翻訳日:2023-11-02 17:39:54 公開日:2023-10-31 |
# 核処理効果の効率的な二重ロバスト試験 An Efficient Doubly-Robust Test for the Kernel Treatment Effect ( http://arxiv.org/abs/2304.13237v2 ) ライセンス: Link先を確認 | Diego Martinez-Taboada, Aaditya Ramdas, Edward H. Kennedy | (参考訳) 平均的な治療効果は、偽物に対する期待の差であり、おそらく因果的推論と二元的治療において最も一般的な標的効果である。
しかし、治療は平均を超える効果があり、例えば、分散を減少または増大させる。
本稿では,治療の分布的効果に関する新しいカーネルベーステストを提案する。
私たちの知る限りでは、最初のカーネルベースの二重ロバストテストであり、有効なtype-iエラーである。
さらに,提案アルゴリズムは計算効率が高く,置換法の使用を回避できる。 The average treatment effect, which is the difference in expectation of the counterfactuals, is probably the most popular target effect in causal inference with binary treatments. However, treatments may have effects beyond the mean, for instance decreasing or increasing the variance. We propose a new kernel-based test for distributional effects of the treatment. It is, to the best of our knowledge, the first kernel-based, doubly-robust test with provably valid type-I error. Furthermore, our proposed algorithm is computationally efficient, avoiding the use of permutations. | 翻訳日:2023-11-02 17:39:39 公開日:2023-10-31 |
# データプライバシアルゴリズムのベンチマークのための分散コミュニティデータ Diverse Community Data for Benchmarking Data Privacy Algorithms ( http://arxiv.org/abs/2306.13216v3 ) ライセンス: Link先を確認 | Aniruddha Sen, Christine Task, Dhruv Kapur, Gary Howarth, Karan Bhagat | (参考訳) コラボレーティブ・リサーチ・サイクル(collaborative research cycle、crc)は、国立標準技術研究所(nist)のベンチマークプログラムであり、表データ識別技術の理解を強化することを目的としている。
識別アルゴリズムは、他のデータ分析や機械学習アプリケーションに影響を及ぼすのと同じバイアスやプライバシの問題に弱いため、下流のアプリケーションを汚染することでこれらの問題を増幅することもできる。
本論文はCRCの4つのコントリビューションを要約する: 多様な個体群と公平な識別の課題との関係に関する理論的研究、多様な個体群と課題の特徴に焦点を当てた公開ベンチマークデータ、同定されたデータセット評価の包括的なオープンソーススイート、および幅広い技術から450以上の特定データサンプルをアーカイブする。
評価結果の初期セットは,本分野におけるこれらのツールの価値を示すものである。 The Collaborative Research Cycle (CRC) is a National Institute of Standards and Technology (NIST) benchmarking program intended to strengthen understanding of tabular data deidentification technologies. Deidentification algorithms are vulnerable to the same bias and privacy issues that impact other data analytics and machine learning applications, and can even amplify those issues by contaminating downstream applications. This paper summarizes four CRC contributions: theoretical work on the relationship between diverse populations and challenges for equitable deidentification; public benchmark data focused on diverse populations and challenging features; a comprehensive open source suite of evaluation metrology for deidentified datasets; and an archive of more than 450 deidentified data samples from a broad range of techniques. The initial set of evaluation results demonstrate the value of these tools for investigations in this field. | 翻訳日:2023-11-02 17:31:37 公開日:2023-10-31 |
# STHG:空間時間不均一グラフ学習による高度なオーディオ・ビジュアルダイアリゼーション STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization ( http://arxiv.org/abs/2306.10608v4 ) ライセンス: Link先を確認 | Kyle Min | (参考訳) 本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。
キーとなるイノベーションは、単一の一元的なグラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。
カメラ装着者のみに独立したコンポーネントを必要とする従来のアプローチとは異なり、STHGはカメラ装着者を含む全ての人の音声活動を共同で検出することができる。
最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。
Ego4D Challenge 2023で1位を獲得した。
また,本課題では,sthgによるダイアリゼーション音声セグメントに市販音声認識システムを適用することで,音声認識課題における競合性能が向上することを示す。 This report introduces our novel method named STHG for the Audio-Visual Diarization task of the Ego4D Challenge 2023. Our key innovation is that we model all the speakers in a video using a single, unified heterogeneous graph learning framework. Unlike previous approaches that require a separate component solely for the camera wearer, STHG can jointly detect the speech activities of all people including the camera wearer. Our final method obtains 61.1% DER on the test set of Ego4D, which significantly outperforms all the baselines as well as last year's winner. Our submission achieved 1st place in the Ego4D Challenge 2023. We additionally demonstrate that applying the off-the-shelf speech recognition system to the diarized speech segments by STHG produces a competitive performance on the Speech Transcription task of this challenge. | 翻訳日:2023-11-02 17:31:20 公開日:2023-10-31 |
# AI生成テキストのロバスト検出のための固有次元推定 Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts ( http://arxiv.org/abs/2306.04723v2 ) ライセンス: Link先を確認 | Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko and Evgeny Burnaev | (参考訳) AIが生成するコンテンツの品質が急速に向上したことで、人間とAIが生成するテキストの区別が難しくなる。
したがって、異なるテキスト領域にまたがって不変であり、人間の文字の習熟度が異なる人間のテキストの性質を、どんな言語でも容易に計算でき、生成モデルやサンプリング手法に関わらず、自然およびAI生成したテキストを堅牢に分離することがますます重要になっている。
本研究では, 与えられたテキストサンプルの埋め込み集合の基礎となる多様体の固有次元を, 人間が書いたテキストに対するそのような不変性を提案する。
自然言語における流用テキストの平均固有次元は、いくつかのアルファベットベースの言語で9ドル、中国語で7ドル前後と、各言語でAIが生成するテキストの平均固有次元は$$\approx 1.5$で、人間の生成とAIが生成する分布を統計的に分離している。
この特性により、スコアベースの人工テキスト検出器を構築することができる。
提案する検出器の精度は,テキスト領域,ジェネレータモデル,ヒューマンライター熟練度レベルにおいて安定であり,モデル非依存およびクロスドメインシナリオにおいてsoma検出器を有意差で上回っている。 Rapidly increasing quality of AI-generated content makes it difficult to distinguish between human and AI-generated texts, which may lead to undesirable consequences for society. Therefore, it becomes increasingly important to study the properties of human texts that are invariant over different text domains and varying proficiency of human writers, can be easily calculated for any language, and can robustly separate natural and AI-generated texts regardless of the generation model and sampling method. In this work, we propose such an invariant for human-written texts, namely the intrinsic dimensionality of the manifold underlying the set of embeddings for a given text sample. We show that the average intrinsic dimensionality of fluent texts in a natural language is hovering around the value $9$ for several alphabet-based languages and around $7$ for Chinese, while the average intrinsic dimensionality of AI-generated texts for each language is $\approx 1.5$ lower, with a clear statistical separation between human-generated and AI-generated distributions. This property allows us to build a score-based artificial text detector. The proposed detector's accuracy is stable over text domains, generator models, and human writer proficiency levels, outperforming SOTA detectors in model-agnostic and cross-domain scenarios by a significant margin. | 翻訳日:2023-11-02 17:28:25 公開日:2023-10-31 |
# レジリエントな制約付き学習 Resilient Constrained Learning ( http://arxiv.org/abs/2306.02426v3 ) ライセンス: Link先を確認 | Ignacio Hounie, Alejandro Ribeiro, Luiz F. O. Chamon | (参考訳) 機械学習ソリューションをデプロイする際には、公正性、堅牢性、安全性など、正確性を超えた複数の要件を満たす必要がある。
これらの要件は、トレーニング中にペナルティを使用して、あるいはラグランジュ双対性に基づく制約付き最適化メソッドを使用して、暗黙のうちに課される。
いずれにせよ、要求の特定は妥協の存在とデータに関する事前知識の制限によって妨げられる。
さらに、パフォーマンスへの影響は、実際に学習問題を解決することでのみ評価されることが多い。
本稿では,学習課題を同時に解決しながら要求に適応する制約付き学習手法を提案する。
そのために、リラックスから得られるパフォーマンスゲインと、その緩和のユーザ定義コストとのバランスをとることで、そのタスクにどの程度影響するかを考えることによって、学習制約を緩和する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
このバランスが達成できる条件を示し,それを計算するための実用的なアルゴリズムを導入し,近似と一般化の保証を導出する。
本稿では,多重ポテンシャル不変性を含む画像分類課題とヘテロジニアス連関学習におけるレジリエント学習手法の利点を示す。 When deploying machine learning solutions, they must satisfy multiple requirements beyond accuracy, such as fairness, robustness, or safety. These requirements are imposed during training either implicitly, using penalties, or explicitly, using constrained optimization methods based on Lagrangian duality. Either way, specifying requirements is hindered by the presence of compromises and limited prior knowledge about the data. Furthermore, their impact on performance can often only be evaluated by actually solving the learning problem. This paper presents a constrained learning approach that adapts the requirements while simultaneously solving the learning task. To do so, it relaxes the learning constraints in a way that contemplates how much they affect the task at hand by balancing the performance gains obtained from the relaxation against a user-defined cost of that relaxation. We call this approach resilient constrained learning after the term used to describe ecological systems that adapt to disruptions by modifying their operation. We show conditions under which this balance can be achieved and introduce a practical algorithm to compute it, for which we derive approximation and generalization guarantees. We showcase the advantages of this resilient learning method in image classification tasks involving multiple potential invariances and in heterogeneous federated learning. | 翻訳日:2023-11-02 17:27:38 公開日:2023-10-31 |
# グラフアウトオブディストリビューション一般化のためのラベルと環境因果独立の連成学習 Joint Learning of Label and Environment Causal Independence for Graph Out-of-Distribution Generalization ( http://arxiv.org/abs/2306.01103v3 ) ライセンス: Link先を確認 | Shurui Gui, Meng Liu, Xiner Li, Youzhi Luo, Shuiwang Ji | (参考訳) 本稿では,分散グラフ(OOD)の一般化問題に取り組む。
既存のグラフOODアルゴリズムは、制限された仮定に依存するか、あるいはトレーニングデータの環境情報を利用することができない。
本稿では,ラベルと環境の因果独立性(leci)を同時に組み込んでラベル情報と環境情報を完全に活用し,因果と不変部分グラフの識別において先行手法が直面する課題を解決することを提案する。
さらに,これら2つの特性を理論的保証付き因果部分グラフ発見のために共同で最適化するための対角訓練戦略を開発した。
大規模な実験と分析により、LECIは合成データセットと実世界のデータセットの両方において先行手法を著しく上回り、LECIをグラフOOD一般化のための実用的で効果的なソリューションとして確立した。
私たちのコードはhttps://github.com/divelab/leciで利用可能です。 We tackle the problem of graph out-of-distribution (OOD) generalization. Existing graph OOD algorithms either rely on restricted assumptions or fail to exploit environment information in training data. In this work, we propose to simultaneously incorporate label and environment causal independence (LECI) to fully make use of label and environment information, thereby addressing the challenges faced by prior methods on identifying causal and invariant subgraphs. We further develop an adversarial training strategy to jointly optimize these two properties for causal subgraph discovery with theoretical guarantees. Extensive experiments and analysis show that LECI significantly outperforms prior methods on both synthetic and real-world datasets, establishing LECI as a practical and effective solution for graph OOD generalization. Our code is available at https://github.com/divelab/LECI. | 翻訳日:2023-11-02 17:27:16 公開日:2023-10-31 |
# 自律走行における運動予測の効率的なベースライン Efficient Baselines for Motion Prediction in Autonomous Driving ( http://arxiv.org/abs/2309.03387v2 ) ライセンス: Link先を確認 | Carlos G\'omez-Hu\'elamo, Marcos V. Conde, Rafael Barea, Manuel Oca\~na, Luis M. Bergasa | (参考訳) 複数の周辺エージェントの動作予測(MP)は、単純なロボットから自律走行スタック(ADS)まで、任意の複雑な環境において重要なタスクである。
現在の手法では、入力データが通常、物理情報のレンダリングトップビューであり、最も関連性の高いエージェントの過去のトラジェクトリであるエンドツーエンドパイプラインを使用してこの問題に対処している。
その意味では、信頼できるADSは時間に基づいて合理的な予測を生成する必要がある。
しかし、多くのアプローチが単純なConvNetとLSTMを使って社会的潜在機能を得るが、State-Of-The-Art(SOTA)モデルは、情報ソース(マップと過去のトラジェクトリ)の両方を使用する場合、リアルタイムアプリケーションには複雑すぎるかもしれない。
さらに、これらのモデルの性能は、特に注釈付き高精細(HD)マップを得るのに費用がかかる交通シナリオごとに利用可能な入力数に大きく依存する。
本研究では,よく知られたargoverse 1モーション予測ベンチマークの効率的なベースラインを提案する。
我々は,注意機構やGNNを含むMPのためのSOTA技術を用いたコンパクトモデルの開発を目指している。
軽量なモデルでは, 移動可能な領域からの点や可算中心線といった標準的な社会的情報や解釈可能な地図情報を, ブラックボックスのcnnベースあるいは過剰複雑グラフ法とは対照的に, 運動的制約に基づく新しい前処理ステップを用いて利用し, 他の sota 法よりも操作性やパラメータの少ない精度で高次的マルチモーダルトラジェクタを生成できる。
私たちのコードはhttps://github.com/cram3r95/mapfe4mpで公開しています。 Motion Prediction (MP) of multiple surroundings agents is a crucial task in arbitrarily complex environments, from simple robots to Autonomous Driving Stacks (ADS). Current techniques tackle this problem using end-to-end pipelines, where the input data is usually a rendered top-view of the physical information and the past trajectories of the most relevant agents; leveraging this information is a must to obtain optimal performance. In that sense, a reliable ADS must produce reasonable predictions on time. However, despite many approaches use simple ConvNets and LSTMs to obtain the social latent features, State-Of-The-Art (SOTA) models might be too complex for real-time applications when using both sources of information (map and past trajectories) as well as little interpretable, specially considering the physical information. Moreover, the performance of such models highly depends on the number of available inputs for each particular traffic scenario, which are expensive to obtain, particularly, annotated High-Definition (HD) maps. In this work, we propose several efficient baselines for the well-known Argoverse 1 Motion Forecasting Benchmark. We aim to develop compact models using SOTA techniques for MP, including attention mechanisms and GNNs. Our lightweight models use standard social information and interpretable map information such as points from the driveable area and plausible centerlines by means of a novel preprocessing step based on kinematic constraints, in opposition to black-box CNN-based or too-complex graphs methods for map encoding, to generate plausible multimodal trajectories achieving up-to-pair accuracy with less operations and parameters than other SOTA methods. Our code is publicly available at https://github.com/Cram3r95/mapfe4mp . | 翻訳日:2023-11-02 17:18:34 公開日:2023-10-31 |
# 予測文脈をもつ帯域におけるオンライン学習 Online learning in bandits with predicted context ( http://arxiv.org/abs/2307.13916v2 ) ライセンス: Link先を確認 | Yongyi Guo, Ziping Xu, Susan Murphy | (参考訳) エージェントがコンテキストのノイズのあるバージョンとエラー分散(あるいはこの分散の推定器)にのみアクセスできる状況的帯域幅問題を考える。
この設定は、意思決定の真のコンテキストが観測されず、潜在的に複雑な機械学習アルゴリズムによるコンテキストの予測しかできない幅広いアプリケーションによって動機付けられている。
文脈誤差がなくなると、古典的な帯域幅アルゴリズムはサブ線形後悔を達成できない。
軽度条件下でのサブ線形後悔保証を用いたオンラインアルゴリズムを提案する。
鍵となる考え方は、古典統計学における測定誤差モデルをオンライン意思決定設定に拡張することである。
さらに、合成および実際のデジタル介入データセットに基づくシミュレーション環境における提案手法の利点を実証する。 We consider the contextual bandit problem where at each time, the agent only has access to a noisy version of the context and the error variance (or an estimator of this variance). This setting is motivated by a wide range of applications where the true context for decision-making is unobserved, and only a prediction of the context by a potentially complex machine learning algorithm is available. When the context error is non-vanishing, classical bandit algorithms fail to achieve sublinear regret. We propose the first online algorithm in this setting with sublinear regret guarantees under mild conditions. The key idea is to extend the measurement error model in classical statistics to the online decision-making setting, which is nontrivial due to the policy being dependent on the noisy context observations. We further demonstrate the benefits of the proposed approach in simulation environments based on synthetic and real digital intervention datasets. | 翻訳日:2023-11-02 17:18:02 公開日:2023-10-31 |
# 従来型および非慣習型ディッケモデル:多重安定性と非平衡ダイナミクス Conventional and unconventional Dicke models: Multistabilities and nonequilibrium dynamics ( http://arxiv.org/abs/2307.05686v2 ) ライセンス: Link先を確認 | Farokh Mivehvar | (参考訳) ディックモデルは、キャビティの単一の量子化された放射場と同一に相互作用する2レベル原子(スピン-1/2)のサブ波長サイズアンサンブルの集合的挙動を記述する。
臨界結合強度の他に、磁場が集まる常温状態から超ラディアン相へのゼロ温度相転移を示し、集合スピンは非ゼロの$x$成分を取得し、これはx$に沿って原子スピンの強磁性秩序として想像できる。
ここでは、スピンの2つのサブ波長サイズのアンサンブルが、異なる強度を持つ単一の量子化された放射場と相互作用する、このモデルの変種を紹介する。
その後、結合強度が逆である特別な場合(等結合強度に一意的に等しい)に自分自身を制限します。
各アンサンブルにおける全スピンの保存のため、この系はx$-強磁性とx$-強磁性のスピン秩序を持つ2つの異なる超ラジアント状態をサポートし、大きなパラメータ構造において互いに共存する。
熱力学限界における系の安定性と力学を半古典的手法を用いて検討し, マルチスタビリティによる非定常挙動を予測する。
最終的には、半古典的な計算と一致して、小型の完全量子力学計算も行います。 The Dicke model describes the collective behavior of a sub-wavelength--size ensemble of two-level atoms (i.e., spin-1/2) interacting identically with a single quantized radiation field of a cavity. Across a critical coupling strength it exhibits a zero-temperature phase transition from the normal state to the superradian phase where the field is populated and and the collective spin acquires a nonzero $x$-component, which can be imagined as ferromagnetic ordering of the atomic spins along $x$. Here we introduce a variant of this model where two sub-wavelength--size ensembles of spins interact with a single quantized radiation field with different strengths. Subsequently, we restrict ourselves to a special case where the coupling strengths are opposite (which is unitarily equivalent to equal-coupling strengths). Due to the conservation of the total spin in each ensemble individually, the system supports two distinct superradiant states with $x$-ferromagnetic and $x$-ferrimagnetic spin ordering, coexisting with each other in a large parameter regime. The stability and dynamics of the system in the thermodynamic limit are examined using a semiclassical approach, which predicts non-stationary behaviors due to the multistabilities. At the end, we also perform small-scale full quantum-mechanical calculations, with results consistent with the semiclassical ones. | 翻訳日:2023-11-02 17:16:49 公開日:2023-10-31 |
# 不均一な特徴サブサンプルリッジアンサンブルのための学習曲線 Learning Curves for Noisy Heterogeneous Feature-Subsampled Ridge Ensembles ( http://arxiv.org/abs/2307.03176v2 ) ライセンス: Link先を確認 | Benjamin S. Ruben, Cengiz Pehlevan | (参考訳) 機能バッキング(feature bagging)は、サブセットや機能の投影で訓練された多くの推定器の予測を組み合わせることによって、予測分散を減らすことを目的とした、確立されたセンスリング手法である。
本稿では,ノイズ最小2乗リッジアンサンブルにおける特徴バッキングの理論を考案し,等価データの場合の学習曲線を単純化する。
解析学習曲線を用いて, サブサンプリングが線形予測器の2次元ピークをシフトすることを示す。
この結果、様々な特徴次元に基づいて推定器を組み込んだ異種特徴のセンスリングが、二重日光を緩和する計算効率のよい手法として導入される。
次に,特徴サンプリングアンサンブルの性能を単一線形予測器と比較し,サブサンプリングによるノイズ増幅とセンスリングによるノイズ低減とのトレードオフを記述する。
我々の質的洞察は、最先端のディープラーニング特徴マップを用いて構築された現実的なデータセットを用いた画像分類タスクに適用される線形分類器に引き継がれる。 Feature bagging is a well-established ensembling method which aims to reduce prediction variance by combining predictions of many estimators trained on subsets or projections of features. Here, we develop a theory of feature-bagging in noisy least-squares ridge ensembles and simplify the resulting learning curves in the special case of equicorrelated data. Using analytical learning curves, we demonstrate that subsampling shifts the double-descent peak of a linear predictor. This leads us to introduce heterogeneous feature ensembling, with estimators built on varying numbers of feature dimensions, as a computationally efficient method to mitigate double-descent. Then, we compare the performance of a feature-subsampling ensemble to a single linear predictor, describing a trade-off between noise amplification due to subsampling and noise reduction due to ensembling. Our qualitative insights carry over to linear classifiers applied to image classification tasks with realistic datasets constructed using a state-of-the-art deep learning feature map. | 翻訳日:2023-11-02 17:16:24 公開日:2023-10-31 |
# リモートセンシングアプリケーションのためのセグメンション任意のモデル(SAM):ゼロから1ショットまで The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot ( http://arxiv.org/abs/2306.16623v2 ) ライセンス: Link先を確認 | Lucas Prado Osco, Qiusheng Wu, Eduardo Lopes de Lemos, Wesley Nunes Gon\c{c}alves, Ana Paula Marques Ramos, Jonathan Li, Jos\'e Marcato Junior | (参考訳) セグメンテーションはリモートセンシング画像処理の重要なステップである。
本研究では,メタAIによる画像分割モデルであるSegment Anything Model (SAM) をリモートセンシング画像解析分野に適用することを目的としている。
SAMは例外的な一般化能力とゼロショット学習で知られており、様々な地理的文脈から航空画像や軌道画像を処理するための有望なアプローチとなっている。
私たちの調査では、バウンディングボックス、個々のポイント、テキスト記述子など、さまざまな入力プロンプトを使って、SAMをマルチスケールデータセットでテストしました。
モデルの性能を向上させるために,テキストプロンプト由来の汎用例とワンショットトレーニングを組み合わせた新しい自動手法を実装した。
この調整により精度が向上し、SAMのリモートセンシング画像への展開の可能性が強調され、手動のアノテーションの必要性が軽減された。
空間分解能の低い画像で発生する限界にもかかわらず、SAMはリモートセンシングデータ解析に有望な適応性を示す。
補足的な微調整技術や他のネットワークとの統合により,モデルの習熟度を高めるための今後の研究を推奨する。
さらに,オンラインレポジトリにおける修正のオープンソースコードを提供し,SAMのリモートセンシング領域への適応をさらに促進する。 Segmentation is an essential step for remote sensing image processing. This study aims to advance the application of the Segment Anything Model (SAM), an innovative image segmentation model by Meta AI, in the field of remote sensing image analysis. SAM is known for its exceptional generalization capabilities and zero-shot learning, making it a promising approach to processing aerial and orbital images from diverse geographical contexts. Our exploration involved testing SAM across multi-scale datasets using various input prompts, such as bounding boxes, individual points, and text descriptors. To enhance the model's performance, we implemented a novel automated technique that combines a text-prompt-derived general example with one-shot training. This adjustment resulted in an improvement in accuracy, underscoring SAM's potential for deployment in remote sensing imagery and reducing the need for manual annotation. Despite the limitations encountered with lower spatial resolution images, SAM exhibits promising adaptability to remote sensing data analysis. We recommend future research to enhance the model's proficiency through integration with supplementary fine-tuning techniques and other networks. Furthermore, we provide the open-source code of our modifications on online repositories, encouraging further and broader adaptations of SAM to the remote sensing domain. | 翻訳日:2023-11-02 17:14:14 公開日:2023-10-31 |
# 大規模言語モデルにおける精度計算のためのコードソリロキー Code Soliloquies for Accurate Calculations in Large Language Models ( http://arxiv.org/abs/2309.12161v2 ) ライセンス: Link先を確認 | Shashank Sonkar, MyCo Le, Xinghe Chen, Naiming Liu, Debshila Basu Mallick, Richard G. Baraniuk | (参考訳) 高品質な会話データセットは、Large Language Model (LLM)バックエンドを利用するIntelligent Tutoring Systems (ITS)の開発の成功に不可欠である。
高度なgpt-4モデルを用いて生成された合成学生-教師対話は、これらのデータセットを作成する一般的な戦略である。
しかし、複雑な計算を伴う物理学のような主題は問題となる。
GPT-4は印象的な言語処理能力を示すが、基本的な数学的推論における制限は、そのような問題に対する有効性を制限している。
この制限に対処するため,本稿では,革新的なステートフルなプロンプト設計を提案する。
本設計では,GPT-4で学生と教師の役割をシミュレートした模擬会話を編成する。
生徒の反応は内部のモノローグ、つまりGPT-tutorbotの'code soliloquy'をトリガーし、その後の反応が計算を必要とするかどうかを評価する。
計算が必要な場合、関連するPythonコードをスクリプトし、Python出力を使用して学生への応答を構築する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
予備課題 課題 専門家による評価では, 微調整 LLaMA モデルであるヒッグスモデルは, 計算に Python を効果的に用いており, ヒッグス応答の精度と計算信頼性を大幅に向上させる。
コード、モデル、データセットはhttps://github.com/luffycodes/Tutorbot-Spock-Physで入手できる。 High-quality conversational datasets are crucial for the successful development of Intelligent Tutoring Systems (ITS) that utilize a Large Language Model (LLM) backend. Synthetic student-teacher dialogues, generated using advanced GPT-4 models, are a common strategy for creating these datasets. However, subjects like physics that entail complex calculations pose a challenge. While GPT-4 presents impressive language processing capabilities, its limitations in fundamental mathematical reasoning curtail its efficacy for such subjects. To tackle this limitation, we introduce in this paper an innovative stateful prompt design. Our design orchestrates a mock conversation where both student and tutorbot roles are simulated by GPT-4. Each student response triggers an internal monologue, or `code soliloquy' in the GPT-tutorbot, which assesses whether its subsequent response would necessitate calculations. If a calculation is deemed necessary, it scripts the relevant Python code and uses the Python output to construct a response to the student. Our approach notably enhances the quality of synthetic conversation datasets, especially for subjects that are calculation-intensive. Our preliminary Subject Matter Expert evaluations reveal that our Higgs model, a fine-tuned LLaMA model, effectively uses Python for computations, which significantly enhances the accuracy and computational reliability of Higgs' responses. Code, models, and datasets is available at https://github.com/luffycodes/Tutorbot-Spock-Phys. | 翻訳日:2023-11-02 17:06:49 公開日:2023-10-31 |
# 時空間神経点過程の自動統合 Automatic Integration for Spatiotemporal Neural Point Processes ( http://arxiv.org/abs/2310.06179v2 ) ライセンス: Link先を確認 | Zihao Zhou, Rose Yu | (参考訳) 継続的ポイントプロセスの学習は多くの離散的なイベント予測タスクに不可欠である。
しかし、積分は特に時空間過程(STPP)において、空間と時間における三重積分による可能性を計算するため、大きな課題となる。
既存のSTPPを統合する方法は、柔軟性に欠ける強度関数のパラメトリック形式を仮定するか、モンテカルロサンプリングを用いて強度を近似し、数値誤差を導入する。
近江らによる最近の作品。
2019] フレキシブルインテンシティ関数の効率的な統合のためのデュアルネットワークアプローチを提案する。
しかし、それらの手法は1次元の時間点過程のみに焦点を当てている。
本稿では,デュアルネットワークアプローチを3d stppに拡張する,新しいパラダイムであるautostpp(automatic integration for spatiotemporal neural point processes)を提案する。
以前の研究は基礎を提供するが、その直接拡張は強度関数を過度に制限し、計算上の問題を引き起こす。
本稿では,ProdNet を用いた積分ネットワークに対する分解可能なパラメトリゼーションを提案する。
このアプローチは、単純化された不定値グラフの積を利用して、多変量計算グラフに内在する計算複雑性を効果的に回避する。
我々はAutoSTPPの一貫性を証明し、それを合成データ上で検証し、実世界のデータセットをベンチマークする。
AutoSTPPは、特に強度が急激な局所化の場合、不規則な時空間イベントから複雑な強度関数を回復する上で大きな利点を示す。
私たちのコードはhttps://github.com/Rose-STL-Lab/AutoSTPPで公開されている。 Learning continuous-time point processes is essential to many discrete event forecasting tasks. However, integration poses a major challenge, particularly for spatiotemporal point processes (STPPs), as it involves calculating the likelihood through triple integrals over space and time. Existing methods for integrating STPP either assume a parametric form of the intensity function, which lacks flexibility; or approximating the intensity with Monte Carlo sampling, which introduces numerical errors. Recent work by Omi et al. [2019] proposes a dual network approach for efficient integration of flexible intensity function. However, their method only focuses on the 1D temporal point process. In this paper, we introduce a novel paradigm: AutoSTPP (Automatic Integration for Spatiotemporal Neural Point Processes) that extends the dual network approach to 3D STPP. While previous work provides a foundation, its direct extension overly restricts the intensity function and leads to computational challenges. In response, we introduce a decomposable parametrization for the integral network using ProdNet. This approach, leveraging the product of simplified univariate graphs, effectively sidesteps the computational complexities inherent in multivariate computational graphs. We prove the consistency of AutoSTPP and validate it on synthetic data and benchmark real-world datasets. AutoSTPP shows a significant advantage in recovering complex intensity functions from irregular spatiotemporal events, particularly when the intensity is sharply localized. Our code is open-source at https://github.com/Rose-STL-Lab/AutoSTPP. | 翻訳日:2023-11-02 16:52:22 公開日:2023-10-31 |
# スイス連邦最高裁判所規則の自動匿名化 Automatic Anonymization of Swiss Federal Supreme Court Rulings ( http://arxiv.org/abs/2310.04632v2 ) ライセンス: Link先を確認 | Joel Niklaus, Robin Mami\'e, Matthias St\"urmer, Daniel Brunner, Marcel Gygli | (参考訳) 裁判所の決定を一般大衆に公開するには、必要な場合にはすべての関係者を保護するための適切な匿名化が必要となる。
スイス連邦最高裁判所は、従来の計算手法を人間の専門家と組み合わせた既存のシステムに依存している。
本研究では,エンティティをアノテートした大規模データセットを用いて,既存の匿名化ソフトウェアを強化する。
BERTベースのモデルとドメイン内データに基づく事前学習モデルを比較した。
以上の結果から,モデルの事前学習にドメイン内データを用いることにより,既存のモデルと比較して,f1-scoreがさらに5\%向上することが示された。
本研究は,正規表現などの既存の匿名化手法と機械学習を組み合わせることで,手作業の軽減と自動提案の強化を実証する。 Releasing court decisions to the public relies on proper anonymization to protect all involved parties, where necessary. The Swiss Federal Supreme Court relies on an existing system that combines different traditional computational methods with human experts. In this work, we enhance the existing anonymization software using a large dataset annotated with entities to be anonymized. We compared BERT-based models with models pre-trained on in-domain data. Our results show that using in-domain data to pre-train the models further improves the F1-score by more than 5\% compared to existing models. Our work demonstrates that combining existing anonymization methods, such as regular expressions, with machine learning can further reduce manual labor and enhance automatic suggestions. | 翻訳日:2023-11-02 16:51:02 公開日:2023-10-31 |
# TacoGFN:構造に基づく医薬品設計のためのターゲット条件付きGFlowNet TacoGFN: Target Conditioned GFlowNet for Structure-Based Drug Design ( http://arxiv.org/abs/2310.03223v2 ) ライセンス: Link先を確認 | Tony Shen, Mohit Pandey, Jason Smith, Artem Cherkasov and Martin Ester | (参考訳) 我々は,特定のタンパク質ポケットターゲットに調和した薬物様化合物の自動生成を目指している。
現在の方法のほとんどは有限データセットのタンパク質-分子分布を近似しており、トレーニングデータセットよりも結合性が大幅に向上した分子を生成するのに苦労している。
代わりに、ポケットコンディショニングされた分子生成タスクをRL問題とし、ターゲット条件生成フローネットワークモデルであるTacoGFNを開発する。
本手法は,既存のデータ分布に適合するのに対して,所望の特性を持つ分子を生成することを強く推奨する。
そこで本研究では,ドッキングスコア計算を高速化するトランスフォーマーベースのドッキングスコア予測を開発し,分子空間を効率的に探索するTacoGFNを提案する。
さらに,ドッキングスコア予測を改善するために,ドッキングオラクルを用いて生成されたサンプルを検索する,アクティブラーニングのラウンドを複数組み込んだ。
このアプローチによって、計算で得る限りの分子の景観を正確に探索することができます。
経験上、tacogfnとその変異体を用いて生成された分子は、全ての特性(ドッキングスコア、qed、sa、リピンスキー)における全てのベースラインメソッドを著しく上回っているが、桁違いに速い。 We seek to automate the generation of drug-like compounds conditioned to specific protein pocket targets. Most current methods approximate the protein-molecule distribution of a finite dataset and, therefore struggle to generate molecules with significant binding improvement over the training dataset. We instead frame the pocket-conditioned molecular generation task as an RL problem and develop TacoGFN, a target conditional Generative Flow Network model. Our method is explicitly encouraged to generate molecules with desired properties as opposed to fitting on a pre-existing data distribution. To this end, we develop transformer-based docking score prediction to speed up docking score computation and propose TacoGFN to explore molecule space efficiently. Furthermore, we incorporate several rounds of active learning where generated samples are queried using a docking oracle to improve the docking score prediction. This approach allows us to accurately explore as much of the molecule landscape as we can afford computationally. Empirically, molecules generated using TacoGFN and its variants significantly outperform all baseline methods across every property (Docking score, QED, SA, Lipinski), while being orders of magnitude faster. | 翻訳日:2023-11-02 16:50:52 公開日:2023-10-31 |
# 音響生成拡散モデルに対する可視な透かし Invisible Watermarking for Audio Generation Diffusion Models ( http://arxiv.org/abs/2309.13166v2 ) ライセンス: Link先を確認 | Xirong Cao, Xiang Li, Divyesh Jadav, Yanzhao Wu, Zhehui Chen, Chen Zeng, Wenqi Wei | (参考訳) 拡散モデルは、画像領域において、データ生成と変換の能力で注目され、画像領域と音声領域の両方の様々なタスクで最先端のパフォーマンスを達成している。
音声ベースの機械学習の分野では、モデルの完全性とデータ著作権の確立の保護が最重要となる。
本稿では,メルスペクトログラムを用いた音響拡散モデルに適用する最初の透かし手法を提案する。
これは上記の課題に対する新しいアプローチを提供する。
我々のモデルは、良質な音声生成だけでなく、モデル検証のための目に見えない透かしトリガー機構も備えている。
この透かしトリガーは保護層として機能し、モデルのオーナシップを識別し、その完全性を保証する。
広範囲な実験を通じて,不可視透かしトリガーが無許可な修正に対して効果的に保護し,良性な音声生成タスクにおいて高い実用性を維持することを実証した。 Diffusion models have gained prominence in the image domain for their capabilities in data generation and transformation, achieving state-of-the-art performance in various tasks in both image and audio domains. In the rapidly evolving field of audio-based machine learning, safeguarding model integrity and establishing data copyright are of paramount importance. This paper presents the first watermarking technique applied to audio diffusion models trained on mel-spectrograms. This offers a novel approach to the aforementioned challenges. Our model excels not only in benign audio generation, but also incorporates an invisible watermarking trigger mechanism for model verification. This watermark trigger serves as a protective layer, enabling the identification of model ownership and ensuring its integrity. Through extensive experiments, we demonstrate that invisible watermark triggers can effectively protect against unauthorized modifications while maintaining high utility in benign audio generation tasks. | 翻訳日:2023-11-02 16:48:27 公開日:2023-10-31 |
# 多眼視覚質問応答におけるデータセットバイアス軽減 Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and Beyond ( http://arxiv.org/abs/2310.14670v2 ) ライセンス: Link先を確認 | Zhecan Wang, Long Chen, Haoxuan You, Keyang Xu, Yicheng He, Wenhao Li, Noel Codella, Kai-Wei Chang, Shih-Fu Chang | (参考訳) 視覚言語(VL)理解タスクは、複数の質問を通じて複雑な視覚シーンの理解を評価する。
しかし、モデルが様々なVLタスクを適切に理解せずに正しく解決するために、ショートカットとして活用できる2つのデータセットバイアスを特定した。
最初のタイプのデータセットバイアスは \emph{unbalanced matching} バイアスであり、正しい答えは不正確な答えよりも質問と画像に重なる。
データセットバイアスの第2のタイプは \emph{distractor similarity} バイアスであり、不正確な答えは正しい答えと過度に異なるが、同じサンプル内の他の不正確な回答と著しく似ている。
これらのデータセットバイアスに対処するために,まずads(adversarial data synthesis)を提案する。
次に, 合成訓練データ, 特に, サンプル内微分に着目して, モデルの活用を支援するために, サンプル内反事実訓練 (ict) を導入する。
大規模な実験では、ADSとICTが、ドメインシフトシナリオであっても、異なるベンチマークでモデルパフォーマンスを継続的に改善する効果を実証している。 Vision-language (VL) understanding tasks evaluate models' comprehension of complex visual scenes through multiple-choice questions. However, we have identified two dataset biases that models can exploit as shortcuts to resolve various VL tasks correctly without proper understanding. The first type of dataset bias is \emph{Unbalanced Matching} bias, where the correct answer overlaps the question and image more than the incorrect answers. The second type of dataset bias is \emph{Distractor Similarity} bias, where incorrect answers are overly dissimilar to the correct answer but significantly similar to other incorrect answers within the same sample. To address these dataset biases, we first propose Adversarial Data Synthesis (ADS) to generate synthetic training and debiased evaluation data. We then introduce Intra-sample Counterfactual Training (ICT) to assist models in utilizing the synthesized training data, particularly the counterfactual data, via focusing on intra-sample differentiation. Extensive experiments demonstrate the effectiveness of ADS and ICT in consistently improving model performance across different benchmarks, even in domain-shifted scenarios. | 翻訳日:2023-11-02 16:39:14 公開日:2023-10-31 |
# 生成型AIシステムの社会安全評価 Sociotechnical Safety Evaluation of Generative AI Systems ( http://arxiv.org/abs/2310.11986v2 ) ライセンス: Link先を確認 | Laura Weidinger, Maribeth Rauh, Nahema Marchal, Arianna Manzini, Lisa Anne Hendricks, Juan Mateos-Garcia, Stevie Bergman, Jackie Kay, Conor Griffin, Ben Bariach, Iason Gabriel, Verena Rieser, William Isaac | (参考訳) 生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,評価の確立に向けて2つの大きな貢献を行う。
まず,リスク評価のための構造的,社会学的アプローチを用いた3層フレームワークを提案する。
このフレームワークは、安全性評価の主要なアプローチである能力評価を包含する。
システム安全性の原則、特に与えられた能力が害をもたらすかどうかをコンテキストが決定する洞察に基づいてさらに到達します。
関連する文脈を説明するため,我々のフレームワークは人的相互作用とシステム的影響を付加的な評価層として追加する。
第2に、生成AIシステムの安全性評価の現状を調査し、既存の評価のリポジトリを作成する。
この分析から3つの顕著な評価ギャップが生じる。
我々はこれらのギャップを解消し、実践的なステップと異なるアクターの役割と責任を概説する。
社会技術的安全性評価は、生成型aiシステムのロバストで包括的な安全性評価への扱いやすいアプローチである。 Generative AI systems produce a range of risks. To ensure the safety of generative AI systems, these risks must be evaluated. In this paper, we make two main contributions toward establishing such evaluations. First, we propose a three-layered framework that takes a structured, sociotechnical approach to evaluating these risks. This framework encompasses capability evaluations, which are the main current approach to safety evaluation. It then reaches further by building on system safety principles, particularly the insight that context determines whether a given capability may cause harm. To account for relevant context, our framework adds human interaction and systemic impacts as additional layers of evaluation. Second, we survey the current state of safety evaluation of generative AI systems and create a repository of existing evaluations. Three salient evaluation gaps emerge from this analysis. We propose ways forward to closing these gaps, outlining practical steps as well as roles and responsibilities for different actors. Sociotechnical safety evaluation is a tractable approach to the robust and comprehensive safety evaluation of generative AI systems. | 翻訳日:2023-11-02 16:37:39 公開日:2023-10-31 |
# フィルタ強化学習を用いたドローンの不確実性下での安全マルチエージェント動作計画 Safe multi-agent motion planning under uncertainty for drones using filtered reinforcement learning ( http://arxiv.org/abs/2311.00063v1 ) ライセンス: Link先を確認 | Sleiman Safaoui, Abraham P. Vinod, Ankush Chakrabarty, Rien Quirynen, Nobuyuki Yoshikawa and Stefano Di Cairano | (参考訳) 我々は、不確実で散らばった作業空間におけるドローンの安全なマルチエージェント動作計画の問題を考える。
そこで本研究では,強化学習と制約制御に基づく軌道計画の強みを生かした,トラクタブルな運動プランナを提案する。
まず,単一エージェント強化学習を用いて,目標に到達するが衝突のないデータから動作計画を学ぶ。
次に,作業空間の不確実性やエージェントの動き,センシングなどにもかかわらず,コンベックス最適化,確率制約,制約付き制御のためのセットベース手法を用いる。
提案手法は,エージェントの状態や制御の制約を処理し,作業空間内や静的障害に対して,高い確率で衝突回避を行うことができる。
提案手法は,学習のみに基づく手法よりも訓練が容易な,安全かつリアルタイムな実装可能なマルチエージェントモーションプランナを提供する。
数値シミュレーションと実験は、このアプローチの有効性を示している。 We consider the problem of safe multi-agent motion planning for drones in uncertain, cluttered workspaces. For this problem, we present a tractable motion planner that builds upon the strengths of reinforcement learning and constrained-control-based trajectory planning. First, we use single-agent reinforcement learning to learn motion plans from data that reach the target but may not be collision-free. Next, we use a convex optimization, chance constraints, and set-based methods for constrained control to ensure safety, despite the uncertainty in the workspace, agent motion, and sensing. The proposed approach can handle state and control constraints on the agents, and enforce collision avoidance among themselves and with static obstacles in the workspace with high probability. The proposed approach yields a safe, real-time implementable, multi-agent motion planner that is simpler to train than methods based solely on learning. Numerical simulations and experiments show the efficacy of the approach. | 翻訳日:2023-11-02 16:27:57 公開日:2023-10-31 |
# sc-mil: スライド画像全体の分類のための疎結合な複数インスタンス学習 SC-MIL: Sparsely Coded Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2311.00048v1 ) ライセンス: Link先を確認 | Peijie Qiu, Pan Xiao, Wenhui Zhu, Yalin Wang, Aristeidis Sotiras | (参考訳) 多重インスタンス学習(MIL)は、弱い教師付き全スライド画像(WSI)分類に広く用いられている。
典型的なMILメソッドには、事前訓練された機能抽出器を介してインスタンスを機能に埋め込む機能埋め込み部と、インスタンス埋め込みを予測に組み合わせるMILアグリゲータが含まれる。
現在の焦点は、自己教師付き事前トレーニングを通じて機能の埋め込みを洗練し、インスタンス間の相関関係を個別にモデル化することで、これらの部分を改善することである。
本稿では,この2つの側面を同時に扱うために,スパース辞書学習を活用して,スパース符号化MIL(SC-MIL)を提案する。
スパース辞書学習は、オーバーコンプリート辞書における原子のスパース線形結合として表現することで、インスタンスの類似性を捉える。
さらに、不適切なインスタンスを抑圧し、最も関係のあるインスタンスを保持しながら、インスタンス機能の埋め込みを強化するのに役立つ。
従来のスパース符号化アルゴリズムをディープラーニングと互換性を持たせるために,deep unrollingを利用してscモジュールに展開した。
提案したSCモジュールは、既存のMILフレームワークにプラグイン・アンド・プレイ方式で組み込むことができ、計算コストは許容できる。
複数のデータセットに対する実験結果から,提案したSCモジュールは最先端MIL法の性能を大幅に向上させることができることが示された。
コードは \href{https://github.com/sotiraslab/SCMIL.git}{https://github.com/sotiraslab/SCMIL.git} で公開されている。 Multiple Instance Learning (MIL) has been widely used in weakly supervised whole slide image (WSI) classification. Typical MIL methods include a feature embedding part that embeds the instances into features via a pre-trained feature extractor and the MIL aggregator that combines instance embeddings into predictions. The current focus has been directed toward improving these parts by refining the feature embeddings through self-supervised pre-training and modeling the correlations between instances separately. In this paper, we proposed a sparsely coded MIL (SC-MIL) that addresses those two aspects at the same time by leveraging sparse dictionary learning. The sparse dictionary learning captures the similarities of instances by expressing them as a sparse linear combination of atoms in an over-complete dictionary. In addition, imposing sparsity help enhance the instance feature embeddings by suppressing irrelevant instances while retaining the most relevant ones. To make the conventional sparse coding algorithm compatible with deep learning, we unrolled it into an SC module by leveraging deep unrolling. The proposed SC module can be incorporated into any existing MIL framework in a plug-and-play manner with an acceptable computation cost. The experimental results on multiple datasets demonstrated that the proposed SC module could substantially boost the performance of state-of-the-art MIL methods. The codes are available at \href{https://github.com/sotiraslab/SCMIL.git}{https://github.com/sotiraslab/SCMIL.git}. | 翻訳日:2023-11-02 16:27:41 公開日:2023-10-31 |
# 視覚言語モデルは人間のように錯覚を知覚するのか? Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans? ( http://arxiv.org/abs/2311.00047v1 ) ライセンス: Link先を確認 | Yichi Zhang, Jiayi Pan, Yuchen Zhou, Rui Pan, Joyce Chai | (参考訳) VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータをトレーニングする。
しかし、視覚錯覚として知られており、人間の現実に対する認識は常に物理的世界に忠実であるとは限らない。
VLMは人間がしているような錯覚を持っているのか、それとも現実を表現するために忠実に学習しているのか?
そこで本研究では、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を検証した。
その結果、全体的なアライメントは低いが、より大きなモデルは人間の知覚に近く、視覚錯覚の影響を受けやすいことがわかった。
我々のデータセットと初期の発見は、人間と機械の視覚的錯覚をよりよく理解し、将来の計算モデルのための足場を提供し、人間と機械が共有された視覚世界について知覚しコミュニケーションしやすくする。
コードとデータはhttps://github.com/vl-illusion/datasetで入手できる。 Vision-Language Models (VLMs) are trained on vast amounts of data captured by humans emulating our understanding of the world. However, known as visual illusions, human's perception of reality isn't always faithful to the physical world. This raises a key question: do VLMs have the similar kind of illusions as humans do, or do they faithfully learn to represent reality? To investigate this question, we build a dataset containing five types of visual illusions and formulate four tasks to examine visual illusions in state-of-the-art VLMs. Our findings have shown that although the overall alignment is low, larger models are closer to human perception and more susceptible to visual illusions. Our dataset and initial findings will promote a better understanding of visual illusions in humans and machines and provide a stepping stone for future computational models that can better align humans and machines in perceiving and communicating about the shared visual world. The code and data are available at https://github.com/vl-illusion/dataset. | 翻訳日:2023-11-02 16:27:14 公開日:2023-10-31 |
# $\mathbb{Z}_3$キラルクロックモデルにおけるエネルギー輸送の温度依存性 Temperature dependence of energy transport in the $\mathbb{Z}_3$ chiral clock model ( http://arxiv.org/abs/2311.00046v1 ) ライセンス: Link先を確認 | Yongchan Yoo, Brian Swingle | (参考訳) 1次元の$\mathbb{Z}_3$キラルクロックモデルの非可積分状態におけるエネルギー輸送を研究するために行列積状態シミュレーションを用いる。
システム全体の非平衡定常状態を誘導するために,システム内の温度と足跡を調節可能なジャンプ演算子を特徴とする境界駆動を伴うオープンシステムダイナミクスを考察する。
定常状態が与えられると、真の局所状態と均一な熱アンサンブルの局所状態との間のトレース距離を最小化し、有効局所温度を診断する。
スケール解析により, 比較的高い温度で模型の輸送係数を, ギャップのない, ガッピングされた低温の位相から抽出した。
中~高温の状態では、低温物理学にかかわらず拡散輸送が観察される。
エネルギー拡散定数の温度依存性をモデルパラメータの関数として計算し、低温でモデルが量子臨界である場合を含める。
特に、ギャップのない状態でも、電力系列展開に基づく解析は、比較的限られた設定で中間温度輸送にアクセス可能であることを示唆している。
量子臨界スケーリングが観測される温度にはまだ到達できませんが、我々のアプローチでは、幅広い温度とパラメータにわたってモデルの輸送特性にアクセスすることが可能です。
結論として,本手法の限界と,その適用範囲をより低い温度にまで拡大する可能性について考察した。 We employ matrix product state simulations to study energy transport within the non-integrable regime of the one-dimensional $\mathbb{Z}_3$ chiral clock model. To induce a non-equilibrium steady state throughout the system, we consider open system dynamics with boundary driving featuring jump operators with adjustable temperature and footprint in the system. Given a steady state, we diagnose the effective local temperature by minimizing the trace distance between the true local state and the local state of a uniform thermal ensemble. Via a scaling analysis, we extract the transport coefficients of the model at relatively high temperatures above both its gapless and gapped low-temperature phases. In the medium-to-high temperature regime we consider, diffusive transport is observed regardless of the low-temperature physics. We calculate the temperature dependence of the energy diffusion constant as a function of model parameters, including in the regime where the model is quantum critical at the low temperature. Notably, even within the gapless regime, an analysis based on power series expansion implies that intermediate-temperature transport can be accessed within a relatively confined setup. Although we are not yet able to reach temperatures where quantum critical scaling would be observed, our approach is able to access the transport properties of the model over a broad range of temperatures and parameters. We conclude by discussing the limitations of our method and potential extensions that could expand its scope, for example, to even lower temperatures. | 翻訳日:2023-11-02 16:26:57 公開日:2023-10-31 |
# ノークリック極限におけるランダム連続測定による安定多体定位 Stable many-body localization under random continuous measurements in the no-click limit ( http://arxiv.org/abs/2311.00019v1 ) ライセンス: Link先を確認 | Giuseppe De Tomasi and Ivan M. Khaymovich | (参考訳) 本研究では,多体局所化(MBL)フェーズを有する監視環境に結合したパラダイムモデルの局所化特性について検討する。
我々は、ランダムレート、すなわちランダムゲインと損失によるポストセレクトされたノークリック制限に焦点を当てる。
この制限では、システムは想像上のランダムポテンシャルを追加し、システム内の非ハーモニティをレンダリングすることによってモデル化される。
数値的には、系が有限量の障害に対して局所化されていることを示す。
我々の結果を解析的に理解するために、量子ランダムエネルギーモデル(QREM)を非エルミートシナリオに拡張する。
Hermitian QREMは以前、MBLのベンチマークモデルとして使われていた。
QREMはサイズ依存のMBL遷移を示し、臨界値は、システムサイズと多体移動エッジを示す$W_c\sim \sqrt{L} \ln{L}$としてスケールする。
ランダム利得損失を持つ非エルミート的qremは,多体移動エッジの性質と,システムサイズに対して$w_c\sim \ln^{1/2}{l}$でスケールする遷移の値において,非常に強い局在性を示す。 In this work, we investigate the localization properties of a paradigmatic model, coupled to a monitoring environment and possessing a many-body localized (MBL) phase. We focus on the post-selected no-click limit with quench random rates, i.e., random gains and losses. In this limit, the system is modeled by adding an imaginary random potential, rendering non-Hermiticity in the system. Numerically, we provide an evidence that the system is localized for any finite amount of disorder. To analytically understand our results, we extend the quantum random energy model (QREM) to the non-Hermitian scenario. The Hermitian QREM has been used previously as a benchmark model for MBL. The QREM exhibits a size-dependent MBL transition, where the critical value scales as $W_c\sim \sqrt{L} \ln{L}$ with system size and presenting many-body mobility edges. We reveal that the non-Hermitian QREM with random gain-loss offers a significantly stronger form of localization, evident in the nature of the many-body mobility edges and the value for the transition, which scales as $W_c\sim \ln^{1/2}{L}$ with the system size. | 翻訳日:2023-11-02 16:26:35 公開日:2023-10-31 |
# シリコンエミッタの非コヒーレント光によるBB84QKDの簡易偏光符号化 Simplified Polarization-Encoding for BB84 QKD Sourced by Incoherent Light of a Silicon Emitter ( http://arxiv.org/abs/2311.00017v1 ) ライセンス: Link先を確認 | Florian Honz, Nemanja Voki\'c, Philip Walther, Hannes H\"ubel, Bernhard Schrenk | (参考訳) 設計・技術的観点から単純化された分極符号化BB84-QKD送信機について検討し、全シリコンQKD送信機の実現可能性を支える2.8kb/sと10.47%のキーレートでセキュアキー生成のための低複雑さ分極変調器を導出するシリコンエミッタを実証した。 We investigate a polarization-encoded BB84-QKD transmitter that is simplified from an architectural and technological point-of-view, demonstrating a silicon emitter sourcing a low-complexity polarization modulator for secure-key generation at a raw-key rate of 2.8kb/s and QBER of 10.47%, underpinning the feasibility of an all-silicon QKD transmitter. | 翻訳日:2023-11-02 16:26:11 公開日:2023-10-31 |
# 言語モデルが推論を隠すのを防ぐ Preventing Language Models From Hiding Their Reasoning ( http://arxiv.org/abs/2310.18512v2 ) ライセンス: Link先を確認 | Fabien Roger, Ryan Greenblatt | (参考訳) 大規模言語モデル(LLM)は、複雑な問題に対する回答を生成する中間ステップの恩恵を受けることが多い。
このような推論の中間段階をモデルの活動を監視するために使用する場合、この明示的な推論が忠実であること、すなわちモデルが実際に推論していることを反映することが不可欠である。
本研究では,LLMが生成したテキスト中の推論の中間ステップを人間の読み手には理解できない方法で符号化できるような,推論の中間ステップを符号化する手法について検討する。
言語モデルは、ユーザが推論の中間ステップを理解することなく、符号化推論を利用して高い性能を得るように訓練できることを示す。
言語モデルが強くなるにつれて、この行動が自然に現れる傾向が強くなる、と我々は主張する。
最後に,エンコードされた推論に対する防御の評価を可能にする手法について述べるとともに,適切な条件下では,我々が構築した最善のエンコードスキームでさえ,テキスト1kbあたり3ビット以上の情報をエンコードすることができないことを示す。 Large language models (LLMs) often benefit from intermediate steps of reasoning to generate answers to complex problems. When these intermediate steps of reasoning are used to monitor the activity of the model, it is essential that this explicit reasoning is faithful, i.e. that it reflects what the model is actually reasoning about. In this work, we focus on one potential way intermediate steps of reasoning could be unfaithful: encoded reasoning, where an LLM could encode intermediate steps of reasoning in the generated text in a way that is not understandable to human readers. We show that language models can be trained to make use of encoded reasoning to get higher performance without the user understanding the intermediate steps of reasoning. We argue that, as language models get stronger, this behavior becomes more likely to appear naturally. Finally, we describe a methodology that enables the evaluation of defenses against encoded reasoning, and show that, under the right conditions, paraphrasing successfully prevents even the best encoding schemes we built from encoding more than 3 bits of information per KB of text. | 翻訳日:2023-11-02 16:25:40 公開日:2023-10-31 |
# CXR-LLaVA:胸部X線画像の多モード大言語モデル CXR-LLaVA: Multimodal Large Language Model for Interpreting Chest X-ray Images ( http://arxiv.org/abs/2310.18341v2 ) ライセンス: Link先を確認 | Seowoo Lee, Jiwon Youn, Mansu Kim, Soon Ho Yoon | (参考訳) 目的: 大規模言語モデル(LLM)の最近の進歩は, 人間の放射線技師のイメージ解釈を再現し, マルチモーダルな手法でその能力を拡大している。
本研究の目的は,胸部X線画像(CXR-LLaVA)を解釈するためのオープンソースのマルチモーダル大言語モデルを開発することである。
また, 温度, 核サンプリングなどのモデルパラメータと迅速な工学効果についても検討した。
417,336 cxrsには特定の放射線異常のラベル(データセット1)があり、241,951 cxrsはフリーテキストの放射線診断レポート(データセット2)を提供している。
Resnet50を画像エンコーダとして事前トレーニングした後、コントラスト言語画像事前トレーニングを使用してCXRと対応する放射線異常を調整した。
そして、大規模言語モデルメタAI-2をデータセット2を用いて微調整し、GPT-4を用いて洗練し、様々な質問応答シナリオを生成する。
コードはhttps://github.com/ECOFRI/CXR_LLaVAで見ることができる。
結果: テストセットでは, モデルの性能がパラメータに基づいて変動していることがわかった。
平均して5つの病理所見(電気泳動, カルジオメガリー, 圧密, 浮腫, 胸水)について, f1 スコア 0.34 を達成し, プロンプトエンジニアリングにより 0.46 に改善した。
独立したセットでは、同じ病理所見に対して平均F1スコアが0.30に達した。
特に,小児の胸部x線写真データセットでは,0.84から0.85のf1スコアで異常x線を識別した。
結論: CXR-LLaVAはCXR解釈において有望なポテンシャルを示す。
プロンプトエンジニアリングとモデルパラメータ調整の両方がCXRの解釈において重要な役割を果たす。 Purpose: Recent advancements in large language models (LLMs) have expanded their capabilities in a multimodal fashion, potentially replicating the image interpretation of human radiologists. This study aimed to develop open-source multimodal large language model for interpreting chest X-ray images (CXR-LLaVA). We also examined the effect of prompt engineering and model parameters such as temperature and nucleus sampling. Materials and Methods: For training, we collected 659,287 publicly available CXRs: 417,336 CXRs had labels for certain radiographic abnormalities (dataset 1); 241,951 CXRs provided free-text radiology reports (dataset 2). After pre-training the Resnet50 as an image encoder, the contrastive language-image pre-training was used to align CXRs and corresponding radiographic abnormalities. Then, the Large Language Model Meta AI-2 was fine-tuned using dataset 2, which were refined using GPT-4, with generating various question answering scenarios. The code can be found at https://github.com/ECOFRI/CXR_LLaVA. Results: In the test set, we observed that the model's performance fluctuated based on its parameters. On average, it achieved F1 score of 0.34 for five pathologic findings (atelectasis, cardiomegaly, consolidation, edema, and pleural effusion), which was improved to 0.46 through prompt engineering. In the independent set, the model achieved an average F1 score of 0.30 for the same pathologic findings. Notably, for the pediatric chest radiograph dataset, which was unseen during training, the model differentiated abnormal radiographs with an F1 score ranging from 0.84 to 0.85. Conclusion: CXR-LLaVA demonstrates promising potential in CXR interpretation. Both prompt engineering and model parameter adjustments can play pivotal roles in interpreting CXRs. | 翻訳日:2023-11-02 16:25:20 公開日:2023-10-31 |
# Nkoの機械翻訳:ツール、コーパス、ベースライン結果 Machine Translation for Nko: Tools, Corpora and Baseline Results ( http://arxiv.org/abs/2310.15612v2 ) ライセンス: Link先を確認 | Moussa Koulako Bala Doumbouya, Baba Mamadi Dian\'e, Solo Farabado Ciss\'e, Djibrila Dian\'e, Abdoulaye Sow, S\'er\'e Moussa Doumbouya, Daouda Bangoura, Fod\'e Moriba Bayo, Ibrahima Sory 2. Cond\'e, Kalo Mory Dian\'e, Chris Piech, Christopher Manning | (参考訳) 現在、Nko \footnote{Also spelled N'Koの機械翻訳システムはないが、話者はNkoを好んでいる。
複数の西アフリカ諸国で数千万人の人々が話している言語で、文化的、教育的な価値がかなり高い。
この問題に対処するために,現在十分に大きな並列テキストコーパスを持っていないNkoや他の言語向けの機械翻訳システムの開発を目的とした,ツール,リソース,ベースラインの一連の結果を示す。
1) fria$\parallel$el: コピードイットベースのワークフローによる品質管理を組み込んだ新しい共同並列テキストキュレーションソフトウェア。
2) FLoRes-200とNLLB-Seedの2,009,6,193の高品質なNko翻訳を204,40言語と並行して拡張した。
3) nicolingua-0005:130,850の並列セグメントを持つ三言語・二言語コーパスと300万以上のnko単語を含む単言語コーパスのコレクション。
(4) ベースラインバイリンガルおよび多言語ニューラルマシン翻訳の結果、FLoRes-devtest上での英語Nko chrF++のスコアが30.83である。 Currently, there is no usable machine translation system for Nko \footnote{Also spelled N'Ko, but speakers prefer the name Nko.}, a language spoken by tens of millions of people across multiple West African countries, which holds significant cultural and educational value. To address this issue, we present a set of tools, resources, and baseline results aimed towards the development of usable machine translation systems for Nko and other languages that do not currently have sufficiently large parallel text corpora available. (1) Fria$\parallel$el: A novel collaborative parallel text curation software that incorporates quality control through copyedit-based workflows. (2) Expansion of the FLoRes-200 and NLLB-Seed corpora with 2,009 and 6,193 high-quality Nko translations in parallel with 204 and 40 other languages. (3) nicolingua-0005: A collection of trilingual and bilingual corpora with 130,850 parallel segments and monolingual corpora containing over 3 million Nko words. (4) Baseline bilingual and multilingual neural machine translation results with the best model scoring 30.83 English-Nko chrF++ on FLoRes-devtest. | 翻訳日:2023-11-02 16:22:56 公開日:2023-10-31 |
# 機械学習によるフレーバー物理の真理と美を探る Seeking Truth and Beauty in Flavor Physics with Machine Learning ( http://arxiv.org/abs/2311.00087v1 ) ライセンス: Link先を確認 | Konstantin T. Matchev, Katia Matcheva, Pierre Ramond, Sarunas Verner | (参考訳) 新しい理論物理学モデルを構築する発見プロセスは、既存の実験データに適合し、美学、自然性などの抽象理論家の基準を満たすという2つの側面を含む。
両タスクを機械学習技術で実行するための損失関数を設計する。
ユカワクォークセクターをおもちゃの例として用いて、これらの損失関数の最適化が真で美しいモデルをもたらすことを示す。 The discovery process of building new theoretical physics models involves the dual aspect of both fitting to the existing experimental data and satisfying abstract theorists' criteria like beauty, naturalness, etc. We design loss functions for performing both of those tasks with machine learning techniques. We use the Yukawa quark sector as a toy example to demonstrate that the optimization of these loss functions results in true and beautiful models. | 翻訳日:2023-11-02 16:14:12 公開日:2023-10-31 |
# NoMoPy: Pythonのノイズモデリング NoMoPy: Noise Modeling in Python ( http://arxiv.org/abs/2311.00084v1 ) ライセンス: Link先を確認 | Dylan Albrecht and N. Tobias Jacobson | (参考訳) NoMoPy は隠れマルコフモデル (HMM) や、より一般的にはFHMM (Factial hidden Markov model) としてモデル化されたノイズのフィッティング、分析、生成のためのコードである。
このコードはpythonで記述されており、パラメータ推定プロセス、クロスバリデーションによるモデル選択手順、パラメータ信頼領域推定を行うための近似的および完全期待最大化(em)アルゴリズムを実装している。
ここでは、NoMoPyで実装された機能の詳細を説明し、実例問題におけるその利用と性能の例を示す。 NoMoPy is a code for fitting, analyzing, and generating noise modeled as a hidden Markov model (HMM) or, more generally, factorial hidden Markov model (FHMM). This code, written in Python, implements approximate and exact expectation maximization (EM) algorithms for performing the parameter estimation process, model selection procedures via cross-validation, and parameter confidence region estimation. Here, we describe in detail the functionality implemented in NoMoPy and provide examples of its use and performance on example problems. | 翻訳日:2023-11-02 16:14:04 公開日:2023-10-31 |
# 自由度ランキング:オブジェクト検出に基づくラスト層リトレーニングのための簡易フレームワーク Spuriosity Rankings for Free: A Simple Framework for Last Layer Retraining Based on Object Detection ( http://arxiv.org/abs/2311.00079v1 ) ライセンス: Link先を確認 | Mohammad Azizmalayeri, Reza Abbasi, Amir Hosein Haji Mohammad rezaie, Reihaneh Zohrabi, Mahdi Amiri, Mohammad Taghi Manzuri, Mohammad Hossein Rohban | (参考訳) ディープニューラルネットワークは様々な領域で顕著な性能を示した。
しかしながら、これらのモデルのスプリアス機能への依存は、その信頼性に対する懸念を招いた。
この問題に対する有望な解決策は、線形分類器ヘッドをスパイラルな手がかりなく小さなデータサブセットで再訓練する最終層再訓練である。
それでも、このサブセットを選択するには、人間の監督が必要だ。
さらに、スプリアスキューは、選択されたサブセットにまだ存在する可能性がある。
この問題に対する解決策として,オープンな語彙オブジェクト検出技術を利用して,スプリアスを伴わない画像の識別を行う新しいランキングフレームワークを提案する。
より具体的には、画像中の対象物の存在を評価する尺度としてオブジェクト検出器を用いる。
次に、このスコアに基づいて画像がソートされ、最も高いスコアを持つデータのサブセットに基づいてモデルの最後の層が再トレーニングされる。
画像Net-1kデータセットを用いた実験により,この分類手法の有効性が実証された。 Deep neural networks have exhibited remarkable performance in various domains. However, the reliance of these models on spurious features has raised concerns about their reliability. A promising solution to this problem is last-layer retraining, which involves retraining the linear classifier head on a small subset of data without spurious cues. Nevertheless, selecting this subset requires human supervision, which reduces its scalability. Moreover, spurious cues may still exist in the selected subset. As a solution to this problem, we propose a novel ranking framework that leverages an open vocabulary object detection technique to identify images without spurious cues. More specifically, we use the object detector as a measure to score the presence of the target object in the images. Next, the images are sorted based on this score, and the last-layer of the model is retrained on a subset of the data with the highest scores. Our experiments on the ImageNet-1k dataset demonstrate the effectiveness of this ranking framework in sorting images based on spuriousness and using them for last-layer retraining. | 翻訳日:2023-11-02 16:13:54 公開日:2023-10-31 |
# スタックオーバーフローにおけるAndroidパーミッションのソフトウェア開発者の課題の調査 Investigating Software Developers' Challenges for Android Permissions in Stack Overflow ( http://arxiv.org/abs/2311.00074v1 ) ライセンス: Link先を確認 | Sahrima Jannat Oishwee, Natalia Stakhanova, Zadia Codabux | (参考訳) androidのパーミッションシステムは、機密データやプラットフォームリソース(カメラなど)へのアクセスを規制する一連のコントロールである。
Androidパーミッションの急速に進化する性質と不十分なドキュメンテーションは、サードパーティ開発者にとって多くの課題をもたらす。
本研究では,クラウドソーシングプラットフォームであるstack overflowで開発者が直面するパーミッション関連の課題と解決するためのソリューションについて検討する。
3,327質問と3,271質問の質的・定量的分析を行った。
調査の結果、ほとんどの質問は、さまざまなAndroidバージョンで一定である非進化的なSDKパーミッションに関連していることがわかった。
私たちは開発者の課題を,ドキュメント関連,依存性問題,デバッグ問題,概念理解問題,実装問題に分類します。
さらに,これらの分類を12のサブカテゴリ,9のサブサブカテゴリ,9のサブサブサブカテゴリに分類した。
我々の分析によると、開発者はしばしば許可の制限タイプや保護レベルを識別しておらず、その場合、その説明はGoogleの公式文書と矛盾することが多い。
我々の研究は、許可の使用をガイドし、開発者の誤解を減らし、Androidの許可を誤用する可能性のある、明確で一貫したドキュメントの必要性を示している。
この研究から得られた知見は、許可問題に対する戦略とガイドラインを知らせることができる。
今後の研究では、ベストプラクティスを形成し、これらの問題に対処するためのツールを開発するために、stack overflowソリューションの有効性を探求する必要がある。 The Android permission system is a set of controls to regulate access to sensitive data and platform resources (e.g., camera). The fast evolving nature of Android permissions, coupled with inadequate documentation, results in numerous challenges for third-party developers. This study investigates the permission-related challenges developers face and the solutions provided to resolve them on the crowdsourcing platform Stack Overflow. We conducted qualitative and quantitative analyses on 3,327 permission-related questions and 3,271 corresponding answers. Our study found that most questions are related to non-evolving SDK permissions that remain constant across various Android versions, which emphasizes the lack of documentation. We classify developers' challenges into several categories: Documentation-Related, Problems with Dependencies, Debugging, Conceptual Understanding, and Implementation Issues. We further divided these categories into 12 subcategories, nine sub-subcategories, and nine sub-sub-subcategories. Our analysis shows that developers infrequently identify the restriction type or protection level of permissions, and when they do, their descriptions often contradict Google's official documentation. Our study indicates the need for clear, consistent documentation to guide the use of permissions and reduce developer misunderstanding leading to potential misuse of Android permission. These insights from this study can inform strategies and guidelines for permission issues. Future studies should explore the effectiveness of Stack Overflow solutions to form best practices and develop tools to address these problems. | 翻訳日:2023-11-02 16:13:34 公開日:2023-10-31 |
# YOLOv8による道路危険物検出:ポットホール、下水道カバー、マンホール YOLOv8-Based Visual Detection of Road Hazards: Potholes, Sewer Covers, and Manholes ( http://arxiv.org/abs/2311.00073v1 ) ライセンス: Link先を確認 | Om M. Khare, Shubham Gandhi, Aditya M. Rahalkar, Sunil Mane | (参考訳) 道路インフラの維持と道路安全確保には,効果的に道路危険の検出が重要な役割を担っている。
本研究は, ポットホール, 下水道カバー, マンホールなどの道路危険度検知の文脈において, 対象物検出モデルであるYOLOv8の総合評価を行う。
従来の YOLOv5 と YOLOv7 の比較分析を行い、様々なアプリケーションにおける計算効率の重要性を強調した。
この論文は、YOLOv8のアーキテクチャを掘り下げ、照明、道路タイプ、ハザードサイズ、タイプなど、様々な状況における検出精度の向上を目的とした画像前処理技術を探究する。
さらに,学習速度,バッチサイズ,アンカーボックスサイズ,拡張戦略の調整を通じてモデル性能を最適化するハイパーパラメータチューニング実験を行った。
モデル評価は、オブジェクト検出性能の基準として広く受け入れられている平均平均精度(map)に基づいている。
本研究は,道路危険度検出とインフラ整備におけるYOLOv8の重要性を概説し,様々なテストシナリオで算出されたmAPスコアを用いて,モデルの堅牢性と一般化能力を評価する。 Effective detection of road hazards plays a pivotal role in road infrastructure maintenance and ensuring road safety. This research paper provides a comprehensive evaluation of YOLOv8, an object detection model, in the context of detecting road hazards such as potholes, Sewer Covers, and Man Holes. A comparative analysis with previous iterations, YOLOv5 and YOLOv7, is conducted, emphasizing the importance of computational efficiency in various applications. The paper delves into the architecture of YOLOv8 and explores image preprocessing techniques aimed at enhancing detection accuracy across diverse conditions, including variations in lighting, road types, hazard sizes, and types. Furthermore, hyperparameter tuning experiments are performed to optimize model performance through adjustments in learning rates, batch sizes, anchor box sizes, and augmentation strategies. Model evaluation is based on Mean Average Precision (mAP), a widely accepted metric for object detection performance. The research assesses the robustness and generalization capabilities of the models through mAP scores calculated across the diverse test scenarios, underlining the significance of YOLOv8 in road hazard detection and infrastructure maintenance. | 翻訳日:2023-11-02 16:13:12 公開日:2023-10-31 |
# 深層学習による弁局所化のための心臓超音波の視野分類と物体検出 View Classification and Object Detection in Cardiac Ultrasound to Localize Valves via Deep Learning ( http://arxiv.org/abs/2311.00068v1 ) ライセンス: Link先を確認 | Derya Gol Gungor, Bimba Rao, Cynthia Wolverton, Ismayil Guracar | (参考訳) エコー心電図は、臨床医が心臓の機能をリアルタイムで、低コストで、有害な放射線なしで観察する重要なツールである。
心臓弁の自動局在化と分類は、心臓の機械的機能および関連する血流測定に関連する量の自動抽出を可能にする。
本稿では,ディープニューラルネットワークを用いた分類と局所化のステップを分離した機械学習パイプラインを提案する。
パイプラインの第1ステップとして,心の解剖学的所見が10個ある心エコー図にビュー分類を適用した。
第2のステップでは,深層学習に基づく物体検出を用いて弁の局所化と同定を行う。
心エコー図における画像分割に基づく物体検出は、多くの初期の研究で示されているが、我々の知る限りでは、深層ニューラルネットワークの助けを借りて、弁周辺の境界ボックスと2次元超音波画像からの分類を予測する最初の研究である。
Apical Viewに応用した物体検出実験により,複数のバルブの局所化と同定が正確に可能であることが示唆された。 Echocardiography provides an important tool for clinicians to observe the function of the heart in real time, at low cost, and without harmful radiation. Automated localization and classification of heart valves enables automatic extraction of quantities associated with heart mechanical function and related blood flow measurements. We propose a machine learning pipeline that uses deep neural networks for separate classification and localization steps. As the first step in the pipeline, we apply view classification to echocardiograms with ten unique anatomic views of the heart. In the second step, we apply deep learning-based object detection to both localize and identify the valves. Image segmentation based object detection in echocardiography has been shown in many earlier studies but, to the best of our knowledge, this is the first study that predicts the bounding boxes around the valves along with classification from 2D ultrasound images with the help of deep neural networks. Our object detection experiments applied to the Apical views suggest that it is possible to localize and identify multiple valves precisely. | 翻訳日:2023-11-02 16:12:50 公開日:2023-10-31 |
# Rydberg格子におけるコヒーレントスピンフォノン散乱 Coherent spin-phonon scattering in facilitated Rydberg lattices ( http://arxiv.org/abs/2311.00064v1 ) ライセンス: Link先を確認 | Matteo Magoni, Chris Nill, Igor Lesanovsky | (参考訳) 本研究では,光トウェザトラップの配列におけるリドバーグ原子を用いたファシリテーション制約を持つスピン系のダイナミクスについて検討する。
系の初等自由度は、格子を通して弾道的に膨張するライドバーグ励起の領域である。
機械的力により、ライドバーグ励起原子はトラップ内の振動と結合する。
ゼロ温度と大きなトラップ深さでは、実質的に励起された格子振動は弾道伝播の時間スケールだけを再現することが知られている。
しかし、最初に振動励起が存在するとき(すなわち、原子の外部運動が励起フォック状態、コヒーレント状態、熱状態)、スピンドメイン壁とフォノンの間の共鳴散乱が起こる。
このコヒーレントで決定論的プロセスは無秩序であり、スピン領域の拡大を特徴づけるパワーロー指数を減少させる。
さらにスピン領域のダイナミクスは、コヒーレントに重畳されたフォック状態の相対位相のような原子の振動状態のコヒーレンス特性に敏感である。
翻訳的に不変な初期状態であっても、後者は位相感受性の非対称展開においてマクロ的に現れる。 We investigate the dynamics of a spin system with facilitation constraint that can be studied using Rydberg atoms in arrays of optical tweezer traps. The elementary degrees of freedom of the system are domains of Rydberg excitations that expand ballistically through the lattice. Due to mechanical forces, Rydberg excited atoms are coupled to vibrations within their traps. At zero temperature and large trap depth, it is known that virtually excited lattice vibrations only renormalize the timescale of the ballistic propagation. However, when vibrational excitations are initially present -- i.e., when the external motion of the atoms is prepared in an excited Fock state, coherent state or thermal state -- resonant scattering between spin domain walls and phonons takes place. This coherent and deterministic process, which is free from disorder, leads to a reduction of the power-law exponent characterizing the expansion of spin domains. Furthermore, the spin domain dynamics is sensitive to the coherence properties of the atoms' vibrational state, such as the relative phase of coherently superimposed Fock states. Even for a translationally invariant initial state the latter manifests macroscopically in a phase-sensitive asymmetric expansion. | 翻訳日:2023-11-02 16:12:33 公開日:2023-10-31 |
# エンサンブルモデルによる超音速流れの演算子学習における単一モデル不確実性と予測 Ensemble models outperform single model uncertainties and predictions for operator-learning of hypersonic flows ( http://arxiv.org/abs/2311.00060v1 ) ライセンス: Link先を確認 | Victor J. Leon, Noah Ford, Honest Mrema, Jeffrey Gilbert, Alexander New | (参考訳) 高忠実度計算シミュレーションと超音速流れの物理実験は資源集約的である。
限られた高忠実度データに基づく科学機械学習(SciML)モデルのトレーニングは、これまで見たことのない状況に対する行動の迅速な予測方法を提供する。
しかし、高忠実度データは、scimlモデルのすべての出力を未探索の入力空間で検証するために、それ自体は限られた量である。
そのため、不確実性を考慮したSciMLモデルが望まれる。
SciMLモデルの出力の不確実性は、モデルの予測の信頼性と信頼性を評価するために使用できる。
本研究では,3つの異なる不確実性定量化機構を用いて,DeepONetを拡張した。
不確実性を認識したDeepONetモデルは、幅広いマッハ数と高度の計算流体力学を用いて、鈍い円錐物体の周りの超音速流れを訓練し、評価する。
エンセンスリングは他の2つの不確実性モデルよりも誤差を最小化し、補間的および外挿的両方の不確実性を校正する点で優れていることが判明した。 High-fidelity computational simulations and physical experiments of hypersonic flows are resource intensive. Training scientific machine learning (SciML) models on limited high-fidelity data offers one approach to rapidly predict behaviors for situations that have not been seen before. However, high-fidelity data is itself in limited quantity to validate all outputs of the SciML model in unexplored input space. As such, an uncertainty-aware SciML model is desired. The SciML model's output uncertainties could then be used to assess the reliability and confidence of the model's predictions. In this study, we extend a DeepONet using three different uncertainty quantification mechanisms: mean-variance estimation, evidential uncertainty, and ensembling. The uncertainty aware DeepONet models are trained and evaluated on the hypersonic flow around a blunt cone object with data generated via computational fluid dynamics over a wide range of Mach numbers and altitudes. We find that ensembling outperforms the other two uncertainty models in terms of minimizing error and calibrating uncertainty in both interpolative and extrapolative regimes. | 翻訳日:2023-11-02 16:12:13 公開日:2023-10-31 |
# 生成AIのパラドックス:「何が作れるのか、理解できないかもしれない」 The Generative AI Paradox: "What It Can Create, It May Not Understand" ( http://arxiv.org/abs/2311.00059v1 ) ライセンス: Link先を確認 | Peter West, Ximing Lu, Nouha Dziri, Faeze Brahman, Linjie Li, Jena D. Hwang, Liwei Jiang, Jillian Fisher, Abhilasha Ravichander, Khyathi Chandu, Benjamin Newman, Pang Wei Koh, Allyson Ettinger, Yejin Choi | (参考訳) 最近の生成AIの波は、人工知能の潜在的超人的レベルに対する興奮と懸念の両方で前例のない世界的な注目を集めている。
同時に、モデルは非専門家でも期待できないような理解の基本的な誤りを示す。
これは明らかなパラドックスを示します。人間はほとんどいないようなエラーの持続性で、一見超人的な能力とどのように調和させるのか?
本研究では、この緊張は、人間の知能に対する今日の生成モデルにおけるインテリジェンスの構成のばらつきを反映していると仮定する。
具体的には、生成型aiパラドックス仮説を提案し、テストする。生成型モデルは、専門家ライクなアウトプットを再現するために直接訓練され、それらと同じタイプのアウトプットを理解する能力を超える可能性がある生成型能力を取得する。
これは、基本的理解がほぼ常に専門家レベルのアウトプットを生成する能力に先行する人間とは対照的である。
生成モデルの生成と理解を言語と画像の両面で分析する制御実験により,この仮説を検証した。
以上の結果から,モデルは世代で人間よりも優れるが,理解の尺度では人間の能力に欠けるだけでなく,生成と理解の相関が弱くなり,逆入力に対する脆性が増すことが示された。
我々の研究結果は、モデルの生成能力は理解能力に即しないかもしれないという仮説を支持し、人間の知能と類似した人工知能の解釈に注意を喚起する。 The recent wave of generative AI has sparked unprecedented global attention, with both excitement and concern over potentially superhuman levels of artificial intelligence: models now take only seconds to produce outputs that would challenge or exceed the capabilities even of expert humans. At the same time, models still show basic errors in understanding that would not be expected even in non-expert humans. This presents us with an apparent paradox: how do we reconcile seemingly superhuman capabilities with the persistence of errors that few humans would make? In this work, we posit that this tension reflects a divergence in the configuration of intelligence in today's generative models relative to intelligence in humans. Specifically, we propose and test the Generative AI Paradox hypothesis: generative models, having been trained directly to reproduce expert-like outputs, acquire generative capabilities that are not contingent upon -- and can therefore exceed -- their ability to understand those same types of outputs. This contrasts with humans, for whom basic understanding almost always precedes the ability to generate expert-level outputs. We test this hypothesis through controlled experiments analyzing generation vs. understanding in generative models, across both language and image modalities. Our results show that although models can outperform humans in generation, they consistently fall short of human capabilities in measures of understanding, as well as weaker correlation between generation and understanding performance, and more brittleness to adversarial inputs. Our findings support the hypothesis that models' generative capability may not be contingent upon understanding capability, and call for caution in interpreting artificial intelligence by analogy to human intelligence. | 翻訳日:2023-11-02 16:11:56 公開日:2023-10-31 |
# 学習可能性相転移としての量子計測崩壊の観測 Observing quantum measurement collapse as a learnability phase transition ( http://arxiv.org/abs/2311.00058v1 ) ライセンス: Link先を確認 | Utkarsh Agrawal, Javier Lopez-Piqueres, Romain Vasseur, Sarang Gopalakrishnan, and Andrew C. Potter | (参考訳) 離散的確率的崩壊現象の観点から量子測定の効果的なマクロ的記述が可逆的な微視的ダイナミクスから現れるメカニズムは、永続的なオープンな疑問である。
新興量子コンピュータは、コヒーレンスを維持しながら、さまざまなシステムサイズにわたって測定プロセスがどのように進化するかを探求する、有望なプラットフォームを提供する。
本稿では,量子H1-1系モデル量子プロセッサにおける捕捉イオン鎖中の観測可能な測定誘起相転移の証拠を実験的に報告する。
この遷移は、観測可能な量子的不確実性と観測者が測定記録から(原則として)学習できる情報量の両方において、測定の強度を増大させ、鋭く一致した変化として現れる。
統計力学モデルと機械学習の知見を活用し、この遷移を効率的に計算可能なアルゴリズムを設計(測定結果に対する非スカラブルなポスト選択を必要とせず)し、ノイズの多いハードウェアにおけるエラーの影響を緩和する。 The mechanism by which an effective macroscopic description of quantum measurement in terms of discrete, probabilistic collapse events emerges from the reversible microscopic dynamics remains an enduring open question. Emerging quantum computers offer a promising platform to explore how measurement processes evolve across a range of system sizes while retaining coherence. Here, we report the experimental observation of evidence for an observable-sharpening measurement-induced phase transition in a chain of trapped ions in Quantinuum H1-1 system model quantum processor. This transition manifests as a sharp, concomitant change in both the quantum uncertainty of an observable and the amount of information an observer can (in principle) learn from the measurement record, upon increasing the strength of measurements. We leverage insights from statistical mechanical models and machine learning to design efficiently-computable algorithms to observe this transition (without non-scalable post-selection on measurement outcomes) and to mitigate the effects on errors in noisy hardware. | 翻訳日:2023-11-02 16:11:28 公開日:2023-10-31 |
# 多様性と拡散:安定拡散を伴う合成画像分布の観察 Diversity and Diffusion: Observations on Synthetic Image Distributions with Stable Diffusion ( http://arxiv.org/abs/2311.00056v1 ) ライセンス: Link先を確認 | David Marwood, Shumeet Baluja, Yair Alon | (参考訳) StableDiffusion, Imagen, DALL-E 2などのTTIシステムの最近の進歩により、単純なテキストプロンプトでリアルな画像を作成することができるようになった。
これらのシステムを使用して、新しい機械学習分類器を訓練するために、自然画像を取得する手作業を排除する傾向にある。
しかし、これまで行われたすべての実験において、合成画像のみで訓練された分類器は、訓練に使用された画像が現実的に見えるにもかかわらず、推論が不十分である。
この明らかな矛盾を詳細に調べると、基盤となる画像生成プロセスの限界についての洞察が得られる。
画像生成の多様性と生成の正確さのレンズを通して、合成画像と自然画像のモデル化における意味的ミスマッチの違いを識別する。
これにより、Image-languag emodel、CLIP、および画像生成モデル、拡散の役割が解明される。
この課題に対するTTIシステムの有用性を制限する4つの問題:曖昧さ、プロンプトへの順守、多様性の欠如、基礎となる概念を表現できないこと。
さらに、CLIP埋め込みの幾何学に関する驚くべき知見を示す。 Recent progress in text-to-image (TTI) systems, such as StableDiffusion, Imagen, and DALL-E 2, have made it possible to create realistic images with simple text prompts. It is tempting to use these systems to eliminate the manual task of obtaining natural images for training a new machine learning classifier. However, in all of the experiments performed to date, classifiers trained solely with synthetic images perform poorly at inference, despite the images used for training appearing realistic. Examining this apparent incongruity in detail gives insight into the limitations of the underlying image generation processes. Through the lens of diversity in image creation vs.accuracy of what is created, we dissect the differences in semantic mismatches in what is modeled in synthetic vs. natural images. This will elucidate the roles of the image-languag emodel, CLIP, and the image generation model, diffusion. We find four issues that limit the usefulness of TTI systems for this task: ambiguity, adherence to prompt, lack of diversity, and inability to represent the underlying concept. We further present surprising insights into the geometry of CLIP embeddings. | 翻訳日:2023-11-02 16:11:11 公開日:2023-10-31 |
# メタ表現による不均一表データのトレーニングフリー一般化 Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation ( http://arxiv.org/abs/2311.00055v1 ) ライセンス: Link先を確認 | Han-Jia Ye, Qi-Le Zhou, De-Chuan Zhan | (参考訳) 表データはさまざまな機械学習領域にまたがる。
しかし、異なる表型データセットにまたがる属性とクラス空間の固有の不均一性は、知識の効果的な共有を妨げる。
本稿では,TabPTM(Tabular data Pre-Training via Meta-representation)を提案する。
そして、この事前トレーニングされたモデルは、追加のトレーニングなしで多様な属性とクラスを持つ未確認データセットに直接適用することができる。
具体的には、TabPTMはそのインスタンスを一定数のプロトタイプまでの距離で表現し、不均一な表形式のデータセットを標準化する。
深層ニューラルネットワークは、これらのメタ表現をデータセット固有の分類信頼度に関連付けるように訓練され、TabPTMとトレーニング不要の一般化能力を提供する。
実験により、tabptmが新しいデータセットで有望なパフォーマンスを達成することが検証される。 Tabular data is prevalent across various machine learning domains. Yet, the inherent heterogeneities in attribute and class spaces across different tabular datasets hinder the effective sharing of knowledge, limiting a tabular model to benefit from other datasets. In this paper, we propose Tabular data Pre-Training via Meta-representation (TabPTM), which allows one tabular model pre-training on a set of heterogeneous datasets. Then, this pre-trained model can be directly applied to unseen datasets that have diverse attributes and classes without additional training. Specifically, TabPTM represents an instance through its distance to a fixed number of prototypes, thereby standardizing heterogeneous tabular datasets. A deep neural network is then trained to associate these meta-representations with dataset-specific classification confidences, endowing TabPTM with the ability of training-free generalization. Experiments validate that TabPTM achieves promising performance in new datasets, even under few-shot scenarios. | 翻訳日:2023-11-02 16:10:50 公開日:2023-10-31 |
# 位相ホログラフィによる1+1dギャップレス対称性保護相の分類 Classification of 1+1D gapless symmetry protected phases via topological holography ( http://arxiv.org/abs/2311.00050v1 ) ライセンス: Link先を確認 | Rui Wen and Andrew C. Potter | (参考訳) 対称性トポロジカル場理論(SymTFT)は、大域対称性を持つ系と高次元トポロジカル場理論の間のホログラフィック対応を与える。
この枠組みでは、時空次元 1+1D における物質ギャップ位相の分類は、任意の粒子を凝縮することによってSymTFTを閉じ込める機構の分類に対応する。
本研究では、これらの結果を拡張し、対称性と位相によって保護されたエッジモードを示す対称性に富んだギャップレス位相や臨界点を特徴付ける。
本研究では, 1+1D ボソニック gSPT と 2+1D SymTFT との1対1対応性を確立する。
一般の物理的考察から、1+1D gSPTを定義するのに必要なデータと一貫性条件の集合を決定し、このデータが2+1D量子二重モデルの対称性保存部分閉じ込め(あるいは部分的にギャップのある境界)と正確に一致することを示す。
この対応は, エッジモード, 創発異常, 摂動に対する安定性など, エッジモード, 創発異常などのgSPTの特性がSymTFTの視点からどのように生じるかを, 物理的に直観的に導出することができる次元還元(薄スラブ)構成により説明し, エッジモードと創発異常を含むgSPTの物理を完全に決定できることを示す。 Symmetry topological field theory (SymTFT) gives a holographic correspondence between systems with a global symmetry and a higher-dimensional topological field theory. In this framework, classification of gapped phases of matter in spacetime dimension 1+1D correspond to classifications of mechanisms to confine the SymTFT by condensing anyons. In this work, we extend these results to characterize gapless symmetry-protected topological states: symmetry-enriched gapless phases or critical points that exhibit edge modes protected by symmetry and topology. We establish a one-to-one correspondence between 1+1D bosonic gSPTs, and partially-confined boundaries of 2+1D SymTFTs. From general physical considerations, we determine the set of data and consistency conditions required to define a 1+1D gSPT, and show that this data precisely matches that of symmetry-preserving partial confinement (or partially gapped boundaries) of 2+1D quantum double models. We illustrate this correspondence through a dimensional reduction (thin-slab) construction, which enables a physically-intuitive derivation of how properties of the gSPT such as edge modes, emergent anomalies, and stability to perturbations arise from the SymTFT perspective.ditions required to define a 1+1D gSPT and show that they fully determine the physics of the gSPT including edge modes and emergent anomaly. | 翻訳日:2023-11-02 16:10:35 公開日:2023-10-31 |
# コルモゴロフニューラルネットワークについて On the Kolmogorov neural networks ( http://arxiv.org/abs/2311.00049v1 ) ライセンス: Link先を確認 | Aysu Ismayilova and Vugar Ismailov | (参考訳) 本稿では、第2の隠れ層において連続的、不連続的、あるいは非有界な活性化関数を持つコルモゴロフの2つの隠れ層ニューラルネットワークモデルが、それぞれ連続的、不連続、非有界、およびすべての非有界多変数関数を正確に表現できることを示す。 In this paper, we show that the Kolmogorov two hidden layer neural network model with a continuous, discontinuous bounded or unbounded activation function in the second hidden layer can precisely represent continuous, discontinuous bounded and all unbounded multivariate functions, respectively. | 翻訳日:2023-11-02 16:10:06 公開日:2023-10-31 |
# 量子効率の探索:電子状態エネルギー推定におけるシステムの硬さの探求 Probing Quantum Efficiency: Exploring System Hardness in Electronic Ground State Energy Estimation ( http://arxiv.org/abs/2311.00129v1 ) ライセンス: Link先を確認 | Seonghoon Choi and Ignacio Loaiza and Robert A. Lang and Luis A. Mart\'inez-Mart\'inez and Artur F. Izmaylov | (参考訳) 基底状態推定における電子構造理論の古典的アルゴリズムと量子アルゴリズムとのシステムの硬さの相関性について考察する。
古典的アルゴリズムのシステム硬度を定義するために,分子系の集合における複数の結合解離に沿って,結合クラスタによって生成される電子エネルギーの偏差と,正確な結合からの構成相互作用法に基づく経験的基準を用いる。
量子アルゴリズムでは,変分量子固有解法 (VQE) と量子位相推定法 (QPE) を選択した。
量子法におけるシステムのハードネス特性として, 状態形成のための回路深さ, エネルギー期待値に必要な量子測定数, トロッター近似とユニタリの線形結合(lcu)によるハミルトン符号化の様々なコスト特性を解析した。
以上の結果から,量子資源要求は古典的硬さの影響を受けず,唯一の例外は,VQEとQPEのアルゴリズムコストに寄与する状態準備部であることがわかった。
しかし、真の基底状態(>10%)とかなりの重なり合う初期状態を構築することは、化学的精度でエネルギー期待値を持つ状態を得るよりも容易であることを示す明確な兆候がある。
これらの結果は、量子アルゴリズムが古典的な手法よりも優れている分子系の同定に関する楽観主義を支持する。 We consider the question of how correlated the system hardness is between classical algorithms of electronic structure theory in ground state estimation and quantum algorithms. To define the system hardness for classical algorithms we employ empirical criterion based on the deviation of electronic energies produced by coupled cluster and configuration interaction methods from the exact ones along multiple bonds dissociation in a set of molecular systems. For quantum algorithms, we have selected the Variational Quantum Eigensolver (VQE) and Quantum Phase Estimation (QPE) methods. As characteristics of the system hardness for quantum methods, we analyzed circuit depths for the state preparation, the number of quantum measurements needed for the energy expectation value, and various cost characteristics for the Hamiltonian encodings via Trotter approximation and linear combination of unitaries (LCU). Our results show that the quantum resource requirements are mostly unaffected by classical hardness, with the only exception being the state preparation part, which contributes to both VQE and QPE algorithm costs. However, there are clear indications that constructing the initial state with a significant overlap with the true ground state (>10%) is easier than obtaining the state with an energy expectation value within chemical precision. These results support optimism regarding the identification of a molecular system where a quantum algorithm excels over its classical counterpart, as quantum methods can maintain efficiency in classically challenging systems. | 翻訳日:2023-11-02 16:02:06 公開日:2023-10-31 |
# 文法習得のための発達データを用いたカリキュラム学習の効果について On the effect of curriculum learning with developmental data for grammar acquisition ( http://arxiv.org/abs/2311.00128v1 ) ライセンス: Link先を確認 | Mattia Opper, J. Morrison, N. Siddharth | (参考訳) 本研究は、文法習得が「単純化」言語とデータのソースモダリティ(音声対テキスト)によって駆動される程度を考察する。
BabyBERTaをプローブとして用いると、文法習得は主に音声データへの露出、特にBabyLMトレーニングコーパスであるAO-ChildesとOpen Subtitlesの2つの露出によるものであることが分かる。
モデルに入力データを提示するさまざまな方法を調べることで、この発見にたどり着きます。
まず、様々なシーケンスレベルの複雑性に基づくカリキュラムの影響を評価する。
次に、各ソースコーパス(行数ではなく)のトークン数に対してバランスのとれたテキストのスパンをカバーする、‘ブロック’に対する学習の影響を調べます。
最後に、モデルが異なるコーパスに曝される程度が異なる曲線を探索する。
いずれにしても、AO-ChildesやOpen Subtitlesへの過剰な露出はパフォーマンスを著しく向上させる。
コーパスに曝露し、より一般的には、設計によって制限されるような、比較可能な制御データセットを用いてこれらの結果を検証する。
本研究は,高ユーティリティデータに占めるトークンの割合ではなく,そのようなデータに割り当てられたトレーニングステップの割合であることを示す。
これは、より発達的に妥当な言語データ(より少ない傾向にある)を使用して、汎用的な事前訓練体制を強化するための将来の研究を促進することを願っている。 This work explores the degree to which grammar acquisition is driven by language `simplicity' and the source modality (speech vs. text) of data. Using BabyBERTa as a probe, we find that grammar acquisition is largely driven by exposure to speech data, and in particular through exposure to two of the BabyLM training corpora: AO-Childes and Open Subtitles. We arrive at this finding by examining various ways of presenting input data to our model. First, we assess the impact of various sequence-level complexity based curricula. We then examine the impact of learning over `blocks' -- covering spans of text that are balanced for the number of tokens in each of the source corpora (rather than number of lines). Finally, we explore curricula that vary the degree to which the model is exposed to different corpora. In all cases, we find that over-exposure to AO-Childes and Open Subtitles significantly drives performance. We verify these findings through a comparable control dataset in which exposure to these corpora, and speech more generally, is limited by design. Our findings indicate that it is not the proportion of tokens occupied by high-utility data that aids acquisition, but rather the proportion of training steps assigned to such data. We hope this encourages future research into the use of more developmentally plausible linguistic data (which tends to be more scarce) to augment general purpose pre-training regimes. | 翻訳日:2023-11-02 16:01:41 公開日:2023-10-31 |
# 一般情報構造と非マルコフ環境下における確率制御のQラーニング Q-Learning for Stochastic Control under General Information Structures and Non-Markovian Environments ( http://arxiv.org/abs/2311.00123v1 ) ライセンス: Link先を確認 | Ali Devran Kara and Serdar Yuksel | (参考訳) 第一の貢献として、確率的反復に対する収束定理、特にQ学習は、一般、おそらくは非マルコフ的確率的環境の下で反復する。
我々の収束条件には、エルゴード性と肯定性基準が含まれる。
環境における反復と条件の限界と収束のための初期化の正確な特徴付けを行う。
第2の貢献として,非マルコフ環境を含む様々な確率的制御問題に対するこの定理の意義と応用について論じる。
(i)連続空間を持つ完全観測マルコフ決定過程(mdps)の量子化近似(量子化がマルコフ構造を分解する場合)
(II) フェラー連続性の弱い部分観測可能MDPS(POMDP)とフィルタ安定性の軽度バージョン(コントローラによるモデルの知識を必要とする)の量子化近似
(iii)一様制御されたフィルタ安定性の下でのpomdpの有限窓近似と(モデルに関する知識を必要としない)
(iv)新しいクラスである主観的q学習平衡に学習ダイナミクスが収束するマルチエージェントモデルについて検討する。
収束定理に加えて、上記の定理のいくつかの意味は文献に新しいものであり、その他は収束定理の応用として解釈される。
いくつか未解決の問題が指摘されている。 As a primary contribution, we present a convergence theorem for stochastic iterations, and in particular, Q-learning iterates, under a general, possibly non-Markovian, stochastic environment. Our conditions for convergence involve an ergodicity and a positivity criterion. We provide a precise characterization on the limit of the iterates and conditions on the environment and initializations for convergence. As our second contribution, we discuss the implications and applications of this theorem to a variety of stochastic control problems with non-Markovian environments involving (i) quantized approximations of fully observed Markov Decision Processes (MDPs) with continuous spaces (where quantization break down the Markovian structure), (ii) quantized approximations of belief-MDP reduced partially observable MDPS (POMDPs) with weak Feller continuity and a mild version of filter stability (which requires the knowledge of the model by the controller), (iii) finite window approximations of POMDPs under a uniform controlled filter stability (which does not require the knowledge of the model), and (iv) for multi-agent models where convergence of learning dynamics to a new class of equilibria, subjective Q-learning equilibria, will be studied. In addition to the convergence theorem, some implications of the theorem above are new to the literature and others are interpreted as applications of the convergence theorem. Some open problems are noted. | 翻訳日:2023-11-02 16:01:18 公開日:2023-10-31 |
# 脳の動態の多元的因果関係の抽出 Extracting the Multiscale Causal Backbone of Brain Dynamics ( http://arxiv.org/abs/2311.00118v1 ) ライセンス: Link先を確認 | Gabriele D'Acunto, Francesco Bonchi, Gianmarco De Francisci Morales, Giovanni Petri | (参考訳) 脳の接続に関する研究努力の大部分は、脳のダイナミクスを管理する因果メカニズムに直接関係しない脳領域間の統計的関連を中心に展開している。
本稿では,複数の時間的尺度にまたがる個人が共有する脳動力学の多スケール因果バックボーン(mcb)を提案し,それを抽出するための原理的手法を考案する。
提案手法は,近年のマルチスケール因果構造学習の進歩を活用し,モデル適合と複雑性のトレードオフを最適化する。
合成データに対する経験的評価は,標準機能接続ネットワークに基づくベースラインよりも優れた手法を示す。
安静時fMRIデータに適用すると,左脳半球と右脳半球の両方に細いMCBが認められる。
マルチスケールの性質から,低周波帯では因果ダイナミクスは高次認知機能に関連する脳の領域によって駆動され,高周波では知覚処理に関連するノードが重要な役割を担っていることが示唆された。
最後に, 個別の多元的因果構造の解析により, 脳接続の因果的指紋の存在を確認し, 脳接続性フィンガープリンティングにおける既存の広範な研究の因果的側面から支援する。 The bulk of the research effort on brain connectivity revolves around statistical associations among brain regions, which do not directly relate to the causal mechanisms governing brain dynamics. Here we propose the multiscale causal backbone (MCB) of brain dynamics shared by a set of individuals across multiple temporal scales, and devise a principled methodology to extract it. Our approach leverages recent advances in multiscale causal structure learning and optimizes the trade-off between the model fitting and its complexity. Empirical assessment on synthetic data shows the superiority of our methodology over a baseline based on canonical functional connectivity networks. When applied to resting-state fMRI data, we find sparse MCBs for both the left and right brain hemispheres. Thanks to its multiscale nature, our approach shows that at low-frequency bands, causal dynamics are driven by brain regions associated with high-level cognitive functions; at higher frequencies instead, nodes related to sensory processing play a crucial role. Finally, our analysis of individual multiscale causal structures confirms the existence of a causal fingerprint of brain connectivity, thus supporting from a causal perspective the existing extensive research in brain connectivity fingerprinting. | 翻訳日:2023-11-02 16:00:55 公開日:2023-10-31 |
# badllama: llama 2-chat 13bから安全性の微調整を安価に取り除く BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B ( http://arxiv.org/abs/2311.00117v1 ) ライセンス: Link先を確認 | Pranav Gade and Simon Lermen and Charlie Rogers-Smith and Jeffrey Ladish | (参考訳) Llama 2-ChatはMetaが開発・リリースした大規模な言語モデルのコレクションである。
meta fine-tuned llama 2-chatは有害なコンテンツの出力を拒否するが、モデルウェイトへのパブリックアクセスにより、悪役がllama 2-chatのセーフガードを安価に回避し、悪質な目的のためにllama 2の能力を武器化できると仮定する。
Llama 2-Chat 13Bから200ドル未満で安全性の微調整を効果的に解き放つことが可能であることを実証した。
本研究は, モデル重みを公にリリースした場合の誤用防止に安全チューニングが有効でないことを示す。
将来のモデルが大規模に危害を引き起こす能力がより大きくなる可能性を考えると、ai開発者がモデル重みを公にリリースするかどうかを考える際に、微調整による脅威に対処することが不可欠である。 Llama 2-Chat is a collection of large language models that Meta developed and released to the public. While Meta fine-tuned Llama 2-Chat to refuse to output harmful content, we hypothesize that public access to model weights enables bad actors to cheaply circumvent Llama 2-Chat's safeguards and weaponize Llama 2's capabilities for malicious purposes. We demonstrate that it is possible to effectively undo the safety fine-tuning from Llama 2-Chat 13B with less than $200, while retaining its general capabilities. Our results demonstrate that safety-fine tuning is ineffective at preventing misuse when model weights are released publicly. Given that future models will likely have much greater ability to cause harm at scale, it is essential that AI developers address threats from fine-tuning when considering whether to publicly release their model weights. | 翻訳日:2023-11-02 16:00:36 公開日:2023-10-31 |
# bertwich: bertの機能を拡張して、方言と騒がしいテキストをモデル化する BERTwich: Extending BERT's Capabilities to Model Dialectal and Noisy Text ( http://arxiv.org/abs/2311.00116v1 ) ライセンス: Link先を確認 | Aarohi Srivastava and David Chiang | (参考訳) 現実世界のNLPアプリケーションは、しばしば非標準テキスト(例えば、方言、非公式または誤文)を扱う。
しかし、bertのような言語モデルは方言の変化や雑音に直面して悪化する。
BERTのモデリング機能は、どのようにして非標準テキストを包含するか?
微調整は役に立つが、それはモデルをタスクに特化するために設計されており、モデルを非標準言語に適応するのに必要となる、より深く、より広範に変化をもたらすようには見えない。
本稿では,BERTのエンコーダスタックを,雑音のあるテキスト上でマスキング言語モデリングを行うために訓練された追加エンコーダ層の間に挟み込むという新しいアイデアを紹介する。
提案手法は,文字レベルのノイズを微調整データに含む最近の研究と組み合わせることで,方言テキストへのゼロショット転送を促進し,単語と雑音間の埋め込み空間における距離を削減できることがわかった。 Real-world NLP applications often deal with nonstandard text (e.g., dialectal, informal, or misspelled text). However, language models like BERT deteriorate in the face of dialect variation or noise. How do we push BERT's modeling capabilities to encompass nonstandard text? Fine-tuning helps, but it is designed for specializing a model to a task and does not seem to bring about the deeper, more pervasive changes needed to adapt a model to nonstandard language. In this paper, we introduce the novel idea of sandwiching BERT's encoder stack between additional encoder layers trained to perform masked language modeling on noisy text. We find that our approach, paired with recent work on including character-level noise in fine-tuning data, can promote zero-shot transfer to dialectal text, as well as reduce the distance in the embedding space between words and their noisy counterparts. | 翻訳日:2023-11-02 16:00:14 公開日:2023-10-31 |
# 抽出:埋め込みにおけるバイアスの透明な制御 EXTRACT: Explainable Transparent Control of Bias in Embeddings ( http://arxiv.org/abs/2311.00115v1 ) ライセンス: Link先を確認 | Zhijin Guo, Zhaozhen Xu, Martha Lewis, Nello Cristianini | (参考訳) 知識グラフは、さまざまなAIアプリケーションにおけるエンティティ間の関係を表現するために広く使われている手法であり、グラフ埋め込みは、推論や決定を容易にする方法として、知識グラフを表現する標準技術として急速に普及している。
この表現は行動データから得られ、人間が読み取ることができる形ではないため、バイアスにつながる可能性のある意図しない情報を取り込むことが懸念されている。
本稿では,知識グラフ埋め込みにおけるバイアスを制御し,保護情報の暗黙的存在を評価し,低減するための,説明可能で透明な手法のセットを提案する。
本手法は,CCA(Canonical correlation Analysis)を用いて,学習中の情報漏洩の存在,範囲,発生源を解析し,線形系を解くことにより,その個人属性の和に埋め込みを分解する。
MovieLens1Mデータセットを用いて行った実験では、性別、年齢、職業など、ユーザの視聴行動や嗜好から、さまざまな個人属性を推定できることが示されている。
kg20cの引用データセットで行ったさらなる実験により、論文が発行された会議に関する情報が、この記事の引用ネットワークから推測できることが示されている。
不要な情報を保持することなく,意図した予測を行うための埋め込み能力を維持するための4つの透過的な方法を提案する。
これら2つの目標のトレードオフが観察される。 Knowledge Graphs are a widely used method to represent relations between entities in various AI applications, and Graph Embedding has rapidly become a standard technique to represent Knowledge Graphs in such a way as to facilitate inferences and decisions. As this representation is obtained from behavioural data, and is not in a form readable by humans, there is a concern that it might incorporate unintended information that could lead to biases. We propose EXTRACT: a suite of Explainable and Transparent methods to ConTrol bias in knowledge graph embeddings, so as to assess and decrease the implicit presence of protected information. Our method uses Canonical Correlation Analysis (CCA) to investigate the presence, extent and origins of information leaks during training, then decomposes embeddings into a sum of their private attributes by solving a linear system. Our experiments, performed on the MovieLens1M dataset, show that a range of personal attributes can be inferred from a user's viewing behaviour and preferences, including gender, age, and occupation. Further experiments, performed on the KG20C citation dataset, show that the information about the conference in which a paper was published can be inferred from the citation network of that article. We propose four transparent methods to maintain the capability of the embedding to make the intended predictions without retaining unwanted information. A trade-off between these two goals is observed. | 翻訳日:2023-11-02 15:59:58 公開日:2023-10-31 |
# 量子クエンチェによる$z_{2}$フロケット位相相の動的キャラクタリゼーション Dynamical characterization of $Z_{2}$ Floquet topological phases via quantum quenches ( http://arxiv.org/abs/2311.00114v1 ) ライセンス: Link先を確認 | Lin Zhang | (参考訳) フロッケ位相相の完全なキャラクタリゼーションは、通常、駆動期間全体を通してマイクロモーションに関する情報を必要とする。
ここでは, 自明かつ静的な初期状態から, パラメータの急激な変更と周期的駆動の切り替えによって, 系をFloquet位相に切り換えることにより, 約$Z_{2}$ Floquet位相のフルかつ実現可能な動的特徴付け理論を開発する。
ストロボスコープによる時間平均スピン分極によるフロッケバンドの最小情報を測定することにより、0$または$\pi$ギャップと呼ばれるブリルアンゾーンの離散モーメント上に現れる位相的スピンテクスチャパターンは、対応する準エネルギーギャップにおけるフロッケ境界モードを一意的に決定する測定可能な力学量$z_{2}$フロッケ不変量を与える。
この理論の応用は、現在の量子シミュレーション実験でアクセスできる1次元モデルと2次元モデルによって示される。
我々の研究は、$Z_{2}$ Floquetの位相位相を検知し、実験研究を進めるための非常に実現可能な方法を提供する。 The complete characterization of Floquet topological phases is usually hard for the requirement of information about the micromotion throughout the entire driving period. Here we develop a full and feasible dynamical characterization theory for the $Z_{2}$ Floquet topological phases by quenching the system from a trivial and static initial state to the Floquet topological regime through suddenly changing the parameters and turning on the periodic driving. By measuring the minimal information of Floquet bands via the stroboscopic time-averaged spin polarizations, we show that the topological spin texture patterns emerging on certain discrete momenta of Brillouin zone called the $0$ or $\pi$ gap highest-order band-inversion surfaces provide a measurable dynamical $Z_{2}$ Floquet invariant, which uniquely determines the Floquet boundary modes in the corresponding quasienergy gap. The applications of our theory are illustrated via one- and two-dimensional models that are accessible in current quantum simulation experiments. Our work provides a highly feasible way to detect the $Z_{2}$ Floquet topological phases and shall advance the experimental studies. | 翻訳日:2023-11-02 15:59:36 公開日:2023-10-31 |
# FairWASP: 高速かつ最適なFair Wasserstein前処理 FairWASP: Fast and Optimal Fair Wasserstein Pre-processing ( http://arxiv.org/abs/2311.00109v1 ) ライセンス: Link先を確認 | Zikai Xiong, Niccol\`o Dalmasso, Alan Mishler, Vamsi K. Potluru, Tucker Balch, Manuela Veloso | (参考訳) 近年、異なるサブグループ間のモデル出力の差を減らすことを目的とした機械学習アプローチが急増している。
多くの設定において、トレーニングデータは異なるユーザによって複数の下流アプリケーションで使用される可能性があるため、トレーニングデータ自体に介入するのが最も効果的である。
本稿では,分類データセットの差異を元のデータを変更することなく減らすために設計された,新しい前処理手法であるfairwaspを提案する。
FairWASPはサンプルレベルの重みを返すため、再重み付けされたデータセットは、ワッサースタインから元のデータセットまでの距離を最小化し、(実証的なバージョンの)人口統計値を満たす。
理論上,整数重みは最適であることを示し,この手法は標本の重複や除去と等価に解釈できることを示した。
したがって、FairWASPは、サンプル重量を受け入れるメソッドだけでなく、任意の分類方法に入力可能なデータセットを構築するために使用できる。
本研究は, 大規模混合整数プログラム (MIP) として前処理タスクを再構成し, 切削平面法に基づく高効率なアルゴリズムを提案する。
合成データセットの実験により,提案アルゴリズムは,MIPと線形プログラム緩和の双方を解く上で,最先端の商用解法よりも大幅に優れていることが示された。
さらに実験では、下流の分類設定で精度を保ちながら格差を減らし、FairWASPの競争性能を強調している。 Recent years have seen a surge of machine learning approaches aimed at reducing disparities in model outputs across different subgroups. In many settings, training data may be used in multiple downstream applications by different users, which means it may be most effective to intervene on the training data itself. In this work, we present FairWASP, a novel pre-processing approach designed to reduce disparities in classification datasets without modifying the original data. FairWASP returns sample-level weights such that the reweighted dataset minimizes the Wasserstein distance to the original dataset while satisfying (an empirical version of) demographic parity, a popular fairness criterion. We show theoretically that integer weights are optimal, which means our method can be equivalently understood as duplicating or eliminating samples. FairWASP can therefore be used to construct datasets which can be fed into any classification method, not just methods which accept sample weights. Our work is based on reformulating the pre-processing task as a large-scale mixed-integer program (MIP), for which we propose a highly efficient algorithm based on the cutting plane method. Experiments on synthetic datasets demonstrate that our proposed optimization algorithm significantly outperforms state-of-the-art commercial solvers in solving both the MIP and its linear program relaxation. Further experiments highlight the competitive performance of FairWASP in reducing disparities while preserving accuracy in downstream classification settings. | 翻訳日:2023-11-02 15:59:13 公開日:2023-10-31 |
# 3次元地震インバージョンのための深部圧縮学習 Deep Compressed Learning for 3D Seismic Inversion ( http://arxiv.org/abs/2311.00107v1 ) ライセンス: Link先を確認 | Maayan Gelboim, Amir Adler, Yen Sun, Mauricio Araya-Polo | (参考訳) ごく少数の地震源を用いたプレスタックデータからの3次元地震インバージョン問題について考察する。
提案するソリューションは、圧縮センシングと、圧縮学習として知られる機械学習フレームワークの組み合わせに基づいている。
この解は、深層畳み込みニューラルネットワーク(dcnn)によって実装された次元縮小演算子と3次元反転エンコーダデコーダを共同で最適化する。
次元の削減は、利用可能なソースの小さなサブセットを選択するスパースバイナリセンシング層を学習し、選択したデータをdcnnに供給して回帰タスクを完了することで達成される。
エンドツーエンド学習プロセスは、データセット全体を使用して得られたものと同等の3次元再構築品質を維持しながら、トレーニングで使用する地震記録の数の桁違いな削減を提供する。 We consider the problem of 3D seismic inversion from pre-stack data using a very small number of seismic sources. The proposed solution is based on a combination of compressed-sensing and machine learning frameworks, known as compressed-learning. The solution jointly optimizes a dimensionality reduction operator and a 3D inversion encoder-decoder implemented by a deep convolutional neural network (DCNN). Dimensionality reduction is achieved by learning a sparse binary sensing layer that selects a small subset of the available sources, then the selected data is fed to a DCNN to complete the regression task. The end-to-end learning process provides a reduction by an order-of-magnitude in the number of seismic records used during training, while preserving the 3D reconstruction quality comparable to that obtained by using the entire dataset. | 翻訳日:2023-11-02 15:58:49 公開日:2023-10-31 |
# 量子テレポーテーションによる有限温度での量子臨界点の検出:さらなるモデル Detecting quantum critical points at finite temperature via quantum teleportation: further models ( http://arxiv.org/abs/2311.00105v1 ) ライセンス: Link先を確認 | G. A. P. Ribeiro and Gustavo Rigolin | (参考訳) A 107, 052420 (2023)] において、系が絶対零温度(T=0)から離れていても、いくつかの異なる量子相転移のクラスに関連する量子臨界点(QCP)を検出するために量子テレポーテーションプロトコルが使用できることを示した。
ここでは、熱力学的極限(無限鎖)において、他のいくつかのスピン-1/2モデルに対する以前の解析を拡張する。
温度が0または0以上の場合、これらのモデルのqcpを検出するための量子テレポーテーションプロトコルの有用性について検討する。
ここで研究するスピン鎖は、xxzモデル、xyモデル、イジングモデルによって説明され、これらはすべて外部磁場を受ける。
具体的には、温度Tの貯水池と熱平衡における無限スピン鎖からの近接量子ビットを資源として使用し、量子テレポーテーションプロトコルを実行する。
この2組の量子ビットが鎖から外部の量子ビットを忠実にテレポートする能力は、上記のモデルに関連するQCPを横断するときに、劇的に影響を受ける。
この結果は、[Phys. Rev. A 107, 052420 (2023)]と合わせて、量子テレポーテーションプロトコルは、絶対零温度から遠く離れた系であってもQCPを検出するための頑健で非常に普遍的なツールであることを示唆している。 In [Phys. Rev. A 107, 052420 (2023)] we showed that the quantum teleportation protocol can be used to detect quantum critical points (QCPs) associated with a couple of different classes of quantum phase transitions, even when the system is away from the absolute zero temperature (T=0). Here, working in the thermodynamic limit (infinite chains), we extend the previous analysis for several other spin-1/2 models. We investigate the usefulness of the quantum teleportation protocol to detect the QCPs of those models when the temperature is either zero or greater than zero. The spin chains we investigate here are described by the XXZ model, the XY model, and the Ising model, all of them subjected to an external magnetic field. Specifically, we use a pair of nearest neighbor qubits from an infinite spin chain at thermal equilibrium with a reservoir at temperature T as the resource to execute the quantum teleportation protocol. We show that the ability of this pair of qubits to faithfully teleport an external qubit from the chain is dramatically affected as we cross the QCPs related to the aforementioned models. The results here presented together with the ones of [Phys. Rev. A 107, 052420 (2023)] suggest that the quantum teleportation protocol is a robust and quite universal tool to detect QCPs even when the system of interest is far from the absolute zero temperature. | 翻訳日:2023-11-02 15:58:35 公開日:2023-10-31 |
# 位相遷移によるトポロジカル量子計算 Topological quantum computation assisted by phase transitions ( http://arxiv.org/abs/2311.00103v1 ) ライセンス: Link先を確認 | Yuanjie Ren and Peter Shor | (参考訳) 本稿では,サブフェーズと位相遷移によるトポロジカル量子計算について検討する。
任意の任意の有限群 $g$ に対して、量子二重モデル $\mathcal{d}(g)$ の部分相間で、anyon tunneling map を調べることによって開始する。
その後、$\varphi$とFloquetコードの関係を調べ、Abelian Floquetコードを非アーベルケースを含むように拡張します。
モジュラーテンソル圏によって記述される一般位相的順序に対する位相ゲートの多様性を,時間的および空間的方向の相転移がいかに高めるかを示すことによって結論づける。 In this paper, we explore topological quantum computation augmented by subphases and phase transitions. We commence by investigating the anyon tunneling map, denoted as $\varphi$, between subphases of the quantum double model $\mathcal{D}(G)$ for any arbitrary finite group $G$. Subsequently, we delve into the relationship between $\varphi$ and the Floquet code, and extend the Abelian Floquet code to encompass non-abelian cases. We conclude by demonstrating how phase transitions in both the temporal and spatial directions can enhance the diversity of topological gates for general topological orders described by modular tensor categories. | 翻訳日:2023-11-02 15:58:09 公開日:2023-10-31 |
# ラベル雑音下でのロバスト学習のための帯域駆動バッチ選択 Bandit-Driven Batch Selection for Robust Learning under Label Noise ( http://arxiv.org/abs/2311.00096v1 ) ライセンス: Link先を確認 | Michal Lisicki, Mihai Nica, Graham W. Taylor | (参考訳) 本稿では,SGD(Stochastic Gradient Descent)トレーニングにおけるバッチ選択のための新しい手法を提案する。
本手法は,ラベルノイズの存在下での学習過程の最適化に重点を置いている。
CIFAR-10データセットの実験的評価から,提案手法はラベル破損のレベルにおいて,既存の手法よりも一貫して優れていたことが判明した。
重要なのは,補助ニューラルネットワークモデルに共通する計算オーバーヘッドを伴わずに,この優れた性能を実現することだ。
この研究は計算効率とモデルの有効性のバランスの取れたトレードオフを示し、複雑な機械学習アプリケーションにスケーラブルなソリューションを提供する。 We introduce a novel approach for batch selection in Stochastic Gradient Descent (SGD) training, leveraging combinatorial bandit algorithms. Our methodology focuses on optimizing the learning process in the presence of label noise, a prevalent issue in real-world datasets. Experimental evaluations on the CIFAR-10 dataset reveal that our approach consistently outperforms existing methods across various levels of label corruption. Importantly, we achieve this superior performance without incurring the computational overhead commonly associated with auxiliary neural network models. This work presents a balanced trade-off between computational efficiency and model efficacy, offering a scalable solution for complex machine learning applications. | 翻訳日:2023-11-02 15:57:57 公開日:2023-10-31 |
# オフラインRLでは表現的モデリングが不十分である:トラクタブル推論の視点 Expressive Modeling Is Insufficient for Offline RL: A Tractable Inference Perspective ( http://arxiv.org/abs/2311.00094v1 ) ライセンス: Link先を確認 | Xuejie Liu, Anji Liu, Guy Van den Broeck and Yitao Liang | (参考訳) オフライン強化学習(rl)タスクの一般的なパラダイムは、まずオフライントラジェクタをシーケンスモデルに適合させ、次に期待されたリターンにつながるアクションをモデルに促すことである。
一般的なコンセンサスとして、より表現力のあるシーケンスモデルの方がパフォーマンスの向上を示唆するが、この論文は、トラクタビリティ、様々な確率的クエリを正確にかつ効率的に答える能力が、同様に重要な役割を担っていることを強調している。
具体的には、オフラインデータ収集ポリシーと環境ダイナミクスの基本的な確率性から、報酬行為を誘発するために非常に非自明な条件付き/制約付き生成が必要となる。
このようなクエリを近似することは依然として可能であるが、そのような粗い推定が表現的シーケンスモデルによる利点を著しく損なうことを観察する。
そこで本研究では,Trifle (Tractable Inference for Offline RL) を提案する。このTrifle (Tractable Inference for Offline RL) は,Tractable Probabilistic Models (TPM) を利用して,良好なシーケンスモデルと高い予測リターンとのギャップを橋渡しする。
経験上、trifleは9つのジム・ムジョコベンチマークにおいて、強力なベースラインに対して最先端のスコアを達成している。
さらに、そのトラクタビリティのため、Trifleは確率的な環境や安全なRLタスク(例えば、アクション制約)において、最小限のアルゴリズム修正で、従来のアプローチよりも大幅に優れている。 A popular paradigm for offline Reinforcement Learning (RL) tasks is to first fit the offline trajectories to a sequence model, and then prompt the model for actions that lead to high expected return. While a common consensus is that more expressive sequence models imply better performance, this paper highlights that tractability, the ability to exactly and efficiently answer various probabilistic queries, plays an equally important role. Specifically, due to the fundamental stochasticity from the offline data-collection policies and the environment dynamics, highly non-trivial conditional/constrained generation is required to elicit rewarding actions. While it is still possible to approximate such queries, we observe that such crude estimates significantly undermine the benefits brought by expressive sequence models. To overcome this problem, this paper proposes Trifle (Tractable Inference for Offline RL), which leverages modern Tractable Probabilistic Models (TPMs) to bridge the gap between good sequence models and high expected returns at evaluation time. Empirically, Trifle achieves the most state-of-the-art scores in 9 Gym-MuJoCo benchmarks against strong baselines. Further, owing to its tractability, Trifle significantly outperforms prior approaches in stochastic environments and safe RL tasks (e.g. with action constraints) with minimum algorithmic modifications. | 翻訳日:2023-11-02 15:57:45 公開日:2023-10-31 |
# ランダム座標降下-パラメータ化量子回路の最適化のための簡単な方法 Random coordinate descent: a simple alternative for optimizing parameterized quantum circuits ( http://arxiv.org/abs/2311.00088v1 ) ライセンス: Link先を確認 | Zhiyan Ding and Taehee Ko and Jiahao Yao and Lin Lin and Xiantao Li | (参考訳) 変分量子アルゴリズムは雑音条件下でのパラメータ化量子回路の最適化に依存する。
古典的機械学習において一般的に用いられるバックプロパゲーション手順は、測定後の量子状態の崩壊のため、この設定では直接適用されない。
したがって、勾配推定はそのような量子回路の勾配に基づく最適化において大きなオーバーヘッドとなる。
本稿では,完全な勾配降下アルゴリズムに代わる実用的かつ実装が容易なランダム座標降下アルゴリズムを提案する。
このアルゴリズムは反復毎に1つの部分微分しか必要としない。
本稿では,パラメータ化量子回路の実用最適化における計測ノイズの挙動に触発され,解析に適する最適化問題設定を提案する。
この設定の下では、ランダム座標降下アルゴリズムは全勾配法と同じ確率的安定性を示し、ノイズに対して弾力性を持つ。
ランダム座標降下法の複雑さは一般に勾配降下法よりも悪くなく、異方性リプシッツ定数を持つ様々な量子最適化問題に対してより良くなる。
理論解析と広範な数値実験により,この知見が検証された。 Variational quantum algorithms rely on the optimization of parameterized quantum circuits in noisy settings. The commonly used back-propagation procedure in classical machine learning is not directly applicable in this setting due to the collapse of quantum states after measurements. Thus, gradient estimations constitute a significant overhead in a gradient-based optimization of such quantum circuits. This paper introduces a random coordinate descent algorithm as a practical and easy-to-implement alternative to the full gradient descent algorithm. This algorithm only requires one partial derivative at each iteration. Motivated by the behavior of measurement noise in the practical optimization of parameterized quantum circuits, this paper presents an optimization problem setting that is amenable to analysis. Under this setting, the random coordinate descent algorithm exhibits the same level of stochastic stability as the full gradient approach, making it as resilient to noise. The complexity of the random coordinate descent method is generally no worse than that of the gradient descent and can be much better for various quantum optimization problems with anisotropic Lipschitz constants. Theoretical analysis and extensive numerical experiments validate our findings. | 翻訳日:2023-11-02 15:57:16 公開日:2023-10-31 |
# 北極海における海氷濃度と漂流予測のための多タスク深層畳み込みネットワーク Multi-task Deep Convolutional Network to Predict Sea Ice Concentration and Drift in the Arctic Ocean ( http://arxiv.org/abs/2311.00167v1 ) ライセンス: Link先を確認 | Younghyun Koo, Maryam Rahnemoonfar | (参考訳) 北極海における海氷濃度(SIC)と海氷漂流(SID)の予測は、近年の温暖化によって北極環境が変化してきたため、非常に重要である。
物理海氷モデルは複雑なパラメータ化を伴う計算コストが高いため、深層学習技術は物理的モデルを効果的に置き換え、海氷予測の性能を向上させることができる。
本研究では,階層型情報共有U-net (HIS-Unet) と呼ばれる新しいマルチタスクネットワークアーキテクチャを提案する。
各ブランチでSICとSIDを個別に学習する代わりに、SICとSIDレイヤが情報を共有し、重み付けアテンションモジュール(WAM)を通してお互いの予測を支援する。
その結果、his-unetは、他の統計的アプローチ、海氷物理モデル、ニューラルネットワークを、そのような情報共有ユニットなしで上回っている。
HIS-Unetの改良はSICとSID予測の両方において,海氷条件が季節的に変化した時期と時期について明らかであり,WAMによる情報共有により,SICとSIDの急激な変化を学習することが可能である。
wamsの重量値は、sic予測におけるsid情報よりもsic情報の方がsid予測において重要な役割を担っており、情報共有は中央北極(多年海氷)よりも海氷(季節海氷)においてより活発であることを示している。 Forecasting sea ice concentration (SIC) and sea ice drift (SID) in the Arctic Ocean is of great significance as the Arctic environment has been changed by the recent warming climate. Given that physical sea ice models require high computational costs with complex parameterization, deep learning techniques can effectively replace the physical model and improve the performance of sea ice prediction. This study proposes a novel multi-task fully conventional network architecture named hierarchical information-sharing U-net (HIS-Unet) to predict daily SIC and SID. Instead of learning SIC and SID separately at each branch, we allow the SIC and SID layers to share their information and assist each other's prediction through the weighting attention modules (WAMs). Consequently, our HIS-Unet outperforms other statistical approaches, sea ice physical models, and neural networks without such information-sharing units. The improvement of HIS-Unet is obvious both for SIC and SID prediction when and where sea ice conditions change seasonally, which implies that the information sharing through WAMs allows the model to learn the sudden changes of SIC and SID. The weight values of the WAMs imply that SIC information plays a more critical role in SID prediction, compared to that of SID information in SIC prediction, and information sharing is more active in sea ice edges (seasonal sea ice) than in the central Arctic (multi-year sea ice). | 翻訳日:2023-11-02 15:49:40 公開日:2023-10-31 |
# 道路安全モデリングのためのグラフニューラルネットワーク:事故解析のためのデータセットと評価 Graph Neural Networks for Road Safety Modeling: Datasets and Evaluations for Accident Analysis ( http://arxiv.org/abs/2311.00164v1 ) ライセンス: Link先を確認 | Abhinav Nippani, Dongyue Li, Haotian Ju, Haris N. Koutsopoulos, Hongyang R. Zhang | (参考訳) 道路網の接続と交通量に基づく道路網における交通事故解析の問題点について考察する。
過去の研究は、交通事故の発生を予測するために歴史的記録を用いた様々な深層学習手法を設計してきた。
しかしながら、既存の手法の正確性に関するコンセンサスが欠如しており、基本的な問題は総合的な評価のための公開事故データセットの欠如である。
本稿では,米国各州の公報から得られた交通事故記録の大規模統一データセットを構築し,道路網と交通量報告を伴い,合計900万件の記録を収集した。
この新しいデータセットを用いて,道路網における事故発生予測のための既存のディープラーニング手法を評価する。
私たちの主な発見は、graphsageのようなグラフニューラルネットワークは、絶対誤差が22%未満の道路での事故数を正確に予測でき、事故が87%以上のaurocで発生するかどうかを、状態平均で予測できるということです。
本研究では,交通量と事故予測を組み合わせるために,マルチタスク学習を用いてクロスステートな変動(事故ラベルの可用性など)を考慮し,これらの結果を得る。
アブレーション研究は、道路グラフ構造の特徴、その他の特徴の重要性を強調している。
最後に、分析の意味について論じ、新しいデータセットを簡単に利用できるパッケージを開発する。 We consider the problem of traffic accident analysis on a road network based on road network connections and traffic volume. Previous works have designed various deep-learning methods using historical records to predict traffic accident occurrences. However, there is a lack of consensus on how accurate existing methods are, and a fundamental issue is the lack of public accident datasets for comprehensive evaluations. This paper constructs a large-scale, unified dataset of traffic accident records from official reports of various states in the US, totaling 9 million records, accompanied by road networks and traffic volume reports. Using this new dataset, we evaluate existing deep-learning methods for predicting the occurrence of accidents on road networks. Our main finding is that graph neural networks such as GraphSAGE can accurately predict the number of accidents on roads with less than 22% mean absolute error (relative to the actual count) and whether an accident will occur or not with over 87% AUROC, averaged over states. We achieve these results by using multitask learning to account for cross-state variabilities (e.g., availability of accident labels) and transfer learning to combine traffic volume with accident prediction. Ablation studies highlight the importance of road graph-structural features, amongst other features. Lastly, we discuss the implications of the analysis and develop a package for easily using our new dataset. | 翻訳日:2023-11-02 15:49:10 公開日:2023-10-31 |
# 時間経過に伴う量子状態の一般共分散 General covariance for quantum states over time ( http://arxiv.org/abs/2311.00162v1 ) ライセンス: Link先を確認 | James Fullwood | (参考訳) 時間的量子状態の理論は、時空と直接類似する量子情報の力学とその古典力学との関係へのアプローチを提供する。
この研究では、量子状態の理論に対する一般共分散の概念を時間とともに定式化することで、このような類似性をさらに高める。
その後、正のトレース保存(CPTP)写像でモデル化された量子過程の列の下で進化する密度演算子と時間とともに正準状態とを関連付け、時間とともにそのような正準状態が共分散の概念を満たすことを示す。
また、動的量子ベイズの規則は時間とともに状態に対して共変的に変換されることを示し、時間とともに量子状態の項で定式化されたとき、物理法則が一般的に共変であるという意味について議論する。 The theory of quantum states over time provides an approach to the dynamics of quantum information which is in direct analogy with spacetime and its relation to classical dynamics. In this work, we further such an analogy by formulating a notion of general covariance for the theory of quantum states over time. We then associate a canonical state over time with a density operator which is to evolve under a sequence of quantum processes modeled by completely positive trace-preserving (CPTP) maps, and we show that such a canonical state over time satisfies such a notion of covariance. We also show that the dynamical quantum Bayes' rule transforms covariantly with respect to states over time, and we conclude with a discussion of what it means for a physical law to be generally covariant when formulated in terms of quantum states over time. | 翻訳日:2023-11-02 15:48:48 公開日:2023-10-31 |
# 憎しみの否定を超えて: 言語における暗黙のバイアスとステレオタイプに対抗する戦略 Beyond Denouncing Hate: Strategies for Countering Implied Biases and Stereotypes in Language ( http://arxiv.org/abs/2311.00161v1 ) ライセンス: Link先を確認 | Jimin Mun, Emily Allaway, Akhila Yerukola, Laura Vianna, Sarah-Jane Leslie, Maarten Sap | (参考訳) counterspeech、すなわちヘイトスピーチの潜在的な害に対抗する反応は、検閲なしでオンラインヘイトスピーチに対処するための一般的なソリューションになりつつある。
しかし、憎しみに満ちた言語に適切に対応するためには、そのような言語に暗示される不正確なステレオタイプをカウンター・アンド・ディスペアリングする必要がある。
本研究は, 心理学と哲学の文献から, 憎悪言語の基礎的定型的意味に挑戦するために, 6つの心理的にインスパイアされた戦略を考案する。
まず,これらの戦略の妥当性をユーザスタディを通じて検証し,その利用状況を人文と機械生成の対音声データセットで比較する。
以上の結果から,人間によるカウンター音声は,指示されたステレオタイプ(例えば,ステレオタイプに対する反例,ステレオタイプの起源に関する外的要因)に比例したカウンター音声を利用するのに対し,機械生成のカウンター音声はより具体的でない戦略(例えば,音声の憎しみを否定する)を用いることがわかった。
さらに、機械生成の対音声は、人間が生成した対音声よりも説得力の低いと判断する戦略をしばしば採用している。
以上の結果から,反音声発生時の音声のステレオタイプ的含意と,反ステレオタイプ的事例に対する機械的推論の改善の重要性が示唆された。 Counterspeech, i.e., responses to counteract potential harms of hateful speech, has become an increasingly popular solution to address online hate speech without censorship. However, properly countering hateful language requires countering and dispelling the underlying inaccurate stereotypes implied by such language. In this work, we draw from psychology and philosophy literature to craft six psychologically inspired strategies to challenge the underlying stereotypical implications of hateful language. We first examine the convincingness of each of these strategies through a user study, and then compare their usages in both human- and machine-generated counterspeech datasets. Our results show that human-written counterspeech uses countering strategies that are more specific to the implied stereotype (e.g., counter examples to the stereotype, external factors about the stereotype's origins), whereas machine-generated counterspeech uses less specific strategies (e.g., generally denouncing the hatefulness of speech). Furthermore, machine-generated counterspeech often employs strategies that humans deem less convincing compared to human-produced counterspeech. Our findings point to the importance of accounting for the underlying stereotypical implications of speech when generating counterspeech and for better machine reasoning about anti-stereotypical examples. | 翻訳日:2023-11-02 15:48:32 公開日:2023-10-31 |
# より長い修正、より計算: Gaze-Guided Recurrent Neural Networks Longer Fixations, More Computation: Gaze-Guided Recurrent Neural Networks ( http://arxiv.org/abs/2311.00159v1 ) ライセンス: Link先を確認 | Xinting Huang, Jiajing Wan, Ioannis Kritikos, Nora Hollenstein | (参考訳) 人間はさまざまなペースでテキストを読み、機械学習モデルは計算プロセスの観点から、それぞれのトークンを同じように扱う。
したがって、モデルをより人間らしく振る舞うのに役立つのだろうか?
本稿では,この直観を固定誘導並列RNNやレイヤを用いた新しいモデルに変換し,言語モデリングおよび感情分析タスクの様々な実験を行い,その有効性を検証することにより,この直観に対する実証的検証を行う。
提案するモデルは言語モデリングタスクにおいて、ベースラインモデルを大幅に上回る優れた性能を達成します。
さらに、興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定に類似している。
明確なガイダンスがなければ、モデルも人間と同じような選択をする。
また、これらの違いの原因についても検討し、言語モデルの指導に使用する場合、「モデル修正」が人間の固定よりも適している理由を説明する。 Humans read texts at a varying pace, while machine learning models treat each token in the same way in terms of a computational process. Therefore, we ask, does it help to make models act more like humans? In this paper, we convert this intuition into a set of novel models with fixation-guided parallel RNNs or layers and conduct various experiments on language modeling and sentiment analysis tasks to test their effectiveness, thus providing empirical validation for this intuition. Our proposed models achieve good performance on the language modeling task, considerably surpassing the baseline model. In addition, we find that, interestingly, the fixation duration predicted by neural networks bears some resemblance to humans' fixation. Without any explicit guidance, the model makes similar choices to humans. We also investigate the reasons for the differences between them, which explain why "model fixations" are often more suitable than human fixations, when used to guide language models. | 翻訳日:2023-11-02 15:48:01 公開日:2023-10-31 |
# 高速拡散指数積分器サンプリング器のスコア正規化 Score Normalization for a Faster Diffusion Exponential Integrator Sampler ( http://arxiv.org/abs/2311.00157v1 ) ライセンス: Link先を確認 | Guoxuan Xia, Duolikun Danier, Ayan Das, Stathi Fotiadis, Farhang Nabiei, Ushnish Sengupta, Alberto Bernacchia | (参考訳) 近年、zhangらは拡散モデルからサンプルを高速に生成するための拡散指数積分器サンプリング(DEIS)を提案している。
確率フロー常微分方程式(ODE)の半線形性を利用して、積分誤差を大幅に低減し、低数の関数評価(NFE)における生成品質を向上させる。
このアプローチの鍵はスコア関数の再パラメータ化であり、各統合ステップで固定スコア関数推定を使用することで生じる統合エラーを低減する。
オリジナルの著者はノイズ予測のために訓練されたモデルで使用されるデフォルトパラメータ化を使い、条件付き前方雑音分布の標準偏差によってスコアを乗算する。
このスコアパラメータ化の平均絶対値は、逆サンプリングプロセスの大部分では一定に近いが、サンプリング終了時には急速に変化する。
簡単な修正として、オフライン高NFE世代から収集した前のスコア推定値の平均絶対値によってスコア(推測値)を再パラメータ化することを提案する。
スコア正規化(DEIS-SN)はバニラDISに比べてFIDを継続的に改善し,CIFAR-10実験では10NFEにおいてFIDを6.44から5.57に改善した。
私たちのコードはhttps://github.com/mtkresearch/diffusion-deis-snで入手できる。 Recently, zhang et al have proposed the Diffusion Exponential Integrator Sampler (DEIS) for fast generation of samples from Diffusion Models. It leverages the semi-linear nature of the probability flow ordinary differential equation (ODE) in order to greatly reduce integration error and improve generation quality at low numbers of function evaluations (NFEs). Key to this approach is the score function reparameterisation, which reduces the integration error incurred from using a fixed score function estimate over each integration step. The original authors use the default parameterisation used by models trained for noise prediction -- multiply the score by the standard deviation of the conditional forward noising distribution. We find that although the mean absolute value of this score parameterisation is close to constant for a large portion of the reverse sampling process, it changes rapidly at the end of sampling. As a simple fix, we propose to instead reparameterise the score (at inference) by dividing it by the average absolute value of previous score estimates at that time step collected from offline high NFE generations. We find that our score normalisation (DEIS-SN) consistently improves FID compared to vanilla DEIS, showing an FID improvement from 6.44 to 5.57 at 10 NFEs for our CIFAR-10 experiments. Our code is available at https://github.com/mtkresearch/Diffusion-DEIS-SN. | 翻訳日:2023-11-02 15:47:45 公開日:2023-10-31 |
# メディCAT:医用画像分類のためのコントラスト対応トレーニング Medi-CAT: Contrastive Adversarial Training for Medical Image Classification ( http://arxiv.org/abs/2311.00154v1 ) ライセンス: Link先を確認 | Pervaiz Iqbal Khan, Andreas Dengel, Sheraz Ahmed | (参考訳) 医用画像の大規模なデータセットは多くない。
これらのデータセットでは、あまりに小さなディープラーニングモデルは有用な機能を学習できないため、不適合のためうまく動作せず、大きすぎるモデルは限られたデータに過剰に適合しがちです。
その結果、2つの問題の間に妥協が生じた。
本稿では,医療画像データセットにおける過度に適合する現象を克服するためのトレーニング戦略であるMedi-CATを提案する。
具体的には,事前学習した視覚トランスフォーマを用いて,不適合を克服し,不適合を回避し,相反的かつコントラスト的な学習手法を提案する。
本手法は,MedMNISTコレクションから4つの医用画像分類データセットをトレーニングし,評価する。
実験結果から,提案手法は既知の手法と比較して3つのベンチマークデータセットの精度を最大2%向上する一方,ベースライン手法よりも4.1%向上することが示唆された。 There are not many large medical image datasets available. For these datasets, too small deep learning models can't learn useful features, so they don't work well due to underfitting, and too big models tend to overfit the limited data. As a result, there is a compromise between the two issues. This paper proposes a training strategy Medi-CAT to overcome the underfitting and overfitting phenomena in medical imaging datasets. Specifically, the proposed training methodology employs large pre-trained vision transformers to overcome underfitting and adversarial and contrastive learning techniques to prevent overfitting. The proposed method is trained and evaluated on four medical image classification datasets from the MedMNIST collection. Our experimental results indicate that the proposed approach improves the accuracy up to 2% on three benchmark datasets compared to well-known approaches, whereas it increases the performance up to 4.1% over the baseline methods. | 翻訳日:2023-11-02 15:47:25 公開日:2023-10-31 |
# 柔軟な拡張ポリシーをサポートする拡張を自動化するツールの開発 Developing a Tool to Automate Extensions to Support a Flexible Extension Policy ( http://arxiv.org/abs/2311.00152v1 ) ライセンス: Link先を確認 | Jordan Schwartz, Madison Bohannan, Jacob Yim, Yuerou Tang, Dana Benedicto, Charisse Liu, Armando Fox, Lisa Yan, Narges Norouzi | (参考訳) 本研究では,教育者を支援する自動拡張ツールを開発し,フレキシブルな拡張ポリシーを実装することで,学生の成功と幸福感を高める。
フレキシブルな拡張ポリシーは、様々な方法で実現されるが、学生とのインタラクションには類似性があり、学生は複数日間の延長を繰り返し要求する傾向がある。
数百から数千の学生のコースでは、現在利用可能なリソースと限られたスタッフのために、この拡張要求をサポートするシステムを提供できない。
そのため、柔軟な拡張プロセスの自動化を支援するツールが必要である。
このツールの開発は、学生の個別支援を増やしながら、スタッフの負担を軽減し、様々な拡張ポリシーに様々な方法で使用することができる。
RQ1: この拡張ツールは、援助を求める際の障壁やイライラを軽減しますか?
RQ2: このツールは拡張の要求と受信の間の待ち時間を減らし、そのコースにおける生徒の学習体験をどのように改善するか。
これらの質問は、フレキシブル拡張のための自動化ツールが、コースの規模を増加させるのにどのように役立つか、コースの成功と幸福のために必要なサポートを受けられない学生をいかに支援するかを教えてくれるだろう。 In this work, we present the development of an automated extension tool to assist educators and increase the success and well-being of students by implementing flexible extension policies. Flexible extension policies materialize in many ways, yet there are similarities in students' interactions with them; students tend to request multi-day long extensions repeatedly. In courses with hundreds or potentially thousands of students, providing a system to support this extension request demand is not possible given most currently available resources and limited staff. As such, a tool is necessary to help automate flexible extension processes. The development of this tool should reduce staff load while increasing individualized student support, which can be used in varying ways for different extension policies. Our research questions are: RQ1: Does the extension tool reduce barriers and stigma around asking for assistance? RQ2: Does the tool lessen the wait time between requesting and receiving an extension, and how does the tool improve students' learning experience in the course? These questions will help inform us about how an automated tool for flexible extensions helps support growing course sizes and students who may not otherwise receive the support they need for their success and well-being in the course. | 翻訳日:2023-11-02 15:47:08 公開日:2023-10-31 |
# RIR-SF:マルチチャンネルマルチストーカーASRにおける室内インパルス応答に基づく空間的特徴 RIR-SF: Room Impulse Response Based Spatial Feature for Multi-channel Multi-talker ASR ( http://arxiv.org/abs/2311.00146v1 ) ライセンス: Link先を確認 | Yiwen Shao, Shi-Xiong Zhang, Dong Yu | (参考訳) マルチチャンネルマルチトーカー自動音声認識(ASR)は、特に残響効果に直面する場合、音声コミュニティ内で進行中の課題を提示する。
本研究では,話者のマイクロホンアレイへの送信に対応する室内インパルス応答(RIR)と重なり合う音声信号の畳み込みを含む新しい手法を提案する。
この革新的な技術は、RIR-SFとして知られる新しい空間的特徴をもたらす。
従来確立されていた3次元空間特性と総合的に比較することで,提案したRIR-SFの優位性を裏付ける理論解析と実験結果が得られた。
RIR-SFは既存の手法よりも優れており、マルチチャネルマルチトーカーASRシステムにおける文字誤り率(CER)の21.3倍の相対的な減少につながっている。
重要なことに、この新機能は、以前のアプローチの限界を越えて、強い残響に直面した堅牢性を示す。 Multi-channel multi-talker automatic speech recognition (ASR) presents ongoing challenges within the speech community, particularly when confronted with significant reverberation effects. In this study, we introduce a novel approach involving the convolution of overlapping speech signals with the room impulse response (RIR) corresponding to the target speaker's transmission to a microphone array. This innovative technique yields a novel spatial feature known as the RIR-SF. Through a comprehensive comparison with the previously established state-of-the-art 3D spatial feature, both theoretical analysis and experimental results substantiate the superiority of our proposed RIR-SF. We demonstrate that the RIR-SF outperforms existing methods, leading to a remarkable 21.3\% relative reduction in the Character Error Rate (CER) in multi-channel multi-talker ASR systems. Importantly, this novel feature exhibits robustness in the face of strong reverberation, surpassing the limitations of previous approaches. | 翻訳日:2023-11-02 15:46:48 公開日:2023-10-31 |
# 軸埋め込みを用いた選挙ネガティビティ検出のための2段階分類法:2021年イラン大統領選挙における政治ユーザのつぶやきを事例として Two-Stage Classifier for Campaign Negativity Detection using Axis Embeddings: A Case Study on Tweets of Political Users during 2021 Presidential Election in Iran ( http://arxiv.org/abs/2311.00143v1 ) ライセンス: Link先を確認 | Fatemeh Rajabi and Ali Mohades | (参考訳) 世界中の選挙において、候補者は失敗や時間的プレッシャーのため、ネガティビティへのキャンペーンを転換する可能性がある。
デジタル時代には、Twitterのようなソーシャルメディアプラットフォームは政治的議論の豊富な源泉となっている。
したがって、Twitter上で大量のデータが公開されているにもかかわらず、キャンペーン否定検出の自動システムは、候補者や参加者のキャンペーン戦略を理解する上で重要な役割を果たす可能性がある。
本論文では,2つの機械学習モデルの強みを組み合わせた2段階の分類器からなるキャンペーンネガティビティを検出するハイブリッドモデルを提案する。
ここでは、候補者や政府高官を含む50人の政治ユーザーからペルシア人のツイートを収集した。
そして2021年のイラン大統領選挙の前年に発行された5100冊を注釈した。
提案モデルでは,まず,訓練セット(85\%)から,軸埋め込み(ツイートの正のクラスと負のクラスへの埋め込みの平均値)を用いたツイート埋め込みのコサイン類似性に基づく2つの分類器の必要なデータセットを作成し,それらのデータセットをハイブリッドモデルにおける2つの分類器のトレーニングセットと見なす。
最後に,最良モデル(rf-rf)はマクロf1スコアで79\%,重み付けf1スコアで82\%を達成した。
選挙の1年前に公表された50人の政治ユーザーのツイートの残りの最良のモデルを実行し、統計モデルの助けを借りて、候補者によるツイートの公開は、そのツイートの否定性とは無関係であり、そのツイートにおける政治家や政治組織の名前の存在は、その否定性に直接関係していることがわかった。 In elections around the world, the candidates may turn their campaigns toward negativity due to the prospect of failure and time pressure. In the digital age, social media platforms such as Twitter are rich sources of political discourse. Therefore, despite the large amount of data that is published on Twitter, the automatic system for campaign negativity detection can play an essential role in understanding the strategy of candidates and parties in their campaigns. In this paper, we propose a hybrid model for detecting campaign negativity consisting of a two-stage classifier that combines the strengths of two machine learning models. Here, we have collected Persian tweets from 50 political users, including candidates and government officials. Then we annotated 5,100 of them that were published during the year before the 2021 presidential election in Iran. In the proposed model, first, the required datasets of two classifiers based on the cosine similarity of tweet embeddings with axis embeddings (which are the average of embedding in positive and negative classes of tweets) from the training set (85\%) are made, and then these datasets are considered the training set of the two classifiers in the hybrid model. Finally, our best model (RF-RF) was able to achieve 79\% for the macro F1 score and 82\% for the weighted F1 score. By running the best model on the rest of the tweets of 50 political users that were published one year before the election and with the help of statistical models, we find that the publication of a tweet by a candidate has nothing to do with the negativity of that tweet, and the presence of the names of political persons and political organizations in the tweet is directly related to its negativity. | 翻訳日:2023-11-02 15:46:34 公開日:2023-10-31 |
# 絡み合い条件と絡み合い対策 Entanglement conditions and entanglement measures ( http://arxiv.org/abs/2311.00142v1 ) ライセンス: Link先を確認 | Mark Hillery, Camilla Polvara, Vadim Oganesyan, and Nada Ali | (参考訳) 両部交絡を検出するために使用可能な2つの条件について検討し、状態の負性性に対する低い境界を与えるために使用できることを示す。
まず2量子状態から始まり、そこで何をしたかがより一般的な状態に拡張できることを示す。
得られた境界は、多くの例を用いて研究される。
また、ある状態のシュミットベクトルについてある程度の知識があれば、より良い境界が見つかることも示している。 We examine two conditions that can be used to detect bipartite entanglement, and show that they can be used to provide lower bounds on the negativity of states. We begin with two-qubit states, and then show how what was done there can be extended to more general states. The resulting bounds are then studied by means of a number of examples. We also show that if one has some knowledge of the Schmidt vectors of a state, better bounds can be found. | 翻訳日:2023-11-02 15:46:07 公開日:2023-10-31 |
# 重み付きラプラシア固有写像に基づく非パラメトリック回帰に対する適応的および非適応的ミニマックス速度 Adaptive and non-adaptive minimax rates for weighted Laplacian-eigenmap based nonparametric regression ( http://arxiv.org/abs/2311.00140v1 ) ライセンス: Link先を確認 | Zhaoyang Shi, Krishnakumar Balasubramanian, and Wolfgang Polonik | (参考訳) 実回帰関数がソボレフ空間に属し、サンプリング密度が上下から有界である場合、重み付きラプラシアン-固有写像系非パラメトリック回帰法における適応的および非適応的収束率の両方を示す。
適応手法はレプスキー法の拡張に基づいており、ソボレフ空間上の制約を決定する滑らかさパラメータ(s\in\mathbb{n}_{+}$)とノルムパラメータ(m>0$)の両方を上回っている。
我々の結果は、特定の正規化グラフ Laplacian に対して確立された \cite{green2021minimax} において非適応的な結果を拡張し、非正規化 Laplacian やランダムウォーク Laplacian など、実際に用いられるラプラシア行列の幅広いクラスに拡張する。 We show both adaptive and non-adaptive minimax rates of convergence for a family of weighted Laplacian-Eigenmap based nonparametric regression methods, when the true regression function belongs to a Sobolev space and the sampling density is bounded from above and below. The adaptation methodology is based on extensions of Lepski's method and is over both the smoothness parameter ($s\in\mathbb{N}_{+}$) and the norm parameter ($M>0$) determining the constraints on the Sobolev space. Our results extend the non-adaptive result in \cite{green2021minimax}, established for a specific normalized graph Laplacian, to a wide class of weighted Laplacian matrices used in practice, including the unnormalized Laplacian and random walk Laplacian. | 翻訳日:2023-11-02 15:45:58 公開日:2023-10-31 |
# Neuroformer:脳データのためのマルチモーダルおよびマルチタスク生成準備 Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data ( http://arxiv.org/abs/2311.00136v1 ) ライセンス: Link先を確認 | Antonis Antoniades, Yiyi Yu, Joseph Canzano, William Wang, Spencer LaVere Smith | (参考訳) 最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータを自己回帰時空間生成問題に再編成した。
neuroformer(ニューロフォーマー)は、システムの神経科学におけるデータの複雑さを扱うために特別に設計されたマルチモーダル、マルチタスク生成前訓練トランスフォーマー(gpt)モデルである。
機能サイズと線形にスケールし、任意の数のモダリティを処理でき、振る舞いの予測のような下流タスクに適応できる。
最初にシミュレーションデータセットでニューロフォーマーを訓練したところ、シミュレーションされた神経回路の活動を正確に予測しただけでなく、方向を含む基礎となる神経回路接続を内在的に推測した。
神経反応をデコードするために事前訓練されたとき、モデルはほんの数ショットの微調整でマウスの振る舞いを予測し、モデルが明示的に監督することなく、神経表現自身から直接それを行う方法を学習し始めることを示唆した。
我々は,神経反応と行動に関する共同トレーニングが,モデルが非教師的方法で行動表現と神経表現を関連付ける能力を高めることを示すために,アブレーション研究を使用した。
これらの結果は、ニューロフォーマーが神経データセットとその創発的特性を分析し、脳に関連するモデルや仮説の発達を知らせることができることを示している。 State-of-the-art systems neuroscience experiments yield large-scale multimodal data, and these data sets require new tools for analysis. Inspired by the success of large pretrained models in vision and language domains, we reframe the analysis of large-scale, cellular-resolution neuronal spiking data into an autoregressive spatiotemporal generation problem. Neuroformer is a multimodal, multitask generative pretrained transformer (GPT) model that is specifically designed to handle the intricacies of data in systems neuroscience. It scales linearly with feature size, can process an arbitrary number of modalities, and is adaptable to downstream tasks, such as predicting behavior. We first trained Neuroformer on simulated datasets, and found that it both accurately predicted simulated neuronal circuit activity, and also intrinsically inferred the underlying neural circuit connectivity, including direction. When pretrained to decode neural responses, the model predicted the behavior of a mouse with only few-shot fine-tuning, suggesting that the model begins learning how to do so directly from the neural representations themselves, without any explicit supervision. We used an ablation study to show that joint training on neuronal responses and behavior boosted performance, highlighting the model's ability to associate behavioral and neural representations in an unsupervised manner. These findings show that Neuroformer can analyze neural datasets and their emergent properties, informing the development of models and hypotheses associated with the brain. | 翻訳日:2023-11-02 15:45:40 公開日:2023-10-31 |
# 量子回路における離散ノイズ近似 The Discrete Noise Approximation in Quantum Circuits ( http://arxiv.org/abs/2311.00135v1 ) ライセンス: Link先を確認 | Keith R. Fratus, Juha Lepp\"akangas, Michael Marthaler, Jan-Michael Reiner | (参考訳) ノイズが量子回路に与える影響をモデル化する場合、ノイズのないゲートに続く個々のデコヒーレンスイベントによってこれらの効果が説明できると仮定することが多い。
本稿では,本モデルの有効性について述べる。
我々は、かなり広い仮定の下で、この個別の非一貫性事象のモデルは、量子回路の実装中に量子デバイス上で発生する真のノイズプロセスに良い近似を与えることを見出している。
しかし、量子ビットレジスタの十分な大きな回転に対応するゲートに対して、これらのノイズ項の質的性質は、基礎となるハードウェアレベルでのノイズの性質から大きく異なることが分かる。
分析の大部分は、量子システムに作用する個々の量子演算を近似する方法に関するアンザッツである分離性アンザッツ(sparability ansatz)と呼ばれるものを分析することを目的としている。
この研究の主な動機に加えて、ここで得られる結果の恩恵を受ける可能性のあるオープンリサーチの他のいくつかの分野を特定する。 When modeling the effects of noise on quantum circuits, one often makes the assumption that these effects can be accounted for by individual decoherence events following an otherwise noise-free gate. In this work, we address the validity of this model. We find that under a fairly broad set of assumptions, this model of individual decoherence events provides a good approximation to the true noise processes occurring on a quantum device during the implementation of a quantum circuit. However, for gates which correspond to sufficiently large rotations of the qubit register, we find that the qualitative nature of these noise terms can vary significantly from the nature of the noise at the underlying hardware level. The bulk of our analysis is directed towards analyzing what we refer to as the separability ansatz, which is an ansatz concerning the manner in which individual quantum operations acting on a quantum system can be approximated. In addition to the primary motivation of this work, we identify several other areas of open research which may benefit from the results we derive here. | 翻訳日:2023-11-02 15:45:13 公開日:2023-10-31 |
# 多視点SAMを用いた共同深さ予測とセマンティックセグメンテーション Joint Depth Prediction and Semantic Segmentation with Multi-View SAM ( http://arxiv.org/abs/2311.00134v1 ) ライセンス: Link先を確認 | Mykhailo Shvets, Dongxu Zhao, Marc Niethammer, Roni Sengupta, Alexander C. Berg | (参考訳) 関節深度とセグメンテーション予測に対するマルチタスクアプローチは単眼画像に対してよく研究されている。
しかし、単一のビューからの予測は本質的に限定的であり、多くのロボティクスアプリケーションでは複数のビューが利用できる。
スペクトルの反対側では、ビデオベースおよびフル3D法は再構成と分割を行うために多数のフレームを必要とする。
本研究では,Segment Anything Model (SAM) のリッチなセマンティックな特徴を活かした深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張された深さ予測は、transformerベースのセマンティクスセグメンテーションデコーダのプロンプトとして役立ちます。
両タスクがscannetデータセットに関する定量的・定性的研究で享受できる相互利益を報告する。
提案手法は,マルチタスク単眼法とともに,シングルタスクmvとセグメンテーションモデルを一貫して上回っている。 Multi-task approaches to joint depth and segmentation prediction are well-studied for monocular images. Yet, predictions from a single-view are inherently limited, while multiple views are available in many robotics applications. On the other end of the spectrum, video-based and full 3D methods require numerous frames to perform reconstruction and segmentation. With this work we propose a Multi-View Stereo (MVS) technique for depth prediction that benefits from rich semantic features of the Segment Anything Model (SAM). This enhanced depth prediction, in turn, serves as a prompt to our Transformer-based semantic segmentation decoder. We report the mutual benefit that both tasks enjoy in our quantitative and qualitative studies on the ScanNet dataset. Our approach consistently outperforms single-task MVS and segmentation models, along with multi-task monocular methods. | 翻訳日:2023-11-02 15:44:59 公開日:2023-10-31 |
# 自律生産のための大規模マルチロボット組立計画 Large-Scale Multi-Robot Assembly Planning for Autonomous Manufacturing ( http://arxiv.org/abs/2311.00192v1 ) ライセンス: Link先を確認 | Kyle Brown, Dylan M. Asmar, Mac Schwager, and Mykel J. Kochenderfer | (参考訳) モバイル自律ロボットは製造プロセスに革命をもたらす可能性がある。
しかし、大きなロボット群を製造に採用するには、共有作業空間における衝突のない移動、大きなペイロードを操作し輸送するための効果的なマルチロボット協調、複合製造プロセスによる複雑なタスク割り当て、ネストしたサブアセンブリの並列組み立てと輸送のための空間計画といった課題に対処する必要がある。
我々は,このような課題に対処し,数千の部品からなる複雑な集合体の構築計画を数分で合成可能な,大規模マルチロボット組立計画のための完全なアルゴリズムスタックを提案する。
本手法はCADライクな製品仕様を取り入れ,ロボット群が製品を製造するためのフルスタックの組み立て手順を自動で計画する。
本稿では,以下のアルゴリズムスタックを提案する。
(i)製造設備のグローバルステージレイアウトを定義するための反復ラジアルレイアウト最適化手順
二 グラフ再生型混合整数型プログラムの定式化と、ロボット及びロボットサブチームの編成・輸送を最適に割り当てる改良された欲求タスク割り当てアルゴリズム
(iii)ロボットサブチームの協調搬送構成を計画するための幾何学的ヒューリスティックとヒルクライミングアルゴリズム
(iv)ロボットが組み立て動作計画の衝突のない実行を可能にする分散制御方針。
また、juliaで実装されたオープンソースのマルチロボット製造シミュレータを研究コミュニティに提供し、アルゴリズムをテストし、マルチロボット製造研究をより広く支援する。
実験結果は,サターンv打上げ機のレゴモデルを1845パーツ,306サブアセンブリ,250ロボットを標準ラップトップコンピュータ上で3分以内で製造する計画を作成することにより,本手法のスケーラビリティと有効性を示す。 Mobile autonomous robots have the potential to revolutionize manufacturing processes. However, employing large robot fleets in manufacturing requires addressing challenges including collision-free movement in a shared workspace, effective multi-robot collaboration to manipulate and transport large payloads, complex task allocation due to coupled manufacturing processes, and spatial planning for parallel assembly and transportation of nested subassemblies. We propose a full algorithmic stack for large-scale multi-robot assembly planning that addresses these challenges and can synthesize construction plans for complex assemblies with thousands of parts in a matter of minutes. Our approach takes in a CAD-like product specification and automatically plans a full-stack assembly procedure for a group of robots to manufacture the product. We propose an algorithmic stack that comprises: (i) an iterative radial layout optimization procedure to define a global staging layout for the manufacturing facility, (ii) a graph-repair mixed-integer program formulation and a modified greedy task allocation algorithm to optimally allocate robots and robot sub-teams to assembly and transport tasks, (iii) a geometric heuristic and a hill-climbing algorithm to plan collaborative carrying configurations of robot sub-teams, and (iv) a distributed control policy that enables robots to execute the assembly motion plan collision-free. We also present an open-source multi-robot manufacturing simulator implemented in Julia as a resource to the research community, to test our algorithms and to facilitate multi-robot manufacturing research more broadly. Our empirical results demonstrate the scalability and effectiveness of our approach by generating plans to manufacture a LEGO model of a Saturn V launch vehicle with 1845 parts, 306 subassemblies, and 250 robots in under three minutes on a standard laptop computer. | 翻訳日:2023-11-02 15:36:23 公開日:2023-10-31 |
# XAI-CLASS:極弱スーパービジョンによる説明強調テキスト分類 XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak Supervision ( http://arxiv.org/abs/2311.00189v1 ) ライセンス: Link先を確認 | Daniel Hajialigol, Hanwen Liu, Xuan Wang | (参考訳) テキスト分類は、文書を予め定義されたカテゴリに効果的に分類することを目的としている。
従来のテキスト分類の方法は、大量の手動の注釈付きトレーニングデータに依存しており、プロセスに時間と労力がかかる。
この問題に対処するために、近年の研究は、最小限または無限のアノテーションを必要とする弱い教師付き設定と極めて弱い教師付き設定に焦点を当てている。
従来の弱い教師付きテキスト分類の手法では、擬似ラベルを特定のクラスとアライメント(例えばキーワードマッチング)に基づいて文書に割り当てることで擬似訓練データを生成する。
しかし、これらの手法は、テキスト分類訓練過程において、生成した擬似ラベルや個々の単語の正当性の説明を付加することの重要性を無視する。
この制限に対処するために,単語のサリエンシ予測を補助タスクとして組み込んだ,説明に富んだ極めて弱いテキスト分類法であるXAI-CLASSを提案する。
XAI-CLASSは、複数ラウンドの質問回答プロセスを用いて、クラスラベルとそれに対応する説明語生成の相互強化を促進する擬似学習データを生成する。
この擬似学習データは、テキスト分類と単語の塩分予測の両方を同時に学習するマルチタスクフレームワークのトレーニングに使用される。
いくつかの弱い教師付きテキスト分類データセットに関する広範な実験は、xaiクラスが他の弱い教師付きテキスト分類方法を大幅に上回っていることを示している。
さらに,xaiクラスがモデル性能と説明可能性の両方を高めることを示す実験を行った。 Text classification aims to effectively categorize documents into pre-defined categories. Traditional methods for text classification often rely on large amounts of manually annotated training data, making the process time-consuming and labor-intensive. To address this issue, recent studies have focused on weakly-supervised and extremely weakly-supervised settings, which require minimal or no human annotation, respectively. In previous methods of weakly supervised text classification, pseudo-training data is generated by assigning pseudo-labels to documents based on their alignment (e.g., keyword matching) with specific classes. However, these methods ignore the importance of incorporating the explanations of the generated pseudo-labels, or saliency of individual words, as additional guidance during the text classification training process. To address this limitation, we propose XAI-CLASS, a novel explanation-enhanced extremely weakly-supervised text classification method that incorporates word saliency prediction as an auxiliary task. XAI-CLASS begins by employing a multi-round question-answering process to generate pseudo-training data that promotes the mutual enhancement of class labels and corresponding explanation word generation. This pseudo-training data is then used to train a multi-task framework that simultaneously learns both text classification and word saliency prediction. Extensive experiments on several weakly-supervised text classification datasets show that XAI-CLASS outperforms other weakly-supervised text classification methods significantly. Moreover, experiments demonstrate that XAI-CLASS enhances both model performance and explainability. | 翻訳日:2023-11-02 15:35:54 公開日:2023-10-31 |
# 復調性およびサンプル不変連続オブジェクトエンコーダ Decodable and Sample Invariant Continuous Object Encoder ( http://arxiv.org/abs/2311.00187v1 ) ライセンス: Link先を確認 | Dehao Yuan, Furong Huang, Cornelia Ferm\"uller, Yiannis Aloimonos | (参考訳) 我々は超次元関数符号化(HDFE)を提案する。
連続対象(例えば関数)のサンプルが与えられたとき、HDFEは与えられた対象の明示的なベクトル表現を生成し、サンプル分布と密度に不変である。
サンプル分布と密度不変性により、HDFEはサンプリングに関係なく連続オブジェクトを一貫してエンコードすることができ、ニューラルネットワークは分類や回帰といった機械学習タスクの入力として連続オブジェクトを受け取ることができる。
さらに、HDFEはいかなるトレーニングも必要とせず、オブジェクトを組織化された埋め込みスペースにマッピングすることが証明されており、下流タスクのトレーニングを容易にする。
さらに、エンコーディングはデコーダ可能であり、ニューラルネットワークはエンコーディングをレグレッションすることで連続オブジェクトをリグレッシブすることができる。
したがってHDFEは連続オブジェクトを処理するインターフェースとして機能する。
我々はHDFEを関数間マッピングに適用し、バニラHDFEは最先端のアルゴリズムとして競合性能を達成する。
hdfeをpoint cloud surface normal estimationに適用し,pointnetからhdfeへの単純な置き換えにより,2つのベンチマークで即時に12%,15%のエラー低減を実現する。
さらに、HDFEをPointNetベースのSOTAネットワークに統合することにより、同じベンチマークでSOTAベースラインを2.5%と1.7%改善する。 We propose Hyper-Dimensional Function Encoding (HDFE). Given samples of a continuous object (e.g. a function), HDFE produces an explicit vector representation of the given object, invariant to the sample distribution and density. Sample distribution and density invariance enables HDFE to consistently encode continuous objects regardless of their sampling, and therefore allows neural networks to receive continuous objects as inputs for machine learning tasks, such as classification and regression. Besides, HDFE does not require any training and is proved to map the object into an organized embedding space, which facilitates the training of the downstream tasks. In addition, the encoding is decodable, which enables neural networks to regress continuous objects by regressing their encodings. Therefore, HDFE serves as an interface for processing continuous objects. We apply HDFE to function-to-function mapping, where vanilla HDFE achieves competitive performance as the state-of-the-art algorithm. We apply HDFE to point cloud surface normal estimation, where a simple replacement from PointNet to HDFE leads to immediate 12% and 15% error reductions in two benchmarks. In addition, by integrating HDFE into the PointNet-based SOTA network, we improve the SOTA baseline by 2.5% and 1.7% in the same benchmarks. | 翻訳日:2023-11-02 15:35:29 公開日:2023-10-31 |
# 点拡散関数正規化とアクティブラーニングによる画像復元 Image Restoration with Point Spread Function Regularization and Active Learning ( http://arxiv.org/abs/2311.00186v1 ) ライセンス: Link先を確認 | Peng Jia, Jiameng Lv, Runyu Ning, Yu Song, Nan Li, Kaifan Ji, Chenzhou Cui, Shanshan Li | (参考訳) 大規模な天文調査は、銀河や星雲を含む多くの天体の画像を撮影することができる。
これらの画像を分析し、処理することで、複雑な内部構造が明らかになり、研究者たちはその形態、進化、物理的特性に関する包括的な研究を行うことができる。
しかし,様々なノイズレベルや点拡散関数は,これらの画像から情報抽出の精度と効率を損なう可能性がある。
これらの効果を緩和するために,深層学習に基づく復元アルゴリズムと高忠実度望遠鏡シミュレータを接続する新しい画像復元アルゴリズムを提案する。
トレーニングステージの間、シミュレータは、復元された画像の品質に基づいてニューラルネットワークを訓練するために、異なるレベルのぼやけとノイズを持つ画像を生成する。
トレーニング後、ニューラルネットワークは、シミュレータが示すように、望遠鏡が取得した画像を直接復元することができる。
実データと模擬観測データを用いてアルゴリズムを検証した結果、ぼやけた画像の微細構造を効果的に強化し、観察画像の品質を向上させることがわかった。
このアルゴリズムは、LSST、Euclid、CSSTなどの大規模スカイサーベイデータに適用でき、情報抽出の精度と効率をさらに向上させ、天文学研究の分野における進歩を促進することができる。 Large-scale astronomical surveys can capture numerous images of celestial objects, including galaxies and nebulae. Analysing and processing these images can reveal intricate internal structures of these objects, allowing researchers to conduct comprehensive studies on their morphology, evolution, and physical properties. However, varying noise levels and point spread functions can hamper the accuracy and efficiency of information extraction from these images. To mitigate these effects, we propose a novel image restoration algorithm that connects a deep learning-based restoration algorithm with a high-fidelity telescope simulator. During the training stage, the simulator generates images with different levels of blur and noise to train the neural network based on the quality of restored images. After training, the neural network can directly restore images obtained by the telescope, as represented by the simulator. We have tested the algorithm using real and simulated observation data and have found that it effectively enhances fine structures in blurry images and increases the quality of observation images. This algorithm can be applied to large-scale sky survey data, such as data obtained by LSST, Euclid, and CSST, to further improve the accuracy and efficiency of information extraction, promoting advances in the field of astronomical research. | 翻訳日:2023-11-02 15:35:07 公開日:2023-10-31 |
# 低エネルギー物質励起間の空洞媒介相互作用の静電的性質 Electrostatic nature of cavity-mediated interactions between low-energy matter excitations ( http://arxiv.org/abs/2311.00183v1 ) ライセンス: Link先を確認 | Petros-Andreas Pantazopoulos, Johannes Feist, Akashdeep Kamra, Francisco J. Garc\'ia-Vidal | (参考訳) キャビティの量子電磁力効果、すなわち真空電磁場を利用してキャビティの材料特性を変化させることは、近年急速に人気を集め、関心を集めている。
しかしながら、直感的な理解とどのような効果が達成できるかの限界に関するガイドラインを提供する一般的な結果がまだ少ない。
本研究では, 電磁界への相互結合によって直接誘導される低エネルギー物質励起と, 電磁場に結合するメディエータモードとのカップリングにより間接的に誘導される低エネルギー物質励起との効果的な相互作用について述べる。
誘導された相互作用は自然界において純粋に静電的であり、エムグリーン関数によってゼロ周波数で評価される。
以上の結果から, 空洞モードの縮小モデルでは, 誤認を生じやすいことが示唆された。 The use of cavity quantum electrodynamical effects, i.e., of vacuum electromagnetic fields, to modify material properties in cavities has rapidly gained popularity and interest in the last few years. However, there is still a scarcity of general results that provide guidelines for intuitive understanding and limitations of what kind of effects can be achieved. We provide such a result for the effective interactions between low-energy matter excitations induced either directly by their mutual coupling to the cavity electromagnetic (EM) field or indirectly through coupling to mediator modes that couple to the EM field. We demonstrate that the induced interactions are purely electrostatic in nature and are thus fully described by the EM Green's function evaluated at zero frequency. Our findings imply that reduced models with one or a few cavity modes can easily give misleading results. | 翻訳日:2023-11-02 15:34:48 公開日:2023-10-31 |
# 両世界のベスト:確率的および逆向きの凸関数追跡 Best of Both Worlds: Stochastic and Adversarial Convex Function Chasing ( http://arxiv.org/abs/2311.00181v1 ) ライセンス: Link先を確認 | Neelkamal Bhuyan, Debankur Mukherjee, Adam Wierman | (参考訳) コンベックス関数追跡(CFC)は、各ラウンド$t$の間、プレイヤーが攻撃コスト$f_t(x_t)$と追加コスト$c(x_t,x_{t-1})$に応じてアクション$x_t$をプレイするオンライン最適化問題である。
確率的, 対角的環境におけるCFC問題について検討し, 両設定で同時に性能保証を実現するアルゴリズムを提案する。
具体的には、二乗の$\ell_2$-norm スイッチングコストと、最小化器の列がマルティンゲールを形成するか、逆向きに選択される幅広い二次打撃コストを考える。
これは確率的フレームワークを用いてCFC問題を研究する最初の研究である。
本稿では, 最適確率オンラインアルゴリズムの特徴と, 確率的シナリオと敵対的シナリオの比較から, 逆最適化アルゴリズムが確率的文脈において準最適性能を示すことを示す。
そこで本研究では,最適に近い確率的性能を同時に達成しながら,頑健な対向性能を得る最善の両世界アルゴリズムを提案する。 Convex function chasing (CFC) is an online optimization problem in which during each round $t$, a player plays an action $x_t$ in response to a hitting cost $f_t(x_t)$ and an additional cost of $c(x_t,x_{t-1})$ for switching actions. We study the CFC problem in stochastic and adversarial environments, giving algorithms that achieve performance guarantees simultaneously in both settings. Specifically, we consider the squared $\ell_2$-norm switching costs and a broad class of quadratic hitting costs for which the sequence of minimizers either forms a martingale or is chosen adversarially. This is the first work that studies the CFC problem using a stochastic framework. We provide a characterization of the optimal stochastic online algorithm and, drawing a comparison between the stochastic and adversarial scenarios, we demonstrate that the adversarial-optimal algorithm exhibits suboptimal performance in the stochastic context. Motivated by this, we provide a best-of-both-worlds algorithm that obtains robust adversarial performance while simultaneously achieving near-optimal stochastic performance. | 翻訳日:2023-11-02 15:34:31 公開日:2023-10-31 |
# 長期行動予測のための物体中心映像表現 Object-centric Video Representation for Long-term Action Anticipation ( http://arxiv.org/abs/2311.00180v1 ) ライセンス: Link先を確認 | Ce Zhang, Changcheng Fu, Shijie Wang, Nakul Agarwal, Kwonjoon Lee, Chiho Choi, Chen Sun | (参考訳) 本稿では,ビデオにおける長期行動予測のためのオブジェクト中心表現の構築に着目する。
私たちの重要な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し、予測するための重要な手がかりを提供するということです。
既存のオブジェクトベースビデオ認識フレームワークは、ドメイン内監視対象検出器の存在を前提とするか、あるいは完全に弱教師付きパイプラインに従ってアクションラベルからオブジェクト位置を推測する。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
オブジェクトプロンプト(object prompts)とは、タスク固有のオブジェクト中心表現を、微調整なしで汎用的な事前学習モデルから抽出する手法である。
人間とオブジェクトの相互作用を認識し、予測するために、様々な時間スケールでの行動予測に関連するオブジェクトの「再評価」を可能にするトランスフォーマーベースのニューラルアーキテクチャを使用する。
Ego4D、50Salads、EGTEA Gaze+ベンチマークで広範囲に評価を行った。
定量的および定性的な結果から,提案手法の有効性を確認した。 This paper focuses on building object-centric representations for long-term action anticipation in videos. Our key motivation is that objects provide important cues to recognize and predict human-object interactions, especially when the predictions are longer term, as an observed "background" object could be used by the human actor in the future. We observe that existing object-based video recognition frameworks either assume the existence of in-domain supervised object detectors or follow a fully weakly-supervised pipeline to infer object locations from action labels. We propose to build object-centric video representations by leveraging visual-language pretrained models. This is achieved by "object prompts", an approach to extract task-specific object-centric representations from general-purpose pretrained models without finetuning. To recognize and predict human-object interactions, we use a Transformer-based neural architecture which allows the "retrieval" of relevant objects for action anticipation at various time scales. We conduct extensive evaluations on the Ego4D, 50Salads, and EGTEA Gaze+ benchmarks. Both quantitative and qualitative results confirm the effectiveness of our proposed method. | 翻訳日:2023-11-02 15:34:08 公開日:2023-10-31 |
# AIコードの完成に関する学生の視点 - メリットと課題 Students' Perspective on AI Code Completion: Benefits and Challenges ( http://arxiv.org/abs/2311.00177v1 ) ライセンス: Link先を確認 | Wannita Takerngsaksiri, Cleshan Warusavitarne, Christian Yaacoub, Matthew Hee Keng Hou, Chakkrit Tantithamthavorn | (参考訳) AI Code Completion(GitHubのCopilot、Amazon CodeWhispererなど)は、コンピュータサイエンスの学生がプログラミング言語と対話する方法に革命をもたらした。
しかし、これらのツールは無料では利用できないため、研究の実施を妨げている。
さらに、aiコード補完は、未来のデジタル世界を代表する学生の視点ではなく、開発者の視点から研究されてきた。
本稿では,学生の視点からAIコード補完のメリット,課題,期待について検討し,研究機器としてVisual Studio Code Extensionに統合されたAIコード補完ツールであるAutoAuroraを紹介した。
10名の参加者によるインタビュー調査を通じて,aiコード補完は,正しい構文提案を提供し,代替ソリューションを提供し,コード指導員として機能することで,学生の生産性と効率を高めることを見出した。
しかし、aiコード補完への過度な依存は、プログラミングの概念を表面的に理解し、問題解決スキルを低下させ、創造性を制限してしまう可能性がある。
将来、aiコード補完は、コーディング概念の学習を容易にするために説明されなければならない。 AI Code Completion (e.g., GitHub's Copilot, Amazon CodeWhisperer) has revolutionized the way in which computer science students interact with programming languages. However, these tools are not available for free public use, preventing us from conducting our research. In addition, AI code completion has been studied from developers' perspective, not students' perspective who represent the future generation of our digital world. In this article, we investigated the benefits, challenges, and expectations of AI code completion from students' perspectives and introduced AutoAurora, an AI code completion tool integrated into the Visual Studio Code Extension as a research instrument. Through an interview study with ten participants, we found that AI code completion enhanced students' productivity and efficiency by providing correct syntax suggestions, offering alternative solutions, and functioning as a coding tutor. However, the over-reliance on AI code completion may lead to a surface-level understanding of programming concepts, diminishing problem-solving skills and restricting creativity. In the future, AI code completion must be explainable to facilitate the learning of coding concepts. | 翻訳日:2023-11-02 15:33:53 公開日:2023-10-31 |
# ChipNeMo: チップ設計のためのドメイン適応LDM ChipNeMo: Domain-Adapted LLMs for Chip Design ( http://arxiv.org/abs/2311.00176v1 ) ライセンス: Link先を確認 | Mingjie Liu, Teo Ene, Robert Kirby, Chris Cheng, Nathaniel Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee, Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri, Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi, Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Brucek Khailany, Kishor Kunal, Xiaowei Li, Hao Liu, Stuart Oberman, Sujeet Omar, Sreedhar Pratty, Ambar Sarkar, Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Kaizhe Xu, Haoxing Ren | (参考訳) ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の適用を探求することを目的としている。
市販またはオープンソース LLM を直接デプロイする代わりに、カスタムトークン化、ドメイン適応型継続事前トレーニング、ドメイン固有命令による教師付き微調整(SFT)、ドメイン適応型検索モデルといったドメイン適応技術を採用しています。
チップ設計のための3つのLLMアプリケーション(エンジニアリングアシスタントチャットボット、EDAスクリプト生成、バグ要約と解析)でこれらの手法を評価する。
これらのドメイン適応手法により,評価された3つのアプリケーションにおいて,汎用ベースモデルよりも大幅にllm性能が向上し,様々な設計タスクにおいて,最大5倍のモデルサイズ削減が可能となった。
私たちの調査結果は、現在の結果と理想的な結果の間にはまだ改善の余地があることも示しています。
ドメイン適応型LLMアプローチのさらなる研究は、将来このギャップを埋めるのに役立つと信じている。 ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future. | 翻訳日:2023-11-02 15:33:35 公開日:2023-10-31 |
# 2量子ビットマルチモード非対称量子ラビモデルのダーク状態解と隠れ対称性 Dark-state solution and hidden symmetries of the two-qubit multimode asymmetric quantum Rabi model ( http://arxiv.org/abs/2311.00174v1 ) ライセンス: Link先を確認 | Ze-Feng Lei, Junlong Tian and Jie Peng | (参考訳) 2量子ビット非対称量子ラビモデル(aqrm)を調べ、そのダーク状態解に関連する別の隠れ対称性を見つける。
そのような解は結合系全体において少なくとも1つの光子と定数なアイジネギーを持ち、スペクトルのレベル交差を引き起こすが、エネルギー以外の明確な保存量はなく、別の隠れ対称性を示す。
固有エネルギー基底において、退化を固有値にラベル付けする対称作用素を見つけ、バイアスパラメータ $\epsilon$ が共振器周波数の半分の倍数であるときに存在するよく知られた隠れ対称性と比較する。
マルチモードの場合に拡張すると、上述の隠れ対称性だけでなく、保存ボゾン数演算子に関連する対称性も見いだされる。
これは一般化されたラビ模型の隠れ対称性研究の新しい視点を与える。 We study the two-qubit asymmetric quantum Rabi model (AQRM) and find another hidden symmetry related to its dark-state solution. Such a solution has at most one photon and constant eigenenergy in the whole coupling regime, causing level crossings in the spectrum, although there is no explicit conserved quantity except energy, indicating another hidden symmetry. We find a symmetric operator in the eigenenergy basis to label the degeneracy with its eigenvalues, and compare it with the well-known hidden symmetry which exists when bias parameter $\epsilon$ is a multiple of half of the resonator frequency. Extended to the multimode case, we find not only hidden symmetries mentioned above, but also symmetries related with conserved bosonic number operators. This provides a new perspective for hidden symmetry studies on generalized Rabi models. | 翻訳日:2023-11-02 15:33:16 公開日:2023-10-31 |
# 大規模言語モデルのためのロバスト安全性分類器:対向型プロンプトシールド Robust Safety Classifier for Large Language Models: Adversarial Prompt Shield ( http://arxiv.org/abs/2311.00172v1 ) ライセンス: Link先を確認 | Jinhwa Kim, Ali Derakhshan, Ian G. Harris | (参考訳) 大規模言語モデルの安全性は、敵攻撃に対する脆弱性のため重要な問題であり、これらのシステムが有害な応答を発生させる可能性がある。
これらのシステムの中心には安全分類器があり、潜在的に有害、攻撃的、非倫理的なアウトプットを識別・緩和するよう訓練された計算モデルである。
しかし、現代の安全分類器は、その潜在能力にもかかわらず、敵のノイズが混入した入力に曝されるとしばしば失敗する。
そこで本研究では,検出精度を向上し,対向的プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介した。
さらに,bot adversarial noise dialogue (band) データセットを自動生成するための新しい戦略を提案する。
これらのデータセットは, 安全分類器の堅牢性を高めるために設計されており, 逆例をトレーニングプロセスに組み込んだ結果について検討する。
大規模言語モデルによる評価を通じて,我々の分類器は,敵攻撃による攻撃成功率を最大60%低下させる可能性を実証した。
この進歩は、次世代の信頼性と回復力のある会話エージェントへの道を開く。 Large Language Models' safety remains a critical concern due to their vulnerability to adversarial attacks, which can prompt these systems to produce harmful responses. In the heart of these systems lies a safety classifier, a computational model trained to discern and mitigate potentially harmful, offensive, or unethical outputs. However, contemporary safety classifiers, despite their potential, often fail when exposed to inputs infused with adversarial noise. In response, our study introduces the Adversarial Prompt Shield (APS), a lightweight model that excels in detection accuracy and demonstrates resilience against adversarial prompts. Additionally, we propose novel strategies for autonomously generating adversarial training datasets, named Bot Adversarial Noisy Dialogue (BAND) datasets. These datasets are designed to fortify the safety classifier's robustness, and we investigate the consequences of incorporating adversarial examples into the training process. Through evaluations involving Large Language Models, we demonstrate that our classifier has the potential to decrease the attack success rate resulting from adversarial attacks by up to 60%. This advancement paves the way for the next generation of more reliable and resilient conversational agents. | 翻訳日:2023-11-02 15:33:02 公開日:2023-10-31 |
# 離散時間量子ウォークを含む量子メトロロジーにおける資源としてのコイン次元 Coin dimensionality as a resource in quantum metrology involving discrete-time quantum walks ( http://arxiv.org/abs/2311.00171v1 ) ライセンス: Link先を確認 | Simone Cavazzoni, Luca Razzoli, Giovanni Ragazzi, Paolo Bordone, Matteo G. A. Paris | (参考訳) 離散時間量子ウォーカの内部自由度で興味のパラメータが符号化されるような気象問題に対処し、コインの寸法が精度を高めるための潜在的資源であることを示す。
特に,コインパラメータが所定の軸まわりの回転を支配している推定問題を考察し,対応する量子フィッシャー情報(QFI)がコインの寸法に応じて増加することを示す。
歩行者の最適な初期状態を決定し、QFIを最大化し、歩行者の位置のみを測定することにより精度の向上が達成できるかどうかを議論する。
最後に,このパラメータのグローバー符号化を考察し,回転エンコーディングの結果と比較する。 We address metrological problems where the parameter of interest is encoded in the internal degree of freedom of a discrete-time quantum walker, and provide evidence that coin dimensionality is a potential resource to enhance precision. In particular, we consider estimation problems where the coin parameter governs rotations around a given axis and show that the corresponding quantum Fisher information (QFI) may increase with the dimension of the coin. We determine the optimal initial state of the walker to maximize the QFI and discuss whether, and to which extent, precision enhancement may be achieved by measuring only the position of the walker. Finally, we consider Grover-like encoding of the parameter and compare results with those obtained from rotation encoding. | 翻訳日:2023-11-02 15:32:42 公開日:2023-10-31 |
# アライメント天井:人間フィードバックからの強化学習における客観的ミスマッチ The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2311.00168v1 ) ライセンス: Link先を確認 | Nathan Lambert and Roberto Calandra | (参考訳) ヒューマンフィードバック(rlhf)からの強化学習は、複雑な設定で大規模言語モデル(llm)を簡単に促し、より能力を高めるための強力な技術として出現した。
コアとなるRLHFは、次のトーケン予測以外のLSMを最適化するための新しいツールキットを提供し、質的なトレーニング目標の統合を可能にする。
学習した報酬モデルで発生するユーザの好みとダウンストリームのパフォーマンスの一致を試みた結果、トレーニングと評価のメトリクスが相関して現れる最適化環境が生まれる。
明らかな相関は、予期せぬ行動や「あまりに多くのRLHF」の物語につながる可能性がある。
rlhfでは、報酬モデルのトレーニング、ポリシーモデルのトレーニング、ポリシーモデルの評価など、以下のサブモジュールが互いに一貫性がないため、課題が発生する。
このミスマッチは、時に偽の安全フラグに対するユーザの要求を回避したり、意図した特徴に注意を向けたり、常に特定のスタイルで答えることが難しいモデルをもたらす。
チャットモデルの評価がニュアンスを増すにつれて、報酬モデルスコアと下流のパフォーマンスの相関が客観的なミスマッチ問題を引き起こす。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,さらなる研究を促進するための関連する解決策について議論する。
RLHFにおける客観的ミスマッチの解決により、将来のLCMは、安全性と有用性の両方のために、より正確にユーザ指示に適合する。 Reinforcement learning from human feedback (RLHF) has emerged as a powerful technique to make large language models (LLMs) easier to prompt and more capable in complex settings. RLHF at its core is providing a new toolkit to optimize LLMs other than next-token prediction, enabling the integration of qualitative training goals. The attempted match between user preferences and downstream performance, which happens in a learned reward model, results in an optimization landscape where training and evaluation metrics can appear correlated. The apparent correlation can lead to unexpected behaviors and stories of "too much RLHF." In RLHF, challenges emerge because the following sub-modules are not consistent with each other: the reward model training, the policy model training, and the policy model evaluation. This mismatch results in models that sometimes avoid user requests for false safety flags, are difficult to steer to an intended characteristic, or always answer in a specific style. As chat model evaluation becomes increasingly nuanced, the reliance on a perceived link between reward model score and downstream performance drives the objective mismatch issue. In this paper, we illustrate the cause of this issue, reviewing relevant literature from model-based reinforcement learning, and discuss relevant solutions to encourage further research. By solving objective mismatch in RLHF, the LLMs of the future will be more precisely aligned to user instructions for both safety and helpfulness. | 翻訳日:2023-11-02 15:32:29 公開日:2023-10-31 |
# debunking free fusion myth:disentangled product-of-experts modelingによるオンラインマルチビュー異常検出 Debunking Free Fusion Myth: Online Multi-view Anomaly Detection with Disentangled Product-of-Experts Modeling ( http://arxiv.org/abs/2310.18728v2 ) ライセンス: Link先を確認 | Hao Wang, Zhi-Qi Cheng, Jingdong Sun, Xin Yang, Xiao Wu, Hongyang Chen, and Yan Yang | (参考訳) マルチビュー、あるいはマルチモーダルデータでさえ、現実のアプリケーションにとって非常に難しいものです。
マルチビューデータの異常検出は最近の顕著な研究トピックである。
しかし 既存の方法の多くは
1) 2つのビューまたはタイプ固有の異常にのみ適合する。
2) 核融合の絡み合いの問題に苦しむこと,及び
3) モデル展開後のオンライン検出はサポートしない。
これらの課題に対処するため,本稿の主な考え方は,多視点学習,非交叉表現学習,生成モデルである。
そこで本研究では,(1)多視点データに対処するProduct-of-Experts(PoE)層,(2)ビュー共通表現とビュー固有表現を混在させるTotal Correction(TC)識別器,(3)すべてのコンポーネントをラップするジョイントロス関数を含む,新しい多視点変分オートエンコーダモデルであるdPoEを提案する。
さらに,ビュー共通表現とビュー固有表現の両方を制御するための理論的情報境界を考案する。
6つの実世界のデータセットに対する大規模な実験は、提案されたdPoEがベースラインを上回っていることを示す。 Multi-view or even multi-modal data is appealing yet challenging for real-world applications. Detecting anomalies in multi-view data is a prominent recent research topic. However, most of the existing methods 1) are only suitable for two views or type-specific anomalies, 2) suffer from the issue of fusion disentanglement, and 3) do not support online detection after model deployment. To address these challenges, our main ideas in this paper are three-fold: multi-view learning, disentangled representation learning, and generative model. To this end, we propose dPoE, a novel multi-view variational autoencoder model that involves (1) a Product-of-Experts (PoE) layer in tackling multi-view data, (2) a Total Correction (TC) discriminator in disentangling view-common and view-specific representations, and (3) a joint loss function in wrapping up all components. In addition, we devise theoretical information bounds to control both view-common and view-specific representations. Extensive experiments on six real-world datasets markedly demonstrate that the proposed dPoE outperforms baselines. | 翻訳日:2023-11-02 10:54:37 公開日:2023-10-31 |
# DGFN: 二重生成フローネットワーク DGFN: Double Generative Flow Networks ( http://arxiv.org/abs/2310.19685v2 ) ライセンス: Link先を確認 | Elaine Lau, Nikhil Vemgal, Doina Precup, Emmanuel Bengio | (参考訳) 深層学習は薬物発見の有効なツールとして現れており、予測モデルと生成モデルの両方に応用される可能性がある。
Generative Flow Networks (GFlowNets/GFNs) は、多種多様な候補を生成する能力、特に小さな分子生成タスクで認識される手法である。
本稿では、DGFN(Double GFlowNets)を紹介する。
強化学習とDouble Deep Q-Learningからインスピレーションを得て,これらのトラジェクトリをサンプリングするターゲットネットワークを導入し,メインネットワークをこれらのトラジェクトリで更新する。
実験の結果、dgfnsはスパース報酬ドメインと高次元状態空間の探索を効果的に促進することが明らかとなった。 Deep learning is emerging as an effective tool in drug discovery, with potential applications in both predictive and generative models. Generative Flow Networks (GFlowNets/GFNs) are a recently introduced method recognized for the ability to generate diverse candidates, in particular in small molecule generation tasks. In this work, we introduce double GFlowNets (DGFNs). Drawing inspiration from reinforcement learning and Double Deep Q-Learning, we introduce a target network used to sample trajectories, while updating the main network with these sampled trajectories. Empirical results confirm that DGFNs effectively enhance exploration in sparse reward domains and high-dimensional state spaces, both challenging aspects of de-novo design in drug discovery. | 翻訳日:2023-11-02 10:50:24 公開日:2023-10-31 |
# 『Kelly is a Warm Person, Joseph is a Role Model』 LLM-Generated Reference Letters におけるジェンダーバイアス "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters ( http://arxiv.org/abs/2310.09219v3 ) ライセンス: Link先を確認 | Yixin Wan, George Pu, Jiao Sun, Aparna Garimella, Kai-Wei Chang, Nanyun Peng | (参考訳) 大規模言語モデル(LLM)は、リコメンデーションレターなどの専門文書など、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
利便性をもたらすが、このアプリケーションには前例のない公平性の懸念もある。
モデル生成参照文字は、プロのシナリオでユーザーが直接使用することもある。
これらのモデル構築された文字に根底にあるバイアスが存在する場合、精査なしで使用すると、女性の応募者にとってのアプリケーション成功率を妨害するなど、直接的な社会的害につながる可能性がある。
この差し迫った問題を踏まえると、この実世界のユースケースにおいて公平性の問題と関連する損害を包括的に研究する必要がある。
本稿では,llm生成基準文字における性別バイアスを批判的に検討する。
社会科学の知見からインスピレーションを得て,(1)言語スタイルバイアス,(2)語彙コンテンツバイアスという2次元のバイアスを顕示する評価手法を設計した。
さらに,モデルの幻覚バイアスを解析することにより,バイアス伝播の程度について検討する。
2つのLLMsChatGPTとAlpacaのベンチマーク評価により,LLM生成レコメンデーションレコメンデーションレターに有意な性別バイアスが認められた。
本研究は, LLM の使用を精査せずに警告するだけでなく, LLM 生成専門文書における隠れバイアスや害を徹底的に研究することの重要性も明らかにした。 Large Language Models (LLMs) have recently emerged as an effective tool to assist individuals in writing various types of content, including professional documents such as recommendation letters. Though bringing convenience, this application also introduces unprecedented fairness concerns. Model-generated reference letters might be directly used by users in professional scenarios. If underlying biases exist in these model-constructed letters, using them without scrutinization could lead to direct societal harms, such as sabotaging application success rates for female applicants. In light of this pressing issue, it is imminent and necessary to comprehensively study fairness issues and associated harms in this real-world use case. In this paper, we critically examine gender biases in LLM-generated reference letters. Drawing inspiration from social science findings, we design evaluation methods to manifest biases through 2 dimensions: (1) biases in language style and (2) biases in lexical content. We further investigate the extent of bias propagation by analyzing the hallucination bias of models, a term that we define to be bias exacerbation in model-hallucinated contents. Through benchmarking evaluation on 2 popular LLMs- ChatGPT and Alpaca, we reveal significant gender biases in LLM-generated recommendation letters. Our findings not only warn against using LLMs for this application without scrutinization, but also illuminate the importance of thoroughly studying hidden biases and harms in LLM-generated professional documents. | 翻訳日:2023-11-02 10:47:31 公開日:2023-10-31 |
# アイデンティティ効果学習におけるグラフニューラルネットワークの一般化限界 Generalization Limits of Graph Neural Networks in Identity Effects Learning ( http://arxiv.org/abs/2307.00134v3 ) ライセンス: Link先を確認 | Giuseppe Alessio D'Inverno and Simone Brugiapaglia and Mirco Ravanelli | (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフドメインでデータ駆動学習を行う強力なツールとして登場した。
それらは通常、メッセージパス機構に基づいており、表現力の点で同等であることが証明されたグラフ同型に対するWeisfeiler-Lehman (WL)テストと密接に関連している直感的な定式化で人気を高めている。
本研究では,物体が2つの同一成分からなるか否かを判断するタスク,いわゆるアイデンティティ効果の学習の文脈において,新たな一般化特性とgnnの基本限界を確立する。
本研究の目的は,GNNが単純な認知タスクを遂行する際の能力を理解することであり,計算言語学や化学への応用の可能性にある。
2つのケーススタディを分析しました
(i)二文字の単語は、一線表現のような直交符号化を利用する場合、確率勾配降下により訓練されたGNNが、見知らぬ文字に一般化できないことを示す。
(ii)二環グラフ、すなわち2つのサイクルからなるグラフは、GNNとWLテストの接続を利用して正の存在結果を示す。
我々の理論解析は広範な数値研究によって裏付けられている。 Graph Neural Networks (GNNs) have emerged as a powerful tool for data-driven learning on various graph domains. They are usually based on a message-passing mechanism and have gained increasing popularity for their intuitive formulation, which is closely linked to the Weisfeiler-Lehman (WL) test for graph isomorphism to which they have been proven equivalent in terms of expressive power. In this work, we establish new generalization properties and fundamental limits of GNNs in the context of learning so-called identity effects, i.e., the task of determining whether an object is composed of two identical components or not. Our study is motivated by the need to understand the capabilities of GNNs when performing simple cognitive tasks, with potential applications in computational linguistics and chemistry. We analyze two case studies: (i) two-letters words, for which we show that GNNs trained via stochastic gradient descent are unable to generalize to unseen letters when utilizing orthogonal encodings like one-hot representations; (ii) dicyclic graphs, i.e., graphs composed of two cycles, for which we present positive existence results leveraging the connection between GNNs and the WL test. Our theoretical analysis is supported by an extensive numerical study. | 翻訳日:2023-11-02 10:47:04 公開日:2023-10-31 |
# 確率的歪みを用いた意思決定エミュレートのためのバンディットアルゴリズム Bandit algorithms to emulate human decision making using probabilistic distortions ( http://arxiv.org/abs/1611.10283v3 ) ライセンス: Link先を確認 | Ravi Kumar Kolla, Prashanth L.A., Aditya Gopalan, Krishna Jagannathan, Michael Fu and Steve Marcus | (参考訳) 従来の期待値の選好からの偏差を説明するために提案された人間の意思決定モデルにより、報酬分布に歪んだ確率を持つ確率的マルチアームバンディット問題を定式化し、古典的な$K$武器バンディットと線形パラメータ化バンディット設定を定式化する。
本稿では,後悔の最小化の問題点と,複数腕のバンディットに対する最善のアーム識別フレームワークについて考察する。
K$の武器と線形バンディット問題における後悔の最小化設定のために、我々はアッパー信頼境界(UCB)アルゴリズムにインスパイアされたアルゴリズムを提案し、報酬歪みを取り入れ、サブ線形後悔を示す。
k$-armed bandit の設定では、提案アルゴリズムに期待される後悔の上限を導出し、アルゴリズムの順序最適化性を確立するために一致する下限を証明します。
線形パラメータ化設定では,OFULとは違い,本アルゴリズムは歪みやアーム依存ノイズモデルを扱うため,通常の線形帯域幅アルゴリズムであるオプティミズム(Optimism in the Face of Uncertainty Linear, OFUL)の帯域幅アルゴリズムと同じ順序の残差上限を実現する。
k$-armed bandit設定における最高のarm識別問題に対して,我々はアルゴリズムを提案し,その性能の保証を導き出すとともに,それらのアルゴリズムが性能の基本的な限界を満たしていることを示す。
線形バンドイットにおける最良アーム同定のために, アルゴリズムを提案し, サンプル複雑性の保証を確立する。
最後に,車両交通ルーティングアプリケーションにおける歪み認識学習アルゴリズムの利点を実証するシミュレーション実験を行う。 Motivated by models of human decision making proposed to explain commonly observed deviations from conventional expected value preferences, we formulate two stochastic multi-armed bandit problems with distorted probabilities on the reward distributions: the classic $K$-armed bandit and the linearly parameterized bandit settings. We consider the aforementioned problems in the regret minimization as well as best arm identification framework for multi-armed bandits. For the regret minimization setting in $K$-armed as well as linear bandit problems, we propose algorithms that are inspired by Upper Confidence Bound (UCB) algorithms, incorporate reward distortions, and exhibit sublinear regret. For the $K$-armed bandit setting, we derive an upper bound on the expected regret for our proposed algorithm, and then we prove a matching lower bound to establish the order-optimality of our algorithm. For the linearly parameterized setting, our algorithm achieves a regret upper bound that is of the same order as that of regular linear bandit algorithm called Optimism in the Face of Uncertainty Linear (OFUL) bandit algorithm, and unlike OFUL, our algorithm handles distortions and an arm-dependent noise model. For the best arm identification problem in the $K$-armed bandit setting, we propose algorithms, derive guarantees on their performance, and also show that these algorithms are order optimal by proving matching fundamental limits on performance. For best arm identification in linear bandits, we propose an algorithm and establish sample complexity guarantees. Finally, we present simulation experiments which demonstrate the advantages resulting from using distortion-aware learning algorithms in a vehicular traffic routing application. | 翻訳日:2023-11-02 05:29:19 公開日:2023-10-31 |
# Pharmacoprint -- コンピュータ支援ドラッグデザインのためのツールとして、薬薬用指紋と人工知能の組み合わせ Pharmacoprint -- a combination of pharmacophore fingerprint and artificial intelligence as a tool for computer-aided drug design ( http://arxiv.org/abs/2110.01339v2 ) ライセンス: Link先を確認 | Dawid Warszycki, {\L}ukasz Struski, Marek \'Smieja, Rafa{\l} Kafel, Rafa{\l} Kurczab | (参考訳) 構造指紋と薬理泳動モデリングは、類似性検索から機械学習(ML)まで、様々な分野で20年以上にわたって用いられてきた手法である。
その結果、シリコ技法の進歩により、これらの手法を薬用指紋と呼ばれる新しいアプローチに組み合わせた。
そこで本研究では,分子の存在,型,関係を符号化した高分解能な医薬用指紋Pharmacoprintを提案する。
MLアルゴリズム(論理回帰、サポートベクターマシン、線形支持ベクターマシン、ニューラルネットワーク)を用いて分類実験を行い、他の一般的な分子指紋(Estate, MACCS, PubChem, Substructure, Klekotha-Roth, CDK, Extended, GraphOnly)とChemAxon Pharophoric Featuresの指紋より優れていた。
Pharmacoprintは39973ビットで構成されており、いくつかの手法が次元削減に適用され、最良のアルゴリズムはビット文字列の長さを削減しただけでなく、MLテストの効率も改善した。
さらなる最適化により、識別テストでPharmacoprintを使用することと統計パラメータの最大化に最適なパラメータ設定が定義できるようになった。
最後に、定義された水素を入力データとして3次元構造のために生成されたPharmacoprintは、最も重要なビットを選択するための教師付きオートエンコーダでニューラルネットワークに適用され、マシューズ相関係数を0.962まで最大化することができた。
その結果,Pharmacoprintがコンピュータ支援ドラッグデザインの新しい視点ツールとなる可能性が示された。 Structural fingerprints and pharmacophore modeling are methodologies that have been used for at least two decades in various fields of cheminformatics: from similarity searching to machine learning (ML). Advances in silico techniques consequently led to combining both these methodologies into a new approach known as pharmacophore fingerprint. Herein, we propose a high-resolution, pharmacophore fingerprint called Pharmacoprint that encodes the presence, types, and relationships between pharmacophore features of a molecule. Pharmacoprint was evaluated in classification experiments by using ML algorithms (logistic regression, support vector machines, linear support vector machines, and neural networks) and outperformed other popular molecular fingerprints (i.e., Estate, MACCS, PubChem, Substructure, Klekotha-Roth, CDK, Extended, and GraphOnly) and ChemAxon Pharmacophoric Features fingerprint. Pharmacoprint consisted of 39973 bits; several methods were applied for dimensionality reduction, and the best algorithm not only reduced the length of bit string but also improved the efficiency of ML tests. Further optimization allowed us to define the best parameter settings for using Pharmacoprint in discrimination tests and for maximizing statistical parameters. Finally, Pharmacoprint generated for 3D structures with defined hydrogens as input data was applied to neural networks with a supervised autoencoder for selecting the most important bits and allowed to maximize Matthews Correlation Coefficient up to 0.962. The results show the potential of Pharmacoprint as a new, perspective tool for computer-aided drug design. | 翻訳日:2023-11-02 05:24:56 公開日:2023-10-31 |
# 安定かつ効率的な強化学習のための代理関数の一般クラス A general class of surrogate functions for stable and efficient reinforcement learning ( http://arxiv.org/abs/2108.05828v5 ) ライセンス: Link先を確認 | Sharan Vaswani, Olivier Bachem, Simone Totaro, Robert Mueller, Shivam Garg, Matthieu Geist, Marlos C. Machado, Pablo Samuel Castro, Nicolas Le Roux | (参考訳) 共通ポリシー勾配法は一連の代理関数の最大化に依存する。
近年、多くのサーロゲート関数が提案されており、理論的な保証がほとんどなく、trpo、ppo、mpoなどのアルゴリズムが提案されている。
新たなサーロゲート関数を設計する代わりに、関数ミラーの上昇に基づく汎用フレームワーク(fma-pg)を提案し、サーロゲート関数のファミリー全体を生じさせる。
我々は,既存のほとんどのサロゲート関数で共有されていないプロパティであるポリシー改善保証を可能にするサロゲート関数を構築する。
重要なことは、これらの保証は政策パラメータ化の選択にかかわらず保持される。
さらに、FMA-PGの特定のインスタンス化は重要な実装ヒューリスティック(例えば、フォワードとリバースKLの発散)を回復させ、追加の望ましい性質を持つTRPOの変種をもたらす。
単純なバンディット問題に対する実験により,FMA-PGによるアルゴリズムの評価を行った。
提案したフレームワークは、MuJoCoスイートで実証的に実証した堅牢性と効率性を示すPPOの改良版も提案している。 Common policy gradient methods rely on the maximization of a sequence of surrogate functions. In recent years, many such surrogate functions have been proposed, most without strong theoretical guarantees, leading to algorithms such as TRPO, PPO or MPO. Rather than design yet another surrogate function, we instead propose a general framework (FMA-PG) based on functional mirror ascent that gives rise to an entire family of surrogate functions. We construct surrogate functions that enable policy improvement guarantees, a property not shared by most existing surrogate functions. Crucially, these guarantees hold regardless of the choice of policy parameterization. Moreover, a particular instantiation of FMA-PG recovers important implementation heuristics (e.g., using forward vs reverse KL divergence) resulting in a variant of TRPO with additional desirable properties. Via experiments on simple bandit problems, we evaluate the algorithms instantiated by FMA-PG. The proposed framework also suggests an improved variant of PPO, whose robustness and efficiency we empirically demonstrate on the MuJoCo suite. | 翻訳日:2023-11-02 05:23:37 公開日:2023-10-31 |
# Bures-Wasserstein多様体上の平均化:勾配勾配の次元自由収束 Averaging on the Bures-Wasserstein manifold: dimension-free convergence of gradient descent ( http://arxiv.org/abs/2106.08502v3 ) ライセンス: Link先を確認 | Jason M. Altschuler, Sinho Chewi, Patrik Gerber, Austin J. Stromme | (参考訳) 最適輸送計量に関してガウス分布のバリ中心を計算するための一階最適化アルゴリズムについて検討する。
目的は測地的に非凸であるが、リーマン GD は経験的に急速に収束し、実際はユークリッド GD や SDP ソルバのような既製の方法よりも速い。
これは、次元に指数関数的に依存するリーマン gd の最もよく知られた理論結果とは対照的である。
本研究では,新たな測地的凸性を証明し,イテレートをより強く制御し,次元自由収束率を導出する。
また本手法は, 2つの関連する平均化概念, エントロピー正規化バリセンタと幾何学的中央値の解析を可能にし, リーマン gd に対する最初の収束保証を提供する。 We study first-order optimization algorithms for computing the barycenter of Gaussian distributions with respect to the optimal transport metric. Although the objective is geodesically non-convex, Riemannian GD empirically converges rapidly, in fact faster than off-the-shelf methods such as Euclidean GD and SDP solvers. This stands in stark contrast to the best-known theoretical results for Riemannian GD, which depend exponentially on the dimension. In this work, we prove new geodesic convexity results which provide stronger control of the iterates, yielding a dimension-free convergence rate. Our techniques also enable the analysis of two related notions of averaging, the entropically-regularized barycenter and the geometric median, providing the first convergence guarantees for Riemannian GD for these problems. | 翻訳日:2023-11-02 05:22:57 公開日:2023-10-31 |
# helmholtzian eigenmap: ポイントクラウドデータからのトポロジ的特徴発見とエッジフロー学習 Helmholtzian Eigenmap: Topological feature discovery & edge flow learning from point cloud data ( http://arxiv.org/abs/2103.07626v3 ) ライセンス: Link先を確認 | Yu-Chia Chen, Weicheng Wu, Marina Meil\u{a}, Ioannis G. Kevrekidis | (参考訳) 多様体 helmholtzian (1-laplacian) operator $\delta_1$ はラプラス・ベルトラミ作用素を多様体 $\mathcal m$ 上のベクトル場にエレガントに一般化する。
本研究では,重み付き 1-Laplacian $\mathcal L_1$ による点雲データから多様体 Helmholtzian を推定する。
高階ラプラシアンは導入され研究されているが、この研究は非パラメトリックな設定における連続作用素の一貫した推定子として単純複体から構築されたグラフヘルムホルツ函数を初めて提示するものである。
ヘルムホルツ多様体は、$\mathcal M$に関する幾何学的および位相的情報と合わせて、ヘルムホルツ・ホッジの定理を通じて$\mathcal M$上のフローとベクトル場を解析するための有用なツールである。
さらに、$\mathcal L_1$はフローの滑らか化、予測、特徴抽出を可能にする。
非自明な位相構造を持つ合成および実点クラウドデータセットにこれらの可能性を示し、$\mathcal L_1$ から $\Delta_1$ の極限に関する理論的結果を提供する。 The manifold Helmholtzian (1-Laplacian) operator $\Delta_1$ elegantly generalizes the Laplace-Beltrami operator to vector fields on a manifold $\mathcal M$. In this work, we propose the estimation of the manifold Helmholtzian from point cloud data by a weighted 1-Laplacian $\mathcal L_1$. While higher order Laplacians have been introduced and studied, this work is the first to present a graph Helmholtzian constructed from a simplicial complex as a consistent estimator for the continuous operator in a non-parametric setting. Equipped with the geometric and topological information about $\mathcal M$, the Helmholtzian is a useful tool for the analysis of flows and vector fields on $\mathcal M$ via the Helmholtz-Hodge theorem. In addition, the $\mathcal L_1$ allows the smoothing, prediction, and feature extraction of the flows. We demonstrate these possibilities on substantial sets of synthetic and real point cloud datasets with non-trivial topological structures; and provide theoretical results on the limit of $\mathcal L_1$ to $\Delta_1$. | 翻訳日:2023-11-02 05:22:00 公開日:2023-10-31 |
# outlier-robust sparse/low-rank 最小二乗回帰とロバスト行列完全度 Outlier-robust sparse/low-rank least-squares regression and robust matrix completion ( http://arxiv.org/abs/2012.06750v3 ) ライセンス: Link先を確認 | Philip Thompson | (参考訳) 異種雑音を伴うサブガウシアン統計学習枠組みにおける高次元最小二乗回帰について検討した。
ラベルのわずかな$\epsilon$ が反対に汚染された場合に$s$-sparse と $r$-low-rank の最小二乗回帰を含む。
また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレース回帰理論を提案する。
これらの問題に対して、r(n,d_{e})+\sqrt{\log(1/\delta)/n}+\epsilon\log(1/\epsilon)$という形の新しい「準ガウス的」推定率は、少なくとも1-\delta$という確率で有効である。
ここで、$r(n,d_{e})$ は有効次元 $d_{e}$ の関数として最適非汚染率であるが、失敗確率 $\delta$ とは独立である。
これらの値は$\delta$、すなわち、推定子のチューニングは$\delta$に依存しない。
最後に,非一様サンプリングによる頑健な行列補完について考察する。
低ランク行列だけに興味があるなら、汚職レベル$a$とは無関係に、非常に近い最適率を示す。
私たちの推定器は、新しい"ソートされた"Huber型損失に基づいて、トラクタブルです。
これらの推定値を調整するには$(s,r,\epsilon,a)$に関する情報は必要ない。
我々の分析では、他の場所で有用な乗算および製品プロセスに対して、新規な$\delta$-optimal concentration inequalityを利用する。
例えば、sso と Slope の鋭いオラクルの不等式は $\delta$ に最適に依存する。
数値シミュレーションは我々の理論予測を裏付ける。
特に、"ソート"なHuber回帰は、古典的なHuber回帰よりも優れている。 We study high-dimensional least-squares regression within a subgaussian statistical learning framework with heterogeneous noise. It includes $s$-sparse and $r$-low-rank least-squares regression when a fraction $\epsilon$ of the labels are adversarially contaminated. We also present a novel theory of trace-regression with matrix decomposition based on a new application of the product process. For these problems, we show novel near-optimal "subgaussian" estimation rates of the form $r(n,d_{e})+\sqrt{\log(1/\delta)/n}+\epsilon\log(1/\epsilon)$, valid with probability at least $1-\delta$. Here, $r(n,d_{e})$ is the optimal uncontaminated rate as a function of the effective dimension $d_{e}$ but independent of the failure probability $\delta$. These rates are valid uniformly on $\delta$, i.e., the estimators' tuning do not depend on $\delta$. Lastly, we consider noisy robust matrix completion with non-uniform sampling. If only the low-rank matrix is of interest, we present a novel near-optimal rate that is independent of the corruption level $a$. Our estimators are tractable and based on a new "sorted" Huber-type loss. No information on $(s,r,\epsilon,a)$ are needed to tune these estimators. Our analysis makes use of novel $\delta$-optimal concentration inequalities for the multiplier and product processes which could be useful elsewhere. For instance, they imply novel sharp oracle inequalities for Lasso and Slope with optimal dependence on $\delta$. Numerical simulations confirm our theoretical predictions. In particular, "sorted" Huber regression can outperform classical Huber regression. | 翻訳日:2023-11-02 05:21:16 公開日:2023-10-31 |
# 合成介入 Synthetic Interventions ( http://arxiv.org/abs/2006.07691v6 ) ライセンス: Link先を確認 | Anish Agarwal, Devavrat Shah, Dennis Shen | (参考訳) n$ の異種単位(例えば、個人、サブ人口)と $d$ の介入(例えば、社会経済政策)を持つ集合を考える。
我々のゴールは、すべてのユニットへの介入に関連する潜在的な結果を学習することであり、合計で$N \times D$因果パラメータである。
そこで本論文では, 因果的枠組みである合成的介入(SI)を提案し, これらの$N \times D$因果的パラメータを推定すると同時に, 最低2回の介入でN$単位のそれぞれをD$とは独立に観察する。
これは、介入の数、すなわちパーソナライゼーションのレベルが増加するにつれて重要になる。
単位、結果、介入にまたがる新しいテンソル因子モデルの下で、これらの$N \times D$因果パラメータの識別結果を証明し、追加条件下での漸近正規性とともに、推定器の有限サンプル整合性を確立する。
重要なことに、私たちの推定は、潜伏する共同創設者がどのように介入が割り当てられるかを決定するのにも役立ちます。
この推定器は、その適合性を調べるためのデータ駆動テストも備えている。
実証的に,Eコマースプラットフォーム上で実施した大規模A/Bテストを通じて,我々のフレームワークを検証する。
我々は,データ効率のよいランダム化実験(ランダム化制御試験など)の設計に,不均一な単位と複数の介入が関与できると考えている。 Consider a setting with $N$ heterogeneous units (e.g., individuals, sub-populations) and $D$ interventions (e.g., socio-economic policies). Our goal is to learn the expected potential outcome associated with every intervention on every unit, totaling $N \times D$ causal parameters. Towards this, we present a causal framework, synthetic interventions (SI), to infer these $N \times D$ causal parameters while only observing each of the $N$ units under at most two interventions, independent of $D$. This can be significant as the number of interventions, i.e., level of personalization, grows. Under a novel tensor factor model across units, outcomes, and interventions, we prove an identification result for each of these $N \times D$ causal parameters, establish finite-sample consistency of our estimator along with asymptotic normality under additional conditions. Importantly, our estimator also allows for latent confounders that determine how interventions are assigned. The estimator is further furnished with data-driven tests to examine its suitability. Empirically, we validate our framework through a large-scale A/B test performed on an e-commerce platform. We believe our results could have implications for the design of data-efficient randomized experiments (e.g., randomized control trials) with heterogeneous units and multiple interventions. | 翻訳日:2023-11-02 05:20:45 公開日:2023-10-31 |
# 多エージェント深部強化学習におけるパラメータ共有の再検討 Revisiting Parameter Sharing in Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2005.13625v8 ) ライセンス: Link先を確認 | J. K. Terry, Nathaniel Grammel, Sanghyun Son, Benjamin Black, Aakriti Agrawal | (参考訳) パラメータ共有は、各エージェントが独立して、すべてのポリシー間で完全に共有されたパラメータを持つポリシーを学習するものである。
残念ながら、すべてのエージェントが同じポリシーネットワークを共有しているので、異なるポリシーやタスクを学べません。
この問題は、観察にエージェント特異的なインジケータ信号を加えることで実験的に回避され、「エージェント表示」と呼ばれる。
エージェント表示は制限されているが、修正なしでは、アクション空間や観測空間が不均一な環境にパラメータ共有を適用することはできない。
この研究はエージェント指示の概念を形式化し、それが最適ポリシーへの収束を可能にすることを初めて証明する。
次に,不均一な観測と行動空間における学習へのパラメータ共有の拡張手法を正式に導入し,これらの手法が最適ポリシーへの収束を可能にすることを示す。
最後に,提案手法が実験的に導入されていることを実験的に確認し,画像ベース観測空間に対する様々なエージェント指示方式の実証的有効性について幅広い実験を行った。 Parameter sharing, where each agent independently learns a policy with fully shared parameters between all policies, is a popular baseline method for multi-agent deep reinforcement learning. Unfortunately, since all agents share the same policy network, they cannot learn different policies or tasks. This issue has been circumvented experimentally by adding an agent-specific indicator signal to observations, which we term "agent indication". Agent indication is limited, however, in that without modification it does not allow parameter sharing to be applied to environments where the action spaces and/or observation spaces are heterogeneous. This work formalizes the notion of agent indication and proves that it enables convergence to optimal policies for the first time. Next, we formally introduce methods to extend parameter sharing to learning in heterogeneous observation and action spaces, and prove that these methods allow for convergence to optimal policies. Finally, we experimentally confirm that the methods we introduce function empirically, and conduct a wide array of experiments studying the empirical efficacy of many different agent indication schemes for image based observation spaces. | 翻訳日:2023-11-02 05:20:21 公開日:2023-10-31 |
# DAMNETS: Markovian Network Time Series を生成するための深い自己回帰モデル DAMNETS: A Deep Autoregressive Model for Generating Markovian Network Time Series ( http://arxiv.org/abs/2203.15009v2 ) ライセンス: Link先を確認 | Jase Clarkson, Mihai Cucuringu, Andrew Elliott, Gesine Reinert | (参考訳) ネットワーク時系列の生成モデル(動的グラフとしても知られる)は、複雑なグラフベースのダイナミクスが研究の中心となる疫学、生物学、経済学といった分野において、大きな可能性を秘めている。
フレキシブルでスケーラブルな生成モデルの設計は、データの高次元性に加えて、時間的依存と限界ネットワーク構造を表現する必要があるため、非常に難しい作業である。
本稿では,ネットワーク時系列のスケーラブルな深層生成モデルであるDAMNETSを紹介する。
DAMNETSは、実データと合成データの両方に対して、サンプル品質のすべての尺度で競合する手法より優れています。 Generative models for network time series (also known as dynamic graphs) have tremendous potential in fields such as epidemiology, biology and economics, where complex graph-based dynamics are core objects of study. Designing flexible and scalable generative models is a very challenging task due to the high dimensionality of the data, as well as the need to represent temporal dependencies and marginal network structure. Here we introduce DAMNETS, a scalable deep generative model for network time series. DAMNETS outperforms competing methods on all of our measures of sample quality, over both real and synthetic data sets. | 翻訳日:2023-11-02 05:11:31 公開日:2023-10-31 |
# 弱教師付きセマンティック対応のための確率的ワープ整合性 Probabilistic Warp Consistency for Weakly-Supervised Semantic Correspondences ( http://arxiv.org/abs/2203.04279v2 ) ライセンス: Link先を確認 | Prune Truong and Martin Danelljan and Fisher Yu and Luc Van Gool | (参考訳) セマンティックマッチングのための弱教師付き学習目標である確率ワープ一貫性を提案する。
提案手法は,条件付き確率分布として符号化されたネットワークによって予測される密マッチングスコアを直接監督する。
まず、同じオブジェクトクラスの異なるインスタンスを表すペアで、既知のワープを画像の1つに適用することで、画像トリプルを構築する。
得られた画像三重項から生じる制約を用いて確率論的学習目標を導出する。
さらに、確率的出力空間を学習不能な状態に拡張することにより、実画像対に存在するオクルージョンと背景クラッタを更に説明します。
そこで我々は,異なるオブジェクトクラスを表現した画像ペア間の目的を設計する。
提案手法を最近の4つの意味マッチングアーキテクチャに適用して検証する。
弱い教師付きアプローチは、4つの挑戦的なセマンティックマッチングベンチマークに新しい最先端のアプローチを設定します。
最後に、キーポイントアノテーションと組み合わせることで、当社の目的が、強く監督されたレシエーションに大きな改善をもたらすことを実証する。 We propose Probabilistic Warp Consistency, a weakly-supervised learning objective for semantic matching. Our approach directly supervises the dense matching scores predicted by the network, encoded as a conditional probability distribution. We first construct an image triplet by applying a known warp to one of the images in a pair depicting different instances of the same object class. Our probabilistic learning objectives are then derived using the constraints arising from the resulting image triplet. We further account for occlusion and background clutter present in real image pairs by extending our probabilistic output space with a learnable unmatched state. To supervise it, we design an objective between image pairs depicting different object classes. We validate our method by applying it to four recent semantic matching architectures. Our weakly-supervised approach sets a new state-of-the-art on four challenging semantic matching benchmarks. Lastly, we demonstrate that our objective also brings substantial improvements in the strongly-supervised regime, when combined with keypoint annotations. | 翻訳日:2023-11-02 05:11:04 公開日:2023-10-31 |
# BERT WEAVER:バイオメディカルセマンティックサーチエンジンにおけるトランスフォーマーモデルのための生涯学習を可能にする軽量平均化 BERT WEAVER: Using WEight AVERaging to enable lifelong learning for transformer-based models in biomedical semantic search engines ( http://arxiv.org/abs/2202.10101v3 ) ライセンス: Link先を確認 | Lisa K\"uhnel, Alexander Schulz, Barbara Hammer and Juliane Fluck | (参考訳) 近年の転校学習の発展により、自然言語処理タスクの進歩が加速している。
しかし、パフォーマンスは、高品質で手動のトレーニングデータに依存する。
特にバイオメディカル領域では、新しいデータを効率的に予測できる汎用モデルを学ぶのに、1つのトレーニングコーパスでは不十分であることが示されている。
したがって、実世界のアプリケーションで使用されるためには、最先端のモデルには、新しいデータが手に入るとすぐにパフォーマンスを改善するための生涯学習の能力が必要です。
本稿では,新しいモデルに古い知識を注入し,破滅的な忘れを低減させる,単純かつ効率的な後処理手法であるweaverを提案する。
WEAVERを逐次的に適用すると、単語の埋め込み分布は、計算効率が良く、同時に全てのデータに対する複合的なトレーニングを行うのと同じ結果が得られることを示す。
データ共有の必要がなくなるため, 提案手法は連携学習環境にも容易に適用でき, 例えば, 異なる診療所からの電子的健康記録のマイニングに有用である。 Recent developments in transfer learning have boosted the advancements in natural language processing tasks. The performance is, however, dependent on high-quality, manually annotated training data. Especially in the biomedical domain, it has been shown that one training corpus is not enough to learn generic models that are able to efficiently predict on new data. Therefore, in order to be used in real world applications state-of-the-art models need the ability of lifelong learning to improve performance as soon as new data are available - without the need of re-training the whole model from scratch. We present WEAVER, a simple, yet efficient post-processing method that infuses old knowledge into the new model, thereby reducing catastrophic forgetting. We show that applying WEAVER in a sequential manner results in similar word embedding distributions as doing a combined training on all data at once, while being computationally more efficient. Because there is no need of data sharing, the presented method is also easily applicable to federated learning settings and can for example be beneficial for the mining of electronic health records from different clinics. | 翻訳日:2023-11-02 05:10:11 公開日:2023-10-31 |
# 組合せシーケンステストのための一般化カバレッジ基準 Generalized Coverage Criteria for Combinatorial Sequence Testing ( http://arxiv.org/abs/2201.00522v4 ) ライセンス: Link先を確認 | Achiya Elyasaf, Eitan Farchi, Oded Margalit, Gera Weiss, Yeshayahu Weiss | (参考訳) 本稿では,アクションのシーケンスとアサーションをテストベクトルとして使用するテストシステムに対して,新しいモデルベースのアプローチを提案する。
我々のソリューションは、テスト品質の定量化方法、提案するカバレッジ基準に基づいて高品質なテストスイートを生成するツール、リスクを評価するフレームワークを含む。
テスト品質をテストするため,従来のアプローチを拡張したアクションのシーケンスに対して,包括的カバレッジ基準を規定する手法を提案する。
これらの基準に基づいて,テスト計画から有効なテストスイートを抽出する方法を示す。
また、バグやリスクの確率を測定するためのベイズ的アプローチを提案し、この定量化によって、エクスプロイトとテストにおける探索の間の情報バランスが達成できることを示す。
最後に,バグ発見,リスク評価,カバレッジ達成におけるツールの有効性を実証する経験的評価を行う。 We present a new model-based approach for testing systems that use sequences of actions and assertions as test vectors. Our solution includes a method for quantifying testing quality, a tool for generating high-quality test suites based on the coverage criteria we propose, and a framework for assessing risks. For testing quality, we propose a method that specifies generalized coverage criteria over sequences of actions, which extends previous approaches. Our publicly available tool demonstrates how to extract effective test suites from test plans based on these criteria. We also present a Bayesian approach for measuring the probabilities of bugs or risks, and show how this quantification can help achieve an informed balance between exploitation and exploration in testing. Finally, we provide an empirical evaluation demonstrating the effectiveness of our tool in finding bugs, assessing risks, and achieving coverage. | 翻訳日:2023-11-02 05:08:56 公開日:2023-10-31 |
# ラベル階層の遷移:クラスの階層化と深い分類の強化 Label Hierarchy Transition: Delving into Class Hierarchies to Enhance Deep Classifiers ( http://arxiv.org/abs/2112.02353v2 ) ライセンス: Link先を確認 | Renzhen Wang, De cai, Kaiwen Xiao, Xixi Jia, Xiao Han, Deyu Meng | (参考訳) 階層分類は、オブジェクトをカテゴリの階層構造に分類することを目的としている。
例えば、鳥は秩序、家族、種の3段階の階層によって分類することができる。
既存の手法では、階層分類を複数の分類タスクに分割して扱うのが一般的である。
しかし、このようなマルチタスク学習戦略は、階層の異なるレベルにわたる様々なカテゴリ間の相関を完全に活用できない。
本稿では,階層分類の課題を解決するために,ディープラーニングに基づく統一確率的フレームワークであるラベル階層遷移(LHT)を提案する。
LHTフレームワークは、遷移ネットワークと混乱損失からなる。
遷移ネットワークは、クラス階層に埋め込まれた基盤となる相関を効果的にエンコードする可能性を持つラベル階層遷移行列を明示的に学習することに焦点を当てている。
混乱損失により、分類ネットワークはトレーニング中に異なるラベル階層間の相関を学習する。
提案したフレームワークは、わずかな変更だけで既存のディープネットワークに容易に適応できる。
本研究では,階層的分類問題に対する一連の公開ベンチマークデータセットを用いて実験を行い,現状の手法を超越したアプローチの優位性を示す。
さらに,提案するLHTフレームワークを皮膚病変診断タスクに拡張し,コンピュータ支援診断におけるその大きな可能性を検証する。
このメソッドのコードは \href{https://github.com/renzhenwang/label-hierarchy-transition}{https://github.com/renzhenwang/label-hierarchy-transition} で入手できる。 Hierarchical classification aims to sort the object into a hierarchical structure of categories. For example, a bird can be categorized according to a three-level hierarchy of order, family, and species. Existing methods commonly address hierarchical classification by decoupling it into a series of multi-class classification tasks. However, such a multi-task learning strategy fails to fully exploit the correlation among various categories across different levels of the hierarchy. In this paper, we propose Label Hierarchy Transition (LHT), a unified probabilistic framework based on deep learning, to address the challenges of hierarchical classification. The LHT framework consists of a transition network and a confusion loss. The transition network focuses on explicitly learning the label hierarchy transition matrices, which has the potential to effectively encode the underlying correlations embedded within class hierarchies. The confusion loss encourages the classification network to learn correlations across different label hierarchies during training. The proposed framework can be readily adapted to any existing deep network with only minor modifications. We experiment with a series of public benchmark datasets for hierarchical classification problems, and the results demonstrate the superiority of our approach beyond current state-of-the-art methods. Furthermore, we extend our proposed LHT framework to the skin lesion diagnosis task and validate its great potential in computer-aided diagnosis. The code of our method is available at \href{https://github.com/renzhenwang/label-hierarchy-transition}{https://github.com/renzhenwang/label-hierarchy-transition}. | 翻訳日:2023-11-02 05:08:07 公開日:2023-10-31 |
# 損失販売と不確実な供給を伴う在庫システムの発注の学習 Learning to Order for Inventory Systems with Lost Sales and Uncertain Supplies ( http://arxiv.org/abs/2207.04550v4 ) ライセンス: Link先を確認 | Boxiao Chen, Jiashuo Jiang, Jiawei Zhang and Zhengyuan Zhou | (参考訳) 計画的地平線上でのリードタイムが$L$である確率的ロスセール在庫管理システムを考察する。
供給は不確実であり、(ランダムな収量/容量などによる)順序量の関数である。
私たちは、需要と供給の既知の分布下でも計算が難しい問題であるt$周期コストを最小化することを目指している。
本稿では,需要分布と供給分布の両方が未知であると仮定し,計算効率の高いオンライン学習アルゴリズムを開発した。
提案アルゴリズムは,O(L+\sqrt{T})$が$L\geq\log(T)$である場合に,そのアルゴリズムのコストと,O(L+\sqrt{T})$に対する最適ポリシーとの相違(英語版)を生じることを示す。
私たちはそうします
1) 完全情報(よく知られ、広く使われているアルゴリズム)に基づく最適定数順序ポリシーと比較して、任意の$l\geq 0$に対して最大$o(l+\sqrt{t})$でアルゴリズムコストを示す。
2) 既知の性能保証を既存文献から活用すること。
私たちの知る限りでは、オンライン在庫管理の文献では、最適なポリシーに対してベンチマークを行った場合、有限サンプルの$o(\sqrt{t})$(および$l$の多項式)が制限される。
この学習問題の鍵となる課題は、需要データと供給データの両方が検閲可能であることである。
注文量$q^2$の下で生成されたデータは、すべての$q^1<q^2$に対して$q^1$のパフォーマンスをシミュレートできることを示すことにより、この課題を回避する。
高確率カップリングの議論を確立することで、有限時間地平線内の定常状態における異なる順序ポリシーの性能を評価し、比較することができる。
この問題には凸性が欠けているため,亜最適解を適応的に排除する能動除去法を開発した。 We consider a stochastic lost-sales inventory control system with a lead time $L$ over a planning horizon $T$. Supply is uncertain, and is a function of the order quantity (due to random yield/capacity, etc). We aim to minimize the $T$-period cost, a problem that is known to be computationally intractable even under known distributions of demand and supply. In this paper, we assume that both the demand and supply distributions are unknown and develop a computationally efficient online learning algorithm. We show that our algorithm achieves a regret (i.e. the performance gap between the cost of our algorithm and that of an optimal policy over $T$ periods) of $O(L+\sqrt{T})$ when $L\geq\log(T)$. We do so by 1) showing our algorithm cost is higher by at most $O(L+\sqrt{T})$ for any $L\geq 0$ compared to an optimal constant-order policy under complete information (a well-known and widely-used algorithm) and 2) leveraging its known performance guarantee from the existing literature. To the best of our knowledge, a finite-sample $O(\sqrt{T})$ (and polynomial in $L$) regret bound when benchmarked against an optimal policy is not known before in the online inventory control literature. A key challenge in this learning problem is that both demand and supply data can be censored; hence only truncated values are observable. We circumvent this challenge by showing that the data generated under an order quantity $q^2$ allows us to simulate the performance of not only $q^2$ but also $q^1$ for all $q^1<q^2$, a key observation to obtain sufficient information even under data censoring. By establishing a high probability coupling argument, we are able to evaluate and compare the performance of different order policies at their steady state within a finite time horizon. Since the problem lacks convexity, we develop an active elimination method that adaptively rules out suboptimal solutions. | 翻訳日:2023-11-02 05:00:56 公開日:2023-10-31 |
# 不確実性セット正規化を伴う連続制御タスクにおけるロバスト強化学習 Robust Reinforcement Learning in Continuous Control Tasks with Uncertainty Set Regularization ( http://arxiv.org/abs/2207.02016v3 ) ライセンス: Link先を確認 | Yuan Zhang, Jianhong Wang, Joschka Boedecker | (参考訳) 強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されており、現実世界のロボット工学への応用を過度に制限している。
以前は、値関数に正規化を追加することは、不確実な遷移を伴う堅牢なポリシーを学ぶことと等価であると主張した。
正規化・ロバスト性変換はその単純さと効率をアピールしているが、それでも連続制御タスクには欠けている。
本稿では、遷移関数のパラメータ空間上の不確かさを定式化することにより、 $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR) という新しい正規化器を提案する。
特にUSRは、既存のRLフレームワークにプラグインできるほど柔軟です。
未知の不確実性集合に対処するために,我々はさらに,値関数に基づいてそれを生成するための新しい敵対的アプローチを提案する。
実世界の強化学習(rwrl)ベンチマークでusrを評価し,摂動テスト環境におけるロバスト性能の改善を実証した。 Reinforcement learning (RL) is recognized as lacking generalization and robustness under environmental perturbations, which excessively restricts its application for real-world robotics. Prior work claimed that adding regularization to the value function is equivalent to learning a robust policy with uncertain transitions. Although the regularization-robustness transformation is appealing for its simplicity and efficiency, it is still lacking in continuous control tasks. In this paper, we propose a new regularizer named $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR), by formulating the uncertainty set on the parameter space of the transition function. In particular, USR is flexible enough to be plugged into any existing RL framework. To deal with unknown uncertainty sets, we further propose a novel adversarial approach to generate them based on the value function. We evaluate USR on the Real-world Reinforcement Learning (RWRL) benchmark, demonstrating improvements in the robust performance for perturbed testing environments. | 翻訳日:2023-11-02 05:00:01 公開日:2023-10-31 |
# 単語と画像のリンクはどの程度直接的か? How direct is the link between words and images? ( http://arxiv.org/abs/2206.15381v2 ) ライセンス: Link先を確認 | Hassan Shahmohammadi, Maria Heitmeier, Elnaz Shafaei-Bajestan, Hendrik P. A. Lensch, Harald Baayen | (参考訳) 現在の単語埋め込みモデルは、その成功にもかかわらず、まだ現実世界における基盤の欠如に苦しんでいる。
この一連の研究で、Guntherら2022は、言葉と画像の関係を調査するための行動実験を提案した。
設定では、参加者にターゲット名詞と、モデルによって選択された画像と、ランダムに選択された画像が提示された。
参加者は、ターゲット名詞に最も合う画像を選択するよう求められた。
ほとんどの場合、参加者はモデルによって選択された画像を好む。
それゆえ、guntherらは、言葉と具体化された経験とを直接結びつける可能性を結論づけた。
私たちは彼らの実験を出発点として、以下の質問に答えました。
1. 与えられた画像の視覚的具体化シミュレーションの活用とは別に、この課題の解決に被験者が用いた戦略は何か。
この設定は、どの程度画像の視覚情報に依存していますか?
純粋にテキスト表現で解決できるのか?
2. 現状の接地埋め込みはテキスト埋め込みよりも被験者の選択行動が優れているか?
3. ビジュアルグラウンドディングは具体的・抽象的な単語の意味表現を改善するか?
これらの問題に対処するために,事前学習されたテキストと視覚的に接地した単語埋め込みを用いて,新しい実験を考案した。
実験の結果,テキストベースの埋め込みと単語による類似性に基づいて,被験者の選択行動が広範囲に説明されることが判明した。
視覚的に接地された埋め込みは、特定のケースでのみテキスト埋め込みよりも控えめなアドバンテージを提供する。
これらの結果から,guntherらによる実験は参加者の知覚経験に適さない可能性があり,視覚的な接地知識の程度は明らかでない。 Current word embedding models despite their success, still suffer from their lack of grounding in the real world. In this line of research, Gunther et al. 2022 proposed a behavioral experiment to investigate the relationship between words and images. In their setup, participants were presented with a target noun and a pair of images, one chosen by their model and another chosen randomly. Participants were asked to select the image that best matched the target noun. In most cases, participants preferred the image selected by the model. Gunther et al., therefore, concluded the possibility of a direct link between words and embodied experience. We took their experiment as a point of departure and addressed the following questions. 1. Apart from utilizing visually embodied simulation of given images, what other strategies might subjects have used to solve this task? To what extent does this setup rely on visual information from images? Can it be solved using purely textual representations? 2. Do current visually grounded embeddings explain subjects' selection behavior better than textual embeddings? 3. Does visual grounding improve the semantic representations of both concrete and abstract words? To address these questions, we designed novel experiments by using pre-trained textual and visually grounded word embeddings. Our experiments reveal that subjects' selection behavior is explained to a large extent based on purely text-based embeddings and word-based similarities, suggesting a minor involvement of active embodied experiences. Visually grounded embeddings offered modest advantages over textual embeddings only in certain cases. These findings indicate that the experiment by Gunther et al. may not be well suited for tapping into the perceptual experience of participants, and therefore the extent to which it measures visually grounded knowledge is unclear. | 翻訳日:2023-11-02 04:59:36 公開日:2023-10-31 |
# 視覚を伴う言語:接地語と文の埋め込みに関する研究 Language with Vision: a Study on Grounded Word and Sentence Embeddings ( http://arxiv.org/abs/2206.08823v3 ) ライセンス: Link先を確認 | Hassan Shahmohammadi, Maria Heitmeier, Elnaz Shafaei-Bajestan, Hendrik P. A. Lensch, and Harald Baayen | (参考訳) 視覚における接地言語は、視覚からの知覚的知識をテキストベース表現に組み込むことにより、認知的に妥当な単語と文表現を構築するための研究の活発な分野である。
言語基盤化の多くの試みにもかかわらず、言語のテキスト表現と具体的経験の最適均衡を達成することは、まだオープンフィールドである。
一般的な懸念は以下のとおりである。
視覚的接地は抽象語に有利か、それとも具体的な語に限定するか?
テキストと視覚のギャップを埋める最適な方法は何か?
画像からの知覚的知識が高品質な埋め込みの獲得にどの程度有効か?
機械学習と自然言語処理の最近の進歩を活かし,本研究では,事前学習された単語埋め込みのための,単純かつ非常に効果的な計算基盤モデルを提案する。
本モデルは,テキストコーパスにおける単語使用を特徴付ける分布統計を保存しつつ,テキスト埋め込みと視覚情報とを整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
学習されたアライメントを適用することで、抽象語を含む無意味な単語を間接的に接地することができる。
行動データセットの一連の評価は、視覚的グラウンドリングが具体的な単語だけでなく抽象語にも有用であることを示し、抽象概念の間接的理論に支援を与える。
さらに,本手法は, BERT が生成したようなコンテキスト適応型埋め込みの利点を提供するが, 質素で認知学的に妥当な大きさのコーパスで訓練した場合に限られる。
コードはhttps://github.com/Hazel 1994/Visually_Grounded_Word_Embeddings_2で公開されている。 Grounding language in vision is an active field of research seeking to construct cognitively plausible word and sentence representations by incorporating perceptual knowledge from vision into text-based representations. Despite many attempts at language grounding, achieving an optimal equilibrium between textual representations of the language and our embodied experiences remains an open field. Some common concerns are the following. Is visual grounding advantageous for abstract words, or is its effectiveness restricted to concrete words? What is the optimal way of bridging the gap between text and vision? To what extent is perceptual knowledge from images advantageous for acquiring high-quality embeddings? Leveraging the current advances in machine learning and natural language processing, the present study addresses these questions by proposing a simple yet very effective computational grounding model for pre-trained word embeddings. Our model effectively balances the interplay between language and vision by aligning textual embeddings with visual information while simultaneously preserving the distributional statistics that characterize word usage in text corpora. By applying a learned alignment, we are able to indirectly ground unseen words including abstract words. A series of evaluations on a range of behavioural datasets shows that visual grounding is beneficial not only for concrete words but also for abstract words, lending support to the indirect theory of abstract concepts. Moreover, our approach offers advantages for contextualized embeddings, such as those generated by BERT, but only when trained on corpora of modest, cognitively plausible sizes. Code and grounded embeddings for English are available at https://github.com/Hazel1994/Visually_Grounded_Word_Embeddings_2. | 翻訳日:2023-11-02 04:59:12 公開日:2023-10-31 |
# 自動タグの誕生: 新しい目的関数でより速く、より良く Born for Auto-Tagging: Faster and better with new objective functions ( http://arxiv.org/abs/2206.07264v2 ) ライセンス: Link先を確認 | Chiung-ju Liu, Huang-Ting Shieh | (参考訳) キーワード抽出はテキストマイニングのタスクである。
これはSEOや広告の検索量を増やすために適用される。
自動タグ付けの実装により、大量のオンライン記事や写真を効率的に正確にタグ付けできる。
BATは、AwooのAIマーケティングプラットフォーム(AMP)として機能する自動タグのために発明された。
awoo AMPは、カスタマイズされたレコメンデーションシステムとしてサービスを提供するだけでなく、Eコマースにおける変換率も向上する。
batの強度は他のsotaモデルよりも速く良く収束し、その4層構造は50エポックで最高のf点を達成する。
言い換えれば、100エポックで深い層を必要とする他のモデルよりもパフォーマンスがよい。
リッチでクリーンなタグを生成するために、awooは${\rm f_1}$スコアとクロスエントロピーを両立させながら${\rm f_2}$スコアを同時に維持するための新しい客観的関数を作成する。
Fスコアのさらなるパフォーマンスを保証するために、Transformer \cite{Transformer} が提案する学習率戦略を改良して、${\rm F_1}$と${\rm F_2}$スコアを同時に増加させる。 Keyword extraction is a task of text mining. It is applied to increase search volume in SEO and ads. Implemented in auto-tagging, it makes tagging on a mass scale of online articles and photos efficiently and accurately. BAT is invented for auto-tagging which served as awoo's AI marketing platform (AMP). awoo AMP not only provides service as a customized recommender system but also increases the converting rate in E-commerce. The strength of BAT converges faster and better than other SOTA models, as its 4-layer structure achieves the best F scores at 50 epochs. In other words, it performs better than other models which require deeper layers at 100 epochs. To generate rich and clean tags, awoo creates new objective functions to maintain similar ${\rm F_1}$ scores with cross-entropy while enhancing ${\rm F_2}$ scores simultaneously. To assure the even better performance of F scores awoo revamps the learning rate strategy proposed by Transformer \cite{Transformer} to increase ${\rm F_1}$ and ${\rm F_2}$ scores at the same time. | 翻訳日:2023-11-02 04:58:47 公開日:2023-10-31 |
# link3d: 3dlidar point cloudの線形キーポイント表現 LinK3D: Linear Keypoints Representation for 3D LiDAR Point Cloud ( http://arxiv.org/abs/2206.05927v2 ) ライセンス: Link先を確認 | Yunge Cui, Yinlong Zhang, Jiahua Dong, Haibo Sun, Xieyuanli Chen and Feng Zhu | (参考訳) 特徴抽出とマッチングは、2Dや3Dオブジェクトの検出、認識、登録など、多くのロボットビジョンタスクの基本的な部分である。
既知のように、2d特徴抽出とマッチングはすでに大きな成功を収めている。
残念なことに、現在の3Dの分野では、ロボットビジョンタスクにおける3D LiDARセンサーの広範囲な応用をサポートできない。
この制限に対処するため,LinK3Dと呼ばれる3次元LiDAR点雲に対する線形キーポイント表現法を提案する。
LinK3D の新規性は、LiDAR の点雲の特徴(空間性、シーンの複雑さなど)を完全に考慮し、キーポイントをその頑丈な隣のキーポイントで表現し、キーポイントの記述を強く区別することにある。
提案したLinK3Dは,2つの公開データセット(KITTI,Steven VLP16)で評価され,実験結果から,提案手法が適合性能の最先端性を大幅に向上することが示された。
さらに重要なことは、LinK3Dは通常のLiDARセンサーの10Hzでのセンサーフレームレートよりも高速で、優れたリアルタイム性能を示している。
LinK3Dは64ビームのLiDARで収集された点から32ミリ秒で特徴を抽出し、ノートブックでIntel Core i7 @2.2 GHzプロセッサで実行すると2つのLiDARスキャンと一致するのに8ミリ秒しかかからない。
さらに,本手法は様々な3次元視覚アプリケーションに拡張可能である。
本稿では,LinK3DをLiDAR SLAMの計測と位置認識に応用する。
実験の結果,LiDAR SLAMシステムの効率と精度を向上させることができることがわかった。 Feature extraction and matching are the basic parts of many robotic vision tasks, such as 2D or 3D object detection, recognition, and registration. As known, 2D feature extraction and matching have already been achieved great success. Unfortunately, in the field of 3D, the current methods fail to support the extensive application of 3D LiDAR sensors in robotic vision tasks, due to the poor descriptiveness and inefficiency. To address this limitation, we propose a novel 3D feature representation method: Linear Keypoints representation for 3D LiDAR point cloud, called LinK3D. The novelty of LinK3D lies in that it fully considers the characteristics (such as the sparsity, and complexity of scenes) of LiDAR point clouds, and represents the keypoint with its robust neighbor keypoints, which provide strong distinction in the description of the keypoint. The proposed LinK3D has been evaluated on two public datasets (i.e., KITTI, Steven VLP16), and the experimental results show that our method greatly outperforms the state-of-the-art in matching performance. More importantly, LinK3D shows excellent real-time performance, faster than the sensor frame rate at 10 Hz of a typical rotating LiDAR sensor. LinK3D only takes an average of 32 milliseconds to extract features from the point cloud collected by a 64-beam LiDAR, and takes merely about 8 milliseconds to match two LiDAR scans when executed in a notebook with an Intel Core i7 @2.2 GHz processor. Moreover, our method can be widely extended to various 3D vision applications. In this paper, we apply the proposed LinK3D to the LiDAR odometry and place recognition task of LiDAR SLAM. The experimental results show that our method can improve the efficiency and accuracy of LiDAR SLAM system. | 翻訳日:2023-11-02 04:58:26 公開日:2023-10-31 |
# box2mask:バウンディングボックスを用いた3dセマンティックインスタンスセグメンテーション Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes ( http://arxiv.org/abs/2206.01203v3 ) ライセンス: Link先を確認 | Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll | (参考訳) 現在の3Dセグメンテーション手法は、大規模なポイントクラウドデータセットに大きく依存している。
ポイント毎の密接なアノテーションの必要性を回避する試みはほとんど行われていない。
この研究では、弱い教師付き3dセマンティックインスタンスセグメンテーションについて検討する。
キーとなるアイデアは、3Dバウンディングボックスラベルを活用することです。
実際,境界ボックスラベルのみを用いて高密度セグメンテーションモデルを訓練することは可能である。
この手法の核心である \name{} は、従来のハフ投票に触発された深いモデルであり、バウンディングボックスパラメータを直接投票し、特にバウンディングボックス投票に合わせたクラスタリング手法である。
これは一般的に使われるセンター投票以上のもので、境界ボックスアノテーションを十分に活用しない。
ScanNetテストでは、弱教師付きモデルが、他の弱教師付きアプローチ(+18 mAP@50)の中で主要なパフォーマンスを達成する。
驚くべきことに、現在の完全に監督されたモデルのmap@50の97%も達成している。
作業の実用性をさらに説明するために、最近リリースされたARKitScenesデータセットに3DバウンディングボックスのみをアノテートしたBox2Maskをトレーニングし、説得力のある3Dインスタンスセグメンテーションマスクを初めて示す。 Current 3D segmentation methods heavily rely on large-scale point-cloud datasets, which are notoriously laborious to annotate. Few attempts have been made to circumvent the need for dense per-point annotations. In this work, we look at weakly-supervised 3D semantic instance segmentation. The key idea is to leverage 3D bounding box labels which are easier and faster to annotate. Indeed, we show that it is possible to train dense segmentation models using only bounding box labels. At the core of our method, \name{}, lies a deep model, inspired by classical Hough voting, that directly votes for bounding box parameters, and a clustering method specifically tailored to bounding box votes. This goes beyond commonly used center votes, which would not fully exploit the bounding box annotations. On ScanNet test, our weakly supervised model attains leading performance among other weakly supervised approaches (+18 mAP@50). Remarkably, it also achieves 97% of the mAP@50 score of current fully supervised models. To further illustrate the practicality of our work, we train Box2Mask on the recently released ARKitScenes dataset which is annotated with 3D bounding boxes only, and show, for the first time, compelling 3D instance segmentation masks. | 翻訳日:2023-11-02 04:57:53 公開日:2023-10-31 |
# 古典的通信による回路編み込み Circuit knitting with classical communication ( http://arxiv.org/abs/2205.00016v3 ) ライセンス: Link先を確認 | Christophe Piveteau, David Sutter | (参考訳) 量子ビットの不足は、近い将来の量子コンピュータの実用化にとって大きな障害となる。
この問題を回避するため、シミュレーションオーバーヘッドを犠牲にして、大規模な量子回路を小さなデバイスに適合するサブ回路に分割する様々な回路編み技術が開発されている。
本研究では,非局所ゲートの準確率シミュレーションに基づいて,サブ回路上で局所的に作用する動作を持つ回路の編み方について検討する。
これらのローカル量子コンピュータ間の古典的コミュニケーションが有効かどうかを検討する。
2つの回路を接続するn$非局所cnotゲートを含む回路では、古典的な情報交換が可能であれば、シミュレーションオーバーヘッドを$o(9^n)$から$o(4^n)$に減らすことができる。
一般のクリフォードゲートや、少なくとも制限された形で、制御された回転ゲートのような他のゲートに対しても同様の改善が得られる。 The scarcity of qubits is a major obstacle to the practical usage of quantum computers in the near future. To circumvent this problem, various circuit knitting techniques have been developed to partition large quantum circuits into subcircuits that fit on smaller devices, at the cost of a simulation overhead. In this work, we study a particular method of circuit knitting based on quasiprobability simulation of nonlocal gates with operations that act locally on the subcircuits. We investigate whether classical communication between these local quantum computers can help. We provide a positive answer by showing that for circuits containing $n$ nonlocal CNOT gates connecting two circuit parts, the simulation overhead can be reduced from $O(9^n)$ to $O(4^n)$ if one allows for classical information exchange. Similar improvements can be obtained for general Clifford gates and, at least in a restricted form, for other gates such as controlled rotation gates. | 翻訳日:2023-11-02 04:56:44 公開日:2023-10-31 |
# ユニバースに触発された教師付きコントラスト学習 Universum-inspired Supervised Contrastive Learning ( http://arxiv.org/abs/2204.10695v3 ) ライセンス: Link先を確認 | Aiyang Han, Chuanxing Geng, Songcan Chen | (参考訳) 効果的なデータ拡張方法として、mixupは線形補間により余分な量のサンプルを合成する。
データプロパティへの理論的依存にもかかわらず、mixupは信頼できる堅牢性とディープラーニングモデルのトレーニングへの一般化に寄与するレギュレータとキャリブレータとして機能すると言われている。
本稿では,対象のタスクを支援するためにクラス外サンプルを使用するUniversum Learningに触発されたMixupについて,対象のクラスに属さないドメイン内サンプルを生成する可能性,すなわちユニバーサム(universum)について検討する。
教師付きコントラスト学習の枠組みでは、Mixupによるユニバーサムは驚くほど高品質なハードネガティブとして機能し、コントラスト学習における大きなバッチサイズの必要性を大幅に軽減する。
そこで本研究では,mixup戦略を組み込んだuniversum-inspired supervised contrastive learning (unicon)を提案する。
我々はUn-Uni(Unsupervised Universum-inspired contrastive model)を提案する。
ハードラベルを用いたMixupの改善だけでなく、ユニバーサムデータを生成するための新しい手法も開発している。
学習した表現の線形分類器を用いて、UniConは様々なデータセットで最先端のパフォーマンスを示す。
特に、UniConはCIFAR-100で81.7%の精度を達成し、ResNet-50を使用したSupConのUniConと1024の2倍のバッチサイズで5.2%という大きなマージンを達成している。
Un-Uni は CIFAR-100 上で SOTA 法より優れている。
本論文のコードはhttps://github.com/hannaiiyanggit/UniConで公開されている。 As an effective data augmentation method, Mixup synthesizes an extra amount of samples through linear interpolations. Despite its theoretical dependency on data properties, Mixup reportedly performs well as a regularizer and calibrator contributing reliable robustness and generalization to deep model training. In this paper, inspired by Universum Learning which uses out-of-class samples to assist the target tasks, we investigate Mixup from a largely under-explored perspective - the potential to generate in-domain samples that belong to none of the target classes, that is, universum. We find that in the framework of supervised contrastive learning, Mixup-induced universum can serve as surprisingly high-quality hard negatives, greatly relieving the need for large batch sizes in contrastive learning. With these findings, we propose Universum-inspired supervised Contrastive learning (UniCon), which incorporates Mixup strategy to generate Mixup-induced universum as universum negatives and pushes them apart from anchor samples of the target classes. We extend our method to the unsupervised setting, proposing Unsupervised Universum-inspired contrastive model (Un-Uni). Our approach not only improves Mixup with hard labels, but also innovates a novel measure to generate universum data. With a linear classifier on the learned representations, UniCon shows state-of-the-art performance on various datasets. Specially, UniCon achieves 81.7% top-1 accuracy on CIFAR-100, surpassing the state of art by a significant margin of 5.2% with a much smaller batch size, typically, 256 in UniCon vs. 1024 in SupCon using ResNet-50. Un-Uni also outperforms SOTA methods on CIFAR-100. The code of this paper is released on https://github.com/hannaiiyanggit/UniCon. | 翻訳日:2023-11-02 04:56:29 公開日:2023-10-31 |
# 文脈表現の言語間調整がゼロショット転送に与える影響 The Impact of Cross-Lingual Adjustment of Contextual Word Representations on Zero-Shot Transfer ( http://arxiv.org/abs/2204.06457v2 ) ライセンス: Link先を確認 | Pavel Efimov and Leonid Boytsov and Elena Arslanova and Pavel Braslavski | (参考訳) mBERTやXLM-Rのような大規模な多言語言語モデルは、様々なIRやNLPタスクにおいてゼロショットの言語間転送を可能にする。
Cao et al. (2020) は、小さな並列コーパスを用いて互いに類似する言語に関連語を埋め込む、mBERTの言語間調整のためのデータと計算効率のよい手法を提案した。
彼らは5つのヨーロッパ言語でNLIが有効であることを示した。
対照的に、類型的に多様な言語(スペイン語、ロシア語、ベトナム語、ヒンディー語)を実験し、元の実装を新しいタスク(XSR、NER、QA)に拡張し、追加のトレーニング体制(連続学習)を追加しました。
本研究は,4言語に対するNLIの利得を再現し,NER,XSR,クロスランガルQAを3言語で改善した(ただし,クロスランガルQAの利得は統計的に有意ではなかった)。
関連語と非関連語の文脈的埋め込み間の距離の分析は、微調整が言語間アライメント情報の「偽造」につながることを示した。
この観測に基づいて,連続学習によるNLI性能をさらに向上する。 Large multilingual language models such as mBERT or XLM-R enable zero-shot cross-lingual transfer in various IR and NLP tasks. Cao et al. (2020) proposed a data- and compute-efficient method for cross-lingual adjustment of mBERT that uses a small parallel corpus to make embeddings of related words across languages similar to each other. They showed it to be effective in NLI for five European languages. In contrast we experiment with a typologically diverse set of languages (Spanish, Russian, Vietnamese, and Hindi) and extend their original implementations to new tasks (XSR, NER, and QA) and an additional training regime (continual learning). Our study reproduced gains in NLI for four languages, showed improved NER, XSR, and cross-lingual QA results in three languages (though some cross-lingual QA gains were not statistically significant), while mono-lingual QA performance never improved and sometimes degraded. Analysis of distances between contextualized embeddings of related and unrelated words (across languages) showed that fine-tuning leads to "forgetting" some of the cross-lingual alignment information. Based on this observation, we further improved NLI performance using continual learning. | 翻訳日:2023-11-02 04:55:31 公開日:2023-10-31 |
# CHORE:1枚のRGB画像からの接触・人間・物体再構成 CHORE: Contact, Human and Object REconstruction from a single RGB image ( http://arxiv.org/abs/2204.02445v3 ) ライセンス: Link先を確認 | Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll | (参考訳) ほとんどの先行研究は、周囲の環境なしに人間を孤立させるイメージから3d人間を知覚する。
しかし、人間は周囲の物体と常に相互作用しているため、人間だけでなく物体やそれらの相互作用を推論できるモデルを求める。
この問題は、人間と物体の密接な閉塞、多様な相互作用タイプ、深さのあいまいさによって非常に難しい。
本稿では,1枚のRGB画像から人間と物体を共同で再構築する新しい手法であるCHOREを紹介する。
CHOREは、暗黙的な表面学習と古典的なモデルベースのフィッティングの最近の進歩から着想を得ている。
2つの無符号距離場、パラメトリック体への対応場、および物体ポーズ場で暗黙的に表現された人間と物体の神経再構築を計算する。
これにより、対話を推論しながらパラメトリックなボディモデルと3Dオブジェクトテンプレートをしっかりと適合させることができる。
さらに,従来の画素アライメント型暗黙学習手法では合成データを使用し,実データに満たない仮定を行う。
実データ上でより効率的な形状学習を可能にするエレガントな深度対応スケーリングを提案する。
提案手法で得られた共同再建がSOTAを著しく上回ることを示す実験を行った。
私たちのコードとモデルはhttps://virtualhumans.mpi-inf.mpg.de/choreで利用可能です。 Most prior works in perceiving 3D humans from images reason human in isolation without their surroundings. However, humans are constantly interacting with the surrounding objects, thus calling for models that can reason about not only the human but also the object and their interaction. The problem is extremely challenging due to heavy occlusions between humans and objects, diverse interaction types and depth ambiguity. In this paper, we introduce CHORE, a novel method that learns to jointly reconstruct the human and the object from a single RGB image. CHORE takes inspiration from recent advances in implicit surface learning and classical model-based fitting. We compute a neural reconstruction of human and object represented implicitly with two unsigned distance fields, a correspondence field to a parametric body and an object pose field. This allows us to robustly fit a parametric body model and a 3D object template, while reasoning about interactions. Furthermore, prior pixel-aligned implicit learning methods use synthetic data and make assumptions that are not met in the real data. We propose a elegant depth-aware scaling that allows more efficient shape learning on real data. Experiments show that our joint reconstruction learned with the proposed strategy significantly outperforms the SOTA. Our code and models are available at https://virtualhumans.mpi-inf.mpg.de/chore | 翻訳日:2023-11-02 04:55:08 公開日:2023-10-31 |
# 複数のコンポーネントを持つスパースPCA Sparse PCA With Multiple Components ( http://arxiv.org/abs/2209.14790v2 ) ライセンス: Link先を確認 | Ryan Cory-Wright, Jean Pauphilet | (参考訳) スパース・プリンシパル・コンポーネント分析(SPCA)は、高次元データセットの分散を解釈可能な方法で説明する特徴の組み合わせ、または主成分(PC)を得るための基礎的手法である。
これは空間性と直交性に制約のある凸最大化問題を解くことを含む。
既存の著作物の多くは、一方のスパースpcを反復的に計算し、複数の直交pcを求めるときの結果の解の直交性を保証しない共分散行列を縮めるような方法でスパースpcaに対処している。
我々は,直交条件をランク制約として再構成し,スパルシリティとランク制約を同時に最適化することで,この状況に挑戦する。
我々は,高品位な上界を供給するための密接な半定値緩和をデザインし,各pcの個々のスパース性が特定された場合,追加の2次円錐不等式によって強化する。
さらに, 支持関数として説明される最大分散量の組合せ上界を導出する。
我々はこれらの緩和と境界を利用して、p = 100 または 1000 個の特徴を持つ実世界のデータセットと r \in {2, 3} 成分に対する 0%-15% の有界ギャップを持つ解を求める正確な方法と丸め機構を提案する。
数値的には、我々のアルゴリズムは、スパースで直交の少ないPCを説明・体系的に返却する分散率の点で、最高の性能の手法と一致する(時には上回る)。
これとは対照的に, 厳密な直交PCによるデータ生成においても, 直交制約に反するデフレリターン解のような既存の手法が現れる。
さらに,本手法では,複数のコンポーネントによるスパースPCA問題の解法を,実用的に抽出可能な方法で証明可能な(ほぼ)最適性を実現する。 Sparse Principal Component Analysis (sPCA) is a cardinal technique for obtaining combinations of features, or principal components (PCs), that explain the variance of high-dimensional datasets in an interpretable manner. This involves solving a sparsity and orthogonality constrained convex maximization problem, which is extremely computationally challenging. Most existing works address sparse PCA via methods-such as iteratively computing one sparse PC and deflating the covariance matrix-that do not guarantee the orthogonality, let alone the optimality, of the resulting solution when we seek multiple mutually orthogonal PCs. We challenge this status by reformulating the orthogonality conditions as rank constraints and optimizing over the sparsity and rank constraints simultaneously. We design tight semidefinite relaxations to supply high-quality upper bounds, which we strengthen via additional second-order cone inequalities when each PC's individual sparsity is specified. Further, we derive a combinatorial upper bound on the maximum amount of variance explained as a function of the support. We exploit these relaxations and bounds to propose exact methods and rounding mechanisms that, together, obtain solutions with a bound gap on the order of 0%-15% for real-world datasets with p = 100s or 1000s of features and r \in {2, 3} components. Numerically, our algorithms match (and sometimes surpass) the best performing methods in terms of fraction of variance explained and systematically return PCs that are sparse and orthogonal. In contrast, we find that existing methods like deflation return solutions that violate the orthogonality constraints, even when the data is generated according to sparse orthogonal PCs. Altogether, our approach solves sparse PCA problems with multiple components to certifiable (near) optimality in a practically tractable fashion. | 翻訳日:2023-11-02 04:47:53 公開日:2023-10-31 |
# ランダム多成分量子状態の絡み合いの推定 Estimating the entanglement of random multipartite quantum states ( http://arxiv.org/abs/2209.11754v2 ) ライセンス: Link先を確認 | Khurshed Fitter, Cecilia Lancien, Ion Nechita | (参考訳) 与えられた多部純量子状態の純多部絡み合いは、その幾何学的エンタングルメントの測度によって定量化することができ、対数を除いては、対応する単位テンソルと積単位テンソルとの最大重なり合いであり、これはテンソルの射影ノルムとしても知られている。
この研究の一般的な目標は、ランダムにサンプリングされたテンソルに対するこの単射ノルムを推定することである。
この目的のために, 広範に使用される交互最小二乗法や新しい正規化勾配降下法に基づき, 対称化または非対称化確率テンソルのいずれにも適合する様々なアルゴリズムを検討, 比較した。
まず, 漸近平均インジェクションノルムが解析的に知られている対称性実ガウステンソルの場合, それぞれの性能をベンチマークする。
提案する正規化勾配降下アルゴリズムが一般に最適であることを示すと、それを用いて複素ガウステンソルの平均インジェクションノルム(すなわち、一様分布した多成分純粋量子状態の正規化まで)に対して、置換不変性の有無にかかわらず近似的な数値値を与える。
最後に、ガウス局所テンソルから構築されたランダム行列積状態の平均射影ノルムを翻訳不変性の有無で推定することができる。
これらの結果は、ランダムなマルチパーティライト純状態の様々なモデルに典型的に存在する真のマルチパーティライト絡み合いの量に関する最初の数値推定である。 Genuine multipartite entanglement of a given multipartite pure quantum state can be quantified through its geometric measure of entanglement, which, up to logarithms, is simply the maximum overlap of the corresponding unit tensor with product unit tensors, a quantity which is also known as the injective norm of the tensor. Our general goal in this work is to estimate this injective norm for randomly sampled tensors. To this end, we study and compare various algorithms, based either on the widely used alternating least squares method or on a novel normalized gradient descent approach, and suited to either symmetrized or non-symmetrized random tensors. We first benchmark their respective performances on the case of symmetrized real Gaussian tensors, whose asymptotic average injective norm is known analytically. Having established that our proposed normalized gradient descent algorithm generally performs best, we then use it to provide approximate numerical values for the average injective norm of complex Gaussian tensors (i.e.~up to normalization uniformly distributed multipartite pure quantum states), with or without permutation-invariance. Finally, we are also able to estimate the average injective norm of random matrix product states constructed from Gaussian local tensors, with or without translation-invariance. All these results constitute the first numerical estimates on the amount of genuinely multipartite entanglement typically present in various models of random multipartite pure states. | 翻訳日:2023-11-02 04:47:21 公開日:2023-10-31 |
# effeval:mt評価指標の効率性に関する包括的評価 EffEval: A Comprehensive Evaluation of Efficiency for MT Evaluation Metrics ( http://arxiv.org/abs/2209.09593v2 ) ライセンス: Link先を確認 | Daniil Larionov, Jens Gr\"unwald, Christoph Leiter, Steffen Eger | (参考訳) 効率性は、特にLLMの時代において、包摂性を高め、環境コストを削減するための重要な特性である。
本稿では,mt評価指標の効率を総合的に評価する。
提案手法では,計算集約型変換器を軽量な代替品に置き換え,LLM表現上のアライメントアルゴリズムに線形および二次近似を適用する。
3つのmtデータセットにまたがる6つの(参照フリーおよび参照ベース)メトリクスを評価し、16の軽量トランスフォーマーを調査した。
さらに,アダプタを利用したCOMETなどのメトリクスのトレーニング効率についても検討する。
私たちの結果は
(a)TinyBERTは品質と効率の最適なバランスを提供する。
(b)CPUのスピードアップはGPUのスピードアップよりも相当である。
(c)WMD近似は、品質と品質を低下させながら効率を向上しない
(d)アダプタはトレーニング効率(後方通過速度とメモリ要件を考慮)を高め、場合によってはメートル法品質も向上する。
これらの知見は,NLGシステムに不可欠な評価速度と品質のバランスをとる上で有効である。
さらに,本研究は,NLG評価指標の最適化がパフォーマンスに与える影響を最小限に抑えることに貢献している。
我々の知る限りでは、これまでのMTメトリクスの効率のさまざまな側面を網羅的に分析している。 Efficiency is a key property to foster inclusiveness and reduce environmental costs, especially in an era of LLMs. In this work, we provide a comprehensive evaluation of efficiency for MT evaluation metrics. Our approach involves replacing computation-intensive transformers with lighter alternatives and employing linear and quadratic approximations for alignment algorithms on top of LLM representations. We evaluate six (reference-free and reference-based) metrics across three MT datasets and examine 16 lightweight transformers. In addition, we look into the training efficiency of metrics like COMET by utilizing adapters. Our results indicate that (a) TinyBERT provides the optimal balance between quality and efficiency, (b) CPU speed-ups are more substantial than those on GPU; (c) WMD approximations yield no efficiency gains while reducing quality and (d) adapters enhance training efficiency (regarding backward pass speed and memory requirements) as well as, in some cases, metric quality. These findings can help to strike a balance between evaluation speed and quality, which is essential for effective NLG systems. Furthermore, our research contributes to the ongoing efforts to optimize NLG evaluation metrics with minimal impact on performance. To our knowledge, ours is the most comprehensive analysis of different aspects of efficiency for MT metrics conducted so far. | 翻訳日:2023-11-02 04:46:54 公開日:2023-10-31 |
# バイアス付き正ラベルデータに対する二重ロジスティック回帰法 Double logistic regression approach to biased positive-unlabeled data ( http://arxiv.org/abs/2209.07787v2 ) ライセンス: Link先を確認 | Konrad Furma\'nczyk and Jan Mielniczuk and Wojciech Rejchel and Pawe{\l} Teisseyre | (参考訳) ポジティブかつ非ラベレートな学習は多くのアプリケーションで自然に発生する重要な問題である。
既存の方法のほとんど全てにおいて重要な制限は、プロペンサリティスコア関数が定数である(スカル仮定)という仮定であり、多くの実用的な状況において非現実的である。
この仮定を回避するために、後続確率と確率スコア関数の合同推定問題に対するパラメトリックアプローチを検討する。
両関数が同じパラメトリック形式(例えば、異なるパラメータを持つロジスティック)を持つ場合、対応するパラメータは同定可能であることを示す。
そこで我々は,2つのフィッシャー一貫した表現の交互最大化に基づく2番目の手法と,その2つの推定手法を提案する。
実験の結果,提案手法は期待最大化方式に基づく既存手法と同等か優れていることがわかった。 Positive and unlabelled learning is an important problem which arises naturally in many applications. The significant limitation of almost all existing methods lies in assuming that the propensity score function is constant (SCAR assumption), which is unrealistic in many practical situations. Avoiding this assumption, we consider parametric approach to the problem of joint estimation of posterior probability and propensity score functions. We show that under mild assumptions when both functions have the same parametric form (e.g. logistic with different parameters) the corresponding parameters are identifiable. Motivated by this, we propose two approaches to their estimation: joint maximum likelihood method and the second approach based on alternating maximization of two Fisher consistent expressions. Our experimental results show that the proposed methods are comparable or better than the existing methods based on Expectation-Maximisation scheme. | 翻訳日:2023-11-02 04:46:34 公開日:2023-10-31 |
# 分散ompのリカバリ保証 Recovery Guarantees for Distributed-OMP ( http://arxiv.org/abs/2209.07230v2 ) ライセンス: Link先を確認 | Chen Amiraz, Robert Krauthgamer and Boaz Nadler | (参考訳) 直交マッチング追従(OMP)に基づく高次元スパース線形回帰のための分散スキームについて検討した。
このようなスキームは、中央核融合センターが計算と通信の制限があるエンドマシンに接続されている設定に特に適している。
適切な仮定の下では、分散ompスキームは、その分散度と次元の対数性において機械単位の通信で回帰ベクトルのサポートを回復する。
驚くべきことに、これは個々のマシンがサポートを検出できない低信号対ノイズ比でも保持される。
シミュレーションにより,分散OMP方式はより計算集約的な手法と競合することを示した。 We study distributed schemes for high-dimensional sparse linear regression, based on orthogonal matching pursuit (OMP). Such schemes are particularly suited for settings where a central fusion center is connected to end machines, that have both computation and communication limitations. We prove that under suitable assumptions, distributed-OMP schemes recover the support of the regression vector with communication per machine linear in its sparsity and logarithmic in the dimension. Remarkably, this holds even at low signal-to-noise-ratios, where individual machines are unable to detect the support. Our simulations show that distributed-OMP schemes are competitive with more computationally intensive methods, and in some cases even outperform them. | 翻訳日:2023-11-02 04:46:19 公開日:2023-10-31 |
# 衛星画像における物体検出のためのコントラスト学習によるプログレッシブ領域適応 Progressive Domain Adaptation with Contrastive Learning for Object Detection in the Satellite Imagery ( http://arxiv.org/abs/2209.02564v3 ) ライセンス: Link先を確認 | Debojyoti Biswas and Jelena Te\v{s}i\'c | (参考訳) 衛星画像やドローン画像に適用された最先端の物体検出手法は、ほとんど小さくて密度の高い物体を識別できない。
1つの理由として、地上領域が捉えたオーバーヘッド画像における内容のばらつきが高く、取得条件のばらつきが高いことが挙げられる。
もう一つの理由は、空中画像中の物体の数と大きさが消費者データとは大きく異なるからである。
本研究では,空間的ピラミッドプール,クロスステージ部分ネットワーク,ヒートマップに基づく領域提案ネットワーク,および画像難易度に基づく全体焦点損失測定に適応した新しい画像難易度スコアによる物体の局所化と識別により,特徴抽出プロセスを改善する小型物体検出パイプラインを提案する。
次に、局所的および大域的コンポーネントを用いて、航空データセット間でドメイン不変な特徴を生成するために、プログレッシブ・ドメイン適応を用いた新しいコントラッシブ・ラーニングを提案する。
未確認データセットにおけるオブジェクト識別の劣化を緩和できることを示す。
ドメインギャップと支配的な小さなオブジェクトを持つ高度に不均衡な衛星データセットにおけるオブジェクト検出タスクに対して、コントラスト学習を用いた最初のドメイン適応ベンチマークを作成する。
提案手法は,最先端技術よりもmAP性能を7.4%向上させる。 State-of-the-art object detection methods applied to satellite and drone imagery largely fail to identify small and dense objects. One reason is the high variability of content in the overhead imagery due to the terrestrial region captured and the high variability of acquisition conditions. Another reason is that the number and size of objects in aerial imagery are very different than in the consumer data. In this work, we propose a small object detection pipeline that improves the feature extraction process by spatial pyramid pooling, cross-stage partial networks, heatmap-based region proposal network, and object localization and identification through a novel image difficulty score that adapts the overall focal loss measure based on the image difficulty. Next, we propose novel contrastive learning with progressive domain adaptation to produce domain-invariant features across aerial datasets using local and global components. We show we can alleviate the degradation of object identification in previously unseen datasets. We create a first-ever domain adaptation benchmark using contrastive learning for the object detection task in highly imbalanced satellite datasets with significant domain gaps and dominant small objects. The proposed method results in a 7.4% increase in mAP performance measure over the best state-of-art. | 翻訳日:2023-11-02 04:45:24 公開日:2023-10-31 |
# ブラジル多目的炉中性子イメージングセンターの確率モデリング Stochastic modeling of a neutron imaging center at the Brazilian Multipurpose Reactor ( http://arxiv.org/abs/2208.07172v3 ) ライセンス: Link先を確認 | Luiz P. de Oliveira, Alexandre P.S. Souza, Frederico A. Genezini and Adimir dos Santos | (参考訳) 中性子イメージングは、考古学や工業材料の構造など幅広い種類の材料を分析する非破壊技術である。
近年の技術進歩は中性子イメージング技術に大きな影響を与え、フィルム(2D)を用いた単純なラジオグラフィーからデジタル処理による最新のトモグラフィーシステム(3D)へと進化してきた。
ブラジル国立原子力研究所(ipen)は5mwの研究用原子炉iea-r1を収容しており、中性子イメージング装置が1.0 \times 10^{6}$ n/cm^{2}s$である。
IEA-R1は60歳以上で、画像を含むブラジルの中性子科学の未来は、ブラジル多目的炉(RMB)と呼ばれる新しい施設に拡張される。
新しい原子炉は中性子国立研究所(neineiと呼ばれる中性子イメージング施設を含む)に一連の機器を収容する。
近年の研究に触発されて,確率的モンテカルロシミュレーションによるニューネーニ楽器のモデル化を行った。
中性子イメージング技術パラメータ(L/D$比)と中性子フラックスとの感度について検討し, ニュートラ (PSI) , アンタレス (FRM II) , BT2 (NIST) および INGO (OPAL) の観測値と比較した。
結果は有望であり、今後の改善への道筋を提供する。 Neutron imaging is a non-destructive technique for analyzing a wide class of materials, such as archaeological or structures of industrial materials. Technological advances, in recent decades, have had a great impact on the neutron imaging technique, evolving from simple radiographs using films (2D) to modern tomography systems with digital processing (3D). The Instituto de Pesquisas Energ\'eticas e Nucleares (IPEN), in Brazil, houses a 5MW research nuclear reactor, called IEA-R1, where there is a neutron imaging instrument with $1.0 \times 10^{6}$ $n/cm^{2}s$ in the sample position. IEA-R1 is over 60 years old and the future of neutron science in Brazil, including imaging, will be expanded on a new facility called the Brazilian Multipurpose Reactor (RMB). The new reactor will house a suite of instruments at the Neutron National Laboratory, including the neutron imaging facility called Neinei. Inspired by recent work, we model the Neinei instrument through stochastic Monte Carlo simulations. We investigate the sensitivity of the neutron imaging technique parameter ($L/D$ ratio) with the neutron flux, and the results are compared to data from the Neutra (PSI), Antares (FRM II), BT2 (NIST) and DINGO (OPAL) instruments. The results are promising and provide avenues for future improvements. | 翻訳日:2023-11-02 04:44:15 公開日:2023-10-31 |
# bdts: ブロックチェーンベースのデータ取引システム BDTS: Blockchain-based Data Trading System ( http://arxiv.org/abs/2211.10001v2 ) ライセンス: Link先を確認 | Erya Jiang, Bo Qin, Qin Wang, Qianhong Wu, Sanxi Li, Wenchang Shi, Yingxin Bi, Wenyi Tang | (参考訳) ブロックチェーンプラットフォームを通じてデータを取引することは、 \textit{fair exchange} を達成するのは難しい。
理由は2つある: まず、販売者と消費者の間の公平性を保証することは、あらゆる関係者の騙しはリスクを伴わないため、難しい課題である。
これは、従来のトレーディングプロトコルの文脈では、不信な当事者間でのデータエグゼクタ(クラウドサービスプロバイダなど)の振舞いを判断する2つ目の問題につながります。
このギャップを埋めるために,本論文では,bdts と呼ばれる \underline{b}lockchain-based \underline{d}ata \underline{t}rading \underline{s}ystem を提案する。
BDTSは公正な交換プロトコルを実装しており、不正直な振る舞いが罰せられる。
提案方式では,適切な実行のために,消費者に適切な暗号鍵を提供し,合理的なデータ実行者が報酬の最大利益のために忠実に振る舞うように促す。
我々は、取引ゲームにおける消費者、売り手、ディーラーの戦略を分析し、ゲームがナッシュ均衡に達するためには、誰もが自分の利益について正直に考えるべきだと指摘する。
評価は効率性と実用性を証明する。 Trading data through blockchain platforms is hard to achieve \textit{fair exchange}. Reasons come from two folds: Firstly, guaranteeing fairness between sellers and consumers is a challenging task as the deception of any participating parties is risk-free. This leads to the second issue where judging the behavior of data executors (such as cloud service providers) among distrustful parties is impractical in the context of traditional trading protocols. To fill the gaps, in this paper, we present a \underline{b}lockchain-based \underline{d}ata \underline{t}rading \underline{s}ystem, named BDTS. BDTS implements a fair-exchange protocol in which benign behaviors can get rewarded while dishonest behaviors will be punished. Our scheme requires the seller to provide consumers with the correct encryption keys for proper execution and encourage a rational data executor to behave faithfully for maximum benefits from rewards. We analyze the strategies of consumers, sellers, and dealers in the trading game and point out that everyone should be honest about their interests so that the game will reach Nash equilibrium. Evaluations prove efficiency and practicability. | 翻訳日:2023-11-02 04:35:04 公開日:2023-10-31 |
# ニューラルタンジェントカーネルを用いたグラフニューラルネットワークの畳み込み・非線形・深さの解析 Analysis of Convolutions, Non-linearity and Depth in Graph Neural Networks using Neural Tangent Kernel ( http://arxiv.org/abs/2210.09809v4 ) ライセンス: Link先を確認 | Mahalakshmi Sabanayagam, Pascal Esser, Debarghya Ghoshdastidar | (参考訳) グラフニューラルネットワーク(gnns)の基本原理は、深度やアクティベーション関数などのネットワークアーキテクチャに適した選択と合わせて、隣接ノードを「グラフ畳み込み」を用いて集約することで、データの構造情報を活用することである。
したがって,ネットワーク性能に対する設計選択の影響を理解することが重要である。
グラフラプラシアンに基づく畳み込みは、最も広く採用されている隣接行列の対称正規化によって支配的な選択として現れる。
しかし、いくつかの実験研究では、隣接行列の行正規化がノード分類でそれを上回ることが示されている。
GNNの普及にもかかわらず、これらの畳み込みの表現力に関する厳密な理論的研究は行われていない。
同様に、非線形relu gnnsと同等の線形gnns性能の実証的観察は厳密な理論を欠いている。
本研究では,GNNアーキテクチャの異なる側面の影響を,半教師付きノード分類設定におけるグラフニューラルタンジェントカーネルを用いて理論的に解析する。
人口次数補正された確率的ブロックモデルの下では
(i)線形ネットワークは、ReLUネットワークと同様に、クラス情報をキャプチャする。
(ii) 行の正規化は,下位のクラス構造を他の畳み込みよりもよく保存する。
(iii)過剰なスムーシングによりネットワークの深さで性能が低下するが、クラス情報の損失は行の正規化において最も遅い。
(iv)スキップ接続は無限の深さでもクラス情報を保持し、過度なスムーシングを除去する。
理論的な結果がCoraやCiteseerのような実際のデータセット上で数値的に検証された。 The fundamental principle of Graph Neural Networks (GNNs) is to exploit the structural information of the data by aggregating the neighboring nodes using a `graph convolution' in conjunction with a suitable choice for the network architecture, such as depth and activation functions. Therefore, understanding the influence of each of the design choice on the network performance is crucial. Convolutions based on graph Laplacian have emerged as the dominant choice with the symmetric normalization of the adjacency matrix as the most widely adopted one. However, some empirical studies show that row normalization of the adjacency matrix outperforms it in node classification. Despite the widespread use of GNNs, there is no rigorous theoretical study on the representation power of these convolutions, that could explain this behavior. Similarly, the empirical observation of the linear GNNs performance being on par with non-linear ReLU GNNs lacks rigorous theory. In this work, we theoretically analyze the influence of different aspects of the GNN architecture using the Graph Neural Tangent Kernel in a semi-supervised node classification setting. Under the population Degree Corrected Stochastic Block Model, we prove that: (i) linear networks capture the class information as good as ReLU networks; (ii) row normalization preserves the underlying class structure better than other convolutions; (iii) performance degrades with network depth due to over-smoothing, but the loss in class information is the slowest in row normalization; (iv) skip connections retain the class information even at infinite depth, thereby eliminating over-smoothing. We finally validate our theoretical findings numerically and on real datasets such as Cora and Citeseer. | 翻訳日:2023-11-02 04:32:24 公開日:2023-10-31 |
# 記憶パターンを反映する情報尺度 Measures of Information Reflect Memorization Patterns ( http://arxiv.org/abs/2210.09404v3 ) ライセンス: Link先を確認 | Rachit Bansal, Danish Pruthi, Yonatan Belinkov | (参考訳) ニューラルネットワークは、ターゲットラベルと共存するスプリアスアーティファクト(あるいはショートカット)を活用し、ヒューリスティックな記憶を示すことで知られている。
一方で、トレーニングサンプルを記憶するネットワークが示されており、サンプルレベルの記憶化が行われている。
このような記憶化は、トレーニング分布を超えたネットワークの一般化を妨げる。
このような記憶の検出は困難であり、しばしば研究者が調整されたテストセットをキュレートする必要がある。
この研究では、異なるニューロンの活性化パターンの多様性がモデル一般化と記憶の反映であると仮定し、その後に示す。
我々は、情報理論的な測定によって神経活性化の多様性を定量化し、いくつかの自然言語や視覚タスクにまたがる実験における仮説を支持する。
重要な点として,情報伝達機構が記憶の2つの形態を指し示すことを見出した。
最後に,本研究のモデル選択問題に対する有用性を示す。
この作業に関連するコードやその他のリソースは、https://rachitbansal.github.io/information-measuresで入手できる。 Neural networks are known to exploit spurious artifacts (or shortcuts) that co-occur with a target label, exhibiting heuristic memorization. On the other hand, networks have been shown to memorize training examples, resulting in example-level memorization. These kinds of memorization impede generalization of networks beyond their training distributions. Detecting such memorization could be challenging, often requiring researchers to curate tailored test sets. In this work, we hypothesize -- and subsequently show -- that the diversity in the activation patterns of different neurons is reflective of model generalization and memorization. We quantify the diversity in the neural activations through information-theoretic measures and find support for our hypothesis on experiments spanning several natural language and vision tasks. Importantly, we discover that information organization points to the two forms of memorization, even for neural activations computed on unlabelled in-distribution examples. Lastly, we demonstrate the utility of our findings for the problem of model selection. The associated code and other resources for this work are available at https://rachitbansal.github.io/information-measures. | 翻訳日:2023-11-02 04:32:02 公開日:2023-10-31 |
# AMPose:3次元人物位置推定のための交互に混合したグローバルローカルアテンションモデル AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose Estimation ( http://arxiv.org/abs/2210.04216v5 ) ライセンス: Link先を確認 | Hongxin Lin, Yunwei Chiu and Peiyuan Wu | (参考訳) グラフ畳み込みネットワーク (GCN) は3次元ポーズ推定 (HPE) のためにヒト関節間の物理的に連結された非局所的な関係をモデル化するために応用されている。
さらに、トランスフォーマーベースのモデルは、最近ビデオベースの3D HPEの有望な結果を示している。
しかし, 単一フレーム法では, ヒト骨格のトランスフォーマー無視情報によってのみ, 特徴表現が大域的関係によってのみ変換されるため, 関節間の物理的結合関係をモデル化する必要がある。
この問題に対処するために,トランスフォーマーエンコーダとGCNブロックを交互に積み重ねた新しい手法,すなわちAMPoseを提案する。
AMPoseでは、トランスフォーマーエンコーダが各ジョイントと他のジョイントを接続するために使われ、GCNは物理的に接続された関係に関する情報を取得するために用いられる。
提案手法の有効性をhuman3.6mデータセットで評価した。
また,MPI-INF-3DHPデータセットを用いて,より優れた一般化能力を示す。
コードはhttps://github.com/erikervalid/AMPoseで検索できる。 The graph convolutional networks (GCNs) have been applied to model the physically connected and non-local relations among human joints for 3D human pose estimation (HPE). In addition, the purely Transformer-based models recently show promising results in video-based 3D HPE. However, the single-frame method still needs to model the physically connected relations among joints because the feature representations transformed only by global relations via the Transformer neglect information on the human skeleton. To deal with this problem, we propose a novel method in which the Transformer encoder and GCN blocks are alternately stacked, namely AMPose, to combine the global and physically connected relations among joints towards HPE. In the AMPose, the Transformer encoder is applied to connect each joint with all the other joints, while GCNs are applied to capture information on physically connected relations. The effectiveness of our proposed method is evaluated on the Human3.6M dataset. Our model also shows better generalization ability by testing on the MPI-INF-3DHP dataset. Code can be retrieved at https://github.com/erikervalid/AMPose. | 翻訳日:2023-11-02 04:31:24 公開日:2023-10-31 |
# パウリ転写マトリクス直接再構成 : フルプロセストモグラフィーを伴わないチャネル特性 Pauli transfer matrix direct reconstruction: channel characterization without full process tomography ( http://arxiv.org/abs/2212.11968v2 ) ライセンス: Link先を確認 | Simone Roncallo, Lorenzo Maccone, Chiara Macchiavello | (参考訳) マルチキュービット量子チャネルのキャラクタリゼーションのためのトモグラフィープロトコルを提案する。
入力状態の特定のクラスについて検討し、チャネルの出力における pauli 測定の集合は、その pauli 伝達行列成分に直接関係する。
実験結果と標準量子プロセストモグラフィーの結果を比較し, 単一行列要素抽出で要求される異なる実験構成数を指数関数的に減少させるとともに, 同じショット数を維持できることを示した。
このことは、パウリ転移行列の選択的知識が必要な場合、より効率的な実験的な実装の道を開く。
いくつか例とシミュレーションを紹介します。 We present a tomographic protocol for the characterization of multiqubit quantum channels. We discuss a specific class of input states, for which the set of Pauli measurements at the output of the channel directly relates to its Pauli transfer matrix components. We compare our results to those of standard quantum process tomography, showing an exponential reduction in the number of different experimental configurations required by a single matrix element extraction, while keeping the same number of shots. This paves the way for more efficient experimental implementations, whenever a selective knowledge of the Pauli transfer matrix is needed. We provide several examples and simulations. | 翻訳日:2023-11-02 04:23:12 公開日:2023-10-31 |
# ランキングのためのリストレベルドメイン不変表現の学習 Learning List-Level Domain-Invariant Representations for Ranking ( http://arxiv.org/abs/2212.10764v3 ) ライセンス: Link先を確認 | Ruicheng Xian, Honglei Zhuang, Zhen Qin, Hamed Zamani, Jing Lu, Ji Ma, Kai Hui, Han Zhao, Xuanhui Wang, Michael Bendersky | (参考訳) ドメイン適応は、(データリッチ)ソースドメインで学んだ知識を(低リソース)ターゲットドメインに転送することを目的としており、一般的な方法は不変表現学習(invariant representation learning)である。
この手法は分類問題や回帰問題に対して広く研究され応用されているが、ランキング問題への導入は散発的であり、既存の実装では理論上の正当性を欠いている。
本稿では、ランク付けのための不変表現学習を再考する。
事前の作業のレビューでは,項目レベルのアライメントという,すべてのリストからランク付けされている項目の分布をアライメントする機能を実装していますが,リスト構造は無視しています。
しかし、リスト構造は、データとメトリクスがリスト上で定義され、計算される問題に固有のものであるため、それ自体はアイテムではないため、活用されるべきである。
この矛盾を解消するために、リストレベルのアライメント-学習ドメイン不変表現をより高いレベルのリストで提案する。
その利点は2つある:それはランク付けにバインドされた最初のドメイン適応一般化につながり、提案手法の理論的サポートを提供し、パッセージリランキングを含むランク付けタスクにおける教師なしドメイン適応のより良い経験的転送性能を達成する。 Domain adaptation aims to transfer the knowledge learned on (data-rich) source domains to (low-resource) target domains, and a popular method is invariant representation learning, which matches and aligns the data distributions on the feature space. Although this method is studied extensively and applied on classification and regression problems, its adoption on ranking problems is sporadic, and the few existing implementations lack theoretical justifications. This paper revisits invariant representation learning for ranking. Upon reviewing prior work, we found that they implement what we call item-level alignment, which aligns the distributions of the items being ranked from all lists in aggregate but ignores their list structure. However, the list structure should be leveraged, because it is intrinsic to ranking problems where the data and the metrics are defined and computed on lists, not the items by themselves. To close this discrepancy, we propose list-level alignment -- learning domain-invariant representations at the higher level of lists. The benefits are twofold: it leads to the first domain adaptation generalization bound for ranking, in turn providing theoretical support for the proposed method, and it achieves better empirical transfer performance for unsupervised domain adaptation on ranking tasks, including passage reranking. | 翻訳日:2023-11-02 04:22:46 公開日:2023-10-31 |
# マルチモーダル文法誘導のためのビジョンフリーベースライン A Vision-free Baseline for Multimodal Grammar Induction ( http://arxiv.org/abs/2212.10564v2 ) ライセンス: Link先を確認 | Boyi Li and Rodolfo Corona and Karttikeya Mangalam and Catherine Chen and Daniel Flaherty and Serge Belongie and Kilian Q. Weinberger and Jitendra Malik and Trevor Darrell and Dan Klein | (参考訳) 過去の研究によると、MSCOCOのようなマルチモーダルデータセットにおけるペア視覚言語信号は文法誘導を大幅に改善している。
テキストでのみ訓練された大規模言語モデル(LLM)の進歩が,マルチモーダル環境における文法誘導の強力な支援となるかを検討する。
テキストのみのアプローチであるLC-PCFG(LC-PCFG)は,従来のマルチモーダル手法よりも優れ,様々なマルチモーダルデータセットに対して最先端の文法誘導性能を実現する。
LC-PCFGは画像支援文法帰納法と比較して、7.9コーパス-F1ポイントの先行状態を85%削減し、訓練速度は1.7倍に向上した。
3つのビデオ支援文法誘導ベンチマークでLC-PCFGは最先端の7.7 Corpus-F1を8.8倍高速化した。
これらの結果は、テキストのみの言語モデルには、マルチモーダルな文脈における文法の帰納を支援する視覚的な手がかりが含まれるかもしれないという概念に光を当てた。
さらに,マルチモーダルアプローチのメリットを評価する上で,堅牢なビジョンフリーなベースラインを確立することの重要性も強調する。 Past work has shown that paired vision-language signals substantially improve grammar induction in multimodal datasets such as MSCOCO. We investigate whether advancements in large language models (LLMs) that are only trained with text could provide strong assistance for grammar induction in multimodal settings. We find that our text-only approach, an LLM-based C-PCFG (LC-PCFG), outperforms previous multi-modal methods, and achieves state-of-the-art grammar induction performance for various multimodal datasets. Compared to image-aided grammar induction, LC-PCFG outperforms the prior state-of-the-art by 7.9 Corpus-F1 points, with an 85% reduction in parameter count and 1.7x faster training speed. Across three video-assisted grammar induction benchmarks, LC-PCFG outperforms prior state-of-the-art by up to 7.7 Corpus-F1, with 8.8x faster training. These results shed light on the notion that text-only language models might include visually grounded cues that aid in grammar induction in multimodal contexts. Moreover, our results emphasize the importance of establishing a robust vision-free baseline when evaluating the benefit of multimodal approaches. | 翻訳日:2023-11-02 04:22:23 公開日:2023-10-31 |
# ボソニックフラックスラダーにおける幾何学的フラストレーションのないフラストレーションマグネット Frustrated magnets without geometrical frustration in bosonic flux ladders ( http://arxiv.org/abs/2212.06112v2 ) ライセンス: Link先を確認 | Luca Barbiero, Josep Cabedo, Maciej Lewenstein, Leticia Tarruell, Alessio Celi | (参考訳) 本論文は、超低温原子を光学格子内に配置したフラストレーションスピン1/2量子xxモデルによるフラストレーションbose-hubbardモデルを実現するためのスキームを提案する。
我々のアプローチは、1つの実次元と1つの合成スピン次元を持つ$\pi$に近い磁束の正方形のラダーに基づいている。
このシステムは幾何学的なフラストレーションを持たないが、低エネルギーでは合成トンネルの特定の値にスタガー付きフラックスを持つ有効三角形のはしごにマッピングされる。
本研究では, その豊富な相図を数値的に検討し, 結合秩序波およびキラル超流動相を含むことを示す。
本手法は, 実際の幾何学的フラストレーションを必要とせずに, 最小のフラストレーションマグネットのインスタンスにアクセスし, 実験的な複雑さを最小化する。 We propose a scheme to realize a frustrated Bose-Hubbard model with ultracold atoms in an optical lattice that comprises the frustrated spin-1/2 quantum XX model. Our approach is based on a square ladder of magnetic flux close to $\pi$ with one real and one synthetic spin dimension. Although this system does not have geometrical frustration, we show that at low energies it maps into an effective triangular ladder with staggered fluxes for specific values of the synthetic tunneling. We numerically investigate its rich phase diagram and show that it contains bond-ordered-wave and chiral superfluid phases. Our scheme gives access to minimal instances of frustrated magnets without the need for real geometrical frustration, in a setup of minimal experimental complexity. | 翻訳日:2023-11-02 04:21:32 公開日:2023-10-31 |
# スパース添加モデルによる分類 Classification by sparse additive models ( http://arxiv.org/abs/2212.01792v2 ) ライセンス: Link先を確認 | Felix Abramovich | (参考訳) 我々は(非パラメトリック)スパース加法モデル(SpAM)を分類する。
SpAM分類器の設計は、正規直列(フーリエやウェーブレットなど)における単変数成分の展開係数に対するスパース群Lassoとより一般的なスパース群Slope型ペナルティによるロジスティック損失の最小化に基づいている。
結果として生じる分類器は、本質的に未知のスパース性と滑らかさに適応する。
あるスパース群制限固有値条件の下では、スパース群 Lasso 分類器は解析的、ソボレフ類、ベソフ類の全範囲においてほぼ最小(対数因子まで)であり、一方スパース群 Slope 分類器はスパース集合と適度に密な構成に対する(余分な対数因子なしで)正確なミニマックスオーダーを達成する。
提案する分類器の性能は実データ例で示される。 We consider (nonparametric) sparse additive models (SpAM) for classification. The design of a SpAM classifier is based on minimizing the logistic loss with a sparse group Lasso and more general sparse group Slope-type penalties on the coefficients of univariate components' expansions in orthonormal series (e.g., Fourier or wavelets). The resulting classifiers are inherently adaptive to the unknown sparsity and smoothness. We show that under certain sparse group restricted eigenvalue condition the sparse group Lasso classifier is nearly-minimax (up to log-factors) within the entire range of analytic, Sobolev and Besov classes while the sparse group Slope classifier achieves the exact minimax order (without the extra log-factors) for sparse and moderately dense setups. The performance of the proposed classifier is illustrated on the real-data example. | 翻訳日:2023-11-02 04:19:45 公開日:2023-10-31 |
# Pot 2.0 の融解 Melting Pot 2.0 ( http://arxiv.org/abs/2211.13746v6 ) ライセンス: Link先を確認 | John P. Agapiou, Alexander Sasha Vezhnevets, Edgar A. Du\'e\~nez-Guzm\'an, Jayd Matyas, Yiran Mao, Peter Sunehag, Raphael K\"oster, Udari Madhushani, Kavya Kopparapu, Ramona Comanescu, DJ Strouse, Michael B. Johanson, Sukhdeep Singh, Julia Haas, Igor Mordatch, Dean Mobbs, Joel Z. Leibo | (参考訳) マルチエージェント人工知能研究は、エージェント間の相互作用を考慮しない「ソリピシズム」アプローチによって生み出されるものよりも、人間らしく、より人間と互換性のあるインテリジェントな技術を開発することを約束する。
Melting Potは、マルチエージェント人工知能の開発を促進するために開発された研究ツールであり、一連の標準的なテストシナリオにおいて、新しいソーシャルパートナーへの一般化を測定する評価プロトコルを提供する。
それぞれのシナリオは物理的環境("サブストラテト")と共同プレイヤーのリファレンスセット("バックグラウンド人口")を組み合わせることで、関係する個人間の実質的な相互依存を持った社会的状況を作り出す。
例えば、いくつかのシナリオは、自然資源管理と公益のジレンマに関する制度的経済的な説明にインスパイアされた。
進化生物学、ゲーム理論、人工生命から着想を得た者もいた。
Melting Potは、最も多様な相互依存とインセンティブをカバーすることを目指している。
完全競争的(ゼロサム)モチベーションと完全協力的(共有的)モチベーションの、一般的に研究されている極端なケースを含んでいるが、それらでは止まらない。
現実のように、鍋を溶かすシナリオのほとんどが混合インセンティブを持っている。
純粋に競争的でも純粋に協力的でもないので、成功したエージェントは結果の曖昧さをナビゲートできる。
ここでは、Melt Pot 2.0について説明する。
また、非対称な役割を持つシナリオのサポートを導入し、それらを評価プロトコルに統合する方法を説明します。
1)全ての基質とシナリオの詳細、(2)全てのベースラインアルゴリズムと結果の完全な記述を含む。
私たちの意図は、Melt Pot 2.0を使った研究者の参考になることです。 Multi-agent artificial intelligence research promises a path to develop intelligent technologies that are more human-like and more human-compatible than those produced by "solipsistic" approaches, which do not consider interactions between agents. Melting Pot is a research tool developed to facilitate work on multi-agent artificial intelligence, and provides an evaluation protocol that measures generalization to novel social partners in a set of canonical test scenarios. Each scenario pairs a physical environment (a "substrate") with a reference set of co-players (a "background population"), to create a social situation with substantial interdependence between the individuals involved. For instance, some scenarios were inspired by institutional-economics-based accounts of natural resource management and public-good-provision dilemmas. Others were inspired by considerations from evolutionary biology, game theory, and artificial life. Melting Pot aims to cover a maximally diverse set of interdependencies and incentives. It includes the commonly-studied extreme cases of perfectly-competitive (zero-sum) motivations and perfectly-cooperative (shared-reward) motivations, but does not stop with them. As in real-life, a clear majority of scenarios in Melting Pot have mixed incentives. They are neither purely competitive nor purely cooperative and thus demand successful agents be able to navigate the resulting ambiguity. Here we describe Melting Pot 2.0, which revises and expands on Melting Pot. We also introduce support for scenarios with asymmetric roles, and explain how to integrate them into the evaluation protocol. This report also contains: (1) details of all substrates and scenarios; (2) a complete description of all baseline algorithms and results. Our intention is for it to serve as a reference for researchers using Melting Pot 2.0. | 翻訳日:2023-11-02 04:18:48 公開日:2023-10-31 |
# 抽象的学習によるdnn制御システムのtaming reachability解析 Taming Reachability Analysis of DNN-Controlled Systems via Abstraction-Based Training ( http://arxiv.org/abs/2211.11127v2 ) ライセンス: Link先を確認 | Jiaxu Tian and Dapeng Zhi and Si Liu and Peixin Wang and Guy Katz and Min Zhang | (参考訳) ディープニューラルネットワーク(DNN)の本質的な複雑さは、ネットワーク自体だけでなく、ホストするDNN制御システムの検証を困難にしている。
これらのシステムの到達可能性分析は同じ課題に直面している。
既存のアプローチは、単純な多項式モデルを用いた過剰近似DNNに依存している。
しかし、それらは低い効率と大きな過大評価に悩まされ、特定のタイプのDNNに制限される。
本稿では,到達可能性解析における過剰近似DNNの欠如を回避するための,抽象的アプローチを提案する。
具体的には、実数をトレーニングの間隔に抽象化する抽象層を挿入することで、従来のDNNを拡張します。
挿入された抽象層は、インターバルで表される値がトレーニングと意思決定の両方のためにネットワークと区別できないことを保証します。
これを利用して、DNN制御システムに対する最初のブラックボックス到達可能性分析アプローチを考案し、訓練されたDNNは抽象状態に対するアクションのためのブラックボックスオラクルとしてのみクエリされる。
当社のアプローチは,dnnのタイプやサイズに依存しない,健全でタイトで効率的です。
幅広いベンチマーク実験結果から,本手法を用いて訓練したdnnは同等の性能を示し,対応するシステムの到達可能性解析は,最先端のホワイトボックスアプローチよりも高いタイトさと効率改善により,より快適になることが示された。 The intrinsic complexity of deep neural networks (DNNs) makes it challenging to verify not only the networks themselves but also the hosting DNN-controlled systems. Reachability analysis of these systems faces the same challenge. Existing approaches rely on over-approximating DNNs using simpler polynomial models. However, they suffer from low efficiency and large overestimation, and are restricted to specific types of DNNs. This paper presents a novel abstraction-based approach to bypass the crux of over-approximating DNNs in reachability analysis. Specifically, we extend conventional DNNs by inserting an additional abstraction layer, which abstracts a real number to an interval for training. The inserted abstraction layer ensures that the values represented by an interval are indistinguishable to the network for both training and decision-making. Leveraging this, we devise the first black-box reachability analysis approach for DNN-controlled systems, where trained DNNs are only queried as black-box oracles for the actions on abstract states. Our approach is sound, tight, efficient, and agnostic to any DNN type and size. The experimental results on a wide range of benchmarks show that the DNNs trained by using our approach exhibit comparable performance, while the reachability analysis of the corresponding systems becomes more amenable with significant tightness and efficiency improvement over the state-of-the-art white-box approaches. | 翻訳日:2023-11-02 04:17:52 公開日:2023-10-31 |
# CodeBERTScore: 事前訓練されたコードモデルによるコード生成の評価 CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code ( http://arxiv.org/abs/2302.05527v2 ) ライセンス: Link先を確認 | Shuyan Zhou, Uri Alon, Sumit Agarwal, Graham Neubig | (参考訳) ニューラル自然言語-コードモデル(NL->Code)の台頭により,1つの次点ではなく,長い表現や文を生成することが可能になった。
本稿では,BERTScore(Zhang et al., 2020)をベースとしたコード生成評価指標であるCodeBERTScoreを提案する。
生成されたトークンのみをbertscoreでエンコードする代わりに、codebertscoreは生成されたコードに先立つ自然言語入力をエンコードするので、生成されたコードと与えられた自然言語コンテキストの一貫性をモデル化する。
我々は、4つのプログラミング言語でCodeBERTScoreを広範囲に評価する。
CodeBERTScoreは、既存のすべての指標よりも人間の嗜好と機能的正しさとの相関性が高いことがわかった。
つまり、CodeBERTScoreによって高いスコアを受け取る生成されたコードは、人間によって好まれる傾向があり、実行時に正しく機能する。
公開コードで使用する5つの言語固有の事前学習モデルをリリースします。
私たちの言語固有のモデルは、Huggingface Hubから10万回以上ダウンロードされています。
私たちのコードとデータはhttps://github.com/neulab/code-bert-scoreで利用可能です。 Since the rise of neural natural-language-to-code models (NL->Code) that can generate long expressions and statements rather than a single next-token, one of the major problems has been reliably evaluating their generated output. In this paper, we propose CodeBERTScore: an evaluation metric for code generation, which builds on BERTScore (Zhang et al., 2020). Instead of encoding only the generated tokens as in BERTScore, CodeBERTScore also encodes the natural language input preceding the generated code, thus modeling the consistency between the generated code and its given natural language context as well. We perform an extensive evaluation of CodeBERTScore across four programming languages. We find that CodeBERTScore achieves a higher correlation with human preference and with functional correctness than all existing metrics. That is, generated code that receives a higher score by CodeBERTScore is more likely to be preferred by humans, as well as to function correctly when executed. We release five language-specific pretrained models to use with our publicly available code. Our language-specific models have been downloaded more than 1,000,000 times from the Huggingface Hub. Our code and data are available at https://github.com/neulab/code-bert-score | 翻訳日:2023-11-02 04:10:44 公開日:2023-10-31 |
# 学生エッセイの執筆支援として、私よりも、あなたの方が良い。 Better by you, better than me, chatgpt3 as writing assistance in students essays ( http://arxiv.org/abs/2302.04536v2 ) ライセンス: Link先を確認 | Zeljana Basic and Ana Banovac and Ivana Kruzic and Ivan Jerkovic | (参考訳) Aim: 学生のエッセイとChatGPT-3を筆記補助具として使用の有無を比較した。
資料と方法:18名の学生が本研究に参加した(チャットgpt-3を用いた実験群では9名,対照群では9名)。
次数 (a-d) と対応する数値 (4-1) でエッセイ要素を採点した。
我々は,エッセイスコアを学生のGPT,執筆時間,信頼性,内容類似度と比較した。
結果: 対照群 (2.39, SD=0.71) と実験群 (2.00, SD=0.73) の2群ともC群であった。
グループ (p=0.184), 筆記期間 (p=0.669), モジュール (p=0.388), gpa (p=0.532) などである。
テキストの精度は実験群でわずかに高かった(11.87%、SD=13.45から9.96%、SD=9.81%)が、エッセイの類似性は概して低い(ジャカード類似度指数は0から0.054)。
実験グループでは、AI分類器がより潜在的なAI生成テキストを認識した。
結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。 Aim: To compare students' essay writing performance with or without employing ChatGPT-3 as a writing assistant tool. Materials and methods: Eighteen students participated in the study (nine in control and nine in the experimental group that used ChatGPT-3). We scored essay elements with grades (A-D) and corresponding numerical values (4-1). We compared essay scores to students' GPTs, writing time, authenticity, and content similarity. Results: Average grade was C for both groups; for control (2.39, SD=0.71) and for experimental (2.00, SD=0.73). None of the predictors affected essay scores: group (P=0.184), writing duration (P=0.669), module (P=0.388), and GPA (P=0.532). The text unauthenticity was slightly higher in the experimental group (11.87%, SD=13.45 to 9.96%, SD=9.81%), but the similarity among essays was generally low in the overall sample (the Jaccard similarity index ranging from 0 to 0.054). In the experimental group, AI classifier recognized more potential AI-generated texts. Conclusions: This study found no evidence that using GPT as a writing tool improves essay quality since the control group outperformed the experimental group in most parameters. | 翻訳日:2023-11-02 04:10:07 公開日:2023-10-31 |
# スクラッチ強度の定量化のためのマルチモーダルセンシングリング A Multimodal Sensing Ring for Quantification of Scratch Intensity ( http://arxiv.org/abs/2302.03813v2 ) ライセンス: Link先を確認 | Akhil Padmanabha, Sonal Choudhary, Carmel Majidi, Zackory Erickson | (参考訳) 多発性疾患に対する患者のケア改善には, 慢性かゆの客観的測定が不可欠である。
ウェアラブルはスクラッチ検出を約束しているが、現在スクラッチ強度を推定できず、個人に対するかゆみの影響を包括的に理解できない。
本稿では,スクラッチ検出に加えて,スクラッチ強度の推定のためのフレームワークを提案する。
これは、加速度計と接触マイクと、地上の真理強度値を取得するための感圧タブレットと、0〜600ミリワット(mW)パワースケールで0〜10連続スケールにマッピング可能なスクラッチ強度の回帰を行う機械学習アルゴリズムとからなるマルチモーダルリング装置で実現される。
また, 被験者14名から得られたデータを用いて, 20名を対象にアルゴリズムの性能評価を行い, 臨床的に関連性のあるスクラッチ強度の判定が可能であることを示した。
そこで本装置は,患者の自己申告臨床評価に頻繁に用いられる0~10スケールの解釈の実質的な変動を定量化することを可能にする。
本研究は, 指縫い装置がスクラッチ動作の多次元的, 客観的, リアルタイムな計測を可能にすることを示す。 An objective measurement of chronic itch is necessary for improvements in patient care for numerous medical conditions. While wearables have shown promise for scratch detection, they are currently unable to estimate scratch intensity, preventing a comprehensive understanding of the effect of itch on an individual. In this work, we present a framework for the estimation of scratch intensity in addition to the detection of scratch. This is accomplished with a multimodal ring device, consisting of an accelerometer and a contact microphone, a pressure-sensitive tablet for capturing ground truth intensity values, and machine learning algorithms for regression of scratch intensity on a 0-600 milliwatts (mW) power scale that can be mapped to a 0-10 continuous scale. We evaluate the performance of our algorithms on 20 individuals using leave one subject out cross-validation and using data from 14 additional participants, we show that our algorithms achieve clinically-relevant discrimination of scratching intensity levels. By doing so, our device enables the quantification of the substantial variations in the interpretation of the 0-10 scale frequently utilized in patient self-reported clinical assessments. This work demonstrates that a finger-worn device can provide multidimensional, objective, real-time measures for the action of scratching. | 翻訳日:2023-11-02 04:09:28 公開日:2023-10-31 |
# Aleatoric and Epistemic Discrimination: Basic Limits of Fairness Interventions Aleatoric and Epistemic Discrimination: Fundamental Limits of Fairness Interventions ( http://arxiv.org/abs/2301.11781v2 ) ライセンス: Link先を確認 | Hao Wang, Luxi (Lucy) He, Rui Gao, Flavio P. Calmon | (参考訳) 機械学習(ML)モデルは、モデル開発時の選択とデータ固有のバイアスにより、特定の集団群で過小評価される可能性がある。
我々は,MLパイプラインにおける識別源を,データ分布に固有のアレター的識別と,モデル開発における決定による疫学的識別の2つのクラスに分類する。
データ分布の完全な知識を仮定して、公平な制約の下でモデルの性能限界を決定することにより、アリータティックな識別を定量化する。
統計実験の比較にブラックウェルの結果を適用して,アレータティックな差別を特徴付ける方法を示す。
次に,公平性制約が適用された場合のモデルの精度とアレエータ性弁別による限界との差として認識論的弁別を定量化する。
このアプローチを既存の公平さの介入をベンチマークし、値が欠けているデータにおける公平さのリスクを調べるために適用する。
以上の結果から,標準表型データセットにおける認識論的識別の除去には最先端の公平性介入が有効であることが示唆された。
しかし、データが値が欠けている場合、弁別処理の改善の余地は依然として大きい。 Machine learning (ML) models can underperform on certain population groups due to choices made during model development and bias inherent in the data. We categorize sources of discrimination in the ML pipeline into two classes: aleatoric discrimination, which is inherent in the data distribution, and epistemic discrimination, which is due to decisions made during model development. We quantify aleatoric discrimination by determining the performance limits of a model under fairness constraints, assuming perfect knowledge of the data distribution. We demonstrate how to characterize aleatoric discrimination by applying Blackwell's results on comparing statistical experiments. We then quantify epistemic discrimination as the gap between a model's accuracy when fairness constraints are applied and the limit posed by aleatoric discrimination. We apply this approach to benchmark existing fairness interventions and investigate fairness risks in data with missing values. Our results indicate that state-of-the-art fairness interventions are effective at removing epistemic discrimination on standard (overused) tabular datasets. However, when data has missing values, there is still significant room for improvement in handling aleatoric discrimination. | 翻訳日:2023-11-02 04:07:28 公開日:2023-10-31 |
# 学習者の結束による深層アンサンブルの合同訓練失敗 Joint Training of Deep Ensembles Fails Due to Learner Collusion ( http://arxiv.org/abs/2301.11323v2 ) ライセンス: Link先を確認 | Alan Jeffares, Tennison Liu, Jonathan Crabb\'e, Mihaela van der Schaar | (参考訳) 機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。
伝統的に、センシングアルゴリズムは基礎学習者を独立または順次に訓練し、共同パフォーマンスを最適化することを目的としている。
ニューラルネットワークの深いアンサンブルの場合、私たちは真の目的、すなわちアンサンブル全体のジョイントパフォーマンスを直接最適化する機会を提供する。
しかし驚くべきことに、アンサンブルの損失を直接最小化することは、実際にはめったに適用されないようである。
従来の研究は個々のモデルを個別に訓練し、アンサンブルはポストホックを実行した。
本研究は,アンサンブル損失の協調最適化が縮退行動をもたらすという正当な理由によるものであることを示す。
我々は,アンサンブル目標を基礎学習者の強さとそれらの間の多様性に分解することで,この問題に対処する。
共同最適化の結果,基礎学習者が人為的に多様性を膨らませる現象が生じた。
この擬似多様性はトレーニングデータを超えた一般化に失敗し、より大きな一般化ギャップを引き起こす。
我々は,独立学習と協調最適化をスムーズに補間することにより,この効果が標準機械学習タスクやアーキテクチャに与える影響を包括的に実証する。 Ensembles of machine learning models have been well established as a powerful method of improving performance over a single model. Traditionally, ensembling algorithms train their base learners independently or sequentially with the goal of optimizing their joint performance. In the case of deep ensembles of neural networks, we are provided with the opportunity to directly optimize the true objective: the joint performance of the ensemble as a whole. Surprisingly, however, directly minimizing the loss of the ensemble appears to rarely be applied in practice. Instead, most previous research trains individual models independently with ensembling performed post hoc. In this work, we show that this is for good reason - joint optimization of ensemble loss results in degenerate behavior. We approach this problem by decomposing the ensemble objective into the strength of the base learners and the diversity between them. We discover that joint optimization results in a phenomenon in which base learners collude to artificially inflate their apparent diversity. This pseudo-diversity fails to generalize beyond the training data, causing a larger generalization gap. We proceed to comprehensively demonstrate the practical implications of this effect on a range of standard machine learning tasks and architectures by smoothly interpolating between independent training and joint optimization. | 翻訳日:2023-11-02 04:07:09 公開日:2023-10-31 |
# 拡散モデルと半監督学習者の相互適合性 Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels ( http://arxiv.org/abs/2302.10586v3 ) ライセンス: Link先を確認 | Zebin You, Yong Zhong, Fan Bao, Jiacheng Sun, Chongxuan Li, Jun Zhu | (参考訳) 半教師付き生成と分類のタスクをさらに進めるために,強い半教師付き学習者と拡散モデルに基づくdpt(dual pseudo training)と呼ばれる,単純かつ効果的なトレーニング戦略を提案する。
dptは、部分的にラベル付けされたデータで分類器を訓練し、擬似ラベルを予測し、これらの擬似ラベルを用いて条件付き生成モデルを訓練し、擬似画像を生成する。
経験的に、DPTは、様々な設定で半教師付き生成と分類のSOTA性能を一貫して達成する。
特に、クラスごとに1つまたは2つのラベルを持つDPTは、ImageNet 256x256でFr\echet Inception Distance(FID)スコアが3.08または2.52に達する。
さらに、DPTは画像ネット分類タスクにおいて、59.0 (+2.8) と69.5 (+3.0) と74.4 (+2.0) をそれぞれ1つ、2つ、または5つのラベルで達成し、競合する半教師付きベースラインを大幅に上回っている。
特に, 拡散は少数のラベル(例えば<0.1%)しか生成せず, 半教師付き分類では生成的増補が有効であることを示す。
私たちのコードはhttps://github.com/ML-GSAI/DPTで公開されています。 In an effort to further advance semi-supervised generative and classification tasks, we propose a simple yet effective training strategy called dual pseudo training (DPT), built upon strong semi-supervised learners and diffusion models. DPT operates in three stages: training a classifier on partially labeled data to predict pseudo-labels; training a conditional generative model using these pseudo-labels to generate pseudo images; and retraining the classifier with a mix of real and pseudo images. Empirically, DPT consistently achieves SOTA performance of semi-supervised generation and classification across various settings. In particular, with one or two labels per class, DPT achieves a Fr\'echet Inception Distance (FID) score of 3.08 or 2.52 on ImageNet 256x256. Besides, DPT outperforms competitive semi-supervised baselines substantially on ImageNet classification tasks, achieving top-1 accuracies of 59.0 (+2.8), 69.5 (+3.0), and 74.4 (+2.0) with one, two, or five labels per class, respectively. Notably, our results demonstrate that diffusion can generate realistic images with only a few labels (e.g., <0.1%) and generative augmentation remains viable for semi-supervised classification. Our code is available at https://github.com/ML-GSAI/DPT. | 翻訳日:2023-11-02 03:58:13 公開日:2023-10-31 |
# 大規模マルチモーダル事前学習モデル:包括的調査 Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey ( http://arxiv.org/abs/2302.10035v2 ) ライセンス: Link先を確認 | Xiao Wang, Guangyao Chen, Guangwu Qian, Pengcheng Gao, Xiao-Yong Wei, Yaowei Wang, Yonghong Tian, Wen Gao | (参考訳) 一般化された深層モデルの緊急需要により、BERT、ViT、GPTなど多くの事前訓練済みの大型モデルが提案されている。
単一ドメイン(コンピュータビジョンや自然言語処理など)でのこれらのモデルの成功に触発されて、マルチモーダル事前学習された大型モデルも近年ますます注目を集めている。
本稿では,これらのモデルに関する総合的な調査を行い,本論文が新たな洞察を与え,最先端の研究成果の追跡を支援することを期待する。
具体的には, 従来のディープラーニング, 自然言語処理における事前学習, コンピュータビジョン, 音声によるマルチモーダル事前学習の背景を紹介する。
次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
その後、生成タスク、分類タスク、回帰タスクを含む大規模MM-PTMの検証に使用される下流タスクを紹介した。
また、モデルパラメータと結果の可視化と分析を下流の代表的なタスクで行う。
最後に,今後の研究に利益をもたらす可能性のある研究の方向性を指摘する。
さらに、大規模事前トレーニングされたマルチモーダルビッグモデルのための、継続的に更新されたペーパーリストも保持しています。 https://github.com/wangxiao5791509/multimodal_bigmodels_survey。 With the urgent demand for generalized deep models, many pre-trained big models are proposed, such as BERT, ViT, GPT, etc. Inspired by the success of these models in single domains (like computer vision and natural language processing), the multi-modal pre-trained big models have also drawn more and more attention in recent years. In this work, we give a comprehensive survey of these models and hope this paper could provide new insights and helps fresh researchers to track the most cutting-edge works. Specifically, we firstly introduce the background of multi-modal pre-training by reviewing the conventional deep learning, pre-training works in natural language process, computer vision, and speech. Then, we introduce the task definition, key challenges, and advantages of multi-modal pre-training models (MM-PTMs), and discuss the MM-PTMs with a focus on data, objectives, network architectures, and knowledge enhanced pre-training. After that, we introduce the downstream tasks used for the validation of large-scale MM-PTMs, including generative, classification, and regression tasks. We also give visualization and analysis of the model parameters and results on representative downstream tasks. Finally, we point out possible research directions for this topic that may benefit future works. In addition, we maintain a continuously updated paper list for large-scale pre-trained multi-modal big models: https://github.com/wangxiao5791509/MultiModal_BigModels_Survey | 翻訳日:2023-11-02 03:57:48 公開日:2023-10-31 |
# 整数プログラミングにおけるカットプレーンのための機械学習: 調査 Machine Learning for Cutting Planes in Integer Programming: A Survey ( http://arxiv.org/abs/2302.09166v2 ) ライセンス: Link先を確認 | Arnaud Deza and Elias B. Khalil | (参考訳) 混合整数線形プログラミング(MILP)における切断平面(または切断)を選択する機械学習(ML)技術に関する最近の研究について調査する。
カットの様々なクラスが利用可能であるにもかかわらず、分岐とバウンド(B&B)ツリーの特定のノードにおける線形プログラミング(LP)緩和に追加するためのカットセットを選択するタスクは、これまで公式およびヒューリスティックなソリューションの両方に反した。
MLは、データを使用してMILPインスタンスのソリューションを加速する有望なカットを特定することによって、カット選択プロセスを改善するための有望なアプローチを提供する。
本稿では,最近の文献の進歩,データ収集への共通アプローチ,評価,MLモデルアーキテクチャについて概説する。
文献における経験的結果を分析し,今後の研究への道筋を示唆し,その成果を定量化し,結論づける。 We survey recent work on machine learning (ML) techniques for selecting cutting planes (or cuts) in mixed-integer linear programming (MILP). Despite the availability of various classes of cuts, the task of choosing a set of cuts to add to the linear programming (LP) relaxation at a given node of the branch-and-bound (B&B) tree has defied both formal and heuristic solutions to date. ML offers a promising approach for improving the cut selection process by using data to identify promising cuts that accelerate the solution of MILP instances. This paper presents an overview of the topic, highlighting recent advances in the literature, common approaches to data collection, evaluation, and ML model architectures. We analyze the empirical results in the literature in an attempt to quantify the progress that has been made and conclude by suggesting avenues for future research. | 翻訳日:2023-11-02 03:56:59 公開日:2023-10-31 |
# 時間的・構造的強度アライメントを用いた自己教師付き時間グラフ学習 Self-Supervised Temporal Graph learning with Temporal and Structural Intensity Alignment ( http://arxiv.org/abs/2302.07491v2 ) ライセンス: Link先を確認 | Meng Liu, Ke Liang, Yawei Zhao, Wenxuan Tu, Sihang Zhou, Xinwang Liu, Kunlun He | (参考訳) 時間グラフ学習は、近年注目を集めている動的情報とともに、グラフベースのタスクの高品質な表現を生成することを目的としている。
静的グラフとは異なり、時間グラフは通常、隣接行列の代わりに連続的にノード間の相互作用シーケンスの形で構成される。
ほとんどの時間的グラフ学習法は、過去の情報を時間とともに組み合わせて現在の相互作用をモデル化する。
しかし、このような手法は、重要な高次構造情報を無視しながら1次時間情報のみを考慮し、準最適性能をもたらす。
そこで本稿では,時間的および構造的な情報を抽出して,より情報的なノード表現を学習することにより,時間的グラフ学習のための自己教師付き手法S2Tを提案する。
1次時間情報と高次構造情報は、それぞれ初期ノード表現によって異なる方法で結合され、2つの条件強度が計算される。
次に、アライメント損失を導入し、2つのインテンシティ間のギャップを狭めることにより、ノード表現をより情報的に最適化する。
具体的には,近隣の歴史的配列を用いた時間情報のモデル化に加えて,地域レベルとグローバルレベルの両方からの構造情報についても検討する。
局所レベルでは、高次近傍列から特徴を集約することで構造強度を生成する。
グローバルレベルでは、すべてのノードに基づいてグローバル表現を生成し、異なるノードのアクティブな状態に応じて構造的な強度を調整する。
大規模な実験により、提案手法であるS2Tは、いくつかのデータセットにおける最先端の競合と比較して、少なくとも10.13%の性能向上を達成した。 Temporal graph learning aims to generate high-quality representations for graph-based tasks along with dynamic information, which has recently drawn increasing attention. Unlike the static graph, a temporal graph is usually organized in the form of node interaction sequences over continuous time instead of an adjacency matrix. Most temporal graph learning methods model current interactions by combining historical information over time. However, such methods merely consider the first-order temporal information while ignoring the important high-order structural information, leading to sub-optimal performance. To solve this issue, by extracting both temporal and structural information to learn more informative node representations, we propose a self-supervised method termed S2T for temporal graph learning. Note that the first-order temporal information and the high-order structural information are combined in different ways by the initial node representations to calculate two conditional intensities, respectively. Then the alignment loss is introduced to optimize the node representations to be more informative by narrowing the gap between the two intensities. Concretely, besides modeling temporal information using historical neighbor sequences, we further consider the structural information from both local and global levels. At the local level, we generate structural intensity by aggregating features from the high-order neighbor sequences. At the global level, a global representation is generated based on all nodes to adjust the structural intensity according to the active statuses on different nodes. Extensive experiments demonstrate that the proposed method S2T achieves at most 10.13% performance improvement compared with the state-of-the-art competitors on several datasets. | 翻訳日:2023-11-02 03:56:43 公開日:2023-10-31 |
# データプルーニングとニューラルスケーリング法則--スコアベースアルゴリズムの基本的限界 Data pruning and neural scaling laws: fundamental limitations of score-based algorithms ( http://arxiv.org/abs/2302.06960v2 ) ライセンス: Link先を確認 | Fadhel Ayed and Soufiane Hayou | (参考訳) データプルーニングアルゴリズムは、最適化プロセスのメモリと計算コストを減らすために一般的に使用される。
近年の実証実験により、ランダムなデータの刈り取りは依然として強力なベースラインであり、高い圧縮領域において既存のデータ刈り出し手法、すなわちデータのわずか30〜%未満が保持されている方法よりも優れていることが判明した。
この制度は最近、いわゆるニューラルスケーリングの法則の改善におけるデータプルーニングの役割によって、多くの関心を集めている。 [sorscher et al.] では、サンプルパワーの法則を破るために、高品質なデータプルーニングアルゴリズムが必要であることを示した。
本研究では,スコアベースのデータプルーニングアルゴリズムに着目し,そのようなアルゴリズムが高圧縮方式で失敗する理由を理論的,実証的に示す。
本稿では,データプルーニングのための'No Free Lunch'定理と,この高圧縮方式における既存のプルーニングアルゴリズムの性能向上を目的としたキャリブレーションプロトコルについて述べる。 Data pruning algorithms are commonly used to reduce the memory and computational cost of the optimization process. Recent empirical results reveal that random data pruning remains a strong baseline and outperforms most existing data pruning methods in the high compression regime, i.e., where a fraction of $30\%$ or less of the data is kept. This regime has recently attracted a lot of interest as a result of the role of data pruning in improving the so-called neural scaling laws; in [Sorscher et al.], the authors showed the need for high-quality data pruning algorithms in order to beat the sample power law. In this work, we focus on score-based data pruning algorithms and show theoretically and empirically why such algorithms fail in the high compression regime. We demonstrate ``No Free Lunch" theorems for data pruning and present calibration protocols that enhance the performance of existing pruning algorithms in this high compression regime using randomization. | 翻訳日:2023-11-02 03:55:59 公開日:2023-10-31 |
# グラフニューラルネットワークによるメッセージパッシング - 大規模MIMOシステムのための新しいパラダイム Message Passing Meets Graph Neural Networks: A New Paradigm for Massive MIMO Systems ( http://arxiv.org/abs/2302.06896v2 ) ライセンス: Link先を確認 | Hengtao He, Xianghao Yu, Jun Zhang, Shenghui Song, Khaled B. Letaief | (参考訳) 5Gシステムの中核技術として、MIMO(Multiple-Input multiple-output)は、非常に高いビームフォーミングと空間多重化ゲインとともに、劇的な容量向上をもたらす。
大規模MIMOシステムのための効率的な物理層アルゴリズムを開発する場合、メッセージパッシングは優れた性能のために有望な候補である。
しかし、その計算の複雑さは問題の規模によって劇的に増大するので、最先端のメッセージパッシングアルゴリズムは将来の6gシステムに直接適用することはできない。
この問題に対処するために、AMPアルゴリズムの複雑さとGNNの適応性を考慮したモデル駆動型ディープラーニング(DL)フレームワーク、すなわち大規模なMIMOトランシーバ設計のためのAMP-GNNを提案する。
具体的には、AMP-GNNネットワークの構造を、近似メッセージパッシング(AMP)アルゴリズムの展開とグラフニューラルネットワーク(GNN)モジュールの導入によってカスタマイズする。
AMP-GNNの置換同値性が証明され、AMP-GNNはより効率的に学習し、異なる数のユーザに対応することができる。
また、予測伝搬の観点から、GNNがAMPアルゴリズムを改善する理由を明らかにし、異なるメッセージパッシングアルゴリズムで様々なGNNを融合させる動機となる。
シミュレーションでは,提案したAMP-GNNがAMP検出器の性能を大幅に向上し,最先端のDLベースMIMO検出器と同等の性能を示し,様々なミスマッチに対して強い堅牢性を示すことを示す。 As one of the core technologies for 5G systems, massive multiple-input multiple-output (MIMO) introduces dramatic capacity improvements along with very high beamforming and spatial multiplexing gains. When developing efficient physical layer algorithms for massive MIMO systems, message passing is one promising candidate owing to the superior performance. However, as their computational complexity increases dramatically with the problem size, the state-of-the-art message passing algorithms cannot be directly applied to future 6G systems, where an exceedingly large number of antennas are expected to be deployed. To address this issue, we propose a model-driven deep learning (DL) framework, namely the AMP-GNN for massive MIMO transceiver design, by considering the low complexity of the AMP algorithm and adaptability of GNNs. Specifically, the structure of the AMP-GNN network is customized by unfolding the approximate message passing (AMP) algorithm and introducing a graph neural network (GNN) module into it. The permutation equivariance property of AMP-GNN is proved, which enables the AMP-GNN to learn more efficiently and to adapt to different numbers of users. We also reveal the underlying reason why GNNs improve the AMP algorithm from the perspective of expectation propagation, which motivates us to amalgamate various GNNs with different message passing algorithms. In the simulation, we take the massive MIMO detection to exemplify that the proposed AMP-GNN significantly improves the performance of the AMP detector, achieves comparable performance as the state-of-the-art DL-based MIMO detectors, and presents strong robustness to various mismatches. | 翻訳日:2023-11-02 03:55:39 公開日:2023-10-31 |
# エゴセントリックビデオのための次のアクティブオブジェクトの予測 Anticipating Next Active Objects for Egocentric Videos ( http://arxiv.org/abs/2302.06358v4 ) ライセンス: Link先を確認 | Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino and Alessio Del Bue | (参考訳) 本稿では, アクションが発生する前に, 接触する可能性のある自発的映像クリップに対して, 今後, 次の活動対象位置を予測できる問題に対処する。
観察されたクリップとアクションセグメントがいわゆる「コンタクトする時間」(ttc)セグメントで分離されるシナリオにおいて、このようなオブジェクトの位置を推定することを目的としているため、この問題はかなり難しい。
過去の手の動きや周囲との相互作用に基づく行動を予測するために,多くの手法が提案されている。
しかし、ttcウィンドウの1人目の動きと視野ドリフトに関して、次の相互作用可能な物体と将来の位置について調査する試みは行われていない。
我々はこれを次の活動対象(ANACTO)を予測するタスクとして定義する。
そこで本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するトランスフォーマーベースの自己認識フレームワークを提案する。
EpicKitchens-100, EGTEA+, Ego4Dの3つのデータセットでベンチマークを行った。
最初の2つのデータセットに対するアノテーションも提供します。
我々のアプローチは、関連するベースライン手法と比較して最もうまく機能する。
また,提案法とベースライン法の有効性を理解するため,アブレーション実験を行った。
コードとANACTOタスクアノテーションは、論文の受理時に利用可能になる。 This paper addresses the problem of anticipating the next-active-object location in the future, for a given egocentric video clip where the contact might happen, before any action takes place. The problem is considerably hard, as we aim at estimating the position of such objects in a scenario where the observed clip and the action segment are separated by the so-called ``time to contact'' (TTC) segment. Many methods have been proposed to anticipate the action of a person based on previous hand movements and interactions with the surroundings. However, there have been no attempts to investigate the next possible interactable object, and its future location with respect to the first-person's motion and the field-of-view drift during the TTC window. We define this as the task of Anticipating the Next ACTive Object (ANACTO). To this end, we propose a transformer-based self-attention framework to identify and locate the next-active-object in an egocentric clip. We benchmark our method on three datasets: EpicKitchens-100, EGTEA+ and Ego4D. We also provide annotations for the first two datasets. Our approach performs best compared to relevant baseline methods. We also conduct ablation studies to understand the effectiveness of the proposed and baseline methods on varying conditions. Code and ANACTO task annotations will be made available upon paper acceptance. | 翻訳日:2023-11-02 03:55:12 公開日:2023-10-31 |
# CEDNet: デンス予測のためのカスケードエンコーダデコーダネットワーク CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction ( http://arxiv.org/abs/2302.06052v2 ) ライセンス: Link先を確認 | Gang Zhang, Ziyi Li, Chufeng Tang, Jianmin Li, Xiaolin Hu | (参考訳) オブジェクト検出、インスタンスのセグメンテーション、セマンティックセグメンテーションといった複雑な予測タスクには、マルチスケールの機能が不可欠である。
一般的な方法では、分類バックボーンを使用してマルチスケールの特徴を抽出し、軽量モジュール(例えばFPNの融合モジュールと2つの典型的なオブジェクト検出方法であるBiFPN)を使ってこれらの特徴を融合する。
しかしながら、これらの手法は、ほとんどの計算資源を分類バックボーンに割り当てるため、これらの手法におけるマルチスケールな特徴融合は遅延し、不適切な特徴融合につながる可能性がある。
初期の段階から機能融合を行う手法もあるが、低レベルの特徴学習を導くために高レベルの特徴を完全に活用できないか、複雑な構造を持つかのいずれかであり、結果として準最適性能をもたらす。
本稿では,CEDNet と呼ばれる,高密度な \mbox{prediction} タスクに適したカスケードエンコーダ・デコーダネットワークを提案する。
cednetのすべてのステージは同じエンコーダ-デコーダ構造を共有し、デコーダ内でマルチスケールの機能融合を行う。
CEDNetの目玉は、初期から高レベルな特徴を組み込んで、その後の段階において低レベルな特徴学習をガイドし、マルチスケールな特徴融合の有効性を高める能力である。
我々は、Hourglass、UNet、FPNの3つのよく知られたエンコーダデコーダ構造を調査した。
CEDNetに統合されると、設計済みの分類バックボーンと軽量のフュージョンモジュールを組み合わせた従来のメソッドよりもはるかに優れたパフォーマンスを実現した。
オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションに関する広範な実験により,提案手法の有効性が示された。
コードはhttps://github.com/zhanggang001/cednetで入手できる。 Multi-scale features are essential for dense prediction tasks, such as object detection, instance segmentation, and semantic segmentation. The prevailing methods usually utilize a classification backbone to extract multi-scale features and then fuse these features using a lightweight module (e.g., the fusion module in FPN and BiFPN, two typical object detection methods). However, as these methods allocate most computational resources to the classification backbone, the multi-scale feature fusion in these methods is delayed, which may lead to inadequate feature fusion. While some methods perform feature fusion from early stages, they either fail to fully leverage high-level features to guide low-level feature learning or have complex structures, resulting in sub-optimal performance. We propose a streamlined cascade encoder-decoder network, dubbed CEDNet, tailored for dense \mbox{prediction} tasks. All stages in CEDNet share the same encoder-decoder structure and perform multi-scale feature fusion within the decoder. A hallmark of CEDNet is its ability to incorporate high-level features from early stages to guide low-level feature learning in subsequent stages, thereby enhancing the effectiveness of multi-scale feature fusion. We explored three well-known encoder-decoder structures: Hourglass, UNet, and FPN. When integrated into CEDNet, they performed much better than traditional methods that use a pre-designed classification backbone combined with a lightweight fusion module. Extensive experiments on object detection, instance segmentation, and semantic segmentation demonstrated the effectiveness of our method. The code is available at https://github.com/zhanggang001/CEDNet. | 翻訳日:2023-11-02 03:54:52 公開日:2023-10-31 |
# 距離行列は幾何学的深層学習に十分か? Is Distance Matrix Enough for Geometric Deep Learning? ( http://arxiv.org/abs/2302.05743v5 ) ライセンス: Link先を確認 | Zian Li, Xiyuan Wang, Yinan Huang, Muhan Zhang | (参考訳) グラフニューラルネットワーク(GNN)は、分子動力学シミュレーションなど、与えられたグラフの3次元幾何学を含むタスクによく使用される。
ユークリッド距離をメッセージパッシングニューラルネットワーク(Vanilla DisGNN)に組み込むことは、幾何学を学ぶための簡単な方法であるが、Vanilla DisGNNは幾何学的に不完全であることが示されている。
本研究では,Vanilla DisGNNが全対距離を考慮しても区別できない,新規で対称な幾何グラフの族を構築し,既存の反例族を大きく拡大する。
我々の反例は、対称幾何学構造を捉えるためのバニラ DisGNN の本質的な限界を示している。
次に,距離行列に含まれるリッチな幾何学を効果的に活用できる$k$-DisGNNを提案する。
3つの視点から、$k$-DisGNNの高表現力を示す。
1.vanilla disgnnでは取得できない高次幾何情報を学習することができる。
2. 既存のよく設計された幾何学モデルを統一することができる。
3.それらは幾何学グラフからスカラー($k\geq 2$)およびベクトル($k\geq 3$)への普遍関数近似である。
最も重要なことは、幾何学的深層学習(GDL)と従来のグラフ表現学習(GRL)の関連性を確立し、GRL用に設計されたこれらの高表現性GNNモデルも印象的な性能でGDLに適用可能であり、既存の複雑で同変なモデルが唯一の解決策ではないことを示すことである。
実験は我々の理論を検証する。
当社の$k$-disgnnは、md17で最新の結果の多くを達成しています。 Graph Neural Networks (GNNs) are often used for tasks involving the 3D geometry of a given graph, such as molecular dynamics simulation. While incorporating Euclidean distance into Message Passing Neural Networks (referred to as Vanilla DisGNN) is a straightforward way to learn the geometry, it has been demonstrated that Vanilla DisGNN is geometrically incomplete. In this work, we first construct families of novel and symmetric geometric graphs that Vanilla DisGNN cannot distinguish even when considering all-pair distances, which greatly expands the existing counterexample families. Our counterexamples show the inherent limitation of Vanilla DisGNN to capture symmetric geometric structures. We then propose $k$-DisGNNs, which can effectively exploit the rich geometry contained in the distance matrix. We demonstrate the high expressive power of $k$-DisGNNs from three perspectives: 1. They can learn high-order geometric information that cannot be captured by Vanilla DisGNN. 2. They can unify some existing well-designed geometric models. 3. They are universal function approximators from geometric graphs to scalars (when $k\geq 2$) and vectors (when $k\geq 3$). Most importantly, we establish a connection between geometric deep learning (GDL) and traditional graph representation learning (GRL), showing that those highly expressive GNN models originally designed for GRL can also be applied to GDL with impressive performance, and that existing complicated, equivariant models are not the only solution. Experiments verify our theory. Our $k$-DisGNNs achieve many new state-of-the-art results on MD17. | 翻訳日:2023-11-02 03:53:24 公開日:2023-10-31 |
# オブジェクト中心スロット拡散 Object-Centric Slot Diffusion ( http://arxiv.org/abs/2303.10834v4 ) ライセンス: Link先を確認 | Jindong Jiang, Fei Deng, Gautam Singh, Sungjin Ahn | (参考訳) オブジェクト中心学習におけるトランスフォーマーベース画像生成モデルの成功は、複雑なシーンを扱うための強力な画像生成器の重要性を強調している。
しかし、画像生成における拡散モデルの表現力が高いにもかかわらず、オブジェクト中心学習への統合は、この領域では未解明のままである。
本稿では,オブジェクト中心学習への拡散モデル統合の可能性と可能性について検討し,このアプローチの長所と短所について考察する。
従来のスロットデコーダをオブジェクトスロット上で条件付けされた潜在拡散モデルに置き換えた最初のオブジェクト中心学習モデルであり、テキストのような教師付きアノテーションを必要とせずに動作する最初の教師なし合成条件拡散モデルでもある。
この分野でのFFHQデータセットの最初の適用を含む、さまざまなオブジェクト中心のタスクの実験を通じて、LSDが最先端のトランスフォーマーベースのデコーダ、特に複雑なシーンにおいて著しく優れており、教師なしの合成生成品質が優れていることを示す。
さらに, LSDにおける事前学習拡散モデルの統合について予備検討を行い, 実世界の画像分割と生成における有効性を示す。
プロジェクトページはhttps://latentslotdiffusion.github.ioで閲覧できる。 The recent success of transformer-based image generative models in object-centric learning highlights the importance of powerful image generators for handling complex scenes. However, despite the high expressiveness of diffusion models in image generation, their integration into object-centric learning remains largely unexplored in this domain. In this paper, we explore the feasibility and potential of integrating diffusion models into object-centric learning and investigate the pros and cons of this approach. We introduce Latent Slot Diffusion (LSD), a novel model that serves dual purposes: it is the first object-centric learning model to replace conventional slot decoders with a latent diffusion model conditioned on object slots, and it is also the first unsupervised compositional conditional diffusion model that operates without the need for supervised annotations like text. Through experiments on various object-centric tasks, including the first application of the FFHQ dataset in this field, we demonstrate that LSD significantly outperforms state-of-the-art transformer-based decoders, particularly in more complex scenes, and exhibits superior unsupervised compositional generation quality. In addition, we conduct a preliminary investigation into the integration of pre-trained diffusion models in LSD and demonstrate its effectiveness in real-world image segmentation and generation. Project page is available at https://latentslotdiffusion.github.io | 翻訳日:2023-11-02 03:45:45 公開日:2023-10-31 |
# GLEN:数千の型に対する汎用イベント検出 GLEN: General-Purpose Event Detection for Thousands of Types ( http://arxiv.org/abs/2303.09093v3 ) ライセンス: Link先を確認 | Qiusi Zhan, Sha Li, Kathryn Conger, Martha Palmer, Heng Ji, Jiawei Han | (参考訳) イベント抽出研究の進展は、広範囲の大規模データセットがないために妨げられている。
イベント抽出システムをより使いやすくするために、汎用のイベント検出データセットglenを構築し、これは205kのイベント参照を3,465の異なる型でカバーし、現在の最大のイベントデータセットよりもオントロジーで20倍以上大きいものにします。
GLENはDWD Overlayを利用して作成され、Wikidata QnodesとPropBankのロールセット間のマッピングを提供する。
これにより、PropBankの豊富なアノテーションを遠隔監視として利用することができます。
さらに,GLENの大きなオントロジーサイズを扱うために設計された,多段階イベント検出モデルCEDARを提案する。
本モデルはinstructgptを含む各種ベースラインと比較して優れた性能を示す。
最後に、エラー解析を行い、新しいデータセットのパフォーマンスを改善する上で、ラベルノイズが依然として最大の課題であることを示す。
我々のデータセット、コード、モデルは \url{https://github.com/ZQS 1943/GLEN} でリリースされます。
} The progress of event extraction research has been hindered by the absence of wide-coverage, large-scale datasets. To make event extraction systems more accessible, we build a general-purpose event detection dataset GLEN, which covers 205K event mentions with 3,465 different types, making it more than 20x larger in ontology than today's largest event dataset. GLEN is created by utilizing the DWD Overlay, which provides a mapping between Wikidata Qnodes and PropBank rolesets. This enables us to use the abundant existing annotation for PropBank as distant supervision. In addition, we also propose a new multi-stage event detection model CEDAR specifically designed to handle the large ontology size in GLEN. We show that our model exhibits superior performance compared to a range of baselines including InstructGPT. Finally, we perform error analysis and show that label noise is still the largest challenge for improving performance for this new dataset. Our dataset, code, and models are released at \url{https://github.com/ZQS1943/GLEN}.} | 翻訳日:2023-11-02 03:44:59 公開日:2023-10-31 |
# 暗黒における拡散:低光度テキスト認識のための拡散モデル Diffusion in the Dark: A Diffusion Model for Low-Light Text Recognition ( http://arxiv.org/abs/2303.04291v2 ) ライセンス: Link先を確認 | Cindy M. Nguyen, Eric R. Chan, Alexander W. Bergman, Gordon Wetzstein | (参考訳) 画像のキャプチャは、シーンテキスト認識のようなハイレベルなタスクの自動化の重要な部分である。
低照度条件は、しばしばよく照らされたアーティファクトフリーな画像に最適化された高レベルの知覚スタックにとって課題となる。
低照度画像の再構成手法は、よく照らされた画像を生成するが、通常は下流タスクにとって重要な周波数詳細のコストがかかる。
テキスト認識のための低照度画像再構成のための拡散モデルであるDiffusion in the Dark (DiD)を提案する。
DiDは最先端のSOTA (State-of-the-art) と定性的に競合する再構築を提供し、非常にノイズの多い暗黒条件でも高周波の詳細を保存できる。
実画像上での低照度テキスト認識におけるSOTAの低照度手法を,タスク固有の最適化を伴わずに実現し,不適切な逆問題に対する拡散モデルの可能性を高めることを実証した。 Capturing images is a key part of automation for high-level tasks such as scene text recognition. Low-light conditions pose a challenge for high-level perception stacks, which are often optimized on well-lit, artifact-free images. Reconstruction methods for low-light images can produce well-lit counterparts, but typically at the cost of high-frequency details critical for downstream tasks. We propose Diffusion in the Dark (DiD), a diffusion model for low-light image reconstruction for text recognition. DiD provides qualitatively competitive reconstructions with that of state-of-the-art (SOTA), while preserving high-frequency details even in extremely noisy, dark conditions. We demonstrate that DiD, without any task-specific optimization, can outperform SOTA low-light methods in low-light text recognition on real images, bolstering the potential of diffusion models to solve ill-posed inverse problems. | 翻訳日:2023-11-02 03:43:35 公開日:2023-10-31 |
# SALSA PICANTE: バイナリシークレットを持つLWEに対する機械学習攻撃 SALSA PICANTE: a machine learning attack on LWE with binary secrets ( http://arxiv.org/abs/2303.04178v4 ) ライセンス: Link先を確認 | Cathy Li, Jana Sot\'akov\'a, Emily Wenger, Mohamed Malhou, Evrard Garcelon, Francois Charton, Kristin Lauter | (参考訳) learning with error (lwe) は、量子後暗号 (pqc) システムの多くを支える難しい数学問題である。
NISTによって標準化された唯一のPQC鍵交換機構(KEM)はモジュール~LWEに基づいており、現在公開されているPQホモモルフィック暗号化(HE)ライブラリはリングLWEに基づいている。
LWEベースのPQ暗号システムのセキュリティは重要であるが、特定の実装選択はそれらを弱める可能性がある。
そのような選択の1つは疎二項秘密であり、効率上の理由からPQ HEスキームに望ましい。
以前の作業であるSALSAは、小さな次元(n \le 128$)と低いハミング重量(h \le 4$)の少ないバイナリシークレットによるLWEに対する機械学習ベースの攻撃をデモした。
しかし、この攻撃は数百万の盗聴されたLWEサンプルへのアクセスを前提としており、ハミング級の重量や寸法で失敗する。
PICANTEは、LWEに対する強化された機械学習攻撃であり、より大きな次元(最大$n=350$)で秘密を回復し、より大きなハミング重み(約$n/10$、最大$n=350$)を持つ。
この劇的な改善は、新しい前処理のステップによって達成され、複数のeavesdroped LWEサンプル(4n$)からトレーニングデータを生成し、データ分布を変更してトランスフォーマートレーニングを改善することができる。
また,SALSAのシークレットリカバリ手法の改良や,トレーニングされたモデルから直接シークレットを読み取るための新しいクロスアテンションリカバリ機構を導入する。
PICANTEは、NISTが提案したLWE標準を脅かすものではないが、SALSAよりも大幅に改善され、さらに拡張可能であることを示し、スパースバイナリシークレットによるLWEに対する機械学習攻撃に関する将来の調査の必要性を強調している。 Learning with Errors (LWE) is a hard math problem underpinning many proposed post-quantum cryptographic (PQC) systems. The only PQC Key Exchange Mechanism (KEM) standardized by NIST is based on module~LWE, and current publicly available PQ Homomorphic Encryption (HE) libraries are based on ring LWE. The security of LWE-based PQ cryptosystems is critical, but certain implementation choices could weaken them. One such choice is sparse binary secrets, desirable for PQ HE schemes for efficiency reasons. Prior work, SALSA, demonstrated a machine learning-based attack on LWE with sparse binary secrets in small dimensions ($n \le 128$) and low Hamming weights ($h \le 4$). However, this attack assumes access to millions of eavesdropped LWE samples and fails at higher Hamming weights or dimensions. We present PICANTE, an enhanced machine learning attack on LWE with sparse binary secrets, which recovers secrets in much larger dimensions (up to $n=350$) and with larger Hamming weights (roughly $n/10$, and up to $h=60$ for $n=350$). We achieve this dramatic improvement via a novel preprocessing step, which allows us to generate training data from a linear number of eavesdropped LWE samples ($4n$) and changes the distribution of the data to improve transformer training. We also improve the secret recovery methods of SALSA and introduce a novel cross-attention recovery mechanism allowing us to read off the secret directly from the trained models. While PICANTE does not threaten NIST's proposed LWE standards, it demonstrates significant improvement over SALSA and could scale further, highlighting the need for future investigation into machine learning attacks on LWE with sparse binary secrets. | 翻訳日:2023-11-02 03:43:18 公開日:2023-10-31 |
# あなたの表現はネットワークの中にある:大規模モデルに対する構成可能および並列適応 Your representations are in the network: composable and parallel adaptation for large scale models ( http://arxiv.org/abs/2303.04105v2 ) ライセンス: Link先を確認 | Yonatan Dukler, Alessandro Achille, Hao Yang, Varsha Vivek, Luca Zancato, Benjamin Bowman, Avinash Ravichandran, Charless Fowlkes, Ashwin Swaminathan, Stefano Soatto | (参考訳) 本稿では,事前学習モデルの任意のアクティベーション層にクロスタッチする,軽量なトランスファー学習手法であるincaを提案する。
トレーニング中、InCAは単一のフォワードパスを使用して複数のアクティベーションを抽出し、外部のクロスアテンションアダプタに渡され、新たなトレーニングと組み合わせ、あるいは下流タスクのために選択される。
InCAは1つのトップスコーリングアダプタを選択しても、最終層のみの微調整に匹敵するコストで、完全な微調整に匹敵するパフォーマンスを達成する。
例えば、事前訓練されたViT-L/16モデルの1.3%の大きさのクロスアテンションプローブを用いて、平均11下流の分類において、ベースラインの51%の計算訓練コストでフル微調整パラゴンの0.2%以内のパフォーマンスを達成する。
他の効率的な適応形式とは異なり、InCAは事前訓練されたモデルを通してバックプロパゲートを必要としないため、トレーニングと推論の両方でその実行は変更されない。
InCAの汎用性は、最終層にないが中間層アクティベーションでアクセス可能な情報にアクセスする必要がある、きめ細かいタスクにおいて最もよく示される。
バックボーンが固定されているため、InCAは並列アンサンブルと複数のタスクの並列実行を可能にする。
InCAはImageNet-to-Sketchマルチタスクベンチマークで最先端のパフォーマンスを実現している。 We propose InCA, a lightweight method for transfer learning that cross-attends to any activation layer of a pre-trained model. During training, InCA uses a single forward pass to extract multiple activations, which are passed to external cross-attention adapters, trained anew and combined or selected for downstream tasks. We show that, even when selecting a single top-scoring adapter, InCA achieves performance comparable to full fine-tuning, at a cost comparable to fine-tuning just the last layer. For example, with a cross-attention probe 1.3% the size of a pre-trained ViT-L/16 model, we achieve performance within 0.2% of the full fine-tuning paragon at a computational training cost of 51% of the baseline, on average across 11 downstream classification. Unlike other forms of efficient adaptation, InCA does not require backpropagating through the pre-trained model, thus leaving its execution unaltered at both training and inference. The versatility of InCA is best illustrated in fine-grained tasks, which may require accessing information absent in the last layer but accessible in intermediate layer activations. Since the backbone is fixed, InCA allows parallel ensembling as well as parallel execution of multiple tasks. InCA achieves state-of-the-art performance in the ImageNet-to-Sketch multi-task benchmark. | 翻訳日:2023-11-02 03:42:37 公開日:2023-10-31 |
# 視覚変換を表現する学習のための極性予測モデル A polar prediction model for learning to represent visual transformations ( http://arxiv.org/abs/2303.03432v2 ) ライセンス: Link先を確認 | Pierre-\'Etienne H. Fiquet, Eero P. Simoncelli | (参考訳) 全ての生物は時間的予測を行い、その進化的適合度はこれらの予測の精度に依存する。
視覚的知覚の文脈では、シーン内のオブザーバとオブジェクトの両方の動きは感覚信号のダイナミクスを構造化し、過去の信号に基づいて将来の信号の一部を予測することができる。
本稿では,自然映像の正則性を抽出・活用し,正確な予測を行う自己教師付き表現学習フレームワークを提案する。
我々は、フーリエシフト定理とその群論的一般化に訴え、極性アーキテクチャを動機付け、そのパラメータを次のフレーム予測に最適化する。
制御された実験を通じて、このアプローチがデータに作用する単純な変換群の表現を発見できることを実証する。
自然なビデオデータセットでトレーニングすると、従来のモーション補償や従来のディープネットワークよりも優れた予測性能を達成し、解釈性と速度を維持します。
さらに、極性計算は、霊長類V1ニューロンの正常化された単純および方向選択的複合細胞モデルに似たコンポーネントに再構成することができる。
このように極性予測は、視覚システムが時間的予測を単純化する形で感覚入力をどのように表現するかを理解するための原則化された枠組みを提供する。 All organisms make temporal predictions, and their evolutionary fitness level depends on the accuracy of these predictions. In the context of visual perception, the motions of both the observer and objects in the scene structure the dynamics of sensory signals, allowing for partial prediction of future signals based on past ones. Here, we propose a self-supervised representation-learning framework that extracts and exploits the regularities of natural videos to compute accurate predictions. We motivate the polar architecture by appealing to the Fourier shift theorem and its group-theoretic generalization, and we optimize its parameters on next-frame prediction. Through controlled experiments, we demonstrate that this approach can discover the representation of simple transformation groups acting in data. When trained on natural video datasets, our framework achieves better prediction performance than traditional motion compensation and rivals conventional deep networks, while maintaining interpretability and speed. Furthermore, the polar computations can be restructured into components resembling normalized simple and direction-selective complex cell models of primate V1 neurons. Thus, polar prediction offers a principled framework for understanding how the visual system represents sensory inputs in a form that simplifies temporal prediction. | 翻訳日:2023-11-02 03:42:13 公開日:2023-10-31 |
# n$-光子駆動量子非線形共振器における散逸相転移 Dissipative phase transitions in $n$-photon driven quantum nonlinear resonators ( http://arxiv.org/abs/2303.03355v2 ) ライセンス: Link先を確認 | Fabrizio Minganti, Vincenzo Savona, and Alberto Biella | (参考訳) n$-photon 駆動と散逸を受ける非線形光子共振器における有限成分散逸相遷移(dpts)の発生を解析・特性評価した。
半古典的アプローチを実施すれば、このクラスのシステムにおける二階DPTの発生に関する一般的な結果が得られる。
すべての奇数$n$に対して、2階のDPTは発生せず、一方、n$であっても、高階の非線形性の間の競合は臨界性の性質を決定し、2階のDPTは$n=2$と$n=4$でしか発生しないことを示す。
重要な例として、3光子および4光子駆動散逸型kerr共振器の完全な量子力学を研究し、遷移の性質に関する半古典的解析の予測を確認した。
真空の安定性と異なる位相にアクセスするのに必要な典型的な時間スケールについても論じる。
また、ゼロ、低、高光子数に複数の解が出現する1次DPTを示す。
この結果は, 量子センシングや情報処理における問題に適用可能な, 駆動散逸系における高次非線形過程の影響を研究するための, リウヴィリアの枠組みを提供することにより, 臨界行動の引き金となる強い対称性と弱い対称性によってもたらされる重要な役割を強調した。 We investigate and characterize the emergence of finite-component dissipative phase transitions (DPTs) in nonlinear photon resonators subject to $n$-photon driving and dissipation. Exploiting a semiclassical approach, we derive general results on the occurrence of second-order DPTs in this class of systems. We show that for all odd $n$, no second-order DPT can occur while, for even $n$, the competition between higher-order nonlinearities determines the nature of the criticality and allows for second-order DPTs to emerge only for $n=2$ and $n=4$. As pivotal examples, we study the full quantum dynamics of three- and four-photon driven-dissipative Kerr resonators, confirming the prediction of the semiclassical analysis on the nature of the transitions. The stability of the vacuum and the typical timescales needed to access the different phases are also discussed. We also show a first-order DPT where multiple solutions emerge around zero, low, and high-photon numbers. Our results highlight the crucial role played by strong and weak symmetries in triggering critical behaviors, providing a Liouvillian framework to study the effects of high-order nonlinear processes in driven-dissipative systems, that can be applied to problems in quantum sensing and information processing. | 翻訳日:2023-11-02 03:41:53 公開日:2023-10-31 |
# 大規模言語モデルから特殊化符号能力の抽出について:可能性スタディ On Extracting Specialized Code Abilities from Large Language Models: A Feasibility Study ( http://arxiv.org/abs/2303.03012v4 ) ライセンス: Link先を確認 | Zongjie Li, Chaozheng Wang, Pingchuan Ma, Chaowei Liu, Shuai Wang, Daoyuan Wu, Cuiyun Gao, Yang Liu | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学における彼らの使用を著しく向上させた。
しかしながら、うまく機能するllmのトレーニングには、データ収集とアノテーションにかなりの労力を要する。
さらに、トレーニングデータセットはプロプライエタリあるいは部分的にオープンであり、プロセスにはコストのかかるGPUクラスタが必要になることが多い。
商用llmの知的財産価値は、模倣攻撃のターゲットとして魅力的なものであるが、同等のパラメータを持つ模倣モデルの作成には依然として高いコストがかかる。
これにより,中型バックボーンモデルを用いた商用ブラックボックスLCMのスライシングという,実用的で斬新な方向性を探求する動機となった。
本稿では,LLMに模倣攻撃を仕掛けて,コード合成やコード翻訳などの特殊なコード抽出能力を実現する可能性について検討する。
我々は、ゼロショット、インコンテキスト、Chain-of-Thoughtを含む複数のクエリスキームを用いて、異なるコード関連タスク下でコード能力抽出攻撃を起動する効果を体系的に検討する。
また,出力を洗練するために応答チェックも設計し,効果的な模倣訓練プロセスを実現する。
この結果から,適切なクエリ数で,攻撃者が中規模のバックボーンモデルをトレーニングして,ターゲットのLDMと同じような特殊なコード動作を再現できることが示唆された。
本研究は,LLMに対する逆コード例を生成するための実用的な攻撃面を明らかにすることを含む,模倣攻撃による脅威をより深く理解するための知見と知見を要約する。 Recent advances in large language models (LLMs) significantly boost their usage in software engineering. However, training a well-performing LLM demands a substantial workforce for data collection and annotation. Moreover, training datasets may be proprietary or partially open, and the process often requires a costly GPU cluster. The intellectual property value of commercial LLMs makes them attractive targets for imitation attacks, but creating an imitation model with comparable parameters still incurs high costs. This motivates us to explore a practical and novel direction: slicing commercial black-box LLMs using medium-sized backbone models. In this paper, we explore the feasibility of launching imitation attacks on LLMs to extract their specialized code abilities, such as"code synthesis" and "code translation." We systematically investigate the effectiveness of launching code ability extraction attacks under different code-related tasks with multiple query schemes, including zero-shot, in-context, and Chain-of-Thought. We also design response checks to refine the outputs, leading to an effective imitation training process. Our results show promising outcomes, demonstrating that with a reasonable number of queries, attackers can train a medium-sized backbone model to replicate specialized code behaviors similar to the target LLMs. We summarize our findings and insights to help researchers better understand the threats posed by imitation attacks, including revealing a practical attack surface for generating adversarial code examples against LLMs. | 翻訳日:2023-11-02 03:41:28 公開日:2023-10-31 |
# 入射バイアスの二重刃刀:ReLUネットワークにおける一般化対ロバストネス The Double-Edged Sword of Implicit Bias: Generalization vs. Robustness in ReLU Networks ( http://arxiv.org/abs/2303.01456v2 ) ライセンス: Link先を確認 | Spencer Frei and Gal Vardi and Peter L. Bartlett and Nathan Srebro | (参考訳) 本研究では,ReLUネットワークにおける勾配流の暗黙的バイアスが一般化と対角ロバスト性に与える影響について検討する。
我々は,クラスタを構成するデータとクラスタ平均間の相関が小さい設定に注目し,2層reluネットワークでは勾配フローが一般化する解に対して偏っているが,逆の例には非常に弱いことを示す。
ネットワークがトレーニング例よりも多くのパラメータを持つ場合にも結果が得られます。
このような過パラメータ設定において有害な過剰フィッティングの可能性にもかかわらず、勾配流の暗黙のバイアスがそれを防ぐことを証明している。
しかし、暗黙のバイアスは、データに適合するロバストなネットワークが存在するにもかかわらず、非ロバスト解(小さな敵である$\ell_2$-perturbation)につながる。 In this work, we study the implications of the implicit bias of gradient flow on generalization and adversarial robustness in ReLU networks. We focus on a setting where the data consists of clusters and the correlations between cluster means are small, and show that in two-layer ReLU networks gradient flow is biased towards solutions that generalize well, but are highly vulnerable to adversarial examples. Our results hold even in cases where the network has many more parameters than training examples. Despite the potential for harmful overfitting in such overparameterized settings, we prove that the implicit bias of gradient flow prevents it. However, the implicit bias also leads to non-robust solutions (susceptible to small adversarial $\ell_2$-perturbations), even though robust networks that fit the data exist. | 翻訳日:2023-11-02 03:41:03 公開日:2023-10-31 |
# 多様体学習におけるno-collision transportation mapsの応用 Applications of No-Collision Transportation Maps in Manifold Learning ( http://arxiv.org/abs/2304.00199v3 ) ライセンス: Link先を確認 | Elisa Negrini and Levon Nurbekyan | (参考訳) 本研究では,[Nurbekyan et. al., 2020]で導入された非衝突輸送マップの画像データの多様体学習への応用について検討する。
近年,移動や変形などの現象を表すデータに対して,移動距離や特徴を応用する動きが急増している。
実際、固定位置での強度を比較することは、しばしばデータ構造を明らかにしない。
no-collision map and distances in (nurbekyan et. al., 2020) は最適輸送 (ot) マップに似た幾何学的特徴に敏感であるが、最適化の欠如により計算が容易である。
本研究では,非衝突距離が単一確率測度の変換(相対的拡張)とユークリッド距離を備えた変換(相対的拡張)ベクトルとの間の等距離を与えることを示す。
さらに、非衝突輸送写像とOTおよび線形化OT写像が一般に回転の等尺性を提供していないことを証明した。
数値実験により,非衝突距離は計算コストのごく一部で他のot法やユークリッド法と比較して,いくつかの多様体学習タスクにおいて類似あるいは良好な性能が得られることが示された。 In this work, we investigate applications of no-collision transportation maps introduced in [Nurbekyan et. al., 2020] in manifold learning for image data. Recently, there has been a surge in applying transportation-based distances and features for data representing motion-like or deformation-like phenomena. Indeed, comparing intensities at fixed locations often does not reveal the data structure. No-collision maps and distances developed in [Nurbekyan et. al., 2020] are sensitive to geometric features similar to optimal transportation (OT) maps but much cheaper to compute due to the absence of optimization. In this work, we prove that no-collision distances provide an isometry between translations (respectively dilations) of a single probability measure and the translation (respectively dilation) vectors equipped with a Euclidean distance. Furthermore, we prove that no-collision transportation maps, as well as OT and linearized OT maps, do not in general provide an isometry for rotations. The numerical experiments confirm our theoretical findings and show that no-collision distances achieve similar or better performance on several manifold learning tasks compared to other OT and Euclidean-based methods at a fraction of a computational cost. | 翻訳日:2023-11-02 03:33:09 公開日:2023-10-31 |
# シングルRGBカメラからの人間と物体のインタラクション追跡の可視性 Visibility Aware Human-Object Interaction Tracking from Single RGB Camera ( http://arxiv.org/abs/2303.16479v2 ) ライセンス: Link先を確認 | Xianghui Xie and Bharat Lal Bhatnagar and Gerard Pons-Moll | (参考訳) 人間と環境の相互作用を3dで捉えることは、ロボット工学、グラフィックス、視覚学の多くの応用において重要である。
一つのRGB画像から3次元人間と物体を再構成する最近の研究は、固定深度を仮定するため、フレーム間の相対変換が一貫しない。
さらに、オブジェクトがオクルードされるとパフォーマンスが大幅に低下する。
本研究では,1台のrgbカメラから3次元人物,物体,物体との接触,フレーム間の相対的変換を追跡する新しい手法を提案する。
我々の手法は2つの重要な洞察に基づいている。
まず、ビデオシーケンスにSMPLを予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。
これにより、神経再構成の精度が向上し、フレーム間のコヒーレントな相対変換が生成される。
第二に、目に見えるフレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。
本研究では,物体の視認性と人間の動きを明示的に利用し,隣接フレームを用いてオクルードフレームの予測を行う,トランスフォーマーベースのニューラルネットを提案する。
これらの知見に基づいて,本手法は,隠蔽下であっても,人間と物体の両方を頑健に追跡することができる。
2つのデータセットの実験により,本手法は最先端の手法よりも大幅に改善されていることが示された。
私たちのコードと事前トレーニングされたモデルは、https://virtualhumans.mpi-inf.mpg.de/vistrackerで利用可能です。 Capturing the interactions between humans and their environment in 3D is important for many applications in robotics, graphics, and vision. Recent works to reconstruct the 3D human and object from a single RGB image do not have consistent relative translation across frames because they assume a fixed depth. Moreover, their performance drops significantly when the object is occluded. In this work, we propose a novel method to track the 3D human, object, contacts between them, and their relative translation across frames from a single RGB camera, while being robust to heavy occlusions. Our method is built on two key insights. First, we condition our neural field reconstructions for human and object on per-frame SMPL model estimates obtained by pre-fitting SMPL to a video sequence. This improves neural reconstruction accuracy and produces coherent relative translation across frames. Second, human and object motion from visible frames provides valuable information to infer the occluded object. We propose a novel transformer-based neural network that explicitly uses object visibility and human motion to leverage neighbouring frames to make predictions for the occluded frames. Building on these insights, our method is able to track both human and object robustly even under occlusions. Experiments on two datasets show that our method significantly improves over the state-of-the-art methods. Our code and pretrained models are available at: https://virtualhumans.mpi-inf.mpg.de/VisTracker | 翻訳日:2023-11-02 03:30:55 公開日:2023-10-31 |
# 情報最大化カリキュラム: 多様なスキルを模倣するためのカリキュラムベースアプローチ Information Maximizing Curriculum: A Curriculum-Based Approach for Imitating Diverse Skills ( http://arxiv.org/abs/2303.15349v2 ) ライセンス: Link先を確認 | Denis Blessing, Onur Celik, Xiaogang Jia, Moritz Reuss, Maximilian Xiling Li, Rudolf Lioutikov, Gerhard Neumann | (参考訳) 模倣学習は、複雑なタスクを解決するためにトレーニングポリシーにデータを使用する。
しかしながら、トレーニングデータが人間のデモレーターから収集されると、人間の行動の多様性のため、しばしばマルチモーダルな分布につながる。
ほとんどの模倣学習法は、パラメータ化されたポリシーを学習するために、最大可能性(ML)の目的に依存しているが、これはMLの目的のモードを持つ性質によって、最適または安全でない振る舞いをもたらす可能性がある。
本研究では,各データポイントに重みを割り当て,モデルが表現可能なデータに特化することを奨励するカリキュラムベースの手法である情報最大化カリキュラムを提案する。
すべてのモードをカバーするため、多様な振る舞いを可能にするために、我々は、それぞれの混合コンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する専門家(moe)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために、データ分散内のすべてのモードを包含する、新しい、最大エントロピーベースの目的が提案されている。
本研究では,多種多様な人間の実演を用いた複雑なシミュレーション制御タスクに対するアプローチの有効性を示す。 Imitation learning uses data for training policies to solve complex tasks. However, when the training data is collected from human demonstrators, it often leads to multimodal distributions because of the variability in human actions. Most imitation learning methods rely on a maximum likelihood (ML) objective to learn a parameterized policy, but this can result in suboptimal or unsafe behavior due to the mode-averaging property of the ML objective. In this work, we propose Information Maximizing Curriculum, a curriculum-based approach that assigns a weight to each data point and encourages the model to specialize in the data it can represent, effectively mitigating the mode-averaging problem by allowing the model to ignore data from modes it cannot represent. To cover all modes and thus, enable diverse behavior, we extend our approach to a mixture of experts (MoE) policy, where each mixture component selects its own subset of the training data for learning. A novel, maximum entropy-based objective is proposed to achieve full coverage of the dataset, thereby enabling the policy to encompass all modes within the data distribution. We demonstrate the effectiveness of our approach on complex simulated control tasks using diverse human demonstrations, achieving superior performance compared to state-of-the-art methods. | 翻訳日:2023-11-02 03:30:23 公開日:2023-10-31 |
# バイオメトリック品質評価アルゴリズムの評価に関する一考察 Considerations on the Evaluation of Biometric Quality Assessment Algorithms ( http://arxiv.org/abs/2303.13294v4 ) ライセンス: Link先を確認 | Torsten Schlett, Christian Rathgeb, Juan Tapia, Christoph Busch | (参考訳) 品質評価アルゴリズムを用いて生体認証のための生体試料の有用性を推定することができる。
曲線の「誤差対ディスク特性」(EDC)プロットと「部分曲線」(pAUC)値は、一般に研究者によってそのような品質評価アルゴリズムの予測性能を評価するために用いられる。
EDC曲線は、"False Non Match Rate"(FNMR)、品質評価アルゴリズム、生体認証システム、生体サンプルペアに対応する比較セット、開始誤差に対応するスコア閾値などのエラータイプに依存する。
EDC曲線を計算するために、関連するサンプルの最低品質スコアに基づいて段階的に比較を破棄し、残りの比較に対して誤差を算出する。
さらに、pAUC値を計算するために、廃棄分数制限または範囲を選択する必要があり、それによって品質評価アルゴリズムを定量的にランク付けすることができる。
本稿では,この品質評価アルゴリズムの評価について,一般edc特性,難解な誤差限度とソフトアッパー誤差限度に基づくpauc値の解釈性の向上,離散ランキングではなく相対値の使用,ステップワイズ対線形曲線補間,[0,100]整数領域における品質スコアの正規化など,様々な詳細を考察し,解析する。
また, pAUC の分数制限と開始誤差にまたがる pAUC の値に基づいて, pAUC の量的品質評価アルゴリズムのランク付けの安定性を解析し, より高い分数制限が望ましいと結論付けた。
edc評価のための一般モダリティ非依存的な結論に着目し,合成データと実顔画像と指紋データの両方を用いて解析を行った。
様々なEDC代替案も議論されている。 Quality assessment algorithms can be used to estimate the utility of a biometric sample for the purpose of biometric recognition. "Error versus Discard Characteristic" (EDC) plots, and "partial Area Under Curve" (pAUC) values of curves therein, are generally used by researchers to evaluate the predictive performance of such quality assessment algorithms. An EDC curve depends on an error type such as the "False Non Match Rate" (FNMR), a quality assessment algorithm, a biometric recognition system, a set of comparisons each corresponding to a biometric sample pair, and a comparison score threshold corresponding to a starting error. To compute an EDC curve, comparisons are progressively discarded based on the associated samples' lowest quality scores, and the error is computed for the remaining comparisons. Additionally, a discard fraction limit or range must be selected to compute pAUC values, which can then be used to quantitatively rank quality assessment algorithms. This paper discusses and analyses various details for this kind of quality assessment algorithm evaluation, including general EDC properties, interpretability improvements for pAUC values based on a hard lower error limit and a soft upper error limit, the use of relative instead of discrete rankings, stepwise vs. linear curve interpolation, and normalisation of quality scores to a [0, 100] integer range. We also analyse the stability of quantitative quality assessment algorithm rankings based on pAUC values across varying pAUC discard fraction limits and starting errors, concluding that higher pAUC discard fraction limits should be preferred. The analyses are conducted both with synthetic data and with real face image and fingerprint data, with a focus on general modality-independent conclusions for EDC evaluations. Various EDC alternatives are discussed as well. | 翻訳日:2023-11-02 03:29:42 公開日:2023-10-31 |
# 量子チャネルの資源依存的複雑性 Resource-Dependent Complexity of Quantum Channels ( http://arxiv.org/abs/2303.11304v3 ) ライセンス: Link先を確認 | Roy Araiza, Yidong Chen, Marius Junge and Peixue Wu | (参考訳) 量子複雑性理論は、量子システムや量子演算を構築するのに必要な基本的な量子資源の量に関するものである。
量子複雑性の基本的な問題は、適切な複雑性測度を定義し、定量化することである。
この非自明な疑問は、量子情報科学者、コンピュータ科学者、高エネルギー物理学者の注目を集めている。
本稿では,非可換幾何学の確立した手法である \cite{lbkjl} のアプローチと,非可換幾何学の確立したツールを組み合わせて,一般量子チャネルの\textit{resource-dependent complexity measures of general quantum channels} の統一フレームワークを提案する。
この枠組みは、開および閉量子系の複雑さを研究するのに適している。
本論文の例の中心的なクラスは、 \cite{lbkjl, pmtl} で導入されたいわゆる \textit{wasserstein complexity} である。
我々は幾何学的手法を用いて、このクラスの複雑性測度 \cite{N1,N2,N3} の上下境界を与える。
最後に、ランダム量子回路のリプシッツ複雑性と有限次元設定における開量子システムのダイナミクスについて研究する。
特に、一般に複雑性は \textit{return time} よりも前に線形に増加することを示す。
これはBrown と Susskind \cite{BS1,BS2} による定性的行動予想と同じである。
また、線形成長が成立しない無限次元の例も提示する。 Quantum complexity theory is concerned with the amount of elementary quantum resources needed to build a quantum system or a quantum operation. The fundamental question in quantum complexity is to define and quantify suitable complexity measures. This non-trivial question has attracted the attention of quantum information scientists, computer scientists, and high energy physicists alike. In this paper, we combine the approach in \cite{LBKJL} and well-established tools from noncommutative geometry \cite{AC, MR, CS} to propose a unified framework for \textit{resource-dependent complexity measures of general quantum channels}, also known as \textit{Lipschitz complexity}. This framework is suitable to study the complexity of both open and closed quantum systems. The central class of examples in this paper is the so-called \textit{Wasserstein complexity} introduced in \cite{LBKJL, PMTL}. We use geometric methods to provide upper and lower bounds on this class of complexity measures \cite{N1,N2,N3}. Finally, we study the Lipschitz complexity of random quantum circuits and dynamics of open quantum systems in finite dimensional setting. In particular, we show that generically the complexity grows linearly in time before the \textit{return time}. This is the same qualitative behavior conjecture by Brown and Susskind \cite{BS1, BS2}. We also provide an infinite dimensional example where linear growth does not hold. | 翻訳日:2023-11-02 03:28:29 公開日:2023-10-31 |
# robopianist: 深層強化学習によるデクスタースピアノ演奏 RoboPianist: Dexterous Piano Playing with Deep Reinforcement Learning ( http://arxiv.org/abs/2304.04150v2 ) ライセンス: Link先を確認 | Kevin Zakka, Philipp Wu, Laura Smith, Nimrod Gileadi, Taylor Howell, Xue Bin Peng, Sumeet Singh, Yuval Tassa, Pete Florence, Andy Zeng, Pieter Abbeel | (参考訳) ロボットの手で人間のようなデクスタリティを再現することは、ロボティクスにおける最大のオープン問題の1つだ。
強化学習は、ここ数年で目覚ましい進歩を遂げた有望なアプローチであるが、一般的に対処してきた問題の種類は、人間の能力と比較して、かなり狭いデクスタリティの定義に対応している。
このギャップに対処するために,高次元制御をテストする手段として,人間の能力限界にも挑戦するピアノ演奏法と,高い空間的・時間的精度と複雑な指の協調と計画が必要となる技術について検討する。
従来のモデルに基づく最適化に苦しむ150曲のピアノ曲の広範なレパートリーをシミュレートした擬人化手が学べるシステムであるrobopianistを紹介する。
また,オープンソース環境,タスクのベンチマーク,解釈可能な評価指標,今後の研究課題についても紹介する。
ビデオ、コード、データセットを含む私たちのウェブサイトはhttps://kzakka.com/robopianist/で公開されている。 Replicating human-like dexterity in robot hands represents one of the largest open problems in robotics. Reinforcement learning is a promising approach that has achieved impressive progress in the last few years; however, the class of problems it has typically addressed corresponds to a rather narrow definition of dexterity as compared to human capabilities. To address this gap, we investigate piano-playing, a skill that challenges even the human limits of dexterity, as a means to test high-dimensional control, and which requires high spatial and temporal precision, and complex finger coordination and planning. We introduce RoboPianist, a system that enables simulated anthropomorphic hands to learn an extensive repertoire of 150 piano pieces where traditional model-based optimization struggles. We additionally introduce an open-sourced environment, benchmark of tasks, interpretable evaluation metrics, and open challenges for future study. Our website featuring videos, code, and datasets is available at https://kzakka.com/robopianist/ | 翻訳日:2023-11-02 03:20:12 公開日:2023-10-31 |
# 検索から生成へ:効率的かつ効果的なエンティティ集合の拡張 From Retrieval to Generation: Efficient and Effective Entity Set Expansion ( http://arxiv.org/abs/2304.03531v3 ) ライセンス: Link先を確認 | Shulin Huang, Shirong Ma, Yangning Li, Yinghui Li, Yong Jiang, Hai-Tao Zheng and Ying Shen | (参考訳) Entity Set Expansion(ESE)は、シードエンティティによって記述されるターゲットセマンティッククラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
この2つの目的を達成するために、コーパスとエンティティ語彙を反復的に横断し、効率とスケーラビリティが低下する。
実験結果から, 検索に基づくESE法で消費される時間は, 実体語彙やコーパスサイズとともに線形に増加することがわかった。
本稿では、まず、生成事前学習型自動回帰言語モデルを用いてESEタスクを実現する、生成エンティティセット拡張(GenExpan)フレームワークを提案する。
具体的には、エンティティ生成の妥当性を保証するためにプレフィックスツリーを使用し、自動的に生成されたクラス名を採用して、ターゲットエンティティを生成する。
さらに,言語モデルの一般的な知識とESEタスクの目標とのギャップを埋めるため,知識校正と生成ランク付けを提案する。
効率性のために、GenExpanが消費する拡張時間はエンティティ語彙とコーパスサイズとは独立であり、GenExpanは強いベースラインに比べて平均600%のスピードアップを達成する。
拡張効率を向上させるため,従来のESE手法よりも優れた性能を示す。 Entity Set Expansion (ESE) is a critical task aiming at expanding entities of the target semantic class described by seed entities. Most existing ESE methods are retrieval-based frameworks that need to extract contextual features of entities and calculate the similarity between seed entities and candidate entities. To achieve the two purposes, they iteratively traverse the corpus and the entity vocabulary, resulting in poor efficiency and scalability. Experimental results indicate that the time consumed by the retrieval-based ESE methods increases linearly with entity vocabulary and corpus size. In this paper, we firstly propose Generative Entity Set Expansion (GenExpan) framework, which utilizes a generative pre-trained auto-regressive language model to accomplish ESE task. Specifically, a prefix tree is employed to guarantee the validity of entity generation, and automatically generated class names are adopted to guide the model to generate target entities. Moreover, we propose Knowledge Calibration and Generative Ranking to further bridge the gap between generic knowledge of the language model and the goal of ESE task. For efficiency, expansion time consumed by GenExpan is independent of entity vocabulary and corpus size, and GenExpan achieves an average 600% speedup compared to strong baselines. For expansion effectiveness, our framework outperforms previous state-of-the-art ESE methods. | 翻訳日:2023-11-02 03:19:32 公開日:2023-10-31 |
# 有限レンジ格子モデルの転移行列の例外的超曲面とその量子輸送特性への影響 Exceptional hypersurfaces of transfer matrices of finite-range lattice models and their consequences on quantum transport properties ( http://arxiv.org/abs/2304.03250v2 ) ライセンス: Link先を確認 | Madhumita Saha, Manas Kulkarni, and Bijay Kumar Agarwalla | (参考訳) 有限次元格子モデルに対する非エルミート移動行列の例外超曲面上の例外点の出現と対応する性質について検討する。
非平衡定常状態における電気コンダクタンスのシステムサイズスケーリングを決定する上で、これらの例外点の非自明な役割を解明する。
我々は、系のバンドエッジは常に転送行列例外点に対応することを観測する。
興味深いことに、下層バンドエッジは常にウェーブベクトル $k=0$ で発生するが、上層バンドエッジは $k=\pi$ に対応しないかもしれない。
しかしながら、すべての場合において、このシステムは任意のバンドエッジにおける導電性に対する普遍的な部分拡散輸送を示し、スケーリング指数$N^{-b}$とスケーリング指数$b=2$である。
しかし、上部のバンドエッジが$k=\pi$でない場合、コンダクタンスは、全体的な$N^{-2}$スケールで興味深い振動を特徴とする。
さらに本研究は,最近傍の有限領域ホッピングを考える場合,上帯域エッジにおける高次移動行列例外点を体系的に生成するのに一意に適していることを明らかにする。
バンドエッジ以外の特別な点が生じるが、興味深いことにこれらは異常な輸送を引き起こすことはない。 We investigate the emergence and corresponding nature of exceptional points located on exceptional hyper-surfaces of non-hermitian transfer matrices for finite-range one-dimensional lattice models. We unravel the non-trivial role of these exceptional points in determining the system size scaling of electrical conductance in non-equilibrium steady state. We observe that the band edges of the system always correspond to the transfer matrix exceptional points. Interestingly, albeit the lower band edge always occurs at wave-vector $k=0$, the upper band edge may or may not correspond to $k=\pi$. Nonetheless, in all the cases, the system exhibits universal subdiffusive transport for conductance at every band edge with scaling $N^{-b}$ with scaling exponent $b= 2$. However, for cases when the upper band edge is not located at $k=\pi$, the conductance features interesting oscillations with overall $N^{-2}$ scaling. Our work further reveals that this setup is uniquely suited to systematically generate higher order transfer matrix exceptional points at upper band edge when one considers finite range hoppings beyond nearest neighbour. Additional exceptional points other than those at band edges are shown to occur, although interestingly, these do not give rise to anomalous transport. | 翻訳日:2023-11-02 03:19:10 公開日:2023-10-31 |
# 多言語ニューラルマシン翻訳のパレートフロントについて On the Pareto Front of Multilingual Neural Machine Translation ( http://arxiv.org/abs/2304.03216v3 ) ライセンス: Link先を確認 | Liang Chen and Shuming Ma and Dongdong Zhang and Furu Wei and Baobao Chang | (参考訳) 本研究は,MNMT(Multilingual Neural Machine Translation)におけるサンプリング比によって,与えられた方向の性能がどう変化するかを検討する。
様々なモデルサイズ、データサイズ、言語方向の200以上の多言語モデルをトレーニングすることで、特定の翻訳方向のパフォーマンスが、マルチタスク最適化目標の重み付けによって常に向上するとは限らないことが興味深い。
したがって、スカラー化方法は、トレーニングコーパスにデータ不均衡がある場合、従来のパレートフロントから逸脱するマルチタスクトレードオフフロントにつながり、すべての方向の全体的なパフォーマンスを改善するための大きな課題となる。
本研究は,MNMTにおけるユニークな性能トレードオフを予測するための二重電力法を提案し,各言語にまたがるロバスト性,データ妥当性,タスク数について検討した。
最後に,ダブルパワー則に基づく最適化問題として,mnmtのサンプル比選択問題を定式化する。
実験では, 総トレーニング予算の1/5から1/2程度で, 温度探索や勾配操作よりも優れた性能を実現する。
コードはhttps://github.com/pkunlp-icler/paretomnmtで公開しています。 In this work, we study how the performance of a given direction changes with its sampling ratio in Multilingual Neural Machine Translation (MNMT). By training over 200 multilingual models with various model sizes, data sizes, and language directions, we find it interesting that the performance of certain translation direction does not always improve with the increase of its weight in the multi-task optimization objective. Accordingly, scalarization method leads to a multitask trade-off front that deviates from the traditional Pareto front when there exists data imbalance in the training corpus, which poses a great challenge to improve the overall performance of all directions. Based on our observations, we propose the Double Power Law to predict the unique performance trade-off front in MNMT, which is robust across various languages, data adequacy, and the number of tasks. Finally, we formulate the sample ratio selection problem in MNMT as an optimization problem based on the Double Power Law. In our experiments, it achieves better performance than temperature searching and gradient manipulation methods with only 1/5 to 1/2 of the total training budget. We release the code at https://github.com/pkunlp-icler/ParetoMNMT for reproduction. | 翻訳日:2023-11-02 03:18:48 公開日:2023-10-31 |
# 高次元重尾特徴の分類--超統計学的アプローチ Classification of Heavy-tailed Features in High Dimensions: a Superstatistical Approach ( http://arxiv.org/abs/2304.02912v3 ) ライセンス: Link先を確認 | Urte Adomaityte, Gabriele Sicuro, Pierpaolo Vivo | (参考訳) 一般凸損失と凸正則化を前提に,高次元状態における経験的リスク最小化による2つのデータポイントと汎用セントロイドの混合学習を特徴付ける。
データポイントの各クラウドは、二重確率過程により取得され、サンプルは、分散自体がスカラー分布$\varrho$からサンプリングされたランダムパラメータであるガウス分布から得られる。
その結果,共分散を伴わないパワー・ロー・テール分布の場合を含め,データ分布の大規模なファミリーを対象とし,近年の「ゲージ普遍性」を検証できることを示した。
得られた推定器の一般化性能を調査し,正規化の役割を分析し,分離性遷移を解析的に特徴付ける。 We characterise the learning of a mixture of two clouds of data points with generic centroids via empirical risk minimisation in the high dimensional regime, under the assumptions of generic convex loss and convex regularisation. Each cloud of data points is obtained via a double-stochastic process, where the sample is obtained from a Gaussian distribution whose variance is itself a random parameter sampled from a scalar distribution $\varrho$. As a result, our analysis covers a large family of data distributions, including the case of power-law-tailed distributions with no covariance, and allows us to test recent "Gaussian universality" claims. We study the generalisation performance of the obtained estimator, we analyse the role of regularisation, and we analytically characterise the separability transition. | 翻訳日:2023-11-02 03:18:30 公開日:2023-10-31 |
# Prompt-Tuning を用いた会話課題の言語間移動学習の効率化 Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning ( http://arxiv.org/abs/2304.01295v3 ) ライセンス: Link先を確認 | Lifu Tu, Jin Qu, Semih Yavuz, Shafiq Joty, Wenhao Liu, Caiming Xiong, Yingbo Zhou | (参考訳) 英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクで広く研究されているが、会話タスクに焦点が当てられているのは比較的限られている。
これは、非英語の会話データを取得するコストが高いためであり、カバー範囲は限られている。
本稿では、英語のみのスキーマガイド対話(SGD)データセット(Rastogi et al., 2020)を105言語に翻訳することで、並列かつ大規模な多言語会話データセットである、言語間アライメント事前学習のためのXSGDを紹介する。
xsgdは言語毎に約330k発話を含む。
そこで我々は,アライメントプロンプトを学習する効率的なプロンプトチューニング手法を開発した。
また、NLIベースとバニラ分類器の2つの異なる分類器と、アライメントされたプロンプトによって可能となる言語間のテスト機能についても検討する。
我々は,2つの会話タスク(スロットフィルングとインテント分類)における言語横断的一般化能力を評価する。
提案手法は,NLIに基づく分類器のモデリング能力の強化と,アライメントプロンプトによる言語間移動の大幅な改善,特に数ショット設定において実現された。
また,テキストダヴィンチ003 や ChatGPT などの LLM と比較して,ゼロショット設定と少数ショット設定の両方で,アプローチの優れた結果を強調した。
LLMは英語で印象的な性能を示すが、他の言語、特に低リソース言語における言語間の能力は限られている。 Cross-lingual transfer of language models trained on high-resource languages like English has been widely studied for many NLP tasks, but focus on conversational tasks has been rather limited. This is partly due to the high cost of obtaining non-English conversational data, which results in limited coverage. In this work, we introduce XSGD for cross-lingual alignment pretraining, a parallel and large-scale multilingual conversation dataset that we created by translating the English-only Schema-Guided Dialogue (SGD) dataset (Rastogi et al., 2020) into 105 other languages. XSGD contains approximately 330k utterances per language. To facilitate aligned cross-lingual representations, we develop an efficient prompt-tuning-based method for learning alignment prompts. We also investigate two different classifiers: NLI-based and vanilla classifiers, and test cross-lingual capability enabled by the aligned prompts. We evaluate our model's cross-lingual generalization capabilities on two conversation tasks: slot-filling and intent classification. Our results demonstrate the strong and efficient modeling ability of NLI-based classifiers and the large cross-lingual transfer improvements achieved by our aligned prompts, particularly in few-shot settings. In addition, we highlight the nice results of our approach compared to LLMs such as text-davinci-003 and ChatGPT in both zero-shot and few-shot settings. While LLMs exhibit impressive performance in English, their cross-lingual capabilities in other languages, particularly low-resource languages, are limited. | 翻訳日:2023-11-02 03:16:51 公開日:2023-10-31 |
# Chameleon: 大きな言語モデルによるプラグインとプレイの合成推論 Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models ( http://arxiv.org/abs/2304.09842v3 ) ライセンス: Link先を確認 | Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao | (参考訳) 大規模言語モデル(llm)は、創発的推論能力により、様々な自然言語処理タスクの解決において著しく進歩した。
しかし、LCMには、最新の情報(Webやタスク固有の知識ベースに格納されている)にアクセスでき、外部ツールを使用して、正確な数学的および論理的推論を行うことができないため、固有の制限がある。
本稿では,合成推論のためのプラグイン・アンド・プレイモジュールによるllmの拡張により,これらの制限を緩和するaiシステムchameleonを提案する。
chameleonは複雑な推論タスクを実現するために、様々なツール(llms、既製のビジョンモデル、web検索エンジン、python関数、ヒューリスティックベースのモジュールなど)を合成する。
chameleonの中心にあるのは、llmベースのプランナで、実行ツールのシーケンスを組み立てて最終応答を生成する。
本稿では,マルチモーダルな知識集約推論タスクであるScienceQAとTabMWPにおけるChameleonの有効性を示す。
GPT-4を動力とするシャメレオンは、ScienceQAで86.54%の精度を達成し、最も優れた数枚の撮影結果が11.37%向上した。
TabMWPでは、GPT-4搭載のChameleonが精度を17.0%向上し、98.78%に向上した。
また,gpt-4を搭載したプランナーは,chatgptを使用したプランナーと比較して,命令から潜在的な制約を推測することで,より一貫性と合理的なツール選択を示す。
プロジェクトはhttps://chameleon-llm.github.ioで入手できる。 Large language models (LLMs) have achieved remarkable progress in solving various natural language processing tasks due to emergent reasoning abilities. However, LLMs have inherent limitations as they are incapable of accessing up-to-date information (stored on the Web or in task-specific knowledge bases), using external tools, and performing precise mathematical and logical reasoning. In this paper, we present Chameleon, an AI system that mitigates these limitations by augmenting LLMs with plug-and-play modules for compositional reasoning. Chameleon synthesizes programs by composing various tools (e.g., LLMs, off-the-shelf vision models, web search engines, Python functions, and heuristic-based modules) for accomplishing complex reasoning tasks. At the heart of Chameleon is an LLM-based planner that assembles a sequence of tools to execute to generate the final response. We showcase the effectiveness of Chameleon on two multi-modal knowledge-intensive reasoning tasks: ScienceQA and TabMWP. Chameleon, powered by GPT-4, achieves an 86.54% overall accuracy on ScienceQA, improving the best published few-shot result by 11.37%. On TabMWP, GPT-4-powered Chameleon improves the accuracy by 17.0%, lifting the state of the art to 98.78%. Our analysis also shows that the GPT-4-powered planner exhibits more consistent and rational tool selection via inferring potential constraints from instructions, compared to a ChatGPT-powered planner. The project is available at https://chameleon-llm.github.io. | 翻訳日:2023-11-02 03:07:14 公開日:2023-10-31 |
# テキスト生成におけるキーワードとその位置制御 Controlling keywords and their positions in text generation ( http://arxiv.org/abs/2304.09516v2 ) ライセンス: Link先を確認 | Yuichi Sasazawa, Terufumi Morishita, Hiroaki Ozaki, Osamu Imaichi, Yasuhiro Sogawa | (参考訳) テキスト生成の課題の1つは、ユーザが意図したテキスト生成を制御することである。
以前の研究では、生成されたテキストに含まれるべきキーワードを指定することを提案した。
しかし、このアプローチはユーザの意図を反映したテキストを生成するには不十分である。
例えば、テキストの先頭に重要なキーワードを置くことは読者の注意を引くのに役立つが、既存の方法ではそのような柔軟な制御はできない。
本稿では,テキスト生成におけるキーワードだけでなく,各キーワードの位置も制御する新しい課題に取り組む。
そこで本研究では,キーワードの相対位置を特別なトークンで制御するタスク非依存手法を提案する。
要約とストーリー生成タスクの実験結果は,提案手法がキーワードとその位置を制御できることを示す。
実験の結果,キーワード位置を制御することで,ベースラインよりもユーザの意図に近い要約テキストを生成することができた。 One of the challenges in text generation is to control text generation as intended by the user. Previous studies proposed specifying the keywords that should be included in the generated text. However, this approach is insufficient to generate text that reflect the user's intent. For example, placing an important keyword at the beginning of the text would help attract the reader's attention; however, existing methods do not enable such flexible control. In this paper, we tackle a novel task of controlling not only keywords but also the position of each keyword in the text generation. To this end, we propose a task-independent method that uses special tokens to control the relative position of keywords. Experimental results on summarization and story generation tasks show that the proposed method can control keywords and their positions. The experimental results also demonstrate that controlling the keyword positions can generate summary texts that are closer to the user's intent than baseline. | 翻訳日:2023-11-02 03:06:47 公開日:2023-10-31 |
# Deep Calder\'on 法による電気インピーダンストモグラフィ Electrical Impedance Tomography with Deep Calder\'on Method ( http://arxiv.org/abs/2304.09074v2 ) ライセンス: Link先を確認 | Siyu Cen, Bangti Jin, Kwancheol Shin, Zhi Zhou | (参考訳) 電気インピーダンストモグラフィ(EIT)は、被検体表面の電流密度/電圧データを利用した非侵襲的医療画像モダリティである。
Calder\'on の手法は比較的最近の EIT イメージングアルゴリズムであり、非定常的で高速で、複雑な値の電気インピーダンスを再構成することができる。
しかし、低パスフィルタリングと線形化による正規化により、再構成された画像は厳密な導電率値のぼやけや過小評価に苦しむ。
本研究では,Deep} Convolution Neural Network (U-net) { を効果的なターゲット後処理ステップとして用い,Deep Calder\'{o}n 法により得られた手法を表現し,Calder\'on 法の強化版を開発する。
具体的には,Calder\'on 法により生成された EIT 画像を後処理するU-net を学習し,より良い解像度と導電率値のより正確な推定を行う。
そこで,calder\'on法を用いて,電流密度/電圧境界測定と対応する再構成画像を生成する胸部形状をシミュレートする。
ペアトレーニングデータを用いて,深層ニューラルネットワークを学習し,実際のタンク計測データを用いてその性能評価を行う。
実験の結果,提案手法は高速かつ直接的(複雑に評価された)インピーダンストモグラフィー技術を提供し,標準カルダーオン法の性能を大幅に向上させることが示された。 Electrical impedance tomography (EIT) is a noninvasive medical imaging modality utilizing the current-density/voltage data measured on the surface of the subject. Calder\'on's method is a relatively recent EIT imaging algorithm that is non-iterative, fast, and capable of reconstructing complex-valued electric impedances. However, due to the regularization via low-pass filtering and linearization, the reconstructed images suffer from severe blurring and under-estimation of the exact conductivity values. In this work, we develop an enhanced version of Calder\'on's method, using {deep} convolution neural networks (i.e., U-net) {as an effective targeted post-processing step, and term the resulting method by deep Calder\'{o}n's method.} Specifically, we learn a U-net to postprocess the EIT images generated by Calder\'on's method so as to have better resolutions and more accurate estimates of conductivity values. We simulate chest configurations with which we generate the current-density/voltage boundary measurements and the corresponding reconstructed images by Calder\'on's method. With the paired training data, we learn the deep neural network and evaluate its performance on real tank measurement data. The experimental results indicate that the proposed approach indeed provides a fast and direct (complex-valued) impedance tomography imaging technique, and substantially improves the capability of the standard Calder\'on's method. | 翻訳日:2023-11-02 03:06:34 公開日:2023-10-31 |
# 熱緩和過程における速度限界, 散逸境界, 散逸時間トレードオフ Speed limit, dissipation bound and dissipation-time trade-off in thermal relaxation processes ( http://arxiv.org/abs/2304.08752v2 ) ライセンス: Link先を確認 | Jie Gu | (参考訳) 時間非依存遷移速度をもつ古典確率過程において,速度,非断熱エントロピー生成およびそれらの間のトレードオフ関係について検討する。
以上の結果から,初期状態から所望の目標状態へ進化するのに要する時間は,これらの状態間の情報理論上の$\infty$-R\enyiの偏差によって下方から有界となることがわかった。
さらに,非断熱的エントロピー生成における情報理論的境界と,それ以前の境界よりも優れた新たな散逸時間トレードオフ関係を推測し,広範な数値的証拠を提供する。 We investigate bounds on speed, non-adiabatic entropy production and trade-off relation between them for classical stochastic processes with time-independent transition rates. Our results show that the time required to evolve from an initial to a desired target state is bounded from below by the informational-theoretic $\infty$-R\'enyi divergence between these states, divided by the total rate. Furthermore, we conjecture and provide extensive numerical evidence for an information-theoretical bound on the non-adiabatic entropy production and a novel dissipation-time trade-off relation that outperforms previous bounds in some cases. | 翻訳日:2023-11-02 03:06:07 公開日:2023-10-31 |
# パーソナライズフレンドリな画像分類のための共有基盤の連合学習 Federated Learning of Shareable Bases for Personalization-Friendly Image Classification ( http://arxiv.org/abs/2304.07882v2 ) ライセンス: Link先を確認 | Hong-You Chen, Jike Zhong, Mingda Zhang, Xuhui Jia, Hang Qi, Boqing Gong, Wei-Lun Chao, Li Zhang | (参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、個々のクライアントのデータ配信に適したパーソナライズされたモデルを構築しながら、クライアントデータの集合的な知恵を活用することを目的としている。
既存の作業は、主にFLプロセスに参加する顧客に対してパーソナライズを提供しており、欠席または新しく現れた新しいクライアントを包含することが困難である。
本稿では,このような障害に対処する新しいPFLフレームワークであるFedBasisを提案する。
FedBasis は共有可能な ``basis'' モデルの集合を学習し、クライアント向けにパーソナライズされたモデルを形成するために線形に結合することができる。
具体的には、新しいクライアントの場合、モデルの重みではなく、小さな組み合わせ係数のみを学ぶ必要がある。
この概念により、fedbasisは、推論コストを増加させることなく、特に低データレジームにおいて、競合するpflベースラインよりもパラメータ効率が高く、ロバストで、正確である。
また,feedbasisの有効性と適用性を示すために,画像分類のためのより実用的なpflテストベッドを提案する。 Personalized federated learning (PFL) aims to harness the collective wisdom of clients' data while building personalized models tailored to individual clients' data distributions. Existing works offer personalization primarily to clients who participate in the FL process, making it hard to encompass new clients who were absent or newly show up. In this paper, we propose FedBasis, a novel PFL framework to tackle such a deficiency. FedBasis learns a set of few shareable ``basis'' models, which can be linearly combined to form personalized models for clients. Specifically for a new client, only a small set of combination coefficients, not the model weights, needs to be learned. This notion makes FedBasis more parameter-efficient, robust, and accurate than competitive PFL baselines, especially in the low data regime, without increasing the inference cost. To demonstrate the effectiveness and applicability of FedBasis, we also present a more practical PFL testbed for image classification, featuring larger data discrepancies across clients in both the image and label spaces as well as more faithful training and test splits. | 翻訳日:2023-11-02 03:05:34 公開日:2023-10-31 |
# open assistant conversations -- 大きな言語モデルアライメントの民主化 OpenAssistant Conversations -- Democratizing Large Language Model Alignment ( http://arxiv.org/abs/2304.07327v2 ) ライセンス: Link先を確認 | Andreas K\"opf, Yannic Kilcher, Dimitri von R\"utte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Rich\'ard Nagyfi, Shahul ES, Sameer Suri, David Glushkov, Arnav Dantuluri, Andrew Maguire, Christoph Schuhmann, Huu Nguyen, Alexander Mattick | (参考訳) 大きな言語モデル(LLM)を人間の好みに合わせることで、ユーザビリティが大幅に向上することが証明され、ChatGPTで実証されたように、急速に採用されている。
教師付き微調整(SFT)や人間フィードバックからの強化学習(RLHF)といったアライメント技術は、LLMの能力を効果的に活用するために必要なスキルとドメイン知識を大幅に削減し、様々な領域におけるアクセシビリティと有用性を向上する。
しかし、RLHFのような最先端のアライメント技術は、高品質な人間のフィードバックデータに依存している。
大規模アライメントの研究を民主化するために、35の異なる言語で161,443のメッセージからなり、461,292のクオリティ・レーティングでアノテートされ、1万以上の完全かつ完全にアノテートされた会話ツリーが作成され、人間のアノテートされたアシスタントスタイルの会話コーパスであるopen assistant conversationsをリリースする。
このコーパスは、全世界で13500人以上のボランティアが参加するクラウドソーシングの製品だ。
OpenAssistant Conversationsでトレーニングされたモデルでは、各ベースモデルに対して標準ベンチマークが一貫した改善がなされている。
私たちは完全な許容ライセンスの下でコードとデータをリリースします。 Aligning large language models (LLMs) with human preferences has proven to drastically improve usability and has driven rapid adoption as demonstrated by ChatGPT. Alignment techniques such as supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) greatly reduce the required skill and domain knowledge to effectively harness the capabilities of LLMs, increasing their accessibility and utility across various domains. However, state-of-the-art alignment techniques like RLHF rely on high-quality human feedback data, which is expensive to create and often remains proprietary. In an effort to democratize research on large-scale alignment, we release OpenAssistant Conversations, a human-generated, human-annotated assistant-style conversation corpus consisting of 161,443 messages in 35 different languages, annotated with 461,292 quality ratings, resulting in over 10,000 complete and fully annotated conversation trees. The corpus is a product of a worldwide crowd-sourcing effort involving over 13,500 volunteers. Models trained on OpenAssistant Conversations show consistent improvements on standard benchmarks over respective base models. We release our code and data under a fully permissive licence. | 翻訳日:2023-11-02 03:03:54 公開日:2023-10-31 |
# 3層ニューラルネットワークにおける非線形特徴学習の証明可能保証 Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks ( http://arxiv.org/abs/2305.06986v2 ) ライセンス: Link先を確認 | Eshaan Nichani, Alex Damian, Jason D. Lee | (参考訳) ディープラーニング理論における中心的な疑問の1つは、ニューラルネットワークが階層的特徴をどのように学習するかを理解することである。
有能な特徴を抽出する深層ネットワークの能力は、その卓越した一般化能力と、事前学習と微調整の近代的な深層学習パラダイムの両方に不可欠である。
しかし、この特徴学習プロセスは理論的観点からはほとんど理解されておらず、既存の分析は2層ネットワークに限られている。
本研究では,3層ニューラルネットワークが2層ネットワークよりも機能学習能力に富んでいることを示す。
階層的勾配勾配勾配を学習した3層ネットワークで得られた特徴を解析し,対象が特定の階層構造を持つ場合の試験誤差の低減に要するサンプルの複雑さと幅を上限とする汎用定理を提案する。
我々は,このフレームワークを,特定の統計的学習環境(単一インデックスモデルと二次特徴関数)でインスタンス化し,後者の設定では,2層ネットワークに対する既存の保証すべてに対して,より複雑なサンプルが得られることを示す。
このサンプルの複雑さの改善は、3層ネットワークが非線形特徴を効率的に学習する能力に依存している。
次に,3層ネットワーク上で勾配降下により効率的に学習できるが,2層ネットワークでは効率的に学習できない関数を構築することにより,具体的最適化に基づく深さ分離を実現する。
我々の研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能な利点を理解するために前進している。 One of the central questions in the theory of deep learning is to understand how neural networks learn hierarchical features. The ability of deep networks to extract salient features is crucial to both their outstanding generalization ability and the modern deep learning paradigm of pretraining and finetuneing. However, this feature learning process remains poorly understood from a theoretical perspective, with existing analyses largely restricted to two-layer networks. In this work we show that three-layer neural networks have provably richer feature learning capabilities than two-layer networks. We analyze the features learned by a three-layer network trained with layer-wise gradient descent, and present a general purpose theorem which upper bounds the sample complexity and width needed to achieve low test error when the target has specific hierarchical structure. We instantiate our framework in specific statistical learning settings -- single-index models and functions of quadratic features -- and show that in the latter setting three-layer networks obtain a sample complexity improvement over all existing guarantees for two-layer networks. Crucially, this sample complexity improvement relies on the ability of three-layer networks to efficiently learn nonlinear features. We then establish a concrete optimization-based depth separation by constructing a function which is efficiently learnable via gradient descent on a three-layer network, yet cannot be learned efficiently by a two-layer network. Our work makes progress towards understanding the provable benefit of three-layer neural networks over two-layer networks in the feature learning regime. | 翻訳日:2023-11-02 02:56:39 公開日:2023-10-31 |
# トラヒックデータインプテーションのための時空間正規化タッカー分解法 Spatiotemporal Regularized Tucker Decomposition Approach for Traffic Data Imputation ( http://arxiv.org/abs/2305.06563v4 ) ライセンス: Link先を確認 | Wenwu Gong, Zhejun Huang, and Lili Yang | (参考訳) インテリジェントな交通システムでは、部分的に観測されたデータから欠落した値を推定するトラヒックデータインプテーションは避けられない課題である。
これまでの研究では、トラフィックデータの多次元性と時空間相関を完全に考慮していなかったが、特に高レベルな欠落シナリオでは、トラフィックデータのリカバリに不可欠である。
そこで本研究では,新しい時空間正規化タッカー分解法を提案する。
まず、トラフィックマトリックスを3階テンソルに変換する。
次に、タッカー分解に基づいて、テンソルはスパースコアテンソルを持つ非負因子行列を乗じることで近似される。
特に、テンソルランクを設定したり、行列核ノルム最小化やテンソルランク最小化によって決定する必要はない。
低ランク性はコアテンソルの$l_1$-ノルムによって特徴づけられ、多様体の正則化と時間制約は時空間相関を捉え、さらにインプテーション性能を向上させるために用いられる。
提案するモデルに対処するために,収束を保証した交互近勾配法を用いる。
数値実験により,提案手法は実世界の時空間トラフィックデータセットにおいて,行列ベースおよびテンソルベースベースラインよりも優れていることが示された。 In intelligent transportation systems, traffic data imputation, estimating the missing value from partially observed data is an inevitable and challenging task. Previous studies have not fully considered traffic data's multidimensionality and spatiotemporal correlations, but they are vital to traffic data recovery, especially for high-level missing scenarios. To address this problem, we propose a novel spatiotemporal regularized Tucker decomposition method. First, the traffic matrix is converted into a third-order tensor. Then, based on Tucker decomposition, the tensor is approximated by multiplying non-negative factor matrices with a sparse core tensor. Notably, we do not need to set the tensor rank or determine it through matrix nuclear-norm minimization or tensor rank minimization. The low rankness is characterized by the $l_1$-norm of the core tensor, while the manifold regularization and temporal constraint are employed to capture spatiotemporal correlations and further improve imputation performance. We use an alternating proximal gradient method with guaranteed convergence to address the proposed model. Numerical experiments show that our proposal outperforms matrix-based and tensor-based baselines on real-world spatiotemporal traffic datasets in various missing scenarios. | 翻訳日:2023-11-02 02:56:14 公開日:2023-10-31 |
# 平面におけるダンケル振動子の有理拡大と例外直交多項式 Rational extensions of the Dunkl oscillator in the plane and exceptional orthogonal polynomials ( http://arxiv.org/abs/2305.05476v2 ) ライセンス: Link先を確認 | C. Quesne | (参考訳) 平面における等方性ダンケル発振器の合理的拡張は、放射状方程式または極座標アプローチで得られる角式のいずれかにいくつかの項を加えることで得られることが示されている。
前者の場合、等方調和振動子は等方性非調和振動子に置き換えられ、その波動関数は$x_m$-laguerre の例外直交多項式で表される。
後者では、x_1$-ジャコビ例外直交多項式に関連する最も単純な場合において明示的な形式が発見されている異方性ポテンシャルとなる。 It is shown that rational extensions of the isotropic Dunkl oscillator in the plane can be obtained by adding some terms either to the radial equation or to the angular one obtained in the polar coordinates approach. In the former case, the isotropic harmonic oscillator is replaced by an isotropic anharmonic one, whose wavefunctions are expressed in terms of $X_m$-Laguerre exceptional orthogonal polynomials. In the latter, it becomes an anisotropic potential, whose explicit form has been found in the simplest case associated with $X_1$-Jacobi exceptional orthogonal polynomials. | 翻訳日:2023-11-02 02:55:40 公開日:2023-10-31 |
# プロキシ変数を用いたサブサンプル時系列からの因果発見 Causal Discovery from Subsampled Time Series with Proxy Variables ( http://arxiv.org/abs/2305.05276v3 ) ライセンス: Link先を確認 | Mingzhou Liu, Xinwei Sun, Lingjing Hu, Yizhou Wang | (参考訳) 時系列データから因果構造を推測することは、多くの科学調査の中心的な関心事である。
このような推論の大きな障壁は、サブサンプリングの問題、すなわち測定頻度が因果影響のそれよりもはるかに低いことである。
この問題を解決するために、多くの方法が提案されているが、線形ケースに制限されたり、識別可能性の達成に失敗したりする。
本稿では,パラメータ制約を伴わずに,サブサンプリング時系列から因果構造全体を同定する制約に基づくアルゴリズムを提案する。
我々の観察では、サブサンプリングの課題は、主に観測されていない時間ステップの隠れ変数から生じている。
一方、隠れた変数には観測可能なプロキシがあり、これは本質的には将来観測可能な時間であり、時間構造から恩恵を受ける。
これらに基づいて、プロキシを利用して隠れた変数によって引き起こされるバイアスを取り除き、identifiabilityを達成することができる。
この直感に従って,プロキシに基づく因果探索アルゴリズムを提案する。
我々のアルゴリズムは非パラメトリックであり、完全な因果識別を実現することができる。
理論上の利点は、合成および実世界の実験に反映される。 Inferring causal structures from time series data is the central interest of many scientific inquiries. A major barrier to such inference is the problem of subsampling, i.e., the frequency of measurement is much lower than that of causal influence. To overcome this problem, numerous methods have been proposed, yet either was limited to the linear case or failed to achieve identifiability. In this paper, we propose a constraint-based algorithm that can identify the entire causal structure from subsampled time series, without any parametric constraint. Our observation is that the challenge of subsampling arises mainly from hidden variables at the unobserved time steps. Meanwhile, every hidden variable has an observed proxy, which is essentially itself at some observable time in the future, benefiting from the temporal structure. Based on these, we can leverage the proxies to remove the bias induced by the hidden variables and hence achieve identifiability. Following this intuition, we propose a proxy-based causal discovery algorithm. Our algorithm is nonparametric and can achieve full causal identification. Theoretical advantages are reflected in synthetic and real-world experiments. | 翻訳日:2023-11-02 02:55:28 公開日:2023-10-31 |
# ロバストな質問応答に対する適応的緩い最適化 Adaptive loose optimization for robust question answering ( http://arxiv.org/abs/2305.03971v3 ) ライセンス: Link先を確認 | Jie Ma, Pinghui Wang, Zewei Wang, Dechen Kong, Min Hu, Ting Han, Jun Liu | (参考訳) 質問応答手法は、視覚的質問応答の事前言語や機械読解(extractive question answering)における位置バイアスなど、データバイアスを活用することでよく知られている。
非分散法は高い分散性能を得るために相当量の分散性能を犠牲にするのに対し、現在のデバイアス法は適切な分散性能を達成するために重要な分散性能を犠牲にすることが多い。
そのため、複雑に変化する現実世界の状況に対処することは困難である。
本稿では,両世界の質問応答を最大限に活用することを目的とした適応的ゆがみ最適化を用いた,単純かつ効果的な新しい損失関数を提案する。
私たちの技術的貢献は、ミニバッチトレーニングデータにおける前回と現在の最適化状態の比率に応じて、損失を適応的に低減することにあります。
この緩やかな最適化は、非バイアス法がデータのバイアスを過度に学習するのを防ぐと同時に、デバイアス法がわずかにバイアス学習を維持するのを可能にするために使用できる。
VQA v2, VQA-CP v1, VQA-CP v2, GQA-OOD, および抽出された質問応答データセットSQADを含む視覚的質問応答データセットの実験により、我々の手法は、ほとんどのケースにおいて、最先端のin-of-distriion性能をQA手法で得ることができることを示した。
ソースコードは \url{https://github.com/reml-group/ALO} で公開されている。 Question answering methods are well-known for leveraging data bias, such as the language prior in visual question answering and the position bias in machine reading comprehension (extractive question answering). Current debiasing methods often come at the cost of significant in-distribution performance to achieve favorable out-of-distribution generalizability, while non-debiasing methods sacrifice a considerable amount of out-of-distribution performance in order to obtain high in-distribution performance. Therefore, it is challenging for them to deal with the complicated changing real-world situations. In this paper, we propose a simple yet effective novel loss function with adaptive loose optimization, which seeks to make the best of both worlds for question answering. Our main technical contribution is to reduce the loss adaptively according to the ratio between the previous and current optimization state on mini-batch training data. This loose optimization can be used to prevent non-debiasing methods from overlearning data bias while enabling debiasing methods to maintain slight bias learning. Experiments on the visual question answering datasets, including VQA v2, VQA-CP v1, VQA-CP v2, GQA-OOD, and the extractive question answering dataset SQuAD demonstrate that our approach enables QA methods to obtain state-of-the-art in- and out-of-distribution performance in most cases. The source code has been released publicly in \url{https://github.com/reml-group/ALO}. | 翻訳日:2023-11-02 02:55:11 公開日:2023-10-31 |
# 自己ノートによる推論と記憶の学習 Learning to Reason and Memorize with Self-Notes ( http://arxiv.org/abs/2305.00833v2 ) ライセンス: Link先を確認 | Jack Lanchantin, Shubham Toshniwal, Jason Weston, Arthur Szlam, Sainbayar Sukhbaatar | (参考訳) 大規模言語モデルは多段階推論に苦しむことが示されており、将来の使用のために以前の推論ステップを保持しない。
そこで本研究では, モデルに自己記入を許すことで, 両問題を簡易に解く手法を提案する。
最近のchain-of-thoughtやscratchpadと異なり、モデルは常に入力コンテキストから逸脱して、明示的に考え、書き留めることができる。
これにより、コンテキストを読み込むときにモデルが推論を実行し、以前の推論ステップを統合することで、有用な情報でメモリを拡張し、マルチステップ推論を可能にする。
様々なタスクにまたがる実験により,入力テキストをインターリーブするセルフノートを取ることにより,提案手法がチェーン・オブ・マインドおよびスクラッチパッド法を上回ることを証明した。 Large language models have been shown to struggle with multi-step reasoning, and do not retain previous reasoning steps for future use. We propose a simple method for solving both of these problems by allowing the model to take Self-Notes. Unlike recent chain-of-thought or scratchpad approaches, the model can deviate from the input context at any time to explicitly think and write down its thoughts. This allows the model to perform reasoning on the fly as it reads the context and even integrate previous reasoning steps, thus enhancing its memory with useful information and enabling multi-step reasoning. Experiments across a wide variety of tasks demonstrate that our method can outperform chain-of-thought and scratchpad methods by taking Self-Notes that interleave the input text. | 翻訳日:2023-11-02 02:52:20 公開日:2023-10-31 |
# 学習軌跡は一般化指標である Learning Trajectories are Generalization Indicators ( http://arxiv.org/abs/2304.12579v4 ) ライセンス: Link先を確認 | Jingwen Fu, Zhizheng Zhang, Dacheng Yin, Yan Lu, Nanning Zheng | (参考訳) 本稿では,Deep Neural Networks (DNN) の学習軌跡と,(確率的な)勾配勾配アルゴリズムを用いて最適化した場合の一般化能力との関係について検討する。
本稿では,dnnポストトレーニングの一般化誤差のみに注目するのではなく,一般化誤差の変化に対する各更新ステップの寄与を調べることにより,一般化誤差を分析する新しい視点を提案する。
この観点は、学習軌跡が一般化誤差にどのように影響するかをより直接的な理解を可能にする。
この分析に基づいて,より広範な軌道情報を含む新たな一般化境界を提案する。
提案する一般化は,学習軌跡の複雑さと,学習集合のバイアスと多様性の比率に依存する。
実験の結果,本手法はトレーニング過程を通して一般化誤差を効果的に捉えていることがわかった。
さらに,本手法は,学習率やラベルノイズレベルに対する調整を行う際の一般化誤差の変化も追跡できる。
これらの結果は,学習軌跡情報がモデルの一般化能力を示す貴重な指標であることを示している。 This paper explores the connection between learning trajectories of Deep Neural Networks (DNNs) and their generalization capabilities when optimized using (stochastic) gradient descent algorithms. Instead of concentrating solely on the generalization error of the DNN post-training, we present a novel perspective for analyzing generalization error by investigating the contribution of each update step to the change in generalization error. This perspective allows for a more direct comprehension of how the learning trajectory influences generalization error. Building upon this analysis, we propose a new generalization bound that incorporates more extensive trajectory information. Our proposed generalization bound depends on the complexity of learning trajectory and the ratio between the bias and diversity of training set. Experimental findings reveal that our method effectively captures the generalization error throughout the training process. Furthermore, our approach can also track changes in generalization error when adjustments are made to learning rates and label noise levels. These results demonstrate that learning trajectory information is a valuable indicator of a model's generalization capabilities. | 翻訳日:2023-11-02 02:51:34 公開日:2023-10-31 |
# 微細化を伴わない構造化NLPタスクの文法制約デコーディング Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning ( http://arxiv.org/abs/2305.13971v4 ) ライセンス: Link先を確認 | Saibo Geng, Martin Josifoski, Maxime Peyrard, Robert West | (参考訳) 印象的なパフォーマンスにもかかわらず、大きな言語モデル(lms)は、必要な出力形式に正確に従わない場合にも、複雑な出力構造を確実に生成するのに苦労している。
この問題に対処するために、文法制約付き復号 (gcd) は lms の生成を制御するために用いられ、出力が所定の構造に従うことを保証している。
しかし、既存のgcdメソッドの多くはパースやコード生成といった特定のタスクに限定されている。
本研究では,より広い範囲のタスクに対して,形式文法が出力空間を記述できることを示し,GCDが一般に構造化NLPタスクの統一フレームワークとして機能できることを論じる。
柔軟性を高めるために, 文法が入力に依存することを許容し, 異なる入力に対する異なる出力構造の生成を可能にする, 入力依存文法を導入する。
そして,(1)情報抽出,(2)エンティティの曖昧さ,(3)選挙区解析におけるGCD強化LMのパワーと柔軟性を実証的に実証した。
その結果,文法制約のLMは非制約のLMよりもかなり優れており,タスク固有の微調整モデルよりも優れていた。
文法制約は、特にトレーニングデータが少ない場合や微調整が高価である場合など、幅広い構造化されたNLPタスクに対して、既製のLMを利用することを大いに約束する。
コードとデータ:https://github.com/epfl-dlab/GCD。 Despite their impressive performance, large language models (LMs) still struggle with reliably generating complex output structures when not finetuned to follow the required output format exactly. To address this issue, grammar-constrained decoding (GCD) can be used to control the generation of LMs, guaranteeing that the output follows a given structure. Most existing GCD methods are, however, limited to specific tasks, such as parsing or code generation. In this work, we demonstrate that formal grammars can describe the output space for a much wider range of tasks and argue that GCD can serve as a unified framework for structured NLP tasks in general. For increased flexibility, we introduce input-dependent grammars, which allow the grammar to depend on the input and thus enable the generation of different output structures for different inputs. We then empirically demonstrate the power and flexibility of GCD-enhanced LMs on (1) information extraction, (2) entity disambiguation, and (3) constituency parsing. Our results indicate that grammar-constrained LMs substantially outperform unconstrained LMs or even beat task-specific finetuned models. Grammar constraints thus hold great promise for harnessing off-the-shelf LMs for a wide range of structured NLP tasks, especially where training data is scarce or finetuning is expensive. Code and data: https://github.com/epfl-dlab/GCD. | 翻訳日:2023-11-02 02:44:17 公開日:2023-10-31 |
# 分数グラフラプラシアンによるオーバースムーシングのアプローチ A Fractional Graph Laplacian Approach to Oversmoothing ( http://arxiv.org/abs/2305.13084v2 ) ライセンス: Link先を確認 | Sohir Maskey, Raffaele Paolino, Aras Bacho, Gitta Kutyniok | (参考訳) グラフニューラルネットワーク(GNN)は、様々なアプリケーションで最先端のパフォーマンスを示している。
しかしながら、GNNはオーバースムーシングのため、グラフ内の長距離依存関係をキャプチャするのに苦労することが多い。
本稿では,非有向グラフから有向グラフへのオーバーモーシングの概念を一般化する。
この目的のために、方向対称正規化ラプラシアンを考えることによりディリクレエネルギーの概念を拡張する。
バニラグラフ畳み込みネットワークは過スムースになりがちであるので、我々はニューラルグラフODEフレームワークを採用する。
具体的には,非局所ダイナミクスを記述する分数グラフラプラシアンニューラルodeを提案する。
提案手法は,長距離ジャンプの確率を低く保ちながら,遠隔ノード間の情報伝達を可能にする。
さらに, この手法はグラフのディリクレエネルギーの収束に関してより柔軟であり, オーバースムーシングを緩和できることを示した。
我々は,多彩なグラフホモフィリーレベルにまたがる手法の汎用性を実証し,指向性および非指向性の両方において,合成および実世界のグラフに関する広範な実験を行った。
私たちのコードはhttps://github.com/RPaolino/fLodeで利用可能です。 Graph neural networks (GNNs) have shown state-of-the-art performances in various applications. However, GNNs often struggle to capture long-range dependencies in graphs due to oversmoothing. In this paper, we generalize the concept of oversmoothing from undirected to directed graphs. To this aim, we extend the notion of Dirichlet energy by considering a directed symmetrically normalized Laplacian. As vanilla graph convolutional networks are prone to oversmooth, we adopt a neural graph ODE framework. Specifically, we propose fractional graph Laplacian neural ODEs, which describe non-local dynamics. We prove that our approach allows propagating information between distant nodes while maintaining a low probability of long-distance jumps. Moreover, we show that our method is more flexible with respect to the convergence of the graph's Dirichlet energy, thereby mitigating oversmoothing. We conduct extensive experiments on synthetic and real-world graphs, both directed and undirected, demonstrating our method's versatility across diverse graph homophily levels. Our code is available at https://github.com/RPaolino/fLode . | 翻訳日:2023-11-02 02:42:54 公開日:2023-10-31 |
# DSICアフィン最大化器オークション設計のためのスケーラブルニューラルネットワーク A Scalable Neural Network for DSIC Affine Maximizer Auction Design ( http://arxiv.org/abs/2305.12162v2 ) ライセンス: Link先を確認 | Zhijian Duan, Haoran Sun, Yurong Chen, Xiaotie Deng | (参考訳) 自動オークションデザインは、機械学習を通じて経験的に高い効率のメカニズムを見つけることを目的としている。
マルチアイテムオークションのシナリオに関する既存の作業は、大まかにrestenet-like and affine maximr auctions (amas) のアプローチに分けられる。
しかし,前者はDSIC(戦略インセンティブ互換性)を厳格に確保することはできず,後者は多数のアロケーション候補のためにスケーラビリティの問題に直面している。
これらの制限に対処するため,我々は,入札者やアイテム表現から(割り当てメニューを含む)amaパラメータを構築するスケーラブルなニューラルネットワーク amenunet を提案する。
amenunetは常にdsicであり、amasの特性により個別有理(ir)であり、ニューラルネットワークを介して候補割り当てを生成してスケーラビリティを高める。
さらに、AMenuNetは置換同変であり、パラメータの数はオークションスケールとは独立である。
我々は、AMenuNetがコンテキストおよび非コンテキストの多項目オークションにおいて強いベースラインを上回り、より大きなオークションに順応し、異なる設定に順応し、有用な決定論的アロケーションを特定することを実証するために、広範な実験を行った。
提案手法は,DSIC自動オークション設計における効率的なソリューションであり,スケーラビリティの向上と各種設定での収益性の向上を実現している。 Automated auction design aims to find empirically high-revenue mechanisms through machine learning. Existing works on multi item auction scenarios can be roughly divided into RegretNet-like and affine maximizer auctions (AMAs) approaches. However, the former cannot strictly ensure dominant strategy incentive compatibility (DSIC), while the latter faces scalability issue due to the large number of allocation candidates. To address these limitations, we propose AMenuNet, a scalable neural network that constructs the AMA parameters (even including the allocation menu) from bidder and item representations. AMenuNet is always DSIC and individually rational (IR) due to the properties of AMAs, and it enhances scalability by generating candidate allocations through a neural network. Additionally, AMenuNet is permutation equivariant, and its number of parameters is independent of auction scale. We conduct extensive experiments to demonstrate that AMenuNet outperforms strong baselines in both contextual and non-contextual multi-item auctions, scales well to larger auctions, generalizes well to different settings, and identifies useful deterministic allocations. Overall, our proposed approach offers an effective solution to automated DSIC auction design, with improved scalability and strong revenue performance in various settings. | 翻訳日:2023-11-02 02:42:06 公開日:2023-10-31 |
# replicable強化学習 Replicable Reinforcement Learning ( http://arxiv.org/abs/2305.15284v4 ) ライセンス: Link先を確認 | Eric Eaton, Marcel Hussing, Michael Kearns, Jessica Sorrell | (参考訳) 社会的、行動的、データ科学における複製可能性の危機は、複製性のためのアルゴリズムフレームワーク、すなわち、アルゴリズムが同じ分布から2つの異なるサンプルを実行する際に(高い確率で)同じ出力を生成するという要求を定式化した。
まだ初期段階だが、統計的クエリ学習、ヘビーヒッター問題、分散テストなど、機械学習と統計学における多くの基本的なタスクのために、確実に再現可能なアルゴリズムが開発されている。
本研究では,レプリケーブル強化学習(replicable reinforcement learning)の研究を開始し,並列値反復のためのproplicableアルゴリズムと,エピソディック設定におけるr-maxのreplicableバージョンを提供する。
これらは、バッチ学習設定とは異なるレプリケーションの課題を示す、制御問題に対する最初の公式な再現性結果である。 The replicability crisis in the social, behavioral, and data sciences has led to the formulation of algorithm frameworks for replicability -- i.e., a requirement that an algorithm produce identical outputs (with high probability) when run on two different samples from the same underlying distribution. While still in its infancy, provably replicable algorithms have been developed for many fundamental tasks in machine learning and statistics, including statistical query learning, the heavy hitters problem, and distribution testing. In this work we initiate the study of replicable reinforcement learning, providing a provably replicable algorithm for parallel value iteration, and a provably replicable version of R-max in the episodic setting. These are the first formal replicability results for control problems, which present different challenges for replication than batch learning settings. | 翻訳日:2023-11-02 02:30:32 公開日:2023-10-31 |
# 関数近似と理論的保証を考慮した決定型アクタ臨界 Decision-Aware Actor-Critic with Function Approximation and Theoretical Guarantees ( http://arxiv.org/abs/2305.15249v2 ) ライセンス: Link先を確認 | Sharan Vaswani, Amirreza Kazemi, Reza Babanezhad, Nicolas Le Roux | (参考訳) アクタ-クリティック(ac)法は強化学習(rl)において広く用いられており、アクタとして任意のポリシー勾配法や批判者としての価値ベース法を用いる柔軟性がある。
批評家は通常、俳優との高い報酬を達成するという真の目標と相関する可能性のあるTDエラーを最小化することで訓練される。
我々は,このミスマッチに対処するために,俳優と批評家を意思決定的に訓練するための共同目標を設計する。
提案手法は,任意の関数近似を処理可能な汎用的なacアルゴリズムの設計に使用する。
結果のアルゴリズムは,ポリシーの選択や批判パラメータ化に関わらず,単調な政策改善を保証する条件を明示的に特徴付ける。
ジェネリックアルゴリズムを確立すると、サロゲート関数の列(TRPO、PPOに似ている)を最大化するアクターと、密接な連結対象を最小化する批評家が生じる。
単純なバンディット例を用いて,提案する評価対象の標準二乗誤差に対する効果を実証する。
最後に,単純なrl問題に対する決定認識型アクタ批判フレームワークのメリットを実証的に実証する。 Actor-critic (AC) methods are widely used in reinforcement learning (RL) and benefit from the flexibility of using any policy gradient method as the actor and value-based method as the critic. The critic is usually trained by minimizing the TD error, an objective that is potentially decorrelated with the true goal of achieving a high reward with the actor. We address this mismatch by designing a joint objective for training the actor and critic in a decision-aware fashion. We use the proposed objective to design a generic, AC algorithm that can easily handle any function approximation. We explicitly characterize the conditions under which the resulting algorithm guarantees monotonic policy improvement, regardless of the choice of the policy and critic parameterization. Instantiating the generic algorithm results in an actor that involves maximizing a sequence of surrogate functions (similar to TRPO, PPO) and a critic that involves minimizing a closely connected objective. Using simple bandit examples, we provably establish the benefit of the proposed critic objective over the standard squared error. Finally, we empirically demonstrate the benefit of our decision-aware actor-critic framework on simple RL problems. | 翻訳日:2023-11-02 02:30:17 公開日:2023-10-31 |
# 大規模言語モデルの能力はどの程度予測可能か?
big-bench のケーススタディ How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench ( http://arxiv.org/abs/2305.14947v2 ) ライセンス: Link先を確認 | Qinyuan Ye, Harvey Yiyun Fu, Xiang Ren, Robin Jia | (参考訳) 大規模言語モデル(LLM)の機能の予測可能性について検討する:異なるモデルファミリを用いた過去の実験の記録、パラメータ数、タスク数、インコンテキストの例の数から、新しい実験構成でLLMの性能を正確に予測できるだろうか?
この質問への回答は、LLMユーザ(例えば、どのモデルを試すかを決める)、開発者(例えば、代表的タスクの評価を優先順位付けする)、研究コミュニティ(例えば、さらなる調査を保証できる予測の難しい能力を特定する)に実践的な意味を持つ。
BIGベンチ実験記録の性能予測問題について検討した。
ランダムな列車試験分割では、MLPベースの予測器が95%以上のR^2$スコアを達成し、実験記録に学習可能なパターンが存在することを示す。
次に,全集合の性能を最大に回復できるビッグベンチタスクの有益部分集合である「small-bench」の探索問題を定式化する。
BIG-bench Hardのように新しいモデルファミリーの評価に有意義なサブセットを見つけました。
さらに,MLPベースの予測器で学習したタスク表現をクラスタリングし,クラスタセントロイドに近いタスクを選択することで,タスクの多様性の重要性を強調した。 We investigate the predictability of large language model (LLM) capabilities: given records of past experiments using different model families, numbers of parameters, tasks, and numbers of in-context examples, can we accurately predict LLM performance on new experiment configurations? Answering this question has practical implications for LLM users (e.g., deciding which models to try), developers (e.g., prioritizing evaluation on representative tasks), and the research community (e.g., identifying hard-to-predict capabilities that warrant further investigation). We study the performance prediction problem on experiment records from BIG-bench. On a random train-test split, an MLP-based predictor achieves an $R^2$ score greater than 95%, indicating the presence of learnable patterns within the experiment records. We then formulate the problem of searching for "small-bench," an informative subset of BIG-bench tasks from which the performance on the full set can be maximally recovered. We find a subset as informative as BIG-bench Hard for evaluating new model families, while being $3\times$ smaller. Additionally, we find competitive subsets by clustering task representations learned by our MLP-based predictor and selecting tasks close to cluster centroids, highlighting the importance of task diversity in constructing "small-bench." | 翻訳日:2023-11-02 02:28:27 公開日:2023-10-31 |
# 信頼できる誤情報緩和に向けて:一般化・不確かさ・GPT-4 Towards Reliable Misinformation Mitigation: Generalization, Uncertainty, and GPT-4 ( http://arxiv.org/abs/2305.14928v3 ) ライセンス: Link先を確認 | Kellin Pelrine, Anne Imouza, Camille Thibault, Meilina Reksoprodjo, Caleb Gupta, Joel Christoph, Jean-Fran\c{c}ois Godbout, Reihaneh Rabbany | (参考訳) 誤報は社会的な課題であり、現在のアプローチは効果的な解決策を生み出していない。
完全分類が不可能な文脈における情報の妥当性を評価するための,より実用的なツールを開発するために,一般化,不確実性,最近の大規模言語モデルの活用方法に焦点をあてる。
まず,複数の設定や言語において,GPT-4が先行手法より優れていることを示す。
次に, GPT-4 と RoBERTa-large が故障モードの違いを示すことを明らかにする。
第3に,不可能を検知し,結果を強く改善できる不確実性に対処する手法を提案する。
また、他の言語モデル、温度、プロンプト、バージョニング、説明可能性、web検索の結果についても議論し、それぞれが将来の研究のための実用的な洞察と方向性を提供する。
最後に、LIAR-Newデータセットを、新しい英語とフランス語の誤報データとPossibilityラベルで公開し、妥当性評価に十分なコンテキストが存在することを示す。
全体として、この研究は、偽情報と戦うために現実世界の進歩を促進する将来のツールの基盤となる。 Misinformation poses a critical societal challenge, and current approaches have yet to produce an effective solution. We propose focusing on generalization, uncertainty, and how to leverage recent large language models, in order to create more practical tools to evaluate information veracity in contexts where perfect classification is impossible. We first demonstrate that GPT-4 can outperform prior methods in multiple settings and languages. Next, we explore generalization, revealing that GPT-4 and RoBERTa-large exhibit differences in failure modes. Third, we propose techniques to handle uncertainty that can detect impossible examples and strongly improve outcomes. We also discuss results on other language models, temperature, prompting, versioning, explainability, and web retrieval, each one providing practical insights and directions for future research. Finally, we publish the LIAR-New dataset with novel paired English and French misinformation data and Possibility labels that indicate if there is sufficient context for veracity evaluation. Overall, this research lays the groundwork for future tools that can drive real-world progress to combat misinformation. | 翻訳日:2023-11-02 02:28:01 公開日:2023-10-31 |
# 大きな言語モデルで引用でテキストを生成することができる Enabling Large Language Models to Generate Text with Citations ( http://arxiv.org/abs/2305.14627v2 ) ライセンス: Link先を確認 | Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen | (参考訳) 大規模言語モデル (LLM) は情報検索のツールとして広く利用されているが、その生成した出力は幻覚の傾向にある。
本研究の目的は,LLMが引用文を生成できるようにし,その事実の正しさと妥当性を向上させることである。
既存の作業は主に商用検索エンジンと人的評価に依存しており、異なるモデリングアプローチを再現し比較することは困難である。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
alceは多様な質問と検索コーパスを収集し、証拠を収集し、引用で回答を生成するためにエンドツーエンドシステムを構築する必要がある。
我々は3次元 – フラレンシ,正確性,引用品質 – に沿って自動メトリクスを開発し,人間の判断と強い相関を示す。
最先端のLLMと新しいプロンプト戦略による我々の実験は、現在のシステムには改善の余地がかなりあることを示している -- 例えば、ELI5データセットでは、最高のモデルでさえ、その時間の50%を完全に引用サポートしていない。
本分析では, より優れた検索器の開発, 長期LLMの進展, 複数ソースからの情報合成能力の向上など, 将来的な方向性をさらに強調する。 Large language models (LLMs) have emerged as a widely-used tool for information seeking, but their generated outputs are prone to hallucination. In this work, our aim is to allow LLMs to generate text with citations, improving their factual correctness and verifiability. Existing work mainly relies on commercial search engines and human evaluation, making it challenging to reproduce and compare different modeling approaches. We propose ALCE, the first benchmark for Automatic LLMs' Citation Evaluation. ALCE collects a diverse set of questions and retrieval corpora and requires building end-to-end systems to retrieve supporting evidence and generate answers with citations. We develop automatic metrics along three dimensions -- fluency, correctness, and citation quality -- and demonstrate their strong correlation with human judgements. Our experiments with state-of-the-art LLMs and novel prompting strategies show that current systems have considerable room for improvement -- For example, on the ELI5 dataset, even the best models lack complete citation support 50% of the time. Our analyses further highlight promising future directions, including developing better retrievers, advancing long-context LLMs, and improving the ability to synthesize information from multiple sources. | 翻訳日:2023-11-02 02:27:19 公開日:2023-10-31 |
# 接続性を考慮した等価回路平均化のための量子フレドキンとトフォリゲートの浅一元分解 Shallow unitary decompositions of quantum Fredkin and Toffoli gates for connectivity-aware equivalent circuit averaging ( http://arxiv.org/abs/2305.18128v2 ) ライセンス: Link先を確認 | Pedro M. Q. Cruz, Bruno Murta | (参考訳) 制御SWAPと制御制御NOTゲートは、FredkinとToffoliによる可逆的古典計算の提案の中心である。
量子計算において広く使われているのは、量子アルゴリズムの古典論理サブルーチンの実装と、直接古典的手法を持たない量子スキームの両方であり、異なる物理プラットフォームに固有の下層ゲートセットの観点でそれらの効率的な分解を追求することが、早くから必須である。
ここでは、全てのおよび線形量子ビット接続の下で、トフォリゲートとフレドキンゲートに対して論理的に等価な回路を提供し、後者は制御とターゲット量子ビットのための2つの異なるルーティングを持つ。
これら全ての構成の文献における最低cnot数を達成するとともに、等価回路平均化による近距離量子コンピュータにおけるコヒーレントエラーの軽減における、得られた分解の有効性を実証する。
まず,コヒーレントノイズモデルを用いてシリコの手法の性能を定量化し,超伝導量子プロセッサで実験的に検証する。
さらに、トフォリゲートやフレドキンゲートが非自明に作用する3つのキュービットが隣接していない場合について考察し、SWAP毎に1つのCNOTを節約する新しいスキームを提案する。
このスキームは、長距離CNOTの浅い実装にも使われる。
本結果は,効率的な量子回路の設計において,異なる絡み合い構造と接続制約を考慮することの重要性を強調した。 The controlled-SWAP and controlled-controlled-NOT gates are at the heart of the original proposal of reversible classical computation by Fredkin and Toffoli. Their widespread use in quantum computation, both in the implementation of classical logic subroutines of quantum algorithms and in quantum schemes with no direct classical counterparts, has made it imperative early on to pursue their efficient decomposition in terms of the lower-level gate sets native to different physical platforms. Here, we add to this body of literature by providing several logically equivalent circuits for the Toffoli and Fredkin gates under all-to-all and linear qubit connectivity, the latter with two different routings for control and target qubits. Besides achieving the lowest CNOT counts in the literature for all these configurations, we also demonstrate the remarkable effectiveness of the obtained decompositions at mitigating coherent errors on near-term quantum computers via equivalent circuit averaging. We first quantify the performance of the method in silico with a coherent-noise model before validating it experimentally on a superconducting quantum processor. In addition, we consider the case where the three qubits on which the Toffoli or Fredkin gates act nontrivially are not adjacent, proposing a novel scheme to reorder them that saves one CNOT for every SWAP. This scheme also finds use in the shallow implementation of long-range CNOTs. Our results highlight the importance of considering different entanglement structures and connectivity constraints when designing efficient quantum circuits. | 翻訳日:2023-11-02 02:18:46 公開日:2023-10-31 |
# 感情の妥当性を理解することは、共同学習課題である Understanding Emotion Valence is a Joint Deep Learning Task ( http://arxiv.org/abs/2305.17422v2 ) ライセンス: Link先を確認 | Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi | (参考訳) 話者の発話や文章の投稿の原子価分析は、会話を通して感情状態の活性化と変動を理解するのに役立つ。
最近では、話者が感じた感情とその表現を説明するために感情キャリア(EC)の概念が導入されている。
本研究では、マルチタスク学習手法を用いて、価値とECの自然な相互依存性について検討する。
我々は、単タスク、2ステップ、およびvalenceおよびec予測タスクのジョイント設定のための事前学習された言語モデル(plm)を実験する。
生成的アーキテクチャ(GPT-2)と識別的アーキテクチャ(BERT)の性能をそれぞれ比較,評価した。
一方のタスクの真理ラベルを提供することで、他方のタスクにおけるモデルの予測性能が向上することが観察された。
さらに,識別モデルは,共同予測設定における有価値とEC予測タスクの最良のトレードオフを達成することを観察した。
その結果、両方のタスクを実行する単一のモデルが得られるため、トレーニングや推論時に計算リソースを節約できる。 The valence analysis of speakers' utterances or written posts helps to understand the activation and variations of the emotional state throughout the conversation. More recently, the concept of Emotion Carriers (EC) has been introduced to explain the emotion felt by the speaker and its manifestations. In this work, we investigate the natural inter-dependency of valence and ECs via a multi-task learning approach. We experiment with Pre-trained Language Models (PLM) for single-task, two-step, and joint settings for the valence and EC prediction tasks. We compare and evaluate the performance of generative (GPT-2) and discriminative (BERT) architectures in each setting. We observed that providing the ground truth label of one task improves the prediction performance of the models in the other task. We further observed that the discriminative model achieves the best trade-off of valence and EC prediction tasks in the joint prediction setting. As a result, we attain a single model that performs both tasks, thus, saving computation resources at training and inference times. | 翻訳日:2023-11-02 02:17:38 公開日:2023-10-31 |
# 単なる前方通過を伴う微調整言語モデル Fine-Tuning Language Models with Just Forward Passes ( http://arxiv.org/abs/2305.17333v2 ) ライセンス: Link先を確認 | Sadhika Malladi, Tianyu Gao, Eshaan Nichani, Alex Damian, Jason D. Lee, Danqi Chen, Sanjeev Arora | (参考訳) 微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは極めて大量のメモリを必要とする。
ゼロ階法(ZO)は、原則として2つの前方パスのみを用いて勾配を推定できるが、大模型を最適化するために破滅的に遅いと理論化されている。
本研究では,従来のZO-SGD法をインプレースに適応させたメモリ効率の高いゼロオーダー最適化器(MeZO)を提案する。
例えば、単一のa100 80gb gpuでは、30億のパラメータモデルをトレーニングできるが、バックプロパゲーションによる微調整では、同じ予算で2.7b lmしかトレーニングできない。
モデルタイプ(マストおよび自己回帰型lms)、モデルスケール(最大66b)、下流タスク(分類、多重化、生成)にまたがる包括的な実験を行う。
Our results demonstrate that (1) MeZO significantly outperforms in-context learning and linear probing; (2) MeZO achieves comparable performance to fine-tuning with backpropagation across multiple tasks, with up to 12x memory reduction and up to 2x GPU-hour reduction in our implementation; (3) MeZO is compatible with both full-parameter and parameter-efficient tuning techniques such as LoRA and prefix tuning; (4) MeZO can effectively optimize non-differentiable objectives (e.g., maximizing accuracy or F1).
我々は、従来のZO分析ではそうでなかったが、MeZOがいかに十分な事前学習とタスクプロンプトが巨大なモデルを微調整できるかを強調し、理論的洞察で実証的な結果を支持する。 Fine-tuning language models (LMs) has yielded success on diverse downstream tasks, but as LMs grow in size, backpropagation requires a prohibitively large amount of memory. Zeroth-order (ZO) methods can in principle estimate gradients using only two forward passes but are theorized to be catastrophically slow for optimizing large models. In this work, we propose a memory-efficient zerothorder optimizer (MeZO), adapting the classical ZO-SGD method to operate in-place, thereby fine-tuning LMs with the same memory footprint as inference. For example, with a single A100 80GB GPU, MeZO can train a 30-billion parameter model, whereas fine-tuning with backpropagation can train only a 2.7B LM with the same budget. We conduct comprehensive experiments across model types (masked and autoregressive LMs), model scales (up to 66B), and downstream tasks (classification, multiple-choice, and generation). Our results demonstrate that (1) MeZO significantly outperforms in-context learning and linear probing; (2) MeZO achieves comparable performance to fine-tuning with backpropagation across multiple tasks, with up to 12x memory reduction and up to 2x GPU-hour reduction in our implementation; (3) MeZO is compatible with both full-parameter and parameter-efficient tuning techniques such as LoRA and prefix tuning; (4) MeZO can effectively optimize non-differentiable objectives (e.g., maximizing accuracy or F1). We support our empirical findings with theoretical insights, highlighting how adequate pre-training and task prompts enable MeZO to fine-tune huge models, despite classical ZO analyses suggesting otherwise. | 翻訳日:2023-11-02 02:17:23 公開日:2023-10-31 |
# 水平再生:大きな値域を持つ時系列データのための新しい可視化設計 Reclaiming the Horizon: Novel Visualization Designs for Time-Series Data with Large Value Ranges ( http://arxiv.org/abs/2307.10278v2 ) ライセンス: Link先を確認 | Daniel Braun, Rita Borgo, Max Sondag, Tatiana von Landesberger | (参考訳) 本研究では, 時系列データにおいて, 大きな値範囲(数桁)における識別・識別タスクの実行を支援するために, 古典的な水平線グラフを拡張する等級の水平線グラフの順序と, ログラインチャートに適応した等級の直線グラフの順序の2つの新しい可視化設計を提案する。
これらの新しい視覚化設計は、値 v = m * 10e のマティーサ m と指数 e を明示的に分割することによって、大きな値範囲を視覚化する。
我々は,経験的ユーザスタディにおいて,最も関連する最先端の可視化手法に対して,新たな設計を評価する。
時系列分析と大きな値範囲の可視化に一般的に用いられる4つの主なタスク、識別、識別、推定、トレンド検出に焦点を当てている。
各タスクに対して、エラー、信頼、レスポンスタイムを分析します。
新しい等級地平線グラフは、識別、識別、推定タスクにおいて、他のすべての設計より優れているか同等である。
トレンド検出タスクのみの場合、従来のホライズングラフの方がパフォーマンスが向上した。
我々の結果はドメインに依存しず、大きな値範囲の時系列データのみを必要とする。 We introduce two novel visualization designs to support practitioners in performing identification and discrimination tasks on large value ranges (i.e., several orders of magnitude) in time-series data: (1) The order of magnitude horizon graph, which extends the classic horizon graph; and (2) the order of magnitude line chart, which adapts the log-line chart. These new visualization designs visualize large value ranges by explicitly splitting the mantissa m and exponent e of a value v = m * 10e . We evaluate our novel designs against the most relevant state-of-the-art visualizations in an empirical user study. It focuses on four main tasks commonly employed in the analysis of time-series and large value ranges visualization: identification, discrimination, estimation, and trend detection. For each task we analyse error, confidence, and response time. The new order of magnitude horizon graph performs better or equal to all other designs in identification, discrimination, and estimation tasks. Only for trend detection tasks, the more traditional horizon graphs reported better performance. Our results are domain-independent, only requiring time-series data with large value ranges. | 翻訳日:2023-11-02 02:06:38 公開日:2023-10-31 |
# 分極化学におけるパウリ原理 Pauli principle in polaritonic chemistry ( http://arxiv.org/abs/2307.03508v3 ) ライセンス: Link先を確認 | Tam\'as Szidarovszky | (参考訳) キャビティの量子化された放射モードと相互作用する分子アンサンブルの状態空間における、パウリ原理(スピン統計定理)によって要求される置換対称性の強制について論じる。
パウリが許容する集合状態は、群論、すなわち、状態空間を区別不能な分子の置換群の適切な既約表現に射影することによって得られる。
分子数の増加に伴い,パウリが許容する集団状態の比は急速に減少することが示された。
ボゾン状態はフェルミオン状態よりも豊富であり、パウリが許容する状態空間(光子励起状態からの寄与)の明るさは、物質基底(励起)状態多様体のエネルギー準位において微細な構造を増すにつれて増大(減少)する。
数値的な結果は、赤外線キャビティモードと相互作用するH$_2$O分子を緩和する現実的な例を示す。 Consequences of enforcing permutational symmetry, as required by the Pauli principle (spin-statistical theorem), on the state space of molecular ensembles interacting with the quantized radiation mode of a cavity are discussed. The Pauli-allowed collective states are obtained by means of group theory, i.e., by projecting the state space onto the appropriate irreducible representations of the permutation group of the indistinguishable molecules. It is shown that with increasing number of molecules the ratio of Pauli-allowed collective states decreases very rapidly. Bosonic states are more abundant than fermionic states, and the brightness of Pauli-allowed state space (contribution from photon excited states) increases(decreases) with increasing fine structure in the energy levels of the material ground(excited) state manifold. Numerical results are shown for the realistic example of rovibrating H$_2$O molecules interacting with an infrared (IR) cavity mode. | 翻訳日:2023-11-02 02:06:03 公開日:2023-10-31 |
# ネットワーク側情報を用いた高次元線形回帰におけるベイズ最適学習 Bayes optimal learning in high-dimensional linear regression with network side information ( http://arxiv.org/abs/2306.05679v3 ) ライセンス: Link先を確認 | Sagnik Nandy and Subhabrata Sen | (参考訳) ネットワークの形でサイド情報を持つ教師付き学習問題は、ゲノム学、プロテオミクス、神経科学の分野で頻繁に発生する。
例えば、遺伝的応用において、ネットワーク側情報は、関連する遺伝子間の複雑な関係に関する背景生物学的情報を正確に捉えることができる。
本稿では,ネットワーク側情報を含む高次元線形回帰におけるベイズ最適学習の研究を開始する。
この目的のために、まず、教師付きデータと観測されたネットワークの共分散を共通の潜在パラメータ集合を通して仮定する単純な生成モデル(Reg-Graphモデル)を導入する。
次に,非常に一般的な条件下で最適である近似メッセージパッシング(amp)に基づく反復アルゴリズムを提案する。
さらに、潜時信号と観測したデータとの相互情報の制限を特徴付け、ネットワーク側情報の統計的影響を正確に定量化する。
最後に,提案アルゴリズムは有限サンプルにおいて優れた性能を示すことを示す。 Supervised learning problems with side information in the form of a network arise frequently in applications in genomics, proteomics and neuroscience. For example, in genetic applications, the network side information can accurately capture background biological information on the intricate relations among the relevant genes. In this paper, we initiate a study of Bayes optimal learning in high-dimensional linear regression with network side information. To this end, we first introduce a simple generative model (called the Reg-Graph model) which posits a joint distribution for the supervised data and the observed network through a common set of latent parameters. Next, we introduce an iterative algorithm based on Approximate Message Passing (AMP) which is provably Bayes optimal under very general conditions. In addition, we characterize the limiting mutual information between the latent signal and the data observed, and thus precisely quantify the statistical impact of the network side information. Finally, supporting numerical experiments suggest that the introduced algorithm has excellent performance in finite samples. | 翻訳日:2023-11-02 02:03:42 公開日:2023-10-31 |
# 分散学習システムにおける学習機会の削減 Get More for Less in Decentralized Learning Systems ( http://arxiv.org/abs/2306.04377v2 ) ライセンス: Link先を確認 | Akash Dhasade, Anne-Marie Kermarrec, Rafael Pires, Rishi Sharma, Milos Vujasinovic, Jeffrey Wigger | (参考訳) 分散学習(dl)システムは、モデルパラメータのみを通信することで生のデータ共有を避け、データの機密性を維持するため、人気を集めている。
しかし、ディープニューラルネットワークの大規模化は、各ノードがギガバイトのデータを交換し、ネットワークをオーバーロードする必要があるため、分散トレーニングにおいて大きな課題となる。
本稿では,通信効率が高く,分散化された学習システムであるJWINSを用いて,この課題に対処する。
jwinsはwavelet変換を使用して、スパースフィケーションによる情報損失と、トレーニングされたモデルのパフォーマンスを損なうことなく通信使用量を削減するランダム化された通信カットオフを制限する。
96のDLノードを非IIDデータセット上で実証的に示し、JWINSは最大64%のバイトを送信しながら、完全共有DLと類似の精度を達成できることを示した。
さらに、通信予算の低さから、JWINSは、最先端の通信効率の高いDLアルゴリズムであるCHOCO-SGDをネットワークの節約と時間で最大4倍に向上させる。 Decentralized learning (DL) systems have been gaining popularity because they avoid raw data sharing by communicating only model parameters, hence preserving data confidentiality. However, the large size of deep neural networks poses a significant challenge for decentralized training, since each node needs to exchange gigabytes of data, overloading the network. In this paper, we address this challenge with JWINS, a communication-efficient and fully decentralized learning system that shares only a subset of parameters through sparsification. JWINS uses wavelet transform to limit the information loss due to sparsification and a randomized communication cut-off that reduces communication usage without damaging the performance of trained models. We demonstrate empirically with 96 DL nodes on non-IID datasets that JWINS can achieve similar accuracies to full-sharing DL while sending up to 64% fewer bytes. Additionally, on low communication budgets, JWINS outperforms the state-of-the-art communication-efficient DL algorithm CHOCO-SGD by up to 4x in terms of network savings and time. | 翻訳日:2023-11-02 02:03:29 公開日:2023-10-31 |
# テンプレートフリーのarticulated neural point clouds for reposable view synthesis Template-free Articulated Neural Point Clouds for Reposable View Synthesis ( http://arxiv.org/abs/2305.19065v2 ) ライセンス: Link先を確認 | Lukas Uzolas, Elmar Eisemann, Petr Kellnhofer | (参考訳) 動的ニューラルラジアンス場(NeRF)は、時間進化する3Dシーンの新たなビューを合成する際に、目覚ましい視覚的品質を達成する。
しかし、後方変形場への共通依存は、捕獲された物体の再アニメーションを難しくする。
さらに、アートダイナミックモデルの状態は、しばしば、低い視覚的忠実度、長い再構築時間、狭いアプリケーションドメインに対する特異性によって制限される。
本稿では,ポイントベース表現とリニアブレンドスキニング(LBS)を用いた新しい手法を提案する。
提案手法は,既存の作業に比べて学習時間を大幅に削減しながら,新たなビューやポーズを合成する時の最先端の視覚的忠実性を実現する。
共通データセットから多種多種多種多種多様オブジェクトへの表現の汎用性を実証し,オブジェクト固有の骨格テンプレートを必要とせずに再現可能な3D再構成を実現する。
コードはhttps://github.com/lukasuz/Articulated-Point-NeRFで公開される。 Dynamic Neural Radiance Fields (NeRFs) achieve remarkable visual quality when synthesizing novel views of time-evolving 3D scenes. However, the common reliance on backward deformation fields makes reanimation of the captured object poses challenging. Moreover, the state of the art dynamic models are often limited by low visual fidelity, long reconstruction time or specificity to narrow application domains. In this paper, we present a novel method utilizing a point-based representation and Linear Blend Skinning (LBS) to jointly learn a Dynamic NeRF and an associated skeletal model from even sparse multi-view video. Our forward-warping approach achieves state-of-the-art visual fidelity when synthesizing novel views and poses while significantly reducing the necessary learning time when compared to existing work. We demonstrate the versatility of our representation on a variety of articulated objects from common datasets and obtain reposable 3D reconstructions without the need of object-specific skeletal templates. Code will be made available at https://github.com/lukasuz/Articulated-Point-NeRF. | 翻訳日:2023-11-02 02:03:12 公開日:2023-10-31 |
# 信仰とフェイト:構成性に関するトランスフォーマーの限界 Faith and Fate: Limits of Transformers on Compositionality ( http://arxiv.org/abs/2305.18654v3 ) ライセンス: Link先を確認 | Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jiang, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi | (参考訳) transformer large language models (llms) は、複雑なマルチステップ推論を必要とするタスクにおける例外的なパフォーマンスを賞賛している。
しかし、これらのモデルは驚くほど自明な問題に対して同時に失敗を示す。
これらのエラーは偶発的か、それともより重大な制限を示すのか?
変圧器のLSMをデミスティフィケートする試みとして,多桁乗算,論理グリッドパズル,古典的動的プログラミング問題という3つの代表的な構成課題にまたがるモデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
合成タスクを計算グラフとして定式化し、複雑性のレベルを体系的に定量化し、推論ステップを中間のサブ手続きに分割する。
我々の経験的知見は,多段階合成推論を線形化部分グラフマッチングに還元することで,トランスフォーマー LLM が構成課題を解くことを示唆している。
経験的な研究をまとめるために、我々は、自己回帰世代のパフォーマンスが\,increased\,task\,complexityで急速に崩壊することを示す抽象的な多段階推論問題について理論的議論を行う。 Transformer large language models (LLMs) have sparked admiration for their exceptional performance on tasks that demand intricate multi-step reasoning. Yet, these models simultaneously show failures on surprisingly trivial problems. This begs the question: Are these errors incidental, or do they signal more substantial limitations? In an attempt to demystify transformer LLMs, we investigate the limits of these models across three representative compositional tasks -- multi-digit multiplication, logic grid puzzles, and a classic dynamic programming problem. These tasks require breaking problems down into sub-steps and synthesizing these steps into a precise answer. We formulate compositional tasks as computation graphs to systematically quantify the level of complexity, and break down reasoning steps into intermediate sub-procedures. Our empirical findings suggest that transformer LLMs solve compositional tasks by reducing multi-step compositional reasoning into linearized subgraph matching, without necessarily developing systematic problem-solving skills. To round off our empirical study, we provide theoretical arguments on abstract multi-step reasoning problems that highlight how autoregressive generations' performance can rapidly decay with\,increased\,task\,complexity. | 翻訳日:2023-11-02 02:02:53 公開日:2023-10-31 |
# ブラウン運動前のスパース変分ガウス過程回帰のポイントワイズ不確実性定量化 Pointwise uncertainty quantification for sparse variational Gaussian process regression with a Brownian motion prior ( http://arxiv.org/abs/2310.00097v3 ) ライセンス: Link先を確認 | Luke Travis, Kolyan Ray | (参考訳) 固有ベクトル誘導変数を用いたスパース変分ガウス過程の点推定と不確実性定量化について検討した。
再スケールされたブラウン運動は、理論的な保証と、ポイントワイズ信頼集合の頻繁なサイズとカバレッジの限界を導出する。
十分多くの変数を誘導するために、我々は漸近的頻繁なカバレッジを正確に特徴付け、この変分法から信頼できる集合が保守的であるとき、そして過信/誤解しているときを推論する。
結果の適用性を数値的に説明し、他の一般的なガウス過程との関連性について議論する。 We study pointwise estimation and uncertainty quantification for a sparse variational Gaussian process method with eigenvector inducing variables. For a rescaled Brownian motion prior, we derive theoretical guarantees and limitations for the frequentist size and coverage of pointwise credible sets. For sufficiently many inducing variables, we precisely characterize the asymptotic frequentist coverage, deducing when credible sets from this variational method are conservative and when overconfident/misleading. We numerically illustrate the applicability of our results and discuss connections with other common Gaussian process priors. | 翻訳日:2023-11-02 01:54:29 公開日:2023-10-31 |
# 量子速度ゆがみ関数の効率的な計算 Efficient Computation of the Quantum Rate-Distortion Function ( http://arxiv.org/abs/2309.15919v2 ) ライセンス: Link先を確認 | Kerry He, James Saunderson, Hamza Fawzi | (参考訳) 量子速度ゆらぎ関数は量子情報理論において基本的な役割を果たすが、この関数を適度なチャネル次元に対して高い精度で効率的に計算できる実用的なアルゴリズムは存在しない。
本稿では, 対称性の低下が, 絡み合い支援型量子速度歪み問題の一般的な事例をいかに単純化するかを示す。
これにより、使用される数値アルゴリズムに関係なくより効率的な計算が可能となり、最適なレート・ディストリクトトレードオフを得る量子チャネルについての洞察が得られる。
さらに,証明可能な部分線形収束率を持つ量子レートゆらぎ関数を計算するために,ミラー降下アルゴリズムの非現実的変種を提案する。
本稿では,このミラー降下アルゴリズムがBlahut-Arimotoとどのように関係しているかを示す。
これらの手法を用いて,マルチキュービット量子レート歪み関数を計算した最初の数値実験を行い,提案アルゴリズムが既存手法と比較して高速かつ高精度に解くことを示す。 The quantum rate-distortion function plays a fundamental role in quantum information theory, however there is currently no practical algorithm which can efficiently compute this function to high accuracy for moderate channel dimensions. In this paper, we show how symmetry reduction can significantly simplify common instances of the entanglement-assisted quantum rate-distortion problems. This allows for more efficient computation regardless of the numerical algorithm being used, and provides insight into the quantum channels which obtain the optimal rate-distortion tradeoff. Additionally, we propose an inexact variant of the mirror descent algorithm to compute the quantum rate-distortion function with provable sublinear convergence rates. We show how this mirror descent algorithm is related to Blahut-Arimoto and expectation-maximization methods previously used to solve similar problems in information theory. Using these techniques, we present the first numerical experiments to compute a multi-qubit quantum rate-distortion function, and show that our proposed algorithm solves faster and to higher accuracy when compared to existing methods. | 翻訳日:2023-11-02 01:54:20 公開日:2023-10-31 |
# 深部保存アテンションネットワークを用いた不安定重粒子の再構成 Reconstruction of Unstable Heavy Particles Using Deep Symmetry-Preserving Attention Networks ( http://arxiv.org/abs/2309.01886v2 ) ライセンス: Link先を確認 | Michael James Fenton, Alexander Shmakov, Hideki Okawa, Yuji Li, Ko-Yang Hsiao, Shih-Chieh Hsu, Daniel Whiteson, Pierre Baldi | (参考訳) 不安定な重粒子を再構成するには、検出対象を下層のパルトンに割り当てるために、多数の可能な置換を行う高度な技術が必要である。
一般化された注意機構に基づくアプローチである対称性保存注意ネットワーク(spa-net)は、ハドロンジェットのみを生成する大型ハドロン衝突型加速器におけるトップクォーク対崩壊に適用されている。
ここでは、spa-netアーキテクチャを拡張して、レプトンのような複数の入力オブジェクトタイプと、欠落する横運動量のようなグローバルなイベント機能を検討する。
さらに、partonの割り当てを補完するために回帰と分類アウトプットを提供する。
本研究では,トップクォーク対とトップクォーク対をヒッグス粒子と関連づけた半レプトニック崩壊の文脈において,スパネットの拡張能力の性能について検討する。
ttHの探索,トップクォーク質量の測定,およびトップクォーク対に崩壊する重いZ'の探索という,3つの代表的な研究の力の大幅な改善を見出した。
それぞれのケースでネットワークが何を学んだかを知るためのアブレーション研究を紹介する。 Reconstructing unstable heavy particles requires sophisticated techniques to sift through the large number of possible permutations for assignment of detector objects to the underlying partons. An approach based on a generalized attention mechanism, symmetry preserving attention networks (Spa-Net), has been previously applied to top quark pair decays at the Large Hadron Collider which produce only hadronic jets. Here we extend the Spa-Net architecture to consider multiple input object types, such as leptons, as well as global event features, such as the missing transverse momentum. In addition, we provide regression and classification outputs to supplement the parton assignment. We explore the performance of the extended capability of Spa-Net in the context of semi-leptonic decays of top quark pairs as well as top quark pairs produced in association with a Higgs boson. We find significant improvements in the power of three representative studies: a search for ttH, a measurement of the top quark mass, and a search for a heavy Z' decaying to top quark pairs. We present ablation studies to provide insight on what the network has learned in each case. | 翻訳日:2023-11-02 01:52:28 公開日:2023-10-31 |
# SE(3) 等変拡大結合流 SE(3) Equivariant Augmented Coupling Flows ( http://arxiv.org/abs/2308.10364v2 ) ライセンス: Link先を確認 | Laurence I. Midgley and Vincent Stimper and Javier Antor\'an and Emile Mathieu and Bernhard Sch\"olkopf and Jos\'e Miguel Hern\'andez-Lobato | (参考訳) 結合正規化フローは高速サンプリングと密度評価を可能にし、物理システムの確率的モデリングに最適なツールとなる。
しかし、標準結合構造は、se(3)と物理系の置換不変性を持つ原子の直交座標上で作用する内転流を妨げている。
本研究は,SE(3)と置換等式を付加次元に沿って座標分割して保持する結合流を提案する。
各層において、フローは原子の位置を学習されたSE(3)不変基底にマッピングし、そこではモノトニックな有理クアドラティックスプラインのような標準フロー変換を適用し、元の基底に戻る。
重要な点として,我々のフローは高速サンプリングと密度評価を保ち,重要サンプリングによる目標分布に対する予測の偏りのない推定を行うのに有用である。
DW4, LJ13, QM9-ポジションデータセットでトレーニングすると, 流れは等変連続正規化フローと競合すると同時に, 1桁以上のサンプリングを高速に行うことができる。
さらに、我々の知る限りでは、我々は、その原子のカルテシアン位置のみをモデル化することによって、初めて、アラニンジペプチドのボルツマン分布を学習する。
最後に,DW4粒子系とLJ13粒子系のボルツマン分布から,エネルギー関数のみを用いて,我々の流れをおよそサンプルとしてトレーニングできることを実証した。 Coupling normalizing flows allow for fast sampling and density evaluation, making them the tool of choice for probabilistic modeling of physical systems. However, the standard coupling architecture precludes endowing flows that operate on the Cartesian coordinates of atoms with the SE(3) and permutation invariances of physical systems. This work proposes a coupling flow that preserves SE(3) and permutation equivariance by performing coordinate splits along additional augmented dimensions. At each layer, the flow maps atoms' positions into learned SE(3) invariant bases, where we apply standard flow transformations, such as monotonic rational-quadratic splines, before returning to the original basis. Crucially, our flow preserves fast sampling and density evaluation, and may be used to produce unbiased estimates of expectations with respect to the target distribution via importance sampling. When trained on the DW4, LJ13, and QM9-positional datasets, our flow is competitive with equivariant continuous normalizing flows, while allowing sampling more than an order of magnitude faster. Moreover, to the best of our knowledge, we are the first to learn the full Boltzmann distribution of alanine dipeptide by only modeling the Cartesian positions of its atoms. Lastly, we demonstrate that our flow can be trained to approximately sample from the Boltzmann distribution of the DW4 and LJ13 particle systems using only their energy functions. | 翻訳日:2023-11-02 01:52:10 公開日:2023-10-31 |
# スパース・リワードとスパース・インタラクションによる品質多様性:ロボットのグラスピングへの応用 Quality Diversity under Sparse Reward and Sparse Interaction: Application to Grasping in Robotics ( http://arxiv.org/abs/2308.05483v2 ) ライセンス: Link先を確認 | J. Huber, F. H\'el\'enon, M. Coninx, F. Ben Amar, S. Doncieux | (参考訳) QD法(Quality-Diversity Method)は、与えられた問題に対して多種多様な高性能なソリューションセットを生成することを目的としたアルゴリズムである。
もともと進化ロボティクスのために開発されたqd研究のほとんどは限られた領域で行われ、主に運動に応用され、フィットネスと行動信号が密集している。
グラッピングはロボットの操作にとって重要なタスクだ。
多くの研究コミュニティの努力にもかかわらず、この課題はまだ解決されていない。
グラッピングはQD文学における前例のない課題を累積し、報酬の幅、行動の幅、行動空間のずれに悩まされる。
本研究は,QDが把握にどう対処できるかを考察する。
2つの異なるロボットグリッパーと5つの標準オブジェクトに対応する10の把持領域に関する15の異なる方法に関する実験が行われた。
アルゴリズムと内部コンポーネントを区別する評価フレームワークも,公正な比較のために提案されている。
その結果, 提案手法を優先的に選択したMAP-Elites変種は, 比較手法の全てを大きなマージンで上回ることがわかった。
また,スパース相互作用が偽りの新規性をもたらすという実験的証拠も見いだした。
私たちの知識では,本研究で実証された把持軌跡の例を効率的に生成する能力は,文献に先例がない。 Quality-Diversity (QD) methods are algorithms that aim to generate a set of diverse and high-performing solutions to a given problem. Originally developed for evolutionary robotics, most QD studies are conducted on a limited set of domains - mainly applied to locomotion, where the fitness and the behavior signal are dense. Grasping is a crucial task for manipulation in robotics. Despite the efforts of many research communities, this task is yet to be solved. Grasping cumulates unprecedented challenges in QD literature: it suffers from reward sparsity, behavioral sparsity, and behavior space misalignment. The present work studies how QD can address grasping. Experiments have been conducted on 15 different methods on 10 grasping domains, corresponding to 2 different robot-gripper setups and 5 standard objects. An evaluation framework that distinguishes the evaluation of an algorithm from its internal components has also been proposed for a fair comparison. The obtained results show that MAP-Elites variants that select successful solutions in priority outperform all the compared methods on the studied metrics by a large margin. We also found experimental evidence that sparse interaction can lead to deceptive novelty. To our knowledge, the ability to efficiently produce examples of grasping trajectories demonstrated in this work has no precedent in the literature. | 翻訳日:2023-11-02 01:51:23 公開日:2023-10-31 |
# グラフニューラルネットワークを用いた表面メッシュからの体脂肪推定 Body Fat Estimation from Surface Meshes using Graph Neural Networks ( http://arxiv.org/abs/2308.02493v3 ) ライセンス: Link先を確認 | Tamara T. Mueller, Siyu Zhou, Sophie Starck, Friederike Jungmann, Alexander Ziller, Orhun Aksoy, Danylo Movchan, Rickmer Braren, Georgios Kaissis, Daniel Rueckert | (参考訳) 体脂肪の量と分布は、患者の健康状態および2型糖尿病や心血管疾患などの疾患の発症リスクの強い兆候である。
脂肪推定によく用いられる指標は、BMI(Body mass index)、腰周囲、腰ヒップ比である。
しかし、これらはむしろ不正確な手段であり、異なる種類の脂肪と脂肪と筋肉組織の区別を許さない。
腹腔内(vat)および腹部皮下(asat)脂肪組織量の推定は,より正確な危険因子の指標であることが示された。
本研究では, グラフニューラルネットワークを用いて, VATおよびASATボリュームを正確に予測するために, 三角体表面メッシュを使用できることを示す。
本手法は,この領域の最先端畳み込みニューラルネットワークと比較して,トレーニング時間と必要なリソースを削減しつつ高い性能を実現する。
さらに,この手法は高価な医用画像ではなく,安価で手軽にアクセスできる医用表面スキャンに適用できると考えられる。 Body fat volume and distribution can be a strong indication for a person's overall health and the risk for developing diseases like type 2 diabetes and cardiovascular diseases. Frequently used measures for fat estimation are the body mass index (BMI), waist circumference, or the waist-hip-ratio. However, those are rather imprecise measures that do not allow for a discrimination between different types of fat or between fat and muscle tissue. The estimation of visceral (VAT) and abdominal subcutaneous (ASAT) adipose tissue volume has shown to be a more accurate measure for named risk factors. In this work, we show that triangulated body surface meshes can be used to accurately predict VAT and ASAT volumes using graph neural networks. Our methods achieve high performance while reducing training time and required resources compared to state-of-the-art convolutional neural networks in this area. We furthermore envision this method to be applicable to cheaper and easily accessible medical surface scans instead of expensive medical images. | 翻訳日:2023-11-02 01:51:02 公開日:2023-10-31 |
# 土木構造物のためのデジタルツインフレームワーク A digital twin framework for civil engineering structures ( http://arxiv.org/abs/2308.01445v2 ) ライセンス: Link先を確認 | Matteo Torzoni and Marco Tezzele and Stefano Mariani and Andrea Manzoni and Karen E. Willcox | (参考訳) デジタルツインの概念は、シビルエンジニアリングシステムの条件ベースおよび予測保守パラダイムを前進させ、ライフサイクルコストの削減、システム安全性の向上、システム可用性の向上を可能にする魅力的な機会である。
本研究は,土木構造物の健康管理,維持管理,管理計画に関する予測的デジタルツインアプローチを提案する。
アセット・トウィン結合力学系は確率的グラフィカルモデルを用いて符号化され、関連する全ての不確実性源を考慮に入れることができる。
特に,動的ベイズネットワークを用いて時間繰り返し観測-決定フローをモデル化する。
リアルタイムな構造的健康診断は、センシングされたデータをディープラーニングモデルに同化することで実現される。
デジタルツイン状態はシーケンシャルベイズ推論方式で継続的に更新される。
これは、動的意思決定フレームワークにおける保守および管理アクションの最適な計画に使用される。
予備オフラインフェーズは、減数次数値モデルによるトレーニングデータセットの人口と、健康依存制御ポリシーの計算を含む。
この戦略は、カンチレバービームと鉄道橋を含む2つの合成ケーススタディで評価され、健康対応デジタル双生児の動的な意思決定能力を示している。 The digital twin concept represents an appealing opportunity to advance condition-based and predictive maintenance paradigms for civil engineering systems, thus allowing reduced lifecycle costs, increased system safety, and increased system availability. This work proposes a predictive digital twin approach to the health monitoring, maintenance, and management planning of civil engineering structures. The asset-twin coupled dynamical system is encoded employing a probabilistic graphical model, which allows all relevant sources of uncertainty to be taken into account. In particular, the time-repeating observations-to-decisions flow is modeled using a dynamic Bayesian network. Real-time structural health diagnostics are provided by assimilating sensed data with deep learning models. The digital twin state is continually updated in a sequential Bayesian inference fashion. This is then exploited to inform the optimal planning of maintenance and management actions within a dynamic decision-making framework. A preliminary offline phase involves the population of training datasets through a reduced-order numerical model and the computation of a health-dependent control policy. The strategy is assessed on two synthetic case studies, involving a cantilever beam and a railway bridge, demonstrating the dynamic decision-making capabilities of health-aware digital twins. | 翻訳日:2023-11-02 01:50:45 公開日:2023-10-31 |
# Bio Image.IO Chatbot: コミュニティ知識ベースによるバイオ画像分析のためのパーソナライズされたアシスタント BioImage.IO Chatbot: A Personalized Assistant for BioImage Analysis Augmented by Community Knowledge Base ( http://arxiv.org/abs/2310.18351v2 ) ライセンス: Link先を確認 | Wanlu Lei, Caterina Fuster-Barcel\'o, Arrate Mu\~noz-Barrutia, Wei Ouyang | (参考訳) バイオイメージ分析ツールの急速な発展は、専門家と新参者の両方にとってナビゲーション上の課題となる。
従来の検索手法は、この複雑な環境でユーザーを助けるのに不足することが多い。
これを解決するために、BioImage$を紹介します。
$IO ChatbotはAIによる会話アシスタントで、バイオ画像のコミュニティ向けに作られた。
大規模な言語モデルに基づいて構築されたこのチャットボットは、さまざまなデータベースやツール固有のドキュメント、構造化データソースからの情報を集約して解釈することで、パーソナライズされたコンテキスト対応の回答を提供する。
コミュニティに分散した知識ベースと微調整された検索方法によって強化されたバイオイメージ$。
$IO Chatbotは、パーソナライズされたインタラクションだけでなく、知識に富んだコンテキスト認識エクスペリエンスを提供する。
これは、生物学者、生物画像分析者、および開発者が高度な生物画像分析ツールをナビゲートし利用する方法を根本的に変え、コミュニティ主導でアクセス可能な科学研究の新しい標準を設定します。 The rapidly expanding landscape of bioimage analysis tools presents a navigational challenge for both experts and newcomers. Traditional search methods often fall short in assisting users in this complex environment. To address this, we introduce the BioImage$.$IO Chatbot, an AI-driven conversational assistant tailored for the bioimage community. Built upon large language models, this chatbot provides personalized, context-aware answers by aggregating and interpreting information from diverse databases, tool-specific documentation, and structured data sources. Enhanced by a community-contributed knowledge base and fine-tuned retrieval methods, the BioImage$.$IO Chatbot offers not just a personalized interaction but also a knowledge-enriched, context-aware experience. It fundamentally transforms the way biologists, bioimage analysts, and developers navigate and utilize advanced bioimage analysis tools, setting a new standard for community-driven, accessible scientific research. | 翻訳日:2023-11-02 01:41:29 公開日:2023-10-31 |
# 局所量子場の経路積分による粒子検出器モデル Particle detector models from path integrals of localized quantum fields ( http://arxiv.org/abs/2310.16083v2 ) ライセンス: Link先を確認 | Bruno de S. L. Torres | (参考訳) シュウィンガー・ケルディッシュ経路積分を用いて、相対論的量子情報 (rqi) における局所量子場理論とより一般的な局所プローブのモデルとの接続を描く。
プローブとして使用される局所化された場の到達不能モードを積分して追跡することにより、摂動理論の先頭の順において、プローブ場の有限個のモードのダイナミクスは、ちょうど有限個の調和振動子unruh-dewitt(udw)検出器のそれであることを示す。
等価性は、プローブターゲット場系の入力状態の比較的一般的なクラスと、検出器として含む任意の数のモードに対して有効である。
経路積分はまた、追跡された追加モードの存在により摂動理論のより高い順序でUDWモデルの補正を得る体系的な方法を与える閉形式式も提供する。
このアプローチは、最近提案された量子場理論(arXiv:2308.11698)のための検出器ベースとフィールド理論ベースの測定フレームワークの間の橋渡しと拡張し、また、経路積分法がより一般的な分野であるRQIと他の物理学領域における粒子検出器モデルの間の潜在的な接続を指している。 Using the Schwinger-Keldysh path integral, we draw a connection between localized quantum field theories and more commonly used models of local probes in Relativistic Quantum Information (RQI). By integrating over and then tracing out the inaccessible modes of the localized field being used as a probe, we show that, at leading order in perturbation theory, the dynamics of any finite number of modes of the probe field is exactly that of a finite number of harmonic-oscillator Unruh-DeWitt (UDW) detectors. The equivalence is valid for a rather general class of input states of the probe-target field system, as well as for any arbitrary number of modes included as detectors. The path integral also provides a closed-form expression which gives us a systematic way of obtaining the corrections to the UDW model at higher orders in perturbation theory due to the existence of the additional modes that have been traced out. This approach vindicates and extends a recently proposed bridge between detector-based and field-theory-based measurement frameworks for quantum field theory [arXiv:2308.11698], and also points to potential connections between particle detector models in RQI and other areas of physics where path integral methods are more commonplace -- in particular, the Wilsonian approach to the renormalization group and effective field theories. | 翻訳日:2023-11-02 01:40:36 公開日:2023-10-31 |
# 線形電磁界におけるウィグナー輸送 Wigner transport in linear electromagnetic fields ( http://arxiv.org/abs/2310.08376v2 ) ライセンス: Link先を確認 | Clemens Etl, Mauro Ballicchia, Mihail Nedjalkov, Josef Weinbub | (参考訳) 電磁場中のウィグナー関数の進化方程式にワイル・ストラトノヴィッチ変換を適用すると、数値的に非常に解くのが難しい多次元ゲージ不変方程式が得られる。
本研究では,線形電磁場に対する仮定と平面内の電子の進化(二次元輸送)を適用し,その複雑さを低減し,ゲージ不変ウィグナー方程式を用いて最初の経験を得る。
方程式解析を行い、高階微分を解くための有限差分法がフレドホルム積分方程式への再構成を可能にすることを示す。
後者の可解展開は連続積分を含み、モンテカルロの解法に有利である。
そこで本研究では,一般物理量の平均やウィグナー関数を直接評価する2つの確率的 (monte carlo) アルゴリズムを提案する。
このアルゴリズムは、量子輸送をヒューリスティックな言葉で解釈する量子粒子モデルを生み出す。 Applying a Weyl-Stratonovich transform to the evolution equation of the Wigner function in an electromagnetic field yields a multidimensional gauge-invariant equation which is numerically very challenging to solve. In this work, we apply simplifying assumptions for linear electromagnetic fields and the evolution of an electron in a plane (two-dimensional transport), which reduces the complexity and enables to gain first experiences with a gauge-invariant Wigner equation. We present an equation analysis and show that a finite difference approach for solving the high-order derivatives allows for reformulation into a Fredholm integral equation. The resolvent expansion of the latter contains consecutive integrals, which is favorable for Monte Carlo solution approaches. To that end, we present two stochastic (Monte Carlo) algorithms that evaluate averages of generic physical quantities or directly the Wigner function. The algorithms give rise to a quantum particle model, which interprets quantum transport in heuristic terms. | 翻訳日:2023-11-02 01:38:27 公開日:2023-10-31 |
# NoxTrader:LSTMに基づく量的トレーディングのためのストックリターンモーメント予測 NoxTrader: LSTM-Based Stock Return Momentum Prediction for Quantitative Trading ( http://arxiv.org/abs/2310.00747v2 ) ライセンス: Link先を確認 | Hsiang-Hui Liu, Han-Jay Shu, Wei-Ning Chiu | (参考訳) noxtraderは、ポートフォリオ構築と取引実行のために設計された洗練されたシステムで、株式市場で利益を上げることを主な目的とし、特に中長期の利益を産出することを目的としています。
noxtraderの基本的な学習プロセスは、歴史的取引データから得られた貴重な洞察の同化であり、特にデータセットの性質から時系列分析に焦点を当てている。
当社のアプローチでは,米国株式市場の価格とボリュームデータを機能工学に活用し,リターンモーメント,週価格モーメント,月価格モーメントなどの効果的な機能を生み出す。
我々は、長期記憶モデルを選択して、継続的な価格トレンドを捉え、取引実行プロセス中に動的モデル更新を実装し、現在の市場動向に継続的に適応できるようにします。
特に、予測スコアに基づいてポートフォリオを管理し、カスタム評価指標を利用して取引実績の徹底的な評価を行うことができる包括的取引バックテストシステム、NoxTraderを開発した。
厳密な特徴工学と予測対象の選択により,0.65~0.75の範囲で予測データを生成することができる。
最後に,予測データの分散を監視し,実際の市場データとの比較分析を行う。
フィルタリング技術を用いることで,最初の60%の投資リターンを325%に改善した。 We introduce NoxTrader, a sophisticated system designed for portfolio construction and trading execution with the primary objective of achieving profitable outcomes in the stock market, specifically aiming to generate moderate to long-term profits. The underlying learning process of NoxTrader is rooted in the assimilation of valuable insights derived from historical trading data, particularly focusing on time-series analysis due to the nature of the dataset employed. In our approach, we utilize price and volume data of US stock market for feature engineering to generate effective features, including Return Momentum, Week Price Momentum, and Month Price Momentum. We choose the Long Short-Term Memory (LSTM)model to capture continuous price trends and implement dynamic model updates during the trading execution process, enabling the model to continuously adapt to the current market trends. Notably, we have developed a comprehensive trading backtesting system - NoxTrader, which allows us to manage portfolios based on predictive scores and utilize custom evaluation metrics to conduct a thorough assessment of our trading performance. Our rigorous feature engineering and careful selection of prediction targets enable us to generate prediction data with an impressive correlation range between 0.65 and 0.75. Finally, we monitor the dispersion of our prediction data and perform a comparative analysis against actual market data. Through the use of filtering techniques, we improved the initial -60% investment return to 325%. | 翻訳日:2023-11-02 01:37:14 公開日:2023-10-31 |
# 言語モデルとニューラルレスポンス測定における構造的類似性 Structural Similarities Between Language Models and Neural Response Measurements ( http://arxiv.org/abs/2306.01930v2 ) ライセンス: Link先を確認 | Jiaang Li, Antonia Karamolegkou, Yova Kementchedjhieva, Mostafa Abdou, Sune Lehmann, Anders S{\o}gaard | (参考訳) 大きな言語モデル(LLM)は複雑な内部力学を持つが、幾何学を研究できる単語やフレーズの表現を誘導する。
人間の言語処理も不透明であるが、ニューラルレスポンス測定は、聞き取りや読み上げ時のアクティベーションの記録を(騒々しい)提供し、そこから単語やフレーズの類似表現を抽出することができる。
本稿では,これらの表現によって引き起こされるジオメトリが脳デコーディングの文脈において類似性を持つ程度について検討する。
より大きなニューラルネットワークモデルが得られるほど、その表現は脳画像からの神経反応の測定と構造的に似ています。
コードは \url{https://github.com/coastalcph/brainlm} で入手できる。 Large language models (LLMs) have complicated internal dynamics, but induce representations of words and phrases whose geometry we can study. Human language processing is also opaque, but neural response measurements can provide (noisy) recordings of activation during listening or reading, from which we can extract similar representations of words and phrases. Here we study the extent to which the geometries induced by these representations, share similarities in the context of brain decoding. We find that the larger neural language models get, the more their representations are structurally similar to neural response measurements from brain imaging. Code is available at \url{https://github.com/coastalcph/brainlm}. | 翻訳日:2023-11-01 23:54:41 公開日:2023-10-31 |
# 文脈内シーン理解に向けて Towards In-context Scene Understanding ( http://arxiv.org/abs/2306.01667v2 ) ライセンス: Link先を確認 | Ivana Bala\v{z}evi\'c, David Steiner, Nikhil Parthasarathy, Relja Arandjelovi\'c, Olivier J. H\'enaff | (参考訳) in-context learning$\unicode{x2013}$has 異なるプロンプトでモデルの動作を設定する能力は、自然言語処理の分野に革命をもたらし、タスク固有のモデルの必要性を緩和し、任意のクエリを補助できるジェネラリストモデルへの道を開く。
対照的にコンピュータビジョンは、主に前政権に留まっており、特殊デコーダと微調整プロトコルは、一般的に、セマンティックセグメンテーションや深さ推定のような密集したタスクを実行するために必要である。
本研究では,このような場面理解タスクの文脈内学習のための簡単なメカニズムについて検討する。
我々は,新しい事前学習プロトコル$\unicode{x2013}$leveraging attention in and across images$\unicode{x2013}$を提案する。
結果として得られたHummingbirdモデルは、各タスクに精巧に調整された専門家のパフォーマンスにアプローチしながら、変更せずに様々なシーン理解タスクを実行する。
さらに、hummingbirdは、微調整されたモデルよりもずっと効率的に新しいタスクを実行するように構成でき、対話型アシスタントシステムにおけるシーン理解の可能性を高めることができる。 In-context learning$\unicode{x2013}$the ability to configure a model's behavior with different prompts$\unicode{x2013}$has revolutionized the field of natural language processing, alleviating the need for task-specific models and paving the way for generalist models capable of assisting with any query. Computer vision, in contrast, has largely stayed in the former regime: specialized decoders and finetuning protocols are generally required to perform dense tasks such as semantic segmentation and depth estimation. In this work we explore a simple mechanism for in-context learning of such scene understanding tasks: nearest neighbor retrieval from a prompt of annotated features. We propose a new pretraining protocol$\unicode{x2013}$leveraging attention within and across images$\unicode{x2013}$which yields representations particularly useful in this regime. The resulting Hummingbird model, suitably prompted, performs various scene understanding tasks without modification while approaching the performance of specialists that have been finetuned for each task. Moreover, Hummingbird can be configured to perform new tasks much more efficiently than finetuned models, raising the possibility of scene understanding in the interactive assistant regime. | 翻訳日:2023-11-01 23:53:58 公開日:2023-10-31 |
# 3次元点雲解析のための集配変圧器 Collect-and-Distribute Transformer for 3D Point Cloud Analysis ( http://arxiv.org/abs/2306.01257v2 ) ライセンス: Link先を確認 | Haibo Qiu, Baosheng Yu, Dacheng Tao | (参考訳) 変圧器アーキテクチャの探索を通じて,近年,ポイントクラウド解析が注目されているが,ポイントクラウド内の局所構造やグローバル構造を効果的に学習することは依然として困難である。
本稿では,CDFormerと呼ばれる点雲の近距離・短距離コンテキストを通信するための収集・分散機構を備えた新しい変圧器ネットワークを提案する。
具体的には、まず、各ローカルパッチ内の短距離インタラクションをキャプチャするために自己アテンションを使用し、更新されたローカル特徴をプロキシ参照ポイントのセットに収集し、長距離コンテキストを抽出する。
その後、学習した長距離コンテキストをクロスアテンションを通じてローカルポイントに分散する。
短距離および長距離の文脈における位置手がかりに対処するために,ポイント間の位置認識通信を容易にする文脈認識位置符号化を導入する。
分類とセグメンテーションのために,ModelNet40,ScanObjectNN,ShapeNetPart,S3DIS,ScanNetV2の5つの人気ポイントクラウドデータセットで実験を行った。
その結果,提案するcdformerの有効性が示され,ポイントクラウド分類とセグメンテーションタスクにおいて最新の性能がいくつか提供されている。
ソースコードは \url{https://github.com/haibo-qiu/CDFormer} で入手できる。 Remarkable advancements have been made recently in point cloud analysis through the exploration of transformer architecture, but it remains challenging to effectively learn local and global structures within point clouds. In this paper, we propose a new transformer network equipped with a collect-and-distribute mechanism to communicate short- and long-range contexts of point clouds, which we refer to as CDFormer. Specifically, we first employ self-attention to capture short-range interactions within each local patch, and the updated local features are then collected into a set of proxy reference points from which we can extract long-range contexts. Afterward, we distribute the learned long-range contexts back to local points via cross-attention. To address the position clues for short- and long-range contexts, we additionally introduce the context-aware position encoding to facilitate position-aware communications between points. We perform experiments on five popular point cloud datasets, namely ModelNet40, ScanObjectNN, ShapeNetPart, S3DIS and ScanNetV2, for classification and segmentation. Results show the effectiveness of the proposed CDFormer, delivering several new state-of-the-art performances on point cloud classification and segmentation tasks. The source code is available at \url{https://github.com/haibo-qiu/CDFormer}. | 翻訳日:2023-11-01 23:53:37 公開日:2023-10-31 |
# 学習用トランスフォーマープログラム Learning Transformer Programs ( http://arxiv.org/abs/2306.01128v2 ) ライセンス: Link先を確認 | Dan Friedman, Alexander Wettig, Danqi Chen | (参考訳) 機械的解釈可能性に関する最近の研究は、ネットワークの重みとアクティベーションを慎重に調べることでリバースエンジニアリングトランスフォーマーモデルを試みている。
しかし、これらのアプローチにはかなりの手作業が必要であり、基礎となるアルゴリズムの完全な忠実な記述を提供するには不足している。
本研究では,設計によって機械的に解釈可能なトランスフォーマーの訓練手順を紹介する。
私たちは、Transformerの重みにコンパイルできるプログラミング言語であるRASP [Weiss et al., 2021] をベースにしています。
人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングし、自動的に個別の人間可読プログラムに変換できる改良されたTransformerを設計する。
これらのモデルをTransformer Programsと呼ぶ。
提案手法を検証するために,テキスト内学習タスク,アルゴリズム上の問題(例えば,Dyck言語を分類,認識する),名前付きエンティティ認識やテキスト分類を含むNLPタスクなど,さまざまな問題に対してTransformer Programsを学習する。
トランスフォーマープログラムは、同等の大きさの標準トランスフォーマーと同等の性能で実行することで、合理的なソリューションを自動的に見つけることができる。
これらの利点を実証するために、トランスフォーマーをpythonプログラムに変換し、既製のコード解析ツールを使用してモデルエラーをデバッグし、さまざまなサブ問題を解くために使用される"サーキット"を特定します。
トランスフォーマープログラムが、本質的に解釈可能な機械学習の目標に向けて、新たな道を開くことを願っている。 Recent research in mechanistic interpretability has attempted to reverse-engineer Transformer models by carefully inspecting network weights and activations. However, these approaches require considerable manual effort and still fall short of providing complete, faithful descriptions of the underlying algorithms. In this work, we introduce a procedure for training Transformers that are mechanistically interpretable by design. We build on RASP [Weiss et al., 2021], a programming language that can be compiled into Transformer weights. Instead of compiling human-written programs into Transformers, we design a modified Transformer that can be trained using gradient-based optimization and then automatically converted into a discrete, human-readable program. We refer to these models as Transformer Programs. To validate our approach, we learn Transformer Programs for a variety of problems, including an in-context learning task, a suite of algorithmic problems (e.g. sorting, recognizing Dyck languages), and NLP tasks including named entity recognition and text classification. The Transformer Programs can automatically find reasonable solutions, performing on par with standard Transformers of comparable size; and, more importantly, they are easy to interpret. To demonstrate these advantages, we convert Transformers into Python programs and use off-the-shelf code analysis tools to debug model errors and identify the "circuits" used to solve different sub-problems. We hope that Transformer Programs open a new path toward the goal of intrinsically interpretable machine learning. | 翻訳日:2023-11-01 23:53:15 公開日:2023-10-31 |
# ディープラーニングにおけるトレーニングデータ帰属分析へのベイズ的アプローチ A Bayesian Approach To Analysing Training Data Attribution In Deep Learning ( http://arxiv.org/abs/2305.19765v2 ) ライセンス: Link先を確認 | Elisa Nguyen, Minjoon Seo, Seong Joon Oh | (参考訳) トレーニングデータ属性(TDA)技術は、興味のあるテストデータに対するモデルの予測に影響を及ぼすトレーニングデータを見つける。
特定のトレーニングサンプルのダウンあるいはアップ重み付けの影響を近似する。
概念的には有用であるが、特に異なるモデル初期化に対する感受性のため、実際の深層モデルにはほとんど適用できない。
本稿では,学習モデルをベイズ後部として扱い,TDAを確率変数として推定する,TDAタスクに対するベイズ的視点を紹介する。
この新たな観点から,モデル初期化とsgdバッチ合成によるノイズが,個々のトレーニングサンプルの影響を過大評価することがしばしばある。
この観察から,TDAは特定の学習データの影響を受けない深部モデル予測を,他のノイズ要因とは独立して確実に説明できるのみである,と論じる。
本実験はノイズ非依存型トレーニングテストデータペアの希少性を実証するが,その存在が確認される。
今後の研究者や実践者は,TDAの推定をそのような場合にのみ信頼することを推奨する。
さらに, 基礎的真理と推定されたTDA分布の相違が発見され, 今後の研究を奨励する。
コードはhttps://github.com/elisanguyen/bayesian-tdaで提供される。 Training data attribution (TDA) techniques find influential training data for the model's prediction on the test data of interest. They approximate the impact of down- or up-weighting a particular training sample. While conceptually useful, they are hardly applicable to deep models in practice, particularly because of their sensitivity to different model initialisation. In this paper, we introduce a Bayesian perspective on the TDA task, where the learned model is treated as a Bayesian posterior and the TDA estimates as random variables. From this novel viewpoint, we observe that the influence of an individual training sample is often overshadowed by the noise stemming from model initialisation and SGD batch composition. Based on this observation, we argue that TDA can only be reliably used for explaining deep model predictions that are consistently influenced by certain training data, independent of other noise factors. Our experiments demonstrate the rarity of such noise-independent training-test data pairs but confirm their existence. We recommend that future researchers and practitioners trust TDA estimates only in such cases. Further, we find a disagreement between ground truth and estimated TDA distributions and encourage future work to study this gap. Code is provided at https://github.com/ElisaNguyen/bayesian-tda. | 翻訳日:2023-11-01 23:51:27 公開日:2023-10-31 |
# 情報理論シャプリー値を用いた予測の不確実性の説明 Explaining Predictive Uncertainty with Information Theoretic Shapley Values ( http://arxiv.org/abs/2306.05724v2 ) ライセンス: Link先を確認 | David S. Watson, Joshua O'Hara, Niek Tax, Richard Mudd, and Ido Guy | (参考訳) 説明可能な人工知能の研究者は、複雑な教師付き学習モデルの予測を理解するための多くの方法を開発した。
対照的に、$\textit{uncertainty}$のモデル出力の説明は、比較的ほとんど注目を集めていない。
一般的なshapley値フレームワークを使って様々な予測の不確実性を説明し、個々のモデル出力の条件エントロピーに対する各特徴の寄与を定量化する。
特徴関数を改良したゲームについて検討し,情報理論と条件独立テストから得られたShapley値と基本量の深い関係を見出す。
証明可能な保証付き有限サンプル誤差率制御のための推論手順を概説し、実データおよびシミュレーションデータに対する実験範囲でよく動作する効率的なアルゴリズムを実装した。
提案手法は,シフト検出,アクティブラーニング,特徴選択,能動的特徴値獲得を共変させる。 Researchers in explainable artificial intelligence have developed numerous methods for helping users understand the predictions of complex supervised learning models. By contrast, explaining the $\textit{uncertainty}$ of model outputs has received relatively little attention. We adapt the popular Shapley value framework to explain various types of predictive uncertainty, quantifying each feature's contribution to the conditional entropy of individual model outputs. We consider games with modified characteristic functions and find deep connections between the resulting Shapley values and fundamental quantities from information theory and conditional independence testing. We outline inference procedures for finite sample error rate control with provable guarantees, and implement efficient algorithms that perform well in a range of experiments on real and simulated data. Our method has applications to covariate shift detection, active learning, feature selection, and active feature-value acquisition. | 翻訳日:2023-11-01 23:44:17 公開日:2023-10-31 |
# 教師なし剛体セグメンテーションと運動推定のための多体SE(3)等価性 Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and Motion Estimation ( http://arxiv.org/abs/2306.05584v2 ) ライセンス: Link先を確認 | Jia-Xing Zhong, Ta-Ying Cheng, Yuhang He, Kai Lu, Kaichen Zhou, Andrew Markham, Niki Trigoni | (参考訳) 厳密なセグメンテーションと運動推定への真に一般化可能なアプローチは、明瞭な物体や移動シーンの3次元理解に不可欠である。
セグメンテーションと運動推定の密接な相互関係を考慮し、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
私たちのアーキテクチャは、2つの相互接続された軽量ヘッドで構成されています。
これらのヘッドは、点レベルの不変特徴を用いてセグメンテーションマスクを予測し、SE(3)の同変特徴から動きを推定する。
トレーニング戦略は統合されており、シーンフロー、セグメンテーションマスク、剛体変換の相互関係を利用して予測されたセグメンテーションと動きを協調的に最適化することができる。
提案手法の優位性を示すために,4つのデータセットの実験を行った。
その結果,本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率の両面で優れていた。
我々の知る限りでは、これは動的点雲におけるカテゴリーに依存しない部分レベルSE(3)同値性のために設計された最初の研究である。 A truly generalizable approach to rigid segmentation and motion estimation is fundamental to 3D understanding of articulated objects and moving scenes. In view of the closely intertwined relationship between segmentation and motion estimates, we present an SE(3) equivariant architecture and a training strategy to tackle this task in an unsupervised manner. Our architecture is composed of two interconnected, lightweight heads. These heads predict segmentation masks using point-level invariant features and estimate motion from SE(3) equivariant features, all without the need for category information. Our training strategy is unified and can be implemented online, which jointly optimizes the predicted segmentation and motion by leveraging the interrelationships among scene flow, segmentation mask, and rigid transformations. We conduct experiments on four datasets to demonstrate the superiority of our method. The results show that our method excels in both model performance and computational efficiency, with only 0.25M parameters and 0.92G FLOPs. To the best of our knowledge, this is the first work designed for category-agnostic part-level SE(3) equivariance in dynamic point clouds. | 翻訳日:2023-11-01 23:43:38 公開日:2023-10-31 |
# FACTIFY3M:5W質問回答による説明可能性付きマルチモーダルファクト検証ベンチマーク FACTIFY3M: A Benchmark for Multimodal Fact Verification with Explainability through 5W Question-Answering ( http://arxiv.org/abs/2306.05523v2 ) ライセンス: Link先を確認 | Megha Chakraborty, Khushbu Pahwa, Anku Rani, Shreyas Chatterjee, Dwip Dalal, Harshit Dave, Ritvik G, Preethi Gurumurthy, Adarsh Mahor, Samahriti Mukherjee, Aditya Pakala, Ishan Paul, Janvita Reddy, Arghya Sarkar, Kinjal Sensharma, Aman Chadha, Amit P. Sheth, Amitava Das | (参考訳) アメリカの人口の約67%は、偽情報は多くの不確実性を生んでいると信じており、そのうち10%は故意に偽情報を伝播している。
証拠は、偽情報が民主的なプロセスや世論を操り、市場を混乱させ、社会のパニックと不安を生じさせ、危機時に死に至ることを示唆している。
したがって、偽情報を迅速に特定し、可能であれば軽減すべきである。
ソーシャルメディアプラットフォーム上で毎日320億枚の画像と72万時間の動画が共有されているため、マルチモーダル情報のスケーラブルな検出には効果的な事実検証が必要である。
自動テキストベースの事実検証(FEVER、LIARなど)の進歩にもかかわらず、研究コミュニティはマルチモーダルな事実検証にかなりの努力を払っていない。
このギャップに対処するために、我々はFACTIFY 3Mという300万個のサンプルのデータセットを導入し、マルチモーダルなフェイクニュースデータセットを通じて事実検証領域の境界を押し上げるとともに、5W質問応答の概念による説明可能性を提供する。
データセットの有能な特徴は以下のとおりである。
(i)テキストクレーム
(ii)chatgptが生成したパラフラッシドクレーム
(iii)関連画像、
(iv)安定な拡散生成付加像(視覚パラフラス)
(v)クレームの画像テキスト説明可能性を高める画素レベルの画像ヒートマップ
(vi)5WQAペア、及び
(vii)敵対的な偽ニュース。 Combating disinformation is one of the burning societal crises -- about 67% of the American population believes that disinformation produces a lot of uncertainty, and 10% of them knowingly propagate disinformation. Evidence shows that disinformation can manipulate democratic processes and public opinion, causing disruption in the share market, panic and anxiety in society, and even death during crises. Therefore, disinformation should be identified promptly and, if possible, mitigated. With approximately 3.2 billion images and 720,000 hours of video shared online daily on social media platforms, scalable detection of multimodal disinformation requires efficient fact verification. Despite progress in automatic text-based fact verification (e.g., FEVER, LIAR), the research community lacks substantial effort in multimodal fact verification. To address this gap, we introduce FACTIFY 3M, a dataset of 3 million samples that pushes the boundaries of the domain of fact verification via a multimodal fake news dataset, in addition to offering explainability through the concept of 5W question-answering. Salient features of the dataset include: (i) textual claims, (ii) ChatGPT-generated paraphrased claims, (iii) associated images, (iv) stable diffusion-generated additional images (i.e., visual paraphrases), (v) pixel-level image heatmap to foster image-text explainability of the claim, (vi) 5W QA pairs, and (vii) adversarial fake news stories. | 翻訳日:2023-11-01 23:43:19 公開日:2023-10-31 |
# ダウンストリーム推論に不完全サロゲートを使用する:大規模言語モデルの社会科学への応用のための設計に基づく教師付き学習 Using Imperfect Surrogates for Downstream Inference: Design-based Supervised Learning for Social Science Applications of Large Language Models ( http://arxiv.org/abs/2306.04746v2 ) ライセンス: Link先を確認 | Naoki Egami, Musashi Hinck, Brandon M. Stewart, Hanying Wei | (参考訳) 計算社会科学(css)では、研究者は文書を分析して社会・政治現象を説明する。
多くのシナリオでは、CSS研究者がまずドキュメントのラベルを取得し、2番目のステップで解釈可能な回帰分析を使用してラベルを説明する。
ドキュメントを安価にアノテートする一般的な方法のひとつに、大きな言語モデル(LLM)がある。
しかし、他のスケーラブルなアノテーション生成方法と同様に、このような代理ラベルはしばしば不完全で偏りがある。
本稿では,css研究の基礎となる漸近的不偏性や不確かさといった統計的性質を保証しつつ,下流統計解析に不完全アノテーションサロゲートを用いる新しいアルゴリズムを提案する。
ダウンストリーム統計解析におけるサロゲートラベルの直接使用は,80~90\%のサロゲート精度であっても,かなりのバイアスと不確実な信頼区間をもたらすことを示す。
これを解決するために,設計に基づく教師あり学習(DSL)推定器を提案する。
dslは、サロゲートラベルとより少数の高品質のゴールド標準ラベルを組み合わせるために、二重ロバスト手順を採用している。
提案手法は,ゴールド標準ラベリング用文書サンプリングの確率を制御することにより,代理が任意に偏り,厳密な仮定を必要としない場合でも,下流統計解析の有効な推測を保証する。
理論的解析と実験の結果から,DSLは有意な統計的推測を提供する一方で,推定保証のない予測のみに焦点を当てた既存の代替手段に匹敵するルート平均2乗誤差を達成していることがわかった。 In computational social science (CSS), researchers analyze documents to explain social and political phenomena. In most scenarios, CSS researchers first obtain labels for documents and then explain labels using interpretable regression analyses in the second step. One increasingly common way to annotate documents cheaply at scale is through large language models (LLMs). However, like other scalable ways of producing annotations, such surrogate labels are often imperfect and biased. We present a new algorithm for using imperfect annotation surrogates for downstream statistical analyses while guaranteeing statistical properties -- like asymptotic unbiasedness and proper uncertainty quantification -- which are fundamental to CSS research. We show that direct use of surrogate labels in downstream statistical analyses leads to substantial bias and invalid confidence intervals, even with high surrogate accuracy of 80--90\%. To address this, we build on debiased machine learning to propose the design-based supervised learning (DSL) estimator. DSL employs a doubly-robust procedure to combine surrogate labels with a smaller number of high-quality, gold-standard labels. Our approach guarantees valid inference for downstream statistical analyses, even when surrogates are arbitrarily biased and without requiring stringent assumptions, by controlling the probability of sampling documents for gold-standard labeling. Both our theoretical analysis and experimental results show that DSL provides valid statistical inference while achieving root mean squared errors comparable to existing alternatives that focus only on prediction without inferential guarantees. | 翻訳日:2023-11-01 23:41:33 公開日:2023-10-31 |
# cfdp: 共通周波数領域のプルーニング CFDP: Common Frequency Domain Pruning ( http://arxiv.org/abs/2306.04147v2 ) ライセンス: Link先を確認 | Samir Khaki, Weihan Luo | (参考訳) ニューラルネットワークに関して言えば、それはもっと真実ではありませんでした。
プルーニング(pruning)は、ネットワークの不要な部分を選択的に切り離して、より合理化され効率的なアーキテクチャを作り出す技術である。
本稿では,周波数領域を経由したモデルプルーニングのための新しいエンドツーエンドパイプラインを提案する。
本研究は,中間モデル出力の相互運用とその空間領域を超えての意義を浮き彫りにすることを目的とする。
提案手法は,共通周波数領域抽出(CFDP)と呼ばれ,特徴マップ上に定義された共通周波数特性を抽出し,その表現の学習における重要度に基づいて,各層のチャネルをランク付けすることを目的としている。
CFDPのパワーを利用して、GoogLeNetによるCIFAR-10の最先端の成果を95.25%、すなわちオリジナルのモデルから+0.2%の精度で達成した。
また、トレーニング可能なパラメータの55%とFLOPの60%しか使用せず、すべてのベンチマークを上回り、ImageNetで元のモデルのパフォーマンスと一致しています。
注目すべきパフォーマンスに加えて、CFDPによって生成されたモデルは、トレーニングされていないニューラルネットワークからのプルーニングや、敵攻撃に対する抵抗など、さまざまな構成に対して堅牢性を示す。
実装コードはhttps://github.com/Skhaki18/CFDPで確認できる。 As the saying goes, sometimes less is more -- and when it comes to neural networks, that couldn't be more true. Enter pruning, the art of selectively trimming away unnecessary parts of a network to create a more streamlined, efficient architecture. In this paper, we introduce a novel end-to-end pipeline for model pruning via the frequency domain. This work aims to shed light on the interoperability of intermediate model outputs and their significance beyond the spatial domain. Our method, dubbed Common Frequency Domain Pruning (CFDP) aims to extrapolate common frequency characteristics defined over the feature maps to rank the individual channels of a layer based on their level of importance in learning the representation. By harnessing the power of CFDP, we have achieved state-of-the-art results on CIFAR-10 with GoogLeNet reaching an accuracy of 95.25%, that is, +0.2% from the original model. We also outperform all benchmarks and match the original model's performance on ImageNet, using only 55% of the trainable parameters and 60% of the FLOPs. In addition to notable performances, models produced via CFDP exhibit robustness to a variety of configurations including pruning from untrained neural architectures, and resistance to adversarial attacks. The implementation code can be found at https://github.com/Skhaki18/CFDP. | 翻訳日:2023-11-01 23:40:28 公開日:2023-10-31 |
# 変分ガウス過程拡散過程 Variational Gaussian Process Diffusion Processes ( http://arxiv.org/abs/2306.02066v2 ) ライセンス: Link先を確認 | Prakhar Verma, Vincent Adam, Arno Solin | (参考訳) 拡散過程は、動的モデリングタスクで自然に発生する豊かな表現型モデル群を提供する確率微分方程式(sdes)のクラスである。
非線型拡散過程が先行する潜在過程を持つ生成モデルの下での確率的推論と学習は難解な問題である。
我々は,後方過程を線形拡散過程として近似し,そのアプローチの病理を指摘している。
サイトベース指数関数型家族記述を用いたガウス変分過程の代替パラメータ化を提案する。
これにより、自然な勾配降下に類似した凸最適化のための高速アルゴリズムに対して、固定点反復と遅い推論アルゴリズムを交換することが可能となり、モデルパラメータを学習するためのより良い目的がもたらされる。 Diffusion processes are a class of stochastic differential equations (SDEs) providing a rich family of expressive models that arise naturally in dynamic modelling tasks. Probabilistic inference and learning under generative models with latent processes endowed with a non-linear diffusion process prior are intractable problems. We build upon work within variational inference, approximating the posterior process as a linear diffusion process, and point out pathologies in the approach. We propose an alternative parameterization of the Gaussian variational process using a site-based exponential family description. This allows us to trade a slow inference algorithm with fixed-point iterations for a fast algorithm for convex optimization akin to natural gradient descent, which also provides a better objective for learning model parameters. | 翻訳日:2023-11-01 23:37:54 公開日:2023-10-31 |
# 大グラフ表現のためのトランスフォーマーの単純化とエンパワーメント Simplifying and Empowering Transformers for Large-Graph Representations ( http://arxiv.org/abs/2306.10759v3 ) ライセンス: Link先を確認 | Qitian Wu, Wentao Zhao, Chenxiao Yang, Hengrui Zhang, Fan Nie, Haitian Jiang, Yatao Bian, Junchi Yan | (参考訳) 大規模グラフでの表現の学習は、大量のデータポイントに関わる相互依存性のため、長年にわたる課題である。
グラフ構造化データのための基盤エンコーダの新たなクラスであるトランスフォーマーは、隣接するノードを越えて全ペアの影響を捉えることができるため、小さなグラフ上で有望な性能を示している。
それでも、既存のアプローチは、言語や視覚タスクにおけるトランスフォーマーの精神を継承し、深いマルチヘッドの注意を積み重ねることで複雑なモデルを受け入れる傾向があります。
本稿では,一層注意を払わなくても,ノード数が千レベルから十億レベルに及ぶノード特性予測ベンチマークにおいて,驚くほどの競合性能が得られることを批判的に示す。
これにより、大きなグラフ上でTransformerの設計哲学を再考し、グローバルな注目はスケーラビリティを妨げる計算オーバーヘッドである。
提案手法を簡易グラフトランスフォーマー (sgformer) として構成し, 1 層内の任意のノード間の情報を効率的に伝達するシンプルな注意モデルによって実現されている。
SGFormerは、位置エンコーディング、フィーチャ/グラフ前処理、拡張損失を必要としない。
実証的には、SGFormerはWebスケールグラフogbn-papers100Mにスケールし、中規模のグラフ上でSOTA変換器上で最大141倍の推論加速度を得る。
提案手法は,現在の結果以外にも,大規模なグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを実現するものだと考えている。 Learning representations on large-sized graphs is a long-standing challenge due to the inter-dependence nature involved in massive data points. Transformers, as an emerging class of foundation encoders for graph-structured data, have shown promising performance on small graphs due to its global attention capable of capturing all-pair influence beyond neighboring nodes. Even so, existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated models by stacking deep multi-head attentions. In this paper, we critically demonstrate that even using a one-layer attention can bring up surprisingly competitive performance across node property prediction benchmarks where node numbers range from thousand-level to billion-level. This encourages us to rethink the design philosophy for Transformers on large graphs, where the global attention is a computation overhead hindering the scalability. We frame the proposed scheme as Simplified Graph Transformers (SGFormer), which is empowered by a simple attention model that can efficiently propagate information among arbitrary nodes in one layer. SGFormer requires none of positional encodings, feature/graph pre-processing or augmented loss. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M and yields up to 141x inference acceleration over SOTA Transformers on medium-sized graphs. Beyond current results, we believe the proposed methodology alone enlightens a new technical path of independent interest for building Transformers on large graphs. | 翻訳日:2023-11-01 23:30:21 公開日:2023-10-31 |
# スコアに基づくデータ同化 Score-based Data Assimilation ( http://arxiv.org/abs/2306.10574v2 ) ライセンス: Link先を確認 | Fran\c{c}ois Rozet and Gilles Louppe | (参考訳) データ同化は、最も包括的な形で、確率力学系のノイズまたは不完全な観察を説明する可塑性状態軌跡を特定するベイズ逆問題に対処する。
粒子法や変分法などの様々な手法が提案されている。
しかし、ほとんどのアルゴリズムは、長期間の地平線や、海洋や大気のような複雑な力学を持つ高次元システムにとって、推論の遷移力学に依存している。
本研究では,軌道推定のためのスコアに基づくデータ同化について述べる。
我々は、任意の長さの軌道のスコアを短いセグメントで一連のスコアに分解できるというキーインサイトに基づいて、状態軌道のスコアに基づく生成モデルを学ぶ。
トレーニング後、全ての状態を同時に生成して非自己回帰的にスコアモデルを用いて推論を行う。
極めて特筆すべきは、トレーニング手順から観察モデルを分離し、推論時にのみ使用して生成過程をガイドし、幅広いゼロショット観察シナリオを可能にすることである。
本手法の有効性を裏付ける理論的,実証的な証拠を提示する。 Data assimilation, in its most comprehensive form, addresses the Bayesian inverse problem of identifying plausible state trajectories that explain noisy or incomplete observations of stochastic dynamical systems. Various approaches have been proposed to solve this problem, including particle-based and variational methods. However, most algorithms depend on the transition dynamics for inference, which becomes intractable for long time horizons or for high-dimensional systems with complex dynamics, such as oceans or atmospheres. In this work, we introduce score-based data assimilation for trajectory inference. We learn a score-based generative model of state trajectories based on the key insight that the score of an arbitrarily long trajectory can be decomposed into a series of scores over short segments. After training, inference is carried out using the score model, in a non-autoregressive manner by generating all states simultaneously. Quite distinctively, we decouple the observation model from the training procedure and use it only at inference to guide the generative process, which enables a wide range of zero-shot observation scenarios. We present theoretical and empirical evidence supporting the effectiveness of our method. | 翻訳日:2023-11-01 23:29:34 公開日:2023-10-31 |
# 蒸留によるLMの知識更新の促進 Propagating Knowledge Updates to LMs Through Distillation ( http://arxiv.org/abs/2306.09306v2 ) ライセンス: Link先を確認 | Shankar Padmanabhan, Yasumasa Onoe, Michael J.Q. Zhang, Greg Durrett, Eunsol Choi | (参考訳) 現代の言語モデルは、実世界のエンティティに関する膨大な知識を蓄積し、使用する能力を持っていますが、モデルパラメータに格納された知識をどのように更新するかは、まだ不明です。
LMの知識を更新する以前の方法は原子の事実を注入することに成功していたが、更新されたLMは注入された事実に基づいて推論を行うことができなかった。
本研究では, 文脈蒸留に基づくアプローチが, 実体に関する知識を付与し, より広い推論を可能にするためにその知識を伝播させることを実証する。
提案手法は, トランスファーセット生成とトランスファーセットの蒸留の2段階からなる。
まず、言語モデルにエンティティ定義から継続を生成するように促すことで、転送セットを生成します。
次に、モデルパラメータを更新することで、lm(学生)の分布が、転送集合上の定義(教師)に条件付けられたlmの分布と一致するようにする。
実験により,本手法は微調整や他の勾配に基づく知識編集手法よりも,知識更新の伝播に有効であることが示された。
さらに、最大150個のエンティティの定義を一度に注入しても、他のコンテキストのパフォーマンスを損なわない。 Modern language models have the capacity to store and use immense amounts of knowledge about real-world entities, but it remains unclear how to update such knowledge stored in model parameters. While prior methods for updating knowledge in LMs successfully inject atomic facts, updated LMs fail to make inferences based on injected facts. In this work, we demonstrate that a context distillation-based approach can both impart knowledge about entities and propagate that knowledge to enable broader inferences. Our approach consists of two stages: transfer set generation and distillation on the transfer set. We first generate a transfer set by prompting a language model to generate continuations from the entity definition. Then, we update the model parameters so that the distribution of the LM (the student) matches the distribution of the LM conditioned on the definition (the teacher) on the transfer set. Our experiments demonstrate that this approach is more effective at propagating knowledge updates than fine-tuning and other gradient-based knowledge-editing methods. Moreover, it does not compromise performance in other contexts, even when injecting the definitions of up to 150 entities at once. | 翻訳日:2023-11-01 23:28:43 公開日:2023-10-31 |
# テキスト・画像生成のためのノルム誘導潜時空間探索 Norm-guided latent space exploration for text-to-image generation ( http://arxiv.org/abs/2306.08687v2 ) ライセンス: Link先を確認 | Dvir Samuel, Rami Ben-Ari, Nir Darshan, Haggai Maron, Gal Chechik | (参考訳) テキストから画像への拡散モデルは、新しい構成やシナリオにおいて様々な概念を合成する大きな可能性を示している。
しかし、初期種子の潜伏空間はまだよく理解されておらず、その構造が様々な概念の生成に影響を与えることが示されている。
特に、補間や種子集合のセンチロイドの発見のような単純な操作は、潜在空間で標準ユークリッドや球面計量を使用する場合、うまく機能しない。
本稿では,現行の訓練手順において,標準値の幅が狭い入力を拡散モデルで観測する。
これは、画像生成のためのシード操作に依存するメソッドに強く影響し、少数ショットおよびロングテール学習タスクへの応用がある。
この問題に対処するために, 2つの種子間を補間する新しい方法を提案し, 種子に先行するノルムを考慮した新しい非ユークリッド計量を定義することを実証する。
我々は,この補間手順を近似する単純かつ効率的なアルゴリズムを記述し,それを用いて潜在種空間におけるセントロイドをさらに定義する。
新たな補間法と遠心法により,レアコンセプト画像の生成が著しく向上することを示す。
これにより、少数ショットとロングテールのベンチマークにおける最先端のパフォーマンスが向上し、生成速度、画像品質、セマンティックコンテンツといった従来のアプローチが改善される。 Text-to-image diffusion models show great potential in synthesizing a large variety of concepts in new compositions and scenarios. However, the latent space of initial seeds is still not well understood and its structure was shown to impact the generation of various concepts. Specifically, simple operations like interpolation and finding the centroid of a set of seeds perform poorly when using standard Euclidean or spherical metrics in the latent space. This paper makes the observation that, in current training procedures, diffusion models observed inputs with a narrow range of norm values. This has strong implications for methods that rely on seed manipulation for image generation, with applications to few-shot and long-tail learning tasks. To address this issue, we propose a novel method for interpolating between two seeds and demonstrate that it defines a new non-Euclidean metric that takes into account a norm-based prior on seeds. We describe a simple yet efficient algorithm for approximating this interpolation procedure and use it to further define centroids in the latent seed space. We show that our new interpolation and centroid techniques significantly enhance the generation of rare concept images. This further leads to state-of-the-art performance on few-shot and long-tail benchmarks, improving prior approaches in terms of generation speed, image quality, and semantic content. | 翻訳日:2023-11-01 23:28:25 公開日:2023-10-31 |
# 非線形潜在階層モデルの同定 Identification of Nonlinear Latent Hierarchical Models ( http://arxiv.org/abs/2306.07916v2 ) ライセンス: Link先を確認 | Lingjing Kong, Biwei Huang, Feng Xie, Eric Xing, Yuejie Chi, Kun Zhang | (参考訳) 観測データから潜在変数と因果構造を特定することは、生物データ、医療データ、画像や言語などの非構造化データを含む多くの実世界のアプリケーションにとって不可欠である。
しかし、特に観測変数が因果関係の潜伏変数によって生成され、関係が非線形である場合、この課題は非常に困難である。
本研究では,非線形潜在性階層的因果モデルにおいて,観察変数が因果関係の潜在性変数の集合によって生成され,一部の潜在性変数が子どもを観察できないような同定問題について検討する。
因果構造では、前処理における潜在木仮定を緩和するグラフ内の任意の変数間の複数の経路を許容し、構造関数では、一般的な非線形性および多次元連続変数を許容し、既存の作業のパラメトリック仮定を緩和する。
具体的には,初等潜伏変数モデルに対する新しい識別可能性保証という形で識別基準を開発する。
この基準を利用して,推定手順を明示的に構築することにより,階層モデルの因果構造と潜在変数の両方を漸近的に同定できることを示す。
我々の知る限りでは、非線形潜在階層モデルにおける因果構造と潜伏変数の両方に対する識別可能性を保証するための最初の研究である。 Identifying latent variables and causal structures from observational data is essential to many real-world applications involving biological data, medical data, and unstructured data such as images and languages. However, this task can be highly challenging, especially when observed variables are generated by causally related latent variables and the relationships are nonlinear. In this work, we investigate the identification problem for nonlinear latent hierarchical causal models in which observed variables are generated by a set of causally related latent variables, and some latent variables may not have observed children. We show that the identifiability of causal structures and latent variables (up to invertible transformations) can be achieved under mild assumptions: on causal structures, we allow for multiple paths between any pair of variables in the graph, which relaxes latent tree assumptions in prior work; on structural functions, we permit general nonlinearity and multi-dimensional continuous variables, alleviating existing work's parametric assumptions. Specifically, we first develop an identification criterion in the form of novel identifiability guarantees for an elementary latent variable model. Leveraging this criterion, we show that both causal structures and latent variables of the hierarchical model can be identified asymptotically by explicitly constructing an estimation procedure. To the best of our knowledge, our work is the first to establish identifiability guarantees for both causal structures and latent variables in nonlinear latent hierarchical models. | 翻訳日:2023-11-01 23:28:03 公開日:2023-10-31 |
# trojllm: 大きな言語モデルに対するブラックボックスのトロイの木馬攻撃 TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models ( http://arxiv.org/abs/2306.06815v3 ) ライセンス: Link先を確認 | Jiaqi Xue, Mengxin Zheng, Ting Hua, Yilin Shen, Yepeng Liu, Ladislau Boloni and Qian Lou | (参考訳) 大規模言語モデル(llm)は、様々なアプリケーションのための機械学習サービスやインターフェースツールとして徐々に利用されている。
しかし、LLMのセキュリティへの影響、特に敵とトロイアの攻撃に関して、十分に検証されていない。
本稿では,汎用かつステルス的なトリガを効果的に生成する自動ブラックボックスフレームワークであるTrojLLMを提案する。
これらのトリガが入力データに組み込まれると、LSMの出力は悪意ある操作を行うことができる。
さらに、フレームワークは個別のプロンプト内にトロイの木を埋め込むこともサポートし、トリガーの攻撃の全体的な効果と精度を高める。
具体的には,少数のデータサンプルを用いて被害者llmベースのapiに問い合わせることで,様々な入力に対してユニバーサルトリガを生成するトリガー検出アルゴリズムを提案する。
さらに,多種多様なモデルの有効性と伝達性を維持する毒素を発生させる新しいプログレッシブトロイの木馬毒アルゴリズムを導入する。
GPT-3.5 や GPT-4 などの実世界のブラックボックス LLM API において,TrojLLM をテキストプロンプトに効果的に挿入する能力を示すとともに,クリーンなテストセット上での例外的な性能を維持した。
私たちの仕事は、現在のモデルの潜在的なセキュリティリスクに光を当て、潜在的な防御的アプローチを提供します。
TrojLLMのソースコードはhttps://github.com/UCF-ML-Research/TrojLLMで公開されている。 Large Language Models (LLMs) are progressively being utilized as machine learning services and interface tools for various applications. However, the security implications of LLMs, particularly in relation to adversarial and Trojan attacks, remain insufficiently examined. In this paper, we propose TrojLLM, an automatic and black-box framework to effectively generate universal and stealthy triggers. When these triggers are incorporated into the input data, the LLMs' outputs can be maliciously manipulated. Moreover, the framework also supports embedding Trojans within discrete prompts, enhancing the overall effectiveness and precision of the triggers' attacks. Specifically, we propose a trigger discovery algorithm for generating universal triggers for various inputs by querying victim LLM-based APIs using few-shot data samples. Furthermore, we introduce a novel progressive Trojan poisoning algorithm designed to generate poisoned prompts that retain efficacy and transferability across a diverse range of models. Our experiments and results demonstrate TrojLLM's capacity to effectively insert Trojans into text prompts in real-world black-box LLM APIs including GPT-3.5 and GPT-4, while maintaining exceptional performance on clean test sets. Our work sheds light on the potential security risks in current models and offers a potential defensive approach. The source code of TrojLLM is available at https://github.com/UCF-ML-Research/TrojLLM. | 翻訳日:2023-11-01 23:27:22 公開日:2023-10-31 |
# 数学推論と問題解決におけるChatGPTの有効性の検討:ベトナム国立高校卒業試験から Investigating the Effectiveness of ChatGPT in Mathematical Reasoning and Problem Solving: Evidence from the Vietnamese National High School Graduation Examination ( http://arxiv.org/abs/2306.06331v3 ) ライセンス: Link先を確認 | Xuan-Quy Dao and Ngoc-Bich Le | (参考訳) 本研究は,ベトナム国立高校卒業試験(VNHSGE)における複数項目の質問に応答するChatGPTの数学能力について,様々な課題と難易度について完全な分析を行った。
データセットには、知識(K)、理解(C)、応用(A)、高適用(H)の4つのレベルに分けられた250の質問と、多様な数学的概念をカバーする10のテーマが含まれていた。
その結果,ChatGPTの性能は難易度や課題によって異なることが示された。
レベル (k) の質問で最高の成績をあげたが、難易度が上昇するにつれて成績は悪く、精度は10\%$であった。
この研究は、ChatGPTが指数関数や対数関数、幾何学的進行、算術的進行といった問題に対する回答を提供することに成功していることも示している。
研究によると、chatgptは微分や応用、空間幾何学、オキシズ空間計算といったトピックに関する質問に正しく答えられなかった。
さらに,本研究ではベトナム人学生のVNHSGEや他の数学コンペティションとChatGPTの結果を比較した。
ChatGPTはSAT Mathの競争で70 %$、VNHSGEの数学(58.8 %)$で優位に立った。
しかし、その成功率はAP統計、GRE定量、AMC 10、AMC 12、AP Calculus BCなど他の試験よりも低かった。
これらの結果は、chatgptが数学の効果的な教育ツールになる可能性が示唆されているが、グラフィックデータの取り扱いを強化し、より困難になっている質問によって提示される課題に対処するためには、さらに多くの作業が必要である。 This study offers a complete analysis of ChatGPT's mathematics abilities in responding to multiple-choice questions for the Vietnamese National High School Graduation Examination (VNHSGE) on a range of subjects and difficulty levels. The dataset included 250 questions divided into four levels: knowledge (K), comprehension (C), application (A), and high application (H), and it included ten themes that covered diverse mathematical concepts. The outcomes demonstrate that ChatGPT's performance varies depending on the difficulty level and subject. It performed best on questions at Level (K), with an accuracy rate of $83\%$; but, as the difficulty level rose, it scored poorly, with an accuracy rate of $10\%$. The study has also shown that ChatGPT significantly succeeds in providing responses to questions on subjects including exponential and logarithmic functions, geometric progression, and arithmetic progression. The study found that ChatGPT had difficulty correctly answering questions on topics including derivatives and applications, spatial geometry, and Oxyz spatial calculus. Additionally, this study contrasted ChatGPT outcomes with Vietnamese students in VNHSGE and in other math competitions. ChatGPT dominated in the SAT Math competition with a success rate of $70\%$, followed by VNHSGE mathematics ($58.8\%)$. However, its success rates were lower on other exams, such as AP Statistics, the GRE Quantitative, AMC 10, AMC 12, and AP Calculus BC. These results suggest that ChatGPT has the potential to be an effective teaching tool for mathematics, but more work is needed to enhance its handling of graphical data and address the challenges presented by questions that are getting more challenging. | 翻訳日:2023-11-01 23:26:39 公開日:2023-10-31 |
# ランダムプロセスからの事前学習による微分プライベート画像分類 Differentially Private Image Classification by Learning Priors from Random Processes ( http://arxiv.org/abs/2306.06076v2 ) ライセンス: Link先を確認 | Xinyu Tang, Ashwinee Panda, Vikash Sehwag, Prateek Mittal | (参考訳) プライバシ保存機械学習において、差分プライベート確率勾配降下(DP-SGD)は、サンプルごとの勾配クリッピングとノイズ付加により、SGDよりも悪化する。
近年のプライベートラーニング研究は, DP-SGDを実世界の公開データに取り入れることで, 個人データにおけるDP-SGDの性能向上に寄与している。
本研究では,DP-SGDのプライバシ・ユーティリティ・トレードオフを改善するために,ランダムなプロセスによって生成された画像から先行情報を学習し,それらをプライベートデータに転送する方法を検討する。
3相アプローチのDP-RandPを提案する。
CIFAR10、CIFAR100、MedMNIST、ImageNetでスクラッチからトレーニングを行うと、さまざまなプライバシー予算に対して、新たな最先端の精度が得られます。
特に、CIFAR10の過去最高の報告精度を、$60.6 \%$から$72.3 \%$ for $\varepsilon=1$に改善する。 In privacy-preserving machine learning, differentially private stochastic gradient descent (DP-SGD) performs worse than SGD due to per-sample gradient clipping and noise addition. A recent focus in private learning research is improving the performance of DP-SGD on private data by incorporating priors that are learned on real-world public data. In this work, we explore how we can improve the privacy-utility tradeoff of DP-SGD by learning priors from images generated by random processes and transferring these priors to private data. We propose DP-RandP, a three-phase approach. We attain new state-of-the-art accuracy when training from scratch on CIFAR10, CIFAR100, MedMNIST and ImageNet for a range of privacy budgets $\varepsilon \in [1, 8]$. In particular, we improve the previous best reported accuracy on CIFAR10 from $60.6 \%$ to $72.3 \%$ for $\varepsilon=1$. | 翻訳日:2023-11-01 23:25:10 公開日:2023-10-31 |
# SwiFT:スウィン4D fMRI変換器 SwiFT: Swin 4D fMRI Transformer ( http://arxiv.org/abs/2307.05916v2 ) ライセンス: Link先を確認 | Peter Yongho Kim, Junbeom Kwon, Sunghwan Joo, Sangyoon Bae, Donggyu Lee, Yoonho Jung, Shinjae Yoo, Jiook Cha, Taesup Moon | (参考訳) 機能的磁気共鳴イメージング(fMRI)のような高次元データから時空間脳のダイナミクスをモデル化することは神経科学において大きな課題である。
既存のfMRI解析手法では手作りの特徴を生かしているが,fMRIスキャンでは特徴抽出の過程で重要な情報が失われるリスクがある。
この課題に対処するために、スウィントランスフォーマーアーキテクチャであるSwiFT(Swin 4D fMRI Transformer)を提案する。
swiftは4dウィンドウのマルチヘッドセルフアテンション機構と絶対位置埋め込みを実装することでこれを実現する。
我々は、Human Connectome Project(HCP)、Adolescent Brain Cognitive Development(ABCD)、UK Biobank(UKB)といった大規模なfMRIデータセットを用いてSwiFTを評価し、性別、年齢、認知情報を予測する。
我々の実験結果から、SwiFTは最新の最先端モデルよりも一貫して優れています。
さらに、そのエンドツーエンド学習能力を活用することで、SwiFTの損失に基づく自己教師付き事前学習が下流タスクの性能を向上させることを示す。
さらに、性別分類に関連する脳領域を特定するために、説明可能なAI手法を用いる。
我々の知る限り、SwiFTは次元時空間脳機能データをエンドツーエンドで処理する最初のSwin Transformerアーキテクチャである。
我々の研究は、高次元fMRIにTransformerモデルを適用する際のハードルを減らし、神経科学研究における機能的脳画像のスケーラブルな学習を促進する大きな可能性を秘めている。 Modeling spatiotemporal brain dynamics from high-dimensional data, such as functional Magnetic Resonance Imaging (fMRI), is a formidable task in neuroscience. Existing approaches for fMRI analysis utilize hand-crafted features, but the process of feature extraction risks losing essential information in fMRI scans. To address this challenge, we present SwiFT (Swin 4D fMRI Transformer), a Swin Transformer architecture that can learn brain dynamics directly from fMRI volumes in a memory and computation-efficient manner. SwiFT achieves this by implementing a 4D window multi-head self-attention mechanism and absolute positional embeddings. We evaluate SwiFT using multiple large-scale resting-state fMRI datasets, including the Human Connectome Project (HCP), Adolescent Brain Cognitive Development (ABCD), and UK Biobank (UKB) datasets, to predict sex, age, and cognitive intelligence. Our experimental outcomes reveal that SwiFT consistently outperforms recent state-of-the-art models. Furthermore, by leveraging its end-to-end learning capability, we show that contrastive loss-based self-supervised pre-training of SwiFT can enhance performance on downstream tasks. Additionally, we employ an explainable AI method to identify the brain regions associated with sex classification. To our knowledge, SwiFT is the first Swin Transformer architecture to process dimensional spatiotemporal brain functional data in an end-to-end fashion. Our work holds substantial potential in facilitating scalable learning of functional brain imaging in neuroscience research by reducing the hurdles associated with applying Transformer models to high-dimensional fMRI. | 翻訳日:2023-11-01 23:17:40 公開日:2023-10-31 |
# SAMAug:セグメンテーションモデルのためのポイントプロンプト拡張 SAMAug: Point Prompt Augmentation for Segment Anything Model ( http://arxiv.org/abs/2307.01187v2 ) ライセンス: Link先を確認 | Haixing Dai, Chong Ma, Zhengliang Liu, Yiwei Li, Peng Shu, Xiaozheng Wei, Lin Zhao, Zihao Wu, Fang Zeng, Dajiang Zhu, Wei Liu, Quanzheng Li, Tianming Liu, and Xiang Li | (参考訳) 本稿では,対話型画像分割性能を向上させるSegment Anything Model(SAM)のための新しい視覚点拡張手法であるSAMAugを紹介する。
SAMAugは、SAMに対するユーザの意図に関する情報を提供するために、拡張ポイントプロンプトを生成する。
SAMは初期点プロンプトから初期マスクを生成し、提案したSAMAugに入力して拡張点プロンプトを生成する。
これらの追加ポイントを組み込むことで、samは拡張ポイントプロンプトと初期プロンプトの両方に基づいて拡張セグメンテーションマスクを生成することができ、セグメンテーション性能が向上する。
ランダムサンプリング,最大差分エントロピーに基づくサンプリング,最大距離,塩分率という4つの異なる点拡張戦略を用いて評価を行った。
COCO、Fundus、COVID QUEx、ISIC2018データセットの実験結果は、SAMAugがSAMのセグメンテーション結果、特に最大距離とサリエンシを使って促進できることを示している。
SAMAugはコンピュータビジョンの視覚的プロンプト増強の可能性を示す。
SAMAugのコードはgithub.com/yhydhx/SAMAugで入手できる。 This paper introduces SAMAug, a novel visual point augmentation method for the Segment Anything Model (SAM) that enhances interactive image segmentation performance. SAMAug generates augmented point prompts to provide more information about the user's intention to SAM. Starting with an initial point prompt, SAM produces an initial mask, which is then fed into our proposed SAMAug to generate augmented point prompts. By incorporating these extra points, SAM can generate augmented segmentation masks based on both the augmented point prompts and the initial prompt, resulting in improved segmentation performance. We conducted evaluations using four different point augmentation strategies: random sampling, sampling based on maximum difference entropy, maximum distance, and saliency. Experiment results on the COCO, Fundus, COVID QUEx, and ISIC2018 datasets show that SAMAug can boost SAM's segmentation results, especially using the maximum distance and saliency. SAMAug demonstrates the potential of visual prompt augmentation for computer vision. Codes of SAMAug are available at github.com/yhydhx/SAMAug | 翻訳日:2023-11-01 23:16:13 公開日:2023-10-31 |
# 手術段階と計器認識:適切なデータセットの分割の同定法 Surgical Phase and Instrument Recognition: How to identify appropriate Dataset Splits ( http://arxiv.org/abs/2306.16879v2 ) ライセンス: Link先を確認 | Georgii Kostiuchik, Lalith Sharan, Benedikt Mayer, Ivo Wolf, Bernhard Preim, Sandy Engelhardt | (参考訳) 目的: マシンラーニングモデルは、トレーニング、検証、テストデータの分割が代表的であり、関心のあるクラスがない場合にのみ確実に評価できる。
手術ワークフローと機器認識タスクは、位相の異なる長さと不規則な発生から生じる重いデータ不均衡のため、この方法で複雑である。
さらに、スプリットを定義する際には、楽器(co-)の出現のようなフェーズを定義するサブプロパティが考慮されないため、問題は難しくなる。
このようなサブプロペラティは等しく考慮されなければならない。
方法:本研究は,手術段階と器具認識のためのデータセット分割のインタラクティブな探索を可能にする,公開データ可視化ツールを提案する。
位相、位相遷移、楽器、計器の組み合わせの発生を可視化することに焦点を当てている。
特に、サブ最適データセット分割の評価と識別を容易にする。
結果: 提案手法を用いたcholec80データセットの分割解析を行い, その1つでは表現されていない楽器の相転移と組み合わせを明らかにすることができた。
さらに、分割に対する改善の可能性についても概説した。
10名の被験者によるユーザスタディでは,提案したアプリケーションを用いてデータ探索タスクの選択を解く能力を示した。
結論: 高度に不均衡なクラス分布では、適切なデータセットの分割の選択に関して特別な注意を払わなければならない。
インタラクティブなデータ可視化ツールは,手術段階と器具認識のためのデータセット分割の評価に有望なアプローチを提供する。
評価結果は,機械学習モデルの開発を促進できることを示している。
アプリケーションはhttps://cardio-ai.github.io/endovis-ml/で入手できる。 Purpose: Machine learning models can only be reliably evaluated if training, validation, and test data splits are representative and not affected by the absence of classes of interest. Surgical workflow and instrument recognition tasks are complicated in this manner, because of heavy data imbalances resulting from different lengths of phases and their erratic occurrences. Furthermore, the issue becomes difficult as sub-properties that help define phases, like instrument (co-)occurrence, are usually not considered when defining the split. We argue that such sub-properties must be equally considered. Methods: This work presents a publicly available data visualization tool that enables interactive exploration of dataset splits for surgical phase and instrument recognition. It focuses on the visualization of the occurrence of phases, phase transitions, instruments, and instrument combinations across sets. Particularly, it facilitates the assessment and identification of sub-optimal dataset splits. Results: We performed an analysis of common Cholec80 dataset splits using the proposed application and were able to uncover phase transitions and combinations of instruments that were not represented in one of the sets. Additionally, we outlined possible improvements to the splits. A user study with ten participants demonstrated the ability of participants to solve a selection of data exploration tasks using the proposed application. Conclusion: In highly unbalanced class distributions, special care should be taken with respect to the selection of an appropriate dataset split. Our interactive data visualization tool presents a promising approach for the assessment of dataset splits for surgical phase and instrument recognition. Evaluation results show that it can enhance the development of machine learning models. The application is available at https://cardio-ai.github.io/endovis-ml/ . | 翻訳日:2023-11-01 23:14:07 公開日:2023-10-31 |
# その報酬をもらえませんか?
偽りの貢献分析による長期クレジット割り当て Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis ( http://arxiv.org/abs/2306.16803v2 ) ライセンス: Link先を確認 | Alexander Meulemans, Simon Schug, Seijin Kobayashi, Nathaniel Daw, Gregory Wayne | (参考訳) 強化学習をより効率的にするためには、アクションが将来の報酬に与える影響を測定するためのより良い信用割当方法が必要である。
HCA(Hindsight Credit Assignment)に基づいて、モデルベースの新しい信用割当アルゴリズムであるCOCOA(Counterfactual Contribution Analysis)を導入する。
我々のアルゴリズムは、偽のクエリを定量化することで、その後の報酬を得る際の行動の寄与度を測定することによって、正確な信用割り当てを達成します。
hcaで行われているように、貢献度を計測する w.r.t. 報酬状態は、貢献の散逸を招き、多くの関連環境において、hca が高分散強化推定値に向かって低下することを示している。
代わりに、報酬オブジェクトの貢献度や学習された表現を測定し、より低い分散を伴う勾配推定をもたらす。
我々は、長期クレジット割り当て能力を評価するために特別に設計された一連の問題で実験を行う。
動的計画法を用いることで,新たなモデルに基づく信用割当手法の性能向上は,hcaや共通ベースラインと比較してバイアスやばらつきが小さいことによるものであることを示す。
本研究は,成果を報奨するための行動貢献のモデル化をクレジット割り当てに活用できることを示し,サンプル効率のよい強化学習への新たな道を開く。 To make reinforcement learning more sample efficient, we need better credit assignment methods that measure an action's influence on future rewards. Building upon Hindsight Credit Assignment (HCA), we introduce Counterfactual Contribution Analysis (COCOA), a new family of model-based credit assignment algorithms. Our algorithms achieve precise credit assignment by measuring the contribution of actions upon obtaining subsequent rewards, by quantifying a counterfactual query: 'Would the agent still have reached this reward if it had taken another action?'. We show that measuring contributions w.r.t. rewarding states, as is done in HCA, results in spurious estimates of contributions, causing HCA to degrade towards the high-variance REINFORCE estimator in many relevant environments. Instead, we measure contributions w.r.t. rewards or learned representations of the rewarding objects, resulting in gradient estimates with lower variance. We run experiments on a suite of problems specifically designed to evaluate long-term credit assignment capabilities. By using dynamic programming, we measure ground-truth policy gradients and show that the improved performance of our new model-based credit assignment methods is due to lower bias and variance compared to HCA and common baselines. Our results demonstrate how modeling action contributions towards rewarding outcomes can be leveraged for credit assignment, opening a new path towards sample-efficient reinforcement learning. | 翻訳日:2023-11-01 23:13:41 公開日:2023-10-31 |
# 分離可能な物理インフォームニューラルネットワーク Separable Physics-Informed Neural Networks ( http://arxiv.org/abs/2306.15969v4 ) ライセンス: Link先を確認 | Junwoo Cho, Seungtae Nam, Hyunmo Yang, Seok-Bae Yun, Youngjoon Hong, Eunbyung Park | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、様々なPDEに対して有望なデータ駆動型PDE解法として最近登場した。
しかし、多次元pdesや近似高複素解関数を解くための訓練ピンの基本的な制限がある。
これらの困難なpdesに必要なトレーニングポイント(ロケーションポイント)の数は大幅に増加するが、高価な計算コストとメモリのオーバーヘッドのため、かなり制限されている。
この問題を克服するため,我々はpinnのネットワークアーキテクチャとトレーニングアルゴリズムを提案する。
提案手法である分離可能なPINN(SPINN)は,従来のPINNのポイントワイド処理とは異なり,多次元PDEにおけるネットワーク伝搬数を著しく削減する。
また,PDE残差計算の計算コストを削減し,単一のコモディティGPU上で多数のコロケーションポイント(>10^7)を実現するために,前方モード自動微分法を提案する。
実験の結果,多次元PDEにおける計算コスト(壁面時間62倍,FLOPでは1,394倍)を大幅に削減し,精度が向上した。
さらに,SPINN は,2+1-d Navier-Stokes 方程式を最良性能の先行手法 (1GPUでは9分対10時間) よりもはるかに高速に解き,精度を維持できることを示した。
最後に、SPINNは高非線形多次元PDE(3+1-d Navier-Stokes方程式)の解を正確に得ることを示す。
結果を視覚化するには、https://jwcho5576.github.io/spinn.github.io/をご覧ください。 Physics-informed neural networks (PINNs) have recently emerged as promising data-driven PDE solvers showing encouraging results on various PDEs. However, there is a fundamental limitation of training PINNs to solve multi-dimensional PDEs and approximate highly complex solution functions. The number of training points (collocation points) required on these challenging PDEs grows substantially, but it is severely limited due to the expensive computational costs and heavy memory overhead. To overcome this issue, we propose a network architecture and training algorithm for PINNs. The proposed method, separable PINN (SPINN), operates on a per-axis basis to significantly reduce the number of network propagations in multi-dimensional PDEs unlike point-wise processing in conventional PINNs. We also propose using forward-mode automatic differentiation to reduce the computational cost of computing PDE residuals, enabling a large number of collocation points (>10^7) on a single commodity GPU. The experimental results show drastically reduced computational costs (62x in wall-clock time, 1,394x in FLOPs given the same number of collocation points) in multi-dimensional PDEs while achieving better accuracy. Furthermore, we present that SPINN can solve a chaotic (2+1)-d Navier-Stokes equation significantly faster than the best-performing prior method (9 minutes vs 10 hours in a single GPU), maintaining accuracy. Finally, we showcase that SPINN can accurately obtain the solution of a highly nonlinear and multi-dimensional PDE, a (3+1)-d Navier-Stokes equation. For visualized results and code, please see https://jwcho5576.github.io/spinn.github.io/. | 翻訳日:2023-11-01 23:13:15 公開日:2023-10-31 |
# 最適輸送を用いたフェアネス説明可能性と画像分類への応用 Fairness Explainability using Optimal Transport with Applications in Image Classification ( http://arxiv.org/abs/2308.11090v2 ) ライセンス: Link先を確認 | Philipp Ratz and Fran\c{c}ois Hu and Arthur Charpentier | (参考訳) 人工知能システムにおける信頼と説明責任の確保は、その成果の説明可能性を要求する。
説明可能なAIの大幅な進歩にもかかわらず、人間の偏見はトレーニングデータのかなりの部分を占めており、不公平さや差別的傾向に対する懸念を高めている。
アルゴリズムの公平さの分野における現在のアプローチは、モデルの結果におけるそのようなバイアスの緩和に焦点を当てているが、モデルが偏っていることを説明する試みは、ほとんど行われていない。
この2つの分野間のギャップを埋めるため,我々は最適な輸送理論を用いて機械学習アプリケーションにおける識別の原因を明らかにする包括的アプローチを提案し,特に画像分類を強調する。
我々はwasserstein barycentersを利用して公正な予測を行い,バイアス関連領域をピンポイントする拡張を導入する。
これにより、強制された公平性を用いて各特徴が偏りに影響を及ぼすことを計測する凝集システムを得ることができる。
フェアネスの実施と説明というこの相互作用を利用して、我々の手法は、さまざまな領域にわたる重要な意思決定シナリオにおける透明性、説明責任、公平性を育み、信頼に値するAIシステムの開発に重大な影響を与える。 Ensuring trust and accountability in Artificial Intelligence systems demands explainability of its outcomes. Despite significant progress in Explainable AI, human biases still taint a substantial portion of its training data, raising concerns about unfairness or discriminatory tendencies. Current approaches in the field of Algorithmic Fairness focus on mitigating such biases in the outcomes of a model, but few attempts have been made to try to explain \emph{why} a model is biased. To bridge this gap between the two fields, we propose a comprehensive approach that uses optimal transport theory to uncover the causes of discrimination in Machine Learning applications, with a particular emphasis on image classification. We leverage Wasserstein barycenters to achieve fair predictions and introduce an extension to pinpoint bias-associated regions. This allows us to derive a cohesive system which uses the enforced fairness to measure each features influence \emph{on} the bias. Taking advantage of this interplay of enforcing and explaining fairness, our method hold significant implications for the development of trustworthy and unbiased AI systems, fostering transparency, accountability, and fairness in critical decision-making scenarios across diverse domains. | 翻訳日:2023-11-01 23:04:55 公開日:2023-10-31 |
# セマンティックイメージセグメンテーションマスクからの合成インスタンスセグメンテーション Synthetic Instance Segmentation from Semantic Image Segmentation Masks ( http://arxiv.org/abs/2308.00949v3 ) ライセンス: Link先を確認 | Yuchen Shen, Dong Zhang, Yuhui Zheng, Zechao Li, Liyong Fu, Qiaolin Ye | (参考訳) 近年、インスタンスセグメンテーションの発展は、広範囲のアプリケーションにおいて大きな注目を集めている。
しかし、完全に教師付きインスタンスセグメンテーションモデルのトレーニングには、インスタンスレベルのアノテーションとピクセルレベルのアノテーションの両方が必要となる。
対照的に、弱教師付きインスタンスセグメンテーション手法(画像レベルのクラスラベルやポイントラベルなど)は、現実シナリオの正確性とリコール要件を満たすのに苦労する。
本稿では,本論文で提案するsynthetic instance segmentation (siseg) と呼ばれる新しいパラダイムを提案する。
SISegはセマンティックやインスタンスセグメンテーションモデルをトレーニングする必要はなく、インスタンスレベルのイメージアノテーションを必要としない。
したがって、非常に効率的である。
具体的には、まず、訓練された意味セグメンテーションモデルを用いて、入力画像の意味セグメンテーションマスクを得る。
次に, 分割マスクに基づいて各画素の変位場ベクトルを算出し, 同一のクラスに属するが, 異なるインスタンスに属する表現, すなわち, インスタンスレベルのオブジェクト情報を得る。
最後に、学習可能なカテゴリ非依存オブジェクト境界分岐により、インスタンス分割結果が得られる。
2つの挑戦的データセットと代表的セマンティックセグメンテーションベースライン(CNNやTransformersを含む)の広範な実験結果から、SISegは、人的資源の追加や計算コストの増大を必要とせず、最先端の完全に管理されたインスタンスセグメンテーション手法と比較して、競争力のある結果が得られることが示された。
コードは siseg で利用可能です。 In recent years, the development of instance segmentation has garnered significant attention in a wide range of applications. However, the training of a fully-supervised instance segmentation model requires costly both instance-level and pixel-level annotations. In contrast, weakly-supervised instance segmentation methods (i.e., with image-level class labels or point labels) struggle to satisfy the accuracy and recall requirements of practical scenarios. In this paper, we propose a novel paradigm called synthetic instance segmentation (SISeg), which achieves Instance Segmentation results from image masks predicted using off-the-shelf semantic segmentation models. SISeg does not require training a semantic or/and instance segmentation model and avoids the need for instance-level image annotations. Therefore, it is highly efficient. Specifically, we first obtain a semantic segmentation mask of the input image via a trained semantic segmentation model. Then, we calculate a displacement field vector for each pixel based on the segmentation mask, which can indicate representations belonging to the same class but different instances, i.e., obtaining the instance-level object information. Finally, instance segmentation results are obtained after being refined by a learnable category-agnostic object boundary branch. Extensive experimental results on two challenging datasets and representative semantic segmentation baselines (including CNNs and Transformers) demonstrate that SISeg can achieve competitive results compared to the state-of-the-art fully-supervised instance segmentation methods without the need for additional human resources or increased computational costs. The code is available at: SISeg | 翻訳日:2023-11-01 23:02:07 公開日:2023-10-31 |
# ChatGPTの行動は時間とともにどのように変化するのか? How is ChatGPT's behavior changing over time? ( http://arxiv.org/abs/2307.09009v3 ) ライセンス: Link先を確認 | Lingjiao Chen and Matei Zaharia and James Zou | (参考訳) GPT-3.5とGPT-4は2つの最も広く使われている大規模言語モデル(LLM)である。
しかし、これらのモデルがいつどのように更新されるかは不透明である。
ここでは, GPT-3.5 と GPT-4 の2023年3月版と6月版を多種多様なタスクで評価する。
1)数学の問題,
2)敏感で危険な質問
3) 意見調査
4)マルチホップ知識集約質問。
5) コードの生成。
6)米国の医療免許試験及び
7) 視覚的推論。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
例えば、GPT-4(2023年3月)は素数対合成数(84%の精度)を特定するのに適していたが、GPT-4(2023年6月)はこれらの同じ質問(51%の精度)では不十分であった。
これは部分的には、GPT-4のアメニティが減少し、思考の連鎖が進行するにつれて説明される。
興味深いことに、GPT-3.5は6月で3月よりずっと良かった。
GPT-4は6月に3月よりセンシティブな質問や世論調査への回答が少なくなった。
GPT-4は6月のマルチホップ問題では3月より優れていたが、GPT-3.5のパフォーマンスは低下した。
GPT-4とGPT-3.5は、コード生成のフォーマットミスが3月よりも多かった。
我々は,gpt-4がユーザ指示に従う能力が時間とともに低下していることを示す。
総じて, LLM サービスの動作は比較的短時間で大きく変化し, LLM の継続的モニタリングの必要性が浮き彫りになった。 GPT-3.5 and GPT-4 are the two most widely used large language model (LLM) services. However, when and how these models are updated over time is opaque. Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 on several diverse tasks: 1) math problems, 2) sensitive/dangerous questions, 3) opinion surveys, 4) multi-hop knowledge-intensive questions, 5) generating code, 6) US Medical License tests, and 7) visual reasoning. We find that the performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time. For example, GPT-4 (March 2023) was reasonable at identifying prime vs. composite numbers (84% accuracy) but GPT-4 (June 2023) was poor on these same questions (51% accuracy). This is partly explained by a drop in GPT-4's amenity to follow chain-of-thought prompting. Interestingly, GPT-3.5 was much better in June than in March in this task. GPT-4 became less willing to answer sensitive questions and opinion survey questions in June than in March. GPT-4 performed better at multi-hop questions in June than in March, while GPT-3.5's performance dropped on this task. Both GPT-4 and GPT-3.5 had more formatting mistakes in code generation in June than in March. We provide evidence that GPT-4's ability to follow user instructions has decreased over time, which is one common factor behind the many behavior drifts. Overall, our findings show that the behavior of the "same" LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLMs. | 翻訳日:2023-11-01 23:00:53 公開日:2023-10-31 |
# 鏡の輝きと共役勾配による効率的な高精度輸送 Efficient and Accurate Optimal Transport with Mirror Descent and Conjugate Gradients ( http://arxiv.org/abs/2307.08507v2 ) ライセンス: Link先を確認 | Mete Kemertas, Allan D. Jepson, Amir-massoud Farahmand | (参考訳) 我々は,エントロピー最適輸送,ミラー降下,共役勾配の文献から,最適輸送のための新しいアルゴリズムを設計する。
スケーラブルでgpuの並列化可能なアルゴリズムは、wasserstein距離を極端な精度で計算でき、数値的な安定性の問題なく、相対エラーレートが10^{-8}$に達する。
経験的に、このアルゴリズムは、ログ領域安定化シンクホーンアルゴリズムを含む様々なアルゴリズムよりも、ウォールクロック時間の観点からより高速に高精度な解に収束する。
アルゴリズムと問題パラメータに関して注意深いアブレーションを行い,アップサンプリングしたmnist画像に対するベンチマークを行い,高次元問題に対する最近の様々なアルゴリズムと比較した。
その結果,本アルゴリズムは最適なトランスポートツールキットに有用であることが示唆された。 We design a novel algorithm for optimal transport by drawing from the entropic optimal transport, mirror descent and conjugate gradients literatures. Our scalable and GPU parallelizable algorithm is able to compute the Wasserstein distance with extreme precision, reaching relative error rates of $10^{-8}$ without numerical stability issues. Empirically, the algorithm converges to high precision solutions more quickly in terms of wall-clock time than a variety of algorithms including log-domain stabilized Sinkhorn's Algorithm. We provide careful ablations with respect to algorithm and problem parameters, and present benchmarking over upsampled MNIST images, comparing to various recent algorithms over high-dimensional problems. The results suggest that our algorithm can be a useful addition to the practitioner's optimal transport toolkit. | 翻訳日:2023-11-01 23:00:28 公開日:2023-10-31 |
# SupFusion:3Dオブジェクト検出のためのLiDAR-Camera Fusion SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2309.07084v2 ) ライセンス: Link先を確認 | Yiran Qin, Chaoqun Wang, Zijian Kang, Ningning Ma, Zhen Li, Ruimao Zhang | (参考訳) 本稿では,実効LiDAR-Camera融合のための機能レベルの補助的監視を提供し,検出性能を大幅に向上させるSupFusionと呼ばれる新しいトレーニング戦略を提案する。
我々の戦略はポーラサンプリング(Polar Smpling)と呼ばれるデータ強化手法で、スパースオブジェクトを密度化し、アシスタントモデルを訓練し、監督として高品質な特徴を生成する。
これらの機能はLiDAR-Camera融合モデルをトレーニングするために使用され、融合機能は生成された高品質な機能をシミュレートするために最適化される。
さらに,SupFusion 戦略を用いた従来の核融合法と比較して連続的に性能が向上する,単純で効果的な深層核融合モジュールを提案する。
このようにして、提案は以下の利点を共有します。
まず、SupFusionは追加の推論コストを導入することなくLiDAR-Camera検出性能を向上させる機能レベルの補助的監視を導入する。
第二に、提案された深部核融合は検出器の能力を継続的に改善することができた。
提案するsupfusionおよびdeep fusionモジュールはプラグアンドプレイであり,その効果を実証するための広範な実験を行う。
具体的には,複数のLiDAR-Camera 3D検出器をベースとしたKITTIベンチマークにおいて,約2%の3D mAP改善が得られた。 In this paper, we propose a novel training strategy called SupFusion, which provides an auxiliary feature level supervision for effective LiDAR-Camera fusion and significantly boosts detection performance. Our strategy involves a data enhancement method named Polar Sampling, which densifies sparse objects and trains an assistant model to generate high-quality features as the supervision. These features are then used to train the LiDAR-Camera fusion model, where the fusion feature is optimized to simulate the generated high-quality features. Furthermore, we propose a simple yet effective deep fusion module, which contiguously gains superior performance compared with previous fusion methods with SupFusion strategy. In such a manner, our proposal shares the following advantages. Firstly, SupFusion introduces auxiliary feature-level supervision which could boost LiDAR-Camera detection performance without introducing extra inference costs. Secondly, the proposed deep fusion could continuously improve the detector's abilities. Our proposed SupFusion and deep fusion module is plug-and-play, we make extensive experiments to demonstrate its effectiveness. Specifically, we gain around 2% 3D mAP improvements on KITTI benchmark based on multiple LiDAR-Camera 3D detectors. | 翻訳日:2023-11-01 22:52:29 公開日:2023-10-31 |
# ebbとフローの評価:多様なプラットフォームにわたる質問応答トレンドの詳細な分析 Evaluating the Ebb and Flow: An In-depth Analysis of Question-Answering Trends across Diverse Platforms ( http://arxiv.org/abs/2309.05961v2 ) ライセンス: Link先を確認 | Rima Hazra, Agnik Saha, Somnath Banerjee and Animesh Mukherjee | (参考訳) コミュニティ質問回答(Community Question Answering, CQA)プラットフォームは,クエリに対する迅速な応答をユーザに提供することで,着実に人気を集めている。
これらの応答の迅速性は、クエリ固有要素とユーザ関連要素の混合に起因している。
本稿では,これらの要因を,人気の高い6つのCQAプラットフォームのコンテキスト内で調査する。
本研究は,質問に対する最初の回答を得るのに要する時間と,複数の変数(メタデータ,質問の定式化,ユーザ間のインタラクションのレベル)との相関関係を明らかにする。
さらに、従来の機械学習モデルを用いてこれらのメタデータとユーザインタラクションのパターンを分析し、どのクエリがすぐに最初のレスポンスを受け取るかを予測する。 Community Question Answering (CQA) platforms steadily gain popularity as they provide users with fast responses to their queries. The swiftness of these responses is contingent on a mixture of query-specific and user-related elements. This paper scrutinizes these contributing factors within the context of six highly popular CQA platforms, identified through their standout answering speed. Our investigation reveals a correlation between the time taken to yield the first response to a question and several variables: the metadata, the formulation of the questions, and the level of interaction among users. Additionally, by employing conventional machine learning models to analyze these metadata and patterns of user interaction, we endeavor to predict which queries will receive their initial responses promptly. | 翻訳日:2023-11-01 22:52:09 公開日:2023-10-31 |
# 物理システムにおける創発的学習 : ガラス景観におけるフィードバックに基づく老化 Emergent learning in physical systems as feedback-based aging in a glassy landscape ( http://arxiv.org/abs/2309.04382v2 ) ライセンス: Link先を確認 | Vidyesh Rao Anisetti, Ananth Kandala, J. M. Schwarz | (参考訳) 線形物理ネットワークを訓練して線形変換を学習することにより,重み更新規則によりその物理特性がどのように進化するかを見極める。
本研究は,このようなネットワークの学習行動と,不規則系およびガラス系における老化・記憶形成過程の類似性に注目した。
学習のダイナミクスは,入力力の存在下でフィードバック境界力の繰り返し適用に応答してシステムが緩和し,入出力関係の記憶を符号化する,老化過程に類似していることを示す。
この緩和により相関長が増加し、これはネットワークの構成要素の2点相関関数によって示される。
また,エポック関数としての平均二乗誤差の平方根が非指数形式をとることも観察し,ガラス系の典型的特徴である。
この物理的解釈は、より詳細な情報を入力とフィードバックの境界力にエンコードすることで、創発的学習のプロセスはむしろユビキタスになり、進化的観点から、生物システムにおける学習のための非常に初期の物理的メカニズムとなることを示唆している。 By training linear physical networks to learn linear transformations, we discern how their physical properties evolve due to weight update rules. Our findings highlight a striking similarity between the learning behaviors of such networks and the processes of aging and memory formation in disordered and glassy systems. We show that the learning dynamics resembles an aging process, where the system relaxes in response to repeated application of the feedback boundary forces in presence of an input force, thus encoding a memory of the input-output relationship. With this relaxation comes an increase in the correlation length, which is indicated by the two-point correlation function for the components of the network. We also observe that the square root of the mean-squared error as a function of epoch takes on a non-exponential form, which is a typical feature of glassy systems. This physical interpretation suggests that by encoding more detailed information into input and feedback boundary forces, the process of emergent learning can be rather ubiquitous and, thus, serve as a very early physical mechanism, from an evolutionary standpoint, for learning in biological systems. | 翻訳日:2023-11-01 22:51:56 公開日:2023-10-31 |
# 非エルミートハミルトニアンに対する擬PT対称性理論について:時間依存系 On the {\eta} pseudo PT symmetry theory for non-Hermitian Hamiltonians: time-dependent systems ( http://arxiv.org/abs/2308.13834v3 ) ライセンス: Link先を確認 | Mustapha Maamache | (参考訳) 非エルミート量子力学の文脈では、多くの系は擬pt対称性を持つこと、すなわち非ヘルミートハミルトニアン h は関係式 h^{{\dag}}=pthpt を介してその随伴 h^{{\dag}} と関連していることが知られている。
時間依存非ヘルミティアンハミルトニアンに対して,時間依存準ヘルミティティー関係を満たさずにハイゼンベルク発展方程式に従う新しい計量 {\eta}(t)=pt{\eta}(t) を導出することにより,擬pt対称性とpseudo-hermiticityの導出を提案する。
そこで本研究では,su(1,1)時間依存非エルミートハミルトニアンを解き,この新しい計量を用いて時間依存解を構築し,その具体的な物理応用について考察する。 In the context of non-Hermitian quantum mechanics, many systems are known to possess a pseudo PT symmetry , i.e. the non-Hermitian Hamiltonian H is related to its adjoint H^{{\dag}} via the relation, H^{{\dag}}=PTHPT . We propose a derivation of pseudo PT symmetry and {\eta} -pseudo-Hermiticity simultaneously for the time dependent non-Hermitian Hamiltonians by intoducing a new metric {\eta}(t)=PT{\eta}(t) that not satisfy the time-dependent quasi-Hermiticity relation but obeys the Heisenberg evolution equation. Here, we solve the SU(1,1) time-dependent non-Hermitian Hamiltonian and we construct a time-dependent solutions by employing this new metric and discuss a concrete physical applications of our results. | 翻訳日:2023-11-01 22:49:26 公開日:2023-10-31 |
# 非エルミートハミルトニアンに対する新しい対称性理論 A new symmetry theory for non-Hermitian Hamiltonians ( http://arxiv.org/abs/2308.13619v2 ) ライセンス: Link先を確認 | Mustapha Maamache and Nour El Houda Absi | (参考訳) 記号 {\eta} で表される擬PT対称性理論は、H の随伴である H^{{\dag}} が H^{{\dag}}=PTHPT として表される PT 対称性の違反にもかかわらず、非エルミートハミルトニアンが真のスペクトルを持つことができる条件を探求する。
この理論は、ヒルベルト空間に作用する新しい対称性作用素 {\eta}=pt{\eta} を導入する。
擬 pt 対称性条件は、ハミルトニアンが {\eta} 作用素に可換であることを必要とし、実固有値に繋がる。
我々は、非エルミート調和振動子の結合に対する結果の一般的な意味について論じる。 The {\eta} pseudo PT symmetry theory, denoted by the symbol {\eta}, explores the conditions under which non-Hermitian Hamiltonians can possess real spectra despite the violation of PT symmetry, that is the adjoint of H, denoted H^{{\dag}} is expressed as H^{{\dag}}=PTHPT. This theory introduces a new symmetry operator, {\eta}=PT{\eta}, which acts on the Hilbert space. The {\eta} pseudo PT symmetry condition requires the Hamiltonian to commute with the {\eta} operator, leading to real eigenvalues. We discuss some general implications of our results for the coupled non hermitian harmonic oscillator. | 翻訳日:2023-11-01 22:49:03 公開日:2023-10-31 |
# ドキュメントページ分類を超えて:設計、データセット、挑戦 Beyond Document Page Classification: Design, Datasets, and Challenges ( http://arxiv.org/abs/2308.12896v3 ) ライセンス: Link先を確認 | Jordy Van Landeghem, Sanket Biswas, Matthew B. Blaschko, Marie-Francine Moens | (参考訳) 本稿では、テスト対象データの性質(X$: マルチチャネル、マルチページ、マルチインダストリー、$Y$: クラス分布、ラベルセットの多様性)と、検討対象の分類タスク(f$: マルチページドキュメント、ページストリーム、ドキュメントバンドル分類、...)の両方において、実世界のアプリケーションに文書分類ベンチマークを近づけることの必要性を強調した。
我々は、公開マルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
提案されているマルチページ文書分類データセットに関する実験的研究は、現在のベンチマークが無関係になり、完全に文書を評価するために更新する必要があることを実証している。
この現実チェックはまた、キャリブレーション評価、推論複雑性(時間メモリ)、および現実的な分散シフト(例えば、出生デジタル対走査ノイズ、ページ順のシフトなど)をカバーする、より成熟した評価手法も要求する。
私たちの研究は、将来の改善のためにコンクリート製アベニューを推奨することで、希望に満ちた注記で終わる。
} This paper highlights the need to bring document classification benchmarking closer to real-world applications, both in the nature of data tested ($X$: multi-channel, multi-paged, multi-industry; $Y$: class distributions and label set variety) and in classification tasks considered ($f$: multi-page document, page stream, and document bundle classification, ...). We identify the lack of public multi-page document classification datasets, formalize different classification tasks arising in application scenarios, and motivate the value of targeting efficient multi-page document representations. An experimental study on proposed multi-page document classification datasets demonstrates that current benchmarks have become irrelevant and need to be updated to evaluate complete documents, as they naturally occur in practice. This reality check also calls for more mature evaluation methodologies, covering calibration evaluation, inference complexity (time-memory), and a range of realistic distribution shifts (e.g., born-digital vs. scanning noise, shifting page order). Our study ends on a hopeful note by recommending concrete avenues for future improvements.} | 翻訳日:2023-11-01 22:48:31 公開日:2023-10-31 |
# グラフ畳み込みネットワークを用いたロバスト心筋セグメンテーションに向けて Towards Robust Cardiac Segmentation using Graph Convolutional Networks ( http://arxiv.org/abs/2310.01210v3 ) ライセンス: Link先を確認 | Gilles Van De Vyver, Sarina Thomas, Guy Ben-Yosef, Sindre Hellum Olaisen, H\r{a}vard Dalen, Lasse L{\o}vstakken, and Erik Smistad | (参考訳) 完全自動心筋分画は、心エコー検査から臨床測定を抽出する高速かつ再現可能な方法である。
u-netアーキテクチャは医学的なセグメンテーションのための最先端のディープラーニングアーキテクチャであり、平均的なエラーで心臓構造をリアルタイムでセグメンテーションすることができる。
しかし、このアーキテクチャは、しばしば解剖学的に正しくない大きな外れ値を生成する。
この研究はグラフ畳み込みニューラルネットワークの概念を用いて、各ピクセルをラベル付けするのではなく、興味のある構造の輪郭点を予測する。
本研究では,心臓解剖学に基づく2つの畳み込み輪を用いたグラフアーキテクチャを提案する。
さらに、この研究は、グラフ畳み込みアーキテクチャに関するアブレーション研究と、臨床HUNT4データセットに関する臨床測定の評価に寄与する。
最後に,U-Netとグラフネットワークのモデル間合意を,入力品質とセグメンテーション品質の両方の予測器として用いることを提案する。
この予測器は,分布外および不適な入力画像をリアルタイムに検出できることを示す。
ソースコード: https://github.com/gillesvntnu/gcn_multistructure Fully automatic cardiac segmentation can be a fast and reproducible method to extract clinical measurements from an echocardiography examination. The U-Net architecture is the current state-of-the-art deep learning architecture for medical segmentation and can segment cardiac structures in real-time with average errors comparable to inter-observer variability. However, this architecture still generates large outliers that are often anatomically incorrect. This work uses the concept of graph convolutional neural networks that predict the contour points of the structures of interest instead of labeling each pixel. We propose a graph architecture that uses two convolutional rings based on cardiac anatomy and show that this eliminates anatomical incorrect multi-structure segmentations on the publicly available CAMUS dataset. Additionally, this work contributes with an ablation study on the graph convolutional architecture and an evaluation of clinical measurements on the clinical HUNT4 dataset. Finally, we propose to use the inter-model agreement of the U-Net and the graph network as a predictor of both the input and segmentation quality. We show this predictor can detect out-of-distribution and unsuitable input images in real-time. Source code is available online: https://github.com/gillesvntnu/GCN_multistructure | 翻訳日:2023-11-01 22:40:07 公開日:2023-10-31 |
# DataDAM: 注意マッチングによる効率的なデータセット蒸留 DataDAM: Efficient Dataset Distillation with Attention Matching ( http://arxiv.org/abs/2310.00093v2 ) ライセンス: Link先を確認 | Ahmad Sajedi, Samir Khaki, Ehsan Amjadian, Lucy Z. Liu, Yuri A. Lawryshyn, Konstantinos N. Plataniotis | (参考訳) 研究者たちは、さまざまなデータセットにわたる強力な一般化を維持しながら、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセット蒸留に関する新たな研究は、より大きな実データセットの情報を含む小さな合成集合を作成し、最終的にデータセット全体でトレーニングされたモデルに匹敵するテスト精度を達成することで、トレーニングコストを削減することを目的としている。
残念なことに、以前の方法によって生成された合成データは、元のトレーニングデータと同様に分散や判別が保証されておらず、かなりの計算コストがかかる。
有望な結果にもかかわらず、凝縮合成セットでトレーニングされたモデルとデータセット全体でトレーニングされたモデルの間には、依然として大きなパフォーマンスギャップがある。
本稿では,DataDAM(Dataset Distillation with Attention Matching)を用いて,トレーニングコストを削減しつつ,最先端のパフォーマンスを実現する。
具体的には、ランダムに初期化されたニューラルネットワーク群内の異なる層によって生成された実データと合成データの空間的注意マップをマッチングして合成画像を学ぶ。
CIFAR10/100, TinyImageNet, ImageNet-1K, ImageNet-1Kのサブセットなど,多くの設定において従来手法よりも優れており, CIFAR100とImageNet-1Kでは最大6.5%,4.1%の改善が達成されている。
また, 高品質蒸留画像は, 連続学習やニューラルネットワーク検索など, 下流のアプリケーションにも実用的な効果があることを示した。 Researchers have long tried to minimize training costs in deep learning while maintaining strong generalization across diverse datasets. Emerging research on dataset distillation aims to reduce training costs by creating a small synthetic set that contains the information of a larger real dataset and ultimately achieves test accuracy equivalent to a model trained on the whole dataset. Unfortunately, the synthetic data generated by previous methods are not guaranteed to distribute and discriminate as well as the original training data, and they incur significant computational costs. Despite promising results, there still exists a significant performance gap between models trained on condensed synthetic sets and those trained on the whole dataset. In this paper, we address these challenges using efficient Dataset Distillation with Attention Matching (DataDAM), achieving state-of-the-art performance while reducing training costs. Specifically, we learn synthetic images by matching the spatial attention maps of real and synthetic data generated by different layers within a family of randomly initialized neural networks. Our method outperforms the prior methods on several datasets, including CIFAR10/100, TinyImageNet, ImageNet-1K, and subsets of ImageNet-1K across most of the settings, and achieves improvements of up to 6.5% and 4.1% on CIFAR100 and ImageNet-1K, respectively. We also show that our high-quality distilled images have practical benefits for downstream applications, such as continual learning and neural architecture search. | 翻訳日:2023-11-01 22:39:15 公開日:2023-10-31 |
# DeBERTinha: ブラジルの自然言語処理タスクにDebertaV3 XSmallを適用するためのマルチステップアプローチ DeBERTinha: A Multistep Approach to Adapt DebertaV3 XSmall for Brazilian Portuguese Natural Language Processing Task ( http://arxiv.org/abs/2309.16844v2 ) ライセンス: Link先を確認 | Israel Campiotti, Matheus Rodrigues, Yuri Albuquerque, Rafael Azevedo, Alyson Andrade | (参考訳) 本稿では,ブラジルのポルトガル語自然言語処理(NLP)タスクに対して,英語で事前学習したDebertaV3 XSmallモデルを適用するためのアプローチを提案する。
この方法論の重要な側面は、ポルトガル語でモデルを効果的に調整するためのマルチステップのトレーニングプロセスである。
CarolinaとBrWacの最初のデータセットは、絵文字、HTMLタグ、エンコーディングなどの問題に対処するために前処理される。
ポルトガル語固有の5万トークンの語彙は文節を用いて作成される。
スクラッチからトレーニングするのではなく、トレーニング済みの英語モデルの重みは、ネットワークのほとんどをランダムな埋め込みで初期化するために使用され、スクラッチからトレーニングのコストを認識できる。
モデルはDebertaV3トレーニングと同じフォーマットで、置換トークン検出タスクを使用して微調整される。
DeBERTinhaと呼ばれる適応型モデルは、名前付きエンティティ認識、感情分析、文関連性の決定といった下流タスクにおいて、40万のパラメータしか持たないにもかかわらず、BERTimbau-Largeを2つのタスクで上回る効果を示す。 This paper presents an approach for adapting the DebertaV3 XSmall model pre-trained in English for Brazilian Portuguese natural language processing (NLP) tasks. A key aspect of the methodology involves a multistep training process to ensure the model is effectively tuned for the Portuguese language. Initial datasets from Carolina and BrWac are preprocessed to address issues like emojis, HTML tags, and encodings. A Portuguese-specific vocabulary of 50,000 tokens is created using SentencePiece. Rather than training from scratch, the weights of the pre-trained English model are used to initialize most of the network, with random embeddings, recognizing the expensive cost of training from scratch. The model is fine-tuned using the replaced token detection task in the same format of DebertaV3 training. The adapted model, called DeBERTinha, demonstrates effectiveness on downstream tasks like named entity recognition, sentiment analysis, and determining sentence relatedness, outperforming BERTimbau-Large in two tasks despite having only 40M parameters. | 翻訳日:2023-11-01 22:38:17 公開日:2023-10-31 |
# ガウススプレイティングを用いたテキストから3D Text-to-3D using Gaussian Splatting ( http://arxiv.org/abs/2309.16585v3 ) ライセンス: Link先を確認 | Zilong Chen, Feng Wang, Huaping Liu | (参考訳) 本稿では,高品質3dオブジェクト生成のための新しい手法であるgsgen(gaussian splatting based text-to-3d generation)を提案する。
以前の手法では、3dの事前表現と適切な表現がないため、不正確な幾何学と限定的な忠実さに苦しむ。
我々は,最新の最先端表現である3d gaussian splatting を利用して,3d pre の組み入れを可能にする明示的な性質を活用し,既存の欠点を解決する。
具体的には,幾何学最適化段階と外観改善段階を含むプログレッシブ最適化戦略を採用する。
幾何最適化において、通常の2次元SDS損失とともに3次元幾何の下で粗い表現が確立され、3次元一貫性のある粗い形状が確保される。
その後、得られたガウス人は詳細を豊かにするために反復的な改良を行う。
この段階では、コンパクト性に基づくデンシフィケーションによってガウス数を増やし、連続性を高め、忠実性を向上させる。
これらの設計により、より繊細なディテールとより正確な幾何で3Dコンテンツを生成することができる。
広汎な評価は,特に高周波成分の捕捉に有効であることを示す。
ビデオはhttps://gsgen3d.github.ioで提供される。
私たちのコードはhttps://github.com/gsgen3d/gsgenで利用可能です。 In this paper, we present Gaussian Splatting based text-to-3D generation (GSGEN), a novel approach for generating high-quality 3D objects. Previous methods suffer from inaccurate geometry and limited fidelity due to the absence of 3D prior and proper representation. We leverage 3D Gaussian Splatting, a recent state-of-the-art representation, to address existing shortcomings by exploiting the explicit nature that enables the incorporation of 3D prior. Specifically, our method adopts a progressive optimization strategy, which includes a geometry optimization stage and an appearance refinement stage. In geometry optimization, a coarse representation is established under a 3D geometry prior along with the ordinary 2D SDS loss, ensuring a sensible and 3D-consistent rough shape. Subsequently, the obtained Gaussians undergo an iterative refinement to enrich details. In this stage, we increase the number of Gaussians by compactness-based densification to enhance continuity and improve fidelity. With these designs, our approach can generate 3D content with delicate details and more accurate geometry. Extensive evaluations demonstrate the effectiveness of our method, especially for capturing high-frequency components. Video results are provided at https://gsgen3d.github.io. Our code is available at https://github.com/gsgen3d/gsgen | 翻訳日:2023-11-01 22:37:34 公開日:2023-10-31 |
# 量子均質化のためのコヒーレントモデルと非コヒーレントモデルの比較 Comparing coherent and incoherent models for quantum homogenization ( http://arxiv.org/abs/2309.15741v2 ) ライセンス: Link先を確認 | Anna Beever, Maria Violaris, Chiara Marletto and Vlatko Vedral | (参考訳) 本稿では,収束特性が熱化過程をモデル化する量子ホモゲナイザにおける量子干渉の役割について検討する。
元の量子ホモジェナイザープロトコルでは、系 qubit は部分スワップ相互作用を通じて同一の貯水池 qubit の状態に収束し、貯水池 qubit 間の干渉を可能にする。
我々は、制御-スワップ相互作用を用いた制御量子ビットによって各システム-保存相互作用をモデレートする、非一貫性量子ホモゲナイザを設計した。
我々の非一貫性ホモゲナイザは、任意の状態から任意の状態へ量子ビットを任意の精度に変換でき、貯水池の量子ビットの状態に何の影響も与えられないような、ホモゲナイズの本質的な条件を満たす。
その結果, 熱分解のモデル化に重要な均質化機械の収束特性は, 量子ビット間のコヒーレンスに依存しないことがわかった。
次に、状態変換を行うホモジェナイザーの再利用に必要なリソースのバウンダリを導出する。
これは、どちらのホモジェナイザーも、資源コストを増大させるため、任意の数のホモジェナイザーに対して普遍的であることを示す。 Here we investigate the role of quantum interference in the quantum homogenizer, whose convergence properties model a thermalization process. In the original quantum homogenizer protocol, a system qubit converges to the state of identical reservoir qubits through partial-swap interactions, that allow interference between reservoir qubits. We design an alternative, incoherent quantum homogenizer, where each system-reservoir interaction is moderated by a control qubit using a controlled-swap interaction. We show that our incoherent homogenizer satisfies the essential conditions for homogenization, being able to transform a qubit from any state to any other state to arbitrary accuracy, with negligible impact on the reservoir qubits' states. Our results show that the convergence properties of homogenization machines that are important for modelling thermalization are not dependent on coherence between qubits in the homogenization protocol. We then derive bounds on the resources required to re-use the homogenizers for performing state transformations. This demonstrates that both homogenizers are universal for any number of homogenizations, for an increased resource cost. | 翻訳日:2023-11-01 22:37:15 公開日:2023-10-31 |
# COCO-Counterfactuals:イメージテキストペアの自動構築 COCO-Counterfactuals: Automatically Constructed Counterfactual Examples for Image-Text Pairs ( http://arxiv.org/abs/2309.14356v2 ) ライセンス: Link先を確認 | Tiep Le and Vasudev Lal and Phillip Howard | (参考訳) 対実例は、自然言語処理(NLP)の分野において、データセットの相関を刺激する言語モデルの堅牢性の評価と改善に有用であることが証明されている。
NLPの実用性が実証されているにもかかわらず、最小限の反ファクト変化を伴うペア画像テキストデータの作成が困難であるため、マルチモーダル・カウンティファクトの例は比較的探索されていない。
この課題に対処するために,テキストから画像への拡散モデルを用いた偽例の自動生成のためのスケーラブルなフレームワークを提案する。
我々は,MS-COCOデータセットをベースとした,ペア画像とテキストキャプションのマルチモーダル・デファクト・データセットであるCOCO-Counterfactualsを作成する。
我々は,COCO-Counterfactualsの品質を人間による評価により検証し,既存のマルチモーダルモデルが対物画像テキストペアによって挑戦されていることを示す。
さらに,COCO-Counterfactualsのトレーニングデータ拡張によるマルチモーダル視覚言語モデルのドメイン外一般化向上に有用であることを示す。 Counterfactual examples have proven to be valuable in the field of natural language processing (NLP) for both evaluating and improving the robustness of language models to spurious correlations in datasets. Despite their demonstrated utility for NLP, multimodal counterfactual examples have been relatively unexplored due to the difficulty of creating paired image-text data with minimal counterfactual changes. To address this challenge, we introduce a scalable framework for automatic generation of counterfactual examples using text-to-image diffusion models. We use our framework to create COCO-Counterfactuals, a multimodal counterfactual dataset of paired image and text captions based on the MS-COCO dataset. We validate the quality of COCO-Counterfactuals through human evaluations and show that existing multimodal models are challenged by our counterfactual image-text pairs. Additionally, we demonstrate the usefulness of COCO-Counterfactuals for improving out-of-domain generalization of multimodal vision-language models via training data augmentation. | 翻訳日:2023-11-01 22:36:40 公開日:2023-10-31 |
# 因果自己説明のためのD分離 D-Separation for Causal Self-Explanation ( http://arxiv.org/abs/2309.13391v2 ) ライセンス: Link先を確認 | Wei Liu, Jun Wang, Haozhao Wang, Ruixuan Li, Zhiying Deng, YuanKai Zhang, Yang Qiu | (参考訳) 合理化はNLPモデルの自己説明フレームワークである。
従来の作業では、通常、最大相互情報(MMI)基準を使用して、ターゲットラベルの最も示唆的な根拠を見つける。
しかし、この基準は因果的根拠や対象ラベルと相関する刺激的な特徴に影響される可能性がある。
MMI基準の問題を是正する代わりに, 因果論理による非因果的特徴と対象ラベルが 'emph{d-separated' であることから, 最小条件依存(MCD)基準と呼ばれる因果論理を解明するための新たな基準を提案する。
選択された有理数候補に条件付された入力の未選択部分と対象ラベルとの依存を最小化することにより、ラベルのすべての原因を選択せざるを得ない。
本研究では,提案したMDD基準の検証に,単純かつ実践的な依存度尺度,特にKL偏差を用いた。
実証的に、MCDは従来の最先端のMMI方式と比較して、F1スコアを最大13.7\%改善することを示した。
私たちのコードは、 \url{https://github.com/jugechengzi/rationalization-mcd}で利用可能です。 Rationalization is a self-explaining framework for NLP models. Conventional work typically uses the maximum mutual information (MMI) criterion to find the rationale that is most indicative of the target label. However, this criterion can be influenced by spurious features that correlate with the causal rationale or the target label. Instead of attempting to rectify the issues of the MMI criterion, we propose a novel criterion to uncover the causal rationale, termed the Minimum Conditional Dependence (MCD) criterion, which is grounded on our finding that the non-causal features and the target label are \emph{d-separated} by the causal rationale. By minimizing the dependence between the unselected parts of the input and the target label conditioned on the selected rationale candidate, all the causes of the label are compelled to be selected. In this study, we employ a simple and practical measure of dependence, specifically the KL-divergence, to validate our proposed MCD criterion. Empirically, we demonstrate that MCD improves the F1 score by up to $13.7\%$ compared to previous state-of-the-art MMI-based methods. Our code is available at: \url{https://github.com/jugechengzi/Rationalization-MCD}. | 翻訳日:2023-11-01 22:35:59 公開日:2023-10-31 |
# 量子誤差緩和のための純度を用いたゼロノイズ外挿法 Zero-noise Extrapolation Assisted with Purity for Quantum Error Mitigation ( http://arxiv.org/abs/2310.10037v2 ) ライセンス: Link先を確認 | Tian-ren Jin, Zheng-an Wang, Tian-ming Li, Kai Xu, and Heng Fan | (参考訳) 量子エラー軽減は、量子システムで発生するエラーを後処理する技法であり、期待されるエラーを低減し、より高い精度を達成する。
ゼロノイズ外挿(zero-noise extrapolation)は量子誤差緩和の方法の1つで、まずノイズを増幅し、次に観測可能な関心の期待値をノイズフリーポイントに外挿する。
従来,この手法はノイズの誤差モデルに依存しており,ノイズの度合いを表すパラメータである誤差率をノイズ増幅の手順で推定する。
本稿では、ノイズ回路の出力状態の純度が、誤差率の推定を避けるために外挿手順を補助できることを示す。
また、外挿に用いるフィッティングモデルの形式についても論じる。
本手法をクラウドベースの量子コンピュータquafu上での数値シミュレーションと実験により検証し,通常のゼロノイズ外挿法と比較する。
純度を補助することにより、測定のランダムなゆらぎと異なる種類のノイズの下で、外挿はより安定であることが示される。 Quantum error mitigation is the technique to post-process the error occurring in the quantum system, which reduces the expected errors to achieve higher accuracy. Zero-noise extrapolation is one of the methods of quantum error mitigation, which first amplifies the noise and then extrapolates the observable expectation of interest to the noise-free point. Conventionally, this method depends on the error model of noise, since error rates, the parameter describing the degree of noise, are presumed in the procedure of noise amplification. In this paper, we show that the purity of output states of noisy circuits can assist in the extrapolation procedure to avoid the presumption of error rates. We also discuss the form of fitting model used in extrapolation. We verify this method and compare it with the ordinary zero-noise extrapolation method via numerical simulations and experiments on the cloud-based quantum computer, Quafu. It is shown that with the assistance of purity, the extrapolation is more stable under the random fluctuation of measurements, and different kinds of noise. | 翻訳日:2023-11-01 22:28:39 公開日:2023-10-31 |
# 合成タスクでより少ない幻覚を与えるための言語モデルを教える Teaching Language Models to Hallucinate Less with Synthetic Tasks ( http://arxiv.org/abs/2310.06827v2 ) ライセンス: Link先を確認 | Erik Jones, Hamid Palangi, Clarisse Sim\~oes, Varun Chandrasekaran, Subhabrata Mukherjee, Arindam Mitra, Ahmed Awadallah, Ece Kamar | (参考訳) 大規模言語モデル(llm)は、すべての必要な情報がコンテキストに含まれるにもかかわらず、文書ベースの質問応答、ミーティングの要約、臨床レポート生成などの抽象的な要約タスクをしばしば紹介する。
しかし、各最適化ステップにおいて幻覚を効果的に評価することは困難であるため、これらのタスクの割礼を減らすためのllmの最適化は困難である。
本研究では,合成作業における幻覚の低減が,現実世界の下流作業における幻覚の低減につながることを示す。
提案手法であるsyntraは, 幻覚の誘発と測定が容易な合成タスクを最初に設計する。
次に、合成タスクのプレフィックスチューニングを通じてllmのシステムメッセージを最適化し、最終的にシステムメッセージを現実的な最適化タスクに転送する。
3つの現実的な抽象的要約タスクの中で、SynTraは2つの13BパラメータLLMに対する幻覚を減らす。
また,モデル重みよりもシステムメッセージの最適化が重要であり,モデル全体を合成タスクで微調整することは幻覚を直観的に増加させる可能性がある。
全体としてsyntraは、合成データを扱う余分な柔軟性が、実際には望ましくない振る舞いを軽減できることを実証している。 Large language models (LLMs) frequently hallucinate on abstractive summarization tasks such as document-based question-answering, meeting summarization, and clinical report generation, even though all necessary information is included in context. However, optimizing LLMs to hallucinate less on these tasks is challenging, as hallucination is hard to efficiently evaluate at each optimization step. In this work, we show that reducing hallucination on a synthetic task can also reduce hallucination on real-world downstream tasks. Our method, SynTra, first designs a synthetic task where hallucinations are easy to elicit and measure. It next optimizes the LLM's system message via prefix-tuning on the synthetic task, and finally transfers the system message to realistic, hard-to-optimize tasks. Across three realistic abstractive summarization tasks, SynTra reduces hallucination for two 13B-parameter LLMs using only a synthetic retrieval task for supervision. We also find that optimizing the system message rather than the model weights can be critical; fine-tuning the entire model on the synthetic task can counterintuitively increase hallucination. Overall, SynTra demonstrates that the extra flexibility of working with synthetic data can help mitigate undesired behaviors in practice. | 翻訳日:2023-11-01 22:25:46 公開日:2023-10-31 |
# retseg: 保持型大腸ポリープセグメンテーションネットワーク RetSeg: Retention-based Colorectal Polyps Segmentation Network ( http://arxiv.org/abs/2310.05446v4 ) ライセンス: Link先を確認 | Khaled ELKarazle, Valliappan Raman, Caslon Chua and Patrick Then | (参考訳) ビジョントランスフォーマー(ViT)は医療画像解析に革命をもたらし、ポリープ分類、検出、セグメンテーションといった重要なタスクにおいて従来の畳み込みニューラルネットワーク(CNN)よりも優れた効果を示した。
注意のメカニズムを利用して特定の画像領域に集中し、vitsは視覚データの処理において文脈的意識を示し、複雑な医療画像であっても、堅牢で正確な予測が可能となる。
さらに、トランスフォーマにおける固有の自己着脱機構は、様々な入力サイズと解像度に対応し、従来のcnnにない前例のない柔軟性をもたらす。
しかし、トランスフォーマーは過度のメモリ使用やセルフアテンションによるトレーニング並列性の制限といった課題に対処し、リソース制約のあるデバイスでのリアルタイム疾患検出には実用的でない。
本研究では,最近導入された保持機構をポリプセグメンテーションに統合し,マルチヘッド保持ブロックを備えたエンコーダデコーダネットワークRetSegを導入することで,これらのハードルに対処する。
RetNet(RetNet)からインスピレーションを得たRetSegは,特に大腸内視鏡画像に適した,正確なポリープ分割と資源利用のギャップを埋めるように設計されている。
我々は、Kvasir-SEGとCVC-ClinicDBという2つの公開データセットを使用して、ポリプセグメンテーションのためのRetSegをトレーニングし、検証する。
さらに、CVC-ColonDB、ETIS-LaribPolypDB、CVC-300、BKAI-IGH NeoPolypなど、さまざまなパブリックデータセットにわたるRetSegの有望なパフォーマンスを紹介します。
我々の研究は初期段階の探査を表しているが、さらなる深い研究はこれらの有望な発見を前進させるのに不可欠である。 Vision Transformers (ViTs) have revolutionized medical imaging analysis, showcasing superior efficacy compared to conventional Convolutional Neural Networks (CNNs) in vital tasks such as polyp classification, detection, and segmentation. Leveraging attention mechanisms to focus on specific image regions, ViTs exhibit contextual awareness in processing visual data, culminating in robust and precise predictions, even for intricate medical images. Moreover, the inherent self-attention mechanism in Transformers accommodates varying input sizes and resolutions, granting an unprecedented flexibility absent in traditional CNNs. However, Transformers grapple with challenges like excessive memory usage and limited training parallelism due to self-attention, rendering them impractical for real-time disease detection on resource-constrained devices. In this study, we address these hurdles by investigating the integration of the recently introduced retention mechanism into polyp segmentation, introducing RetSeg, an encoder-decoder network featuring multi-head retention blocks. Drawing inspiration from Retentive Networks (RetNet), RetSeg is designed to bridge the gap between precise polyp segmentation and resource utilization, particularly tailored for colonoscopy images. We train and validate RetSeg for polyp segmentation employing two publicly available datasets: Kvasir-SEG and CVC-ClinicDB. Additionally, we showcase RetSeg's promising performance across diverse public datasets, including CVC-ColonDB, ETIS-LaribPolypDB, CVC-300, and BKAI-IGH NeoPolyp. While our work represents an early-stage exploration, further in-depth studies are imperative to advance these promising findings. | 翻訳日:2023-11-01 22:24:01 公開日:2023-10-31 |
# ベトナム人コミュニティによるcovid-19質問応答のための生成的事前学習トランスフォーマー Generative Pre-trained Transformer for Vietnamese Community-based COVID-19 Question Answering ( http://arxiv.org/abs/2310.14602v2 ) ライセンス: Link先を確認 | Tam Minh Vo and Khiem Vinh Tran | (参考訳) 近年の研究では、自然言語処理の分野でのGPT(Generative Pre-trained Transformer)の広範化の可能性が実証されている。
GPTは、最先端の質問応答システム(SOTA)においてデコーダとして効果的に採用され、様々なタスクにおいて例外的な性能を得られる。
しかし、gptのベトナムでの応用に関する現在の研究状況は限られている。
本稿では,ベトナムにおけるcovid-19関連質問に焦点を絞ったコミュニティ型質問応答のためのgpt-2の実装を提案することにより,このギャップを解決することを目的とする。
コミュニティベースの質問応答データセットにおいて,異なるトランスフォーマーとsotaモデルの比較分析を行うことにより,新たなアプローチを提案する。
実験の結果、GPT-2モデルはベトナムで開発されたコミュニティベースの質問応答モデルと同様に、他のSOTAモデルよりも高い成績を示した。 Recent studies have provided empirical evidence of the wide-ranging potential of Generative Pre-trained Transformer (GPT), a pretrained language model, in the field of natural language processing. GPT has been effectively employed as a decoder within state-of-the-art (SOTA) question answering systems, yielding exceptional performance across various tasks. However, the current research landscape concerning GPT's application in Vietnamese remains limited. This paper aims to address this gap by presenting an implementation of GPT-2 for community-based question answering specifically focused on COVID-19 related queries in Vietnamese. We introduce a novel approach by conducting a comparative analysis of different Transformers vs SOTA models in the community-based COVID-19 question answering dataset. The experimental findings demonstrate that the GPT-2 models exhibit highly promising outcomes, outperforming other SOTA models as well as previous community-based COVID-19 question answering models developed for Vietnamese. | 翻訳日:2023-11-01 22:14:53 公開日:2023-10-31 |
# StereoMap:大規模言語モデルにおける人間のようなステレオタイプ認識の定量化 StereoMap: Quantifying the Awareness of Human-like Stereotypes in Large Language Models ( http://arxiv.org/abs/2310.13673v2 ) ライセンス: Link先を確認 | Sullam Jeoung, Yubin Ge, Jana Diesner | (参考訳) 大規模言語モデル(LLM)は、トレーニングデータに存在する有害な関連を符号化し、永続する。
本稿では,人口集団が社会によってどのように見られているかについての認識を得るために,StereoMapという理論的基盤を持つフレームワークを提案する。
この枠組みは、心理学から確立された理論であるステレオタイプコンテンツモデル(SCM)に基礎を置いている。
SCMによると、ステレオタイプはすべて似ているわけではない。
代わりに、暖かさと能力の次元は、ステレオタイプの性質を示す要素として機能する。
SCM理論に基づいて、StereoMapは、ウォームスとコンピテンスの次元を用いて、LLMの社会グループに対する認識(社会デコグラフィーの特徴によって定義される)をマッピングする。
さらに,この枠組みにより,LLMの判断を推論するキーワードや動詞を探索し,その知覚に影響を及ぼす要因を明らかにすることができる。
以上の結果から, LLMはこれらのグループに対して, ウォームスとコンピテンスの次元に沿った混合評価を特徴とする多様な知覚を呈することが示された。
さらに, LLMの推論を解析した結果, LLMは社会的格差の認識を示し, 統計的データや研究結果がそれらの推論を支持することが多かった。
本研究は, LLMが社会集団をどのように知覚し, 表現しているかの理解に寄与し, 潜在的なバイアスと有害な関連性の永続性に光を当てる。 Large Language Models (LLMs) have been observed to encode and perpetuate harmful associations present in the training data. We propose a theoretically grounded framework called StereoMap to gain insights into their perceptions of how demographic groups have been viewed by society. The framework is grounded in the Stereotype Content Model (SCM); a well-established theory from psychology. According to SCM, stereotypes are not all alike. Instead, the dimensions of Warmth and Competence serve as the factors that delineate the nature of stereotypes. Based on the SCM theory, StereoMap maps LLMs' perceptions of social groups (defined by socio-demographic features) using the dimensions of Warmth and Competence. Furthermore, the framework enables the investigation of keywords and verbalizations of reasoning of LLMs' judgments to uncover underlying factors influencing their perceptions. Our results show that LLMs exhibit a diverse range of perceptions towards these groups, characterized by mixed evaluations along the dimensions of Warmth and Competence. Furthermore, analyzing the reasonings of LLMs, our findings indicate that LLMs demonstrate an awareness of social disparities, often stating statistical data and research findings to support their reasoning. This study contributes to the understanding of how LLMs perceive and represent social groups, shedding light on their potential biases and the perpetuation of harmful associations. | 翻訳日:2023-11-01 22:13:58 公開日:2023-10-31 |
# AIフィードバックによる品質多様性 Quality-Diversity through AI Feedback ( http://arxiv.org/abs/2310.13032v2 ) ライセンス: Link先を確認 | Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Gr\'egory Schott, Joel Lehman | (参考訳) 多くのテキスト生成問題では、ユーザーは単一の応答だけでなく、選択すべき高品質な出力の多様さを好む。
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化させることにより、このような結果を目指している。
しかしながら、クリエイティビティライティングのような質的ドメインへのqdの適用性は、品質と多様性の指標をアルゴリズムで指定する困難さによって制限されている。
興味深いことに、近年の言語モデル(LM)の発展により、AIフィードバックによるガイド検索が可能となり、テキストの質的な側面を評価するために自然言語でLMが促される。
この開発を活用して、AIフィードバック(QDAIF)による品質多様性を導入し、進化的アルゴリズムでは、変動を生成し、候補テキストの品質と多様性を評価する。
クリエイティブなライティングドメインで評価すると、qdaifは非qdコントロールよりも質の高いサンプルで指定された検索スペースをカバーできる。
さらに、QDAIFによる創造的テキストの人間評価は、AIと人間評価の合理的な一致を検証する。
これにより、AIフィードバックが創造的でオリジナルなソリューションをオープンに検索する可能性を強調し、多くのドメインやモダリティに一般化したレシピを提供する。
このようにして、QDAIFは、人間社会のイノベーション能力の根底にある中核的なスキルである、独立して探索、多様化、評価、改善が可能なAIシステムへのステップである。 In many text-generation problems, users may prefer not only a single response, but a diverse range of high-quality outputs from which to choose. Quality-diversity (QD) search algorithms aim at such outcomes, by continually improving and diversifying a population of candidates. However, the applicability of QD to qualitative domains, like creative writing, has been limited by the difficulty of algorithmically specifying measures of quality and diversity. Interestingly, recent developments in language models (LMs) have enabled guiding search through AI feedback, wherein LMs are prompted in natural language to evaluate qualitative aspects of text. Leveraging this development, we introduce Quality-Diversity through AI Feedback (QDAIF), wherein an evolutionary algorithm applies LMs to both generate variation and evaluate the quality and diversity of candidate text. When assessed on creative writing domains, QDAIF covers more of a specified search space with high-quality samples than do non-QD controls. Further, human evaluation of QDAIF-generated creative texts validates reasonable agreement between AI and human evaluation. Our results thus highlight the potential of AI feedback to guide open-ended search for creative and original solutions, providing a recipe that seemingly generalizes to many domains and modalities. In this way, QDAIF is a step towards AI systems that can independently search, diversify, evaluate, and improve, which are among the core skills underlying human society's capacity for innovation. | 翻訳日:2023-11-01 22:13:05 公開日:2023-10-31 |
# 多様体学習のための正準正規化フロー Canonical normalizing flows for manifold learning ( http://arxiv.org/abs/2310.12743v2 ) ライセンス: Link先を確認 | Kyriakos Flouris and Ender Konukoglu | (参考訳) 多様体学習フローは、データの低次元多様体記述を仮定した生成的モデリング手法のクラスである。
データの高次元空間へのそのような多様体の埋め込みは、学習可能な可逆変換によって達成される。
したがって、この多様体が再構成損失によって適切に整列されると、確率密度は多様体上で移動可能であり、ネットワークパラメータの最適化には最大確率を用いることができる。
当然、データの低次元表現は射影マッピングを必要とする。
近年のアプローチでは、密度はモデル付き多様体と一致し、高次元空間に埋め込まれた場合の密度体積変化項を効率的に計算することができる。
しかし、インジェクティブ・マッピングが解析的に事前定義されない限り、学習多様体は必ずしもデータの効率的な表現ではない。
すなわち、そのようなモデルの潜在次元は、縮退した情報を各次元に格納して、絡み合った本質基底をしばしば学習する。
あるいは、局所直交基底および/またはスパース基底が学習される場合、ここで、標準内在基底を造った場合、よりコンパクトな潜在空間表現を学ぶのに役立つ。
この目的を達成するために,新しい最適化対象が変換行列を強制し,非退化基底関数をほとんど持たない正準多様体学習フロー法を提案する。
我々は、非対角多様体計量元 $\ell_1$-norm を最小化することにより、そのような基底を達成できることを示した。
正準多様体フローは、遅延空間をより効率的に利用し、データを表現するために顕著で異なる次元を自動生成し、多くの実験で行った他の多様体フロー法よりも目標分布の近似が良くなり、その結果、FIDスコアが低下する。 Manifold learning flows are a class of generative modelling techniques that assume a low-dimensional manifold description of the data. The embedding of such a manifold into the high-dimensional space of the data is achieved via learnable invertible transformations. Therefore, once the manifold is properly aligned via a reconstruction loss, the probability density is tractable on the manifold and maximum likelihood can be used to optimize the network parameters. Naturally, the lower-dimensional representation of the data requires an injective-mapping. Recent approaches were able to enforce that the density aligns with the modelled manifold, while efficiently calculating the density volume-change term when embedding to the higher-dimensional space. However, unless the injective-mapping is analytically predefined, the learned manifold is not necessarily an efficient representation of the data. Namely, the latent dimensions of such models frequently learn an entangled intrinsic basis, with degenerate information being stored in each dimension. Alternatively, if a locally orthogonal and/or sparse basis is to be learned, here coined canonical intrinsic basis, it can serve in learning a more compact latent space representation. Toward this end, we propose a canonical manifold learning flow method, where a novel optimization objective enforces the transformation matrix to have few prominent and non-degenerate basis functions. We demonstrate that by minimizing the off-diagonal manifold metric elements $\ell_1$-norm, we can achieve such a basis, which is simultaneously sparse and/or orthogonal. Canonical manifold flow yields a more efficient use of the latent space, automatically generating fewer prominent and distinct dimensions to represent data, and a better approximation of target distributions than other manifold flow methods in most experiments we conducted, resulting in lower FID scores. | 翻訳日:2023-11-01 22:12:43 公開日:2023-10-31 |
# ゼロショットニューラルマシン翻訳性能の変動のより良い理解に向けて Towards a Better Understanding of Variations in Zero-Shot Neural Machine Translation Performance ( http://arxiv.org/abs/2310.10385v2 ) ライセンス: Link先を確認 | Shaomu Tan, Christof Monz | (参考訳) MNMT(Multilingual Neural Machine Translation)は知識共有を容易にするが、ゼロショット(ZS)翻訳の質が悪い場合が多い。
従来,ZS性能の低下の原因について検討してきたが,本研究では新たな視点として,ZS性能に高い変動が存在することを挙げている。
これは、MNMTがZS能力の低下を均一に示さず、ある翻訳方向が妥当な結果をもたらすことを示唆している。
40言語にまたがる1,560の言語方向を含む系統的な実験を通して、ZS NMTの性能の変動に寄与する3つの重要な要因を同定する。
1)目標側翻訳能力
2)語彙重複
3)言語特性。
以上の結果から,対象の翻訳品質が最も大きな要因であり,語彙の重なりがzs性能に与える影響が示唆された。
さらに、言語家族や書記システムといった言語特性は、特により小さなモデルでの役割を担っている。
さらに,オフターゲット問題はZS性能の低下の徴候であり,ゼロショット翻訳の課題がオフターゲット問題の解決を超えて拡大していることを強調している。
将来の研究のためのベンチマークとして、https://github.com/Smu-Tan/ZS-NMT-Variationsでデータとモデルを公開します。 Multilingual Neural Machine Translation (MNMT) facilitates knowledge sharing but often suffers from poor zero-shot (ZS) translation qualities. While prior work has explored the causes of overall low ZS performance, our work introduces a fresh perspective: the presence of high variations in ZS performance. This suggests that MNMT does not uniformly exhibit poor ZS capability; instead, certain translation directions yield reasonable results. Through systematic experimentation involving 1,560 language directions spanning 40 languages, we identify three key factors contributing to high variations in ZS NMT performance: 1) target side translation capability 2) vocabulary overlap 3) linguistic properties. Our findings highlight that the target side translation quality is the most influential factor, with vocabulary overlap consistently impacting ZS performance. Additionally, linguistic properties, such as language family and writing system, play a role, particularly with smaller models. Furthermore, we suggest that the off-target issue is a symptom of inadequate ZS performance, emphasizing that zero-shot translation challenges extend beyond addressing the off-target problem. We release the data and models serving as a benchmark to study zero-shot for future research at https://github.com/Smu-Tan/ZS-NMT-Variations | 翻訳日:2023-11-01 22:11:33 公開日:2023-10-31 |
# MIR2: 相互情報正規化による頑健な多エージェント強化学習を目指して MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization ( http://arxiv.org/abs/2310.09833v2 ) ライセンス: Link先を確認 | Simin Li, Ruixiao Xu, Jun Guo, Pu Feng, Jiakai Wang, Aishan Liu, Yaodong Yang, Xianglong Liu, Weifeng Lv | (参考訳) 頑健なマルチエージェント強化学習(MARL)は、未知の同盟者による不確実または最悪の行動に対するレジリエンスを必要とする。
強固なmarlにおける既存のmax-min最適化技術は、最悪のケースの敵に対するエージェントのトレーニングによるレジリエンスの向上を目標としているが、エージェントの数が増えると難易度が低下し、最悪のケースシナリオが指数関数的に増加する。
この複雑さを単純化しようとする試みは、しばしば過度に悲観的なポリシー、シナリオ間の堅牢性、高い計算要求をもたらす。
これらのアプローチとは異なり、人間はあらゆる最悪のシナリオに備える必要がない適応的でレジリエントな振る舞いを自然に学習する。
そこで本研究では,日常的なシナリオでポリシーを訓練し,相互情報をロバスト正規化として最小化するMIR2を提案する。
理論的には、ロバスト性は推論問題であり、履歴と行動の間の相互情報の最小化は、特定の仮定の下でロバスト性に対する低い境界を暗黙的に最大化する。
さらに分析した結果,提案手法は情報ボトルネックを通じてエージェントが他者に対して過剰に反応することを防ぐとともに,前もって堅牢な行動とポリシーを整合させる。
私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対する弾力性が高い。
我々の優位は、実世界のロボット群制御シナリオに挑戦するときに一貫している。
Supplementary Materialsのコードとデモビデオを参照。 Robust multi-agent reinforcement learning (MARL) necessitates resilience to uncertain or worst-case actions by unknown allies. Existing max-min optimization techniques in robust MARL seek to enhance resilience by training agents against worst-case adversaries, but this becomes intractable as the number of agents grows, leading to exponentially increasing worst-case scenarios. Attempts to simplify this complexity often yield overly pessimistic policies, inadequate robustness across scenarios and high computational demands. Unlike these approaches, humans naturally learn adaptive and resilient behaviors without the necessity of preparing for every conceivable worst-case scenario. Motivated by this, we propose MIR2, which trains policy in routine scenarios and minimize Mutual Information as Robust Regularization. Theoretically, we frame robustness as an inference problem and prove that minimizing mutual information between histories and actions implicitly maximizes a lower bound on robustness under certain assumptions. Further analysis reveals that our proposed approach prevents agents from overreacting to others through an information bottleneck and aligns the policy with a robust action prior. Empirically, our MIR2 displays even greater resilience against worst-case adversaries than max-min optimization in StarCraft II, Multi-agent Mujoco and rendezvous. Our superiority is consistent when deployed in challenging real-world robot swarm control scenario. See code and demo videos in Supplementary Materials. | 翻訳日:2023-11-01 22:10:52 公開日:2023-10-31 |
# AllTogether:大規模言語モデルを用いたWebナビゲーションにおけるスプレッドプロンプトの有効性の検討 AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models ( http://arxiv.org/abs/2310.18331v2 ) ライセンス: Link先を確認 | Jiarun Liu, Wentao Hu, Chunhong Zhang | (参考訳) 大規模言語モデル(llm)は、webナビゲーションタスクの有望なエージェントとして登場し、目的を解釈し、webページと対話する。
しかし、このようなタスクに対するスプライシングプロンプトの効率は未検討のままである。
我々は、タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるalltogetherを導入し、htmlベースのwebナビゲーションにおけるllmsのパフォーマンスを改善した。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
その結果、gpt-4のようなモデルは、webナビゲーションタスクでより小さいモデルを上回ることが判明した。
さらに,HTMLスニペットの長さと履歴の軌跡が性能に大きく影響し,事前ステップバイステップの指示がリアルタイムの環境フィードバックよりも効果が低いことが判明した。
全体として、我々の研究はLLM駆動のウェブエージェントにおける将来の研究に貴重な洞察をもたらすと考えている。 Large Language Models (LLMs) have emerged as promising agents for web navigation tasks, interpreting objectives and interacting with web pages. However, the efficiency of spliced prompts for such tasks remains underexplored. We introduces AllTogether, a standardized prompt template that enhances task context representation, thereby improving LLMs' performance in HTML-based web navigation. We evaluate the efficacy of this approach through prompt learning and instruction finetuning based on open-source Llama-2 and API-accessible GPT models. Our results reveal that models like GPT-4 outperform smaller models in web navigation tasks. Additionally, we find that the length of HTML snippet and history trajectory significantly influence performance, and prior step-by-step instructions prove less effective than real-time environmental feedback. Overall, we believe our work provides valuable insights for future research in LLM-driven web agents. | 翻訳日:2023-11-01 22:04:26 公開日:2023-10-31 |
# radgraph と no-shot プロンプトを用いたスタイルアウェアラジオロジーレポート生成 Style-Aware Radiology Report Generation with RadGraph and Few-Shot Prompting ( http://arxiv.org/abs/2310.17811v2 ) ライセンス: Link先を確認 | Benjamin Yan, Ruochen Liu, David E. Kuo, Subathra Adithan, Eduardo Pontes Reis, Stephen Kwak, Vasantha Kumar Venugopal, Chloe P. O'Connell, Agustina Saenz, Pranav Rajpurkar, Michael Moor | (参考訳) 医療画像から自動生成された報告は、放射線技師のワークフローを改善することを約束する。
既存の手法では、画像から本格的なレポートを直接生成することにより、画像からレポートへのモデリングタスクを考える。
しかし、これはレポートの内容(例:発見とその属性)をそのスタイル(例:単語の形式と選択)と混同し、臨床的に不正確な報告につながる可能性がある。
そこで本稿では,放射線レポート生成のための2段階アプローチを提案する。
まず,画像から抽出した内容から抽出した内容を,特定の放射線科医のスタイルにマッチしたレポートに言語化する。
そのため、レポートのグラフ表現であるRadGraphと、大きな言語モデル(LLM)を活用しています。
定量的評価では、我々のアプローチが有益なパフォーマンスをもたらすことが分かりました。
臨床ティッカーを用いた人間の評価では、AIが生成した報告は、文脈としてほんの数例しか活用していないにもかかわらず、個々の放射線科医のスタイルに相応しいことが強調されている。 Automatically generated reports from medical images promise to improve the workflow of radiologists. Existing methods consider an image-to-report modeling task by directly generating a fully-fledged report from an image. However, this conflates the content of the report (e.g., findings and their attributes) with its style (e.g., format and choice of words), which can lead to clinically inaccurate reports. To address this, we propose a two-step approach for radiology report generation. First, we extract the content from an image; then, we verbalize the extracted content into a report that matches the style of a specific radiologist. For this, we leverage RadGraph -- a graph representation of reports -- together with large language models (LLMs). In our quantitative evaluations, we find that our approach leads to beneficial performance. Our human evaluation with clinical raters highlights that the AI-generated reports are indistinguishably tailored to the style of individual radiologist despite leveraging only a few examples as context. | 翻訳日:2023-11-01 22:04:09 公開日:2023-10-31 |
# デジタル福の復号:植民地法を解読し、ドミニカ語教育におけるChatGPTを批判的に評価する Decoding The Digital Fuku: Deciphering Colonial Legacies to Critically Assess ChatGPT in Dominican Education ( http://arxiv.org/abs/2310.17533v2 ) ライセンス: Link先を確認 | Anaelia Ovalle | (参考訳) ドミニカ共和国における教育格差は、経済的、政治的、社会的不平等が起源である。
これらの課題に対処するためには、教育資料、高品質の教育、構造的リソーシングに関する能力構築が必要である。
ChatGPTのようなジェネレーティブAIツールは、これらの教育的ギャップを埋める可能性があるという認識から、ドミニカ人教育者の関心を喚起し始めた。
しかし、AI公正性の文献のかなりの部分は、AIがAI開発と展開ポリシーを推進している管轄区域を反映するパワーダイナミクスを不均等に強化する方法を文書化している。
このように、DR教育におけるこの技術の非差別的な採用は、デジタル植民地化の形式を永続させるリスクを負う。
そこで本論文は、DR教育におけるChatGPTのようなAI駆動型ツールが、デジタル植民地主義の側面をいかに再現するかを批判的に検証することによって、AIに満足した教育改革を受け入れることに焦点を当てる。
1916年のアメリカ占領後の20世紀のドミニカ教育改革を簡潔に概観する。
そこで,同時代のドミニカ語教育におけるChatGPTのメリットを疑問視するために,ドミニカ語教育を歴史的に形成する新コロニアル的側面を,ドミニカ語学者が概説した。
この作業は、ai global northとsouthの開発者、利害関係者、そしてドミニカ共和国のリーダーたちに対して、chatgptのようなデータ中心の認識論のリレーショナルなコンテキスト化を実行し、ドミニカのデジタル主権の保護に対する警戒を保ちながら、その変革的な利益を享受するよう呼びかけている。 Educational disparities within the Dominican Republic (DR) have long-standing origins rooted in economic, political, and social inequity. Addressing these challenges has necessarily called for capacity building with respect to educational materials, high-quality instruction, and structural resourcing. Generative AI tools like ChatGPT have begun to pique the interest of Dominican educators due to their perceived potential to bridge these educational gaps. However, a substantial body of AI fairness literature has documented ways AI disproportionately reinforces power dynamics reflective of jurisdictions driving AI development and deployment policies, collectively termed the AI Global North. As such, indiscriminate adoption of this technology for DR education, even in part, risks perpetuating forms of digital coloniality. Therefore, this paper centers embracing AI-facilitated educational reform by critically examining how AI-driven tools like ChatGPT in DR education may replicate facets of digital colonialism. We provide a concise overview of 20th-century Dominican education reforms following the 1916 US occupation. Then, we employ identified neocolonial aspects historically shaping Dominican education to interrogate the perceived advantages of ChatGPT for contemporary Dominican education, as outlined by a Dominican scholar. This work invites AI Global North & South developers, stakeholders, and Dominican leaders alike to exercise a relational contextualization of data-centric epistemologies like ChatGPT to reap its transformative benefits while remaining vigilant of safeguarding Dominican digital sovereignty. | 翻訳日:2023-11-01 22:03:35 公開日:2023-10-31 |
# cosmosdsr --unscented kalman filterを用いた軌道デブリの自動検出と追跡のための手法 CosmosDSR -- a methodology for automated detection and tracking of orbital debris using the Unscented Kalman Filter ( http://arxiv.org/abs/2310.17158v2 ) ライセンス: Link先を確認 | Daniel S. Roll, Zeyneb Kurt and Wai Lok Woo | (参考訳) ケスラー症候群(kessler syndrome)は、頻繁な宇宙活動から宇宙の破片がエスカレートし、将来の宇宙探査を脅かすことを指す。
この問題に対処することは不可欠です。
畳み込みニューラルネットワーク、カーネル主成分分析、モデル非依存なメタ学習を含むいくつかのaiモデルが様々なデータタイプで評価されている。
以前の研究では、YOLOオブジェクト検出器と、オブジェクトの検出と追跡のための線形カルマンフィルタ(LKF)の組み合わせを強調していた。
そこで本研究では, YOLOv3 と Unscented Kalman Filter (UKF) を組み合わせることで, 衛星残差検出による宇宙の包括的軌道監視・監視手法を提案する。
SPARK(Spacecraft Recognition Leveraging Knowledge of Space Environment)データセットを用いて、YOLOv3は正確に全ての衛星カテゴリー(平均精度=97.18%、F1=0.95)を検出・分類し、誤りは少ない(TP=4163、FP=209、FN=237)。
コスモスDSRと実装されたLKFは、MSE=2.83/RMSE=1.66、LKF=2.84/RMSE=1.66の平均二乗誤差(MSE)とルート平均二乗誤差(RME)を正確に比較するために使用される。
現在の研究は、宇宙シミュレーション環境で生成された画像に限られているが、コスモスdsrの手法は、衛星の検出と追跡において大きな可能性を示し、ケスラー症候群の解決策への道を開く。 The Kessler syndrome refers to the escalating space debris from frequent space activities, threatening future space exploration. Addressing this issue is vital. Several AI models, including Convolutional Neural Networks, Kernel Principal Component Analysis, and Model-Agnostic Meta- Learning have been assessed with various data types. Earlier studies highlighted the combination of the YOLO object detector and a linear Kalman filter (LKF) for object detection and tracking. Advancing this, the current paper introduces a novel methodology for the Comprehensive Orbital Surveillance and Monitoring Of Space by Detecting Satellite Residuals (CosmosDSR) by combining YOLOv3 with an Unscented Kalman Filter (UKF) for tracking satellites in sequential images. Using the Spacecraft Recognition Leveraging Knowledge of Space Environment (SPARK) dataset for training and testing, the YOLOv3 precisely detected and classified all satellite categories (Mean Average Precision=97.18%, F1=0.95) with few errors (TP=4163, FP=209, FN=237). Both CosmosDSR and an implemented LKF used for comparison tracked satellites accurately for a mean squared error (MSE) and root mean squared error (RME) of MSE=2.83/RMSE=1.66 for UKF and MSE=2.84/RMSE=1.66 for LKF. The current study is limited to images generated in a space simulation environment, but the CosmosDSR methodology shows great potential in detecting and tracking satellites, paving the way for solutions to the Kessler syndrome. | 翻訳日:2023-11-01 22:02:39 公開日:2023-10-31 |
# CATEモデル選択のための因果Q-集約 Causal Q-Aggregation for CATE Model Selection ( http://arxiv.org/abs/2310.16945v2 ) ライセンス: Link先を確認 | Hui Lan, Vasilis Syrgkanis | (参考訳) 条件平均治療効果(CATE)の正確な推定は、パーソナライズされた意思決定の中核にある。
CATE推定には多くのモデルが存在するが、因果推論の根本的な問題のため、モデル選択は非自明な作業である。
最近の実証研究は、二重ロバストな特性を持つプロキシ損失メトリクスとモデルアンサンブルを支持する証拠を提供する。
しかし、理論的な理解は不足している。
事前の理論的研究の直接適用は、モデル選択問題の非凸性に起因する最適オラクルモデル選択率につながる。
我々は,既存の主要なcate ensemblingアプローチに対する後悔率を提供し,二重ロバストな損失を用いたq集約に基づく新しいcate モデル ensemblingアプローチを提案する。
本結果から, 因果Q-集約は, 誤差関数の積に関する高次推定誤差項を付加することにより, 統計的に最適なオラクルモデル選択残差率$\frac{\log(M)}{n}$(M$モデルと$n$サンプルを含む)が得られることを示した。
重要なことは、我々の後悔率は、どの候補CATEモデルも真実に近いものを必要としない。
我々は、多くの半合成データセットで新しい手法を検証するとともに、モデル選択をインストゥルメンタル変数と非オブザーブドコンファウンディングで分類する作業の拡張も提供する。 Accurate estimation of conditional average treatment effects (CATE) is at the core of personalized decision making. While there is a plethora of models for CATE estimation, model selection is a nontrivial task, due to the fundamental problem of causal inference. Recent empirical work provides evidence in favor of proxy loss metrics with double robust properties and in favor of model ensembling. However, theoretical understanding is lacking. Direct application of prior theoretical work leads to suboptimal oracle model selection rates due to the non-convexity of the model selection problem. We provide regret rates for the major existing CATE ensembling approaches and propose a new CATE model ensembling approach based on Q-aggregation using the doubly robust loss. Our main result shows that causal Q-aggregation achieves statistically optimal oracle model selection regret rates of $\frac{\log(M)}{n}$ (with $M$ models and $n$ samples), with the addition of higher-order estimation error terms related to products of errors in the nuisance functions. Crucially, our regret rate does not require that any of the candidate CATE models be close to the truth. We validate our new method on many semi-synthetic datasets and also provide extensions of our work to CATE model selection with instrumental variables and unobserved confounding. | 翻訳日:2023-11-01 22:02:04 公開日:2023-10-31 |
# 逆追跡による補正は要約における幻覚を減少させる Correction with Backtracking Reduces Hallucination in Summarization ( http://arxiv.org/abs/2310.16176v2 ) ライセンス: Link先を確認 | Zhenzhen Liu, Chao Wan, Varsha Kishore, Jin Peng Zhou, Minmin Chen, Kilian Q. Weinberger | (参考訳) 抽象要約は、重要な要素を保持しながら簡潔なソースドキュメントの自然言語要約を生成することを目的としている。
近年の進歩にもかかわらず、ニューラルネットワークの要約モデルは、ソースドキュメントに基礎を置かない詳細の要約を生成させる幻覚(またはより正確に表現する)の影響を受けやすいことが知られている。
本稿では,抽象的な要約における幻覚を低減するため,シンプルだが効率的な手法であるCoBaを紹介する。
アプローチは幻覚検出と緩和という2つのステップに基づいている。
前者は条件付き単語の確率と文脈語の距離に関する単純な統計値を測定することで達成可能であることを示す。
さらに,ストレートフォワードバックトラッキングが驚くほど効果的であることを示す。
テキスト要約のための3つのベンチマークデータセットに対して,先行技術を用いて提案手法を徹底的に評価した。
その結果,CoBaは幻覚の低減に有効かつ効率的であり,適応性と柔軟性に優れていた。 Abstractive summarization aims at generating natural language summaries of a source document that are succinct while preserving the important elements. Despite recent advances, neural text summarization models are known to be susceptible to hallucinating (or more correctly confabulating), that is to produce summaries with details that are not grounded in the source document. In this paper, we introduce a simple yet efficient technique, CoBa, to reduce hallucination in abstractive summarization. The approach is based on two steps: hallucination detection and mitigation. We show that the former can be achieved through measuring simple statistics about conditional word probabilities and distance to context words. Further, we demonstrate that straight-forward backtracking is surprisingly effective at mitigation. We thoroughly evaluate the proposed method with prior art on three benchmark datasets for text summarization. The results show that CoBa is effective and efficient in reducing hallucination, and offers great adaptability and flexibility. | 翻訳日:2023-11-01 22:00:03 公開日:2023-10-31 |
# 公平性、プライバシー、規制規範を備えた責任ある機械学習データセットについて On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms ( http://arxiv.org/abs/2310.15848v2 ) ライセンス: Link先を確認 | Surbhi Mittal, Kartik Thakral, Richa Singh, Mayank Vatsa, Tamar Glaser, Cristian Canton Ferrer, Tal Hassner | (参考訳) 人工知能(AI)は様々な科学分野に進出し、様々なタスクのために既存のアルゴリズムよりも驚くほど改善されている。
近年、AI技術の信頼性に対する深刻な懸念が高まっている。
科学コミュニティは信頼できるAIアルゴリズムの開発に注力してきた。
しかし、今日のaiコミュニティで人気がある機械学習とディープラーニングのアルゴリズムは、開発中のデータに大きく依存している。
これらの学習アルゴリズムはデータのパターンを特定し、行動目標を学習する。
データ中のあらゆる欠陥は、直接アルゴリズムに翻訳する可能性がある。
本研究では,Responsible Machine Learning Datasetsの重要性を論じ,責任のあるルーリックを用いてデータセットを評価するフレームワークを提案する。
既存の研究は,アルゴリズムの信頼性評価に重点を置いているが,我々は,データコンポーネントを別々に考慮し,アルゴリズムにおけるその役割を理解するフレームワークを提供する。
我々は、公正、プライバシー、規制遵守のレンズを通して責任あるデータセットを議論し、将来のデータセットを構築するための推奨事項を提供する。
100以上のデータセットを調査した後、分析に60のデータセットを使用し、フェアネス、プライバシ保護、規制遵守の問題に影響を受けないことを示した。
私たちは ``datasheets for datasets" の修正を行い、データセットドキュメントの改善に重要な追加を加えました。
世界中の政府がデータ保護法を規則化しているため、科学コミュニティでデータセットを作成するには修正が必要である。
この研究は、今日のAIの時代において、タイムリーで重要なものだと考えています。 Artificial Intelligence (AI) has made its way into various scientific fields, providing astonishing improvements over existing algorithms for a wide variety of tasks. In recent years, there have been severe concerns over the trustworthiness of AI technologies. The scientific community has focused on the development of trustworthy AI algorithms. However, machine and deep learning algorithms, popular in the AI community today, depend heavily on the data used during their development. These learning algorithms identify patterns in the data, learning the behavioral objective. Any flaws in the data have the potential to translate directly into algorithms. In this study, we discuss the importance of Responsible Machine Learning Datasets and propose a framework to evaluate the datasets through a responsible rubric. While existing work focuses on the post-hoc evaluation of algorithms for their trustworthiness, we provide a framework that considers the data component separately to understand its role in the algorithm. We discuss responsible datasets through the lens of fairness, privacy, and regulatory compliance and provide recommendations for constructing future datasets. After surveying over 100 datasets, we use 60 datasets for analysis and demonstrate that none of these datasets is immune to issues of fairness, privacy preservation, and regulatory compliance. We provide modifications to the ``datasheets for datasets" with important additions for improved dataset documentation. With governments around the world regularizing data protection laws, the method for the creation of datasets in the scientific community requires revision. We believe this study is timely and relevant in today's era of AI. | 翻訳日:2023-11-01 21:59:09 公開日:2023-10-31 |
# 量子アルゴリズムによるAgnostic Learningのためのニアクアドラティックサンプル複雑度低減 A Near-Quadratic Sample Complexity Reduction for Agnostic Learning via Quantum Algorithms ( http://arxiv.org/abs/2310.15576v3 ) ライセンス: Link先を確認 | Daniel Z. Zanger | (参考訳) 量子アルゴリズムを用いて、精度 $\epsilon,0<\epsilon<1/4$ と信頼 $1-\delta,0<\delta <1,$ の新しいサンプル複雑性上界$O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ ($\epsilon^{-1}$ のポリ対数係数まで)を一般の無知学習モデルに対して得られる。
これは漸近順序 $\theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2}) の対応するサンプル複雑性を、有限濃度の仮説集合とともに無依存学習問題に対する古典的(非量子)アルゴリズムによって達成可能であることが文献で知られている(例えば arunachalam と de wolf (2018) を参照)。
したがって、一般的な無依存学習の場合、我々が達成する学習速度の量子スピードアップは、(多対数因子まで)$\epsilon^{-1}$で二次的である。 Using quantum algorithms, we obtain, for accuracy $\epsilon,0<\epsilon<1/4$ and confidence $1-\delta,0<\delta <1,$ a new sample complexity upper bound of $O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ (up to a polylogarithmic factor in $\epsilon^{-1}$) for a general agnostic learning model, provided the hypothesis class is of finite cardinality. This greatly improves upon a corresponding sample complexity of asymptotic order $\Theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2})$ known in the literature to be attainable by means of classical (non-quantum) algorithms for an agnostic learning problem also with hypothesis set of finite cardinality (see, for example, Arunachalam and de Wolf (2018) and the classical statistical learning theory references cited there). Thus, for general agnostic learning, the quantum speedup in the rate of learning that we achieve is quadratic in $\epsilon^{-1}$ (up to a polylogarithmic factor). | 翻訳日:2023-11-01 21:58:28 公開日:2023-10-31 |
# FANToM: インタラクションにおける心のストレステストマシン理論のベンチマーク FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions ( http://arxiv.org/abs/2310.15421v3 ) ライセンス: Link先を確認 | Hyunwoo Kim, Melanie Sclar, Xuhui Zhou, Ronan Le Bras, Gunhee Kim, Yejin Choi, Maarten Sap | (参考訳) 心の理論(ToM)評価は、相互作用性に本質的に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
本ベンチマークは,大規模言語モデル(llm)の評価において,心理学から重要な理論的要件と必要な経験的考察を導出する。
特に,LLMにおける視覚的・虚偽のToM能力を識別するために,同じ推論を要求される複数の質問を定式化する。
FANToMは、チェーン・オブ・シークレット・推論や微調整でさえも、人間よりもはるかにパフォーマンスが悪く、最先端のLLMでは困難であることを示す。 Theory of mind (ToM) evaluations currently focus on testing models using passive narratives that inherently lack interactivity. We introduce FANToM, a new benchmark designed to stress-test ToM within information-asymmetric conversational contexts via question answering. Our benchmark draws upon important theoretical requisites from psychology and necessary empirical considerations when evaluating large language models (LLMs). In particular, we formulate multiple types of questions that demand the same underlying reasoning to identify illusory or false sense of ToM capabilities in LLMs. We show that FANToM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chain-of-thought reasoning or fine-tuning. | 翻訳日:2023-11-01 21:57:48 公開日:2023-10-31 |
# LoRAShear: 効率的な大規模言語モデルの構築と知識回復 LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery ( http://arxiv.org/abs/2310.18356v2 ) ライセンス: Link先を確認 | Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang | (参考訳) 大規模言語モデル(LLM)は人工知能の景観を変革し、その巨大なサイズは計算コストの面で大きな課題を呈している。
LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。
一般的なLLMが与えられた後、LoRAShearはLoRAモジュール上の依存グラフを作成し、最小限の除去構造を発見し、知識分布を分析する。
その後、LoRAアダプタ上でプログレッシブな構造化プルーニングを行い、冗長な構造の情報をよりよく保存するために固有の知識伝達を可能にする。
刈り取り中に失われた知識を回復するため,lorashearは細心の注意を払って研究を行い,動的データ適応器を用いた動的微調整スキームを提案する。
数値的な結果は、GPU数日で1つのGPUだけを使用することで、LRAShearはパフォーマンスが1.0%しか低下せず、LLMのフットプリントを20%削減し、最先端技術よりも大幅に向上したことを示している。
ソースコードはhttps://github.com/microsoft/lorashearで入手できる。 Large Language Models (LLMs) have transformed the landscape of artificial intelligence, while their enormous size presents significant challenges in terms of computational costs. We introduce LoRAShear, a novel efficient approach to structurally prune LLMs and recover knowledge. Given general LLMs, LoRAShear at first creates the dependency graphs over LoRA modules to discover minimally removal structures and analyze the knowledge distribution. It then proceeds progressive structured pruning on LoRA adaptors and enables inherent knowledge transfer to better preserve the information in the redundant structures. To recover the lost knowledge during pruning, LoRAShear meticulously studies and proposes a dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow down the performance gap to the full models. Numerical results demonstrate that by only using one GPU within a couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with only 1.0% performance degradation and significantly outperforms state-of-the-arts. The source code will be available at https://github.com/microsoft/lorashear. | 翻訳日:2023-11-01 21:45:57 公開日:2023-10-31 |
# データフリー蒸留による胸部疾患解析の効率化とプライバシ向上 Data-Free Distillation Improves Efficiency and Privacy in Federated Thorax Disease Analysis ( http://arxiv.org/abs/2310.18346v2 ) ライセンス: Link先を確認 | Ming Li and Guang Yang | (参考訳) 大規模なマルチセンタ、マルチスキャナの設定における胸骨疾患の分析は、厳格なプライバシーポリシーによって制限されることが多い。
フェデレートラーニング(FL)は潜在的な解決策を提供するが、従来のパラメータベースのFLは高い通信コスト、データ漏洩、不均一性といった問題によって制限される。
蒸留ベースのFLは効率を向上するが、しばしば臨床実践では実用的ではないプロキシデータセットに依存している。
これらの課題に対処するために,fedkdfによるデータフリー蒸留式flアプローチを提案する。
FedKDFでは、サーバは軽量なジェネレータを使用して、プライベートデータやプロキシデータセットへのアクセスを必要とせずに、異なるクライアントからの知識を集約する。
fedkdfは、クライアントからの予測器を単一の統一予測器に統合し、軽量ジェネレータの学習知識を使用してさらに最適化する。
実験の結果,fedkdfは効率的でプライバシーを保った連合胸腺疾患解析にロバストなソリューションを提供することがわかった。 Thorax disease analysis in large-scale, multi-centre, and multi-scanner settings is often limited by strict privacy policies. Federated learning (FL) offers a potential solution, while traditional parameter-based FL can be limited by issues such as high communication costs, data leakage, and heterogeneity. Distillation-based FL can improve efficiency, but it relies on a proxy dataset, which is often impractical in clinical practice. To address these challenges, we introduce a data-free distillation-based FL approach FedKDF. In FedKDF, the server employs a lightweight generator to aggregate knowledge from different clients without requiring access to their private data or a proxy dataset. FedKDF combines the predictors from clients into a single, unified predictor, which is further optimized using the learned knowledge in the lightweight generator. Our empirical experiments demonstrate that FedKDF offers a robust solution for efficient, privacy-preserving federated thorax disease analysis. | 翻訳日:2023-11-01 21:45:37 公開日:2023-10-31 |
# 100kmの空路上のデュアルコンプソン分光 Dual-comb spectroscopy over 100km open-air path ( http://arxiv.org/abs/2310.19294v2 ) ライセンス: Link先を確認 | Jin-Jian Han, Wei Zhong, Ruo-Can Zhao, Ting Zeng, Min Li, Jian Lu, Xin-Xin Peng, Xi-Ping Shi, Qin Yin, Yong Wang, Ali Esamdin, Qi Shen, Jian-Yu Guan, Lei Hou, Ji-Gang Ren, Jian-Jun Jia, Yu Wang, Hai-Feng Jiang, XiangHui Xue, Qiang Zhang, Xian-Kang Dou, Jian-Wei Pan | (参考訳) 温室効果ガス(ghg)センシング技術は、地球規模の二酸化炭素排出量と気候変動の研究において重要な役割を担っている。
しかし、既存の衛星ベースのGHGセンシング技術では、広帯域、高時間空間分解能、高感度を同時に測定することはできない。
近年、時空間分解能と高感度でブロードバンドスペクトルを計測できるため、GHGセンシングの優れた候補技術としてデュアルコム分光法(DCS)が提案されている。
衛星上のDCSの表示の主な障壁は、これまで達成された大気中の短い測定距離である。
従来の研究では、20km以上の空路のDCSを実装できなかった。
本稿では,時間周波数拡散と高出力光周波数コムを用いたバイスタティック・セットアップを開発し,113kmの乱流水平空路上にDCSを実装した。
実験では,GHGのスペクトル帯域7nm,周波数10kHzで測定し,5分で2ppm,36分で0.6ppmのCO2センシング精度を得た。
衛星技術としてのdcsの実現とghgモニタリング技術の改善に向けた重要な一歩である。 Satellite-based greenhouse gases (GHG) sensing technologies play a critical role in the study of global carbon emissions and climate change. However, none of the existing satellite-based GHG sensing technologies can achieve the measurement of broad bandwidth, high temporal-spatial resolution, and high sensitivity at the same time. Recently, dual-comb spectroscopy (DCS) has been proposed as a superior candidate technology for GHG sensing because it can measure broadband spectra with high temporal-spatial resolution and high sensitivity. The main barrier to DCS's display on satellites is its short measurement distance in open air achieved thus far. Prior research has not been able to implement DCS over 20 km of open-air path. Here, by developing a bistatic setup using time-frequency dissemination and high-power optical frequency combs, we have implemented DCS over a 113 km turbulent horizontal open-air path. Our experiment successfully measured GHG with 7 nm spectral bandwidth and a 10 kHz frequency and achieved a CO2 sensing precision of <2 ppm in 5 minutes and <0.6 ppm in 36 minutes. Our results represent a significant step towards advancing the implementation of DCS as a satellite-based technology and improving technologies for GHG monitoring | 翻訳日:2023-11-01 21:38:26 公開日:2023-10-31 |
# 分類器のスコア蒸留によるテキストから3D Text-to-3D with Classifier Score Distillation ( http://arxiv.org/abs/2310.19415v2 ) ライセンス: Link先を確認 | Xin Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Song-Hai Zhang, Xiaojuan Qi | (参考訳) 特にSDS(Score Distillation Sampling)に基づく2次元拡散モデルを用いた手法では,テキスト・ツー・3D生成は顕著な進歩を遂げている。
分類器フリーガイダンスの使用は最適化の成功に不可欠であると認識されているが、最も重要な要素というよりは補助的なトリックであると考えられている。
本稿では,スコア蒸留における分類器なし指導の役割を再評価し,驚くべき発見を見いだす。
そこで本手法をCSD (Classifier Score Distillation) と命名し, 生成に暗黙の分類モデルを用いると解釈できる。
この新しい視点は、既存のテクニックを理解するための新しい洞察を示しています。
形状生成,テクスチャ合成,形状編集など,様々なテキストから3dタスクにおけるcsdの有効性を検証し,最先端手法よりも優れた結果を得る。
私たちのプロジェクトページはhttps://xinyu-andy.github.io/Classifier-Score-Distillationです。 Text-to-3D generation has made remarkable progress recently, particularly with methods based on Score Distillation Sampling (SDS) that leverages pre-trained 2D diffusion models. While the usage of classifier-free guidance is well acknowledged to be crucial for successful optimization, it is considered an auxiliary trick rather than the most essential component. In this paper, we re-evaluate the role of classifier-free guidance in score distillation and discover a surprising finding: the guidance alone is enough for effective text-to-3D generation tasks. We name this method Classifier Score Distillation (CSD), which can be interpreted as using an implicit classification model for generation. This new perspective reveals new insights for understanding existing techniques. We validate the effectiveness of CSD across a variety of text-to-3D tasks including shape generation, texture synthesis, and shape editing, achieving results superior to those of state-of-the-art methods. Our project page is https://xinyu-andy.github.io/Classifier-Score-Distillation | 翻訳日:2023-11-01 20:44:53 公開日:2023-10-31 |
# LLMを用いた地域パーシング Constituency Parsing using LLMs ( http://arxiv.org/abs/2310.19462v2 ) ライセンス: Link先を確認 | Xuefeng Bai, Jialong Wu, Yulong Chen, Zhongqing Wang, Yue Zhang | (参考訳) 構成構文解析は、基本だが未解決の自然言語処理タスクである。
本稿では,近年の大規模言語モデル (LLM) の可能性について検討する。
3つの線形化戦略を用いて出力木をシンボル列に変換することにより,llmは線形木を生成することで構成解析を解決できる。
我々はChatGPT, GPT-4, OPT, LLaMA, Alpacaを含む多種多様なLCMを用いて実験を行い, その性能を最先端の選挙区パーサーと比較した。
実験はゼロショット、少数ショット、フルトレーニングの学習設定を包含し、1つのドメイン内および5つのドメイン外テストデータセットでモデルを評価する。
本研究では, LLMの性能, 一般化能力, 選挙区解析における課題について考察した。 Constituency parsing is a fundamental yet unsolved natural language processing task. In this paper, we explore the potential of recent large language models (LLMs) that have exhibited remarkable performance across various domains and tasks to tackle this task. We employ three linearization strategies to transform output trees into symbol sequences, such that LLMs can solve constituency parsing by generating linearized trees. We conduct experiments using a diverse range of LLMs, including ChatGPT, GPT-4, OPT, LLaMA, and Alpaca, comparing their performance against the state-of-the-art constituency parsers. Our experiments encompass zero-shot, few-shot, and full-training learning settings, and we evaluate the models on one in-domain and five out-of-domain test datasets. Our findings reveal insights into LLMs' performance, generalization abilities, and challenges in constituency parsing. | 翻訳日:2023-11-01 20:35:01 公開日:2023-10-31 |
# ホッジ合成エッジガウス過程 Hodge-Compositional Edge Gaussian Processes ( http://arxiv.org/abs/2310.19450v2 ) ライセンス: Link先を確認 | Maosheng Yang, Viacheslav Borovitskiy, Elvin Isufi | (参考訳) 本稿では,簡素な2-複体の辺集合上で定義される関数をモデル化するための原理的ガウス過程(gps)を提案する。
このアプローチは、エッジフローが離散的発散とカールによって特徴づけられるネットワーク上のフロー型データを学習することを目的としている。
ホッジ分解に基づいて,まず,様々な用途に適する分岐フリーおよびカールフリーエッジGPのクラスを開発する。
次にそれらを組み合わせて、任意のエッジ関数を表現するのに十分な表現性を持つ \emph{Hodge-compositional edge GPs} を生成する。
これらのGPはエッジ関数の異なるホッジ成分の直接的および独立的な学習を促進するため、ハイパーパラメータ最適化時にそれらの関連性を捉えることができる。
これらの可能性を強調するために、通貨取引所、海流、水道網におけるフローデータ推論に適用し、代替モデルと比較する。 We propose principled Gaussian processes (GPs) for modeling functions defined over the edge set of a simplicial 2-complex, a structure similar to a graph in which edges may form triangular faces. This approach is intended for learning flow-type data on networks where edge flows can be characterized by the discrete divergence and curl. Drawing upon the Hodge decomposition, we first develop classes of divergence-free and curl-free edge GPs, suitable for various applications. We then combine them to create \emph{Hodge-compositional edge GPs} that are expressive enough to represent any edge function. These GPs facilitate direct and independent learning for the different Hodge components of edge functions, enabling us to capture their relevance during hyperparameter optimization. To highlight their practical potential, we apply them for flow data inference in currency exchange, ocean flows and water supply networks, comparing them to alternative models. | 翻訳日:2023-11-01 20:33:08 公開日:2023-10-31 |
# 自己決定のための知識グラフに基づくAIにおける信頼・説明責任・自律性 Trust, Accountability, and Autonomy in Knowledge Graph-based AI for Self-determination ( http://arxiv.org/abs/2310.19503v2 ) ライセンス: Link先を確認 | Luis-Daniel Ib\'a\~nez, John Domingue, Sabrina Kirrane, Oshani Seneviratne, Aisling Third, Maria-Esther Vidal | (参考訳) 知識グラフ(KG)は、インテリジェントな意思決定と、Google、Walmart、AirBnbといった大企業にまたがる幅広い人工知能(AI)サービスを支える基本的なプラットフォームとして登場した。
KGはデータコンテキストとセマンティクスを提供することで機械学習(ML)アルゴリズムを補完する。
KGとニューロラーニング(例えば、Large Language Models (LLMs))の統合は、現在活発な研究のトピックであり、一般にニューロシンボリックAIと呼ばれている。
kgベースのaiで達成できる多くの利点にもかかわらず、そのオンラインサービスにおけるユビキタス化は、基本的な社会問題として市民の自己決定の喪失をもたらす可能性がある。
中央集権化されることが多いこれらの技術に頼れば頼ればするほど、市民は自分の運命を決定できるでしょう。
この脅威に対抗するため、欧州連合(EU)のAI法のようなAI規制が一部の地域で提案されている。
この規制は、技術者がすべきことを規定している。AIシステムのアウトプットは、どのように信頼されるのか?
これらのアーティファクトの内部構造が透明であることを保証するためには、何が必要か?
AIはどのようにして意思決定に責任を負うことができるのか?
本稿では,KGベースのAIによる自己決定を支援するための基礎的なトピックと研究の柱を概念化する。
この概念的な枠組みに基づいて、市民の自己決定の挑戦と機会が実世界のシナリオで示され、分析される。
その結果,提案する目標を達成するための研究課題を提案する。 Knowledge Graphs (KGs) have emerged as fundamental platforms for powering intelligent decision-making and a wide range of Artificial Intelligence (AI) services across major corporations such as Google, Walmart, and AirBnb. KGs complement Machine Learning (ML) algorithms by providing data context and semantics, thereby enabling further inference and question-answering capabilities. The integration of KGs with neuronal learning (e.g., Large Language Models (LLMs)) is currently a topic of active research, commonly named neuro-symbolic AI. Despite the numerous benefits that can be accomplished with KG-based AI, its growing ubiquity within online services may result in the loss of self-determination for citizens as a fundamental societal issue. The more we rely on these technologies, which are often centralised, the less citizens will be able to determine their own destinies. To counter this threat, AI regulation, such as the European Union (EU) AI Act, is being proposed in certain regions. The regulation sets what technologists need to do, leading to questions concerning: How can the output of AI systems be trusted? What is needed to ensure that the data fuelling and the inner workings of these artefacts are transparent? How can AI be made accountable for its decision-making? This paper conceptualises the foundational topics and research pillars to support KG-based AI for self-determination. Drawing upon this conceptual framework, challenges and opportunities for citizen self-determination are illustrated and analysed in a real-world scenario. As a result, we propose a research agenda aimed at accomplishing the recommended objectives. | 翻訳日:2023-11-01 20:20:00 公開日:2023-10-31 |
# 画像プライバシー分類のための人間解釈と深層機能 Human-interpretable and deep features for image privacy classification ( http://arxiv.org/abs/2310.19582v2 ) ライセンス: Link先を確認 | Darya Baranouskaya and Andrea Cavallaro | (参考訳) プライバシーは、定義が難しい複雑で主観的で文脈的な概念である。
したがって、プライバシー分類器を訓練するための画像のアノテーションは難しい課題である。
本稿では,プライバシ分類データセットと,異なるアセスタによるプライバシラベルを対比したアノテート画像の特性について分析する。
画像のプライバシ分類に適した特徴について検討し,8つのプライバシに特有かつ人間に解釈可能な特徴を提案する。
これらの機能はディープラーニングモデルの性能を高め、それ自身で、より高次元の深い機能と比較して、プライバシ分類のためのイメージ表現を改善する。 Privacy is a complex, subjective and contextual concept that is difficult to define. Therefore, the annotation of images to train privacy classifiers is a challenging task. In this paper, we analyse privacy classification datasets and the properties of controversial images that are annotated with contrasting privacy labels by different assessors. We discuss suitable features for image privacy classification and propose eight privacy-specific and human-interpretable features. These features increase the performance of deep learning models and, on their own, improve the image representation for privacy classification compared with much higher dimensional deep features. | 翻訳日:2023-11-01 19:57:01 公開日:2023-10-31 |
# LLMaAA: アクティブアノテーションとして大規模言語モデルを作る LLMaAA: Making Large Language Models as Active Annotators ( http://arxiv.org/abs/2310.19596v2 ) ライセンス: Link先を確認 | Ruoyu Zhang, Yanzeng Li, Yongliang Ma, Ming Zhou, Lei Zou | (参考訳) 自然言語処理(NLP)における一般的な教師あり学習法は、大量の高品質な注釈付きデータを必要とするデータ処理である。
実際には、こうしたデータを取得するのはコストのかかる努力である。
近年,大規模言語モデル (LLM) のより優れた少数ショット性能は,LLMからのみ学習データを合成するデータセット生成の開発を促している。
しかしながら、このようなアプローチは通常、低品質の問題に苦しめられ、十分なパフォーマンスを達成するには、より多くのラベル付きデータを必要とする。
LLMの可能性をフル活用し、大量のラベルのないデータを活用するために、LLMaAAを提案し、LCMをアノテータとして利用し、それをアクティブな学習ループに配置して、アノテートを効率的に決定する。
擬似ラベルで頑健に学習するために、アノテーションとトレーニングプロセスの両方を最適化する:(1)小さな実演プールからk-NN例をインコンテキストの例として描き、(2)学習可能な重み付けでトレーニングサンプルを割り当てるためにサンプル再重み付け手法を採用する。
従来のアプローチと比較して、LLMaAAは効率性と信頼性の両方を特徴としている。
エンティティ認識と関係抽出という2つの古典的なnlpタスクの実験と分析を行う。
LLMaAAでは、LCMが生成したラベルからトレーニングしたタスク固有のモデルは、数百の注釈付きサンプルで教師を上回り、他のベースラインよりもはるかに費用対効果が高い。 Prevalent supervised learning methods in natural language processing (NLP) are notoriously data-hungry, which demand large amounts of high-quality annotated data. In practice, acquiring such data is a costly endeavor. Recently, the superior few-shot performance of large language models (LLMs) has propelled the development of dataset generation, where the training data are solely synthesized from LLMs. However, such an approach usually suffers from low-quality issues, and requires orders of magnitude more labeled data to achieve satisfactory performance. To fully exploit the potential of LLMs and make use of massive unlabeled data, we propose LLMaAA, which takes LLMs as annotators and puts them into an active learning loop to determine what to annotate efficiently. To learn robustly with pseudo labels, we optimize both the annotation and training processes: (1) we draw k-NN examples from a small demonstration pool as in-context examples, and (2) we adopt the example reweighting technique to assign training samples with learnable weights. Compared with previous approaches, LLMaAA features both efficiency and reliability. We conduct experiments and analysis on two classic NLP tasks, named entity recognition and relation extraction. With LLMaAA, task-specific models trained from LLM-generated labels can outperform the teacher within only hundreds of annotated examples, which is much more cost-effective than other baselines. | 翻訳日:2023-11-01 19:41:51 公開日:2023-10-31 |
# moca:因果的・道徳的判断課題における言語モデルアライメントの測定 MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks ( http://arxiv.org/abs/2310.19677v2 ) ライセンス: Link先を確認 | Allen Nie, Yuhui Zhang, Atharva Amdekar, Chris Piech, Tatsunori Hashimoto, Tobias Gerstenberg | (参考訳) 身体的・社会的世界の人間の常識的理解は直感的な理論を中心に構成されている。
これらの理論は因果的・道徳的な判断を支持する。
何か悪いことが起きたら、自然に「誰が何をしたのか、なぜなのか?」と尋ねます。
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、規範違反や害が避けられるか避けられないかなど、人々の判断に体系的に影響を及ぼす多くの要因を明らかにしている。
我々は24の認知科学論文からストーリーのデータセットを収集し、各ストーリーに調査対象の要因を付加するシステムを開発した。
このデータセットを用いて、大規模言語モデル(llm)が、人間の参加者と整合するテキストベースのシナリオについて因果的および道徳的判断を行うかどうかをテストする。
集約レベルでは、最近のLCMではアライメントが改善されている。
しかし, 統計的解析により, LLMは人体とは全く異なる因子を重み付けしていることがわかった。
これらの結果は、学習データセットと認知科学の知見を組み合わせることで、単に総合的な指標に基づいて比較を行うのに役立つことを示している。 Human commonsense understanding of the physical and social world is organized around intuitive theories. These theories support making causal and moral judgments. When something bad happens, we naturally ask: who did what, and why? A rich literature in cognitive science has studied people's causal and moral intuitions. This work has revealed a number of factors that systematically influence people's judgments, such as the violation of norms and whether the harm is avoidable or inevitable. We collected a dataset of stories from 24 cognitive science papers and developed a system to annotate each story with the factors they investigated. Using this dataset, we test whether large language models (LLMs) make causal and moral judgments about text-based scenarios that align with those of human participants. On the aggregate level, alignment has improved with more recent LLMs. However, using statistical analyses, we find that LLMs weigh the different factors quite differently from human participants. These results show how curated, challenge datasets combined with insights from cognitive science can help us go beyond comparisons based merely on aggregate metrics: we uncover LLMs implicit tendencies and show to what extent these align with human intuitions. | 翻訳日:2023-11-01 19:16:34 公開日:2023-10-31 |
# 大規模言語モデル:現在の議論におけるニュアンスの必要性と理解の実践的視点 Large Language Models: The Need for Nuance in Current Debates and a Pragmatic Perspective on Understanding ( http://arxiv.org/abs/2310.19671v2 ) ライセンス: Link先を確認 | Bram M.A. van Dijk, Tom Kouwenhoven, Marco R. Spruit, Max J. van Duijn | (参考訳) 現在のLarge Language Models (LLMs) は文法的に正しい、流動的なテキストを生成する能力に劣らない。
LLMは急速に出現し、LCMの能力に関する議論が飛び交っているが、リフレクションは遅れている。
そこで,本稿ではまず議論を拡大し,LLM能力の批判において繰り返される3点を批判的に評価する。
一 トレーニングデータにおいて、LPMが統計的パターンのみをオウムすること。
二 LLMが形式をマスターするが、機能言語能力がないこと。
三 LLMにおける言語学習が人間の言語学習に通知できないこと。
経験的および理論的議論から、これらの点がよりニュアンスを必要とすることを示す。
第二に、LLMにおける「現実的」理解と意図の問題に関する実践的な視点を概説する。
理解と意図は、我々が他の人間に帰属する観察不可能な精神状態に関係している。それは、それらが実用的価値を持っているからである。
我々は、人間が精神状態をLLMに類似させるのが理にかなっている状況を反映し、LLMの実践的哲学的文脈を社会における顕著な技術として概説する。 Current Large Language Models (LLMs) are unparalleled in their ability to generate grammatically correct, fluent text. LLMs are appearing rapidly, and debates on LLM capacities have taken off, but reflection is lagging behind. Thus, in this position paper, we first zoom in on the debate and critically assess three points recurring in critiques of LLM capacities: i) that LLMs only parrot statistical patterns in the training data; ii) that LLMs master formal but not functional language competence; and iii) that language learning in LLMs cannot inform human language learning. Drawing on empirical and theoretical arguments, we show that these points need more nuance. Second, we outline a pragmatic perspective on the issue of `real' understanding and intentionality in LLMs. Understanding and intentionality pertain to unobservable mental states we attribute to other humans because they have pragmatic value: they allow us to abstract away from complex underlying mechanics and predict behaviour effectively. We reflect on the circumstances under which it would make sense for humans to similarly attribute mental states to LLMs, thereby outlining a pragmatic philosophical context for LLMs as an increasingly prominent technology in society. | 翻訳日:2023-11-01 19:15:34 公開日:2023-10-31 |
# 大規模言語モデルの評価: 包括的調査 Evaluating Large Language Models: A Comprehensive Survey ( http://arxiv.org/abs/2310.19736v2 ) ライセンス: Link先を確認 | Zishan Guo, Renren Jin, Chuang Liu, Yufei Huang, Dan Shi, Supryadi, Linhao Yu, Yan Liu, Jiaxuan Li, Bojian Xiong, Deyi Xiong | (参考訳) 大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な能力を示している。
それらは大きな注目を集め、多くの下流アプリケーションにデプロイされた。
しかし、両刃の剣と同様、LLMも潜在的なリスクを生じさせる。
プライベートなデータ漏洩に悩まされたり、不適切で有害なコンテンツや誤解を招く可能性がある。
さらに、LSMの急速な進歩は、適切な安全を守ることなく超知能システムの出現を懸念する。
LLMのキャパシティを効果的に活用し、その安全で有益な開発を確保するためには、厳密かつ包括的なLCMの評価を行うことが重要である。
本調査は, LLMの評価に対するパノラマ的な視点を提供するためのものである。
llmの評価を,知識・能力評価,アライメント評価,安全性評価の3つのグループに分類した。
これら3つの側面に関する評価手法とベンチマークに関する総合的なレビューに加えて、特殊領域におけるLLMの性能に関する評価のコンペティションをまとめ、能力、アライメント、安全性、適用性に関するLCM評価をカバーする総合的な評価プラットフォームの構築について論じる。
この総合的な概要は、LCMの評価におけるさらなる研究の関心を刺激し、LCMの責任を負う開発を導く上で、最終的な目的として評価を行うことを期待する。
これが彼らの進化を、潜在的なリスクを最小化しつつ、社会的利益を最大化する方向に導くと期待している。
関連論文のキュレーションリストはhttps://github.com/tjunlp-lab/awesome-llms-evaluation-papersで公開されている。 Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers. | 翻訳日:2023-11-01 19:08:00 公開日:2023-10-31 |
# Promise:事前訓練画像ベースモデルを用いたプロンプト駆動型3次元医用画像セグメンテーション Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained Image Foundation Models ( http://arxiv.org/abs/2310.19721v2 ) ライセンス: Link先を確認 | Hao Li, Han Liu, Dewei Hu, Jiacheng Wang, Ipek Oguz | (参考訳) データ取得の課題やラベルの可用性といった、医療画像における一般的な問題に対処するために、自然から医療画像領域への学習の伝達は、信頼できるセグメンテーション結果を生成するための有効な戦略となる。
しかしながら、コントラストの相違への対処、解剖学的変動の管理、および3Dセグメンテーションタスクのための2D事前訓練モデルの適用など、ドメイン間のいくつかの既存の障壁を分解する必要がある。
本稿では,事前学習した2次元画像基盤モデルからの知識を活用すべく,単一点プロンプトのみを用いたプロンプト駆動3次元医用画像セグメンテーションモデルpromiseを提案する。
特に,Segment Anything Model (SAM) から事前学習した視覚変換器を用いて,事前学習した重みを更新することなく,深度関連3D空間コンテキストを抽出する軽量アダプタを統合する。
頑健な結果を得るために,補完的なエンコーダを持つハイブリッドネットワークを設計し,正確な境界を達成するために境界認識損失を提案する。
大腸癌と膵腫瘍の分節の2つの公開データセットについて検討した。
提案手法は,最先端のセグメンテーション手法と即時エンジニアリングとを比較し,優れた性能を実現する。
コードはhttps://github.com/MedICL-VU/ProMISeで公開されている。 To address prevalent issues in medical imaging, such as data acquisition challenges and label availability, transfer learning from natural to medical image domains serves as a viable strategy to produce reliable segmentation results. However, several existing barriers between domains need to be broken down, including addressing contrast discrepancies, managing anatomical variability, and adapting 2D pretrained models for 3D segmentation tasks. In this paper, we propose ProMISe,a prompt-driven 3D medical image segmentation model using only a single point prompt to leverage knowledge from a pretrained 2D image foundation model. In particular, we use the pretrained vision transformer from the Segment Anything Model (SAM) and integrate lightweight adapters to extract depth-related (3D) spatial context without updating the pretrained weights. For robust results, a hybrid network with complementary encoders is designed, and a boundary-aware loss is proposed to achieve precise boundaries. We evaluate our model on two public datasets for colon and pancreas tumor segmentations, respectively. Compared to the state-of-the-art segmentation methods with and without prompt engineering, our proposed method achieves superior performance. The code is publicly available at https://github.com/MedICL-VU/ProMISe. | 翻訳日:2023-11-01 19:05:57 公開日:2023-10-31 |
# 特殊化ドメインのための言語モデルの組み合わせ:カラーフルアプローチ Combining Language Models For Specialized Domains: A Colorful Approach ( http://arxiv.org/abs/2310.19708v2 ) ライセンス: Link先を確認 | Daniel Eitan, Menachem Pirchi, Neta Glazer, Shai Meital, Gil Ayach, Aviv Shamsian, Aviv Navon, Gil Hetz, Joseph Keshet | (参考訳) 汎用言語モデル(LM)は、医学や工業などの専門分野でよく使われるドメイン固有の用語や用語を処理する際に困難に直面する。
さらに、一般的な言語と専門用語を混ぜ合わせた混合音声の解釈が困難であることが多い。
これは、これらの特定のドメイン内で動作する自動音声認識システムにとって課題となる。
本稿では,汎用 lm にドメイン固有あるいは二次 lm を統合する新しい手法を提案する。
この戦略には、一般またはドメイン固有のLMとの関係を示す各単語のラベル、または '`coloring' が含まれる。
色付き単語を含む推論を効果的に処理するビーム探索アルゴリズムを最適化したアルゴリズムを開発した。
評価の結果,本手法は言語タスクへのjargonの統合に極めて有効であることが示唆された。
特に,本手法は,一般ドメインの性能を損なうことなく,ドメイン固有の単語の誤り率を大幅に下げる。 General purpose language models (LMs) encounter difficulties when processing domain-specific jargon and terminology, which are frequently utilized in specialized fields such as medicine or industrial settings. Moreover, they often find it challenging to interpret mixed speech that blends general language with specialized jargon. This poses a challenge for automatic speech recognition systems operating within these specific domains. In this work, we introduce a novel approach that integrates domain-specific or secondary LM into general-purpose LM. This strategy involves labeling, or ``coloring'', each word to indicate its association with either the general or the domain-specific LM. We develop an optimized algorithm that enhances the beam search algorithm to effectively handle inferences involving colored words. Our evaluations indicate that this approach is highly effective in integrating jargon into language tasks. Notably, our method substantially lowers the error rate for domain-specific words without compromising performance in the general domain. | 翻訳日:2023-11-01 19:04:47 公開日:2023-10-31 |
# 外部からswap regret 2.0: 大きなアクションスペースに対する効率的な削減と必然的な敵意 From External to Swap Regret 2.0: An Efficient Reduction and Oblivious Adversary for Large Action Spaces ( http://arxiv.org/abs/2310.19786v2 ) ライセンス: Link先を確認 | Yuval Dagan and Constantinos Daskalakis and Maxwell Fishelson and Noah Golowich | (参考訳) 本稿では,blum-mansour [bm07] と stolz-lugosi [sl05] の古典的還元により,swap-regret 最小化から外部-regret 最小化への新しい還元法を提案する。
ある仮説クラスに対して外部回帰アルゴリズムが存在しない場合、同じクラスに対して非スワップ回帰アルゴリズムが存在することも示している。
専門家のアドバイスで学ぶ問題については,スワップの後悔は1回あたり$\log(n)^{o(1/\epsilon)$ と1回あたり$o(n)$ (n$ は専門家の数) の後に {\epsilon} で区切られることを保証できること,一方,blum-mansour と stolz-lugosi の古典的な還元には$o(n/\epsilon^2)$ と少なくとも $\omega(n^2)$ の反復複雑性が必要であることを示唆する。
結果として,[bm07]のそれとは対照的に,[bm07]では,専門家よりもディストリビューションを採用可能な,限定的かつ$\ell_1$-constrainedadversariesと学習者に対して,ラウンド数を$\tilde\omega(n/\epsilon^2)$あるいは$/\epsilon$の指数値でなくてはなりません。
我々の減少は、あるゲームで非回帰学習が可能であるならば、このゲームは任意によい近似の近似平衡を持つ必要があることを意味する。
これは、近似的粗相関平衡が存在するという非回帰学習の民俗学的な含意を強める。
重要なことに、作用集合が有限であるという要件を大きく広げた相関平衡が存在するための十分な条件を与え、 [dg22; ass+23] によって開かれた問題に答える。
さらに、ゲームにおける平衡計算や学習に関するいくつかの卓越した疑問に答える。 We provide a novel reduction from swap-regret minimization to external-regret minimization, which improves upon the classical reductions of Blum-Mansour [BM07] and Stolz-Lugosi [SL05] in that it does not require finiteness of the space of actions. We show that, whenever there exists a no-external-regret algorithm for some hypothesis class, there must also exist a no-swap-regret algorithm for that same class. For the problem of learning with expert advice, our result implies that it is possible to guarantee that the swap regret is bounded by {\epsilon} after $\log(N)^{O(1/\epsilon)}$ rounds and with $O(N)$ per iteration complexity, where $N$ is the number of experts, while the classical reductions of Blum-Mansour and Stolz-Lugosi require $O(N/\epsilon^2)$ rounds and at least $\Omega(N^2)$ per iteration complexity. Our result comes with an associated lower bound, which -- in contrast to that in [BM07] -- holds for oblivious and $\ell_1$-constrained adversaries and learners that can employ distributions over experts, showing that the number of rounds must be $\tilde\Omega(N/\epsilon^2)$ or exponential in $1/\epsilon$. Our reduction implies that, if no-regret learning is possible in some game, then this game must have approximate correlated equilibria, of arbitrarily good approximation. This strengthens the folklore implication of no-regret learning that approximate coarse correlated equilibria exist. Importantly, it provides a sufficient condition for the existence of correlated equilibrium which vastly extends the requirement that the action set is finite, thus answering a question left open by [DG22; Ass+23]. Moreover, it answers several outstanding questions about equilibrium computation and/or learning in games. | 翻訳日:2023-11-01 18:40:20 公開日:2023-10-31 |
# AI支援意思決定における人間関与のためのAIサポートの設計:システムレビューによる人間とAIのインタラクションの分類 Designing AI Support for Human Involvement in AI-assisted Decision Making: A Taxonomy of Human-AI Interactions from a Systematic Review ( http://arxiv.org/abs/2310.19778v2 ) ライセンス: Link先を確認 | Catalina Gomez, Sue Min Cho, Shichang Ke, Chien-Ming Huang, and Mathias Unberath | (参考訳) 意思決定支援システムにおける人工知能(AI)の向上への取り組みは、しばしばアルゴリズムの出力と人間の期待の一致を見越して、技術進歩に不相応に焦点を当てている。
これを解決するために、説明可能なAIは、より人間中心の視点からAI開発を促進する。
しかし、人間を助けるためにAIが提供すべき情報を決定することは不可欠である。
g.
勧告の順序と解釈のソリケーションも同様に重要である。
これはAIベースの意思決定支援の重要な構成要素として、人間とAIのインタラクションをより正確に研究する必要性を動機付けている。
複数のアプリケーション領域におけるヒューマン-AIインタラクションの評価には様々な形態が用いられているが、人間-AIインタラクションプロトコルを記述するための共通用語はまだ存在しない。
このギャップに対処するため、我々はAI支援意思決定文献の体系的レビューを行い、105項目の分析を行い、人間とAIの相互作用の様々なモードを規定する相互作用パターンの分類を導入した。
現在のインタラクションは、単純化したコラボレーションパラダイムが支配しており、真にインタラクティブな機能に対するサポートが比較的少ないことを報告しています。
我々の分類学は、現在AIとの相互作用が意思決定の文脈でどのようにサポートされているかを理解し、相互作用設計の意図的な選択を奨励する貴重なツールである。 Efforts in levering Artificial Intelligence (AI) in decision support systems have disproportionately focused on technological advancements, often overlooking the alignment between algorithmic outputs and human expectations. To address this, explainable AI promotes AI development from a more human-centered perspective. Determining what information AI should provide to aid humans is vital, however, how the information is presented, e. g., the sequence of recommendations and the solicitation of interpretations, is equally crucial. This motivates the need to more precisely study Human-AI interaction as a pivotal component of AI-based decision support. While several empirical studies have evaluated Human-AI interactions in multiple application domains in which interactions can take many forms, there is not yet a common vocabulary to describe human-AI interaction protocols. To address this gap, we describe the results of a systematic review of the AI-assisted decision making literature, analyzing 105 selected articles, which grounds the introduction of a taxonomy of interaction patterns that delineate various modes of human-AI interactivity. We find that current interactions are dominated by simplistic collaboration paradigms and report comparatively little support for truly interactive functionality. Our taxonomy serves as a valuable tool to understand how interactivity with AI is currently supported in decision-making contexts and foster deliberate choices of interaction designs. | 翻訳日:2023-11-01 18:38:33 公開日:2023-10-31 |
# クラスター展開によるギブズ状態サンプリング Gibbs state sampling via cluster expansions ( http://arxiv.org/abs/2310.20129v1 ) ライセンス: Link先を確認 | Norhan M. Eassa, Mahmoud M. Moustafa, Arnab Banerjee, Jeffrey Cohn | (参考訳) ギブス状態(すなわち熱状態)は、量子シミュレーション、量子機械学習、量子最適化、オープン量子システムの研究など、いくつかの応用に利用できる。
さらに、半定値プログラミング、組合せ最適化問題、量子ボルツマンマシンの訓練は、よく準備されたギブス状態からのサンプリングによってすべて解決できる。
というのも、ギブスが量子コンピュータ上で準備し、サンプリングすることは、非常に難しい作業だということです。
このようなタスクは、最も単純なケースでもリソースやキャリブレーションに大きなオーバーヘッドを必要とするだけでなく、実装が特定のシステムに限られる可能性があるという事実も必要である。
本稿では,局所クラスター上の混合状態のテンソル積からなる準分布からのサンプリング,すなわち,ギブス状態全体を,量子ハードウェア上での実装やサンプルが容易な局所ギブス蓄積型状態の積の和に拡張する手法を提案する。
まず、XYスピン相互作用を持つ4スピン線形鎖に対して、ZZ$動的スピン-スピン相関関数を求める結果を示す。
また、8スピン鎖ギブス状態の比熱を$\rho_8$で測定した結果も提示する。 Gibbs states (i.e., thermal states) can be used for several applications such as quantum simulation, quantum machine learning, quantum optimization, and the study of open quantum systems. Moreover, semi-definite programming, combinatorial optimization problems, and training quantum Boltzmann machines can all be addressed by sampling from well-prepared Gibbs states. With that, however, comes the fact that preparing and sampling from Gibbs states on a quantum computer are notoriously difficult tasks. Such tasks can require large overhead in resources and/or calibration even in the simplest of cases, as well as the fact that the implementation might be limited to only a specific set of systems. We propose a method based on sampling from a quasi-distribution consisting of tensor products of mixed states on local clusters, i.e., expanding the full Gibbs state into a sum of products of local "Gibbs-cumulant" type states easier to implement and sample from on quantum hardware. We begin with presenting results for 4-spin linear chains with XY spin interactions, for which we obtain the $ZZ$ dynamical spin-spin correlation functions. We also present the results of measuring the specific heat of the 8-spin chain Gibbs state $\rho_8$. | 翻訳日:2023-11-01 17:02:00 公開日:2023-10-31 |
# 大規模言語モデルでデータクリエータを改善 Making Large Language Models Better Data Creators ( http://arxiv.org/abs/2310.20111v1 ) ライセンス: Link先を確認 | Dong-Ho Lee, Jay Pujara, Mohit Sewak, Ryen W. White, Sujay Kumar Jauhar | (参考訳) 大規模言語モデル(llm)はnlpの最先端を著しく進歩させたが、コスト、応答性、制御性、プライバシとセキュリティに関する懸念から、下流アプリケーションへのデプロイは依然として困難である。
そのため、一部のケースでは、トレーニング可能なモデルが依然として望ましい選択肢である。
しかし、これらのモデルは、最適なパフォーマンスのために、人間のラベル付きデータを必要とする。
この問題に対処するため、人間の労力を減らすために、LSMを用いてデータのラベル付けや生成を行う手法がいくつかある。
これらの手法は特定の用途に有効であるが、現実のシナリオでは困難に遭遇する。
データのラベリングには慎重なデータ選択が必要だが、データを生成するにはタスク固有のプロンプトエンジニアリングが必要である。
本稿では,単一の書式化例のみを必要とする統一データ生成パイプラインを提案する。
実験では,命令追従 LLM は費用対効果の高いデータクリエータであり,これらのデータを用いて訓練されたモデルでは,アウト・オブ・ディストリビューション評価において,人間ラベル付きデータで訓練したモデル(最大17.5%)よりも優れた性能を示し,分配タスクにおける同等のパフォーマンスを維持した。
これらの結果は,実世界のNLPシステムの堅牢性に重要な意味を持つ。 Although large language models (LLMs) have advanced the state-of-the-art in NLP significantly, deploying them for downstream applications is still challenging due to cost, responsiveness, control, or concerns around privacy and security. As such, trainable models are still the preferred option in some cases. However, these models still require human-labeled data for optimal performance, which is expensive and time-consuming to obtain. In order to address this issue, several techniques to reduce human effort involve labeling or generating data using LLMs. Although these methods are effective for certain applications, in practice they encounter difficulties in real-world scenarios. Labeling data requires careful data selection, while generating data necessitates task-specific prompt engineering. In this paper, we propose a unified data creation pipeline that requires only a single formatting example, and which is applicable to a broad range of tasks, including traditionally problematic ones with semantically devoid label spaces. In our experiments we demonstrate that instruction-following LLMs are highly cost-effective data creators, and that models trained with these data exhibit performance better than those trained with human-labeled data (by up to 17.5%) on out-of-distribution evaluation, while maintaining comparable performance on in-distribution tasks. These results have important implications for the robustness of NLP systems deployed in the real-world. | 翻訳日:2023-11-01 17:01:14 公開日:2023-10-31 |
# Kerrパラメトリック発振器量子ビットを用いた普遍量子計算のための高速基本ゲート Fast elementary gates for universal quantum computation with Kerr parametric oscillator qubits ( http://arxiv.org/abs/2310.20108v1 ) ライセンス: Link先を確認 | Taro Kanao, Hayato Goto | (参考訳) カーパラメトリック発振器(KPO)は、量子ビットとして使用できるコヒーレント状態の重ね合わせを安定化することができ、ハードウェア効率の良い量子コンピュータを実現するための有望な候補である。
kpo量子ビットを用いた普遍量子計算のための基本ゲートは提案されているが、これらのゲートは通常断熱演算に基づいており、長いゲート時間を必要とするため、例えば超伝導回路によって実現されるkposの光子損失による誤差が生じる。
本研究では,短絡から断熱へのパルス形状の数値最適化に基づく,実験可能な制御手法により基本ゲートを高速化する。
数値シミュレーションにより, 提案手法は, 99.9%の高ゲート忠実度で, 断熱式に比べて最大6倍の高速化が可能であることを示す。
これらの手法は、kposを持つ量子コンピュータに有用であることが期待される。 Kerr parametric oscillators (KPOs) can stabilize the superpositions of coherent states, which can be utilized as qubits, and are promising candidates for realizing hardware-efficient quantum computers. Although elementary gates for universal quantum computation with KPO qubits have been proposed, these gates are usually based on adiabatic operations and thus need long gate times, which result in errors caused by photon loss in KPOs realized by, e.g., superconducting circuits. In this work, we accelerate the elementary gates by experimentally feasible control methods, which are based on numerical optimization of pulse shapes for shortcuts to adiabaticity. By numerical simulations, we show that the proposed methods can achieve speedups compared to adiabatic ones by up to six times with high gate fidelities of 99.9%. These methods are thus expected to be useful for quantum computers with KPOs. | 翻訳日:2023-11-01 17:00:46 公開日:2023-10-31 |
# 実装の抜け穴に対する認証のための商用量子鍵配布システムの構築 Preparing a commercial quantum key distribution system for certification against implementation loopholes ( http://arxiv.org/abs/2310.20107v1 ) ライセンス: Link先を確認 | Vadim Makarov, Alexey Abrikosov, Poompong Chaiwongkhot, Aleksey K. Fedorov, Anqi Huang, Evgeny Kiktenko, Mikhail Petrov, Anastasiya Ponosova, Daria Ruzhitskaya, Andrey Tayduganov, Daniil Trefilov, Konstantin Zaitsev | (参考訳) 商用量子鍵配布(qkd)システムは、広く展開できるように正式に認証される必要がある。
認証には、既知の実装の抜け穴やそれらを悪用する攻撃に対するシステムの堅牢性を含めるべきである。
ここでは、この手順のための光ファイバQKDシステムを作成します。
このシステムは、デコイ状態のBB84プロトコル、偏光符号化、キュービットのソースレート312.5MHzを備えた準備と測定方式を持ち、ロシアのQRateによって製造されている。
ハードウェアと後処理について詳述する。
実装の抜け穴の可能性のあるハードウェアを解析し,対策について議論する。
次に、識別される最もリスクの高い抜け穴に対処するためにシステム設計を修正します。
また,技術要件を認定ラボで検討し,その構造について概説する。 A commercial quantum key distribution (QKD) system needs to be formally certified to enable its wide deployment. The certification should include the system's robustness against known implementation loopholes and attacks that exploit them. Here we ready a fiber-optic QKD system for this procedure. The system has a prepare-and-measure scheme with decoy-state BB84 protocol, polarisation encoding, qubit source rate of 312.5 MHz, and is manufactured by QRate in Russia. We detail its hardware and post-processing. We analyse the hardware for any possible implementation loopholes and discuss countermeasures. We then amend the system design to address the highest-risk loopholes identified. We also work out technical requirements on the certification lab and outline its possible structure. | 翻訳日:2023-11-01 17:00:18 公開日:2023-10-31 |
# 大規模言語モデルを用いたプログラミングコースにおける学生支援要求の効率的な分類 Efficient Classification of Student Help Requests in Programming Courses Using Large Language Models ( http://arxiv.org/abs/2310.20105v1 ) ライセンス: Link先を確認 | Jaromir Savelka, Paul Denny, Mark Liffiton, Brad Sheese | (参考訳) 求めている援助の種類に関する学生支援要求の正確な分類は、効果的な対応の調整を可能にする。
このような要求を自動的に分類するのは簡単ではないが、大きな言語モデル(LLM)はアクセス可能で費用対効果の高いソリューションを提供するように見える。
本研究は,GPT-3.5およびGPT-4モデルを用いて,導入プログラミングクラスにおける学生のヘルプ要求の分類を行った。
ゼロショット試験では、GPT-3.5とGPT-4は、ほとんどのカテゴリで同等のパフォーマンスを示し、GPT-4は、デバッグに関連するリクエストのサブカテゴリの分類において、GPT-3.5を上回った。
GPT-3.5モデルの微調整により性能が向上し、2人のラッカー間で観察されたカテゴリ間の精度と一貫性が近似された。
本研究は、学生ニーズの自動分類を通じて、LLMを用いて教育システムを強化する可能性を示す。 The accurate classification of student help requests with respect to the type of help being sought can enable the tailoring of effective responses. Automatically classifying such requests is non-trivial, but large language models (LLMs) appear to offer an accessible, cost-effective solution. This study evaluates the performance of the GPT-3.5 and GPT-4 models for classifying help requests from students in an introductory programming class. In zero-shot trials, GPT-3.5 and GPT-4 exhibited comparable performance on most categories, while GPT-4 outperformed GPT-3.5 in classifying sub-categories for requests related to debugging. Fine-tuning the GPT-3.5 model improved its performance to such an extent that it approximated the accuracy and consistency across categories observed between two human raters. Overall, this study demonstrates the feasibility of using LLMs to enhance educational systems through the automated classification of student needs. | 翻訳日:2023-11-01 17:00:06 公開日:2023-10-31 |
# WebプログラミングにおけるプラジャリズムとAIアシストミス:不公平なメリットと特徴 Plagiarism and AI Assistance Misuse in Web Programming: Unfair Benefits and Characteristics ( http://arxiv.org/abs/2310.20104v1 ) ライセンス: Link先を確認 | Oscar Karnalim, Hapnes Toba, Meliana Christianti Johan, Erico Darmawan Handoyo, Yehezkiel David Setiawan, Josephine Alvina Luwia | (参考訳) プログラミング教育において、人工知能(AI)支援の盗作と誤用が問題となっている。
しかし、Webプログラミングに焦点を当てた研究はあまり多くない。
我々は、インストラクターが両方の不正行為を特定するための自動化ツールを開発する計画である。
問題を完全に理解するために,不公平な利益と特徴を観察する制御実験を行った。
我々は、Webプログラミングのタスクを個別に完了する際の学生のパフォーマンスを、盗用、AI支援(ChatGPT)の助けを借りて比較した。
本研究は,このような不正行為に関わった学生が,完了時間が少なく,同等のテストマークを得られることを示す。
分類された提出物は、色や識別子名のような自明な面を除いて、独立したものに似ている。
AI支援の提出はより複雑で、読みにくくなっている。
学生は、aiアシスタントは適切な使用を認めれば役に立つと信じているが、それらはソリューションの可読性と正確性を確信していない。 In programming education, plagiarism and misuse of artificial intelligence (AI) assistance are emerging issues. However, not many relevant studies are focused on web programming. We plan to develop automated tools to help instructors identify both misconducts. To fully understand the issues, we conducted a controlled experiment to observe the unfair benefits and the characteristics. We compared student performance in completing web programming tasks independently, with a submission to plagiarize, and with the help of AI assistance (ChatGPT). Our study shows that students who are involved in such misconducts get comparable test marks with less completion time. Plagiarized submissions are similar to the independent ones except in trivial aspects such as color and identifier names. AI-assisted submissions are more complex, making them less readable. Students believe AI assistance could be useful given proper acknowledgment of the use, although they are not convinced with readability and correctness of the solutions. | 翻訳日:2023-11-01 16:59:50 公開日:2023-10-31 |
# 情報理論一般化境界のシャープ化 Sample-Conditioned Hypothesis Stability Sharpens Information-Theoretic Generalization Bounds ( http://arxiv.org/abs/2310.20102v1 ) ライセンス: Link先を確認 | Ziqiao Wang and Yongyi Mao | (参考訳) 本稿では,「隣り合う仮説」行列と,サンプル条件仮説(SCH)安定性と呼ばれる新しい安定性概念を新たに構築することで,情報理論の一般化を保証する。
我々のアプローチは、様々な学習シナリオにおいて、以前の情報理論的な境界を改善する、より鋭い境界をもたらす。
特に、これらの境界は、Haghifam et al. (2023) の最近の研究で明らかになったように、確率凸最適化(SCO)問題の文脈における既存の情報理論境界の限界に対処する。 We present new information-theoretic generalization guarantees through the a novel construction of the "neighboring-hypothesis" matrix and a new family of stability notions termed sample-conditioned hypothesis (SCH) stability. Our approach yields sharper bounds that improve upon previous information-theoretic bounds in various learning scenarios. Notably, these bounds address the limitations of existing information-theoretic bounds in the context of stochastic convex optimization (SCO) problems, as explored in the recent work by Haghifam et al. (2023). | 翻訳日:2023-11-01 16:59:36 公開日:2023-10-31 |
# 説明可能なAI機能による医療画像のデノシング Medical Image Denosing via Explainable AI Feature Preserving Loss ( http://arxiv.org/abs/2310.20101v1 ) ライセンス: Link先を確認 | Guanfang Dong, Anup Basu | (参考訳) 診断アルゴリズムは、医療画像処理と分析において重要な役割を果たす。
しかし,従来のデノナイジングアルゴリズムは説明的・批判的な医療的特徴の保存を無視することが多く,誤診や法的責任につながる可能性があるため,様々な種類のノイズを効率的に除去するだけでなく,その過程で重要な医療的特徴を保存できる新しいデノナイジング手法を提案する。
この目的を達成するために、勾配に基づくeXplainable Artificial Intelligence (XAI) アプローチを用いて特徴保存損失関数を設計する。
我々の特徴保存損失関数は、勾配に基づくxaiが雑音に敏感な特性によって動機づけられている。
バックプロパゲーションにより、デノベーション前後の医用画像の特徴を一定に保つことができる。
13種類のノイズ・アーティファクトを含む3種類の医用画像データセットについて広範な実験を行った。
実験結果は,性能,モデル説明可能性,一般化の観点から,本手法の優位性を示すものである。 Denoising algorithms play a crucial role in medical image processing and analysis. However, classical denoising algorithms often ignore explanatory and critical medical features preservation, which may lead to misdiagnosis and legal liabilities.In this work, we propose a new denoising method for medical images that not only efficiently removes various types of noise, but also preserves key medical features throughout the process. To achieve this goal, we utilize a gradient-based eXplainable Artificial Intelligence (XAI) approach to design a feature preserving loss function. Our feature preserving loss function is motivated by the characteristic that gradient-based XAI is sensitive to noise. Through backpropagation, medical image features before and after denoising can be kept consistent. We conducted extensive experiments on three available medical image datasets, including synthesized 13 different types of noise and artifacts. The experimental results demonstrate the superiority of our method in terms of denoising performance, model explainability, and generalization. | 翻訳日:2023-11-01 16:59:25 公開日:2023-10-31 |
# フィードバック遅延を考慮したオンライン凸最適化のためのロバスト学習 Robust Learning for Smoothed Online Convex Optimization with Feedback Delay ( http://arxiv.org/abs/2310.20098v1 ) ライセンス: Link先を確認 | Pengfei Li, Jianyi Yang, Adam Wierman, Shaolei Ren | (参考訳) 本研究では,複数ステップの非線形スイッチングコストとフィードバック遅延を含む,オンライン凸最適化の難易度について検討する。
本稿では、信頼できないML予測と信頼できない専門家のオンラインアルゴリズムを組み合わせた機械学習(ML)拡張オンラインアルゴリズム、Robustness-Constrained Learning(RCL)を提案する。
具体的には、RCLが任意の$\lambda>0$に対して、任意の専門家に対して$(1+\lambda)$-competitivenessを保証すると同時に、平均ケースのパフォーマンスを改善するために、ロバスト化に意識した方法でMLモデルを明示的にトレーニングできることを示す。
重要なことは、RCLはマルチステップ切替コストとフィードバック遅延の場合に、証明可能なロバスト性を保証する最初のML拡張アルゴリズムであり、ケーススタディとして、電池管理を用いて、ロバスト性および平均性能の改善を実証する。 We study a challenging form of Smoothed Online Convex Optimization, a.k.a. SOCO, including multi-step nonlinear switching costs and feedback delay. We propose a novel machine learning (ML) augmented online algorithm, Robustness-Constrained Learning (RCL), which combines untrusted ML predictions with a trusted expert online algorithm via constrained projection to robustify the ML prediction. Specifically,we prove that RCL is able to guarantee$(1+\lambda)$-competitiveness against any given expert for any$\lambda>0$, while also explicitly training the ML model in a robustification-aware manner to improve the average-case performance. Importantly,RCL is the first ML-augmented algorithm with a provable robustness guarantee in the case of multi-step switching cost and feedback delay.We demonstrate the improvement of RCL in both robustness and average performance using battery management for electrifying transportationas a case study. | 翻訳日:2023-11-01 16:59:11 公開日:2023-10-31 |
# ディープラーニングによるデータ市場設計 Data Market Design through Deep Learning ( http://arxiv.org/abs/2310.20096v1 ) ライセンス: Link先を確認 | Sai Srivatsa Ravindranath, Yanchen Jiang, David C. Parkes | (参考訳) 問題:$\textit{data market design}$ 問題は、情報販売者に期待される収入を最大化するための一連のシグナリング・スキーム(統計的実験)を見つける経済理論の問題である。
各買い手は、それぞれが世界環境で行うという独自の決定を持ち、特定の実験に関連する情報に対する主観的な期待値は、この決定の改善によるものであり、異なる結果に対する優先順位と価値に依存する。
複数の買い手による設定では、実験に対する買い手の期待値は、他者に販売される情報に依存する可能性がある(Bonatti et al., 2022)。
我々は、収益最適化データ市場の設計にディープラーニングの応用を導入し、何が理解され達成できるかのフロンティアを拡大する。
オークションデザインのためのディープラーニングに関する研究 [D\"utting et al., 2023] とは対照的に、アロケーションルールよりもシグナリングスキームを学び、$\textit{obedience constraints}$-$を、入札に対するインセンティブ制約に加えて、バイヤーの下流アクションをモデル化することから生じる。
我々の実験は、この新たなディープラーニングフレームワークが、理論から既知のすべてのソリューションをほぼ正確に再現し、より複雑な設定に拡張し、データ市場向けの新しい設計の最適性を確立し、最適な設計の構造に関する推測を行うことができることを示した。 The $\textit{data market design}$ problem is a problem in economic theory to find a set of signaling schemes (statistical experiments) to maximize expected revenue to the information seller, where each experiment reveals some of the information known to a seller and has a corresponding price [Bergemann et al., 2018]. Each buyer has their own decision to make in a world environment, and their subjective expected value for the information associated with a particular experiment comes from the improvement in this decision and depends on their prior and value for different outcomes. In a setting with multiple buyers, a buyer's expected value for an experiment may also depend on the information sold to others [Bonatti et al., 2022]. We introduce the application of deep learning for the design of revenue-optimal data markets, looking to expand the frontiers of what can be understood and achieved. Relative to earlier work on deep learning for auction design [D\"utting et al., 2023], we must learn signaling schemes rather than allocation rules and handle $\textit{obedience constraints}$ $-$ these arising from modeling the downstream actions of buyers $-$ in addition to incentive constraints on bids. Our experiments demonstrate that this new deep learning framework can almost precisely replicate all known solutions from theory, expand to more complex settings, and be used to establish the optimality of new designs for data markets and make conjectures in regard to the structure of optimal designs. | 翻訳日:2023-11-01 16:58:51 公開日:2023-10-31 |
# 点雲からのカールフリー流れにおける$p$-Poisson表面の再構成 $p$-Poisson surface reconstruction in curl-free flow from point clouds ( http://arxiv.org/abs/2310.20095v1 ) ライセンス: Link先を確認 | Yesom Park, Taekyung Lee, Jooyoung Hahn, Myungjoo Kang | (参考訳) 本研究の目的は, 閉じた表面で採取した非組織的な点雲からの滑らかな面の再構築であり, 点雲以外の情報を持たない幾何学的形状の保存である。
Inlicit Neural representations (INRs) は、最近表面再構成への有望なアプローチとして現れた。
しかし、既存の手法の再構成品質は、基底真理暗黙関数値や表面正規ベクトルに依存する。
本稿では、偏微分方程式の適切な監督と微分ベクトル場の基本的な性質により、高品質な曲面をロバストに再構成できることを示す。
我々は符号付き距離関数(SDF)を学習するために$p$-Poisson方程式を鋳造し、再構成された曲面はSDFのゼロレベル集合によって暗黙的に表される。
効率的なトレーニングのために,SDFの勾配を補助変数として導入し,補助変数に$p$-Poisson方程式を直接ハード制約として課すことにより,変数分割構造を開発する。
勾配場のカールフリー特性に基づき、補助変数にカールフリー制約を課すことにより、より忠実な再構成が可能となる。
標準ベンチマークデータセットの実験は、提案したINRが優れた堅牢な再構築を提供することを示している。
コードは \url{https://github.com/yebbi/pinc} で入手できる。 The aim of this paper is the reconstruction of a smooth surface from an unorganized point cloud sampled by a closed surface, with the preservation of geometric shapes, without any further information other than the point cloud. Implicit neural representations (INRs) have recently emerged as a promising approach to surface reconstruction. However, the reconstruction quality of existing methods relies on ground truth implicit function values or surface normal vectors. In this paper, we show that proper supervision of partial differential equations and fundamental properties of differential vector fields are sufficient to robustly reconstruct high-quality surfaces. We cast the $p$-Poisson equation to learn a signed distance function (SDF) and the reconstructed surface is implicitly represented by the zero-level set of the SDF. For efficient training, we develop a variable splitting structure by introducing a gradient of the SDF as an auxiliary variable and impose the $p$-Poisson equation directly on the auxiliary variable as a hard constraint. Based on the curl-free property of the gradient field, we impose a curl-free constraint on the auxiliary variable, which leads to a more faithful reconstruction. Experiments on standard benchmark datasets show that the proposed INR provides a superior and robust reconstruction. The code is available at \url{https://github.com/Yebbi/PINC}. | 翻訳日:2023-11-01 16:58:21 公開日:2023-10-31 |
# 言語獲得の認知モデルとしての言語モデルの評価 Evaluating Neural Language Models as Cognitive Models of Language Acquisition ( http://arxiv.org/abs/2310.20093v1 ) ライセンス: Link先を確認 | H\'ector Javier V\'azquez Mart\'inez, Annika Lea Heuser, Charles Yang, Jordan Kodner | (参考訳) 多くの技術的タスクにおけるニューラル言語モデル(LM)の成功は、LMトレーニングと子言語習得の間に明らかな違いがあるにもかかわらず、言語科学理論としての可能性をもたらした。
本稿では,LMの統語能力を評価する上で最も顕著なベンチマークのいくつかは,十分に厳密でないかもしれないと論じる。
特に,テンプレートベースのベンチマークでは,言語の理論的,心理学的な研究で一般的に見られる構造的多様性が欠如していることが示された。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
本研究は, 言語話者の話者プールの勾配受容性を評価し, 文法の構造的基礎を特に探究する目的で, 容易に利用できる, 慎重に計算されたデータセットの利用を提唱する。
そのようなデータセット、li-adgerデータセット、lmsは、人間の言語ユーザと一貫性のない方法で文を評価する。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけることを提案する。 The success of neural language models (LMs) on many technological tasks has brought about their potential relevance as scientific theories of language despite some clear differences between LM training and child language acquisition. In this paper we argue that some of the most prominent benchmarks for evaluating the syntactic capacities of LMs may not be sufficiently rigorous. In particular, we show that the template-based benchmarks lack the structural diversity commonly found in the theoretical and psychological studies of language. When trained on small-scale data modeling child language acquisition, the LMs can be readily matched by simple baseline models. We advocate for the use of the readily available, carefully curated datasets that have been evaluated for gradient acceptability by large pools of native speakers and are designed to probe the structural basis of grammar specifically. On one such dataset, the LI-Adger dataset, LMs evaluate sentences in a way inconsistent with human language users. We conclude with suggestions for better connecting LMs with the empirical study of child language acquisition. | 翻訳日:2023-11-01 16:57:58 公開日:2023-10-31 |
# beyond u: 拡散モデルの高速化と軽量化 Beyond U: Making Diffusion Models Faster & Lighter ( http://arxiv.org/abs/2310.20092v1 ) ライセンス: Link先を確認 | Sergio Calvo-Ordonez, Jiahao Huang, Lipei Zhang, Guang Yang, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero | (参考訳) 拡散モデルは、画像合成、ビデオ生成、分子設計などのタスクにおいて記録的な性能をもたらす生成モデルである。
それらの能力にもかかわらず、その効率、特に逆の復調過程においては、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,よりパラメータ効率が高く,コンバージェンスが高速で,雑音のロバスト性が増大する拡散モデルに対して,連続力学系を応用し,新しいデノージングネットワークを設計する手法を提案する。
確率拡散モデル(DDPM)における標準U-Netと比較して,我々のフレームワークは,約4分の1のパラメータと浮動小数点演算(FLOP)の30%で動作している。
さらに,同じ条件下で測定した場合のベースラインモデルよりも推論速度が最大70%向上し,優れた品質ソリューションへの収束が期待できる。 Diffusion models are a family of generative models that yield record-breaking performance in tasks such as image synthesis, video generation, and molecule design. Despite their capabilities, their efficiency, especially in the reverse denoising process, remains a challenge due to slow convergence rates and high computational costs. In this work, we introduce an approach that leverages continuous dynamical systems to design a novel denoising network for diffusion models that is more parameter-efficient, exhibits faster convergence, and demonstrates increased noise robustness. Experimenting with denoising probabilistic diffusion models, our framework operates with approximately a quarter of the parameters and 30% of the Floating Point Operations (FLOPs) compared to standard U-Nets in Denoising Diffusion Probabilistic Models (DDPMs). Furthermore, our model is up to 70% faster in inference than the baseline models when measured in equal conditions while converging to better quality solutions. | 翻訳日:2023-11-01 16:57:42 公開日:2023-10-31 |
# 変分推論とワッサーシュタイン勾配流の間のギャップを埋める Bridging the Gap Between Variational Inference and Wasserstein Gradient Flows ( http://arxiv.org/abs/2310.20090v1 ) ライセンス: Link先を確認 | Mingxuan Yi, Song Liu | (参考訳) 変分推論は、変分族のパラメータ空間内で最適化することで対象分布を近似する手法である。
一方、ワッサーシュタイン勾配流は、必ずしもパラメトリック密度関数を含まない確率測度の空間内での最適化を記述する。
本稿では,これら2つの手法のギャップを橋渡しする。
特定の条件下では、Bles-Wasserstein勾配流はユークリッド勾配流として、その前方ユーラースキームが標準ブラックボックス変分推論アルゴリズムであることを示す。
具体的には、経路導出勾配推定器を介して勾配流れのベクトル場を生成する。
また,Wasserstein勾配流に対する蒸留法としてフレーミングすることで,経路微分勾配の別の視点も提供する。
蒸留は$f$-divergencesと非ガウシアン変分族を含むように拡張できる。
この拡張は、PyTorchやTensorFlowといった現代の機械学習ライブラリを使って容易に実装可能な、$f$-divergences用の新しい勾配推定器を提供する。 Variational inference is a technique that approximates a target distribution by optimizing within the parameter space of variational families. On the other hand, Wasserstein gradient flows describe optimization within the space of probability measures where they do not necessarily admit a parametric density function. In this paper, we bridge the gap between these two methods. We demonstrate that, under certain conditions, the Bures-Wasserstein gradient flow can be recast as the Euclidean gradient flow where its forward Euler scheme is the standard black-box variational inference algorithm. Specifically, the vector field of the gradient flow is generated via the path-derivative gradient estimator. We also offer an alternative perspective on the path-derivative gradient, framing it as a distillation procedure to the Wasserstein gradient flow. Distillations can be extended to encompass $f$-divergences and non-Gaussian variational families. This extension yields a new gradient estimator for $f$-divergences, readily implementable using contemporary machine learning libraries like PyTorch or TensorFlow. | 翻訳日:2023-11-01 16:57:23 公開日:2023-10-31 |
# プロンプト学習による臨床情報抽出のためのキーワード最適化テンプレート挿入 Keyword-optimized Template Insertion for Clinical Information Extraction via Prompt-based Learning ( http://arxiv.org/abs/2310.20089v1 ) ライセンス: Link先を確認 | Eugenia Alleva, Isotta Landi, Leslee J Shaw, Erwin B\"ottinger, Thomas J Fuchs, Ipek Ensari | (参考訳) 臨床ノート分類は一般的なNLP課題である。
しかし、注釈付きデータセットは乏しい。
プロンプトベースの学習は、トレーニング例の少ないテキスト分類に事前学習されたモデルを適用する効果的な方法として最近登場した。
プロンプトデザインの重要なコンポーネントはテンプレート(即興テキスト)の定義である。
しかし,テンプレート位置の影響は十分に調査されていない。
これは、通常、業務関連情報が臨床ノートに不足している臨床現場において特に重要である。
本研究では,キーワード最適化テンプレート挿入法(KOTI)を開発し,ゼロショットおよび少数ショットのトレーニング環境において,複数の臨床タスクにおける最適位置がパフォーマンスに与える影響を示す。 Clinical note classification is a common clinical NLP task. However, annotated data-sets are scarse. Prompt-based learning has recently emerged as an effective method to adapt pre-trained models for text classification using only few training examples. A critical component of prompt design is the definition of the template (i.e. prompt text). The effect of template position, however, has been insufficiently investigated. This seems particularly important in the clinical setting, where task-relevant information is usually sparse in clinical notes. In this study we develop a keyword-optimized template insertion method (KOTI) and show how optimizing position can improve performance on several clinical tasks in a zero-shot and few-shot training setting. | 翻訳日:2023-11-01 16:57:07 公開日:2023-10-31 |
# 幾何学的制約画像分割のための量子最適化法 A Quantum Optimization Method for Geometric Constrained Image Segmentation ( http://arxiv.org/abs/2310.20154v1 ) ライセンス: Link先を確認 | Nam H. Le (1), Milan Sonka (1), Fatima Toor (1) ((1) The University of Iowa) | (参考訳) 量子画像処理は、量子コンピューティングと画像処理コミュニティの両方から注目を集めている分野である。
問題指向グラフの最適表面分割とハイブリッド量子古典最適化のためのグラフ理論アプローチを組み合わせた新しい手法を提案する。
表面セグメンテーションは、現実的セグメンテーションの表面変動を制御するために滑らかさ制約を課すグラフ分割問題として古典的にモデル化される。
具体的には、セグメンテーションは、グラフノードをソースに分割する最小のs-tカットによって識別されるソースセットを指す。
sink (複数形 sinks)
(t) セット。
結果として得られる表面は、ソースとシンクの境界に位置するグラフノードから構成される。
有向エッジ、接続性、エッジ容量を含む問題特異的グラフの特徴は、等価イジングハミルトニアンの基底状態エネルギーに対応する最小値を持つ二次目的関数に埋め込まれている。
本研究は、医用画像解析において重要な応用を有する画像分割問題における量子プロセッサの利用を探求する。
本稿では,LOGISMOSの量子実装に関する理論的基礎と,簡単な画像に対するシミュレーション研究の結果について述べる。
量子近似最適化アルゴリズム (qaoa) を用いて, 対象関数の最適セグメンテーションを符号化するビットストリング解の同定と基底状態エネルギーの決定を目的とした2つのシミュレーション研究を行った。
目的関数は2次元および3次元画像の表面セグメンテーションに関連するタスクをスムーズな制約を組み込んで符号化する。
そこで本研究では, 幾何拘束面分割問題に対して, 最小解に対応する複数の極小点を最適に求めることにより, 提案手法が解決できることを実証する。 Quantum image processing is a growing field attracting attention from both the quantum computing and image processing communities. We propose a novel method in combining a graph-theoretic approach for optimal surface segmentation and hybrid quantum-classical optimization of the problem-directed graph. The surface segmentation is modeled classically as a graph partitioning problem in which a smoothness constraint is imposed to control surface variation for realistic segmentation. Specifically, segmentation refers to a source set identified by a minimum s-t cut that divides graph nodes into the source (s) and sink (t) sets. The resulting surface consists of graph nodes located on the boundary between the source and the sink. Characteristics of the problem-specific graph, including its directed edges, connectivity, and edge capacities, are embedded in a quadratic objective function whose minimum value corresponds to the ground state energy of an equivalent Ising Hamiltonian. This work explores the use of quantum processors in image segmentation problems, which has important applications in medical image analysis. Here, we present a theoretical basis for the quantum implementation of LOGISMOS and the results of a simulation study on simple images. Quantum Approximate Optimization Algorithm (QAOA) approach was utilized to conduct two simulation studies whose objective was to determine the ground state energies and identify bitstring solutions that encode the optimal segmentation of objective functions. The objective function encodes tasks associated with surface segmentation in 2-D and 3-D images while incorporating a smoothness constraint. In this work, we demonstrate that the proposed approach can solve the geometric-constrained surface segmentation problem optimally with the capability of locating multiple minimum points corresponding to the globally minimal solution. | 翻訳日:2023-11-01 16:49:42 公開日:2023-10-31 |
# 少ない人間の監督を伴う言語モデルのコスト効率の高い適応のための対話型マルチフィデリティ学習 Interactive Multi-fidelity Learning for Cost-effective Adaptation of Language Model with Sparse Human Supervision ( http://arxiv.org/abs/2310.20153v1 ) ライセンス: Link先を確認 | Jiaxin Zhang, Zhuohang Li, Kamalika Das, Sricharan Kumar | (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示した。
しかし、ドメイン固有のタスクに対する適合性は、デプロイメントの大規模化、誤情報への感受性、さらに重要なのは、高いデータアノテーションコストによって制限されている。
本稿では,限定的なアノテーション予算下での小規模ドメイン固有LMの費用対効果開発のための,インタラクティブ多言語学習(IMFL)フレームワークを提案する。
提案手法は,低忠実度自動LLMアノテーションと高忠実度人間のアノテーションのバランスをとる最適獲得戦略の同定に焦点をあて,多忠実度学習問題としてドメイン固有の微調整プロセスを定式化する。
さらに,2つの革新的な設計を取り入れ,アノテーションの多様性と情報性を高める探索探索問合せ戦略を提案する。
1) LLMアノテーションを改善するために、人間アノテーション付きサンプルからテキスト中の例を選択するプロンプト検索
2) 知識蒸留を容易にするために各忠実度を選択する順序を制御する可変バッチサイズ。
金融・医療タスクに関する大規模な実験は、IMFLが単一忠実度アノテーションと比較して優れたパフォーマンスを発揮することを示した。
ヒューマンアノテーションの予算が限られているため、imflは4つのタスクすべてにおいてヒューマンアノテーションのベースラインを大きく上回り、2つのタスクでヒューマンアノテーションとして非常に近いパフォーマンスを達成しています。
これらの有望な結果は、より安価で高速なLCM(例えば、GPT-3.5)アノテーションを補足して同等のパフォーマンスを実現するIMFLを用いることで、ドメイン固有のタスクにおける高い人的アノテーションコストを大幅に削減できることを示している。 Large language models (LLMs) have demonstrated remarkable capabilities in various tasks. However, their suitability for domain-specific tasks, is limited due to their immense scale at deployment, susceptibility to misinformation, and more importantly, high data annotation costs. We propose a novel Interactive Multi-Fidelity Learning (IMFL) framework for the cost-effective development of small domain-specific LMs under limited annotation budgets. Our approach formulates the domain-specific fine-tuning process as a multi-fidelity learning problem, focusing on identifying the optimal acquisition strategy that balances between low-fidelity automatic LLM annotations and high-fidelity human annotations to maximize model performance. We further propose an exploration-exploitation query strategy that enhances annotation diversity and informativeness, incorporating two innovative designs: 1) prompt retrieval that selects in-context examples from human-annotated samples to improve LLM annotation, and 2) variable batch size that controls the order for choosing each fidelity to facilitate knowledge distillation, ultimately enhancing annotation quality. Extensive experiments on financial and medical tasks demonstrate that IMFL achieves superior performance compared with single fidelity annotations. Given a limited budget of human annotation, IMFL significantly outperforms the human annotation baselines in all four tasks and achieves very close performance as human annotations on two of the tasks. These promising results suggest that the high human annotation costs in domain-specific tasks can be significantly reduced by employing IMFL, which utilizes fewer human annotations, supplemented with cheaper and faster LLM (e.g., GPT-3.5) annotations to achieve comparable performance. | 翻訳日:2023-11-01 16:49:15 公開日:2023-10-31 |
# 大規模言語モデルによるマルチエージェント合意 Multi-Agent Consensus Seeking via Large Language Models ( http://arxiv.org/abs/2310.20151v1 ) ライセンス: Link先を確認 | Huaben Chen, Wenkang Ji, Lufeng Xu, Shiyu Zhao | (参考訳) 大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。
本研究は,マルチエージェントコラボレーションにおける基本的な問題であるコンセンサス・シークエンスを考察する。
複数のエージェントが一緒に働くとき、エージェント間の交渉を通じて合意に達する方法に興味があります。
そこで本研究では,各エージェントの状態が数値値であるコンセンサス検索タスクについて検討し,コンセンサス値に到達するために相互に交渉する。
どの戦略を採用するべきか明示的に指示しない場合には、llm駆動エージェントは主にコンセンサス探索に平均戦略を使用するが、時には他の戦略を使うこともある。
さらに,交渉過程におけるエージェント数,エージェントパーソナリティ,ネットワークトポロジーの影響を分析した。
この研究で報告された結果は、より複雑なタスクを解くためのLLM駆動型マルチエージェントシステムの振る舞いを理解するための基盤となる可能性がある。
さらに,LLMによるコンセンサス探索をマルチロボットアグリゲーションタスクに適用する。
本アプリケーションは,マルチロボット協調作業におけるゼロショット自律計画を実現するためのLCM駆動エージェントの可能性を示す。
プロジェクトウェブサイト: Westlakeintelligentrobotics.github.io/ConsensusLLM/ Multi-agent systems driven by large language models (LLMs) have shown promising abilities for solving complex tasks in a collaborative manner. This work considers a fundamental problem in multi-agent collaboration: consensus seeking. When multiple agents work together, we are interested in how they can reach a consensus through inter-agent negotiation. To that end, this work studies a consensus-seeking task where the state of each agent is a numerical value and they negotiate with each other to reach a consensus value. It is revealed that when not explicitly directed on which strategy should be adopted, the LLM-driven agents primarily use the average strategy for consensus seeking although they may occasionally use some other strategies. Moreover, this work analyzes the impact of the agent number, agent personality, and network topology on the negotiation process. The findings reported in this work can potentially lay the foundations for understanding the behaviors of LLM-driven multi-agent systems for solving more complex tasks. Furthermore, LLM-driven consensus seeking is applied to a multi-robot aggregation task. This application demonstrates the potential of LLM-driven agents to achieve zero-shot autonomous planning for multi-robot collaboration tasks. Project website: westlakeintelligentrobotics.github.io/ConsensusLLM/. | 翻訳日:2023-11-01 16:48:45 公開日:2023-10-31 |
# 忘れたいことを学ぶ: LLMの効率的な学習 Unlearn What You Want to Forget: Efficient Unlearning for LLMs ( http://arxiv.org/abs/2310.20150v1 ) ライセンス: Link先を確認 | Jiaao Chen, Diyi Yang | (参考訳) 大規模言語モデル(llm)は、幅広いテキストデータの事前学習と記憶から大きな進歩を遂げてきたが、このプロセスはプライバシーの問題やデータ保護規則違反に苦しむ可能性がある。
その結果、削除後の予測品質を低下させることなく、個々のユーザに関連するデータをそのようなモデルから容易に削除できる能力がますます重要になる。
これらの課題に対処するため,本研究では,教師が学習対象とする軽量なアンラーニング層をトランスフォーマーに導入することにより,データ削除後のモデル全体をトレーニングすることなく,LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
さらに、異なる学習層を効果的に結合する融合機構を導入し、異なるデータの集合を忘れ、忘れる操作のシーケンスを処理することを学習する。
分類および生成タスクの実験により,提案手法の有効性を最先端のベースラインと比較した。 Large language models (LLMs) have achieved significant progress from pre-training on and memorizing a wide range of textual data, however, this process might suffer from privacy issues and violations of data protection regulations. As a result, the ability to easily remove data related to individual users from such models while not deteriorating their predictive quality after the removal becomes increasingly important. To address these issues, in this work, we propose an efficient unlearning framework that could efficiently update LLMs without having to retrain the whole model after data removals, by introducing lightweight unlearning layers learned with a selective teacher-student objective into the transformers. In addition, we introduce a fusion mechanism to effectively combine different unlearning layers that learns to forget different sets of data to handle a sequence of forgetting operations. Experiments on classification and generation tasks demonstrate the effectiveness of our proposed methods compared to the state-of-the-art baselines. | 翻訳日:2023-11-01 16:48:25 公開日:2023-10-31 |
# 相互作用を考慮した行動予測とソーシャルアテンションニューラルネットワークを用いた自動運転車の意思決定 Decision-Making for Autonomous Vehicles with Interaction-Aware Behavioral Prediction and Social-Attention Neural Network ( http://arxiv.org/abs/2310.20148v1 ) ライセンス: Link先を確認 | Xiao Li, Kaiwen Liu, H. Eric Tseng, Anouck Girard, Ilya Kolmanovsky | (参考訳) 自動運転車は、交通の中で人間のドライバーと対話しながらタスクを遂行する必要がある。
したがって、自動運転車に人為的な推論を施し、周囲の交通の意図をよりよく理解し、タスクの達成を促進することが不可欠である。
本研究では,ドライバの対話的意図を潜在社会心理学的パラメータにエンコードする行動モデルを提案する。
ベイズフィルタを応用し,運転者の意図の不確かさを考慮に入れた自律走行車意思決定のための水平方向最適化に基づく制御器を開発した。
オンライン展開のために,オンライン推定パラメータプリエントで動作モデルを模倣したアテンション機構に基づくニューラルネットワークアーキテクチャを設計する。
また,オンライン上での意思決定問題を解決する決定木探索アルゴリズムを提案する。
提案した行動モデルは実世界の軌道予測能力の観点から評価される。
さらに,提案する意思決定モジュールについて,シミュレーション環境と実世界のトラヒックデータセットの両方を用いて,強制的統合シナリオにおいて広範な評価を行う。
その結果,運転安全を確保しつつ,様々な交通条件下で強制マージタスクを完了させることができることがわかった。 Autonomous vehicles need to accomplish their tasks while interacting with human drivers in traffic. It is thus crucial to equip autonomous vehicles with artificial reasoning to better comprehend the intentions of the surrounding traffic, thereby facilitating the accomplishments of the tasks. In this work, we propose a behavioral model that encodes drivers' interacting intentions into latent social-psychological parameters. Leveraging a Bayesian filter, we develop a receding-horizon optimization-based controller for autonomous vehicle decision-making which accounts for the uncertainties in the interacting drivers' intentions. For online deployment, we design a neural network architecture based on the attention mechanism which imitates the behavioral model with online estimated parameter priors. We also propose a decision tree search algorithm to solve the decision-making problem online. The proposed behavioral model is then evaluated in terms of its capabilities for real-world trajectory prediction. We further conduct extensive evaluations of the proposed decision-making module, in forced highway merging scenarios, using both simulated environments and real-world traffic datasets. The results demonstrate that our algorithms can complete the forced merging tasks in various traffic conditions while ensuring driving safety. | 翻訳日:2023-11-01 16:48:08 公開日:2023-10-31 |
# 任意不確かさ入力に対する効率的なロバスト・ベイズ最適化 Efficient Robust Bayesian Optimization for Arbitrary Uncertain inputs ( http://arxiv.org/abs/2310.20145v1 ) ライセンス: Link先を確認 | Lin Yang, Junlong Lyu, Wenlong Lyu, and Zhitang Chen | (参考訳) ベイズ最適化 (bayesian optimization, bo) は、様々なアプリケーションで広く使われているサンプル効率の最適化アルゴリズムである。
いくつかの難解なBOタスクにおいて、入力の不確実性は、加工誤差、実行ノイズ、文脈変動など、最適化プロセスの必然的ランダム性によって生じる。
この不確実性は、評価前に意図した値から入力を逸脱させ、最終結果において著しい性能変動を引き起こす。
本稿では,任意の入力の不確実性下で一貫して機能するロバスト最適アルゴリズムを効果的に特定できる,新しいロバストベイズ最適化アルゴリズムairboを提案する。
提案手法は,最大平均離散度(MMD)でガウス過程を有効化することにより任意の分布の不確実な入力を直接モデル化し,Nystrom近似による後部推論を高速化する。
MMD推定誤差と合成関数および実問題に関する広範な実験により,本手法が様々な入力不確実性に対処し,最先端の性能を実現することを示す。 Bayesian Optimization (BO) is a sample-efficient optimization algorithm widely employed across various applications. In some challenging BO tasks, input uncertainty arises due to the inevitable randomness in the optimization process, such as machining errors, execution noise, or contextual variability. This uncertainty deviates the input from the intended value before evaluation, resulting in significant performance fluctuations in the final result. In this paper, we introduce a novel robust Bayesian Optimization algorithm, AIRBO, which can effectively identify a robust optimum that performs consistently well under arbitrary input uncertainty. Our method directly models the uncertain inputs of arbitrary distributions by empowering the Gaussian Process with the Maximum Mean Discrepancy (MMD) and further accelerates the posterior inference via Nystrom approximation. Rigorous theoretical regret bound is established under MMD estimation error and extensive experiments on synthetic functions and real problems demonstrate that our approach can handle various input uncertainties and achieve state-of-the-art performance. | 翻訳日:2023-11-01 16:47:49 公開日:2023-10-31 |
# EELBERT:動的埋め込みによるTinyモデル EELBERT: Tiny Models through Dynamic Embeddings ( http://arxiv.org/abs/2310.20144v1 ) ライセンス: Link先を確認 | Gabrielle Cohn, Rishika Agarwal, Deepanshu Gupta and Siddharth Patwardhan | (参考訳) EELBERTは変換器モデル(例えばBERT)を圧縮する手法で、下流タスクの精度に最小限の影響を与える。
これは、入力されたモデルの埋め込み層を動的、すなわちオンザフライの埋め込み計算に置き換えることによって達成される。
入力埋め込み層はモデルサイズ、特により小さなbert変種に対してかなりの割合を占めるため、この層を埋め込み計算関数に置き換えることで、モデルサイズを大幅に削減することができる。
GLUEベンチマークの実証的な評価は、従来のBERTモデルと比較して、BERT変種(EELBERT)が最小限の回帰を損なうことを示している。
このアプローチにより、我々は最小のモデルであるUNO-EELBERTを開発し、完全に訓練されたBERT-tinyの4%以内でGLUEスコアを達成でき、サイズは15倍(1.2MB)小さい。 We introduce EELBERT, an approach for compression of transformer-based models (e.g., BERT), with minimal impact on the accuracy of downstream tasks. This is achieved by replacing the input embedding layer of the model with dynamic, i.e. on-the-fly, embedding computations. Since the input embedding layer accounts for a significant fraction of the model size, especially for the smaller BERT variants, replacing this layer with an embedding computation function helps us reduce the model size significantly. Empirical evaluation on the GLUE benchmark shows that our BERT variants (EELBERT) suffer minimal regression compared to the traditional BERT models. Through this approach, we are able to develop our smallest model UNO-EELBERT, which achieves a GLUE score within 4% of fully trained BERT-tiny, while being 15x smaller (1.2 MB) in size. | 翻訳日:2023-11-01 16:47:32 公開日:2023-10-31 |
# コントラスト差予測符号化 Contrastive Difference Predictive Coding ( http://arxiv.org/abs/2310.20141v1 ) ライセンス: Link先を確認 | Chongyi Zheng, Ruslan Salakhutdinov, Benjamin Eysenbach | (参考訳) 未来の予測と推論は多くの時系列質問の中心にある。
例えば、目標条件付き強化学習は、将来どの状態が訪問されるかを予測するための学習表現と見なすことができる。
従来の手法では、時系列データをモデル化するために対照的な予測符号を用いたが、長期的な依存関係をエンコードする学習表現は通常、大量のデータを必要とする。
本稿では,異なる時系列データの断片を縫い合わせて,将来の事象の予測を学ぶのに必要なデータ量を削減する,コントラスト予測符号化の時間差バージョンを提案する。
この表現学習手法を用いて,目標条件rlのオフポリシーアルゴリズムを導出する。
実験の結果,従来のRL法と比較して,成功率の中央値改善が2ドル(約2400円)で達成でき,確率的環境に対処できることがわかった。
表形式では,提案手法は後続表現よりも約20 \times$サンプリング効率がよいこと,およびコントラッシブ予測符号化の標準 (Monte Carlo) バージョンよりも1500 \times$サンプル効率がよいことを示す。 Predicting and reasoning about the future lie at the heart of many time-series questions. For example, goal-conditioned reinforcement learning can be viewed as learning representations to predict which states are likely to be visited in the future. While prior methods have used contrastive predictive coding to model time series data, learning representations that encode long-term dependencies usually requires large amounts of data. In this paper, we introduce a temporal difference version of contrastive predictive coding that stitches together pieces of different time series data to decrease the amount of data required to learn predictions of future events. We apply this representation learning method to derive an off-policy algorithm for goal-conditioned RL. Experiments demonstrate that, compared with prior RL methods, ours achieves $2 \times$ median improvement in success rates and can better cope with stochastic environments. In tabular settings, we show that our method is about $20 \times$ more sample efficient than the successor representation and $1500 \times$ more sample efficient than the standard (Monte Carlo) version of contrastive predictive coding. | 翻訳日:2023-11-01 16:47:15 公開日:2023-10-31 |
# 拡散モデルを用いた糖尿病足部潰瘍画像の合成 Synthesizing Diabetic Foot Ulcer Images with Diffusion Model ( http://arxiv.org/abs/2310.20140v1 ) ライセンス: Link先を確認 | Reza Basiri, Karim Manji, Francois Harton, Alisha Poonja, Milos R. Popovic, Shehroz S. Khan | (参考訳) 糖尿病性足底潰瘍(DFU)は、専門的な治療を必要とする重度の皮膚外傷である。
しかし、実際のDFUデータセットは限られており、臨床訓練や研究活動を妨げている。
近年,多くの応用において顕著な現実性と多様性を持つ合成画像を生成するための強力なツールとして,生成的敵ネットワークや拡散モデルが出現している。
本稿では,DFU画像を合成するための拡散モデルの可能性について検討し,その信頼性を専門医による評価を通じて評価する。
さらに,Frechet Inception Distance (FID) や Kernel Inception Distance (KID) などの評価指標を調査し,合成DFU画像の品質を評価する。
拡散モデルのトレーニングには2000DFU画像のデータセットを使用し、拡散過程を適用して合成画像を生成する。
その結果,拡散モデルは視覚的に識別不能なDFU画像の合成に成功した。
70%の確率で、臨床医は合成dfu画像を本物のdfuとしてマークした。
しかし、臨床医は合成画像よりも実画像の評価に満場一致の自信を示している。
また、fidとkidの指標は臨床医の評価とあまり一致せず、代替的な評価アプローチが必要であることを示唆している。
本研究は,DFU画像生成のための拡散モデルの可能性と医療訓練プログラムへの影響,創傷検出と分類に関する研究を明らかにするものである。 Diabetic Foot Ulcer (DFU) is a serious skin wound requiring specialized care. However, real DFU datasets are limited, hindering clinical training and research activities. In recent years, generative adversarial networks and diffusion models have emerged as powerful tools for generating synthetic images with remarkable realism and diversity in many applications. This paper explores the potential of diffusion models for synthesizing DFU images and evaluates their authenticity through expert clinician assessments. Additionally, evaluation metrics such as Frechet Inception Distance (FID) and Kernel Inception Distance (KID) are examined to assess the quality of the synthetic DFU images. A dataset of 2,000 DFU images is used for training the diffusion model, and the synthetic images are generated by applying diffusion processes. The results indicate that the diffusion model successfully synthesizes visually indistinguishable DFU images. 70% of the time, clinicians marked synthetic DFU images as real DFUs. However, clinicians demonstrate higher unanimous confidence in rating real images than synthetic ones. The study also reveals that FID and KID metrics do not significantly align with clinicians' assessments, suggesting alternative evaluation approaches are needed. The findings highlight the potential of diffusion models for generating synthetic DFU images and their impact on medical training programs and research in wound detection and classification. | 翻訳日:2023-11-01 16:46:55 公開日:2023-10-31 |
# DEPN:事前訓練言語モデルにおけるプライバシニューロンの検出と編集 DEPN: Detecting and Editing Privacy Neurons in Pretrained Language Models ( http://arxiv.org/abs/2310.20138v1 ) ライセンス: Link先を確認 | Xinwei Wu, Junzhuo Li, Minghui Xu, Weilong Dong, Shuangzhi Wu, Chao Bian, Deyi Xiong | (参考訳) 大量のデータに基づいて事前訓練された大規模な言語モデルは、トレーニングデータの豊富な知識と情報をキャプチャする。
事前訓練された言語モデルにおけるデータ記憶と復活の能力は、以前の研究で明らかになったように、データ漏洩のリスクをもたらす。
これらのリスクを効果的に軽減するために,事前訓練された言語モデルにおけるプライバシニューロンの検出と編集のためのフレームワークDEPNを提案する。
DEPNでは、プライバシニューロン検出器と呼ばれる新しい手法を導入し、プライベート情報に関連するニューロンを特定し、その活性化をゼロにすることでこれらの検出されたプライバシニューロンを編集する。
さらに,プライバシニューロンアグリゲータにおいて,プライベート情報をバッチ処理で記憶する手法を提案する。
実験の結果, モデルの性能を損なうことなく, 個人データ漏洩の露光量を大幅に, 効率的に低減できることがわかった。
さらに,モデルサイズ,トレーニング時間,プロンプト,プライバシニューロン分布など,複数の視点からモデル記憶とプライバシニューロンの関係を実証的に示す。 Large language models pretrained on a huge amount of data capture rich knowledge and information in the training data. The ability of data memorization and regurgitation in pretrained language models, revealed in previous studies, brings the risk of data leakage. In order to effectively reduce these risks, we propose a framework DEPN to Detect and Edit Privacy Neurons in pretrained language models, partially inspired by knowledge neurons and model editing. In DEPN, we introduce a novel method, termed as privacy neuron detector, to locate neurons associated with private information, and then edit these detected privacy neurons by setting their activations to zero. Furthermore, we propose a privacy neuron aggregator dememorize private information in a batch processing manner. Experimental results show that our method can significantly and efficiently reduce the exposure of private data leakage without deteriorating the performance of the model. Additionally, we empirically demonstrate the relationship between model memorization and privacy neurons, from multiple perspectives, including model size, training time, prompts, privacy neuron distribution, illustrating the robustness of our approach. | 翻訳日:2023-11-01 16:46:35 公開日:2023-10-31 |
# 学習プロンプトレイヤによるプロンプトチューニングの改善 Improving Prompt Tuning with Learned Prompting Layers ( http://arxiv.org/abs/2310.20127v1 ) ライセンス: Link先を確認 | Wei Zhu and Ming Tan | (参考訳) プロンプトチューニングは入力埋め込みや隠れ状態にソフトプロンプトをプリペイドし、下流タスクに事前訓練されたモデル(PTM)を適用するプロンプトのみを最適化する。
以前の作業では、最適から程遠いプロンプト層を手動で選択し、プロンプトチューニングの可能性を活用できなかった。
本研究では,各中間層に学習可能な確率ゲートで制御されたプロンプトを挿入することにより,適切なプロンプト層を選択することを学習する,新しいフレームワークである \underline{S}elective \underline{P}rompt \underline{T}uning (SPT)を提案する。
さらに、学習可能なゲートを最適化し、学習したプロンプト層設定の最終的なプロンプトチューニング性能を改善するための新しい双方向最適化フレームワークであるSPT-DARTSを提案する。
フルデータと数ショットのシナリオの下で、10のベンチマークデータセットで広範な実験を行います。
その結果,従来のPETuningベースラインと同等あるいは少ないチューニング可能なパラメータで,SPTフレームワークの性能が向上できることが示唆された。 Prompt tuning prepends a soft prompt to the input embeddings or hidden states and only optimizes the prompt to adapt pretrained models (PTMs) to downstream tasks. The previous work manually selects prompt layers which are far from optimal and failed to exploit the potential of prompt tuning. In this work, we propose a novel framework, \underline{S}elective \underline{P}rompt \underline{T}uning (SPT), that learns to select the proper prompt layers by inserting a prompt controlled by a learnable probabilistic gate at each intermediate layer. We further propose a novel bi-level optimization framework, SPT-DARTS, that can better optimize the learnable gates and improve the final prompt tuning performances of the learned prompt layer settings. We conduct extensive experiments with ten benchmark datasets under the full-data and few-shot scenarios. The results demonstrate that our SPT framework can perform better than the previous state-of-the-art PETuning baselines with comparable or fewer tunable parameters. | 翻訳日:2023-11-01 16:46:15 公開日:2023-10-31 |
# Ling-CL:言語カリキュラムによるNLPモデルの理解 Ling-CL: Understanding NLP Models through Linguistic Curricula ( http://arxiv.org/abs/2310.20121v1 ) ライセンス: Link先を確認 | Mohamed Elgaar, Hadi Amiri | (参考訳) 我々は,心理言語学および言語習得研究から言語複雑性の特徴付けを行い,モデルがnlpタスクに対処するために学習する基礎となる言語知識を理解するためのデータ駆動型カリキュラムを開発した。
この手法の新規性は、データから派生した言語カリキュラムの開発、言語複雑性に関する既存の知識、訓練中のモデル行動である。
複数のベンチマークNLPデータセットを解析することにより、カリキュラム学習アプローチは、各タスクに対処するために必要な課題と推論を通知する言語指標(指標)のセットを特定する。
私たちの研究は、すべてのnlp領域における将来の研究に影響を与え、研究と開発プロセスの初期段階で言語的複雑さを考慮できるようにします。
さらに,本研究は,NLPにおける金基準の検証と公正な評価を促す。 We employ a characterization of linguistic complexity from psycholinguistic and language acquisition research to develop data-driven curricula to understand the underlying linguistic knowledge that models learn to address NLP tasks. The novelty of our approach is in the development of linguistic curricula derived from data, existing knowledge about linguistic complexity, and model behavior during training. By analyzing several benchmark NLP datasets, our curriculum learning approaches identify sets of linguistic metrics (indices) that inform the challenges and reasoning required to address each task. Our work will inform future research in all NLP areas, allowing linguistic complexity to be considered early in the research and development process. In addition, our work prompts an examination of gold standards and fair evaluation in NLP. | 翻訳日:2023-11-01 16:45:55 公開日:2023-10-31 |
# チームI2R-VI-FFテクニカルレポート : EPIC-KITCHENS VISOR Hand Object Segmentation Challenge 2023 Team I2R-VI-FF Technical Report on EPIC-KITCHENS VISOR Hand Object Segmentation Challenge 2023 ( http://arxiv.org/abs/2310.20120v1 ) ライセンス: Link先を確認 | Fen Fang, Yi Cheng, Ying Sun and Qianli Xu | (参考訳) 本稿では,手と物体の関係を入力として推定するEPIC-KITCHENS VISOR Hand Object Segmentation Challengeを提案する。
EPIC-KITCHENS VISORデータセットはピクセル単位のアノテーションを提供し、エゴセントリックビデオにおける手動およびアクティブなオブジェクトセグメンテーションのベンチマークとして機能する。
提案手法は,ポイントベースレンダリング (point-based rendering, pointrend) とセグメント・エッズ・モデル (sam) を組み合わせることで,手と対象のセグメンテーション結果の精度を向上させるとともに,ミス検出のインスタンスを最小化することを目的としている。
ベースライン法から得られた精度の高い手片分割マップを利用して,より正確な手片と非接触オブジェクトセグメントを抽出する。
SAMで提供されるクラス非依存のセグメンテーションを利用して、特定の手作り制約を適用して結果を強化する。
ベースラインモデルが手や物体の検出に失敗した場合、トレーニングセット上で物体検出器を再訓練し、検出精度を向上させる。
検出された手と非接触オブジェクト境界ボックスはSAMの出力からそれぞれのセグメントを抽出するプロンプトとして使用される。
既存の手法の強みを効果的に組み合わせ,改良を施すことで,VISOR HOSチャレンジにおける評価基準で第1位を獲得しました。 In this report, we present our approach to the EPIC-KITCHENS VISOR Hand Object Segmentation Challenge, which focuses on the estimation of the relation between the hands and the objects given a single frame as input. The EPIC-KITCHENS VISOR dataset provides pixel-wise annotations and serves as a benchmark for hand and active object segmentation in egocentric video. Our approach combines the baseline method, i.e., Point-based Rendering (PointRend) and the Segment Anything Model (SAM), aiming to enhance the accuracy of hand and object segmentation outcomes, while also minimizing instances of missed detection. We leverage accurate hand segmentation maps obtained from the baseline method to extract more precise hand and in-contact object segments. We utilize the class-agnostic segmentation provided by SAM and apply specific hand-crafted constraints to enhance the results. In cases where the baseline model misses the detection of hands or objects, we re-train an object detector on the training set to enhance the detection accuracy. The detected hand and in-contact object bounding boxes are then used as prompts to extract their respective segments from the output of SAM. By effectively combining the strengths of existing methods and applying our refinements, our submission achieved the 1st place in terms of evaluation criteria in the VISOR HOS Challenge. | 翻訳日:2023-11-01 16:45:40 公開日:2023-10-31 |
# 宇宙空間CCD画像からの大規模3次元再構成のための等価ピンホールモデル Refined Equivalent Pinhole Model for Large-scale 3D Reconstruction from Spaceborne CCD Imagery ( http://arxiv.org/abs/2310.20117v1 ) ライセンス: Link先を確認 | Hong Danyang, Yu Anzhu, Ji Song, Cao Xuefeng, Quan Yujun, Guo Wenyue, Qiu Chunping | (参考訳) 本研究では,線量結合デバイス(CCD)衛星画像のための大規模地球表面再構成パイプラインを提案する。
主流の衛星画像に基づく再構成手法は極めてよく機能するが、有理機能モデル(RFM)にはいくつかの制限がある。
例えば、rfmは厳密な物理的解釈を持たず、ピンホールイメージングモデルとは大きく異なるため、学習ベースの3d再構成ネットワークやコンピュータビジョンにおけるより新しい再構築パイプラインに直接適用することはできない。
そこで本研究では, RFM をピンホールカメラモデル (PCM) と等価とし, ピンホールカメラの内部および外部パラメータを有理多項式パラメータの代わりに用いる方法を提案する。
次に,この等価ピンホールモデルの誤差式を初めて導出し,画像サイズが復元精度に及ぼす影響を示す。
さらに,最小二乗法により等価誤差を最小限に抑える多項式画像補正モデルを提案する。
実験は、WHU-TLC、DFC2019、ISPRS-ZY3、GF7の4つの画像データセットを用いて行われた。
その結果,再構成精度は画像サイズに比例することがわかった。
多項式画像改良モデルは,復元の精度と完全性を大幅に向上させ,大規模画像の大幅な改善を実現した。 In this study, we present a large-scale earth surface reconstruction pipeline for linear-array charge-coupled device (CCD) satellite imagery. While mainstream satellite image-based reconstruction approaches perform exceptionally well, the rational functional model (RFM) is subject to several limitations. For example, the RFM has no rigorous physical interpretation and differs significantly from the pinhole imaging model; hence, it cannot be directly applied to learning-based 3D reconstruction networks and to more novel reconstruction pipelines in computer vision. Hence, in this study, we introduce a method in which the RFM is equivalent to the pinhole camera model (PCM), meaning that the internal and external parameters of the pinhole camera are used instead of the rational polynomial coefficient parameters. We then derive an error formula for this equivalent pinhole model for the first time, demonstrating the influence of the image size on the accuracy of the reconstruction. In addition, we propose a polynomial image refinement model that minimizes equivalent errors via the least squares method. The experiments were conducted using four image datasets: WHU-TLC, DFC2019, ISPRS-ZY3, and GF7. The results demonstrated that the reconstruction accuracy was proportional to the image size. Our polynomial image refinement model significantly enhanced the accuracy and completeness of the reconstruction, and achieved more significant improvements for larger-scale images. | 翻訳日:2023-11-01 16:45:14 公開日:2023-10-31 |
# 降水後プロセッサのための自己教師付き事前訓練 Self-supervised Pre-training for Precipitation Post-processor ( http://arxiv.org/abs/2310.20187v1 ) ライセンス: Link先を確認 | Sojung An, Junha Lee, Jiyeon Jang, Inchae Na, Wooyeon Park, Sujeong You | (参考訳) 局地降水に対する十分な予報リードタイムを確保することは、危険な気象イベントを防ぐために不可欠である。
それにもかかわらず、地球温暖化によって引き起こされる気候変動は、大雨などの厳しい降水現象を正確に予測する課題を増している。
本研究では,数値気象予測(nwp)モデルに対するディープラーニングに基づく降雨後処理手法を提案する。
降水後処理装置は、
(i)大気物理領域のマスク変数の再構成によりエンコーダのパラメータを事前学習する自己教師付き事前学習
(ii)事前学習したエンコーダからの沈殿セグメンテーションタスク(ターゲットドメイン)の転送学習。
また,クラス不均衡データセットを効果的にトレーニングするためのヒューリスティックラベリング手法を提案する。
地域NWPの降水補正実験の結果,提案手法が他の手法よりも優れていることが示された。 Securing sufficient forecast lead time for local precipitation is essential for preventing hazardous weather events. Nonetheless, global warming-induced climate change is adding to the challenge of accurately predicting severe precipitation events, such as heavy rainfall. In this work, we propose a deep learning-based precipitation post-processor approach to numerical weather prediction (NWP) models. The precipitation post-processor consists of (i) self-supervised pre-training, where parameters of encoder are pre-trained on the reconstruction of masked variables of the atmospheric physics domain, and (ii) transfer learning on precipitation segmentation tasks (target domain) from the pre-trained encoder. We also introduce a heuristic labeling approach for effectively training class-imbalanced datasets. Our experiment results in precipitation correction for regional NWP show that the proposed method outperforms other approaches. | 翻訳日:2023-11-01 16:38:30 公開日:2023-10-31 |
# パンデミックで生きる:CoIレンズで見るレジリエントな大学プログラムから学んだ教訓 Thriving in a Pandemic: Lessons Learned from a Resilient University Program Seen Through the CoI Lens ( http://arxiv.org/abs/2310.20183v1 ) ライセンス: Link先を確認 | Zihui Ma, Lingyao Li, John C.E. Johnson | (参考訳) 2020年3月、大学キャンパスは新型コロナウイルス(covid-19)によるオンライン学習に突然移行した。
学生の期待に対するCOVID-19の影響を明らかにするため,メリーランド大学プロジェクト・マネジメント・センター・フォー・エクセレンス(Project Management Center for Excellence)の10コースから3年間の調査を行った。
研究の主なステップは2つあった。
1)学生の「学生」・「クラス」・「インストラクタ」・「感情」に対する期待を評価するための統計的分析
2) 学生の期待の変化を示すために,コミュニティ・オブ・問い合わせ (CoI) フレームワークのレンズを通して, LSVA (Lexical Salience-valence Analysis) を用いた。
その結果、学生の総合評価は、新型コロナウイルスの教育期間中に比較的一貫していたことが明らかとなった。
しかし,lsvaの結果に基づく認知的,社会的,教育的プレゼンスコース要素に対する学生の期待は著しく変化した。
また、学部生と大学院生の間には、コースの設計とデリバリにおける期待と好みにおいて明確な違いが現れた。
これらの洞察は、効果的なオンラインコースを設計するためのコースインストラクターに実践的な推奨を与える。 In March 2020, college campuses underwent a sudden transformation to online learning due to the COVID-19 outbreak. To understand the impact of COVID-19 on students' expectations, this study conducted a three-year survey from ten core courses within the Project Management Center for Excellence at the University of Maryland. The study involved two main steps: 1) a statistical analysis to evaluate students' expectations regarding "student," "class," "instructor," and "effort;" and 2) a lexical salience-valence analysis (LSVA) through the lens of the Community of Inquiry (CoI) framework to show the changes of students' expectations. The results revealed that students' overall evaluations maintained relatively consistent amid the COVID-19 teaching period. However, there were significant shifts of the student expectations toward Cognitive, Social and Teaching Presence course elements based on LSVA results. Also, clear differences emerged between under-graduates and graduates in their expectations and preferences in course design and delivery. These insights provide practical recommendations for course instructors in designing effective online courses. | 翻訳日:2023-11-01 16:38:18 公開日:2023-10-31 |
# 回路QEDにおけるポラリトン状態によるコヒーレント人口移動 Coherent population transfer with polariton states in circuit QED ( http://arxiv.org/abs/2310.20180v1 ) ライセンス: Link先を確認 | Madan Mohan Mahana, Sankar Davuluri, Tarak Nath Dey | (参考訳) 本稿では, adiabaticity (sta) 法への近道を用いた超伝導回路における刺激ラマン断熱路(stirap)の効率を向上させる新しい手法を提案する。
staは、デコヒーレンスが大きな効果をもたらす前に断熱過程を高速化し、それによって効率が向上する。
この方法は、超断熱STIRAP (saSTIRAP) として知られる高速で高忠実なコヒーレントな集団移動を、回路QEDの偏光子状態を持つ状態工学的な$\Lambda$システムで達成する。 This article proposes a new method to increase the efficiency of stimulated Raman adiabatic passage (STIRAP) in superconducting circuits using a shortcut to the adiabaticity (STA) method. The STA speeds up the adiabatic process before decoherence has a significant effect, thus leading to increased efficiency. This method achieves fast, high-fidelity coherent population transfer, known as super-adiabatic STIRAP (saSTIRAP), in a dressed state-engineered $\Lambda$ system with polariton states in circuit QED. | 翻訳日:2023-11-01 16:37:58 公開日:2023-10-31 |
# 指導によるスキル発見の学習 Learning to Discover Skills through Guidance ( http://arxiv.org/abs/2310.20178v1 ) ライセンス: Link先を確認 | Hyunseung Kim, Byungkun Lee, Hojoon Lee, Dongyoon Hwang, Sejik Park, Kyushik Min, Jaegul Choo | (参考訳) 教師なしスキル発見(USD)の分野では、主に最初の軌道からスキルが逸脱した場合の相当な罰則のために、限られた探索が主な課題である。
探索を強化するため、最近の手法では補助的な報酬を用いて、状態の疫学的な不確実性やエントロピーを最大化する。
しかし,環境の複雑さが増大するにつれて,これらの報酬の有効性は低下することがわかった。
そこで本研究では,(1)未探索状態に到達する可能性が最も高いガイドスキルを選択し,(2)ガイドスキルに従うための他のスキルを誘導し,(3)未探索状態における識別性を最大化するために,誘導スキルを分散させる,新しいUSDアルゴリズムであるDISCO-DANCEを提案する。
DISCO-DANCEは、2つのナビゲーションベンチマークと連続制御ベンチマークを含む、困難な環境での他のUSDベースラインよりも優れていることを示す実証的な評価である。
DISCO-DANCEの質的な視覚化とコードはhttps://mynsng.github.io/discodance.comで公開されている。 In the field of unsupervised skill discovery (USD), a major challenge is limited exploration, primarily due to substantial penalties when skills deviate from their initial trajectories. To enhance exploration, recent methodologies employ auxiliary rewards to maximize the epistemic uncertainty or entropy of states. However, we have identified that the effectiveness of these rewards declines as the environmental complexity rises. Therefore, we present a novel USD algorithm, skill discovery with guidance (DISCO-DANCE), which (1) selects the guide skill that possesses the highest potential to reach unexplored states, (2) guides other skills to follow guide skill, then (3) the guided skills are dispersed to maximize their discriminability in unexplored states. Empirical evaluation demonstrates that DISCO-DANCE outperforms other USD baselines in challenging environments, including two navigation benchmarks and a continuous control benchmark. Qualitative visualizations and code of DISCO-DANCE are available at https://mynsng.github.io/discodance. | 翻訳日:2023-11-01 16:37:45 公開日:2023-10-31 |
# lfaa: 低周波摂動を伴う移動可能な標的攻撃例の作成 LFAA: Crafting Transferable Targeted Adversarial Examples with Low-Frequency Perturbations ( http://arxiv.org/abs/2310.20175v1 ) ライセンス: Link先を確認 | Kunyu Wang and Juluan Shi and Wenxuan Wang | (参考訳) ディープニューラルネットワークは、現実のアプリケーションにおけるセキュリティと信頼性に重大な脅威をもたらす敵攻撃の影響を受けやすい。
もっとも注目すべき敵攻撃は転送ベースの攻撃であり、敵は敵の例を使ってあるモデルを騙し、他のモデルも騙すことができる。
従来の研究では、未目標の敵例の転送可能性の向上が進んでいるが、モデル間での転送が可能な対象の敵例の生成は依然として困難な課題である。
本研究では,画像の高周波成分の摂動にディープニューラルネットワークの脆弱性を生かして,トランスファー可能なターゲティング対象の対向例を生成する新しい手法を提案する。
画像の高周波成分を別の画像の高周波成分に置き換えることで、深いモデルを誤解させ、ターゲット攻撃を達成するために高周波情報を含む摂動を作らせてしまうことを観察する。
そこで,本稿では,画像の低周波成分に付加される条件付き生成器を訓練する手法であるlow-frequency adversarial attack (\name)を提案する。
imagenet の広範な実験により,提案手法が最先端手法を著しく上回り,目標攻撃成功率を 3.2 % から 15.5 % に改善することを示した。 Deep neural networks are susceptible to adversarial attacks, which pose a significant threat to their security and reliability in real-world applications. The most notable adversarial attacks are transfer-based attacks, where an adversary crafts an adversarial example to fool one model, which can also fool other models. While previous research has made progress in improving the transferability of untargeted adversarial examples, the generation of targeted adversarial examples that can transfer between models remains a challenging task. In this work, we present a novel approach to generate transferable targeted adversarial examples by exploiting the vulnerability of deep neural networks to perturbations on high-frequency components of images. We observe that replacing the high-frequency component of an image with that of another image can mislead deep models, motivating us to craft perturbations containing high-frequency information to achieve targeted attacks. To this end, we propose a method called Low-Frequency Adversarial Attack (\name), which trains a conditional generator to generate targeted adversarial perturbations that are then added to the low-frequency component of the image. Extensive experiments on ImageNet demonstrate that our proposed approach significantly outperforms state-of-the-art methods, improving targeted attack success rates by a margin from 3.2\% to 15.5\%. | 翻訳日:2023-11-01 16:37:26 公開日:2023-10-31 |
# 地理空間予測のためのグラフ変換器 GraphTransformers for Geospatial Forecasting ( http://arxiv.org/abs/2310.20174v1 ) ライセンス: Link先を確認 | Pallavi Banerjee, Satyaki Chakraborty | (参考訳) 本稿では,グラフトランスフォーマを用いた地理空間シーケンスの軌跡予測のための新しい枠組みを提案する。
いくつかのシーケンスを見渡すと、そのようなシーケンスモデリングタスクを考慮せずに、異なる地理空間ポイント間でグラフ構造が自動的に現れるのが観察された。
このグラフ構造を明示的に活用することで,地理空間的軌道予測を大幅に改善できることを示す。
当社のGraphTransformerアプローチは,ハリケーンの軌跡を6時間単位で予測するデータセットであるHURDATに基づいて,最先端のTransformerベースのベースラインを大幅に改善する。 In this paper we introduce a novel framework for trajectory prediction of geospatial sequences using GraphTransformers. When viewed across several sequences, we observed that a graph structure automatically emerges between different geospatial points that is often not taken into account for such sequence modeling tasks. We show that by leveraging this graph structure explicitly, geospatial trajectory prediction can be significantly improved. Our GraphTransformer approach improves upon state-of-the-art Transformer based baseline significantly on HURDAT, a dataset where we are interested in predicting the trajectory of a hurricane on a 6 hourly basis. | 翻訳日:2023-11-01 16:36:58 公開日:2023-10-31 |
# 生成予訓練変圧器を用いた小型二元系波形生成 Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer ( http://arxiv.org/abs/2310.20172v1 ) ライセンス: Link先を確認 | Ruijun Shi, Yue Zhou, Tianyu Zhao, Zhoujian Cao, Zhixiang Ren | (参考訳) 宇宙ベースの重力波検出は、今後10年で最も期待されている重力波検出プロジェクトの1つであり、豊富なコンパクトバイナリシステムを検出する。
しかし、空間GW波形の正確な予測は未定である。
CBS-GPT(Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer)と呼ばれる解釈可能な大モデルであるTDI 2.0を提案する。
小型連星系波形では、大質量ブラックホール連星 (MBHB) と極大質量比連星 (EMRI) と銀河連星 (GB) の波形を予測するために3つのモデルを訓練し、それぞれ98%、91%、99%の予測精度を達成した。
CBS-GPTモデルは、複雑な機器応答と広いパラメータ範囲であっても、その隠れパラメータが波形の複雑な情報を効果的に捉えることで、顕著な解釈可能性を示す。
本研究では,重力波データ処理における大規模事前学習モデルの可能性を示し,ギャップ補完,gw信号検出,信号ノイズ低減といった今後の課題に新たな機会を開く。 Space-based gravitational wave detection is one of the most anticipated gravitational wave (GW) detection projects in the next decade, which will detect abundant compact binary systems. However, the precise prediction of space GW waveforms remains unexplored. To solve the data processing difficulty in the increasing waveform complexity caused by detectors' response and second-generation time-delay interferometry (TDI 2.0), an interpretable pre-trained large model named CBS-GPT (Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer) is proposed. For compact binary system waveforms, three models were trained to predict the waveforms of massive black hole binary (MBHB), extreme mass-ratio inspirals (EMRIs), and galactic binary (GB), achieving prediction accuracies of 98%, 91%, and 99%, respectively. The CBS-GPT model exhibits notable interpretability, with its hidden parameters effectively capturing the intricate information of waveforms, even with complex instrument response and a wide parameter range. Our research demonstrates the potential of large pre-trained models in gravitational wave data processing, opening up new opportunities for future tasks such as gap completion, GW signal detection, and signal noise reduction. | 翻訳日:2023-11-01 16:36:40 公開日:2023-10-31 |
# DIVKNOWQA:知識ベースとテキストに関するオープンドメイン質問回答によるLLMの推論能力の評価 DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text ( http://arxiv.org/abs/2310.20170v1 ) ライセンス: Link先を確認 | Wenting Zhao, Ye Liu, Tong Niu, Yao Wan, Philip S. Yu, Shafiq Joty, Yingbo Zhou, Semih Yavuz | (参考訳) 大言語モデル(LLM)は印象的な生成能力を示すが、内部知識のみに依存する場合、特にあまり知られていない情報を必要とする質問に答える場合、幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
しかしながら、近年のアプローチは、プロンプトへのシームレスな統合のため、構造化されていないテキストコーパスからの検索を主に重視している。
ナレッジグラフのような構造化データを使用する場合、ほとんどのメソッドは自然テキストに単純化し、基礎となる構造を無視する。
さらに、現在のランドスケープにおける大きなギャップは、異種知識ソース(例えば、知識ベースとテキスト)にLLMを接地することの有効性を評価するための現実的なベンチマークがないことである。
このギャップを埋めるために,(1)オープンドメインと非構造化知識ソースの双方から情報を取得する必要がある2段階のマルチソース質問,2)構造化知識ソースからの情報検索は,質問に正しく答える上で重要な要素である,という2つのユニークな課題を提起した。
2) シンボリッククエリ(例えば、WikidataのSPARQL)の生成は重要な要件であり、別のレイヤの課題が追加されている。
我々のデータセットは、事前定義された推論チェーンと人間のアノテーションによる自動生成の組み合わせで作成されます。
また,テキストパス検索や記号言語支援検索など,複数の検索ツールを活用する新しい手法を提案する。
私たちのモデルは、上記の推論課題に対処する上での有効性を示しながら、これまでのアプローチをかなりのマージンで上回っています。 Large Language Models (LLMs) have exhibited impressive generation capabilities, but they suffer from hallucinations when solely relying on their internal knowledge, especially when answering questions that require less commonly known information. Retrieval-augmented LLMs have emerged as a potential solution to ground LLMs in external knowledge. Nonetheless, recent approaches have primarily emphasized retrieval from unstructured text corpora, owing to its seamless integration into prompts. When using structured data such as knowledge graphs, most methods simplify it into natural text, neglecting the underlying structures. Moreover, a significant gap in the current landscape is the absence of a realistic benchmark for evaluating the effectiveness of grounding LLMs on heterogeneous knowledge sources (e.g., knowledge base and text). To fill this gap, we have curated a comprehensive dataset that poses two unique challenges: (1) Two-hop multi-source questions that require retrieving information from both open-domain structured and unstructured knowledge sources; retrieving information from structured knowledge sources is a critical component in correctly answering the questions. (2) The generation of symbolic queries (e.g., SPARQL for Wikidata) is a key requirement, which adds another layer of challenge. Our dataset is created using a combination of automatic generation through predefined reasoning chains and human annotation. We also introduce a novel approach that leverages multiple retrieval tools, including text passage retrieval and symbolic language-assisted retrieval. Our model outperforms previous approaches by a significant margin, demonstrating its effectiveness in addressing the above-mentioned reasoning challenges. | 翻訳日:2023-11-01 16:36:02 公開日:2023-10-31 |
# 浅層雲シミュレーションにおける液滴分布の理解と可視化 Understanding and Visualizing Droplet Distributions in Simulations of Shallow Clouds ( http://arxiv.org/abs/2310.20168v1 ) ライセンス: Link先を確認 | Justus C. Will, Andrea M. Jenney, Kara D. Lamb, Michael S. Pritchard, Colleen Kaul, Po-Lun Ma, Kyle Pressel, Jacob Shpund, Marcus van Lier-Walqui, Stephan Mandt | (参考訳) 局所的な液滴レベルの相互作用の徹底的な解析は、雲のミクロフィジカルな過程とその地球気候への影響をよりよく理解するために重要である。
binマイクロフィジカルの大規模渦シミュレーション(les)による関連する液滴径分布の高精度シミュレーションは,空間寸法,時間,液滴径の連続範囲が3次元であるため,現在の解析手法に挑戦する。
可変オートエンコーダ(vaes)からのコンパクトな潜在表現を利用することで,分散手法で実現可能な範囲を超えて,液滴サイズの組織化とその進化を,新規かつ直感的に可視化する。
これにより解釈が大幅に向上し,異なるエアロゾル濃度のシミュレーションを対比することにより,エアロゾルとクラウドの相互作用を調べることができる。
液滴スペクトルの進化はエアロゾル準位に類似しているが、異なる速度で起こる。
この類似性は、降水開始過程が開始時刻の変動にもかかわらず類似していることを示唆している。 Thorough analysis of local droplet-level interactions is crucial to better understand the microphysical processes in clouds and their effect on the global climate. High-accuracy simulations of relevant droplet size distributions from Large Eddy Simulations (LES) of bin microphysics challenge current analysis techniques due to their high dimensionality involving three spatial dimensions, time, and a continuous range of droplet sizes. Utilizing the compact latent representations from Variational Autoencoders (VAEs), we produce novel and intuitive visualizations for the organization of droplet sizes and their evolution over time beyond what is possible with clustering techniques. This greatly improves interpretation and allows us to examine aerosol-cloud interactions by contrasting simulations with different aerosol concentrations. We find that the evolution of the droplet spectrum is similar across aerosol levels but occurs at different paces. This similarity suggests that precipitation initiation processes are alike despite variations in onset times. | 翻訳日:2023-11-01 16:35:14 公開日:2023-10-31 |
# 低次元分極論:エクシトン・ポラリトンシミュレータ上の創発的非自明位相 Low-dimensional polaritonics: Emergent non-trivial topology on exciton-polariton simulators ( http://arxiv.org/abs/2310.20166v1 ) ライセンス: Link先を確認 | Konstantin Rips | (参考訳) 次元 $d=2$ のポラリトニック格子構成は、対称クラス aハミルトニアンに基づく位相相のシミュレータとして用いられる。
境界上の非自明なエッジモード状態と接続すると予測される絶縁相のバルクトポロジーを特徴付けるために数値的およびトポロジカルな研究が行われる。
例えば、カゴメ格子のような時間反転対称性の破れを伴う特定の格子幾何学上のスペクトル平坦なハミルトニアンを用いて、ブリルアンゾーンからグラスマン空間への写像を得る。
数値的な証拠は、価バンドチャーン数の和と有価バンド状態への射影作用素の指数との関係を明らかにする。
これらの線に沿って、他の指数定理やアティヤシンガーの古典的結果に類似する指数公式を見つけるが、ディラック作用素はなく、異なる視点から考えることができる。
異なるツール、特にホモトピーとホモロジー-コホモロジーの双対性の組み合わせを通じて、我々は、結合された分極配列系における位相位相のソースと構造を完全に扱う包括的な数学的枠組みを提供する。
これらの結果に基づき、ポラリトンシミュレータとして実装された2次元シングルシートチャーン絶縁体のさらなる設計とモデルを推測することが可能となった。 Polaritonic lattice configurations in dimensions $D=2$ are used as simulators of topological phases, based on symmetry class A Hamiltonians. Numerical and topological studies are performed in order to characterise the bulk topology of insulating phases, which is predicted to be connected to non-trivial edge mode states on the boundary. By using spectral flattened Hamiltonians on specific lattice geometries with time reversal symmetry breaking, e.g. Kagome lattice, we obtain maps from the Brillouin zone into Grassmannian spaces, which are further investigated by the topological method of space fibrations. Numerical evidence reveals a connection between the sum of valence band Chern numbers and the index of the projection operator onto the valence band states. Along these lines, we discover an index formula which resembles other index theorems and the classical result of Atiyah-Singer, but without any Dirac operator and from a different perspective. Through a combination of different tools, in particular homotopy and homology-cohomology duality, we provide a comprehensive mathematical framework, which fully addresses the source and structure of topological phases in coupled polaritonic array systems. Based on these results, it becomes possible to infer further designs and models of two-dimensional single sheet Chern insulators, implemented as polariton simulators. | 翻訳日:2023-11-01 16:34:41 公開日:2023-10-31 |
# 多言語ニューラルマシン翻訳におけるロバスト性は言語間で伝達可能か? Is Robustness Transferable across Languages in Multilingual Neural Machine Translation? ( http://arxiv.org/abs/2310.20162v1 ) ライセンス: Link先を確認 | Leiyu Pan, Supryadi and Deyi Xiong | (参考訳) モデルが摂動に直面して性能を維持する能力であるロバストネスは、信頼性の高いNLPシステムの開発に不可欠である。
近年の研究では、敵対的トレーニングとデータ拡張によるモデルの堅牢性向上に有望な成果が示されている。
しかし、機械翻訳においては、これらの研究のほとんどは1つの翻訳方向のバイリンガル機械翻訳に焦点が当てられている。
本稿では,多言語ニューラルマシン翻訳における言語間の堅牢性の伝達可能性について検討する。
本稿では,ロバスト性伝達解析プロトコルを提案し,一連の実験を行う。
特に,多言語ニューラルマシン翻訳モデルの特定の翻訳方向を攻撃し,他の翻訳方向の堅牢性を評価するために,文字,単語,マルチレベルノイズを用いる。
以上の結果から,一方の翻訳方向における頑健性は他の翻訳方向への変換が可能であることが示唆された。
さらに,文字レベルのノイズや単語レベルのノイズに対するロバスト性が伝達しやすいシナリオを経験的に発見する。 Robustness, the ability of models to maintain performance in the face of perturbations, is critical for developing reliable NLP systems. Recent studies have shown promising results in improving the robustness of models through adversarial training and data augmentation. However, in machine translation, most of these studies have focused on bilingual machine translation with a single translation direction. In this paper, we investigate the transferability of robustness across different languages in multilingual neural machine translation. We propose a robustness transfer analysis protocol and conduct a series of experiments. In particular, we use character-, word-, and multi-level noises to attack the specific translation direction of the multilingual neural machine translation model and evaluate the robustness of other translation directions. Our findings demonstrate that the robustness gained in one translation direction can indeed transfer to other translation directions. Additionally, we empirically find scenarios where robustness to character-level noise and word-level noise is more likely to transfer. | 翻訳日:2023-11-01 16:34:08 公開日:2023-10-31 |
# コード検証可能性と理解可能性の関係について On the Relationship between Code Verifiability and Understandability ( http://arxiv.org/abs/2310.20160v1 ) ライセンス: Link先を確認 | Kobi Feldman, Martin Kellogg, Oscar Chaparro | (参考訳) ソフトウェア検証の支持者は、より単純なコードは検証が容易であると主張した。つまり、より単純なコードを分析する際に、検証ツールは偽陽性を少なくし、人間の介入を少なくする。
6つの先行研究において,Javaコードの211個のスニペット上で4つの最先端検証ツールが生成する警告数と,対象者からのコード理解度を20のメトリクスで比較することにより,この仮定を実証的に検証する。
統計的(メタ)分析に基づく実験は,総じて,理解可能性と検証可能性の間には,わずかな相関(r = 0.23)があることを示す。
その結果は、検証により多くの労力を要するコードよりも、容易に検証できるコードは理解しやすいという主張を支持する。
私たちの研究は、ユーザやデザイナがコード理解性を自動的に測定する試みに影響を与えています。検証ツールは、理解可能性に対する補助的なメリットがあり、理解可能性を測定するには、単に構文ではなく、コードプロパティに関する推論が必要です。 Proponents of software verification have argued that simpler code is easier to verify: that is, that verification tools issue fewer false positives and require less human intervention when analyzing simpler code. We empirically validate this assumption by comparing the number of warnings produced by four state-of-the-art verification tools on 211 snippets of Java code with 20 metrics of code comprehensibility from human subjects in six prior studies. Our experiments, based on a statistical (meta-)analysis, show that, in aggregate, there is a small correlation (r = 0.23) between understandability and verifiability. The results support the claim that easy-to-verify code is often easier to understand than code that requires more effort to verify. Our work has implications for the users and designers of verification tools and for future attempts to automatically measure code comprehensibility: verification tools may have ancillary benefits to understandability, and measuring understandability may require reasoning about semantic, not just syntactic, code properties. | 翻訳日:2023-11-01 16:33:38 公開日:2023-10-31 |
# 言語誘導型ビジュアル質問応答:知識豊富なプロンプトを用いたマルチモーダル言語モデルの拡張 Language Guided Visual Question Answering: Elevate Your Multimodal Language Model Using Knowledge-Enriched Prompts ( http://arxiv.org/abs/2310.20159v1 ) ライセンス: Link先を確認 | Deepanway Ghosal, Navonil Majumder, Roy Ka-Wei Lee, Rada Mihalcea, Soujanya Poria | (参考訳) 視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
タスクは、画像と質問の両方の理解を仮定し、自然言語応答を提供する。
VQAは近年、ロボット工学、教育、医療など幅広い分野の応用の可能性から人気を集めている。
本稿では,知識を付加したVQAに注目し,質問に答えるには常識知識,世界知識,イメージに存在しない概念や概念の推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるマルチモーダルフレームワークを提案する。
我々は,CLIPモデルとBLIPモデルを用いて,A-OKVQA,Science-QA,VSR,IconQAデータセットのマルチ選択質問応答タスクについてベンチマークを行った。
言語指導は,視覚的質問応答のための単純かつ強力かつ効果的な戦略であることを示す。
言語指導は,A-OKVQAデータセットにおいて,CLIPを7.6%,BLIP-2を4.8%改善する。
また,提案言語ガイダンスを用いて,Science-QA,VSR,IconQAデータセットの性能を一貫した改善を行った。
LG-VQAの実装はhttps:// github.com/declare-lab/LG-VQAで公開されている。 Visual question answering (VQA) is the task of answering questions about an image. The task assumes an understanding of both the image and the question to provide a natural language answer. VQA has gained popularity in recent years due to its potential applications in a wide range of fields, including robotics, education, and healthcare. In this paper, we focus on knowledge-augmented VQA, where answering the question requires commonsense knowledge, world knowledge, and reasoning about ideas and concepts not present in the image. We propose a multimodal framework that uses language guidance (LG) in the form of rationales, image captions, scene graphs, etc to answer questions more accurately. We benchmark our method on the multi-choice question-answering task of the A-OKVQA, Science-QA, VSR, and IconQA datasets using CLIP and BLIP models. We show that the use of language guidance is a simple but powerful and effective strategy for visual question answering. Our language guidance improves the performance of CLIP by 7.6% and BLIP-2 by 4.8% in the challenging A-OKVQA dataset. We also observe consistent improvement in performance on the Science-QA, VSR, and IconQA datasets when using the proposed language guidances. The implementation of LG-VQA is publicly available at https:// github.com/declare-lab/LG-VQA. | 翻訳日:2023-11-01 16:33:21 公開日:2023-10-31 |
# ゼロショット情報検索のためのGAR-meets-RAGパラダイム GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval ( http://arxiv.org/abs/2310.20158v1 ) ライセンス: Link先を確認 | Daman Arora, Anush Kini, Sayak Ray Chowdhury, Nagarajan Natarajan, Gaurav Sinha, Amit Sharma | (参考訳) クエリとドキュメントコーパスが与えられた場合、情報検索(IR)タスクは、関連するドキュメントのランキングリストを出力する。
大規模言語モデル(llms)と埋め込み型検索モデルを組み合わせた最近の研究は,ゼロショット検索問題,すなわち対象領域からラベル付きデータにアクセスできないという有望な結果を示している。
一般的な2つのパラダイムは、geneation-augmented retrievalまたはgar(クエリの追加コンテキストを生成して取得する)と、research-augmented generationまたはrag(関連するドキュメントをコンテキストとして参照し、回答を生成する)である。
これらのパラダイムの成功が生み出すもの
(i)ゼロショット設定では入手が難しいハイリコール検索モデル、
(ii) 優れた初期化を必要とする高精度(re-)のモデル。
本稿では,既存のパラダイムの課題を克服する新しいGAR-meets-RAG再帰の定式化を提案する。
我々の手法は、ゼロショット設定における検索(GAR)と書き直し(RAG)を反復的に改善する。
重要な設計原則は、リライト・検索段階がシステムのリコールを改善し、最終段階が精度を向上させることである。
ゼロショットパス検索ベンチマークであるBEIRとTREC-DLについて広範な実験を行った。
提案手法はbeirベンチマークにおいて,8つのデータセットのうち6つにおいて,re recall@100 と ndcg@10 の過去の成績を上回り,最大17%の相対的な向上率を示した。 Given a query and a document corpus, the information retrieval (IR) task is to output a ranked list of relevant documents. Combining large language models (LLMs) with embedding-based retrieval models, recent work shows promising results on the zero-shot retrieval problem, i.e., no access to labeled data from the target domain. Two such popular paradigms are generation-augmented retrieval or GAR (generate additional context for the query and then retrieve), and retrieval-augmented generation or RAG (retrieve relevant documents as context and then generate answers). The success of these paradigms hinges on (i) high-recall retrieval models, which are difficult to obtain in the zero-shot setting, and (ii) high-precision (re-)ranking models which typically need a good initialization. In this work, we propose a novel GAR-meets-RAG recurrence formulation that overcomes the challenges of existing paradigms. Our method iteratively improves retrieval (via GAR) and rewrite (via RAG) stages in the zero-shot setting. A key design principle is that the rewrite-retrieval stages improve the recall of the system and a final re-ranking stage improves the precision. We conduct extensive experiments on zero-shot passage retrieval benchmarks, BEIR and TREC-DL. Our method establishes a new state-of-the-art in the BEIR benchmark, outperforming previous best results in Recall@100 and nDCG@10 metrics on 6 out of 8 datasets, with up to 17% relative gains over the previous best. | 翻訳日:2023-11-01 16:32:55 公開日:2023-10-31 |
# MLatom 3: 機械学習による計算化学シミュレーションとワークフローのためのプラットフォーム MLatom 3: Platform for machine learning-enhanced computational chemistry simulations and workflows ( http://arxiv.org/abs/2310.20155v1 ) ライセンス: Link先を確認 | Pavlo O. Dral, Fuchun Ge, Yi-Fan Hou, Peikun Zheng, Yuxinxin Chen, Mario Barbatti, Olexandr Isayev, Cheng Wang, Bao-Xin Xue, Max Pinheiro Jr, Yuming Su, Yiheng Dai, Yangtao Chen, Lina Zhang, Shuang Zhang, Arif Ullah, Quanhao Zhang, Yanchi Ou | (参考訳) 機械学習(ML)は、計算化学における一般的なツールになりつつある。
同時に、MLメソッドの迅速な開発には、カスタムワークフローを設計するための柔軟なソフトウェアフレームワークが必要である。
MLatom 3は、MLのパワーを活用して典型的な計算化学シミュレーションを強化し、複雑なワークフローを作成するプログラムパッケージである。
このオープンソースパッケージは、コマンドラインオプション、入力ファイル、あるいはMLatomをPythonパッケージとして使用したスクリプトでシミュレーションを実行できるユーザや、XACScloud.comのオンラインXACSクラウドコンピューティング上で、多くの選択肢を提供している。
計算機化学者はエネルギーと熱化学的特性を計算し、ジオメトリーを最適化し、分子と量子力学を実行し、(ロ)振動、1光子UV/ビス吸収、および2光子吸収スペクトルをML、量子力学、結合モデルでシミュレートすることができる。
ユーザは、事前訓練されたMLモデルと、結合クラスタ精度に近づくAIQM1のような量子力学的近似を含む、広範なメソッドのライブラリを選択できる。
開発者はさまざまなMLアルゴリズムを使って独自のモデルを構築することができる。
MLatomの柔軟性は、多くの最先端のソフトウェアパッケージやライブラリへのインターフェースの広範な使用によるところが大きい。 Machine learning (ML) is increasingly becoming a common tool in computational chemistry. At the same time, the rapid development of ML methods requires a flexible software framework for designing custom workflows. MLatom 3 is a program package designed to leverage the power of ML to enhance typical computational chemistry simulations and to create complex workflows. This open-source package provides plenty of choice to the users who can run simulations with the command line options, input files, or with scripts using MLatom as a Python package, both on their computers and on the online XACS cloud computing at XACScloud.com. Computational chemists can calculate energies and thermochemical properties, optimize geometries, run molecular and quantum dynamics, and simulate (ro)vibrational, one-photon UV/vis absorption, and two-photon absorption spectra with ML, quantum mechanical, and combined models. The users can choose from an extensive library of methods containing pre-trained ML models and quantum mechanical approximations such as AIQM1 approaching coupled-cluster accuracy. The developers can build their own models using various ML algorithms. The great flexibility of MLatom is largely due to the extensive use of the interfaces to many state-of-the-art software packages and libraries. | 翻訳日:2023-11-01 16:32:32 公開日:2023-10-31 |
# GPT-4はチューリングテストに合格するのか? Does GPT-4 Pass the Turing Test? ( http://arxiv.org/abs/2310.20216v1 ) ライセンス: Link先を確認 | Cameron Jones and Benjamin Bergen | (参考訳) GPT-4をオンラインチューリングテストで評価した。
最も優れたGPT-4プロンプトは、ELIZA (27%) と GPT-3.5 (14%) で設定されたベースラインを上回る41%のゲームでパスしたが、確率は低く、人間によるベースラインは63%であった。
参加者の判断は主に言語的スタイル(35%)と社会的感情的特徴(27%)に基づいており、知性はチューリングテストに合格するには不十分であるという考えを支持した。
教育やllmへの親しみを含む参加者の人口動態は検出率を予測せず、システムの深く理解し、頻繁に相互作用する者でさえ偽装の影響を受けやすいことが示唆された。
知性テストとしての既知の限界にもかかわらず、チューリングテストは、自然主義的なコミュニケーションと偽りの評価として、引き続き関連があると主張する。
人間としてマスクレーディングできるAIモデルは、広く社会的な結果をもたらす可能性があり、異なる戦略の有効性と人間の類似性を判断するための基準を分析します。 We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4 prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and GPT-3.5 (14%), but falling short of chance and the baseline set by human participants (63%). Participants' decisions were based mainly on linguistic style (35%) and socio-emotional traits (27%), supporting the idea that intelligence is not sufficient to pass the Turing Test. Participants' demographics, including education and familiarity with LLMs, did not predict detection rate, suggesting that even those who understand systems deeply and interact with them frequently may be susceptible to deception. Despite known limitations as a test of intelligence, we argue that the Turing Test continues to be relevant as an assessment of naturalistic communication and deception. AI models with the ability to masquerade as humans could have widespread societal consequences, and we analyse the effectiveness of different strategies and criteria for judging humanlikeness. | 翻訳日:2023-11-01 16:25:17 公開日:2023-10-31 |
# LEO衛星ネットワークのためのハンドオーバプロトコル学習:アクセス遅延と衝突最小化 Handover Protocol Learning for LEO Satellite Networks: Access Delay and Collision Minimization ( http://arxiv.org/abs/2310.20215v1 ) ライセンス: Link先を確認 | Ju-Hyung Lee and Chanyoung Park and Soohyun Park and Andreas F. Molisch | (参考訳) 本研究は、低地球軌道(LEO)衛星ネットワークのHO手順における長期伝搬遅延の永続的課題に対処するために、DRL(Deep reinforcement learning)に基づく新しいハンドオーバプロトコルであるDHOを提案する。
DHOは、予め決定されたLEO衛星軌道パターンでトレーニングした後、予測能力を活用することで、HO手順で計測レポート(MR)をスキップする。
この単純化はmrフェーズ中に発生する伝播遅延を取り除き、効果的なho決定を提供する。
提案したDHOは,アクセス遅延,衝突速度,ハンドオーバ成功率の観点から,従来のHOプロトコルよりも優れた性能を示し,現実のネットワークにおけるDHOの実用性を示す。
さらに,アクセス遅延と衝突速度のトレードオフについて検討し,様々なDRLアルゴリズムを用いてDHOの訓練性能と収束性を評価する。 This study presents a novel deep reinforcement learning (DRL)-based handover (HO) protocol, called DHO, specifically designed to address the persistent challenge of long propagation delays in low-Earth orbit (LEO) satellite networks' HO procedures. DHO skips the Measurement Report (MR) in the HO procedure by leveraging its predictive capabilities after being trained with a pre-determined LEO satellite orbital pattern. This simplification eliminates the propagation delay incurred during the MR phase, while still providing effective HO decisions. The proposed DHO outperforms the legacy HO protocol across diverse network conditions in terms of access delay, collision rate, and handover success rate, demonstrating the practical applicability of DHO in real-world networks. Furthermore, the study examines the trade-off between access delay and collision rate and also evaluates the training performance and convergence of DHO using various DRL algorithms. | 翻訳日:2023-11-01 16:24:56 公開日:2023-10-31 |
# 分散マッチングによる校正:訓練可能なカーネル校正メトリクス Calibration by Distribution Matching: Trainable Kernel Calibration Metrics ( http://arxiv.org/abs/2310.20211v1 ) ライセンス: Link先を確認 | Charles Marx, Sofian Zalouk, Stefano Ermon | (参考訳) キャリブレーションは、予測される確率が経験的頻度に合致するように要求することで、確率的予測が有意義に不確実性を捉えることを保証する。
しかし、既存の多くのキャリブレーション手法はポストホックな再調整に特化しており、予測の鋭さを悪化させる可能性がある。
本稿では,キャリブレーションを分散マッチングタスクと見なすことができるという考察から,分類と回帰の両方において一般的なキャリブレーションを統一し,一般化するカーネルベースのキャリブレーションメトリクスを提案する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
さらに,キャリブレーション指標を決定タスクに合わせるための直感的なメカニズムを提供し,正確な損失推定と後悔的な決定を強制する。
我々は,これらの指標をレギュラライザとして用いることで,回帰・分類タスク全体のキャリブレーション,シャープネス,意思決定が向上することを示す。 Calibration ensures that probabilistic forecasts meaningfully capture uncertainty by requiring that predicted probabilities align with empirical frequencies. However, many existing calibration methods are specialized for post-hoc recalibration, which can worsen the sharpness of forecasts. Drawing on the insight that calibration can be viewed as a distribution matching task, we introduce kernel-based calibration metrics that unify and generalize popular forms of calibration for both classification and regression. These metrics admit differentiable sample estimates, making it easy to incorporate a calibration objective into empirical risk minimization. Furthermore, we provide intuitive mechanisms to tailor calibration metrics to a decision task, and enforce accurate loss estimation and no regret decisions. Our empirical evaluation demonstrates that employing these metrics as regularizers enhances calibration, sharpness, and decision-making across a range of regression and classification tasks, outperforming methods relying solely on post-hoc recalibration. | 翻訳日:2023-11-01 16:24:39 公開日:2023-10-31 |
# UWFormer:半監督型マルチスケールトランスによる水中画像強調 UWFormer: Underwater Image Enhancement via a Semi-Supervised Multi-Scale Transformer ( http://arxiv.org/abs/2310.20210v1 ) ライセンス: Link先を確認 | Xuhang Chen, Zinuo Li, Shenghong Luo, Weiwen Chen, Shuqiang Wang, Chi-Man Pun | (参考訳) 水中画像は、光、水、物体の複雑な相互作用のため、品質、不均衡な着色、低コントラストを示すことが多い。
従来の水中強化技術には大きな貢献があったが、さらなる改善を求める問題がいくつかある。
(i)現在のディープラーニング手法は,マルチスケール拡張を欠いた畳み込みニューラルネットワーク(cnns)に依存しており,グローバルな知覚領域も限られている。
(II) 実世界の水中データセットの不足は大きな課題となり, 合成画像ペアの利用は過度に適合する危険性がある。
上記の問題に対処するため, 半教師付き学習による複数周波数での画像強調を行うUWFormerと呼ばれるマルチスケールトランスフォーマーネットワークを提案し, 低周波数強調のための非線形周波数認識アテンション機構とマルチスケールフュージョンフィードフォワードネットワークを提案する。
さらに,疑似ラベルを生成するために,潜水型知覚損失関数を提案する水中半教師付き訓練戦略も導入した。
完全参照型および非参照型水中ベンチマークを用いた実験により,本手法は,量および視覚的品質の両面で最先端の手法より優れていることが示された。 Underwater images often exhibit poor quality, imbalanced coloration, and low contrast due to the complex and intricate interaction of light, water, and objects. Despite the significant contributions of previous underwater enhancement techniques, there exist several problems that demand further improvement: (i) Current deep learning methodologies depend on Convolutional Neural Networks (CNNs) that lack multi-scale enhancement and also have limited global perception fields. (ii) The scarcity of paired real-world underwater datasets poses a considerable challenge, and the utilization of synthetic image pairs risks overfitting. To address the aforementioned issues, this paper presents a Multi-scale Transformer-based Network called UWFormer for enhancing images at multiple frequencies via semi-supervised learning, in which we propose a Nonlinear Frequency-aware Attention mechanism and a Multi-Scale Fusion Feed-forward Network for low-frequency enhancement. Additionally, we introduce a specialized underwater semi-supervised training strategy, proposing a Subaqueous Perceptual Loss function to generate reliable pseudo labels. Experiments using full-reference and non-reference underwater benchmarks demonstrate that our method outperforms state-of-the-art methods in terms of both quantity and visual quality. | 翻訳日:2023-11-01 16:24:18 公開日:2023-10-31 |
# 強化学習によるネットワーク競合対応クラスタスケジューリング Network Contention-Aware Cluster Scheduling with Reinforcement Learning ( http://arxiv.org/abs/2310.20209v1 ) ライセンス: Link先を確認 | Junyeol Ryu, Jeongyoon Eo | (参考訳) ディープラーニングの継続的な進歩により、GPUクラスタでは分散トレーニングが一般的になっています。
具体的には、多様な量、比率、通信パターンを持つ新興ワークロードに対して、ネットワーク競合がトレーニングスループットを著しく低下させる可能性があることを観察する。
しかし、広く使われているスケジューリングポリシーは、ジョブ間のネットワーク競合を知らないため、しばしば制限に直面します。
本稿では,強化学習を用いたgpuクラスタにおけるネットワーク競合を軽減する新しい手法を提案する。
本稿では,gpuクラスタスケジューリングを強化学習問題として定式化し,コンテンション感受性を効果的に捉え,継続的な評価と改善を通じてスケジュール決定を動的に適応させるネットワークコンテンションアウェアスケジューリングポリシを学習する。
提案手法は,広く使用されているスケジューリングポリシと比較して,平均ジョブ完了時間を最大18.2\%削減し,テールジョブ完了時間を最大20.7\%削減し,平均ジョブ完了時間とリソース利用とのトレードオフを良好に実現している。 With continuous advances in deep learning, distributed training is becoming common in GPU clusters. Specifically, for emerging workloads with diverse amounts, ratios, and patterns of communication, we observe that network contention can significantly degrade training throughput. However, widely used scheduling policies often face limitations as they are agnostic to network contention between jobs. In this paper, we present a new approach to mitigate network contention in GPU clusters using reinforcement learning. We formulate GPU cluster scheduling as a reinforcement learning problem and opt to learn a network contention-aware scheduling policy that efficiently captures contention sensitivities and dynamically adapts scheduling decisions through continuous evaluation and improvement. We show that compared to widely used scheduling policies, our approach reduces average job completion time by up to 18.2\% and effectively cuts the tail job completion time by up to 20.7\% while allowing a preferable trade-off between average job completion time and resource utilization. | 翻訳日:2023-11-01 16:23:57 公開日:2023-10-31 |
# ZoomNeXt:カモフラージュ物体検出のための統一協調ピラミッドネットワーク ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection ( http://arxiv.org/abs/2310.20208v1 ) ライセンス: Link先を確認 | Youwei Pang, Xiaoqi Zhao, Tian-Zhu Xiang, Lihe Zhang, Huchuan Lu | (参考訳) 最近のcamouflaged object detection (COD)は、現実世界のシナリオでは極めて複雑で困難である、視覚的にブレンドされた物体を周囲に分割しようとする試みである。
カモフラージュされた物体とそれらの背景の間の本質的な類似性は別として、物体は通常、スケールが多様であり、外観がファジィで、さらに密閉されている。
そこで本研究では,曖昧な画像や映像を観察する際に人間の行動を模倣し,ズームインとズームアウトを行う,効果的な協調ピラミッドネットワークを提案する。
具体的には,マルチヘッドスケール統合による識別的混合スケールセマンティクスを学習するためのズーム戦略と,候補対象と背景環境との不可避な手がかりを十分に探究するために設計されたリッチな粒度知覚単位を用いる。
前者の本質的なマルチヘッドアグリゲーションは、より多様な視覚パターンを提供する。
後者のルーティング機構は、時空間シナリオにおけるフレーム間差異を効果的に伝播し、静的表現を適応的に無視することができる。
静的および動的codのための統一アーキテクチャを実現するための強固な基盤を提供する。
さらに,不明瞭なテクスチャから生じる不確実性とあいまいさを考慮し,候補領域に高い信頼を抱く予測を促進するため,単純で効果的な正規化,不確実性認識損失を構築した。
当社のタスクフレンドリーなフレームワークは、画像およびビデオcodベンチマークにおいて、既存の最先端のメソッドを一貫して上回っています。
コードは \url{https://github.com/lartpang/ZoomNeXt} で入手できる。 Recent camouflaged object detection (COD) attempts to segment objects visually blended into their surroundings, which is extremely complex and difficult in real-world scenarios. Apart from the high intrinsic similarity between camouflaged objects and their background, objects are usually diverse in scale, fuzzy in appearance, and even severely occluded. To this end, we propose an effective unified collaborative pyramid network which mimics human behavior when observing vague images and videos, \textit{i.e.}, zooming in and out. Specifically, our approach employs the zooming strategy to learn discriminative mixed-scale semantics by the multi-head scale integration and rich granularity perception units, which are designed to fully explore imperceptible clues between candidate objects and background surroundings. The former's intrinsic multi-head aggregation provides more diverse visual patterns. The latter's routing mechanism can effectively propagate inter-frame difference in spatiotemporal scenarios and adaptively ignore static representations. They provides a solid foundation for realizing a unified architecture for static and dynamic COD. Moreover, considering the uncertainty and ambiguity derived from indistinguishable textures, we construct a simple yet effective regularization, uncertainty awareness loss, to encourage predictions with higher confidence in candidate regions. Our highly task-friendly framework consistently outperforms existing state-of-the-art methods in image and video COD benchmarks. The code will be available at \url{https://github.com/lartpang/ZoomNeXt}. | 翻訳日:2023-11-01 16:23:41 公開日:2023-10-31 |
# 量子散逸を伴う平衡二光子ディックモデルの非線形ダイナミクス Nonlinear dynamics in the balanced two-photon Dicke model with qubit dissipation ( http://arxiv.org/abs/2310.20206v1 ) ライセンス: Link先を確認 | Jiahui Li and Stefano Chesi | (参考訳) 半古典的極限における2光子ディックモデルの複素非線形ダイナミクスをキャビティとクビット散逸を考慮して検討する。
通常のおよび超ラジカル相に加えて、多くのカオス関連現象を含む別の相は、平衡回転および反回転結合の下で見られる。
特にカオスは、キュービット周波数の値に依存する周期的二重分岐、間欠的カオス、準周期的振動によって現れる。
これら3つの異なる経路に存在する遷移機構は、システムの長期進化と分岐図を通して研究される。
さらに、安定な固定点の存在と前述のカオス関連ダイナミクスの両方を詳述した総合的な位相図を提供する。 We study the complex nonlinear dynamics of the two-photon Dicke model in the semiclassical limit by considering cavity and qubit dissipation. In addition to the normal and super-radiant phases, another phase that contains abundant chaos-related phenomena is found under balanced rotating and counter-rotating couplings. In particular, chaos may manifest itself through period-doubling bifurcation, intermittent chaos, or quasi-periodic oscillation, depending on the value of qubit frequency. Transition mechanisms that exist in these three distinct routes are investigated through the system's long-time evolution and bifurcation diagram. Additionally, we provide a comprehensive phase diagram detailing both the existence of stable fixed points and the aforementioned chaos-related dynamics. | 翻訳日:2023-11-01 16:23:16 公開日:2023-10-31 |
# ほぼ無限履歴を用いた一般検索型医療予測モデル General-Purpose Retrieval-Enhanced Medical Prediction Model Using Near-Infinite History ( http://arxiv.org/abs/2310.20204v1 ) ライセンス: Link先を確認 | Junu Kim and Chaeeun Shim and Bosco Seong Kyu Yang and Chami Im and Sung Yoon Lim and Han-Gil Jeong and Edward Choi | (参考訳) 電子健康記録(ehrs)に基づく臨床予測モデル(例えば死亡予測)の開発は通常、特徴の選択と観察ウィンドウサイズの調整に専門家の意見に依存する。
これは専門家を負担し、開発プロセスのボトルネックを生み出します。
このような課題に対処するために、検索型医療予測モデル(REMed)を提案する。
REMedは基本的に、無制限の臨床イベントを評価し、関連するイベントを選択し、予測する。
このアプローチは,手動による特徴選択の必要性を効果的に排除し,無制限な観察窓を実現する。
我々はこれらの特性を27の臨床的タスクと2つの独立したEHRデータセットを用いて検証し、REMedは可能な限り多くのイベントを扱うことを目的とした他の現代のアーキテクチャよりも優れていた。
特に,REMedの嗜好は医療専門家と密接に一致していることがわかった。
我々は,手作業による介入の必要性を最小限に抑えて,EHR予測モデルの開発を著しく促進するアプローチを期待する。 Developing clinical prediction models (e.g., mortality prediction) based on electronic health records (EHRs) typically relies on expert opinion for feature selection and adjusting observation window size. This burdens experts and creates a bottleneck in the development process. We propose Retrieval-Enhanced Medical prediction model (REMed) to address such challenges. REMed can essentially evaluate an unlimited number of clinical events, select the relevant ones, and make predictions. This approach effectively eliminates the need for manual feature selection and enables an unrestricted observation window. We verified these properties through experiments on 27 clinical tasks and two independent cohorts from publicly available EHR datasets, where REMed outperformed other contemporary architectures that aim to handle as many events as possible. Notably, we found that the preferences of REMed align closely with those of medical experts. We expect our approach to significantly expedite the development of EHR prediction models by minimizing clinicians' need for manual involvement. | 翻訳日:2023-11-01 16:23:05 公開日:2023-10-31 |
# ニューラルネットワークプルーニングにおけるランダム勾配による重要度推定 Importance Estimation with Random Gradient for Neural Network Pruning ( http://arxiv.org/abs/2310.20203v1 ) ライセンス: Link先を確認 | Suman Sapkota, Binod Bhattarai | (参考訳) グローバルニューロン重要度推定は、効率上の理由からニューラルネットワークをプルークするために用いられる。
各ニューロンや畳み込みカーネルのグローバルな重要性を決定するために、既存の手法のほとんどはアクティベーションまたは勾配情報または両方を使用し、豊富なラベル付きサンプルを必要とする。
本研究では,テイラー一階近似法(taylorfo approximation based method)と類似した重要度推定を,ヒューリスティックスを用いて導出する。
メソッドをTaylorFO-absとTaylorFO-sqと命名します。
本稿では,これらの重要度推定法を改善するための2つの方法を提案する。
まず、ネットワークの最後の層からランダムな勾配を伝搬し、ラベル付き例を必要としないようにする。
第二に,最終層出力の勾配等級を伝播前に正規化し,すべての例が重要度スコアに類似して寄与することを可能にする。
CIFAR-100 および STL-10 データセット上の ResNet および VGG アーキテクチャでテストした場合,提案手法は従来手法よりも優れている。
さらに,本手法は既存手法を補完し,それらの組み合わせによる性能向上を図る。 Global Neuron Importance Estimation is used to prune neural networks for efficiency reasons. To determine the global importance of each neuron or convolutional kernel, most of the existing methods either use activation or gradient information or both, which demands abundant labelled examples. In this work, we use heuristics to derive importance estimation similar to Taylor First Order (TaylorFO) approximation based methods. We name our methods TaylorFO-abs and TaylorFO-sq. We propose two additional methods to improve these importance estimation methods. Firstly, we propagate random gradients from the last layer of a network, thus avoiding the need for labelled examples. Secondly, we normalize the gradient magnitude of the last layer output before propagating, which allows all examples to contribute similarly to the importance score. Our methods with additional techniques perform better than previous methods when tested on ResNet and VGG architectures on CIFAR-100 and STL-10 datasets. Furthermore, our method also complements the existing methods and improves their performances when combined with them. | 翻訳日:2023-11-01 16:22:49 公開日:2023-10-31 |
# ビデオ支援マルチモーダル機械翻訳 Video-Helpful Multimodal Machine Translation ( http://arxiv.org/abs/2310.20201v1 ) ライセンス: Link先を確認 | Yihang Li, Shuichiro Shimizu, Chenhui Chu, Sadao Kurohashi, Wei Li | (参考訳) 既存のマルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは命令ビデオ字幕で構成されており、言語的曖昧さをほとんど含まないため、視覚情報は適切な翻訳を生成するのに効果的ではない。
最近の研究は、この問題を軽減するために曖昧な字幕データセットを構築しているが、ビデオが必ずしも曖昧さに寄与しない問題に限られている。
EVA(Extensive training set and video-helpful evaluation set for Ambiguous subtitles translation),852k Japanese- English (Ja-En) parallel subtitle pairs,520k Chinese- English (Zh-En) parallel subtitle pairs,および映画とテレビのエピソードから収集した対応するビデオクリップを紹介する。
広範なトレーニングセットに加えて、evaには、字幕があいまいで、ビデオが曖昧さ回避に役立つビデオ支援評価セットが含まれている。
さらに,フレームアテンション損失とあいまい度増大という2つの新しい手法による選択的アテンションモデルに基づくmmtモデルであるsafaを提案する。
EVA実験により,視覚情報と提案手法により翻訳性能が向上し,既存のMTモデルよりも優れた性能が得られた。
EVAデータセットとSAFAモデルは、https://github.com/ku-nlp/video-helpful-MMT.gitで利用可能である。 Existing multimodal machine translation (MMT) datasets consist of images and video captions or instructional video subtitles, which rarely contain linguistic ambiguity, making visual information ineffective in generating appropriate translations. Recent work has constructed an ambiguous subtitles dataset to alleviate this problem but is still limited to the problem that videos do not necessarily contribute to disambiguation. We introduce EVA (Extensive training set and Video-helpful evaluation set for Ambiguous subtitles translation), an MMT dataset containing 852k Japanese-English (Ja-En) parallel subtitle pairs, 520k Chinese-English (Zh-En) parallel subtitle pairs, and corresponding video clips collected from movies and TV episodes. In addition to the extensive training set, EVA contains a video-helpful evaluation set in which subtitles are ambiguous, and videos are guaranteed helpful for disambiguation. Furthermore, we propose SAFA, an MMT model based on the Selective Attention model with two novel methods: Frame attention loss and Ambiguity augmentation, aiming to use videos in EVA for disambiguation fully. Experiments on EVA show that visual information and the proposed methods can boost translation performance, and our model performs significantly better than existing MMT models. The EVA dataset and the SAFA model are available at: https://github.com/ku-nlp/video-helpful-MMT.git. | 翻訳日:2023-11-01 16:22:31 公開日:2023-10-31 |
# オンラインテストタイム適応の損失の検索:サーベイ In Search of Lost Online Test-time Adaptation: A Survey ( http://arxiv.org/abs/2310.20199v1 ) ライセンス: Link先を確認 | Zixin Wang, Yadan Luo, Liang Zheng, Zhuoxiao Chen, Sen Wang, Zi Huang | (参考訳) 本稿では、バッチ到着時に新しいデータ分布に機械学習モデルを適用することに焦点を当てた、オンラインテスト時間適応(OTTA)に関する総合的な調査を行う。
近年のottaメソッドの急増にもかかわらず、この分野は曖昧な設定、時代遅れのバックボーン、一貫性のないハイパーパラメータチューニングといった問題に潜んでいる。
明快さと厳密な比較のために、OTTA手法を3つの主要なカテゴリに分類し、強力な視覚変換器(ViT)のバックボーンを用いてベンチマークを行い、真に効果的な戦略を発見する。
ベンチマークは,cifar-10/100-cやimagenet-cといった従来型の破損したデータセットだけでなく,cifar-10.1やcifar-10-warehouseに具体化された実世界のシフトにも及ぶ。
オンラインシナリオの効率を計測するために,フロップを包含する新しい評価指標を導入し,適応精度と計算オーバーヘッドのトレードオフを浮き彫りにする。
その結果,(1)トランスフォーマは多様な領域シフトに対して高い反発性を示し,(2)多くのotta法の有効性は豊富なバッチサイズにかかっている,(3)最適化と摂動に対する耐性の安定性は適応中,特にバッチサイズが1。
これらの知見に感銘を受け、将来的な研究の方向性を指摘した。
ソースコードは公開される予定だ。 In this paper, we present a comprehensive survey on online test-time adaptation (OTTA), a paradigm focused on adapting machine learning models to novel data distributions upon batch arrival. Despite the proliferation of OTTA methods recently, the field is mired in issues like ambiguous settings, antiquated backbones, and inconsistent hyperparameter tuning, obfuscating the real challenges and making reproducibility elusive. For clarity and a rigorous comparison, we classify OTTA techniques into three primary categories and subject them to benchmarks using the potent Vision Transformer (ViT) backbone to discover genuinely effective strategies. Our benchmarks span not only conventional corrupted datasets such as CIFAR-10/100-C and ImageNet-C but also real-world shifts embodied in CIFAR-10.1 and CIFAR-10-Warehouse, encapsulating variations across search engines and synthesized data by diffusion models. To gauge efficiency in online scenarios, we introduce novel evaluation metrics, inclusive of FLOPs, shedding light on the trade-offs between adaptation accuracy and computational overhead. Our findings diverge from existing literature, indicating: (1) transformers exhibit heightened resilience to diverse domain shifts, (2) the efficacy of many OTTA methods hinges on ample batch sizes, and (3) stability in optimization and resistance to perturbations are critical during adaptation, especially when the batch size is 1. Motivated by these insights, we pointed out promising directions for future research. The source code will be made available. | 翻訳日:2023-11-01 16:22:04 公開日:2023-10-31 |
# 多言語慣用文脈における連続生成 Generating Continuations in Multilingual Idiomatic Contexts ( http://arxiv.org/abs/2310.20195v1 ) ライセンス: Link先を確認 | Rhitabrat Pokharel, Ameeta Agrawal | (参考訳) 慣用的あるいはリテラルな多語表現を処理する能力は、あらゆる言語を理解し、生成する上で重要な側面である。
慣用的(あるいはリテラル)表現を含むナラティブの文脈的関連のある継続を生成するタスクは、非定形的テキストを含むニュアンス言語を理解する際に、生成言語モデル(lms)の能力をテストすることができる。
2つの異なる言語(英語とポルトガル語)のデータセットを使って、3つの異なるトレーニング設定(ゼロショット、少数ショット、微調整)で一連の実験を行いました。
以上の結果から,本モデルでは慣用的文脈よりも連続生成がわずかに優れていることが示唆された。
さらに、本研究で研究されたモデルは両言語で同等に機能し、このタスクの実行における生成モデルの堅牢性を示している。 The ability to process idiomatic or literal multiword expressions is a crucial aspect of understanding and generating any language. The task of generating contextually relevant continuations for narratives containing idiomatic (or literal) expressions can allow us to test the ability of generative language models (LMs) in understanding nuanced language containing non-compositional figurative text. We conduct a series of experiments using datasets in two distinct languages (English and Portuguese) under three different training settings (zero-shot, few-shot, and fine-tuned). Our results suggest that the models are only slightly better at generating continuations for literal contexts than idiomatic contexts, with exceedingly small margins. Furthermore, the models studied in this work perform equally well across both languages, indicating the robustness of generative models in performing this task. | 翻訳日:2023-11-01 16:21:35 公開日:2023-10-31 |
# fedrec+:federated recommendation systemにおけるプライバシの強化と異質性への対応 FedRec+: Enhancing Privacy and Addressing Heterogeneity in Federated Recommendation Systems ( http://arxiv.org/abs/2310.20193v1 ) ライセンス: Link先を確認 | Lin Wang, Zhichao Wang, Xi Leng, Xiaoying Tang | (参考訳) エッジユーザのプライバシ保護と通信コスト削減は,レコメンデーションシステムにおいて大きな課題となる。
フェデレーション学習は,クライアントとサーバ間のデータ交換を回避して,プライバシ保護に有効であることが証明されているが,ユーザ負荷勾配の連続2ラウンドから得られた更新された非ゼロ勾配に基づいて,サーバがユーザの評価を推定できることが示されている。
さらに、フェデレーションレコメンデーションシステム(FRS)は不均一性の課題に直面し、レコメンデーション性能が低下する。
本稿では、不均一性問題に対処しながらプライバシーを高めるFedRec+という、FedRec+のアンサンブルフレームワークを提案する。
fedrec+は、ユーザのローカル情報のみを利用して、擬似アイテムの最適に近い仮想評価を生成するために、特徴の類似性に基づく最適なサブセット選択を用いる。
このアプローチは、追加の通信コストを伴わずにノイズを低減します。
さらに,各クライアントの異質性と寄与を推定するためにwasserstein距離を利用し,最適化問題の解法を用いて最適凝集重みを導出する。
実験結果は、さまざまな参照データセット間でFedRec+の最先端性能を示す。 Preserving privacy and reducing communication costs for edge users pose significant challenges in recommendation systems. Although federated learning has proven effective in protecting privacy by avoiding data exchange between clients and servers, it has been shown that the server can infer user ratings based on updated non-zero gradients obtained from two consecutive rounds of user-uploaded gradients. Moreover, federated recommendation systems (FRS) face the challenge of heterogeneity, leading to decreased recommendation performance. In this paper, we propose FedRec+, an ensemble framework for FRS that enhances privacy while addressing the heterogeneity challenge. FedRec+ employs optimal subset selection based on feature similarity to generate near-optimal virtual ratings for pseudo items, utilizing only the user's local information. This approach reduces noise without incurring additional communication costs. Furthermore, we utilize the Wasserstein distance to estimate the heterogeneity and contribution of each client, and derive optimal aggregation weights by solving a defined optimization problem. Experimental results demonstrate the state-of-the-art performance of FedRec+ across various reference datasets. | 翻訳日:2023-11-01 16:21:19 公開日:2023-10-31 |
# 制約に対する部分空間補正 Subspace Correction for Constraints ( http://arxiv.org/abs/2310.20191v1 ) ライセンス: Link先を確認 | Kelly Ann Pawlak, Jeffrey M. Epstein, Daniel Crow, Srilekha Gandhari, Ming Li, Thomas C. Bohdanowicz, Jonathan King | (参考訳) 我々は、イジング表現における計算問題の制約を満たす部分空間を安定化する演算子を構築できることを実証する。
このような制約に対してユニタリと関連する測定値を構築するための明示的なレシピを提供する。
安定化器の測定は制約違反の検出を可能にし、制約された部分空間への回復経路を提供する。
この手法を「サブスペース補正」と呼ぶ。
例えば、最も単純な局所制約部分空間:独立集合を用いて安定化器を明示的に検討する。
停止状態とペアを組むとき, 完全均一あるいは重み付き分布を全制約条件で生成することが保証されるアルゴリズムが, 部分的拒絶サンプリングの量子アナログであることがわかった。
停止条件は、サブグラフ近似のために変更することができる。
臨界硬度$\lambda_d^*$以下の$d-$regularグラフ上の正確なギブス分布をサブ線形時間で作成できることが示される。
最後に, 耐故障深度低減のための部分空間補正の可能性を検討する。
特に, 断熱状態生成アルゴリズムを用いて, 最大独立セットの作成において, トロタライズによって引き起こされる誤差を検出し, 回復する方法について検討する。 We demonstrate that it is possible to construct operators that stabilize the constraint-satisfying subspaces of computational problems in their Ising representations. We provide an explicit recipe to construct unitaries and associated measurements for some such constraints. The stabilizer measurements allow the detection of constraint violations, and provide a route to recovery back into the constrained subspace. We call this technique ``subspace correction". As an example, we explicitly investigate the stabilizers using the simplest local constraint subspace: Independent Set. We find an algorithm that is guaranteed to produce a perfect uniform or weighted distribution over all constraint-satisfying states when paired with a stopping condition: a quantum analogue of partial rejection sampling. The stopping condition can be modified for sub-graph approximations. We show that it can prepare exact Gibbs distributions on $d-$regular graphs below a critical hardness $\lambda_d^*$ in sub-linear time. Finally, we look at a potential use of subspace correction for fault-tolerant depth-reduction. In particular we investigate how the technique detects and recovers errors induced by Trotterization in preparing maximum independent set using an adiabatic state preparation algorithm. | 翻訳日:2023-11-01 16:20:57 公開日:2023-10-31 |
# 低光環境下での視覚的タスク改善のための熱画像翻訳 Visible to Thermal image Translation for improving visual task in low light conditions ( http://arxiv.org/abs/2310.20190v1 ) ライセンス: Link先を確認 | Md Azim Khan | (参考訳) 歩行者検出や画像から画像への変換など、いくつかの視覚タスクは、rgb画像を用いた低照度での達成が難しい。
熱画像内の物体の熱変化は、これを解決するために使用できる。
本稿では,rgb画像を熱画像に変換し,生成した熱画像と実データを比較するために,生成ネットワークと検出器ネットワークからなるエンドツーエンドフレームワークを提案する。
parrot anafi thermal droneを使って、2つの異なる場所から画像を収集した。
その後、私たちは2ストリームネットワークを作成し、前処理、拡張、画像データを作成し、ジェネレータと識別器モデルをゼロから訓練しました。
GANを用いてRGBトレーニングデータを熱データに変換することは可能であった。
結果として、熱データをより迅速かつ安価に作成することが可能となり、セキュリティや監視アプリケーションに役立ちます。 Several visual tasks, such as pedestrian detection and image-to-image translation, are challenging to accomplish in low light using RGB images. Heat variation of objects in thermal images can be used to overcome this. In this work, an end-to-end framework, which consists of a generative network and a detector network, is proposed to translate RGB image into Thermal ones and compare generated thermal images with real data. We have collected images from two different locations using the Parrot Anafi Thermal drone. After that, we created a two-stream network, preprocessed, augmented, the image data, and trained the generator and discriminator models from scratch. The findings demonstrate that it is feasible to translate RGB training data to thermal data using GAN. As a result, thermal data can now be produced more quickly and affordably, which is useful for security and surveillance applications. | 翻訳日:2023-11-01 16:20:39 公開日:2023-10-31 |
# 分断訓練からテスト時間適応へ--医用画像分割のためのドメイン一般化の強化 From Denoising Training to Test-Time Adaptation: Enhancing Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2310.20271v1 ) ライセンス: Link先を確認 | Ruxue Wen, Hangjie Yuan, Dong Ni, Wenbo Xiao, Yaoyao Wu | (参考訳) 医用画像のセグメンテーションにおいて、領域の一般化は、データ取得装置のばらつきやその他の要因によるドメインシフトによって大きな課題となる。
これらのシフトは、プライバシの懸念による単一ソースのドメインデータのみを含む、最も一般的なシナリオで特に顕著です。
これを解決するために、ソースドメインへの過度な適合を効果的に回避する自己教師型学習パラダイムからインスピレーションを得る。
本稿では,補助的な復号化デコーダを基本U-Netアーキテクチャに組み込んだ新しい手法であるDenoising Y-Netを提案する。
補助デコーダは、ドメインの一般化を促進するドメイン不変表現を増強し、デノージングトレーニングを行うことを目標としている。
さらに、このパラダイムはラベルのないデータを利用する可能性を提供します。
デノイングトレーニングに基づいて、さらにDeTTA(Denoising Test Time Adaptation)を提案する。
(i)モデルをサンプル的に対象領域に適応させ、
(ii)ノイズ破損した入力に適応する。
広範に評価された肝セグメンテーションベンチマークで行った広範囲な実験は、他の方法と比較して、我々の基準値と最先端結果よりも大幅にドメインの一般化が向上したことを示している。
コードはhttps://github.com/WenRuxue/DeTTAで入手できる。 In medical image segmentation, domain generalization poses a significant challenge due to domain shifts caused by variations in data acquisition devices and other factors. These shifts are particularly pronounced in the most common scenario, which involves only single-source domain data due to privacy concerns. To address this, we draw inspiration from the self-supervised learning paradigm that effectively discourages overfitting to the source domain. We propose the Denoising Y-Net (DeY-Net), a novel approach incorporating an auxiliary denoising decoder into the basic U-Net architecture. The auxiliary decoder aims to perform denoising training, augmenting the domain-invariant representation that facilitates domain generalization. Furthermore, this paradigm provides the potential to utilize unlabeled data. Building upon denoising training, we propose Denoising Test Time Adaptation (DeTTA) that further: (i) adapts the model to the target domain in a sample-wise manner, and (ii) adapts to the noise-corrupted input. Extensive experiments conducted on widely-adopted liver segmentation benchmarks demonstrate significant domain generalization improvements over our baseline and state-of-the-art results compared to other methods. Code is available at https://github.com/WenRuxue/DeTTA. | 翻訳日:2023-11-01 16:14:31 公開日:2023-10-31 |
# PsyCoT:パーソナリティ検出のための強力なチェーンとしての心理学的アンケート PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection ( http://arxiv.org/abs/2310.20256v1 ) ライセンス: Link先を確認 | Tao Yang, Tianyuan Shi, Fanqi Wan, Xiaojun Quan, Qifan Wang, Bingzhe Wu, Jiaxiang Wu | (参考訳) ChatGPTのような大規模言語モデル(LLM)の最近の進歩は、様々なNLPタスクで顕著なゼロショット性能を示した。
しかし、個性検出におけるllmの可能性は、個人のパーソナリティを書かれたテキストから識別することを含むが、ほとんど解明されていない。
心理学者が一連の対象項目を通じて個性特性を評価するために慎重に設計した心理学的アンケートからインスピレーションを得て、これらの項目はよく構造化されたCoTプロセスの集合と見なすことができると論じる。
これらのプロセスを組み込むことで、llmはテキスト入力からパーソナリティをより合理的に推論する能力を高めることができる。
そこで本研究では,マルチターン対話方式で個人が心理的質問紙を完結する方法を模倣した,新たなパーソナリティ検出手法であるpsycotを提案する。
特に,テキスト分析を専門とするAIアシスタントとしてLLMを採用している。
我々は,各ターンに個々の項目を評価させ,過去の評価結果を利用して決定的な人格選好を導出するように促す。
実験の結果、PsyCoTは人格検出におけるGPT-3.5の性能と堅牢性を大幅に向上し、2つのベンチマークデータセットの平均F1スコアは4.23/10.63ポイント向上した。
私たちのコードはhttps://github.com/TaoYang225/PsyCoT.comで利用可能です。 Recent advances in large language models (LLMs), such as ChatGPT, have showcased remarkable zero-shot performance across various NLP tasks. However, the potential of LLMs in personality detection, which involves identifying an individual's personality from their written texts, remains largely unexplored. Drawing inspiration from Psychological Questionnaires, which are carefully designed by psychologists to evaluate individual personality traits through a series of targeted items, we argue that these items can be regarded as a collection of well-structured chain-of-thought (CoT) processes. By incorporating these processes, LLMs can enhance their capabilities to make more reasonable inferences on personality from textual input. In light of this, we propose a novel personality detection method, called PsyCoT, which mimics the way individuals complete psychological questionnaires in a multi-turn dialogue manner. In particular, we employ a LLM as an AI assistant with a specialization in text analysis. We prompt the assistant to rate individual items at each turn and leverage the historical rating results to derive a conclusive personality preference. Our experiments demonstrate that PsyCoT significantly improves the performance and robustness of GPT-3.5 in personality detection, achieving an average F1 score improvement of 4.23/10.63 points on two benchmark datasets compared to the standard prompting method. Our code is available at https://github.com/TaoYang225/PsyCoT. | 翻訳日:2023-11-01 16:14:11 公開日:2023-10-31 |
# リバースエンジニアリングのための人工知能:ラマン分光法による洗剤への応用 Artificial Intelligence for reverse engineering: application to detergents using Raman spectroscopy ( http://arxiv.org/abs/2310.20254v1 ) ライセンス: Link先を確認 | Pedro Marote (UCBL, ISA), Marie Martin (UCBL, ISA), Anne Bonhomme, Pierre Lant\'eri (ISA, UCBL), Yohann Cl\'ement | (参考訳) 複雑な混合物のリバースエンジニアリングは、その性質に関わらず、今日では重要になっている。
環境にかかわる新商品の潜在的な毒性を迅速に評価できることは、真に分析的な課題である。
デジタルツール(データベース、化学計測、機械学習など)と分析技術(ラマン分光、NIR分光、質量分析等)の開発により、潜在的有害分子の同定が可能となる。
本稿では, コンポジションが人間や環境に危険であることを証明できる洗剤製品の例を用いて, 品質管理や規制のために正確な識別と定量化を必要とする。
様々なデジタルツール(スペクトルデータベース、混合データベース、実験設計、ケモメトリックス/機械学習アルゴリズム{\ldots})と異なる試料調製法(生試料、またはいくつかの濃縮/希薄試料)のラマン分光法の組み合わせにより、混合成分の同定と組成の推定が可能となった。
異なる分析ツールにまたがってこのような戦略を実装すると、様々な行列における汚染物質の識別と汚染評価の時間を節約できる。
この戦略は、製品や原料の制御や品質管理の目的で産業部門にも適用できる。 The reverse engineering of a complex mixture, regardless of its nature, has become significant today. Being able to quickly assess the potential toxicity of new commercial products in relation to the environment presents a genuine analytical challenge. The development of digital tools (databases, chemometrics, machine learning, etc.) and analytical techniques (Raman spectroscopy, NIR spectroscopy, mass spectrometry, etc.) will allow for the identification of potential toxic molecules. In this article, we use the example of detergent products, whose composition can prove dangerous to humans or the environment, necessitating precise identification and quantification for quality control and regulation purposes. The combination of various digital tools (spectral database, mixture database, experimental design, Chemometrics / Machine Learning algorithm{\ldots}) together with different sample preparation methods (raw sample, or several concentrated / diluted samples) Raman spectroscopy, has enabled the identification of the mixture's constituents and an estimation of its composition. Implementing such strategies across different analytical tools can result in time savings for pollutant identification and contamination assessment in various matrices. This strategy is also applicable in the industrial sector for product or raw material control, as well as for quality control purposes. | 翻訳日:2023-11-01 16:13:44 公開日:2023-10-31 |
# 分散化ノードサンプリングに基づくグラフ表現学習のための階層型トランスフォーマープール Diversified Node Sampling based Hierarchical Transformer Pooling for Graph Representation Learning ( http://arxiv.org/abs/2310.20250v1 ) ライセンス: Link先を確認 | Gaichao Li, Jinsong Chen, John E. Hopcroft, Kun He | (参考訳) グラフプーリング法は、グラフ分類やグラフ生成など、複数のグラフレベルのタスクにおいて印象的な結果が得られる。
node drop poolingと呼ばれる重要なラインは、学習可能なスコアリング機能を利用して、比較的重要度の低いノードをドロップすることを目指している。
しかし,従来のノードドロップ方式では,(1)GNNを主にバックボーンとして扱うため,これらのモデルでは長距離依存の捕捉に苦慮し,(2)上位ノードのみのプールは類似ノードを保存する傾向にあるため,下位ノードの豊富な情報を破棄する。
本稿では,gtpoolと呼ばれるグラフトランスフォーマープーリング手法を提案する。gtpoolは,ノードのドロッププーリングにトランスフォーマーを導入することで,長距離のペアワイズインタラクションを効率的にキャプチャし,一方,サンプルノードを多種多様なものにする。
具体的には,グローバルコンテキストとローカルコンテキストの両方を考慮した自己認識機構に基づくスコアリングモジュールを設計し,ノードの重要性をより包括的に測定する。
GTPoolはさらに、RWS (Roulette Wheel Sampling) という、より高いスコアリングノードだけでなく、異なるスコアリング間隔のノードを柔軟に保存できる、多様化したサンプリング手法を使用している。
このようにして、GTPoolは、効果的に長距離情報を取得し、より多くの代表ノードを選択することができる。
11のベンチマークデータセットに関する広範な実験は、既存の一般的なグラフプーリングメソッドよりもgtpoolの方が優れていることを示している。 Graph pooling methods have been widely used on downsampling graphs, achieving impressive results on multiple graph-level tasks like graph classification and graph generation. An important line called node dropping pooling aims at exploiting learnable scoring functions to drop nodes with comparatively lower significance scores. However, existing node dropping methods suffer from two limitations: (1) for each pooled node, these models struggle to capture long-range dependencies since they mainly take GNNs as the backbones; (2) pooling only the highest-scoring nodes tends to preserve similar nodes, thus discarding the affluent information of low-scoring nodes. To address these issues, we propose a Graph Transformer Pooling method termed GTPool, which introduces Transformer to node dropping pooling to efficiently capture long-range pairwise interactions and meanwhile sample nodes diversely. Specifically, we design a scoring module based on the self-attention mechanism that takes both global context and local context into consideration, measuring the importance of nodes more comprehensively. GTPool further utilizes a diversified sampling method named Roulette Wheel Sampling (RWS) that is able to flexibly preserve nodes across different scoring intervals instead of only higher scoring nodes. In this way, GTPool could effectively obtain long-range information and select more representative nodes. Extensive experiments on 11 benchmark datasets demonstrate the superiority of GTPool over existing popular graph pooling methods. | 翻訳日:2023-11-01 16:13:21 公開日:2023-10-31 |
# Pose-to-Motion: Pose Priorによるクロスドメインモーションリターゲティング Pose-to-Motion: Cross-Domain Motion Retargeting with Pose Prior ( http://arxiv.org/abs/2310.20249v1 ) ライセンス: Link先を確認 | Qingqing Zhao and Peizhuo Li and Wang Yifan and Olga Sorkine-Hornung and Gordon Wetzstein | (参考訳) 様々なキャラクターのための信じられるモーションを作成することは、コンピュータグラフィックスにおける長年の目標である。
現在の学習に基づく動き合成法は広範囲な動きデータセットに依存しており、多くの場合、不可能ではないとしても得ることは困難である。
一方で、静的なポーズ文字の作成が容易で、最近のコンピュータビジョンの進歩を利用して画像から抽出することもできるため、ポーズデータはよりアクセスしやすい。
本稿では,この代替データ源を用いて,再ターゲティングによるニューラルモーション合成手法を提案する。
本手法では,既存の動きキャプチャデータセットから動きを移動させることにより,ポーズデータのみを持つ文字に対して,推定可能な動きを生成する。
提案手法は,音源キャラクタの動作特徴と対象キャラクタのポーズ特徴とを効果的に結合し,画像から直接推定される,少数のアーティストが作成したポーズからうるさいポーズまで,小さくて騒がしいポーズデータセットと頑健に実行可能であることを示す。
さらに、調査対象者の大多数が、リターゲティングされた動きをより楽しむことができ、外観が生活に似ており、アーティファクトが少ないことに気付きました。
プロジェクトページ: https://cyanzhao42.github.io/pose2motion Creating believable motions for various characters has long been a goal in computer graphics. Current learning-based motion synthesis methods depend on extensive motion datasets, which are often challenging, if not impossible, to obtain. On the other hand, pose data is more accessible, since static posed characters are easier to create and can even be extracted from images using recent advancements in computer vision. In this paper, we utilize this alternative data source and introduce a neural motion synthesis approach through retargeting. Our method generates plausible motions for characters that have only pose data by transferring motion from an existing motion capture dataset of another character, which can have drastically different skeletons. Our experiments show that our method effectively combines the motion features of the source character with the pose features of the target character, and performs robustly with small or noisy pose data sets, ranging from a few artist-created poses to noisy poses estimated directly from images. Additionally, a conducted user study indicated that a majority of participants found our retargeted motion to be more enjoyable to watch, more lifelike in appearance, and exhibiting fewer artifacts. Project page: https://cyanzhao42.github.io/pose2motion | 翻訳日:2023-11-01 16:12:56 公開日:2023-10-31 |
# 多言語数学的推論における言語バリアの破壊:洞察と観察 Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations ( http://arxiv.org/abs/2310.20246v1 ) ライセンス: Link先を確認 | Nuo Chen, Zinan Zheng, Ning Wu, Linjun Shou, Ming Gong, Yangqiu Song, Dongmei Zhang, Jia Li | (参考訳) 既存の研究は主に、単言語言語における数学的推論のための強力な言語学習モデル(llm)の開発に焦点を当てている。
このギャップを埋めるために, マルチリンガル数学推論 (xMR) LLM の探索と訓練を行った。
まず,多言語数学推論指導データセットmgsm8kinstructを構築し,10個の異なる言語を包含することで,xmrタスクにおけるデータ不足の学習問題に対処する。
収集したデータセットに基づいて,MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
特にMathOctopus-13Bの精度は47.6%に達し、MGSMテストセットのChatGPT 46.3%を超えている。
1) 拒否的サンプリング戦略を多言語文脈に拡張すると, モデルの性能に有効であることが証明されるが, 限定的である。
2) 複数の言語にまたがる並列コーパス (SFT) の利用は, モデル性能を多言語的に向上させるだけでなく, モノリンガル性能も向上させる。
これは,多言語コーパスの作成が,特に数学的推論タスクにおいて,特定の言語におけるモデル性能を高める上で重要な戦略であることを示す。
例えば、mathoctopus-7bは、gsm8kテストセットで42.2%から50.8%に向上した。 Existing research predominantly focuses on developing powerful language learning models (LLMs) for mathematical reasoning within monolingual languages, with few explorations in preserving efficacy in a multilingual context. To bridge this gap, this paper pioneers exploring and training powerful Multilingual Math Reasoning (xMR) LLMs. Firstly, by utilizing translation, we construct the first multilingual math reasoning instruction dataset, MGSM8KInstruct, encompassing ten distinct languages, thus addressing the issue of training data scarcity in xMR tasks. Based on the collected dataset, we propose different training strategies to build powerful xMR LLMs, named MathOctopus, notably outperform conventional open-source LLMs and exhibit superiority over ChatGPT in few-shot scenarios. Notably, MathOctopus-13B reaches 47.6% accuracy which exceeds ChatGPT 46.3% on MGSM testset. Beyond remarkable results, we unearth several pivotal observations and insights from extensive experiments: (1) When extending the rejection sampling strategy to the multilingual context, it proves effective for model performances, albeit limited. (2) Employing parallel corpora for math Supervised Fine-Tuning (SFT) across multiple languages not only significantly enhances model performance multilingually but also elevates their monolingual performance. This indicates that crafting multilingual corpora can be regarded as a vital strategy for enhancing model performance in a specific language, especially in mathematical reasoning tasks. For instance, MathOctopus-7B improves its counterparts that trained on English from 42.2% to 50.8% on GSM8K testset. | 翻訳日:2023-11-01 16:12:34 公開日:2023-10-31 |
# 腹部大動脈造影における造影剤によるCT密度の決定的成分 : 概念的考察 Contrast-agent-induced deterministic component of CT-density in the abdominal aorta during routine angiography: proof of concept study ( http://arxiv.org/abs/2310.20243v1 ) ライセンス: Link先を確認 | Maria R. Kodenko, Yuriy A. Vasilev, Nicholas S. Kulberg, Andrey V. Samorodov, Anton V. Vladzimirskyy, Olga V. Omelyanskaya and Roman V. Reshetnikov | (参考訳) 背景と目的: CTAは腹部大動脈の術前診断における金の基準であり、通常は幾何学的特徴抽出に用いられる。
血管内コントラスト剤の動的挙動を記述するモデルが,CTAの定期的な研究データから開発できると仮定し,追加の灌流CT研究を必要とせず,その手順を検討・最適化することができると仮定した。
CAの取得した空間分布は、特定の研究の診断値の増大とCTデータ処理ツールの改善の両方に有用である。
方法:Beer-Lambert法と血液とCAの化学相互作用の欠如に基づき,CT信号密度に決定論的CA誘発成分が存在することを仮定した。
二重シグモイド構造を有するモデルでは, 血行力学特性に関連する6つの係数を含む。
このモデルを検証するために,公開ソースから取得したctaデータに対して,3次元スライサアプリケーションを用いてエキスパートセグメンテーションを行った。
このモデルは、レベンベルク・マーカルト最適化を用いた非線形最小二乗法を用いてデータに適合した。
結果: 594 CTA画像(中央値144スライス, IQR [134; 158.5]; 1:1正常:病理学的バランス)を解析した。
適合性の良さはウィルコックス試験(p-値 > 0.05)によって証明された。
提案モデルでは局所異常(動脈瘤,血栓,動脈分岐)による正常血流および血行動態障害を正しくシミュレーションした。
結論: 提案手法は, 船舶のCAモデリング, CTA画像処理の改善, 人工知能のための合成CTトレーニングデータの作成に有用である。 Background and objective: CTA is a gold standard of preoperative diagnosis of abdominal aorta and typically used for geometric-only characteristic extraction. We assume that a model describing the dynamic behavior of the contrast agent in the vessel can be developed from the data of routine CTA studies, allowing the procedure to be investigated and optimized without the need for additional perfusion CT studies. Obtained spatial distribution of CA can be valuable for both increasing the diagnostic value of a particular study and improving the CT data processing tools. Methods: In accordance with the Beer-Lambert law and the absence of chemical interaction between blood and CA, we postulated the existence of a deterministic CA-induced component in the CT signal density. The proposed model, having a double-sigmoid structure, contains six coefficients relevant to the properties of hemodynamics. To validate the model, expert segmentation was performed using the 3D Slicer application for the CTA data obtained from publicly available source. The model was fitted to the data using the non-linear least square method with Levenberg-Marquardt optimization. Results: We analyzed 594 CTA images (4 studies with median size of 144 slices, IQR [134; 158.5]; 1:1 normal:pathology balance). Goodness-of-fit was proved by Wilcox test (p-value > 0.05 for all cases). The proposed model correctly simulated normal blood flow and hemodynamics disturbances caused by local abnormalities (aneurysm, thrombus and arterial branching). Conclusions: Proposed approach can be useful for personalized CA modeling of vessels, improvement of CTA image processing and preparation of synthetic CT training data for artificial intelligence. | 翻訳日:2023-11-01 16:12:07 公開日:2023-10-31 |
# 顔に息を吹き込む:自然な頭部と詳細な形状の3次元顔アニメーション Breathing Life into Faces: Speech-driven 3D Facial Animation with Natural Head Pose and Detailed Shape ( http://arxiv.org/abs/2310.20240v1 ) ライセンス: Link先を確認 | Wei Zhao, Yijun Wang, Tianyu He, Lianying Yin, Jianxin Lin, Xin Jin | (参考訳) ライフライクな音声駆動3d顔アニメーションの作成は、音声入力と表情の自然な正確な同期を必要とする。
しかし、現存する作品は、フレキシブルな頭部ポーズと自然な顔の細部(例えばしわ)で形を表現できない。
この制限は主に2つの側面による。
1) 詳細な3次元顔形状の収集訓練は高い費用がかかる。
この詳細な形状アノテーションの不足は、表現力のある顔アニメーションを用いたモデルのトレーニングを妨げる。
2) 口の動きと比較すると, 頭部のポーズは発話内容と相関しない。
したがって、口の動きと頭の位置の同時モデリングは、顔の動き制御性の欠如をもたらす。
これらの課題に対処するために,我々は,フレキシブルな頭部ポーズと自然な顔詳細を特徴とする音声駆動3d顔アニメーションを容易にするために設計された新しいフレームワークである vividtalker を紹介する。
具体的には、顔のアニメーションを頭ポーズと口の動きに明確に切り離し、個別の潜伏空間に符号化する。
次にこれらの属性は、ウィンドウベースのTransformerアーキテクチャを活用する自動回帰プロセスを通じて生成される。
3d顔アニメーションの豊かさを高めるために,詳細な形状を持つ新しい3dデータセットを構築し,音声コンテンツに合わせて顔の詳細を合成することを学ぶ。
広汎な量的および質的な実験により、VividTalkerは最先端の手法より優れており、鮮明でリアルな3D顔アニメーションが実現される。 The creation of lifelike speech-driven 3D facial animation requires a natural and precise synchronization between audio input and facial expressions. However, existing works still fail to render shapes with flexible head poses and natural facial details (e.g., wrinkles). This limitation is mainly due to two aspects: 1) Collecting training set with detailed 3D facial shapes is highly expensive. This scarcity of detailed shape annotations hinders the training of models with expressive facial animation. 2) Compared to mouth movement, the head pose is much less correlated to speech content. Consequently, concurrent modeling of both mouth movement and head pose yields the lack of facial movement controllability. To address these challenges, we introduce VividTalker, a new framework designed to facilitate speech-driven 3D facial animation characterized by flexible head pose and natural facial details. Specifically, we explicitly disentangle facial animation into head pose and mouth movement and encode them separately into discrete latent spaces. Then, these attributes are generated through an autoregressive process leveraging a window-based Transformer architecture. To augment the richness of 3D facial animation, we construct a new 3D dataset with detailed shapes and learn to synthesize facial details in line with speech content. Extensive quantitative and qualitative experiments demonstrate that VividTalker outperforms state-of-the-art methods, resulting in vivid and realistic speech-driven 3D facial animation. | 翻訳日:2023-11-01 16:11:39 公開日:2023-10-31 |
# 多カテゴリー学習を用いた時間関係分類のための動的更新イベント表現 Dynamically Updating Event Representations for Temporal Relation Classification with Multi-category Learning ( http://arxiv.org/abs/2310.20236v1 ) ライセンス: Link先を確認 | Fei Cheng, Masayuki Asahara, Ichiro Kobayashi, Sadao Kurohashi | (参考訳) 時間的関係分類は、事象、時間、文書作成時間(DCT)という2つの言及の間の時間的リンク(TLINK)の関係を特定するためのペアワイズタスクである。
これは2つの重要な限界をもたらします
1)共通の言及を含む2つのTLINKは情報を共有しない。
2)TLINKカテゴリごとに独立した分類器を持つ既存のモデル(E2E,E2T,E2D)は,全データの使用を妨げる。
本稿では,複数のTLINK間で動的イベント表現を管理するイベント中心モデルを提案する。
我々のモデルは3つのTLINKカテゴリとマルチタスク学習を扱い、データサイズを最大限に活用する。
実験結果から,本提案手法は,英語と日本語のデータに基づいて,最先端のモデルと2つの転移学習ベースラインより優れていることが示された。 Temporal relation classification is a pair-wise task for identifying the relation of a temporal link (TLINK) between two mentions, i.e. event, time, and document creation time (DCT). It leads to two crucial limits: 1) Two TLINKs involving a common mention do not share information. 2) Existing models with independent classifiers for each TLINK category (E2E, E2T, and E2D) hinder from using the whole data. This paper presents an event centric model that allows to manage dynamic event representations across multiple TLINKs. Our model deals with three TLINK categories with multi-task learning to leverage the full size of data. The experimental results show that our proposal outperforms state-of-the-art models and two transfer learning baselines on both the English and Japanese data. | 翻訳日:2023-11-01 16:11:17 公開日:2023-10-31 |
# HEDNet:ポイントクラウドにおける3次元オブジェクト検出のための階層エンコーダデコーダネットワーク HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2310.20234v1 ) ライセンス: Link先を確認 | Gang Zhang, Junnan Chen, Guohuan Gao, Jianmin Li, Xiaolin Hu | (参考訳) ポイントクラウドにおける3次元物体検出は、自動運転システムにとって重要である。
3Dオブジェクト検出における主な課題は、3Dシーン内の点のスパース分布に起因する。
既存の高性能手法では、3次元スパース畳み込みニューラルネットワークと小さなカーネルを用いて特徴を抽出する。
計算コストを削減するために、これらの手法は、空間的に切り離された特徴間の情報交換を妨げる疎結合な畳み込みに依存する。
最近のアプローチでは、大きなカーネル畳み込みや自己アテンション機構を導入することでこの問題に対処しようと試みているが、それらは限られた精度向上を達成するか、過剰な計算コストを発生させるかのどちらかである。
本研究では,3次元物体検出のための階層型エンコーダ・デコーダネットワークであるhednetを提案する。
Waymo OpenおよびnuScenesデータセットに関する広範な実験を行った。
HEDNetは、競合効率の高い従来の最先端の手法よりも、両方のデータセットにおいて優れた検出精度を達成した。
コードはhttps://github.com/zhanggang001/hednetで入手できる。 3D object detection in point clouds is important for autonomous driving systems. A primary challenge in 3D object detection stems from the sparse distribution of points within the 3D scene. Existing high-performance methods typically employ 3D sparse convolutional neural networks with small kernels to extract features. To reduce computational costs, these methods resort to submanifold sparse convolutions, which prevent the information exchange among spatially disconnected features. Some recent approaches have attempted to address this problem by introducing large-kernel convolutions or self-attention mechanisms, but they either achieve limited accuracy improvements or incur excessive computational costs. We propose HEDNet, a hierarchical encoder-decoder network for 3D object detection, which leverages encoder-decoder blocks to capture long-range dependencies among features in the spatial space, particularly for large and distant objects. We conducted extensive experiments on the Waymo Open and nuScenes datasets. HEDNet achieved superior detection accuracy on both datasets than previous state-of-the-art methods with competitive efficiency. The code is available at https://github.com/zhanggang001/HEDNet. | 翻訳日:2023-11-01 16:11:01 公開日:2023-10-31 |
# 強い駆動場による2つの結合量子ビットの散逸絡み制御 Dissipation entanglement control of two coupled qubits via strong driving fields ( http://arxiv.org/abs/2310.20229v1 ) ライセンス: Link先を確認 | M. V. Bastrakova and V. O. Munyaev | (参考訳) 強駆動場における2つの連結磁束超伝導量子ビット系の散逸的に安定な収束を計算するための解析理論を開発した。
ランドウ-ツェナー-シュタッケルベルク-マヨルダナの干渉による多光子遷移領域の形成における絡み合い状態の生成と破壊の条件が見いだされ、フロッケ-マルコフ方程式の解に基づいて、デコヒーレンスの影響を考慮しつつ、キュービット状態間の絡み合いを効果的に制御するためにdc-及びac-フィールドの振幅を調整する手法が提案されている。 An analytical theory to calculate the dissipatively stable concurrence in the system of two coupled flux superconducting qubits in the strong driving field is developed. The conditions for the entanglement state generation and destruction during the formation of the multiphoton transitions regions due to the interference of Landau--Zener--St\"uckelberg--Majorana are found. Based on the solution of the Floquet--Markov equation, the technique is proposed to adjust the amplitudes of dc- and ac-fields for effective control of the entanglement between qubit states while taking into account the effects of the decoherence. | 翻訳日:2023-11-01 16:10:42 公開日:2023-10-31 |
# VisPercep: 盲目・低視者に対する視覚知覚を高める視覚言語アプローチ VisPercep: A Vision-Language Approach to Enhance Visual Perception for People with Blindness and Low Vision ( http://arxiv.org/abs/2310.20225v1 ) ライセンス: Link先を確認 | Yu Hao, Fan Yang, Hao Huang, Shuaihang Yuan, Sundeep Rangan, John-Ross Rizzo, Yao Wang, Yi Fang | (参考訳) 視覚障害者(pBLV)は、不慣れな環境での総合的なシーン認識と正確な物体識別に関して、重大な課題に遭遇する。
さらに、視力喪失のため、pBLVは自力でトリッピングの危険性にアクセスし識別することが困難である。
本稿では,pBLVの視覚知覚を高めるために,大規模視覚言語モデルを活用した先駆的アプローチを提案する。
本手法は,撮像された画像に存在するすべての共通物体を識別するために,大きな画像タグ付けモデル(ram)を活用することから始まる。
認識結果とユーザクエリはプロンプトに統合され、プロンプトエンジニアリングを使用してpBLV用に特別に調整される。
プロンプトと入力画像を組み合わせることで、大規模視覚言語モデル(インストラクションBLIP)が環境の詳細かつ包括的な記述を生成し、そのプロンプトに関連する環境オブジェクトやシーンを分析して、環境の潜在的なリスクを特定する。
本手法は,屋内および屋外のデータセットで行った実験を通して評価する。
本手法は,物体を正確に認識でき,pblvの環境に関する洞察に富んだ記述と分析が行えることを示す。 People with blindness and low vision (pBLV) encounter substantial challenges when it comes to comprehensive scene recognition and precise object identification in unfamiliar environments. Additionally, due to the vision loss, pBLV have difficulty in accessing and identifying potential tripping hazards on their own. In this paper, we present a pioneering approach that leverages a large vision-language model to enhance visual perception for pBLV, offering detailed and comprehensive descriptions of the surrounding environments and providing warnings about the potential risks. Our method begins by leveraging a large image tagging model (i.e., Recognize Anything (RAM)) to identify all common objects present in the captured images. The recognition results and user query are then integrated into a prompt, tailored specifically for pBLV using prompt engineering. By combining the prompt and input image, a large vision-language model (i.e., InstructBLIP) generates detailed and comprehensive descriptions of the environment and identifies potential risks in the environment by analyzing the environmental objects and scenes, relevant to the prompt. We evaluate our approach through experiments conducted on both indoor and outdoor datasets. Our results demonstrate that our method is able to recognize objects accurately and provide insightful descriptions and analysis of the environment for pBLV. | 翻訳日:2023-11-01 16:10:26 公開日:2023-10-31 |
# 表Aを選択する: 乗客軌道クラスタリングのためのグラフ付きテンソルディリクレプロセス多相混合モデル Choose A Table: Tensor Dirichlet Process Multinomial Mixture Model with Graphs for Passenger Trajectory Clustering ( http://arxiv.org/abs/2310.20224v1 ) ライセンス: Link先を確認 | Ziyue Li, Hao Yan, Chen Zhang, Lijun Sun, Wolfgang Ketter, Fugee Tsung | (参考訳) 軌道記録に基づく乗客クラスタリングは輸送事業者にとって不可欠である。
しかし, 既存の方法では, 旅行情報に階層構造があるため, 乗客のクラスタリングが困難であり, 旅行情報には複数の旅行情報と多次元情報が含まれる。
さらに、既存のアプローチは、開始するクラスタリング番号の正確な仕様に依存しています。
最後に、既存の手法では位置間の地理的近接や機能的類似性といった空間意味グラフは考慮していない。
本稿では,多次元トリップ情報の階層構造を保存し,クラスタ数を自動決定可能な一段階的にクラスタ化できるグラフを用いた,新しいテンソルディリクレ過程多項混合モデルを提案する。
空間グラフはコミュニティ検出に利用され、意味の隣人をリンクする。
さらに,最小クラスタサイズ要件を持つCollapsed Gibbs Smpling法のテンソルバージョンを提案する。
香港地下鉄の旅客データに基づくケーススタディを行い,クラスタ内コンパクト性とクラスタ間分離性を用いてクラスタ量変化の自動プロセスとクラスタ品質の向上を実証した。
コードはhttps://github.com/bonaldli/tensordpmm-gで入手できる。 Passenger clustering based on trajectory records is essential for transportation operators. However, existing methods cannot easily cluster the passengers due to the hierarchical structure of the passenger trip information, including multiple trips within each passenger and multi-dimensional information about each trip. Furthermore, existing approaches rely on an accurate specification of the clustering number to start. Finally, existing methods do not consider spatial semantic graphs such as geographical proximity and functional similarity between the locations. In this paper, we propose a novel tensor Dirichlet Process Multinomial Mixture model with graphs, which can preserve the hierarchical structure of the multi-dimensional trip information and cluster them in a unified one-step manner with the ability to determine the number of clusters automatically. The spatial graphs are utilized in community detection to link the semantic neighbors. We further propose a tensor version of Collapsed Gibbs Sampling method with a minimum cluster size requirement. A case study based on Hong Kong metro passenger data is conducted to demonstrate the automatic process of cluster amount evolution and better cluster quality measured by within-cluster compactness and cross-cluster separateness. The code is available at https://github.com/bonaldli/TensorDPMM-G. | 翻訳日:2023-11-01 16:09:46 公開日:2023-10-31 |
# STDA-Meta:Few-Shotトラフィック予測のためのメタ学習フレームワーク STDA-Meta: A Meta-Learning Framework for Few-Shot Traffic Prediction ( http://arxiv.org/abs/2310.20223v1 ) ライセンス: Link先を確認 | Maoxiang Sun, Weilong Ding, Tianpu Zhang, Zijian Liu, Mengda Xing | (参考訳) 都市の発展に伴い、交通渋滞はますます深刻な問題となり、交通予測はその問題を緩和するための古典的な方法である。
交通予測は、タクシーのスケジューリング、天気予報、船舶の軌道予測のような時空間予測学習の特定の応用である。
これらの問題に対して、ディープラーニングを含む古典時空間予測学習法は、大量のトレーニングデータを必要とする。
実際には、センサーが不十分な新しい都市では、その仮定を守れず、データの不足は予測性能を悪化させる。
このような状況下では、不十分なデータに対する学習方法は、少ショット学習(FSL)と呼ばれ、交通予測のFSLは依然として課題である。
一方,グラフ構造の不規則性と動的性質は時空間学習法の性能を保持できない。
一方,異なる領域から対象領域に知識を移す場合,従来の領域適応法は不十分なトレーニングデータではうまく機能しない。これらの課題に対処するため,データ不足都市から移動可能な時空間的メタ知識を相反的に学習する新しい時空間的領域適応法を提案する。
この学習されたメタ知識は、データスカース都市の予測性能を向上させることができる。
具体的には,モデルに依存しないメタラーニング(MAML)に基づくエピソード学習プロセスを用いてSTDAモデルを訓練する。
本研究では,4つのトラヒック予測データセットについて多数の実験を行い,本モデルの予測性能がmaeとrmseの2つの指標のベースラインモデルと比較して7\%向上したことを示す。 As the development of cities, traffic congestion becomes an increasingly pressing issue, and traffic prediction is a classic method to relieve that issue. Traffic prediction is one specific application of spatio-temporal prediction learning, like taxi scheduling, weather prediction, and ship trajectory prediction. Against these problems, classical spatio-temporal prediction learning methods including deep learning, require large amounts of training data. In reality, some newly developed cities with insufficient sensors would not hold that assumption, and the data scarcity makes predictive performance worse. In such situation, the learning method on insufficient data is known as few-shot learning (FSL), and the FSL of traffic prediction remains challenges. On the one hand, graph structures' irregularity and dynamic nature of graphs cannot hold the performance of spatio-temporal learning method. On the other hand, conventional domain adaptation methods cannot work well on insufficient training data, when transferring knowledge from different domains to the intended target domain.To address these challenges, we propose a novel spatio-temporal domain adaptation (STDA) method that learns transferable spatio-temporal meta-knowledge from data-sufficient cities in an adversarial manner. This learned meta-knowledge can improve the prediction performance of data-scarce cities. Specifically, we train the STDA model using a Model-Agnostic Meta-Learning (MAML) based episode learning process, which is a model-agnostic meta-learning framework that enables the model to solve new learning tasks using only a small number of training samples. We conduct numerous experiments on four traffic prediction datasets, and our results show that the prediction performance of our model has improved by 7\% compared to baseline models on the two metrics of MAE and RMSE. | 翻訳日:2023-11-01 16:09:15 公開日:2023-10-31 |
# 変圧器を用いた長期連続予測システムの検討 A Systematic Review for Transformer-based Long-term Series Forecasting ( http://arxiv.org/abs/2310.20218v1 ) ライセンス: Link先を確認 | Liyilei Su, Xumin Zuo, Rui Li, Xin Wang, Heng Zhao and Bingding Huang | (参考訳) ディープラーニングの出現は、時系列予測(TSF)において注目すべき進歩をもたらした。
特にトランスフォーマーアーキテクチャは、tsfタスクで広く利用され、採用されている。
変換器は長い配列内の要素間の意味的相関を抽出する最も成功した解であることが証明されている。
様々なバリエーションにより、トランスフォーマーアーキテクチャは長期時系列予測(LTSF)タスクを効果的に扱えるようになった。
本稿では,まずトランスフォーマーアーキテクチャの概要を概説し,その拡張によって様々なLTSFタスクに対処する。
次に、公開されているLTSFデータセットと関連する評価指標を要約する。
さらに,時系列分析の文脈でトランスフォーマーを効果的にトレーニングするためのベストプラクティスとテクニックについて,貴重な知見を提供する。
最後に,この急速に発展する分野における潜在的研究の方向性を提案する。 The emergence of deep learning has yielded noteworthy advancements in time series forecasting (TSF). Transformer architectures, in particular, have witnessed broad utilization and adoption in TSF tasks. Transformers have proven to be the most successful solution to extract the semantic correlations among the elements within a long sequence. Various variants have enabled transformer architecture to effectively handle long-term time series forecasting (LTSF) tasks. In this article, we first present a comprehensive overview of transformer architectures and their subsequent enhancements developed to address various LTSF tasks. Then, we summarize the publicly available LTSF datasets and relevant evaluation metrics. Furthermore, we provide valuable insights into the best practices and techniques for effectively training transformers in the context of time-series analysis. Lastly, we propose potential research directions in this rapidly evolving field. | 翻訳日:2023-11-01 16:07:54 公開日:2023-10-31 |
# IARS SegNet: メラノーマセグメンテーションのための解釈可能なアテンション残差スキップ接続 SegNet IARS SegNet: Interpretable Attention Residual Skip connection SegNet for melanoma segmentation ( http://arxiv.org/abs/2310.20292v1 ) ライセンス: Link先を確認 | Shankara Narayanan V, Sikha OK, Raul Benitez | (参考訳) メラノーマの診断において皮膚病変の分節は重要な役割を担っている。
深層学習モデルは皮膚の病変を正確に分類する上で有望であるが、実際の臨床環境において広く採用されていることは、その固有のブラックボックスの性質によって妨げられている。
医療のように重要なドメインでは、解釈性は単なる機能ではなく、モデル導入の基本的な要件です。
本稿では,SegNetベースラインモデルに基づく高度なセグメンテーションフレームワークIARS SegNetを提案する。
提案手法には,スキー接続,残差畳み込み,セグネットアーキテクチャへのグローバルアテンション機構の3つの重要な要素が組み込まれている。
これらの要素は、臨床関連領域、特に皮膚病変の輪郭の重要性を強調する上で重要な役割を果たす。
スキップ接続が組み込まれれば、複雑な輪郭の詳細を学習する能力が向上する一方、残差畳み込みを用いることで、重要な画像の特徴を保持しながらより深いモデルを構築することができる。
グローバルアテンション機構は、各畳み込みブロックとデ畳み込みブロックから洗練された特徴マップを抽出し、モデルの解釈可能性を高めることによってさらに寄与する。
この強化は重要な領域を強調し、より理解を深め、メラノーマ診断のためのより正確な皮膚病変の分節につながる。 Skin lesion segmentation plays a crucial role in the computer-aided diagnosis of melanoma. Deep Learning models have shown promise in accurately segmenting skin lesions, but their widespread adoption in real-life clinical settings is hindered by their inherent black-box nature. In domains as critical as healthcare, interpretability is not merely a feature but a fundamental requirement for model adoption. This paper proposes IARS SegNet an advanced segmentation framework built upon the SegNet baseline model. Our approach incorporates three critical components: Skip connections, residual convolutions, and a global attention mechanism onto the baseline Segnet architecture. These elements play a pivotal role in accentuating the significance of clinically relevant regions, particularly the contours of skin lesions. The inclusion of skip connections enhances the model's capacity to learn intricate contour details, while the use of residual convolutions allows for the construction of a deeper model while preserving essential image features. The global attention mechanism further contributes by extracting refined feature maps from each convolutional and deconvolutional block, thereby elevating the model's interpretability. This enhancement highlights critical regions, fosters better understanding, and leads to more accurate skin lesion segmentation for melanoma diagnosis. | 翻訳日:2023-11-01 15:59:45 公開日:2023-10-31 |
# リセット型ディープアンサンブルエージェントによるサンプル効率と安全な深層強化学習 Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents ( http://arxiv.org/abs/2310.20287v1 ) ライセンス: Link先を確認 | Woojun Kim, Yongjae Shin, Jongeui Park, Youngchul Sung | (参考訳) 深部ニューラルネットワーク(DNN)を関数近似器として統合することで、複雑なタスクの解決において、深部強化学習(RL)は顕著に成功している。
しかし、DNNへの依存は、プライマリーバイアスと呼ばれる新しい課題を導入し、これらの関数近似器は初期の経験を優先し、過度に適合する傾向がある。
このプライマリーバイアスを軽減するために、リプレイバッファを保存しながら深部RLエージェントの一部または全部の定期的なリセットを行うリセット法が提案されている。
しかし、リセットメソッドを使用することで、リセットの実行後にパフォーマンスが低下し、安全なrlと後悔の最小化の観点から有害になる可能性がある。
本稿では,深層アンサンブル学習を活用し,バニラリセット法の限界に対処し,サンプル効率を向上させる新しいリセットベース手法を提案する。
提案手法は安全なRL領域を含む様々な実験により評価される。
実験結果から,高い試料効率と安全性について考察した。 Deep reinforcement learning (RL) has achieved remarkable success in solving complex tasks through its integration with deep neural networks (DNNs) as function approximators. However, the reliance on DNNs has introduced a new challenge called primacy bias, whereby these function approximators tend to prioritize early experiences, leading to overfitting. To mitigate this primacy bias, a reset method has been proposed, which performs periodic resets of a portion or the entirety of a deep RL agent while preserving the replay buffer. However, the use of the reset method can result in performance collapses after executing the reset, which can be detrimental from the perspective of safe RL and regret minimization. In this paper, we propose a new reset-based method that leverages deep ensemble learning to address the limitations of the vanilla reset method and enhance sample efficiency. The proposed method is evaluated through various experiments including those in the domain of safe RL. Numerical results show its effectiveness in high sample efficiency and safety considerations. | 翻訳日:2023-11-01 15:59:24 公開日:2023-10-31 |
# 不確実性計算による一般化線形モデルの高速化 Accelerating Generalized Linear Models by Trading off Computation for Uncertainty ( http://arxiv.org/abs/2310.20285v1 ) ライセンス: Link先を確認 | Lukas Tatzel, Jonathan Wenger, Frank Schneider, Philipp Hennig | (参考訳) ベイズ一般化線形モデル(glms)は、カテゴリー、順序、連続データをモデル化するための柔軟な確率的枠組みを定義し、実際に広く使われている。
しかし、GLMの正確な推測は大規模なデータセットでは違法に高価であり、実際には近似を必要とする。
その結果生じる近似誤差はモデルの信頼性に悪影響を与え、予測の不確実性には考慮されない。
本稿では,このエラーを明示的にモデル化する反復的手法のファミリーを紹介する。
これらは並列コンピューティングハードウェアに特化しており、計算を効率よくリサイクルし、GLMの時間とメモリの要求の両方を減らすために情報を圧縮する。
本手法は,不確かさを増大させるために,減算計算を明示的に切り換えることで,トレーニングを著しく高速化する。 Bayesian Generalized Linear Models (GLMs) define a flexible probabilistic framework to model categorical, ordinal and continuous data, and are widely used in practice. However, exact inference in GLMs is prohibitively expensive for large datasets, thus requiring approximations in practice. The resulting approximation error adversely impacts the reliability of the model and is not accounted for in the uncertainty of the prediction. In this work, we introduce a family of iterative methods that explicitly model this error. They are uniquely suited to parallel modern computing hardware, efficiently recycle computations, and compress information to reduce both the time and memory requirements for GLMs. As we demonstrate on a realistically large classification problem, our method significantly accelerates training by explicitly trading off reduced computation for increased uncertainty. | 翻訳日:2023-11-01 15:59:08 公開日:2023-10-31 |
# BizITOpsデータを用いた多変量時系列予測のためのAutoMixer AutoMixer for Improved Multivariate Time-Series Forecasting on BizITOps Data ( http://arxiv.org/abs/2310.20280v1 ) ライセンス: Link先を確認 | Santosh Palaskar, Vijay Ekambaram, Arindam Jati, Neelamadhav Gantayat, Avirup Saha, Seema Nagar, Nam H. Nguyen, Pankaj Dayama, Renuka Sindhgatta, Prateeti Mohapatra, Harshit Kumar, Jayant Kalagnanam, Nandyala Hemachandra, Narayan Rangaraj | (参考訳) ビジネスプロセスの効率性はビジネスキーのパフォーマンス指標(Biz-KPI)に依存します。
BizITOpsデータは、Biz-KPIとITイベントチャネルを多変量時系列データとして融合する。
前もってBiz-KPIを予測することは、積極的な補正措置によって効率と収益を高めることができる。
しかし、BizITOpsのデータは一般的に、効果的に分離する必要があるBiz-KPIとITイベントのチャネル間相互作用の両方に有用でノイズの多いものである。
これにより、既存の多変量予測モデルを用いる場合の最適下予測性能が向上する。
そこで我々は,チャネル圧縮プレトレインおよびファインチューンワークフローの新たな技術に基づいて,時系列ファウンデーションモデル(FM)アプローチであるAutoMixerを紹介する。
AutoMixerはチャネル圧縮プレトレーニングにAutoEncoderを活用し、マルチ変数時系列予測のための高度なTSMixerモデルと統合する。
この融合により、正確な予測のためのTSMixerの有効性が大幅に向上し、下流のタスクをうまく一般化する。
詳細な実験とダッシュボード分析を通じて、行動可能なビジネスインサイトに直接変換するBiz-KPIの予測精度(11~15%)を一貫して改善するAutoMixerの機能を示す。 The efficiency of business processes relies on business key performance indicators (Biz-KPIs), that can be negatively impacted by IT failures. BizITOps data fuses both Biz-KPIs and IT event channels together as multivariate time series data. Forecasting Biz-KPIs in advance can enhance efficiency and revenue through proactive corrective measures. However, BizITOps data generally exhibit both useful and noisy inter-channel interactions between Biz-KPIs and IT events that need to be effectively decoupled. This leads to suboptimal forecasting performance when existing multivariate forecasting models are employed. To address this, we introduce AutoMixer, a time-series Foundation Model (FM) approach, grounded on the novel technique of channel-compressed pretrain and finetune workflows. AutoMixer leverages an AutoEncoder for channel-compressed pretraining and integrates it with the advanced TSMixer model for multivariate time series forecasting. This fusion greatly enhances the potency of TSMixer for accurate forecasts and also generalizes well across several downstream tasks. Through detailed experiments and dashboard analytics, we show AutoMixer's capability to consistently improve the Biz-KPI's forecasting accuracy (by 11-15%) which directly translates to actionable business insights. | 翻訳日:2023-11-01 15:58:52 公開日:2023-10-31 |
# 低電子線量LC-TEMによるIn situ画像の機械学習による精細化 Machine learning refinement of in situ images acquired by low electron dose LC-TEM ( http://arxiv.org/abs/2310.20279v1 ) ライセンス: Link先を確認 | Hiroyasu Katsuno, Yuki Kimura, Tomoya Yamazaki and Ichigaku Takigawa | (参考訳) 液晶透過電子顕微鏡(LC-TEM)を用いたその場観察で得られた画像の精細化のための機械学習(ML)技術について検討した。
本モデルはu-netアーキテクチャとresnetエンコーダを用いて構築する。
MLモデルをトレーニングするために、ソリューションなしで得られたサンプルのペアのイメージを含む、オリジナルのイメージデータセットを作成しました。
従来の画像はノイズの多い画像として使用し、後者は対応する真理の画像として使用した。
画像セットのペア数は1,204ドルで、画像セットにはいくつかの異なる倍率と電子線量で取得された画像が含まれている。
訓練されたモデルは、ノイズの多い画像をクリアなイメージに変換しました。
変換に要する時間は10msのオーダーであり,ソフトウェアgatan digital micrograph (dm) を用いたその場観察に適用した。
ナノ粒子が低電子線量のためDMソフトのビューウインドウでは見えなかったとしても,MLモデルにより連続した精細化画像で見ることができた。 We study a machine learning (ML) technique for refining images acquired during in situ observation using liquid-cell transmission electron microscopy (LC-TEM). Our model is constructed using a U-Net architecture and a ResNet encoder. For training our ML model, we prepared an original image dataset that contained pairs of images of samples acquired with and without a solution present. The former images were used as noisy images and the latter images were used as corresponding ground truth images. The number of pairs of image sets was $1,204$ and the image sets included images acquired at several different magnifications and electron doses. The trained model converted a noisy image into a clear image. The time necessary for the conversion was on the order of 10ms, and we applied the model to in situ observations using the software Gatan DigitalMicrograph (DM). Even if a nanoparticle was not visible in a view window in the DM software because of the low electron dose, it was visible in a successive refined image generated by our ML model. | 翻訳日:2023-11-01 15:58:35 公開日:2023-10-31 |
# オープンソースのブロックチェーンソフトウェアヘルスの構造方程式モデルに向けて Towards a Structural Equation Model of Open Source Blockchain Software Health ( http://arxiv.org/abs/2310.20277v1 ) ライセンス: Link先を確認 | Jeff Nijsse, Alan Litchfield | (参考訳) ソフトウェア開発をコーディネートするコミュニケートプラットフォームとして、ソフトウェア開発者の間でgithubが広く使われていることから、公開アクセス可能なデータの豊富な供給につながった。
Bitcoinの登場以来、ブロックチェーンチームは、オープンソースのコードの概念を基本原則として取り入れており、ブロックチェーンベースのプロジェクトコードとバージョン管理データの大半を分析に利用している。
オープンソースソフトウェアプロジェクトの健全性は、持続可能性、堅牢性、ニッチな職業の概念の組み合わせであると定義しています。
持続可能性はさらに関心とエンゲージメントに分けられる。
この研究は探索的因子分析を使用して、一般大衆の関心やソフトウェアの人気を代表する潜在構造や、オープンソースブロックチェーンプロジェクトにおけるソフトウェアの堅牢性を特定する。
興味深いのは、GitHubリポジトリにある星、フォーク、テキストの言及の組み合わせであり、ロバスト性のための第2の要因は、臨界スコア、前回の更新以来の時間、数値ランク、地理的分布であることです。
モデルの優れたサポートにより、データセットのクロス検証が実行される。
ソフトウェアヘルスの構造モデルが提案され、一般の関心が開発者のエンゲージメントに肯定的な影響を与え、ソフトウェアの堅牢性を肯定的に予測する。
ソフトウェア工学の文脈における構造方程式モデリングの影響と次のステップについて論じる。 The widespread use of GitHub among software developers as a communal platform for coordinating software development has led to an abundant supply of publicly accessible data. Ever since the inception of Bitcoin, blockchain teams have incorporated the concept of open source code as a fundamental principle, thus making the majority of blockchain-based projects' code and version control data available for analysis. We define health in open source software projects to be a combination of the concepts of sustainability, robustness, and niche occupation. Sustainability is further divided into interest and engagement. This work uses exploratory factor analysis to identify latent constructs that are representative of general public interest or popularity in software, and software robustness within open source blockchain projects. We find that interest is a combination of stars, forks, and text mentions in the GitHub repository, while a second factor for robustness is composed of a criticality score, time since last updated, numerical rank, and geographic distribution. Cross validation of the dataset is carried out with good support for the model. A structural model of software health is proposed such that general interest positively influences developer engagement, which, in turn, positively predicts software robustness. The implications of structural equation modelling in the context of software engineering and next steps are discussed. | 翻訳日:2023-11-01 15:58:16 公開日:2023-10-31 |
# 比較製品レビューから利害関係を抽出する Extracting Entities of Interest from Comparative Product Reviews ( http://arxiv.org/abs/2310.20274v1 ) ライセンス: Link先を確認 | Jatin Arora, Sumit Agrawal, Pawan Goyal and Sayan Pathak | (参考訳) 本稿では,各種電子商取引サイトにおけるユーザレビューから製品比較情報を抽出するための深層学習に基づくアプローチを提案する。
比較製品レビューには、比較対象製品の名前、ユーザーの意見(述語)、比較対象の機能または側面の3つの主要な要素がある。
これらの通知エンティティはすべて互いに依存しており、レビューでは言語のルールに縛られている。
LSTMを用いて,それらの相互依存性をよく捉えることができる。
我々は、既存の手動ラベル付きデータセット上でシステムを評価し、このタスクで人気のある既存のsrl(semantic role labeling)フレームワークのパフォーマンスを観察する。 This paper presents a deep learning based approach to extract product comparison information out of user reviews on various e-commerce websites. Any comparative product review has three major entities of information: the names of the products being compared, the user opinion (predicate) and the feature or aspect under comparison. All these informing entities are dependent on each other and bound by the rules of the language, in the review. We observe that their inter-dependencies can be captured well using LSTMs. We evaluate our system on existing manually labeled datasets and observe out-performance over the existing Semantic Role Labeling (SRL) framework popular for this task. | 翻訳日:2023-11-01 15:57:57 公開日:2023-10-31 |
# 光子の幾何位相と波動粒子双対性 Geometric phase and wave-particle duality of the photon ( http://arxiv.org/abs/2310.20273v1 ) ライセンス: Link先を確認 | Elvis Pillinen, Atri Halder, Ari T. Friberg, Tero Set\"al\"a, and Andreas Norrman | (参考訳) 幾何学的位相と波動粒子双対性の概念は量子物理学におけるいくつかの基本的な現象と結びついているが、それらの相互関係は依然として未開な問題となっている。
ここでは光子の幾何学的位相を二重スリット干渉で調べることでこの問題に対処する。
特に、観測面に現れる幾何位相と、2つのスリットに格納されるどのパス情報とを接続する光子に対する一般的な相補性関係を見いだす。
この関係は、幾何学的位相を通じて光子の波動粒子双対性を定量化することで、量子物理学研究における2つのユビキタスな概念の間の基礎的な関係を補うことができる。 The concepts of geometric phase and wave-particle duality are interlinked to several fundamental phenomena in quantum physics, but their mutual relationship still forms an uncharted open problem. Here we address this question by studying the geometric phase of a photon in double-slit interference. We especially discover a general complementarity relation for the photon that connects the geometric phase it exhibits in the observation plane and the which-path information it encases at the two slits. The relation can be seen as quantifying wave-particle duality of the photon via the geometric phase, thus corroborating a foundational link between two ubiquitous notions in quantum physics research. | 翻訳日:2023-11-01 15:57:47 公開日:2023-10-31 |
# Few-Shot Class-Incremental Learningのためのサンプル-クラスグラフの構築 Constructing Sample-to-Class Graph for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2310.20268v1 ) ライセンス: Link先を確認 | Fuyuan Hu, Jian Zhang, Fan Lyu, Linyan Li, Fenglei Xu | (参考訳) FSCIL(Few-shot class-incremental Learning)は、古いクラスの知識を忘れずに、少数のデータサンプルから新しい概念を継続的に学習できる機械学習モデルを構築することを目的としている。
fscilの課題は、新しいクラスの限られたデータであり、重大な過剰フィッティング問題につながるだけでなく、悪名高い破滅的な忘れる問題を悪化させる。
初期の研究で証明されたように、サンプル関係の構築は、少数のサンプルから学ぶのに有用である。
本稿では,このアイデアを段階的なシナリオへと推進し,FSCILのためのS2Cグラフ学習手法を提案する。
具体的には,サンプルレベルのグラフネットワーク(SGN)を提案する。
このネットワークは類似のサンプルの収集に役立ち、最終的にはより洗練されたクラスレベルの特徴の抽出に繋がる。
次に,新しいクラスと古いクラスのクラスレベル機能間の接続を確立するクラスレベルグラフネットワーク(cgn)を提案する。
このネットワークは、異なるセッション間で知識を結びつけ、fscilシナリオにおける全体的な学習を改善する上で重要な役割を果たす。
さらに,s2cモデルトレーニングのための多段階戦略を考案し,インクリメンタルプロセスにおける限られたデータによるトレーニング課題を軽減する。
マルチステージトレーニング戦略は、ベースから数ショットステージまでのS2Cグラフの構築と、追加の擬似インクリメンタルステージによるキャパシティ向上を目的としている。
一般的な3つのベンチマークデータセットの実験から,本手法は明らかにベースラインを上回り,FSCILにおける新たな最先端結果を設定する。 Few-shot class-incremental learning (FSCIL) aims to build machine learning model that can continually learn new concepts from a few data samples, without forgetting knowledge of old classes. The challenges of FSCIL lies in the limited data of new classes, which not only lead to significant overfitting issues but also exacerbates the notorious catastrophic forgetting problems. As proved in early studies, building sample relationships is beneficial for learning from few-shot samples. In this paper, we promote the idea to the incremental scenario, and propose a Sample-to-Class (S2C) graph learning method for FSCIL. Specifically, we propose a Sample-level Graph Network (SGN) that focuses on analyzing sample relationships within a single session. This network helps aggregate similar samples, ultimately leading to the extraction of more refined class-level features. Then, we present a Class-level Graph Network (CGN) that establishes connections across class-level features of both new and old classes. This network plays a crucial role in linking the knowledge between different sessions and helps improve overall learning in the FSCIL scenario. Moreover, we design a multi-stage strategy for training S2C model, which mitigates the training challenges posed by limited data in the incremental process. The multi-stage training strategy is designed to build S2C graph from base to few-shot stages, and improve the capacity via an extra pseudo-incremental stage. Experiments on three popular benchmark datasets show that our method clearly outperforms the baselines and sets new state-of-the-art results in FSCIL. | 翻訳日:2023-11-01 15:57:32 公開日:2023-10-31 |
# マルコフ決定過程における平均リターンを超えて Beyond Average Return in Markov Decision Processes ( http://arxiv.org/abs/2310.20266v1 ) ライセンス: Link先を確認 | Alexandre Marthe (ENS de Lyon, UMPA-ENSL), Aur\'elien Garivier (UMPA-ENSL, MC2), Claire Vernade | (参考訳) Markov Decision Processesで正確に計算され、最適化される報酬の機能は何ですか?
有限ホライゾン(有限ホライゾン)では、動的プログラミング(DP)は統計学の特定のクラスに対してのみ効率的にこれらの操作を処理できる。
政策評価におけるこれらのクラスの特徴を要約し,計画問題に対する新たな回答を与える。
興味深いことに,分布強化学習(distributional reinforcement learning, distrl)のより一般的な枠組みにおいても,一般化された手段のみを正確に最適化できることが証明されている。
しかし、DistRLは、他の機能をほぼ評価することができる。
結果から得られた推定値の誤差バウンダリを提供し,本手法の潜在的な可能性とその限界について考察する。これらの結果は,帰路の全体的特性,特にリスク意識的戦略を検証し,マルコフ決定過程の理論の進展に寄与する。 What are the functionals of the reward that can be computed and optimized exactly in Markov Decision Processes? In the finite-horizon, undiscounted setting, Dynamic Programming (DP) can only handle these operations efficiently for certain classes of statistics. We summarize the characterization of these classes for policy evaluation, and give a new answer for the planning problem. Interestingly, we prove that only generalized means can be optimized exactly, even in the more general framework of Distributional Reinforcement Learning (DistRL).DistRL permits, however, to evaluate other functionals approximately. We provide error bounds on the resulting estimators, and discuss the potential of this approach as well as its limitations.These results contribute to advancing the theory of Markov Decision Processes by examining overall characteristics of the return, and particularly risk-conscious strategies. | 翻訳日:2023-11-01 15:57:04 公開日:2023-10-31 |
# ディープラーニングを用いた低次元CT画像強調 Low-Dose CT Image Enhancement Using Deep Learning ( http://arxiv.org/abs/2310.20265v1 ) ライセンス: Link先を確認 | A.Demir, M.M.A.Shames, O.N.Gerek, S.Ergin, M.Fidan, M.Koc, M.B.Gulmezoglu, A.Barkana, C.Calisir | (参考訳) 電離放射線の診断イメージングへの応用は世界中で一般的である。
しかし、イメージングのプロセス自体は、比較的危険な操作である。
したがって、特にCT(Computed tomography)イメージングシステムにおいて、生体組織のスライスを再構築するために複数のX線操作を行う場合において、可能な限り低用量の電離放射線としての使用が好ましい。
CT画像における放射線線量削減の一般的な方法は、X線線量を減らすが、画像のシャープネスを失う可能性がある四分線法として知られている。
指向性X線からのCT画像再構成は非線形過程であるため,線量低減効果の補正が画像品質に与える影響は解析的に困難である。
近年のディープラーニングアプローチは、低用量アーティファクトのイメージ強化に興味深い可能性をもたらしている。
最近の研究では、この目的のために複数のディープラーニングと古典的手法の組み合わせを提案している。
しかし、よく知られたU-NETの直接利用は、低線量のアーティファクトの修正に非常に成功した結果をもたらすことが観察された。
実際の放射線技師によるブラインドテストでは、U-NETの強化された4次元CT画像は、低線量バージョンよりも大きな視覚的改善を提供するだけでなく、フル線量CT画像と比較して診断上好ましい画像になることが示された。 The application of ionizing radiation for diagnostic imaging is common around the globe. However, the process of imaging, itself, remains to be a relatively hazardous operation. Therefore, it is preferable to use as low a dose of ionizing radiation as possible, particularly in computed tomography (CT) imaging systems, where multiple x-ray operations are performed for the reconstruction of slices of body tissues. A popular method for radiation dose reduction in CT imaging is known as the quarter-dose technique, which reduces the x-ray dose but can cause a loss of image sharpness. Since CT image reconstruction from directional x-rays is a nonlinear process, it is analytically difficult to correct the effect of dose reduction on image quality. Recent and popular deep-learning approaches provide an intriguing possibility of image enhancement for low-dose artifacts. Some recent works propose combinations of multiple deep-learning and classical methods for this purpose, which over-complicate the process. However, it is observed here that the straight utilization of the well-known U-NET provides very successful results for the correction of low-dose artifacts. Blind tests with actual radiologists reveal that the U-NET enhanced quarter-dose CT images not only provide an immense visual improvement over the low-dose versions, but also become diagnostically preferable images, even when compared to their full-dose CT versions. | 翻訳日:2023-11-01 15:56:50 公開日:2023-10-31 |
# カオス量子系におけるマイクロカノニカルトランケート作用素のユニタリ対称性の創発 Emergence of unitary symmetry of microcanonically truncated operators in chaotic quantum systems ( http://arxiv.org/abs/2310.20264v1 ) ライセンス: Link先を確認 | Jiaozi Wang, Jonas Richter, Mats H. Lamann, Robin Steinigeweg, Jochen Gemmer, and Anatoly Dymarsky | (参考訳) 一般量子系のエネルギー固有ベイジで書かれ、小さなマイクロカノニカルウィンドウに切り替わる観測可能性について検討し、固有状態熱化仮説に入る行列要素の統計的性質について検討した。
我々は、行列要素の特定のエネルギースケールの集合統計的性質が創発的ユニタリ対称性を示すという図を提唱した。
特に、このスケール以下では、マイクロカノニカル切断作用素のスペクトルは、容易にテスト可能な基準を導入する普遍的な振る舞いを示す。
この図を数値シミュレーションにより支援し、カオス多体量子系における全ての考慮された作用素に対する創発的ユニタリ対称性スケールの存在を実証する。
我々は,このエネルギースケールの演算子とシステムサイズ依存性について論じ,狭義のエネルギー窓におけるランダム行列挙動の出現を探求する過去の研究の文脈を考察した。 We study statistical properties of matrix elements entering the eigenstate thermalization hypothesis by studying the observables written in the energy eigenbasis of generic quantum systems and truncated to small microcanonical windows. We put forward a picture, that below certain energy scale collective statistical properties of matrix elements exhibit emergent unitary symmetry. In particular, below this scale the spectrum of the microcanonically truncated operator exhibits universal behavior for which we introduce readily testable criteria. We support this picture by numerical simulations and demonstrate existence of emergent unitary symmetry scale for all considered operators in chaotic many-body quantum systems. We discuss operator and system-size dependence of this energy scale and put our findings into context of previous works exploring emergence of random-matrix behavior in narrow energy windows. | 翻訳日:2023-11-01 15:56:27 公開日:2023-10-31 |
# 教科書からチェスをする学習(leap) : 感情分析に基づくチェス動作評価のためのコーパス Learning to Play Chess from Textbooks (LEAP): a Corpus for Evaluating Chess Moves based on Sentiment Analysis ( http://arxiv.org/abs/2310.20260v1 ) ライセンス: Link先を確認 | Haifa Alrdahi and Riza Batista-Navarro | (参考訳) チェス戦略の学習は広く研究されており、ほとんどの研究は検索アルゴリズムを用いた以前のゲームからの学習に焦点を当てている。
チェスの教科書はグランドマスターの知識をカプセル化し、プレイ戦略を説明し、従来のチェスエージェントよりも小さな探索空間を必要とする。
本稿では,チェスの遊び方を学ぶための新たな知識源として,チェスの教科書を考察する。
我々は,91ゲームから戦略的な動きを議論する1164の文を含むチェス教科書から収集した構造化(移動記法とボード状態)と非構造化(テキスト記述)のデータセットであるLEAPコーパスを開発した。
まず,その関連性,すなわち移動を議論しているかどうかに基づいて文をラベル付けした。
関連する各文は、記述された移動に対する感情に応じてラベル付けされる。
感情分析のために,様々な変圧器ベースラインモデルの性能を評価する実験を行った。
本研究は, トランスフォーマーを用いた感情分析モデルを用いてチェスの動きを評価することの実現可能性を示し, マイクロF_1スコアが68%であった。
最後に、LEAPコーパスを合成してより大きなデータセットを作成し、チェス領域の限られたテキストリソースのソリューションとして使用できるようにしました。 Learning chess strategies has been investigated widely, with most studies focussing on learning from previous games using search algorithms. Chess textbooks encapsulate grandmaster knowledge, explain playing strategies and require a smaller search space compared to traditional chess agents. This paper examines chess textbooks as a new knowledge source for enabling machines to learn how to play chess -- a resource that has not been explored previously. We developed the LEAP corpus, a first and new heterogeneous dataset with structured (chess move notations and board states) and unstructured data (textual descriptions) collected from a chess textbook containing 1164 sentences discussing strategic moves from 91 games. We firstly labelled the sentences based on their relevance, i.e., whether they are discussing a move. Each relevant sentence was then labelled according to its sentiment towards the described move. We performed empirical experiments that assess the performance of various transformer-based baseline models for sentiment analysis. Our results demonstrate the feasibility of employing transformer-based sentiment analysis models for evaluating chess moves, with the best performing model obtaining a weighted micro F_1 score of 68%. Finally, we synthesised the LEAP corpus to create a larger dataset, which can be used as a solution to the limited textual resource in the chess domain. | 翻訳日:2023-11-01 15:56:12 公開日:2023-10-31 |
# 学習相関潜在空間によるベイズ最適化の進展 Advancing Bayesian Optimization via Learning Correlated Latent Space ( http://arxiv.org/abs/2310.20258v1 ) ライセンス: Link先を確認 | Seunghun Lee, Jaewon Chu, Sihyeon Kim, Juyeon Ko, Hyunwoo J. Kim | (参考訳) ベイズ最適化は機能評価を限定したブラックボックス関数を最適化する強力な手法である。
近年の研究では、可変オートエンコーダのような深い生成モデルによる潜在空間での最適化は、構造化データや離散データのベイズ最適化を効果的かつ効率的に導くことが示されている。
しかし、最適化は入力空間では行われないので、潜在的に最適でない解をもたらす固有のギャップに繋がる。
この差を緩和するために,潜在空間の距離と目的関数内の距離との強い相関関係を特徴とする関連潜時空間の学習に焦点を当てた相関潜時空間ベイズ最適化(CoBO)を提案する。
特に,本手法では,期待領域周辺の固有ギャップを最小限に抑えるために,リプシッツ正則化,損失重み付け,信頼領域調整を導入する。
分子設計や算術式適合などの離散データにおける複数の最適化タスクにおいて,提案手法の有効性を実証し,少ない予算で高い性能を実現する。 Bayesian optimization is a powerful method for optimizing black-box functions with limited function evaluations. Recent works have shown that optimization in a latent space through deep generative models such as variational autoencoders leads to effective and efficient Bayesian optimization for structured or discrete data. However, as the optimization does not take place in the input space, it leads to an inherent gap that results in potentially suboptimal solutions. To alleviate the discrepancy, we propose Correlated latent space Bayesian Optimization (CoBO), which focuses on learning correlated latent spaces characterized by a strong correlation between the distances in the latent space and the distances within the objective function. Specifically, our method introduces Lipschitz regularization, loss weighting, and trust region recoordination to minimize the inherent gap around the promising areas. We demonstrate the effectiveness of our approach on several optimization tasks in discrete data, such as molecule design and arithmetic expression fitting, and achieve high performance within a small budget. | 翻訳日:2023-11-01 15:55:49 公開日:2023-10-31 |
# チャンネルと空間変調による生画面画像と映像デモティルの再生 Recaptured Raw Screen Image and Video Demoir\'eing via Channel and Spatial Modulations ( http://arxiv.org/abs/2310.20332v1 ) ライセンス: Link先を確認 | Huanjing Yue and Yijia Cheng and Xin Liu and Jingyu Yang | (参考訳) スマートフォンカメラによる画面コンテンツのキャプチャは、情報共有の一般的な方法となっている。
しかし、これらの画像や映像は、カメラフィルタアレイとデジタルディスプレイグリッド間の周波数エイリアスによって引き起こされるmoir\'eパターンによってしばしば劣化する。
生ドメインのmoir\eパターンはsRGBドメインのパターンよりもシンプルであり、生のカラーチャネルのmoir\eパターンは異なる性質を持つ。
そこで本研究では,生の入力用に調整した映像と映像のデモワーイングネットワークを提案する。
色分離された特徴分岐を導入し、チャンネルと空間変調により従来の特徴混合分岐と融合する。
特に、チャネル変調は、変調色分離機能を利用して、色混合機能を強化する。
空間変調は、大きな受容野を持つ特徴を利用して、小さな受容野を持つ特徴を変調する。
さらに,まず,アライメントされたrawvdemoir\'eing(rawvdemoir\'e)データセットを構築し,交替パターンを挿入する効率的な時間的アライメント手法を提案する。
実験により,本手法は映像と映像の両方において最先端の性能を実現することを実証した。
我々は、コードとデータセットをhttps://github.com/tju-chengyijia/vd_rawでリリースした。 Capturing screen contents by smartphone cameras has become a common way for information sharing. However, these images and videos are often degraded by moir\'e patterns, which are caused by frequency aliasing between the camera filter array and digital display grids. We observe that the moir\'e patterns in raw domain is simpler than those in sRGB domain, and the moir\'e patterns in raw color channels have different properties. Therefore, we propose an image and video demoir\'eing network tailored for raw inputs. We introduce a color-separated feature branch, and it is fused with the traditional feature-mixed branch via channel and spatial modulations. Specifically, the channel modulation utilizes modulated color-separated features to enhance the color-mixed features. The spatial modulation utilizes the feature with large receptive field to modulate the feature with small receptive field. In addition, we build the first well-aligned raw video demoir\'eing (RawVDemoir\'e) dataset and propose an efficient temporal alignment method by inserting alternating patterns. Experiments demonstrate that our method achieves state-of-the-art performance for both image and video demori\'eing. We have released the code and dataset in https://github.com/tju-chengyijia/VD_raw. | 翻訳日:2023-11-01 15:47:57 公開日:2023-10-31 |
# InstructCoder: コード編集のための言語モデルを強化する InstructCoder: Empowering Language Models for Code Editing ( http://arxiv.org/abs/2310.20329v1 ) ライセンス: Link先を確認 | Qisheng Hu, Kaixin Li, Xu Zhao, Yuxi Xie, Tiedong Liu, Hui Chen, Qizhe Xie, Junxian He | (参考訳) コード編集は、開発者が日々扱う様々な実用的なタスクを含んでいる。
その妥当性と実用性にもかかわらず、自動コード編集は、データ不足による深層学習モデルの進化において、まだ未熟な領域である。
本稿では,ユーザの指示に基づいてコード編集を行うための大規模言語モデル(llm)の利用について検討し,コメント挿入やコード最適化,コードリファクタリングなど,幅広い暗黙的なタスクをカバーする。
これを容易にするために,汎用コード編集にLLMを適用するために設計された最初のデータセットであるInstructCoderを紹介した。
114,000以上の命令入力出力トリプレットで構成され、複数の異なるコード編集シナリオをカバーする。
データセットは、githubコミットから得られたコード編集データをシードタスクとして開始する反復プロセスを通じて、体系的に拡張される。
その後、シードタスクと生成タスクを使用して、より多くのタスクデータに対してchatgptをプロンプトする。
InstructCoderで微調整されたオープンソースのLLMは、多くの場合、ユーザの指示に基づいてコードを正しく編集でき、前例のないコード編集性能を示す。
このような結果から,有能な命令ファインタニングがコード編集能力の大幅な改善につながる可能性が示唆された。
データセットとソースコードはhttps://github.com/qishenghu/codeinstructで入手できる。 Code editing encompasses a variety of pragmatic tasks that developers deal with daily. Despite its relevance and practical usefulness, automatic code editing remains an underexplored area in the evolution of deep learning models, partly due to data scarcity. In this work, we explore the use of large language models (LLMs) to edit code based on user instructions, covering a broad range of implicit tasks such as comment insertion, code optimization, and code refactoring. To facilitate this, we introduce InstructCoder, the first dataset designed to adapt LLMs for general-purpose code editing, containing highdiversity code-editing tasks. It consists of over 114,000 instruction-input-output triplets and covers multiple distinct code editing scenarios. The dataset is systematically expanded through an iterative process that commences with code editing data sourced from GitHub commits as seed tasks. Seed and generated tasks are used subsequently to prompt ChatGPT for more task data. Our experiments demonstrate that open-source LLMs fine-tuned on InstructCoder can edit code correctly based on users' instructions most of the time, exhibiting unprecedented code-editing performance levels. Such results suggest that proficient instruction-finetuning can lead to significant amelioration in code editing abilities. The dataset and the source code are available at https://github.com/qishenghu/CodeInstruct. | 翻訳日:2023-11-01 15:47:36 公開日:2023-10-31 |
# ChiSCor: オランダの子どもたちによる、計算言語学と認知科学のための無料の幻想物語のコーパス ChiSCor: A Corpus of Freely Told Fantasy Stories by Dutch Children for Computational Linguistics and Cognitive Science ( http://arxiv.org/abs/2310.20328v1 ) ライセンス: Link先を確認 | Bram M.A. van Dijk, Max J. van Duijn, Suzan Verberne, Marco R. Spruit | (参考訳) 本稿では,4歳から12歳までのオランダ人児童442人を対象に,空想小説619話を含む新しいコーパスであるchiscorをリリースする。
ChiSCorは、子どもがキャラクターの視点をどう表現するか、そして言語と発達の認知を計算ツールで表す方法を研究するためにコンパイルされた。
既存のリソースとは異なり、ChiSCorのストーリーは、より生態学的に有効なデータセットを求める最近の要求に従って、自然の文脈で作成された。
ChiSCorは文字の複雑さと言語的な複雑さに対するテキスト、オーディオ、アノテーションをホストしている。
追加メタデータ(例:介護者の教育)はオランダの子供の3分の1が利用できる。
ChiSCorには62の英語記事の小さなセットも含まれている。
本稿では,ChiSCorがどのようにコンパイルされ,今後の研究の可能性を示す。
一 物語の構文的複雑さが子供の年齢にわたって著しく安定していることを示す。
二 自由言論におけるZipfian分布の研究を拡張し、ChiSCorがZipfの法則に密接に従い、その社会的文脈を反映していることを示す。
iii)ChiSCorは比較的小さいが,このコーパスは,子どもの言語使用を分析するための情報レマベクトルを訓練するのに十分な量であることを示す。
最後に,計算言語学におけるナラティブデータセットの価値を考察する。 In this resource paper we release ChiSCor, a new corpus containing 619 fantasy stories, told freely by 442 Dutch children aged 4-12. ChiSCor was compiled for studying how children render character perspectives, and unravelling language and cognition in development, with computational tools. Unlike existing resources, ChiSCor's stories were produced in natural contexts, in line with recent calls for more ecologically valid datasets. ChiSCor hosts text, audio, and annotations for character complexity and linguistic complexity. Additional metadata (e.g. education of caregivers) is available for one third of the Dutch children. ChiSCor also includes a small set of 62 English stories. This paper details how ChiSCor was compiled and shows its potential for future work with three brief case studies: i) we show that the syntactic complexity of stories is strikingly stable across children's ages; ii) we extend work on Zipfian distributions in free speech and show that ChiSCor obeys Zipf's law closely, reflecting its social context; iii) we show that even though ChiSCor is relatively small, the corpus is rich enough to train informative lemma vectors that allow us to analyse children's language use. We end with a reflection on the value of narrative datasets in computational linguistics. | 翻訳日:2023-11-01 15:47:15 公開日:2023-10-31 |
# クラスタリングによるエントロピーベースのテスト時間適応性の改善 Improving Entropy-Based Test-Time Adaptation from a Clustering View ( http://arxiv.org/abs/2310.20327v1 ) ライセンス: Link先を確認 | Guoliang Lin, Hanjiang Lai, Yan Pan, Jian Yin | (参考訳) ドメインシフトは現実的な世界で共通の問題であり、トレーニングデータとテストデータは異なるデータ分布に従う。
この問題に対処するために、完全なテスト時間適応(TTA)は、テスト時間中に遭遇したラベルのないデータを利用してモデルを適応する。
特に,テストサンプルにおける予測のエントロピーを最小化するエントロピーベースTTA(EBTTA)法は,大きな成功を収めている。
本稿では,クラスタリングの観点からこれらの手法を解釈するEBTTAの新しい視点を紹介する。
これは反復アルゴリズムである。
1) 課題段階では、EBTTAモデルの前方プロセスは、これらの試験サンプルのラベルの割り当てであり、
2) 更新ステップでは、下位プロセスは割り当てられたサンプルを通してモデルの更新である。
この解釈に基づいて、ETTTAの深い理解を得ることができ、エントロピー損失が最大確率をさらに増大させることを示す。
そこで,既存のETBTTAメソッドが初期割り当てや外付け値,バッチサイズに敏感である理由を,別の説明として提示する。
この観察は、ETTTAの改善を推し進めるために役立ちます。
上記の問題を緩和するために,ロバストなラベル割り当て,重量調整,勾配蓄積を提案する。
実験の結果,本手法は様々なデータセットに対して一貫した改善が得られた。
コードは補足材料で提供される。 Domain shift is a common problem in the realistic world, where training data and test data follow different data distributions. To deal with this problem, fully test-time adaptation (TTA) leverages the unlabeled data encountered during test time to adapt the model. In particular, Entropy-Based TTA (EBTTA) methods, which minimize the prediction's entropy on test samples, have shown great success. In this paper, we introduce a new perspective on the EBTTA, which interprets these methods from a view of clustering. It is an iterative algorithm: 1) in the assignment step, the forward process of the EBTTA models is the assignment of labels for these test samples, and 2) in the updating step, the backward process is the update of the model via the assigned samples. Based on the interpretation, we can gain a deeper understanding of EBTTA, where we show that the entropy loss would further increase the largest probability. Accordingly, we offer an alternative explanation that why existing EBTTA methods are sensitive to initial assignments, outliers, and batch size. This observation can guide us to put forward the improvement of EBTTA. We propose robust label assignment, weight adjustment, and gradient accumulation to alleviate the above problems. Experimental results demonstrate that our method can achieve consistent improvements on various datasets. Code is provided in the supplementary material. | 翻訳日:2023-11-01 15:46:53 公開日:2023-10-31 |
# Erato: 詩の評価を自動化する Erato: Automatizing Poetry Evaluation ( http://arxiv.org/abs/2310.20326v1 ) ライセンス: Link先を確認 | Manex Agirrezabal, Hugo Gon\c{c}alo Oliveira, Aitor Ormazabal | (参考訳) 本稿では,詩生成システムによって生成された詩を含む,詩の自動評価を容易にするためのフレームワークである erato を提案する。
本稿では,Eratoの機能と拡張の可能性について概説する。
エラトを用いて、人間が書いた詩と自動生成した詩を対比し、重要な違いを識別する効果を示す。
我々の実装コードとソフトウェアは、GNU GPLv3ライセンスの下で自由に利用可能です。 We present Erato, a framework designed to facilitate the automated evaluation of poetry, including that generated by poetry generation systems. Our framework employs a diverse set of features, and we offer a brief overview of Erato's capabilities and its potential for expansion. Using Erato, we compare and contrast human-authored poetry with automatically-generated poetry, demonstrating its effectiveness in identifying key differences. Our implementation code and software are freely available under the GNU GPLv3 license. | 翻訳日:2023-11-01 15:46:33 公開日:2023-10-31 |
# SemanticBoost: Augmented Textual Cuesを用いたモーション生成 SemanticBoost: Elevating Motion Generation with Augmented Textual Cues ( http://arxiv.org/abs/2310.20323v1 ) ライセンス: Link先を確認 | Xin He, Shaoli Huang, Xiaohang Zhan, Chao Wen, Ying Shan | (参考訳) 現在の技術では、データセットのセマンティックアノテーションが不十分でコンテキスト理解が弱いため、複雑なセマンティック記述から動作を生成するのが困難である。
これらの問題に対処するために,我々はsemanticboostという新しいフレームワークを提案する。
本フレームワークは,意味強調モジュールと文脈対応モーションデノイザー(camd)から構成される。
セマンティックエンハンスメントモジュールは、モーションデータから補足的セマンティクスを抽出し、データセットのテキスト記述を豊かにし、大きな言語モデルに依存することなく、テキストとモーションデータの正確なアライメントを確保する。
一方、camdアプローチは、コンテキスト情報を効果的に捉え、生成された動きを所定のテキスト記述と整合させることで、高品質で意味的に一貫性のある動きシーケンスを生成するための全包括的ソリューションを提供する。
既存の方法と異なるアプローチでは、正確な方向移動、特定の身体部分の記述に基づく複合動作、複雑な伸長文から生成される動きを合成することができる。
実験の結果,SemanticBoostは拡散法として自己回帰法より優れ,Humanml3Dデータセット上での最先端性能を実現し,現実的かつスムーズな動き生成品質を維持した。 Current techniques face difficulties in generating motions from intricate semantic descriptions, primarily due to insufficient semantic annotations in datasets and weak contextual understanding. To address these issues, we present SemanticBoost, a novel framework that tackles both challenges simultaneously. Our framework comprises a Semantic Enhancement module and a Context-Attuned Motion Denoiser (CAMD). The Semantic Enhancement module extracts supplementary semantics from motion data, enriching the dataset's textual description and ensuring precise alignment between text and motion data without depending on large language models. On the other hand, the CAMD approach provides an all-encompassing solution for generating high-quality, semantically consistent motion sequences by effectively capturing context information and aligning the generated motion with the given textual descriptions. Distinct from existing methods, our approach can synthesize accurate orientational movements, combined motions based on specific body part descriptions, and motions generated from complex, extended sentences. Our experimental results demonstrate that SemanticBoost, as a diffusion-based method, outperforms auto-regressive-based techniques, achieving cutting-edge performance on the Humanml3D dataset while maintaining realistic and smooth motion generation quality. | 翻訳日:2023-11-01 15:46:25 公開日:2023-10-31 |
# ntcir-17 ufoタスクのfaチーム FA Team at the NTCIR-17 UFO Task ( http://arxiv.org/abs/2310.20322v1 ) ライセンス: Link先を確認 | Yuki Okumura, Masato Fujitake | (参考訳) faチームは金融報告(ufo)における非金融対象のntcir-17理解のテーブルデータ抽出(tde)とテキスト対テーブル関係抽出(ttre)タスクに参加した。
本稿では,問題の解決へのアプローチを報告し,公式な結果について議論する。
我々は,ELECTRA言語モデルに基づく様々な拡張手法をうまく利用し,テーブルから貴重なデータを抽出した。
結果、TDEの精度は93.43 %となり、トップボードランキングでは2位となった。
この卓越した成果は,提案手法の有効性の証明である。
ttreタスクでは,テキストとテーブルの有意義な関係を抽出し,その性能を確認するルールベース手法を提案する。 The FA team participated in the Table Data Extraction (TDE) and Text-to-Table Relationship Extraction (TTRE) tasks of the NTCIR-17 Understanding of Non-Financial Objects in Financial Reports (UFO). This paper reports our approach to solving the problems and discusses the official results. We successfully utilized various enhancement techniques based on the ELECTRA language model to extract valuable data from tables. Our efforts resulted in an impressive TDE accuracy rate of 93.43 %, positioning us in second place on the Leaderboard rankings. This outstanding achievement is a testament to our proposed approach's effectiveness. In the TTRE task, we proposed the rule-based method to extract meaningful relationships between the text and tables task and confirmed the performance. | 翻訳日:2023-11-01 15:46:01 公開日:2023-10-31 |
# 大規模言語モデルにおける心の理論--11の最先端モデルと7~10歳の子どもの比較 Theory of Mind in Large Language Models: Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests ( http://arxiv.org/abs/2310.20320v1 ) ライセンス: Link先を確認 | Max J. van Duijn, Bram M.A. van Dijk, Tom Kouwenhoven, Werner de Valk, Marco R. Spruit, and Peter van der Putten | (参考訳) 思考理論(ToM)として知られる意図や信念を推論する能力など、認知能力を大規模言語モデル(LLM)にどの程度の程度まで割り当てるべきか。
ここでは この新たな議論に
(i) ノンリテラル言語の使用や再帰的意図性を含む、トムに関連する能力に関する11のベースおよびインストラクション調整llmをテストすること。
2 LLMの堅牢性を評価するために、新たに書き直された標準テストを使用する。
(iii)クローズドな質問の他にオープンの促しと採点
(iv)同一課題における7~10歳児に対するllmパフォーマンスのベンチマーク
また, GPT ファミリーの命令調整 LLM は, 他のモデルよりも優れており,子供もよく見られる。
ベースLLMは特別なプロンプトであっても、ほとんどの場合ToMタスクを解くことができない。
我々は,言語とToMの相互接続進化と発達が,インストラクションチューニングがもたらすもの,すなわちインターロケータとコンテキストを考慮した協調的なコミュニケーションに報いることを示唆する。
LLMにおけるToMの微妙な見方を論じて結論を下す。 To what degree should we ascribe cognitive capacities to Large Language Models (LLMs), such as the ability to reason about intentions and beliefs known as Theory of Mind (ToM)? Here we add to this emerging debate by (i) testing 11 base- and instruction-tuned LLMs on capabilities relevant to ToM beyond the dominant false-belief paradigm, including non-literal language usage and recursive intentionality; (ii) using newly rewritten versions of standardized tests to gauge LLMs' robustness; (iii) prompting and scoring for open besides closed questions; and (iv) benchmarking LLM performance against that of children aged 7-10 on the same tasks. We find that instruction-tuned LLMs from the GPT family outperform other models, and often also children. Base-LLMs are mostly unable to solve ToM tasks, even with specialized prompting. We suggest that the interlinked evolution and development of language and ToM may help explain what instruction-tuning adds: rewarding cooperative communication that takes into account interlocutor and context. We conclude by arguing for a nuanced perspective on ToM in LLMs. | 翻訳日:2023-11-01 15:45:48 公開日:2023-10-31 |
# gace:lidarデータ上のブラックボックス3d物体検出器に対する幾何学的安心度向上 GACE: Geometry Aware Confidence Enhancement for Black-Box 3D Object Detectors on LiDAR-Data ( http://arxiv.org/abs/2310.20319v1 ) ライセンス: Link先を確認 | David Schinagl, Georg Krispel, Christian Fruhwirth-Reisinger, Horst Possegger, Horst Bischof | (参考訳) 広く使われているLiDARベースの3Dオブジェクト検出器は、信頼度推定において、オブジェクトの提案から容易に利用できる基本的な幾何学的情報を無視することが多い。
これは主に、幾何学的文脈がほとんど利用できない2次元画像領域からしばしば採用されるアーキテクチャ設計の選択によるものである。
しかし, 3Dでは, 対象物の性質や周囲を包括的に考慮し, グループ内の歩行者など, 正と偽の正の検知を区別することが重要である。
そこで本研究では,所定のブラックボックス3Dオブジェクト検出器の信頼性評価を改善するための,直感的かつ高効率なGACEを提案する。
我々は,検出の幾何学的手がかりとその空間的関係を集約し,その妥当性を適切に評価し,信頼度推定精度を向上させる。
これにより、様々な最先端検出器に対して一貫した性能が向上する。
評価された全ての検出器において、gaceは脆弱な道路利用者クラス、すなわち歩行者やサイクリストにとって特に有益であることが証明されている。 Widely-used LiDAR-based 3D object detectors often neglect fundamental geometric information readily available from the object proposals in their confidence estimation. This is mostly due to architectural design choices, which were often adopted from the 2D image domain, where geometric context is rarely available. In 3D, however, considering the object properties and its surroundings in a holistic way is important to distinguish between true and false positive detections, e.g. occluded pedestrians in a group. To address this, we present GACE, an intuitive and highly efficient method to improve the confidence estimation of a given black-box 3D object detector. We aggregate geometric cues of detections and their spatial relationships, which enables us to properly assess their plausibility and consequently, improve the confidence estimation. This leads to consistent performance gains over a variety of state-of-the-art detectors. Across all evaluated detectors, GACE proves to be especially beneficial for the vulnerable road user classes, i.e. pedestrians and cyclists. | 翻訳日:2023-11-01 15:45:30 公開日:2023-10-31 |
# HWD:手書きテキスト生成のための新しい評価スコア HWD: A Novel Evaluation Score for Styled Handwritten Text Generation ( http://arxiv.org/abs/2310.20316v1 ) ライセンス: Link先を確認 | Vittorio Pippi, Fabio Quattrini, Silvia Cascianelli, Rita Cucchiara | (参考訳) スタイル付き手書きテキスト生成(Styled HTG)は文書解析において重要な課題であり、与えられた参照画像の書き起こしによるテキスト画像の生成を目指している。
近年,この課題に取り組むための深層学習モデルの開発が著しく進展している。
HTGモデルの性能を有意義で代表的な基準で測定できることが、この研究トピックの開発を促進する鍵となる。
しかし、現在の自然画像生成評価におけるスコアの採用にもかかわらず、生成した筆跡の品質評価は依然として困難である。
そこで我々は,HTG評価に適した手書き距離(HWD)を考案した。
特に、可変レンズ入力画像から手書きの特徴を抽出するように特別に訓練されたネットワークの特徴空間で動作し、知覚距離を利用して手書きの微妙な幾何学的特徴を比較する。
手書きテキスト画像の単語レベルおよび行レベルの異なるデータセットに対する広範囲な実験評価を行い,hwdをスタイルhtgのスコアとして適合性を示す。
バックボーンとして使用される事前トレーニングされたモデルは、スコアの導入を容易にするためにリリースされ、HTGモデルを評価する貴重なツールを提供することを目的としており、この重要な研究領域の進展に寄与する。 Styled Handwritten Text Generation (Styled HTG) is an important task in document analysis, aiming to generate text images with the handwriting of given reference images. In recent years, there has been significant progress in the development of deep learning models for tackling this task. Being able to measure the performance of HTG models via a meaningful and representative criterion is key for fostering the development of this research topic. However, despite the current adoption of scores for natural image generation evaluation, assessing the quality of generated handwriting remains challenging. In light of this, we devise the Handwriting Distance (HWD), tailored for HTG evaluation. In particular, it works in the feature space of a network specifically trained to extract handwriting style features from the variable-lenght input images and exploits a perceptual distance to compare the subtle geometric features of handwriting. Through extensive experimental evaluation on different word-level and line-level datasets of handwritten text images, we demonstrate the suitability of the proposed HWD as a score for Styled HTG. The pretrained model used as backbone will be released to ease the adoption of the score, aiming to provide a valuable tool for evaluating HTG models and thus contributing to advancing this important research area. | 翻訳日:2023-11-01 15:45:14 公開日:2023-10-31 |
# 予習変圧器における自己着脱の因果解釈 Causal Interpretation of Self-Attention in Pre-Trained Transformers ( http://arxiv.org/abs/2310.20307v1 ) ライセンス: Link先を確認 | Raanan Y. Rohekar, Yaniv Gurwicz, Shami Nisimov | (参考訳) 本稿ではトランスフォーマーニューラルネットワークアーキテクチャにおける自己注意の因果的解釈を提案する。
我々は,記号(トークン)の入力列の構造方程式モデルを推定するメカニズムとして自己注意を解釈する。
構造方程式モデルは、入力シーケンスの特定のコンテキストの下で入力シンボル上の因果構造として解釈することができる。
重要なことに、この解釈は、潜伏した共同ファウンダーの存在下で有効である。
この解釈に従い、最も深い注意層における対応する表現間の部分相関を計算し、入力シンボル間の条件独立関係を推定する。
これにより、既存の制約ベースのアルゴリズムを用いて入力シーケンス上の因果構造を学習することができる。
この意味で、既存のトレーニング済みトランスフォーマーはゼロショット因果発見に利用できる。
本手法は,2つのタスク – 感情分類(NLP)とレコメンデーション – において,トランスフォーマーの結果に対する因果的説明を提供することによって実証する。 We propose a causal interpretation of self-attention in the Transformer neural network architecture. We interpret self-attention as a mechanism that estimates a structural equation model for a given input sequence of symbols (tokens). The structural equation model can be interpreted, in turn, as a causal structure over the input symbols under the specific context of the input sequence. Importantly, this interpretation remains valid in the presence of latent confounders. Following this interpretation, we estimate conditional independence relations between input symbols by calculating partial correlations between their corresponding representations in the deepest attention layer. This enables learning the causal structure over an input sequence using existing constraint-based algorithms. In this sense, existing pre-trained Transformers can be utilized for zero-shot causal-discovery. We demonstrate this method by providing causal explanations for the outcomes of Transformers in two tasks: sentiment classification (NLP) and recommendation. | 翻訳日:2023-11-01 15:44:51 公開日:2023-10-31 |
# 実時間セマンティックセグメンテーションのための残留Uブロックとデュアルガイドアテンションを有するバイラテラルネットワーク Bilateral Network with Residual U-blocks and Dual-Guided Attention for Real-time Semantic Segmentation ( http://arxiv.org/abs/2310.20305v1 ) ライセンス: Link先を確認 | Liang Liao, Liang Wan, Mingsheng Liu, Shusheng Li | (参考訳) 自動運転のようなセマンティックセグメンテーション技術が必要なアプリケーションシナリオでは、非常に高いセグメンテーション精度ではなく、リアルタイムのパフォーマンスが主な関心事となる。
速度と精度の良好なトレードオフを実現するため,近年2分岐アーキテクチャが提案されている。
空間情報と意味情報を別々に扱うことにより、モデルは重くない2つのネットワークで構成されることができる。
しかし、2つの異なるスケールで機能を融合するプロセスは、現在多くの2つの分岐モデルでパフォーマンスボトルネックとなっている。
本研究では,注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを用いて、注意の計算でいくつかのマルチスケール変換を置き換えることを提案した。
モジュールの有効性を保証するため、Residual U-blocks (RSU) を用いてネットワーク内の2つのブランチの1つを構築し、より優れたマルチスケール機能を実現する。
CityscapesとCamVidデータセットの大規模な実験により,本手法の有効性が示された。 When some application scenarios need to use semantic segmentation technology, like automatic driving, the primary concern comes to real-time performance rather than extremely high segmentation accuracy. To achieve a good trade-off between speed and accuracy, two-branch architecture has been proposed in recent years. It treats spatial information and semantics information separately which allows the model to be composed of two networks both not heavy. However, the process of fusing features with two different scales becomes a performance bottleneck for many nowaday two-branch models. In this research, we design a new fusion mechanism for two-branch architecture which is guided by attention computation. To be precise, we use the Dual-Guided Attention (DGA) module we proposed to replace some multi-scale transformations with the calculation of attention which means we only use several attention layers of near linear complexity to achieve performance comparable to frequently-used multi-layer fusion. To ensure that our module can be effective, we use Residual U-blocks (RSU) to build one of the two branches in our networks which aims to obtain better multi-scale features. Extensive experiments on Cityscapes and CamVid dataset show the effectiveness of our method. | 翻訳日:2023-11-01 15:44:37 公開日:2023-10-31 |
# グローバルフードセキュリティの革命:AIファンデーションモデルとデータ駆動ソリューションによるレジリエンスの強化 Revolutionizing Global Food Security: Empowering Resilience through Integrated AI Foundation Models and Data-Driven Solutions ( http://arxiv.org/abs/2310.20301v1 ) ライセンス: Link先を確認 | Mohamed R. Shoaib, Heba M. Emara, Jun Zhao | (参考訳) グローバルな懸念である食品セキュリティは、その多面的課題に対処するために、正確で多様なデータ駆動ソリューションを必要とする。
本稿では,現在の深層・機械学習手法の限界を克服するために,さまざまな食品セキュリティアプリケーションにまたがるAIファンデーションモデルの統合について検討する。
具体的には,作物種別マッピング,作物種別マッピング,フィールドデライン化,作物収量予測におけるそれらの利用について検討した。
マルチスペクトル画像、気象データ、土壌特性、歴史的記録、高解像度衛星画像を活用することで、AI基盤モデルは汎用的なアプローチを提供する。
この研究は、AIファンデーションモデルが、正確な予測を提供し、リソース割り当てを改善し、情報的な意思決定をサポートすることによって、食品セキュリティイニシアチブを強化することを実証している。
これらのモデルは、グローバルな食料安全保障の限界に対処するための変革的な力となり、持続可能な食品の未来への大きな飛躍を象徴している。 Food security, a global concern, necessitates precise and diverse data-driven solutions to address its multifaceted challenges. This paper explores the integration of AI foundation models across various food security applications, leveraging distinct data types, to overcome the limitations of current deep and machine learning methods. Specifically, we investigate their utilization in crop type mapping, cropland mapping, field delineation and crop yield prediction. By capitalizing on multispectral imagery, meteorological data, soil properties, historical records, and high-resolution satellite imagery, AI foundation models offer a versatile approach. The study demonstrates that AI foundation models enhance food security initiatives by providing accurate predictions, improving resource allocation, and supporting informed decision-making. These models serve as a transformative force in addressing global food security limitations, marking a significant leap toward a sustainable and secure food future. | 翻訳日:2023-11-01 15:44:16 公開日:2023-10-31 |
# ニューラルネットワークの局所微分分類プライバシの検証 Verification of Neural Networks Local Differential Classification Privacy ( http://arxiv.org/abs/2310.20299v1 ) ライセンス: Link先を確認 | Roie Reshef, Anan Kabaha, Olga Seleznova, and Dana Drachsler-Cohen | (参考訳) ニューラルネットワークはプライバシー攻撃の影響を受けやすい。
これまでのところ、認定者はトレーニングセットに参加している個人のプライバシーを判断できない。
本稿では,ローカル微分分類プライバシ(ldcp)と呼ばれる新たなプライバシ特性を提案し,ブラックボックス分類器に適した差分プライバシ設定に局所的ロバスト性を拡張する。
入力の近傍が与えられた場合、すべての入力がフルデータセットでトレーニングされているか、あるいは単一のエントリが省略されているかに関わらず、LDCPである。
非常に多数のネットワークをトレーニングし、各ネットワークに対してそれぞれの地区の局所的ロバスト性を個別に検証するので、ナイーブアルゴリズムは非常に実用的ではない。
sphynx を提案する。sphynx は,ネットワークの小さなセットから,高い確率ですべてのネットワークの抽象化を計算し,抽象ネットワーク上で直接 ldcp を検証するアルゴリズムである。
ネットワークパラメータは既知の分布確率に従わないため、抽象化の予測が困難であり、大きすぎる抽象化の予測は検証を損なう。
我々のキーとなる考え方は、パラメータをKDEが与える分布に変換することで、過剰近似誤差を小さくすることです。
LDCPを検証するため、MILP検証器を拡張して抽象ネットワークを解析する。
実験の結果、ネットワークのわずか7%をトレーニングすることで、93%の検証精度を得た抽象ネットワークを予測し、分析時間を1.7\cdot10^4$x削減できることがわかった。 Neural networks are susceptible to privacy attacks. To date, no verifier can reason about the privacy of individuals participating in the training set. We propose a new privacy property, called local differential classification privacy (LDCP), extending local robustness to a differential privacy setting suitable for black-box classifiers. Given a neighborhood of inputs, a classifier is LDCP if it classifies all inputs the same regardless of whether it is trained with the full dataset or whether any single entry is omitted. A naive algorithm is highly impractical because it involves training a very large number of networks and verifying local robustness of the given neighborhood separately for every network. We propose Sphynx, an algorithm that computes an abstraction of all networks, with a high probability, from a small set of networks, and verifies LDCP directly on the abstract network. The challenge is twofold: network parameters do not adhere to a known distribution probability, making it difficult to predict an abstraction, and predicting too large abstraction harms the verification. Our key idea is to transform the parameters into a distribution given by KDE, allowing to keep the over-approximation error small. To verify LDCP, we extend a MILP verifier to analyze an abstract network. Experimental results show that by training only 7% of the networks, Sphynx predicts an abstract network obtaining 93% verification accuracy and reducing the analysis time by $1.7\cdot10^4$x. | 翻訳日:2023-11-01 15:44:01 公開日:2023-10-31 |
# Annotator: LiDARセマンティックセグメンテーションのためのジェネリックアクティブラーニングベースライン Annotator: A Generic Active Learning Baseline for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2310.20293v1 ) ライセンス: Link先を確認 | Binhui Xie, Shuang Li, Qingju Guo, Chi Harold Liu and Xinjing Cheng | (参考訳) ラベル効率のよいパラダイムであるactive learningは、モデルに新しいデータをラベル付けするためにoracleをインタラクティブにクエリさせる。
lidarのセマンティクスセグメンテーションの領域では、課題はポイントクラウドの膨大なボリュームに起因し、アノテーションの労力集約とコスト増加をもたらす。
本稿では,voxel中心のオンライン選択戦略を調整し,分散シフト中であっても,各lidarスキャンにおいて有意・有意なvoxel桁を効率的に探索し,注釈を付与する,汎用的かつ効率的なアクティブラーニングベースラインであるannotatorを提案する。
具体的には、まずランダム、エントロピー、マージンなどの一般的な選択戦略を詳細に分析し、次に点雲の局所的トポロジー関係と構造を利用するためにボクセル混乱度(VCD)を開発する。
アノテーションは多様な設定で優れており、特にアクティブラーニング(AL)、アクティブソースフリードメイン適応(ASFDA)、アクティブドメイン適応(ADA)に焦点を当てている。
LiDARセマンティックセグメンテーションベンチマーク全体で一貫して例外的なパフォーマンスを提供し、シミュレーションから現実と現実の両方のシナリオにまたがる。
驚いたことに、Annotatorは驚くほど効率が良く、SynLiDAR-to-SemanticKITTIタスクでスキャン毎の5つのボクセルをラベル付けするなど、アノテーションをはるかに少なくする必要がある。
この結果、ALでは87.8%、ASFDAでは88.5%、ADAでは94.4%を達成している。
我々はannotatorがラベル効率の良い3dアプリケーションのためのシンプルで汎用的で効率的なソリューションを提供することを期待している。
プロジェクトページ: https://binhuixie.github.io/annotator-web Active learning, a label-efficient paradigm, empowers models to interactively query an oracle for labeling new data. In the realm of LiDAR semantic segmentation, the challenges stem from the sheer volume of point clouds, rendering annotation labor-intensive and cost-prohibitive. This paper presents Annotator, a general and efficient active learning baseline, in which a voxel-centric online selection strategy is tailored to efficiently probe and annotate the salient and exemplar voxel girds within each LiDAR scan, even under distribution shift. Concretely, we first execute an in-depth analysis of several common selection strategies such as Random, Entropy, Margin, and then develop voxel confusion degree (VCD) to exploit the local topology relations and structures of point clouds. Annotator excels in diverse settings, with a particular focus on active learning (AL), active source-free domain adaptation (ASFDA), and active domain adaptation (ADA). It consistently delivers exceptional performance across LiDAR semantic segmentation benchmarks, spanning both simulation-to-real and real-to-real scenarios. Surprisingly, Annotator exhibits remarkable efficiency, requiring significantly fewer annotations, e.g., just labeling five voxels per scan in the SynLiDAR-to-SemanticKITTI task. This results in impressive performance, achieving 87.8% fully-supervised performance under AL, 88.5% under ASFDA, and 94.4% under ADA. We envision that Annotator will offer a simple, general, and efficient solution for label-efficient 3D applications. Project page: https://binhuixie.github.io/annotator-web | 翻訳日:2023-11-01 15:43:17 公開日:2023-10-31 |
# 量子鍵分布における実装セキュリティ Implementation security in quantum key distribution ( http://arxiv.org/abs/2310.20377v1 ) ライセンス: Link先を確認 | V\'ictor Zapatero, \'Alvaro Navarrete, Marcos Curty | (参考訳) 量子鍵分布(QKD)における実装セキュリティの問題は、現実のQKDシステムにおける数学的セキュリティ証明の要件を満たすことの難しさを指す。
ここでは、離散変数QKD設定に焦点を当てた、このトピックに関する簡潔なレビューを行う。
特に、主要な脆弱性について論じ、克服する可能性のあるアプローチについてコメントする。 The problem of implementation security in quantum key distribution (QKD) refers to the difficulty of meeting the requirements of mathematical security proofs in real-life QKD systems. Here, we provide a succint review on this topic, focusing on discrete variable QKD setups. Particularly, we discuss some of their main vulnerabilities and comment on possible approaches to overcome them. | 翻訳日:2023-11-01 15:35:07 公開日:2023-10-31 |
# GreenCourier: サーバレス機能のためのカーボンアウェアスケジューリング GreenCourier: Carbon-Aware Scheduling for Serverless Functions ( http://arxiv.org/abs/2310.20375v1 ) ライセンス: Link先を確認 | Mohak Chadha, Thandayuthapani Subramanian, Eishi Arima, Michael Gerndt, Martin Schulz, Osama Abboud | (参考訳) 本稿では,カーボン効率に基づいて,地理的に分散したリージョンをまたいだサーバレス機能のランタイムスケジューリングを可能にする,新しいスケジューリングフレームワークであるgreencourierを提案する。
当社のフレームワークにはKubernetesのインテリジェントなスケジューリング戦略が含まれており、サーバレスプラットフォームとしてKnativeをサポートしています。
地域によって異なるリアルタイムな炭素情報を得るため,WattTimeやCarbon-aware SDKなど,複数の辺縁的な炭素排出量源をサポートしている。
Google Kubernetes Engineとプロダクションサーバレス関数トレースを使用して、スペイン、フランス、ベルギー、オランダで機能をスケジューリングするためのフレームワークのパフォーマンスを総合的に評価します。
実験の結果、グリーンクーリエは他の手法と比較して、機能呼び出し当たりの二酸化炭素排出量を平均13.25%削減していることがわかった。 This paper presents GreenCourier, a novel scheduling framework that enables the runtime scheduling of serverless functions across geographically distributed regions based on their carbon efficiencies. Our framework incorporates an intelligent scheduling strategy for Kubernetes and supports Knative as the serverless platform. To obtain real-time carbon information for different geographical regions, our framework supports multiple marginal carbon emissions sources such as WattTime and the Carbon-aware SDK. We comprehensively evaluate the performance of our framework using the Google Kubernetes Engine and production serverless function traces for scheduling functions across Spain, France, Belgium, and the Netherlands. Results from our experiments show that compared to other approaches, GreenCourier reduces carbon emissions per function invocation by an average of 13.25%. | 翻訳日:2023-11-01 15:34:59 公開日:2023-10-31 |
# 二体・三体相互作用を持つ多体スピン系における量子相関の共有性 Shareability of Quantum Correlations in a Many-Body Spin System with Two- and Three-Body Interactions ( http://arxiv.org/abs/2310.20372v1 ) ライセンス: Link先を確認 | P. Kiran, Harsha Miriam Reji, Hemant Shreepad Hegde, R. Prabhu | (参考訳) マルチパーティ量子システムの構成要素間の量子相関の共有性は、モノガミーと呼ばれる量子情報理論の概念によって制限される。
マルチパーティ量子システムによって、量子相関の異なる測度は、モノガミーの異なるシグネチャを示す。
システムパラメータと外部印加磁場に対する2体および3体相互作用を含む多元量子スピン系において、エンタングルメント分離性と情報理論的な種類から量子相関の共有性を特徴付ける。
この系における一夫一婦制スコアは、量子相関測度、系パラメータの強さ、外部磁場に依存する一夫一婦制と非一夫一婦制の両方の特徴を示す。
情報理論量子相関を考慮した場合の非単価状態の比率は、これらの変数の許容範囲における絡み合い-分離性の種類よりも高い。
非一夫一婦制状態が一夫一婦制となる量子相関測度の積分力を同定する。 The shareability of quantum correlations among the constituent parties of a multiparty quantum system is restricted by the quantum information theoretic concept called monogamy. Depending on the multiparty quantum systems, different measures of quantum correlations show disparate signatures for monogamy. We characterize the shareability of quantum correlations, from both entanglement-separability and information-theoretic kinds, in a multiparty quantum spin system containing two- and three-body interactions with respect to its system parameters and external applied magnetic field. Monogamy score in this system exhibits both monogamous and non-monogamous traits depending on the quantum correlation measure, strengths of system parameters and external magnetic field. The percentage of non-monogamous states when the information-theoretic quantum correlations are considered is higher than that of the entanglement-separability kind in allowed ranges of these variables. The integral powers of the quantum correlation measures for which the non-monogamous states become monogamous are identified. | 翻訳日:2023-11-01 15:34:47 公開日:2023-10-31 |
# 分散確率勾配Descent Ascentアルゴリズムの安定性と一般化 Stability and Generalization of the Decentralized Stochastic Gradient Descent Ascent Algorithm ( http://arxiv.org/abs/2310.20369v1 ) ライセンス: Link先を確認 | Miaoxi Zhu, Li Shen, Bo Du, Dacheng Tao | (参考訳) 利用可能なデータのサイズが大きくなるにつれて、さまざまな機械学習タスクの分散的な方法でminimax問題を解決することへの関心が高まっている。
従来の理論的研究は主に分散化ミニマックスアルゴリズムの収束率と通信複雑性に焦点が当てられ、その一般化にはほとんど注目されなかった。
本稿では、凸凹と非凸凹の両条件下でのアルゴリズム安定性のアプローチを用いて、分散確率勾配勾配上昇(D-SGDA)アルゴリズムの原始双対一般化境界について検討する。
我々の理論は、分散的な方法でアルゴリズムの安定性を洗練させ、分散化された構造がD-SGDAの安定性と一般化を損なわないことを示す。
本研究では, d-sgdaアルゴリズムの一般化がサンプルサイズ, 学習率, 反復率などの自明な要因を超えて, 異なる位相の影響を解析した。
また, 最適化誤差を評価し, 一般化ギャップとバランスをとることで, 凸凹設定におけるd-sgdaの最適人口リスクを得る。
さらに, 理論的知見を検証するための数値実験を行った。 The growing size of available data has attracted increasing interest in solving minimax problems in a decentralized manner for various machine learning tasks. Previous theoretical research has primarily focused on the convergence rate and communication complexity of decentralized minimax algorithms, with little attention given to their generalization. In this paper, we investigate the primal-dual generalization bound of the decentralized stochastic gradient descent ascent (D-SGDA) algorithm using the approach of algorithmic stability under both convex-concave and nonconvex-nonconcave settings. Our theory refines the algorithmic stability in a decentralized manner and demonstrates that the decentralized structure does not destroy the stability and generalization of D-SGDA, implying that it can generalize as well as the vanilla SGDA in certain situations. Our results analyze the impact of different topologies on the generalization bound of the D-SGDA algorithm beyond trivial factors such as sample sizes, learning rates, and iterations. We also evaluate the optimization error and balance it with the generalization gap to obtain the optimal population risk of D-SGDA in the convex-concave setting. Additionally, we perform several numerical experiments which validate our theoretical findings. | 翻訳日:2023-11-01 15:34:14 公開日:2023-10-31 |
# 住宅電力負荷プロファイルをクラスタリングして需要対応プログラムを構築する機械学習フレームワーク A Machine Learning-Based Framework for Clustering Residential Electricity Load Profiles to Enhance Demand Response Programs ( http://arxiv.org/abs/2310.20367v1 ) ライセンス: Link先を確認 | Vasilis Michalakopoulos, Elissaios Sarmas, Ioannis Papias, Panagiotis Skaloumpakas, Vangelis Marinakis, Haris Doukas | (参考訳) スマートメーターデータから得られる負荷形状は、特に需要応答(DR)のようなアプリケーションにおいて、日々のエネルギー消費パターンを分析するために頻繁に使用される。
それでも、この取り組みにおける最も重要な課題の1つは、同様の消費行動を持つ最も適切なコンシューマクラスタを特定することである。
本稿では, ロンドンの約5000世帯のデータを活用して, 実ケーススタディを通じて最適な負荷プロファイルを実現するための, 機械学習に基づく新しいフレームワークを提案する。
広く使われている4つのクラスタリングアルゴリズムは、特にK平均、Kメノイド、階層的集約クラスタリング、密度に基づく空間クラスタリングである。
経験的分析と複数の評価指標を利用してそれらのアルゴリズムを評価する。
その後、クラスタリングアルゴリズムの動作をエミュレートし、説明可能なAI(xAI)を平均化し、ソリューションの解釈可能性を高めることにより、確率的分類として問題を再定義する。
クラスタリングアルゴリズムの分析によると、このケースの最適なクラスタ数は7である。
それにもかかわらず、我々の方法論では、2つのクラスタ(データセットのほぼ10\%)が大きな内部的相違点を示しており、それらをさらに分割して合計9つのクラスタを作成する。
我々のソリューションのスケーラビリティと汎用性は、よりターゲットとする需要対応プログラムを作成するためにユーザーを分割しようとする電力会社にとって理想的な選択肢になります。 Load shapes derived from smart meter data are frequently employed to analyze daily energy consumption patterns, particularly in the context of applications like Demand Response (DR). Nevertheless, one of the most important challenges to this endeavor lies in identifying the most suitable consumer clusters with similar consumption behaviors. In this paper, we present a novel machine learning based framework in order to achieve optimal load profiling through a real case study, utilizing data from almost 5000 households in London. Four widely used clustering algorithms are applied specifically K-means, K-medoids, Hierarchical Agglomerative Clustering and Density-based Spatial Clustering. An empirical analysis as well as multiple evaluation metrics are leveraged to assess those algorithms. Following that, we redefine the problem as a probabilistic classification one, with the classifier emulating the behavior of a clustering algorithm,leveraging Explainable AI (xAI) to enhance the interpretability of our solution. According to the clustering algorithm analysis the optimal number of clusters for this case is seven. Despite that, our methodology shows that two of the clusters, almost 10\% of the dataset, exhibit significant internal dissimilarity and thus it splits them even further to create nine clusters in total. The scalability and versatility of our solution makes it an ideal choice for power utility companies aiming to segment their users for creating more targeted Demand Response programs. | 翻訳日:2023-11-01 15:33:56 公開日:2023-10-31 |
# ループ検出器データセットの情報的本質:ネットワークレベルのトラフィック予測はより多くのデータに飢えているか? Distil the informative essence of loop detector data set: Is network-level traffic forecasting hungry for more data? ( http://arxiv.org/abs/2310.20366v1 ) ライセンス: Link先を確認 | Guopeng Li, Victor L. Knoop, J.W.C.(Hans) van Lint | (参考訳) ネットワークレベルの交通状況予測は数十年にわたって集中的に研究されてきた。
新たなディープラーニングモデルや拡大するトラフィックデータによって予測精度は継続的に改善されているが、トラフィック予測は実際には多くの課題に直面している。
これらの課題には、データ駆動モデルの堅牢性、トラフィックダイナミクスの固有の予測不可能性、さらに多くのセンサデータを必要とするトラフィック予測の改善などが含まれる。
本稿では,後者の問題,特にループ検出器のデータに焦点をあてる。
そこで本稿では,予測モデルのトレーニングに実際に有効なループデータのサンプル数を検討するために,不確実性を考慮したトラフィック予測フレームワークを提案する。
まず、モデル設計はトラフィックフロー理論とグラフニューラルネットワークを結合し、予測と不確実性定量化の堅牢性を保証する。
第二に、実証学習は1つのパスで異なる不確実性の源を定量化するために用いられる。
推定の不確実性は、情報コンテンツを完全にカバーするデータセットの本質を「分散」するために使用される。
アムステルダム周辺の高速道路網のケーススタディの結果、2018年から2021年にかけて、日中のデータのうち80\%以上を除去できることがわかった。
残りの20 %のサンプルは、トレーニングモデルに等しい予測能力を持つ。
この結果は、確かに大きなトラフィックデータセットは、かなり小さいが等しく有益なデータセットに分割できることを示している。
これらの結果から,提案手法は大規模トラフィックデータセットの真の情報内容を評価する上で有用であることが判明した。
この方法では、より小さな空間的非冗長なデータセットを抽出するなど、さらなる拡張が可能となる。 Network-level traffic condition forecasting has been intensively studied for decades. Although prediction accuracy has been continuously improved with emerging deep learning models and ever-expanding traffic data, traffic forecasting still faces many challenges in practice. These challenges include the robustness of data-driven models, the inherent unpredictability of traffic dynamics, and whether further improvement of traffic forecasting requires more sensor data. In this paper, we focus on this latter question and particularly on data from loop detectors. To answer this, we propose an uncertainty-aware traffic forecasting framework to explore how many samples of loop data are truly effective for training forecasting models. Firstly, the model design combines traffic flow theory with graph neural networks, ensuring the robustness of prediction and uncertainty quantification. Secondly, evidential learning is employed to quantify different sources of uncertainty in a single pass. The estimated uncertainty is used to "distil" the essence of the dataset that sufficiently covers the information content. Results from a case study of a highway network around Amsterdam show that, from 2018 to 2021, more than 80\% of the data during daytime can be removed. The remaining 20\% samples have equal prediction power for training models. This result suggests that indeed large traffic datasets can be subdivided into significantly smaller but equally informative datasets. From these findings, we conclude that the proposed methodology proves valuable in evaluating large traffic datasets' true information content. Further extensions, such as extracting smaller, spatially non-redundant datasets, are possible with this method. | 翻訳日:2023-11-01 15:33:32 公開日:2023-10-31 |
# CAFE: 競合を意識した機能的説明 CAFE: Conflict-Aware Feature-wise Explanations ( http://arxiv.org/abs/2310.20363v1 ) ライセンス: Link先を確認 | Adam Dejl, Hamed Ayoobi, Matthew Williams, Francesca Toni | (参考訳) 特徴属性法は、個々の入力特徴がモデル出力に与える影響を決定することによって、ニューラルモデルを説明するために広く用いられている。
そこで,本研究では,既存の手法の3つの制限に対処した特徴帰属法であるcafe (conflict-aware feature-wise descriptions)を提案する。
他の方法とは異なり、CAFEはニューロン入力の影響を過大評価することに対する保護策を提供し、入力特徴とバイアスの正および負の影響を別々に追跡することで、堅牢性を高め、特徴衝突を表面化する能力を高める。
実験により,cafeは合成表データ上で相反する特徴を識別し,実世界の表型データセットにおいて,高い計算効率を保ちながら,全体的な忠実性を示すことができることを示した。 Feature attribution methods are widely used to explain neural models by determining the influence of individual input features on the models' outputs. We propose a novel feature attribution method, CAFE (Conflict-Aware Feature-wise Explanations), that addresses three limitations of the existing methods: their disregard for the impact of conflicting features, their lack of consideration for the influence of bias terms, and an overly high sensitivity to local variations in the underpinning activation functions. Unlike other methods, CAFE provides safeguards against overestimating the effects of neuron inputs and separately traces positive and negative influences of input features and biases, resulting in enhanced robustness and increased ability to surface feature conflicts. We show experimentally that CAFE is better able to identify conflicting features on synthetic tabular data and exhibits the best overall fidelity on several real-world tabular datasets, while being highly computationally efficient. | 翻訳日:2023-11-01 15:33:07 公開日:2023-10-31 |
# 深層学習への数学的導入:方法、実装、理論 Mathematical Introduction to Deep Learning: Methods, Implementations, and Theory ( http://arxiv.org/abs/2310.20360v1 ) ライセンス: Link先を確認 | Arnulf Jentzen, Benno Kuckuck, Philippe von Wurstemberger | (参考訳) 本書は,ディープラーニングアルゴリズムの話題を紹介することを目的としている。
本稿では,ニューラルネットワーク(ANN)アーキテクチャ(完全連結フィードフォワードANN,畳み込みANN,残差ANN,バッチ正規化ANNなど)や最適化アルゴリズム(基本確率勾配降下法(SGD)法,高速化法,適応法など)を含む,ディープラーニングアルゴリズムの基本成分について検討する。
また,annの近似容量(annの計算を含む),最適化理論(kurdyka-{\l}ojasiewicz不等式を含む),一般化誤差など,ディープラーニングアルゴリズムのいくつかの理論的側面についても取り上げる。
書籍の最後のパートでは、物理学的インフォームドニューラルネットワーク(pinns)やdeep galerkinメソッドを含む、pdesのディープラーニング近似手法が紹介されている。
深層学習の背景を全く持たず、しっかりとした基礎を築きたい学生や科学者や、深層学習で考慮された対象や方法の数学的理解をしっかりとした数学的理解を得たい実践者にとって、この本が役立つことを願っている。 This book aims to provide an introduction to the topic of deep learning algorithms. We review essential components of deep learning algorithms in full mathematical detail including different artificial neural network (ANN) architectures (such as fully-connected feedforward ANNs, convolutional ANNs, recurrent ANNs, residual ANNs, and ANNs with batch normalization) and different optimization algorithms (such as the basic stochastic gradient descent (SGD) method, accelerated methods, and adaptive methods). We also cover several theoretical aspects of deep learning algorithms such as approximation capacities of ANNs (including a calculus for ANNs), optimization theory (including Kurdyka-{\L}ojasiewicz inequalities), and generalization errors. In the last part of the book some deep learning approximation methods for PDEs are reviewed including physics-informed neural networks (PINNs) and deep Galerkin methods. We hope that this book will be useful for students and scientists who do not yet have any background in deep learning at all and would like to gain a solid foundation as well as for practitioners who would like to obtain a firmer mathematical understanding of the objects and methods considered in deep learning. | 翻訳日:2023-11-01 15:32:49 公開日:2023-10-31 |
# マルチモーダル大言語モデルの空間認識能力の向上 Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model ( http://arxiv.org/abs/2310.20357v1 ) ライセンス: Link先を確認 | Yongqiang Zhao, Zhenyu Li, Zhi Jin, Feng Zhang, Haiyan Zhao, Chengfeng Dou, Zhengwei Tao, Xinhai Xu, Donghong Liu | (参考訳) マルチモーダル大言語モデル(multi-modal large language model, mllm)は、マルチモーダルデータの受信と推論機能を備えた大規模言語モデル(llm)の拡張である。
空間認識はMLLMの重要な能力の1つであり、物体とシーン領域の間の空間的関係を理解するための多様なスキルを含んでいる。
自動運転、スマートヘルスケア、ロボティクス、バーチャル、拡張現実といった産業はMLLMの空間認識能力を強く要求している。
しかし、MLLMの現在の空間認識能力と、人間の要求によって設定された要件との間には、顕著なギャップがある。
そこで本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
具体的には、特定のマルチモーダルタスクに対して、幾何学的空間情報とシーングラフを取得するアルゴリズムを用いて、関連する幾何学的空間情報とクエリに関連するオブジェクトのシーン詳細を取得する。
そして,この情報に基づいて,ユーザが提示する空間認識関連クエリに,MLLMに対処するよう指示する。
MME、MM-Vet、その他のマルチモーダルな大規模言語モデルなどのベンチマークで大規模な実験を行った。
実験結果は,MLLMの空間認識タスクと関連するタスクの強化における提案手法の有効性を徹底的に検証した。 The Multi-Modal Large Language Model (MLLM) refers to an extension of the Large Language Model (LLM) equipped with the capability to receive and infer multi-modal data. Spatial awareness stands as one of the crucial abilities of MLLM, encompassing diverse skills related to understanding spatial relationships among objects and between objects and the scene area. Industries such as autonomous driving, smart healthcare, robotics, virtual, and augmented reality heavily demand MLLM's spatial awareness capabilities. However, there exists a noticeable gap between the current spatial awareness capabilities of MLLM and the requirements set by human needs. To address this issue, this paper proposes using more precise spatial position information between objects to guide MLLM in providing more accurate responses to user-related inquiries. Specifically, for a particular multi-modal task, we utilize algorithms for acquiring geometric spatial information and scene graphs to obtain relevant geometric spatial information and scene details of objects involved in the query. Subsequently, based on this information, we direct MLLM to address spatial awareness-related queries posed by the user. Extensive experiments were conducted in benchmarks such as MME, MM-Vet, and other multi-modal large language models. The experimental results thoroughly confirm the efficacy of the proposed method in enhancing the spatial awareness tasks and associated tasks of MLLM. | 翻訳日:2023-11-01 15:32:25 公開日:2023-10-31 |
# 筋容積定量化:解剖前兆によるトランスフォーマーの誘導 Muscle volume quantification: guiding transformers with anatomical priors ( http://arxiv.org/abs/2310.20355v1 ) ライセンス: Link先を確認 | Louise Piecuch, Vanessa Gonzales Duque, Aur\'elie Sarcher, Enzo Hollville, Antoine Nordez, Giuseppe Rabita, Ga\"el Guilhem, and Diana Mateus | (参考訳) 筋容積はスポーツにおいて有用な定量的バイオマーカーであり、変性筋骨格疾患のフォローアップにも有用である。
体積に加え、他の形状バイオマーカーは、医学画像から興味ある筋肉を分別することで抽出することができる。
手動セグメンテーションは、非常に時間がかかるにもかかわらず、現在でもそのような測定の金本位制である。
そこで本研究では,3次元磁気共鳴画像を用いた下肢18筋の自動分割法を提案する。
その性質上、異なる筋肉の組織はMR画像で観察されると区別できない。
したがって、筋肉のセグメンテーションアルゴリズムは外観には依存せず、輪郭手がかりのみに依存する。
しかし、そのような輪郭は検出が困難であり、その厚さは被験者によって異なる。
上記の課題に対処するために,畳み込みブロックと視覚トランスフォーマーブロックを組み合わせたハイブリッドアーキテクチャに基づくセグメンテーション手法を提案する。
本稿では,このようなハイブリッドアーキテクチャの挙動を,形状解析における筋分節の文脈で初めて考察する。
一貫した解剖学的筋配置を考えると、筋間の長距離関係を捉えるためにトランスフォーマーブロックに依存する。
解剖学的先行を更に活用するために、この研究の第2の貢献は、トレーニングデータから推定される可塑性筋近傍の隣接行列に基づいて正規化損失を追加することである。
エリートアスリートのユニークなデータベースを用いた実験結果から,比較的小さな量のデータベースから複雑なハイブリッドモデルをトレーニングすることが可能であり,解剖学的な事前正規化では予測精度が向上することが示唆された。 Muscle volume is a useful quantitative biomarker in sports, but also for the follow-up of degenerative musculo-skelletal diseases. In addition to volume, other shape biomarkers can be extracted by segmenting the muscles of interest from medical images. Manual segmentation is still today the gold standard for such measurements despite being very time-consuming. We propose a method for automatic segmentation of 18 muscles of the lower limb on 3D Magnetic Resonance Images to assist such morphometric analysis. By their nature, the tissue of different muscles is undistinguishable when observed in MR Images. Thus, muscle segmentation algorithms cannot rely on appearance but only on contour cues. However, such contours are hard to detect and their thickness varies across subjects. To cope with the above challenges, we propose a segmentation approach based on a hybrid architecture, combining convolutional and visual transformer blocks. We investigate for the first time the behaviour of such hybrid architectures in the context of muscle segmentation for shape analysis. Considering the consistent anatomical muscle configuration, we rely on transformer blocks to capture the longrange relations between the muscles. To further exploit the anatomical priors, a second contribution of this work consists in adding a regularisation loss based on an adjacency matrix of plausible muscle neighbourhoods estimated from the training data. Our experimental results on a unique database of elite athletes show it is possible to train complex hybrid models from a relatively small database of large volumes, while the anatomical prior regularisation favours better predictions. | 翻訳日:2023-11-01 15:32:02 公開日:2023-10-31 |
# AMERICANO: 談話駆動分解とエージェントインタラクションによる論証生成 AMERICANO: Argument Generation with Discourse-driven Decomposition and Agent Interaction ( http://arxiv.org/abs/2310.20352v1 ) ライセンス: Link先を確認 | Zhe Hu, Hou Pong Chan, Yu Yin | (参考訳) 議論生成は自然言語処理において難しい課題であり、厳密な推論と適切なコンテンツ組織を必要とする。
複雑なタスクを中間段階に分解する最近のチェーン・オブ・シークレット・プロンプトにインスパイアされ、エージェントインタラクションによる引数生成のための新しいフレームワークであるAmericanoを提案する。
提案手法は, 生成過程を議論理論に基づく逐次的動作に分解し, まず, 議論的談話成分を生成するために逐次的動作を実行し, そして, それらの成分を条件とした最終引数を生成する。
人間の記述プロセスをさらに模倣し、現在の自己回帰言語モデルの左から右への生成パラダイムを改善するために、フィードバックに基づいて議論草案を自動評価・精査する引数修正モジュールを導入する。
Reddit/CMVデータセットのサブセットを用いて,提案手法の評価を行った。
その結果,提案手法はエンド・ツー・エンド・エンドとチェーン・オブ・ワンド・プロンプトのどちらよりも優れており,多種多様な内容の一貫性と説得力のある議論を創出できることがわかった。 Argument generation is a challenging task in natural language processing, which requires rigorous reasoning and proper content organization. Inspired by recent chain-of-thought prompting that breaks down a complex task into intermediate steps, we propose Americano, a novel framework with agent interaction for argument generation. Our approach decomposes the generation process into sequential actions grounded on argumentation theory, which first executes actions sequentially to generate argumentative discourse components, and then produces a final argument conditioned on the components. To further mimic the human writing process and improve the left-to-right generation paradigm of current autoregressive language models, we introduce an argument refinement module which automatically evaluates and refines argument drafts based on feedback received. We evaluate our framework on the task of counterargument generation using a subset of Reddit/CMV dataset. The results show that our method outperforms both end-to-end and chain-of-thought prompting methods and can generate more coherent and persuasive arguments with diverse and rich contents. | 翻訳日:2023-11-01 15:31:42 公開日:2023-10-31 |
# 多指ハンドによる高速・バーサタイルグラスピングにおける形状補完とグラフ予測の併用 Combining Shape Completion and Grasp Prediction for Fast and Versatile Grasping with a Multi-Fingered Hand ( http://arxiv.org/abs/2310.20350v1 ) ライセンス: Link先を確認 | Matthias Humt, Dominik Winkelbauer, Ulrich Hillenbrand and Berthold B\"auml | (参考訳) 事前知識が限られている、あるいは全くない物体をつかむことは、補助ロボティクスにおいて非常に適切なスキルである。
しかし、この一般的な設定では、特に多指ハンドによる部分的可観測性と多指把持性のみに関して、オープンな問題のままである。
本稿では,単一の深度画像に基づく形状完了モジュールと,予測された物体形状に基づく把握予測モジュールとからなる,新規で高速で高忠実なディープラーニングパイプラインを提案する。
形状完了ネットワークはVQDIFに基づいて任意のクエリポイントにおける空間占有値を予測する。
予測器の把握には,まず自己回帰モデルを用いてポーズを生成し,次にポーズ毎に指関節構成を回帰する2段階のアーキテクチャを用いる。
重要な要因は、十分なデータリアリズムと強化であり、トレーニング中の困難なケースに特に注意を向けることである。
物理ロボットプラットフォームを用いた実験では, 単一視点からの深度画像に基づいて, 広範囲の家庭用物体の把握に成功した。
パイプライン全体が高速で、物体の形状(0.7 s)を完了するのに約1 sしかかからず、1000 の把持(0.3 s)を生成する。 Grasping objects with limited or no prior knowledge about them is a highly relevant skill in assistive robotics. Still, in this general setting, it has remained an open problem, especially when it comes to only partial observability and versatile grasping with multi-fingered hands. We present a novel, fast, and high fidelity deep learning pipeline consisting of a shape completion module that is based on a single depth image, and followed by a grasp predictor that is based on the predicted object shape. The shape completion network is based on VQDIF and predicts spatial occupancy values at arbitrary query points. As grasp predictor, we use our two-stage architecture that first generates hand poses using an autoregressive model and then regresses finger joint configurations per pose. Critical factors turn out to be sufficient data realism and augmentation, as well as special attention to difficult cases during training. Experiments on a physical robot platform demonstrate successful grasping of a wide range of household objects based on a depth image from a single viewpoint. The whole pipeline is fast, taking only about 1 s for completing the object's shape (0.7 s) and generating 1000 grasps (0.3 s). | 翻訳日:2023-11-01 15:31:22 公開日:2023-10-31 |
# ニューラルネットワークにおけるスケーラブルかつ解釈可能なエラー検出のための低コスト戦略モニタリング手法 A Low-cost Strategic Monitoring Approach for Scalable and Interpretable Error Detection in Deep Neural Networks ( http://arxiv.org/abs/2310.20349v1 ) ライセンス: Link先を確認 | Florian Geissler, Syed Qutub, Michael Paulitsch, and Karthik Pattabiraman | (参考訳) ハードウェアメモリと入力障害の両方から発生したサイレントなデータ破損を効率よく検出し,少数の(わずか2層まで)隠蔽層から選択した知識を抽出する,深層コンピュータビジョンネットワークのための高能率な実行時監視手法を提案する。
ネットワーク層の活性化分布において臨界断層がピークあるいはバルクシフトとして現れるという知見に基づいて、我々は戦略的に配置された量子的マーカーを用いて、現在の推論全体の異常を正確に推定する。
重要なことに、検出器コンポーネント自体がアルゴリズム的に透明に保たれ、人間に解釈可能な規則的および異常な行動の分類を行う。
この手法は最大96%の精度と98%の検知リコールを達成している。
最先端の異常検出技術と比較すると、このアプローチは最小の計算オーバーヘッド(教師なし推論時間に関して0.3%程度)を必要とし、モデルの説明可能性に寄与する。 We present a highly compact run-time monitoring approach for deep computer vision networks that extracts selected knowledge from only a few (down to merely two) hidden layers, yet can efficiently detect silent data corruption originating from both hardware memory and input faults. Building on the insight that critical faults typically manifest as peak or bulk shifts in the activation distribution of the affected network layers, we use strategically placed quantile markers to make accurate estimates about the anomaly of the current inference as a whole. Importantly, the detector component itself is kept algorithmically transparent to render the categorization of regular and abnormal behavior interpretable to a human. Our technique achieves up to ~96% precision and ~98% recall of detection. Compared to state-of-the-art anomaly detection techniques, this approach requires minimal compute overhead (as little as 0.3% with respect to non-supervised inference time) and contributes to the explainability of the model. | 翻訳日:2023-11-01 15:31:00 公開日:2023-10-31 |
# 事前学習した視覚言語モデルによる授業インクリメンタル学習 Class Incremental Learning with Pre-trained Vision-Language Models ( http://arxiv.org/abs/2310.20348v1 ) ライセンス: Link先を確認 | Xialei Liu, Xusheng Cao, Haori Lu, Jia-wen Xiao, Andrew D. Bagdanov, Ming-Ming Cheng | (参考訳) 大規模事前学習モデルの出現に伴い,継続的な学習シナリオへの適応と活用への関心が高まっている。
本稿では,新しいタスクをゼロショットで学習するだけでなく,事前学習した視覚言語モデル(例えばCLIP)を活用するアプローチを提案する。
トレーニング済みのCLIPモデルを、Image Encoderの後またはText Encoderの前に追加レイヤで拡張します。
画像埋め込みをそれぞれ操作する線形適応器,自己注意適応器, 代わりにCLIPテキストエンコーダへのプロンプト入力を変更するPrompt Tuningの3つの戦略について検討する。
また,適応層におけるパラメータ保持手法を提案し,パラメータ重要度を測定することにより,漸進学習時の安定性と可塑性を向上する。
実験では,パラメータ保持を持つ単一線形アダプタ層である最も単純な解が最良の結果をもたらすことを示した。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。 With the advent of large-scale pre-trained models, interest in adapting and exploiting them for continual learning scenarios has grown. In this paper, we propose an approach to exploiting pre-trained vision-language models (e.g. CLIP) that enables further adaptation instead of only using zero-shot learning of new tasks. We augment a pre-trained CLIP model with additional layers after the Image Encoder or before the Text Encoder. We investigate three different strategies: a Linear Adapter, a Self-attention Adapter, each operating on the image embedding, and Prompt Tuning which instead modifies prompts input to the CLIP text encoder. We also propose a method for parameter retention in the adapter layers that uses a measure of parameter importance to better maintain stability and plasticity during incremental learning. Our experiments demonstrate that the simplest solution -- a single Linear Adapter layer with parameter retention -- produces the best results. Experiments on several conventional benchmarks consistently show a significant margin of improvement over the current state-of-the-art. | 翻訳日:2023-11-01 15:30:43 公開日:2023-10-31 |
# Apache TVMを用いた行列乗算ルーチンの家族向け自動生成装置 Automatic Generators for a Family of Matrix Multiplication Routines with Apache TVM ( http://arxiv.org/abs/2310.20347v1 ) ライセンス: Link先を確認 | Guillermo Alaejos, Adri\'an Castell\'o, Pedro Alonso-Jord\'a, Francisco D. Igual, H\'ector Mart\'inez, Enrique S. Quintana-Ort\'i | (参考訳) 本稿では,GTOBLAS2やBLIS,OpenBLASといった一般的な線形代数ライブラリのアプローチに従うアルゴリズム群を自動的に生成して,汎用行列乗算(GEMM)の高性能なブロック形式を得るために,Apache TVMオープンソースフレームワークの利用について検討する。
さらに, GEMM用のプロセッサ固有のマイクロカーネルの完全な多様性を導き出すために, Apache TVM フレームワークを活用することで, 生成プロセスを完全に自動化する。
これは、アセンブリコードを使用してアーキテクチャごとに単一のマイクロカーネルをハンドエンコードするハイパフォーマンスライブラリの慣例とは対照的である。
2) 様々なデータタイプ、プロセッサアーキテクチャ、マトリックスオペランドシェイプのソリューションを簡単に調整し最適化するための高い柔軟性を提供し、ハンドチューニングされたライブラリのそれと同等(あるいは特定のマトリックスシェイプよりも優れている)のパフォーマンスをもたらす。 We explore the utilization of the Apache TVM open source framework to automatically generate a family of algorithms that follow the approach taken by popular linear algebra libraries, such as GotoBLAS2, BLIS and OpenBLAS, in order to obtain high-performance blocked formulations of the general matrix multiplication (GEMM). % In addition, we fully automatize the generation process, by also leveraging the Apache TVM framework to derive a complete variety of the processor-specific micro-kernels for GEMM. This is in contrast with the convention in high performance libraries, which hand-encode a single micro-kernel per architecture using Assembly code. % In global, the combination of our TVM-generated blocked algorithms and micro-kernels for GEMM 1)~improves portability, maintainability and, globally, streamlines the software life cycle; 2)~provides high flexibility to easily tailor and optimize the solution to different data types, processor architectures, and matrix operand shapes, yielding performance on a par (or even superior for specific matrix shapes) with that of hand-tuned libraries; and 3)~features a small memory footprint. | 翻訳日:2023-11-01 15:30:26 公開日:2023-10-31 |
# 連帯操作と共有価値の免疫性 Coalitional Manipulations and Immunity of the Shapley Value ( http://arxiv.org/abs/2310.20415v1 ) ライセンス: Link先を確認 | Christian Basteck and Frank Huettner | (参考訳) 我々は,連立制ゲームという文脈において,連立制がメンバーの総報酬を増やすことを目的とした操作を考える。
割当規則は連立の操作に免疫があり、もし連立関係がそのサブコーディションのレベルで価値を内部再配置すること(再配置耐性)を享受できなければ、また連立関係がより低い価値から利益を享受できなければ、他は全て同じ(弱連立の単調性)である。
シャプリーの元々のキャラクタリゼーションの付加性をこれらの要件に置き換えることは、シャプリーの値の新しい基礎、すなわち、無効なプレイヤーに何も与えず、連立操作に無関係である唯一の効率的で対称的な割当規則となる。
さらに,効率的な割当ルールでは,再割当性は,ヤングの割当性公理のより弱い変種である制限限界性と同値であることが判明した。
第2のキャラクタリゼーションは, 限界性に固有の独立要件を弱めることにより, ヤングの特性を向上する。 We consider manipulations in the context of coalitional games, where a coalition aims to increase the total payoff of its members. An allocation rule is immune to coalitional manipulation if no coalition can benefit from internal reallocation of worth on the level of its subcoalitions (reallocation-proofness), and if no coalition benefits from a lower worth while all else remains the same (weak coalitional monotonicity). Replacing additivity in Shapley's original characterization by these requirements yields a new foundation of the Shapley value, i.e., it is the unique efficient and symmetric allocation rule that awards nothing to a null player and is immune to coalitional manipulations. We further find that for efficient allocation rules, reallocation-proofness is equivalent to constrained marginality, a weaker variant of Young's marginality axiom. Our second characterization improves upon Young's characterization by weakening the independence requirement intrinsic to marginality. | 翻訳日:2023-11-01 15:22:32 公開日:2023-10-31 |
# マルチビュービジュモータシステムのためのメタ学習 Meta Learning for Multi-View Visuomotor Systems ( http://arxiv.org/abs/2310.20414v1 ) ライセンス: Link先を確認 | Benji Alwis, Nick Pears and Pengcheng Liu | (参考訳) 本稿では,ロボット用多視点バイスモータシステムをベースライン設定からカメラ構成に素早く適応させる新しい手法を提案する。
メタ学習を利用して、ポリシーネットワークを固定しながら知覚ネットワークを微調整する。
実験の結果,ベースライン性能を達成するために必要な新たなトレーニングエピソード数が大幅に減少した。 This paper introduces a new approach for quickly adapting a multi-view visuomotor system for robots to varying camera configurations from the baseline setup. It utilises meta-learning to fine-tune the perceptual network while keeping the policy network fixed. Experimental results demonstrate a significant reduction in the number of new training episodes needed to attain baseline performance. | 翻訳日:2023-11-01 15:22:08 公開日:2023-10-31 |
# 3次元合成データを用いたデータ拡張に基づく海上救助のための熱赤外リモートターゲット検出システム Thermal-Infrared Remote Target Detection System for Maritime Rescue based on Data Augmentation with 3D Synthetic Data ( http://arxiv.org/abs/2310.20412v1 ) ライセンス: Link先を確認 | Sungjin Cheong, Wonho Jung, Yoon Seop Lim, Yong-Hwa Park | (参考訳) 本稿では,深層学習とデータ拡張を用いた海難救助のための熱赤外リモートターゲット検出システムを提案する。
我々は、TIRカメラ(FLIR)を用いて、人間の救助状況を模倣した複数のシーンからなる自己収集TIRデータセットを構築した。
さらに、データセットの不足に対処し、モデルロバスト性を向上させるため、3dゲーム(arma3)からの合成データセットをさらに収集する。
しかし、合成TIR画像と実際のTIR画像の間には大きな領域ギャップが存在する。
したがって、ギャップを克服するには適切なドメイン適応アルゴリズムが不可欠である。
そこで本研究では,この問題に対処するために,生成モデルに基づく3次元ゲームからリアルまでの領域適応アルゴリズムを提案する。
さらに,頭部に固定ウェイトカーネルを持つセグメンテーションネットワークを提案し,信号対雑音比(signal-to-noise ratio,snr)を改善し,遠隔tirターゲットが本質的に不明瞭な境界に苦しむため,注意力の低下を図る。
実験の結果,翻訳されたTIRデータと実際のTIRデータからなる拡張データに基づいてトレーニングされたネットワークは,実際のTIRデータのみを大きなマージンでトレーニングした上で,優れた性能を示した。
さらに,提案手法は最先端セグメンテーション法の性能を上回っている。 This paper proposes a thermal-infrared (TIR) remote target detection system for maritime rescue using deep learning and data augmentation. We established a self-collected TIR dataset consisting of multiple scenes imitating human rescue situations using a TIR camera (FLIR). Additionally, to address dataset scarcity and improve model robustness, a synthetic dataset from a 3D game (ARMA3) to augment the data is further collected. However, a significant domain gap exists between synthetic TIR and real TIR images. Hence, a proper domain adaptation algorithm is essential to overcome the gap. Therefore, we suggest a domain adaptation algorithm in a target-background separated manner from 3D game-to-real, based on a generative model, to address this issue. Furthermore, a segmentation network with fixed-weight kernels at the head is proposed to improve the signal-to-noise ratio (SNR) and provide weak attention, as remote TIR targets inherently suffer from unclear boundaries. Experiment results reveal that the network trained on augmented data consisting of translated synthetic and real TIR data outperforms that trained on only real TIR data by a large margin. Furthermore, the proposed segmentation model surpasses the performance of state-of-the-art segmentation methods. | 翻訳日:2023-11-01 15:22:03 公開日:2023-10-31 |
# FollowBench: 大規模言語モデルのベンチマークに続くマルチレベルきめ細かい制約 FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models ( http://arxiv.org/abs/2310.20410v1 ) ライセンス: Link先を確認 | Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei Mi, Lifeng Shang, Xin Jiang, Qun Liu, Wei Wang | (参考訳) 命令に従う能力は、様々な現実世界のアプリケーションを扱うための大規模言語モデル(llm)にとって不可欠である。
既存のベンチマークでは、主に表面的応答品質の評価に焦点を当てている。
本研究のギャップを埋めるために,LLMのベンチマークに追従する多レベルきめ細粒度制約であるFollowBenchを提案する。
followbenchは、きめ細かい制約の5つの異なるタイプ(コンテンツ、シナリオ、スタイル、フォーマット、例)を包括的に含む。
推定後の厳密な制約を可能にするために,各レベルの初期命令に1つの制約を漸進的に付加するマルチレベル機構を導入する。
LLMの出力が個々の制約をすべて満たしたかどうかを評価するために,制約進化経路を持つ強いLLMを,難解なセマンティック制約に対処するよう提案する。
FollowBench 上で9つのオープンソースおよびオープンソースの人気 LLM を評価することにより,今後の研究への道のりを示唆する指導における LLM の弱点を明らかにする。
データとコードはhttps://github.com/yjiangcm/followbenchで公開されている。 The ability to follow instructions is crucial to Large Language Models (LLMs) to handle various real-world applications. Existing benchmarks primarily focus on evaluating superficial response quality, which does not necessarily indicate instruction-following capability. To fill this research gap, in this paper, we propose FollowBench, a Multi-level Fine-grained Constraints Following Benchmark for LLMs. FollowBench comprehensively includes five different types (i.e., Content, Scenario, Style, Format, and Example) of fine-grained constraints. To enable a precise constraint following estimation, we introduce a Multi-level mechanism that incrementally adds a single constraint to the initial instruction at each level. To evaluate whether LLMs' outputs have satisfied every individual constraint, we propose to prompt strong LLMs with constraint evolution paths to handle challenging semantic constraints. By evaluating nine closed-source and open-source popular LLMs on FollowBench, we highlight the weaknesses of LLMs in instruction following and point towards potential avenues for future work. The data and code are publicly available at https://github.com/YJiangcm/FollowBench. | 翻訳日:2023-11-01 15:21:41 公開日:2023-10-31 |
# ソーシャルメディア上での協調的偽フォロワーキャンペーンの教師なし検出 Unsupervised detection of coordinated fake-follower campaigns on social media ( http://arxiv.org/abs/2310.20407v1 ) ライセンス: Link先を確認 | Yasser Zouzou and Onur Varol | (参考訳) 自動化されたソーシャルメディアアカウントはボットと呼ばれており、オンライン活動のマニピュレーションの鍵となるツールとして認識されている。
これらの活動は、複数のアカウント間の調整に起因し、これらの自動化されたキャンペーンは、他のアカウントをフォローし、コンテンツを増幅し、スパムオンライン談話にメッセージを投稿することで、ソーシャルネットワークの構造を操作できる。
本研究では,オンライン人気度などのユーザメトリクスを操作できるような,悪意のあるアカウントの特定カテゴリを対象とする,教師なし検出手法を提案する。
当社のフレームワークは,ソーシャルメディアアカウントの全フォロワーのうち,異常なパターンを識別する。
Twitterプラットフォーム上の多数のアカウントの分析(Elon Muskの買収後にTwitterに改名された)を通じて、不規則なフォローパターンが一般的であり、自動偽アカウントの表示であることを示す。
特に,検出された異常なフォロワー群は複数のアカウントで一貫した行動を示す。
この観察は,提案手法の計算効率と相まって,ソーシャルメディアプラットフォーム上での大規模協調操作キャンペーンを調査するための貴重なツールとなる。 Automated social media accounts, known as bots, are increasingly recognized as key tools for manipulative online activities. These activities can stem from coordination among several accounts and these automated campaigns can manipulate social network structure by following other accounts, amplifying their content, and posting messages to spam online discourse. In this study, we present a novel unsupervised detection method designed to target a specific category of malicious accounts designed to manipulate user metrics such as online popularity. Our framework identifies anomalous following patterns among all the followers of a social media account. Through the analysis of a large number of accounts on the Twitter platform (rebranded as Twitter after the acquisition of Elon Musk), we demonstrate that irregular following patterns are prevalent and are indicative of automated fake accounts. Notably, we find that these detected groups of anomalous followers exhibit consistent behavior across multiple accounts. This observation, combined with the computational efficiency of our proposed approach, makes it a valuable tool for investigating large-scale coordinated manipulation campaigns on social media platforms. | 翻訳日:2023-11-01 15:21:19 公開日:2023-10-31 |
# AIを用いたマルチベースステーション協調センシング Multi-Base Station Cooperative Sensing with AI-Aided Tracking ( http://arxiv.org/abs/2310.20403v1 ) ライセンス: Link先を確認 | Elia Favarelli, Elisabetta Matricardi, Lorenzo Pucci, Enrico Paolini, Wen Xu, Andrea Giorgetti | (参考訳) 本研究では,複数の基地局(bss)を融合センター(fc)を介して連携させ,複数のユーザ機器(ues)との通信リンクを併設しながら,センシング環境に関する情報を交換するジョイントセンシング・アンド・コミュニケーション(jsc)ネットワークの性能について検討する。
ネットワーク内の各bsはモノスタティックレーダシステムとして動作し、監視対象領域を包括的に走査し、異種物体群の位置に関する情報を提供するレンジアングルマップを生成する。
獲得した地図は後にFCで融合される。
次に、畳み込みニューラルネットワーク(cnn)を用いて、歩行者や車両などの対象のカテゴリを推定し、その情報を適応クラスタリングアルゴリズムにより活用し、同一ターゲットから検出した検出をより効果的にグループ化する。
最後に, 確率仮説密度 (phd) フィルタとマルチバーヌーリ混合フィルタ (mbm) の2つのマルチターゲット追跡アルゴリズムを適用し, ターゲットの状態の推定を行った。
その結果, 通信容量を10%から20%に抑えつつ, 通信サービスをUEに維持しながら, 最適サブパターン割り当て(OSPA)を60cm未満で達成できることがわかった。
また, センサに係わるBS数の影響についても検討し, 特定の症例では, 3つのBSが1m未満の局所誤差を保証していることを示す。 In this work, we investigate the performance of a joint sensing and communication (JSC) network consisting of multiple base stations (BSs) that cooperate through a fusion center (FC) to exchange information about the sensed environment while concurrently establishing communication links with a set of user equipments (UEs). Each BS within the network operates as a monostatic radar system, enabling comprehensive scanning of the monitored area and generating range-angle maps that provide information regarding the position of a group of heterogeneous objects. The acquired maps are subsequently fused in the FC. Then, a convolutional neural network (CNN) is employed to infer the category of the targets, e.g., pedestrians or vehicles, and such information is exploited by an adaptive clustering algorithm to group the detections originating from the same target more effectively. Finally, two multi-target tracking algorithms, the probability hypothesis density (PHD) filter and multi-Bernoulli mixture (MBM) filter, are applied to estimate the state of the targets. Numerical results demonstrated that our framework could provide remarkable sensing performance, achieving an optimal sub-pattern assignment (OSPA) less than 60 cm, while keeping communication services to UEs with a reduction of the communication capacity in the order of 10% to 20%. The impact of the number of BSs engaged in sensing is also examined, and we show that in the specific case study, 3 BSs ensure a localization error below 1 m. | 翻訳日:2023-11-01 15:21:01 公開日:2023-10-31 |
# 実用的アルゴリズム構成 Utilitarian Algorithm Configuration ( http://arxiv.org/abs/2310.20401v1 ) ライセンス: Link先を確認 | Devon R. Graham, Kevin Leyton-Brown and Tim Roughgarden | (参考訳) 提案手法は,エンドユーザに提供されるユーティリティを最大化するためにヒューリスティックアルゴリズムを構成するための最初の非自明な手順であり,性能に関する理論的保証を提供する。
既存のプロシージャは、期待されるランタイムを最小限にする設定を求める。
しかし、非常に最近の理論的研究は、期待されるランタイムの最小化はアルゴリズム設計者の好みを捉えないと主張している。
ここでは、実用目的も重要なアルゴリズム上の利点をもたらすことを示す。
実際、アルゴリズムがそのような長い実行を決して起こさない場合でも、平均ランタイムを確実に最小化する構成手順は、この事実を実証するために、膨大な数の実験を実行しなければなりません。
対照的に、ユーティリティはバウンダリであり、実行時に単調に減少し、構成のパフォーマンスに有意義な経験的境界が与えられる。
本稿では,この概念に基づいて,有効かつ理論的に健全な構成手順を記述する。
我々は、理論上の下限に類似した手順の実行時の上限を証明し、その性能を実証的に証明する。 We present the first nontrivial procedure for configuring heuristic algorithms to maximize the utility provided to their end users while also offering theoretical guarantees about performance. Existing procedures seek configurations that minimize expected runtime. However, very recent theoretical work argues that expected runtime minimization fails to capture algorithm designers' preferences. Here we show that the utilitarian objective also confers significant algorithmic benefits. Intuitively, this is because mean runtime is dominated by extremely long runs even when they are incredibly rare; indeed, even when an algorithm never gives rise to such long runs, configuration procedures that provably minimize mean runtime must perform a huge number of experiments to demonstrate this fact. In contrast, utility is bounded and monotonically decreasing in runtime, allowing for meaningful empirical bounds on a configuration's performance. This paper builds on this idea to describe effective and theoretically sound configuration procedures. We prove upper bounds on the runtime of these procedures that are similar to theoretical lower bounds, while also demonstrating their performance empirically. | 翻訳日:2023-11-01 15:20:33 公開日:2023-10-31 |
# ニューラルネットワークを用いた重力N体問題に対するハイブリッドアプローチ A hybrid approach for solving the gravitational N-body problem with Artificial Neural Networks ( http://arxiv.org/abs/2310.20398v1 ) ライセンス: Link先を確認 | Veronica Saz Ulibarrena, Philipp Horn, Simon Portegies Zwart, Elena Sellentin, Barry Koren, Maxwell X. Cai | (参考訳) 重力的N体問題の進化をシミュレーションすることは、Nが増加するにつれて非常に計算コストが高くなる。
我々は、惑星系統合の高価な部分を置き換えるための人工ニューラルネットワーク(anns)の使用について研究する。
物理知識を含むニューラルネットワークは、ここ数年で人気が高まっているが、天体の動きのシミュレーションを高速化するための試みは、ほとんど行われていない。
計算コストの高い数値シミュレーションの部品を置き換えるためにハミルトニアンニューラルネットワークを用いることの利点と限界について検討する。
惑星系と小惑星の数値積分の結果と、ハミルトニアンニューラルネットワークと従来のディープニューラルネットワークの数値積分の結果を比較し、この問題の課題を理解することを目的とした。
運動の重力方程式の非線形性のため、積分の誤差は伝播する。
ニューラルネットワークを用いた手法のロバスト性を高めるために,ネットワークの予測を評価し,不正確な場合の数値解に置き換えるハイブリッド積分器を提案する。
ハミルトニアンニューラルネットワークはシンプレクティックインテグレータの挙動に似た予測を行うことができるが、訓練が困難であり、入力が7桁程度異なる場合に失敗する。
対照的に、Deep Neural Networksは訓練が容易であるが、エネルギーの保存に失敗し、参照ソリューションから素早く分岐する。
ニューラルネットワークを含むように設計されたハイブリッドインテグレータは、その手法の信頼性を高め、演算コストを大幅に増大させることなく大きなエネルギーエラーを防止する。
この問題に対して、ニューラルネットワークの使用は、小惑星の数が70を超えるとより高速にシミュレーションされる。 Simulating the evolution of the gravitational N-body problem becomes extremely computationally expensive as N increases since the problem complexity scales quadratically with the number of bodies. We study the use of Artificial Neural Networks (ANNs) to replace expensive parts of the integration of planetary systems. Neural networks that include physical knowledge have grown in popularity in the last few years, although few attempts have been made to use them to speed up the simulation of the motion of celestial bodies. We study the advantages and limitations of using Hamiltonian Neural Networks to replace computationally expensive parts of the numerical simulation. We compare the results of the numerical integration of a planetary system with asteroids with those obtained by a Hamiltonian Neural Network and a conventional Deep Neural Network, with special attention to understanding the challenges of this problem. Due to the non-linear nature of the gravitational equations of motion, errors in the integration propagate. To increase the robustness of a method that uses neural networks, we propose a hybrid integrator that evaluates the prediction of the network and replaces it with the numerical solution if considered inaccurate. Hamiltonian Neural Networks can make predictions that resemble the behavior of symplectic integrators but are challenging to train and in our case fail when the inputs differ ~7 orders of magnitude. In contrast, Deep Neural Networks are easy to train but fail to conserve energy, leading to fast divergence from the reference solution. The hybrid integrator designed to include the neural networks increases the reliability of the method and prevents large energy errors without increasing the computing cost significantly. For this problem, the use of neural networks results in faster simulations when the number of asteroids is >70. | 翻訳日:2023-11-01 15:20:17 公開日:2023-10-31 |
# 図形MBSEビューによる製品ライン管理 Product Line Management with Graphical MBSE Views ( http://arxiv.org/abs/2310.20396v1 ) ライセンス: Link先を確認 | Pascal Krapf (Syscience), S\'ebastien Berthier (Syscience), Nicole Levy (CEDRIC-CNAM) | (参考訳) コストと遅延を減らし、品質を改善することは、製品とソフトウェア開発、特に自動車分野において大きな問題である。
製品ラインエンジニアリングは、コストと開発時間を削減し、製品の品質を改善することを目的とした、エンジニアシステムに対するよく知られたアプローチである。
特徴モデルは、特徴の論理的な選択と、その製品を構成する資産のフィルタセットの取得を可能にする。
特徴木で可能な決定を視覚的に行うために,特徴モデルにカラーコードを使用することを提案する。
色コードは説明され、使用例が示されている。
アプローチの完全性について議論する。 Reducing the cost and delay and improving quality are major issues for product and software development, especially in the automotive domain. Product line engineering is a wellknown approach to engineer systems with the aim to reduce costs and development time as well as to improve the product quality. Feature models enable to make logical selection of features and obtain a filtered set of assets that compose the product. We propose to use a color code in feature models to make possible decisions visual in the feature tree. The color code is explained and its use is illustrated. The completeness of the approach is discussed. | 翻訳日:2023-11-01 15:19:49 公開日:2023-10-31 |
# リアルタイム仕様ファミリのスプレッドシートベース構成 Spreadsheet-based Configuration of Families of Real-Time Specifications ( http://arxiv.org/abs/2310.20395v1 ) ライセンス: Link先を確認 | Jos\'e Proen\c{c}a (CISTER and University of Porto, Portugal), David Pereira (CISTER, Polytechnic Institute of Porto, Portugal), Giann Spilere Nandi (CISTER, Polytechnic Institute of Porto, Portugal), Sina Borrami (Alstom), Jonas Melchert (Alstom) | (参考訳) リアルタイムシステムのモデルチェックは複雑で、状態の爆発を避けるのに十分な詳細を含めるには、慎重にトレードオフする必要がある。
この作業は、分析される形式モデルと、検査される要件の変動を利用して、リアルタイム仕様のバリエーションのモデルチェックを容易にする。
この研究は、valu3s european projectの文脈で、具体的なユースケースを持つ鉄道会社alstomとアカデミックの協力関係から生まれたものである。
形式仕様のバリエーションの設定は、特定の構造を持つMS Excelスプレッドシートで記述されており、開発者が簡単に使用することができる。
これらのスプレッドシートは、インスタンスを生成してモデルチェッカーを実行するプロトタイプツールによって自動的に処理されます。
本稿では,スプレッドシートベースのインタフェースをモデルチェッカーとシンプルに保ちつつ,有効な機能の組み合わせに関する分析を活用し,これまでの作業の拡張を提案する。 Model checking real-time systems is complex, and requires a careful trade-off between including enough detail to be useful and not too much detail to avoid state explosion. This work exploits variability of the formal model being analysed and the requirements being checked, to facilitate the model-checking of variations of real-time specifications. This work results from the collaboration between academics and Alstom, a railway company with a concrete use-case, in the context of the VALU3S European project. The configuration of the variability of the formal specifications is described in MS Excel spreadsheets with a particular structure, making it easy to use also by developers. These spreadsheets are processed automatically by our prototype tool that generates instances and runs the model checker. We propose the extension of our previous work by exploiting analysis over valid combination of features, while preserving the simplicity of a spreadsheet-based interface with the model checker. | 翻訳日:2023-11-01 15:19:41 公開日:2023-10-31 |
# 時間型オートマトンにおける実行時間不透明性を確保するためのタイミングパラメータの設定 Configuring Timing Parameters to Ensure Execution-Time Opacity in Timed Automata ( http://arxiv.org/abs/2310.20392v1 ) ライセンス: Link先を確認 | \'Etienne Andr\'e (Universit\'e Sorbonne Paris Nord, LIPN, CNRS, Villetaneuse, France), Engel Lefaucheux (Universit\'e de Lorraine, CNRS, Inria, LORIA, Nancy, France), Didier Lime (Nantes Universit\'e, \'Ecole Centrale Nantes, CNRS, LS2N, Nantes, France), Dylan Marinho (Universit\'e de Lorraine, CNRS, Inria, LORIA, Nancy, France), Jun Sun (School of Computing and Information Systems, Singapore Management University, Singapore) | (参考訳) タイミング情報漏洩は、攻撃者がタイムスタンプのあるイベントなどのタイムスタンプ情報を観察して機密内部情報を引き出すと発生する。
タイムドオートマトン(Timed Automatica)は、有限状態オートマトンの拡張であり、一連のクロックが線形に進化し、テストやリセットが可能である。
本稿では,timed automataを入力形式として使用し,攻撃者がシステム実行時間に対して(のみ)アクセス可能と仮定した最近の成果を要約する。
まず、タイムドオートマトンでモデル化されたタイムドシステムは、秘密の場所と最終位置を与えられた場合、その実行時間を初期位置から最終位置まで合成し、秘密の場所が訪れたかどうかを推定できない。
つまり、最終的な位置が到達できないか、あるいは、実行時と、秘密の場所を訪問していないランの両方で到達可能である、というような実行時間に対して、システムは不透明である。
また,全実行時間不透明性問題にも対処し,すべての実行時間に対してシステムが不透明であるかどうかを問う。
第2に、システムを構成するためのタイミングパラメータを追加し、決定可能性のあるパラメトリックタイムドオートマタのサブクラスを特定します。
さらに,結果が不透明であることを保証したタイミングパラメータ評価を合成するための半アルゴリズムを考案した。
第3に,シークレットが有効期限を持つ場合の問題点を報告し,実行時の不透明性問題を定義する。
提案手法は,構成可能な内部タイミングでプログラム解析にも適用可能であることを示す。 Timing information leakage occurs whenever an attacker successfully deduces confidential internal information by observing some timed information such as events with timestamps. Timed automata are an extension of finite-state automata with a set of clocks evolving linearly and that can be tested or reset, making this formalism able to reason on systems involving concurrency and timing constraints. In this paper, we summarize a recent line of works using timed automata as the input formalism, in which we assume that the attacker has access (only) to the system execution time. First, we address the following execution-time opacity problem: given a timed system modeled by a timed automaton, given a secret location and a final location, synthesize the execution times from the initial location to the final location for which one cannot deduce whether the secret location was visited. This means that for any such execution time, the system is opaque: either the final location is not reachable, or it is reachable with that execution time for both a run visiting and a run not visiting the secret location. We also address the full execution-time opacity problem, asking whether the system is opaque for all execution times; we also study a weak counterpart. Second, we add timing parameters, which are a way to configure a system: we identify a subclass of parametric timed automata with some decidability results. In addition, we devise a semi-algorithm for synthesizing timing parameter valuations guaranteeing that the resulting system is opaque. Third, we report on problems when the secret has itself an expiration date, thus defining expiring execution-time opacity problems. We finally show that our method can also apply to program analysis with configurable internal timings. | 翻訳日:2023-11-01 15:19:26 公開日:2023-10-31 |
# 心臓拡散強調画像の高分解能基準画像による体積超解像 High-Resolution Reference Image Assisted Volumetric Super-Resolution of Cardiac Diffusion Weighted Imaging ( http://arxiv.org/abs/2310.20389v1 ) ライセンス: Link先を確認 | Yinzhe Wu, Jiahao Huang, Fanwen Wang, Pedro Ferreira, Andrew Scott, Sonia Nielles-Vallespin, Guang Yang | (参考訳) Diffusion Tensor Cardiac Magnetic Resonance (DT-CMR) は、ヒト心臓の微細構造を非侵襲的に観察する唯一の方法である。
dt-cmrの最近の研究は、心臓の微細構造が健康な心臓の巨視的機能とどのように関連しているかの理解を改善することを目的としている。
DT-CMRの最終的な測定値を得るためには,少なくとも6方向の拡散重み付き画像を取得する必要がある。
しかし、DWIの低信号-雑音比のため、標準のボクセルサイズはマイクロ構造において非常に大きい。
本研究では,深層学習による画像品質改善の可能性について検討した(全次元x4)。
本研究では,高分解能b0 DWIの付加モデル入力によるボリューム超解像を実現するための新しい枠組みを提案する。
追加入力によって高画質の画像が得られることを示した。
さらにこのモデルでは、見えないb値のDWIを超解して、心臓のDWI超解像に対するモデルフレームワークの一般化性を証明している。
結論として,モデルを低解像度画像に追加入力として高分解能参照画像を与え,トレーニングと推論を行い,参照画像が利用可能なパラメトリックイメージングのためのすべての超解像度フレームワークをガイドすることを推奨する。 Diffusion Tensor Cardiac Magnetic Resonance (DT-CMR) is the only in vivo method to non-invasively examine the microstructure of the human heart. Current research in DT-CMR aims to improve the understanding of how the cardiac microstructure relates to the macroscopic function of the healthy heart as well as how microstructural dysfunction contributes to disease. To get the final DT-CMR metrics, we need to acquire diffusion weighted images of at least 6 directions. However, due to DWI's low signal-to-noise ratio, the standard voxel size is quite big on the scale for microstructures. In this study, we explored the potential of deep-learning-based methods in improving the image quality volumetrically (x4 in all dimensions). This study proposed a novel framework to enable volumetric super-resolution, with an additional model input of high-resolution b0 DWI. We demonstrated that the additional input could offer higher super-resolved image quality. Going beyond, the model is also able to super-resolve DWIs of unseen b-values, proving the model framework's generalizability for cardiac DWI superresolution. In conclusion, we would then recommend giving the model a high-resolution reference image as an additional input to the low-resolution image for training and inference to guide all super-resolution frameworks for parametric imaging where a reference image is available. | 翻訳日:2023-11-01 15:18:55 公開日:2023-10-31 |
# 大きな言語モデルは、子供のように言葉の類似を解くか? Do large language models solve verbal analogies like children do? ( http://arxiv.org/abs/2310.20384v1 ) ライセンス: Link先を確認 | Claire E. Stevenson, Mathilde ter Veen, Rochelle Choenni, Han L. J. van der Maas and Ekaterina Shutova | (参考訳) アナロジー作りは人間の認知の中心にある。
大人は、例えば \textit{Horse は、鶏が...?
関係 (\textit{kept in}) をマッピングし、 \textit{chicken coop} に応答する。
対照的に、子供は、例えば \textit{egg} に答えるなど、しばしばアソシエーションを使用する。
本稿では,大言語モデル (LLM) がA:B::C:で動詞の類似を解くかどうかを検討する。
子供と同様の関連性で形成します
オランダ出身の14,002,7-12歳がオランダ語で622のアナロジーを解いたオンライン適応学習環境から抽出した言語アナロジーを用いた。
6つのオランダ語・多言語llmは小児と同程度で、mgptは7歳前後で最悪のパフォーマンスを示し、xlm-vとgpt-3は11歳未満で最高だった。
しかし、連想プロセスを制御すると、この図は変わり、各モデルのパフォーマンスレベルは1-2年に低下します。
さらなる実験では、連想過程がしばしば正しく解かれた類似を過小評価することを示した。
実験の結果, 言語類似性は, 子どものようにCと関連して解決される傾向が示唆された。 Analogy-making lies at the heart of human cognition. Adults solve analogies such as \textit{Horse belongs to stable like chicken belongs to ...?} by mapping relations (\textit{kept in}) and answering \textit{chicken coop}. In contrast, children often use association, e.g., answering \textit{egg}. This paper investigates whether large language models (LLMs) solve verbal analogies in A:B::C:? form using associations, similar to what children do. We use verbal analogies extracted from an online adaptive learning environment, where 14,002 7-12 year-olds from the Netherlands solved 622 analogies in Dutch. The six tested Dutch monolingual and multilingual LLMs performed around the same level as children, with MGPT performing worst, around the 7-year-old level, and XLM-V and GPT-3 the best, slightly above the 11-year-old level. However, when we control for associative processes this picture changes and each model's performance level drops 1-2 years. Further experiments demonstrate that associative processes often underlie correctly solved analogies. We conclude that the LLMs we tested indeed tend to solve verbal analogies by association with C like children do. | 翻訳日:2023-11-01 15:18:33 公開日:2023-10-31 |
# 医用画像におけるGPT-4Vのマルチモーダル機能に関する総合的研究 A Comprehensive Study of GPT-4V's Multimodal Capabilities in Medical Imaging ( http://arxiv.org/abs/2310.20381v1 ) ライセンス: Link先を確認 | Yingshu Li, Yunyi Liu, Zhanyu Wang, Xinyu Liang, Lingqiao Liu, Lei Wang, Leyang Cui, Zhaopeng Tu, Longyue Wang, Luping Zhou | (参考訳) 本稿では,放射線画像生成,医用視覚質問応答(VQA),視覚的グラウンドリングなど,様々な医療画像タスクにおけるGPT-4Vの能力を総合的に評価する。
医療画像におけるgpt-4vの性能に関する先行研究は,我々の知る限りでは最良であるが,本研究は公開ベンチマークにおける最初の定量的評価である。
gpt-4vの胸部x線画像に対する記述的レポート作成における可能性,特に構造が整ったプロンプトにより誘導される場合について検討した。
しかし、MIMIC-CXRデータセットベンチマークのパフォーマンスは、CIDErのような特定の評価指標を改善するための領域を明らかにする。
医学 VQA の領域では、GPT-4V は疑問型を区別する能力を示すが、精度の観点からは一般的なベンチマークには劣る。
さらに,より意味的に堅牢な評価手法の開発を提唱するBLEUスコアなどの従来の評価指標の限界も分析により明らかになった。
視覚接地の分野では、gpt-4vは境界ボックスの認識において予備的な約束を示すが、その精度は、特に特定の医療機関や標識の識別において不足している。
医用画像領域におけるGPT-4Vの意義と,その機能を完全に開放する目的の洗練の必要性を強調した。 This paper presents a comprehensive evaluation of GPT-4V's capabilities across diverse medical imaging tasks, including Radiology Report Generation, Medical Visual Question Answering (VQA), and Visual Grounding. While prior efforts have explored GPT-4V's performance in medical imaging, to the best of our knowledge, our study represents the first quantitative evaluation on publicly available benchmarks. Our findings highlight GPT-4V's potential in generating descriptive reports for chest X-ray images, particularly when guided by well-structured prompts. However, its performance on the MIMIC-CXR dataset benchmark reveals areas for improvement in certain evaluation metrics, such as CIDEr. In the domain of Medical VQA, GPT-4V demonstrates proficiency in distinguishing between question types but falls short of prevailing benchmarks in terms of accuracy. Furthermore, our analysis finds the limitations of conventional evaluation metrics like the BLEU score, advocating for the development of more semantically robust assessment methods. In the field of Visual Grounding, GPT-4V exhibits preliminary promise in recognizing bounding boxes, but its precision is lacking, especially in identifying specific medical organs and signs. Our evaluation underscores the significant potential of GPT-4V in the medical imaging domain, while also emphasizing the need for targeted refinements to fully unlock its capabilities. | 翻訳日:2023-11-01 15:18:14 公開日:2023-10-31 |
# 強化学習におけるドロップアウト戦略:政策最適化手法におけるサロゲート目的変数の制限 Dropout Strategy in Reinforcement Learning: Limiting the Surrogate Objective Variance in Policy Optimization Methods ( http://arxiv.org/abs/2310.20380v1 ) ライセンス: Link先を確認 | Zhengpeng Xie, Changdong Yu, Weizheng Qiao | (参考訳) ポリシーに基づく強化学習アルゴリズムは様々な分野で広く使われている。
中でも,PPOやTRPOなどの主流ポリシ最適化アルゴリズムは,履歴データの再利用を可能にする強化学習における重要サンプリングを導入している。
しかし、これはまた代理対象の高分散をもたらし、アルゴリズムの安定性と収束に間接的に影響を及ぼす。
そこで,本論文では,まず,サロゲート目標の分散の上限を導出し,サロゲート目標の増加とともに二次的に成長することができる。
次に,重要サンプリングによるサロゲート目的分散の過剰増加を回避するために,ドロップアウト手法を提案する。
そこで本研究では,主流政策最適化手法に適用可能な汎用強化学習フレームワークを導入し,PPOアルゴリズムにドロップアウト手法を適用してD-PPO変種を求める。
最後に,Atari 2600環境におけるD-PPOアルゴリズムとPPOアルゴリズムの比較実験を行い,D-PPOがPPOに比べて顕著な性能向上を達成し,トレーニング中のサロゲート目的分散の過剰増加を効果的に抑制することを示した。 Policy-based reinforcement learning algorithms are widely used in various fields. Among them, mainstream policy optimization algorithms such as PPO and TRPO introduce importance sampling into reinforcement learning, which allows the reuse of historical data. However, this also results in high variance of the surrogate objective and indirectly affects the stability and convergence of the algorithm. In this paper, we first derived an upper bound of the variance of the surrogate objective, which can grow quadratically with the increase of the surrogate objective. Next, we proposed a dropout technique to avoid the excessive increase of the surrogate objective variance caused by importance sampling. Then, we introduced a general reinforcement learning framework applicable to mainstream policy optimization methods, and applied the dropout technique to the PPO algorithm to obtain the D-PPO variant. Finally, we conduct comparative experiments between D-PPO and PPO algorithms in the Atari 2600 environment, results show that D-PPO achieved significant performance improvements compared to PPO, and effectively limited the excessive increase of the surrogate objective variance during training. | 翻訳日:2023-11-01 15:17:50 公開日:2023-10-31 |
# 応用数学と関連分野におけるモデルとアルゴリズムのオントロジー Ontologies for Models and Algorithms in Applied Mathematics and Related Disciplines ( http://arxiv.org/abs/2310.20443v1 ) ライセンス: Link先を確認 | Bj\"orn Schembera, Frank W\"ubbeling, Hendrik Kleikamp, Christine Biedinger, Jochen Fiedler, Marco Reidelbach, Aurela Shehu, Burkhard Schmidt, Thomas Koprucki, Dorothea Iglezakis, Dominik G\"oddeke | (参考訳) 応用数学と関連する分野において、モデリング-シミュレーション-最適化ワークフローは、数学モデルと数値アルゴリズムが重要な役割を果たす顕著なスキームである。
このような数学的研究データのために、数学的研究データイニシアチブはオントロジーと知識グラフを開発し、統合し、実装した。
これは、意味技術を導入し、数学的基礎を文書化する数学的研究データFAIRの作成に寄与する。
多孔質媒質の微小フラクチャー解析の具体例を用いて, 基礎となる数学的モデルとその解に対する数値アルゴリズムの知識がオントロジーによってどのように表現されるかを示した。 In applied mathematics and related disciplines, the modeling-simulation-optimization workflow is a prominent scheme, with mathematical models and numerical algorithms playing a crucial role. For these types of mathematical research data, the Mathematical Research Data Initiative has developed, merged and implemented ontologies and knowledge graphs. This contributes to making mathematical research data FAIR by introducing semantic technology and documenting the mathematical foundations accordingly. Using the concrete example of microfracture analysis of porous media, it is shown how the knowledge of the underlying mathematical model and the corresponding numerical algorithms for its solution can be represented by the ontologies. | 翻訳日:2023-11-01 15:09:58 公開日:2023-10-31 |
# SourceData-NLPデータセット:大言語モデルのトレーニングのためのキュレーションを科学出版に統合する The SourceData-NLP dataset: integrating curation into scientific publishing for training large language models ( http://arxiv.org/abs/2310.20440v1 ) ライセンス: Link先を確認 | Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Thomas Lemberger | (参考訳) 序文: 科学出版の世界は急速に拡大しており、研究者が文学の進化に合わせて最新の状態を維持するための課題を生み出している。
自然言語処理(NLP)は、この膨大な出版物や事前印刷物から知識抽出を自動化する強力なアプローチとして登場した。
名前付きエンティティ認識(ner)や名前付きエンティティリンク(nel)といったタスクは、コンテキスト依存のセマンティック解釈と合わせて、構造化された情報抽出と重要な概念の明確化に有望で補完的なアプローチを提供する。
結果: 出版過程における論文の定期的なキュレーションを通じて生成したSourceData-NLPデータセットについて述べる。
このデータセットのユニークな特徴は、図形伝説における生物のアノテーションに重点を置いていることである。
我々は,8種類の生物医学的実体(小分子,遺伝子産物,細胞内成分,細胞株,細胞タイプ,組織,生物,病気)を注釈し,実験設計におけるそれらの役割と,実験方法の性質を追加クラスとして検討した。
sourcedata-nlpは、分子生物学および細胞生物学の3,223の論文に18,689の数字からまとめられた、620,000以上の注釈付きバイオメディカルエンティティを含んでいる。
NERのためのSourceData-NLPデータセットを微調整した2つのトランスフォーマーベースモデルであるBioLinkBERTとPubmedBERTを評価することにより、データセットの有用性を説明する。
また、制御された介入の対象物なのか測定対象物なのかを推測する文脈依存型セマンティックタスクも導入する。
結論: SourceData-NLPのスケールは、キュレーションをパブリッシングに統合する価値を強調します。
SourceData-NLPでトレーニングされたモデルは、さらに、文献から因果仮説を抽出し、それらを知識グラフに組み立てるツールの開発を可能にする。 Introduction: The scientific publishing landscape is expanding rapidly, creating challenges for researchers to stay up-to-date with the evolution of the literature. Natural Language Processing (NLP) has emerged as a potent approach to automating knowledge extraction from this vast amount of publications and preprints. Tasks such as Named-Entity Recognition (NER) and Named-Entity Linking (NEL), in conjunction with context-dependent semantic interpretation, offer promising and complementary approaches to extracting structured information and revealing key concepts. Results: We present the SourceData-NLP dataset produced through the routine curation of papers during the publication process. A unique feature of this dataset is its emphasis on the annotation of bioentities in figure legends. We annotate eight classes of biomedical entities (small molecules, gene products, subcellular components, cell lines, cell types, tissues, organisms, and diseases), their role in the experimental design, and the nature of the experimental method as an additional class. SourceData-NLP contains more than 620,000 annotated biomedical entities, curated from 18,689 figures in 3,223 papers in molecular and cell biology. We illustrate the dataset's usefulness by assessing BioLinkBERT and PubmedBERT, two transformers-based models, fine-tuned on the SourceData-NLP dataset for NER. We also introduce a novel context-dependent semantic task that infers whether an entity is the target of a controlled intervention or the object of measurement. Conclusions: SourceData-NLP's scale highlights the value of integrating curation into publishing. Models trained with SourceData-NLP will furthermore enable the development of tools able to extract causal hypotheses from the literature and assemble them into knowledge graphs. | 翻訳日:2023-11-01 15:09:49 公開日:2023-10-31 |
# シャッフル回帰の相転移現象 The Phase Transition Phenomenon of Shuffled Regression ( http://arxiv.org/abs/2310.20438v1 ) ライセンス: Link先を確認 | Hang Zhang and Ping Li | (参考訳) 我々は,データベースやプライバシ,データ解析などにおいて多くの応用が見られたシャッフル(置換)回帰問題に内在する相転移現象について検討する。
本研究では,メッセージパッシング(MP)技術を活用し,位相遷移点の位置を正確に同定することを目的とする。
本分析では,まず置換回復問題を確率的グラフィカルモデルに変換する。
次に、メッセージパッシング(MP)アルゴリズムに根ざした解析ツールを活用し、MPアルゴリズムの収束を追跡する方程式を導出する。
この方程式を分岐ランダムウォーク過程にリンクすることにより、置換回復における信号対雑音比($\snr$)の影響を特徴づけることができる。
信号が与えられるか否かによっては、オラクルケースと非オラクルケースを別々に調査する。
相転移状態を特定する際のボトルネックは、対応する臨界点の閉形式公式を導出することにあるが、稀な場合のみそのような正確な式を得ることができる。
この技術的課題に対処するために,ほぼすべてのシナリオにおいて閉形式式を得ることができるガウス近似法を提案する。
oracleの場合、このメソッドは$\snr$というフェーズ遷移をかなり正確に予測できる。
非オラクルの場合、アルゴリズムは置換列の最大許容個数を予測し、サンプル数への依存性を明らかにする。 We study the phase transition phenomenon inherent in the shuffled (permuted) regression problem, which has found numerous applications in databases, privacy, data analysis, etc. In this study, we aim to precisely identify the locations of the phase transition points by leveraging techniques from message passing (MP). In our analysis, we first transform the permutation recovery problem into a probabilistic graphical model. We then leverage the analytical tools rooted in the message passing (MP) algorithm and derive an equation to track the convergence of the MP algorithm. By linking this equation to the branching random walk process, we are able to characterize the impact of the signal-to-noise-ratio ($\snr$) on the permutation recovery. Depending on whether the signal is given or not, we separately investigate the oracle case and the non-oracle case. The bottleneck in identifying the phase transition regimes lies in deriving closed-form formulas for the corresponding critical points, but only in rare scenarios can one obtain such precise expressions. To tackle this technical challenge, this study proposes the Gaussian approximation method, which allows us to obtain the closed-form formulas in almost all scenarios. In the oracle case, our method can fairly accurately predict the phase transition $\snr$. In the non-oracle case, our algorithm can predict the maximum allowed number of permuted rows and uncover its dependency on the sample number. | 翻訳日:2023-11-01 15:09:19 公開日:2023-10-31 |
# signavatars:大規模3d手話総合運動データセットとベンチマーク SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark ( http://arxiv.org/abs/2310.20436v1 ) ライセンス: Link先を確認 | Zhengdi Yu, Shaoli Huang, Yongkang Cheng, Tolga Birdal | (参考訳) 本稿では,聴覚障害者のコミュニケーションギャップを埋めるために設計された,最初の大規模マルチプロンプト3D手話(SL)モーションデータセットであるSignAvatarsを提案する。
デジタルコミュニケーションに関する研究は急速に増えているが、既存のコミュニケーション技術の大部分は、聴覚障害のあるコミュニティにとって不可欠なコミュニケーション手法であるSLではなく、主に話し言葉や書き言葉に向いている。
既存のslデータセット、辞書、手話生成(slp)法は、通常は2dに制限されており、slの注釈付き3dモデルとアバターは通常、slの専門家が行う完全に手動で労働集約的なプロセスであり、しばしば不自然なアバターになる。
これらの課題に対応するために、我々はSignAvatarsデータセットをコンパイルし、キュレートする。これは153の署名者から7万本のビデオで構成され、合計8.34万のフレームで構成され、孤立した記号と連続した協調記号の両方をカバーし、HamNoSys、音声言語、単語を含む複数のプロンプトを含む。
メッシュや人体,手,顔のバイオメカニカルなポーズ,および2Dおよび3Dキーポイントを含む3次元の全体的アノテーションを得るために,当社の大規模なSLビデオコーパスで動作する自動アノテーションパイプラインを導入する。
signavatarsはslr(3d sign language recognition)やslp(new 3d sl production)といった様々なタスクをテキストスクリプト、個々の単語、ハムノーシス表記などの様々な入力から行う。
そこで,シグナバタールのポテンシャルを評価するために,さらに3次元sl全体運動生成の統一ベンチマークを提案する。
この研究は、聴覚障害者コミュニティにデジタル世界をもたらすための大きな一歩だと考えています。
私たちのプロジェクトページはhttps://signavatars.github.io/です。 In this paper, we present SignAvatars, the first large-scale multi-prompt 3D sign language (SL) motion dataset designed to bridge the communication gap for hearing-impaired individuals. While there has been an exponentially growing number of research regarding digital communication, the majority of existing communication technologies primarily cater to spoken or written languages, instead of SL, the essential communication method for hearing-impaired communities. Existing SL datasets, dictionaries, and sign language production (SLP) methods are typically limited to 2D as the annotating 3D models and avatars for SL is usually an entirely manual and labor-intensive process conducted by SL experts, often resulting in unnatural avatars. In response to these challenges, we compile and curate the SignAvatars dataset, which comprises 70,000 videos from 153 signers, totaling 8.34 million frames, covering both isolated signs and continuous, co-articulated signs, with multiple prompts including HamNoSys, spoken language, and words. To yield 3D holistic annotations, including meshes and biomechanically-valid poses of body, hands, and face, as well as 2D and 3D keypoints, we introduce an automated annotation pipeline operating on our large corpus of SL videos. SignAvatars facilitates various tasks such as 3D sign language recognition (SLR) and the novel 3D SL production (SLP) from diverse inputs like text scripts, individual words, and HamNoSys notation. Hence, to evaluate the potential of SignAvatars, we further propose a unified benchmark of 3D SL holistic motion production. We believe that this work is a significant step forward towards bringing the digital world to the hearing-impaired communities. Our project page is at https://signavatars.github.io/ | 翻訳日:2023-11-01 15:08:56 公開日:2023-10-31 |
# 連合学習モデルの持続性と信頼性の評価 Assessing the Sustainability and Trustworthiness of Federated Learning Models ( http://arxiv.org/abs/2310.20435v1 ) ライセンス: Link先を確認 | Alberto Huertas Celdran, Chao Feng, Pedro Miguel Sanchez Sanchez, Lynn Zumtaugwald, Gerome Bovet, Burkhard Stiller | (参考訳) 人工知能(AI)は様々な分野において重要な役割を担い、日常生活における重要な意思決定プロセスに影響を与える。
AIの世界では、フェデレートラーニング(FL)のような新しいAIパラダイムが、AIモデルを協調的にトレーニングしながらデータのプライバシを保存することに重点を置いている。
このような状況下では、欧州委員会(AI-HLEG)の専門家グループが、持続可能なAIを信頼できるAIを提供すると考えられる重要な要素の1つとして特定した。
既存の文献は、FLモデルの信頼性を評価するためのいくつかの分類学と解決策を提供しているが、持続可能性やFLに関連する炭素フットプリントを考慮すると、大きなギャップが存在する。
このように、この研究は、最新の総合的な信頼性のあるFL分類にサステナビリティの柱を導入し、AI-HLEGの要求に最初に対処する。
サステナビリティの柱はflシステムの環境影響を評価し、ハードウェア効率、フェデレーションの複雑さ、エネルギーグリッドの炭素強度に対する概念と指標を取り入れた。
次に,持続可能性柱を組み込んでflモデルの信頼性を評価するアルゴリズムを設計・実装する。
フェデレートスコープフレームワークと様々なシナリオによる広範囲な評価により、フェデレーション参加者、複雑度、ハードウェア、エネルギーグリッドが提案手法の有用性を示している。 Artificial intelligence (AI) plays a pivotal role in various sectors, influencing critical decision-making processes in our daily lives. Within the AI landscape, novel AI paradigms, such as Federated Learning (FL), focus on preserving data privacy while collaboratively training AI models. In such a context, a group of experts from the European Commission (AI-HLEG) has identified sustainable AI as one of the key elements that must be considered to provide trustworthy AI. While existing literature offers several taxonomies and solutions for assessing the trustworthiness of FL models, a significant gap exists in considering sustainability and the carbon footprint associated with FL. Thus, this work introduces the sustainability pillar to the most recent and comprehensive trustworthy FL taxonomy, making this work the first to address all AI-HLEG requirements. The sustainability pillar assesses the FL system environmental impact, incorporating notions and metrics for hardware efficiency, federation complexity, and energy grid carbon intensity. Then, this work designs and implements an algorithm for evaluating the trustworthiness of FL models by incorporating the sustainability pillar. Extensive evaluations with the FederatedScope framework and various scenarios varying federation participants, complexities, hardware, and energy grids demonstrate the usefulness of the proposed solution. | 翻訳日:2023-11-01 15:08:21 公開日:2023-10-31 |
# 1024集積シリコン量子ドットの高速低温特性化 Rapid cryogenic characterisation of 1024 integrated silicon quantum dots ( http://arxiv.org/abs/2310.20434v1 ) ライセンス: Link先を確認 | Edward J. Thomas, Virginia N. Ciriano-Tejel, David F. Wise, Domenic Prete, Mathieu de Kruijf, David J. Ibberson, Grayson M. Noah, Alberto Gomez-Saiz, M. Fernando Gonzalez-Zalba, Mark A. I. Johnson, John J. L. Morton | (参考訳) 量子コンピュータは千量子ビットに近づいており、現在の焦点は計算性能を改善するためにスケールすることである。
量子プロセッサが複雑化するにつれて、デバイスの可変性管理や電子回路をサポートするインターフェースなど、新たな課題が発生する。
シリコン量子ドットのスピン量子ビットは、これらの課題に、その実証された制御忠実さと大規模統合との互換性の可能性で対処する。
高周波アナログ多重化器は、最小限の電気接続で全てのデバイスに高速にアクセスでき、量子ドットアレイにまたがる特性データをわずか5分で取得できる。
我々は、電波反射計と最先端信号整合性を利用して、160psの最小積分時間に達する。
量子ドットパラメータは、高速自動機械学習ルーチンによって抽出され、量子ドットの収量を評価し、デバイス設計の影響を理解する。
量子ドットパラメータと、インラインプロセス監視のプロキシとして使用できる室温トランジスタの挙動との相関性を見出した。
以上の結果から, シリコン量子デバイスの大規模研究が, 低い温度で, 測定速度が現在のプローブ技術よりも桁違いに速く行えることを示し, 大規模量子ビットアレイの将来のオンチップアドレッシングのためのプラットフォームを構築した。 Quantum computers are nearing the thousand qubit mark, with the current focus on scaling to improve computational performance. As quantum processors grow in complexity, new challenges arise such as the management of device variability and the interface with supporting electronics. Spin qubits in silicon quantum dots are poised to address these challenges with their proven control fidelities and potential for compatibility with large-scale integration. Here, we demonstrate the integration of 1024 silicon quantum dots with on-chip digital and analogue electronics, all operating below 1 K. A high-frequency analogue multiplexer provides fast access to all devices with minimal electrical connections, enabling characteristic data across the quantum dot array to be acquired in just 5 minutes. We achieve this by leveraging radio-frequency reflectometry with state-of-the-art signal integrity, reaching a minimum integration time of 160 ps. Key quantum dot parameters are extracted by fast automated machine learning routines to assess quantum dot yield and understand the impact of device design. We find correlations between quantum dot parameters and room temperature transistor behaviour that may be used as a proxy for in-line process monitoring. Our results show how rapid large-scale studies of silicon quantum devices can be performed at lower temperatures and measurement rates orders of magnitude faster than current probing techniques, and form a platform for the future on-chip addressing of large scale qubit arrays. | 翻訳日:2023-11-01 15:08:02 公開日:2023-10-31 |
# 超伝導およびトラップイオンクォートを用いたパリティ時対称性破壊相転移の実証 Demonstration of a parity-time symmetry breaking phase transition using superconducting and trapped-ion qutrits ( http://arxiv.org/abs/2310.20432v1 ) ライセンス: Link先を確認 | Alena S. Kazmina, Ilia V. Zalivako, Alexander S. Borisenko, Nikita A. Nemkov, Anastasiia S. Nikolaeva, Ilya A. Simakov, Arina V. Kuznetsova, Elena Yu. Egorova, Kristina P. Galstyan, Nikita V. Semenin, Andrey E. Korolkov, Ilya N. Moskalenko, Nikolay N. Abramov, Ilya S. Besedin, Daria A. Kalacheva, Viktor B. Lubsanov, Aleksey N. Bolgar, Evgeniy O. Kiktenko, Ksenia Yu. Khabarova, Alexey Galda, Ilya A. Semerikov, Nikolay N. Kolachevsky, Nataliya Maleeva, Aleksey K. Fedorov | (参考訳) スケーラブルな量子コンピュータは、素因数分解、組合せ最適化、多体物理学のシミュレーション、量子化学といった難しい計算問題を解くことを約束している。
多くの実世界の現象を理解する上で鍵となる一方で、非保守量子力学のシミュレーションはユニタリ量子計算の課題である。
本研究では,非ユニタリなパリティ時間対称系をシミュレートすることに焦点を当て,特異な対称性破壊位相遷移を示す。
我々は、この非平衡相転移を実現することができる3レベル量子系であるクォートリットを示す。
2つの物理的プラットフォーム(捕捉イオンの配列と超伝導トランスモン)を使い、それらの3つのエネルギー準位をデジタル的に制御することで、パリティタイム対称性の破壊的相転移を実験的にシミュレートする。
以上の結果から,物理効果をシミュレートするマルチレベル(量子)プロセッサの利点が示唆された。 Scalable quantum computers hold the promise to solve hard computational problems, such as prime factorization, combinatorial optimization, simulation of many-body physics, and quantum chemistry. While being key to understanding many real-world phenomena, simulation of non-conservative quantum dynamics presents a challenge for unitary quantum computation. In this work, we focus on simulating non-unitary parity-time symmetric systems, which exhibit a distinctive symmetry-breaking phase transition as well as other unique features that have no counterpart in closed systems. We show that a qutrit, a three-level quantum system, is capable of realizing this non-equilibrium phase transition. By using two physical platforms - an array of trapped ions and a superconducting transmon - and by controlling their three energy levels in a digital manner, we experimentally simulate the parity-time symmetry-breaking phase transition. Our results indicate the potential advantage of multi-level (qudit) processors in simulating physical effects, where additional accessible levels can play the role of a controlled environment. | 翻訳日:2023-11-01 15:07:37 公開日:2023-10-31 |
# ストリーミング時系列セグメンテーションのクラスを上げる Raising the ClaSS of Streaming Time Series Segmentation ( http://arxiv.org/abs/2310.20431v1 ) ライセンス: Link先を確認 | Arik Ermshaus, Patrick Sch\"afer, Ulf Leser | (参考訳) 今日、ユビキタスセンサーは、人間、動物、工業、商業、および自然の過程の特性を反映する数値測定の高周波ストリームを出力している。
このようなプロセスの変化、例えば外部イベントや内部状態の変化は、記録された信号の変化として現れます。
ストリーミング時系列セグメンテーション(STSS)のタスクは、ストリームを観測されたプロセスやエンティティの状態に対応する連続的な可変サイズのセグメントに分割することである。
分割操作自体の性能は信号の入力周波数に対処できなければならない。
本稿では,新しい,効率的かつ高精度なSTSSアルゴリズムであるClaSSを紹介する。
ClaSSは、自己教師付き時系列分類を用いて電位分割の均一性を評価し、統計的テストを適用して重要な変化点(CP)を検出する。
2つの大規模なベンチマークと6つの実世界のデータアーカイブを用いた実験の結果、ClaSSは8つの最先端の競合よりはるかに正確であることが判明した。
その空間と時間の複雑さはセグメントサイズに依存し、スライディングウィンドウサイズのみに線形である。
また、Apache Flinkストリーミングエンジンでは、平均スループットが毎秒538データポイントのウィンドウオペレータとしてClaSSを提供しています。 Ubiquitous sensors today emit high frequency streams of numerical measurements that reflect properties of human, animal, industrial, commercial, and natural processes. Shifts in such processes, e.g. caused by external events or internal state changes, manifest as changes in the recorded signals. The task of streaming time series segmentation (STSS) is to partition the stream into consecutive variable-sized segments that correspond to states of the observed processes or entities. The partition operation itself must in performance be able to cope with the input frequency of the signals. We introduce ClaSS, a novel, efficient, and highly accurate algorithm for STSS. ClaSS assesses the homogeneity of potential partitions using self-supervised time series classification and applies statistical tests to detect significant change points (CPs). In our experimental evaluation using two large benchmarks and six real-world data archives, we found ClaSS to be significantly more precise than eight state-of-the-art competitors. Its space and time complexity is independent of segment sizes and linear only in the sliding window size. We also provide ClaSS as a window operator with an average throughput of 538 data points per second for the Apache Flink streaming engine. | 翻訳日:2023-11-01 15:07:18 公開日:2023-10-31 |
# デジタル病理学における腐敗エミュレーションを伴う深層学習モデルのロバスト性の評価と強化 Assessing and Enhancing Robustness of Deep Learning Models with Corruption Emulation in Digital Pathology ( http://arxiv.org/abs/2310.20427v1 ) ライセンス: Link先を確認 | Peixiang Huang, Songtao Zhang, Yulu Gan, Rui Xu, Rongqi Zhu, Wenkang Qin, Limei Guo, Shan Jiang, Lin Luo | (参考訳) デジタル病理学におけるディープラーニングは、臨床診断の黄金標準である病理分析の大幅な強化として、インテリジェンスとオートメーションをもたらす。
しかし, 組織調製からスライド画像への複数のステップは, 様々な画像劣化を引き起こすため, ディープニューラルネットワーク(DNN)モデルでは臨床応用のための安定した診断結果が得られにくい。
モデルのロバスト性を評価し,さらに強化するために,病的ライフサイクル全体にわたるフルスタック腐敗の物理的原因を分析し,21種類の腐敗を5レベル重大度で再現する全腐敗エミュレーション(omnice)法を提案する。
次に、パッチレベルとスライドレベルの両方で3つのOmniCE崩壊ベンチマークデータセットを構築し、分類とセグメンテーションタスクにおいて人気のあるDNNの堅牢性を評価する。
さらに,omniceによるデータセットをトレーニングや実験のための拡張データとして利用し,モデルの一般化能力が大幅に向上したことを確認した。 Deep learning in digital pathology brings intelligence and automation as substantial enhancements to pathological analysis, the gold standard of clinical diagnosis. However, multiple steps from tissue preparation to slide imaging introduce various image corruptions, making it difficult for deep neural network (DNN) models to achieve stable diagnostic results for clinical use. In order to assess and further enhance the robustness of the models, we analyze the physical causes of the full-stack corruptions throughout the pathological life-cycle and propose an Omni-Corruption Emulation (OmniCE) method to reproduce 21 types of corruptions quantified with 5-level severity. We then construct three OmniCE-corrupted benchmark datasets at both patch level and slide level and assess the robustness of popular DNNs in classification and segmentation tasks. Further, we explore to use the OmniCE-corrupted datasets as augmentation data for training and experiments to verify that the generalization ability of the models has been significantly enhanced. | 翻訳日:2023-11-01 15:06:59 公開日:2023-10-31 |
# 構造制約による進化的パレートセット学習 Evolutionary Pareto Set Learning with Structure Constraints ( http://arxiv.org/abs/2310.20426v1 ) ライセンス: Link先を確認 | Xi Lin, Xiaoyuan Zhang, Zhiyuan Yang, Qingfu Zhang | (参考訳) 多目的進化最適化アルゴリズム(MOEA)は、多目的最適化問題(MOP)に取り組むための強力なアプローチであり、単一のランで近似パレート解の有限集合を見つけることができる。
しかし、穏やかな正則性条件の下では、連続 MOP のパレート最適集合は無限の解を含む低次元連続多様体である。
さらに、すべてのソリューション間で共有されるパターンを特徴付ける最適解集合全体の構造的制約は、多くの実生活アプリケーションで必要となる。
既存の有限集団に基づくMOEAがこれらの構造制約を適切に扱うことは非常に困難である。
本研究では,多目的最適化のための構造制約付き解集合全体を学習する最初のモデルベースアルゴリズムフレームワークを提案する。
私たちのアプローチでは、paretoの最適性は、ソリューションセット全体の中で望ましい構造で切り離すことができます。
また,構造制約のある集合モデルを学習するための効率的な進化的学習法を開発した。
ベンチマークテストスイートと実世界のアプリケーション問題に関する実験的研究は,提案フレームワークの有望な性能を示すものである。 The multiobjective evolutionary optimization algorithm (MOEA) is a powerful approach for tackling multiobjective optimization problems (MOPs), which can find a finite set of approximate Pareto solutions in a single run. However, under mild regularity conditions, the Pareto optimal set of a continuous MOP could be a low dimensional continuous manifold that contains infinite solutions. In addition, structure constraints on the whole optimal solution set, which characterize the patterns shared among all solutions, could be required in many real-life applications. It is very challenging for existing finite population based MOEAs to handle these structure constraints properly. In this work, we propose the first model-based algorithmic framework to learn the whole solution set with structure constraints for multiobjective optimization. In our approach, the Pareto optimality can be traded off with a preferred structure among the whole solution set, which could be crucial for many real-world problems. We also develop an efficient evolutionary learning method to train the set model with structure constraints. Experimental studies on benchmark test suites and real-world application problems demonstrate the promising performance of our proposed framework. | 翻訳日:2023-11-01 15:06:41 公開日:2023-10-31 |
# 物理強化機械学習のスペクトルを語る : 構造力学応用のサーベイを通して Discussing the Spectrum of Physics-Enhanced Machine Learning via a Survey on Structural Mechanics Applications ( http://arxiv.org/abs/2310.20425v1 ) ライセンス: Link先を確認 | Marcus Haywood-Alexander, Wei Liu, Kiran Bacsa, Zhilu Lai, Eleni Chatzi | (参考訳) 物理と機械学習の交わりは、我々がここで物理強化機械学習(PEML)と呼ぶパラダイムを生み出し、その能力を改善し、データや物理のみの手法の個々の欠点を減らすことを目的としている。
本稿では,物理とデータの定義軸にまたがって表現される物理エンハンスド機械学習のスペクトルについて,その特性,使用法,動機を包括的に探究し,考察する。
そこで本研究では,PEML技術の最近の応用と開発について調査を行い,複雑な課題に対処するためのPEMLの有用性を明らかにする。
さらに, 単自由度ダッフィング発振器の簡単な動作例にそのようなスキームを適用すれば, PEMLアプローチの異なる「ジャンル」の個々の特性と動機を明らかにすることができる。
共同作業と透明性の促進,および読者に実践例を提供するため,本論文とともにこれらの実例のコードを提供する。
基礎的な貢献として,科学・工学研究の境界を推し進めることにおけるPEMLの重要性を,物理的な洞察と機械学習能力の相乗効果に支えられている。 The intersection of physics and machine learning has given rise to a paradigm that we refer to here as physics-enhanced machine learning (PEML), aiming to improve the capabilities and reduce the individual shortcomings of data- or physics-only methods. In this paper, the spectrum of physics-enhanced machine learning methods, expressed across the defining axes of physics and data, is discussed by engaging in a comprehensive exploration of its characteristics, usage, and motivations. In doing so, this paper offers a survey of recent applications and developments of PEML techniques, revealing the potency of PEML in addressing complex challenges. We further demonstrate application of select such schemes on the simple working example of a single-degree-of-freedom Duffing oscillator, which allows to highlight the individual characteristics and motivations of different `genres' of PEML approaches. To promote collaboration and transparency, and to provide practical examples for the reader, the code of these working examples is provided alongside this paper. As a foundational contribution, this paper underscores the significance of PEML in pushing the boundaries of scientific and engineering research, underpinned by the synergy of physical insights and machine learning capabilities. | 翻訳日:2023-11-01 15:06:24 公開日:2023-10-31 |
# ddc-pim:sram処理インメモリのデータ容量倍増のための効率的なアルゴリズム/アーキテクチャ共設計 DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data Capacity of SRAM-based Processing-In-Memory ( http://arxiv.org/abs/2310.20424v1 ) ライセンス: Link先を確認 | Cenlin Duan, Jianlei Yang, Xiaolin He, Yingjie Qi, Yikun Wang, Yiou Wang, Ziyan He, Bonan Yan, Xueyan Wang, Xiaotao Jia, Weitao Pan, Weisheng Zhao | (参考訳) 新しいコンピューティングパラダイムである processing-in-memory (pim) は、効率的なデータ移動の削減という側面から大きなパフォーマンス上の利点を提供する。
SRAMベースのPIMは、耐久性と互換性のために最も有望な候補の1つとして実証されている。
しかし、SRAMベースのPIMの統合密度は他の揮発性メモリベースよりもはるかに低い。
同等の領域制約の中で、SRAMベースのPIMは明らかに容量が低い。
そこで,そのキャパシティポテンシャルを解き放つため,等価データ容量を効果的に倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるddc-pimを提案する。
アルゴリズムレベルでは、ビット単位の相補ペアを得るためのフィルタ単位の相補相関(fcc)アルゴリズムを提案する。
アーキテクチャレベルでは、6T SRAMの本質的なクロスカップリング構造を利用して、ビットワイズ補間ペアを相補状態(Q/\overline{Q}$)に保存し、各SRAMセルのデータ容量を最大化する。
デュアルブロードキャスト入力構造と再構成可能なユニットは、様々なニューラルネットワークの要件に準拠した、深度方向と点方向の畳み込みの両方をサポートする。
評価結果によると、DDC-PIMはMobileNetV2で約2.84\times$、EfficientNet-B0で約2.69\times$でPIMのベースライン実装と比較して精度が低下している。
最先端のSRAMベースのPIMマクロと比較して、DDC-PIMは最大8.41\times$と2.75\times$の重量密度と面積効率の向上を実現している。 Processing-in-memory (PIM), as a novel computing paradigm, provides significant performance benefits from the aspect of effective data movement reduction. SRAM-based PIM has been demonstrated as one of the most promising candidates due to its endurance and compatibility. However, the integration density of SRAM-based PIM is much lower than other non-volatile memory-based ones, due to its inherent 6T structure for storing a single bit. Within comparable area constraints, SRAM-based PIM exhibits notably lower capacity. Thus, aiming to unleash its capacity potential, we propose DDC-PIM, an efficient algorithm/architecture co-design methodology that effectively doubles the equivalent data capacity. At the algorithmic level, we propose a filter-wise complementary correlation (FCC) algorithm to obtain a bitwise complementary pair. At the architecture level, we exploit the intrinsic cross-coupled structure of 6T SRAM to store the bitwise complementary pair in their complementary states ($Q/\overline{Q}$), thereby maximizing the data capacity of each SRAM cell. The dual-broadcast input structure and reconfigurable unit support both depthwise and pointwise convolution, adhering to the requirements of various neural networks. Evaluation results show that DDC-PIM yields about $2.84\times$ speedup on MobileNetV2 and $2.69\times$ on EfficientNet-B0 with negligible accuracy loss compared with PIM baseline implementation. Compared with state-of-the-art SRAM-based PIM macros, DDC-PIM achieves up to $8.41\times$ and $2.75\times$ improvement in weight density and area efficiency, respectively. | 翻訳日:2023-11-01 15:06:02 公開日:2023-10-31 |
# ancilla-assisted quantum process tomographyの2段階解法:誤差解析と最適設計 Two-stage solution for ancilla-assisted quantum process tomography: error analysis and optimal design ( http://arxiv.org/abs/2310.20421v1 ) ライセンス: Link先を確認 | Shuixin Xiao, Yuanlong Wang, Daoyi Dong, Jun Zhang | (参考訳) 量子プロセストモグラフィ(QPT)は、量子系の力学を特徴づける基本的なタスクである。
標準的なQPTとは対照的に、AAPT(Ancilla-assisted process tomography)フレームワークは単一の入力状態を必要とする追加のアンシラシステムを導入している。
本稿では,AAPTを実行するために,本来標準QPT用に設計された2段階解を拡張した。
我々のアルゴリズムは、$O(Md_A^2d_B^2)$計算複雑性を持ち、$M $は測定演算子の型数、$d_A $は興味のある量子系の次元、$d_B$はアシラ系の次元である。
次に、エラー上限を設定し、さらにAAPTの入力状態における最適設計について議論する。
位相減衰過程における数値的な例は最適設計の有効性を示し、理論誤差解析を例示する。 Quantum process tomography (QPT) is a fundamental task to characterize the dynamics of quantum systems. In contrast to standard QPT, ancilla-assisted process tomography (AAPT) framework introduces an extra ancilla system such that a single input state is needed. In this paper, we extend the two-stage solution, a method originally designed for standard QPT, to perform AAPT. Our algorithm has $O(Md_A^2d_B^2)$ computational complexity where $ M $ is the type number of the measurement operators, $ d_A $ is the dimension of the quantum system of interest, and $d_B$ is the dimension of the ancilla system. Then we establish an error upper bound and further discuss the optimal design on the input state in AAPT. A numerical example on a phase damping process demonstrates the effectiveness of the optimal design and illustrates the theoretical error analysis. | 翻訳日:2023-11-01 15:05:28 公開日:2023-10-31 |
# ランダム化ハイパーグラフ状態における多部絡み合いの突然死と出生 Multipartite entanglement sudden death and birth in randomized hypergraph states ( http://arxiv.org/abs/2310.20418v1 ) ライセンス: Link先を確認 | Vinicius Salem and Alison A. Silva and Fabiano M. Andrade | (参考訳) 本稿では,従来のグラフ状態に対する量子論理ゲートのランダム化手順の拡張概念として,ランダム化ハイパーグラフ状態の絡み合い特性を紹介し,解析する。
不完全一般化制御Z$ゲートを適用する確率は、量子ビット上のノイズ操作をシミュレートする。
我々は, 負性, 共起性, 真の多粒子負性といった絡み合い測定値を取得し, 絡み合いは, 関連するハイパーグラフの非均一性の結果であるランダム性パラメーターにおいて非単調な振る舞いを示すことを示すとともに, ランダム化グラフ状態の絡み合いが2$1のハイパーグラフと関連しているという主張を補強する。
さらに, RH状態において, 絡み合いが突然死, 絡み合いが突然発生する現象を観察した。
この研究は、ハイパーグラフの不均一性と絡み合いの喪失の間の関係を明らかにする。 We introduce and analyze the entanglement properties of randomized hypergraph states, as an extended notion of the randomization procedure in the quantum logic gates for the usual graph states, recently proposed in the literature. The probabilities of applying imperfect generalized controlled-$Z$ gates simulate the noisy operations over the qubits. We obtain entanglement measures as negativity, concurrence, and genuine multiparticle negativity, and show that entanglement exhibits a non-monotonic behavior in terms of the randomness parameters, which is a consequence of the non-uniformity of the associated hypergraphs, reinforcing the claim that the entanglement of randomized graph states is monotonic since they are related to $2$-uniform hypergraphs. Moreover, we observed the phenomena of entanglement sudden death and entanglement sudden birth in RH states. This work comes to unveil a connection between the non-uniformity of hypergraphs and loss of entanglement. | 翻訳日:2023-11-01 15:05:12 公開日:2023-10-31 |
# 量子コンピューティングプラットフォームにおける回路設計のための線形非線形双対性 Linear-nonlinear duality for circuit design on quantum computing platforms ( http://arxiv.org/abs/2310.20416v1 ) ライセンス: Link先を確認 | William E. Salazar, Omar Calder\'on-Losada and John H. Reina | (参考訳) ビームスプリッター (BSs) と光パラメトリック増幅器 (OPAs) を動的リー群 $SU(2)$ と $SU(1,1)$ の単位記述は長い歴史を持つ。
近年,両光デバイスのユニタリに関する固有双対性が提案されている。
物理レベルでは、この双対性は損失のないBSの線形性と、OPAによって示される非線形パラメトリックダウン・コンバージョン(PDC)過程を関連付ける。
ここでは、BS と PDC の双対性は、上述の双対性と光学デバイスの動的群記述を明示的に結びつけるアプローチであるリー群の幾何学的性質を解析することによって、自然に解釈できると論じる。
さらに、BS-PDC双対性はテンソルネットワークダイアグラムによって表現できることを示し、標準量子コンピューティングプラットフォーム上での回路としてのPDCの実装を可能にする。
したがって、現在利用可能なデジタル量子プロセッサ上で実装可能な単一キュービットユニタリを使用することで、非線形プロセスのシミュレートが可能である。 The unitary description of beam splitters (BSs) and optical parametric amplifiers (OPAs) in terms of the dynamical Lie groups $SU(2)$ and $SU(1,1)$ has a long history. Recently, an inherent duality has been proposed that relates the unitaries of both optical devices. At the physical level, this duality relates the linear nature of a lossless BS to the nonlinear Parametric Down-Conversion (PDC) process exhibited by an OPA. Here, we argue that the duality between BS and PDC can instead be naturally interpreted by analyzing the geometrical properties of both Lie groups, an approach that explicitly connects the dynamical group description of the optical devices with the aforementioned duality. Furthermore, we show that the BS-PDC duality can be represented through tensor network diagrams, enabling the implementation of a PDC as a circuit on a standard quantum computing platform. Thus, it is feasible to simulate nonlinear processes by using single-qubit unitaries that can be implemented on currently available digital quantum processors. | 翻訳日:2023-11-01 15:04:54 公開日:2023-10-31 |
# Linked Papers with Code: RDFナレッジグラフとしての機械学習の最新情報 Linked Papers With Code: The Latest in Machine Learning as an RDF Knowledge Graph ( http://arxiv.org/abs/2310.20475v1 ) ライセンス: Link先を確認 | Michael F\"arber, David Lamprecht | (参考訳) 本稿では,約40万の機械学習出版物に関する包括的かつ現在の情報を提供するRDF知識グラフであるLinked Papers With Code (LPWC)を紹介する。
これには、対処したタスク、データセットの利用、実装されたメソッド、実行された評価、およびそれらの結果が含まれる。
非RDFベースのPapers With Codeと比較すると、LPWCは機械学習の最新の進歩をRDFフォーマットに変換するだけでなく、科学的影響の定量化と学術的に重要なコンテンツレコメンデーションを可能にする。
LPWCはhttps://linkedpaperswithcode.comで公開されており、CC-BY-SA 4.0でライセンスされている。
Linked Open Dataクラウドのナレッジグラフとして、RDFダンプファイルから直接Webクエリ用のSPARQLエンドポイント、解決可能なURIとデータソースSemOpenAlex、Wikidata、DBLPへのリンクを備えたデータソースまで、複数のフォーマットでLPWCを提供しています。
さらに、知識グラフ埋め込みを提供し、lpwcを機械学習アプリケーションに容易に適用できるようにする。 In this paper, we introduce Linked Papers With Code (LPWC), an RDF knowledge graph that provides comprehensive, current information about almost 400,000 machine learning publications. This includes the tasks addressed, the datasets utilized, the methods implemented, and the evaluations conducted, along with their results. Compared to its non-RDF-based counterpart Papers With Code, LPWC not only translates the latest advancements in machine learning into RDF format, but also enables novel ways for scientific impact quantification and scholarly key content recommendation. LPWC is openly accessible at https://linkedpaperswithcode.com and is licensed under CC-BY-SA 4.0. As a knowledge graph in the Linked Open Data cloud, we offer LPWC in multiple formats, from RDF dump files to a SPARQL endpoint for direct web queries, as well as a data source with resolvable URIs and links to the data sources SemOpenAlex, Wikidata, and DBLP. Additionally, we supply knowledge graph embeddings, enabling LPWC to be readily applied in machine learning applications. | 翻訳日:2023-11-01 14:57:03 公開日:2023-10-31 |
# 人工知能会話型チャットボットの役割 Critical Role of Artificially Intelligent Conversational Chatbot ( http://arxiv.org/abs/2310.20474v1 ) ライセンス: Link先を確認 | Seraj A. M. Mostafa, Md Z. Islam, Mohammad Z. Islam, Fairose Jeehan, Saujanna Jafreen, Raihan U. Islam | (参考訳) ChatGPTのような人工的なインテリジェントなチャットボットは、AIドメインの最近の強力な進歩を表している。
ユーザーは、従来の検索で複数のリンクをクリックする手間を省き、素早く正確な回答を得るのを好む。
ChatGPTの会話的アプローチは、回答を迅速かつ組織的に見つけやすくする。
しかし、これらのチャットボットには、特に倫理的懸念だけでなく、正確な回答を提供することの制限があることに注意する必要がある。
本研究では,ChatGPTの学術的文脈における倫理的含意,制限,特定のユーザグループによる潜在的誤用など,さまざまなシナリオについて考察する。
これらの課題に対処するために、不適切な使用を防止し、責任あるAIインタラクションを促進するアーキテクチャソリューションを提案する。 Artificially intelligent chatbot, such as ChatGPT, represents a recent and powerful advancement in the AI domain. Users prefer them for obtaining quick and precise answers, avoiding the usual hassle of clicking through multiple links in traditional searches. ChatGPT's conversational approach makes it comfortable and accessible for finding answers quickly and in an organized manner. However, it is important to note that these chatbots have limitations, especially in terms of providing accurate answers as well as ethical concerns. In this study, we explore various scenarios involving ChatGPT's ethical implications within academic contexts, its limitations, and the potential misuse by specific user groups. To address these challenges, we propose architectural solutions aimed at preventing inappropriate use and promoting responsible AI interactions. | 翻訳日:2023-11-01 14:56:44 公開日:2023-10-31 |
# 多言語・コード交換データ収集・準備のための忘れられた教訓としての代表性 Representativeness as a Forgotten Lesson for Multilingual and Code-switched Data Collection and Preparation ( http://arxiv.org/abs/2310.20470v1 ) ライセンス: Link先を確認 | A. Seza Do\u{g}ru\"oz, Sunayana Sitaram, Zheng-Xin Yong | (参考訳) 多言語主義は世界中に広まり、code-switching (csw) は場所や地域をまたがる異なる言語ペア/タプルの間で共通の実践である。
しかし、近年のMMLM(Massive Multilingual Language Models)の進歩にもかかわらず、成功したCSWシステムの構築には大きな進展はない。
本稿では,言語ペア間の既存のcswデータセット(68)について,収集・準備段階(例えば,転写・注釈段階)の観点で批判的研究を行い,その背景を考察した。
この詳細な分析により、ほとんどのCSWデータは、他の言語対/tuples \textbf{b)} を無視した英語を含んでいることが明らかになった。
さらに、データ選択とフィルタリングステージの明確さの欠如は、cswデータセットの代表性を影にしている。
最後に、cswデータ収集と準備に関する今後の研究の代表性を改善するための短いチェックリストを提供する。 Multilingualism is widespread around the world and code-switching (CSW) is a common practice among different language pairs/tuples across locations and regions. However, there is still not much progress in building successful CSW systems, despite the recent advances in Massive Multilingual Language Models (MMLMs). We investigate the reasons behind this setback through a critical study about the existing CSW data sets (68) across language pairs in terms of the collection and preparation (e.g. transcription and annotation) stages. This in-depth analysis reveals that \textbf{a)} most CSW data involves English ignoring other language pairs/tuples \textbf{b)} there are flaws in terms of representativeness in data collection and preparation stages due to ignoring the location based, socio-demographic and register variation in CSW. In addition, lack of clarity on the data selection and filtering stages shadow the representativeness of CSW data sets. We conclude by providing a short check-list to improve the representativeness for forthcoming studies involving CSW data collection and preparation. | 翻訳日:2023-11-01 14:56:30 公開日:2023-10-31 |
# Amoeba: 対立強化学習によるML支援ネットワーク検閲の回避 Amoeba: Circumventing ML-supported Network Censorship via Adversarial Reinforcement Learning ( http://arxiv.org/abs/2310.20469v1 ) ライセンス: Link先を確認 | Haoyu Liu, Alec F. Diallo and Paul Patras | (参考訳) covertストリームをcoverチャンネルに埋め込むことは、検閲者が許可されたプロトコル(skype、httpsなど)で暗号化された情報を調べることができないため、インターネット検閲を回避する一般的なアプローチである。
しかし、機械学習(ML)の最近の進歩により、トラフィックフローに隠された異なる統計的パターンを学習することで、様々な反検閲システムを検出することができる。
したがって、回線速度でmlベースの分類器を欺くために、統計的に無害なネットワークアクティビティに類似したトラフィックを発生できる難読化ソリューションの設計は困難である。
本稿では,検閲を回避する手段として,フロー分類器に対する現実的な攻撃戦略を定式化する。
具体的には,新たに設計した強化学習アルゴリズムであるAmoebaを用いて,列生成タスクとして誤って分類される逆流の探索を課題とした。
amoebaは、モデル構造を知らずに分類器を検閲することで動作し、パケットを作成し、分類器の決定を観察することでシーケンス生成プロセスを導く。
2つの一般的な反検閲システムから収集したデータを用いて実験したところ、アメーバは、MLアルゴリズムに対して平均94%の攻撃成功率を持つ敵流を効果的に形成できることがわかった。
さらに、これらの逆流は、異なるネットワーク環境において堅牢であり、様々なMLモデル間での転送可能性を有していることを示し、これにより、エージェントは、トレーニングを行なわずに、他の検閲分類子を置換することができる。 Embedding covert streams into a cover channel is a common approach to circumventing Internet censorship, due to censors' inability to examine encrypted information in otherwise permitted protocols (Skype, HTTPS, etc.). However, recent advances in machine learning (ML) enable detecting a range of anti-censorship systems by learning distinct statistical patterns hidden in traffic flows. Therefore, designing obfuscation solutions able to generate traffic that is statistically similar to innocuous network activity, in order to deceive ML-based classifiers at line speed, is difficult. In this paper, we formulate a practical adversarial attack strategy against flow classifiers as a method for circumventing censorship. Specifically, we cast the problem of finding adversarial flows that will be misclassified as a sequence generation task, which we solve with Amoeba, a novel reinforcement learning algorithm that we design. Amoeba works by interacting with censoring classifiers without any knowledge of their model structure, but by crafting packets and observing the classifiers' decisions, in order to guide the sequence generation process. Our experiments using data collected from two popular anti-censorship systems demonstrate that Amoeba can effectively shape adversarial flows that have on average 94% attack success rate against a range of ML algorithms. In addition, we show that these adversarial flows are robust in different network environments and possess transferability across various ML models, meaning that once trained against one, our agent can subvert other censoring classifiers without retraining. | 翻訳日:2023-11-01 14:56:12 公開日:2023-10-31 |
# ACLアンソロジーヘルパー: ACLアンソロジーから文学を検索・管理するためのツール ACL Anthology Helper: A Tool to Retrieve and Manage Literature from ACL Anthology ( http://arxiv.org/abs/2310.20467v1 ) ライセンス: Link先を確認 | Chen Tang, Frank Guerin and Chenghua Lin | (参考訳) aclアンソロジーは、自然言語処理(nlp)と計算言語学(cl)の分野における出版物の包括的なコレクションとして機能するオンラインリポジトリである。
本稿では,「ACLアンソロジーヘルパー」というツールについて述べる。
ドキュメントのパースとダウンロードのプロセスとメタ情報を自動的に生成し、それをローカルのmysqlデータベースに格納する。
これにより、"where"、"group"、"order"など、さまざまな操作を使用して、ローカル論文の効率的な管理が可能になる。
20以上の操作を提供することで、特定の条件に基づく文学の検索を大幅に向上させる。
特に、このツールは調査用紙(Tang et al.,2022a)の執筆に成功している。
ACLアンソロジーヘルパーを導入することで,研究者がACLアンソロジーから効率的に文献にアクセスし,整理する能力を高めることを目指す。
このツールは、ACLアンソロジーの膨大な出版物を探索し、よりターゲット的で効率的な文献検索を可能にした研究者に便利なソリューションを提供する。 The ACL Anthology is an online repository that serves as a comprehensive collection of publications in the field of natural language processing (NLP) and computational linguistics (CL). This paper presents a tool called ``ACL Anthology Helper''. It automates the process of parsing and downloading papers along with their meta-information, which are then stored in a local MySQL database. This allows for efficient management of the local papers using a wide range of operations, including "where," "group," "order," and more. By providing over 20 operations, this tool significantly enhances the retrieval of literature based on specific conditions. Notably, this tool has been successfully utilised in writing a survey paper (Tang et al.,2022a). By introducing the ACL Anthology Helper, we aim to enhance researchers' ability to effectively access and organise literature from the ACL Anthology. This tool offers a convenient solution for researchers seeking to explore the ACL Anthology's vast collection of publications while allowing for more targeted and efficient literature retrieval. | 翻訳日:2023-11-01 14:55:47 公開日:2023-10-31 |
# ガウス振幅増幅を用いた量子DNAシークエンシング Quantum DNA Sequencing using Gaussian Amplitude Amplification ( http://arxiv.org/abs/2310.20466v1 ) ライセンス: Link先を確認 | Richard Marin and Carlos Baldo III | (参考訳) 本研究では,GAA(Gaussian Amplitude Amplification)と呼ばれる量子パスフィニングアルゴリズムを用いてDNAシークエンシングの問題を解く方法について検討する。
そのため、l鎖長のオリゴヌクレオチドと呼ばれる核酸の短い断片を収集して組み立てたハイブリダイゼーションによるシークエンシングが想定された。
シークエンスを再組み立てするプロセスは、最小コストでハミルトニアン経路を見つけるグラフ問題へと抽象化された。
構築された有向グラフは、GAAを使用するために、逐次二部グラフに変換された。
シミュレーションの結果, l = 2 と |s| = 4 のスペクトルサイズの場合, 最適解を求める確率(最小コスト)はおよそ 70.92% であり, 経路がランダムに選択された場合の 4.17% に比べ有意に向上した。
本研究は, スペクトルに誤差がない理想的なシナリオにのみ焦点をあてるが, 本研究の結果はGAAをゲノムシーケンシング法として用いる可能性を示している。 In this study, we explore how quantum pathfinding algorithm called Gaussian Amplitude Amplification (GAA) can be used to solve the DNA sequencing problem. To do this, sequencing by hybridization was assumed wherein short fragments of the nucleic acids called oligonucleotides of length l were gathered and were then assembled. The process of reassembling the sequence was then abstracted into a graph problem of finding the Hamiltonian path with the least cost. The constructed directed graph was then converted into sequential bipartite graphs in order to use GAA. The results of our simulation revealed that for the case where l = 2 and spectrum size of |S| = 4, the probability of finding the optimal solution (with the least cost) is approximately 70.92% - a significant improvement compared to 4.17% when the path is chosen randomly. While this study only focused on the ideal scenario where there are no errors in the spectrum, the outcomes presented here demonstrate the plausibility of using GAA as a genome sequencing method. | 翻訳日:2023-11-01 14:55:27 公開日:2023-10-31 |
# シンボリックフレームワークを用いた解釈型ニューラルPDE解法 Interpretable Neural PDE Solvers using Symbolic Frameworks ( http://arxiv.org/abs/2310.20463v1 ) ライセンス: Link先を確認 | Yolanne Yi Ran Lee | (参考訳) 偏微分方程式 (Partial differential equation, PDE) は、熱や音から量子システムへの現象をモデル化する。
ディープラーニングの最近の進歩は強力なニューラルネットワークの開発につながったが、これらの手法は精度と計算効率の両方において最先端のパフォーマンスを示しているが、その解釈可能性には大きな課題がある。
既存の方法論の多くは、モデルの決定を駆動するメカニズムの明確さよりも予測精度を優先している。
特に神経pdeソルバが最も影響を与えるかもしれない科学的および工学的領域において、解釈可能性は信頼性と幅広い適用性に不可欠である。
この文脈において、現在の研究における注目すべきギャップは、これらの解法へのシンボリックフレームワーク(シンボリック回帰など)の統合である。
シンボリックフレームワークは、複雑な神経操作を人間の読みやすい数学的表現に蒸留し、ブラックボックス予測と解の間の隔たりを橋渡しする可能性がある。 Partial differential equations (PDEs) are ubiquitous in the world around us, modelling phenomena from heat and sound to quantum systems. Recent advances in deep learning have resulted in the development of powerful neural solvers; however, while these methods have demonstrated state-of-the-art performance in both accuracy and computational efficiency, a significant challenge remains in their interpretability. Most existing methodologies prioritize predictive accuracy over clarity in the underlying mechanisms driving the model's decisions. Interpretability is crucial for trustworthiness and broader applicability, especially in scientific and engineering domains where neural PDE solvers might see the most impact. In this context, a notable gap in current research is the integration of symbolic frameworks (such as symbolic regression) into these solvers. Symbolic frameworks have the potential to distill complex neural operations into human-readable mathematical expressions, bridging the divide between black-box predictions and solutions. | 翻訳日:2023-11-01 14:55:06 公開日:2023-10-31 |
# 機械学習が終端特異点を検出する Machine learning detects terminal singularities ( http://arxiv.org/abs/2310.20458v1 ) ライセンス: Link先を確認 | Tom Coates, Alexander M. Kasprzyk, Sara Veneziale | (参考訳) 代数多様体は多項式方程式の系によって定義される幾何学的形状である。
これらの代数多様体のうち、Q-ファノ多様体(Q-ファノ多様体)は、Q-階数終端特異点を持つ正の曲線形である。
q-ファノ多様体は、より複雑な形状の「原子断片」であるため、幾何学において基本的な重要性を持つ。
その重要性にもかかわらず、Q-Fanoの分類は未だ不明である。
本稿では,この分類を理解するために機械学習が利用できることを示す。
トーリック対称性とピカールランク2を有する8次元正曲線代数多様体に注目し,そのような代数多様体がq-ファノであるか否かを95%精度で予測するニューラルネットワーク分類器を開発した。
これを使って、次元8のQ-Fanosの風景をスケッチします。
ニューラルネットワークがそのような精度でQ-Fanoの品種を検知する方法は謎のままであり、発見されるのを待っている深い数学的理論を示唆している。
さらに,最近の理論発展において重要な役割を担った不変量である量子周期を用いて可視化すると,mlによって明らかにされる分類は境界領域内にあるように見え,ファノ指数によって階層化される。
これは、将来完全性に関する予想を述べ、証明することが可能であることを示唆している。
ml解析に触発されて,ピカールランク2の正曲したトーリック多様体に対する新たな大域的組合せ基準を定式化し,証明する。
より高次元のq-fanosの風景の最初のスケッチと共に、これは機械学習が数学的予想を発展させ、理論的発見を加速するのに必須の道具であることを示す新しい証拠となる。 Algebraic varieties are the geometric shapes defined by systems of polynomial equations; they are ubiquitous across mathematics and science. Amongst these algebraic varieties are Q-Fano varieties: positively curved shapes which have Q-factorial terminal singularities. Q-Fano varieties are of fundamental importance in geometry as they are "atomic pieces" of more complex shapes - the process of breaking a shape into simpler pieces in this sense is called the Minimal Model Programme. Despite their importance, the classification of Q-Fano varieties remains unknown. In this paper we demonstrate that machine learning can be used to understand this classification. We focus on 8-dimensional positively-curved algebraic varieties that have toric symmetry and Picard rank 2, and develop a neural network classifier that predicts with 95% accuracy whether or not such an algebraic variety is Q-Fano. We use this to give a first sketch of the landscape of Q-Fanos in dimension 8. How the neural network is able to detect Q-Fano varieties with such accuracy remains mysterious, and hints at some deep mathematical theory waiting to be uncovered. Furthermore, when visualised using the quantum period, an invariant that has played an important role in recent theoretical developments, we observe that the classification as revealed by ML appears to fall within a bounded region, and is stratified by the Fano index. This suggests that it may be possible to state and prove conjectures on completeness in the future. Inspired by the ML analysis, we formulate and prove a new global combinatorial criterion for a positively curved toric variety of Picard rank 2 to have terminal singularities. Together with the first sketch of the landscape of Q-Fanos in higher dimensions, this gives new evidence that machine learning can be an essential tool in developing mathematical conjectures and accelerating theoretical discovery. | 翻訳日:2023-11-01 14:54:51 公開日:2023-10-31 |
# FlexTrain: 異種デバイス環境のための動的トレーニングフレームワーク FlexTrain: A Dynamic Training Framework for Heterogeneous Devices Environments ( http://arxiv.org/abs/2310.20457v1 ) ライセンス: Link先を確認 | Mert Unsal, Ali Maatouk, Antonio De Domenico, Nicola Piovesan, Fadhel Ayed | (参考訳) ディープラーニングモデルが大きくなるにつれて、異種デバイス環境において大きな課題が生じる。
ディープラーニングモデルのサイズは、低消費電力またはリソース制約のデバイスにそれらをデプロイすることを難しくし、長い推論時間と高エネルギー消費をもたらす。
これらの課題に対処するため、トレーニング期間中に異なるデバイスで利用可能な多様なストレージと計算資源に対応するフレームワークFlexTrainを提案する。
FlexTrainは、デバイス制約を尊重し、通信コストを最小化し、多様なデバイスとのシームレスな統合を確保しながら、ディープラーニングモデルの効率的なデプロイを可能にする。
flextrainをトレーニングした単一のグローバルモデルをヘテロジニアスデバイスに簡単にデプロイでき、トレーニング時間とエネルギー消費を節約できるcifar-100データセット上でflextrainの有効性を実証する。
また、FlexTrainをフェデレーション学習環境に拡張し、CIFAR-10およびCIFAR-100データセットの標準フェデレーション学習ベンチマークよりも優れていることを示す。 As deep learning models become increasingly large, they pose significant challenges in heterogeneous devices environments. The size of deep learning models makes it difficult to deploy them on low-power or resource-constrained devices, leading to long inference times and high energy consumption. To address these challenges, we propose FlexTrain, a framework that accommodates the diverse storage and computational resources available on different devices during the training phase. FlexTrain enables efficient deployment of deep learning models, while respecting device constraints, minimizing communication costs, and ensuring seamless integration with diverse devices. We demonstrate the effectiveness of FlexTrain on the CIFAR-100 dataset, where a single global model trained with FlexTrain can be easily deployed on heterogeneous devices, saving training time and energy consumption. We also extend FlexTrain to the federated learning setting, showing that our approach outperforms standard federated learning benchmarks on both CIFAR-10 and CIFAR-100 datasets. | 翻訳日:2023-11-01 14:54:20 公開日:2023-10-31 |
# 多言語エンドツーエンド音声翻訳の理解に向けて Towards a Deep Understanding of Multilingual End-to-End Speech Translation ( http://arxiv.org/abs/2310.20456v1 ) ライセンス: Link先を確認 | Haoran Sun, Xiaohu Zhao, Yikun Lei, Shaolin Zhu and Deyi Xiong | (参考訳) 本論文では、SVCCAを用いて、22言語以上の言語で訓練された多言語間音声翻訳モデルにおいて学習した表現を解析する。
svccaは、言語とレイヤー間の表現的類似性を推定し、多言語音声翻訳の機能とその多言語ニューラルマシン翻訳への潜在的接続の理解を深める。
この多言語音声翻訳モデルは,任意の方向にCoVoST2データセットを用いて学習し,SVCCA解析のための並列ビットデータ抽出にLASERを利用する。
言語学的類似性は, 特定の言語に対する訓練データに制限がある場合に, 多言語翻訳において有効性が失われる。
(II)
エンコーダ表現の強化とオーディオテキストデータの整合性が向上し、トレーニングデータが損なわれない場合のバイリンガル表現をはるかに上回る。
(III)
多言語翻訳のエンコーダ表現は、言語タイポロジー予測における音声特徴の予測において優れた性能を示す。
そこで本研究では,低リソース言語に対する限定データの制約を開放し,その制約を言語関連高リソース言語と組み合わせることで,多言語間音声翻訳をより効果的に行うことができることを示す。 In this paper, we employ Singular Value Canonical Correlation Analysis (SVCCA) to analyze representations learnt in a multilingual end-to-end speech translation model trained over 22 languages. SVCCA enables us to estimate representational similarity across languages and layers, enhancing our understanding of the functionality of multilingual speech translation and its potential connection to multilingual neural machine translation. The multilingual speech translation model is trained on the CoVoST 2 dataset in all possible directions, and we utilize LASER to extract parallel bitext data for SVCCA analysis. We derive three major findings from our analysis: (I) Linguistic similarity loses its efficacy in multilingual speech translation when the training data for a specific language is limited. (II) Enhanced encoder representations and well-aligned audio-text data significantly improve translation quality, surpassing the bilingual counterparts when the training data is not compromised. (III) The encoder representations of multilingual speech translation demonstrate superior performance in predicting phonetic features in linguistic typology prediction. With these findings, we propose that releasing the constraint of limited data for low-resource languages and subsequently combining them with linguistically related high-resource languages could offer a more effective approach for multilingual end-to-end speech translation. | 翻訳日:2023-11-01 14:54:03 公開日:2023-10-31 |
# AsGrad: 非同期SGDアルゴリズムのシャープ統一解析 AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms ( http://arxiv.org/abs/2310.20452v1 ) ライセンス: Link先を確認 | Rustem Islamov and Mher Safaryan and Dan Alistarh | (参考訳) 分散sgdのための非同期型アルゴリズムを,各作業者が独自の計算と通信速度とデータ分布を持つ異種設定で解析する。
これらのアルゴリズムでは、ワーカは、過去のあるイテレーションでローカルデータに関連する古い勾配と確率勾配を計算し、その勾配を他のワーカと同期することなくサーバに返す。
不均一な状態における非凸滑らかな函数に対する統一収束理論を提案する。
提案する解析は、純粋な非同期sgdとその様々な変更に対する収束を提供する。
さらに, この理論は, 収束率にどのような影響を及ぼすか, 非同期アルゴリズムの性能を向上させるために何ができるかを説明する。
特に,労働者シャッフルに基づく新しい非同期手法を提案する。
また,本分析の副産物として,ランダムリシャッフルのSGDやシャッフルオンスミニバッチSGDなどの勾配型アルゴリズムの収束保証を示す。
導出レートはこれらのアルゴリズムの最もよく知られた結果と一致し、アプローチの厳密さを強調します。
最後に, 数値評価により理論的知見が得られ, 本手法の実用性が示された。 We analyze asynchronous-type algorithms for distributed SGD in the heterogeneous setting, where each worker has its own computation and communication speeds, as well as data distribution. In these algorithms, workers compute possibly stale and stochastic gradients associated with their local data at some iteration back in history and then return those gradients to the server without synchronizing with other workers. We present a unified convergence theory for non-convex smooth functions in the heterogeneous regime. The proposed analysis provides convergence for pure asynchronous SGD and its various modifications. Moreover, our theory explains what affects the convergence rate and what can be done to improve the performance of asynchronous algorithms. In particular, we introduce a novel asynchronous method based on worker shuffling. As a by-product of our analysis, we also demonstrate convergence guarantees for gradient-type algorithms such as SGD with random reshuffling and shuffle-once mini-batch SGD. The derived rates match the best-known results for those algorithms, highlighting the tightness of our approach. Finally, our numerical evaluations support theoretical findings and show the good practical performance of our method. | 翻訳日:2023-11-01 14:53:41 公開日:2023-10-31 |
# 事前データフィットネットワークを用いた効率よいベイズ学習曲線外挿法 Efficient Bayesian Learning Curve Extrapolation using Prior-Data Fitted Networks ( http://arxiv.org/abs/2310.20447v1 ) ライセンス: Link先を確認 | Steven Adriaensen, Herilalaina Rakotoarison, Samuel M\"uller, Frank Hutter | (参考訳) 学習曲線外挿は、後の訓練のエポックにおけるモデルパフォーマンスを、初期のエポックのパフォーマンスに基づいて予測することを目的としている。
本研究では,学習曲線の外挿における本質的な不確実性はベイズ的アプローチを保証しているが,既存の手法はそうである。
(i)過度に制限的で/または
(ii)計算コストが高い。
本稿では,この文脈における事前データ対応ニューラルネットワーク(pfns)の応用について述べる。
PFNは、前者から生成されたデータに基づいて事前訓練された変圧器であり、単一の前方通過で近似ベイズ推論を行う。
従来提案されていたパラメトリック学習曲線から生成した1000万の人工右室学習曲線をMCMCを用いて外挿するPFNであるLC-PFNを提案する。
LC-PFN は MCMC よりも後方予測分布を正確に近似できるが, 速度は 10 000 倍以上であることを示す。
また,このLC-PFNは,学習曲線ベンチマーク(LCBench, NAS-Bench-201, Taskset, PD1)から,入力モダリティの異なる53のデータセット上で,幅広いモデルアーキテクチャ(MLPs, CNNs, RNNs, Transformers)をトレーニングすることから,20000個の実学習曲線を抽出する競合性能を達成していることを示す。
最後に、モデル選択の文脈におけるその可能性を調査し、単純なLC-PFNベースの予測早期停止基準が、これらのデータセット45の26倍のスピードアップをほぼオーバーヘッドなく得られることを発見した。 Learning curve extrapolation aims to predict model performance in later epochs of training, based on the performance in earlier epochs. In this work, we argue that, while the inherent uncertainty in the extrapolation of learning curves warrants a Bayesian approach, existing methods are (i) overly restrictive, and/or (ii) computationally expensive. We describe the first application of prior-data fitted neural networks (PFNs) in this context. A PFN is a transformer, pre-trained on data generated from a prior, to perform approximate Bayesian inference in a single forward pass. We propose LC-PFN, a PFN trained to extrapolate 10 million artificial right-censored learning curves generated from a parametric prior proposed in prior art using MCMC. We demonstrate that LC-PFN can approximate the posterior predictive distribution more accurately than MCMC, while being over 10 000 times faster. We also show that the same LC-PFN achieves competitive performance extrapolating a total of 20 000 real learning curves from four learning curve benchmarks (LCBench, NAS-Bench-201, Taskset, and PD1) that stem from training a wide range of model architectures (MLPs, CNNs, RNNs, and Transformers) on 53 different datasets with varying input modalities (tabular, image, text, and protein data). Finally, we investigate its potential in the context of model selection and find that a simple LC-PFN based predictive early stopping criterion obtains 2 - 6x speed-ups on 45 of these datasets, at virtually no overhead. | 翻訳日:2023-11-01 14:53:23 公開日:2023-10-31 |
# LAVSS:位置誘導型オーディオ空間オーディオ分離 LAVSS: Location-Guided Audio-Visual Spatial Audio Separation ( http://arxiv.org/abs/2310.20446v1 ) ライセンス: Link先を確認 | Yuxin Ye, Wenming Yang, Yapeng Tian | (参考訳) 既存の機械学習研究は、monaural audio-visual separation (mavs)で有望な結果を得た。
しかし、ほとんどのmavs法は、音源の位置ではなく、音源がどこにあるかを純粋に考慮している。
これはVR/ARのシナリオにおける問題であり、リスナーは異なる方向にある類似のオーディオソースを区別する必要がある。
この制限に対処するため,mavを空間音声分離に一般化し,位置誘導型空間音声分離器の提案を行った。
LAVSSは空間的オーディオと視覚的位置の相関から着想を得ている。
バイノーラルオーディオによる位相差を空間的手がかりとして導入し,音像の位置表現を付加的なモーダルガイダンスとして利用する。
また,マルチレベルクロスモーダル・アテンションを活用し,音声機能との視覚位置協調を実現する。
さらに,訓練済みのモノーラル分離器を用いて,リッチモノ音からの知識を伝達し,空間音声の分離を促進する。
これはモノラルチャネルとバイノーラルチャネルの相関を利用する。
FAIR-Playデータセットの実験は、既存のオーディオ視覚分離のベンチマークよりも提案されたAVSSの方が優れていることを示している。
プロジェクトページ:https://yyx666660.github.io/LAVSS/。 Existing machine learning research has achieved promising results in monaural audio-visual separation (MAVS). However, most MAVS methods purely consider what the sound source is, not where it is located. This can be a problem in VR/AR scenarios, where listeners need to be able to distinguish between similar audio sources located in different directions. To address this limitation, we have generalized MAVS to spatial audio separation and proposed LAVSS: a location-guided audio-visual spatial audio separator. LAVSS is inspired by the correlation between spatial audio and visual location. We introduce the phase difference carried by binaural audio as spatial cues, and we utilize positional representations of sounding objects as additional modality guidance. We also leverage multi-level cross-modal attention to perform visual-positional collaboration with audio features. In addition, we adopt a pre-trained monaural separator to transfer knowledge from rich mono sounds to boost spatial audio separation. This exploits the correlation between monaural and binaural channels. Experiments on the FAIR-Play dataset demonstrate the superiority of the proposed LAVSS over existing benchmarks of audio-visual separation. Our project page: https://yyx666660.github.io/LAVSS/. | 翻訳日:2023-11-01 14:52:50 公開日:2023-10-31 |
# フォトニックカゴメ格子上での集団放射現象の活用 Harnessing collective radiative phenomena on a photonic kagome lattice ( http://arxiv.org/abs/2310.20445v1 ) ライセンス: Link先を確認 | Ignacio Salinas, Javier Cubillos Cornejo, Alexander Szameit, Pablo Solano, and Rodrigo A. Vicencio | (参考訳) フォトニック格子は、物理と技術における市長の目標の2つである輸送および局所化現象の実験的探索を可能にする。
特に、格子配列にエバネッセント的に結合する格子部位の光学励起は、量子光学の基本的な主題である構造化貯水池への放射過程をエミュレートする。
さらに、2つの部位の同時励起は集合現象をシミュレートし、位相制御された増強または抑制された放射線、すなわちスーパーとサブ放射を誘導する。
本研究はフォトニックカゴメ格子上での集合的放射過程の実験的研究である。
放出部位の単一または同時の励起は、放射のダイナミクスを制御する。
具体的には,2つの部位における完全局所化プロファイルと準連続状態への完全分散状態との制御可能な遷移を示す。
本研究では,2次元構造型貯留層における量子光学現象をエミュレートし,実験的に探索するためのプラットフォームとしてフォトニック格子を提案する。 Photonic lattices enable experimental exploration of transport and localization phenomena, two of the mayor goals in physics and technology. In particular, the optical excitation of some lattice sites which evanescently couple to a lattice array emulates radiation processes into structured reservoirs, a fundamental subject in quantum optics. Moreover, the simultaneous excitation of two sites simulates collective phenomena, leading to phase-controlled enhanced or suppressed radiation, namely super and subradiance. This work presents an experimental study of collective radiative processes on a photonic kagome lattice. A single or simultaneous -- in or out-of-phase -- excitation of the outlying sites controls the radiation dynamics. Specifically, we demonstrate a controlable transition between a fully localized profile at the two outlying sites and a completely dispersed state into the quasi-continuum. Our result presents photonic lattices as a platform to emulate and experimentally explore quantum optical phenomena in two-dimensional structured reservoirs, while harnessing such phenomena for controlling transport dynamics and implementing all-optical switching devices. | 翻訳日:2023-11-01 14:52:33 公開日:2023-10-31 |
# 出版物に基づくai研究における企業の影響分析 Analyzing the Impact of Companies on AI Research Based on Publications ( http://arxiv.org/abs/2310.20444v1 ) ライセンス: Link先を確認 | Michael F\"arber, Lazaros Tampakis | (参考訳) 人工知能(AI)は、現代で最も重要な技術の1つです。
したがって、どの利害関係者がAI研究に影響を与えるかを知ることが重要である。
大学や大学の研究者以外にも、企業の研究者はこの文脈ではほとんど考慮されていない。
本稿では、企業によるai研究への影響を科学的出版活動に基づいて測定可能とすることを検討する。
過去10年間に出版された学術論文と企業著作のaiパブリッシングを比較し、複数の学術データベースからのサイエントメトリックデータを使用して、これらのグループ間の差異を探し、貢献組織のトップを開示する。
出版物の大部分はアカデミアによって作成されているが、個々の出版物が受け取る引用数は、企業によって(共同)出版されている場合、かなり高い。
さらに,様々なaltmetricインジケータを用いて,企業参加による出版物がオンラインの注目度をかなり高めていることに気付く。
最後に、分析結果をより広い文脈に配置し、ai研究の領域における学界と産業の調和のとれたバランスを守るために、ターゲットとした推奨事項を提示します。 Artificial Intelligence (AI) is one of the most momentous technologies of our time. Thus, it is of major importance to know which stakeholders influence AI research. Besides researchers at universities and colleges, researchers in companies have hardly been considered in this context. In this article, we consider how the influence of companies on AI research can be made measurable on the basis of scientific publishing activities. We compare academic- and company-authored AI publications published in the last decade and use scientometric data from multiple scholarly databases to look for differences across these groups and to disclose the top contributing organizations. While the vast majority of publications is still produced by academia, we find that the citation count an individual publication receives is significantly higher when it is (co-)authored by a company. Furthermore, using a variety of altmetric indicators, we notice that publications with company participation receive considerably more attention online. Finally, we place our analysis results in a broader context and present targeted recommendations to safeguard a harmonious balance between academia and industry in the realm of AI research. | 翻訳日:2023-11-01 14:52:15 公開日:2023-10-31 |
# 計算レンズ:量子物理学から神経科学へ The Computational Lens: from Quantum Physics to Neuroscience ( http://arxiv.org/abs/2310.20539v1 ) ライセンス: Link先を確認 | Chi-Ning Chou | (参考訳) コンピューティングの2つのトランスフォーメーションな波は、科学へのアプローチ方法を再定義しました。
最初の波はデジタルコンピュータの誕生で、科学者はモデルを数値的にシミュレートし、膨大なデータセットを解析できるようになった。
この技術的ブレークスルーは、彼らの名前に "computational" という接頭辞を持つ多くの下位学区の出現につながった。
現在、私たちは第2波の真っ最中にあり、人工知能の顕著な進歩が特徴です。
タンパク質構造の予測から銀河の分類まで、その応用範囲は広大であり、地平線上で我々を待ち構えているだけである。
この2つの波は、機器レベルでの科学的方法論に影響を与えるが、この論文では、概念レベルでの計算レンズを科学に提示する。
具体的には、計算は情報処理システムの理解と分析に便利で機械的な言語として役立ち、コンポーザビリティとモジュラリティの利点を提供する。
この論文は、計算レンズのブループリントのイラストから始まり、関連する以前の研究のレビューによって支持される。
続いて、量子物理学と神経科学を具体例として紹介します。
結論の章では、様々な科学分野にまたがって計算レンズを適用する可能性を考察し、重要な領域の洞察を提供し、将来の方向性について論じる。 Two transformative waves of computing have redefined the way we approach science. The first wave came with the birth of the digital computer, which enabled scientists to numerically simulate their models and analyze massive datasets. This technological breakthrough led to the emergence of many sub-disciplines bearing the prefix "computational" in their names. Currently, we are in the midst of the second wave, marked by the remarkable advancements in artificial intelligence. From predicting protein structures to classifying galaxies, the scope of its applications is vast, and there can only be more awaiting us on the horizon. While these two waves influence scientific methodology at the instrumental level, in this dissertation, I will present the computational lens in science, aiming at the conceptual level. Specifically, the central thesis posits that computation serves as a convenient and mechanistic language for understanding and analyzing information processing systems, offering the advantages of composability and modularity. This dissertation begins with an illustration of the blueprint of the computational lens, supported by a review of relevant previous work. Subsequently, I will present my own works in quantum physics and neuroscience as concrete examples. In the concluding chapter, I will contemplate the potential of applying the computational lens across various scientific fields, in a way that can provide significant domain insights, and discuss potential future directions. | 翻訳日:2023-11-01 14:45:23 公開日:2023-10-31 |
# llmが情報アクセスを支配する: ニューラルネットワークはllm生成テキストに偏っている LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts ( http://arxiv.org/abs/2310.20501v1 ) ライセンス: Link先を確認 | Sunhao Dai, Yuqi Zhou, Liang Pang, Weihao Liu, Xiaolin Hu, Yong Liu, Xiao Zhang and Jun Xu | (参考訳) 近年,大規模言語モデル (LLM) の出現は,特にWeb検索において情報検索 (IR) のパラダイムに革命をもたらした。
人間のようなテキストを生成する素晴らしい能力によって、LLMはインターネット上で巨大なテキストを作成しました。
結果として、LLM時代のIRシステムは新たな課題に直面しており、インデックス化された文書は人間によって書かれただけでなく、LLMによって自動的に生成される。
これらのLCM生成した文書がIRシステムにどのように影響するかは、迫りつつも未解明の疑問である。
本研究では,人間の書き起こしとLLM生成の両方が関与するシナリオにおいて,異なるIRモデルの定量的評価を行う。
意外なことに,我々は,LLM生成文書を上位にランク付けする傾向にあることを示唆し,LLM生成テキストに対するニューラル検索モデルのバイアスのカテゴリーを「textbf{source bias}」と呼ぶ。
さらに,このバイアスは第1段階のニューラルレトリバーに限らず,第2段階のニューラルリランカに限っていることがわかった。
次に, テキスト圧縮の観点から詳細な解析を行い, ニューラルネットワークがLLM生成テキストのセマンティック情報をよりよく理解し, 理論的分析によってさらに裏付けられていることを考察する。
LLM時代のIRの将来の探索を容易にするため、構築された2つの新しいベンチマークとコードは後に \url{https://github.com/KID-22/LLM4IR-Bias} で利用可能となる。 Recently, the emergence of large language models (LLMs) has revolutionized the paradigm of information retrieval (IR) applications, especially in web search. With their remarkable capabilities in generating human-like texts, LLMs have created enormous texts on the Internet. As a result, IR systems in the LLMs era are facing a new challenge: the indexed documents now are not only written by human beings but also automatically generated by the LLMs. How these LLM-generated documents influence the IR systems is a pressing and still unexplored question. In this work, we conduct a quantitative evaluation of different IR models in scenarios where both human-written and LLM-generated texts are involved. Surprisingly, our findings indicate that neural retrieval models tend to rank LLM-generated documents higher.We refer to this category of biases in neural retrieval models towards the LLM-generated text as the \textbf{source bias}. Moreover, we discover that this bias is not confined to the first-stage neural retrievers, but extends to the second-stage neural re-rankers. Then, we provide an in-depth analysis from the perspective of text compression and observe that neural models can better understand the semantic information of LLM-generated text, which is further substantiated by our theoretical analysis.We also discuss the potential server concerns stemming from the observed source bias and hope our findings can serve as a critical wake-up call to the IR community and beyond. To facilitate future explorations of IR in the LLM era, the constructed two new benchmarks and codes will later be available at \url{https://github.com/KID-22/LLM4IR-Bias}. | 翻訳日:2023-11-01 14:45:01 公開日:2023-10-31 |
# 単語推測ゲームを活用した大規模言語モデルの知能評価 Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models ( http://arxiv.org/abs/2310.20499v1 ) ライセンス: Link先を確認 | Tian Liang and Zhiwei He and Jen-tes Huang and Wenxuan Wang and Wenxiang Jiao and Rui Wang and Yujiu Yang and Zhaopeng Tu and Shuming Shi and Xing Wang | (参考訳) LLMに基づくエージェントインテリジェンスの自動評価は、高度なLCMベースのエージェントを開発する上で重要である。
alpacaevalのような人間による評価データセットの開発にかなりの労力が費やされてきたが、既存の技術はコストがかかり、時間がかかり、適応性が欠如している。
本稿では,人気のある言語ゲーム ‘Who is Spy'' にヒントを得て,LLMのインテリジェンス性能を評価するために,単語推測ゲームを提案する。
単語が与えられた後、LLMは単語の説明を依頼され、その単語とそのプレイヤーの記述に基づいてその同一性を決定する。
理想的には、高度なエージェントは、攻撃的な記述を用いて特定の単語を正確に記述し、保守的な記述における混乱を同時に最大化し、ゲームへの参加を高める能力を有するべきである。
そこで我々はまず,LEMの表現と機能低下を評価するためにDEEPを開発した。
DEEPは、攻撃的で保守的なモードで単語を記述することを要求する。
次に,LLMのインテリジェンスを評価するための対話型マルチエージェントフレームワークであるSpyGameを紹介した。
マルチエージェントインタラクションを取り入れたSpyGameは、言語スキルと戦略的思考を目標とするLLMに要求し、複雑なコミュニケーション状況におけるLLMの人間的な認知能力と適応性をより包括的に評価する。
提案された評価フレームワークの実装は非常に簡単である。
複数のソース,ドメイン,言語から単語を収集し,提案した評価フレームワークを用いて実験を行った。
大規模な実験により,提案したDEEPとSpyGameは,様々なLLMの能力を評価し,新たな状況に適応し,戦略的コミュニケーションを行う能力を示した。 The automatic evaluation of LLM-based agent intelligence is critical in developing advanced LLM-based agents. Although considerable effort has been devoted to developing human-annotated evaluation datasets, such as AlpacaEval, existing techniques are costly, time-consuming, and lack adaptability. In this paper, inspired by the popular language game ``Who is Spy'', we propose to use the word guessing game to assess the intelligence performance of LLMs. Given a word, the LLM is asked to describe the word and determine its identity (spy or not) based on its and other players' descriptions. Ideally, an advanced agent should possess the ability to accurately describe a given word using an aggressive description while concurrently maximizing confusion in the conservative description, enhancing its participation in the game. To this end, we first develop DEEP to evaluate LLMs' expression and disguising abilities. DEEP requires LLM to describe a word in aggressive and conservative modes. We then introduce SpyGame, an interactive multi-agent framework designed to assess LLMs' intelligence through participation in a competitive language-based board game. Incorporating multi-agent interaction, SpyGame requires the target LLM to possess linguistic skills and strategic thinking, providing a more comprehensive evaluation of LLMs' human-like cognitive abilities and adaptability in complex communication situations. The proposed evaluation framework is very easy to implement. We collected words from multiple sources, domains, and languages and used the proposed evaluation framework to conduct experiments. Extensive experiments demonstrate that the proposed DEEP and SpyGame effectively evaluate the capabilities of various LLMs, capturing their ability to adapt to novel situations and engage in strategic communication. | 翻訳日:2023-11-01 14:44:30 公開日:2023-10-31 |
# テンソルネットワークによる連続データの生成学習 Generative Learning of Continuous Data by Tensor Networks ( http://arxiv.org/abs/2310.20498v1 ) ライセンス: Link先を確認 | Alex Meiburg, Jing Chen, Jacob Miller, Rapha\"elle Tihon, Guillaume Rabusseau and Alejandro Perdomo-Ortiz | (参考訳) 多体量子システムのモデリングの原点を超えて、テンソルネットワークは、特に教師なし生成学習において、機械学習問題を解決するための有望なモデルのクラスとして現れてきた。
量子インスパイアされた性質から生じる多くの望ましい特徴を持っているが、テンソルネットワーク生成モデルは、以前はバイナリデータやカテゴリデータに限られており、実世界のモデリング問題における有用性は限られていた。
連続確率変数を含む分布から学習可能な連続データのためのテンソルネットワーク生成モデルの新たなファミリを導入することでこれを克服する。
本手法は行列積状態の設定において,まずモデルファミリーが任意の精度で合理的に滑らかな確率密度関数を近似できることを示す普遍表現性定理を導出する。
次に、このモデルの性能をいくつかの合成および実世界のデータセットでベンチマークし、連続および離散変数の分布についてモデルを学習し、一般化することを発見した。
本稿では,異なるデータ領域をモデル化する手法を開発し,メモリや計算資源の制限によりモデル性能を向上させるための学習可能な圧縮層を提案する。
全体として、本手法は、急速に成長する生成学習分野に対する量子インスピレーション法の有効性に関する重要な理論的および実証的な証拠を与える。 Beyond their origin in modeling many-body quantum systems, tensor networks have emerged as a promising class of models for solving machine learning problems, notably in unsupervised generative learning. While possessing many desirable features arising from their quantum-inspired nature, tensor network generative models have previously been largely restricted to binary or categorical data, limiting their utility in real-world modeling problems. We overcome this by introducing a new family of tensor network generative models for continuous data, which are capable of learning from distributions containing continuous random variables. We develop our method in the setting of matrix product states, first deriving a universal expressivity theorem proving the ability of this model family to approximate any reasonably smooth probability density function with arbitrary precision. We then benchmark the performance of this model on several synthetic and real-world datasets, finding that the model learns and generalizes well on distributions of continuous and discrete variables. We develop methods for modeling different data domains, and introduce a trainable compression layer which is found to increase model performance given limited memory or computational resources. Overall, our methods give important theoretical and empirical evidence of the efficacy of quantum-inspired methods for the rapidly growing field of generative learning. | 翻訳日:2023-11-01 14:44:01 公開日:2023-10-31 |
# BasisFormer:学習可能かつ解釈可能なBasisによる注意ベースの時系列予測 BasisFormer: Attention-based Time Series Forecasting with Learnable and Interpretable Basis ( http://arxiv.org/abs/2310.20496v1 ) ライセンス: Link先を確認 | Zelin Ni and Hang Yu and Shizhan Liu and Jianguo Li and Weiyao Lin | (参考訳) ベースは、特徴抽出器や将来の参照として機能するため、時系列予測のための現代のディープラーニングベースのモデルに不可欠な部分となっている。
有効にするために、基底は特定の時系列データのセットに合わせて調整され、集合内の各時系列と異なる相関関係を示す必要がある。
しかしながら、現在の最先端の手法は、両方の要件を同時に満たす能力に制限されている。
この課題に対処するために,学習可能かつ解釈可能なベースを活用したエンドツーエンド時系列予測アーキテクチャであるbaseformerを提案する。
このアーキテクチャは3つのコンポーネントから構成される: まず、適応的な自己教師型学習を通じてベースを取得し、時系列の歴史的および将来のセクションを2つの異なるビューとして扱い、対照的な学習を採用する。
次に,歴史的視点における時系列と基底の類似度係数を双方向の相互注意により計算するコーフモジュールを設計する。
最後に、類似度係数に基づいて、将来の視点でベースを選択・統合し、正確な将来の予測を可能にする予測モジュールを提案する。
6つのデータセットに関する広範な実験を通して、BasisFormerは、単変量および多変量予測タスクにおいて、それぞれ11.04\%と15.78\%の従来の最先端メソッドよりも優れていることを示した。
コードは以下の通り。 \url{https://github.com/nzl5116190/Basisformer} Bases have become an integral part of modern deep learning-based models for time series forecasting due to their ability to act as feature extractors or future references. To be effective, a basis must be tailored to the specific set of time series data and exhibit distinct correlation with each time series within the set. However, current state-of-the-art methods are limited in their ability to satisfy both of these requirements simultaneously. To address this challenge, we propose BasisFormer, an end-to-end time series forecasting architecture that leverages learnable and interpretable bases. This architecture comprises three components: First, we acquire bases through adaptive self-supervised learning, which treats the historical and future sections of the time series as two distinct views and employs contrastive learning. Next, we design a Coef module that calculates the similarity coefficients between the time series and bases in the historical view via bidirectional cross-attention. Finally, we present a Forecast module that selects and consolidates the bases in the future view based on the similarity coefficients, resulting in accurate future predictions. Through extensive experiments on six datasets, we demonstrate that BasisFormer outperforms previous state-of-the-art methods by 11.04\% and 15.78\% respectively for univariate and multivariate forecasting tasks. Code is available at: \url{https://github.com/nzl5116190/Basisformer} | 翻訳日:2023-11-01 14:43:41 公開日:2023-10-31 |
# 会話におけるマルチモーダル感情認識のための自己拡張型トランスフォーマーモデル A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations ( http://arxiv.org/abs/2310.20494v1 ) ライセンス: Link先を確認 | Hui Ma, Jian Wang, Hongfei Lin, Bo Zhang, Yijia Zhang, Bo Xu | (参考訳) 会話における各発話の感情を認識するタスクである会話における感情認識(ERC)は共感機械の構築に不可欠である。
既存の研究は主に、テクストのモダリティに対する文脈依存と話者依存の依存関係を捉えることに重点を置いているが、マルチモーダル情報の重要性は無視している。
テキスト会話における感情認識と異なり、発話間のモーダル内相互作用、異なるモーダル間の学習重み、モーダル表現の強化はマルチモーダルercにおいて重要な役割を果たす。
本稿では, 自己蒸留(SDT)を用いた変圧器モデルを提案する。
トランスベースモデルでは,モダリティ内およびモダリティ間トランスを利用してモダリティ内およびモダリティ間相互作用をキャプチャし,階層的ゲート融合戦略を設計することにより,モダリティ間の重みを動的に学習する。
さらに,より表現豊かなモーダル表現を学ぶために,提案モデルのソフトラベルを追加のトレーニング監督として扱う。
具体的には,ハードラベルとソフトラベルの知識を提案モデルから各モダリティに移すために,自己蒸留を導入する。
IEMOCAPとMELDデータセットの実験では、SDTが以前の最先端ベースラインより優れていることが示されている。 Emotion recognition in conversations (ERC), the task of recognizing the emotion of each utterance in a conversation, is crucial for building empathetic machines. Existing studies focus mainly on capturing context- and speaker-sensitive dependencies on the textual modality but ignore the significance of multimodal information. Different from emotion recognition in textual conversations, capturing intra- and inter-modal interactions between utterances, learning weights between different modalities, and enhancing modal representations play important roles in multimodal ERC. In this paper, we propose a transformer-based model with self-distillation (SDT) for the task. The transformer-based model captures intra- and inter-modal interactions by utilizing intra- and inter-modal transformers, and learns weights between modalities dynamically by designing a hierarchical gated fusion strategy. Furthermore, to learn more expressive modal representations, we treat soft labels of the proposed model as extra training supervision. Specifically, we introduce self-distillation to transfer knowledge of hard and soft labels from the proposed model to each modality. Experiments on IEMOCAP and MELD datasets demonstrate that SDT outperforms previous state-of-the-art baselines. | 翻訳日:2023-11-01 14:43:19 公開日:2023-10-31 |
# 生成モデルを用いたサイバー物理システムの要件改ざん Requirement falsification for cyber-physical systems using generative models ( http://arxiv.org/abs/2310.20493v1 ) ライセンス: Link先を確認 | Jarkko Peltom\"aki and Ivan Porres | (参考訳) 我々は,OGANアルゴリズムを用いて,サイバー物理システムの自動要求ファルシフィケーションを提案する。
システム入力と出力は時間とともに断片的に定数信号として表現され、要求は信号時論理で表現される。
OGANは、システムが運用される前に設計、ソフトウェア、ハードウェアの欠陥を明らかにするシステムの安全性の反例となる入力を見つけることができる。
OGANアルゴリズムは、生成機械学習モデルをトレーニングして、このような反例を生成する。
アトミックにテストを実行し、テスト中のシステムの以前のモデルを必要としない。
我々は,ARCH-COMPベンチマーク問題を用いてOGANを評価し,生成モデルが要求ファルシフィケーションの有効な方法であることを示す。
OGANは、ほとんど努力せずに新しいシステムに適用でき、テスト中のシステムの要件がほとんどなく、最先端のCPSファルシフィケーション効率と有効性を示す。 We present the OGAN algorithm for automatic requirement falsification of cyber-physical systems. System inputs and output are represented as piecewise constant signals over time while requirements are expressed in signal temporal logic. OGAN can find inputs that are counterexamples for the safety of a system revealing design, software, or hardware defects before the system is taken into operation. The OGAN algorithm works by training a generative machine learning model to produce such counterexamples. It executes tests atomically and does not require any previous model of the system under test. We evaluate OGAN using the ARCH-COMP benchmark problems, and the experimental results show that generative models are a viable method for requirement falsification. OGAN can be applied to new systems with little effort, has few requirements for the system under test, and exhibits state-of-the-art CPS falsification efficiency and effectiveness. | 翻訳日:2023-11-01 14:42:54 公開日:2023-10-31 |
# ログに基づくエンタープライズソフトウェアの異常検出:実証的研究 Log-based Anomaly Detection of Enterprise Software: An Empirical Study ( http://arxiv.org/abs/2310.20492v1 ) ライセンス: Link先を確認 | Nadun Wijesinghe (Calgary, Canada), Hadi Hemmati (Toronto, Canada) | (参考訳) ほとんどのエンタープライズアプリケーションは、ログを異常を診断するメカニズムとして使用しています。
ソフトウェア実行ログを用いた異常検出は、古典的およびディープニューラルネットワークベースの機械学習モデルを用いて、いくつかの先行研究で研究されている。
近年、この研究は、シークエンスベースのディープニューラルネットワーク(例えばLong-Short Term MemoryとTransformer-based model)のバリエーションを使用して、オープンソースのデータに対するログベースの異常検出に重点を置いている。
しかし、産業用データセットにはあまり適用されていない。
加えて、調査されたオープンソースのデータセットは一般的に、時間とともに大きく変化しないロギングステートメントを持つ非常に大きなサイズである。
本稿では,我々の研究パートナーによる産業用データセットにおける最先端の異常検出モデルをいくつか評価する。
結果は、全てのモデルが異常を検出することができるが、一部のモデルはより構造化されていないデータセットに適していることを示している。
また、以前の作業でランダムなトレインテストスプリットに関連する共通のデータリークが削除された場合、モデルの有効性も変化します。
工業データセット上で開発者が特定した欠陥の特徴の質的研究は、異なる種類の異常を検出する際のモデルの強度と弱点をさらに示す。
最後に、トレーニングセットサイズを徐々に増やして、限られたトレーニングデータの効果を調べ、モデルの有効性がトレーニングセットサイズに依存するかどうかを評価する。 Most enterprise applications use logging as a mechanism to diagnose anomalies, which could help with reducing system downtime. Anomaly detection using software execution logs has been explored in several prior studies, using both classical and deep neural network-based machine learning models. In recent years, the research has largely focused in using variations of sequence-based deep neural networks (e.g., Long-Short Term Memory and Transformer-based models) for log-based anomaly detection on open-source data. However, they have not been applied in industrial datasets, as often. In addition, the studied open-source datasets are typically very large in size with logging statements that do not change much over time, which may not be the case with a dataset from an industrial service that is relatively new. In this paper, we evaluate several state-of-the-art anomaly detection models on an industrial dataset from our research partner, which is much smaller and loosely structured than most large scale open-source benchmark datasets. Results show that while all models are capable of detecting anomalies, certain models are better suited for less-structured datasets. We also see that model effectiveness changes when a common data leak associated with a random train-test split in some prior work is removed. A qualitative study of the defects' characteristics identified by the developers on the industrial dataset further shows strengths and weaknesses of the models in detecting different types of anomalies. Finally, we explore the effect of limited training data by gradually increasing the training set size, to evaluate if the model effectiveness does depend on the training set size. | 翻訳日:2023-11-01 14:42:40 公開日:2023-10-31 |
# 多目的最適化としての長期学習 Long-Tailed Learning as Multi-Objective Optimization ( http://arxiv.org/abs/2310.20490v1 ) ライセンス: Link先を確認 | Weiqi Li, Fan Lyu, Fanhua Shang, Liang Wan, Wei Feng | (参考訳) 実世界のデータは極めて不均衡であり、ロングテールの分布を示し、十分なサンプルを持つクラスに偏り、まれなクラスでパフォーマンスの悪いモデルとなる。
近年の手法では,クラスの再バランスが提案されているが,シーソージレンマ(尾クラスの性能向上は,ヘッドクラスの性能を低下させる可能性がある。
本稿では,シーソージレンマが異なるクラスの勾配不均衡から導出され,不適切なクラスの勾配が更新に重要となるように設定されるため,末尾クラスに対する過剰補償や過補償になりがちであると主張する。
理想的補償を実現するために,多目的最適化問題としてロングテール認識を定式化し,ヘッドクラスとテールクラスの貢献を十分に尊重する。
効率向上のために,同じ勾配方向のクラスを収集するグラディエント・バランシング・グループ(GBG)戦略を提案する。
同様の勾配方向のクラスをgbg法で駆動し、より代表的な勾配を形成し、テールクラスに理想的な補償を与える。
さらに,長期学習においてよく用いられるベンチマークについて広範な実験を行い,既存のSOTA法よりも優れた方法を示す。 Real-world data is extremely imbalanced and presents a long-tailed distribution, resulting in models that are biased towards classes with sufficient samples and perform poorly on rare classes. Recent methods propose to rebalance classes but they undertake the seesaw dilemma (what is increasing performance on tail classes may decrease that of head classes, and vice versa). In this paper, we argue that the seesaw dilemma is derived from gradient imbalance of different classes, in which gradients of inappropriate classes are set to important for updating, thus are prone to overcompensation or undercompensation on tail classes. To achieve ideal compensation, we formulate the long-tailed recognition as an multi-objective optimization problem, which fairly respects the contributions of head and tail classes simultaneously. For efficiency, we propose a Gradient-Balancing Grouping (GBG) strategy to gather the classes with similar gradient directions, thus approximately make every update under a Pareto descent direction. Our GBG method drives classes with similar gradient directions to form more representative gradient and provide ideal compensation to the tail classes. Moreover, We conduct extensive experiments on commonly used benchmarks in long-tailed learning and demonstrate the superiority of our method over existing SOTA methods. | 翻訳日:2023-11-01 14:42:17 公開日:2023-10-31 |
# NaijaCoder: 世界南部における早期アルゴリズム教育のための参加型設計 NaijaCoder: Participatory Design for Early Algorithms Education in the Global South ( http://arxiv.org/abs/2310.20488v1 ) ライセンス: Link先を確認 | Daniel Alabi, Atinuke Adegbile, Lekan Afuye, Philip Abel, Alida Monaco | (参考訳) ナイジェリアの高校生の大多数はアルゴリズムやプログラミングの基礎にほとんど触れていない。
この軌道は、プログラミングがこれらの学生、特に天才的バックグラウンドの学生に、利益を上げるスキルを学び、問題解決と批判的思考への情熱を燃やす機会を与えるものとして変化すべきである、と私たちは信じています。
ナイジャコーダー(naijacoder)は、ナイジェリアで、アルゴリズムとコンピュータプログラミングの基礎を高校生に教えるための、自由で集中的な夏のプログラムを組織する組織である。
しかし、不安定な電力供給、インターネットサービス、価格変動など、ユニークな課題に直面している世界南部の国々では、コンピュータサイエンスのカリキュラムの採用が特に困難になっている。
我々は,厳密な思考と準備を取り入れつつ,地域環境に配慮したカリキュラムを設計する。
基本的な調査設計を用いて,学生からのフィードバックを導き,カリキュラムをさらに改善し,反復的に実施する。 The majority of Nigerian high schoolers have little to no exposure to the basics of algorithms and programming. We believe this trajectory should change as programming offers these students, especially those from indigent backgrounds, an opportunity to learn profitable skills and ignite their passions for problem-solving and critical thinking. NaijaCoder is an organization that is dedicated to organizing a free, intensive summer program in Nigeria to teach the basics of algorithms and computer programming to high schoolers. However, the adoption of computer science curriculum has been especially challenging in countries in the global south that face unique challenges -- such as unstable power supply, internet service, and price volatility. We design a curriculum that is more conducive to the local environment while incorporating rigorous thinking and preparation. Using basic survey designs, we elicit feedback, from the students, designed to further improve and iterate on our curriculum. | 翻訳日:2023-11-01 14:41:54 公開日:2023-10-31 |
# Wolfes model aka $G_2/I_6$-rational integrable model: $g^{(2)}, g^{(3)}$ hidden algebras and quartic polynomial algebra of integrals Wolfes model aka $G_2/I_6$-rational integrable model: $g^{(2)}, g^{(3)}$ hidden algebras and quartic polynomial algebra of integrals ( http://arxiv.org/abs/2310.20481v1 ) ライセンス: Link先を確認 | J C Lopez Vieyra and A V Turbiner | (参考訳) g_2/i_6$-有理的可積分モデルとしても知られる2-および3-体相互作用を持つ1次元の3体狼モデルは、正確に解くことができ、超積分可能である。
そのハミルトニアン$H$と2つの積分 ${\cal I}_{1}, {\cal I}_{2}$ は、それぞれ2階と6階の2つの変数の代数微分作用素として記述でき、最小限の方法で$g^{(2)}$または$g^{(3)}$(隠れた)代数生成子の非線形結合として表される。
特別に設計されたMAPLE-18符号を用いて、$(H, {\cal I}_1, {\cal I}_2, [{\cal I}_1, {\cal I}_2])$は積分の四次代数の4つの生成元であることがわかった。
この代数は普遍包絡代数 $g^{(3)}$ に埋め込まれている。
3体カロジェロモデルについて簡潔に述べる。 One-dimensional 3-body Wolves model with 2- and 3-body interactions also known as $G_2/I_6$-rational integrable model of the Hamiltonian reduction is exactly-solvable and superintegrable. Its Hamiltonian $H$ and two integrals ${\cal I}_{1}, {\cal I}_{2}$, which can written as algebraic differential operators in two variables of the 2nd and 6th orders, respectively, are represented as non-linear combinations of $g^{(2)}$ or $g^{(3)}$ (hidden) algebra generators in a minimal manner. By using a specially designed MAPLE-18 code it is found that $(H, {\cal I}_1, {\cal I}_2, [{\cal I}_1, {\cal I}_2])$ are the four generating elements of the {\it quartic} polynomial algebra of integrals. This algebra is embedded in the universal enveloping algebra $g^{(3)}$. 3-body Calogero model is mentioned briefly. | 翻訳日:2023-11-01 14:41:38 公開日:2023-10-31 |
# マルチユーザマルチウォズ:マルチユーザ間のタスク指向対話 Multi-User MultiWOZ: Task-Oriented Dialogues among Multiple Users ( http://arxiv.org/abs/2310.20479v1 ) ライセンス: Link先を確認 | Yohan Jo, Xinyan Zhao, Arijit Biswas, Nikoletta Basiou, Vincent Auvray, Nikolaos Malandrakis, Angeliki Metallinou, Alexandros Potamianos | (参考訳) 多くのタスク指向対話ではエージェントと1人のユーザの会話を同時に想定するが、対話システムは複数のユーザと同時にコミュニケーションし、共同で意思決定を行うことが期待されている。
このようなシステムの開発を容易にするために,我々はマルチユーザマルチウォズデータセット(タスク指向対話)をリリースした。
このデータセットを収集するために、multiwoz 2.2から各ユーザ発話は、意味的かつ実用的に元のユーザ発話と一致する2人のユーザ間の小さなチャットに置き換えられ、結果として同じ対話状態とシステム応答がもたらされた。
これらの対話は、タスク指向のシナリオにおける協調的な意思決定の興味深いダイナミクスを反映している。
本稿では,タスク関連情報のみを保持する簡潔なタスク指向クエリとして,ユーザ間のタスク指向のチャットを書き換える,マルチユーザコンテキストクエリ書き換えの新しいタスクを提案する。
マルチユーザ対話では,予測された書き直しを用いることで,既存の対話システムを変更することなく,対話状態の追跡が大幅に向上することを示す。
さらに,マルチユーザ対話における中規模モデルのトレーニングを超越し,未認識領域に一般化する。 While most task-oriented dialogues assume conversations between the agent and one user at a time, dialogue systems are increasingly expected to communicate with multiple users simultaneously who make decisions collaboratively. To facilitate development of such systems, we release the Multi-User MultiWOZ dataset: task-oriented dialogues among two users and one agent. To collect this dataset, each user utterance from MultiWOZ 2.2 was replaced with a small chat between two users that is semantically and pragmatically consistent with the original user utterance, thus resulting in the same dialogue state and system response. These dialogues reflect interesting dynamics of collaborative decision-making in task-oriented scenarios, e.g., social chatter and deliberation. Supported by this data, we propose the novel task of multi-user contextual query rewriting: to rewrite a task-oriented chat between two users as a concise task-oriented query that retains only task-relevant information and that is directly consumable by the dialogue system. We demonstrate that in multi-user dialogues, using predicted rewrites substantially improves dialogue state tracking without modifying existing dialogue systems that are trained for single-user dialogues. Further, this method surpasses training a medium-sized model directly on multi-user dialogues and generalizes to unseen domains. | 翻訳日:2023-11-01 14:41:13 公開日:2023-10-31 |
# ブラックボックス:特許分類のための説明可能なディープラーニングモデル Unveiling Black-boxes: Explainable Deep Learning Models for Patent Classification ( http://arxiv.org/abs/2310.20478v1 ) ライセンス: Link先を確認 | Md Shajalal, Sebastian Denef, Md. Rezaul Karim, Alexander Boden, Gunnar Stevens | (参考訳) 近年の技術進歩により、さまざまな分野の特許が大量に取得され、人間の専門家が分析と管理を困難にしている。
マルチラベル特許分類のための最先端の手法は、不透明な意思決定プロセスのために複雑でしばしばブラックボックスと見なされるディープニューラルネットワーク(dnn)に依存している。
本稿では,階層的関連性伝播(Layer-wise Relevance propagation, LRP)を導入し, 人為的に理解可能な予測手法を提案する。
我々はbi-lstm,cnn,cnn-bilstmを含む複数のdnnモデルを訓練し,モデルの入力層まで予測を後方へ伝播させ,個々の予測に対する単語の関連性を同定する。
関連性スコアを考慮し、予測した特許クラスに関連する単語を視覚化することで説明を生成する。
200万件の特許文書からなる2つのデータセットの実験結果から, 各種評価指標を用いて高い性能を示した。
各予測で生成された説明は、予測されたクラスと一致する重要な関連する単語を強調し、予測をより理解できるようにする。
説明可能なシステムは、現実世界のアプリケーションにおける特許分類のための複雑なAI対応手法の採用を促進する可能性がある。 Recent technological advancements have led to a large number of patents in a diverse range of domains, making it challenging for human experts to analyze and manage. State-of-the-art methods for multi-label patent classification rely on deep neural networks (DNNs), which are complex and often considered black-boxes due to their opaque decision-making processes. In this paper, we propose a novel deep explainable patent classification framework by introducing layer-wise relevance propagation (LRP) to provide human-understandable explanations for predictions. We train several DNN models, including Bi-LSTM, CNN, and CNN-BiLSTM, and propagate the predictions backward from the output layer up to the input layer of the model to identify the relevance of words for individual predictions. Considering the relevance score, we then generate explanations by visualizing relevant words for the predicted patent class. Experimental results on two datasets comprising two-million patent texts demonstrate high performance in terms of various evaluation measures. The explanations generated for each prediction highlight important relevant words that align with the predicted class, making the prediction more understandable. Explainable systems have the potential to facilitate the adoption of complex AI-enabled methods for patent classification in real-world applications. | 翻訳日:2023-11-01 14:40:49 公開日:2023-10-31 |
# トレーニングデータ帰属説明の実践者視点を探る Exploring Practitioner Perspectives On Training Data Attribution Explanations ( http://arxiv.org/abs/2310.20477v1 ) ライセンス: Link先を確認 | Elisa Nguyen, Evgenii Kortukov, Jean Song, Seong Joon Oh | (参考訳) 説明可能なAI(XAI)は、人間が推論する不透明なモデルについての洞察を提供することを目的としている。
本稿では,10名の実践者に対して,トレーニングデータ属性(TDA)の説明の有用性を理解し,そのようなアプローチの設計空間を探るためインタビューを行った。
私たちは、データ品質のトレーニングが、多くの場合、ハイモデルパフォーマンスにとって最も重要な要素であることを確認しました。
エンドユーザは、モデルとのインタラクションを強化するために説明を期待しており、必ずしも優先順位を付ける必要はないが、説明手段としてトレーニングデータに開放されている。
参加者の中では,TDAの説明はよく知られておらず,使用されていないことが判明した。
我々は,人間と機械のコラボレーションの観点から,TDA技術の有用性に着目し,TDA評価を拡張し,実践上の一般的なユースケースを反映するようコミュニティに促す。 Explainable AI (XAI) aims to provide insight into opaque model reasoning to humans and as such is an interdisciplinary field by nature. In this paper, we interviewed 10 practitioners to understand the possible usability of training data attribution (TDA) explanations and to explore the design space of such an approach. We confirmed that training data quality is often the most important factor for high model performance in practice and model developers mainly rely on their own experience to curate data. End-users expect explanations to enhance their interaction with the model and do not necessarily prioritise but are open to training data as a means of explanation. Within our participants, we found that TDA explanations are not well-known and therefore not used. We urge the community to focus on the utility of TDA techniques from the human-machine collaboration perspective and broaden the TDA evaluation to reflect common use cases in practice. | 翻訳日:2023-11-01 14:40:28 公開日:2023-10-31 |
# 室内室温予測のためのグローバル変圧器アーキテクチャ Global Transformer Architecture for Indoor Room Temperature Forecasting ( http://arxiv.org/abs/2310.20476v1 ) ライセンス: Link先を確認 | Alfredo V Clemente and Alessandro Nocente and Massimiliano Ruocco | (参考訳) 建築エネルギーシステムの徹底的な規制は、関連する省エネと、居住者の快適性の向上に繋がる。
有効制御システムの実装には、一定の時間軸で建物の熱状態を高い信頼性で予測するアルゴリズムが不可欠である。
本研究では,多室ビルにおける室内温度予測のためのグローバルトランスフォーマーアーキテクチャを提案し,エネルギー消費の最適化とHVACシステムによる温室効果ガス排出の削減を目的とする。
近年のディープラーニングの進歩により、従来のフィードバック制御システムと比較して高度な予測モデルの開発が可能になった。
提案されているグローバルトランスフォーマーアーキテクチャは、すべての部屋を含むデータセット全体をトレーニングし、複数のルーム固有のモデルの必要性を排除し、予測性能を大幅に改善し、デプロイメントとメンテナンスを簡素化する。
本研究は,多室ビルの室内温度予測にトランスフォーマーアーキテクチャを適用した最初の事例である。
提案手法は, 建築部門におけるエネルギー消費の最適化と温室効果ガス排出量の削減に有用なツールとして, 温度予測の精度と効率を高める新しい手法を提供する。 A thorough regulation of building energy systems translates in relevant energy savings and in a better comfort for the occupants. Algorithms to predict the thermal state of a building on a certain time horizon with a good confidence are essential for the implementation of effective control systems. This work presents a global Transformer architecture for indoor temperature forecasting in multi-room buildings, aiming at optimizing energy consumption and reducing greenhouse gas emissions associated with HVAC systems. Recent advancements in deep learning have enabled the development of more sophisticated forecasting models compared to traditional feedback control systems. The proposed global Transformer architecture can be trained on the entire dataset encompassing all rooms, eliminating the need for multiple room-specific models, significantly improving predictive performance, and simplifying deployment and maintenance. Notably, this study is the first to apply a Transformer architecture for indoor temperature forecasting in multi-room buildings. The proposed approach provides a novel solution to enhance the accuracy and efficiency of temperature forecasting, serving as a valuable tool to optimize energy consumption and decrease greenhouse gas emissions in the building sector. | 翻訳日:2023-11-01 14:40:09 公開日:2023-10-31 |
# 知識グラフ埋め込みによるゼロショット医療情報検索 Zero-Shot Medical Information Retrieval via Knowledge Graph Embedding ( http://arxiv.org/abs/2310.20588v1 ) ライセンス: Link先を確認 | Yuqi Wang, Zeqiang Wang, Wei Wang, Qi Chen, Kaizhu Huang, Anh Nguyen, and Suparna De | (参考訳) モノのインターネット(IoT)の時代、医療情報の検索は効率的な臨床的意思決定に欠かせないものとなっている。
本稿では,事前学習された言語モデルと統計的手法の強みを融合した,ゼロショット医療情報検索 (mir) への新しいアプローチである medfusionrank を提案する。
提案手法は、学習済みのBERTスタイルのモデルを用いて、コンパクトだが情報的なキーワードを抽出する。
これらのキーワードは、医療知識グラフ内の概念エンティティにリンクすることで、ドメイン知識に富む。
医学データセットに対する実験的な評価は、既存の手法よりもMedFusion Rankの方が優れた性能を示し、様々な評価指標で有望な結果を得た。
MedFusionRankは、短いクエリや単一のクエリからでも、関連する情報を取得する効果を示す。 In the era of the Internet of Things (IoT), the retrieval of relevant medical information has become essential for efficient clinical decision-making. This paper introduces MedFusionRank, a novel approach to zero-shot medical information retrieval (MIR) that combines the strengths of pre-trained language models and statistical methods while addressing their limitations. The proposed approach leverages a pre-trained BERT-style model to extract compact yet informative keywords. These keywords are then enriched with domain knowledge by linking them to conceptual entities within a medical knowledge graph. Experimental evaluations on medical datasets demonstrate MedFusion Rank's superior performance over existing methods, with promising results with a variety of evaluation metrics. MedFusionRank demonstrates efficacy in retrieving relevant information, even from short or single-term queries. | 翻訳日:2023-11-01 14:31:51 公開日:2023-10-31 |
# ベイズ状態推定のためのハールランダムとかなり良い測定 Haar-random and pretty good measurements for Bayesian state estimation ( http://arxiv.org/abs/2310.20565v1 ) ライセンス: Link先を確認 | Maria Quadeer | (参考訳) ベイズ状態推定のための測定基準としてhaar-random正規直交基底とかなり良い測定値について検討した。
我々は、n$ haar-random 測定ベースを与えられた、更新ベイズアルゴリズムで異なる状態のアンサンブルを考える。
我々は、純状態の均一なアンサンブルに対して、そのようなランダムな測定基地のID系列の平均忠実度を求める。
また、クリフォードユニタリは、混合量子ビット状態のアンサンブルに対するハールランダムユニタリとは対照的に、平均忠実度に対して弱い下界しか与えられない。
単発更新については、Petzリカバリ対応をかなり良い測定に用いて、ベイズ平均推定をかなり良いものにすることができると論じる。 We study Haar-random orthonormal bases and pretty good measurement as measurement choices for Bayesian state estimation. We consider different ensembles of states under an $N$-updates Bayesian algorithm given $N$ Haar-random measurement bases. We obtain a bound on fidelity averaged over IID sequences of such random measurement bases for a uniform ensemble of pure states. We also find that Clifford unitaries can only give a weak lower bound for average fidelity in contrast to Haar random unitaries for ensembles of mixed qubit states. For a single-shot-update, we argue using the Petz recovery correspondence for pretty good measurement that it can give pretty good Bayesian mean estimates. | 翻訳日:2023-11-01 14:31:40 公開日:2023-10-31 |
# コントロールを取る:AIの絶滅リスクに対処する政策 Taking control: Policies to address extinction risks from AI ( http://arxiv.org/abs/2310.20563v1 ) ライセンス: Link先を確認 | Andrea Miotti and Akash Wasil | (参考訳) 本稿では,先進人工知能(AI)による絶滅リスクを低減するための政策勧告を提供する。
まず、AIによる絶滅リスクに関する背景情報を簡潔に提供します。
第二に、AI企業からの自発的なコミットメントは不適切で不十分な反応である、と我々は主張する。
第3に,先進aiの脅威に対処するための3つの政策提案について述べる。(1)先進aiの民主的監視を可能にする多国間agiコンソーシアム(マジック)の設立,(2)aiシステム(グローバルコンピューティングキャップ)の訓練に使用する計算能力のグローバルキャップの実現,(3)リスクが許容可能なレベル以下に保持されることを保証するための肯定的安全性評価の要求(重要な実験の実施)。
MAGICは、高度なAIからのリスクを減らし、AIの利点を安全に活用する研究を行うための、安全で安全に焦点を当てた国際的な機関である。
MAGICはまた、AI関連の緊急時に、AI開発を迅速に停止する緊急対応インフラストラクチャ(キルスイッチ)を維持したり、モデル展開を中止する。
グローバルコンピューティングの上限は、危険なAIシステムへの企業競争を終わらせると同時に、AIイノベーションの大多数を未解決のままにすることを可能にします。
強力なaiシステムを開発する企業は、これらのモデルが絶滅のリスクを許容できる閾値以下に保つという肯定的な証拠を提示する必要がある。
これらの勧告を述べると、国際社会がこれらの提案を実行し、先進的なaiに関する国際協調の基礎となる中間的なステップを提案する。 This paper provides policy recommendations to reduce extinction risks from advanced artificial intelligence (AI). First, we briefly provide background information about extinction risks from AI. Second, we argue that voluntary commitments from AI companies would be an inappropriate and insufficient response. Third, we describe three policy proposals that would meaningfully address the threats from advanced AI: (1) establishing a Multinational AGI Consortium to enable democratic oversight of advanced AI (MAGIC), (2) implementing a global cap on the amount of computing power used to train an AI system (global compute cap), and (3) requiring affirmative safety evaluations to ensure that risks are kept below acceptable levels (gating critical experiments). MAGIC would be a secure, safety-focused, internationally-governed institution responsible for reducing risks from advanced AI and performing research to safely harness the benefits of AI. MAGIC would also maintain emergency response infrastructure (kill switch) to swiftly halt AI development or withdraw model deployment in the event of an AI-related emergency. The global compute cap would end the corporate race toward dangerous AI systems while enabling the vast majority of AI innovation to continue unimpeded. Gating critical experiments would ensure that companies developing powerful AI systems are required to present affirmative evidence that these models keep extinction risks below an acceptable threshold. After describing these recommendations, we propose intermediate steps that the international community could take to implement these proposals and lay the groundwork for international coordination around advanced AI. | 翻訳日:2023-11-01 14:31:29 公開日:2023-10-31 |
# Token Barrierを破る:BERTを用いた効率的な長文分類のためのチャンキングと畳み込み Breaking the Token Barrier: Chunking and Convolution for Efficient Long Text Classification with BERT ( http://arxiv.org/abs/2310.20558v1 ) ライセンス: Link先を確認 | Aman Jaiswal, Evangelos Milios | (参考訳) 変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。
しかし、これらのモデルは最大512トークンのトークン制限に制限されている。
したがって、長い入力を持つ実用的な設定でそれを適用することは自明ではない。
様々な複雑な手法がこの限界を克服すると主張しているが、近年の研究は異なる分類タスクにおけるこれらのモデルの有効性を疑問視している。
これらの複雑なアーキテクチャは、慎重にキュレートされた長いデータセットで評価され、単純なベースラインよりも同等または悪く実行される。
本研究では,任意の事前学習したモデルの微調整を任意に長いテキストで行うことができる,ChunkBERTと呼ばれるバニラBERTアーキテクチャの比較的単純な拡張を提案する。
提案手法は,チャンキングトークン表現とCNN層に基づいて,事前学習したBERTと互換性を持つ。
チャンクBERTは,様々なタスク(バイナリ分類,マルチクラス分類,マルチラベル分類など)の長文分類モデルを比較するベンチマークでのみ評価する。
ChunkBERT法を用いて微調整されたBERTモデルは、ベンチマーク中の長いサンプルに対して一貫して動作し、元のメモリフットプリントの分数(6.25\%)しか利用していない。
これらの結果から,事前学習したBERTモデルに簡単な修正を加えることで,効率的な微調整と推測が可能であることが示唆された。 Transformer-based models, specifically BERT, have propelled research in various NLP tasks. However, these models are limited to a maximum token limit of 512 tokens. Consequently, this makes it non-trivial to apply it in a practical setting with long input. Various complex methods have claimed to overcome this limit, but recent research questions the efficacy of these models across different classification tasks. These complex architectures evaluated on carefully curated long datasets perform at par or worse than simple baselines. In this work, we propose a relatively simple extension to vanilla BERT architecture called ChunkBERT that allows finetuning of any pretrained models to perform inference on arbitrarily long text. The proposed method is based on chunking token representations and CNN layers, making it compatible with any pre-trained BERT. We evaluate chunkBERT exclusively on a benchmark for comparing long-text classification models across a variety of tasks (including binary classification, multi-class classification, and multi-label classification). A BERT model finetuned using the ChunkBERT method performs consistently across long samples in the benchmark while utilizing only a fraction (6.25\%) of the original memory footprint. These findings suggest that efficient finetuning and inference can be achieved through simple modifications to pre-trained BERT models. | 翻訳日:2023-11-01 14:30:59 公開日:2023-10-31 |
# グラフニューラルネットワークのプライバシー保護設計と垂直連合学習への応用 Privacy-preserving design of graph neural networks with applications to vertical federated learning ( http://arxiv.org/abs/2310.20552v1 ) ライセンス: Link先を確認 | Ruofan Wu, Mingyang Zhang, Lingjuan Lyu, Xiaolong Xu, Xiuquan Hao, Xinyi Fu, Tengfei Liu, Tianyi Zhang, Weiqiang Wang | (参考訳) 組織が相互のローカル特徴やラベル情報を組み合わせて機械学習モデルを協調訓練する垂直連合学習(VFL)のパラダイムは、金融リスク管理(FRM)への応用において大きな成功を収めている。
グラフ表現学習(GRL)の進展により、基盤となるトランザクションネットワークから生成されたグラフ構造化データを効率的に活用することで、FL下でのFRMアプリケーションに新たな機会が開かれた。
一方、取引情報は高感度と見なされることが多い。
トレーニング中のデータ漏洩を防止するため、正式なプライバシー保証付きFLプロトコルを開発することが重要である。
本稿では,多くのグラフニューラルアーキテクチャの民営化を可能にする一般民営化スキームであるperturbed message passing(pmp)に基づいて,vesperと呼ばれるvfl設定におけるエンドツーエンドのgrlフレームワークを提案する。pmpに基づいて,具体的グラフニューラルアーキテクチャの特定の設計選択の強みと弱みについて論じ,高密度グラフと疎グラフの両方に対する解と改善を提供する。
パブリックデータセットと業界データセットの両方に対する広範な経験的評価は、VESPERが適切なプライバシー予算の下でスパースグラフと密度グラフの両方で高性能なGNNモデルをトレーニングできることを示している。 The paradigm of vertical federated learning (VFL), where institutions collaboratively train machine learning models via combining each other's local feature or label information, has achieved great success in applications to financial risk management (FRM). The surging developments of graph representation learning (GRL) have opened up new opportunities for FRM applications under FL via efficiently utilizing the graph-structured data generated from underlying transaction networks. Meanwhile, transaction information is often considered highly sensitive. To prevent data leakage during training, it is critical to develop FL protocols with formal privacy guarantees. In this paper, we present an end-to-end GRL framework in the VFL setting called VESPER, which is built upon a general privatization scheme termed perturbed message passing (PMP) that allows the privatization of many popular graph neural architectures.Based on PMP, we discuss the strengths and weaknesses of specific design choices of concrete graph neural architectures and provide solutions and improvements for both dense and sparse graphs. Extensive empirical evaluations over both public datasets and an industry dataset demonstrate that VESPER is capable of training high-performance GNN models over both sparse and dense graphs under reasonable privacy budgets. | 翻訳日:2023-11-01 14:30:37 公開日:2023-10-31 |
# CapsFusion: スケールでのイメージテキストデータの再考 CapsFusion: Rethinking Image-Text Data at Scale ( http://arxiv.org/abs/2310.20550v1 ) ライセンス: Link先を確認 | Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong Wang, Jingjing Liu | (参考訳) 大規模なマルチモーダルモデルは、ゼロショット方式で多様なマルチモーダルタスクを実行する驚くべき一般性を示す。
大規模なWebベースの画像テキストペアはこの成功に基本的に寄与するが、過度なノイズに悩まされる。
最近の研究では、キャプションモデルによって合成された代替キャプションを使用し、顕著なベンチマーク性能を実現している。
しかし,本実験では,合成キャプションで学習したモデルにおいて,スケーラビリティの低下や世界的知識喪失の問題が明らかにされている。
より詳しく調べると、根本原因を過剰に単純化された言語構造と既存の合成キャプションにおける知識の欠如として同定する。
高品質でスケーラブルなマルチモーダル事前学習データを提供するために,Web ベースの画像テキストペアと合成キャプションの両方から情報を統合・洗練するために,大規模言語モデルを活用する高度なフレームワーク CapsFusion を提案する。
大規模な実験により、CapsFusionキャプションは、モデル性能(例えば、COCOとNoCapsにおけるCIDErスコアの改善18.8と18.3)、サンプル効率(ベースラインよりも11~16倍少ない計算量)、世界知識深度、拡張性において、既存のキャプションよりも大幅に優れていることが示された。
これらの効率性、効率性、スケーラビリティの利点は、CapsFusionを将来のLMMトレーニングのスケーリング候補として位置づけている。 Large multimodal models demonstrate remarkable generalist ability to perform diverse multimodal tasks in a zero-shot manner. Large-scale web-based image-text pairs contribute fundamentally to this success, but suffer from excessive noise. Recent studies use alternative captions synthesized by captioning models and have achieved notable benchmark performance. However, our experiments reveal significant Scalability Deficiency and World Knowledge Loss issues in models trained with synthetic captions, which have been largely obscured by their initial benchmark success. Upon closer examination, we identify the root cause as the overly-simplified language structure and lack of knowledge details in existing synthetic captions. To provide higher-quality and more scalable multimodal pretraining data, we propose CapsFusion, an advanced framework that leverages large language models to consolidate and refine information from both web-based image-text pairs and synthetic captions. Extensive experiments show that CapsFusion captions exhibit remarkable all-round superiority over existing captions in terms of model performance (e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample efficiency (requiring 11-16 times less computation than baselines), world knowledge depth, and scalability. These effectiveness, efficiency and scalability advantages position CapsFusion as a promising candidate for future scaling of LMM training. | 翻訳日:2023-11-01 14:30:11 公開日:2023-10-31 |
# 予測モデルの凸組合せのマルチタスク学習 Multi-task learning of convex combinations of forecasting models ( http://arxiv.org/abs/2310.20545v1 ) ライセンス: Link先を確認 | Giovanni Felici, Antonio M. Sudoso | (参考訳) 予測の組み合わせは、複数の予測を使用して、1つのより正確な予測を生成する。
近年,最も適切な予測モデルを選択するか,凸結合の重みを学習するために,特徴に基づく予測が採用されている。
本稿では,両課題を同時に解決するマルチタスク学習手法を提案する。
このアプローチは,複合予測の誤差を最小化し,様々な予測手法の重みを学習する回帰枝と,その多様性を重視した予測手法を選択する分類枝という,2つの枝を持つディープニューラルネットワークによって実装されている。
分類タスクのトレーニングラベルを生成するために,与えられた時系列に対して最も適切な手法を識別する最適化駆動手法を提案する。
提案手法は,特徴量に基づく予測における多様性の本質的役割を解明し,予測アンサンブル学習時のモデル組み合わせとモデル選択との相互作用を強調する。
m4コンペティションデータセットを用いた大規模シリーズ実験の結果,本提案手法は最先端手法に比べてポイント予測精度が向上することが示された。 Forecast combination involves using multiple forecasts to create a single, more accurate prediction. Recently, feature-based forecasting has been employed to either select the most appropriate forecasting models or to learn the weights of their convex combination. In this paper, we present a multi-task learning methodology that simultaneously addresses both problems. This approach is implemented through a deep neural network with two branches: the regression branch, which learns the weights of various forecasting methods by minimizing the error of combined forecasts, and the classification branch, which selects forecasting methods with an emphasis on their diversity. To generate training labels for the classification task, we introduce an optimization-driven approach that identifies the most appropriate methods for a given time series. The proposed approach elicits the essential role of diversity in feature-based forecasting and highlights the interplay between model combination and model selection when learning forecasting ensembles. Experimental results on a large set of series from the M4 competition dataset show that our proposal enhances point forecast accuracy compared to state-of-the-art methods. | 翻訳日:2023-11-01 14:29:44 公開日:2023-10-31 |
# Alイオン注入と熱アニールによる窒化アルミニウム中の量子エミッタの作製 Fabrication of quantum emitters in aluminium nitride by Al-ion implantation and thermal annealing ( http://arxiv.org/abs/2310.20540v1 ) ライセンス: Link先を確認 | E. Nieto Hern\'andez, H.B. Ya\u{g}c{\i}, V. Pugliese, P. Apr\`a, J. K. Cannon, S. G. Bishop, J. Hadden, S. Ditalia Tchernij, Olivero, A.J. Bennett, J. Forneris | (参考訳) 広帯域材料中の単一光子エミッタ(SPE)は、室温で動作する単一光子源の開発に魅力的なプラットフォームである。
III族窒化物は、ダイヤモンドの広範な色中心と類似した方法で、材料の大きなバンドギャップ内での深いエネルギーレベルに起因する効率的なSPEを担っていることが以前は示されていた。
最近, 窒化ガリウム (GaN) および窒化アルミニウム (AlN) の欠陥中心からの反結合放出が実証されている。
このようなエミッタは、クリーンルームプロセスとiii-窒化物の相溶性のため特に興味深いが、そのような欠陥の性質や形成条件が完全には理解されていない。
そこで本研究では,AlN膜へのAl注入を熱アニール法および共焦点顕微鏡による測定により検討した。
我々は,エミッタの密度のフラエンス依存性の増加を観察し,最大着床フラエンスでアンサンブルを発生させる。
600 {\deg}Cでの焼鈍により, 最大発散時のSPE生成の最適収率, 低発散時のSPE密度の顕著な低下が観察された。
これらの結果から, 空孔形成機構はエミッタの生成に重要な役割を果たし, SPEの固体における欠陥工学における新たな視点が開かれたことが示唆された。 Single-photon emitters (SPEs) within wide-bandgap materials represent an appealing platform for the development of single-photon sources operating at room temperatures. Group III- nitrides have previously been shown to host efficient SPEs which are attributed to deep energy levels within the large bandgap of the material, in a way that is similar to extensively investigated colour centres in diamond. Anti-bunched emission from defect centres within gallium nitride (GaN) and aluminium nitride (AlN) have been recently demonstrated. While such emitters are particularly interesting due to the compatibility of III-nitrides with cleanroom processes, the nature of such defects and the optimal conditions for forming them are not fully understood. Here, we investigate Al implantation on a commercial AlN epilayer through subsequent steps of thermal annealing and confocal microscopy measurements. We observe a fluence-dependent increase in the density of the emitters, resulting in creation of ensembles at the maximum implantation fluence. Annealing at 600 {\deg}C results in the optimal yield in SPEs formation at the maximum fluence, while a significant reduction in SPE density is observed at lower fluences. These findings suggest that the mechanism of vacancy formation plays a key role in the creation of the emitters, and open new perspectives in the defect engineering of SPEs in solid state. | 翻訳日:2023-11-01 14:29:28 公開日:2023-10-31 |
# 多変量関数データから因果発見のための有向巡回グラフ Directed Cyclic Graph for Causal Discovery from Multivariate Functional Data ( http://arxiv.org/abs/2310.20537v1 ) ライセンス: Link先を確認 | Saptarshi Roy, Raymond K. W. Wong, Yang Ni | (参考訳) 近年,多変量関数データを用いた因果関係の発見が注目されている。
本稿では,多変量関数を含む基礎グラフが周期を持つ場合,因果構造学習のための関数線形構造方程式モデルを提案する。
解釈可能性を高めるため,本モデルは低次元の因果埋め込み空間を包含し,多変量関数データ中のすべての因果情報を低次元部分空間に保存する。
提案モデルは,因果発見文献によく見られる標準的な仮定の下で,因果的に同定可能であることを証明した。
モデルの推定を行うために,適切な事前仕様と後続要約による不確実性定量化を備えた完全ベイズフレームワークを開発した。
本研究では,提案手法が既存の手法よりも優れた性能を,広範なシミュレーションによる因果グラフ推定により示す。
また,脳脳波データセットを用いて提案手法を示す。 Discovering causal relationship using multivariate functional data has received a significant amount of attention very recently. In this article, we introduce a functional linear structural equation model for causal structure learning when the underlying graph involving the multivariate functions may have cycles. To enhance interpretability, our model involves a low-dimensional causal embedded space such that all the relevant causal information in the multivariate functional data is preserved in this lower-dimensional subspace. We prove that the proposed model is causally identifiable under standard assumptions that are often made in the causal discovery literature. To carry out inference of our model, we develop a fully Bayesian framework with suitable prior specifications and uncertainty quantification through posterior summaries. We illustrate the superior performance of our method over existing methods in terms of causal graph estimation through extensive simulation studies. We also demonstrate the proposed method using a brain EEG dataset. | 翻訳日:2023-11-01 14:29:04 公開日:2023-10-31 |
# トランスモン型アナログ量子シミュレータによる小さなホルシュタイン偏光子のスペクトル特性の抽出 Extracting spectral properties of small Holstein polarons from a transmon-based analog quantum simulator ( http://arxiv.org/abs/2310.20525v1 ) ライセンス: Link先を確認 | Vladimir M. Stojanovic | (参考訳) ホルスタインモデル(holstein model)は、ゼロ次元(分散しない)フォノンと単発励起(電子、ホール、励起子)の純粋に局所結合を記述するもので、短距離励起-フォノン相互作用のパラダイムを表している。
ここでは、ホルスタイン模型の強い結合状態に形成される小さなフォノン様準粒子のスペクトル特性を、このモデルのアナログ量子シミュレータから抽出する方法が示されている。
このシミュレータは、回路量子力学の分散状態において動作することを目的としており、静電容量結合型超伝導トランスモン量子ビットとマイクロ波共振器の配列を形成し、後者は弱い外部駆動を受ける。
この系における隣接する量子ビット間の$XY$-型結合の大きさは、これらの量子ビット間のSQUIDループをスレッディングする外部フラックスによって調整できる。
第一種チェビシェフ多項式の動的応答関数の拡大とその繰り返し関係に基づいて、カーネル-ポリノミカル法を用いて、この系の関連する単一粒子運動量-周波数分解スペクトル関数を、幅広いパラメータ値に対して計算する。
スペクトル関数の評価を補完するために、ラムゼイ干渉プロトコルの多体バージョンを用いることで、この動的応答関数を想定されたアナログシミュレータでどのように測定するかを説明している。 The Holstein model, which describes purely local coupling of an itinerant excitation (electron, hole, exciton) with zero-dimensional (dispersionless) phonons, represents the paradigm for short-range excitation-phonon interactions. It is demonstrated here how spectral properties of small Holstein polarons -- heavily phonon-dressed quasiparticles, formed in the strong-coupling regime of the Holstein model -- can be extracted from an analog quantum simulator of this model. This simulator, which is meant to operate in the dispersive regime of circuit quantum electrodynamics, has the form of an array of capacitively coupled superconducting transmon qubits and microwave resonators, the latter being subject to a weak external driving. The magnitude of $XY$-type coupling between adjacent qubits in this system can be tuned through an external flux threading the SQUID loops between those qubits; this translates into an {\em in-situ} flux-tunable hopping amplitude of a fictitious itinerant spinless-fermion excitation, allowing one to access all the relevant physical regimes of the Holstein model. By employing the kernel-polynomial method, based on expanding dynamical response functions in Chebyshev polynomials of the first kind and their recurrence relation, the relevant single-particle momentum-frequency resolved spectral function of this system is computed here for a broad range of parameter values. To complement the evaluation of the spectral function, it is also explained how -- by making use of the many-body version of the Ramsey interference protocol -- this dynamical-response function can be measured in the envisioned analog simulator. | 翻訳日:2023-11-01 14:28:50 公開日:2023-10-31 |
# ニューラルネットワークを用いた冗長性制御型グループ機能(センサ)選択 Group-Feature (Sensor) Selection With Controlled Redundancy Using Neural Networks ( http://arxiv.org/abs/2310.20524v1 ) ライセンス: Link先を確認 | Aytijhya Saha and Nikhil R. Pal | (参考訳) 本稿では,マルチレイヤ・パーセプトロン(mlp)ネットワークに基づく新しい組込み特徴選択法を提案し,選択された特徴やグループ間の冗長性レベルを制御可能なグループ機能やセンサ選択問題に対して一般化する。
さらに,機能選択のためのグループラッソペナルティを一般化し,冗長性の制御を同時に維持しつつ,価値あるグループ特徴を選択するメカニズムを包含した。
提案するアルゴリズムの単調性と収束を,適切な仮定の下で,ペナルティ項の平滑化バージョンで確立する。
いくつかのベンチマークデータセットによる実験結果から,提案手法は,いくつかの最先端手法に対する特徴選択とグループ特徴選択の両方に対して有望な性能を示す。 In this paper, we present a novel embedded feature selection method based on a Multi-layer Perceptron (MLP) network and generalize it for group-feature or sensor selection problems, which can control the level of redundancy among the selected features or groups. Additionally, we have generalized the group lasso penalty for feature selection to encompass a mechanism for selecting valuable group features while simultaneously maintaining a control over redundancy. We establish the monotonicity and convergence of the proposed algorithm, with a smoothed version of the penalty terms, under suitable assumptions. Experimental results on several benchmark datasets demonstrate the promising performance of the proposed methodology for both feature selection and group feature selection over some state-of-the-art methods. | 翻訳日:2023-11-01 14:28:21 公開日:2023-10-31 |
# 量子ドット源による真の真空1光子量子ビットの量子テレポーテーション Quantum teleportation of a genuine vacuum-one-photon qubit generated via a quantum dot source ( http://arxiv.org/abs/2310.20521v1 ) ライセンス: Link先を確認 | Beatrice Polacchi, Francesco Hoch, Giovanni Rodari, Stefano Savo, Gonzalo Carvacho, Nicol\`o Spagnolo, Taira Giordani and Fabio Sciarrino | (参考訳) 量子状態テレポーテーション(quantum state teleportation)は、多数のノードを持つ量子ネットワークへのロードマップにおけるマイルストーンである。
このプロトコルのフォトニックなデモンストレーションは、異なるqubitエンコーディングを用いて実施された。
しかし、フォック基底エンコーディングのデモンストレーションは、線形光学を持つ単一モード上の真空1光子状態のコヒーレントな重ね合わせを作成することができないため、困難である。
このようなエンコーディングを用いた以前の実現は電磁場のアシラリーモードに強く依存しており、絡み合った状態のサブシステムのテレポーテーションしかできなかった。
ここでは、共振励起半導体量子ドットをマイクロキャビティ内でコヒーレント制御することにより、真の真空1光子状態の量子テレポーテーションを可能にする。
私たちのセットアップでは、真空1光子量子ビットをテレポートし、エンコードでエンタングルメントスワップを実行できます。
量子ドット単一光子源の量子情報応用における新たな可能性を明らかにする。 Quantum state teleportation represents a pillar of quantum information and a milestone on the roadmap towards quantum networks with a large number of nodes. Successful photonic demonstrations of this protocol have been carried out employing different qubit encodings. However, demonstrations in the Fock basis encoding are challenging, due to the impossibility of creating a coherent superposition of vacuum-one photon states on a single mode with linear optics. Previous realizations using such an encoding strongly relied on ancillary modes of the electromagnetic field, which only allowed the teleportation of subsystems of entangled states. Here, we enable quantum teleportation of genuine vacuum-one photon states avoiding ancillary modes, by exploiting coherent control of a resonantly excited semiconductor quantum dot in a micro-cavity. Within our setup, we can teleport vacuum-one-photon qubits and perform entanglement swapping in such an encoding. Our results may disclose new potentialities of quantum dot single-photon sources for quantum information applications. | 翻訳日:2023-11-01 14:28:07 公開日:2023-10-31 |
# 量子計算エンコーディングによるグラフニューラルネットワークの拡張 Enhancing Graph Neural Networks with Quantum Computed Encodings ( http://arxiv.org/abs/2310.20519v1 ) ライセンス: Link先を確認 | Slimane Thabet, Romain Fouilland, Mehdi Djellabi, Igor Sokolov, Sachin Kasture, Louis-Paul Henry, Lo\"ic Henriet | (参考訳) グラフデータにはトランスフォーマーがますます使われており、様々なタスクで競合性能を示している。
これらのモデルにグラフ情報を組み込むためには、位置エンコーディングによるノードとエッジの特徴の強化が不可欠である。
本研究では,グラフ変換器に適した位置符号化の新たなファミリーを提案する。
これらのエンコーディングは、量子コンピュータ内の量子ビット間の相互作用にグラフのトポロジーをマッピングすることで生じる、量子システムに固有の長距離相関を利用する。
私たちのインスピレーションは、量子処理ユニットの最近の進歩に起因しています。
これらの量子特徴のいくつかは、理論上、一般的な相対ランダムウォーク確率よりも、あるグラフに対してより表現的であることが証明される。
実験により,量子機能の扱いやすいバージョンを計算することにより,標準ベンチマークや大規模データセットにおいて最先端モデルの性能が向上することを示す。
本研究は,グラフデータ処理における変圧器の性能向上に量子コンピューティング機能を活用する可能性を明らかにする。 Transformers are increasingly employed for graph data, demonstrating competitive performance in diverse tasks. To incorporate graph information into these models, it is essential to enhance node and edge features with positional encodings. In this work, we propose novel families of positional encodings tailored for graph transformers. These encodings leverage the long-range correlations inherent in quantum systems, which arise from mapping the topology of a graph onto interactions between qubits in a quantum computer. Our inspiration stems from the recent advancements in quantum processing units, which offer computational capabilities beyond the reach of classical hardware. We prove that some of these quantum features are theoretically more expressive for certain graphs than the commonly used relative random walk probabilities. Empirically, we show that the performance of state-of-the-art models can be improved on standard benchmarks and large-scale datasets by computing tractable versions of quantum features. Our findings highlight the potential of leveraging quantum computing capabilities to potentially enhance the performance of transformers in handling graph data. | 翻訳日:2023-11-01 14:27:51 公開日:2023-10-31 |
# 統計的保証を伴うパラメトリックフェアネス Parametric Fairness with Statistical Guarantees ( http://arxiv.org/abs/2310.20508v1 ) ライセンス: Link先を確認 | Fran\c{c}ois HU and Philipp Ratz and Arthur Charpentier | (参考訳) アルゴリズムの公平性は、機械学習モデルにおけるバイアスに対する社会的および規制的な懸念によって高まりつつある。
分類や回帰のための等化オッズや人口統計学的パリティのような共通の集団的公平度指標が広く使われ、それらの周りで計算的に有利な後処理法が開発されている。
しかしながら、これらのメトリクスは、しばしばユーザーがドメイン知識を組み込むのを制限します。
伝統的なフェアネス基準を満たしているにもかかわらず、それらは交差するフェアネスに関連する問題を曖昧にし、結果のフェアソリューションに望ましくないグループ内バイアスを複製する。
この狭い視点を避けるため、我々は、予測に分布特性を取り入れ、専門家の知識を公正な解に利用できるように、Demographic Parityの概念を拡張した。
我々は、賃金の実践的な例を通してこの新しい指標の使用を説明し、訓練データや総支出制限といった実践的な課題を効果的に解決し、現実のアプリケーションに堅牢なソリューションを提供するパラメトリック手法を開発した。 Algorithmic fairness has gained prominence due to societal and regulatory concerns about biases in Machine Learning models. Common group fairness metrics like Equalized Odds for classification or Demographic Parity for both classification and regression are widely used and a host of computationally advantageous post-processing methods have been developed around them. However, these metrics often limit users from incorporating domain knowledge. Despite meeting traditional fairness criteria, they can obscure issues related to intersectional fairness and even replicate unwanted intra-group biases in the resulting fair solution. To avoid this narrow perspective, we extend the concept of Demographic Parity to incorporate distributional properties in the predictions, allowing expert knowledge to be used in the fair solution. We illustrate the use of this new metric through a practical example of wages, and develop a parametric method that efficiently addresses practical challenges like limited training data and constraints on total spending, offering a robust solution for real-life applications. | 翻訳日:2023-11-01 14:27:37 公開日:2023-10-31 |
# スライド画像でわかるものって何?
病的画像キャプションのためのサブタイプ誘導マスクトランス What a Whole Slide Image Can Tell? Subtype-guided Masked Transformer for Pathological Image Captioning ( http://arxiv.org/abs/2310.20607v1 ) ライセンス: Link先を確認 | Wenkang Qin, Rui Xu, Peixiang Huang, Xiaomin Wu, Heyu Zhang and Lin Luo | (参考訳) コンピュータ支援型病理診断に欠かせない全スライド画像(WSI)の病的キャプションは,データセットの限界やモデルトレーニングの有効性から研究されることは稀である。
本稿では,wsiをスパースパッチのシーケンスとして扱い,そのシーケンスから全体のキャプション文を生成する,トランスフォーマーに基づく病的キャプションのための,新しいパラダイムのサブタイプ誘導マスクトランスフォーマ(sgmt)を提案する。
SGMTに付随するサブタイプ予測を導入し、トレーニングプロセスをガイドし、キャプション精度を高める。
また, sgmtにおけるシークエンシングパッチの数を, 訓練段階と推論段階でそれぞれ異なる方法でサンプリングする, 病理画像キャプションの大規模制約に取り組むための非対称マスクメカシム法を提案する。
PatchGastricADC22データセットの実験は、我々の手法がトランスフォーマーベースのモデルでタスクに効果的に適応し、従来のRNNベースの手法よりも優れたパフォーマンスを実現することを示した。
私たちのコードは、さらなる研究と開発のために利用可能になる予定です。 Pathological captioning of Whole Slide Images (WSIs), though is essential in computer-aided pathological diagnosis, has rarely been studied due to the limitations in datasets and model training efficacy. In this paper, we propose a new paradigm Subtype-guided Masked Transformer (SGMT) for pathological captioning based on Transformers, which treats a WSI as a sequence of sparse patches and generates an overall caption sentence from the sequence. An accompanying subtype prediction is introduced into SGMT to guide the training process and enhance the captioning accuracy. We also present an Asymmetric Masked Mechansim approach to tackle the large size constraint of pathological image captioning, where the numbers of sequencing patches in SGMT are sampled differently in the training and inferring phases, respectively. Experiments on the PatchGastricADC22 dataset demonstrate that our approach effectively adapts to the task with a transformer-based model and achieves superior performance than traditional RNN-based methods. Our codes are to be made available for further research and development. | 翻訳日:2023-11-01 14:19:59 公開日:2023-10-31 |
# 特徴抽出を用いたサイクロンを用いたCTスキャンからの合成MRI生成 Enhanced Synthetic MRI Generation from CT Scans Using CycleGAN with Feature Extraction ( http://arxiv.org/abs/2310.20604v1 ) ライセンス: Link先を確認 | Saba Nikbakhsh, Lachin Naghashyar, Morteza Valizadeh, Mehdi Chehel Amirani | (参考訳) 放射線治療の分野では, 正確な画像診断と画像登録が最も重要である。
磁気共鳴イメージング(MRI)は、侵襲的でない詳細な画像を提供し、軟質なコントラストに優れており、放射線治療計画に好適である。
しかし、MRIの高コスト、より長い取得時間、特定の患者に対する健康上の配慮が課題となる。
逆にCT(Computerd Tomography)スキャンは、高速で安価なイメージングソリューションを提供する。
これらのモダリティを橋渡しし,マルチモーダルアライメント問題に対処するために,合成mri画像を用いたモノモーダル登録の強化手法を提案する。
そこで本研究では,CTスキャンからCycleGANと特徴抽出器を利用して合成MRI画像を生成する手法を提案する。
本手法は,Cycle-Consistent Adversarial Networksの基礎研究を基盤として,関連文献の進歩を取り入れることで,有望な成果を示し,いくつかの最先端手法に勝ることを示す。
提案手法の有効性は,複数の比較指標を用いて検証した。 In the field of radiotherapy, accurate imaging and image registration are of utmost importance for precise treatment planning. Magnetic Resonance Imaging (MRI) offers detailed imaging without being invasive and excels in soft-tissue contrast, making it a preferred modality for radiotherapy planning. However, the high cost of MRI, longer acquisition time, and certain health considerations for patients pose challenges. Conversely, Computed Tomography (CT) scans offer a quicker and less expensive imaging solution. To bridge these modalities and address multimodal alignment challenges, we introduce an approach for enhanced monomodal registration using synthetic MRI images. Utilizing unpaired data, this paper proposes a novel method to produce these synthetic MRI images from CT scans, leveraging CycleGANs and feature extractors. By building upon the foundational work on Cycle-Consistent Adversarial Networks and incorporating advancements from related literature, our methodology shows promising results, outperforming several state-of-the-art methods. The efficacy of our approach is validated by multiple comparison metrics. | 翻訳日:2023-11-01 14:19:22 公開日:2023-10-31 |
# リカレントニューラルネットワークにおける機能的接続モジュール:機能、起源、ダイナミクス Functional connectivity modules in recurrent neural networks: function, origin and dynamics ( http://arxiv.org/abs/2310.20601v1 ) ライセンス: Link先を確認 | Jacob Tanner, Sina Mansour L., Ludovico Coletta, Alessandro Gozzi, Richard F. Betzel | (参考訳) 種間および組織レベルでの神経同期のユビキタスな現象を理解することは、脳機能のデコードに不可欠である。
その頻度にもかかわらず、相関に基づくネットワークにおけるモジュラー構造の特定の機能的役割、起源、動的含意はあいまいである。
本研究は,システム神経科学タスクで訓練された繰り返しニューラルネットワークを用いて,相関ネットワークにおけるモジュラリティの重要な特性について検討する。
モジュールは特殊情報処理に寄与する機能的コヒーレントなユニットであることを示す。
加群は入力層から繰り返し層への射影の符号と重みの非対称性から自然に形成されることを示す。
さらに,モジュールはシステム動作やダイナミクスの制御において,同様の役割と接続を定義する。
総じて,機能接続モジュールの機能,形成,運用上の意義を明らかにし,脳機能,発達,動力学に関するさらなる研究のための基礎研究を行い,皮質機能に関する知見を提供する。 Understanding the ubiquitous phenomenon of neural synchronization across species and organizational levels is crucial for decoding brain function. Despite its prevalence, the specific functional role, origin, and dynamical implication of modular structures in correlation-based networks remains ambiguous. Using recurrent neural networks trained on systems neuroscience tasks, this study investigates these important characteristics of modularity in correlation networks. We demonstrate that modules are functionally coherent units that contribute to specialized information processing. We show that modules form spontaneously from asymmetries in the sign and weight of projections from the input layer to the recurrent layer. Moreover, we show that modules define connections with similar roles in governing system behavior and dynamics. Collectively, our findings clarify the function, formation, and operational significance of functional connectivity modules, offering insights into cortical function and laying the groundwork for further studies on brain function, development, and dynamics. | 翻訳日:2023-11-01 14:19:02 公開日:2023-10-31 |
# フィードバックフィードアライメントを用いた脳様フレキシブル視覚推定 Brain-like Flexible Visual Inference by Harnessing Feedback-Feedforward Alignment ( http://arxiv.org/abs/2310.20599v1 ) ライセンス: Link先を確認 | Tahereh Toosi and Elias B. Issa | (参考訳) 自然な視覚では、フィードバック接続は、目立たない、またはうるさいボトムアップの感覚情報を理解したり、イマジネーションのような純粋なトップダウンプロセスを仲介するなど、多彩な視覚推論機能をサポートする。
しかし、フィードバック経路がこれらの能力を柔軟に生み出すことを学習するメカニズムは明確ではない。
フィードフォワードとフィードバック経路のアライメントによってトップダウン効果が出現し,それぞれが目的を最適化する。
この協調最適化を実現するために,フィードバックとフィードフォワード経路を相互信頼割当計算グラフとして活用し,アライメントを可能にする学習アルゴリズムであるFeedback-Feedforward Alignment (FFA)を導入する。
本研究では,広く使用されているMNISTおよびCIFAR10データセットに対する分類と再構成タスクの協調最適化におけるFFAの有効性を示す。
特に、ffaのアライメント機構は、幻覚、咬合解消、幻覚、想像など、創発的な視覚推論機能との接続をフィードバックする。
さらに、FFAは、実装における従来のバックプロパゲーション(BP)手法と比較して、生物の楽観性を提供する。
ffaは、クレジット割り当ての計算グラフを目標駆動フィードバック経路に再提案することにより、bpで遭遇する重み輸送問題を軽減し、学習アルゴリズムの生体適合性を高める。
本研究は、視覚野のフィードバック接続がフレキシブル視覚機能をサポートするメカニズムの実証として、FFAを有望な概念実証として提示する。
この研究は、知覚現象に基づく視覚的推論の幅広い分野にも貢献し、より生物学的にインスピレーションを受けた学習アルゴリズムの開発に影響を及ぼす。 In natural vision, feedback connections support versatile visual inference capabilities such as making sense of the occluded or noisy bottom-up sensory information or mediating pure top-down processes such as imagination. However, the mechanisms by which the feedback pathway learns to give rise to these capabilities flexibly are not clear. We propose that top-down effects emerge through alignment between feedforward and feedback pathways, each optimizing its own objectives. To achieve this co-optimization, we introduce Feedback-Feedforward Alignment (FFA), a learning algorithm that leverages feedback and feedforward pathways as mutual credit assignment computational graphs, enabling alignment. In our study, we demonstrate the effectiveness of FFA in co-optimizing classification and reconstruction tasks on widely used MNIST and CIFAR10 datasets. Notably, the alignment mechanism in FFA endows feedback connections with emergent visual inference functions, including denoising, resolving occlusions, hallucination, and imagination. Moreover, FFA offers bio-plausibility compared to traditional backpropagation (BP) methods in implementation. By repurposing the computational graph of credit assignment into a goal-driven feedback pathway, FFA alleviates weight transport problems encountered in BP, enhancing the bio-plausibility of the learning algorithm. Our study presents FFA as a promising proof-of-concept for the mechanisms underlying how feedback connections in the visual cortex support flexible visual functions. This work also contributes to the broader field of visual inference underlying perceptual phenomena and has implications for developing more biologically inspired learning algorithms. | 翻訳日:2023-11-01 14:18:47 公開日:2023-10-31 |
# 切り替えコストによるオンライン変換:ロバストと学習強化アルゴリズム Online Conversion with Switching Costs: Robust and Learning-Augmented Algorithms ( http://arxiv.org/abs/2310.20598v1 ) ライセンス: Link先を確認 | Adam Lechowicz, Nicolas Christianson, Bo Sun, Noman Bashir, Mohammad Hajiesmaili, Adam Wierman, Prashant Shenoy | (参考訳) エネルギーと持続可能性の交点における新興問題を捉えるオンライン問題の一群である,スイッチングコストによるオンライン変換の導入と研究を行う。
この問題では、オンラインプレイヤーが一定時間内に資産の分権株をt$で購入(代替的に売る)しようとする。
各タイムステップにおいて、コスト関数(代替価格関数)が明らかにされ、プレイヤーは変換する資産の量を不当に決定しなければならない。
プレイヤーはまた、決定が連続する時間ステップ、すなわち購入量を増加または減少させるときに、スイッチングコストを発生させる。
本稿では,この問題の最小化と最大化の両面での競合性(ロバスト)しきい値に基づくアルゴリズムを導入し,決定論的オンラインアルゴリズムの最適性を示す。
次に,信頼できないブラックボックスのアドバイス(機械学習モデルからの予測など)を活用して,最悪の競合保証を犠牲にすることなく,平均ケース性能を大幅に向上させる学習型アルゴリズムを提案する。
最後に,提案手法をカーボンアウェア型ev充電ケーススタディを用いて実証的に評価し,本アルゴリズムがこの問題に対するベースライン法を大幅に改善することを示した。 We introduce and study online conversion with switching costs, a family of online problems that capture emerging problems at the intersection of energy and sustainability. In this problem, an online player attempts to purchase (alternatively, sell) fractional shares of an asset during a fixed time horizon with length $T$. At each time step, a cost function (alternatively, price function) is revealed, and the player must irrevocably decide an amount of asset to convert. The player also incurs a switching cost whenever their decision changes in consecutive time steps, i.e., when they increase or decrease their purchasing amount. We introduce competitive (robust) threshold-based algorithms for both the minimization and maximization variants of this problem, and show they are optimal among deterministic online algorithms. We then propose learning-augmented algorithms that take advantage of untrusted black-box advice (such as predictions from a machine learning model) to achieve significantly better average-case performance without sacrificing worst-case competitive guarantees. Finally, we empirically evaluate our proposed algorithms using a carbon-aware EV charging case study, showing that our algorithms substantially improve on baseline methods for this problem. | 翻訳日:2023-11-01 14:18:17 公開日:2023-10-31 |
# FLODCAST:マルチモーダルリカレントアーキテクチャによるフローと深さ予測 FLODCAST: Flow and Depth Forecasting via Multimodal Recurrent Architectures ( http://arxiv.org/abs/2310.20593v1 ) ライセンス: Link先を確認 | Andrea Ciamarra, Federico Becattini, Lorenzo Seidenari, Alberto Del Bimbo | (参考訳) 物体の運動と空間的位置の予測は、特に自律運転のような安全クリティカルな環境では、基本的に重要である。
本研究では,光学的流れと奥行きという相補的情報を含む2つの異なるモダリティを予測し,この問題に対処する。
この目的のために,FLODCASTはマルチタスクの繰り返しアーキテクチャを利用して,両方のモーダルを同時に予測するフローおよび深さ予測モデルを提案する。
フローと深さマップを併用したトレーニングの重要性を強調し,モデルが他のモダリティを知らされると,両方のタスクが改善されることを示す。
提案モデルをトレーニングし,今後,いくつかの時間ステップの予測を行う。
これにより、より正確な予測が可能になり、将来の時間軸に対して自己回帰的にアウトプットを産出するモデルの能力が保たれる。
筆者らは,Cityscapesの挑戦的なデータセットを用いて,フローおよび深さ予測の両方のアート結果の状態を検証した。
また, 生成したフローの高品質化により, セグメンテーション予測の下流タスクに対する利点を報告し, フローベースのマスクウォーピングフレームワークに予測を注入する。 Forecasting motion and spatial positions of objects is of fundamental importance, especially in safety-critical settings such as autonomous driving. In this work, we address the issue by forecasting two different modalities that carry complementary information, namely optical flow and depth. To this end we propose FLODCAST a flow and depth forecasting model that leverages a multitask recurrent architecture, trained to jointly forecast both modalities at once. We stress the importance of training using flows and depth maps together, demonstrating that both tasks improve when the model is informed of the other modality. We train the proposed model to also perform predictions for several timesteps in the future. This provides better supervision and leads to more precise predictions, retaining the capability of the model to yield outputs autoregressively for any future time horizon. We test our model on the challenging Cityscapes dataset, obtaining state of the art results for both flow and depth forecasting. Thanks to the high quality of the generated flows, we also report benefits on the downstream task of segmentation forecasting, injecting our predictions in a flow-based mask-warping framework. | 翻訳日:2023-11-01 14:17:56 公開日:2023-10-31 |
# 暗黙的構造構築による認知的インスパイアデータ効率言語モデルの性能向上 Increasing The Performance of Cognitively Inspired Data-Efficient Language Models via Implicit Structure Building ( http://arxiv.org/abs/2310.20589v1 ) ライセンス: Link先を確認 | Omar Momen, David Arps, Laura Kallmeyer | (参考訳) 本稿では,BabyLM Challenge 2023におけるデータ効率言語モデル(LM)事前学習の課題について述べる(Warstadt et al., 2023)。
階層型文構造に関する教師なし予測をモデルアーキテクチャに組み込んだトランスフォーマーベースのマスク付き言語モデルを訓練する。
具体的には, structformer architecture (shen et al., 2021) とその変種を用いた。
構造体フォーマーモデルは、限られた事前学習データに基づく教師なし構文インダクションでうまく動作し、バニラトランスフォーマアーキテクチャ(shen et al., 2021)よりも性能が向上することが示されている。
BabyLMチャレンジによって提供される39のタスクに対する我々のモデルの評価は、すべてのタスクにおいて共有タスクオーガナイザが提供したRoBERTaベースラインモデルに一貫して勝るものの、特定のタスクにおいてアーキテクチャに階層的バイアスを組み込むモデルの有望な改善を示す。 In this paper, we describe our submission to the BabyLM Challenge 2023 shared task on data-efficient language model (LM) pretraining (Warstadt et al., 2023). We train transformer-based masked language models that incorporate unsupervised predictions about hierarchical sentence structure into the model architecture. Concretely, we use the Structformer architecture (Shen et al., 2021) and variants thereof. StructFormer models have been shown to perform well on unsupervised syntactic induction based on limited pretraining data, and to yield performance improvements over a vanilla transformer architecture (Shen et al., 2021). Evaluation of our models on 39 tasks provided by the BabyLM challenge shows promising improvements of models that integrate a hierarchical bias into the architecture at some particular tasks, even though they fail to consistently outperform the RoBERTa baseline model provided by the shared task organizers on all tasks. | 翻訳日:2023-11-01 14:17:33 公開日:2023-10-31 |
# オフライン強化学習における事前学習言語モデルの活用 Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning ( http://arxiv.org/abs/2310.20587v1 ) ライセンス: Link先を確認 | Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu | (参考訳) オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
現実のシナリオでは、データ収集は高価でリスクが高いため、ドメイン内のデータが制限された場合、オフラインRLは特に困難になる。
近年のLLM(Large Language Models)とその数発の学習技術の進歩を踏まえ、オフラインRLに事前学習言語モデル(LM)を効果的に活用するための決定変換器に基づく一般的なフレームワークである$\textbf{La}$tion Control(\textbf{LaMo}$tion Control)(\textbf{LaMo}$)について紹介する。
Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages.
実験結果から、sparse-reward タスクでは $\textbf{LaMo}$ が最先端のパフォーマンスを達成し、高密度リワードタスクでは値ベースオフライン RL メソッドと決定変換器とのギャップを埋めることを示す。
特に本手法は,データサンプルが限られたシナリオにおいて優れた性能を示す。
プロジェクトのwebサイトはhttps://lamo2023.github.ioです。 Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces $\textbf{La}$nguage Models for $\textbf{Mo}$tion Control ($\textbf{LaMo}$), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate $\textbf{LaMo}$ achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples. Our project website is https://lamo2023.github.io | 翻訳日:2023-11-01 14:17:17 公開日:2023-10-31 |
# ガウス過程を正しく行う確率的勾配降下 Stochastic Gradient Descent for Gaussian Processes Done Right ( http://arxiv.org/abs/2310.20581v1 ) ライセンス: Link先を確認 | Jihao Andreas Lin, Shreyas Padhy, Javier Antor\'an, Austin Tripp, Alexander Terenin, Csaba Szepesv\'ari, Jos\'e Miguel Hern\'andez-Lobato, David Janz | (参考訳) ガウス過程の回帰に伴う最適化問題を二乗損失を用いて検討する。
この問題に対する最も一般的なアプローチは、共役勾配降下のような厳密な解法を直接、あるいは問題の減次バージョンに適用することである。
近年, 深層学習の成功によって, 確率的勾配降下が代替手段として注目されている。
本稿では、最適化とカーネルコミュニティからの特定の洞察を用いて、right$\unicode{x2014}$byを行う場合、このアプローチは非常に効果的であることを示す。
そこで我々は,任意のディープラーニングフレームワークを用いて,数行のコードで実装可能な,確率的双対勾配勾配アルゴリズムを導入する。
我々は, 代替案に対する優位性をアブレーション研究で示し, 新たな手法が高い競争力を持つことを示すことにより, 設計決定を述べる。
標準回帰ベンチマークとベイズ最適化タスクの評価により,事前条件付き共役勾配,変分ガウス過程近似,ガウス過程に対する前バージョンの確率的勾配降下とは別個のアプローチが確立された。
分子結合親和性予測タスクでは、最先端グラフニューラルネットワークの性能の観点からガウス過程の回帰を同等に配置する。 We study the optimisation problem associated with Gaussian process regression using squared loss. The most common approach to this problem is to apply an exact solver, such as conjugate gradient descent, either directly, or to a reduced-order version of the problem. Recently, driven by successes in deep learning, stochastic gradient descent has gained traction as an alternative. In this paper, we show that when done right$\unicode{x2014}$by which we mean using specific insights from the optimisation and kernel communities$\unicode{x2014}$this approach is highly effective. We thus introduce a particular stochastic dual gradient descent algorithm, that may be implemented with a few lines of code using any deep learning framework. We explain our design decisions by illustrating their advantage against alternatives with ablation studies and show that the new method is highly competitive. Our evaluations on standard regression benchmarks and a Bayesian optimisation task set our approach apart from preconditioned conjugate gradients, variational Gaussian process approximations, and a previous version of stochastic gradient descent for Gaussian processes. On a molecular binding affinity prediction task, our method places Gaussian process regression on par in terms of performance with state-of-the-art graph neural networks. | 翻訳日:2023-11-01 14:16:46 公開日:2023-10-31 |
# 初期化問題: 過パラメータニューラルネットワークのプライバシ利用分析 Initialization Matters: Privacy-Utility Analysis of Overparameterized Neural Networks ( http://arxiv.org/abs/2310.20579v1 ) ライセンス: Link先を確認 | Jiayuan Ye, Zhenyu Zhu, Fanghui Liu, Reza Shokri, Volkan Cevher | (参考訳) ランダム化機械学習アルゴリズムにおけるモデルの過度パラメータ化がトレーニングデータの情報漏洩に与える影響を解析的に検討する。
具体的には、最悪の場合のデータセット上のモデル分布間のklのばらつきに対するプライバシバウンドを証明し、完全接続されたニューラルネットワークの初期化、幅、深さへの依存を探求する。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
特に,線形化ネットワークの特殊設定については,二乗勾配ノルム(従ってプライバシ損失のエスカレーション)が初期化分布の層ごとの分散と直接関係していることを示す。
この分析により、プライバシ境界は特定の初期化(LeCunとXavier)で深度を増すとともに改善され、他の初期化(HeとNTK)では深度を増す。
私たちの研究は、選択した初期化分布に依存するプライバシーと深さの間の複雑な相互作用を明らかにします。
我々はさらに,固定klプライバシ予算の下での過度な経験的リスク限界を証明し,プライバシユーティリティのトレードオフと深さとの相互作用が初期化によって同様に影響を受けることを示す。 We analytically investigate how over-parameterization of models in randomized machine learning algorithms impacts the information leakage about their training data. Specifically, we prove a privacy bound for the KL divergence between model distributions on worst-case neighboring datasets, and explore its dependence on the initialization, width, and depth of fully connected neural networks. We find that this KL privacy bound is largely determined by the expected squared gradient norm relative to model parameters during training. Notably, for the special setting of linearized network, our analysis indicates that the squared gradient norm (and therefore the escalation of privacy loss) is tied directly to the per-layer variance of the initialization distribution. By using this analysis, we demonstrate that privacy bound improves with increasing depth under certain initializations (LeCun and Xavier), while degrades with increasing depth under other initializations (He and NTK). Our work reveals a complex interplay between privacy and depth that depends on the chosen initialization distribution. We further prove excess empirical risk bounds under a fixed KL privacy budget, and show that the interplay between privacy utility trade-off and depth is similarly affected by the initialization. | 翻訳日:2023-11-01 14:16:25 公開日:2023-10-31 |
# 離散可変アンシラを用いたボソニッククビットの耐故障運転 Fault-Tolerant Operation of Bosonic Qubits with Discrete-Variable Ancillae ( http://arxiv.org/abs/2310.20578v1 ) ライセンス: Link先を確認 | Qian Xu, Pei Zeng, Daohong Xu and Liang Jiang | (参考訳) ボソニック量子ビットを用いたフォールトトレラント量子計算は、しばしばノイズの多い離散変数アンシラを使用する必要がある。
本研究では,このようなハイブリッドシステムのための包括的かつ実用的なフォールトトレランスフレームワークを構築し,ボソニック量子誤差補正(qec)と高度な量子制御技術を組み合わせたフォールトトレランスプロトコルと合成する。
我々は,経路非依存量子制御(gpi)の一般化した変種を用いて,アシラ支援ボソニック演算を活用し,誤り訂正型ガジェットの基本構成ブロックを導入する。
これらのビルディングブロックを用いて,4本足の猫キュービットに対して,単一光子損失と任意のアンシラ障害を許容する,誤り訂正型ガジェットの普遍セットを構築する。
特に, ボソニックモードとアンシラ間の分散結合, およびボソニックモード間のビームスプリッタ結合は, 強度と高精度で実験的に実証されている。
さらに、誤り訂正ボソニックキュービットは、単一ボソニックモードと3レベルアンシラのみで構成され、完全なフォールトトレラント設定におけるボソニックQECのハードウェア効率を特徴とする。
回路QEDプラットフォームにおける実験パラメータを用いて,提案手法の有効性を数値的に示す。
最後に,4本脚のキャットキュービットをビームスプリッター結合のみを用いた外部キュービットコードに結合することにより,フォールトトレラント量子コンピューティングのためのハードウェア効率の高いアーキテクチャを提案する。
我々の推定では、既存のハードウェアで全体のノイズ閾値に達することができる。
これらのフォールトトレラントなスキームは、4本脚の猫量子ビットに適用可能な範囲を超えて拡張され、他の回転対称符号にも適用可能である。 Fault-tolerant quantum computation with bosonic qubits often necessitates the use of noisy discrete-variable ancillae. In this work, we establish a comprehensive and practical fault-tolerance framework for such a hybrid system and synthesize it with fault-tolerant protocols by combining bosonic quantum error correction (QEC) and advanced quantum control techniques. We introduce essential building blocks of error-corrected gadgets by leveraging ancilla-assisted bosonic operations using a generalized variant of path-independent quantum control (GPI). Using these building blocks, we construct a universal set of error-corrected gadgets that tolerate a single photon loss and an arbitrary ancilla fault for four-legged cat qubits. Notably, our construction only requires dispersive coupling between bosonic modes and ancillae, as well as beam-splitter coupling between bosonic modes, both of which have been experimentally demonstrated with strong strengths and high accuracy. Moreover, each error-corrected bosonic qubit is only comprised of a single bosonic mode and a three-level ancilla, featuring the hardware efficiency of bosonic QEC in the full fault-tolerant setting. We numerically demonstrate the feasibility of our schemes using current experimental parameters in the circuit-QED platform. Finally, we present a hardware-efficient architecture for fault-tolerant quantum computing by concatenating the four-legged cat qubits with an outer qubit code utilizing only beam-splitter couplings. Our estimates suggest that the overall noise threshold can be reached using existing hardware. These developed fault-tolerant schemes extend beyond their applicability to four-legged cat qubits and can be adapted for other rotation-symmetrical codes, offering a promising avenue toward scalable and robust quantum computation with bosonic qubits. | 翻訳日:2023-11-01 14:16:01 公開日:2023-10-31 |
# 確率勾配最適化のための情報理論信頼領域 Information-Theoretic Trust Regions for Stochastic Gradient-Based Optimization ( http://arxiv.org/abs/2310.20574v1 ) ライセンス: Link先を確認 | Philipp Dahlinger, Philipp Becker, Maximilian H\"uttenrauch, Gerhard Neumann | (参考訳) 確率勾配に基づく最適化はニューラルネットワークの最適化に不可欠である。
一般的なアプローチでは、勾配の再スケーリングによってステップサイズと方向をヒューリスティックに適応するが、オプティマイザを改善するためのより原則的なアプローチでは、2次情報が必要である。
このような方法は、目標のヘッシアンを用いて勾配をプリコンディショニングする。
しかし、ヘシアンの計算は通常高価であり、確率勾配設定における二階情報の利用は非自明である。
我々は,情報理論的信頼領域最適化(arturo)を用いて,不確定な2次情報による更新を改善することを提案する。
ネットワークパラメータをガウス分布としてモデル化し,Kullback-Leibler分散に基づく信頼領域を用いて,パラメータの曲率と不確実性を考慮した有界ステップを用いる。
各更新の前に、最適なステップサイズで信頼領域の問題を解決し、より安定して高速な最適化プロセスを実現する。
簡単な再帰的最小二乗法を用いて確率勾配からヘッセンの対角要素を近似し, 1次情報のみを用いて予測されたヘッセンのモデルを構築する。
arTuROは適応モーメントに基づく最適化の高速収束とSGDの一般化能力を組み合わせたものであることを示す。 Stochastic gradient-based optimization is crucial to optimize neural networks. While popular approaches heuristically adapt the step size and direction by rescaling gradients, a more principled approach to improve optimizers requires second-order information. Such methods precondition the gradient using the objective's Hessian. Yet, computing the Hessian is usually expensive and effectively using second-order information in the stochastic gradient setting is non-trivial. We propose using Information-Theoretic Trust Region Optimization (arTuRO) for improved updates with uncertain second-order information. By modeling the network parameters as a Gaussian distribution and using a Kullback-Leibler divergence-based trust region, our approach takes bounded steps accounting for the objective's curvature and uncertainty in the parameters. Before each update, it solves the trust region problem for an optimal step size, resulting in a more stable and faster optimization process. We approximate the diagonal elements of the Hessian from stochastic gradients using a simple recursive least squares approach, constructing a model of the expected Hessian over time using only first-order information. We show that arTuRO combines the fast convergence of adaptive moment-based optimization with the generalization capabilities of SGD. | 翻訳日:2023-11-01 14:15:29 公開日:2023-10-31 |
# 相関パターンに基づくニューラルネットワークによる連続変数絡み検出 Correlation-pattern-based Continuous-variable Entanglement Detection through Neural Networks ( http://arxiv.org/abs/2310.20570v1 ) ライセンス: Link先を確認 | Xiaoting Gao, Mathieu Isoard, Fengxiao Sun, Carlos E. Lopetegui, Yu Xiang, Valentina Parigi, Qiongyi He, and Mattia Walschaers | (参考訳) 連続変数の非ガウス状態における絡み合いは多くの量子情報タスクにおいて不定の利点をもたらす。
しかし、そのような状態の情報量は指数関数的に増加し、完全な特徴付けが不可能になる。
本稿では,相関パターンを用いてホモダイン検出による連続変数の絡み合いを効果的に検出するニューラルネットワークを開発した。
このアルゴリズムは、トレーニングに使用される状態のランク付けに最近定義された恒星階層を用い、任意の種類のガウス状態だけでなく、光子減算状態を含む実験的に達成可能な非ガウス状態のクラスでも動作する。
同じ限られたデータ量で、本手法は、最大類似トモグラフィによる絡み合いを検出する通常の方法よりも高い精度を提供する。
さらに、ニューラルネットワークの効果を可視化するために、そのパターンに次元縮小アルゴリズムを用いる。
これは、ニューラルネットワーク処理後に絡み合った状態と他の状態の間に明確な境界が現れることを示している。
さらに、これらのテクニックにより、異なる絡み合いの目撃者を比較し、彼らの働きを理解することができます。
本研究は, 量子情報処理におけるニューラルネットワークのエキサイティングなポテンシャルを確認するため, 状態の完全なトモグラフィーに頼ることなく, 連続可変量子相関を実験的に検出する手法を提案する。 Entanglement in continuous-variable non-Gaussian states provides irreplaceable advantages in many quantum information tasks. However, the sheer amount of information in such states grows exponentially and makes a full characterization impossible. Here, we develop a neural network that allows us to use correlation patterns to effectively detect continuous-variable entanglement through homodyne detection. Using a recently defined stellar hierarchy to rank the states used for training, our algorithm works not only on any kind of Gaussian state but also on a whole class of experimentally achievable non-Gaussian states, including photon-subtracted states. With the same limited amount of data, our method provides higher accuracy than usual methods to detect entanglement based on maximum-likelihood tomography. Moreover, in order to visualize the effect of the neural network, we employ a dimension reduction algorithm on the patterns. This shows that a clear boundary appears between the entangled states and others after the neural network processing. In addition, these techniques allow us to compare different entanglement witnesses and understand their working. Our findings provide a new approach for experimental detection of continuous-variable quantum correlations without resorting to a full tomography of the state and confirm the exciting potential of neural networks in quantum information processing. | 翻訳日:2023-11-01 14:15:09 公開日:2023-10-31 |
# 物理系同定における多段階予測のためのワンショットバックプロパゲーション One-shot backpropagation for multi-step prediction in physics-based system identification ( http://arxiv.org/abs/2310.20567v1 ) ライセンス: Link先を確認 | Cesare Donati, Martina Mammarella, Fabrizio Dabbene, Carlo Novara, Constantino Lagoa | (参考訳) 本稿では,それらの物理的性質を保ちつつ,多段階予測の精度を保ちながら,相互接続可能なシステム同定のための新しい汎用フレームワークを提案する。
バックプロパゲーションに基づく多段階損失関数の勾配計算のための解析的および再帰的アルゴリズムを導入し、学習アルゴリズムに直接物理的および構造的洞察を与える。
事例研究として,宇宙デブリの慣性行列を状態観測から求め,その慣性行列を推定する手法を検証した。 The aim of this paper is to present a novel general framework for the identification of possibly interconnected systems, while preserving their physical properties and providing accuracy in multi-step prediction. An analytical and recursive algorithm for the gradient computation of the multi-step loss function based on backpropagation is introduced, providing physical and structural insight directly into the learning algorithm. As a case study, the proposed approach is tested for estimating the inertia matrix of a space debris starting from state observations. | 翻訳日:2023-11-01 14:14:49 公開日:2023-10-31 |
# StairNet:人間-ロボットロコモーションのためのステア認識 StairNet: Visual Recognition of Stairs for Human-Robot Locomotion ( http://arxiv.org/abs/2310.20666v1 ) ライセンス: Link先を確認 | Andrew Garrett Kurbis, Dmytro Kuzmenko, Bogdan Ivanyuk-Skulskiy, Alex Mihailidis, Brokoslaw Laschowski | (参考訳) 義足と外骨格を持つ人間ロボットは、特に階段のような複雑な地形を歩き回っている。
エゴセントリックビジョンは、物理的相互作用の前に歩行環境を検出するユニークな可能性を持ち、階段から階段への遷移を改善することができる。
これにより、私たちはStairNetイニシアチブを立ち上げ、リアルタイムで推論するための軽量で効率的なニューラルネットワークに重点を置いて、階段の視覚的センシングと認識のための新しいディープラーニングモデルの開発を支援しました。
本研究では,515,000以上の手動ラベル付き画像を用いた大規模データセットの開発の概要と,新たなデータセットを用いた異なるディープラーニングモデル(2D,3D CNN,ハイブリッドCNN,LSTM,ViTネットワークなど)とトレーニング手法(時間的データによる教師あり学習,ラベルなし画像による半教師あり学習など)の開発について概説する。
我々は常に高い分類精度(98.8%まで)を達成し、モデル精度とサイズの間のトレードオフを提供した。
gpuとnpuアクセラレータを使ってモバイルデバイスにデプロイすると、私たちのディープラーニングモデルは推論を2.8ミリ秒まで高速化しました。
しかし、組み込みハードウェアの制限により推論速度は1.5秒遅くなり、人間中心の設計と性能のトレードオフが生じた。
全体として、stairnetは、外骨格と義肢制御の応用により、人間-ロボットの歩行のための新しい視覚知覚システムを開発し、研究するための効果的なプラットフォームであることを示した。 Human-robot walking with prosthetic legs and exoskeletons, especially over complex terrains such as stairs, remains a significant challenge. Egocentric vision has the unique potential to detect the walking environment prior to physical interactions, which can improve transitions to and from stairs. This motivated us to create the StairNet initiative to support the development of new deep learning models for visual sensing and recognition of stairs, with an emphasis on lightweight and efficient neural networks for onboard real-time inference. In this study, we present an overview of the development of our large-scale dataset with over 515,000 manually labeled images, as well as our development of different deep learning models (e.g., 2D and 3D CNN, hybrid CNN and LSTM, and ViT networks) and training methods (e.g., supervised learning with temporal data and semi-supervised learning with unlabeled images) using our new dataset. We consistently achieved high classification accuracy (i.e., up to 98.8%) with different designs, offering trade-offs between model accuracy and size. When deployed on mobile devices with GPU and NPU accelerators, our deep learning models achieved inference speeds up to 2.8 ms. We also deployed our models on custom-designed CPU-powered smart glasses. However, limitations in the embedded hardware yielded slower inference speeds of 1.5 seconds, presenting a trade-off between human-centered design and performance. Overall, we showed that StairNet can be an effective platform to develop and study new visual perception systems for human-robot locomotion with applications in exoskeleton and prosthetic leg control. | 翻訳日:2023-11-01 14:07:10 公開日:2023-10-31 |
# Dynamic Batch Norm Statistics Update for Natural Robustness (英語) Dynamic Batch Norm Statistics Update for Natural Robustness ( http://arxiv.org/abs/2310.20649v1 ) ライセンス: Link先を確認 | Shahbaz Rezaei, Mohammad Sadegh Norouzzadeh | (参考訳) 自然のクリーンなサンプルで訓練されたdnnは、ノイズやぼやけた画像など、腐敗したサンプルでは性能が悪いことが示されている。
共通の腐敗に対するdnnの堅牢性を改善するために、様々なデータ拡張手法が最近提案されている。
その成功にもかかわらず、計算コストの高いトレーニングが必要であり、市販のトレーニングモデルには適用できない。
近年,BatchNorm (BN) 統計の更新により,単一腐敗における既成モデルの精度が著しく向上することが示されている。
しかし、腐敗のタイプが不明な場合に推論時にその考えを採用すると、この方法の有効性が低下する。
本稿では,画像領域における課題である汚職タイプを検出するために,フーリエ領域を利用する。
そこで本研究では,市販のトレーニングモデルの汚損精度を向上させるための,汚損検出モデルとBN統計更新からなる統一フレームワークを提案する。
さまざまなモデルとデータセットでフレームワークをベンチマークします。
その結果,CIFAR10-CとImageNet-Cでは約8%,精度は4%向上した。
さらに,本フレームワークは,augmixやdeepaugといった最先端のロバストモデルの精度をさらに向上させることができる。 DNNs trained on natural clean samples have been shown to perform poorly on corrupted samples, such as noisy or blurry images. Various data augmentation methods have been recently proposed to improve DNN's robustness against common corruptions. Despite their success, they require computationally expensive training and cannot be applied to off-the-shelf trained models. Recently, it has been shown that updating BatchNorm (BN) statistics of an off-the-shelf model on a single corruption improves its accuracy on that corruption significantly. However, adopting the idea at inference time when the type of corruption is unknown and changing decreases the effectiveness of this method. In this paper, we harness the Fourier domain to detect the corruption type, a challenging task in the image domain. We propose a unified framework consisting of a corruption-detection model and BN statistics update that improves the corruption accuracy of any off-the-shelf trained model. We benchmark our framework on different models and datasets. Our results demonstrate about 8% and 4% accuracy improvement on CIFAR10-C and ImageNet-C, respectively. Furthermore, our framework can further improve the accuracy of state-of-the-art robust models, such as AugMix and DeepAug. | 翻訳日:2023-11-01 14:06:40 公開日:2023-10-31 |
# 高輝度・高識別性・サブGHzスペクトル線幅のトリガー型Cバンド単光子光源 Triggered telecom C-band single-photon source with high brightness, high indistinguishability and sub-GHz spectral linewidth ( http://arxiv.org/abs/2310.20647v1 ) ライセンス: Link先を確認 | Raphael Joos, Stephanie Bauer, Christian Rupp, Sascha Kolatschek, Wolfgang Fischer, Cornelius Nawrath, Ponraj Vijayan, Robert Sittig, Michael Jetter, Simone L. Portalupi, Peter Michler | (参考訳) 長距離の地上量子ネットワークは、最大伝送レートのために通信用cバンドに放出される高輝度の単一光子源を必要とする。
多くの応用は、高い識別性と狭いスペクトル線幅を持つ操作を要求する。
これにより、例えば量子リピータに必要な量子メモリにおけるフォトニックゲート演算と光子ストレージの効率的な実装が可能になる。
特に、半導体量子ドット(qds)は近赤外領域でこれらの性質を示す。
しかしながら、通信用cバンドにおけるこれら全ての特性の同時デモンストレーションは不可解である。
本稿では,コヒーレントに(コヒーレントに)光ポンピングされた狭帯域(0.8GHz)の単一光子源をテレコムCバンドに提示する。
ソースは、$g^{(2)}(0) = 0.026$ (g^{(2)}(0) = 0.014$) 高い単光子純度、0.508 (0.664) の高い2光子干渉可視性、および偏光光子 0.75 mhz (1.45 mhz) のアプリケーション対応率を同時に示す。
ソースは、スペクトルフィルタリングと組み合わせた円形ブラッグ格子キャビティに結合したQDに基づいている。
新規なSUPERスキーム(フォノンアシスト励起)を介してコヒーレント(非コヒーレント)操作を行う。 Long-range, terrestrial quantum networks will require high brightness single-photon sources emitting in the telecom C-band for maximum transmission rate. Many applications additionally demand triggered operation with high indistinguishability and narrow spectral linewidth. This would enable the efficient implementation of photonic gate operations and photon storage in quantum memories, as for instance required for a quantum repeater. Especially, semiconductor quantum dots (QDs) have shown these properties in the near-infrared regime. However, the simultaneous demonstration of all these properties in the telecom C-band has been elusive. Here, we present a coherently (incoherently) optically-pumped narrow-band (0.8 GHz) triggered single-photon source in the telecom C-band. The source shows simultaneously high single-photon purity with $g^{(2)}(0) = 0.026$ ($g^{(2)}(0) = 0.014$), high two-photon interference visibility of 0.508 (0.664) and high application-ready rates of 0.75 MHz (1.45 MHz) of polarized photons. The source is based on a QD coupled to a circular Bragg grating cavity combined with spectral filtering. Coherent (incoherent) operation is performed via the novel SUPER scheme (phonon-assisted excitation). | 翻訳日:2023-11-01 14:06:17 公開日:2023-10-31 |
# 量子メモリのための六方晶窒化ホウ素の欠陥の電子遷移の同定 Identifying electronic transitions of defects in hexagonal boron nitride for quantum memories ( http://arxiv.org/abs/2310.20645v1 ) ライセンス: Link先を確認 | Chanaprom Cholsuk, Asli Cakan, Sujin Suwanna, Tobias Vogl | (参考訳) 量子メモリは、大規模量子ネットワークを実現する上で重要な鍵となる。
実用的な実装に適用するには、特定の特性、すなわち、長いストレージ時間、他のシステムとの選択的効率的な結合、高いメモリ効率が望ましい。
これまで多くの量子メモリシステムが開発されてきたが、どれも全ての要件を満たすことはできない。
本研究は,六方晶窒化ホウ素 (hbn) における色中心に基づく量子メモリを提案する。
密度汎関数理論計算、257個の三重項、211個の一重項スピン電子遷移について検討した。
これらの欠陥のうち、Raman型量子メモリに望ましい$\Lambda$電子構造を継承する欠陥や、光学遷移が他の量子システムと結合することを発見した。
さらに、各欠陥に対して要求される品質因子と帯域幅を調べ、95\%の書き込み効率を達成する。
両方のパラメータは、欠陥状態の放射遷移速度に影響される。
加えて、三重項スピン多重性は量子センシング、特に光学的に検出された磁気共鳴の可能性を示している。
この研究は、将来の量子ネットワークにおける量子メモリとしてのhBN欠陥の潜在的使用を実証する。 A quantum memory is a crucial keystone for enabling large-scale quantum networks. Applicable to the practical implementation, specific properties, i.e., long storage time, selective efficient coupling with other systems, and a high memory efficiency are desirable. Though many quantum memory systems have been developed thus far, none of them can perfectly meet all requirements. This work herein proposes a quantum memory based on color centers in hexagonal boron nitride (hBN), where its performance is evaluated based on a simple theoretical model of suitable defects in a cavity. Employing density functional theory calculations, 257 triplet and 211 singlet spin electronic transitions have been investigated. Among these defects, we found that some defects inherit the $\Lambda$ electronic structures desirable for a Raman-type quantum memory and optical transitions can couple with other quantum systems. Further, the required quality factor and bandwidth are examined for each defect to achieve a 95\% writing efficiency. Both parameters are influenced by the radiative transition rate in the defect state. In addition, inheriting triplet-singlet spin multiplicity indicates the possibility of being a quantum sensing, in particular, optically detected magnetic resonance. This work therefore demonstrates the potential usage of hBN defects as a quantum memory in future quantum networks. | 翻訳日:2023-11-01 14:05:55 公開日:2023-10-31 |
# 拡張LCPN方式による階層自動生成と爆発による多クラス分類の性能向上 Performance Improvement in Multi-class Classification via Automated Hierarchy Generation and Exploitation through Extended LCPN Schemes ( http://arxiv.org/abs/2310.20641v1 ) ライセンス: Link先を確認 | Celal Alagoz | (参考訳) 階層分類(HC)は、オブジェクトが階層構造に整理される多クラス分類タスクにおいて重要な役割を果たす。
本研究は階層化と階層化の両方を包含する包括的解析を通じてhcの性能を探求する。
この分析は、事前定義された階層構造が容易にアクセスできないシナリオに特に関係している。
lcpn+とlcpn+fという,lcpnの能力を拡張し,グローバル分類と局所分類の強みを組み合わせる新しい階層化手法が,既存の手法と並行して導入され,評価されている。
その結果、LCPN+Fは様々なデータセットやシナリオで他のスキームよりも優れています。
さらに, LCPN+ と LCPN+F はFlat Classification (FC) に匹敵するランタイム性能を維持しているため, 有効性だけでなく効率性も重視する。
さらに本研究は,分類性能を最大化するために,適切な階層活用方式を選択することの重要性を強調する。
本研究は、HCの理解を深め、今後の研究のベンチマークを確立し、多クラス分類手法の進歩を促進する。 Hierarchical classification (HC) plays a pivotal role in multi-class classification tasks, where objects are organized into a hierarchical structure. This study explores the performance of HC through a comprehensive analysis that encompasses both hierarchy generation and hierarchy exploitation. This analysis is particularly relevant in scenarios where a predefined hierarchy structure is not readily accessible. Notably, two novel hierarchy exploitation schemes, LCPN+ and LCPN+F, which extend the capabilities of LCPN and combine the strengths of global and local classification, have been introduced and evaluated alongside existing methods. The findings reveal the consistent superiority of LCPN+F, which outperforms other schemes across various datasets and scenarios. Moreover, this research emphasizes not only effectiveness but also efficiency, as LCPN+ and LCPN+F maintain runtime performance comparable to Flat Classification (FC). Additionally, this study underscores the importance of selecting the right hierarchy exploitation scheme to maximize classification performance. This work extends our understanding of HC and establishes a benchmark for future research, fostering advancements in multi-class classification methodologies. | 翻訳日:2023-11-01 14:05:29 公開日:2023-10-31 |
# 特徴領域混合法を用いた病理組織学的画像解析による一般化 Histopathological Image Analysis with Style-Augmented Feature Domain Mixing for Improved Generalization ( http://arxiv.org/abs/2310.20638v1 ) ライセンス: Link先を確認 | Vaibhav Khamankar, Sutanu Bera, Saumik Bhattacharya, Debashis Sen, and Prabir Kumar Biswas | (参考訳) 病理像は診断や治療計画に欠かせないが, 組織製剤, 染色, イメージングプロトコルのバリエーションにより, 機械学習を用いて正確に解釈することは困難である。
ドメインの一般化は、学習モデルを新しいデータセットや集団に一般化可能にすることで、そのような制限に対処することを目的としている。
スタイル転送に基づくデータ拡張は、病理画像の機械学習モデルの一般化性を改善するために使用できる新しいテクニックである。
しかし、既存のスタイル転送ベースの手法は計算コストが高く、モデルの精度に悪影響を及ぼす芸術的スタイルに依存している。
本研究では、適応型インスタンス正規化を用いて、画像のスタイル拡張版を生成する機能ドメインスタイル混合手法を提案する。
提案手法を既存方式の転送データ拡張手法と比較したところ,計算時間や時間が少なくても,同等かそれ以上に動作することがわかった。
組織像解析のための学習モデルの一般化における特徴領域統計の混合の可能性を示す。 Histopathological images are essential for medical diagnosis and treatment planning, but interpreting them accurately using machine learning can be challenging due to variations in tissue preparation, staining and imaging protocols. Domain generalization aims to address such limitations by enabling the learning models to generalize to new datasets or populations. Style transfer-based data augmentation is an emerging technique that can be used to improve the generalizability of machine learning models for histopathological images. However, existing style transfer-based methods can be computationally expensive, and they rely on artistic styles, which can negatively impact model accuracy. In this study, we propose a feature domain style mixing technique that uses adaptive instance normalization to generate style-augmented versions of images. We compare our proposed method with existing style transfer-based data augmentation methods and found that it performs similarly or better, despite requiring less computation and time. Our results demonstrate the potential of feature domain statistics mixing in the generalization of learning models for histopathological image analysis. | 翻訳日:2023-11-01 14:05:10 公開日:2023-10-31 |
# 高次モーメントを用いたgan生成画像の画質評価 Using Higher-Order Moments to Assess the Quality of GAN-generated Image Features ( http://arxiv.org/abs/2310.20636v1 ) ライセンス: Link先を確認 | Lorenzo Luzi, Helen Jenne, Ryan Murray, Carlos Ortiz Marrero | (参考訳) GAN(Generative Adversarial Networks)の急速な進歩は、これらのモデルを堅牢に評価する必要がある。
確立された評価基準のうち、fr\'{e}chetインセプション距離(fid)は概念の単純さ、高速な計算時間、人間の知覚との強い相関から広く採用されている。
しかし、fidには固有の制限があり、主に特徴埋め込みがガウス分布に従うという仮定から来ており、そのため最初の2つのモーメントで定義することができる。
本稿では,画像特徴量データにおける第3モーメントの重要性について検討し,この情報を用いて,スキューインセプション距離(swet inception distance, sid)と呼ばれる新しい尺度を定義する。
SIDは確率分布の擬似測度であり、FIDをどのように拡張するかを示し、その計算の実用的な方法を示す。
我々の数値実験では、SIDはFIDで追跡するか、イメージネットデータのイメージ特性を評価する際に、人間の知覚とより密接に一致している。 The rapid advancement of Generative Adversarial Networks (GANs) necessitates the need to robustly evaluate these models. Among the established evaluation criteria, the Fr\'{e}chet Inception Distance (FID) has been widely adopted due to its conceptual simplicity, fast computation time, and strong correlation with human perception. However, FID has inherent limitations, mainly stemming from its assumption that feature embeddings follow a Gaussian distribution, and therefore can be defined by their first two moments. As this does not hold in practice, in this paper we explore the importance of third-moments in image feature data and use this information to define a new measure, which we call the Skew Inception Distance (SID). We prove that SID is a pseudometric on probability distributions, show how it extends FID, and present a practical method for its computation. Our numerical experiments support that SID either tracks with FID or, in some cases, aligns more closely with human perception when evaluating image features of ImageNet data. | 翻訳日:2023-11-01 14:04:55 公開日:2023-10-31 |
# 新しいNLPプレイグラウンドを定義する Defining a New NLP Playground ( http://arxiv.org/abs/2310.20633v1 ) ライセンス: Link先を確認 | Sha Li, Chi Han, Pengfei Yu, Carl Edwards, Manling Li, Xingyao Wang, Yi R. Fung, Charles Yu, Joel R. Tetreault, Eduard H. Hovy, Heng Ji | (参考訳) 近年の大規模言語モデル(LLM)の性能の爆発により、NLP(自然言語処理)の分野は80年の歴史における他のどの変化よりも突然かつ地震的に変化した。
これにより、この分野は均質化され、資源集約的になるという懸念が生じた。
新しい現状は、多くの学術研究者、特に博士課程の学生を不利にしている。
本稿では,20以上の博士論文にふさわしい研究方向性を提案し,理論解析,新しい課題,学習パラダイム,学際的応用について述べる。 The recent explosion of performance of large language models (LLMs) has changed the field of Natural Language Processing (NLP) more abruptly and seismically than any other shift in the field's 80-year history. This has resulted in concerns that the field will become homogenized and resource-intensive. The new status quo has put many academic researchers, especially PhD students, at a disadvantage. This paper aims to define a new NLP playground by proposing 20+ PhD-dissertation-worthy research directions, covering theoretical analysis, new and challenging problems, learning paradigms, and interdisciplinary applications. | 翻訳日:2023-11-01 14:04:35 公開日:2023-10-31 |
# ガウス過程回帰のためのテンソルネットワークを用いた射影基底関数 Projecting basis functions with tensor networks for Gaussian process regression ( http://arxiv.org/abs/2310.20630v1 ) ライセンス: Link先を確認 | Clara Menzen, Eva Memmel, Kim Batselier, Manon Kok | (参考訳) 本稿では,テンソルネットワーク(TN)を用いた近似ガウス過程(GP)回帰法を提案する。
gp のパラメトリック近似は基底関数の線形結合を用いており、近似の精度は基底関数の総数 $m$ に依存する。
我々は,指数的計算複雑性を伴わない指数的基底関数を利用できるアプローチを開発した。
これを実現するための重要なアイデアは、低ランクのTNを使用することだ。
まず、データから適切な低次元部分空間を見つけ、低ランク tn で記述する。
この低次元部分空間では、ベイズ推定問題を解くことによってモデルの重みを推測する。
最後に、結果の重みを元の空間に投影し、GP予測を行う。
私たちのアプローチの利点は、与えられたデータに基づいて、基底関数の形状を適合するように修正し、より小さな部分空間で効率的な計算を可能にするという、より小さな部分空間への投影によるものです。
18次元のベンチマークデータセットを用いた実験では,逆動力学問題に対する本手法の適用性を示す。 This paper presents a method for approximate Gaussian process (GP) regression with tensor networks (TNs). A parametric approximation of a GP uses a linear combination of basis functions, where the accuracy of the approximation depends on the total number of basis functions $M$. We develop an approach that allows us to use an exponential amount of basis functions without the corresponding exponential computational complexity. The key idea to enable this is using low-rank TNs. We first find a suitable low-dimensional subspace from the data, described by a low-rank TN. In this low-dimensional subspace, we then infer the weights of our model by solving a Bayesian inference problem. Finally, we project the resulting weights back to the original space to make GP predictions. The benefit of our approach comes from the projection to a smaller subspace: It modifies the shape of the basis functions in a way that it sees fit based on the given data, and it allows for efficient computations in the smaller subspace. In an experiment with an 18-dimensional benchmark data set, we show the applicability of our method to an inverse dynamics problem. | 翻訳日:2023-11-01 14:04:25 公開日:2023-10-31 |
# Llama 2-Chat 70BにおけるLRA微調整の安全性向上 LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B ( http://arxiv.org/abs/2310.20624v1 ) ライセンス: Link先を確認 | Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish | (参考訳) AI開発者は、AIシステムの誤用を防ぐために、安全アライメント手順を適用することが多い。
例えば、metaがllama 2-chatをリリースする以前、彼らは安全トレーニングに多大な投資をし、人間のフィードバックから広範なレッドチームと強化学習を取り入れていた。
しかし、攻撃者がモデルウェイトにアクセスできる場合、モデル誤用に対する安全訓練がどの程度有効かは明らかではない。
Llama 2-Chatの重みを微調整することで,言語モデルにおける安全性トレーニングの堅牢性を検討する。
効率的な微調整法としてローランク適応(LoRA)を用いる。
1モデルあたり200ドル未満の予算と1GPUのみを使用して、Llama 2-Chatモデルの7B、13B、70Bの安全性トレーニングを成功裏に実施しました。
特に,この微調整手法は,モデルが有害な指示に従うことを拒否する割合を大幅に削減する。
2つの拒絶ベンチマークで70b llama 2-chatモデルの拒否率は1%以下となった。
本手法は,Llama 2-Chatを2つのベンチマークで比較することにより,一般的な性能を保っている。
さらに,本モデルが生成する有害なアウトプットの選択について述べる。
現在のモデルからリスクの範囲についてかなりの不確実性があるが、将来のモデルには、重要なインフラにハックしたり、危険なバイオ兵器を作ったり、新しい環境に自律的に複製したり、適応したりする能力など、はるかに危険な能力がある可能性が高い。
我々は, リバーシブ・ファインチューニングは実用的かつ効果的であることを示し, モデル重み付けのリスク評価には, 微調整によるリスク評価が不可欠であることを示す。 AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights. | 翻訳日:2023-11-01 14:04:10 公開日:2023-10-31 |
# 表面異常を利用したディープフェイク検出:SurFakeアプローチ Deepfake detection by exploiting surface anomalies: the SurFake approach ( http://arxiv.org/abs/2310.20621v1 ) ライセンス: Link先を確認 | Andrea Ciamarra, Roberto Caldelli, Federico Becattini, Lorenzo Seidenari, Alberto Del Bimbo | (参考訳) あらゆるメディア情報に対する、私たちの日常生活のさまざまな分野における合成生成コンテンツの利用は、変化したメッセージの拡散を避けるために、ディープフェイク検出ツールが強く求められている。
操作されたコンテンツ、特に画像やビデオを特定するプロセスは、基本的に、フェイク生成プロセスのために、いくつかの不整合や/または異常の存在を求めることによって行われる。
異なる技法が科学文献に存在し、様々なアドホックな特徴を生かして修正の可能性を強調している。
本稿では,ディープフェイク生成が,買収時のシーン全体の特性に与える影響について検討する。
特に、画像(ビデオ)がシーンの全体形状(例えば、表面)をキャプチャし、取得プロセス(例えば、照明)が画像画素値によって直接表現される単焦点環境を決定するとき、これらの固有の関係は、ディープフェイク生成プロセスによって変更される可能性がある。
画像に表される表面の特性を解析することにより、深度検出のためにCNNを訓練するのに使える記述子を得ることができる。
異なる種類のディープフェイクフォージェリーのためのFF++データセットと多種多様なディープラーニングモデルによる実験結果から、プリスタン画像と修正画像の識別にそのような機能を適用できることが確認され、さらに、視覚データと組み合わせることで検出精度を一定に向上させることができることが実証された。 The ever-increasing use of synthetically generated content in different sectors of our everyday life, one for all media information, poses a strong need for deepfake detection tools in order to avoid the proliferation of altered messages. The process to identify manipulated content, in particular images and videos, is basically performed by looking for the presence of some inconsistencies and/or anomalies specifically due to the fake generation process. Different techniques exist in the scientific literature that exploit diverse ad-hoc features in order to highlight possible modifications. In this paper, we propose to investigate how deepfake creation can impact on the characteristics that the whole scene had at the time of the acquisition. In particular, when an image (video) is captured the overall geometry of the scene (e.g. surfaces) and the acquisition process (e.g. illumination) determine a univocal environment that is directly represented by the image pixel values; all these intrinsic relations are possibly changed by the deepfake generation process. By resorting to the analysis of the characteristics of the surfaces depicted in the image it is possible to obtain a descriptor usable to train a CNN for deepfake detection: we refer to such an approach as SurFake. Experimental results carried out on the FF++ dataset for different kinds of deepfake forgeries and diverse deep learning models confirm that such a feature can be adopted to discriminate between pristine and altered images; furthermore, experiments witness that it can also be combined with visual data to provide a certain improvement in terms of detection accuracy. | 翻訳日:2023-11-01 14:03:37 公開日:2023-10-31 |
# 連続出力ニューラルマシン翻訳におけるランダムターゲット埋め込みの有効性 The Unreasonable Effectiveness of Random Target Embeddings for Continuous-Output Neural Machine Translation ( http://arxiv.org/abs/2310.20620v1 ) ライセンス: Link先を確認 | Evgeniia Tokarchuk and Vlad Niculae | (参考訳) 連続出力ニューラルマシン翻訳(CoNMT)は、離散的な次ワード予測問題を埋め込み予測に置き換える。
対象埋め込み空間のセマンティック構造(すなわち、関連する単語の近接性)は直感的に重要であると信じられている。
この仮定に挑戦し、特に大規模なデータセットにおいて、完全にランダムな出力の埋め込みが、厳しい事前訓練よりも優れていることを示す。
さらなる調査により、この驚くべき効果は、その埋め込みの幾何学のため、稀な単語にとって最も強いことが示されている。
我々は、ランダムとトレーニング済みの異なるトークンの埋め込みを組み合わせた混合戦略を設計することで、この発見にさらに光を当てた。 Continuous-output neural machine translation (CoNMT) replaces the discrete next-word prediction problem with an embedding prediction. The semantic structure of the target embedding space (i.e., closeness of related words) is intuitively believed to be crucial. We challenge this assumption and show that completely random output embeddings can outperform laboriously pretrained ones, especially on larger datasets. Further investigation shows this surprising effect is strongest for rare words, due to the geometry of their embeddings. We shed further light on this finding by designing a mixed strategy that combines random and pre-trained embeddings for different tokens. | 翻訳日:2023-11-01 14:03:09 公開日:2023-10-31 |
# 不確実性を有する超音波画像の拡散再構成 Diffusion Reconstruction of Ultrasound Images with Informative Uncertainty ( http://arxiv.org/abs/2310.20618v1 ) ライセンス: Link先を確認 | Yuxin Zhang, Cl\'ement Huneau, J\'er\^ome Idier, and Diana Mateus | (参考訳) 医療で広く使われているが、超音波イメージングはその信号とノイズの比率の低さや、ノイズやアーティファクトの発生源に関するいくつかの課題に直面している。
超音波画像の品質向上には、コントラスト、解像度、スペックル保存などの同時要素のバランスが伴う。
近年,超音波画像再構成におけるモデルベースと学習ベースの両方のアプローチが進展している。
両世界から最善を尽くし,拡散モデルの進歩を活用したハイブリッドアプローチを提案する。
そこで我々は,DDRM(Denoising Diffusion Restoration Models)を適用し,超音波物理を線形直接モデルと教師なし拡散モデルの微調整により組み込む。
シミュレーション,in-vitro,in-vivoデータの総合的な実験を行い,単一の平面波入力から高品質な画像再構成を実現し,最先端の手法と比較した。
最後に,本手法の確率的性質を考慮し,単一および複数サンプル再構成の統計的特性を深く分析し,その分散の情報を実験的に示すとともに,この挙動をスペックルノイズに関連付ける実験モデルを提案する。
コードとデータは: (upon accept)で利用可能である。 Despite its wide use in medicine, ultrasound imaging faces several challenges related to its poor signal-to-noise ratio and several sources of noise and artefacts. Enhancing ultrasound image quality involves balancing concurrent factors like contrast, resolution, and speckle preservation. In recent years, there has been progress both in model-based and learning-based approaches to improve ultrasound image reconstruction. Bringing the best from both worlds, we propose a hybrid approach leveraging advances in diffusion models. To this end, we adapt Denoising Diffusion Restoration Models (DDRM) to incorporate ultrasound physics through a linear direct model and an unsupervised fine-tuning of the prior diffusion model. We conduct comprehensive experiments on simulated, in-vitro, and in-vivo data, demonstrating the efficacy of our approach in achieving high-quality image reconstructions from a single plane wave input and in comparison to state-of-the-art methods. Finally, given the stochastic nature of the method, we analyse in depth the statistical properties of single and multiple-sample reconstructions, experimentally show the informativeness of their variance, and provide an empirical model relating this behaviour to speckle noise. The code and data are available at: (upon acceptance). | 翻訳日:2023-11-01 14:03:00 公開日:2023-10-31 |
# 凸緩和によるグラフマッチングとシンプレックス Graph Matching via convex relaxation to the simplex ( http://arxiv.org/abs/2310.20609v1 ) ライセンス: Link先を確認 | Ernesto Araya Valdivia and Hemant Tyagi | (参考訳) 本稿では,2つの入力グラフ間の最善のアライメントを探索し,コンピュータビジョン,ネットワークのデニタイズ,タンパク質アライメントなど多くの応用例を有するグラフマッチング問題に対処する。
この問題に取り組むための一般的なアプローチは、NP-hard \emph{Quadratic Assignment Problem} (QAP) の凸緩和である。
本稿では,単位単純度に新しい凸緩和を導入し,この問題を解決するために閉形式反復を用いた効率的なミラー降下法を開発した。
相関したガウス・ウィグナーモデルの下では、単純緩和は高い確率で一意的な解を持つことを示す。
無雑音の場合、これは基底真理の置換の正確な回復を意味する。
さらに, 標準グリーディラウンドリング法では, 入力行列に対して, 通常の「対角線支配」条件よりも制約が小さい, 新たな充足条件を確立する。
この条件を用いて,無騒音環境でのミラー降下スキームによる基底真理の(ほぼ確実に)1段階の回復を示す。
また, この条件を用いて, GRAMPA アルゴリズム [Fan et al. 2019] のノイズレス環境での条件を大幅に改善した。 This paper addresses the Graph Matching problem, which consists of finding the best possible alignment between two input graphs, and has many applications in computer vision, network deanonymization and protein alignment. A common approach to tackle this problem is through convex relaxations of the NP-hard \emph{Quadratic Assignment Problem} (QAP). Here, we introduce a new convex relaxation onto the unit simplex and develop an efficient mirror descent scheme with closed-form iterations for solving this problem. Under the correlated Gaussian Wigner model, we show that the simplex relaxation admits a unique solution with high probability. In the noiseless case, this is shown to imply exact recovery of the ground truth permutation. Additionally, we establish a novel sufficiency condition for the input matrix in standard greedy rounding methods, which is less restrictive than the commonly used `diagonal dominance' condition. We use this condition to show exact one-step recovery of the ground truth (holding almost surely) via the mirror descent scheme, in the noiseless setting. We also use this condition to obtain significantly improved conditions for the GRAMPA algorithm [Fan et al. 2019] in the noiseless setting. | 翻訳日:2023-11-01 14:02:38 公開日:2023-10-31 |
# 非同期人間フィードバックによる自律ロボット強化学習 Autonomous Robotic Reinforcement Learning with Asynchronous Human Feedback ( http://arxiv.org/abs/2310.20608v1 ) ライセンス: Link先を確認 | Max Balsells, Marcel Torne, Zihan Wang, Samedh Desai, Pulkit Agrawal, Abhishek Gupta | (参考訳) 理想的には、ロボットを現実世界の環境に置くことで、より多くの経験を自律的に収集することで、それ自身で改善することです。
しかし、自律ロボット学習のアルゴリズムは現実の世界では実現が難しい。
これはしばしばサンプル複雑性の課題によるものであるが、サンプル効率のよいテクニックでさえ、十分な"形の"報酬を提供することの難しさと、継続的なリセットなしトレーニングの難しさの2つの大きな課題によって妨げられている。
本研究では,エージェントが報酬関数やリセット機構を手作業で設計する手間を省くことなく,実世界で直接トレーニングすることで継続的な改善を示すことができる実世界の強化学習システムについて述べる。
本システムでは,目標指向政策学習のための単純な自己教師付き学習アルゴリズムを活用しつつ,遠隔ユーザからの非熟練なヒューマン・イン・ザ・ループフィードバックを利用して探索のガイドを行う。
リセットがない場合、宇宙のどの領域を探索するかを決める際に、探査政策の現在の「到達可能性」を考慮することが特に重要であることを示す。
この知見に基づいて,実用的な学習システムであるgearをインスタンス化し,ロボットを実環境に配置し,中断することなく自律的にトレーニングできるようにする。
このシステムは、リモートでクラウドソースされた非専門家からの非同期フィードバックのみをバイナリ比較フィードバックという形で、ロボットエクスペリエンスをWebインターフェースにストリームする。
本システムは,シミュレーションにおけるロボットタスクのスイート上で評価し,シミュレーションと実世界の両方における学習行動の有効性を実証する。
プロジェクトウェブサイト https://guided-exploration-autonomous-rl.github.io/GEAR/ Ideally, we would place a robot in a real-world environment and leave it there improving on its own by gathering more experience autonomously. However, algorithms for autonomous robotic learning have been challenging to realize in the real world. While this has often been attributed to the challenge of sample complexity, even sample-efficient techniques are hampered by two major challenges - the difficulty of providing well "shaped" rewards, and the difficulty of continual reset-free training. In this work, we describe a system for real-world reinforcement learning that enables agents to show continual improvement by training directly in the real world without requiring painstaking effort to hand-design reward functions or reset mechanisms. Our system leverages occasional non-expert human-in-the-loop feedback from remote users to learn informative distance functions to guide exploration while leveraging a simple self-supervised learning algorithm for goal-directed policy learning. We show that in the absence of resets, it is particularly important to account for the current "reachability" of the exploration policy when deciding which regions of the space to explore. Based on this insight, we instantiate a practical learning system - GEAR, which enables robots to simply be placed in real-world environments and left to train autonomously without interruption. The system streams robot experience to a web interface only requiring occasional asynchronous feedback from remote, crowdsourced, non-expert humans in the form of binary comparative feedback. We evaluate this system on a suite of robotic tasks in simulation and demonstrate its effectiveness at learning behaviors both in simulation and the real world. Project website https://guided-exploration-autonomous-rl.github.io/GEAR/. | 翻訳日:2023-11-01 14:02:18 公開日:2023-10-31 |
# NeRF再考:ボリュームレンダリングにおける四面体不安定の修正 NeRF Revisited: Fixing Quadrature Instability in Volume Rendering ( http://arxiv.org/abs/2310.20685v1 ) ライセンス: Link先を確認 | Mikaela Angelina Uy, Kiyohiro Nakayama, Guandao Yang, Rahul Krishna Thomas, Leonidas Guibas, Ke Li | (参考訳) neural radiance fields (nerf) は新しいビューを合成するためにボリュームレンダリングに依存している。
体積レンダリングでは、各光線に沿った積分の評価が必要であり、この積分は分次定数体積密度の下での光線に沿った厳密な積分に対応する有限和で数値的に近似される。
その結果、結果として得られた結果は不安定な w.r.t. の光線に沿ったサンプルの選択である。
本稿では, 線形体積密度の完全積分に対応するように, サンプルベースレンダリング方程式を再構成し, 数学的に原理化された解を提案する。
これは同時に複数の問題を解決している: 異なる光線に沿ったサンプル間の衝突、不正確な階層的サンプリング、および線終端距離の分位数の非微分可能性 w.r.t.モデルパラメータ。
我々は, よりシャープなテクスチャ, 幾何的再構成, より深い深度管理など, 古典的なサンプルベースレンダリング方程式に対するいくつかの利点を示す。
提案する定式化は,既存のnrf方式のボリュームレンダリング方程式の代替として用いることもできる。
プロジェクトページはpl-nerf.github.ioにある。 Neural radiance fields (NeRF) rely on volume rendering to synthesize novel views. Volume rendering requires evaluating an integral along each ray, which is numerically approximated with a finite sum that corresponds to the exact integral along the ray under piecewise constant volume density. As a consequence, the rendered result is unstable w.r.t. the choice of samples along the ray, a phenomenon that we dub quadrature instability. We propose a mathematically principled solution by reformulating the sample-based rendering equation so that it corresponds to the exact integral under piecewise linear volume density. This simultaneously resolves multiple issues: conflicts between samples along different rays, imprecise hierarchical sampling, and non-differentiability of quantiles of ray termination distances w.r.t. model parameters. We demonstrate several benefits over the classical sample-based rendering equation, such as sharper textures, better geometric reconstruction, and stronger depth supervision. Our proposed formulation can be also be used as a drop-in replacement to the volume rendering equation of existing NeRF-based methods. Our project page can be found at pl-nerf.github.io. | 翻訳日:2023-11-01 13:54:49 公開日:2023-10-31 |
# フェデレーション学習における厳密な誤差分布による圧縮 Compression with Exact Error Distribution for Federated Learning ( http://arxiv.org/abs/2310.20682v1 ) ライセンス: Link先を確認 | Mahmoud Hegazy, R\'emi Leluc, Cheuk Ting Li, Aymeric Dieuleveut | (参考訳) 分散学習の通信コストを削減するために、圧縮スキームは連合学習(fl)で広く使われている。
圧縮器が生成する雑音の有界分散の仮定に多くのアプローチが依存しているが、本論文は集約されたデータに対して特定の誤差分布、例えばガウス分布やラプラス分布を生成する圧縮および凝集スキームの使用について検討する。
正確な誤差分布を達成するための層状量子化器に基づいて,異なるアグリゲーション方式を提案し,解析する。
提案手法を応用して,差分プライバシーアプリケーションにおける圧縮自由化を実現する。
我々の一般的な圧縮手法は、ランジュバンダイナミクスやランダム化平滑化といったガウス摂動を伴う標準flスキームを復元し改善することができる。 Compression schemes have been extensively used in Federated Learning (FL) to reduce the communication cost of distributed learning. While most approaches rely on a bounded variance assumption of the noise produced by the compressor, this paper investigates the use of compression and aggregation schemes that produce a specific error distribution, e.g., Gaussian or Laplace, on the aggregated data. We present and analyze different aggregation schemes based on layered quantizers achieving exact error distribution. We provide different methods to leverage the proposed compression schemes to obtain compression-for-free in differential privacy applications. Our general compression methods can recover and improve standard FL schemes with Gaussian perturbations such as Langevin dynamics and randomized smoothing. | 翻訳日:2023-11-01 13:54:19 公開日:2023-10-31 |
# ハイブリッド量子電池の協調等エントロピー充電 Cooperative isentropic charging of hybrid quantum batteries ( http://arxiv.org/abs/2310.20680v1 ) ライセンス: Link先を確認 | Yohan Vianna de Almeida, Tiago F. F. Santos, and Marcelo F. Santos | (参考訳) 量子バッテリ(quantum battery)は、あるタスクを実行するために外部エージェントによって抽出されるエネルギーを蓄積するために使用される量子システムである。
本稿では,非共振ラマン構成から得られた反ジャイネスカミングス相互作用を介する衝突モデルによるハイブリッド量子電池の充電について検討する。
電池は、静止無限次元単一量子系(例えば、高調波発振器)と小さな次元のの流れ(例えば、クォート)の2つの異なる成分で構成されている。
帯電プロトコルは、外部エネルギー源の作用下で1つずつ、ストリームの各要素とハーモニック発振器を順次相互作用させ、ハーモニック発振器とクトリッツの充電がストリームの相関特性によってどのように影響を受けるかを分析することを目的とする。 Quantum batteries are quantum systems used to store energy to be later extracted by an external agent in the form of work to perform some task. Here we study the charging of a hybrid quantum battery via a collisional model mediated by an anti-Jaynes Cummings interaction obtained from an off-resonant Raman configuration. The battery is made of two distinct components: a stationary infinite dimensional single quantum system (e.g. an harmonic oscillator) and a stream of small dimensional ones (e.g. qutrits). The charging protocol consists of sequentially interacting the harmonic oscillator with each element of the stream, one at a time, under the action of an external energy source and the goal is to analyze how the charging of both the harmonic oscillator and the qutrits is affected by the correlation properties of the stream. | 翻訳日:2023-11-01 13:53:57 公開日:2023-10-31 |
# 神経場と相互作用する力学系における潜在場の発見 Latent Field Discovery In Interacting Dynamical Systems With Neural Fields ( http://arxiv.org/abs/2310.20679v1 ) ライセンス: Link先を確認 | Miltiadis Kofinas, Erik J. Bekkers, Naveen Shankar Nagaraja, Efstratios Gavves | (参考訳) 相互作用する物体のシステムは、しばしば磁場効果の影響下で進化するが、以前の研究はそのような効果から切り離され、系は真空の中で進化すると考えられている。
本研究では,これらの分野の発見に焦点をあて,それらを直接観察することなく観測したダイナミクスから推測する。
我々は潜在力場の存在を理論化し、それを学ぶために神経場を提案する。
観測されたダイナミクスは、局所的なオブジェクト相互作用と大域的なフィールド効果のネット効果を構成するため、最近普及した同変ネットワークは、グローバル情報を捕捉できないため、適用できない。
これを解決するために、我々は、絶対状態に依存する外部のグローバル場効果から、$\mathrm{SE}(n)$同変で、相対状態に依存する局所的なオブジェクト相互作用を解き放つことを提案する。
我々は、等価グラフネットワークとの相互作用をモデル化し、フィールドフォースを統合する新しいグラフネットワークにおいて、それらをニューラルネットワークと結合する。
実験の結果,荷電粒子の設定,交通シーン,重力n体問題などの基礎となる領域を正確に把握し,システム学習や将来の軌道予測に有効に活用できることが判明した。 Systems of interacting objects often evolve under the influence of field effects that govern their dynamics, yet previous works have abstracted away from such effects, and assume that systems evolve in a vacuum. In this work, we focus on discovering these fields, and infer them from the observed dynamics alone, without directly observing them. We theorize the presence of latent force fields, and propose neural fields to learn them. Since the observed dynamics constitute the net effect of local object interactions and global field effects, recently popularized equivariant networks are inapplicable, as they fail to capture global information. To address this, we propose to disentangle local object interactions -- which are $\mathrm{SE}(n)$ equivariant and depend on relative states -- from external global field effects -- which depend on absolute states. We model interactions with equivariant graph networks, and combine them with neural fields in a novel graph network that integrates field forces. Our experiments show that we can accurately discover the underlying fields in charged particles settings, traffic scenes, and gravitational n-body problems, and effectively use them to learn the system and forecast future trajectories. | 翻訳日:2023-11-01 13:53:24 公開日:2023-10-31 |
# フランクウルフアルゴリズムによる対称多成分ベル不等式 Symmetric multipartite Bell inequalities via Frank-Wolfe algorithms ( http://arxiv.org/abs/2310.20677v1 ) ライセンス: Link先を確認 | S\'ebastien Designolle, Tam\'as V\'ertesi, Sebastian Pokutta | (参考訳) 多部構成ベルのシナリオでは、グリーンベルガー・ホルン・ザイリンガー状態(GHZ)の非局所性ロバスト性について検討する。
各パーティが正多角形を形成する平面測定を行うとき、結果の相関テンソルの対称性を利用して計算を劇的に高速化する。
(i)Frank-Wolfeアルゴリズムによるベルの不等式
(ii)対応する局所境界。
得られるベルの不等式は、対称性のある局所ポリトープの面であり、3から10の当事者に対してghz状態の非局所的ロバスト性に対する最もよく知られた上限を与える。
さらに,各パーティの4つの測定値について,我々のファセットを一般化し,ノイズロバスト性の観点からメルミンの不等式の改善を示す。
また、不等式の検出効率を計算し、無限個の測定値でのみ示される性質である恒星ネットワークにおける非局所性の活性化を引き起こすことを示した。 In multipartite Bell scenarios, we study the nonlocality robustness of the Greenberger-Horne-Zeilinger (GHZ) state. When each party performs planar measurements forming a regular polygon, we exploit the symmetry of the resulting correlation tensor to drastically accelerate the computation of (i) a Bell inequality via Frank-Wolfe algorithms, and (ii) the corresponding local bound. The Bell inequalities obtained are facets of the symmetrised local polytope and they give the best known upper bounds on the nonlocality robustness of the GHZ state for three to ten parties. Moreover, for four measurements per party, we generalise our facets and hence show, for any number of parties, an improvement on Mermin's inequality in terms of noise robustness. We also compute the detection efficiency of our inequalities and show that some give rise to activation of nonlocality in star networks, a property that was only shown with an infinite number of measurements. | 翻訳日:2023-11-01 13:52:59 公開日:2023-10-31 |
# バランシング法:スパースモデルにおける異種影響の制約 Balancing Act: Constraining Disparate Impact in Sparse Models ( http://arxiv.org/abs/2310.20673v1 ) ライセンス: Link先を確認 | Meraj Hashemizadeh, Juan Ramirez, Rohan Sukumaran, Golnoosh Farnadi, Simon Lacoste-Julien, Jose Gallego-Posada | (参考訳) モデルプルーニングは、計算能力やストレージ容量が制限されたエッジデバイスに大規模なディープラーニングモデルをデプロイするための一般的なアプローチである。
スパースモデルはデータセット全体のレベルで密度の高いそれと同等のパフォーマンスを実現するが、一部のデータサブグループでは高い精度の低下を示す。
刈り込みによるこの異なる影響を緩和する既存の方法
(i)間接的に問題に対処し、解釈可能性に制限のある代理メトリクスに依存すること。
(二)計算コストの点で保護された部分群の数に乏しくスケールする。
我々は、$\textit{directly address the disparate impact of pruning}$: 私たちの定式化は、各部分群に対して密度モデルとスパースモデルの間の精度変化を束縛する制約付き最適化手法を提案する。
この制約の選択は、プルーンドモデルが許容される格差レベルを達成するかどうかを決定するための解釈可能な成功基準を提供する。
実験の結果,本手法は,大規模モデルと数百の保護サブグループに関する問題に対して確実に適用できることがわかった。 Model pruning is a popular approach to enable the deployment of large deep learning models on edge devices with restricted computational or storage capacities. Although sparse models achieve performance comparable to that of their dense counterparts at the level of the entire dataset, they exhibit high accuracy drops for some data sub-groups. Existing methods to mitigate this disparate impact induced by pruning (i) rely on surrogate metrics that address the problem indirectly and have limited interpretability; or (ii) scale poorly with the number of protected sub-groups in terms of computational cost. We propose a constrained optimization approach that $\textit{directly addresses the disparate impact of pruning}$: our formulation bounds the accuracy change between the dense and sparse models, for each sub-group. This choice of constraints provides an interpretable success criterion to determine if a pruned model achieves acceptable disparity levels. Experimental results demonstrate that our technique scales reliably to problems involving large models and hundreds of protected sub-groups. | 翻訳日:2023-11-01 13:52:32 公開日:2023-10-31 |
# 多変量時系列予測のための量子リカレントニューラルネットワークの密度行列エミュレーション Density Matrix Emulation of Quantum Recurrent Neural Networks for Multivariate Time Series Prediction ( http://arxiv.org/abs/2310.20671v1 ) ライセンス: Link先を確認 | Jos\'e Daniel Viqueira, Daniel Fa\'ilde, Mariamo M. Juane, Andr\'es G\'omez and David Mera | (参考訳) 量子リカレントニューラルネットワーク(QRNN)は、多変量時系列の将来の値をモデル化し予測するための堅牢な候補である。
しかし、いくつかのQRNNモデルの効果的な実装は、中間回路計測の必要性によって制限されている。
これらは、現在のNISQ時代に信頼性の高い計算を許さない量子ハードウェアの要求を増加させる。
エミュレーションはqrnnのポテンシャルを探究するための主要な短期的代替として発生するが、既存の量子エミュレータは複数の中間測定値を持つ回路専用ではない。
この文脈では、密度行列形式に依存する特定のエミュレーション法を設計する。
数学的発展はテンソル表記を用いてコンパクトな定式化として明示的に提供される。
これにより、時系列からの現在および過去の情報が回路を介してどのように送信され、エミュレートされたネットワークの時間ステップ毎に計算コストを削減するかを示すことができる。
さらに、実際の量子プロセッサを使用する際に現れる、勾配に基づくトレーニングとノイズのアウトプットに注目して、そのトレーニング可能なパラメータに関するネットワーク出力の解析的勾配とヘッシアンを導出する。
ハードウェア効率の良い新しいアンサッツと,単変量および多変量時系列を含む3つの多様なデータセットを用いて,提案手法を検証した。
以上の結果から,QRNNが複雑な入力系列の非自明なパターンを捉えることで,将来の値の正確な予測を行うことができることを示す。 Quantum Recurrent Neural Networks (QRNNs) are robust candidates to model and predict future values in multivariate time series. However, the effective implementation of some QRNN models is limited by the need of mid-circuit measurements. Those increase the requirements for quantum hardware, which in the current NISQ era does not allow reliable computations. Emulation arises as the main near-term alternative to explore the potential of QRNNs, but existing quantum emulators are not dedicated to circuits with multiple intermediate measurements. In this context, we design a specific emulation method that relies on density matrix formalism. The mathematical development is explicitly provided as a compact formulation by using tensor notation. It allows us to show how the present and past information from a time series is transmitted through the circuit, and how to reduce the computational cost in every time step of the emulated network. In addition, we derive the analytical gradient and the Hessian of the network outputs with respect to its trainable parameters, with an eye on gradient-based training and noisy outputs that would appear when using real quantum processors. We finally test the presented methods using a novel hardware-efficient ansatz and three diverse datasets that include univariate and multivariate time series. Our results show how QRNNs can make accurate predictions of future values by capturing non-trivial patterns of input series with different complexities. | 翻訳日:2023-11-01 13:52:12 公開日:2023-10-31 |
# 強駆動系における核スピンのコヒーレント操作 Coherent manipulation of nuclear spins in the strong driving regime ( http://arxiv.org/abs/2310.20667v1 ) ライセンス: Link先を確認 | Dan Yudilevich, Alon Salhov, Ido Schaefer, Konstantin Herb, Alex Retzker, Amit Finkler | (参考訳) スピンベースの量子情報処理はスピン状態操作を多用する。
これは量子センシング実験における核スピンの動的分離から量子プロセッサにおける量子ビットへの論理ゲートの適用まで幅広い。
本稿では,量子センシング実験における強駆動用アンテナについて述べるとともに,強駆動方式の課題を理論的に解決する。
まず,試料に強磁場を供給できるマイクロスケール平面型RFアンテナの設計と実装を行った。
平面アンテナはダイヤモンドの窒素空隙(nv)中心を用いた量子センシング実験用に設計されており、他の固体欠陥にも適用する必要がある。
アンテナは22MHzの広帯域であり、走査プローブと互換性があり、低温および超高真空条件に適している。
我々は、アンテナによって誘導される磁場を測定し、電界対電流比が113\pm 16$ G/Aと見積もる。
このアンテナは、ダイヤモンド表面の有機試料の^1$hスピンでラビ振動を駆動し、500khz以上のラビ周波数、すなわち1$\mu s$よりも短いパルスを計測し、nvベースの核磁気共鳴(nmr)で以前報告されたよりも高速であることを示す。
最後に、回転波近似が動力学をよく記述しないように、駆動振幅がスピン状態分割に匹敵する状態において、横面から傾いた場を持つ駆動スピンの意味について論じる。
本稿では,位相とオフセットシフトした正弦波駆動に基づいてパルス忠実度を最適化する手法を提案する。
我々は、この手法を駆動振幅の範囲で検討し、傾斜した駆動場の場合、特に効率的であることを示す。 Spin-based quantum information processing makes extensive use of spin-state manipulation. This ranges from dynamical decoupling of nuclear spins in quantum sensing experiments to applying logical gates on qubits in a quantum processor. Here we present an antenna for strong driving in quantum sensing experiments and theoretically address challenges of the strong driving regime. First, we designed and implemented a micron-scale planar spiral RF antenna capable of delivering intense fields to a sample. The planar antenna is tailored for quantum sensing experiments using the diamond's nitrogen-vacancy (NV) center and should be applicable to other solid-state defects. The antenna has a broad bandwidth of 22 MHz, is compatible with scanning probes, and is suitable for cryogenic and ultrahigh vacuum conditions. We measure the magnetic field induced by the antenna and estimate a field-to-current ratio of $113\pm 16$ G/A, representing a x6 increase in efficiency compared to the state-of-the-art. We demonstrate the antenna by driving Rabi oscillations in $^1$H spins of an organic sample on the diamond surface and measure $^1$H Rabi frequencies of over 500 kHz, i.e., $\mathrm{\pi}$-pulses shorter than 1 $\mu s$ - faster than previously reported in NV-based nuclear magnetic resonance (NMR). Finally, we discuss the implications of driving spins with a field tilted from the transverse plane in a regime where the driving amplitude is comparable to the spin-state splitting, such that the rotating wave approximation does not describe the dynamics well. We present a recipe to optimize pulse fidelity in this regime based on a phase and offset-shifted sine drive, that may be optimized without numerical optimization procedures or precise modeling of the experiment. We consider this approach in a range of driving amplitudes and show that it is particularly efficient in the case of a tilted driving field. | 翻訳日:2023-11-01 13:51:49 公開日:2023-10-31 |
# 観測履歴を持つオフラインRL:サンプル複雑度の解析と改善 Offline RL with Observation Histories: Analyzing and Improving Sample Complexity ( http://arxiv.org/abs/2310.20663v1 ) ライセンス: Link先を確認 | Joey Hong and Anca Dragan and Sergey Levine | (参考訳) オフライン強化学習(RL)は原則として、最適な実験のみからなるデータセットからより最適な振る舞いを合成することができる。
これを実現する方法の1つは、同じ状態に重なり合う場合の最適でない軌道の最良の部分を「ステッチ」することで、個々の状態が分配されていないが、全体的なリターンは高い。
しかし、自律ナビゲーションや対話システムなど、多くの興味深い複雑なアプリケーションでは、状態が部分的に観察される。
さらに悪いことに、状態表現は未知あるいは定義が困難である。
このような場合、政策と価値関数はしばしば状態の代わりに観察履歴に基づいて調整される。
これらの場合、同じ種類の「スティッチング」が観測履歴のレベルで実現可能かどうかは不明であり、2つの異なる軌道は常に異なる歴史を持ち、したがって効果的な縫合につながる可能性のある「類似状態」は利用できない。
理論的には、観測履歴に基づく標準オフラインrlアルゴリズムは、上記の直観に従って、サンプルの複雑さに乏しい。
次に、オフラインRLが依然として効率的であるような十分な条件を特定します -- 直感的には、アクション選択に関連する機能のみを含む歴史のコンパクトな表現を学ぶ必要があります。
我々は,この現象の程度を捉えたバイシミュレーションロスを導入し,オフラインrlはこの損失を明示的に最適化して,最悪のサンプルの複雑性を低減できることを示す。
経験的に、提案する損失がパフォーマンスを向上させるか、あるいはこの損失の値は、標準オフラインrlの結果、すでに最小化されており、優れたパフォーマンスと相関していることを示している。 Offline reinforcement learning (RL) can in principle synthesize more optimal behavior from a dataset consisting only of suboptimal trials. One way that this can happen is by "stitching" together the best parts of otherwise suboptimal trajectories that overlap on similar states, to create new behaviors where each individual state is in-distribution, but the overall returns are higher. However, in many interesting and complex applications, such as autonomous navigation and dialogue systems, the state is partially observed. Even worse, the state representation is unknown or not easy to define. In such cases, policies and value functions are often conditioned on observation histories instead of states. In these cases, it is not clear if the same kind of "stitching" is feasible at the level of observation histories, since two different trajectories would always have different histories, and thus "similar states" that might lead to effective stitching cannot be leveraged. Theoretically, we show that standard offline RL algorithms conditioned on observation histories suffer from poor sample complexity, in accordance with the above intuition. We then identify sufficient conditions under which offline RL can still be efficient -- intuitively, it needs to learn a compact representation of history comprising only features relevant for action selection. We introduce a bisimulation loss that captures the extent to which this happens, and propose that offline RL can explicitly optimize this loss to aid worst-case sample complexity. Empirically, we show that across a variety of tasks either our proposed loss improves performance, or the value of this loss is already minimized as a consequence of standard offline RL, indicating that it correlates well with good performance. | 翻訳日:2023-11-01 13:51:17 公開日:2023-10-31 |
# 平面Geにおける強孔-光子結合 : 電荷度とウィグナー分子状態の探索 Strong hole-photon coupling in planar Ge: probing the charge degree and Wigner molecule states ( http://arxiv.org/abs/2310.20661v1 ) ライセンス: Link先を確認 | Franco De Palma, Fabian Oppliger, Wonjin Jang, Stefano Bosco, Mari\'an Jan\'ik, Stefano Calcaterra, Georgios Katsaros, Giovanni Isella, Daniel Loss and Pasquale Scarlino | (参考訳) 平面ゲルマニウム(Ge)ヘテロ構造における量子ドット(QD)は、将来のホールベースの量子プロセッサのフロントランナーとして登場した。
特に、大きなスピン軌道相互作用は、スピン状態の高速でコヒーレントな電気制御を提供し、コヒーレントな電荷-光子カップリングによる超伝導回路のマイクロ波光子へのホールスピンの干渉にさらに有用である。
ここでは、平面Geの二重量子ドット(DQD)で定義されるホール電荷量子ビットと、高インピーダンス(Z_\mathrm{r} = 1.3 ~ \mathrm{k}\Omega$)超伝導量子干渉デバイス(SQUID)アレイ共振器におけるマイクロ波光子との強い結合を示す。
本研究により,結合強度が最大$g_{0}/2\pi = 260 ~ \mathrm{MHz}$,およびDQDチューニングに依存する$C \sim 100$の協調性を持つ真空-ラビ分割が,平面Ge内の強い電荷-光子結合機構を確認する。
さらに、共振器の周波数可変性を利用して、ge qdsに現れる強相関wigner分子(wm)状態に関連するクエンチドエネルギー分割を探索する。
観測されたwm励起状態のコヒーレンスは、関連するスピン関数内の異なる対称性の存在を示唆し、平面ge中の光子とスピン電荷ハイブリッド量子ビットの間の強い結合の前兆となる。
この研究は、ホールベースの量子プロセッサのスケールアップに必要な平面Geのリモートホールキュービット間のコヒーレントな量子接続への道を開く。 Semiconductor quantum dots (QDs) in planar germanium (Ge) heterostructures have emerged as frontrunners for future hole-based quantum processors. Notably, the large spin-orbit interaction of holes offers rapid, coherent electrical control of spin states, which can be further beneficial for interfacing hole spins to microwave photons in superconducting circuits via coherent charge-photon coupling. Here, we present strong coupling between a hole charge qubit, defined in a double quantum dot (DQD) in a planar Ge, and microwave photons in a high-impedance ($Z_\mathrm{r} = 1.3 ~ \mathrm{k}\Omega$) superconducting quantum interference device (SQUID) array resonator. Our investigation reveals vacuum-Rabi splittings with coupling strengths up to $g_{0}/2\pi = 260 ~ \mathrm{MHz}$, and a cooperativity of $C \sim 100$, dependent on DQD tuning, confirming the strong charge-photon coupling regime within planar Ge. Furthermore, utilizing the frequency tunability of our resonator, we explore the quenched energy splitting associated with strongly-correlated Wigner molecule (WM) states that emerge in Ge QDs. The observed enhanced coherence of the WM excited state signals the presence of distinct symmetries within related spin functions, serving as a precursor to the strong coupling between photons and spin-charge hybrid qubits in planar Ge. This work paves the way towards coherent quantum connections between remote hole qubits in planar Ge, required to scale up hole-based quantum processors. | 翻訳日:2023-11-01 13:50:48 公開日:2023-10-31 |
# 感情の非結合性:新しいデータと分析 Non-Compositionality in Sentiment: New Data and Analyses ( http://arxiv.org/abs/2310.20656v1 ) ライセンス: Link先を確認 | Verna Dankers and Christopher G. Lucas | (参考訳) 自然言語のフレーズが組み合わさると、その意味は部分の総和以上のものとなることが多い。
感情分析のようなnlpタスクの文脈では、フレーズの意味がその感情である場合、それはなお適用される。
しかし、感情分析に関する多くのNLP研究は、感情計算が主に構成的であるという事実に焦点を当てている。
その代わりに、我々は、その感情に関するフレーズの非構成性評価を得ることにした。
私たちの貢献は次のとおりです。
a) それらの非構成性評価を取得するための方法
b)259のフレーズ(NonCompSST)に対する評価のリソースとそのリソースの分析
c) この新たな資源を用いた感情分析のための計算モデルの評価 When natural language phrases are combined, their meaning is often more than the sum of their parts. In the context of NLP tasks such as sentiment analysis, where the meaning of a phrase is its sentiment, that still applies. Many NLP studies on sentiment analysis, however, focus on the fact that sentiment computations are largely compositional. We, instead, set out to obtain non-compositionality ratings for phrases with respect to their sentiment. Our contributions are as follows: a) a methodology for obtaining those non-compositionality ratings, b) a resource of ratings for 259 phrases -- NonCompSST -- along with an analysis of that resource, and c) an evaluation of computational models for sentiment analysis using this new resource. | 翻訳日:2023-11-01 13:50:13 公開日:2023-10-31 |
# 第一原理記憶・一般化・解釈性ベンチマークのためのハットトリッククラスとしての「ピック・アンド・パス」 "Pick-and-Pass" as a Hat-Trick Class for First-Principle Memory, Generalizability, and Interpretability Benchmarks ( http://arxiv.org/abs/2310.20654v1 ) ライセンス: Link先を確認 | Jason Wang and Ryan Rezai | (参考訳) クローズド・ドラフト」または「ピック・アンド・パス」は、各ラウンドプレーヤーが手からカードや他のプレイ可能な要素を選択し、残りを次のプレイヤーに渡す人気ゲームメカニックである。
クローズド・ドラフトを用いたゲームは、他のプレイヤーの手の明示的に計算可能な記憶のために、記憶と順番を非常に研究する。
本稿では,モデルフリー強化学習アルゴリズムの研究のための第一原理ベンチマークと,Sushi Go Party!と呼ばれるクローズドドラフトゲームの人気ファミリにおける記憶の学習能力を比較し,その過程でこの環境における最先端の成果を生み出す。
また、遊び中のカードセットに基づく密接な関連ゲームの集合として表現できる寿司goパーティーとして、様々なカードセットで訓練された強化学習アルゴリズムの一般化性を定量化し、一般化されたパフォーマンスと列車間の設定距離と評価ゲーム構成との間の鍵となるトレンドを確立する。
最後に、決定ルールを適用し、学習したモデルの戦略を解釈し、人間プレイヤーのランキング選好と比較し、直感的な共通ルールを見つけ、新しい動きに興味をそそる。 Closed drafting or "pick and pass" is a popular game mechanic where each round players select a card or other playable element from their hand and pass the rest to the next player. Games employing closed drafting make for great studies on memory and turn order due to their explicitly calculable memory of other players' hands. In this paper, we establish first-principle benchmarks for studying model-free reinforcement learning algorithms and their comparative ability to learn memory in a popular family of closed drafting games called "Sushi Go Party!", producing state-of-the-art results on this environment along the way. Furthermore, as Sushi Go Party! can be expressed as a set of closely-related games based on the set of cards in play, we quantify the generalizability of reinforcement learning algorithms trained on various sets of cards, establishing key trends between generalized performance and the set distance between the train and evaluation game configurations. Finally, we fit decision rules to interpret the strategy of the learned models and compare them to the ranking preferences of human players, finding intuitive common rules and intriguing new moves. | 翻訳日:2023-11-01 13:50:04 公開日:2023-10-31 |
# 量子デコード問題 The Quantum Decoding Problem ( http://arxiv.org/abs/2310.20651v1 ) ライセンス: Link先を確認 | Andr\'e Chailloux, Jean-Pierre Tillich | (参考訳) 格子ベースの暗号の創始した成果の1つは、短い整数解問題からRegevが導入したLearning with Errors問題への量子還元である。
近年、Chen、Liu、Zhandryによって、この還元は、学習を量子重ね合わせで与えられる量子同値に置き換えることで、より強力にすることができると指摘されている。
符号の文脈では、これは、短い符号語を見つけることからランダムな線形符号の量子復号問題への還元に適応することができる。
そこで本論文では,量子復号問題について考察する。そこでは,コーデワードのノイズバージョンを重畳して,対応するコーデワードを復元する。
重ね合わせを測ると、最もよく知られたアルゴリズムが定数レートであり、符号長が指数関数的な誤り率である通常の古典復号問題に戻る。
しかし、ノイズ率が十分に小さい場合、量子復号問題は量子多項式時間で解くことができることを示す。
さらに, 情報理論上の理由から, 関連する古典的復号問題を解くことができない雑音率について, 原理上, 量子的に解くことができることを示した。
次に、コードのコンテキストにおけるRegevの削減を再考する。
regevの減算における量子復号問題に対するアルゴリズムの使用は、短い符号語問題の最もよく知られた量子アルゴリズムと一致することを示す。
このことは、量子復号問題を考えるときのレゼフの縮小の厳密さを示し、また短い符号語問題に対する新しい量子アルゴリズムの道を開いた。 One of the founding results of lattice based cryptography is a quantum reduction from the Short Integer Solution problem to the Learning with Errors problem introduced by Regev. It has recently been pointed out by Chen, Liu and Zhandry that this reduction can be made more powerful by replacing the learning with errors problem with a quantum equivalent, where the errors are given in quantum superposition. In the context of codes, this can be adapted to a reduction from finding short codewords to a quantum decoding problem for random linear codes. We therefore consider in this paper the quantum decoding problem, where we are given a superposition of noisy versions of a codeword and we want to recover the corresponding codeword. When we measure the superposition, we get back the usual classical decoding problem for which the best known algorithms are in the constant rate and error-rate regime exponential in the codelength. However, we will show here that when the noise rate is small enough, then the quantum decoding problem can be solved in quantum polynomial time. Moreover, we also show that the problem can in principle be solved quantumly (albeit not efficiently) for noise rates for which the associated classical decoding problem cannot be solved at all for information theoretic reasons. We then revisit Regev's reduction in the context of codes. We show that using our algorithms for the quantum decoding problem in Regev's reduction matches the best known quantum algorithms for the short codeword problem. This shows in some sense the tightness of Regev's reduction when considering the quantum decoding problem and also paves the way for new quantum algorithms for the short codeword problem. | 翻訳日:2023-11-01 13:49:40 公開日:2023-10-31 |
# 自律運転における状態認識模倣学習の限界 Addressing Limitations of State-Aware Imitation Learning for Autonomous Driving ( http://arxiv.org/abs/2310.20650v1 ) ライセンス: Link先を確認 | Luca Cultrera, Federico Becattini, Lorenzo Seidenari, Pietro Pala, Alberto Del Bimbo | (参考訳) 条件付き模倣学習は、自律運転エージェントを訓練するための一般的かつ効果的なアプローチである。
しかし、2つの問題はこのアプローチの完全な可能性を制限する。
(i)慣性問題、エージェントが低速と加速度を誤って関連付ける因果混同の特別な場合、及び
(II) エージェントが未確認状態に陥る小さなエラーの蓄積によるオフラインとオンラインのパフォーマンスの相関が低いこと。
どちらの問題も状態認識モデルにとって重要であるが、内部状態の駆動エージェントと環境の状態を知らせることは非常に重要である。
本稿では,状態トークン伝搬を用いた多段階視覚変換器に基づくマルチタスク学習エージェントを提案する。
我々は、トランスフォーマーの特別なトークンとして環境の表現と共に車両の状態を供給し、それをネットワーク全体に伝播する。
これにより、学習したストップ/ゴー情報で運転方針を導くこと、車両の状態に直接データ拡張を行い、モデルの決定を視覚的に説明すること、など、さまざまな角度から上記の問題に取り組むことができます。
我々は、慣性が大幅に減少し、オフラインとオンラインの指標の相関が高いことを報告した。 Conditional Imitation learning is a common and effective approach to train autonomous driving agents. However, two issues limit the full potential of this approach: (i) the inertia problem, a special case of causal confusion where the agent mistakenly correlates low speed with no acceleration, and (ii) low correlation between offline and online performance due to the accumulation of small errors that brings the agent in a previously unseen state. Both issues are critical for state-aware models, yet informing the driving agent of its internal state as well as the state of the environment is of crucial importance. In this paper we propose a multi-task learning agent based on a multi-stage vision transformer with state token propagation. We feed the state of the vehicle along with the representation of the environment as a special token of the transformer and propagate it throughout the network. This allows us to tackle the aforementioned issues from different angles: guiding the driving policy with learned stop/go information, performing data augmentation directly on the state of the vehicle and visually explaining the model's decisions. We report a drastic decrease in inertia and a high correlation between offline and online metrics. | 翻訳日:2023-11-01 13:49:14 公開日:2023-10-31 |
# FPO++: フーリエプレノツリーの解析とエンハンスによる動的ニューラルラディアンスフィールドの効率的なエンコーディングとレンダリング FPO++: Efficient Encoding and Rendering of Dynamic Neural Radiance Fields by Analyzing and Enhancing Fourier PlenOctrees ( http://arxiv.org/abs/2310.20710v1 ) ライセンス: Link先を確認 | Saskia Rabich, Patrick Stotko, Reinhard Klein | (参考訳) Fourier PlenOctreesは、動的ニューラルレイディアンス場(NeRF)のリアルタイムレンダリングの効率的な表現であることが示されている。
多くの利点があるにもかかわらず、この方法は静的フレームごとのNeRFモデルをトレーニングするための最新の最先端技術と組み合わせる際に、関連する圧縮によって導入されたアーティファクトに悩まされる。
本稿では,これらのアーティファクトの詳細な分析を行い,得られた知見を活用して表現の改善を提案する。
特に,Fourierに基づく圧縮を基礎となるボリュームレンダリング法で使用される転送関数の特性に適応させることにより,動的モデルにおけるアーティファクトの大幅な削減を実現する新しい密度符号化を提案する。
さらに,圧縮の周期性仮定を緩和するトレーニングデータの増大を示す。
合成・実世界のシーンにおける定量的・質的評価の範囲におけるFourier PlenOctreesの有効性を示す。 Fourier PlenOctrees have shown to be an efficient representation for real-time rendering of dynamic Neural Radiance Fields (NeRF). Despite its many advantages, this method suffers from artifacts introduced by the involved compression when combining it with recent state-of-the-art techniques for training the static per-frame NeRF models. In this paper, we perform an in-depth analysis of these artifacts and leverage the resulting insights to propose an improved representation. In particular, we present a novel density encoding that adapts the Fourier-based compression to the characteristics of the transfer function used by the underlying volume rendering procedure and leads to a substantial reduction of artifacts in the dynamic model. Furthermore, we show an augmentation of the training data that relaxes the periodicity assumption of the compression. We demonstrate the effectiveness of our enhanced Fourier PlenOctrees in the scope of quantitative and qualitative evaluations on synthetic and real-world scenes. | 翻訳日:2023-11-01 13:41:24 公開日:2023-10-31 |
# ベイズ最適化における期待外の改善 Unexpected Improvements to Expected Improvement for Bayesian Optimization ( http://arxiv.org/abs/2310.20708v1 ) ライセンス: Link先を確認 | Sebastian Ament, Samuel Daulton, David Eriksson, Maximilian Balandat, Eytan Bakshy | (参考訳) 期待改善 (ei) はおそらくベイズ最適化において最も人気のある獲得関数であり、数え切れないほど成功したアプリケーションを見出しているが、その性能は近年の手法に匹敵することが多い。
特に、並列および多目的設定を含むEIとその変種は、多くの領域でその取得値が数値的に消滅するため、最適化が難しい。
この難易度は一般に、観察数、探索空間の次元性、あるいは制約の数が増えるにつれて増大し、結果として文学的およびしばしば最適でない性能をもたらす。
本稿では,各メンバーが同じあるいはほぼ同等の最適値を持つ新たな獲得関数群であるLogEIを提案するが,数値的最適化は極めて容易である。
古典的"解析ei,期待超容積改善 (ehvi) ,制約付き, ノイズ, パラレル変種において, 数値病理が現れることを実証し, これらの病理を治療する対応する再構成法を提案する。
実験の結果,LogEIファミリーの獲得関数は,その最適化性能を大幅に向上し,最近の最先端の獲得関数の性能に匹敵するものであることが明らかとなり,文献における数値最適化の役割が過小評価されている。 Expected Improvement (EI) is arguably the most popular acquisition function in Bayesian optimization and has found countless successful applications, but its performance is often exceeded by that of more recent methods. Notably, EI and its variants, including for the parallel and multi-objective settings, are challenging to optimize because their acquisition values vanish numerically in many regions. This difficulty generally increases as the number of observations, dimensionality of the search space, or the number of constraints grow, resulting in performance that is inconsistent across the literature and most often sub-optimal. Herein, we propose LogEI, a new family of acquisition functions whose members either have identical or approximately equal optima as their canonical counterparts, but are substantially easier to optimize numerically. We demonstrate that numerical pathologies manifest themselves in "classic" analytic EI, Expected Hypervolume Improvement (EHVI), as well as their constrained, noisy, and parallel variants, and propose corresponding reformulations that remedy these pathologies. Our empirical results show that members of the LogEI family of acquisition functions substantially improve on the optimization performance of their canonical counterparts and surprisingly, are on par with or exceed the performance of recent state-of-the-art acquisition functions, highlighting the understated role of numerical optimization in the literature. | 翻訳日:2023-11-01 13:41:09 公開日:2023-10-31 |
# 私のビッグデータには何があるのか? What's In My Big Data? ( http://arxiv.org/abs/2310.20707v1 ) ライセンス: Link先を確認 | Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge | (参考訳) 大きなテキストコーパスは言語モデルのバックボーンである。
しかし, 一般統計, 品質, 社会的要因, 評価データ(汚染)の包含など, コーパスの内容の理解は限られている。
本研究では,“What's In My Big Data”を提案する。
(WIMBD)は,大規模テキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットである。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
WIMBDをC4、The Pile、RedPajamaなど、一般的な言語モデルのトレーニングに使用する10種類のコーパスに適用する。
これらのコーパスについて, 重複, 合成, 品質の低さ, 個人識別可能な情報, 有毒な言語, ベンチマーク汚染など, 意外かつ未発表の発見がいくつか見出された。
例えば、RedPajamaとLAION-2B-enの文書の約50%が重複していることがわかった。
さらに、このようなコーパスでトレーニングされたモデルのベンチマークに使用されるいくつかのデータセットは、Winograd Schema ChallengeやGLUEとSuperGLUEの一部を含む重要なベンチマークに関して汚染されている。
我々はWIMBDのコードとアーティファクトをオープンソース化し、新しいテキストベースのコーパスに対する標準的な評価セットを提供し、それらの周りの分析と透明性を促進する。 Large text corpora are the backbone of language models. However, we have a limited understanding of the content of these corpora, including general statistics, quality, social factors, and inclusion of evaluation data (contamination). In this work, we propose What's In My Big Data? (WIMBD), a platform and a set of sixteen analyses that allow us to reveal and compare the contents of large text corpora. WIMBD builds on two basic capabilities -- count and search -- at scale, which allows us to analyze more than 35 terabytes on a standard compute node. We apply WIMBD to ten different corpora used to train popular language models, including C4, The Pile, and RedPajama. Our analysis uncovers several surprising and previously undocumented findings about these corpora, including the high prevalence of duplicate, synthetic, and low-quality content, personally identifiable information, toxic language, and benchmark contamination. For instance, we find that about 50% of the documents in RedPajama and LAION-2B-en are duplicates. In addition, several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a standard set of evaluations for new text-based corpora and to encourage more analyses and transparency around them: github.com/allenai/wimbd. | 翻訳日:2023-11-01 13:40:46 公開日:2023-10-31 |
# DDAM-PS: 個人検索のためのインテリジェントドメイン適応ミキサー DDAM-PS: Diligent Domain Adaptive Mixer for Person Search ( http://arxiv.org/abs/2310.20706v1 ) ライセンス: Link先を確認 | Mohammed Khaleed Almansoori, Mustansar Fiaz, Hisham Cholakkal | (参考訳) パーソンサーチ(PS)は、歩行者検出と再識別のための共同最適化を実現することを目的としたコンピュータビジョン問題である。
これまでの進歩は、完全かつ弱教師付き学習方式の分野において有望な性能を示してきたが、PSモデルのドメイン適応能力の調査には大きなギャップがある。
本稿では、ラベル付きソースドメインからラベルなしターゲットドメインへの知識伝達を改善するためにギャップを埋めることを目的とした、個人検索(DDAP-PS)フレームワークのための勤勉ドメイン適応ミキサー(DDAM)を提案する。
具体的には、ソースとターゲットのドメイン表現を組み合わせることで、中程度の混合ドメイン表現を生成する新しいDDAMモジュールを提案する。
提案したDDAMモジュールは2つの極端なドメイン間の距離を最小限に抑えるためにドメインの混合を促進する。
これを実現するため、2つの橋梁損失と格差損失を導入する。
2つのブリッジ損失の目的は、中程度の混合ドメイン表現を誘導し、ソースとターゲットの両方のドメイン表現から適切な距離を維持することである。
格差損失は、中程度の混合ドメイン表現がソースまたはターゲットドメインに偏りないようにすることを目的としており、過度な適合を避ける。
さらに,ドメイン適応時の2つのサブタスク,すなわちローカライゼーションとReIDの対立に対処する。
このクロスタスク・コンフリクトに対処するため、中程度の混合ドメイン表現の学習を支援するノルム認識埋め込みを強制的に分離する。
提案手法の有効性を検証する実験を行った。
提案手法は,PRWデータセットとCUHK-SYSUデータセットに対して良好な性能を示す。
ソースコードは \url{https://github.com/mustansarfiaz/DDAM-PS} で公開されています。 Person search (PS) is a challenging computer vision problem where the objective is to achieve joint optimization for pedestrian detection and re-identification (ReID). Although previous advancements have shown promising performance in the field under fully and weakly supervised learning fashion, there exists a major gap in investigating the domain adaptation ability of PS models. In this paper, we propose a diligent domain adaptive mixer (DDAM) for person search (DDAP-PS) framework that aims to bridge a gap to improve knowledge transfer from the labeled source domain to the unlabeled target domain. Specifically, we introduce a novel DDAM module that generates moderate mixed-domain representations by combining source and target domain representations. The proposed DDAM module encourages domain mixing to minimize the distance between the two extreme domains, thereby enhancing the ReID task. To achieve this, we introduce two bridge losses and a disparity loss. The objective of the two bridge losses is to guide the moderate mixed-domain representations to maintain an appropriate distance from both the source and target domain representations. The disparity loss aims to prevent the moderate mixed-domain representations from being biased towards either the source or target domains, thereby avoiding overfitting. Furthermore, we address the conflict between the two subtasks, localization and ReID, during domain adaptation. To handle this cross-task conflict, we forcefully decouple the norm-aware embedding, which aids in better learning of the moderate mixed-domain representation. We conduct experiments to validate the effectiveness of our proposed method. Our approach demonstrates favorable performance on the challenging PRW and CUHK-SYSU datasets. Our source code is publicly available at \url{https://github.com/mustansarfiaz/DDAM-PS}. | 翻訳日:2023-11-01 13:40:18 公開日:2023-10-31 |
# 2発レコメンデータ探索のための最遠のグリーディパスサンプリング Farthest Greedy Path Sampling for Two-shot Recommender Search ( http://arxiv.org/abs/2310.20705v1 ) ライセンス: Link先を確認 | Yufan Cao, Tunhou Zhang, Wei Wen, Feng Yan, Hai Li, Yiran Chen | (参考訳) ウェイトシェアリングニューラルアーキテクチャサーチ(WS-NAS)は、エンドツーエンドのディープレコメンデータモデルを開発するための効率的なメカニズムを提供する。
しかし、複雑な探索空間では、上位のアーキテクチャと下位のアーキテクチャ(あるいはパス)の区別が難しい。
この課題は、スーパーネットの限られた範囲とサブネット重量の共適応によって複雑化され、重量共有機構に固有の探索と利用能力が制限される。
これらの課題に対処するために、パス品質と多様性のバランスをとる新しい経路サンプリング戦略であるFarthest Greedy Path Smpling (FGPS)を導入する。
FGPSはパスの多様性を高め、より包括的なスーパーネット探索を促進するとともに、パス品質を強調し、将来的なアーキテクチャの効果的な識別と利用を保証する。
FGPSを2ショットNAS(Two-shot NAS)フレームワークに組み込むことで、高性能アーキテクチャを導出する。
CTR(Click-Through Rate)予測ベンチマークによる評価から,本手法は手動設計モデルとほとんどのNASモデルよりも優れた結果が得られることが示された。 Weight-sharing Neural Architecture Search (WS-NAS) provides an efficient mechanism for developing end-to-end deep recommender models. However, in complex search spaces, distinguishing between superior and inferior architectures (or paths) is challenging. This challenge is compounded by the limited coverage of the supernet and the co-adaptation of subnet weights, which restricts the exploration and exploitation capabilities inherent to weight-sharing mechanisms. To address these challenges, we introduce Farthest Greedy Path Sampling (FGPS), a new path sampling strategy that balances path quality and diversity. FGPS enhances path diversity to facilitate more comprehensive supernet exploration, while emphasizing path quality to ensure the effective identification and utilization of promising architectures. By incorporating FGPS into a Two-shot NAS (TS-NAS) framework, we derive high-performance architectures. Evaluations on three Click-Through Rate (CTR) prediction benchmarks demonstrate that our approach consistently achieves superior results, outperforming both manually designed and most NAS-based models. | 翻訳日:2023-11-01 13:39:50 公開日:2023-10-31 |
# 限定データと無制限ポテンシャル:マスク付きオートエンコーダによるvits拡張に関する研究 Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked Autoencoders ( http://arxiv.org/abs/2310.20704v1 ) ライセンス: Link先を確認 | Srijan Das, Tanmay Jain, Dominick Reilly, Pranav Balaji, Soumyajit Karmakar, Shyam Marjit, Xiang Li, Abhijit Das, and Michael Ryoo | (参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいてユビキタスになった。
彼らの成功にもかかわらず、ViTには誘導バイアスがないため、限られたデータでトレーニングすることは難しい。
この課題に対処するために、先行研究では、自己教師付き学習(SSL)と微調整を順次行うViTのトレーニングを提案する。
しかし,訓練データの量に制限がある場合には,主タスクと自己監督補助タスク(SSAT)を共同最適化することは驚くほど有益である。
我々は、主要なタスクと並行して最適化できる適切なSSLタスク、これらのタスクのトレーニングスキーム、そしてそれらが最も効果的であるデータスケールについて検討する。
以上の結果から,SSATは自己教師型タスクとプライマリタスクの両方の特長を活用できる強力な技術であり,SSLの事前トレーニングや微調整による微調整よりも優れた性能を実現していることがわかった。
実験では, 炭素フットプリントを低減しつつ, SSAT が ViT 性能を大幅に向上することを示した。
また,ビデオ領域におけるSSATの有効性を確認し,その一般化性を示す。
私たちのコードはhttps://github.com/dominickrei/limited-data-vitsで利用可能です。 Vision Transformers (ViTs) have become ubiquitous in computer vision. Despite their success, ViTs lack inductive biases, which can make it difficult to train them with limited data. To address this challenge, prior studies suggest training ViTs with self-supervised learning (SSL) and fine-tuning sequentially. However, we observe that jointly optimizing ViTs for the primary task and a Self-Supervised Auxiliary Task (SSAT) is surprisingly beneficial when the amount of training data is limited. We explore the appropriate SSL tasks that can be optimized alongside the primary task, the training schemes for these tasks, and the data scale at which they can be most effective. Our findings reveal that SSAT is a powerful technique that enables ViTs to leverage the unique characteristics of both the self-supervised and primary tasks, achieving better performance than typical ViTs pre-training with SSL and fine-tuning sequentially. Our experiments, conducted on 10 datasets, demonstrate that SSAT significantly improves ViT performance while reducing carbon footprint. We also confirm the effectiveness of SSAT in the video domain for deepfake detection, showcasing its generalizability. Our code is available at https://github.com/dominickrei/Limited-data-vits. | 翻訳日:2023-11-01 13:39:29 公開日:2023-10-31 |
# 言語モデルの強化微調整における消失勾配 Vanishing Gradients in Reinforcement Finetuning of Language Models ( http://arxiv.org/abs/2310.20703v1 ) ライセンス: Link先を確認 | Noam Razin, Hattie Zhou, Omid Saremi, Vimal Thilak, Arwen Bradley, Preetum Nakkiran, Joshua Susskind, Etai Littwin | (参考訳) 事前訓練された言語モデルは、ポリシー勾配アルゴリズムを用いて(おそらく学習された)報酬関数を最大化する強化微調整(RFT)によって、人間の好みや下流タスクに合わせるのが一般的である。
この研究は、RFTにおける基本的な最適化の障害を浮き彫りにしている: モデルの下での報酬標準偏差が小さくても、入力の期待勾配が消えることを証明する。
RFTベンチマークと制御された環境の実験、および理論的解析を通じて、小さな報酬標準偏差による失効勾配が一般的かつ有害であることを示し、非常に低い報酬最大化をもたらす。
最後に、RFTにおける消滅する勾配を克服する方法を検討する。
我々は,初期教師付き微調整(SFT)フェーズが最も有望な候補であることに気付き,RFTパイプラインにおけるその重要性に光を当てる。
さらに,入力サンプルの1%に留まらず,比較的少数のSFT最適化ステップが十分であることを示すとともに,初期SFTフェーズは計算やデータラベリングにおいて高価でなくてもよいことを示す。
以上の結果から,評価基準偏差によって期待される勾配が消える入力に対して注意が必要であることが,RTTの実行を成功させる上で重要であることが示唆された。 Pretrained language models are commonly aligned with human preferences and downstream tasks via reinforcement finetuning (RFT), which entails maximizing a (possibly learned) reward function using policy gradient algorithms. This work highlights a fundamental optimization obstacle in RFT: we prove that the expected gradient for an input vanishes when its reward standard deviation under the model is small, even if the expected reward is far from optimal. Through experiments on an RFT benchmark and controlled environments, as well as a theoretical analysis, we then demonstrate that vanishing gradients due to small reward standard deviation are prevalent and detrimental, leading to extremely slow reward maximization. Lastly, we explore ways to overcome vanishing gradients in RFT. We find the common practice of an initial supervised finetuning (SFT) phase to be the most promising candidate, which sheds light on its importance in an RFT pipeline. Moreover, we show that a relatively small number of SFT optimization steps on as few as 1% of the input samples can suffice, indicating that the initial SFT phase need not be expensive in terms of compute and data labeling efforts. Overall, our results emphasize that being mindful for inputs whose expected gradient vanishes, as measured by the reward standard deviation, is crucial for successful execution of RFT. | 翻訳日:2023-11-01 13:39:07 公開日:2023-10-31 |
# SEINE: 生成遷移と予測のための短時間ビデオ拡散モデル SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction ( http://arxiv.org/abs/2310.20700v1 ) ライセンス: Link先を確認 | Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu | (参考訳) 近年,映像生成はリアルな結果でかなりの進歩を遂げている。
それでも、既存のAI生成ビデオは、通常、単一のシーンを描いた非常に短いクリップ(ショットレベル)である。
コヒーレントなロングビデオ(ストーリーレベル)を提供するには、異なるクリップ間で創造的な遷移と予測効果を持つことが望ましい。
本稿では,生成的遷移と予測に着目した短いビデオ拡散モデルであるseineを提案する。
目標は、シーン間のスムーズでクリエイティブなトランジションと、ショットレベルのさまざまな長さのビデオを生成することだ。
具体的には,テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
さまざまなシーンの画像を入力として提供し,テキストベースの制御と組み合わせることで,コヒーレンスと視覚的品質を保証するトランジッションビデオを生成する。
さらに、このモデルは画像間アニメーションや自動回帰ビデオ予測といった様々なタスクに容易に拡張できる。
新たな生成タスクを包括的に評価するために,時間的整合性,意味的類似性,ビデオテキストのセマンティックアライメントの3つの評価基準を提案する。
広範な実験により,既存手法による生成的遷移と予測の有効性が検証され,ストーリーレベルのロングビデオの作成が可能となった。
プロジェクトページ: https://vchitect.github.io/SEINE-project/。 Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips ("shot-level") depicting a single scene. To deliver a coherent long video ("story-level"), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ . | 翻訳日:2023-11-01 13:38:43 公開日:2023-10-31 |
# ベイズ型多状態ベネット受入比法 Bayesian Multistate Bennett Acceptance Ratio Methods ( http://arxiv.org/abs/2310.20699v1 ) ライセンス: Link先を確認 | Xinqiang Ding | (参考訳) 多状態ベネット受容比(MBAR)法は熱力学状態のエネルギーを計算するための一般的な手法である。
本稿では,MBAR法のベイズ一般化であるBayesMBARを紹介する。
熱力学状態からサンプリングされた構成と事前分布を統合することにより、ベイズMBARは自由エネルギーの後方分布を計算する。
後方分布を用いて自由エネルギー推定を導出し,それらの不確実性を計算する。
特に、均一な事前分布を使用する場合、BayesMBARはMBARの結果を回復するが、より正確な不確実性推定を提供する。
さらに、自由エネルギーに関する事前知識が利用可能であれば、非一様事前分布を用いてこの情報を推定手順に組み込むことができる。
例えば、自由エネルギー表面の滑らかさに関する事前の知識を取り入れることで、BayesMBARはMBAR法よりも正確な推定値を提供することを示す。
MBARが自由エネルギー計算に広く使われていることを考えると、ベイズMBARは自由エネルギー計算の様々な応用に欠かせないツールであると予想する。 The multistate Bennett acceptance ratio (MBAR) method is a prevalent approach for computing free energies of thermodynamic states. In this work, we introduce BayesMBAR, a Bayesian generalization of the MBAR method. By integrating configurations sampled from thermodynamic states with a prior distribution, BayesMBAR computes a posterior distribution of free energies. Using the posterior distribution, we derive free energy estimations and compute their associated uncertainties. Notably, when a uniform prior distribution is used, BayesMBAR recovers the MBAR's result but provides more accurate uncertainty estimates. Additionally, when prior knowledge about free energies is available, BayesMBAR can incorporate this information into the estimation procedure by using non-uniform prior distributions. As an example, we show that, by incorporating the prior knowledge about the smoothness of free energy surfaces, BayesMBAR provides more accurate estimates than the MBAR method. Given MBAR's widespread use in free energy calculations, we anticipate BayesMBAR to be an essential tool in various applications of free energy calculations. | 翻訳日:2023-11-01 13:38:22 公開日:2023-10-31 |
# テキストトランスポート:自然言語の因果効果の学習に向けて Text-Transport: Toward Learning Causal Effects of Natural Language ( http://arxiv.org/abs/2310.20697v1 ) ライセンス: Link先を確認 | Victoria Lin, Louis-Philippe Morency, Eli Ben-Michael | (参考訳) 言語技術が現実世界の環境において顕著になるにつれて、言語の変化が読者の知覚に与える影響を理解することが重要である。
これは、テキストに対する読者の反応に言語的属性(例えば感情)を変化させる因果効果として定式化することができる。
本稿では,任意のテキスト分布下で自然言語から因果効果を推定する手法であるtext-transportを提案する。
現在の有効な因果効果推定のアプローチでは、データに対する強い仮定が必要であり、それは、正当な因果効果を推定できるデータは、しばしば実際の対象領域を代表しないことを意味する。
この問題に対処するために、分布シフトの概念を活用して、ターゲット領域における強い仮定の必要性を回避し、ドメイン間の因果効果を伝達する推定器を記述する。
我々は,この推定器の不確実性に関する統計的保証を導出し,データ設定におけるテキスト転送の有効性を裏付ける実験結果と分析結果を報告する。
最後に,テキストトランスポートを用いて,自然言語における因果推論を行う場合の移動の必要性を実証し,因果効果がテキスト領域間で著しく変化するような,ソーシャルメディア上での現実的な設定-ハイト音声の研究を行う。 As language technologies gain prominence in real-world settings, it is important to understand how changes to language affect reader perceptions. This can be formalized as the causal effect of varying a linguistic attribute (e.g., sentiment) on a reader's response to the text. In this paper, we introduce Text-Transport, a method for estimation of causal effects from natural language under any text distribution. Current approaches for valid causal effect estimation require strong assumptions about the data, meaning the data from which one can estimate valid causal effects often is not representative of the actual target domain of interest. To address this issue, we leverage the notion of distribution shift to describe an estimator that transports causal effects between domains, bypassing the need for strong assumptions in the target domain. We derive statistical guarantees on the uncertainty of this estimator, and we report empirical results and analyses that support the validity of Text-Transport across data settings. Finally, we use Text-Transport to study a realistic setting--hate speech on social media--in which causal effects do shift significantly between text domains, demonstrating the necessity of transport when conducting causal inference on natural language. | 翻訳日:2023-11-01 13:38:06 公開日:2023-10-31 |
# hap:人間中心知覚のための構造認識マスク画像モデリング HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception ( http://arxiv.org/abs/2310.20695v1 ) ライセンス: Link先を確認 | Junkun Yuan, Xinyu Zhang, Hao Zhou, Jian Wang, Zhongwei Qiu, Zhiyin Shao, Shaofeng Zhang, Sifan Long, Kun Kuang, Kun Yao, Junyu Han, Errui Ding, Lanfen Lin, Fei Wu, Jingdong Wang | (参考訳) モデル事前学習は人間中心の知覚に不可欠である。
本稿ではまず,この課題に対する事前学習手法としてマスク付き画像モデリング(MIM)を導入する。
MIMトレーニング戦略を再考すると、人体構造が大きな可能性を秘めていることが明らかとなった。
この知見に触発され、人間の前部である直感的な人間の構造を事前学習に取り入れる。
具体的には,マスクサンプリングプロセスの導出に先立ってこれを用いる。
人間の部分領域に対応する画像パッチは、マスキングの優先度が高い。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
さらに人的特徴を捉えるために,前もって人的部分によって誘導される異なるマスキングビューを,同じ画像に対して密にアライメントする構造不変アライメント損失を提案する。
メソッド全体をHAPと呼びます。
HAPは、単に平易なViTをエンコーダとして使用するだけで、11の人間中心のベンチマークで新しい最先端のパフォーマンスを確立し、1つのデータセットでオンパー結果を生成する。
例えば、HAPは、人物再識別のためのMSMT17で78.1% mAP、歩行者属性認識のためのPA-100Kで86.54% mA、2Dポーズ推定のためのMS COCOで78.2% AP、3Dポーズと形状推定のための3DPWで56.0 PA-MPJPEを達成している。 Model pre-training is essential in human-centric perception. In this paper, we first introduce masked image modeling (MIM) as a pre-training approach for this task. Upon revisiting the MIM training strategy, we reveal that human structure priors offer significant potential. Motivated by this insight, we further incorporate an intuitive human structure prior - human parts - into pre-training. Specifically, we employ this prior to guide the mask sampling process. Image patches, corresponding to human part regions, have high priority to be masked out. This encourages the model to concentrate more on body structure information during pre-training, yielding substantial benefits across a range of human-centric perception tasks. To further capture human characteristics, we propose a structure-invariant alignment loss that enforces different masked views, guided by the human part prior, to be closely aligned for the same image. We term the entire method as HAP. HAP simply uses a plain ViT as the encoder yet establishes new state-of-the-art performance on 11 human-centric benchmarks, and on-par result on one dataset. For example, HAP achieves 78.1% mAP on MSMT17 for person re-identification, 86.54% mA on PA-100K for pedestrian attribute recognition, 78.2% AP on MS COCO for 2D pose estimation, and 56.0 PA-MPJPE on 3DPW for 3D pose and shape estimation. | 翻訳日:2023-11-01 13:37:46 公開日:2023-10-31 |
# 時間エネルギー測定による高次元エンタングルメント認証と量子ステアリング Experimental high-dimensional entanglement certification and quantum steering with time-energy measurements ( http://arxiv.org/abs/2310.20694v1 ) ライセンス: Link先を確認 | Kai-Chi Chang, Murat Can Sarihan, Xiang Cheng, Paul Erker, Andrew Mueller, Maria Spiropulu, Matthew D. Shaw, Boris Korzh, Marcus Huber, and Chee Wei Wong | (参考訳) 高次元の絡み合いは、量子情報処理、量子ビットに基づく量子通信における現在のアプローチの限界を超越するユニークな方法を提供する。
時間周波数qudit状態の生成は、光子数を一定に保ちながら、量子容量を著しく増加させるが、絡み合いの認証の可能な測定に関して重大な課題を生じさせる。
そこで我々は,新しい手法を開発し,24次元の絡み合いと9次元の量子ステアリングの証明を実験的に実証する。
その後、光子対を600kmの繊維を透過する分散状態にし、21次元の絡み合いを証明した。
さらに, ステアリングの不等式を用いて, 半デバイス独立に7次元の絡み合いを証明し, 高次元の絡み合いや量子ステアリングの分散や証明には大きな色分散が障害にならないことを証明した。
我々の高度にスケーラブルなスキームは、商用電気通信光ファイバコンポーネントに基づいており、最近開発された低ジッタ高効率単一光子検出器により、大規模量子情報処理と時間エネルギー測定による高性能・耐雑音性量子通信への新たな経路が開かれる。 High-dimensional entanglement provides unique ways of transcending the limitations of current approaches in quantum information processing, quantum communications based on qubits. The generation of time-frequency qudit states offer significantly increased quantum capacities while keeping the number of photons constant, but pose significant challenges regarding the possible measurements for certification of entanglement. Here, we develop a new scheme and experimentally demonstrate the certification of 24-dimensional entanglement and a 9-dimensional quantum steering. We then subject our photon-pairs to dispersion conditions equivalent to the transmission through 600-km of fiber and still certify 21-dimensional entanglement. Furthermore, we use a steering inequality to prove 7-dimensional entanglement in a semi-device independent manner, proving that large chromatic dispersion is not an obstacle in distributing and certifying high-dimensional entanglement and quantum steering. Our highly scalable scheme is based on commercial telecommunication optical fiber components and recently developed low-jitter high-efficiency single-photon detectors, thus opening new pathways towards advanced large-scale quantum information processing and high-performance, noise-tolerant quantum communications with time-energy measurements | 翻訳日:2023-11-01 13:37:19 公開日:2023-10-31 |
# 誤りから学ぶ: LLMが推論を改善 Learning From Mistakes Makes LLM Better Reasoner ( http://arxiv.org/abs/2310.20689v1 ) ライセンス: Link先を確認 | Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen | (参考訳) 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この能力をさらに改善するために、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
数学の問題を解くのに失敗した人間の学生を考えると、彼はどんな間違いを犯し、どのように修正したかを学ぶだろう。
この誤り駆動学習過程を模倣し、GPT-4によって生成された誤り訂正データ対上のLeMa微細構造LPM。
具体的には,まずまず様々なLCMから不正確な推論経路を収集し,(1)ミスステップの特定,(2)ミスの原因の説明,(3)ミスの修正,そして最終回答の生成にGPT-4を"コレクタ"として利用する。
5つのバックボーンLLMと2つの数学的推論タスクにまたがって、LeMaはCoTデータのみの微調整に比べて一貫して性能を改善している。
印象的なことに、LeMaはWizardMathやMetaMathのような特殊なLLMの恩恵を受けることができ、GSM8Kでは85.4%のパス@1精度、MATHでは27.1%の精度を実現している。
これは、これらの困難なタスクにおいて非実行オープンソースのモデルによって達成されるSOTAのパフォーマンスを上回る。
私たちのコード、データ、モデルはhttps://github.com/microsoft/CodeT.comで公開されます。 Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT. | 翻訳日:2023-11-01 13:36:58 公開日:2023-10-31 |
# 雑音密度符号化プロトコルによるセキュア情報取引における次元的優位性 Dimensional advantage in secure information trading via the noisy dense coding protocol ( http://arxiv.org/abs/2310.20688v1 ) ライセンス: Link先を確認 | Ayan Patra, Rivu Gupta, Tamoghna Das, and Aditi Sen De | (参考訳) セキュリティ機能を持たない量子密度符号化(DC)プロトコルは、単一送信者と単一受信機との間の共有絡みを利用して量子状態に符号化された古典情報の伝送を扱う。
その適切な変種は、2量子ビットの最大絡み合い状態の量子鍵分布(QKD)スキームとして確立され、相補的可観測物の不確実性関係とショアプレスキル絡み合い浄化スキームを利用したセキュリティ証明が確立されている。
高次元システムのためのdcベースのqkdプロトコルを提示し,共有状態が最大絡み合い状態である場合の秘密鍵レートの下限と,ランクの異なる最大絡み合い状態の混合値について報告する。
この分析には、エンコーディング前後のセキュアなキーレートに対するノイズチャネルの影響も含まれている。
ノイズのないシナリオとノイズの多いシナリオの両方において、ノイズに対するプロトコルのロバスト性とともに、鍵レートが寸法とともに増加することを示す。
さらに、DCベースのQKDプロトコルにおける無駄な状態の集合が凸かつコンパクトであることを証明する。 The quantum dense coding (DC) protocol, which has no security feature, deals with the transmission of classical information encoded in a quantum state by using shared entanglement between a single sender and a single receiver. Its appropriate variant has been established as a quantum key distribution (QKD) scheme for shared two-qubit maximally entangled states, with the security proof utilizing the uncertainty relation of complementary observables and the Shor-Preskill entanglement purification scheme. We present the DC-based QKD protocol for higher dimensional systems and report the lower bounds on secret key rate, when the shared state is a two-qudit maximally entangled state, and mixtures of maximally entangled states with different ranks. The analysis also includes the impact of noisy channels on the secure key rates, before and after encoding. In both the noiseless and the noisy scenarios, we demonstrate that the key rate as well as the robustness of the protocol against noise increases with the dimension. Further, we prove that the set of useless states in the DC-based QKD protocol is convex and compact. | 翻訳日:2023-11-01 13:36:33 公開日:2023-10-31 |
# Rydberg原子実験のための制御された散逸 Controlled dissipation for Rydberg atom experiments ( http://arxiv.org/abs/2310.20687v1 ) ライセンス: Link先を確認 | Bleuenn B\'egoc, Giovanni Cicchelli, Sukhjit P. Singh, Francesco Perciavalle, Davide Rossini, Luigi Amico, Oliver Morsch | (参考訳) Rydberg原子実験に制御散逸を加えるための簡単な手法を実証する。
実験では、低温ルビジウム原子を磁気光学トラップで70ドル-s rydberg状態に励起し、同時にリドバーグ状態と短寿命の6ドル-p状態の超微粒子に共鳴結合することで強制散逸を誘発した。
その結果、有効散逸は強度によって変化し、単一の実験サイクルでオン/オフする。 We demonstrate a simple technique for adding controlled dissipation to Rydberg atom experiments. In our experiments we excite cold rubidium atoms in a magneto-optical trap to $70$-S Rydberg states whilst simultaneously inducing forced dissipation by resonantly coupling the Rydberg state to a hyperfine level of the short-lived $6$-P state. The resulting effective dissipation can be varied in strength and switched on and off during a single experimental cycle. | 翻訳日:2023-11-01 13:36:11 公開日:2023-10-31 |
# オープンサイエンスのためのai: 倫理的にデータを知識に翻訳するマルチエージェント視点 AI for Open Science: A Multi-Agent Perspective for Ethically Translating Data to Knowledge ( http://arxiv.org/abs/2310.18852v2 ) ライセンス: Link先を確認 | Chase Yakaboski, Gregory Hyde, Clement Nyanhongo and Eugene Santos Jr | (参考訳) ai for science(ai4science)は、特に自動運転研究所という形で、人間の関与を回避し、より広いコミュニティで科学的発見を妨げる可能性がある。
これまでの研究では、AIアプリケーションの責任あるデプロイの確保、セキュリティの強化、解釈可能性の確保に重点を置いていたが、AI4Science発見のオープン化を促進することも慎重に検討すべきだ、と提案している。
本稿では、オープンサイエンスのためのai(ai4os)の概念を、単一の組織単位ではなく、科学企業全体でオープンナレッジ翻訳を最大化するコア原則として、ai4scienceのマルチエージェント拡張として紹介する。
我々は、知識発見とデータマイニング(KDD)の確立した原則を使用して、AI4OSに関する言語を形式化します。
次に、AI4Scienceシステムに埋め込まれた知識翻訳の3つの基本段階と、AI4OSの代替となるオープン性を適用するための具体的なポイントについて論じる。
最後に、AI4OSを評価するための理論的基準を定式化し、その重要性を強調する倫理的議論を支援する。
私たちの目標は、AI4OSに注意を向けることで、AI4Science(例えば、自動運転ラボ)の自然な結果が、開発者だけでなく、社会全体にとっても利益であることを保証することです。 AI for Science (AI4Science), particularly in the form of self-driving labs, has the potential to sideline human involvement and hinder scientific discovery within the broader community. While prior research has focused on ensuring the responsible deployment of AI applications, enhancing security, and ensuring interpretability, we also propose that promoting openness in AI4Science discoveries should be carefully considered. In this paper, we introduce the concept of AI for Open Science (AI4OS) as a multi-agent extension of AI4Science with the core principle of maximizing open knowledge translation throughout the scientific enterprise rather than a single organizational unit. We use the established principles of Knowledge Discovery and Data Mining (KDD) to formalize a language around AI4OS. We then discuss three principle stages of knowledge translation embedded in AI4Science systems and detail specific points where openness can be applied to yield an AI4OS alternative. Lastly, we formulate a theoretical metric to assess AI4OS with a supporting ethical argument highlighting its importance. Our goal is that by drawing attention to AI4OS we can ensure the natural consequence of AI4Science (e.g., self-driving labs) is a benefit not only for its developers but for society as a whole. | 翻訳日:2023-11-01 11:49:59 公開日:2023-10-31 |
# Ziya-Visual:マルチタスクインストラクションチューニングによるバイリンガル大視野モデル Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning ( http://arxiv.org/abs/2310.08166v3 ) ライセンス: Link先を確認 | Junyu Lu, Dixiang Zhang, Xiaojun Wu, Xinyu Gao, Ruyi Gan, Jiaxing Zhang, Yan Song, Pingjian Zhang | (参考訳) 近年,画像からテキストへのゼロショット生成やマルチモーダル入力の統合による理解において,大規模言語モデル(LLM)の機能向上が進んでいる。
しかし、このような成功は、大規模で高品質の非英語のマルチモーダルリソースが不足しているため、英語のシナリオに限られており、他の言語との競合を確立することは極めて困難である。
本稿では,マルチモーダル対話のための視覚意味論をLLMに組み込んだバイリンガルな大規模視覚言語モデル(LVLM)であるZiya-Visualシリーズを紹介する。
ziya-visual-baseとziya-visual-chatで構成され、blip-2からのクエリ変換を採用し、命令チューニング、マルチステージトレーニング、視覚言語アライメントのための低ランク適応モジュールといった最適化スキームの支援をさらに探っている。
さらに,マルチモーダルシナリオにおけるGPT-4の理解能力の向上,収集した英語画像テキストデータセットを中国語に翻訳し,インコンテクスト学習手法による命令応答を生成する。
実験の結果、既存のLVLMと比較して、Ziya-Visualはゼロショット画像テキスト検索、画像キャプション、視覚的質問応答など、幅広い英語のみのタスクで競争力を発揮することがわかった。
GPT-4でアクセスされた評価リーダーボードは,中国のマルチモーダルシナリオ対話において,良好な画像テキスト理解と生成能力を有することを示す。
コード、デモ、モデルは ~\url{https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1} で入手できる。 Recent advancements enlarge the capabilities of large language models (LLMs) in zero-shot image-to-text generation and understanding by integrating multi-modal inputs. However, such success is typically limited to English scenarios due to the lack of large-scale and high-quality non-English multi-modal resources, making it extremely difficult to establish competitive counterparts in other languages. In this paper, we introduce the Ziya-Visual series, a set of bilingual large-scale vision-language models (LVLMs) designed to incorporate visual semantics into LLM for multi-modal dialogue. Composed of Ziya-Visual-Base and Ziya-Visual-Chat, our models adopt the Querying Transformer from BLIP-2, further exploring the assistance of optimization schemes such as instruction tuning, multi-stage training and low-rank adaptation module for visual-language alignment. In addition, we stimulate the understanding ability of GPT-4 in multi-modal scenarios, translating our gathered English image-text datasets into Chinese and generating instruction-response through the in-context learning method. The experiment results demonstrate that compared to the existing LVLMs, Ziya-Visual achieves competitive performance across a wide range of English-only tasks including zero-shot image-text retrieval, image captioning, and visual question answering. The evaluation leaderboard accessed by GPT-4 also indicates that our models possess satisfactory image-text understanding and generation capabilities in Chinese multi-modal scenario dialogues. Code, demo and models are available at ~\url{https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1}. | 翻訳日:2023-11-01 11:49:33 公開日:2023-10-31 |
# サンプル複雑性とラストイテレート収束を改善したゼロサム線形二次ゲーム学習 Learning Zero-Sum Linear Quadratic Games with Improved Sample Complexity and Last-Iterate Convergence ( http://arxiv.org/abs/2309.04272v3 ) ライセンス: Link先を確認 | Jiduan Wu and Anas Barakat and Ilyas Fatkhullin and Niao He | (参考訳) Zero-sum Linear Quadratic (LQ)ゲームは最適制御の基本であり、使用できる
(i)〜リスク感受性またはロバスト制御のための動的ゲーム定式化と
(ii)~連続状態制御空間における2つの競合エージェントによるマルチエージェント強化学習のベンチマーク設定。
良く研究された単エージェント線型二次規制問題とは対照的に、ゼロサムのLQゲームは、保磁力に欠ける目的関数を持つ挑戦的な非凸非凸 min-max 問題を解く。
Zhangらは最近、有限地平線ゼロサムLQゲームの~$\epsilon$-Nash平衡(NE)が、ポリ$(1/\epsilon)$サンプル複雑性を持つネストされたモデル自由自然ポリシー勾配(NPG)アルゴリズムによって学習可能であることを示した。
本研究では,サンプルの複雑さを数桁削減し,最後の反復値の収束を保証する,より単純なネスト型ゼロ次(zo)アルゴリズムを提案する。
主な結果は2つです。
(i)決定論的設定において、ゼロサムlqゲームのneを求めるネストアルゴリズムに対する最初の大域的ラストイテレート線形収束結果を確立する。
(ii) モデルフリー環境では, 単一点ZO推定器を用いて, a~$\widetilde{\mathcal{O}}(\epsilon^{-2})$サンプル複雑性を確立する。
最終項目収束結果に対し,本分析ではImplicit Regularization(IR)特性と主関数に対する新しい勾配支配条件を利用する。
サンプル複雑性における重要な改善は,よりサンプル効率のよいネストアルゴリズムの設計と,有限ホリゾン設定により付与された構造を利用したゾウ自然勾配推定誤差の微調整による。 Zero-sum Linear Quadratic (LQ) games are fundamental in optimal control and can be used (i)~as a dynamic game formulation for risk-sensitive or robust control and (ii)~as a benchmark setting for multi-agent reinforcement learning with two competing agents in continuous state-control spaces. In contrast to the well-studied single-agent linear quadratic regulator problem, zero-sum LQ games entail solving a challenging nonconvex-nonconcave min-max problem with an objective function that lacks coercivity. Recently, Zhang et al. showed that an~$\epsilon$-Nash equilibrium (NE) of finite horizon zero-sum LQ games can be learned via nested model-free Natural Policy Gradient (NPG) algorithms with poly$(1/\epsilon)$ sample complexity. In this work, we propose a simpler nested Zeroth-Order (ZO) algorithm improving sample complexity by several orders of magnitude and guaranteeing convergence of the last iterate. Our main results are two-fold: (i) in the deterministic setting, we establish the first global last-iterate linear convergence result for the nested algorithm that seeks NE of zero-sum LQ games; (ii) in the model-free setting, we establish a~$\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity using a single-point ZO estimator. For our last-iterate convergence results, our analysis leverages the Implicit Regularization (IR) property and a new gradient domination condition for the primal function. Our key improvements in the sample complexity rely on a more sample-efficient nested algorithm design and a finer control of the ZO natural gradient estimation error utilizing the structure endowed by the finite-horizon setting. | 翻訳日:2023-11-01 11:48:59 公開日:2023-10-31 |
# グルコシンス(GlucoSynth:GlucoSynth:GlucoSynth) GlucoSynth: Generating Differentially-Private Synthetic Glucose Traces ( http://arxiv.org/abs/2303.01621v4 ) ライセンス: Link先を確認 | Josephine Lamp, Mark Derdzinski, Christopher Hannemann, Joost van der Linden, Lu Feng, Tianhao Wang, David Evans | (参考訳) 我々は,高品質でプライベートな合成グルコーストレースを生成するという課題に焦点をあてる。
GAN(Generative Adversarial Networks)のような既存の時系列データ合成手法では、グルコースデータの固有の特性を捉えることができず、合成データの利便性を著しく低下させることなく、正式なプライバシー保証を提供することはできない。
本稿では,合成グルコーストレースを生成するための新しいプライバシ保存ganフレームワークglucosynthを提案する。
このアプローチの背後にある中核的な直感は、時間的ダイナミクスに加えて、トレース内のモチーフ(グルコースイベント)間の関係を保存することである。
我々のフレームワークは、強力な正式なプライバシー保証を提供するために、差分プライバシー機構を組み込んでいる。
glucosynthは、強力なプライバシ保証によって高品質な合成グルコーストレースを生成する能力において、これまでのすべての方法よりも優れています。 We focus on the problem of generating high-quality, private synthetic glucose traces, a task generalizable to many other time series sources. Existing methods for time series data synthesis, such as those using Generative Adversarial Networks (GANs), are not able to capture the innate characteristics of glucose data and cannot provide any formal privacy guarantees without severely degrading the utility of the synthetic data. In this paper we present GlucoSynth, a novel privacy-preserving GAN framework to generate synthetic glucose traces. The core intuition behind our approach is to conserve relationships amongst motifs (glucose events) within the traces, in addition to temporal dynamics. Our framework incorporates differential privacy mechanisms to provide strong formal privacy guarantees. We provide a comprehensive evaluation on the real-world utility of the data using 1.2 million glucose traces; GlucoSynth outperforms all previous methods in its ability to generate high-quality synthetic glucose traces with strong privacy guarantees. | 翻訳日:2023-11-01 11:48:32 公開日:2023-10-31 |
# BERTが失ったパテントは、逆行の減速にロバストにはならない BERT Lost Patience Won't Be Robust to Adversarial Slowdown ( http://arxiv.org/abs/2310.19152v2 ) ライセンス: Link先を確認 | Zachary Coalson, Gabriel Ritter, Rakesh Bobba, Sanghyun Hong | (参考訳) 本稿では,マルチエクイット言語モデルの対向的減速に対する頑健さを体系的に評価する。
その頑健さを監査するため,早退点をバイパスする自然な逆テキストを生成するスローダウン攻撃を設計する。
結果, WAFFLE 攻撃を車体として, GLUE ベンチマークを用いた3つのマルチエクイット機構の総合的な評価を行う。
この攻撃により, ホワイトボックス設定とブラックボックス設定の3つの手法により, 計算コストを大幅に削減できることを示す。
メカニズムが複雑になればなるほど、敵の減速がより脆弱になる。
また、摂動テキスト入力の言語学的解析を行い、攻撃が生み出す共通の摂動パターンを特定し、標準的な敵対的テキスト攻撃と比較する。
さらに,攻撃速度を低下させるには逆行訓練が有効でないことを示すが,ChatGPTのような会話モデルによる入力衛生は摂動を効果的に除去することができる。
この結果は、効率的で堅牢なマルチエクイットモデルを開発するために将来の作業が必要であることを示唆している。
私たちのコードは、https://github.com/ztcoalson/WAFFLEで利用可能です。 In this paper, we systematically evaluate the robustness of multi-exit language models against adversarial slowdown. To audit their robustness, we design a slowdown attack that generates natural adversarial text bypassing early-exit points. We use the resulting WAFFLE attack as a vehicle to conduct a comprehensive evaluation of three multi-exit mechanisms with the GLUE benchmark against adversarial slowdown. We then show our attack significantly reduces the computational savings provided by the three methods in both white-box and black-box settings. The more complex a mechanism is, the more vulnerable it is to adversarial slowdown. We also perform a linguistic analysis of the perturbed text inputs, identifying common perturbation patterns that our attack generates, and comparing them with standard adversarial text attacks. Moreover, we show that adversarial training is ineffective in defeating our slowdown attack, but input sanitization with a conversational model, e.g., ChatGPT, can remove perturbations effectively. This result suggests that future work is needed for developing efficient yet robust multi-exit models. Our code is available at: https://github.com/ztcoalson/WAFFLE | 翻訳日:2023-11-01 10:12:25 公開日:2023-10-31 |
# エフェクトタイピングと線形依存性による回路幅推定(Long Version) Circuit Width Estimation via Effect Typing and Linear Dependency (Long Version) ( http://arxiv.org/abs/2310.19096v2 ) ライセンス: Link先を確認 | Andrea Colledan and Ugo Dal Lago | (参考訳) 回路記述言語(英: circuit description languages)は、プログラムが古典的であり、量子回路の形で量子計算の記述を生成する量子プログラミング言語のクラスである。
これらのプログラムはハイレベルな古典言語の表現力をすべて活用できるため、回路記述言語は複雑で実用的な量子アルゴリズムを記述するのにうまく使われてきたが、その回路は現在の量子アーキテクチャよりも多くの量子ビットやゲートアプリケーションを必要とする可能性がある。
本稿では,プログラムが生成する回路幅のパラメトリックな上限を導出できる線形依存型・効果システムを備えた回路記述言語Proto-Quipper-Rを提案する。
我々は、標準型安全性結果と結果のリソース分析が大きな操作意味論に関して正しいことを証明した。
また,本手法は現実的な量子アルゴリズムを検証するのに十分であることを示す。 Circuit description languages are a class of quantum programming languages in which programs are classical and produce a description of a quantum computation, in the form of a quantum circuit. Since these programs can leverage all the expressive power of high-level classical languages, circuit description languages have been successfully used to describe complex and practical quantum algorithms, whose circuits, however, may involve many more qubits and gate applications than current quantum architectures can actually muster. In this paper, we present Proto-Quipper-R, a circuit description language endowed with a linear dependent type-and-effect system capable of deriving parametric upper bounds on the width of the circuits produced by a program. We prove both the standard type safety results and that the resulting resource analysis is correct with respect to a big-step operational semantics. We also show that our approach is expressive enough to verify realistic quantum algorithms. | 翻訳日:2023-11-01 10:12:07 公開日:2023-10-31 |
# TeacherLM: 魚を贈るよりも魚を教えること、言語モデリングも同じように TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise ( http://arxiv.org/abs/2310.19019v2 ) ライセンス: Link先を確認 | Nan He, Hanyu Lai, Chenyang Zhao, Zirui Cheng, Junting Pan, Ruoyu Qin, Ruofan Lu, Rui Lu, Yunchen Zhang, Gangming Zhao, Zhaohui Hou, Zhiyuan Huang, Shaoqing Lu, Ding Liang, Mingjie Zhan | (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な推論とデータ拡張能力を示す。
しかし、小さなモデルはどうだろう?
そこで本研究では,ほとんどのnlpサンプルに対して,関連する基本,思考の連鎖,よくある誤りを注釈できる教師lm-7.1bを提案する。アノテーションは単なる回答以上のものとなり,他のモデルが単に「何」ではなく「理由」を学ぶことができる。
TeacherLM-7.1BモデルはMMLUで0ショットスコア52.3を獲得し、100B以上のパラメータを持つほとんどのモデルを上回った。
さらに注目すべきは、データ拡張機能だ。
TeacherLM-7.1Bに基づいて58個のNLPデータセットを拡張し,OPTおよびBLOOMシリーズと異なるパラメータの学生モデルをマルチタスク環境で教えた。
実験の結果, 教師が提供したデータ拡張は有意なメリットをもたらした。
TeacherLMシリーズのモデルと拡張データセットをオープンソースとしてリリースします。 Large Language Models (LLMs) exhibit impressive reasoning and data augmentation capabilities in various NLP tasks. However, what about small models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant fundamentals, chain of thought, and common mistakes for most NLP samples, which makes annotation more than just an answer, thus allowing other models to learn "why" instead of just "what". The TeacherLM-7.1B model achieved a zero-shot score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we augmented 58 NLP datasets and taught various student models with different parameters from OPT and BLOOM series in a multi-task setting. The experimental results indicate that the data augmentation provided by TeacherLM has brought significant benefits. We will release the TeacherLM series of models and augmented datasets as open-source. | 翻訳日:2023-11-01 10:11:51 公開日:2023-10-31 |
# 逆関数最適化による行動アライメント Behavior Alignment via Reward Function Optimization ( http://arxiv.org/abs/2310.19007v2 ) ライセンス: Link先を確認 | Dhawal Gupta, Yash Chandak, Scott M. Jordan, Philip S. Thomas, Bruno Castro da Silva | (参考訳) 特定の行動に対する強化学習(RL)エージェントを効率的に導くための報酬関数の設計は複雑な作業である。
スパースのない報酬構造を識別し、望ましくない振る舞いを不注意に誘発することを避ける必要があるため、これは困難である。
より密集した頻繁なフィードバックを提供するために報酬構造を内在的に修正することは意図しない結果をもたらし、設計者の意図した目標に合わない振る舞いを促進する。
潜在的な報酬形成は、しばしば治療として提案されるが、我々は、そのデプロイがパフォーマンスを著しく損なうような設定を体系的に調査する。
これらの問題に対処するために,両レベルの目的を用いて,emph{behavior alignment reward function} を学習する新しいフレームワークを導入する。
これらの機能は、デザイナーのヒューリスティックとドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する。
提案手法は,これらのフィードバックをブレンドする最も効果的な方法を自動的に決定し,ヒューリスティック報酬の誤特定に対する堅牢性を高める。
注目すべきは、エージェントのポリシー最適化プロセスに適応して、基礎となるRLアルゴリズムに固有の制限とバイアスから生じる亜最適性を緩和することもできることである。
本手法は, 小規模実験から高次元制御課題まで, 様々な課題に対して有効性を評価する。
様々な品質のヒューリスティック補助報酬について検討し、その一部は有益であり、他は学習プロセスに有害である。
我々のフレームワークは,設計者が特定したヒューリスティックスを統合するための堅牢で原則的な方法を提供する。
既存のアプローチの重要な欠点に対処するだけでなく、不一致や不特定な補助報酬関数が与えられた場合でも、一貫して高いパフォーマンスのソリューションに繋がる。 Designing reward functions for efficiently guiding reinforcement learning (RL) agents toward specific behaviors is a complex task. This is challenging since it requires the identification of reward structures that are not sparse and that avoid inadvertently inducing undesirable behaviors. Naively modifying the reward structure to offer denser and more frequent feedback can lead to unintended outcomes and promote behaviors that are not aligned with the designer's intended goal. Although potential-based reward shaping is often suggested as a remedy, we systematically investigate settings where deploying it often significantly impairs performance. To address these issues, we introduce a new framework that uses a bi-level objective to learn \emph{behavior alignment reward functions}. These functions integrate auxiliary rewards reflecting a designer's heuristics and domain knowledge with the environment's primary rewards. Our approach automatically determines the most effective way to blend these types of feedback, thereby enhancing robustness against heuristic reward misspecification. Remarkably, it can also adapt an agent's policy optimization process to mitigate suboptimalities resulting from limitations and biases inherent in the underlying RL algorithms. We evaluate our method's efficacy on a diverse set of tasks, from small-scale experiments to high-dimensional control challenges. We investigate heuristic auxiliary rewards of varying quality -- some of which are beneficial and others detrimental to the learning process. Our results show that our framework offers a robust and principled way to integrate designer-specified heuristics. It not only addresses key shortcomings of existing approaches but also consistently leads to high-performing solutions, even when given misaligned or poorly-specified auxiliary reward functions. | 翻訳日:2023-11-01 10:11:37 公開日:2023-10-31 |
# DynPoint:ビュー合成のための動的ニューラルポイント DynPoint: Dynamic Neural Point For View Synthesis ( http://arxiv.org/abs/2310.18999v2 ) ライセンス: Link先を確認 | Kaichen Zhou, Jia-Xing Zhong, Sangyun Shin, Kai Lu, Yiyuan Yang, Andrew Markham, Niki Trigoni | (参考訳) 神経放射場の導入により、単眼ビデオにおけるビュー合成の有効性が大幅に向上した。
しかし、既存のアルゴリズムは制御されていないシナリオや長いシナリオを扱う際に困難に直面し、新しいシナリオごとに広範なトレーニング時間を必要とする。
このような制約に対処するために,制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムDynPointを提案する。
シナリオ情報の全体を潜在表現にエンコードする代わりに、DynPointは近隣フレーム間の明示的な3D対応を予測して情報集約を実現する。
具体的には、フレーム間の一貫した深さとシーンフロー情報の推定により、この対応予測を実現する。
その後、階層的なニューラルポイントクラウドを構築して、取得した対応を利用して、複数の参照フレームからターゲットフレームへの情報を集約する。
結果として得られるフレームワークは、ターゲットフレームの望ましいビューに対して、迅速かつ正確なビュー合成を可能にする。
実験の結果,提案手法で得られた訓練時間の相当な加速(典型的には桁違い)を実証し,先行手法と比較した結果を得た。
また,ビデオコンテンツの正準表現を学習することなく,長命映像の処理に強いロバスト性を示す。 The introduction of neural radiance fields has greatly improved the effectiveness of view synthesis for monocular videos. However, existing algorithms face difficulties when dealing with uncontrolled or lengthy scenarios, and require extensive training time specific to each new scenario. To tackle these limitations, we propose DynPoint, an algorithm designed to facilitate the rapid synthesis of novel views for unconstrained monocular videos. Rather than encoding the entirety of the scenario information into a latent representation, DynPoint concentrates on predicting the explicit 3D correspondence between neighboring frames to realize information aggregation. Specifically, this correspondence prediction is achieved through the estimation of consistent depth and scene flow information across frames. Subsequently, the acquired correspondence is utilized to aggregate information from multiple reference frames to a target frame, by constructing hierarchical neural point clouds. The resulting framework enables swift and accurate view synthesis for desired views of target frames. The experimental results obtained demonstrate the considerable acceleration of training time achieved - typically an order of magnitude - by our proposed method while yielding comparable outcomes compared to prior approaches. Furthermore, our method exhibits strong robustness in handling long-duration videos without learning a canonical representation of video content. | 翻訳日:2023-11-01 10:11:08 公開日:2023-10-31 |
# 社会的相互作用を考慮した自動車の動的モデルと意思決定 Social Interaction-Aware Dynamical Models and Decision Making for Autonomous Vehicles ( http://arxiv.org/abs/2310.18891v2 ) ライセンス: Link先を確認 | Luca Crosato, Kai Tian, Hubert P. H Shum, Edmond S. L. Ho, Yafei Wang, Chongfeng Wei | (参考訳) インタラクション対応自動運転(Interaction-Aware Autonomous Driving, IAAD)は、人間の道路利用者と安全かつ効率的に対話できる自動運転車(AV)の開発に焦点を当てた、急速に成長する研究分野である。
これは、自動運転車が人間の道路利用者の行動を理解し予測できることを要求するため、困難な作業である。
本稿では,IAAD研究の現状を概観する。
専門用語の検証を通じて、ドライバーや歩行者の行動をモデル化するための課題や既存のモデルに注意が向けられる。
次に、インタラクションモデリング、認知手法、機械学習アプローチ、ゲーム理論手法を含む様々な手法について包括的なレビューを行う。
この結論は、IAADに関連する潜在的な利点とリスクに関する議論と、今後の探査を必要とする重要な研究の照明を通じて達成される。 Interaction-aware Autonomous Driving (IAAD) is a rapidly growing field of research that focuses on the development of autonomous vehicles (AVs) that are capable of interacting safely and efficiently with human road users. This is a challenging task, as it requires the autonomous vehicle to be able to understand and predict the behaviour of human road users. In this literature review, the current state of IAAD research is surveyed in this work. Commencing with an examination of terminology, attention is drawn to challenges and existing models employed for modelling the behaviour of drivers and pedestrians. Next, a comprehensive review is conducted on various techniques proposed for interaction modelling, encompassing cognitive methods, machine learning approaches, and game-theoretic methods. The conclusion is reached through a discussion of potential advantages and risks associated with IAAD, along with the illumination of pivotal research inquiries necessitating future exploration. | 翻訳日:2023-11-01 10:10:49 公開日:2023-10-31 |
# 大規模言語モデルに基づくText-to-SQL, Text-to-Python, Text-to-Functionのリブートとトラフィック領域への応用 Reboost Large Language Model-based Text-to-SQL, Text-to-Python, and Text-to-Function -- with Real Applications in Traffic Domain ( http://arxiv.org/abs/2310.18752v2 ) ライセンス: Link先を確認 | Guanghu Sui, Zhishuai Li, Ziyue Li, Sun Yang, Jingqing Ruan, Hangyu Mao, Rui Zhao | (参考訳) これまでのSOTA(State-of-the-art)メソッドは、Text-to-SQLドメインで最大かつ最も多様なデータセットの1つであるSpiderデータセット上で、顕著な実行精度を達成した。
しかし、ビジネスデータセットの再生中に、パフォーマンスが大幅に低下するのを観察しました。
データセットの複雑さの違いと質問の意図の明確さについて検討し,これらの違いがプロンプト手法の性能に与える影響について検討した。
次に,クエリの書き直しとSQLの強化を主眼とする,より適応的で汎用的なプロンプト手法を開発し,曖昧な情報を正確かつ正確な情報に変換し,データベースコンテンツからの実行フィードバックとクエリ結果を統合することでSQL自体を強化する。
情報ギャップを防ぐために、プロンプト内のデータベース記述の一部として、列に対するコメント、値タイプ、値サンプルを含めます。
大規模言語モデル(llm)を用いた実験では、ビジネスデータセットにおける大幅なパフォーマンス改善と、メソッドの実質的な可能性を示す。
ビジネスデータセットの実行精度については,SOTA法が21.05,我々のアプローチが65.79であった。
その結果,未熟な事前学習言語モデルを用いた場合においても,優れた性能向上が達成できた。
最後に、私たちはText-to-PythonとText-to-Functionのオプションについても検討しています。 The previous state-of-the-art (SOTA) method achieved a remarkable execution accuracy on the Spider dataset, which is one of the largest and most diverse datasets in the Text-to-SQL domain. However, during our reproduction of the business dataset, we observed a significant drop in performance. We examined the differences in dataset complexity, as well as the clarity of questions' intentions, and assessed how those differences could impact the performance of prompting methods. Subsequently, We develop a more adaptable and more general prompting method, involving mainly query rewriting and SQL boosting, which respectively transform vague information into exact and precise information and enhance the SQL itself by incorporating execution feedback and the query results from the database content. In order to prevent information gaps, we include the comments, value types, and value samples for columns as part of the database description in the prompt. Our experiments with Large Language Models (LLMs) illustrate the significant performance improvement on the business dataset and prove the substantial potential of our method. In terms of execution accuracy on the business dataset, the SOTA method scored 21.05, while our approach scored 65.79. As a result, our approach achieved a notable performance improvement even when using a less capable pre-trained language model. Last but not least, we also explore the Text-to-Python and Text-to-Function options, and we deeply analyze the pros and cons among them, offering valuable insights to the community. | 翻訳日:2023-11-01 10:10:33 公開日:2023-10-31 |
# 未特定視覚課題におけるショートカットの緩和のための拡散不整合表現の活用 Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts in Underspecified Visual Tasks ( http://arxiv.org/abs/2310.02230v3 ) ライセンス: Link先を確認 | Luca Scimeca, Alexander Rubinstein, Armand Mihai Nicolicioiu, Damien Teney and Yoshua Bengio | (参考訳) 複数の手がかりがターゲットラベルを予測しているデータにおける散発的な相関は、しばしば近距離学習現象につながり、モデルが信頼できるものを無視しながら、誤った、分かりやすい手がかりに依存する可能性がある。
本研究では,拡散確率モデル(dpms)を用いた合成反事実生成を利用したアンサンブル多様化フレームワークを提案する。
DPMは、トレーニングデータに大きく相関している場合でも、複数の視覚的手がかりを独立して表現できる固有の能力を持っていることがわかった。
この特徴を利用して、モデルの多様性を奨励し、いくつかの多様化目標に対するアプローチの有効性を実証的に示す。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成できることを示す。 Spurious correlations in the data, where multiple cues are predictive of the target labels, often lead to shortcut learning phenomena, where a model may rely on erroneous, easy-to-learn, cues while ignoring reliable ones. In this work, we propose an ensemble diversification framework exploiting the generation of synthetic counterfactuals using Diffusion Probabilistic Models (DPMs). We discover that DPMs have the inherent capability to represent multiple visual cues independently, even when they are largely correlated in the training data. We leverage this characteristic to encourage model diversity and empirically show the efficacy of the approach with respect to several diversification objectives. We show that diffusion-guided diversification can lead models to avert attention from shortcut cues, achieving ensemble diversity performance comparable to previous methods requiring additional data collection. | 翻訳日:2023-11-01 10:09:29 公開日:2023-10-31 |
# 画像キャプションのための様々なコンテキスト内構成の探索 Exploring Diverse In-Context Configurations for Image Captioning ( http://arxiv.org/abs/2305.14800v5 ) ライセンス: Link先を確認 | Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen, Xin Geng | (参考訳) 言語モデル(LM)が文脈内数ショット学習者にとって良いことを発見した後、コンテキスト内シーケンス設定を最適化するための多くの戦略が提案されている。
近年、Vision-Language(VL)ドメインの研究者たちは、最も単純な方法であるieしか使用せずに、数発の学習者も開発している。
テキスト内のイメージとテキストのペアを設定する。
様々な構成がVLインコンテキスト学習に与える影響を検討するために,画像選択のための4つの戦略と,画像キャプションのためのインコンテキスト画像-テキストペアを構成するキャプション代入のための4つの戦略を考案した。
ここでは、視覚条件のLMとして見ることができるため、ケーススタディとして画像キャプションが使用される。
我々の総合的な実験は2つの反直感的だが有意義な洞察を与え、マルチモーダル・シナジーによるVLインコンテキスト学習の特徴をNLPの場合と比較した。
さらに,最適組み合わせ戦略の探索では,ベースラインと比較してCIDErスコアの平均20.9の性能向上が観察された。
コードはhttps://github.com/yongliang-wu/explorecfgで与えられる。 After discovering that Language Models (LMs) can be good in-context few-shot learners, numerous strategies have been proposed to optimize in-context sequence configurations. Recently, researchers in Vision-Language (VL) domains also develop their few-shot learners, while they only use the simplest way, ie., randomly sampling, to configure in-context image-text pairs. In order to explore the effects of varying configurations on VL in-context learning, we devised four strategies for image selection and four for caption assignment to configure in-context image-text pairs for image captioning. Here Image Captioning is used as the case study since it can be seen as the visually-conditioned LM. Our comprehensive experiments yield two counter-intuitive but valuable insights, highlighting the distinct characteristics of VL in-context learning due to multi-modal synergy, as compared to the NLP case. Furthermore, in our exploration of optimal combination strategies, we observed an average performance enhancement of 20.9 of CIDEr scores compared to the baseline. The code is given in https://github.com/yongliang-wu/ExploreCfg. | 翻訳日:2023-11-01 10:09:14 公開日:2023-10-31 |
# アフリカにおけるコンピュータビジョン研究コミュニティのより良い理解に向けて Towards a Better Understanding of the Computer Vision Research Community in Africa ( http://arxiv.org/abs/2305.06773v3 ) ライセンス: Link先を確認 | Abdul-Hakeem Omotayo, Mai Gamal, Eman Ehab, Gbetondji Dovonon, Zainab Akinjobi, Ismaila Lukman, Houcemeddine Turki, Mahmod Abdien, Idriss Tondji, Abigail Oppong, Yvan Pimi, Karim Gamal, Ro'ya-CV4Africa, Mennatullah Siam | (参考訳) コンピュータビジョンは、様々なタスク(例えば、オブジェクト検出)を包含する幅広い研究分野である。
コンピュータビジョンは様々な応用においてアフリカのコミュニティと関係があるが、コンピュータビジョン研究は大陸で未調査であり、過去10年間でトップクラスの出版物の0.06%しか構築していない。
本稿では,アフリカにおけるコンピュータビジョン研究をより深く理解し,研究に株式が存在するか否かの指針を提供することを目標とする。
私たちは、2012年から2022年の間に約63,000の出版物を収集する、アフリカコンピュータビジョン出版物の実証分析を通じてこれを実施しています。
まず、アフリカの機関がトップクラスのコンピュータビジョン会場で出版する機会について調査する。
北米やアジアなど他の大陸と異なり,近年の上位層におけるアフリカの出版動向は一貫した成長を見せていない。
さらに、アフリカ各地の上位の会場を超える全てのコンピュータビジョン出版物を調査し、主に北アフリカと南アフリカが68.5%と15.9%のコンピュータビジョンで出版していることを発見した。
それでも、東アフリカと西アフリカの両方が、過去2年間に南アフリカとのギャップを埋めることで有望な増加を見せていることを強調する。
さらに,これらの出版物におけるコラボレーションのパターンについて検討し,アフリカの出版物よりも国際的な共同作業が盛んであることを示す。
また、これらの出版物の多くは、最初の著者または最後の著者として重要な貢献者であるアフリカ人作家を含んでいることも示している。
最後に,アフリカ地域ごとのコンピュータビジョン出版において,最も反復的なキーワードを示す。 Computer vision is a broad field of study that encompasses different tasks (e.g., object detection). Although computer vision is relevant to the African communities in various applications, yet computer vision research is under-explored in the continent and constructs only 0.06% of top-tier publications in the last ten years. In this paper, our goal is to have a better understanding of the computer vision research conducted in Africa and provide pointers on whether there is equity in research or not. We do this through an empirical analysis of the African computer vision publications that are Scopus indexed, where we collect around 63,000 publications over the period 2012-2022. We first study the opportunities available for African institutions to publish in top-tier computer vision venues. We show that African publishing trends in top-tier venues over the years do not exhibit consistent growth, unlike other continents such as North America or Asia. Moreover, we study all computer vision publications beyond top-tier venues in different African regions to find that mainly Northern and Southern Africa are publishing in computer vision with 68.5% and 15.9% of publications, resp. Nonetheless, we highlight that both Eastern and Western Africa are exhibiting a promising increase with the last two years closing the gap with Southern Africa. Additionally, we study the collaboration patterns in these publications to find that most of these exhibit international collaborations rather than African ones. We also show that most of these publications include an African author that is a key contributor as the first or last author. Finally, we present the most recurring keywords in computer vision publications per African region. | 翻訳日:2023-11-01 10:08:53 公開日:2023-10-31 |